KR101350782B1 - 데이터 샘플링 방법 및 장치 - Google Patents

데이터 샘플링 방법 및 장치 Download PDF

Info

Publication number
KR101350782B1
KR101350782B1 KR20120063086A KR20120063086A KR101350782B1 KR 101350782 B1 KR101350782 B1 KR 101350782B1 KR 20120063086 A KR20120063086 A KR 20120063086A KR 20120063086 A KR20120063086 A KR 20120063086A KR 101350782 B1 KR101350782 B1 KR 101350782B1
Authority
KR
South Korea
Prior art keywords
data
model
interest
comparison
sampling
Prior art date
Application number
KR20120063086A
Other languages
English (en)
Other versions
KR20130139547A (ko
Inventor
유환조
오진오
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR20120063086A priority Critical patent/KR101350782B1/ko
Priority to EP13805079.4A priority patent/EP2863319A4/en
Priority to US14/406,877 priority patent/US20150161231A1/en
Priority to CN201380030639.8A priority patent/CN104350491A/zh
Priority to PCT/KR2013/002700 priority patent/WO2013187587A1/ko
Publication of KR20130139547A publication Critical patent/KR20130139547A/ko
Application granted granted Critical
Publication of KR101350782B1 publication Critical patent/KR101350782B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

데이터 샘플링 방법 및 장치가 개시된다. 본 발명의 일 실시예는, 원 데이터를 기반으로, 사용자의 관심이 반영된 관심 모델을 생성하는 단계, 및 상기 원 데이터를 기반으로 샘플링한 모델과 상기 관심 모델 간을 비교한 결과에 따라, 샘플링 모델을 결정하는 단계를 포함한다. 본 발명에 의하면, 사용자의 관심을 반영한 샘플링 모델을 신속하고 용이하게 획득할 수 있다.

Description

데이터 샘플링 방법 및 장치{METHOD AND APPARATUS FOR SAMPLING DATA}
본 발명은 데이터 샘플링에 관한 것으로, 더욱 상세하게는 원(Raw) 데이터 중 사용자가 원하는 데이터를 샘플링하기 위한 데이터 샘플링 방법에 관한 것이다.
샘플링(Sampling)은 데이터 처리 및 데이터 마이닝(Mining)을 위한 기본적인 기술들 중 하나이며, 이러한 샘플링의 주요 목적은 원 데이터 셋(Raw data set)의 특성을 유지하면서 목적(Target) 데이터 셋의 크기를 줄이는 것이다. 이와 같이, 목적 데이터 셋의 크기를 줄임으로써, 다양한 어플리케이션들(Applications)에서 계산 비용을 감소시킬 수 있다. 또한, 적절한 샘플링 기술의 사용은 데이터 분석 및 데이터 게더링(Gathering)을 위한 어플리케이션의 성능 향상, 비용 감소 등의 추가적인 효과가 있고, 드문-분류(Rare-class) 문제와 네트워크 트래픽 추론(Network traffic inference) 문제 등의 해결책을 제공할 수 있다.
다양한 사용자의 관심을 일반화한 샘플링 방법을 개발하기 어려운 이유 때문에, 일반적으로, 샘플링 방법은 특정 문제 및 특정 사용자의 관심에 따라 독립적으로 개발되었다. 이와 같이, 샘플링을 위해 일반화된 프레임워크(Framework)의 부재로 인하여, 연구원들은 샘플링 방법의 개발과 개발한 샘플링 방법의 입증을 위해 반복적인 작업을 수행하였고, 이러한 샘플링 방법 개발의 비효율성으로 인하여 적절한 샘플링 방법을 개발하기 어려운 문제점이 있었다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 사용자의 관심을 반영한 샘플링 결과를 획득하기 위한 데이터 샘플링 방법을 제공하는 데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 사용자의 관심을 반영한 샘플링 결과를 획득하기 위한 데이터 샘플링 장치를 제공하는 데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예는, 원 데이터를 기반으로, 사용자의 관심이 반영된 관심 모델을 생성하는 단계, 및 상기 원 데이터를 기반으로 샘플링한 모델과 상기 관심 모델 간을 비교한 결과에 따라, 샘플링 모델을 결정하는 단계를 포함한다.
여기서, 상기 관심 모델을 생성하는 단계는, 사용자의 관심을 기반으로, 상기 원 데이터에 포함된 요소들을 복수의 데이터 모임으로 분류하는 단계, 상기 복수의 데이터 모임에 포함된 적어도 하나의 요소 간의 비율에 따라, 상기 복수의 데이터 모임의 가중치를 산출하는 단계, 상기 데이터 모임을 사용자의 관심에 따라 정의되는 노드로 변경하는 단계, 및 복수의 상기 노드 간의 거리를 산출하는 단계를 포함할 수 있다.
여기서, 상기 샘플링 모델을 결정하는 단계는, 상기 원 데이터에 포함된 요소들을 기반으로, 복수의 비교 모델을 생성하는 단계, 상기 관심 모델과 상기 복수의 비교 모델 간의 거리를 산출하는 단계, 및 산출한 거리 중 미리 정의된 기준을 만족하는 거리를 가지는 비교 모델을 샘플링 모델로 결정하는 단계를 포함할 수 있다.
여기서, 상기 복수의 비교 모델을 생성하는 단계는, 상기 원 데이터에 포함된 요소들을 상기 관심 모델과 동일한 상기 복수의 데이터 모임으로 분류하는 단계, 상기 복수의 데이터 모임에 포함된 적어도 하나의 요소를 기반으로, 복수의 비교 데이터 모임을 생성하는 단계, 상기 비교 데이터 모임을 사용자의 관심에 따라 정의되는 비교 노드로 변경하는 단계, 복수의 상기 비교 노드에 포함된 적어도 하나의 요소 간의 비율에 따라, 복수의 상기 비교 노드의 가중치를 산출하는 단계, 및 복수의 상기 비교 노드 간의 거리를 산출하는 단계를 포함할 수 있다.
상기 다른 목적을 달성하기 위한 본 발명의 일 실시예는, 원 데이터를 기반으로, 사용자의 관심이 반영된 관심 모델을 생성하는 제1 생성부, 상기 원 데이터에 포함된 요소들을 기반으로, 복수의 비교 모델을 생성하는 제2 생성부, 및 상기 관심 모델과 상기 복수의 비교 모델 간을 비교한 결과에 따라, 샘플링 모델을 결정하는 결정부를 포함한다.
여기서, 상기 제1 생성부는, 사용자의 관심을 기반으로 상기 원 데이터에 포함된 요소들을 복수의 데이터 모임으로 분류하고, 상기 복수의 데이터 모임에 포함된 적어도 하나의 요소 간의 비율에 따라 상기 복수의 데이터 모임의 가중치를 산출하고, 상기 데이터 모임을 사용자의 관심에 따라 정의되는 노드로 변경하고, 복수의 상기 노드 간의 거리를 산출할 수 있다.
여기서, 상기 제2 생성부는, 상기 원 데이터에 포함된 요소들을 상기 관심 모델과 동일한 상기 복수의 데이터 모임으로 분류하고, 상기 복수의 데이터 모임에 포함된 적어도 하나의 요소를 기반으로 복수의 비교 데이터 모임을 생성하고, 상기 비교 데이터 모임을 사용자의 관심에 따라 정의되는 비교 노드로 변경하고, 복수의 상기 비교 노드에 포함된 적어도 하나의 요소 간의 비율에 따라 복수의 상기 비교 노드의 가중치를 산출하고, 복수의 상기 비교 노드 간의 거리를 산출할 수 있다.
여기서, 상기 결정부는, 상기 관심 모델과 상기 복수의 비교 모델 간의 거리를 산출하고, 산출한 거리 중 미리 정의된 기준을 만족하는 거리를 가지는 비교 모델을 샘플링 모델로 결정하는 것을 특징으로 하는 데이터 샘플링 장치.
본 발명에 의하면, 사용자의 관심을 기반으로 관심 모델(Interest model)을 생성하고, 관심 모델과 원(Raw) 데이터를 기반으로 샘플링(Sampling)한 모델 간을 비교한 결과에 따라 샘플링 모델을 결정하므로, 사용자의 관심을 반영한 샘플링 모델을 신속하고 용이하게 획득할 수 있다.
또한, 사용자의 관심을 기반으로 원 데이터를 샘플링하므로, 사용자의 관심이 보다 잘 반영된 샘플링 결과를 획득할 수 있다.
도 1은 본 발명의 일 실시예에 따른 데이터 샘플링 방법을 도시한 흐름도이다.
도 2는 도 1의 관심 모델을 생성하는 단계를 도시한 흐름도이다.
도 3은 도 1의 샘플링 모델을 결정하는 단계를 도시한 흐름도이다.
도 4는 원(Raw) 데이터를 복수의 데이터 모임으로 분류한 결과와 분류에 따른 샘플링 결과를 도시한 그래프이다.
도 5는 본 발명의 일 실시예에 따른 데이터 샘플링 방법에 의해 생성된 관심 모델을 도시한 개념도이다.
도 6은 관심 모델(또는, 비교 모델)의 예를 도시한 개념도이다.
도 7은 샘플링 방법에 따른 샘플링 결과를 도시한 개념도이다.
도 8은 원 데이터와 샘플링 방법에 따른 샘플링 결과의 차이를 도시한 개념도이다.
도 9는 샘플링 크기에 따른 샘플링 품질의 변화를 도시한 그래프이다.
도 10은 본 발명의 일 실시예에 따른 데이터 샘플링 장치를 도시한 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 데이터 샘플링 방법을 도시한 흐름도이고, 도 2는 도 1의 관심 모델을 생성하는 단계를 도시한 흐름도이고, 도 3은 도 1의 샘플링 모델을 결정하는 단계를 도시한 흐름도이다.
도 1 내지 도 3을 참조하면, 본 발명의 일 실시예에 따른 데이터 샘플링 방법은, 원 데이터(Raw data)를 기반으로, 사용자의 관심이 반영된 관심 모델(Interest model)을 생성하는 단계(S100) 및 원 데이터를 기반으로 샘플링(Sampling)한 모델과 관심 모델과 간을 비교한 결과에 따라, 샘플링 모델을 결정하는 단계(S200)를 포함한다.
이하, 종류-기반 중첩된 샘플링(Class-based stratified sampling)(이하, '케이스 1'이라 함), 사분면-기반 중첩된 샘플링(Quadrant-based stratified sampling)(이하, '케이스 2'라 함), 두 종류의 균형을 위한 언더 또는 오버-샘플링(Under or over-sampling to balance two classes)(이하, '케이스 3'이라 함), 트래픽-보존 궤도 샘플링(Traffic-preserving trajectory sampling)(이하, '케이스 4'라 함)에서, 본 발명의 일 실시예에 따른 데이터 샘플링 방법을 상세하게 설명한다. 여기서, 본 발명의 일 실시예에 따른 데이터 샘플링 방법은 데이터 샘플링 장치에서 수행될 수 있다.
단계 S100은 단계 S110, 단계 S120, 단계 S130 및 단계 S140을 포함할 수 있고, 단계 S200은 단계 S210, 단계 S220 및 단계 S230을 포함할 수 있다. 또한, 단계 S210은 단계 S211, 단계 S212, 단계 S213, 단계 S214 및 단계 S215를 포함할 수 있다.
데이터 샘플링 장치는, 사용자의 관심을 기반으로, 원 데이터에 포함된 요소(Element)들을 복수의 데이터 모임으로 분류할 수 있다(S110).
'케이스 1'의 경우에 사용자의 관심은 데이터 종류의 비율이므로, 데이터 샘플링 장치는 동일한 종류의 요소들을 하나의 데이터 모임으로 분류할 수 있다. 도 4(a)를 참조하면, 데이터 샘플링 장치는 데이터의 종류에 따라 원 데이터를 복수의 데이터 모임으로 분류할 수 있다(도 4(a)에 도시된 좌측 그래프 참조). 즉, 데이터 샘플링 장치는, 삼각형 형태의 요소들은 동일한 종류에 해당하므로 이들을 하나의 데이터 모임으로 분류할 수 있고, 원 형태의 요소들은 동일한 종류에 해당하므로 이들을 다른 하나의 데이터 모임으로 분류할 수 있다.
'케이스 2'의 경우에 사용자의 관심은 사분면에 포함된 데이터의 비율이므로, 데이터 샘플링 장치는 동일한 사분면에 포함된 요소들을 하나의 데이터 모임으로 분류할 수 있다. 도 4(b)를 참조하면, 데이터 샘플링 장치는 데이터가 위치한 사분면의 구역에 따라 원 데이터를 복수의 데이터 모임으로 분류할 수 있다(도 4(b)에 도시된 좌측 그래프 참조). 즉, 데이터 샘플링 장치는, 1 사분면에 포함된 요소들을 하나의 데이터 모임으로 분류할 수 있고, 2 사분면에 포함된 요소들을 다른 하나의 데이터 모임으로 분류할 수 있고, 3 사분면에 포함된 요소들을 또 다른 하나의 데이터 모임으로 분류할 수 있고, 4 사분면에 포함된 요소들을 또 다른 하나의 데이터 모임으로 분류할 수 있다.
여기서, 도 4(a)에 도시된 우측 그래프는 도 4(a)에 도시된 좌측 그래프와 같이 데이터 종류에 따라 분류된 복수의 데이터 모임을 기반으로 생성된 샘플링 결과이고, 도 4(b)에 도시된 좌측 그래프는 도 4(b)에 도시된 좌측 그래프와 같이 데이터가 위치한 사분면의 구역에 따라 분류된 복수의 데이터 모임을 기반으로 생성된 샘플링 결과이다. 이와 같은 샘플링 결과에 의하면, 사용자의 관심에 따라 샘플링 결과가 달라지는 것을 알 수 있다.
'케이스 3'의 경우에 사용자의 관심은 데이터 종류의 비율이므로, 데이터 샘플링 장치는 데이터의 종류에 따라 원 데이터를 복수의 데이터 모임으로 분류할 수 있다(도 4(a)에 도시된 좌측 그래프 참조).
'케이스 4'의 경우에 사용자의 관심은 시공간 상의 특정 지점에서 트래픽 비율이므로, 데이터 샘플링 장치는 시공간 상의 특정 지점에서 트래픽을 데이터 모임으로 분류할 수 있다. 여기서, 시공간은 위도, 경도, 시간으로 정의할 수 있다.
원 데이터에 포함된 요소들을 복수의 데이터 모임으로 분류한 후, 데이터 샘플링 장치는 복수의 데이터 모임에 포함된 요소들 간의 비율에 따라, 복수의 데이터 모임의 가중치를 산출할 수 있다(S120).
복수의 데이터 모임의 가중치를 산출하는 방법에 대해 도 5를 참조하여 설명하며, 이때, 원 데이터에 400개의 요소들이 포함되어 있는 것으로 가정하고, 모든 데이터 모임의 가중치의 합은 '1'인 것으로 가정한다.
'케이스 1'의 경우에 데이터 종류의 비율을 보존하는 특성을 가지므로, 하나의 데이터 모임(C1)에 100개의 요소들이 포함되어 있고, 다른 하나의 데이터 모임(C2)에 300개의 요소들이 포함되어 있는 경우, 데이터 샘플링 장치는 복수의 데이터 모임의 가중치를 도 5(a)에 도시된 바와 같이 'C1 = 0.25', 'C2 = 0.75'로 나타낼 수 있다.(즉, C1=100/400, C2=300/400)
'케이스 2'의 경우에 사분면의 비율을 보존하는 특성을 가지므로, 하나의 데이터 모임(Q1)에 100개의 요소들이 포함되어 있고, 다른 하나의 데이터 모임(Q2)에 100개의 요소들이 포함되어 있고, 또 다른 하나의 데이터 모임(Q3)에 100개의 요소들이 포함되어 있고, 또 다른 하나의 데이터 모임(Q4)에 100개의 요소들이 포함되어 있는 경우, 데이터 샘플링 장치는 복수의 데이터 모임의 가중치를 도 5(b)에 도시된 바와 같이 'Q1 = 0.25', 'Q2 = 0.25', 'Q3 = 0.25', 'Q4 = 0.25'로 나타낼 수 있다.(즉, Q1=100/400, Q2=100/400, Q3=100/400, Q4=100/400)
'케이스 3'의 경우에 데이터 종류의 비율을 동일하게 보존하는 특성을 가지므로, 데이터 샘플링 장치는 데이터 모임에 포함된 요소의 개수에 관계없이 복수의 데이터 모임의 가중치를 도 5(c)에 도시된 바와 같이 'C1 = 0.5', 'C2 = 0.5'로 나타낼 수 있다. 즉, 복수의 데이터 모임의 가중치를 동일하게 할 수 있다.
'케이스 4'의 경우에 트래픽의 비율을 보존하는 특성을 가지므로, 데이터 샘플링 장치는 데이터 모임의 가중치를 시공간 상의 특정 지점에서 정규화된(Normalized) 트래픽의 비율으로 나타낼 수 있다.
복수의 데이터 모임의 가중치를 산출한 후, 데이터 샘플링 장치는 데이터 모임을 사용자의 관심을 기반으로 정의되는 노드(Node)로 변경할 수 있다(S130). 여기서, 노드는 하나의 점을 의미하는 것으로, 데이터 모임을 노드로 변경하는 것은 적어도 하나의 요소가 포함된 데이터 모임을 하나의 노드로 일반화하는 것으로 볼 수 있다.(즉, 도 4(a)를 도 5(a)와 같이 변경, 도 4(b)를 도 5(b)와 같이 변경)
'케이스 1'의 경우에 노드는 데이터의 종류이므로, 데이터 샘플링 장치는 데이터의 종류에 따라 분류된 하나의 데이터 모임을 하나의 노드로 변경할 수 있다(도 4(a), 도 5(a)에 도시된 그래프 참조).
'케이스 2'의 경우에 노드는 사분면이므로, 데이터 샘플링 장치는 사분면에 따라 분류된 하나의 데이터 모임을 하나의 노드로 변경할 수 있다(도 4(b), 도 5(b)에 도시된 그래프 참조).
'케이스 3'의 경우에 노드는 데이터의 종류이므로, 데이터 샘플링 장치는 데이터의 종류에 따라 분류된 하나의 데이터 모임을 하나의 노드로 변경할 수 있다(도 4(a), 도 5(c)에 도시된 그래프 참조).
'케이스 4'의 경우에 궤적은 서로 다른 시간에서 다양한 지점에 관련되므로, 노드는 시공간 상의 특정 지점이다. 따라서, 데이터 샘플링 장치는 시공간 상의 특정 지점에 따라 분류된 하나의 데이터 모임을 하나의 노드로 변경할 수 있다.
데이터 모임을 사용자의 관심을 기반으로 정의되는 노드로 변경한 후, 데이터 샘플링 장치는 노드 간의 거리를 산출할 수 있다(S140).
'케이스 1'에서 노드 간의 거리는 의미가 없으므로, 노드 간의 거리는 도 5(a)에 도시된 그래프와 같이 동일한 길이(예를 들어, '1')를 가질 수 있다. 그러나, 노드 간의 거리가 서로 다른 경우에 노드 간의 거리는 서로 다른 길이를 가질 수 있다. 예를 들어, 노드 1과 노드 2 사이의 거리가 노드 1과 노드 2 사이의 거리보다 긴 경우에 노드 간의 거리는 서로 다른 길이를 가질 수 있다.
'케이스 2'에서, 데이터 샘플링 장치는 사분면에 대한 노드 간의 길이를 산출할 수 있으며, 산출한 노드 간의 길이는 도 5(b)에 도시된 그래프와 같이 나타낼 수 있다.
'케이스 3'에서 노드 간의 거리는 '케이스 1'과 같이 의미가 없으므로, 노드 간의 거리는 도 5(c)에 도시된 그래프와 같이 나타낼 수 있다.
'케이스 4'에서 노드는 시공간 상의 특정 지점이므로, 노드 간의 거리는 아래 수학식 1을 통해 산출할 수 있다.
Figure 112012046902750-pat00001
여기서, 'D(p, q)'는 '노드 p'와 '노드 q'간의 거리를 의미하고, 'px'는 '노드 p'에서 위도를 의미하고, 'py'는 '노드 p'에서 경도를 의미하고, 'pt'는 '노드 p'에서 시간을 의미하고, 'qx'는 '노드 q'에서 위도를 의미하고, 'qy'는 '노드 q'에서 경도를 의미하고, 'qt'는 '노드 q'에서 시간을 의미한다.
상술한 바와 같이, 데이터 샘플링 장치는 단계 S110, 단계 S120, 단계 S130, 단계 S140를 통해 관심 모델을 생성할 수 있다.
사용자의 관심이 반영된 관심 모델을 생성한 후, 데이터 샘플링 장치는 원 데이터에 포함된 요소들을 기반으로, 복수의 비교 모델을 생성할 수 있다(S210).
데이터 샘플링 장치는 원 데이터에 포함된 요소들을 관심 모델과 동일한 복수의 데이터 모임으로 분류할 수 있다(S211).
'케이스 1'의 경우에 사용자의 관심은 데이터 종류의 비율이므로, 데이터 샘플링 장치는 동일한 종류의 요소들을 하나의 데이터 모임으로 분류할 수 있다. 도 4(a)를 참조하면, 데이터 샘플링 장치는 데이터의 종류에 따라 원 데이터를 복수의 데이터 모임으로 분류할 수 있다(도 4(a)에 도시된 좌측 그래프 참조). 즉, 데이터 샘플링 장치는, 삼각형 형태의 요소들은 동일한 종류에 해당하므로 이들을 하나의 데이터 모임으로 분류할 수 있고, 원 형태의 요소들은 동일한 종류에 해당하므로 이들을 다른 하나의 데이터 모임으로 분류할 수 있다.
'케이스 2'의 경우에 사용자의 관심은 사분면에 포함된 데이터의 비율이므로, 데이터 샘플링 장치는 동일한 사분면에 포함된 요소들을 하나의 데이터 모임으로 분류할 수 있다. 도 4(b)를 참조하면, 데이터 샘플링 장치는 데이터가 위치한 사분면의 구역에 따라 원 데이터를 복수의 데이터 모임으로 분류할 수 있다(도 4(b)에 도시된 좌측 그래프 참조). 즉, 데이터 샘플링 장치는, 1 사분면에 포함된 요소들을 하나의 데이터 모임으로 분류할 수 있고, 2 사분면에 포함된 요소들을 다른 하나의 데이터 모임으로 분류할 수 있고, 3 사분면에 포함된 요소들을 또 다른 하나의 데이터 모임으로 분류할 수 있고, 4 사분면에 포함된 요소들을 또 다른 하나의 데이터 모임으로 분류할 수 있다.
'케이스 3'의 경우에 사용자의 관심은 데이터 종류의 비율이므로, 데이터 샘플링 장치는 데이터의 종류에 따라 원 데이터를 복수의 데이터 모임으로 분류할 수 있다(도 4(a)에 도시된 좌측 그래프 참조).
'케이스 4'의 경우에 사용자의 관심은 시공간 상의 특정 지점에서 트래픽 비율이므로, 데이터 샘플링 장치는 시공간 상의 특정 지점에서 트래픽을 데이터 모임으로 분류할 수 있다. 여기서, 시공간은 위도, 경도, 시간으로 정의할 수 있다.
원 데이터에 포함된 요소들을 복수의 데이터 모임으로 분류한 후, 데이터 샘플링 장치는 복수의 데이터 모임에 포함된 적어도 하나의 요소를 기반으로, 복수의 비교 데이터 모임을 생성할 수 있다(S212). 즉, 데이터 샘플링 장치는 데이터 모임에 포함된 일부 요소들을 선택하고, 선택한 요소들을 기반으로 비교 데이터 모임을 생성할 수 있다.
복수의 비교 데이터 모임을 생성한 후, 비교 데이터 모임을 사용자의 관심에 따라 정의되는 비교 노드로 변경할 수 있다(S213)
'케이스 1'의 경우에 노드는 데이터의 종류이므로, 데이터 샘플링 장치는 데이터의 종류에 따라 분류된 하나의 데이터 모임으로부터 선택한 일부 요소들을 하나의 비교 노드로 변경할 수 있다(도 4(a), 도 5(a)에 도시된 그래프 참조).
'케이스 2'의 경우에 노드는 사분면이므로, 데이터 샘플링 장치는 사분면에 따라 분류된 하나의 데이터 모임으로부터 선택한 일부 요소들을 하나의 비교 노드로 변경할 수 있다(도 4(b), 도 5(b)에 도시된 그래프 참조).
'케이스 3'의 경우에 노드는 데이터의 종류이므로, 데이터 샘플링 장치는 데이터의 종류에 따라 분류된 하나의 데이터 모임으로부터 선택한 일부 요소들을 하나의 비교 노드로 변경할 수 있다(도 4(a), 도 5(c)에 도시된 그래프 참조).
'케이스 4'의 경우에 궤적은 서로 다른 시간에서 다양한 지점에 관련되므로, 노드는 시공간 상의 특정 지점이다. 따라서, 데이터 샘플링 장치는 시공간 상의 특정 지점에 따라 분류된 하나의 데이터 모임으로부터 선택한 일부 요소들을 하나의 비교 노드로 변경할 수 있다.
비교 데이터 모임을 비교 노드로 변경한 후, 데이터 샘플링 장치는 복수의 비교 노드에 포함된 적어도 하나의 요소 간의 비율에 따라 복수의 비교 노드의 가중치를 산출할 수 있다(S214).
'케이스 1'의 경우에 데이터 종류의 비율을 보존하는 특성을 가지므로, 하나의 비교 노드(C1)에 100개의 요소들이 포함되어 있고, 다른 하나의 비교 노드(C2)에 300개의 요소들이 포함되어 있는 경우, 데이터 샘플링 장치는 복수의 비교 노드의 가중치를 도 5(a)에 도시된 바와 같이 'C1 = 0.25', 'C2 = 0.75'로 나타낼 수 있다.
'케이스 2'의 경우에 사분면의 비율을 보존하는 특성을 가지므로, 하나의 비교 노드(Q1)에 100개의 요소들이 포함되어 있고, 다른 하나의 비교 노드(Q2)에 100개의 요소들이 포함되어 있고, 또 다른 하나의 비교 노드(Q3)에 100개의 요소들이 포함되어 있고, 또 다른 하나의 비교 노드(Q4)에 100개의 요소들이 포함되어 있는 경우, 데이터 샘플링 장치는 복수의 비교 노드의 가중치를 도 5(b)에 도시된 바와 같이 'Q1 = 0.25', 'Q2 = 0.25', 'Q3 = 0.25', 'Q4 = 0.25'로 나타낼 수 있다.
'케이스 3'의 경우에 데이터 종류의 비율을 동일하게 보존하는 특성을 가지므로, 데이터 샘플링 장치는 데이터 모임에 포함된 요소의 개수에 관계없이 복수의 비교 노드의 가중치를 도 5(c)에 도시된 바와 같이 'C1 = 0.5', 'C2 = 0.5'로 나타낼 수 있다.
'케이스 4'의 경우에 트래픽의 비율을 보존하는 특성을 가지므로, 데이터 샘플링 장치는 복수의 비교 노드의 가중치를 시공간 상의 특정 지점에서 정규화된 트래픽의 비율으로 나타낼 수 있다.
비교 노드에 포함된 요소의 비율에 따라 비교 노드의 가중치를 산출한 후, 데이터 샘플링 장치는 복수의 비교 노드 간의 거리를 산출할 수 있다(S215).
'케이스 1'에서 비교 노드 간의 거리는 의미가 없으므로, 비교 노드 간의 거리는 도 5(a)에 도시된 그래프와 같이 동일한 길이(예를 들어, '1')를 가질 수 있다. 그러나, 비교 노드 간의 거리가 서로 다른 경우에 비교 노드 간의 거리는 서로 다른 길이를 가질 수 있다.
'케이스 2'에서, 데이터 샘플링 장치는 사분면의 비교 노드 간의 길이를 산출할 수 있으며, 산출한 비교 노드 간의 길이는 도 5(b)에 도시된 그래프와 같이 나타낼 수 있다.
'케이스 3'에서 비교 노드 간의 거리는 '케이스 1'과 같이 의미가 없으므로, 비교 노드 간의 거리는 도 5(c)에 도시된 그래프와 같이 나타낼 수 있다.
'케이스 4'에서 비교 노드는 시공간 상의 특정 지점이므로, 비교 노드 간의 거리는 상술한 수학식 1을 통해 산출할 수 있다.
상술한 바와 같이, 데이터 샘플링 장치는 상술한 단계 S211, 단계 S212, 단계 S213, 단계 S214를 통해 비교 모델을 생성할 수 있다.
비교 모델을 생성한 후, 데이터 샘플링 장치는 관심 모델과 비교 모델 간의 거리를 산출할 수 있다(S220).
이하, 도 6을 참조하여 관심 모델과 비교 모델 간의 거리를 산출하는 방법에 대해 상세하게 설명한다.
도 6은 관심 모델의 예를 도시한 개념도로, 노드 간을 연결하는 선에 표시된 숫자는 노드 간의 거리를 의미하고, 노드 내부의 무늬는 노드의 가중치를 의미한다. 즉, 노드가 체크 무늬인 경우에 가중치는 '0.5'이고, 노드가 도트(dot) 무늬 경우에 가중치는 '0.25'이고, 무늬가 없는 노드의 경우에 가중치는 '0'이다.
두 개의 관심 모델 간의(또는, 관심 모델과 비교 모델 간의) 거리는 가중치의 차이 및 노드 간의 거리에 따라 정의될 수 있다. 도 6에 도시된 모델들을 직관적으로 살펴보면, 도 6(a)에 도시된 모델과 도 6(b)에 도시된 모델의 '노드 n1'의 가중치는 동일하고 '노드 n2'의 가중치는 유사하므로, 도 6(a)에 도시된 모델과 도 6(b)에 도시된 모델 간의 거리는 도 6(a)에 도시된 모델과 도 6(c)에 도시된 모델 간의 거리 보다 가까운 것(즉, 유사한 것)을 알 수 있다.
즉, 관심 모델 간에(또는, 관심 모델과 비교 모델 간에) 대응하는 노드의 가중치는 관심 모델 간의(또는, 관심 모델과 비교 모델 간의) 거리를 측정하기 위한 인자 중 하나인 것을 알 수 있다.
한편, 도 6(a)에 도시된 모델, 도 6(c)에 도시된 모델 및 도 6(d)에 도시된 모델에서 동일한 가중치를 가지는 노드의 개수는 서로 동일하다. 구체적으로 살펴보면, 도 6(a)에 도시된 모델의 '노드 n2'과 도 6(c)에 도시된 모델의 '노드 n2'은 동일한 가중치를 가지며, 도 6(a)에 도시된 모델의 '노드 n1'과 도 6(d)에 도시된 모델의 '노드 n1'은 동일한 가중치를 가진다.
이와 같은 경우, 관심 모델 간의(또는, 관심 모델과 비교 모델 간의) 거리를 측정하기 위해 노드 간의 거리는 중요하게 고려될 수 있다. 즉, 도 6(a)에 도시된 모델, 도 6(c)에 도시된 모델 및 도 6(d)에 도시된 모델에서, '노드 n1'과 '노드 n3' 간의 거리는 '노드 n2'와 '노드 n4' 간의 거리보다 짧기 때문에, 도 6(a)에 도시된 모델과 도 6(c)에 도시된 모델 간의 거리는 도 6(a)에 도시된 모델과 도 6(d)에 도시된 모델 간의 거리 보다 가까운 것(즉, 유사한 것)을 알 수 있다. 이는, '노드 n1'과 '노드 n3' 간을 바꾸는데 소요되는 작업량이 '노드 n2'와 '노드 n4' 간을 바꾸는데 소요되는 작업량보다 적기 때문이다.
상술한 바와 같이, 모델 간의 거리를 산출하는 문제를 노드 간을 바꾸는 문제로도 볼 수 있다.
따라서, 본 발명의 일 실시예에서 EMD(Earth Mover's Distance)를 사용하여 관심 모델과 비교 모델 간의 거리를 산출할 수 있다.
EMD는 아래 수학식 2, 수학식 3, 수학식 4와 같이 나타낼 수 있다.
Figure 112012046902750-pat00002
여기서, 'S+'는 노드 {n1,...,nk}로 구성되는 그래프에서 정의되는 소스(Source)를 의미하고(즉, 본 발명의 일 실시예에서 관심 모델로 볼 수 있음), 'S-'노드 {n1,...,nk}로 구성되는 그래프에서 정의되는 싱크(Sink)를 의미한다(즉, 본 발명의 일 실시예에서 비교 모델로 볼 수 있음). 따라서, 'S+'는 'S+ = {(n1,w1 +),...,(nk,wk +)}'로 나타낼 수 있고, 'S-'는 'S- = {(n1,w1 -),...,(nk,wk -)}'로 나타낼 수 있으며, 'wk +'는 소스의 해당 노드에서 가중치를 의미하고, 'wk -'는 싱크의 해당 노드에서 가중치를 의미한다. 또한, 'WORK(S+, S-, F)'는 'S-'를 'S+'와 유사하게 또는 동일하게 하는데 소요되는 작업량을 의미한다.
수학식 2에서 'fij'와 'dij'는 아래 수학식 3과 같이 정의할 수 있다.
Figure 112012046902750-pat00003
여기서, 'fij'은 '노드 ni'부터 '노드 nj'까지 이동한 양을 의미하고, 'dij'는 '노드 ni'부터 '노드 nj'까지 거리를 의미하고, 'F'는 'fij'를 행렬(즉, F = [fij])로 나타낸 것이다.
상술한 수학식 2, 수학식 3을 기반으로 정의한 아래 수학식 4를 사용하여 최소 작업량을 산출할 수 있다.
Figure 112012046902750-pat00004
수학식 4를 사용하여 도 6에 도시된 모델 간의 거리(또는 유사도)를 측정할 수 있다.
Figure 112012046902750-pat00005
여기서, 도 6(a)에 도시된 모델을 관심 모델인 'A'라고 가정하고, 도 6(b)에 도시된 모델을 비교 모델인 'B'라고 가정하고, 도 6(c)에 도시된 모델을 다른 비교 모델인 'C'라고 가정하고, 도 6(d)에 도시된 모델을 또 다른 비교 모델인 'd'라고 가정한다.
이와 같은 가정을 통해, 'A'와 'B' 간의 거리는 '0.1'로 산출되고, 'A'와 'C' 간의 거리는 '0.1'로 산출되고, 'A'와 'D' 간의 거리는 '0.2'로 산출되므로, 'D'보다 'B, C'가 'A'에 더 가까운(또는, 유사한) 것을 알 수 있다.
본 발명의 일 실시예에 따른 데이터 샘플링 방법은, 복수의 비교 모델 중에서 관심 모델 간의 거리가 최소인 비교 모델을 샘플링 모델로 결정하는 것이므로, 샘플링 모델을 결정하기 위한 방정식을 아래 수학식 6과 같이 나타낼 수 있다.
Figure 112012046902750-pat00006
여기서, 'Mu'는 관심 모델을 의미하고, 'Ms'는 비교 모델을 의미한다.
데이터 샘플링 장치는, 수학식 6을 사용하여 관심 모델과 비교 모델 간의 거리를 산출하고, 산출한 거리가 최소 거리인 경우에 해당 비교 모델을 샘플링 모델로 결정할 수 있고, 모든 비교 모델에 대하여 상술한 과정을 반복하여 수행할 수 있다.
한편, '케이스 4'의 경우에 웨이블릿 트랜스폼(Wavelet transform)을 사용하여 관심 모델과 비교 모델 간의 거리를 산출할 수 있다.
Figure 112012046902750-pat00007
여기서, 'P'는 관심 모델을 의미하고, 'Q'는 비교 모델을 의미하고, 'Wλ(P-Q)'는 'P - Q' 간 차이에 대한 웨이블릿 트랜스폼 계수를 의미하고, 'λ, αλ'의 크기는 상술한 계수에 의존한다.
상술한 설명에서, 관심 모델을 생성한 후 비교 모델을 생성하는 것으로 설명하였으나, 비교 모델을 먼저 생성한 후 관심 모델을 생성할 수 있고, 관심 모델과 비교 모델을 동시에 생성할 수도 있다.
이상 본 발명의 일 실시예에 따른 데이터 샘플링 방법에 대해 상세하게 설명하였다. 이하 본 발명의 일 실시예에 따른 데이터 샘플링 방법에 의한 샘플링 결과가 원 데이터의 특징 또는 사용자의 관심을 얼마나 잘 반영하고 있는지에 대해 도 7 내지 도 9를 참조하여 살펴본다.
도 7은 샘플링 방법에 따른 샘플링 결과를 도시한 개념도로, 도 7(a)는 원 데이터를 사용하여 산출된 것이고, 도 7(b)는 랜덤(Random) 샘플링을 통해 산출된 것이고, 도 7(c)는 트래픽-보존(Traffic-preserving) 샘플링을 통해 산출된 것이고, 도 7(d)는 일정한 가중치를 가지는 트래픽-보존 샘플링을 통해 산출된 것이다.
도 7을 살펴보면, 트래픽-보존 샘플링을 통해 산출된 도 7(c)가 랜덤 샘플링을 통해 산출된 도 7(b)보다 원 데이터(즉, 트래픽 분포)를 더 잘 보존한 것을 알 수 있다. 즉, 도 7(a)에 도시된 아래쪽 그래프는 상대적으로 큰 트래픽을 가지는 두 개의 큰 블록을 포함하고, 두 개의 큰 블록 사이에 존재하는 블록들은 상대적으로 낮은 가중치를 가지는 것을 알 수 있으며, 이러한 경향은 랜덤 샘플링을 통해 산출된 도 7(b)보다 트래픽-보존 샘플링을 통해 산출된 도 7(c)에서 더 잘 나타나는 것을 알 수 있다. 또한, 도 7에 도시된 위쪽 도면에서 트래픽-보존 샘플링을 통해 산출된 도 7(c)가 랜덤 샘플링을 통해 산출된 도 7(b)보다 원 데이터의 주요 트래픽 흔적을 더 잘 반영한 것을 알 수 있다.
도 8은 원 데이터와 샘플링 방법에 따른 샘플링 결과 간의 차이를 도시한 개념도로, X축은 시간 윈도우(Window)를 의미하고, Y축은 각 노드에서 트래픽 비율의 차이에 대한 합을 의미한다. 여기서, 본 발명의 일 실시예에 따른 트래릭-보존 샘플링과 원 데이터의 차이는 랜덤 샘플링과 원 데이터의 차이보다 작은 것을 알 수 있다.
도 9는 샘플링 크기에 따른 샘플링 품질의 변화를 도시한 그래프로, X축은 샘플링 크기를 의미하고, Y축은 원 데이터와 각각의 샘플링 모델 간의 거리를 의미한다. 도 9(a)는 원 데이터와 각각의 샘플링 모델 간의 거리를 '1-norm distance'를 통해 산출한 것으로, 트래픽-보존 샘플링 모델과 원 데이터 간의 거리가 랜덤 샘플링 모델과 원 데이터 간의 거리보다 짧은 것을 알 수 있다. 도 9(b)는 원 데이터와 각각의 샘플링 모델 간의 거리를 'EMD distance'를 통해 산출한 것으로, 트래픽-보존 샘플링 모델과 원 데이터 간의 거리가 랜덤 샘플링 모델과 원 데이터 간의 거리보다 짧은 것을 알 수 있다.
이하 본 발명의 일 실시예에 따른 데이터 샘플링 장치에 대해 상세하게 설명한다.
도 10은 본 발명의 일 실시예에 따른 데이터 샘플링 장치를 도시한 블록도이다.
도 10을 참조하면, 본 발명의 일 실시예에 따른 데이터 샘플링 장치는, 원 데이터를 기반으로, 사용자의 관심이 반영된 관심 모델을 생성하는 제1 생성부(10), 원 데이터에 포함된 요소들을 기반으로, 복수의 비교 모델을 생성하는 제2 생성부(20) 및 관심 모델과 복수의 비교 모델 간을 비교한 결과에 따라, 샘플링 모델을 결정하는 결정부(30)를 포함한다.
제1 생성부(10)는, 사용자의 관심을 기반으로 원 데이터에 포함된 요소들을 복수의 데이터 모임으로 분류할 수 있고, 복수의 데이터 모임에 각각 포함된 적어도 하나의 요소 간의 비율에 따라 복수의 데이터 모임의 가중치를 산출할 수 있고, 데이터 모임을 사용자의 관심에 따라 정의되는 노드로 변경할 수 있고, 노드 간의 거리를 산출할 수 있다. 여기서, 제1 생성부(10)가 관심 모델은 생성하는 구체적인 내용은 상기 단계 S100에서 설명한 내용과 동일하다.
제2 생성부(20)는, 원 데이터에 포함된 요소들을 관심 모델과 동일한 복수의 데이터 모임으로 분류할 수 있고, 복수의 데이터 모임에 포함된 적어도 하나의 요소를 기반으로 복수의 비교 데이터 모임을 생성할 수 있고, 비교 데이터 모임을 사용자의 관심에 따라 정의되는 비교 노드로 변경할 수 있고, 복수의 비교 노드에 포함된 적어도 하나의 요소 간의 비율에 따라 복수의 비교 노드의 가중치를 산출할 수 있고, 복수의 비교 노드 간의 거리를 산출할 수 있다. 여기서, 제2 생성부(20)가 비교 모델을 생성하는 구체적인 내용은 상기 단계 S210에서 설명한 내용과 동일하다.
결정부(30)는, 관심 모델과 복수의 비교 모델 간의 거리를 산출할 수 있고, 산출한 거리 중 미리 정의된 기준을 만족하는 거리를 가지는 비교 모델을 샘플링 모델로 결정할 수 있다. 여기서, 결정부(30)가 관심 모델과 비교 모델 간의 거리를 산출하는 구체적인 방법은 상기 단계 S220에서 설명한 내용과 동일하고, 샘플링 모델을 결정하는 구체적인 내용은 상기 단계 S230에서 설명한 내용과 동일하다.
상술한 제1 생성부(10), 제2 생성부(20) 및 결정부(30)가 수행하는 기능은 임의의 프로세서(예를 들어, CPU)에서 수행될 수 있으며, 도 1 내지 도 3의 각 단계는 상기 임의의 프로세서에서 수행될 수 있다.
또한, 제1 생성부(10), 제2 생성부(20) 및 결정부(30)는 하나의 단일한 형태, 하나의 물리적인 장치 또는 하나의 모듈로 구현될 수 있다. 이뿐만 아니라, 제1 생성부(10), 제2 생성부(20) 및 결정부(30)는 각각 하나의 물리적인 장치 또는 집단이 아닌 복수의 물리적 장치 또는 집단으로 구현될 수 있다.
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
10: 제1 생성부
20: 제2 생성부
30: 결정부

Claims (8)

  1. 데이터 샘플링 장치에서 수행되는 데이터 샘플링 방법에 있어서,
    원 데이터(Raw data)를 기반으로, 사용자의 관심이 반영된 관심 모델(Interest model)을 생성하는 단계; 및
    상기 원 데이터를 기반으로 샘플링(Sampling)한 모델과 상기 관심 모델 간의 거리를 비교한 결과에 따라, 샘플링 모델을 결정하는 단계를 포함하는 데이터 샘플링 방법.
  2. 청구항 1에서, 상기 관심 모델을 생성하는 단계는,
    사용자의 관심을 기반으로, 상기 원 데이터에 포함된 요소(Element)들을 복수의 데이터 모임으로 분류하는 단계;
    상기 복수의 데이터 모임에 포함된 적어도 하나의 요소 간의 비율에 따라, 상기 복수의 데이터 모임의 가중치를 산출하는 단계;
    상기 데이터 모임을 사용자의 관심에 따라 정의되는 노드(Node)로 변경하는 단계; 및
    복수의 상기 노드 간의 거리를 산출하는 단계를 포함하는 데이터 샘플링 방법.
  3. 청구항 2에 있어서, 상기 샘플링 모델을 결정하는 단계는,
    상기 원 데이터에 포함된 요소들을 기반으로, 복수의 비교 모델을 생성하는 단계;
    상기 관심 모델과 상기 복수의 비교 모델 간의 거리를 산출하는 단계; 및
    산출한 거리 중 미리 정의된 기준을 만족하는 거리를 가지는 비교 모델을 샘플링 모델로 결정하는 단계를 포함하는 데이터 샘플링 방법.
  4. 청구항 3에 있어서, 상기 복수의 비교 모델을 생성하는 단계는,
    상기 원 데이터에 포함된 요소들을 상기 관심 모델과 동일한 상기 복수의 데이터 모임으로 분류하는 단계;
    상기 복수의 데이터 모임에 포함된 적어도 하나의 요소를 기반으로, 복수의 비교 데이터 모임을 생성하는 단계;
    상기 비교 데이터 모임을 사용자의 관심에 따라 정의되는 비교 노드로 변경하는 단계;
    복수의 상기 비교 노드에 포함된 적어도 하나의 요소 간의 비율에 따라, 복수의 상기 비교 노드의 가중치를 산출하는 단계; 및
    복수의 상기 비교 노드 간의 거리를 산출하는 단계를 포함하는 데이터 샘플링 방법.
  5. 원 데이터(Raw data)를 기반으로, 사용자의 관심이 반영된 관심 모델(Interest model)을 생성하는 제1 생성부;
    상기 원 데이터에 포함된 요소들을 기반으로, 복수의 비교 모델을 생성하는 제2 생성부; 및
    상기 관심 모델과 상기 복수의 비교 모델 간의 거리를 비교한 결과에 따라, 샘플링 모델을 결정하는 결정부를 포함하는 데이터 샘플링 장치.
  6. 청구항 5에 있어서, 상기 제1 생성부는,
    사용자의 관심을 기반으로 상기 원 데이터에 포함된 요소들을 복수의 데이터 모임으로 분류하고, 상기 복수의 데이터 모임에 포함된 적어도 하나의 요소 간의 비율에 따라 상기 복수의 데이터 모임의 가중치를 산출하고, 상기 데이터 모임을 사용자의 관심에 따라 정의되는 노드로 변경하고, 복수의 상기 노드 간의 거리를 산출하는 것을 특징으로 하는 데이터 샘플링 장치.
  7. 청구항 6에 있어서, 상기 제2 생성부는,
    상기 원 데이터에 포함된 요소들을 상기 관심 모델과 동일한 상기 복수의 데이터 모임으로 분류하고, 상기 복수의 데이터 모임에 포함된 적어도 하나의 요소를 기반으로 복수의 비교 데이터 모임을 생성하고, 상기 비교 데이터 모임을 사용자의 관심에 따라 정의되는 비교 노드로 변경하고, 복수의 상기 비교 노드에 포함된 적어도 하나의 요소 간의 비율에 따라 복수의 상기 비교 노드의 가중치를 산출하고, 복수의 상기 비교 노드 간의 거리를 산출하는 것을 특징으로 하는 데이터 샘플링 장치.
  8. 청구항 5에 있어서, 상기 결정부는,
    상기 관심 모델과 상기 복수의 비교 모델 간의 거리를 산출하고, 산출한 거리 중 미리 정의된 기준을 만족하는 거리를 가지는 비교 모델을 샘플링 모델로 결정하는 것을 특징으로 하는 데이터 샘플링 장치.
KR20120063086A 2012-06-13 2012-06-13 데이터 샘플링 방법 및 장치 KR101350782B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR20120063086A KR101350782B1 (ko) 2012-06-13 2012-06-13 데이터 샘플링 방법 및 장치
EP13805079.4A EP2863319A4 (en) 2012-06-13 2013-04-01 METHOD FOR SAMPLING DATA AND DEVICE FOR SAMPLING DATA
US14/406,877 US20150161231A1 (en) 2012-06-13 2013-04-01 Data sampling method and data sampling device
CN201380030639.8A CN104350491A (zh) 2012-06-13 2013-04-01 数据采样方法以及数据采样装置
PCT/KR2013/002700 WO2013187587A1 (ko) 2012-06-13 2013-04-01 데이터 샘플링 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20120063086A KR101350782B1 (ko) 2012-06-13 2012-06-13 데이터 샘플링 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20130139547A KR20130139547A (ko) 2013-12-23
KR101350782B1 true KR101350782B1 (ko) 2014-01-16

Family

ID=49758378

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20120063086A KR101350782B1 (ko) 2012-06-13 2012-06-13 데이터 샘플링 방법 및 장치

Country Status (5)

Country Link
US (1) US20150161231A1 (ko)
EP (1) EP2863319A4 (ko)
KR (1) KR101350782B1 (ko)
CN (1) CN104350491A (ko)
WO (1) WO2013187587A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022158692A1 (ko) * 2021-01-21 2022-07-28 삼성전자 주식회사 포스 터치를 식별하는 전자 장치 및 그 동작 방법
US11977699B2 (en) 2021-04-19 2024-05-07 Samsung Electronics Co., Ltd. Electronic device and operating method of the same

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150007113A1 (en) * 2013-06-28 2015-01-01 Silicon Graphics International Corp. Volume rendering for graph renderization
US20150243279A1 (en) * 2014-02-26 2015-08-27 Toytalk, Inc. Systems and methods for recommending responses

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090100326A (ko) * 2009-08-07 2009-09-23 주식회사 비즈모델라인 고객 성향 데이터 운용 시스템
KR20110028067A (ko) * 2009-09-11 2011-03-17 삼성전자주식회사 사용자의 관심도를 반영한 콘텐츠 스케줄링 장치 및 방법
KR20110090354A (ko) * 2010-02-03 2011-08-10 고려대학교 산학협력단 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998043182A1 (en) * 1997-03-24 1998-10-01 Queen's University At Kingston Coincidence detection method, products and apparatus
KR20020007742A (ko) * 2000-07-18 2002-01-29 김민욱 사용자별 정보선호 분석 및 정보 내용 인기도 평가를 통한정보추천 방법 및 그 시스템
US7613664B2 (en) * 2005-03-31 2009-11-03 Palo Alto Research Center Incorporated Systems and methods for determining user interests
US20070300265A1 (en) * 2006-06-21 2007-12-27 Nokia Corporation User behavior adapted electronic service guide update
KR100856916B1 (ko) * 2007-01-16 2008-09-05 (주)첫눈 관심사를 반영하여 추출한 정보 제공 방법 및 시스템
US8756184B2 (en) * 2009-12-01 2014-06-17 Hulu, LLC Predicting users' attributes based on users' behaviors
US9158775B1 (en) * 2010-12-18 2015-10-13 Google Inc. Scoring stream items in real time

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090100326A (ko) * 2009-08-07 2009-09-23 주식회사 비즈모델라인 고객 성향 데이터 운용 시스템
KR20110028067A (ko) * 2009-09-11 2011-03-17 삼성전자주식회사 사용자의 관심도를 반영한 콘텐츠 스케줄링 장치 및 방법
KR20110090354A (ko) * 2010-02-03 2011-08-10 고려대학교 산학협력단 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022158692A1 (ko) * 2021-01-21 2022-07-28 삼성전자 주식회사 포스 터치를 식별하는 전자 장치 및 그 동작 방법
US11977699B2 (en) 2021-04-19 2024-05-07 Samsung Electronics Co., Ltd. Electronic device and operating method of the same

Also Published As

Publication number Publication date
KR20130139547A (ko) 2013-12-23
CN104350491A (zh) 2015-02-11
US20150161231A1 (en) 2015-06-11
EP2863319A4 (en) 2015-11-18
WO2013187587A1 (ko) 2013-12-19
EP2863319A1 (en) 2015-04-22

Similar Documents

Publication Publication Date Title
Yang et al. Big-sensing-data curation for the cloud is coming: A promise of scalable cloud-data-center mitigation for next-generation IoT and wireless sensor networks
Castro et al. Likelihood based hierarchical clustering
CN106708016B (zh) 故障监控方法和装置
Zhou et al. A two-phase multiobjective evolutionary algorithm for enhancing the robustness of scale-free networks against multiple malicious attacks
US8346686B2 (en) Taxonomy-driven lumping for sequence mining
US8165979B2 (en) System and method for resource adaptive classification of data streams
Kolozali et al. On the effect of adaptive and nonadaptive analysis of time-series sensory data
KR101350782B1 (ko) 데이터 샘플링 방법 및 장치
CN103838803A (zh) 一种基于节点Jaccard相似度的社交网络社团发现方法
CN111898578A (zh) 人群密度的获取方法、装置、电子设备及计算机程序
CN111881777A (zh) 一种视频处理方法和装置
CN113162787B (zh) 电信网络中故障定位的方法、节点分类方法以及相关设备
Gaume et al. PageRank induced topology for real-world networks
Wang et al. Evolutionary algorithm-based and network architecture search-enabled multiobjective traffic classification
Kang et al. Efficient skeleton-based action recognition via joint-mapping strategies
CN114049516A (zh) 训练方法、图像处理方法、装置、电子设备以及存储介质
Wang et al. Estimating multiclass service demand distributions using Markovian arrival processes
CN113821657A (zh) 基于人工智能的图像处理模型训练方法及图像处理方法
CN113391907A (zh) 一种任务的放置方法、装置、设备和介质
Gote et al. Predicting sequences of traversed nodes in graphs using network models with multiple higher orders
CN114781300B (zh) 可编辑逻辑阵列布线方法、装置、设备和存储介质
Xiong et al. Time irreversibility and intrinsics revealing of series with complex network approach
Grall-Maes et al. Assessing the number of clusters in a mixture model with side-information
Wang et al. DeepGCNs-Att for Point Cloud Semantic Segmentation
CN115329118B (zh) 一种面向垃圾图像的图像相似性检索方法及***

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170102

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee