KR101350782B1

KR101350782B1 - 데이터 샘플링 방법 및 장치

Info

Publication number: KR101350782B1
Application number: KR20120063086A
Authority: KR
Inventors: 유환조; 오진오
Original assignee: 포항공과대학교 산학협력단
Priority date: 2012-06-13
Filing date: 2012-06-13
Publication date: 2014-01-16
Also published as: KR20130139547A; CN104350491A; US20150161231A1; EP2863319A4; WO2013187587A1; EP2863319A1

Abstract

데이터 샘플링 방법 및 장치가 개시된다. 본 발명의 일 실시예는, 원 데이터를 기반으로, 사용자의 관심이 반영된 관심 모델을 생성하는 단계, 및 상기 원 데이터를 기반으로 샘플링한 모델과 상기 관심 모델 간을 비교한 결과에 따라, 샘플링 모델을 결정하는 단계를 포함한다. 본 발명에 의하면, 사용자의 관심을 반영한 샘플링 모델을 신속하고 용이하게 획득할 수 있다.

Description

데이터 샘플링 방법 및 장치{METHOD AND APPARATUS FOR SAMPLING DATA}

본 발명은 데이터 샘플링에 관한 것으로, 더욱 상세하게는 원(Raw) 데이터 중 사용자가 원하는 데이터를 샘플링하기 위한 데이터 샘플링 방법에 관한 것이다.

샘플링(Sampling)은 데이터 처리 및 데이터 마이닝(Mining)을 위한 기본적인 기술들 중 하나이며, 이러한 샘플링의 주요 목적은 원 데이터 셋(Raw data set)의 특성을 유지하면서 목적(Target) 데이터 셋의 크기를 줄이는 것이다. 이와 같이, 목적 데이터 셋의 크기를 줄임으로써, 다양한 어플리케이션들(Applications)에서 계산 비용을 감소시킬 수 있다. 또한, 적절한 샘플링 기술의 사용은 데이터 분석 및 데이터 게더링(Gathering)을 위한 어플리케이션의 성능 향상, 비용 감소 등의 추가적인 효과가 있고, 드문-분류(Rare-class) 문제와 네트워크 트래픽 추론(Network traffic inference) 문제 등의 해결책을 제공할 수 있다.

다양한 사용자의 관심을 일반화한 샘플링 방법을 개발하기 어려운 이유 때문에, 일반적으로, 샘플링 방법은 특정 문제 및 특정 사용자의 관심에 따라 독립적으로 개발되었다. 이와 같이, 샘플링을 위해 일반화된 프레임워크(Framework)의 부재로 인하여, 연구원들은 샘플링 방법의 개발과 개발한 샘플링 방법의 입증을 위해 반복적인 작업을 수행하였고, 이러한 샘플링 방법 개발의 비효율성으로 인하여 적절한 샘플링 방법을 개발하기 어려운 문제점이 있었다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 사용자의 관심을 반영한 샘플링 결과를 획득하기 위한 데이터 샘플링 방법을 제공하는 데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 사용자의 관심을 반영한 샘플링 결과를 획득하기 위한 데이터 샘플링 장치를 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예는, 원 데이터를 기반으로, 사용자의 관심이 반영된 관심 모델을 생성하는 단계, 및 상기 원 데이터를 기반으로 샘플링한 모델과 상기 관심 모델 간을 비교한 결과에 따라, 샘플링 모델을 결정하는 단계를 포함한다.

여기서, 상기 관심 모델을 생성하는 단계는, 사용자의 관심을 기반으로, 상기 원 데이터에 포함된 요소들을 복수의 데이터 모임으로 분류하는 단계, 상기 복수의 데이터 모임에 포함된 적어도 하나의 요소 간의 비율에 따라, 상기 복수의 데이터 모임의 가중치를 산출하는 단계, 상기 데이터 모임을 사용자의 관심에 따라 정의되는 노드로 변경하는 단계, 및 복수의 상기 노드 간의 거리를 산출하는 단계를 포함할 수 있다.

여기서, 상기 샘플링 모델을 결정하는 단계는, 상기 원 데이터에 포함된 요소들을 기반으로, 복수의 비교 모델을 생성하는 단계, 상기 관심 모델과 상기 복수의 비교 모델 간의 거리를 산출하는 단계, 및 산출한 거리 중 미리 정의된 기준을 만족하는 거리를 가지는 비교 모델을 샘플링 모델로 결정하는 단계를 포함할 수 있다.

여기서, 상기 복수의 비교 모델을 생성하는 단계는, 상기 원 데이터에 포함된 요소들을 상기 관심 모델과 동일한 상기 복수의 데이터 모임으로 분류하는 단계, 상기 복수의 데이터 모임에 포함된 적어도 하나의 요소를 기반으로, 복수의 비교 데이터 모임을 생성하는 단계, 상기 비교 데이터 모임을 사용자의 관심에 따라 정의되는 비교 노드로 변경하는 단계, 복수의 상기 비교 노드에 포함된 적어도 하나의 요소 간의 비율에 따라, 복수의 상기 비교 노드의 가중치를 산출하는 단계, 및 복수의 상기 비교 노드 간의 거리를 산출하는 단계를 포함할 수 있다.

상기 다른 목적을 달성하기 위한 본 발명의 일 실시예는, 원 데이터를 기반으로, 사용자의 관심이 반영된 관심 모델을 생성하는 제1 생성부, 상기 원 데이터에 포함된 요소들을 기반으로, 복수의 비교 모델을 생성하는 제2 생성부, 및 상기 관심 모델과 상기 복수의 비교 모델 간을 비교한 결과에 따라, 샘플링 모델을 결정하는 결정부를 포함한다.

여기서, 상기 제1 생성부는, 사용자의 관심을 기반으로 상기 원 데이터에 포함된 요소들을 복수의 데이터 모임으로 분류하고, 상기 복수의 데이터 모임에 포함된 적어도 하나의 요소 간의 비율에 따라 상기 복수의 데이터 모임의 가중치를 산출하고, 상기 데이터 모임을 사용자의 관심에 따라 정의되는 노드로 변경하고, 복수의 상기 노드 간의 거리를 산출할 수 있다.

여기서, 상기 제2 생성부는, 상기 원 데이터에 포함된 요소들을 상기 관심 모델과 동일한 상기 복수의 데이터 모임으로 분류하고, 상기 복수의 데이터 모임에 포함된 적어도 하나의 요소를 기반으로 복수의 비교 데이터 모임을 생성하고, 상기 비교 데이터 모임을 사용자의 관심에 따라 정의되는 비교 노드로 변경하고, 복수의 상기 비교 노드에 포함된 적어도 하나의 요소 간의 비율에 따라 복수의 상기 비교 노드의 가중치를 산출하고, 복수의 상기 비교 노드 간의 거리를 산출할 수 있다.

여기서, 상기 결정부는, 상기 관심 모델과 상기 복수의 비교 모델 간의 거리를 산출하고, 산출한 거리 중 미리 정의된 기준을 만족하는 거리를 가지는 비교 모델을 샘플링 모델로 결정하는 것을 특징으로 하는 데이터 샘플링 장치.

본 발명에 의하면, 사용자의 관심을 기반으로 관심 모델(Interest model)을 생성하고, 관심 모델과 원(Raw) 데이터를 기반으로 샘플링(Sampling)한 모델 간을 비교한 결과에 따라 샘플링 모델을 결정하므로, 사용자의 관심을 반영한 샘플링 모델을 신속하고 용이하게 획득할 수 있다.

또한, 사용자의 관심을 기반으로 원 데이터를 샘플링하므로, 사용자의 관심이 보다 잘 반영된 샘플링 결과를 획득할 수 있다.

도 1은 본 발명의 일 실시예에 따른 데이터 샘플링 방법을 도시한 흐름도이다.
도 2는 도 1의 관심 모델을 생성하는 단계를 도시한 흐름도이다.
도 3은 도 1의 샘플링 모델을 결정하는 단계를 도시한 흐름도이다.
도 4는 원(Raw) 데이터를 복수의 데이터 모임으로 분류한 결과와 분류에 따른 샘플링 결과를 도시한 그래프이다.
도 5는 본 발명의 일 실시예에 따른 데이터 샘플링 방법에 의해 생성된 관심 모델을 도시한 개념도이다.
도 6은 관심 모델(또는, 비교 모델)의 예를 도시한 개념도이다.
도 7은 샘플링 방법에 따른 샘플링 결과를 도시한 개념도이다.
도 8은 원 데이터와 샘플링 방법에 따른 샘플링 결과의 차이를 도시한 개념도이다.
도 9는 샘플링 크기에 따른 샘플링 품질의 변화를 도시한 그래프이다.
도 10은 본 발명의 일 실시예에 따른 데이터 샘플링 장치를 도시한 블록도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 일 실시예에 따른 데이터 샘플링 방법을 도시한 흐름도이고, 도 2는 도 1의 관심 모델을 생성하는 단계를 도시한 흐름도이고, 도 3은 도 1의 샘플링 모델을 결정하는 단계를 도시한 흐름도이다.

도 1 내지 도 3을 참조하면, 본 발명의 일 실시예에 따른 데이터 샘플링 방법은, 원 데이터(Raw data)를 기반으로, 사용자의 관심이 반영된 관심 모델(Interest model)을 생성하는 단계(S100) 및 원 데이터를 기반으로 샘플링(Sampling)한 모델과 관심 모델과 간을 비교한 결과에 따라, 샘플링 모델을 결정하는 단계(S200)를 포함한다.

이하, 종류-기반 중첩된 샘플링(Class-based stratified sampling)(이하, '케이스 1'이라 함), 사분면-기반 중첩된 샘플링(Quadrant-based stratified sampling)(이하, '케이스 2'라 함), 두 종류의 균형을 위한 언더 또는 오버-샘플링(Under or over-sampling to balance two classes)(이하, '케이스 3'이라 함), 트래픽-보존 궤도 샘플링(Traffic-preserving trajectory sampling)(이하, '케이스 4'라 함)에서, 본 발명의 일 실시예에 따른 데이터 샘플링 방법을 상세하게 설명한다. 여기서, 본 발명의 일 실시예에 따른 데이터 샘플링 방법은 데이터 샘플링 장치에서 수행될 수 있다.

단계 S100은 단계 S110, 단계 S120, 단계 S130 및 단계 S140을 포함할 수 있고, 단계 S200은 단계 S210, 단계 S220 및 단계 S230을 포함할 수 있다. 또한, 단계 S210은 단계 S211, 단계 S212, 단계 S213, 단계 S214 및 단계 S215를 포함할 수 있다.

데이터 샘플링 장치는, 사용자의 관심을 기반으로, 원 데이터에 포함된 요소(Element)들을 복수의 데이터 모임으로 분류할 수 있다(S110).

'케이스 1'의 경우에 사용자의 관심은 데이터 종류의 비율이므로, 데이터 샘플링 장치는 동일한 종류의 요소들을 하나의 데이터 모임으로 분류할 수 있다. 도 4(a)를 참조하면, 데이터 샘플링 장치는 데이터의 종류에 따라 원 데이터를 복수의 데이터 모임으로 분류할 수 있다(도 4(a)에 도시된 좌측 그래프 참조). 즉, 데이터 샘플링 장치는, 삼각형 형태의 요소들은 동일한 종류에 해당하므로 이들을 하나의 데이터 모임으로 분류할 수 있고, 원 형태의 요소들은 동일한 종류에 해당하므로 이들을 다른 하나의 데이터 모임으로 분류할 수 있다.

'케이스 2'의 경우에 사용자의 관심은 사분면에 포함된 데이터의 비율이므로, 데이터 샘플링 장치는 동일한 사분면에 포함된 요소들을 하나의 데이터 모임으로 분류할 수 있다. 도 4(b)를 참조하면, 데이터 샘플링 장치는 데이터가 위치한 사분면의 구역에 따라 원 데이터를 복수의 데이터 모임으로 분류할 수 있다(도 4(b)에 도시된 좌측 그래프 참조). 즉, 데이터 샘플링 장치는, 1 사분면에 포함된 요소들을 하나의 데이터 모임으로 분류할 수 있고, 2 사분면에 포함된 요소들을 다른 하나의 데이터 모임으로 분류할 수 있고, 3 사분면에 포함된 요소들을 또 다른 하나의 데이터 모임으로 분류할 수 있고, 4 사분면에 포함된 요소들을 또 다른 하나의 데이터 모임으로 분류할 수 있다.

여기서, 도 4(a)에 도시된 우측 그래프는 도 4(a)에 도시된 좌측 그래프와 같이 데이터 종류에 따라 분류된 복수의 데이터 모임을 기반으로 생성된 샘플링 결과이고, 도 4(b)에 도시된 좌측 그래프는 도 4(b)에 도시된 좌측 그래프와 같이 데이터가 위치한 사분면의 구역에 따라 분류된 복수의 데이터 모임을 기반으로 생성된 샘플링 결과이다. 이와 같은 샘플링 결과에 의하면, 사용자의 관심에 따라 샘플링 결과가 달라지는 것을 알 수 있다.

'케이스 3'의 경우에 사용자의 관심은 데이터 종류의 비율이므로, 데이터 샘플링 장치는 데이터의 종류에 따라 원 데이터를 복수의 데이터 모임으로 분류할 수 있다(도 4(a)에 도시된 좌측 그래프 참조).

'케이스 4'의 경우에 사용자의 관심은 시공간 상의 특정 지점에서 트래픽 비율이므로, 데이터 샘플링 장치는 시공간 상의 특정 지점에서 트래픽을 데이터 모임으로 분류할 수 있다. 여기서, 시공간은 위도, 경도, 시간으로 정의할 수 있다.

원 데이터에 포함된 요소들을 복수의 데이터 모임으로 분류한 후, 데이터 샘플링 장치는 복수의 데이터 모임에 포함된 요소들 간의 비율에 따라, 복수의 데이터 모임의 가중치를 산출할 수 있다(S120).

복수의 데이터 모임의 가중치를 산출하는 방법에 대해 도 5를 참조하여 설명하며, 이때, 원 데이터에 400개의 요소들이 포함되어 있는 것으로 가정하고, 모든 데이터 모임의 가중치의 합은 '1'인 것으로 가정한다.

'케이스 1'의 경우에 데이터 종류의 비율을 보존하는 특성을 가지므로, 하나의 데이터 모임(C₁)에 100개의 요소들이 포함되어 있고, 다른 하나의 데이터 모임(C₂)에 300개의 요소들이 포함되어 있는 경우, 데이터 샘플링 장치는 복수의 데이터 모임의 가중치를 도 5(a)에 도시된 바와 같이 'C₁ = 0.25', 'C₂ = 0.75'로 나타낼 수 있다.(즉, C₁=100/400, C₂=300/400)

'케이스 2'의 경우에 사분면의 비율을 보존하는 특성을 가지므로, 하나의 데이터 모임(Q₁)에 100개의 요소들이 포함되어 있고, 다른 하나의 데이터 모임(Q₂)에 100개의 요소들이 포함되어 있고, 또 다른 하나의 데이터 모임(Q₃)에 100개의 요소들이 포함되어 있고, 또 다른 하나의 데이터 모임(Q₄)에 100개의 요소들이 포함되어 있는 경우, 데이터 샘플링 장치는 복수의 데이터 모임의 가중치를 도 5(b)에 도시된 바와 같이 'Q₁ = 0.25', 'Q₂ = 0.25', 'Q₃ = 0.25', 'Q₄ = 0.25'로 나타낼 수 있다.(즉, Q₁=100/400, Q₂=100/400, Q₃=100/400, Q₄=100/400)

'케이스 3'의 경우에 데이터 종류의 비율을 동일하게 보존하는 특성을 가지므로, 데이터 샘플링 장치는 데이터 모임에 포함된 요소의 개수에 관계없이 복수의 데이터 모임의 가중치를 도 5(c)에 도시된 바와 같이 'C₁ = 0.5', 'C₂ = 0.5'로 나타낼 수 있다. 즉, 복수의 데이터 모임의 가중치를 동일하게 할 수 있다.

'케이스 4'의 경우에 트래픽의 비율을 보존하는 특성을 가지므로, 데이터 샘플링 장치는 데이터 모임의 가중치를 시공간 상의 특정 지점에서 정규화된(Normalized) 트래픽의 비율으로 나타낼 수 있다.

복수의 데이터 모임의 가중치를 산출한 후, 데이터 샘플링 장치는 데이터 모임을 사용자의 관심을 기반으로 정의되는 노드(Node)로 변경할 수 있다(S130). 여기서, 노드는 하나의 점을 의미하는 것으로, 데이터 모임을 노드로 변경하는 것은 적어도 하나의 요소가 포함된 데이터 모임을 하나의 노드로 일반화하는 것으로 볼 수 있다.(즉, 도 4(a)를 도 5(a)와 같이 변경, 도 4(b)를 도 5(b)와 같이 변경)

'케이스 1'의 경우에 노드는 데이터의 종류이므로, 데이터 샘플링 장치는 데이터의 종류에 따라 분류된 하나의 데이터 모임을 하나의 노드로 변경할 수 있다(도 4(a), 도 5(a)에 도시된 그래프 참조).

'케이스 2'의 경우에 노드는 사분면이므로, 데이터 샘플링 장치는 사분면에 따라 분류된 하나의 데이터 모임을 하나의 노드로 변경할 수 있다(도 4(b), 도 5(b)에 도시된 그래프 참조).

'케이스 3'의 경우에 노드는 데이터의 종류이므로, 데이터 샘플링 장치는 데이터의 종류에 따라 분류된 하나의 데이터 모임을 하나의 노드로 변경할 수 있다(도 4(a), 도 5(c)에 도시된 그래프 참조).

'케이스 4'의 경우에 궤적은 서로 다른 시간에서 다양한 지점에 관련되므로, 노드는 시공간 상의 특정 지점이다. 따라서, 데이터 샘플링 장치는 시공간 상의 특정 지점에 따라 분류된 하나의 데이터 모임을 하나의 노드로 변경할 수 있다.

데이터 모임을 사용자의 관심을 기반으로 정의되는 노드로 변경한 후, 데이터 샘플링 장치는 노드 간의 거리를 산출할 수 있다(S140).

'케이스 1'에서 노드 간의 거리는 의미가 없으므로, 노드 간의 거리는 도 5(a)에 도시된 그래프와 같이 동일한 길이(예를 들어, '1')를 가질 수 있다. 그러나, 노드 간의 거리가 서로 다른 경우에 노드 간의 거리는 서로 다른 길이를 가질 수 있다. 예를 들어, 노드 1과 노드 2 사이의 거리가 노드 1과 노드 2 사이의 거리보다 긴 경우에 노드 간의 거리는 서로 다른 길이를 가질 수 있다.

'케이스 2'에서, 데이터 샘플링 장치는 사분면에 대한 노드 간의 길이를 산출할 수 있으며, 산출한 노드 간의 길이는 도 5(b)에 도시된 그래프와 같이 나타낼 수 있다.

'케이스 3'에서 노드 간의 거리는 '케이스 1'과 같이 의미가 없으므로, 노드 간의 거리는 도 5(c)에 도시된 그래프와 같이 나타낼 수 있다.

'케이스 4'에서 노드는 시공간 상의 특정 지점이므로, 노드 간의 거리는 아래 수학식 1을 통해 산출할 수 있다.

여기서, 'D(p, q)'는 '노드 p'와 '노드 q'간의 거리를 의미하고, 'p_x'는 '노드 p'에서 위도를 의미하고, 'p_y'는 '노드 p'에서 경도를 의미하고, 'p_t'는 '노드 p'에서 시간을 의미하고, 'q_x'는 '노드 q'에서 위도를 의미하고, 'q_y'는 '노드 q'에서 경도를 의미하고, 'q_t'는 '노드 q'에서 시간을 의미한다.

상술한 바와 같이, 데이터 샘플링 장치는 단계 S110, 단계 S120, 단계 S130, 단계 S140를 통해 관심 모델을 생성할 수 있다.

사용자의 관심이 반영된 관심 모델을 생성한 후, 데이터 샘플링 장치는 원 데이터에 포함된 요소들을 기반으로, 복수의 비교 모델을 생성할 수 있다(S210).

데이터 샘플링 장치는 원 데이터에 포함된 요소들을 관심 모델과 동일한 복수의 데이터 모임으로 분류할 수 있다(S211).

원 데이터에 포함된 요소들을 복수의 데이터 모임으로 분류한 후, 데이터 샘플링 장치는 복수의 데이터 모임에 포함된 적어도 하나의 요소를 기반으로, 복수의 비교 데이터 모임을 생성할 수 있다(S212). 즉, 데이터 샘플링 장치는 데이터 모임에 포함된 일부 요소들을 선택하고, 선택한 요소들을 기반으로 비교 데이터 모임을 생성할 수 있다.

복수의 비교 데이터 모임을 생성한 후, 비교 데이터 모임을 사용자의 관심에 따라 정의되는 비교 노드로 변경할 수 있다(S213)

'케이스 1'의 경우에 노드는 데이터의 종류이므로, 데이터 샘플링 장치는 데이터의 종류에 따라 분류된 하나의 데이터 모임으로부터 선택한 일부 요소들을 하나의 비교 노드로 변경할 수 있다(도 4(a), 도 5(a)에 도시된 그래프 참조).

'케이스 2'의 경우에 노드는 사분면이므로, 데이터 샘플링 장치는 사분면에 따라 분류된 하나의 데이터 모임으로부터 선택한 일부 요소들을 하나의 비교 노드로 변경할 수 있다(도 4(b), 도 5(b)에 도시된 그래프 참조).

'케이스 3'의 경우에 노드는 데이터의 종류이므로, 데이터 샘플링 장치는 데이터의 종류에 따라 분류된 하나의 데이터 모임으로부터 선택한 일부 요소들을 하나의 비교 노드로 변경할 수 있다(도 4(a), 도 5(c)에 도시된 그래프 참조).

'케이스 4'의 경우에 궤적은 서로 다른 시간에서 다양한 지점에 관련되므로, 노드는 시공간 상의 특정 지점이다. 따라서, 데이터 샘플링 장치는 시공간 상의 특정 지점에 따라 분류된 하나의 데이터 모임으로부터 선택한 일부 요소들을 하나의 비교 노드로 변경할 수 있다.

비교 데이터 모임을 비교 노드로 변경한 후, 데이터 샘플링 장치는 복수의 비교 노드에 포함된 적어도 하나의 요소 간의 비율에 따라 복수의 비교 노드의 가중치를 산출할 수 있다(S214).

'케이스 1'의 경우에 데이터 종류의 비율을 보존하는 특성을 가지므로, 하나의 비교 노드(C₁)에 100개의 요소들이 포함되어 있고, 다른 하나의 비교 노드(C₂)에 300개의 요소들이 포함되어 있는 경우, 데이터 샘플링 장치는 복수의 비교 노드의 가중치를 도 5(a)에 도시된 바와 같이 'C₁ = 0.25', 'C₂ = 0.75'로 나타낼 수 있다.

'케이스 2'의 경우에 사분면의 비율을 보존하는 특성을 가지므로, 하나의 비교 노드(Q₁)에 100개의 요소들이 포함되어 있고, 다른 하나의 비교 노드(Q₂)에 100개의 요소들이 포함되어 있고, 또 다른 하나의 비교 노드(Q₃)에 100개의 요소들이 포함되어 있고, 또 다른 하나의 비교 노드(Q₄)에 100개의 요소들이 포함되어 있는 경우, 데이터 샘플링 장치는 복수의 비교 노드의 가중치를 도 5(b)에 도시된 바와 같이 'Q₁ = 0.25', 'Q₂ = 0.25', 'Q₃ = 0.25', 'Q₄ = 0.25'로 나타낼 수 있다.

'케이스 3'의 경우에 데이터 종류의 비율을 동일하게 보존하는 특성을 가지므로, 데이터 샘플링 장치는 데이터 모임에 포함된 요소의 개수에 관계없이 복수의 비교 노드의 가중치를 도 5(c)에 도시된 바와 같이 'C₁ = 0.5', 'C₂ = 0.5'로 나타낼 수 있다.

'케이스 4'의 경우에 트래픽의 비율을 보존하는 특성을 가지므로, 데이터 샘플링 장치는 복수의 비교 노드의 가중치를 시공간 상의 특정 지점에서 정규화된 트래픽의 비율으로 나타낼 수 있다.

비교 노드에 포함된 요소의 비율에 따라 비교 노드의 가중치를 산출한 후, 데이터 샘플링 장치는 복수의 비교 노드 간의 거리를 산출할 수 있다(S215).

'케이스 1'에서 비교 노드 간의 거리는 의미가 없으므로, 비교 노드 간의 거리는 도 5(a)에 도시된 그래프와 같이 동일한 길이(예를 들어, '1')를 가질 수 있다. 그러나, 비교 노드 간의 거리가 서로 다른 경우에 비교 노드 간의 거리는 서로 다른 길이를 가질 수 있다.

'케이스 2'에서, 데이터 샘플링 장치는 사분면의 비교 노드 간의 길이를 산출할 수 있으며, 산출한 비교 노드 간의 길이는 도 5(b)에 도시된 그래프와 같이 나타낼 수 있다.

'케이스 3'에서 비교 노드 간의 거리는 '케이스 1'과 같이 의미가 없으므로, 비교 노드 간의 거리는 도 5(c)에 도시된 그래프와 같이 나타낼 수 있다.

'케이스 4'에서 비교 노드는 시공간 상의 특정 지점이므로, 비교 노드 간의 거리는 상술한 수학식 1을 통해 산출할 수 있다.

상술한 바와 같이, 데이터 샘플링 장치는 상술한 단계 S211, 단계 S212, 단계 S213, 단계 S214를 통해 비교 모델을 생성할 수 있다.

비교 모델을 생성한 후, 데이터 샘플링 장치는 관심 모델과 비교 모델 간의 거리를 산출할 수 있다(S220).

이하, 도 6을 참조하여 관심 모델과 비교 모델 간의 거리를 산출하는 방법에 대해 상세하게 설명한다.

도 6은 관심 모델의 예를 도시한 개념도로, 노드 간을 연결하는 선에 표시된 숫자는 노드 간의 거리를 의미하고, 노드 내부의 무늬는 노드의 가중치를 의미한다. 즉, 노드가 체크 무늬인 경우에 가중치는 '0.5'이고, 노드가 도트(dot) 무늬 경우에 가중치는 '0.25'이고, 무늬가 없는 노드의 경우에 가중치는 '0'이다.

두 개의 관심 모델 간의(또는, 관심 모델과 비교 모델 간의) 거리는 가중치의 차이 및 노드 간의 거리에 따라 정의될 수 있다. 도 6에 도시된 모델들을 직관적으로 살펴보면, 도 6(a)에 도시된 모델과 도 6(b)에 도시된 모델의 '노드 n₁'의 가중치는 동일하고 '노드 n₂'의 가중치는 유사하므로, 도 6(a)에 도시된 모델과 도 6(b)에 도시된 모델 간의 거리는 도 6(a)에 도시된 모델과 도 6(c)에 도시된 모델 간의 거리 보다 가까운 것(즉, 유사한 것)을 알 수 있다.

즉, 관심 모델 간에(또는, 관심 모델과 비교 모델 간에) 대응하는 노드의 가중치는 관심 모델 간의(또는, 관심 모델과 비교 모델 간의) 거리를 측정하기 위한 인자 중 하나인 것을 알 수 있다.

한편, 도 6(a)에 도시된 모델, 도 6(c)에 도시된 모델 및 도 6(d)에 도시된 모델에서 동일한 가중치를 가지는 노드의 개수는 서로 동일하다. 구체적으로 살펴보면, 도 6(a)에 도시된 모델의 '노드 n₂'과 도 6(c)에 도시된 모델의 '노드 n₂'은 동일한 가중치를 가지며, 도 6(a)에 도시된 모델의 '노드 n₁'과 도 6(d)에 도시된 모델의 '노드 n₁'은 동일한 가중치를 가진다.

이와 같은 경우, 관심 모델 간의(또는, 관심 모델과 비교 모델 간의) 거리를 측정하기 위해 노드 간의 거리는 중요하게 고려될 수 있다. 즉, 도 6(a)에 도시된 모델, 도 6(c)에 도시된 모델 및 도 6(d)에 도시된 모델에서, '노드 n₁'과 '노드 n₃' 간의 거리는 '노드 n₂'와 '노드 n₄' 간의 거리보다 짧기 때문에, 도 6(a)에 도시된 모델과 도 6(c)에 도시된 모델 간의 거리는 도 6(a)에 도시된 모델과 도 6(d)에 도시된 모델 간의 거리 보다 가까운 것(즉, 유사한 것)을 알 수 있다. 이는, '노드 n₁'과 '노드 n₃' 간을 바꾸는데 소요되는 작업량이 '노드 n₂'와 '노드 n₄' 간을 바꾸는데 소요되는 작업량보다 적기 때문이다.

상술한 바와 같이, 모델 간의 거리를 산출하는 문제를 노드 간을 바꾸는 문제로도 볼 수 있다.

따라서, 본 발명의 일 실시예에서 EMD(Earth Mover's Distance)를 사용하여 관심 모델과 비교 모델 간의 거리를 산출할 수 있다.

EMD는 아래 수학식 2, 수학식 3, 수학식 4와 같이 나타낼 수 있다.

여기서, 'S⁺'는 노드 {n₁,...,n_k}로 구성되는 그래프에서 정의되는 소스(Source)를 의미하고(즉, 본 발명의 일 실시예에서 관심 모델로 볼 수 있음), 'S^-'노드 {n₁,...,n_k}로 구성되는 그래프에서 정의되는 싱크(Sink)를 의미한다(즉, 본 발명의 일 실시예에서 비교 모델로 볼 수 있음). 따라서, 'S⁺'는 'S⁺= {(n₁,w₁ ⁺),...,(n_k,w_k ⁺)}'로 나타낼 수 있고, 'S^-'는 'S^- = {(n₁,w₁ ^-),...,(n_k,w_k ^-)}'로 나타낼 수 있으며, 'w_k ⁺'는 소스의 해당 노드에서 가중치를 의미하고, 'w_k ^-'는 싱크의 해당 노드에서 가중치를 의미한다. 또한, 'WORK(S⁺, S^-, F)'는 'S^-'를 'S⁺'와 유사하게 또는 동일하게 하는데 소요되는 작업량을 의미한다.

수학식 2에서 'f_ij'와 'd_ij'는 아래 수학식 3과 같이 정의할 수 있다.

여기서, 'f_ij'은 '노드 n_i'부터 '노드 n_j'까지 이동한 양을 의미하고, 'd_ij'는 '노드 n_i'부터 '노드 n_j'까지 거리를 의미하고, 'F'는 'f_ij'를 행렬(즉, F = [f_ij])로 나타낸 것이다.

상술한 수학식 2, 수학식 3을 기반으로 정의한 아래 수학식 4를 사용하여 최소 작업량을 산출할 수 있다.

수학식 4를 사용하여 도 6에 도시된 모델 간의 거리(또는 유사도)를 측정할 수 있다.

여기서, 도 6(a)에 도시된 모델을 관심 모델인 'A'라고 가정하고, 도 6(b)에 도시된 모델을 비교 모델인 'B'라고 가정하고, 도 6(c)에 도시된 모델을 다른 비교 모델인 'C'라고 가정하고, 도 6(d)에 도시된 모델을 또 다른 비교 모델인 'd'라고 가정한다.

이와 같은 가정을 통해, 'A'와 'B' 간의 거리는 '0.1'로 산출되고, 'A'와 'C' 간의 거리는 '0.1'로 산출되고, 'A'와 'D' 간의 거리는 '0.2'로 산출되므로, 'D'보다 'B, C'가 'A'에 더 가까운(또는, 유사한) 것을 알 수 있다.

본 발명의 일 실시예에 따른 데이터 샘플링 방법은, 복수의 비교 모델 중에서 관심 모델 간의 거리가 최소인 비교 모델을 샘플링 모델로 결정하는 것이므로, 샘플링 모델을 결정하기 위한 방정식을 아래 수학식 6과 같이 나타낼 수 있다.

여기서, 'M_u'는 관심 모델을 의미하고, 'M_s'는 비교 모델을 의미한다.

데이터 샘플링 장치는, 수학식 6을 사용하여 관심 모델과 비교 모델 간의 거리를 산출하고, 산출한 거리가 최소 거리인 경우에 해당 비교 모델을 샘플링 모델로 결정할 수 있고, 모든 비교 모델에 대하여 상술한 과정을 반복하여 수행할 수 있다.

한편, '케이스 4'의 경우에 웨이블릿 트랜스폼(Wavelet transform)을 사용하여 관심 모델과 비교 모델 간의 거리를 산출할 수 있다.

여기서, 'P'는 관심 모델을 의미하고, 'Q'는 비교 모델을 의미하고, 'W_λ(P-Q)'는 'P - Q' 간 차이에 대한 웨이블릿 트랜스폼 계수를 의미하고, 'λ, αλ'의 크기는 상술한 계수에 의존한다.

상술한 설명에서, 관심 모델을 생성한 후 비교 모델을 생성하는 것으로 설명하였으나, 비교 모델을 먼저 생성한 후 관심 모델을 생성할 수 있고, 관심 모델과 비교 모델을 동시에 생성할 수도 있다.

이상 본 발명의 일 실시예에 따른 데이터 샘플링 방법에 대해 상세하게 설명하였다. 이하 본 발명의 일 실시예에 따른 데이터 샘플링 방법에 의한 샘플링 결과가 원 데이터의 특징 또는 사용자의 관심을 얼마나 잘 반영하고 있는지에 대해 도 7 내지 도 9를 참조하여 살펴본다.

도 7은 샘플링 방법에 따른 샘플링 결과를 도시한 개념도로, 도 7(a)는 원 데이터를 사용하여 산출된 것이고, 도 7(b)는 랜덤(Random) 샘플링을 통해 산출된 것이고, 도 7(c)는 트래픽-보존(Traffic-preserving) 샘플링을 통해 산출된 것이고, 도 7(d)는 일정한 가중치를 가지는 트래픽-보존 샘플링을 통해 산출된 것이다.

도 7을 살펴보면, 트래픽-보존 샘플링을 통해 산출된 도 7(c)가 랜덤 샘플링을 통해 산출된 도 7(b)보다 원 데이터(즉, 트래픽 분포)를 더 잘 보존한 것을 알 수 있다. 즉, 도 7(a)에 도시된 아래쪽 그래프는 상대적으로 큰 트래픽을 가지는 두 개의 큰 블록을 포함하고, 두 개의 큰 블록 사이에 존재하는 블록들은 상대적으로 낮은 가중치를 가지는 것을 알 수 있으며, 이러한 경향은 랜덤 샘플링을 통해 산출된 도 7(b)보다 트래픽-보존 샘플링을 통해 산출된 도 7(c)에서 더 잘 나타나는 것을 알 수 있다. 또한, 도 7에 도시된 위쪽 도면에서 트래픽-보존 샘플링을 통해 산출된 도 7(c)가 랜덤 샘플링을 통해 산출된 도 7(b)보다 원 데이터의 주요 트래픽 흔적을 더 잘 반영한 것을 알 수 있다.

도 8은 원 데이터와 샘플링 방법에 따른 샘플링 결과 간의 차이를 도시한 개념도로, X축은 시간 윈도우(Window)를 의미하고, Y축은 각 노드에서 트래픽 비율의 차이에 대한 합을 의미한다. 여기서, 본 발명의 일 실시예에 따른 트래릭-보존 샘플링과 원 데이터의 차이는 랜덤 샘플링과 원 데이터의 차이보다 작은 것을 알 수 있다.

도 9는 샘플링 크기에 따른 샘플링 품질의 변화를 도시한 그래프로, X축은 샘플링 크기를 의미하고, Y축은 원 데이터와 각각의 샘플링 모델 간의 거리를 의미한다. 도 9(a)는 원 데이터와 각각의 샘플링 모델 간의 거리를 '1-norm distance'를 통해 산출한 것으로, 트래픽-보존 샘플링 모델과 원 데이터 간의 거리가 랜덤 샘플링 모델과 원 데이터 간의 거리보다 짧은 것을 알 수 있다. 도 9(b)는 원 데이터와 각각의 샘플링 모델 간의 거리를 'EMD distance'를 통해 산출한 것으로, 트래픽-보존 샘플링 모델과 원 데이터 간의 거리가 랜덤 샘플링 모델과 원 데이터 간의 거리보다 짧은 것을 알 수 있다.

이하 본 발명의 일 실시예에 따른 데이터 샘플링 장치에 대해 상세하게 설명한다.

도 10은 본 발명의 일 실시예에 따른 데이터 샘플링 장치를 도시한 블록도이다.

도 10을 참조하면, 본 발명의 일 실시예에 따른 데이터 샘플링 장치는, 원 데이터를 기반으로, 사용자의 관심이 반영된 관심 모델을 생성하는 제1 생성부(10), 원 데이터에 포함된 요소들을 기반으로, 복수의 비교 모델을 생성하는 제2 생성부(20) 및 관심 모델과 복수의 비교 모델 간을 비교한 결과에 따라, 샘플링 모델을 결정하는 결정부(30)를 포함한다.

제1 생성부(10)는, 사용자의 관심을 기반으로 원 데이터에 포함된 요소들을 복수의 데이터 모임으로 분류할 수 있고, 복수의 데이터 모임에 각각 포함된 적어도 하나의 요소 간의 비율에 따라 복수의 데이터 모임의 가중치를 산출할 수 있고, 데이터 모임을 사용자의 관심에 따라 정의되는 노드로 변경할 수 있고, 노드 간의 거리를 산출할 수 있다. 여기서, 제1 생성부(10)가 관심 모델은 생성하는 구체적인 내용은 상기 단계 S100에서 설명한 내용과 동일하다.

제2 생성부(20)는, 원 데이터에 포함된 요소들을 관심 모델과 동일한 복수의 데이터 모임으로 분류할 수 있고, 복수의 데이터 모임에 포함된 적어도 하나의 요소를 기반으로 복수의 비교 데이터 모임을 생성할 수 있고, 비교 데이터 모임을 사용자의 관심에 따라 정의되는 비교 노드로 변경할 수 있고, 복수의 비교 노드에 포함된 적어도 하나의 요소 간의 비율에 따라 복수의 비교 노드의 가중치를 산출할 수 있고, 복수의 비교 노드 간의 거리를 산출할 수 있다. 여기서, 제2 생성부(20)가 비교 모델을 생성하는 구체적인 내용은 상기 단계 S210에서 설명한 내용과 동일하다.

결정부(30)는, 관심 모델과 복수의 비교 모델 간의 거리를 산출할 수 있고, 산출한 거리 중 미리 정의된 기준을 만족하는 거리를 가지는 비교 모델을 샘플링 모델로 결정할 수 있다. 여기서, 결정부(30)가 관심 모델과 비교 모델 간의 거리를 산출하는 구체적인 방법은 상기 단계 S220에서 설명한 내용과 동일하고, 샘플링 모델을 결정하는 구체적인 내용은 상기 단계 S230에서 설명한 내용과 동일하다.

상술한 제1 생성부(10), 제2 생성부(20) 및 결정부(30)가 수행하는 기능은 임의의 프로세서(예를 들어, CPU)에서 수행될 수 있으며, 도 1 내지 도 3의 각 단계는 상기 임의의 프로세서에서 수행될 수 있다.

또한, 제1 생성부(10), 제2 생성부(20) 및 결정부(30)는 하나의 단일한 형태, 하나의 물리적인 장치 또는 하나의 모듈로 구현될 수 있다. 이뿐만 아니라, 제1 생성부(10), 제2 생성부(20) 및 결정부(30)는 각각 하나의 물리적인 장치 또는 집단이 아닌 복수의 물리적 장치 또는 집단으로 구현될 수 있다.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10: 제1 생성부
20: 제2 생성부
30: 결정부

Claims

데이터 샘플링 장치에서 수행되는 데이터 샘플링 방법에 있어서,
원 데이터(Raw data)를 기반으로, 사용자의 관심이 반영된 관심 모델(Interest model)을 생성하는 단계; 및
상기 원 데이터를 기반으로 샘플링(Sampling)한 모델과 상기 관심 모델 간의 거리를 비교한 결과에 따라, 샘플링 모델을 결정하는 단계를 포함하는 데이터 샘플링 방법.
청구항 1에서, 상기 관심 모델을 생성하는 단계는,
사용자의 관심을 기반으로, 상기 원 데이터에 포함된 요소(Element)들을 복수의 데이터 모임으로 분류하는 단계;
상기 복수의 데이터 모임에 포함된 적어도 하나의 요소 간의 비율에 따라, 상기 복수의 데이터 모임의 가중치를 산출하는 단계;
상기 데이터 모임을 사용자의 관심에 따라 정의되는 노드(Node)로 변경하는 단계; 및
복수의 상기 노드 간의 거리를 산출하는 단계를 포함하는 데이터 샘플링 방법.
청구항 2에 있어서, 상기 샘플링 모델을 결정하는 단계는,
상기 원 데이터에 포함된 요소들을 기반으로, 복수의 비교 모델을 생성하는 단계;
상기 관심 모델과 상기 복수의 비교 모델 간의 거리를 산출하는 단계; 및
산출한 거리 중 미리 정의된 기준을 만족하는 거리를 가지는 비교 모델을 샘플링 모델로 결정하는 단계를 포함하는 데이터 샘플링 방법.
청구항 3에 있어서, 상기 복수의 비교 모델을 생성하는 단계는,
상기 원 데이터에 포함된 요소들을 상기 관심 모델과 동일한 상기 복수의 데이터 모임으로 분류하는 단계;
상기 복수의 데이터 모임에 포함된 적어도 하나의 요소를 기반으로, 복수의 비교 데이터 모임을 생성하는 단계;
상기 비교 데이터 모임을 사용자의 관심에 따라 정의되는 비교 노드로 변경하는 단계;
복수의 상기 비교 노드에 포함된 적어도 하나의 요소 간의 비율에 따라, 복수의 상기 비교 노드의 가중치를 산출하는 단계; 및
복수의 상기 비교 노드 간의 거리를 산출하는 단계를 포함하는 데이터 샘플링 방법.
원 데이터(Raw data)를 기반으로, 사용자의 관심이 반영된 관심 모델(Interest model)을 생성하는 제1 생성부;
상기 원 데이터에 포함된 요소들을 기반으로, 복수의 비교 모델을 생성하는 제2 생성부; 및
상기 관심 모델과 상기 복수의 비교 모델 간의 거리를 비교한 결과에 따라, 샘플링 모델을 결정하는 결정부를 포함하는 데이터 샘플링 장치.
청구항 5에 있어서, 상기 제1 생성부는,
사용자의 관심을 기반으로 상기 원 데이터에 포함된 요소들을 복수의 데이터 모임으로 분류하고, 상기 복수의 데이터 모임에 포함된 적어도 하나의 요소 간의 비율에 따라 상기 복수의 데이터 모임의 가중치를 산출하고, 상기 데이터 모임을 사용자의 관심에 따라 정의되는 노드로 변경하고, 복수의 상기 노드 간의 거리를 산출하는 것을 특징으로 하는 데이터 샘플링 장치.
청구항 6에 있어서, 상기 제2 생성부는,
상기 원 데이터에 포함된 요소들을 상기 관심 모델과 동일한 상기 복수의 데이터 모임으로 분류하고, 상기 복수의 데이터 모임에 포함된 적어도 하나의 요소를 기반으로 복수의 비교 데이터 모임을 생성하고, 상기 비교 데이터 모임을 사용자의 관심에 따라 정의되는 비교 노드로 변경하고, 복수의 상기 비교 노드에 포함된 적어도 하나의 요소 간의 비율에 따라 복수의 상기 비교 노드의 가중치를 산출하고, 복수의 상기 비교 노드 간의 거리를 산출하는 것을 특징으로 하는 데이터 샘플링 장치.
청구항 5에 있어서, 상기 결정부는,
상기 관심 모델과 상기 복수의 비교 모델 간의 거리를 산출하고, 산출한 거리 중 미리 정의된 기준을 만족하는 거리를 가지는 비교 모델을 샘플링 모델로 결정하는 것을 특징으로 하는 데이터 샘플링 장치.