KR100903961B1 - 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템 - Google Patents

시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템 Download PDF

Info

Publication number
KR100903961B1
KR100903961B1 KR1020070132582A KR20070132582A KR100903961B1 KR 100903961 B1 KR100903961 B1 KR 100903961B1 KR 1020070132582 A KR1020070132582 A KR 1020070132582A KR 20070132582 A KR20070132582 A KR 20070132582A KR 100903961 B1 KR100903961 B1 KR 100903961B1
Authority
KR
South Korea
Prior art keywords
signature
query
feature vector
level
dimensional data
Prior art date
Application number
KR1020070132582A
Other languages
English (en)
Other versions
KR20090065130A (ko
Inventor
이훈순
이미영
김명준
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070132582A priority Critical patent/KR100903961B1/ko
Priority to US12/107,419 priority patent/US8032534B2/en
Publication of KR20090065130A publication Critical patent/KR20090065130A/ko
Application granted granted Critical
Publication of KR100903961B1 publication Critical patent/KR100903961B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 2레벨 시그니처를 기반으로 하여 고차원의 데이터에 대한 내용 기반 검색 방법 및 그 시스템에 관한 것이다.
본 발명에 따른 2레벨 시그니처를 이용한 고차원 데이터 검색 시스템은 고차원 데이터 객체로부터 특징벡터를 추출하고 이를 출력하는 특징벡터 추출수단과, 상기 고차원 데이터 객체에 대응하는 객체 식별자를 생성하고 출력하는 식별자 생성수단과, 상기 특징벡터 및 상기 객체 식별자를 기초로 2레벨 시그니처 색인을 생성하는 색인 생성수단과, 상기 고차원 데이터 객체 및 상기 2레벨 시그니처 색인을 저장하는 저장수단 및 질의 특징벡터를 기초로 생성된 시그니처를 이용하여 상기 2레벨 시그니처 색인에서 질의 고차원 데이터 객체를 검색하는 검색수단를 포함하는 것을 특징으로 한다.
본 발명에 따르면, 질의를 빠르고 정확하게 처리하게 할 수 있으며, 질의 특징벡터에 대한 시그니처를 보강하여 검색에 이용함으로써 검색의 정확도를 높일 수 있다.
멀티미디어 데이터 검색, 고차원 데이터 색인, 시그니처 검색, 보정된 시그니처 검색

Description

시그니처 파일을 이용한 고차원 데이터 색인 및 검색 방법과 그 시스템 {Indexing And Searching Method For High-Demensional Data Using Signature File And The System Thereof}
본 발명은 고차원의 특징벡터 데이터를 이용한 멀티미디어 객체에 대한 내용 기반 검색 방법 및 그 시스템에 관한 것으로서, 특히 2레벨 시그니처 및 보정된 질의 시그니처를 이용하여 질의를 빠르고 정확하게 처리하게 하는 것에 대한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다 [과제관리번호:2007-S-016-01, 과제명: 저비용 대규모 글로벌 인터넷 서비스 솔루션 개발].
컴퓨팅 기술 및 미디어 기술의 발달로 인해 정보들은 문자뿐 아니라 이미지, 오디오, 비디오를 포함하는 멀티미디어 형태로 표현된다. 이러한 멀티미디어 정보를 다루는데 있어서 주된 문제는 검색의 효율성이다. 즉, 얼마나 빠르고 정확하게 사용자가 원하는 정보를 포함하고 있는 멀티미디어 데이터를 찾을 수 있는가가 문제된다. 일반적으로 이미지, 오디오, 비디오와 같은 멀티미디어 객체로부터 검색을 수행하는 방법으로 고차원의 특징벡터 데이터를 추출하여 이를 이용하여 검색을 수행하는 내용 기반 검색 방법이 있다.
이러한 멀티미디어 객체에 대해 내용 기반 검색을 하는 대표적인 질의 (Query) 유형으로는 범위 질의(Range Query)와 k-최근접 질의(k-Nearest Neighbor Query)가 있다.
범위 질의는 일정 범위의 유사도를 만족하는 것을 찾는 질의이고, k-최근접 질의는 유사도가 높은 k개를 찾는 질의이다. 이러한 질의에서 유사도에 대한 계산은 일반적으로 유클리디언 거리 (Euclidean Distance)를 계산하는 방법이 많이 사용된다.
이러한 고차원 데이터에 대한 검색시 빠른 검색을 보장하기 위해서는 유사도 계산과 데이터 읽기를 줄이는 것이 중요하다. 이를 위하여 고차원 데이터에 대한 색인기법을 사용하고 있으며, 이는 크게 트리 기반 색인을 구축하는 방법과 필터링 기반 방법으로 나누어서 제안되고 있다.
트리 기반 고차원 색인 기법들 (예컨대, R-Tree, X-Tree, SR-Tree, M-Tree)은 데이터 공간에 흩어져 있는 객체들을 효율적으로 검색하기 위해, 근접한 객체들의 집합을 나타내는 사각형이나 원을 검색 단위로 사용하였다. 그러나, 데이터의 차원이 증가할수록 근접한 객체들의 집합을 나타내는 사각형이나 원 사이에 겹침 영역이 확대됨으로 인해 검색 성능이 기하급수적으로 떨어져서 순차 검색보다도 성능이 나빠지는 차원의 저주(dimensional curse) 문제가 발생하여 이에 대한 개선이 요구된다.
종래의 필터링 기반 방법 (예컨대, VA-File, CBF) 은 시그니처(signature)와 특징벡터를 사용하여 필터링을 수행함으로써 고차원 데이터에 대한 검색 성능을 개선한 방법으로, 시그니처 파일을 모두 순차적으로 읽어서 1차 필터링을 한 후에 특징벡터를 읽는 방법이다.
그러나, 이 방법은 시그니처를 위한 비트의 크기를 적게 하면 정확도가 떨어지고 시그니처 비트의 크기를 크게 하면 읽어야 하는 데이터의 크기가 많아지는 문제가 존재한다.
본 발명은 멀티미디어 객체에 대한 내용 기반 검색을 하는데 있어서, 고차원의 특징벡터 데이터를 이용하여 사용자의 질의를 빠르고 정확하게 처리하게 하는 방법 및 시스템을 제공하는데 그 목적이 있다.
전술한 목적을 이루기 위하여, 본 발명에 따른 2레벨 시그니처를 이용한 고차원 데이터 검색 시스템은 고차원 데이터 객체로부터 특징벡터를 추출하고 이를 출력하는 특징벡터 추출수단과, 상기 고차원 데이터 객체에 대응하는 객체 식별자를 생성하고 출력하는 식별자 생성수단과, 상기 특징벡터 및 상기 객체 식별자를 기초로 2레벨 시그니처를 포함하는 고차원 데이터 색인을 생성하는 색인 생성수단과, 상기 고차원 데이터 객체 및 상기 고차원 데이터 색인을 저장하는 저장수단 및 질의 특징벡터에서 산출한 2레벨 질의 시그니처 및 상기 고차원 데이터 색인을 이용하여 상기 저장수단으로부터 고차원 데이터 객체를 추출하는 검색수단을 제공한다.
본 발명의 다른 면에 따라, 본 발명에 따른 2레벨 시그니처를 이용한 고차원 데이터의 검색 방법은, 질의 특징벡터를 포함하는 검색 입력정보를 입력받는 단계와, 상기 질의 특징벡터를 이용하여 1단계 질의 시그니처 및 2단계 질의 시그니처를 생성하는 단계와, 상기 2단계 질의 시그니처를 기초로 2단계 시그니처 파일에서 1차 후보 셀 집합을 구하는 1차 필터링 단계와, 상기 1단계 질의 시그니처를 기초로 상기 1차 후보 셀 집합에서 2차 후보 셀 집합을 구하는 2차 필터링 단계 및 상기 질의 특징벡터를 기초로 상기 2차 후보 셀 집합으로부터 고차원 데이터 객체를 선택하여 검색 결과를 반환하는 단계를 제공한다.
삭제
삭제
본 발명에 따르면, 2 레벨 시그니처 파일을 이용한 고차원 색인 구조를 이용함으로써 데이터 읽기는 적은 비트를 사용하는 시그니처를 이용하는 색인과 유사하고, 정확도는 많은 비트를 사용하는 시그니처를 이용하는 색인과 유사한 효과를 얻을 수 있다.
또한, 본 발명에서의 검색 방법은 시그니처를 이용한 고차원 데이터에 대한 색인을 통한 검색을 함에 있어서, 질의 특징벡터에 대한 시그니처를 보강하여 검색에 이용함으로써 검색의 정확도를 높일 수 있다.
이하에서는, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다.
도 1은 본 발명에 따른 고차원 데이터의 검색 시스템의 일실시예를 도시한 구성도이다.
본 발명이 적용되는 고차원 색인 시스템은 도 1에 도시된 바와 같이, 고차원 데이터 객체(110)(이하, 멀티미디어 객체라 칭한다)를 저장수단(160)에 저장하고 객체 식별자(121)를 반환하는 식별자 생성수단(120), 멀티미디어 객체(110)로부터 특징벡터(131)를 추출하는 특징벡터 추출수단(130), 식별자 생성수단이 전달하는 객체 식별자(121)와 특징벡터 추출수단이 전달하는 특징벡터(131)를 이용하여 색인을 생성하는 색인 생성수단(140), 사용자가 입력한 멀티미디어 객체(110)로부터 특징벡터 추출수단(130)을 통해 추출한 특징벡터(131)를 이용하여 저장수단(160)에 저장된 유사한 객체를 검색하는 검색수단(150)을 포함한다.
도 2는 본 발명에 따른 N차원 벡터를 시그니처로 변환하는 일실시예를 도시한 개략도이다.
시그니처란, 공간을 나눈 여러 조각 중 특정 셀을 고유하게 지칭할 수 있도록 0과 1의 조합으로 표현한 것을 의미한다.
필터링 기반 색인에서 데이터 공간은 여러 개의 셀로 분할되며, 각 셀은 메모리 사용의 최적화를 위해 시그니처로 표현된다. 이때, 고차원 공간 상에서 멀티미디어 객체의 특징을 표현하는 특징벡터는 그 벡터를 포함하는 셀의 시그니처로 변환되어 저장된다.
N 차원의 특징벡터를 각 차원마다 b 비트를 가지는 시그니처로 변환하기 위해서는 다음의 수학식 1에 의해 각 차원의 특징벡터를 변환해야 한다.
Figure 112007090718691-pat00001
이때, F i 는 i-번째 차원의 특징벡터 값을 나타내는데, 이 값은 0.0 이상이고 1.0 미만의 값을 가진다. S i 는 i-번째 차원의 특징벡터에 대한 시그니처를, b 는 특징벡터 각 차원마다 할당되는 시그니처 비트 수를, 그리고 [ ]는 소수자리 버림을 나타낸다.
N 차원의 특징벡터를 각 차원마다 b 비트를 가지는 시그니처로 변환한다면, 전체 시그니처는 b * N 비트로 표현된다. 예를 들어 5차원의 특징벡터 (0.124, 0.352, 0.314, 0.5, 0.435)는 시그니처 비트의 수(b)가 4라고 할 때, 20 비트의 시그니처 (0001 0101 0101 1000 0110)으로 변환되는 것을 알 수 있다..
삭제
도 3은 본 발명에 따른 2레벨 시그니처를 이용한 색인의 구성을 도시화한 개략도이다.
본 발명이 적용되는 필터링 기반 색인은 1단계 시그니처 파일(320), 2단계 시그니처 파일(310)로 구성된다. 2단계 시그니처 파일(310)은 1단계 시그니처 파일(320)보다 더 많이 요약된 형태의 2단계 시그니처로 구성된다. 예컨대, 1단계 시그니처가 8비트로 구성된다면, 2단계 시그니처는 4비트로 구성될 수 있다.
1단계 시그니처 파일을 구성하는 엔트리(321) (이하, 1단계 시그니처 엔트리)들은 실제 특징벡터에 대한 1단계 시그니처 값 및 실제 특징벡터 식별자 값을 가진다. 2단계 시그니처 파일에 들어있는 엔트리(311) (이하, 2단계 시그니처 엔트리)는 특징벡터에 대한 2단계 시그니처 및 동일한 특징벡터의 1단계 시그니처 엔트리를 가리키는 1단계 시그니처 엔트리 식별자를 가진다.
도 4는 본 발명에 따른 2레벨 시그니처를 이용한 고차원 데이터 색인생성 방법의 순서도이다.
고차원 데이터에 대한 색인을 생성하기 위해 특징벡터, 객체 식별자, 1단계 시그니처 파일 식별자, 2단계 시그니처 파일 식별자의 정보를 포함하는 색인 생성 관련 정보를 입력으로 받는다 (S401).
특징벡터 추출수단(130)에 의해 추출된 특징벡터(131)와 식별자 생성수단(120)에 의해 멀티미디어 객체(110)로부터 생성된 객체 식별자(121) 정보를 특징벡터 파일(410)에 저장한다 (S402).
특징벡터(131)로부터 1단계 시그니처를 생성한 후(S403), 생성된 1단계 시그니처와 특징벡터 식별자를 포함하는 1단계 시그니처 엔트리를 생성하여 이를 1단계 시그니처 파일에 저장한다.(S404). 특징벡터(131)로부터 시그니처를 생성하는 방법은 상기 도 2에서 도시된 실시예를 적용하는 것이 바람직하다.
특징벡터(131)에서 2단계 시그니처를 생성하고, 생성된 2단계 시그니처와 S404과정에서 생성된 시그니처 엔트리에 대응되는 1단계 시그니처 엔트리 식별자(421)를 포함하여 2단계 시그니처 엔트리를 생성한다 (S405). 이때, 2단계 시그니처는 1단계 시그니처보다 더 요약된 형태의 시그니처이다. 이렇게 생성된 2단계 시그니처 엔트리를 파일(430)에 저장한다 (S406).
특징벡터(131)의 각 차원의 엔트리마다 상기 S401 내지 S406의 과정을 수행한다.
도 5는 본 발명에 따른 2 레벨 시그니처를 이용한 검색 방법을 나타내는 순서도이다.
본 발명에 따른 검색 방법은 2 레벨의 시그니처를 이용함으로써 2번에 걸쳐서 질의 결과에 포함되는 데이터를 줄이고, 최종적으로 질의 결과를 생성한다.
사용자가 입력한 멀티미디어 객체와 유사한 것을 검색하기 위해서 사용자 질의한 멀티미디어 객체로부터 추출한 사용자 질의 특징벡터를 포함하는 검색 입력정보를 입력으로 받는다 (S501). 이때 검색 입력정보는 특징벡터 파일 식별자, 1단계 시그니처 파일 식별자, 2단계 시그니처 파일 식별자 등을 더 포함할 수 있다.
상기 입력받은 사용자 질의 특징벡터를 이용하여 1단계 질의 시그니처와 2 단계 질의 시그니처를 생성한다 (S502). 생성된 2단계 질의 시그니처를 이용하여 2 단계 시그니처 파일의 엔트리를 탐색하면서 2단계 질의 시그니처와의 유사도를 계산하고, 유사도가 높은 것을 찾아 1차 후보 셀 집합을 구성하는 1차 필터링을 수행한다 (S503).
이때 2단계 시그니처 파일을 탐색하는 기법으로 순차탐색을 통하는 것이 바람직하나, 기타 다양한 탐색기법이 사용될 수 있다.
유사도를 계산하기 위하여 k-최근접 질의를 적용하는 경우, 시그니처를 이용한 검색이 요약된 정보로부터 유사한 것을 찾는 것이므로, 찾고자 하는 것이 모두 포함되지 않을 가능성이 있다. 따라서 이를 보정하기 위해 찾고자 하는 것이 모두 포함될 수 있도록, k의 2배 혹은 4배수로 후보 셀 집합을 구성하는 범위 보정을 수행하는 것이 바람직하다.
이렇게 구해진 1차 후보 셀 집합에 포함된 원소(예컨대 2단계 시그니처 엔트리)에 포함되어 있는 1단계 시그니처 엔트리의 식별자를 이용하여 1차 후보 셀 집합의 원소가 포인팅하는 1단계 시그니처 엔트리를 추적한다. 추적된 1단계 시그니처 엔트리와 1단계 질의 시그니처와의 유사도를 계산하여 유사도가 높은 엔트리를 포함하는 2차 후보 셀 집합을 구성하는 2차 필터링을 수행한다 (S504).
k-최근접 질의의 경우, 2차 후보 셀 집합을 구하는데 있어서도 요약 정보를 이용함으로써 발생하는 문제를 보완하기 위해, 셀 집합의 원소 수를 k의 1.5배 혹은 2배 수가 되도록 적절히 늘려서 구성한다.
2차 후보 셀 집합의 엔트리가 가리키는 특징벡터와 질의의 특징벡터를 이용하여 유사도를 계산하여 검색 결과를 구성하고, 질의의 결과를 반환한다 (S505).
범위 질의의 경우, k-최근접 질의와 마찬가지로 후보 셀 집합을 구할 때는 범위에 해당하는 값을 늘려서 구하고, 실제 특징벡터와 비교를 할 때 범위를 엄격히 적용하는 것이 바람직하다.
이러한 시그니처를 이용한 탐색은 시그니처가 요약 정보이므로 잘못된 데이터가 검색 결과에 포함되거나 (false hit), 검색 결과에 포함되어야 하는 데이터가 포함되지 않을 (miss hit) 가능성이 있어서 정확도가 떨어진다.
상기 k-최근접 질의를 적용한 실시예에서는, 정확도 향상을 위해 시그니처에 대한 탐색시 원래 검색해야 하는 개수보다 많은 것을 후보 셀 집합에 포함함으로써, 즉 탐색 개수를 증가시킴으로써 보정하는 방법을 설명하였다.
그러나, 탐색 개수 증가에 의한 보정뿐만 아니라 질의 특징벡터에 대한 질의 시그니처 생성 시 질의 시그니처를 여러 개를 생성함으로써, 즉 질의 보정을 함으로써 정확도를 향상시킬 수도 있다. 질의 보정은 질의 시그니처 생성시 특징벡터가 시그니처 값의 경계가 되는 곳에 근접해 있으면 두 개의 시그니처 값을 갖도록 함으로써 보정하는 것으로서, 이에 대하여 이하에서 도 6을 참고하여 상세히 설명한다.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
도 6은 보정된 질의 시그니처 생성 방법에 대한 개략적인 흐름도이다.
시그니처 값을 보정하기 위한 보정값 cv를 하기의 수학식 2 에 의해 구한다 (S601). 이때, Fi i-번째 차원의 사용자 질의 특징벡터, b는 시그니처 비트 수, c는 보정 상수를 나타낸다. 상기 보정 상수 c는 0보다 크고 0.5보다 작거나 같은 값으로, 적용되는 응용에 따라 달리 부여한다. 즉, 학습에 의해 구해지는 값이다.
삭제
Figure 112007090718691-pat00002
상기 보정값 cv가 구해지면, 질의 특징벡터의 i-번째 차원 값에 상기 보정값 cv 을 더한 시그니처 U(Si)를 수학식 3을 이용해 구하고, 보정값을 뺀 시그니처 L(Si)를 수학식 4를 이용해 구한다 (S602).
Figure 112007090718691-pat00003
Figure 112007090718691-pat00004
만약 특징벡터가 경계선 근처에 있었다면 상기 시그니처 U(Si)와 시그니처 L(Si)값이 다를 것이고, 그렇지 않다면 두 값이 같을 것이다. 경계선 근처에 특징벡터가 위치하는지를 알아보기 위해 두 값이 같은지 비교한다 (S603).
만약 상기 두 시그니처 값이 같으면 특징벡터는 경계선 근처에 있는 것이 아니므로, U(Si)를 질의 특징벡터의 i-번째 차원의 보정된 질의 시그니처 값으로 한다 (S605). 만약 상기 두 시그니처 값을 비교한 결과 두 값이 다르면, U(Si)와 L(Si) 두 값 모두를 질의 특징벡터의 i-번째 차원의 보정된 질의 시그니처 값으로 한다 (S604). 상기와 같이, 각 차원의 보정된 시그니처 Sc i 값들을 구한 후에 이들을 이용하여 질의 특징벡터에 대한 시그니처를 생성한다. 만약 경계선 근처에 있는 값이 있어서 2개의 보정된 시그니처 값을 갖는 차원이 하나 이상 존재한다면, 해당 차원에 대한 시그니처 값이 다른, 질의 특징벡터에 대한 보정된 질의 시그니처가 2개 이상 생성된다.
삭제
삭제
삭제
도 7은 본 발명에 따른 보정된 질의 시그니처 생성의 일실시예를 도시한 개략도이다.
5차원의 특징벡터 (0.124, 0.352, 0.314, 0.5, 0.435)가 존재한다고 가정하고, 이것을 시그니처 추출을 위한 전술한 수학식 1을 통하여 연산하면, (0001 0101 0101 1000 0110)의 값의 시그니처 Si가 추출된다.여기에 보정 상수c를 0.2로 하여 전술한 수학식 2, 수학식 3과 수학식 4를 적용하여 보정한다.
즉, 시그니처 Si (0001 0101 0101 1000 0110)을 기초로, 시그니처 U(Si) (0001 0101 0101 1000 0110)와 시그니처 L(Si) (0001 0101 0101 0111 0110)을 구할 수 있다.
상기 보정의 결과, 1 내지 3 및 5번째 차원은 모두 U(Si)와 L(Si) 의 값은 같지만, 4번째 차원의 특징벡터에 대한 U(Si)와 L(Si)의 값은 0111과 1000으로 다르다. 이는 4번째 차원의 특징벡터 값인 0.5가 시그니처를 위한 경계선 근처 값이기 때문이다. 이러한 경우, 즉 특정 차원의 특징벡터에 대한 보정을 위한 두 시그니처 값 U(Si)와 L(Si)이 다른 경우에는, 해당 차원에 대한 시그니처 값이 2개 존재하는 것으로 하여 질의 특징벡터에 대한 시그니처를 생성한다.
도 7의 예에서는 4번째 차원의 시그니처 값이 다른 (0001 0101 0101 0111 0110) 과 (0001 0101 0101 1000 0110)의 두 개가 보정된 질의 시그니처로 추출된다.
보정된 질의 시그니처를 이용한 검색 방법은 도 5에서 전술한 방법과 동일하다. 다만, 보정된 질의 시그니처를 생성한 후에 보정된 질의 시그니처 모두에 대해 시그니처 파일에 대한 탐색(S503, S504)을 수행한다. 각각에 대한 후보 셀 집합을 구한 후에 이들 집합에 대해 합집합 연산을 하여 모두 질의 결과 후보 셀 집합에 포함시킨다.
보정된 질의 시그니처가 많은 경우에는 질의 시그니처에 대한 탐색 소요 시간이 많이 증가하므로, 질의 시그니처 보정을 통한 탐색이 아닌 개수에 의한 보정 방법을 이용하는 것이 적합하다. 또한, 개수에 의한 보정과 질의 시그니처 보정을 통한 보정의 두 가지 방법을 모두 사용하여 검색 결과의 정확도를 높일 수도 있다.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
본 발명의 보정된 질의 시그니처 생성 방법과 보정된 질의 시그니처를 이용한 탐색 방법은, 본 발명의 색인 구조뿐 아니라 시그니처를 이용한 요약 정보에 기반한 고차원 데이터 색인 장치 및 방법에 모두 적용될 수 있음은 자명한 사실일 것이다.
이상, 바람직한 실시예와 첨부도면의 참조하여 본 발명의 구성에 대하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서 본 발명의 기술적 사상의 범주내에서 다양한 변형과 변경이 가능함은 물론이다.
따라서, 본 발명의 권리범위는 이하의 특허청구범위의 기재에 의하여 정하여 져야 할 것이다.
도 1은 본 발명에 따른 고차원 데이터의 검색 시스템의 일실시예를 도시한 구성도.
도 2는 본 발명에 따른 N차원 벡터를 시그니처로 변환하는 일실시예를 도시한 개략도.
도 3은 본 발명에 따른 2레벨 시그니처를 이용한 색인의 구성을 도시화한 개략도.
도 4는 본 발명에 따른 2레벨 시그니처를 이용한 색인 생성 방법을 나타내는 순서도.
도 5는 본 발명에 따른 2레벨 시그니처를 이용한 검색 방법을 나타내는 순서도.
도 6은 보정된 시그니처 생성 방법에 대한 개략적인 흐름도.
도 7은 본 발명에 따른 보정된 질의 시그니처 생성의 일실시예를 도시한 개략도.

Claims (13)

  1. 고차원 데이터의 검색 시스템에 있어서,
    고차원 데이터 객체로부터 특징벡터를 추출하여 출력하는 특징벡터 추출수단과,
    상기 고차원 데이터 객체에 대응하는 객체 식별자를 생성하고 출력하는 식별자 생성수단과,
    상기 특징벡터가 속하는 데이터 공간 상의 영역을 2진수로 나타내는, 제1 시그니처와 상기 제1 시그니처보다 적은 비트 수를 갖는 제2 시그니처를 생성하고, 생성된 제1 및 제2 시그니처로 이루어진 2 레벨의 시그니처와 상기 객체 식별자를 포함하는 고차원 데이터 색인을 생성하는 색인 생성수단과,
    상기 고차원 데이터 객체 및 상기 고차원 데이터 색인을 저장하는 저장수단 및
    입력된 질의로부터 추출한 고차원의 질의 특징벡터가 속하게 되는 데이터 공간 상의 영역을 2진수로 나타내는, 제1 질의 시그니처와 상기 제1 질의 시그니처보다 적은 비트 수를 갖는 제2 질의 시그니처를 생성하고, 상기 고차원 데이터 색인을 이용하여 상기 저장수단으로부터 상기 제1 및 제2 질의 시그니처와의 유사도가 높은 시그니처를 갖는 고차원 데이터 객체들을 추출하는 검색수단
    을 포함하는 것을 특징으로 하는 2 레벨 시그니처를 이용한 고차원 데이터 검색 시스템.
  2. 제1항에 있어서, 상기 색인 생성수단은,
    상기 특징벡터와 상기 객체 식별자를 포함하는 특징벡터 파일, 상기 특징벡터의 식별자와 상기 제1 시그니처를 포함하는 하나 이상의 제1 시그니처 엔트리로 구성되는 제1 시그니처 파일 및 상기 제1 시그니처 엔트리의 식별자 및 상기 제2 시그니처를 포함하는 하나 이상의 제2 시그니처 엔트리로 구성되는 제2 시그니처 파일을 생성하는 것
    을 특징으로 하는 2 레벨 시그니처를 이용한 고차원 데이터 검색 시스템.
  3. 제2항에 있어서, 상기 검색수단은,
    상기 제2 시그니처 파일을 탐색하고, 상기 제2 질의 시그니처와의 유사도가 높은 제2 시그니처를 포함하는 제2 시그니처 엔트리를 검출하여 제1 후보 집합을 구성하며, 상기 제1 시그니처 파일에서 상기 제1 후보 집합에 포함된 제2 시그니처 엔트리의 제1 시그니처 엔트리 식별자가 지시하는 제1 시그니처 엔트리를 탐색하고, 상기 제1 질의 시그니처와의 유사도가 높은 제1 시그니처를 포함하는 제1 시그니처 엔트리를 검출하여 제2 후보 집합을 구성하며, 상기 제2 후보 집합에 포함된 제1 시그니처 엔트리의 특징벡터 지시자가 지시하는 특징벡터와 상기 질의 특징벡터의 유사도를 산출하여, 높은 유사도를 갖는 특징벡터에 대응하는 데이터 객체를 추출하는 것
    을 특징으로 하는 2 레벨 시그니처를 이용한 고차원 데이터 검색 시스템.
  4. 제3항에 있어서, 상기 검색수단은,
    상기 질의 특징벡터의 차원 값에 대하여, 상기 차원 값으로부터 소정 범위 내에서, 서로 다른 복수의 질의 시그니처 차원 값이 생성되는 경우에는, 상기 복수의 질의 시그니처 차원 값에 대응하는 복수의 제1 및 제2 질의 시그니처를 생성하는 것
    을 특징으로 하는 2 레벨 시그니처를 이용한 고차원 데이터 검색 시스템.
  5. 제3항 또는 제4항에 있어서, 상기 검색수단은,
    상기 제1 및 제2 후보 집합의 원소 수를 증가시키는 검색 범위 보정을 수행하는 것
    을 특징으로 하는 2 레벨 시그니처를 이용한 고차원 데이터 검색 시스템.
  6. 고차원 데이터의 특징벡터 및 객체 식별자를 포함하는 색인생성 관련 정보를 입력받는 단계와,
    상기 특징벡터와 상기 객체 식별자를 특징벡터 파일에 저장하는 단계와,
    상기 특징벡터가 속하는 데이터 공간 상의 영역을 2진수로 나타내는, 제1 시그니처와 상기 제1 시그니처보다 적은 비트수를 가지는 제2 시그니처를 2 레벨의 시그니처로서 생성하는 단계
    를 포함하는 것을 특징으로 하는 2 레벨 시그니처를 이용한 고차원 데이터의 색인 생성 방법.
  7. 제6항에 있어서, 상기 색인생성 관련 정보는,
    특징벡터 식별자, 제1 시그니처 파일 식별자 및 제2 시그니처 파일 식별자를 더 포함하는 것
    을 특징으로 하는 2 레벨 시그니처를 이용한 고차원 데이터의 색인 생성 방법.
  8. 제7항에 있어서,
    상기 제1 시그니처 및 상기 특징벡터 식별자를 포함하는 제1 시그니처 엔트리를 제1 시그니처 파일에 저장하는 단계
    를 더 포함하는 것을 특징으로 하는 2 레벨 시그니처를 이용한 고차원 데이터의 색인 생성 방법.
  9. 제8항에 있어서,
    상기 제2 시그니처 및 상기 제1 시그니처 엔트리의 식별자를 포함하는 제2 시그니처 엔트리를 상기 제2 시그니처 파일에 저장하는 단계
    를 더 포함하는 것을 특징으로 하는 2 레벨 시그니처를 이용한 고차원 데이터의 색인 생성 방법.
  10. 고차원의 질의 특징벡터를 포함하는 검색 입력정보를 입력받는 단계와,
    상기 질의 특징벡터가 속하게 되는 데이터 공간 상의 영역을 2진수로 나타내는, 제1 질의 시그니처 및 상기 제1 질의 시그니처보다 적은 비트 수를 갖는 제2 질의 시그니처를 생성하는 단계와,
    데이터 객체의 특징벡터가 속하는 데이터 공간 상의 영역을 2진수로 나타내는, 제1 시그니처와 상기 제1 시그니처보다 적은 비트 수를 갖는 제2 시그니처를 2 레벨의 시그니처로서 데이터 객체의 식별자와 함께 포함하고 있는 고차원 데이터 색인에 대하여, 상기 제2 질의 시그니처와의 유사도가 높은 제2 시그니처를 갖는 파일들로 제1 후보 집합을 구성하는 1차 필터링 단계와,
    상기 제1 후보 집합에서 상기 제1 질의 시그니처와의 유사도가 높은 제1 시그니처를 갖는 파일들로 제2 후보 집합을 구성하는 2차 필터링 단계 및
    상기 제2 후보 집합으로부터 상기 질의 특징벡터와의 유사도가 높은 고차원 데이터 객체를 선택하여 검색 결과를 반환하는 단계
    를 포함하는 것을 특징으로 하는 2 레벨 시그니처를 이용한 고차원 데이터의 검색 방법.
  11. 제10항에 있어서, 상기 2차 필터링 단계는,
    상기 제1 후보 집합의 원소가 포인팅하는 제1 시그니처들을 추적하는 단계와,
    상기 추적한 제1 시그니처와 상기 제1 질의 시그니처의 유사도를 산출하는 단계
    를 포함하는 것을 특징으로 하는 2 레벨 시그니처를 이용한 고차원 데이터의 검색 방법.
  12. 제10항에 있어서, 상기 질의 시그니처를 생성하는 단계는,
    상기 질의 특징벡터의 차원 값에 대하여, 상기 차원 값으로부터 소정 범위 내에서, 서로 다른 복수의 질의 시그니처 차원 값이 생성되는 경우에는, 상기 복수의 질의 시그니처 차원 값에 대응하는 복수의 제1 및 제2 질의 시그니처를 생성하는 것
    를 포함하는 것을 특징으로 하는 2 레벨 시그니처를 이용한 고차원 데이터의 검색 방법.
  13. 제10항 내지 제12항에 있어서,
    상기 제1 및 제2 후보 집합의 원소 수를 증가시키는 검색 범위 보정을 수행하는 단계
    를 더 포함하는 것을 특징으로 하는 2 레벨 시그니처를 이용한 고차원 데이터의 검색 방법.
KR1020070132582A 2007-12-17 2007-12-17 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템 KR100903961B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070132582A KR100903961B1 (ko) 2007-12-17 2007-12-17 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
US12/107,419 US8032534B2 (en) 2007-12-17 2008-04-22 Method and system for indexing and searching high-dimensional data using signature file

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070132582A KR100903961B1 (ko) 2007-12-17 2007-12-17 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템

Publications (2)

Publication Number Publication Date
KR20090065130A KR20090065130A (ko) 2009-06-22
KR100903961B1 true KR100903961B1 (ko) 2009-06-25

Family

ID=40754552

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070132582A KR100903961B1 (ko) 2007-12-17 2007-12-17 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템

Country Status (2)

Country Link
US (1) US8032534B2 (ko)
KR (1) KR100903961B1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8934709B2 (en) 2008-03-03 2015-01-13 Videoiq, Inc. Dynamic object classification
TWI362596B (en) * 2008-07-23 2012-04-21 Inst Information Industry Intermediary apparatus, intermediary method, computer program product for storing a data in a storage apparatus, and data storage system comprising the same
CN102460511B (zh) * 2009-06-10 2014-04-16 公立大学法人大阪府立大学 用于物体识别的图像数据库的制作方法以及制作装置
US8898177B2 (en) * 2010-09-10 2014-11-25 International Business Machines Corporation E-mail thread hierarchy detection
US8788500B2 (en) 2010-09-10 2014-07-22 International Business Machines Corporation Electronic mail duplicate detection
KR20130049111A (ko) * 2011-11-03 2013-05-13 한국전자통신연구원 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
US20130263059A1 (en) * 2012-03-28 2013-10-03 Innovative Icroms, S.L. Method and system for managing and displaying mutlimedia contents
US9075846B2 (en) * 2012-12-12 2015-07-07 King Fahd University Of Petroleum And Minerals Method for retrieval of arabic historical manuscripts
CN103514263B (zh) * 2013-08-21 2016-12-28 中国传媒大学 一种采用双key值的高维索引结构构建方法和检索方法
CN103793507B (zh) * 2014-01-26 2016-10-05 北京邮电大学 一种使用深层结构获取双模态相似性测度的方法
DK178764B1 (en) * 2015-06-19 2017-01-09 Itu Business Dev As A computer-implemented method for carrying out a search without the use of signatures
CN105183711B (zh) * 2015-08-17 2019-12-31 福建天晴数码有限公司 寻找相近语义汉字对的方法和装置
CN105279288B (zh) * 2015-12-04 2018-08-24 深圳大学 一种基于深度神经网络的在线内容推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010075870A (ko) * 2000-01-21 2001-08-11 오길록 시그니처 파일을 이용한 데이터베이스 검색시스템에서의프레임 분할 병렬 처리 방법
KR20030006638A (ko) * 2001-07-13 2003-01-23 한국전자통신연구원 셀 기반의 고차원 데이터 색인 장치 및 그 방법
JP2005071115A (ja) 2003-08-25 2005-03-17 Japan Science & Technology Agency P2p環境におけるオブジェクトの登録検索方法及びプログラム
JP2008009859A (ja) 2006-06-30 2008-01-17 Canon Inc 検索インデックス作成装置及び検索インデックス作成方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832131A (en) * 1995-05-03 1998-11-03 National Semiconductor Corporation Hashing-based vector quantization
KR100333636B1 (ko) 2000-01-21 2002-04-22 오길록 소프트웨어 유지보수를 위한 제어흐름 그래프 자동 생성방법
US20030006638A1 (en) * 2001-07-03 2003-01-09 Paul Tyler Heated kneeling tray
US7167574B2 (en) * 2002-03-14 2007-01-23 Seiko Epson Corporation Method and apparatus for content-based image copy detection
US7809722B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
US20060268298A1 (en) * 2005-05-27 2006-11-30 Sidharth Wali Color space conversion by storing and reusing color values
US20080065606A1 (en) * 2006-09-08 2008-03-13 Donald Robert Martin Boys Method and Apparatus for Searching Images through a Search Engine Interface Using Image Data and Constraints as Input

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010075870A (ko) * 2000-01-21 2001-08-11 오길록 시그니처 파일을 이용한 데이터베이스 검색시스템에서의프레임 분할 병렬 처리 방법
KR20030006638A (ko) * 2001-07-13 2003-01-23 한국전자통신연구원 셀 기반의 고차원 데이터 색인 장치 및 그 방법
JP2005071115A (ja) 2003-08-25 2005-03-17 Japan Science & Technology Agency P2p環境におけるオブジェクトの登録検索方法及びプログラム
JP2008009859A (ja) 2006-06-30 2008-01-17 Canon Inc 検索インデックス作成装置及び検索インデックス作成方法

Also Published As

Publication number Publication date
US20090157601A1 (en) 2009-06-18
KR20090065130A (ko) 2009-06-22
US8032534B2 (en) 2011-10-04

Similar Documents

Publication Publication Date Title
KR100903961B1 (ko) 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
US8171029B2 (en) Automatic generation of ontologies using word affinities
KR101266358B1 (ko) 다중 길이 시그니처 파일 기반 분산 색인 시스템 및 방법
CN111324750B (zh) 一种大规模文本相似度计算及文本查重方法
US20100106713A1 (en) Method for performing efficient similarity search
US20150186471A1 (en) System and method for approximate searching very large data
WO2013129580A1 (ja) 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム
CN107844493B (zh) 一种文件关联方法及***
US9298757B1 (en) Determining similarity of linguistic objects
CN106933824B (zh) 在多个文档中确定与目标文档相似的文档集合的方法和装置
CN109977286B (zh) 基于内容的信息检索方法
CN106570196B (zh) 视频节目的搜索方法和装置
CN109670071B (zh) 一种序列化多特征指导的跨媒体哈希检索方法和***
Kesidis et al. Efficient cut-off threshold estimation for word spotting applications
CN112199461B (zh) 基于块索引结构的文档检索方法、装置、介质和设备
Li et al. A novel approach to remote sensing image retrieval with multi-feature VP-tree indexing and online feature selection
CN110941730B (zh) 基于人脸特征数据偏移的检索方法与装置
KR100446639B1 (ko) 셀 기반의 고차원 데이터 색인 장치 및 그 방법
KR101153966B1 (ko) 고차원 데이터의 색인/검색 시스템 및 그 방법
JP2001134593A (ja) 近傍データ検索方法及び装置及び近傍データ検索プログラムを格納した記憶媒体
Doulamis et al. 3D modelling of cultural heritage objects from photos posted over the Twitter
KR100349673B1 (ko) 고차원 영상특징량의 대표값을 이용한 영상 검색 방법
Shishibori et al. An improved method to select candidates on metric index vp-tree
JP2001052024A (ja) 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee