KR100902010B1

KR100902010B1 - 연관 피드백을 포함한 내용 기반 멀티미디어 검색 방법

Info

Publication number: KR100902010B1
Application number: KR1020070059288A
Authority: KR
Inventors: 낭종호; 박주현
Original assignee: 서강대학교산학협력단
Priority date: 2007-06-18
Filing date: 2007-06-18
Publication date: 2009-06-12
Also published as: KR20080111212A

Abstract

본 발명은 연관피드백을 포함한 내용기반 멀티미디어 검색 방법에 관한 것이다. 상기 멀티미디어 검색 방법은 (a) 최초의 질의 오브젝트에 따라 검색하여 검색 결과 집합을 생성하고, 오브젝트들과 상기 질의 오브젝트와의 거리들을 계산하여 근사 거리 배열체(PrevDist)에 저장하는 단계, (b) 상기 검색 결과 집합에 대하여 연관 피드백을 수행하여 새로운 질의 오브젝트를 생성하는 단계, (c) 상기 근사 거리 배열체에 저장된 거리 정보들을 이용하여, 검색 결과 집합을 구성하는 각 대상 오브젝트들과 상기 새로운 질의 오브젝트와의 근사 거리들을 계산하는 단계, (d) 상기 근사 거리가 사전에 설정된 유사거리(r)보다 작은 대상 오브젝트들로 이루어지는 후보 검색 집합을 생성하는 필터링 단계, (e) 필터링된 상기 후보 검색 집합을 구성하는 대상 오브젝트들과 상기 새로운 질의 오브젝트와의 실제 거리를 계산하고, 실제 거리가 상기 유사거리(r)보다 작은 대상 오브젝트들로 이루어지는 정답 검색 집합을 생성하는 단계를 구비한다. 본 발명에 의하여, 연관피드백을 이용한 재검색시 이전 검색 결과에서 구한 거리 정보들을 이용하여 유사도가 낮은 오브젝트들을 필터링함으로써, 검색 속도를 월등히 향상시킬 수 있게 된다.

연관피드백, 검색 속도, 멀티미디어, 질의 오브젝트

Description

연관 피드백을 포함한 내용 기반 멀티미디어 검색 방법 {EFFCIENT SIMILARITY SEARCH METHOD FOR CONTENT BASED MULTIMEDIA RETRIEVAL WITH RELEVANCE FEEDBACK}

도 1은 본 발명의 바람직한 실시예에 따른 멀티미디어 검색 방법을 순차적으로 도시한 흐름도이다.

도 2는 본 발명의 바람직한 실시예에 따른 멀티미디어 검색 방법에 있어서, 필터링 단계(단계 150)의 처리 과정을 보다 구체적으로 도시한 흐름도이다.

도 3은 본 발명의 바람직한 실시예에 따른 멀티미디어 검색 방법에 있어서, 연관피드백을 이용한 재검색시에 근사거리를 신속하게 구하는 원리를 설명하기 위하여 도시한 도면이다.

도 4는 본 발명의 바람직한 실시예에 따른 멀티미디어 검색 방법에 있어서, 정답 검색 집합 생성 단계(단계 160)의 처리 과정을 보다 구체적으로 설명하는 흐름도이다.

도 5는 본 발명의 바람직한 실시예에 따른 검색 방법에 대한 효율성을 입증하기 위하여 수행된 실험에 사용된 데이터들을 도시한 도표이다.

도 6 및 도 7은 본 발명의 바람직한 실시예에 따른 검색 방법과 종래의 방법들에 따른 성능들을 비교하여 도시한 그래프들이다.

본 발명은 멀티미디어 검색 방법에 관한 것으로, 더 상세하게는 연관피드백을 포함한 내용기반 멀티미디어 검색 방법에 있어서, 연관피드백을 이용한 재검색시의 검색 속도를 향상시킨 멀티미디어 검색 방법에 관한 것이다.

최근의 내용 기반 멀티미디어 검색 시스템들은 semantic gap을 줄이기 위한 하나의 방법으로 연관 피드백에 의한 재검색 방법을 사용하고 있다. 사용자는 연관 피드백을 통해서 원하는 검색 결과를 얻을 수 있지만 최종 결과를 얻기까지 검색 시간은 재검색 횟수만큼 증가하게 된다. 더욱이 내용 기반 검색에 사용되는 고차원의 저급 수준 정보들은 1회의 검색만으로도 매우 큰 검색 시간을 필요로 하기 때문에 수차례의 재검색은 시스템 전체에 큰 부담이 될 수 있다. 이러한 고차원 벡터 공간에서의 검색 시간을 단축하기 위한 해결책으로서 다양한 색인 방법이 널리 연구되어 오고 있다.

기존의 색인 방법은 크게 데이터 클러스터링 방법과 필터링 방법으로 나누어볼 수 있는데, 다차원 공간에서 좋은 성능을 보여주는 KDB-tree, R-tree, R*-tree, X-tree, VP-tree, 그리고 M-tree와 같은 데이터 클러스터링 방법들은 고차원 공간에서는 오히려 순차 검색보다 느린 검색 속도를 보여주는 것으로 알려져 있다.

이러한 문제를 "Curse of Dimensionality"라고 하며 이에 대한 효과적인 해결책으로서 최근에 VA-file, LPC-file, 그리고 HBI와 같은 필터링 방법이 제안되었 다. 여기서 필터링이라는 것은 각 멀티미디어 오브젝트를 작은 크기의 근사 오브젝트로 만들고, 이를 사용하여 근사 거리를 구해 질의 오브젝트와 먼 거리에 있는 오브젝트들을 빠른 시간 안에 제외시키는 것을 의미한다. 최종 검색 결과는 필터링 단계에서 제외되지 않은 소량의 오브젝트 집합 안에 존재하며 이는 실제 거리를 계산함으로써 구할 수 있다. 연구 결과에 의하면 필터링 방법들은 고차원 공간에서 순차 검색에 비해 약 1.5~3배 빠른 검색 속도를 보여주고 있음을 알 수 있다. 하지만 이러한 색인 방법을 사용하면 1회 검색을 위한 절대 시간을 줄일 수는 있지만,ℓ회의 재검색을 통해 총 검색 시간이 1회 검색 시간의 ℓ배가 되는 문제는 여전히 해결되지 못한다.

이에 본 출원인은 필터링 색인 방법을 사용하고 연관 피드백을 적용한 내용 기반 멀티미디어 검색 시스템에 있어서 재검색 시간을 효과적으로 단축시킬 수 있는 검색 방법을 제안하고자 한다.

전술한 문제점을 해결하기 위한 본 발명의 목적은 연관 피드백을 이용한 내용 기반 멀티미디어 검색 방법에 있어서, 연관 피드백에 의한 재검색 시, 이전 검색 결과를 이용하여 재검색 속도를 크게 향상시킬 수 있는 멀티미디어 검색 방법을 제공하는 것이다.

전술한 기술적 과제를 달성하기 위한 본 발명의 특징은 연관피드백을 포함한 내용기반 멀티미디어 검색 방법에 관한 것으로서, 상기 멀티미디어 검색 방법은

(a) 최초의 질의 오브젝트에 따라 검색하여, 검색 결과 집합을 생성하고, 검색 결과 집합을 구성하는 대상 오브젝트들과 상기 질의 오브젝트와의 실제 거리들을 계산하여 근사 거리 배열체(PrevDist)에 저장하는 단계,

(b) 상기 검색 결과 집합에 대하여 연관 피드백을 수행하고, 새로운 질의 오브젝트를 생성하는 단계,

(c) 상기 검색 결과 집합에 대하여 상기 근사 거리 배열체에 저장된 거리 정보들을 이용하여, 검색 결과 집합을 구성하는 각 대상 오브젝트들과 상기 새로운 질의 오브젝트와의 근사 거리들을 계산하는 단계,

(d) 상기 근사 거리가 사전에 설정된 유사거리(r)보다 작은 대상 오브젝트들로 이루어지는 후보 검색 집합을 생성하는 필터링 단계,

(e) 상기 후보 검색 집합을 구성하는 대상 오브젝트들과 상기 새로운 질의 오브젝트와의 실제 거리를 계산하고, 실제 거리가 상기 유사거리(r)보다 작은 대상 오브젝트들로 이루어지는 정답 검색 집합을 생성하고, 상기 정답 검색 집합을 구성하는 대상 오브젝트들의 실제 거리를 상기 근사 거리 배열체(PrevDist)에 저장하는 단계, 및

(f) 상기 정답 검색 집합이 만족스럽지 않은 경우, 단계 (b) 내지 단계 (e)를 반복 수행하며, 이때 검색 결과 집합은 최종 정답 검색 집합으로 하며, 근사 거리 배열체는 최종 정답 검색 집합을 구성하는 대상 오브젝트들에 대한 실제 거리들로 구성되는 단계를 구비하여, 검색 속도를 향상시킨다.

전술한 특징을 갖는 멀티미디어 검색 방법에 있어서, 상기 (c)단계는

(c1) 상기 검색 결과 집합에 대하여 상기 근사 거리 배열체에 저장된 각 대상 오브젝트와 이전 질의 오브젝트와의 거리 정보들을 판독하는 단계,

(c2) 이전 질의 오브젝트와 상기 새로운 질의 오브젝트의 거리를 구하는 단계,

(c3) 상기 근사 거리 배열체로부터 판독된 거리 정보들과 상기 질의 오브젝트간의 거리를 이용하여, 상기 검색 결과 집합을 구성하는 각 대상 오브젝트들과 상기 새로운 질의 오브젝트와의 근사 거리들을 계산하는 단계로 이루어지며,

상기 (c3) 단계는 상기 검색 결과 집합을 구성하는 각 대상 오브젝트들에 대한 근사 거리들은 상기 근사 거리 배열체로부터 판독된 해당 대상 오브젝트의 거리와 질의 오브젝트들간의 거리의 차이값으로 이루어지는 것이 바람직하다.

이하 첨부된 도면들을 참조하여 본 발명의 바람직한 실시예에 따른 연관 피드백을 포함한 내용 기반 멀티미디어 검색 방법을 보다 상세히 설명하기로 한다.

도 1은 본 발명의 바람직한 실시예에 따른 멀티미디어 검색 방법을 순차적으로 도시한 흐름도이다. 본 발명의 바람직한 실시예에 따른 연관 피드백을 포함한 내용 기반 멀티미디어 검색 방법은 (a) 연관 피드백에 의한 재검색 시, 이전 검색 결과를 기반으로 하여, 새로운 질의 오브젝트와 이전 검색 결과에 따른 데이터베이스 내의 대상 오브젝트들 간의 근사 거리를 빠르게 계산하여 유사도가 현저히 떨어지는 대상 오브젝트들을 검색 대상에서 제외하는 대상 오브젝트 필터링 단계 및 (b) 상기 필터링 단계에서 제외되지 않은 대상 오브젝트들을 대상으로 하여, 새로운 질의 오브젝트와 대상 오브젝트들 간의 실제 거리를 계산하여 최종 검색 결과를 완성하는 최종 검색 완성 단계를 구비함으로써, 검색 속도를 상당히 향상시킬 수 있게 된다. 이하, 도 1을 참조하여 본 발명의 바람직한 실시예에 따른 연관 피드백을 포함한 내용 기반 멀티미디어 검색 방법을 설명한다.

먼저, 최초의 질의 오브젝트(q ₀ )가 외부로부터 입력되거나 선택됨에 따라 검색 세션이 시작된다(단계 100). 질의 오브젝트(q ₀ )에 대한 검색을 수행할 때는 이전 질의 오브젝트가 존재하지 않기 때문에, 질의 오브젝트와 멀티미디어 데이터베이스(Λ)내의 각 대상 오브젝트들과의 실제 거리를 계산하여 검색을 수행한다(단계 110). 이때, 질의 오브젝트와 멀티미디어 데이터베이스(Λ)내의 각 대상 오브젝트들과의 실제 거리가 사전에 설정된 유사 거리(r)보다 작은 경우, 해당 대상 오브젝트를 검색 결과 집합에 포함시키고, 해당 대상 오브젝트에 대한 실제 거리를 근사 거리 배열체(PrevDist)에 기록한다(단계 120).

상기 근사 거리 배열체(PrevDist)는 연관 피드백에 의한 재검색을 위하여 멀티미디어 데이터베이스(Λ)내의 n개의 대상 오브젝트의 각각에 대해 계산된 근사 거리를 저장하기 위하여 미리 할당해 놓은 4 x n bytes의 메모리 공간이다.

다음, 사용자가 검색 결과에 만족하지 못한다면 연관 피드백을 수행하고(단계 130), 연관 피드백의 수행 결과에 따라 새로운 질의 오브젝트(q ₁ )가 정의되며(단계 140), 새로운 질의 오브젝트(q ₁ )를 이용하여 재검색을 수행하게 된다. 본 발명은 새로운 질의 오브젝트를 이용하여 재검색을 수행하는 과정에서 필터링 단계를 도입함으로써, 검색 속도를 향상시키게 된다.

따라서, 근사 거리 배열체(PrevDist)의 정보를 이용하여 상기 검색 결과 집합내의 대상 오브젝트들 중 새로운 질의 오브젝트와 유사도가 떨어지는 대상 오브젝트들을 필터링하여 제거한다(단계 150). 도 2는 전술한 필터링 단계(단계 150)의 처리 과정을 보다 구체적으로 도시한 흐름도이다. 이하, 도 2를 참조하여 상기 필터링 단계(단계 150)을 보다 구체적으로 설명한다.

도 2를 참조하면, 먼저 검색 결과 집합 내의 대상 오브젝트들을 판독한다(단계 200). 임의의 변수(i)를 1로 초기화한 후(단계 210), i번째 대상 오브젝트에 대한 근사 거리를 계산한다(단계 210). 이하, 본 발명에 따라 근사 거리를 계산하는 과정과 이론을 구체적으로 설명한다.

먼저, i번째 대상 오브젝트에 대한 근사 거리를 계산하기 위하여, 벡터 공간에 있는 임의의 세 점으로서 새로운 질의 오브젝트 q ₁ , 이전 질의 오브젝트 q ₀ , 대상 오브젝트 p를 가정한다. 도 3에 도시된 바와 같이, 이 세 점이 벡터 공간에서 삼각형을 형성한다면, Triangle Inequality에 의해, 두 변의 길이 즉, L _p (q _0, p)와 L _p (q ₀ _, q ₁ )를 알면 다른 한 변의 길이 L _p (q ₁ _, p)의 상한과 하한의 계산이 가능하다. 일반적으로 연관 피드백에 의한 재검색은 이전 질의 오브젝트에 대한 검색 결과를 기본으로 새로운 질의 오브젝트를 만들어 수행되기 때문에 새로운 질의 오브젝트 q ₁ 는 이전 질의 오브젝트 q ₀ 와 매우 유사하다는 특징을 가지고 있다. 따라서 L _p (q _1, p)와 다른 두 변의 길이로 추측하여 계산한 거리의 오차는 그리 크지 않을 가능성 이 높게 된다.

한편, n개의 멀티미디어 오브젝트로 구성된 멀티미디어 데이터베이스 Λ = {o _i | 1≤i≤ n } 에서 검색을 한다고 가정하자. 검색 공간을 d-차원의 벡터 공간이라 가정한다면, Λ의 i번째 오브젝트인 o _i 는 {o _i ¹ ,o _i ² ,…,o _i ⁱ ,…,o _i ^d }로 표현할 수 있다. 또한, 검색의 기준이 되는 오브젝트간 거리는 L _p -norm을 사용하여 계산하는데 Λ내 임의의 두 오브젝트 a, b의 거리 L _p (a _, b) 는 아래의 수학식 1과 같이 계산할 수 있다.

근사 거리를 계산하기 위하여, 벡터 공간에서 임의의 질의 오브젝트 q ₀ 에 대해 검색을 수행하였고 피드백을 받아 만들어진 새로운 질의 오브젝트 q ₁ 에 대해 재검색을 수행한다고 가정하자. 멀티미디어 데이터베이스(Λ)내 임의의 오브젝트 o _i 에 대해서 q ₁ 과의 거리 L _p (q ₁ _, o _i )는 first, second triangle inequality에 의해서 |L _p (q ₀ _, o _i )-L _p (q ₀ _, q ₁ )|≤ L _p (q ₁ _, o _i )≤L _p (q ₀ _, o _i )+L _p (q ₀ _, q ₁ )와 같은 범위 안에 존재한다. L _p (q ₀ _, o _i )는 이전 검색의 계산 결과를 유지함으로써 추가 계산 없이 얻을 수 있으며 L _p (q ₀ _, q ₁ )는 새로운 질의 오브젝트와 이전 질의 오브젝트의 거리로서 재검색 시 1회만 계산하면 데이터베이스 내 모든 오브젝트에 대해서 사용 가능하다. 즉, L _p (q ₁ _, o _i )에 대한 오차 한계를 단지 1회의 뺄셈과 덧셈 연산만으로 계산할 수 있으며 L _p (q ₁ _, o _i )를 넘지 않는 근사 거리로서 A _p (q ₁ _, o _i ) 를 |L _p (q ₀ _, o _i )-L _p (q ₀ _, q ₁ )|로 정의한다.

위에서 기술한 원리를 바탕으로 약간의 추가 메모리 사용만으로 연관 피드백에 의한 재검색 시 유사 검색을 효율적으로 수행할 수 있다. 1회의 검색 세션은 최초 질의를 하고 연관 피드백 과정을 거쳐 최종 검색 결과가 만들어질 때까지로 정의한다.

전술한 원리를 이용하여, 재검색 과정에서 임의의 i번째의 대상 오브젝트(o _i )의 근사 거리 A _p (q ₁ _, o _i )는 이전 검색 과정에서 기록된 근사 거리 값인 PrevDist[i] 와 L _p (q ₀ _, q ₁ )의 차를 계산함으로써 신속하게 구할 수 있게 된다. 이렇게 구한 i번째 대상 오브젝트의 근사 거리 A _p (q ₁ _, o _i )는 실제 거리인 L _p (q ₁ _, o _i )보다 작기 때문에 사전에 설정된 임의의 유사거리(r)에 대해서 A _p (q ₁ _, o _i ) > 유사거리(r) 이면 L _p (q ₁ _, o _i ) > 유사거리(r) 를 항상 만족한다.

다음, i번째 대상 오브젝트에 대한 근사거리(A _p )가 유사거리(r)보다 작은 경우(단계 230), 해당 대상 오브젝트를 후보 검색 집합(C _rs )에 삽입한다(단계 240).다 음, 해당 대상 오브젝트에 대한 근사 거리를 근사 거리 배열체(PrevDist)에 저장함으로써, 상기 근사 거리를 다음 재검색시에 사용할 수 있도록 한다(단계 250). 한편, 만약 단계 230에서 그렇지 아니한 경우, 해당 대상 오브젝트를 후보 검색 집합에서 제외시킨다.

다음, 만약 현재 대상 오브젝트가 마지막 대상 오브젝트인 경우에는 필터링 단계(단계 150)를 종료하며, 그렇지 아니한 경우 i를 하나 증가 시킨 후(단계 270) 위의 단계들을 반복한다.

전술한 필터링 단계(단계 150)가 완료된 후, 검색 결과 집합으로부터 필터링되어 완성된 후보 검색 집합에 포함된 대상 오브젝트들과 새로운 질의 오브젝트간의 실제 거리를 계산하여 정답 검색 집합을 생성한다(단계 160). 도 4는 정답 검색 집합 생성 단계(단계 160)의 처리 과정을 보다 구체적으로 설명하는 흐름도이다. 이하, 도 4를 참조하여 상기 정답 검색 집합 생성 단계(단계 160)을 보다 구체적으로 설명한다.

도 4를 참조하면, 상기 후보 검색 집합(C _rs )내의 대상 오브젝트들을 판독한다(단계 300). 임의의 변수(i)를 1로 초기화한 후(단계 310), 상기 후보 검색 집합내의 i번째 대상 오브젝트와 새로운 질의 오브젝트와의 실제 거리를 계산한다(단계 320).

다음, 만약 i번째 대상 오브젝트와 새로운 질의 오브젝트와의 실제 거리(L _p (q _, o _i ))가 유사거리(r) 보다 작은 경우(단계 330), 정답 검색 집합(A _rs )에 포 함시키고(단계 340), 계산된 실제 거리는 다음 검색을 위해 근사 거리 배열체(PrevDist )에 저장시킨다(단계 350). 다음, 현재 대상 오브젝트가 후보 검색 집합(C _rs )내의 마지막 대상 오브젝트인 경우(단계 360) 종료하고, 그렇지 않으면 i를 하나 증가시키고(단계 370) 단계 320으로 되돌아가서 반복한다.

정답 검색 집합 생성 단계(단계 160)이 완료된 후, 정답 검색 집합을 최종 결과로 제공한다(단계 170). 만약 최종 결과가 만족스러운 경우(단계 180), 검색을 종료하며, 그렇지 아니한 경우 단계 130으로 되돌아가서 전술한 과정을 반복한다.

전술한 구성을 갖는 본 발명에 따른 연관 피드백을 포함한 내용 기반 멀티미디어 검색을 위한 효율적인 유사 검색 방법에 따르면 사용자는 재검색 시 첫 번째 검색보다 5 배 이상 빠르게 검색 결과를 얻을 수 있다.

이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

본 발명에 따른 연관 피드백을 포함한 내용 기반 멀티미디어 검색을 위한 효율적인 유사 검색 방법은, 이전 검색 과정에서 계산된 결과를 이용하여 새로운 질 의 오브젝트와 유사거리(r) 안에 있는 대상 오브젝트를 빠른 시간 안에 검색할 수 있도록 해주는 방법을 사용함으로써 첫 번째 검색에 비해 5배 이상 빠르게 유사 검색 결과를 만드는 것이 가능하다.

본 발명에 따른 검색 방법의 효율성을 보여주기 위해 어떠한 색인 방법도 사용하지 않고 본 발명에 따른 검색 방법만을 적용한 경우(이하 'BFS'라 칭함)와 필터링 기반의 색인 방법 중 하나인 HBI(J. Park and J. Nang, "A Hierarchical Bitmap Indexing Method for Content Based Multimedia Retrieval," Proceedings of EuroIMSA International Conf., pp.223-228, 2006. 참조)와 함께 사용한 경우(이하 'HBI'라 칭함)를 나누어 도 5와 같이 네 종류의 이미지 데이터 집합에 대하여 k-NN 검색과 r-Range 검색을 수행하였다. 도 5는 실험에 사용한 데이터 집합들을 도시한 도표이다. R1과 R2는 Berkeley 대학에서 제공하는 25,160장의 Landscape 이미지 집합에서 추출한 MPEG-7 Color Structure 기술자와 Edge Histogram 기술자로 구성되었고 R3는 68,040장의 Corel 이미지 집합에서 추출한 HSV Color Histogram으로 구성되었다. S1은 논문 [T. Bozkaya and M. Ozsoyoglu, “Distance based Indexing for High Dimensional Metric Spaces,” Proceedings of ACM SIGMOD Conf. on Management of Data, pp.357-368, 1997. ]에서 사용한 방법으로 256차원의 임의의 벡터 집합을 만들어 구성하였다. HBI의 경우 R1을 위해 6개의 비트맵, R2와 R3를 위해 10개의 비트맵, 그리고 S1를 위해 7개의 비트맵을 사용하였다. 각 유사 검색 방법에 있어서 k=10 (k-NN 검색을 위해), r (r-Range 검색을 위해) 은 각 데이터 집합의 특성에 준하여 검색 결과 집합의 원소 개수가 평균 20개 이하가 되도록 정하여 실험하였다.

연관 피드백 시 이전 검색 결과를 사용하기 위해서는 검색 세션의 유지가 필요한데 이를 위해 검색을 시작할 때 연결된 소켓은 사용자가 새로운 질의를 선택하기 전까지 유지하였다. 또한 서버에서 세션 아이디를 발급하여 재 검색을 위한 질의와 새로운 검색을 위한 질의를 구분할 수 있도록 하였다. 재 검색을 위한 질의는 검색 결과의 1/3을 임의로 선택하여 연관 오브젝트로 간주하고 <식 2>의 Rocchio의 방법[I. Ruthven and M. Lalmas, “A Survey on the Use of Relevance Feedback for Information Access Systems,” The Knowledge Engineering Review, Vol.18, Issue.2, pp.95-145, 2003. 참조](α=0.5, β=0.25, γ=0.25)을 사용하여 구성하였다. 모든 실험은 Intel Pentium4 (3.0GHz) CPU와 1GB 메모리를 가진 Microsoft Windows XP 플랫폼에서 수행되었다. 또한 실험 결과에 의하면 k-NN 검색과 r-Range 검색의 실험 결과에 큰 차이가 없어 두 검색 방법의 결과를 평균하여 표현하였다. 마지막으로 실험 결과의 신뢰성을 높이기 위해 데이터 집합 내에서 임의로 선택된 100개의 질의에 대해 각각 검색을 수행하고 그 결과를 평균 내어 최종 결과로 선정하였다.

도 6은 R1에 대해서 제안한 k-NN, r-Range 검색 방법을 사용하여 5회까지 재 검색을 수행할 경우, 실제거리에 대한 계산과정 없이 이전 거리 계산 결과를 사용하여 필터링 되는 오브젝트의 비율과 검색에 소요되는 시간을 보여주는 그래프들이다. 도 6의 (a)에서 보는 바와 같이, HBI의 경우 최초 검색에서 약 80~90%의 오브젝트에 대해 근사 거리를 계산하기 때문에 재 검색 시 BFS에 비하여 필터링 비율이 낮은 것은 당연하다. 또한 BFS의 경우 3차 검색에서 필터링 비율이 약 10~15%떨어지고 이후 4~6차 검색에서 거의 일정하게 유지되는 것을 확인할 수 있는데, 이는 제안한 검색 알고리즘에서 필터링에 사용되는 이전 거리 정보가 대부분 최초 질의 오브젝트에 대해 계산된 거리임에 반해 검색 횟수가 늘어나면서 질의 오브젝트간 거리는 점점 늘어나기 때문에 생기는 오차에 의한 것으로 생각할 수 있다.

반면에 HBI의 경우 이러한 오차보다는 근사 거리에서 오는 오차가 더 크기 때문에 재 검색 횟수에 상관 없이 비교적 일정한 필터링 비율을 보여주는 것을 확인할 수 있다. 따라서 필터링 비율에서 큰 차이를 보이는 2차 검색에서는 HBI의 검색 시간이 BFS의 경우보다 약간 많은 검색 시간이 소요되는 것을 도 6의 (b)를 통해서 알 수 있다. 하지만 재 검색 횟수가 늘어남에 따라 BFS의 필터링 비율이 약간씩 낮아지고 HBI의 경우 인덱스를 사용한 2차 필터링 과정을 거치기 때문에 3번째 검색부터는 HBI가 BFS보다 빠른 검색 속도를 보여준다. 전체적으로 HBI와 같은 필터링 기반의 색인방법을 함께 적용하였을 경우에 필터링 비율은 소폭 떨어지지만 색인 효과에 의해 전체 검색 시간은 줄어든다. 따라서 근사 거리 계산에 의해 발생한 오차 때문에 필터링 비율이 조금 떨어지더라도 색인을 함께 사용하는 것이 더 효율적임을 알 수 있다.

도 7은 본 발명에 따른 검색 방법을 HBI와 함께 R1을 제외한 다른 데이터 집합들에 적용하였을 경우의 필터링 비율과 검색 시간을 도시한 그래프들이다. R3와 S1의 경우에는 R1의 경우와 마찬가지로 재 검색 횟수가 증가함에 따라 필터링 비율이 감소하지만, R2의 경우에는 4번째 검색부터 필터링 비율이 소폭 상승하고 있다. 이는 필터링 비율이 일정 한도 이하로 떨어지게 되면 새롭게 실제 거리가 계산되는 오브젝트의 수가 늘어나고, 이는 재 검색 횟수가 증가함에 따라 커지는 오차를 줄이는 역할을 해주기 때문이다.

하지만, 도 7의 (b)를 보면, 재 검색 횟수의 증가에 따른 필터링 비율 감소 폭에 비해 검색 속도 감소 폭이 그리 크지 않음을 알수 있다. 이는 Triangle inequality를 사용하는 1단계 필터링 과정에서 필터링 되지 않은 오브젝트들 중 많은 수가 90% 이상의 필터링 비율을 보여주는 HBI에 의해 필터링 되기 때문이다. 결과적으로, 재 검색 시 검색 속도는 R1의 경우 4배, R2의 경우 3배, R3와 S1의 경우 6배 증가로 BFS 검색에 비해 평균 5배 증가함을 확인할 수 있다

Claims

연관피드백을 포함한 내용기반 멀티미디어 검색 방법에 있어서,

(a) 최초의 질의 오브젝트에 따라 검색하여, 검색 결과 집합을 생성하고, 검색 결과 집합을 구성하는 대상 오브젝트들과 상기 질의 오브젝트와의 실제 거리들을 계산하여 근사 거리 배열체(PrevDist)에 저장하는 단계;

(b) 상기 검색 결과 집합에 대하여 연관 피드백을 수행하고, 새로운 질의 오브젝트를 생성하는 단계;

(c) 상기 검색 결과 집합에 대하여 상기 근사 거리 배열체에 저장된 거리 정보들을 이용하여, 검색 결과 집합을 구성하는 각 대상 오브젝트들과 상기 새로운 질의 오브젝트와의 근사 거리들을 계산하는 단계;

(d) 상기 근사 거리가 사전에 설정된 유사거리(r)보다 작은 대상 오브젝트들로 이루어지는 후보 검색 집합을 생성하는 필터링 단계;

(e) 상기 후보 검색 집합을 구성하는 대상 오브젝트들과 상기 새로운 질의 오브젝트와의 실제 거리를 계산하고, 실제 거리가 상기 유사거리(r)보다 작은 대상 오브젝트들로 이루어지는 정답 검색 집합을 생성하고, 상기 정답 검색 집합을 구성하는 대상 오브젝트들의 실제 거리를 상기 근사 거리 배열체(PrevDist)에 저장하는 단계;

를 구비하여, 연관피드백을 포함한 멀티미디어 검색 속도를 향상시키는 멀티미디어 검색 방법.
제1항에 있어서, 상기 멀티미디어 검색 방법은 (f) 상기 정답 검색 집합이 만족스럽지 않은 경우, 단계 (b) 내지 단계 (e)를 반복 수행하며, 이때 검색 결과 집합은 최종 정답 검색 집합으로 하며, 근사 거리 배열체는 최종 정답 검색 집합을 구성하는 대상 오브젝트들에 대한 실제 거리들로 구성되는 것을 특징으로 하는 멀티미디어 검색 방법.
제1항에 있어서, 상기 (c)단계는

(c1) 상기 검색 결과 집합에 대하여 상기 근사 거리 배열체에 저장된 각 대상 오브젝트와 이전 질의 오브젝트와의 거리 정보들을 판독하는 단계;

(c2) 이전 질의 오브젝트와 상기 새로운 질의 오브젝트의 거리를 구하는 단계; 및

(c3) 상기 (c1)단계에서 판독된 거리 정보들과 상기 (c2)단계에서 구한 상기 질의 오브젝트와 상기 새로운 질의 오브젝트의 거리를 이용하여, 상기 검색 결과 집합을 구성하는 각 대상 오브젝트들과 상기 새로운 질의 오브젝트와의 근사 거리들을 계산하는 단계;

로 이루어지는 것을 특징으로 하는 멀티미디어 검색 방법.
제3항에 있어서,

상기 (c3) 단계는 상기 검색 결과 집합을 구성하는 각 대상 오브젝트들과 상기 새로운 질의 오브젝트와의 근사 거리들은, 상기 (c1)단계에서 판독된 거리 정보들과, 상기 (c2)단계에서 구한 상기 질의 오브젝트와 상기 새로운 질의 오브젝트간의 거리의 차이값을 계산하는 것에 의해 이루어지는 것을 특징으로 하는 멀티미디어 검색 방법.