KR20120064582A

KR20120064582A - 멀티미디어 컨텐츠 검색 방법 및 장치

Info

Publication number: KR20120064582A
Application number: KR1020100125866A
Authority: KR
Inventors: 정혁; 오원근; 나상일; 이근동; 제성관
Original assignee: 한국전자통신연구원
Priority date: 2010-12-09
Filing date: 2010-12-09
Publication date: 2012-06-19
Also published as: US20120150890A1

Abstract

멀티미디어 컨텐츠 검색 검색 방법 및 장치가 개시된다. 본 발명에 따른 멀티미디어 컨텐츠 검색 방법은 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 분리하여 전처리를 수행하는 오디오 신호 추출 및 전처리 단계, 전처리된 오디오 신호의 묵음 구간을 추출하는 단계, 추출된 묵음 구간의 종료 시점이후의 적어도 하나의 소정 길이 구간의 오디오 특징을 추출하는 오디오 특징 추출 단계, 멀티미디어 컨텐츠에 대한 정보, 상기 추출된 오디오 특징 및 상기 묵음 구간의 종료시점 중 적어도 둘 이상을 서로 연관지어 데이터베이스에 저장하는 단계 및 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아, 상기 데이터베이스에서 상기 검색의 대상이 되는 멀티미디어 컨텐츠의 오디오 특징과 동일 또는 유사한 오디오 특징을 가지는 멀티미디어 컨텐츠를 검색하는 단계를 포함하여 구성될 수 있다. 따라서, 오디오 신호 전체에 대한 특징이 아니라 특정 부분의 특징만을 이용하여 멀티미디어 컨텐츠 검색을 수행하므로 대용량 멀티미디어 컨텐츠에 대한 검색이 빠르고 효율적으로 가능해진다.

Description

멀티미디어 컨텐츠 검색 방법 및 장치{Method of searching multi-media contents and apparatus for the same}

본 발명은 멀티미디어 컨텐츠 검색 방법 및 장치에 관한 것으로, 더욱 상세하게는 멀티미디어 컨텐츠의 오디오 특징을 색인화(indexing)하여 대용량의 멀티미디어 컨텐츠를 빠르게 검색할 수 있도록 하는 멀티미디어 컨텐츠 검색 방법과 장치에 관한 것이다.

인터넷 상의 무수한 오디오/동영상 콘텐츠로부터 콘텐츠의 일부만을 사용자가 가지고 있을 때, 콘텐츠 일부가 포함된 콘텐츠를 검색하기 위한 기술이 필요하다. 동영상에는 일반적으로 영상신호와 동기된 오디오 신호가 포함되어 있으며, 오디오 신호의 특징은 영상 신호의 특징에 비해 계산이 용이하고 용량이 적기 때문에 동영상의 검색을 위해 오디오 신호가 동영상을 검색하기 위한 수단으로서 활용된다.

오디오 특징을 활용하여 콘텐츠를 검색하기 위해서는 리샘플링, MP3와 같은 유손실 압축, 이퀄라이제이션(equalization) 등의 오디오 신호 변형에 대해 강인한 특성을 가져야 하고, 간단한 처리 과정을 거쳐 실시간 검색이 용이하여야 한다.

예컨대, 한국특허출원공개 제2004-0040409호는 오디오 특징을 생성하는 방법과 장치에 관한 것으로, 오디오 특징으로서 각각의 서브밴드의 스펙트럼 평면도(spectrum flatness)를 사용한다. 상기 특허문헌은 상이한 요건에 적합한 오디오 특징을 제공하지만 이러한 값은 오디오 신호에 가해지는 왜곡들에 강인한 특성을 갖지 못한다.

한편, 한국특허출원공개 제2005-0039544호는 오디오 복제 검출기에 관한 것으로, 오디오 특징으로서 중첩 윈도우를 갖는 푸리에 변환(Modulated Complex Lapped Transform; MCLT) 계수를 사용하며, 오디오 특징의 길이를 줄이고 강인성을 높이기 위해 왜곡 구별 해석(Distortion Discriminant Analysis; DDA)을 사용한다. 그러나, 이러한 왜곡 구별 해석은 처리 과정이 복잡하여, 오디오 파일을 검색하는데 시간이 오래 걸리는 문제점이 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 오디오 신호의 특징값을 이용하여 멀티미디어 컨텐츠를 검색하는 방법으로서, 멀티미디어 컨텐츠에 포함된 오디오 신호의 변형에 대해 강인한 특성을 가지고, 간단한 처리 과정을 거쳐 실시간 검색도 용이한 멀티미디어 컨텐츠 검색 방법을 제공하는데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 오디오 신호의 특징값을 이용하여 멀티미디어 컨텐츠를 검색하는 방법으로서 멀티미디어 컨텐츠에 포함된 오디오 신호 변형에 대해 강인한 특성을 가지고, 간단한 처리 과정을 거쳐 실시간 검색도 용이한 멀티미디어 컨텐츠 검색 장치를 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명은, 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 분리하여 전처리를 수행하는 오디오 신호 추출 및 전처리 단계, 상기 전처리된 오디오 신호의 묵음 구간을 추출하는 단계, 상기 추출된 묵음 구간의 종료 시점이후의 적어도 하나의 소정 길이 구간의 오디오 특징을 추출하는 오디오 특징 추출 단계, 상기 멀티미디어 컨텐츠에 대한 정보, 상기 추출된 오디오 특징 및 상기 묵음 구간의 종료시점 중 적어도 둘 이상을 서로 연관지어 데이터베이스에 저장하는 단계 및 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아, 상기 데이터베이스에서 상기 검색의 대상이 되는 멀티미디어 컨텐츠의 오디오 특징과 동일 또는 유사한 오디오 특징을 가지는 멀티미디어 컨텐츠를 검색하는 단계를 포함한 멀티미디어 컨텐츠 검색 방법을 제공한다.

여기에서, 상기 전처리를 수행하는 단계는 상기 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 추출하는 오디오 신호 추출단계, 상기 오디오 신호를 모노(mono) 신호로 변환하는 오디오 신호 모노화 단계 및 상기 모노 신호로 변환된 오디오 신호를 소정의 주파수로 리샘플링(re-sampling)을 하는 리샘플링 단계를 포함할 수 있다.

여기에서, 상기 묵음 구간을 추출하는 단계는 전처리된 오디오 신호의 구간별 음향 파워를 추출하는 단계 및 구간별 음향 파워를 소정의 역치(threshold)값과 비교하여 묵음(silence) 구간을 파악하는 단계를 포함할 수 있다. 이때, 상기 구간별 음향 파워를 추출하는 단계에서 상기 구간은 소정 간격으로 배치되며, 각 구간의 일부는 이전 구간의 일부와 겹쳐지도록 구성될 수 있다. 이때, 상기 묵음 구간을 파악하는 단계는 음향 파워가 소정의 역치 이하인 구간이 소정 개수 이상 지속될 경우에 해당 구간을 묵음 구간으로 파악하도록 구성될 수 있다.

여기에서, 상기 오디오 특징을 추출하는 단계는 상기 묵음 구간을 추출하는 단계에서 파악된 묵음 구간이 끝나는 시각을 기준으로 적어도 하나 이상의 특정 구간에서 오디오 신호의 파워 스펙트럼을 구하고, 상기 특정 구간에서 구한 파워 스펙트럼을 소정갯수의 서브밴드(sub-band)로 나누어 각 서브밴드별 스펙트럼을 더하여 서브밴드별 파워를 구하고, 구하여진 서브밴드별 파워를 토대로 오디오 특징값을 추출하도록 구성될 수 있다.

상기 다른 목적을 달성하기 위한 본 발명은, 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 분리하여 전처리를 수행하는 오디오 신호 추출 및 전처리부, 상기 전처리된 오디오 신호에 대해서 소정의 시간 간격으로 소정 길이를 가지는 구간의 음향 파워를 계산하는 음향 파워 추출부, 상기 음향 파워 추출부에서 연산한 소정의 시간 간격으로 소정 길이를 가지는 구간의 음향 파워에 기반하여 묵음 구간을 추출하는 묵음 구간 추출부, 상기 추출된 묵음 구간의 종료 시점이후의 적어도 하나의 소정 길이 구간의 오디오 특징을 추출하는 오디오 특징 추출부, 상기 멀티미디어 컨텐츠, 상기 오디오 특징 추출부에서 추출된 오디오 특징 및 상기 묵음구간 추출부에서 추출된 상기 묵음 구간의 종료시점을 연관지어 지정하는 데이터베이스부 및 사용자로부터 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아, 상기 데이터베이스부에서 상기 검색의 대상이 되는 멀티미디어 컨텐츠의 오디오 특징과 동일 또는 유사한 오디오 특징을 가지는 멀티미디어 컨텐츠를 검색하는 데이터베이스 검색부를 포함한 멀티미디어 컨텐츠 검색 장치를 제공한다.

여기에서, 상기 오디오 신호 추출 및 전처리부는 상기 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 추출하고, 추출된 오디오 신호를 모노(mono) 신호로 변환하고, 상기 모노 신호로 변환된 오디오 신호를 소정의 주파수로 리샘플링(re-sampling)을 하도록 구성될 수 있다.

여기에서, 상기 음향 파워 추출부가 음향 파워를 계산하는 구간은 소정 간격으로 배치되며, 각 구간은 이전 구간과 겹쳐지도록 구성될 수 있다.

여기에서, 상기 묵음 구간 추출부는 소정의 시간 간격으로 소정 길이를 가지는 구간의 음향 파워를 소정의 역치(threshold)값과 비교하여 묵음(silence) 구간을 파악하도록 구성될 수 있다. 이때, 상기 묵음 구간 추출부는 소정의 역치 이하인 구간이 소정 개수 이상 지속될 경우에 해당 구간을 묵음 구간으로 파악할 수 있다.

여기에서, 상기 오디오 특징 추출부는 파악된 묵음 구간이 끝나는 시각을 기준으로 적어도 하나 이상의 특정 구간에서 오디오 신호의 파워 스펙트럼을 구하고, 상기 특정 구간에서 구한 파워 스펙트럼을 소정갯수의 서브밴드(sub-band)로 나누어 각 서브밴드별 스펙트럼을 더하여 서브밴드별 파워를 구하며, 상기 서브밴드별 파워를 토대로 오디오 특징값을 추출하도록 구성될 수 있다.

상기와 같은 본 발명에 따른 멀티미디어 컨텐츠 검색 방법 및 장치를 이용할 경우에는 복잡한 처리를 요하지 않으며 오디오 신호 전체에 대한 특징을 구하는 것이 아니라 특정 부분에서의 특징 값을 추출하여 사용하기 때문에 특징의 저장과 검색에서 전체 특징을 사용하는 방법보다 효율적이다.

특히, 본 발명의 방법 및 장치에서 검색의 대상이 되는 오디오 특징은 리샘플링, 이퀄라이제이션 등의 다양한 왜곡에 대하여 강인한 특성을 나타낸다. 또한, 변형에 둔감한 특징 값이 값이 큰 비트에 위치하기 때문에 특징값을 인덱스화 하여 검색하기가 용이하여 동영상/오디오 샘플로부터 대용량 동영상/오디오 데이터베이스에서 샘플이 포함된 동영상/오디오를 실시간으로 검색하는 것이 가능하다.

도 1은 본 발명에 따른 멀티미디어 컨텐츠 검색 방법을 설명하기 위한 순서도이다.
도 2는 본 발명에 따른 멀티미디어 컨텐츠 검색 방법의 오디오 전처리 단계를 설명하기 위한 순서도이다.
도 3은 본 발명에 따른 멀티미디어 컨텐츠 검색 방법에서 계산된 오디오 특징값의 구성을 예시적으로 설명하기 위한 개념도이다.
도 4는 본 발명에 따른 멀티미디어 컨텐츠 검색 장치의 구성을 설명하기 위한 블록도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

애니메이션이나 영화 등의 동영상에서 장면 전환 시 음향 레벨이 매우 작은 묵음(silence) 구간이 존재하게 된다. 본 발명은 이러한 묵음이 끝나고 음향이 역치(threshold) 레벨 이상으로 존재하는 시점에서 어느 정도 시간 동안에서의 특징을 구한 뒤 이를 해시(hash)화 하여 특정 동영상을 가리키는 인덱스로 활용한다.

보다 구체적으로는, 본 발명은 CD와 같은 오디오 소스 또는 동영상으로부터 추출된 음향 신호로부터 묵음 구간을 추출하고, 묵음 구간의 끝에서부터 어느 정도 시간 동안 오디오 특징을 구하고, 이를 해시화하여 인덱스 구조화하고, 이를 이미 구축되어 있는 대용량 멀티미디어 컨텐츠 데이터베이스에서 검색하여 미지의 오디오 신호가 포함된 멀티미디어 컨텐트(오디오/동영상)을 검색하여 주는 시스템에 관한 것이다.

이하에서는, 본 발명에 따른 멀티미디어 컨텐츠 검색 방법과 장치를 순서대로 상술하기로 한다.

본 발명에 따른 멀티미디어 컨텐츠 검색 방법

도 1은 본 발명에 따른 멀티미디어 컨텐츠 검색 방법을 설명하기 위한 순서도이다.

도 1을 참조하면, 본 발명에 따른 멀티미디어 컨텐츠 검색 방법은 오디오 신호 추출 및 전처리 단계(S110), 상기 전처리된 오디오 신호의 묵음 구간을 추출하는 단계(S120), 상기 추출된 묵음 구간의 종료 시점이후 구간의 오디오 특징을 추출하는 오디오 특징을 추출하는 단계(S130), 상기 멀티미디어 컨텐츠, 상기 추출된 오디오 특징 및 상기 묵음 구간의 종료시점을 연관지어 데이터베이스에 저장하는 단계(S140) 및 검색 대상이 되는 오디오 특징을 입력받아 상기 데이터베이스에서 상기 오디오 특징과 동일 또는 유사한 오디오 특징을 가지는 멀티미디어 컨텐츠를 검색하는 단계(S150)를 포함하여 구성될 수 있다.

먼저, 상기 오디오 추출 및 전처리 단계(S110)는 멀티미디어 컨텐츠로부터 오디오 신호를 추출하고, 추출된 오디오 신호에 대한 전처리(pre-processing)를 수행하는 단계에 해당된다.

이하에서는 상기 오디오 추출 및 전처리 단계(S110)를 상술한다.

도 2는 본 발명에 따른 멀티미디어 컨텐츠 검색 방법의 오디오 전처리 단계를 설명하기 위한 순서도이다.

도 2를 참조하면, 상기 오디오 추출 및 전처리 단계(S110)는 오디오 신호 추출 단계(S111), 오디오 신호 모노화 단계(S112) 및 리샘플링 단계(S113)를 포함하여 구성될 수 있다.

오디오 추출 단계(S111)는 색인화하여 데이터베이스화하여야 하는 멀티미디어 컨텐츠로부터 오디오 신호를 추출하는 단계에 해당된다. 즉, 색인화하여야 하는 멀티미디어 컨텐츠가 동영상과 오디오 신호로 구성된 경우에 오디오 신호만을 추출하는 단계이다. 물론, 색인화하여야 하는 멀티미디어 컨텐츠가 오디오 신호인 경우에는 자체적으로 오디오 신호가 추출된 상태일 수 있다. 배경 기술에서 언급된 바와 같이, 오디오 신호의 특징은 영상 신호의 특징에 비해 계산이 용이하고 용량이 적기 때문에 동영상 멀티미디어 컨텐츠의 검색을 위해서도 대상 멀티미디어 컨텐츠로부터 추출된 오디오 신호가 멀티미디어 컨텐츠를 검색하기 위한 수단으로서 활용되기 때문에 단계(S111)를 거치게 된다.

다음으로, 오디오 신호 모노화 단계(S112)는 추출된 오디오 신호를 모노(mono) 신호로 변환하는 단계이다.

모노로 신호를 변환하는 과정은 모든 채널 신호의 평균값을 취하는 방식으로 구성될 수 있다. 추출된 오디오 신호를 모노로 변환하는 이유는 오디오 특징의 추출을 위해서는 다채널의 오디오 신호가 필요치 않으므로, 모노로 변환된 신호를 이용하여 이후의 오디오 특징 추출의 연산량과 검색 과정에서의 효율성을 높이기 위함이다.

다음으로, 리샘플링 단계(S113)는 앞선 모노화 단계(S112)에서 모노로 변환된 오디오 신호를 이후 과정에서의 계산량을 줄여줄 수 있고 효율을 향상시키고, 색인화되어 저장되는 오디오 특징들이 동일한 샘플링 주파수를 갖도록 소정의 주파수로 리샘플링을 하는 과정을 거치게 된다. 여기에서 리샘플링 주파수는 5500 Hz ~ 6000 Hz 범위로 지정하는 것이 바람직하나 필요에 따라서 변경이 가능할 것이다.

다시 도 1을 참조하면, 전처리된 오디오 신호의 묵음 구간을 추출하는 단계(S120)는 전처리된 오디오 신호의 구간별 음향 파워를 추출하고, 구간별 음향 파워를 소정의 역치(threshold)값과 비교하여 묵음(silence) 구간을 파악하는 단계이다.

먼저, 묵음 구간을 추출하기 위해서, 전처리된 오디오 신호를 특정시간만큼 구간으로 나누어 각 구간에서의 파워를 구하게 된다. 예컨대, 음향파워를 구하는 구간의 길이는 동영상을 편집하는 과정에서 포함되는 묵음 구간은 보통 수십에서 수백 ms 정도이므로, 묵음 구간을 파악하기 위해 약 10ms 간격으로 음향 파워를 계산하도록 구성될 수 있다. 다만, 10ms의 구간 간격은 색인화 대상이 되는 멀티미디어 컨텐츠에 따라서 필요에 의해 변경될 수 있다.

음향 파워를 계산하는 오디오 신호 구간의 길이는 약 20ms 정도로 하여 전체적으로 50% 씩 겹쳐가면서 음향파워를 계산하도록 한다. x_i가 i번째 오디오 신호, N이 구간내의 오디오 신호 개수라고 할 때, n번째 구간에서의 음향 파워 P_n는 구간 내의 x_i를 모두 제곱하여 더하고 이를 N으로 나누면 된다. 하기 수학식 1은 이와 같은 음향파워를 계산하는 과정을 수식으로 표현한 것이다.

[수학식 1]

상기 수학식 1에 의하여 구간별로 계산된 음향파워가 특정 역치이하인 구간을 파악하여, 이 구간이 특정 시간 (약 200ms)보다 긴 경우에 묵음 구간으로 설정한다. 이때 묵음 구간이 끝나는 위치(시각)를 기록하여 다음 단계인 오디오 특징을 추출하는 단계()로 전달하게 된다.

오디오 특징을 추출하는 단계(S130)는 묵음 구간을 추출하는 단계(S120)에서 추출된 묵음 구간이 끝나는 시각을 기준으로 적어도 하나 이상의 특정 구간에서 오디오 신호의 파워 스펙트럼(power spectrum)을 구한다.

또한 각 구간에서 구한 파워 스펙트럼을 몇 개의 서브밴드(sub-band)로 나누어 각 주파수 밴드에서의 스펙트럼을 모두 더하여 서브밴드 파워를 구한다. 서브밴드는 인간의 청각 특성을 고려하여 임계대역폭(critical bandwidth)과 비례하도록 설정할 수 있다.

이때, 오디오 특징의 추출은 구하여진 서브밴드별 파워를 토대로 추출되어질 수 있으며, 이하에서는 예시적인 오디오 특징의 추출 방법을 설명하기로 한다. 이하에서 설명되는 오디오 특징의 추출 방법은 묵음 구간이 끝나는 시각을 기준으로 두개의 특정 구간에서 오디오 신호의 파워 스펙트럼을 구하여 오디오 특징을 추출하는 경우를 예시한 것이지만, 본 발명에 따른 오디오 특징의 추출은 반드시 두개의 특정 구간에서 오디오 특징을 추출할 것이 요구되지는 않는다. 예컨대, 한 개의 특정 구간에서 오디오 특징을 추출하거나, 두개 이상의 특정 구간에서 오디오 특징을 추출하는 것도 가능하다(예컨대, 한 개의 특정 구간에서만 오디오 특징을 추출할 경우라면, 후술되는 수학식 2에서 Bi(i=1~16)는 모두 0이 되는 것으로 이해 가능함).

본 발명에서의 실시 예는 파워 스펙트럼을 구하는 첫 번째 구간은 묵음이 끝난 위치에서 256개 데이터를 취하며, 두 번째 구간은 묵음이 끝난 위치에서 101번째에서 256개의 데이터를 취하고, 서브밴드는 중요한 음향 정보가 대부분 포함되어 있는 200 Hz 에서 2000 Hz 구간을 임계대역폭을 기준으로 16개로 분할한 경우를 예시하고 있다. 다만, 서브밴드의 개수, 파워 스펙트럼을 구하는 구간은 시스템 구현 방법에 따라 다양하게 설정될 수 있음에 유의하여야 한다.

이때 첫 번째 구간에서의 서브밴드파워를 저주파에서 고주파 순으로 A_i (i=1, 2, , 16)라고 하고, 두 번째 구간에서의 서브밴드파워를 B_i라고 하면, 16비트로 나타내어지는 k 번째 (k=1, 2, , 16) bit에서의 특징 값 Z_k는 하기 수학식 2와 같이 표현될 수 있다.

[수학식 2]

i=9, 10, , 16 에서는

도 3은 본 발명에 따른 멀티미디어 컨텐츠 검색 방법에서 계산된 오디오 특징값의 구성을 예시적으로 설명하기 위한 개념도이다.

도 3을 참조하면, 특징값 Z_k은 16bit 값을 가지며, 첫번째 비트가 가장 높은 값을 갖게 된다. 따라서 이러한 특징 값은 동일한 내용을 가지고 있지만 대역 통과 필터링 등에 의해 부분적으로만 왜곡이 발생한 경우에는 낮은 값을 갖는 비트 값만 변형이 되기 때문에 특징값을 인덱싱하여 처리하는데 매우 유리하다.

다시 설명하면 첫번째 비트는 이웃하고 있는 프레임간의 음향 파워 차이를 비교하기 때문에 왜곡이 매우 심한 변형이 아니면 동일한 내용을 포함한 오디오 신호의 경우 그 값이 서로 변형되지 않고 유지된다. 따라서 특징값의 앞쪽 비트가 변형될 가능성은 적으며, 뒤쪽 몇 개 비트가 다르다고 해도 상당히 유사한 내용의 오디오 신호를 가능성이 높다. 따라서 이를 인덱스화 할 경우 큰 값을 먼저 비교하고 나중에 낮은 값을 비교하는 식으로 처리할 수 가 있어 검색 효율을 증가시킬 수 있다.

특징 값은 한 개의 묵음 위치를 기준으로 여러 개를 추출 할 수 있으며, 변형에 의해 왜곡이 잘 발생되지 않는 순으로 중요한 비트 위치에 그 값을 할당할 수 있다.

다음으로, 데이터베이스에 저장하는 단계(S140)는 상기 멀티미디어 컨텐츠, 상기 추출된 오디오 특징 및 상기 묵음 구간의 종료시점을 연관지어 데이터베이스에 저장하는 단계이다.

즉, 데이터베이스에 저장하는 단계(S140)에서는 멀티미디어 컨텐츠(동영상+오디오 또는 오디오)의 정보(파일명, 특정하기 위한 ID, 파일의 위치 등), 상기 추출된 오디오 특징값과 상기 오디오 특징값이 추출되어진 오디오 신호 구간의 시각 정보 등의 정보 중 적어도 둘 이상을 상호 연관지어 데이터베이스화게 된다.

이때, 오디오 특징값이 추출되어진 오디오 신호 구간의 시각 정보는 특징값이 추출되어진 오디오 신호 구간의 바로 앞 묵음 구간이 끝나는 시점의 시각정보일 수 있다

마지막으로, 데이터베이스 검색 단계(S150)에서는 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아 입력된 오디오 특징을 상기 데이터베이스에서 검색하여, 검색된 멀티미디어 컨텐츠에 대한 정보를 사용자에게 제공한다.

본 발명에 따른 멀티미디어 컨텐츠 검색 장치

도 4는 본 발명에 따른 멀티미디어 컨텐츠 검색 장치의 구성을 설명하기 위한 블록도이다.

도 4를 참조하면, 본 발명에 따른 멀티미디어 컨텐츠 검색 장치(400)는 오디오 신호 추출 및 전처리부(410), 음향 파워 추출부(420), 묵음 구간 추출부(430), 오디오 특징 추출부(440), 데이터베이스부(450) 및 데이터베이스 검색부(460)를 포함하여 구성될 수 있다.

먼저 오디오 신호 추출 및 전처리부(410)는 도 1을 통하여 상술된 멀티미디어 컨텐츠 검색 방법의 오디오 신호 추출 및 전처리 단계(S110)를 수행하기 위한 구성요소이다. 즉, 색인화 대상이 되는 멀티미디어 컨텐츠로부터 오디오 신호를 추출하고, 추출된 오디오 신호에 대한 전처리(pre-processing)를 수행하는 구성요소에 해당된다.

상기 오디오 신호 추출 및 전처리부(410)는 색인화하여 데이터베이스화하여야 하는 멀티미디어 컨텐츠로부터 오디오 신호를 추출하고 추출된 오디오 신호를 모노(mono) 신호로 변환하고, 모노로 변환된 오디오 신호를 계산량을 줄이고 효율을 향상시키기 위해서 소정의 주파수(예컨대, 5500 Hz ~ 6000 Hz)의 주파수로 리샘플링을 하는 역할을 수행한다.

따라서, 오디오 신호 추출 및 전처리부(410)는 색인화 대상이 되는 멀티미디어 컨텐츠의 파일 형식을 판별하고, 메타 데이터(meta data) 영역등을 판독하여 해당 멀티미디어 컨텐츠내에 존재하는 오디오 스트림과 비디오 스트림을 분리하기 위한 구성요소를 구비할 수 있다. 특히, 분리된 오디오 신호가 특정한 방식으로 부호화(encoding)가 되어 있는 경우에는 모노 신호의 변환이나 리샘플링을 수행하기 위해서 이를 복호화(decoding)하는 과정이 필요할 수 있으므로, 오디오 신호 추출 및 전처리부(410)는 다양한 오디오 신호의 형식에 대응될 수 있도록 다종의 복호화기(decoder)를 구비하고 상술된 파일 형식이나 메타 데이터 정보를 토대로 추출된 오디오 신호를 복호화하는 구성요소를 추가로 포함할 수도 있다.

다음으로, 음향 파워 추출부(420)와 묵음 구간 추출부(430)는 도 1을 통하여 설명된 본 발명에 따른 멀티미디어 컨텐츠 검색 방법의 오디오 신호의 묵음 구간을 추출하는 단계(S120)를 수행하기 위한 구성요소이다.

즉, 음향 파워 추출부(420)는 상기 수학식 1에 의거하여 소정 시간 간격으로 소정 길이 구간의 오디오 신호의 음향 파워를 산출하며, 묵음 구간 추출부()는 소정의 역치값을 이용하여 오디오 신호내의 묵음 구간을 파악하게 된다.

이때, 음향 파워 추출부(420)에서 음향 파워를 산출하는 구간의 시간 간격과 구간의 길이, 묵음 구간 추출부(430)에서 묵음 구간을 판별하기 위한 역치값 등의 설정값들은 시스템 환경에 따라서 달라질 수 있으므로 사용자가 변경 설정할 수 있도록 구성될 수 있다. 예컨대, 음향 파워 추출부(420)와 묵음 추출부(430)가 FPGA, ASIC 등의 하드웨어로 구성될 경우에는 소정의 설정 레지스터(register)를 통하여 상기 설정값들을 변경하도록 구성될 수 있을 것이며, 음향 파워 추출부(420)와 묵음 추출부(430)가 소프트웨어적으로 구현될 경우에는 변수값을 통하여 설정 변경이 가능하도록 구성될 수 있을 것이다.

다음으로, 오디오 특징 추출부(440)는 도 1을 통하여 설명된 본 발명에 따른 멀티미디어 컨텐츠 검색 방법의 오디오 특징을 추출하는 단계(S130)를 수행하기 위한 구성요소이다. 오디오 특징 추출부(440)는 예컨대 상기 수학식 2를 통하여 상기 추출된 묵음 구간의 종료 시점이후의 적어도 하나의 소정 길이 구간의 오디오 특징을 추출하도록 구성될 수 있다. 오디오 특징 추출부(440)에서 오디오 특징을 추출하는 방법의 예시는 도 1을 참조하여 설명된 오디오 특징을 추출하는 단계(S130)와 동일하므로 생략된다.

데이터베이스부(450)는 상기 색인화 대상 멀티미디어 컨텐츠에 대한 정보(파일명, 파일의 위치), 상기 오디오 특징 추출부에서 추출된 오디오 특징 및 상기 묵음구간 추출부에서 추출된 상기 묵음 구간의 종료시점 등 정보 중 적어도 하나를 서로 연관지어 지정하는 구성요소이다.

여기에서 데이터베이스부는 데이터베이스 관리 시스템(DBMS: Database Management System)를 포함하는 개념으로, 데이터베이스의 형식(관계형-relational, 객체지향형-object oriented)와는 무관하게 상기한 정보들을 데이터베이스화하는 구성요소임을 의미할 수 있다.

마지막으로, 데이터베이스 검색부(460)는 사용자로부터 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아, 상기 데이터베이스부에서 상기 검색의 대상이 되는 멀티미디어 컨텐츠의 오디오 특징과 동일 또는 유사한 오디오 특징을 가지는 멀티미디어 컨텐츠를 검색하는 구성요소로서, 즉, 사용자의 요청에 의한 데이터베이스 질의(query)를 수행하는 구성요소이다. 또한, 데이터베이스 검색부(460)는 사용자로부터 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받고 검색 결과를 출력할 수 있는 사용자 인터페이스(461)를 포함할 수 있다.

주의 사항으로, 데이터베이스 검색부(460)의 구성요소는 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아서 데이터베이스부(450)에 대한 검색을 수행하게 되지만, 사용자로부터 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징이 아니라 검색 대상이 되는 멀티미디어 컨텐츠를 입력받은 경우도 상정할 수 있다.

다만, 도 4에 예시된 데이터베이스 검색부(460)는 검색 대상 멀티미디어 컨텐츠로부터 이미 추출된 오디오 특징값을 전달받는 경우를 상정한 것으로, 검색 대상 멀티미디어 컨텐츠로부터 오디오 특징을 추출하는 과정은 도 1을 통하여 설명된 멀티미디어 컨텐츠로부터 오디오 신호를 분리하여 전처리를 수행하는 오디오 신호 추출 및 전처리 단계(S110), 전처리된 오디오 신호의 묵음 구간을 추출하는 단계(S120), 추출된 묵음 구간의 종료 시점이후의 적어도 하나의 소정 길이 구간의 오디오 특징을 추출하는 오디오 특징 추출 단계(S130)의 전부 또는 일부를 수행하여 오디오 특징값을 추출하여 데이터베이스 검색부(450)에 입력하도록 별도의 구성요소에서 수행되어질 수 있을 것이다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

400: 멀티미디어 컨텐츠 검색 장치
410: 오디오 신호 추출 및 전처리부
420: 음향 파워 추출부 430: 묵음 구간 추출부
440: 오디오 특징 추출부 450: 데이터베이스부
460: 데이터베이스 검색 부 461: 사용자 인터페이스

Claims

색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 분리하여 전처리를 수행하는 오디오 신호 추출 및 전처리 단계;
상기 전처리된 오디오 신호의 묵음 구간을 추출하는 단계;
상기 추출된 묵음 구간의 종료 시점이후의 적어도 하나의 소정 길이 구간의 오디오 특징을 추출하는 오디오 특징 추출 단계;
상기 멀티미디어 컨텐츠에 대한 정보, 상기 추출된 오디오 특징 및 상기 묵음 구간의 종료시점 중 적어도 둘 이상을 서로 연관지어 데이터베이스에 저장하는 단계; 및
검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아, 상기 데이터베이스에서 상기 검색의 대상이 되는 멀티미디어 컨텐츠의 오디오 특징과 동일 또는 유사한 오디오 특징을 가지는 멀티미디어 컨텐츠를 검색하는 단계를 포함한 멀티미디어 컨텐츠 검색 방법.
제 1 항에 있어서,
상기 전처리를 수행하는 단계는
상기 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 추출하는 오디오 신호 추출단계;
상기 오디오 신호를 모노(mono) 신호로 변환하는 오디오 신호 모노화 단계; 및
상기 모노 신호로 변환된 오디오 신호를 소정의 주파수로 리샘플링(re-sampling)을 하는 리샘플링 단계를 포함하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 방법.
제 1 항에 있어서,
상기 묵음 구간을 추출하는 단계는
전처리된 오디오 신호의 구간별 음향 파워를 추출하는 단계; 및
구간별 음향 파워를 소정의 역치(threshold)값과 비교하여 묵음(silence) 구간을 파악하는 단계를 포함하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 방법.
제 3 항에 있어서,
상기 구간별 음향 파워를 추출하는 단계에서 상기 구간은 소정 간격으로 배치되며, 각 구간의 일부는 이전 구간의 일부와 겹쳐지도록 구성되는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 방법.
제 3 항에 있어서,
상기 묵음 구간을 파악하는 단계는 음향 파워가 소정의 역치 이하인 구간이 소정 개수 이상 지속될 경우에 해당 구간을 묵음 구간으로 파악하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 방법.
제 1 항에 있어서,
상기 오디오 특징을 추출하는 단계는
상기 묵음 구간을 추출하는 단계에서 파악된 묵음 구간이 끝나는 시각을 기준으로 적어도 하나 이상의 특정 구간에서 오디오 신호의 파워 스펙트럼을 구하고, 상기 특정 구간에서 구한 파워 스펙트럼을 소정갯수의 서브밴드(sub-band)로 나누어 각 서브밴드별 스펙트럼을 더하여 서브밴드별 파워를 구하고, 구하여진 서브밴드별 파워를 토대로 오디오 특징값을 추출하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 방법.
색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 분리하여 전처리를 수행하는 오디오 신호 추출 및 전처리부;
상기 전처리된 오디오 신호에 대해서 소정의 시간 간격으로 소정 길이를 가지는 구간의 음향 파워를 계산하는 음향 파워 추출부;
상기 음향 파워 추출부에서 연산한 소정의 시간 간격으로 소정 길이를 가지는 구간의 음향 파워에 기반하여 묵음 구간을 추출하는 묵음 구간 추출부;
상기 추출된 묵음 구간의 종료 시점이후의 적어도 하나의 소정 길이 구간의 오디오 특징을 추출하는 오디오 특징 추출부;
상기 멀티미디어 컨텐츠, 상기 오디오 특징 추출부에서 추출된 오디오 특징 및 상기 묵음구간 추출부에서 추출된 상기 묵음 구간의 종료시점을 연관지어 지정하는 데이터베이스부; 및
사용자로부터 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아, 상기 데이터베이스부에서 상기 검색의 대상이 되는 멀티미디어 컨텐츠의 오디오 특징과 동일 또는 유사한 오디오 특징을 가지는 멀티미디어 컨텐츠를 검색하는 데이터베이스 검색부를 포함한 멀티미디어 컨텐츠 검색 장치.
제 7 항에 있어서,
상기 오디오 신호 추출 및 전처리부는
상기 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 추출하고, 추출된 오디오 신호를 모노(mono) 신호로 변환하고, 상기 모노 신호로 변환된 오디오 신호를 소정의 주파수로 리샘플링(re-sampling)을 하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 장치.
제 7 항에 있어서,
상기 음향 파워 추출부가 음향 파워를 계산하는 구간은 소정 간격으로 배치되며, 각 구간은 이전 구간과 겹쳐지도록 구성되는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 장치.
제 7 항에 있어서,
상기 묵음 구간 추출부는
소정의 시간 간격으로 소정 길이를 가지는 구간의 음향 파워를 소정의 역치(threshold)값과 비교하여 묵음(silence) 구간을 파악하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 장치.
제 10 항에 있어서,
상기 묵음 구간 추출부는
소정의 역치 이하인 구간이 소정 개수 이상 지속될 경우에 해당 구간을 묵음 구간으로 파악하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 장치.
제 7 항에 있어서,
상기 오디오 특징 추출부는
파악된 묵음 구간이 끝나는 시각을 기준으로 적어도 하나 이상의 특정 구간에서 오디오 신호의 파워 스펙트럼을 구하고, 상기 특정 구간에서 구한 파워 스펙트럼을 소정갯수의 서브밴드(sub-band)로 나누어 각 서브밴드별 스펙트럼을 더하여 서브밴드별 파워를 구하며, 상기 서브밴드별 파워를 토대로 오디오 특징값을 추출하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 장치.