KR20120064582A - 멀티미디어 컨텐츠 검색 방법 및 장치 - Google Patents

멀티미디어 컨텐츠 검색 방법 및 장치 Download PDF

Info

Publication number
KR20120064582A
KR20120064582A KR1020100125866A KR20100125866A KR20120064582A KR 20120064582 A KR20120064582 A KR 20120064582A KR 1020100125866 A KR1020100125866 A KR 1020100125866A KR 20100125866 A KR20100125866 A KR 20100125866A KR 20120064582 A KR20120064582 A KR 20120064582A
Authority
KR
South Korea
Prior art keywords
section
multimedia content
audio
extracting
audio signal
Prior art date
Application number
KR1020100125866A
Other languages
English (en)
Inventor
정혁
오원근
나상일
이근동
제성관
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100125866A priority Critical patent/KR20120064582A/ko
Priority to US13/312,105 priority patent/US20120150890A1/en
Publication of KR20120064582A publication Critical patent/KR20120064582A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

멀티미디어 컨텐츠 검색 검색 방법 및 장치가 개시된다. 본 발명에 따른 멀티미디어 컨텐츠 검색 방법은 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 분리하여 전처리를 수행하는 오디오 신호 추출 및 전처리 단계, 전처리된 오디오 신호의 묵음 구간을 추출하는 단계, 추출된 묵음 구간의 종료 시점이후의 적어도 하나의 소정 길이 구간의 오디오 특징을 추출하는 오디오 특징 추출 단계, 멀티미디어 컨텐츠에 대한 정보, 상기 추출된 오디오 특징 및 상기 묵음 구간의 종료시점 중 적어도 둘 이상을 서로 연관지어 데이터베이스에 저장하는 단계 및 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아, 상기 데이터베이스에서 상기 검색의 대상이 되는 멀티미디어 컨텐츠의 오디오 특징과 동일 또는 유사한 오디오 특징을 가지는 멀티미디어 컨텐츠를 검색하는 단계를 포함하여 구성될 수 있다. 따라서, 오디오 신호 전체에 대한 특징이 아니라 특정 부분의 특징만을 이용하여 멀티미디어 컨텐츠 검색을 수행하므로 대용량 멀티미디어 컨텐츠에 대한 검색이 빠르고 효율적으로 가능해진다.

Description

멀티미디어 컨텐츠 검색 방법 및 장치{Method of searching multi-media contents and apparatus for the same}
본 발명은 멀티미디어 컨텐츠 검색 방법 및 장치에 관한 것으로, 더욱 상세하게는 멀티미디어 컨텐츠의 오디오 특징을 색인화(indexing)하여 대용량의 멀티미디어 컨텐츠를 빠르게 검색할 수 있도록 하는 멀티미디어 컨텐츠 검색 방법과 장치에 관한 것이다.
인터넷 상의 무수한 오디오/동영상 콘텐츠로부터 콘텐츠의 일부만을 사용자가 가지고 있을 때, 콘텐츠 일부가 포함된 콘텐츠를 검색하기 위한 기술이 필요하다. 동영상에는 일반적으로 영상신호와 동기된 오디오 신호가 포함되어 있으며, 오디오 신호의 특징은 영상 신호의 특징에 비해 계산이 용이하고 용량이 적기 때문에 동영상의 검색을 위해 오디오 신호가 동영상을 검색하기 위한 수단으로서 활용된다.
오디오 특징을 활용하여 콘텐츠를 검색하기 위해서는 리샘플링, MP3와 같은 유손실 압축, 이퀄라이제이션(equalization) 등의 오디오 신호 변형에 대해 강인한 특성을 가져야 하고, 간단한 처리 과정을 거쳐 실시간 검색이 용이하여야 한다.
예컨대, 한국특허출원공개 제2004-0040409호는 오디오 특징을 생성하는 방법과 장치에 관한 것으로, 오디오 특징으로서 각각의 서브밴드의 스펙트럼 평면도(spectrum flatness)를 사용한다. 상기 특허문헌은 상이한 요건에 적합한 오디오 특징을 제공하지만 이러한 값은 오디오 신호에 가해지는 왜곡들에 강인한 특성을 갖지 못한다.
한편, 한국특허출원공개 제2005-0039544호는 오디오 복제 검출기에 관한 것으로, 오디오 특징으로서 중첩 윈도우를 갖는 푸리에 변환(Modulated Complex Lapped Transform; MCLT) 계수를 사용하며, 오디오 특징의 길이를 줄이고 강인성을 높이기 위해 왜곡 구별 해석(Distortion Discriminant Analysis; DDA)을 사용한다. 그러나, 이러한 왜곡 구별 해석은 처리 과정이 복잡하여, 오디오 파일을 검색하는데 시간이 오래 걸리는 문제점이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 오디오 신호의 특징값을 이용하여 멀티미디어 컨텐츠를 검색하는 방법으로서, 멀티미디어 컨텐츠에 포함된 오디오 신호의 변형에 대해 강인한 특성을 가지고, 간단한 처리 과정을 거쳐 실시간 검색도 용이한 멀티미디어 컨텐츠 검색 방법을 제공하는데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 오디오 신호의 특징값을 이용하여 멀티미디어 컨텐츠를 검색하는 방법으로서 멀티미디어 컨텐츠에 포함된 오디오 신호 변형에 대해 강인한 특성을 가지고, 간단한 처리 과정을 거쳐 실시간 검색도 용이한 멀티미디어 컨텐츠 검색 장치를 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명은, 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 분리하여 전처리를 수행하는 오디오 신호 추출 및 전처리 단계, 상기 전처리된 오디오 신호의 묵음 구간을 추출하는 단계, 상기 추출된 묵음 구간의 종료 시점이후의 적어도 하나의 소정 길이 구간의 오디오 특징을 추출하는 오디오 특징 추출 단계, 상기 멀티미디어 컨텐츠에 대한 정보, 상기 추출된 오디오 특징 및 상기 묵음 구간의 종료시점 중 적어도 둘 이상을 서로 연관지어 데이터베이스에 저장하는 단계 및 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아, 상기 데이터베이스에서 상기 검색의 대상이 되는 멀티미디어 컨텐츠의 오디오 특징과 동일 또는 유사한 오디오 특징을 가지는 멀티미디어 컨텐츠를 검색하는 단계를 포함한 멀티미디어 컨텐츠 검색 방법을 제공한다.
여기에서, 상기 전처리를 수행하는 단계는 상기 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 추출하는 오디오 신호 추출단계, 상기 오디오 신호를 모노(mono) 신호로 변환하는 오디오 신호 모노화 단계 및 상기 모노 신호로 변환된 오디오 신호를 소정의 주파수로 리샘플링(re-sampling)을 하는 리샘플링 단계를 포함할 수 있다.
여기에서, 상기 묵음 구간을 추출하는 단계는 전처리된 오디오 신호의 구간별 음향 파워를 추출하는 단계 및 구간별 음향 파워를 소정의 역치(threshold)값과 비교하여 묵음(silence) 구간을 파악하는 단계를 포함할 수 있다. 이때, 상기 구간별 음향 파워를 추출하는 단계에서 상기 구간은 소정 간격으로 배치되며, 각 구간의 일부는 이전 구간의 일부와 겹쳐지도록 구성될 수 있다. 이때, 상기 묵음 구간을 파악하는 단계는 음향 파워가 소정의 역치 이하인 구간이 소정 개수 이상 지속될 경우에 해당 구간을 묵음 구간으로 파악하도록 구성될 수 있다.
여기에서, 상기 오디오 특징을 추출하는 단계는 상기 묵음 구간을 추출하는 단계에서 파악된 묵음 구간이 끝나는 시각을 기준으로 적어도 하나 이상의 특정 구간에서 오디오 신호의 파워 스펙트럼을 구하고, 상기 특정 구간에서 구한 파워 스펙트럼을 소정갯수의 서브밴드(sub-band)로 나누어 각 서브밴드별 스펙트럼을 더하여 서브밴드별 파워를 구하고, 구하여진 서브밴드별 파워를 토대로 오디오 특징값을 추출하도록 구성될 수 있다.
상기 다른 목적을 달성하기 위한 본 발명은, 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 분리하여 전처리를 수행하는 오디오 신호 추출 및 전처리부, 상기 전처리된 오디오 신호에 대해서 소정의 시간 간격으로 소정 길이를 가지는 구간의 음향 파워를 계산하는 음향 파워 추출부, 상기 음향 파워 추출부에서 연산한 소정의 시간 간격으로 소정 길이를 가지는 구간의 음향 파워에 기반하여 묵음 구간을 추출하는 묵음 구간 추출부, 상기 추출된 묵음 구간의 종료 시점이후의 적어도 하나의 소정 길이 구간의 오디오 특징을 추출하는 오디오 특징 추출부, 상기 멀티미디어 컨텐츠, 상기 오디오 특징 추출부에서 추출된 오디오 특징 및 상기 묵음구간 추출부에서 추출된 상기 묵음 구간의 종료시점을 연관지어 지정하는 데이터베이스부 및 사용자로부터 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아, 상기 데이터베이스부에서 상기 검색의 대상이 되는 멀티미디어 컨텐츠의 오디오 특징과 동일 또는 유사한 오디오 특징을 가지는 멀티미디어 컨텐츠를 검색하는 데이터베이스 검색부를 포함한 멀티미디어 컨텐츠 검색 장치를 제공한다.
여기에서, 상기 오디오 신호 추출 및 전처리부는 상기 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 추출하고, 추출된 오디오 신호를 모노(mono) 신호로 변환하고, 상기 모노 신호로 변환된 오디오 신호를 소정의 주파수로 리샘플링(re-sampling)을 하도록 구성될 수 있다.
여기에서, 상기 음향 파워 추출부가 음향 파워를 계산하는 구간은 소정 간격으로 배치되며, 각 구간은 이전 구간과 겹쳐지도록 구성될 수 있다.
여기에서, 상기 묵음 구간 추출부는 소정의 시간 간격으로 소정 길이를 가지는 구간의 음향 파워를 소정의 역치(threshold)값과 비교하여 묵음(silence) 구간을 파악하도록 구성될 수 있다. 이때, 상기 묵음 구간 추출부는 소정의 역치 이하인 구간이 소정 개수 이상 지속될 경우에 해당 구간을 묵음 구간으로 파악할 수 있다.
여기에서, 상기 오디오 특징 추출부는 파악된 묵음 구간이 끝나는 시각을 기준으로 적어도 하나 이상의 특정 구간에서 오디오 신호의 파워 스펙트럼을 구하고, 상기 특정 구간에서 구한 파워 스펙트럼을 소정갯수의 서브밴드(sub-band)로 나누어 각 서브밴드별 스펙트럼을 더하여 서브밴드별 파워를 구하며, 상기 서브밴드별 파워를 토대로 오디오 특징값을 추출하도록 구성될 수 있다.
상기와 같은 본 발명에 따른 멀티미디어 컨텐츠 검색 방법 및 장치를 이용할 경우에는 복잡한 처리를 요하지 않으며 오디오 신호 전체에 대한 특징을 구하는 것이 아니라 특정 부분에서의 특징 값을 추출하여 사용하기 때문에 특징의 저장과 검색에서 전체 특징을 사용하는 방법보다 효율적이다.
특히, 본 발명의 방법 및 장치에서 검색의 대상이 되는 오디오 특징은 리샘플링, 이퀄라이제이션 등의 다양한 왜곡에 대하여 강인한 특성을 나타낸다. 또한, 변형에 둔감한 특징 값이 값이 큰 비트에 위치하기 때문에 특징값을 인덱스화 하여 검색하기가 용이하여 동영상/오디오 샘플로부터 대용량 동영상/오디오 데이터베이스에서 샘플이 포함된 동영상/오디오를 실시간으로 검색하는 것이 가능하다.
도 1은 본 발명에 따른 멀티미디어 컨텐츠 검색 방법을 설명하기 위한 순서도이다.
도 2는 본 발명에 따른 멀티미디어 컨텐츠 검색 방법의 오디오 전처리 단계를 설명하기 위한 순서도이다.
도 3은 본 발명에 따른 멀티미디어 컨텐츠 검색 방법에서 계산된 오디오 특징값의 구성을 예시적으로 설명하기 위한 개념도이다.
도 4는 본 발명에 따른 멀티미디어 컨텐츠 검색 장치의 구성을 설명하기 위한 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
애니메이션이나 영화 등의 동영상에서 장면 전환 시 음향 레벨이 매우 작은 묵음(silence) 구간이 존재하게 된다. 본 발명은 이러한 묵음이 끝나고 음향이 역치(threshold) 레벨 이상으로 존재하는 시점에서 어느 정도 시간 동안에서의 특징을 구한 뒤 이를 해시(hash)화 하여 특정 동영상을 가리키는 인덱스로 활용한다.
보다 구체적으로는, 본 발명은 CD와 같은 오디오 소스 또는 동영상으로부터 추출된 음향 신호로부터 묵음 구간을 추출하고, 묵음 구간의 끝에서부터 어느 정도 시간 동안 오디오 특징을 구하고, 이를 해시화하여 인덱스 구조화하고, 이를 이미 구축되어 있는 대용량 멀티미디어 컨텐츠 데이터베이스에서 검색하여 미지의 오디오 신호가 포함된 멀티미디어 컨텐트(오디오/동영상)을 검색하여 주는 시스템에 관한 것이다.
이하에서는, 본 발명에 따른 멀티미디어 컨텐츠 검색 방법과 장치를 순서대로 상술하기로 한다.
본 발명에 따른 멀티미디어 컨텐츠 검색 방법
도 1은 본 발명에 따른 멀티미디어 컨텐츠 검색 방법을 설명하기 위한 순서도이다.
도 1을 참조하면, 본 발명에 따른 멀티미디어 컨텐츠 검색 방법은 오디오 신호 추출 및 전처리 단계(S110), 상기 전처리된 오디오 신호의 묵음 구간을 추출하는 단계(S120), 상기 추출된 묵음 구간의 종료 시점이후 구간의 오디오 특징을 추출하는 오디오 특징을 추출하는 단계(S130), 상기 멀티미디어 컨텐츠, 상기 추출된 오디오 특징 및 상기 묵음 구간의 종료시점을 연관지어 데이터베이스에 저장하는 단계(S140) 및 검색 대상이 되는 오디오 특징을 입력받아 상기 데이터베이스에서 상기 오디오 특징과 동일 또는 유사한 오디오 특징을 가지는 멀티미디어 컨텐츠를 검색하는 단계(S150)를 포함하여 구성될 수 있다.
먼저, 상기 오디오 추출 및 전처리 단계(S110)는 멀티미디어 컨텐츠로부터 오디오 신호를 추출하고, 추출된 오디오 신호에 대한 전처리(pre-processing)를 수행하는 단계에 해당된다.
이하에서는 상기 오디오 추출 및 전처리 단계(S110)를 상술한다.
도 2는 본 발명에 따른 멀티미디어 컨텐츠 검색 방법의 오디오 전처리 단계를 설명하기 위한 순서도이다.
도 2를 참조하면, 상기 오디오 추출 및 전처리 단계(S110)는 오디오 신호 추출 단계(S111), 오디오 신호 모노화 단계(S112) 및 리샘플링 단계(S113)를 포함하여 구성될 수 있다.
오디오 추출 단계(S111)는 색인화하여 데이터베이스화하여야 하는 멀티미디어 컨텐츠로부터 오디오 신호를 추출하는 단계에 해당된다. 즉, 색인화하여야 하는 멀티미디어 컨텐츠가 동영상과 오디오 신호로 구성된 경우에 오디오 신호만을 추출하는 단계이다. 물론, 색인화하여야 하는 멀티미디어 컨텐츠가 오디오 신호인 경우에는 자체적으로 오디오 신호가 추출된 상태일 수 있다. 배경 기술에서 언급된 바와 같이, 오디오 신호의 특징은 영상 신호의 특징에 비해 계산이 용이하고 용량이 적기 때문에 동영상 멀티미디어 컨텐츠의 검색을 위해서도 대상 멀티미디어 컨텐츠로부터 추출된 오디오 신호가 멀티미디어 컨텐츠를 검색하기 위한 수단으로서 활용되기 때문에 단계(S111)를 거치게 된다.
다음으로, 오디오 신호 모노화 단계(S112)는 추출된 오디오 신호를 모노(mono) 신호로 변환하는 단계이다.
모노로 신호를 변환하는 과정은 모든 채널 신호의 평균값을 취하는 방식으로 구성될 수 있다. 추출된 오디오 신호를 모노로 변환하는 이유는 오디오 특징의 추출을 위해서는 다채널의 오디오 신호가 필요치 않으므로, 모노로 변환된 신호를 이용하여 이후의 오디오 특징 추출의 연산량과 검색 과정에서의 효율성을 높이기 위함이다.
다음으로, 리샘플링 단계(S113)는 앞선 모노화 단계(S112)에서 모노로 변환된 오디오 신호를 이후 과정에서의 계산량을 줄여줄 수 있고 효율을 향상시키고, 색인화되어 저장되는 오디오 특징들이 동일한 샘플링 주파수를 갖도록 소정의 주파수로 리샘플링을 하는 과정을 거치게 된다. 여기에서 리샘플링 주파수는 5500 Hz ~ 6000 Hz 범위로 지정하는 것이 바람직하나 필요에 따라서 변경이 가능할 것이다.
다시 도 1을 참조하면, 전처리된 오디오 신호의 묵음 구간을 추출하는 단계(S120)는 전처리된 오디오 신호의 구간별 음향 파워를 추출하고, 구간별 음향 파워를 소정의 역치(threshold)값과 비교하여 묵음(silence) 구간을 파악하는 단계이다.
먼저, 묵음 구간을 추출하기 위해서, 전처리된 오디오 신호를 특정시간만큼 구간으로 나누어 각 구간에서의 파워를 구하게 된다. 예컨대, 음향파워를 구하는 구간의 길이는 동영상을 편집하는 과정에서 포함되는 묵음 구간은 보통 수십에서 수백 ms 정도이므로, 묵음 구간을 파악하기 위해 약 10ms 간격으로 음향 파워를 계산하도록 구성될 수 있다. 다만, 10ms의 구간 간격은 색인화 대상이 되는 멀티미디어 컨텐츠에 따라서 필요에 의해 변경될 수 있다.
음향 파워를 계산하는 오디오 신호 구간의 길이는 약 20ms 정도로 하여 전체적으로 50% 씩 겹쳐가면서 음향파워를 계산하도록 한다. xi가 i번째 오디오 신호, N이 구간내의 오디오 신호 개수라고 할 때, n번째 구간에서의 음향 파워 Pn는 구간 내의 xi를 모두 제곱하여 더하고 이를 N으로 나누면 된다. 하기 수학식 1은 이와 같은 음향파워를 계산하는 과정을 수식으로 표현한 것이다.
[수학식 1]
Figure pat00001

상기 수학식 1에 의하여 구간별로 계산된 음향파워가 특정 역치이하인 구간을 파악하여, 이 구간이 특정 시간 (약 200ms)보다 긴 경우에 묵음 구간으로 설정한다. 이때 묵음 구간이 끝나는 위치(시각)를 기록하여 다음 단계인 오디오 특징을 추출하는 단계()로 전달하게 된다.
오디오 특징을 추출하는 단계(S130)는 묵음 구간을 추출하는 단계(S120)에서 추출된 묵음 구간이 끝나는 시각을 기준으로 적어도 하나 이상의 특정 구간에서 오디오 신호의 파워 스펙트럼(power spectrum)을 구한다.
또한 각 구간에서 구한 파워 스펙트럼을 몇 개의 서브밴드(sub-band)로 나누어 각 주파수 밴드에서의 스펙트럼을 모두 더하여 서브밴드 파워를 구한다. 서브밴드는 인간의 청각 특성을 고려하여 임계대역폭(critical bandwidth)과 비례하도록 설정할 수 있다.
이때, 오디오 특징의 추출은 구하여진 서브밴드별 파워를 토대로 추출되어질 수 있으며, 이하에서는 예시적인 오디오 특징의 추출 방법을 설명하기로 한다. 이하에서 설명되는 오디오 특징의 추출 방법은 묵음 구간이 끝나는 시각을 기준으로 두개의 특정 구간에서 오디오 신호의 파워 스펙트럼을 구하여 오디오 특징을 추출하는 경우를 예시한 것이지만, 본 발명에 따른 오디오 특징의 추출은 반드시 두개의 특정 구간에서 오디오 특징을 추출할 것이 요구되지는 않는다. 예컨대, 한 개의 특정 구간에서 오디오 특징을 추출하거나, 두개 이상의 특정 구간에서 오디오 특징을 추출하는 것도 가능하다(예컨대, 한 개의 특정 구간에서만 오디오 특징을 추출할 경우라면, 후술되는 수학식 2에서 Bi(i=1~16)는 모두 0이 되는 것으로 이해 가능함).
본 발명에서의 실시 예는 파워 스펙트럼을 구하는 첫 번째 구간은 묵음이 끝난 위치에서 256개 데이터를 취하며, 두 번째 구간은 묵음이 끝난 위치에서 101번째에서 256개의 데이터를 취하고, 서브밴드는 중요한 음향 정보가 대부분 포함되어 있는 200 Hz 에서 2000 Hz 구간을 임계대역폭을 기준으로 16개로 분할한 경우를 예시하고 있다. 다만, 서브밴드의 개수, 파워 스펙트럼을 구하는 구간은 시스템 구현 방법에 따라 다양하게 설정될 수 있음에 유의하여야 한다.
이때 첫 번째 구간에서의 서브밴드파워를 저주파에서 고주파 순으로 Ai (i=1, 2, , 16)라고 하고, 두 번째 구간에서의 서브밴드파워를 Bi라고 하면, 16비트로 나타내어지는 k 번째 (k=1, 2, , 16) bit에서의 특징 값 Zk는 하기 수학식 2와 같이 표현될 수 있다.
[수학식 2]
Figure pat00002
Figure pat00003
Figure pat00004
Figure pat00005
Figure pat00006
Figure pat00007
Figure pat00008
Figure pat00009
i=9, 10, , 16 에서는
Figure pat00010

도 3은 본 발명에 따른 멀티미디어 컨텐츠 검색 방법에서 계산된 오디오 특징값의 구성을 예시적으로 설명하기 위한 개념도이다.
도 3을 참조하면, 특징값 Zk은 16bit 값을 가지며, 첫번째 비트가 가장 높은 값을 갖게 된다. 따라서 이러한 특징 값은 동일한 내용을 가지고 있지만 대역 통과 필터링 등에 의해 부분적으로만 왜곡이 발생한 경우에는 낮은 값을 갖는 비트 값만 변형이 되기 때문에 특징값을 인덱싱하여 처리하는데 매우 유리하다.
다시 설명하면 첫번째 비트는 이웃하고 있는 프레임간의 음향 파워 차이를 비교하기 때문에 왜곡이 매우 심한 변형이 아니면 동일한 내용을 포함한 오디오 신호의 경우 그 값이 서로 변형되지 않고 유지된다. 따라서 특징값의 앞쪽 비트가 변형될 가능성은 적으며, 뒤쪽 몇 개 비트가 다르다고 해도 상당히 유사한 내용의 오디오 신호를 가능성이 높다. 따라서 이를 인덱스화 할 경우 큰 값을 먼저 비교하고 나중에 낮은 값을 비교하는 식으로 처리할 수 가 있어 검색 효율을 증가시킬 수 있다.
특징 값은 한 개의 묵음 위치를 기준으로 여러 개를 추출 할 수 있으며, 변형에 의해 왜곡이 잘 발생되지 않는 순으로 중요한 비트 위치에 그 값을 할당할 수 있다.
다음으로, 데이터베이스에 저장하는 단계(S140)는 상기 멀티미디어 컨텐츠, 상기 추출된 오디오 특징 및 상기 묵음 구간의 종료시점을 연관지어 데이터베이스에 저장하는 단계이다.
즉, 데이터베이스에 저장하는 단계(S140)에서는 멀티미디어 컨텐츠(동영상+오디오 또는 오디오)의 정보(파일명, 특정하기 위한 ID, 파일의 위치 등), 상기 추출된 오디오 특징값과 상기 오디오 특징값이 추출되어진 오디오 신호 구간의 시각 정보 등의 정보 중 적어도 둘 이상을 상호 연관지어 데이터베이스화게 된다.
이때, 오디오 특징값이 추출되어진 오디오 신호 구간의 시각 정보는 특징값이 추출되어진 오디오 신호 구간의 바로 앞 묵음 구간이 끝나는 시점의 시각정보일 수 있다
마지막으로, 데이터베이스 검색 단계(S150)에서는 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아 입력된 오디오 특징을 상기 데이터베이스에서 검색하여, 검색된 멀티미디어 컨텐츠에 대한 정보를 사용자에게 제공한다.
본 발명에 따른 멀티미디어 컨텐츠 검색 장치
도 4는 본 발명에 따른 멀티미디어 컨텐츠 검색 장치의 구성을 설명하기 위한 블록도이다.
도 4를 참조하면, 본 발명에 따른 멀티미디어 컨텐츠 검색 장치(400)는 오디오 신호 추출 및 전처리부(410), 음향 파워 추출부(420), 묵음 구간 추출부(430), 오디오 특징 추출부(440), 데이터베이스부(450) 및 데이터베이스 검색부(460)를 포함하여 구성될 수 있다.
먼저 오디오 신호 추출 및 전처리부(410)는 도 1을 통하여 상술된 멀티미디어 컨텐츠 검색 방법의 오디오 신호 추출 및 전처리 단계(S110)를 수행하기 위한 구성요소이다. 즉, 색인화 대상이 되는 멀티미디어 컨텐츠로부터 오디오 신호를 추출하고, 추출된 오디오 신호에 대한 전처리(pre-processing)를 수행하는 구성요소에 해당된다.
상기 오디오 신호 추출 및 전처리부(410)는 색인화하여 데이터베이스화하여야 하는 멀티미디어 컨텐츠로부터 오디오 신호를 추출하고 추출된 오디오 신호를 모노(mono) 신호로 변환하고, 모노로 변환된 오디오 신호를 계산량을 줄이고 효율을 향상시키기 위해서 소정의 주파수(예컨대, 5500 Hz ~ 6000 Hz)의 주파수로 리샘플링을 하는 역할을 수행한다.
따라서, 오디오 신호 추출 및 전처리부(410)는 색인화 대상이 되는 멀티미디어 컨텐츠의 파일 형식을 판별하고, 메타 데이터(meta data) 영역등을 판독하여 해당 멀티미디어 컨텐츠내에 존재하는 오디오 스트림과 비디오 스트림을 분리하기 위한 구성요소를 구비할 수 있다. 특히, 분리된 오디오 신호가 특정한 방식으로 부호화(encoding)가 되어 있는 경우에는 모노 신호의 변환이나 리샘플링을 수행하기 위해서 이를 복호화(decoding)하는 과정이 필요할 수 있으므로, 오디오 신호 추출 및 전처리부(410)는 다양한 오디오 신호의 형식에 대응될 수 있도록 다종의 복호화기(decoder)를 구비하고 상술된 파일 형식이나 메타 데이터 정보를 토대로 추출된 오디오 신호를 복호화하는 구성요소를 추가로 포함할 수도 있다.
다음으로, 음향 파워 추출부(420)와 묵음 구간 추출부(430)는 도 1을 통하여 설명된 본 발명에 따른 멀티미디어 컨텐츠 검색 방법의 오디오 신호의 묵음 구간을 추출하는 단계(S120)를 수행하기 위한 구성요소이다.
즉, 음향 파워 추출부(420)는 상기 수학식 1에 의거하여 소정 시간 간격으로 소정 길이 구간의 오디오 신호의 음향 파워를 산출하며, 묵음 구간 추출부()는 소정의 역치값을 이용하여 오디오 신호내의 묵음 구간을 파악하게 된다.
이때, 음향 파워 추출부(420)에서 음향 파워를 산출하는 구간의 시간 간격과 구간의 길이, 묵음 구간 추출부(430)에서 묵음 구간을 판별하기 위한 역치값 등의 설정값들은 시스템 환경에 따라서 달라질 수 있으므로 사용자가 변경 설정할 수 있도록 구성될 수 있다. 예컨대, 음향 파워 추출부(420)와 묵음 추출부(430)가 FPGA, ASIC 등의 하드웨어로 구성될 경우에는 소정의 설정 레지스터(register)를 통하여 상기 설정값들을 변경하도록 구성될 수 있을 것이며, 음향 파워 추출부(420)와 묵음 추출부(430)가 소프트웨어적으로 구현될 경우에는 변수값을 통하여 설정 변경이 가능하도록 구성될 수 있을 것이다.
다음으로, 오디오 특징 추출부(440)는 도 1을 통하여 설명된 본 발명에 따른 멀티미디어 컨텐츠 검색 방법의 오디오 특징을 추출하는 단계(S130)를 수행하기 위한 구성요소이다. 오디오 특징 추출부(440)는 예컨대 상기 수학식 2를 통하여 상기 추출된 묵음 구간의 종료 시점이후의 적어도 하나의 소정 길이 구간의 오디오 특징을 추출하도록 구성될 수 있다. 오디오 특징 추출부(440)에서 오디오 특징을 추출하는 방법의 예시는 도 1을 참조하여 설명된 오디오 특징을 추출하는 단계(S130)와 동일하므로 생략된다.
데이터베이스부(450)는 상기 색인화 대상 멀티미디어 컨텐츠에 대한 정보(파일명, 파일의 위치), 상기 오디오 특징 추출부에서 추출된 오디오 특징 및 상기 묵음구간 추출부에서 추출된 상기 묵음 구간의 종료시점 등 정보 중 적어도 하나를 서로 연관지어 지정하는 구성요소이다.
여기에서 데이터베이스부는 데이터베이스 관리 시스템(DBMS: Database Management System)를 포함하는 개념으로, 데이터베이스의 형식(관계형-relational, 객체지향형-object oriented)와는 무관하게 상기한 정보들을 데이터베이스화하는 구성요소임을 의미할 수 있다.
마지막으로, 데이터베이스 검색부(460)는 사용자로부터 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아, 상기 데이터베이스부에서 상기 검색의 대상이 되는 멀티미디어 컨텐츠의 오디오 특징과 동일 또는 유사한 오디오 특징을 가지는 멀티미디어 컨텐츠를 검색하는 구성요소로서, 즉, 사용자의 요청에 의한 데이터베이스 질의(query)를 수행하는 구성요소이다. 또한, 데이터베이스 검색부(460)는 사용자로부터 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받고 검색 결과를 출력할 수 있는 사용자 인터페이스(461)를 포함할 수 있다.
주의 사항으로, 데이터베이스 검색부(460)의 구성요소는 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아서 데이터베이스부(450)에 대한 검색을 수행하게 되지만, 사용자로부터 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징이 아니라 검색 대상이 되는 멀티미디어 컨텐츠를 입력받은 경우도 상정할 수 있다.
다만, 도 4에 예시된 데이터베이스 검색부(460)는 검색 대상 멀티미디어 컨텐츠로부터 이미 추출된 오디오 특징값을 전달받는 경우를 상정한 것으로, 검색 대상 멀티미디어 컨텐츠로부터 오디오 특징을 추출하는 과정은 도 1을 통하여 설명된 멀티미디어 컨텐츠로부터 오디오 신호를 분리하여 전처리를 수행하는 오디오 신호 추출 및 전처리 단계(S110), 전처리된 오디오 신호의 묵음 구간을 추출하는 단계(S120), 추출된 묵음 구간의 종료 시점이후의 적어도 하나의 소정 길이 구간의 오디오 특징을 추출하는 오디오 특징 추출 단계(S130)의 전부 또는 일부를 수행하여 오디오 특징값을 추출하여 데이터베이스 검색부(450)에 입력하도록 별도의 구성요소에서 수행되어질 수 있을 것이다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
400: 멀티미디어 컨텐츠 검색 장치
410: 오디오 신호 추출 및 전처리부
420: 음향 파워 추출부 430: 묵음 구간 추출부
440: 오디오 특징 추출부 450: 데이터베이스부
460: 데이터베이스 검색 부 461: 사용자 인터페이스

Claims (12)

  1. 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 분리하여 전처리를 수행하는 오디오 신호 추출 및 전처리 단계;
    상기 전처리된 오디오 신호의 묵음 구간을 추출하는 단계;
    상기 추출된 묵음 구간의 종료 시점이후의 적어도 하나의 소정 길이 구간의 오디오 특징을 추출하는 오디오 특징 추출 단계;
    상기 멀티미디어 컨텐츠에 대한 정보, 상기 추출된 오디오 특징 및 상기 묵음 구간의 종료시점 중 적어도 둘 이상을 서로 연관지어 데이터베이스에 저장하는 단계; 및
    검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아, 상기 데이터베이스에서 상기 검색의 대상이 되는 멀티미디어 컨텐츠의 오디오 특징과 동일 또는 유사한 오디오 특징을 가지는 멀티미디어 컨텐츠를 검색하는 단계를 포함한 멀티미디어 컨텐츠 검색 방법.
  2. 제 1 항에 있어서,
    상기 전처리를 수행하는 단계는
    상기 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 추출하는 오디오 신호 추출단계;
    상기 오디오 신호를 모노(mono) 신호로 변환하는 오디오 신호 모노화 단계; 및
    상기 모노 신호로 변환된 오디오 신호를 소정의 주파수로 리샘플링(re-sampling)을 하는 리샘플링 단계를 포함하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 방법.
  3. 제 1 항에 있어서,
    상기 묵음 구간을 추출하는 단계는
    전처리된 오디오 신호의 구간별 음향 파워를 추출하는 단계; 및
    구간별 음향 파워를 소정의 역치(threshold)값과 비교하여 묵음(silence) 구간을 파악하는 단계를 포함하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 방법.
  4. 제 3 항에 있어서,
    상기 구간별 음향 파워를 추출하는 단계에서 상기 구간은 소정 간격으로 배치되며, 각 구간의 일부는 이전 구간의 일부와 겹쳐지도록 구성되는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 방법.
  5. 제 3 항에 있어서,
    상기 묵음 구간을 파악하는 단계는 음향 파워가 소정의 역치 이하인 구간이 소정 개수 이상 지속될 경우에 해당 구간을 묵음 구간으로 파악하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 방법.
  6. 제 1 항에 있어서,
    상기 오디오 특징을 추출하는 단계는
    상기 묵음 구간을 추출하는 단계에서 파악된 묵음 구간이 끝나는 시각을 기준으로 적어도 하나 이상의 특정 구간에서 오디오 신호의 파워 스펙트럼을 구하고, 상기 특정 구간에서 구한 파워 스펙트럼을 소정갯수의 서브밴드(sub-band)로 나누어 각 서브밴드별 스펙트럼을 더하여 서브밴드별 파워를 구하고, 구하여진 서브밴드별 파워를 토대로 오디오 특징값을 추출하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 방법.
  7. 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 분리하여 전처리를 수행하는 오디오 신호 추출 및 전처리부;
    상기 전처리된 오디오 신호에 대해서 소정의 시간 간격으로 소정 길이를 가지는 구간의 음향 파워를 계산하는 음향 파워 추출부;
    상기 음향 파워 추출부에서 연산한 소정의 시간 간격으로 소정 길이를 가지는 구간의 음향 파워에 기반하여 묵음 구간을 추출하는 묵음 구간 추출부;
    상기 추출된 묵음 구간의 종료 시점이후의 적어도 하나의 소정 길이 구간의 오디오 특징을 추출하는 오디오 특징 추출부;
    상기 멀티미디어 컨텐츠, 상기 오디오 특징 추출부에서 추출된 오디오 특징 및 상기 묵음구간 추출부에서 추출된 상기 묵음 구간의 종료시점을 연관지어 지정하는 데이터베이스부; 및
    사용자로부터 검색 대상이 되는 멀티미디어 컨텐츠의 오디오 특징을 입력받아, 상기 데이터베이스부에서 상기 검색의 대상이 되는 멀티미디어 컨텐츠의 오디오 특징과 동일 또는 유사한 오디오 특징을 가지는 멀티미디어 컨텐츠를 검색하는 데이터베이스 검색부를 포함한 멀티미디어 컨텐츠 검색 장치.
  8. 제 7 항에 있어서,
    상기 오디오 신호 추출 및 전처리부는
    상기 색인화 대상 멀티미디어 컨텐츠로부터 오디오 신호를 추출하고, 추출된 오디오 신호를 모노(mono) 신호로 변환하고, 상기 모노 신호로 변환된 오디오 신호를 소정의 주파수로 리샘플링(re-sampling)을 하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 장치.
  9. 제 7 항에 있어서,
    상기 음향 파워 추출부가 음향 파워를 계산하는 구간은 소정 간격으로 배치되며, 각 구간은 이전 구간과 겹쳐지도록 구성되는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 장치.
  10. 제 7 항에 있어서,
    상기 묵음 구간 추출부는
    소정의 시간 간격으로 소정 길이를 가지는 구간의 음향 파워를 소정의 역치(threshold)값과 비교하여 묵음(silence) 구간을 파악하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 장치.
  11. 제 10 항에 있어서,
    상기 묵음 구간 추출부는
    소정의 역치 이하인 구간이 소정 개수 이상 지속될 경우에 해당 구간을 묵음 구간으로 파악하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 장치.
  12. 제 7 항에 있어서,
    상기 오디오 특징 추출부는
    파악된 묵음 구간이 끝나는 시각을 기준으로 적어도 하나 이상의 특정 구간에서 오디오 신호의 파워 스펙트럼을 구하고, 상기 특정 구간에서 구한 파워 스펙트럼을 소정갯수의 서브밴드(sub-band)로 나누어 각 서브밴드별 스펙트럼을 더하여 서브밴드별 파워를 구하며, 상기 서브밴드별 파워를 토대로 오디오 특징값을 추출하는 것을 특징으로 하는 멀티미디어 컨텐츠 검색 장치.
KR1020100125866A 2010-12-09 2010-12-09 멀티미디어 컨텐츠 검색 방법 및 장치 KR20120064582A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100125866A KR20120064582A (ko) 2010-12-09 2010-12-09 멀티미디어 컨텐츠 검색 방법 및 장치
US13/312,105 US20120150890A1 (en) 2010-12-09 2011-12-06 Method of searching for multimedia contents and apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100125866A KR20120064582A (ko) 2010-12-09 2010-12-09 멀티미디어 컨텐츠 검색 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20120064582A true KR20120064582A (ko) 2012-06-19

Family

ID=46200439

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100125866A KR20120064582A (ko) 2010-12-09 2010-12-09 멀티미디어 컨텐츠 검색 방법 및 장치

Country Status (2)

Country Link
US (1) US20120150890A1 (ko)
KR (1) KR20120064582A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015137621A1 (ko) * 2014-03-11 2015-09-17 주식회사 사운들리 저 전력 연관 콘텐츠 제공 시스템, 방법, 및 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
US9794620B2 (en) 2014-03-11 2017-10-17 Soundlly Inc. System and method for providing related content at low power, and computer readable recording medium having program recorded therein

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10380267B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for tagging multimedia content elements
US8326775B2 (en) 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US10180942B2 (en) 2005-10-26 2019-01-15 Cortica Ltd. System and method for generation of concept structures based on sub-concepts
US10698939B2 (en) 2005-10-26 2020-06-30 Cortica Ltd System and method for customizing images
US10949773B2 (en) 2005-10-26 2021-03-16 Cortica, Ltd. System and methods thereof for recommending tags for multimedia content elements based on context
US10193990B2 (en) 2005-10-26 2019-01-29 Cortica Ltd. System and method for creating user profiles based on multimedia content
US10848590B2 (en) 2005-10-26 2020-11-24 Cortica Ltd System and method for determining a contextual insight and providing recommendations based thereon
US10387914B2 (en) 2005-10-26 2019-08-20 Cortica, Ltd. Method for identification of multimedia content elements and adding advertising content respective thereof
US9529984B2 (en) 2005-10-26 2016-12-27 Cortica, Ltd. System and method for verification of user identification based on multimedia content elements
US10380623B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for generating an advertisement effectiveness performance score
US9191626B2 (en) 2005-10-26 2015-11-17 Cortica, Ltd. System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto
US9218606B2 (en) 2005-10-26 2015-12-22 Cortica, Ltd. System and method for brand monitoring and trend analysis based on deep-content-classification
US9489431B2 (en) 2005-10-26 2016-11-08 Cortica, Ltd. System and method for distributed search-by-content
US9466068B2 (en) 2005-10-26 2016-10-11 Cortica, Ltd. System and method for determining a pupillary response to a multimedia data element
US10607355B2 (en) 2005-10-26 2020-03-31 Cortica, Ltd. Method and system for determining the dimensions of an object shown in a multimedia content item
US9767143B2 (en) 2005-10-26 2017-09-19 Cortica, Ltd. System and method for caching of concept structures
US10372746B2 (en) 2005-10-26 2019-08-06 Cortica, Ltd. System and method for searching applications using multimedia content elements
US11032017B2 (en) 2005-10-26 2021-06-08 Cortica, Ltd. System and method for identifying the context of multimedia content elements
US9747420B2 (en) 2005-10-26 2017-08-29 Cortica, Ltd. System and method for diagnosing a patient based on an analysis of multimedia content
US9031999B2 (en) 2005-10-26 2015-05-12 Cortica, Ltd. System and methods for generation of a concept based database
US11604847B2 (en) 2005-10-26 2023-03-14 Cortica Ltd. System and method for overlaying content on a multimedia content element based on user interest
US10691642B2 (en) 2005-10-26 2020-06-23 Cortica Ltd System and method for enriching a concept database with homogenous concepts
US9953032B2 (en) * 2005-10-26 2018-04-24 Cortica, Ltd. System and method for characterization of multimedia content signals using cores of a natural liquid architecture system
US10742340B2 (en) 2005-10-26 2020-08-11 Cortica Ltd. System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto
US11403336B2 (en) 2005-10-26 2022-08-02 Cortica Ltd. System and method for removing contextually identical multimedia content elements
US8818916B2 (en) 2005-10-26 2014-08-26 Cortica, Ltd. System and method for linking multimedia data elements to web pages
US11620327B2 (en) 2005-10-26 2023-04-04 Cortica Ltd System and method for determining a contextual insight and generating an interface with recommendations based thereon
US9384196B2 (en) 2005-10-26 2016-07-05 Cortica, Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US9558449B2 (en) 2005-10-26 2017-01-31 Cortica, Ltd. System and method for identifying a target area in a multimedia content element
US10776585B2 (en) 2005-10-26 2020-09-15 Cortica, Ltd. System and method for recognizing characters in multimedia content
US8312031B2 (en) 2005-10-26 2012-11-13 Cortica Ltd. System and method for generation of complex signatures for multimedia data content
US11386139B2 (en) 2005-10-26 2022-07-12 Cortica Ltd. System and method for generating analytics for entities depicted in multimedia content
US8266185B2 (en) 2005-10-26 2012-09-11 Cortica Ltd. System and methods thereof for generation of searchable structures respective of multimedia data content
US10380164B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for using on-image gestures and multimedia content elements as search queries
US10535192B2 (en) 2005-10-26 2020-01-14 Cortica Ltd. System and method for generating a customized augmented reality environment to a user
US11216498B2 (en) 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US10360253B2 (en) 2005-10-26 2019-07-23 Cortica, Ltd. Systems and methods for generation of searchable structures respective of multimedia data content
US9477658B2 (en) 2005-10-26 2016-10-25 Cortica, Ltd. Systems and method for speech to speech translation using cores of a natural liquid architecture system
US10621988B2 (en) 2005-10-26 2020-04-14 Cortica Ltd System and method for speech to text translation using cores of a natural liquid architecture system
US10614626B2 (en) 2005-10-26 2020-04-07 Cortica Ltd. System and method for providing augmented reality challenges
US10191976B2 (en) 2005-10-26 2019-01-29 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US10585934B2 (en) 2005-10-26 2020-03-10 Cortica Ltd. Method and system for populating a concept database with respect to user identifiers
US9372940B2 (en) 2005-10-26 2016-06-21 Cortica, Ltd. Apparatus and method for determining user attention using a deep-content-classification (DCC) system
US11361014B2 (en) 2005-10-26 2022-06-14 Cortica Ltd. System and method for completing a user profile
US11003706B2 (en) 2005-10-26 2021-05-11 Cortica Ltd System and methods for determining access permissions on personalized clusters of multimedia content elements
US9639532B2 (en) 2005-10-26 2017-05-02 Cortica, Ltd. Context-based analysis of multimedia content items using signatures of multimedia elements and matching concepts
US11019161B2 (en) 2005-10-26 2021-05-25 Cortica, Ltd. System and method for profiling users interest based on multimedia content analysis
US10635640B2 (en) 2005-10-26 2020-04-28 Cortica, Ltd. System and method for enriching a concept database
US9646005B2 (en) 2005-10-26 2017-05-09 Cortica, Ltd. System and method for creating a database of multimedia content elements assigned to users
US10733326B2 (en) 2006-10-26 2020-08-04 Cortica Ltd. System and method for identification of inappropriate multimedia content
EP2887233A1 (en) * 2013-12-20 2015-06-24 Thomson Licensing Method and system of audio retrieval and source separation
US9652534B1 (en) * 2014-03-26 2017-05-16 Amazon Technologies, Inc. Video-based search engine
CN104598502A (zh) * 2014-04-22 2015-05-06 腾讯科技(北京)有限公司 获取播放视频中背景音乐信息的方法、装置及***
CN105430494A (zh) * 2015-12-02 2016-03-23 百度在线网络技术(北京)有限公司 在播放视频的设备中识别视频中音频的方法和装置
CN106341728A (zh) * 2016-10-21 2017-01-18 北京巡声巡影科技服务有限公司 一种视频中的产品信息展示方法、装置和***
US10902050B2 (en) 2017-09-15 2021-01-26 International Business Machines Corporation Analyzing and weighting media information
KR102454002B1 (ko) * 2018-04-02 2022-10-14 한국전자통신연구원 미디어의 시청률을 조사하기 위한 신호 처리 방법 및 그 방법을 수행하는 부가정보 삽입장치, 미디어 재생 장치, 시청률 조사 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015137621A1 (ko) * 2014-03-11 2015-09-17 주식회사 사운들리 저 전력 연관 콘텐츠 제공 시스템, 방법, 및 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
US9794620B2 (en) 2014-03-11 2017-10-17 Soundlly Inc. System and method for providing related content at low power, and computer readable recording medium having program recorded therein

Also Published As

Publication number Publication date
US20120150890A1 (en) 2012-06-14

Similar Documents

Publication Publication Date Title
KR20120064582A (ko) 멀티미디어 컨텐츠 검색 방법 및 장치
EP1760693B1 (en) Extraction and matching of characteristic fingerprints from audio signals
JP5826291B2 (ja) 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
US7460994B2 (en) Method and apparatus for producing a fingerprint, and method and apparatus for identifying an audio signal
US8586847B2 (en) Musical fingerprinting based on onset intervals
JP5907511B2 (ja) オーディオメディア認識のためのシステム及び方法
US10540993B2 (en) Audio fingerprinting based on audio energy characteristics
CN109644283B (zh) 基于音频能量特性的音频指纹识别
US10089994B1 (en) Acoustic fingerprint extraction and matching
KR102614021B1 (ko) 오디오 컨텐츠 인식 방법 및 장치
JP2004530153A (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
CN101908340A (zh) 使用频带间的相关来处理音频信号的设备、方法和介质
US8543228B2 (en) Coded domain audio analysis
CN103294696A (zh) 音视频内容检索方法及***
JP5384952B2 (ja) 特徴量抽出装置、特徴量抽出方法、およびプログラム
CN102214219A (zh) 音视频内容检索***及其方法
Ribbrock et al. A full-text retrieval approach to content-based audio identification
KR101002731B1 (ko) 오디오 데이터의 특징 벡터 추출방법과 그 방법이 기록된컴퓨터 판독 가능한 기록매체 및 이를 이용한 오디오데이터의 매칭 방법
KR20130061504A (ko) 오디오 특징을 이용한 콘텐츠 검색 방법
KR20100056430A (ko) 오디오 데이터의 특징 벡터 추출방법 및 이를 이용한 오디오 데이터의 매칭 방법
Lukasiak et al. Compression transparent low-level description of audio signals

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid