KR20060100646A

KR20060100646A - 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템

Info

Publication number: KR20060100646A
Application number: KR1020050022349A
Authority: KR
Inventors: 천세기; 윤덕호
Original assignee: 주식회사 코난테크놀로지
Priority date: 2005-03-17
Filing date: 2005-03-17
Publication date: 2006-09-21

Abstract

본 발명은 사용자로부터 검색어를 입력 받고, 입력된 검색어와 관련 있는 대사가 영상물 내에서 재생되는 특정 위치를 검색할 수 있는 방법 및 그 시스템에 관한 것이다. 본 발명의 일실시예에 따른 영상물을 검색하는 방법은, 상기 영상물을 복수의 영상 스트림 데이터로 분할하고, 상기 분할된 영상 스트림 데이터 각각에 대해서 분할 식별자를 대응시키는 단계와, 상기 영상 스트림 데이터로부터 오디오 데이터를 추출하고, 상기 추출된 오디오 데이터를 관련된 분할 식별자에 상관시키는 단계와, 소정의 음성 인식 기법을 이용하여 상기 추출된 오디오 데이터를 소정의 스크립트 정렬부에서 인지할 수 있는 형태의 기호 데이터로 변환하는 단계와, 상기 스크립트 정렬부에서 상기 변환된 기호 데이터를 포함하는, 상기 영상물과 상응하는 스크립트 데이터 내에서의 텍스트 데이터를 식별하는 단계, 및 상기 식별된 텍스트 데이터 및 관련된 분할 식별자를 상관시키는 단계를 포함하는 것을 특징으로 한다. 본 발명에 따르면, 사용자로 하여금 임의의 텍스트를 이용한 영상 검색을 허용하고, 검색어를 포함한 대사를 이용하여 재생하는 영상물의 특정 위치를 검색하여 제공함으로써 시간에 의존하여 검색하는 기존의 검색 방식 보다 간편하고 편리하게 영상 검색을 수행하는 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템을 제공할 수 있는 이점이 있다.

영상물, 영상 검색, 재생 시간, 대사, 비터비 검색

Description

영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템{METHOD AND SYSTEM FOR SEARCHING THE POSITION OF AN IMAGE THING}

도 1은 본 발명의 영상 검색 시스템에 대한 네트워크 구성도를 설명하기 위한 도면이다.

도 2는 본 발명의 바람직한 실시예에 따른 영상 검색 시스템의 내부 구성을 나타내는 블록도이다.

도 3은 본 발명에 따른 문자 형태의 검색어를 이용하여 영상물의 특정 위치를 검색하는 일례를 나타내는 도면이다.

도 4는 본 발명의 바람직한 실시예에 따른 영상 검색 방법을 구체적으로 도시한 작업 흐름도이다.

도 5는 본 발명의 다른 실시예에 따라 영상 검색을 수행하는 방법의 일예를 나타내는 작업 흐름도이다.

도 6은 본 발명에 따른 영상 검색 방법을 수행하는 데 채용될 수 있는 범용 컴퓨터 장치의 내부 블록도이다.

<도면의 주요 부분에 대한 부호의 설명>

200 : 영상 검색 시스템 210 : 식별자 연관부

220 : 오디오 추출부 230 : 음성 인식부

240 : 스크립트 정렬부 250 : 인터페이스부

260 : 위치 검색부 270 : 검색 결과 제공부

본 발명은 영상 검색 방법 및 영상 검색 시스템에 관한 것으로, 보다 상세하게는 사용자로부터 검색어를 입력 받고, 입력된 검색어와 관련 있는 대사가 영상물 내에서 재생되는 특정 위치를 검색할 수 있는 방법 및 그 시스템에 관한 것이다.

종래 오프라인에서 주로 이루어지던 영화, 음악, 방송 등의 영상 제공 서비스가 인터넷 등 통신망의 발달과 함께 온라인 상에서도 구현되고 있다. 특히, 통신망을 통하여 사용자의 단말기로 직접 전송되는 영상 제공 서비스는 시공간의 제약을 극복하여 실시간으로 사용자에게 공급할 수 있다는 장점으로 인해 그 이용 영역은 멀티미디어 분야의 전분야로 점차 확대되고 있는 실정이다.

사용자는 저장된 영상을 재생시키는 동안 자신이 원하는 특정 지점을 영상 내에서 검색하고자 하는 필요성을 느낄 수 있다. 하지만, 영상 데이터는 일반 텍스트와는 다른 복잡한 형태로 저장되므로, 해당 지점에 상응하는 영상 데이터를 데이터베이스로 구축하기가 쉽지 않으며 이로 인하여 검색도 용이하지 않다.

이에, 종래에는 영상물의 특정 위치의 검색을 위해서는 직접 영상의 재생 화면을 보면서 '2배 빨리보기' 또는 '앞으로 빨리감기' 등의 방식을 답습해야만 한다. 즉, 기존 멀티미디어 제공 서비스에서의 검색 방식은 영상물의 재생 시간에 전적으로 의존하는 것이며, 검색하고자 하는 영상물의 특정 위치와 관련된 런닝(재생)된 시간을 사용자가 사전에 정확하게 식별하고 있어야만 정확한 위치 검색이 가능하게 된다. 만약, 재생 시간을 제대로 알 수 없는 경우, 기존의 멀티미디어 제공 서비스에서는 '뒤로 빨리보기' 또는 '앞으로 빨리보기' 기능을 반복적으로 수행해야만 하고, 그나마 관련 있는 지점의 대략적인 위치 정보만을 제공하고 있어, 검색 시간이 많이 소요되고 정확도가 떨어지는 문제를 내포하고 있다.

이때, 영상물에 대한 검색에 있어서, 사용자가 찾고자 하는 대사를 직접 입력하는 것만으로 영상물의 특정 위치를 결정할 수 있는 영상 검색 방식이 있다면, 보다 짧은 검색 시간 내에 보다 정확한 검색이 보장되도록 할 수 있을 것이다.

따라서, 사용자가 원하는 대사의 입력에 따라 영상 검색 요청을 발생하고, 발생된 영상 검색 요청에 응답하여 해당 대사가 재생되는 영상물의 특정 위치가 검색되도록 함으로써, 사용자의 영상 검색 요청을 최적으로 충족시킬 수 있는 새로운 영상 검색 모델이 절실하게 요구되고 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 사용자가 입력한 대사를 이용한 영상 검색을 허용하고, 입력된 대사를 재생하는 영상물의 특정 위치를 검색 함으로써, 보다 간편하고 편리하게 영상 검색을 수행하는 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템을 제공하는 것을 목적으로 한다.

또한, 본 발명의 목적은 영상물의 분할과 관련되는 분할 식별자를 이용하여, 상기 영상물과 상응되는 스크립트 데이터를 정렬하며, 검색어를 포함하는 스크립트 데이터의 문장과 연관된 분할 식별자를 식별 함으로써 영상물을 분할한 영상 스트림 데이터를 검색하는 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템을 제공하는 데에 있다.

또한, 본 발명의 다른 목적은 영상물로부터 추출된 텍스트 데이터를 이용하여, 대사를 이용한 영상 검색 요청을 최적하게 서비스 지원하는 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템을 제공하는 데에 있다.

상기의 목적을 이루기 위한 본 발명의 일실시예에 따른 영상물을 검색하는 방법은, 상기 영상물을 복수의 영상 스트림 데이터로 분할하고, 상기 분할된 영상 스트림 데이터 각각에 대해서 분할 식별자를 대응시키는 단계와, 상기 영상 스트림 데이터로부터 오디오 데이터를 추출하고, 상기 추출된 오디오 데이터를 관련된 분할 식별자에 상관시키는 단계와, 소정의 음성 인식 기법을 이용하여 상기 추출된 오디오 데이터를 소정의 스크립트 정렬부에서 인지할 수 있는 형태의 기호 데이터로 변환하는 단계와, 상기 스크립트 정렬부에서 상기 변환된 기호 데이터를 포함하는, 상기 영상물과 상응하는 스크립트 데이터 내에서의 텍스트 데이터를 식별하는 단계, 및 상기 식별된 텍스트 데이터 및 관련된 분할 식별자를 상관시키는 단계를 포함하는 것을 특징으로 한다.

또한, 상기 목적을 달성하기 위한 기술적 구성으로서, 영상물을 검색하는 시스템은, 상기 영상물을 복수의 영상 스트림 데이터로 분할하고, 상기 분할된 영상 스트림 데이터 각각에 대해서 분할 식별자를 대응시키는 식별자 연관부와, 상기 영상 스트림 데이터로부터 오디오 데이터를 추출하는 오디오 추출부와, 소정의 음성 인식 기법을 이용하여 상기 추출된 오디오 데이터를 소정의 스크립트 정렬부에서 인지할 수 있는 형태의 기호 데이터로 변환하는 음성 인식부와, 상기 변환된 기호 데이터를 포함하는, 상기 영상물과 상응하는 스크립트 데이터 내에서의 텍스트 데이터를 식별하고, 상기 식별된 텍스트 데이터 및 관련된 분할 식별자를 상관시키는 스크립트 정렬부와, 사용자로부터 검색어를 포함하는 영상 검색 요청을 수신하는 인터페이스부와, 상기 스크립트 데이터 내에서, 상기 입력된 검색어를 포함하는 텍스트 데이터를 식별하고, 상기 식별된 텍스트 데이터에 상관하는 분할 식별자를 검색하는 위치 검색부, 및 상기 검색된 분할 식별자와 대응하는 영상 스트림 데이터를 추출하여 상기 사용자에게 제공하는 검색 결과 제공부를 포함하는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여, 본 발명의 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템에 대하여 설명한다.

본 명세서에서 지속적으로 사용되는 "영상물"이라는 용어는 통신망을 통해 사용자로부터 전송을 주문 받고, 이에 상응하여 역시 통신망을 통해 상기 사용자에게 공급되는 영상 정보에 관한 것으로, 예컨대 사용자의 요구에 따라 원하는 시간에 원하는 영상을 시청할 수 있도록 하는 맞춤 영상 정보 서비스(VOD: video on demand)에 의해 제공되는 영상 정보를 지칭할 수 있다. 또한, 영상 스트림 데이터는 영상물을 구성하는 단위별 영상으로서, 전체의 영상물을 소정의 단위, 예컨대 재생 시간, 프레임 수, 장면(scene) 등을 기준으로 분할함으로써 생성하게 된다.

영상 검색 시스템(100)은 종래와 같은 재생 시간에 의한 영상물의 위치 식별에서 탈피하여, 사용자(130)가 원하는 대사를 문자 형태로 입력 받고, 이에 상당하는 영상물의 위치를 사용자(130)에게 제공되도록 하는 검색 방식을 지원하게 된다.

우선, 영상 제공 서버(110)는 사용자(130)로부터 수신되는 영상물에 대한 주문 요청에 따라 이와 관련된 영상 정보를 통신망(140)을 통해 제공하는 역할을 수행하며, 예컨대 VOD 서비스를 지원하는 VOD 서버를 예시할 수 있다. 즉, 영상 제공 서버(110)는 소정의 계약 관계에 있는 사용자(130)에게 원하는 영상 정보를 제공하며, 사용자(130)로 하여금 통신망(140) 및 단말 수단(135)을 통해 영상 시청을 가능하게 하는 역할을 한다. 또한, 영상 제공 서버(110)에는 레이디 디스크(ready disk, 도시하지 않음)를 구비할 수 있으며, 처리 대상이 되는 영상 정보의 일부를 영상 정보 데이터베이스(120)에서 사전에 추출하여 상기 레이디 디스크에 복사 함으로써 다수 사용자(130)의 서비스 요구를 실시간으로 신속하게 처리할 수 있다.

또한, 영상 제공 서버(110)는 본 발명의 영상 검색 시스템(100)을 내부 또는 외부에 포함할 수 있으며, 사용자(130)의 영상 검색 요청에 응답하여 영상물의 특정 위치를 검색하고 이에 관한 정보를 사용자(130)에게 통지되도록 제어하고 있다.

영상 정보 데이터베이스(120)는 소정의 영상 공급자로부터 수집된 복수의 영상 정보를 저장하는 대용량의 저장 매체를 지칭한다. 이러한 영상 정보 데이터베 이스(120)는 복수의 저장 매체를 연결하는 어레이(array) 형태를 취하고 있으며, 영상물의 카테고리, 영상물을 공급하는 영상 공급자, 영상물의 등급, 영상물의 품질 등을 고려하여 영상 정보를 체계적으로 분류, 저장할 수 있다.

사용자(130)는 본 발명의 영상 검색 시스템(100)과의 접속을 위한 단말 수단(135)을 보유하며, 소정 영상물 중에서 원하는 대사를 문자 형태로 검색 입력 함으로써 영상물의 특정 위치에 대한 검색 서비스를 제공 받는 인터넷 이용자 또는 VOD 서비스 이용자를 의미할 수 있다.

단말 수단(135)은 인터넷 등의 통신망(140)을 통해 영상 검색 시스템(100)과의 접속 상태를 유지하며, 사용자(130)에게 제공되는 영상 정보를 시현하는 장치이다. 또한, 단말 수단(135)은 검색어의 입력을 위한 소정의 사용자 인터페이스(UI)를 화면 상에 구동하며, 사용자(130)가 상기 사용자 인터페이스에 임의의 대사와 관련된 문자(검색어)를 입력하는 것에 연동하여 영상 검색 요청을 생성하게 된다. 이러한, 단말 수단(135)은 예컨대 퍼스널 컴퓨터, 핸드헬드(handheld) 컴퓨터, PDA(Personal Digital Assistant), MP3 플레이어, 전자 사전, 휴대폰, 스마트폰 등과 같이 소정의 메모리 수단을 구비하고 소정의 마이크로프로세서를 탑재함으로써 소정의 연산 능력을 갖춘 단말기를 통칭하는 개념일 수 있다.

영상 검색 시스템(100)은 사용자(130)로 하여금 영상물에서 재생되었던 대사를 검색어로 입력하는 것을 허용 함으로써 문자를 이용한 영상물의 특정 위치에 대한 검색 서비스를 제공할 수 있게 된다. 이하, 도 2를 참조하여 본 발명의 영상 검색 시스템(200)의 구체적인 구성을 설명한다.

본 발명의 영상 검색 시스템(200)은, 식별자 연관부(210), 오디오 추출부(220), 음성 인식부(230), 스크립트 정렬부(240), 인터페이스부(250), 위치 검색부(260) 및 검색 결과 제공부(270)를 포함한다.

우선, 식별자 연관부(210)는 영상물을 복수의 영상 스트림 데이터로 분할하고, 분할된 영상 스트림 데이터 각각에 대해서 분할 식별자를 대응시키는 장치이다. 여기서, 분할 식별자는 전체 영상물 중에서 분할된 영상 스트림 데이터가 위치하는 지점을 식별하기 위한 것이며, 분할 식별자에는 대응되는 영상 스트림 데이터에 관한 재생 시간(시작 시간 및 종료 시간), 프레임 수, 장면(scene) 등의 정보를 포함할 수 있다. 즉, 식별자 연관부(210)는 영상물을 구성하는 복수의 영상 스트림 데이터 각각을 분할 식별자로 구분하여 저장하며, 분할 식별자의 식별을 통한 특정 영상 스트림 데이터의 검색을 가능하도록 제어하는 역할을 하게 된다. 또한, 식별자 연관부(210)는 각 영상 스트림 데이터에 대해서 시간의 흐름 순서, 즉 시계열(time-series)적으로 분할 식별자를 대응시킬 수 있으며, 예컨대 시간적으로 최초 분할되는 영상 스트림 데이터에 분할 식별자 'T1'을, 이어서 일련의 분할 식별자를 순서대로 대응시키고, 마침내 n번째 분할되는 영상 스트림 데이터에 분할 식별자 'Tn'을 상관시킬 수 있다.

오디오 추출부(220)는 영상 스트림 데이터로부터 오디오 데이터를 추출하는 장치로서, 각 영상 스트림 데이터에 대해서 이미지, 사진 등의 영상 데이터 및 음 성, 음향 등의 오디오 데이터를 분류하고, 다수의 오디오 데이터 중에서 사용자(130)의 선택에 따라 특정의 오디오 데이터를 선택적으로 추출할 수 있도록 한다.

음성 인식부(230)는 소정의 인식 기법을 이용하여 상기 추출된 오디오 데이터를 소정의 스크립트 정렬부(240)에서 인지할 수 있는 형태의 기호 데이터로 변환하는 장치이다. 즉, 음성 인식부(230)는 상기 영상물과 관련된 스크립트 데이터에 대한 정렬 처리(예, 스크립트 데이터에 포함되는 데이터 데이터의 위치 식별 처리)에 관여하는 스크립트 정렬부(240)에게 의미있는 부호로서의 기호 데이터를 생성하는 과정으로, 예컨대 자동 발음 표기 규칙 생성을 통해서 스크립트 정렬부(240)가 인식할 수 있는 기호 데이터로 변환하는 역할을 한다. 여기서, 자동 발음 표기 규칙 생성은, 텍스트 정규화 및 GTP(Grapheme-to-Phoneme) 변환 과정으로 구성될 수 있다. 예를 들어, 영문 오디오 데이터 내에 "3-point-7-5 percent"라는 구절이 있을 때, 텍스트 정규화를 거치면 "three point seven to five percent" 가 되고, 이를 GTP 변환 과정에 통과시키면 "TH R IY sp P OY N TD sp S EH V AX N sp T AX sp F AY V sp P AXR S EH N TD sp"로 변환할 수 있다. 이같이 변환된 기호들 하나하나는 음성 인식 모델들과 상관한다. 또한, 여기서 음성 인식 기법은 영상 재생 시 출력되는 오디오 데이터(소리)를 시간 정보를 가지는 텍스트 형태의 문자(문장)로 변화시키는 기술로서, 대표적으로 비터비 검색(Viterbi-search) 기법을 예시할 수 있다. 비터비 검색 기법에 의한 음성 인식은 추출된 오디오 데이터를 미리 설정된 음소 모델로 재구성된 스크립트를 시계열적으로 통과시키면서 가장 높은 정확도를 갖는 음소 모델을 선정하고, 선정된 음소 모델에 상당하는 문자를 결정하는 것에 의해 수행된다. 또한, 음성 데이터로부터 음성 인식에 사용할 특징 정보를 추출하는 과정에서는, 예컨대, Sequential Fast Pole Filtering(SFPF)을 이용하여 오디오 데이터에 대한 소정의 보상 처리를 수행하게 되며, 이에 따라 추출된 오디오 데이터에 대한 정렬 정확도를 향상시킬 수 있게 된다.

스크립트 정렬부(240)는 변화된 기호 데이터를 확률적으로 다수 포함하는, 상기 영상물과 상응하는 스크립트 데이터 내에서의 텍스트 데이터를 식별하고, 식별된 텍스트 데이터 및 관련된 분할 식별자를 상관시키는 장치이다. 즉, 스크립트 정렬부(240)는 소정의 스크립트 데이터 내에서 변환된 텍스트 데이터의 위치를 식별하는 장치이며, 음성 인식에 의해 변환된 상기 기호 데이터와 일치(유사) 정도가 가장 높은 스크립트 데이터의 텍스트 데이터의 위치를 실시간에 준해서 식별한다. 여기서, 스크립트 데이터는 상기 영상 스트림 데이터에 상응하는 대본(또는 자막)의 집합으로, 예컨대 해당 영상물을 제작하거나 공급하는 영상 공급자에 의해 사전에 작성되며, 소정 시점에서 본 시스템을 운영하는 운영자에게 제공된다. 또한, 스크립트 데이터는 문자, 숫자, 특수 문자 중 하나 이상의 조합, 또는 이들 조합으로 이루어지는 문장이 나열되어 이루어지며, 예컨대 상기 조합이나 문장은 영상물에서 재생되는 장면(scene) 등을 고려하여 구분될 수 있다.

더불어, 스크립트 정렬부(240)는 스크립트 데이터 내에서, 식별된 텍스트 데이터에 변환된 기호 데이터와 관련되는 분할 식별자를 상관시키고, 상기 상관된 분할 식별자를 기준으로 스크립트 데이터의 조합 또는 문장을 정렬하는 역할을 할 수 있다. 상술한 바와 같이, 분할 식별자는 각 영상 스트림 데이터에 시계열적으로 상관되며, 이와 연동하여 스크립트 정렬부(240)는 상기 스크립트 데이터를 분할 식별자에 기준하여 시계열적으로 재정렬 할 수 있게 한다.

이에 따라, 본 발명의 스크립트 데이터는 기존의 시간 정보를 대체하는 분할 식별자를 조합/문장 별로 대응시킬 수 있으며, 스크립트 데이터의 특정 조합/문장이 영상물의 어느 위치에서 사운드로서 재생되고 있음을 알 수 있게 된다.

인터페이스부(250)는 사용자(130)로부터 검색어를 포함하는 영상 검색 요청을 수신하는 장치이다. 즉, 인터페이스부(250)는, 소정의 사용자 인터페이스에 사용자(130)가 검색어(대사)를 입력 함에 따라 생성되는 영상 검색 요청을 입력 받는다.

위치 검색부(260)는 스크립트 데이터 내에서, 입력된 검색어를 포함하는 텍스트 데이터를 식별하고, 식별된 텍스트 데이터에 상관하는 분할 식별자를 검색하는 장치이다. 즉, 위치 검색부(260)는 입력된 검색어(대사)를 적어도 일부 포함하는 스크립트 데이터의 조합/문장을 식별하고 이에 매칭되는 분할 식별자를 검색하는 역할을 한다. 특히, 검색어를 포함하는 스크립트 데이터의 위치(조합/문장)가 복수일 경우, 위치 검색부(260)는 각 위치와 검색어와의 유사도를 산출하고, 산출된 유사도의 수치가 설정치 이상인 소정 개를 검색한다. 본 실시예에서는 상기 유사도를 산출하는 기법에 대해 구체적인 한정을 하고 있으며, 예컨대 음소, 음절, 단어의 일치 정도, 의미의 유사 정도 등을 고려하여 유사도를 수치로서 산출할 수 있다. 이러한, 유사도 산출 기법은 본 시스템을 운영하는 운영자에 의해 유연하게 선정될 수 있다. 다만, 본 발명의 위치 검색부(260)에 의한 위치(텍스트 데이터) 를 검색하는 과정에서는 음소 단위 마다 계산이 이루어지고, 앞 단계의 결과가 뒷 단에 영향을 미치므로, 현재의 결정된 위치가 최종 결정될 위치라고 보장할 수 없다. 따라서, 운영자는 운영하는 시스템 환경에 따라, 보다 높은 정확도를 갖는 유사도 산출 기법을 유연하게 취사 선택하여 적용할 수 있다.

검색 결과 제공부(270)는 검색된 분할 식별자에 대응하는 영상 스트림 데이터를 추출하여 사용자(130)에게 제공하는 장치이다. 즉, 검색 결과 제공부(270)는 위치 검색부(260)에 의해 검색된 분할 식별자와 대응 관계에 있는 영상 스트림 데이터를 확인하고, 확인된 영상 스트림 데이터를 영상 검색 요청에 대한 결과로서 단말 수단(135)에 노출되도록 제어하는 역할을 한다.

따라서, 본 발명에 따르면, 사용자(130)에게 검색어로서 영상물의 대사를 이용한 영상 검색을 허용하고, 입력된 대사를 재생하는 영상물의 특정 위치를 검색 함으로써 시간에 의존하여 검색하는 기존의 검색 방식 보다 정확하면서도 편리한 영상 검색 환경을 만들 수 있는 이점이 있다.

우선, 도 3의 ⅰ)에서는 영상물의 일부(또는 전체)에 대해 분할 식별자를 대응시키는 것을 예시하고 있으며, 도 2의 식별자 연관부(210)는 소정의 기준(재생 시간, 프레임, 장면 등)에 의거하여 영상물을 복수 개의 영상 스트림 데이터로 분할한다. 이때, 영상 스트림 데이터 각각에는 분할 식별자(T1∼T4)가 대응한다. 도 3의 ⅰ)에서는 본 발명의 일례로서 분할 식별자가 복수의 영상 스트림 데이터 각각을 재생 시간에 기준하여 대응되는 것을 예시하고 있다.

즉, 도 3의 iv)에서 도시한 바와 같이, 소정의 메모리 수단은 분할된 영상 스트림 데이터가 재생되는 재생 시간 및 이에 대응되는 분할 식별자를 기록할 수 있다. 이에 따라 특정의 분할 식별자가 검색되는 경우, 이에 대응되는 영상 스트림 데이터, 보다 상세하게는 영상 스트림 데이터가 재생되는 재생 시간에 대한 정보를 알 수 있다. 예컨대, 메모리 수단에 기록되는 영상 스트림 데이터 및 분할 식별자가 도 3의 iv)와 같으며, 소정의 처리에 의해 분할 식별자 'T1'이 검색되는 경우, 영상 검색 시스템(200)은 재생 시간이 '00:03:24-00:06:17'인 영상 스트림 데이터 #1을 검색 결과로서 식별할 수 있다.

도 3의 ⅱ)에서는 스크립트를 GTP로 변환한 후, 각 영상 스트림 데이터로부터 추출된 오디오 데이터를 이용하여 음성 인식하는 것에 대해 예시하고 있다.

도 3의 ⅲ)에서는 음성 인식된 결과가 오디오상에서 스크립트의 각 문장의 시작과 끝의 위치를 식별하는 것을 예시하고 있다. 이때, 스크립트 정렬부(240)는 식별된 각 위치에 해당 텍스트 데이터와 관련된 분할 식별자를 상관시키게 된다. 이에 따라, 본 발명의 영상 검색 시스템(200)은 스크립트 데이터의 특정 위치가 영상물에서 재생되는 시점을, 상기 분할 식별자로서 식별할 수 있게 된다.

이후, 사용자(130)에 의해 예컨대, 검색어 '선택은 순간'이 입력되는 경우, 영상 검색 시스템(200)은 검색어 '선택은 순간'을 포함하는 스크립트 데이터의 위치 '이성의 선택은 순간적인 느낌이 중요해'를 식별하고, 이와 관련된 분할 식별자 'T1'을 검색하게 된다. 또한, 영상 검색 시스템(200)은 검색된 'T1'에 대응되는 영상 스트림 데이터 #1(일례로서, 재생 시간 00:03:24~00:06:17)을 검색 결과로서 사용자(130)에게 제공할 수 있다.

따라서, 본 발명에 따르면, 소정 영상물 중에서 사용자(130)가 대사(선택은 순간)를 입력함으로써 해당 대사가 재생되는 영상물의 소정 위치를 검색하는 효과를 얻을 수 있다.

이러한 구성을 갖는 본 발명에 따른 영상 검색 시스템(200)의 작업 흐름을 상세히 설명한다.

본 실시예에 따른 영상 검색 방법은 상술한 영상 검색 시스템(200)에 의해 수행된다.

우선, 영상 검색 시스템(200)은 영상물을 복수의 영상 스트림 데이터로 분할하고, 분할된 영상 스트림 데이터 각각에 대해서 분할 식별자를 대응시킨다(S410). 본 단계(S410)는 영상물을 소정 단위로 구분하고 그 각각에 대해 분할 식별자를 할당하는 과정으로, 예컨대 재생 시간, 프레임, 장면 등을 기준하여 영상물을 분할할 수 있다. 도 3의 ⅳ)에서는 상기 영상물을 재생 시간 단위로 분할하고 각각에 분할 식별자를 상관시키는 것을 예시하며, 영상물의 재생 시간 00:03:24~00:06:17에 해당하는 영상 스트림 데이터 #1은 분할 식별자 T1에 대응시키고 있음을 보이고 있다.

또한, 영상 검색 시스템(200)은 영상 스트림 데이터로부터 오디오 데이터를 추출하고, 상기 추출된 오디오 데이터를 관련된 분할 식별자에 상관시킨다(S420). 본 단계(S420)는 영상 스트림 데이터에 포함되는 영상 데이터 및 이와 동기되는 오디오 데이터를 분리하는 과정으로, 본 실시예에서는 이중에서 오디오 데이터 만을 추출하게 된다.

다음으로, 영상 검색 시스템(200)은 소정의 음성 인식 기법을 이용하여, 추출된 오디오 데이터를 추출하고, 추출된 오디오 데이터를 소정의 스크립트 정렬부(240)에서 인지할 수 있는 형태의 기호 데이터로 변환한다(S430). 본 단계(S430)는 해당 영상 스트림 데이터 내에서 재생되는 음성을 문자화하는 과정으로, 예컨대 비티비 검색을 이용한 소정의 기호맵(model map)에, 상기 오디오 데이터를 통과시킨 후 음소 모델과 비교하고 가장 유사하다고 판단되는 기호 데이터를 결정할 수 있다. 이때, 기호 데이터는 후술되는 스크립트 정렬부(240)에서 의미 식별이 가능한 형태로 생성되어 스크립트 데이터에 대한 정렬 처리에 이용할 수 있도록 한다.

또한, 영상 검색 시스템(200)은 스크립트 정렬부에서 변환된 기호 데이터를 확률적으로 다수 포함하는, 상기 영상물과 상응하는 스크립트 데이터 내에서의 텍스트 데이터를 식별한다(S440). 본 단계(S440)는 상기 변환된 기호 데이터와 영상물의 데본인 스크립트 데이터의 텍스트 데이터를 비교하고, 상기 텍스트 데이터와 동일한 또는 가장 유사한 텍스트 데이터를 식별하는 과정이다.

계속해서, 영상 검색 시스템(200)은 식별된 텍스트 데이터 및 관련된 분할 식별자를 상관시킨다(S450). 본 단계(S450)는 분할 식별자를 이용하여 스크립트 데이터를 정렬시키는 과정으로, 상기 상관되는 분할 식별자는 예컨대, 텍스트 데이 터의 식별에 관여한 기호 데이터 또는 해당 기호 데이터의 변환에 관여한 오디오 데이터와 대응하는 분할 식별자로 결정할 수 있다. 이를 통해 본 발명의 영상 검색 시스템(200)은 스크립트 데이터의 소정 문장이 재생되는 영상물의 위치를 분할 식별자를 이용하여 식별할 수 있게 된다(도 3의 ⅲ) 참조).

따라서 본 발명에 따르면, 영상물의 분할과 관련되는 분할 식별자를 이용하여, 상기 영상물과 상응되는 스크립트 데이터를 정렬할 수 있으며, 이를 통해 스크립트 데이터의 소정 문장이 재생되는 영상물의 특정 위치를 정확하게 식별하는 효과를 얻을 수 있다.

또한, 영상 검색 시스템(200)은 사용자(130)로부터 검색어를 포함하는 영상 검색 요청을 수신하고, 스크립트 데이터 내에서 상기 입력된 검색어를 포함하는 텍스트 데이터를 식별한다(S460). 본 단계(S460)는 영상 검색 요청을 위해 입력된 검색어 및 영상물의 대본인 스크립트 데이터를 비교하고, 검색어를 포함하는 텍스트 데이터 즉, 스크립트 데이터의 위치를 식별하는 과정이다(S460). 즉, 영상 검색 시스템(200)은 사용자(130)로부터 영상물의 소정 대사를 검색어로서 입력 받음에 따라 영상 검색 요청을 발생시키고, 입력된 대사와 동일하거나 유사한 스크립트 데이터의 문장 위치를 식별하는 과정이다.

다음으로, 영상 검색 시스템(200)은 상기 식별된 텍스트 데이터에 상관하는 분할 식별자를 검색한다(S470). 본 단계(S470)는 사용자(130)에 의해 입력된 대사를 스크립트 데이터 내에서 위치 확인하는 과정이다. 특히, 본 단계(S470)에서의 영상 검색 시스템(200)은 입력된 검색어를 포함하는 스크립트 데이터의 특정 위치 가 복수 개로 식별되는 경우, 각 위치마다 산출되는 유사도에 기초하여 소정 개의 위치를 선택하게 된다. 여기서, 유사도는 스크립트 데이터의 소정 문장과 텍스트 데이터 간의 일치 비율, 음소의 동일수 산출, 유의어 사용 여부 등을 고려하여 예컨대 유사 확률 수치로 산출할 수 있으며, 설정된 유사 확률 수치 이상인 스크립트 데이터의 위치를 검색한다.

예를 들어, 스크립트 데이터가 도 3의 ⅲ)와 같으며, 검색어로서 '이 식당은 갈비를 맛있게 해'라고 입력되는 경우를 가정한다. 이때, 영상 검색 시스템(200)은 사용자(130)가 입력한 검색어 중에서 '식당, 갈비'를 포함하는, 스크립트 데이터의 위치인 '이 식당은 갈비를 잘해(분할 식별자 T3)' 및 '이 식당은 갈비가 전문이야(분할 식별자 T5)'를 검색하게 된다. 이후, 영상 검색 시스템(200)은 예컨대 유의어 사용을 고려하여 분할 식별자 T3과 연관된 스크립트 데이터의 위치인 '이 식당은 갈비를 잘해'에 상대적으로 높은 유사도가 산출되도록 할 수 있다. 만약, 검색되는 분할 식별자의 수를 하나로 제한하는 경우, 영상 검색 시스템(200)은 영상 검색 요청을 위해 입력된 검색어 '이 식당은 갈비를 맛있게 해'에 응답하여 분할 식별자 T3 만이 검색되도록 할 수 있다.

또한, 영상 검색 시스템(200)은 검색된 분할 식별자와 상관되는 영상 스트림 데이터를 추출하여, 사용자(130)에게 제공한다(S480). 본 단계(S480)는 영상 검색 요청에 대한 검색 결과로서, 검색된 분할 식별자에 대응되는 영상 스트림 데이터를 통신망(140)을 통해 전송하는 과정이다. 예컨대, 단계 S470에서 검색된 분할 식별자 T3에 대해서, 영상 검색 시스템(200)은 재생 시간 00:08:26~00:10:00과 관련된 영상 스트림 데이터 #3을 사용자(130)에게 제공할 수 있다.

따라서, 본 발명에 따르면, 사용자(130)로 하여금 대사를 검색어로 입력 허용하고, 입력된 검색어가 영상물 중에서 재생되는 위치를 검색 함으로써 편리하면서도 정확한 영상 검색 방식을 구현하는 효과를 얻을 수 있게 된다.

이하, 본 발명의 다른 실시예로서, 스크립트 데이터가 없는 영상물에 대하여, 사용자(130)의 텍스트 입력을 통해 영상 검색을 수행하는 것에 대해 설명한다.

우선, 영상 검색 시스템(200)은 영상물을 복수의 영상 스트림 데이터로 분할하고, 분할된 각 영상 스트림 데이터로부터 오디오 데이터를 추출한다(S510). 본 단계(S510)는 소정의 기준 예컨대, 영상물의 재생 시간, 프레임, 장면 등에 의거하여 영상물을 단위 데이터로 분할하고, 분할된 단위 데이터 각각에 대해 오디오를 분리하는 과정이다.

또한, 영상 검색 시스템(200)은 소정의 음성 인식 기법을 이용하여, 추출된 오디오 데이터를 소정의 기호 데이터로 변환하고, 변환된 기호 데이터와 확률적으로 유사한 텍스트 데이터를 소정의 스크립트 데이터에 참조하여 식별한다(S520). 또한, 본 단계(S520)에서 영상 검색 시스템(200)은 식별된 텍스트 데이터, 및 상기 식별된 텍스트 데이터와 관련되는 영상 스트림 데이터를 대응하여 소정의 메모리 수단에 기록하는 역할을 한다. 즉, 영상 검색 시스템(200)은 영상물에서 추출한 오디오 데이터를 이용하여 최종적으로 텍스트 데이터를 유추하고, 상기 오디오 데 이터를 추출시킨 영상 스트림 데이터와 상기 텍스트 데이터를 대응하여 저장한다. 예컨대, 영상 스트림 데이터가 재생 시간에 기준하여 분할되며, 특정 영상 스트림 데이터에서 변환된 텍스트 데이터가 '우리 사랑 영원히'일 경우, 영상 검색 시스템(200)은 '우리 사랑 영원히'와 대응하여 영상물의 재생 시간 '1:01:25∼1:02:00'을 기록할 수 있다.

다음으로, 영상 검색 시스템(200)은 사용자(130)로부터 검색어를 포함하는 영상 검색 요청을 수신하고, 메모리 수단을 참조하여 검색어를 포함하는 텍스트 데이터를 검색한다(S530). 본 단계(S530)는 사용자(130)로부터 영상물의 특정 대사를 검색어로서 입력 받고, 입력된 대사와 동일하거나 유사한 텍스트 데이터를 검색하는 과정이다. 특히, 본 단계(S530)에서의 영상 검색 시스템(200)은 입력된 검색어를 포함하는 텍스트 데이터가 복수 개로 검색되는 경우, 각 텍스트 데이터가 검색어와의 일치 정도에 근거한 유사도에 따라 소정 개의 텍스트 데이터를 선택하게 된다. 즉, 영상 검색 시스템(200)은 검색어와 텍스트 데이터 간의 일치 비율, 음소의 동일수 산출, 유의어 사용 여부 등을 고려하여 예컨대 유사 확률 수치로 산출할 수 있으며, 설정된 유사 확률 수치 이상인 텍스트 데이터를 검색한다.

또한, 영상 검색 시스템(200)은 검색된 텍스트 데이터에 대응하는 영상 스트림 데이터를 추출하여 사용자(130)에게 제공한다(S540). 본 단계(S480)는 영상 검색 요청에 대한 검색 결과로서, 검색된 분할 식별자에 대응하여 상기 메모리 수단에 기록되는 영상 스트림 데이터를 통신망(140)을 통해 사용자(130)에게 전송하는 과정이다.

따라서, 본 발명에 따르면, 영상물의 대본을 구비하지 않더라도, 영상물로부터 추출된 텍스트 데이터를 이용하여, 대사를 이용한 영상 검색 요청을 최적하게 서비스 지원하는 효과를 얻을 수 있다.

본 발명의 실시예들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

컴퓨터 장치(600)는 램(RAM: Random Access Memory)(620)과 롬(ROM: Read Only Memory)(630)을 포함하는 주기억장치와 연결되는 하나 이상의 프로세서(610) 를 포함한다. 프로세서(610)는 중앙처리장치(CPU)로 불리기도 한다. 본 기술분야에서 널리 알려져 있는 바와 같이, 롬(630)은 데이터(data)와 명령(instruction)을 단방향성으로 CPU에 전송하는 역할을 하며, 램(620)은 통상적으로 데이터와 명령을 양방향성으로 전송하는 데 사용된다. 램(620) 및 롬(630)은 컴퓨터 판독 가능 매체의 어떠한 적절한 형태를 포함할 수 있다. 대용량 기억장치(Mass Storage)(640)는 양방향성으로 프로세서(610)와 연결되어 추가적인 데이터 저장 능력을 제공하며, 상기된 컴퓨터 판독 가능 기록 매체 중 어떠한 것일 수 있다. 대용량 기억장치(640)는 프로그램, 데이터 등을 저장하는데 사용되며, 통상적으로 주기억장치보다 속도가 느린 하드 디스크와 같은 보조기억장치이다. CD 롬(660)과 같은 특정 대용량 기억장치가 사용될 수도 있다. 프로세서(610)는 비디오 모니터, 트랙볼, 마우스, 키보드, 마이크로폰, 터치스크린 형 디스플레이, 카드 판독기, 자기 또는 종이 테이프 판독기, 음성 또는 필기 인식기, 조이스틱, 또는 기타 공지된 컴퓨터 입출력장치와 같은 하나 이상의 입출력 인터페이스(650)와 연결된다. 마지막으로, 프로세서(610)는 네트워크 인터페이스(670)를 통하여 유선 또는 무선 통신 네트워크에 연결될 수 있다. 이러한 네트워크 연결을 통하여 상기된 방법의 절차를 수행할 수 있다. 상기된 장치 및 도구는 컴퓨터 하드웨어 및 소프트웨어 기술 분야의 당업자에게 잘 알려져 있다.

상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있다.

지금까지 본 발명에 따른 구체적인 실시예에 관하여 설명하였으나, 본 발명 의 범위에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능함은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며, 후술하는 특허 청구의 범위뿐 아니라 이 특허 청구의 범위와 균등한 것들에 의해 정해져야 한다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허 청구 범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

이상의 설명에서 알 수 있는 바와 같이, 본 발명에 따르면, 사용자로 하여금 대사를 이용한 영상 검색을 허용하고, 입력된 대사를 재생하는 영상물의 특정 위치를 검색하여 제공함으로써 시간에 의존하여 검색하는 기존의 검색 방식 보다 간편하고 편리하게 영상 검색을 수행하는 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템을 제공할 수 있다.

또한, 본 발명에 따르면, 영상물의 분할과 관련되는 분할 식별자를 이용하여, 상기 영상물과 상응되는 스크립트 데이터를 정렬하며, 검색어를 포함하는 스크립트 데이터의 문장과 연관된 분할 식별자를 식별 함으로써 영상물을 분할한 영상 스트림 데이터를 검색하는 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스 템을 제공할 수 있다.

또한, 본 발명에 따르면, 영상물로부터 추출된 텍스트 데이터를 이용하여, 대사를 이용한 영상 검색 요청을 최적하게 서비스 지원하는 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템을 제공할 수 있다.

또한, 본 발명에 따르면, 영상물의 특정 구간을 검색하려 할 때, 키프레임에 의존한, 사용자의 시각에 의한 단조로운 검색이 아닌 최적화된 텍스트 검색 기능을 활용하는 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템을 제공할 수 있다.

Claims

영상물을 검색하는 방법에 있어서,

상기 영상물을 복수의 영상 스트림 데이터로 분할하고, 상기 분할된 영상 스트림 데이터 각각에 대해서 분할 식별자를 대응시키는 단계;

상기 영상 스트림 데이터로부터 오디오 데이터를 추출하고, 상기 추출된 오디오 데이터를 관련된 분할 식별자에 상관시키는 단계;

소정의 음성 인식 기법을 이용하여 상기 추출된 오디오 데이터로부터 소정의 스크립트 정렬부에서 인지할 수 있는 형태의 기호 데이터를 변환하는 단계;

상기 스크립트 정렬부에서 상기 변환된 기호 데이터를 포함하는, 상기 영상물과 상응하는 스크립트 데이터 내에서의 텍스트 데이터를 식별하는 단계; 및

상기 식별된 텍스트 데이터 및 관련된 분할 식별자를 상관시키는 단계

를 포함하는 것을 특징으로 하는 영상 검색 방법.
제1항에 있어서,

사용자로부터 검색어를 포함하는 영상 검색 요청을 수신하는 단계;

상기 스크립트 데이터 내에서, 상기 입력된 검색어를 포함하는 텍스트 데이터를 식별하는 단계

상기 식별된 텍스트 데이터에 상관하는 분할 식별자를 검색하는 단계; 및

상기 검색된 분할 식별자에 대응하는 영상 스트림 데이터를 추출하여, 상기 사용자에게 제공하는 단계

를 포함하는 것을 특징으로 하는 영상 검색 방법.
제2항에 있어서,

상기 검색어를 포함하는 텍스트 데이터를 식별하는 상기 단계는,

상기 스크립트 내에서 복수 개의 텍스트 데이터가 식별되는 경우, 각 텍스트 데이터마다 산출되는 유사도에 기초하여 소정 개의 텍스트 데이터를 선택하는 것을 특징으로 하는 영상 검색 방법.
제1항에 있어서,

상기 스크립트 데이터는 문자, 숫자, 특수 기호 중 하나 이상의 조합으로 이루어지는 것을 특징으로 하는 영상 검색 방법.
제1항에 있어서,

상기 영상 스트림 데이터는 재생 시간, 프레임 수, 장면 중 어느 하나의 기준에 의거하여 상기 영상물을 분할하여 생성하는 것을 특징으로 하는 영상 검색 방법.
영상물을 검색하는 방법에 있어서,

상기 영상물을 복수의 영상 스트림 데이터로 분할하는 단계;

상기 영상 스트림 데이터로부터 오디오 데이터를 추출하는 단계;

소정의 음성 인식 기법을 이용하여 상기 추출된 오디오 데이터를 소정의 기호 데이터로 변환하고, 상기 변환된 기호 데이터와 확률적으로 유사한 텍스트 데이터를 소정의 스크립트 데이터에 참조하여 식별하는 단계;

상기 식별된 텍스트 데이터, 및 상기 식별된 텍스트 데이터와 관련되는 영상 스트림 데이터를 대응하여 소정의 메모리 수단에 기록하는 단계;

사용자로부터 검색어를 포함하는 영상 검색 요청을 수신하는 단계;

상기 메모리 수단을 참조하여 상기 검색어와 연관되는 텍스트 데이터를 검색하는 단계; 및

상기 검색된 텍스트 데이터에 대응하는 영상 스트림 데이터를 추출하여 상기 사용자에게 제공하는 단계

를 포함하는 것을 특징으로 하는 영상 검색 방법.
제6항에 있어서,

상기 검색어와 연관되는 텍스트 데이터를 검색하는 상기 단계는,

복수 개의 상기 텍스트 데이터가 검색되는 경우, 각 텍스트 데이터와 상기 검색어와의 일치 정도에 근거한 유사도에 따라 소정 개의 텍스트 데이터를 선택하는 것을 특징으로 하는 영상 검색 방법.
제1항 또는 제6항에 있어서,

상기 음성 인식 기법은 상기 추출된 오디오 데이터를 설정된 음소 모델과 비교하여 문자화하는 비터비 검색(Viterbi-Search) 기법인 것을 특징으로 하는 영상 검색 방법.
제1항 내지 제7항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
영상물을 검색하는 시스템에 있어서,

상기 영상물을 복수의 영상 스트림 데이터로 분할하고, 상기 분할된 영상 스트림 데이터 각각에 대해서 분할 식별자를 대응시키는 식별자 연관부;

상기 영상 스트림 데이터로부터 오디오 데이터를 추출하는 오디오 추출부;

소정의 음성 인식 기법을 이용하여 상기 추출된 오디오 데이터를 소정의 스크립트 정렬부에서 인지할 수 있는 형태의 기호 데이터로 변환하는 음성 인식부;

상기 변환된 기호 데이터를 포함하는, 상기 영상물과 상응하는 스크립트 데이터 내에서의 텍스트 데이터를 식별하고, 상기 식별된 텍스트 데이터 및 관련된 분할 식별자를 상관시키는 스크립트 정렬부;

사용자로부터 검색어를 포함하는 영상 검색 요청을 수신하는 인터페이스부;

상기 스크립트 데이터 내에서, 상기 입력된 검색어를 포함하는 텍스트 데이터를 식별하고, 상기 식별된 텍스트 데이터에 상관하는 분할 식별자를 검색하는 위치 검색부; 및

상기 검색된 분할 식별자와 대응하는 영상 스트림 데이터를 추출하여 상기 사용자에게 제공하는 검색 결과 제공부

를 포함하는 것을 특징으로 하는 영상 검색 시스템.