KR101109023B1

KR101109023B1 - 콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치

Info

Publication number: KR101109023B1
Application number: KR1020057019649A
Authority: KR
Inventors: 라리타 아그니호트리; 네벤카 디미트로바; 존 켄더
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2003-04-14
Filing date: 2004-04-02
Publication date: 2012-01-31
Also published as: CN1774717B; EP1616275A1; US7599554B2; JP2006525537A; KR20060008897A; US20060210157A1; CN1774717A; WO2004090752A1

Abstract

콘텐트 분석을 사용하여 멀티미디어 스트림(505)에서 뮤직 비디오(507)를 분할하고 요약하기 위한 방법 및 장치가 제공된다. 뮤직 비디오(507)는 멀티미디어 스트림에 관련된 복수의 콘텐트 특징들을 평가하여 멀티미디어 스트림(505)으로 분할된다. 복수의 콘텐트 특징들은 페이스 존재 특징; 비디오텍스트 존재 특징; 컬러 히스토그램 특징; 오디오 특징; 카메라 커트(cut) 특징; 및 적어도 하나의 뮤직 비디오의 트랜스크립트(transcript)로부터 획득된 키워드들의 분석 중 적어도 두 개를 포함한다. 복수의 콘텐트 특징들은 멀티미디어 스트림(505)에서 뮤직 비디오(57)를 식별하기 위하여 베이시안 빌리프 네트워크(Bayesian Belief Network) 같은 패턴 인식 엔진(1000) 또는 하나 이상의 비디오 분할 규칙(1115)을 사용하여 처리된다. 코러스는 트랜스크립트 내에서의 단어들의 반복에 기초하여 뮤직 비디오(507)의 트랜스크립트(T)를 사용하여 적어도 하나의 뮤직 비디오(507)에서 검출된다. 추출된 코러스는 뮤직 비디오(507)의 요약의 자동 생성을 위하여 사용될 수 있다.

컬러 히스토그램 특징, 트랜스크립트, 뮤직 비디오, 멀티미디어 스트림

Description

콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치{Method and apparatus for summarizing a music video using content analysis}

본 출원은 2003년 4월 14일 출원된 미국가출원 제60/462,777호; 및 1999년 11월 17일 출원되고 발명의 명칭이 "비디오 스트림 분류가능한 심볼 격리 방법 및 시스템(Video Stream Classifiable Symbol Isolation Method and System)"인 미국특허출원 제09/441,943호에 관련된 것이고, 각각은 여기에 참조로써 통합된다.

본 발명은 비디오 요약 기술들, 특히 뮤직 비디오들을 색인하고 요약하는 방법들 및 장치들에 관한 것이다.

뮤직 비디오 프로그래밍은 퓨즈(Fuse), VH1, MTV 및 MTV2를 포함하는 다수의 텔레비전 채널들에서 이용할 수 있다. www.buymusic.com 같은 다수의 대중적인 웹 사이트에서 사용자가 개별적인 노래들의 오디오 부분들을 브라우징하고 획득할 수 있지만, 비디오 레코더들 및 다른 비디오 기반 애플리케이션들은 단지 사용자가 다수의 뮤직 비디오들을 갖는 프로그램들을 포함하는 전체 프로그램을 획득할 수 있게 한다. 현재 자동으로 개별적인 뮤직 비디오들을 획득하는 방법은 없다. 따라서, 시청자가 하나 이상의 뮤직 비디오들을 포함하는 전체 프로그램을 레코딩하면, 상기 레코딩은 광고들 및 사설들 같은 뮤직 비디오가 아닌 부분들도 모두 포함할 것이다. 뮤직 비디오들을 시청하기 위하여, 시청자는 원하는 뮤직 비디오 부분에 도달할 때까지 뮤직 비디오가 아닌 부분들을 지나 레코딩을 고속감기를 해야만한다. 게다가, 비디오 재생 장치의 대용량의 레코딩 용량이 광고들 및 다른 대화들 같은 원하지 않는 자료를 레코딩하는데 사용된다.

콘텐트 분석 방법들은 강조 부분들 같은 프로그램의 특정 부분들에의 고레벨 액세스를 제공하기 위하여 제안 또는 제시되었다. 비디오 요약 방법들은 뉴스, 스포츠 및 영화들을 포함하는 여러 타입의 프로그래밍에 대하여 개발되었다. "인포미디어 프로젝트(InforMedia Project)"는, 예를 들어, 주로 음성 인식(speech recognition), 자연어 이해, 및 캡션 텍스트에 기초하여 각각의 비디오의 짧은 시놉시스(synopsis)를 생성하는 디지털 비디오 라이브러리 시스템이다. 에이. 하웁트만(A. Hauptmann)과 엠. 스미스(M. Smith)에 의한, "비디오 분할을 위한 텍스트, 음성, 및 영상: 더 인포미디어 프로젝트(Text, Speech, and Vision for Video Segmentation: The Informedia Project)", 미국 인공 지능 협회(AAAI), 1995년, 가을, 언어와 영상을 통합하기 위한 계측적 모델들에 대한 심포지움(Symposium on Computational Models for Integrating Language and Vision(1995))을 참조하자.

그러나, 음악 분석 및 탐색 영역에서의 연구는 대체로 오디오 측면에 집중되어 있다. 예를 들어, 비. 로건(B.Logan)과 에스. 추(S. Chu)에 의한 "핵심 어구들을 사용한 음악 요약화(Music Summarization Using Key Phrases)", 음향, 음성 및 신호 처리에 관한 국제 컨퍼런스(Int'l Conf. on Acoustics, Speech and Signal Processing), 2000년은 오디오 썸네일(thumbnails)을 생성하기 위해 대중 음악의 선택시에 핵심 어구를 찾기 위한 알고리즘들을 개시한다. 제이. 푸티(J. Foote)에 의한 "자체 유사성을 사용한 음악 및 오디오의 시각화(Visualizing Music and Audio Using Self Similarity)", ACM 멀티미디어 회보 '99, 77-80, 1999년 11월은 오디오 신규성 측정의 응용으로서 오디오 "요지화(gisting)"를 도입했다. 이 오디오 신규성 점수는 오디오로부터 추출된 특징들에 기초하여 오디오의 프레임들을 비교하는 유사성 매트릭스에 기초한다. 따라서, 음악 콘텐트 분석이 연구의 활성 영역인 한, 뮤직 비디오들에 대한 분석 및 요약을 위한 개선된 기술들을 제공할 필요가 여전히 있다. 추가로, 멀티미디어 데이터 스트림에서 뮤직 비디오를 분할하고 관련 뮤직 비디오 정보를 포함하는 각각의 뮤직 비디오의 요약을 준비하는 방법들 및 장치들이 필요하다.

일반적으로, 콘텐트 분석을 사용하여 다중 스트림에서 뮤직 비디오를 분할하고 요약하기 위한 방법 및 장치가 제공된다. 뮤직 비디오는 멀티미디어 스트림과 관련된 복수의 콘텐트 특징들을 평가함으로써 본 발명에 따라 멀티미디어 스트림에서 분할된다. 복수의 콘텐트 특징들은 페이스(face) 존재 특징; 비디오텍스트 존재 특징; 컬러 히스토그램 특징; 오디오 특징; 카메라 커트(cut) 특징; 및 적어도 하나의 뮤직 비디오의 트랜스크립트(transcript)로부터 획득한 키워드들의 분석 중 적어도 두 개를 포함한다. 복수의 콘텐트 특징들은 멀티미디어 스트림에서 뮤직 비디오를 식별하기 위해 베이시안 빌리프 네트워크(Bayesian Belief Network) 같은 패턴 인식 엔진 또는 하나 이상의 비디오 분할 규칙들을 사용하여 처리된다.

본 발명의 일 측면에 따라, 페이스 존재 특징은 멀티미디어 스트림 내의 페이스의 프레젠테이션(presentation) 내의 패턴들을 평가한다. 초기에, 몇몇의 가능한 페이스 타입 라벨들 중 하나가 각각의 이미지 프레임에 할당된다. 그 후 이미지 프레임들은 할당된 페이스 타입 라벨들에 기초하여 클러스터링(clustering)되고 패턴들은 페이스 타입 라벨들의 클러스터들에서 분석되어, 비디오 경계들이 검출된다. 본 발명의 다른 측면에 따라, 컬러 히스토그램 특징은 멀티미디어 스트림의 컬러 콘텐트의 패턴들을 평가한다. 컬러 히스토그램은 각각의 이미지 프레임에 대하여 획득되고 그 후 이미지 프레임들이 히스토그램들에 기초하여 클러스터링된다. 패턴들이 히스토그램들의 클러스터들에서 분석되어 비디오 경계들이 검출된다. 카메라 커트 특징은 멀티미디어 스트림 내의 움직임들 및 카메라 커트들 내의 패턴을 평가한다. 오디오 특징은 멀티미디어 스트림의 오디오 콘텐트 내의 패턴들을 평가하기 위하여 개시된다. 예를 들어, 멀티미디어 스트림의 볼륨은 증가하는 및 감소하는 볼륨으로 나타내지는 노래의 시작 및 끝을 검출하기 위하여 평가될 수 있다.

본 발명의 다른 측면에 따라, 적어도 하나의 뮤직 비디오에서 코러스가 검출된다. 수신된 멀티미디어 스트림 내의 뮤직 비디오와 연관된 트랜스크립트가 액세스되고 트랜스크립트의 단어들 반복에 기초하여 코러스가 검출된다. 트랜스크립트는 예를 들어 폐쇄된 캡션 정보로부터 획득될 수 있다. 추출된 코러스는 뮤직 비디오의 요약의 자동 생성을 위하여 사용될 수 있다. 생성된 요약은 사용자 선호에 따라 사용자에게 프리젠테이션될 수 있고, 사용자 선호들에 따라 뮤직 비디오들을 검색하는데 사용될 수 있다.

본 발명의 보다 완벽한 이해, 및 본 발명의 다른 특징들 및 장점들은 다음 상세한 설명 및 도면들을 참조하여 얻어질 것이다.

도 1은 본 발명이 동작할 수 있는 예시적인 종래의 비디오 디스플레이 시스템을 도시한 도면.

도 2는 본 발명의 일 실시예에 따른, 도 1의 예시적인 비디오 디스플레이 시스템에서 뮤직 비디오들을 색인 및 요약하기 위한 시스템을 도시한 도면.

도 3은 본 발명의 특징들을 통합하는 뮤직 비디오 요약 처리들을 포함하는 메모리를 도시한 도면.

도 4는 본 발명의 일 실시예에 사용된 뮤직 비디오 요약 블록들을 포함하는 메모리를 도시한 도면.

도 5는 본 발명의 특징들을 통합하는 음악 색인 및 요약 처리의 예시적인 실행을 도시하는 흐름도.

도 6은 본 발명의 특징들을 통합한 예시적인 페이스 특징 분석 처리의 흐름도.

도 7은 본 발명의 특징들을 통합하는 예시적인 카메라 변화 분석 처리의 흐름도.

도 8은 본 발명의 특징들을 통합하는 예시적인 컬러 히스토그램 분석 처리의 흐름도.

도 9는 본 발명의 특징들을 통합한 예시적인 오디오 특징 분석의 흐름도.

도 10은 본 발명의 특징들을 통합한 예시적인 베이시안 빌리프 네트워크를 도시한 도면.

도 11은 비디오 분할 처리의 예시적인 실시예를 나타내는 흐름도.

도 12는 본 발명에 의해 모니터링되는 다양한 특징들의 예시적인 시간 라인 이미지들을 도시한 도면.

도 13은 코러스 검출 처리의 예시적인 실시예의 흐름도.

도 14는 자동으로 요약을 생성하기 위하여 비디오로부터 요소들을 찾아내기 위하여 사용될 수 있는 베이시안 빌리프 네트워크를 도시한 도면.

도 1은 본 발명의 일 실시예에 따른 예시적인 비디오 재생 장치(150) 및 텔레비전 세트(105)를 도시한다. 비디오 재생 장치(150)는 케이블 텔레비전 서비스 공급자, 로컬 안테나, 인터넷 서비스 공급자(ISP), DVD 또는 VHS 테이프 플레이어 같은 외부 소스로부터 인입 텔레비전 신호들을 수신한다. 비디오 재생 장치(150)는 시청자 선택 채널로부터 텔레비전 세트(105)로 텔레비전 신호들을 전송한다. 채널은 사용자에 의해 수동으로 선택되거나 사용자에 의해 이전에 프로그래밍된 레코딩 장치에 의해 자동으로 선택될 수 있다. 대안적으로, 채널 및 비디오 프로그램은 사용자의 개인 시청 히스토리 내의 프로그램 프로파일로부터의 정보에 기초하여 레코딩 장치에 의해 자동으로 선택될 수 있다. 본 발명이 예시적인 텔레비전 수신기의 문맥으로 기술되어있지만, 당업자는 본 발명의 예시적인 실시예가 임의의 타입의 비디오 디스플레이 시스템에 사용하기 위하여 쉽게 변형될 수 있다는 것을 인식할 것이다.

레코드 모드에서, 비디오 재생 장치(150)는 인입 무선 주파수(RF) 텔레비전 신호를 복조하여 비디오 재생 장치(150) 내의 저장 매체 상에 레코딩되고 저장되거나 상기 비디오 재생 장치(150)에 접속된 기저대역 비디오 신호를 생성할 수 있다. 재생 모드에서, 비디오 재생 장치(150)는 사용자에 의해 선택된 저장된 기저대역 비디오 신호(즉, 프로그램)를 저장 매체로부터 판독하고 그것을 텔레비전 세트(105)에 전송한다. 비디오 재생 장치(150)는 디지털 신호들을 수신하고, 레코딩하고, 상호작용하고, 재생할 수 있는 타입의 비디오 레코더를 포함할 수 있다.

비디오 재생 장치(150)는 레코딩 테이프, 또는 하드 디스크, 또는 고체 메모리, 또는 임의의 다른 타입의 레코딩 장치를 사용하는 타입의 비디오 레코더를 포함할 수 있다. 만약 비디오 재생 장치(150)가 비디오 카세트 레코더(VCR)이면, 비디오 재생 장치(150)는 자기 카세트 테이프에 인입 텔레비전 신호들을 저장하고 상기 자기 카세트 테이프로부터 인입 텔레비전 신호들을 탐색한다. 만약 비디오 재생 장치(150)가 리플레이TV^TM 레코더 또는 TiVO^TM 레코더 같은 디스크 드라이브 기반 장치이면, 비디오 재생 장치(150)는 자기 카세트 테이프보다는 컴퓨터 자기 하드디스크에 인입 텔레비전 신호들을 저장하고 상기 하드디스크로부터 인입 텔레비전 신호들을 탐색하고, 상기 하드 디스크로부터 저장된 텔레비전 신호들을 탐색한다. 다른 실시예들에서, 비디오 재생 장치(150)는 로컬 판독/기입(R/W) 디지털 다기능 디스크(DVD) 또는 판독/기입(R/W) 컴팩트 디스크(CD-RW)로부터 저장 및 탐색할 수 있다. 로컬 저장 매체는 고정된 것이거나(예를 들어, 하드 디스크 드라이브) 분리형일 수 있다(예를 들어, DVD, CD-ROM).

비디오 재생 장치(150)는 사용자에 의해 동작되는 원격 제어 장치(125)로부터 명령들(채널 업, 채널 다운, 볼륨 업, 볼륨 다운, 레코드, 재생, 고속감기(FF), 되감기 등)을 수신하는 적외선(IR) 센서(160)를 포함한다. 텔레비전 세트(105)는 스크린(110), 적외선(IR) 센서(115) 및 하나 이상의 수동 제어부들(120)(점선으로 표시됨)을 포함하는 종래의 텔레비전이다. IR 센서(115)는 또한 사용자에 의해 동작되는 원격 제어 장치(125)로부터 명령들(볼륨 업, 볼륨 다운, 전력 온, 전력 오프)을 수신한다.

비디오 재생 장치(150)가 특정 타입의 소스로부터 특정 타입의 인입 텔레비전 신호를 수신하는 것으로 한정되지 않는 것이 주의된다. 상기 주의된 바와 같이, 외부 소스는 케이블 서비스 공급자, 종래의 RF 방송 안테나, 위성접시, 인터넷 접속, 또는 DVD 플레이어 또는 VHS 테이프 플레이어 같은 다른 로컬 저장 장치일 수 있다. 몇몇 실시예들에서, 비디오 재생 장치(150)는 레코딩은 할 수 없고, 분리형 DVD 또는 CD-ROM으로부터 탐색된 텔레비전 신호들을 재생하는 것에만 제한될 수 있다. 따라서, 인입 신호는 디지털 신호, 아날로그 신호 또는 인터넷 프로토콜(IP) 패킷들일 수 있다.

그러나, 본 발명의 원리들을 간략하고 명료하게 설명하기 위하여, 다음의 설명들은 일반적으로 비디오 재생 장치(150)가 케이블 서비스 공급자로부터 인입 텔레비전 신호들(아날로그 및/또는 디지털)을 수신하는 실시예에 관한 것이다. 그럼에도 불구하고, 당업자들은 본 발명의 원리들이 무선 방송 텔레비전 신호들, 로컬 저장 시스템들, MPEG 데이터를 포함하는 IP 패킷들의 인입 스트림 등에 사용하기 위하여 쉽게 적용될 수 있다는 것을 이해할 것이다. 뮤직 비디오가 텔레비전(105)의 스크린(110) 상에서 디스플레이될 때, 뮤직 비디오의 시작에는 비디오 이미지의 하단에 텍스트 캡션(180)(비디오텍스트)이 일반적으로 디스플레이된다. 텍스트 캡션(180)은 일반적으로 노래의 제목, 앨범의 이름, 가수 또는 그룹의 이름, 발매일 및 다른 유사한 정보를 포함한다. 텍스트 캡션(180)은 또한 일반적으로 뮤직 비디오의 끝에 디스플레이된다. 텍스트 캡션(180)은 또한 비디오텍스트 블록(180)이라고도 불린다. 뮤직 비디오 요약 제어기(270)는 저장된 뮤직 비디오 요약 파일들(360) 모두의 리스트(190)에 액세스하고 텔레비전(105)의 스크린(110) 상에 리스트(190)를 디스플레이할 수 있다. 즉, 리스트(190)는 (1) 멀티미디어 데이터 스트림에서 검출된 모든 뮤직 비디오들의 뮤직 비디오 요약 파일들 및 (2) 각각의 뮤직 비디오를 레코드한 가수 또는 그룹의 식별을 디스플레이한다. 원격 제어 장치(125) 및 IR 센서(160)를 사용하여, 사용자는 뮤직 비디오 요약 제어기(270)에 "뮤직 비디오 요약 재생" 제어 신호를 송신하여 리스트(190) 내의 어떤 뮤직 비디오 요약 파일을 다음에 재생할지 선택한다. 이 방식으로 사용자는 뮤직 비디오 요약 파일들이 재생되는 순서를 선택한다.

도 2는 본 발명의 일 실시예에 따라, 보다 상세히 예시적인 비디오 재생 장치(150)를 도시한다. 비디오 재생 장치(150)는 IR 센서(160), 비디오 처리기(210), MPEG2 인코더(220), 하드 디스크 드라이브(230), MPEG2 디코더/NTSC 인코더(240), 및 비디오 레코더(VR) 제어기(250)를 포함한다. 비디오 재생 장치(150)는 프레임 그래버(grabber)(265)를 포함하는 비디오 유닛(260), 폐쇄형 캡션 디코더(275)를 포함하는 뮤직 비디오 요약 제어기(270), 및 메모리(280)를 더 포함한다. 프레임 그래버(265)는 MPEG2 디코더/NTSC 인코더(240)의 출력으로부터 비디오 프레임들을 캡쳐링하고 저장한다. 폐쇄형 캡션 디코더(275)는 MPEG2 디코더/NTSC 인코더(240)의 NTSC 출력 신호에서 폐쇄형 캡션 텍스트를 디코딩한다. 비록 폐쇄형 캡션 디코더(275)가 도 2에서 뮤직 비디오 요약 제어기(270) 내에 위치되는 것으로 도시었지만, 폐쇄형 캡션 디코더(275)가 뮤직 비디오 요약 제어기(270) 내에 반드시 위치되어야 하는 것은 아니다.

VR 제어기(250)는 시청 모드, 레코드 모드, 재생 모드, 고속감기(FF) 모드, 되감기 모드 및 다른 유사한 기능들을 포함하는 비디오 재생 장치(150)의 전체 동작을 지시한다. 뮤직 비디오 요약 제어기(270)는 본 발명의 원리들에 따른 뮤직 비디오 요약들의 생성, 저장 및 재생을 지시한다.

시청 모드에서, VR 제어기(250)는 케이블 서비스 공급자로부터의 인입 텔레비전 신호가 하드 디스크 드라이브(230) 상에 비디오 신호들을 저장(또는 하드 디스크 드라이브로부터 비디오 신호들을 탐색)하거나 또는 하지 않으면서 복조되고 비디오 처리기(210)에 의해 처리되고 텔레비전 세트(105)에 전송되게 한다. 비디오 처리기(210)는 케이블 서비스 공급자로부터 인입 텔레비전 신호들을 수신하고, 사용자 선택 채널로 튜닝(tuning)하고, 선택된 RF 신호를 텔레비전 세트(105) 상에 디스플레이하기에 적당한 기저대역 텔레비전 신호(예를 들어, 슈퍼 비디오 신호)로 변환시키기 위하여 무선 주파수(RF) 전단 회로를 포함한다. 비디오 처리기(210)는 또한 (비디오 유닛(260)의 비디오 버퍼(265)에 버퍼링한 후) 재생 모드 동안 MPEG2 디코더/NTSC 인코더(240)로부터 종래의 NTSC 신호를 수신하고 기저대역 텔레비전 신호를 텔레비전 세트(105)에 전송할 수 있다.

레코드 모드에서, VR 제어기(250)는 인입 텔레비전 신호가 하드 디스크 드라이브(230) 상에 저장되게 한다. VR 제어기(250)의 제어 하에서, MPEG2 인코더(220)는 케이블 서비스 공급자로부터 인입 아날로그 텔레비전 신호를 수신하고 수신한 RF 신호를 하드 디스크 드라이브(230) 상에 저장하기 위해 MPEG2 포맷으로 변환시킨다. 대안적으로, 만약 비디오 재생 장치(150)가 MPEG2 데이터를 전송하는 소스에 결합되면, 인입 MPEG2 데이터는 MPEG2 인코더(220)를 건너뛰고 하드 디스크 드라이브(230) 상에 바로 저장될 수 있다.

재생 모드에서, VR 제어기(250)는 하드 디스크 드라이브(230)로부터의 MPEG2 데이터를 예를 들어 비디오 처리기(210)가 텔레비전 세트(105)에 전송하는 슈퍼 비디오(S-Video) 신호로 변환시키는 MPEG2 디코더/NTSC 인코더(240)에 저장된 텔레비전 신호(즉, 프로그램)를 스트리밍하도록 하드 디스크 드라이브(230)에게 지시한다.

MPEG2 인코더(220) 및 MPEG2 디코더/NTSC 인코더(240)에 대한 MPEG2 표준의 선택은 단지 예시일 뿐이란 것이 주의되어야 한다. 본 발명의 대안적인 실시예들에서, MPEG 인코더 및 디코더는 MPEG-1, MPEG-2 및 MPEG-4 표준들 중 하나 이상, 또는 다른 타입의 표준들 중 하나 이상을 따를 수 있다.

본 출원 및 하기의 청구항들을 위하여, 하드 디스크 드라이브(230)는 이에 한정되는 것은 아니지만, 판독/기입 디지털 다기능 디스크들(DVD-RW), 재기입가능 CD-ROM들, VCR 테이프들 등을 위한 종래 자기 디스크 드라이브들 및 광학 디스크 드라이브들을 포함하는 판독 및 기입가능한 임의의 대용량 저장 장치를 포함하는 것으로 정의된다. 실제로, 하드 디스크 드라이브(230)는 비디오 재생 장치(150)에 영구적으로 내장된 종래 의미로 고정될 필요는 없다. 오히려, 하드 디스크 드라이브(230)는 레코딩된 비디오 프로그램들을 저장하기 위한, 비디오 재생 장치(150) 전용인 임의의 대용량 저장 장치를 포함한다. 따라서, 하드 디스크 드라이브(230)는 몇몇의 판독/기입 DVD들 또는 재기입가능 CD-ROM들을 보유하는 쥬크 박스 장치(도시되지 않음)와 같은 부착된 주변 장치 또는 분리형 디스크 드라이브들(내장되거나 부착됨)을 포함할 수 있다. 도 2에 개략적으로 도시된 바와 같이, 이 타입의 분리형 디스크 드라이브들은 재기입가능 CD-ROM 디스크(235)를 수용하고 판독할 수 있다.

게다가, 본 발명의 유용한 실시예에서, 하드 디스크 드라이브(230)는 비디오 재생 장치(150)가 예를 들어 사용자의 가정용 개인 컴퓨터(PC)의 디스크 드라이브 또는 사용자의 인터넷 서비스 공급자(ISP)에의 서버 상의 디스크 드라이브를 포함하는, 네트워크 접속(예를 들어, 인터넷 프로토콜 (IP) 접속)을 통해 액세스하고 제어할 수 있는 외부 대용량 저장 장치들을 포함할 수 있다.

VR 제어기(250)는 비디오 처리기(210)에 의해 수신되는 비디오 신호들에 관한 정보를 비디오 처리기(210)로부터 획득한다. 비디오 재생 장치(150)가 비디오 프로그램을 수신한다고 VR 제어기(250)가 결정할 때, VR 제어기(250)는 비디오 프로그램이 레코딩되도록 선택된 것인지 여부를 결정한다. 만약 비디오 프로그램이 레코딩될 것이면, VR 제어기(250)는 비디오 프로그램이 전술된 방식으로 하드 디스크 드라이브(230) 상에 레코딩되게 한다. 만약 비디오 프로그램이 레코딩될 것이 아니면, VR 제어기(250)는 비디오 프로그램이 전술된 방식으로 비디오 처리기(210)에 의해 처리되어 텔레비전 세트(105)에 전송되게 한다.

본 발명의 예시적인 실시예에서, 메모리(280)는 랜덤 액세스 메모리(RAM) 또는 랜덤 액세스 메모리(RAM)와 판독 전용 메모리(ROM)의 조합을 포함할 수 있다. 메모리(280)는 플래시 메모리 같은 비휘발성 랜덤 액세스 메모리(RAM)를 포함할 수 있다. 텔레비전 세트(105)의 대안적인 유익한 실시예에서, 메모리(280)는 하드 디스크 드라이브(도시되지 않음) 같은 대용량 데이터 저장 장치를 포함할 수 있다. 메모리(280)는 판독/기입 DVD들 또는 재기입가능 CD-ROM들을 판독하는 부착된 주변 장치 또는 분리형 디스크 드라이브들(내장되거나 부착됨)을 또한 포함할 수 있다. 도 2에 개략적으로 도시된 바와 같이, 이 타입의 분리형 디스크 드라이브들은 재기입가능 CD-ROM 디스크(285)를 수용 및 판독할 수 있다.

도 3은 본 발명의 뮤직 비디오 요약 컴퓨터 소프트웨어(300)를 포함하는 메모리(280)의 선택된 부분을 도시한다. 메모리(280)는 운영 체제 인터페이스 프로그램(310), 뮤직 비디오 분할 애플리케이션(320), 뮤직 비디오 식별 애플리케이션(330), 뮤직 비디오 요약 애플리케이션(340), 뮤직 비디오 요약 블록들(350) 및 뮤직 비디오 요약 파일들(360)을 포함한다. 뮤직 비디오 요약 제어기(270) 및 뮤직 비디오 요약 컴퓨터 소프트웨어(300)는 함께 본 발명을 수행할 수 있는 뮤직 비디오 요약 제어 시스템을 포함한다. 운영 체제 인터페이스 프로그램(310)은 VR 제어기(250) 및 뮤직 비디오 요약 제어기(270)의 운영 체제와 뮤직 비디오 요약 컴퓨터 소프트웨어(300)의 동작을 조정한다.

도 4는 본 발명의 유익한 실시예의 일 부분으로서의 뮤직 비디오 요약 블록들(350)의 한 그룹을 도시한다. 본 발명의 뮤직 비디오 요약 제어기(270)는 뮤직 비디오에 관련하여 획득한 정보를 뮤직 비디오 요약 블록(예를 들어, 뮤직 비디오 요약 블록(410))에 저장한다. 도 4에 도시된 바와 같이, 뮤직 비디오 요약 블록들(350)의 그룹은 N개의 뮤직 비디오 요약 블록들(410, 470,...,480)을 포함한다(여기서, N은 정수임). 도 4에 도시된 예시적인 뮤직 비디오 요약 블록(410)은 각각의 뮤직 비디오 요약 블록이 포함할 수 있는 정보의 타입을 예시한다. 예시적인 뮤직 비디오 요약 블록(410)은 제목, 앨범, 가수, 레코딩 스튜디오 및 발매일 블록들(420, 430, 440, 450 및 460)을 각각 포함한다. 이들 카테고리들은 예시적일 뿐 배타적이지 않다. 즉, 다른 타입의 정보(도시되지 않음)가 또한 본 발명의 뮤직 비디오 요약 블록에 저장될 수 있다.

뮤직 비디오 요약 제어기(270)가 뮤직 비디오들을 포함하는 멀티미디어 데이터 스트림을 수신하는 것을 가정하자. 보다 완벽히 후술된 바와 같이, 뮤직 비디오 요약 제어기(270)는 (1) 멀티미디어 데이터 스트림 내의 뮤직 비디오들을 분할하고 상기 뮤직 비디오들을 멀티미디어 데이터 스트림의 나머지로부터 분리하고, (2) 각각의 분할된 뮤직 비디오를 식별하고 각각의 뮤직 비디오의 주제인 노래에 관한 정보를 획득하고, (3) 텍스트, 오디오 및 비디오 세그먼트들을 포함하는 각각의 뮤직 비디오에 대한 뮤직 비디오 요약 파일을 생성하고, (4) 뮤직 비디오 요약 파일을 저장하고, 및 (5) 사용자 요구에 응답하여, 사용자에 의해 선택된 순서로 뮤직 비디오 요약 파일들을 디스플레이할 수 있다.

일 실시예에서, 뮤직 비디오 요약 제어기(270)는 각각의 뮤직 비디오의 시작 및 끝을 찾아냄으로써 멀티미디어 데이터 스트림에서 뮤직 비디오들을 분할한다. 본 발명의 일 측면에 따라, 뮤직 비디오들은 통상적으로 새로운 노래의 시작을 나타내는 음악이 아닌 구성요소에서 음악 구성요소들로의 오디오 구성요소의 변화를 검출하기 위한 오디오 분류 기술들 같은 하나 이상의 오디오 특징들 또는 페이스들의 존재 또는 페이스들의 식별 같은 하나 이상의 이미지 특징들을 사용하여 분할된다. 다른 변형들에서, 분할 처리는 또한 새로운 노래의 시작을 나타내는 어두운 이미지들로부터 밝은 이미지들로의 변화와 같은 컬러의 변화들을 검출하기 위하여 슈퍼 히스토그램들(super histograms)(또는 컬러 클러스터링 기술들)을 사용한다.

다른 변형에서, 뮤직 비디오 요약 제어기(270)는 뮤직 비디오의 시작 및 끝에서 비디오 텍스트 블록(180)을 검색하기 위하여 뮤직 비디오 분할 애플리케이션(320)의 컴퓨터 명령들을 실행한다. 두 개의 비디오 텍스트 블록들(180)이 동일할 때, 그들 사이의 비디오 부분은 두 개의 비디오 텍스트 블록들(180)에 의해 식별된 뮤직 비디오를 나타낸다. 뮤직 비디오가 텔레비전(105)의 스크린(110) 상에 디스플레이될 때, 뮤직 비디오의 시작에는 일반적으로 비디오 이미지의 하단에 텍스트 캡션(180)을 디스플레이한다. 텍스트 캡션(180)은 일반적으로 노래 제목, 앨범 이름, 가수 또는 그룹의 이름, 발매일 및 다른 유사한 정보를 포함한다. 텍스트 캡션(180)은 또한 일반적으로 뮤직 비디오의 끝에 디스플레이된다. 텍스트 캡션(180)은 또한 비디오텍스트 블록(180)이라고도 불린다.

뮤직 비디오 요약 제어기(270)가 새로운 뮤직 비디오를 분할할 때, 뮤직 비디오 요약 제어기(270)는 예를 들어 비디오 텍스트 블록(180)으로부터 뮤직 비디오를 식별하는 정보를 추출하기 위하여 뮤직 비디오 식별 애플리케이션(330) 내의 컴퓨터 명령들을 실행한다. 뮤직 비디오 요약 제어기(270)는 랄리사 아그니호트리(Lalitha Agnihotri), 네벤카 드미트로바(Nevenka Dimitrova), 및 허먼 엘렌바스(Herman Elenbass)에 의한, 1999년 11월 17일 출원된, 발명의 명칭이 "비디오 스트림 분류가능한 심볼 격리 방법 및 시스템(Video Stream Classifiable Symbol Isolation Method and System)"인 미국특허출원 제09/441,943호에 개시된 타입의 방법을 사용하여 비디오 텍스트 블록(180)의 텍스트를 획득할 수 있다.

뮤직 비디오 요약 제어기(270)는 메모리(280) 내의 데이터베이스(도시되지 않음)에 액세스하고(또는 인터넷 상에 위치된 데이터베이스에 액세스할 수 있음), 노래들, 앨범들, 가수들 또는 레코딩 회사들의 포괄적인 리스트를 찾아서, 뮤직 비디오 요약 제어기(270)가 비디오 텍스트 블록(180)으로부터 획득한 정보와 비교할 수 있다. 뮤직 비디오 요약 제어기(270)는 메모리(280) 내의 뮤직 비디오에 관련하여 획득한 정보를 뮤직 비디오 요약 블록들(350) 중 하나에 저장한다. 각각의 독립된 뮤직 비디오에 대한 뮤직 비디오 정보는 독립된 뮤직 비디오 요약 블록(예를 들어, 뮤직 비디오 요약 블록(410))에 저장된다.

몇몇 경우들에서, 뮤직 비디오 요약 제어기(270)는 임의의 비디오 텍스트 블록들(180)을 위치시키거나 식별할 수 없을 수 있다. 이러한 경우들에서, 뮤직 비디오 요약 제어기(270)는 노래의 몇몇 라인들의 트랜스크립트와 노래 가사들의 트랜스크립트들의 데이터베이스를 비교하여 텍스트 매칭을 찾을 수 있다. 뮤직 비디오 요약 제어기(270)는 노래의 일부 라인들의 텍스트를 나타내는 "검색 문자열"을 선택한다. 일 실시예에서, "검색 문자열" 텍스트는 폐쇄형 캡션 디코더(275)로부터 획득될 수 있다. 그 후 뮤직 비디오 요약 제어기(270)는 메모리(280) 내의 노래 가사들(도시되지 않음)의 데이터베이스에 액세스(또는 www.lyrics.com 같은 인테넷 상에 위치된 노래 가사들의 데이터베이스에 액세스)하여 노래 가사들의 포괄적인 리스트를 찾는다. 그 후 뮤직 비디오 요약 제어기(270)는 "검색 문자열" 텍스트를 노래 가사들의 데이터베이스 내의 트랜스스크립들에 비교하여 노래의 식별을 찾는다. 노래의 식별이 결정된 후에는, 가수의 이름 및 다른 정보가 데이터베이스로부터 쉽게 액세스될 수 있다. 뮤직 비디오 요약 제어기(270)가 "검색 문자열" 텍스트와 노래 가사들의 데이터베이스를 비교함으로써 뮤직 비디오 정보를 검색하고 위치시키는 방법은 도 7을 참조하여 완벽히 후술될 것이다.

상기된 바와 같이, 뮤직 비디오 요약 제어기(270)는 뮤직 비디오 정보를 획득하고 뮤직 비디오 정보를 뮤직 비디오 요약 블록들(350)에 저장한다. 각각의 뮤직 비디오 요약 블록에 대하여(예를 들어, 뮤직 비디오 요약 블록(410)), 뮤직 비디오 요약 제어기(270)는 노래 가사들에 액세스하고 노래 가사들로부터 노래의 "코러스(chorus)"를 식별한다. 노래의 코러스는 일반적으로 노래 가사들의 데이터베이스 내에서 코러스로서 식별된다. 대안적으로, 여러번 반복되는 노래 가사들의 부분은 또한 노래의 코러스로서 사용되도록 선택될 수 있다. 이것은 폐쇄형 캡션 디코더(275)를 사용하거나 오디오 트랙의 부분들을 비교함으로써 유사한 오디오 패턴들을 찾다 달성될 수 있다. 본 발명의 다른 측면에 따라, 뮤직 비디오의 코러스 부분들은 종종 코러스를 나타내는 반복된 어구들에 관련된 트랜스크립트를 분석함으로써 독립된 데이터베이스에의 액세스를 요구하지 않으면서 식별된다. 트랜스크립트는 예를 들어 폐쇄형 캡션 정보로부터 획득될 수 있다.

노래의 "코러스"는 대부분의 청취자들에게 노래의 처음 몇 라인들보다 노래의 성질을 더욱 식별한다. 뮤직 비디오 요약 제어기(270)는 코러스에 대응하는 멀티미디어 파일의 오디오 및 비디오 부분들과 노래 가사들의 트랜스크립트의 코러스를 매칭시킬 수 있다. 그 후 뮤직 비디오 요약 제어기(270)는 코러스에 대응하는 멀티미디어 파일의 오디오 및 비디오 부분들의 사본을 뮤직 비디오 요약 파일(360)에 위치시킨다.

뮤직 비디오 요약 제어기(270)는 각각의 뮤직 비디오에 대한 각각의 뮤직 비디오 요약 파일(360)을 메모리(280)에 저장한다. 사용자 요구의 수신에 응답하여, 뮤직 비디오 요약 제어기(270)는 특정 뮤직 비디오 요약 파일(360)에 액세스하고 텔레비전(105)을 통해 뮤직 비디오 요약 파일(360)(오디오 및 비디오 부분들 포함)을 재생할 수 있다. 대안적으로, 뮤직 비디오 요약 제어기(270)는 저장된 뮤직 비디오 요약 파일들(360) 모두의 리스트(190)에 액세스하여 텔레비전(105)의 스크린(110) 상에 상기 리스트(190)를 디스플레이할 수 있다. 즉, 리스트(190)는 (1) 멀티미디어 데이터 스트림에서 검출된 모든 뮤직 비디오들의 뮤직 비디오 요약 파일들; 및 (2) 각각의 뮤직 비디오를 레코드한 가수 또는 그룹의 식별을 디스플레이한다. 리스트(190)는 사용자 선호들에 따라 선택적으로 프리젠테이션하여 리스트에 프리젠테이션된 정보의 콘텐트를 개인화(personalize)한다. 원격 제어 장치(125) 및 IR 센서(160)를 사용하여, 사용자는 뮤직 비디오 요약 제어기(270)에 "뮤직 비디오 요약 재생" 제어 신호를 송신하여 다음에 재생할 리스트(190)의 뮤직 비디오 요약 파일을 선택한다. 이 방식으로 사용자는 뮤직 비디오 요약 파일들이 재생되는 순서를 선택한다.

도 5는 뮤직 비디오들을 색인하고 요약하기 위하여 본 발명에 사용된 기술들의 개략을 제공하는 흐름도(500)이다. 도 5에 도시된 바와 같이, 단계(510) 동안 뮤직 비디오 요약 제어기(270)는 처음에 뮤직 비디오들(507)을 포함하는 수신된 멀티미디어 스트림(505)을 오디오, 비디오 및 트랜스크립트 구성요소들로 분리한다. 단계(520) 동안 뮤직 비디오 요약 제어기(270)는 오디오, 비디오 및 트랜스크립트 구성요소들로부터 다수의 특징들(추가로 아래에 논의됨)을 추출한다. 트랜스크립트는 예를 들어 소프트웨어에 의해 텍스트의 각각의 라인에 타임 스탬프들이 삽입된 폐쇄형 캡션 정보로부터 획득될 수 있다. 이때, 모든 특징들은 노래 경계들의 임의의 표시 없이 데이터의 타임 스탬핑된 스트림을 포함한다.

초기 노래 경계는 도 10 및 11과 관련하여 추가로 후술되는 방식으로 시각적, 오디오 및 텍스트적 특징들을 사용하여 단계(530) 동안 결정된다. 그 후, 초기 경계들 및 트랜스크립트 정보를 사용하여, 코러스 위치 및 코러스 핵심 어구들이 도 13과 관련하여 추가로 후술된 바와 같이, 단계(540) 동안 결정된다. 코러스 정보에 기초하여, 단계들(545 및 550) 동안 웹 사이트로부터의 정보가, 예를 들어, 노래의 제목, 가수 이름, 장르 및 가사들을 결정하기 위하여 사용된다.

단계(560) 동안 노래 경계는, 예를 들어, 획득한 노래 가사들, 오디오 분류, 시각적 장면 경계들(컬러 정보에 기초함) 및 겹쳐진 텍스트 중 하나 이상을 사용하여 확실해진다. 본 발명은 웹 사이트 상의 가사들과 트랜스크립트 내의 가사들이 항상 완벽히 매칭하지는 않는다는 것을 고려한다. 가사들에 기초하여, 노래의 경계들이 초기 경계 정보 및 가사들을 사용하여 정렬된다. 대안적으로, 만약 트랜스크립트 정보가 이용불가능하면, 제목 페이지가 추출된 비디오텍스트 상에서 광학 문자 인식(OCR) 기술들을 사용하여 분석되어, 가수 이름, 노래 제목, 년도 및 레코드 라벨 정보 같은 비디오 정보가 찾아지고, 웹 정보가 OCR 단계로부터의 출력을 검증하기 위하여 사용될 수 있다. 이 정보로, 노래의 가사들이 웹 사이트로부터 획득되고 코러스 검출 방법이 텍스트 정보를 사용하여 수행될 수 있다. (이들 다운로드된 가사들은 타임 스탬핑되어 있지 않고 정렬의 문제가 있다는 것이 여기서 고려해야 할 점이다). 바람직하게, 트랜스크립트는 음성 대 텍스트 오디오 분석을 사용하여 획득된다. 하나의 버전에서, 다운로드된 트랜스크립트 및 음성 대 텍스트 생성기에 의해 생성된 트랜스크립트는 보다 정확한 트랜스크립트를 획득하기 위하여 통합될 수 있다.

각각의 노래 및 시청각적 특징들에 대한 경계를 가지면, 도 14와 관련하여 후술된 바와 같이, 가장 대표적인 프레임들 및 노래 요약에 가장 우수한 비디오 클립을 결정함으로써 노래는 각각의 단계들(565 및 570) 동안 요약된다. 가장 대표적인 프레임들은 가수로부터의 클로우즈 업(close-ups), 노래 정보를 포함한 제목 이미지, 가수, 라벨, 앨범 및 년도를 포함한다. 노래 요약들은 노래 요약 라이브러리에 단계(575) 동안 저장된다. 사용자들은 예를 들어 웹 기반 뮤직 비디오 탐색 애플리케이션을 사용하여 단계(580) 동안 프로그램 요약들에 액세스할 수 있다.

본 발명에 따른 뮤직 비디오 요약은 개별적인 노래들의 식별 및 요약에 기초한다. 프로그램 레벨에서, 요약은 노래들의 리스트로 구성된다. 다음 레벨에서, 각각의 노래는 노래를 나타내는 제목, 가수 및 선택된 멀티미디어 요소들로 구성된다.

경계 검출

뮤직 비디오 요약은 두가지 타입의 경계 검출을 포함한다. 첫째, 노래 경계들은 자동으로 검출되어야 한다. 그 후, 코러스의 경계가 검출되어야 한다. 도 5와 관련하여 전술된 바와 같이, 본 발명은 시각적, 오디오 및 트랜스크립트 특징들을 사용하여 경계 검출을 수행한다. 시각적 특징들은 비디오텍스트의 존재, 페이스 검출(및/또는 식별), 갑작스러운 커트들(cuts) 및 컬러 히스토그램들을 포함한다.

비디오텍스트의 존재를 사용하는 경계 검출

비디오텍스트의 존재를 사용하는 경계 검출에 적절한 기술들의 상세한 설명을 위하여, 예를 들어, 엔. 디미트로바(N. Dimitrova) 등에 의한 "포개진 텍스트를 위한 MPEG-7 비디오텍스트 기술 기법(MPEG-7 VideoText Description Scheme for Superimposed Text)", 국제 신호 처리 및 이미지 통신 저널(Int'l Signal Processing and Image Communications Journal) (2000년 9월), 또는 발명의 명칭이 "뮤직 비디오를 색인 및 요약하는 시스템 및 방법(System and Method for Indexing and Summarizing Music Videos)",(대리인 참조번호 US020206)이고 2002년 6월 20일 출원된 미국특허출원 제10/176,239호를 참조하고, 각각은 여기에 참조로써 통합된다.

가수 및 제목 같은 비디오텍스트 정보는 뮤직 비디오를 판독 및 인식하기 쉽게 각각의 뮤직 비디오의 시작 및 끝에 존재하기 때문에, 비디오텍스트의 검출은 경계들을 검출하는 신뢰적인 방법을 제공한다. 따라서, 노래의 시작에의 비디오텍스트의 존재는 노래들 사이의 경계들을 나타내는 것을 돕는다. 비디오텍스트 검출 성능은 예를 들어 텍스트 박스가 노래의 노래 제목 정보를 포함하거나, 텍스트 박스가 스크린의 좌측 하단 부분과 같은 주어진 위치에서 찾아지는 것을 보장함으로써 개선될 수 있다. 노래의 제목 페이지는 노래의 시작을 결정하기 위한, 노래가 이미 시작됐다는 하나의 표시자로서 사용될 수 있다.

페이스 검출(또는 식별)을 사용하는 경계 검출

본 발명의 일 측면에 따라, 노래들의 잠재적인 경계들은 이미지 프레임들 내의 페이스들의 검출에 기초하여 식별될 수 있다. 도 6은 본 발명의 특징들을 통합한 예시적인 페이스 특징 분석 처리(600)의 흐름도이다. 도 6에 도시된 바와 같이, 단계(610) 동안 페이스 특징 분석 처리(600)는 처음에 몇몇 가능한 페이스 타입 라벨들 중 하나를 각각의 이미지 프레임에 할당한다. 예를 들어, 페이스 특징 분석 처리(600)는 프레임이 주로 흉부 샷(S), 전신 샷(F), 얼굴 클로우즈 업(C) 또는 다수의 사람(M)으로 구성되는지에 기초하여 각각의 프레임에 한 라벨을 할당할 수 있다. 할당된 페이스 타입 라벨들의 예시적인 시간 라인 이미지가 후술된 도 12에 포함된다. 단계(620) 동안 이미지 프레임들은 할당된 페이스 타입 라벨들에 기초하여 클러스터링된다. 마지막으로, 패턴들이 단계(630) 동안 페이스 타입 라벨들의 클러스터들에서 분석되어 비디오 경계들이 검출된다. 그 후 프로그램 제어가 종료된다. 단계(630) 동안 수행된 패턴 분석은 도 10 및 도 11과 관련하여 추가로 후술된다.

이 방식에서, 시간이 지남에 따라, 페이스 특징 분석 처리(600)는 동종의 이미지 시퀀스 패턴들(프레임들이 동일한 비디오의 부분임을 나타냄)을 찾을 것이다. 상기 패턴으로부터의 편차는 새로운 비디오 또는 비디오가 아닌 자료가 시작됐음을 나타낼 것이다. 페이스 검출 및 라벨링을 수행하는 적절한 기술들의 상세한 설명을 위하여, 예를 들어, 여기에 참조로써 통합된 엔. 디미트로바 등에 의한, "객체 추적을 사용하는 비디오 분류, 이미지와 그래픽의 국제 저널(Video Classification Using Object Tracking, International Journal of Image and Graphics)", 이미지 및 비디오 데이터베이스들에 대한 특별판, Vol 1, No.3(2001년 8월)를 참조한다.

비록 페이스들이 주요 활동 가수를 찾는데 매우 중요하지만, 뮤직 비디오들이 비디오 페이스 검출을 수행하기 위한 도전 장르인 것이 주의되어야 한다. 페이스 존재는, 예를 들어, 특수 효과들 및 다양한 컬러들을 사용한 강조로 인해 비디오들에서 올바르게 검출되지 못할 수 있다. 게다가, 페이스들은 종종 대각선 또는 수평 포지션(예를 들어, 활동자가 춤추거나 잠잘 때)에 있다.

다른 변형에서, 페이스 식별은 각각의 프레임에서 식별된 가수에 기초하여 잘 알려진 방식으로 식별 라벨을 할당하기 위하여 선택적으로 수행될 수 있다. 이미지 시퀀스에서 새로운 가수의 출현은 새로운 비디오의 시작을 나타낸다. 페이스 식별의 수행은 대중적이거나 예상된 가수들의 페이스 이미지들을 포함하는 데이터베이스를 사용하여 선택적으로 개선될 수 있다.

갑작스러운 커트들(카메라 변화들)을 사용하는 경계 검출

본 발명의 일 측면에 따라, 노래들의 잠재적 경계들은 이미지 시퀀스들에서 카메라 변화 패턴들의 검출에 기초하여 식별될 수 있다. 도 7은 본 발명의 특징들을 통합한 예시적인 카메라 변화 분석 처리(700)의 흐름도이다. 도 7에 도시된 바와 같이, 단계(710) 동안 카메라 변화 분석 처리(700)는 처음에 비디오 시퀀스 내의 카메라 커트들의 빈도를 결정한다. 카메라 커트들의 빈도를 결정하기에 적절한 기술들의 상세한 설명을 위하여, 여기에 참조로써 통합된, 발명의 명칭이 "시각적 색인 시스템을 위한 중요 장면 검출 및 프레임 필터링(Significant Scene Detection and Frame Filtering for a Visual Indexing System)"인 미국특허 제 6137544호를 참조한다.

그후, 카메라 변화 분석 처리(700)는 단계(730) 동안 카메라 커트 빈도 데이터에서 패턴들을 분석하여 비디오 경계들을 검출한다. 단계(730) 동안 수행된 패턴 분석은 도 10 및 11과 관련하여 추가로 후술된다. 커트 변화들은 뮤직 비디오들에서 매우 빈번하다는 것이 주의 된다. 실제로, 이 데이터는 평균 커트 간격이 노래들 동안 보다 광고 방송 동안 높다는 것을 보여준다. 대부분의 다른 장르들에 대하여, 광고 방송들이 프로그램보다 낮은 커트 간격을 나타내기 때문에 이것은 매우 일반적인 것이 아니다. 다른 변형에서, 부가적인 카메라 변화 라벨들이 팬(pan), 기울기 및 줌 같은 카메라 모션들의 타입을 특징화 하기 위하여 제공될 수 있다.

컬러 히스토그램들을 사용하는 경계 검출

본 발명의 다른 측면에 따라, 노래들의 잠재적인 경계들은 컬러 변화 특징들에 기초하여 식별될 수 있다. 슈퍼히스토그램 방법이 유사한 컬러들을 나타내는 프레임들의 패밀리들을 나타내기 위하여 예시적인 실시예에 사용된다. 도 8은 본 발명의 특징들을 통합한 예시적인 컬러 히스토그램 분석 처리(800)의 흐름도이다. 도 8에 나타낸 바와 같이, 단계(810) 동안 컬러 히스토그램 분석 처리(800)는 처음에 각각의 이미지 프레임에 대한 컬러 히스토그램을 획득한다. 일반적으로, 컬러 히스토그램은 대응하는 프레임의 컬러 구성요소들을 특징화 하는 시그니처(signature)로 고려될 수 있다. 그 후 이미지 프레임들은 히스토그램들(도 12에 도시됨)에 기초하여 단계(820) 동안 클러스터링된다. 마지막으로, 단계(830) 동안 패턴들이 히스토그램들의 클러스터들에서 분석되어 비디오 경계들이 검출된다. 그 후 프로그램 제어는 종료된다. 단계(830) 동안 수행된 패턴 분석들은 도 10 및 11과 관련하여 추가로 후술된다. 클러스터링 단계 동안 고려되는 이미지 프레임들의 히스토리는 유사한 컬러들을 가진 임의의 이전 프레임들이 관련되지 않을 수 있기 때문에 예를 들어 1분으로 한정될 수 있다.

이 방식에서, 시간이 지남에 따라, 컬러 히스토그램 분석 처리(800)는 동종의 이미지 시퀀스 패턴들(프레임이 동일한 비디오의 부분인 것을 나타냄)을 찾을 것이다. 상기 패턴들로부터의 편차들은 새로운 비디오 또는 비디오가 아닌 자료가 시작됨을 나타낼 것이다. 예를 들어, 주어진 노래는 촬영 스타일로 인해 비디오 전체에 걸쳐 우세한 컬러를 가질 수 있다. 게다가, 각 노래 사이의 광고 방송들은 통상적으로 다른 우세한 컬러를 나타낼 것이다. 컬러 히스토그램들은 유사한 컬러들을 나타내는 프레임들의 패밀리들이 식별되게 한다. 일반적으로, 새로운 노래들이 나타날 때, 컬러 팔레트는 변화하고 새로운 노래들의 프레임들은 새로운 패밀리들로 클러스터링된다. 따라서, 컬러 히스토그램 방법은 뮤직 비디오의 잠재적인 시작 및 끝을 검출하는데 도움을 준다.

컬러 히스토그램들의 보다 상세한 설명을 위하여, 예를 들어, 엘. 아그니호트리 및 엔. 디미트로바(N. Dimitrova)에 의한, "큰 비디오 아카이브들에서 수퍼히스토그램을 사용한 비디오 클러스터링(Video Clustering Using Superhistograms in Large Video Archives)", 비쥬얼 2000, 프랑스, 리옹 (2000년 11월) 또는 엔. 디미트로바 등에 의한, "비디오 표현을 위한 수퍼히스토그램들(Superhistograms for Video Representation)" IEEE ICIP, 1999, 일본, 고베(1999)를 참조하고, 각각은 여기에 참조로써 통합된다.

오디오 특징들을 사용하는 경계 검출

본 발명의 다른 측면에 따라, 노래들의 잠재적인 경계들은 오디오 특징들에 기초하여 식별될 수 있다. 도 9는 본 발명의 특징들을 통합하는 예시적인 오디오 특징 분석 처리(900)의 흐름도이다. 도 9에 도시된 바와 같이, 오디오 특징 분석 처리(900)는 처음에 단계(910) 동안 몇가지 가능한 오디오 타입 라벨들 중 하나를 각각의 오디오 프레임에 할당한다. 오디오 프레임의 지속시간은 이미지 프레임 지속시간과 다를 수 있다는 것이 주의된다. 예를 들어, 오디오 특징 분석 처리(900)는 오디오 프레임이 주로 1) 음악, 2) 음성, 3) 배경 음악을 가진 음성, 4) 다수 사람 대화, 5) 잡음, 6) 잡음을 가진 음성, 7) 침묵, 8) 볼륨 증가 또는 9) 볼륨 감소를 포함하는지에 기초하여 한 라벨을 각각의 오디오 프레임에 할당할 수 있다. 오디오 프레임들은 그 후 할당된 오디오 타입 라벨들에 기초하여 단계(920) 동안 클러스터링된다. 마지막으로, 패턴들은 단계(930) 동안 오디오 타입 라벨들의 클러스터들에서 분석되어 비디오 경계들이 검출된다. 그 후 프로그램 제어는 종료된다. 단계(930) 동안 수행된 패턴 분석은 도 10 및 11과 관련하여 더욱 후술된다. 예를 들어, 패턴 분석은 노래의 시작 및 끝에서의 침묵 또는 노래의 시작을 나타내기 위한 볼륨 증가, 또는 노래의 끝을 나타내기 위한 볼륨 감소를 찾아낼 수 있다.

이 방식에서, 시간이 지남에 따라, 오디오 특징 분석 처리(900)는 동종의 오디오 시퀀스 패턴들(오디오 프레임들이 동일한 비디오의 일부임을 나타냄)을 찾을 것이다. 상기 패턴들로부터의 편차들은 새로운 비디오 또는 비디오가 아닌 자료가 시작됨을 나타낼 것이다. 오디오 분할 및 분류를 수행하기에 적절한 기술들의 상세한 설명을 위하여, 디. 리(D. Li) 등에 의한, "콘텐트 기반 검색을 위한 일반 오디오 데이터의 분류(Classification of General Audio Data for Content-Based Retrieval)" 패턴 인식 레터스(Pattern Recognition Letters) 2000(2000)을 참조하고, 이것은 여기에 참조로써 통합된다.

트랜스크립트 특징들을 사용하는 경계 검출

본 발명의 다른 측면에 따라, 노래들의 잠재적인 경계들은 예를 들어 폐쇄된 캡셔닝 정보로부터 획득될 수 있는 오디오 트랜스크립트에 기초하여 식별될 수 있다. 일반적으로, 절들이 키워드 분석(또는 자동 상관 분석)을 사용하여 텍스트 트랜스크립트에서 식별된다. 특히, 단어들의 히스토그램이 새로운 노래들을 검출하기 위하여 획득되고 분석된다. 키워드들의 새로운 세트의 식별은 새로운 비디오 또는 비디오가 아닌 자료가 시작됨을 나타낼 것이다. 트랜스크립트를 "절로 나누기(paragraphing)"를 수행하기에 적절한 기술들의 상세한 설명을 위하여, 예를 들어, 엔. 스트로크스(N. Stokes) 등에 의한, 여기에 참조로써 통합된, "어휘 사슬들을 사용하는 방송 뉴스 스트림들의 분할(Segmenting Broadcast News Streams Using Lexical Chains)" 시작하는 인공 지능 연구원들 심포지움 회보(Proc. of Starting Artificaial Intelligence Researchers Symposium)(STAIRS)(2002)를 참조하자.

저레벨 특징들을 사용한 경계 검출

상기된 특징들 외에, 본 발명은 또한 각각의 이미지 프레임 내의 에지들(edges) 또는 모양들의 수 또는 로컬 및 글로벌 모션 같은 콘텐트로부터 직접적으로 유도되는 다수의 저레벨 특징들을 직접 사용하고, 이들 저레벨 특징들 내의 상기 패턴들로부터 임의의 패턴들 및 편차들을 모니터링할 수 있다. 게다가, 멜 프리퀀시 켑스트럼 계수들(MFCC: mel frequency cepstral coefficients), 선형 예측 계수(LPC: linear predictive coefficient), 피치 변수들, 대역폭, 볼륨 및 톤과 같은 저레벨 오디오 특징도 분석될 수 있다.

시각적, 오디오 및 트랜스크립트 특징들의 분석

상기된 바와 같이, 본 발명은 도 5 내지 9와 관련하여 전술된 바와 같은, 시각적, 오디오 및 트랜스크립트 특징들을 사용하여 경계 검출을 수행한다. 도 10에 도시된 일 예시적인 실시예에서, 시각적, 오디오 및 트랜스크립트 특징들은 베이시안 빌리프 네트워크(BBN)(1000) 같은 패턴 인식 엔진을 사용하여 모니터링되어, 비디오 스트림을 개별적인 비디오들로 분할한다. 도 11에 도시된 다른 실시예에서, 시각적, 오디오 및 트랜스크립트 특징들은 규칙 기반 발견적 처리(rule-based heuristics process; 1100)를 사용해 처리되어, 비디오 스트림이 개별적인 비디오들로 분할된다. 일반적으로, 양쪽 예시적인 실시예들은 전술된 모든 다른 특징들로부터의 적절한 경계들을 사용하여 비디오들을 분할한다.

도 10은 본 발명의 특징들을 통합한 예시적인 베이시안 빌리프 네트워크(1000)를 도시한다. 베이시안 빌리프 네트워크(1000)는 시각적, 오디오 및 트랜스크립트 특징들을 모니터링하여 비디오 스트림을 개별적인 비디오들로 분할한다. 일반적으로, 베이시안 빌리프 네트워크들은 복잡한 패턴들을 인식하고 미리 정의된 활동들을 학습 및 인식하기 위하여 사용되었다. 베이시안 빌리프 네트워크(1000)는 알려진 방식으로 이미 분할 정보로 라벨링된 비디오 시퀀스들을 사용하여 훈련된다.

도 10에 도시된 바와 같이, 베이시안 빌리프 네트워크(1000)는 다수의 상태들(1010-1 내지 1010-N)을 가진 제 1 층(1010)을 포함하고, 상태들 각각은 본 발명에 의해 모니터링되는 상이한 특징과 연관된다. 각각의 상태에 대한 입력은 주어진 윈도우에 걸친 평균 특징값이다. 예를 들어, 페이스 존재 특징에 대하여, 입력은 예를 들어 이전 20초 윈도우와 비교하여 현재 20초 윈도우에 걸쳐 각각의 이미지에서 페이스들 수 변화가 있는지의 여부일 수 있다. 유사하게, 컬러 히스토그램 특징에 대하여, 입력은 예를 들어 새로운 클러스터가 현재 윈도우에서 검출되었는지의 여부일 수 있다.

베이시안 빌리프 네트워크(1000)는, 각각의 대응하는 상태에 대하여, 현재 시간 윈도우가 상태와 연관된 단일 특징에 기초하여 비디오의 시작 또는 끝과 연관된 전이(P_trans)에 대응할 가능성을 결정하는 제 2 층(1020)을 포함한다. 예를 들어, 가능성(P_facechng)은 페이스 변화 특징 데이터에 의해 나타나는 페이스 변화의 가능성을 나타낸다. 최종 레벨(1030)에서, 베이시안 빌리프 네트워크(1000)는 각각의 모니터링된 특징들에 걸친 가능성들에 기초하여 노래 끝김(song break)이 있는지 여부를 결정하기 위하여 베이시안 추론을 사용한다. 다른 변형들에서, 뉴럴 네트워크들(neural networks) 또는 자동 회귀 이동 평균(ARMA) 기술들이 노래 경계들을 예측하기 위하여 사용될 수 있다.

현재 시간 윈도우가 상태(1030)에서 어떤 한 세그먼트에 대응하는지를 결정하기 위한 조건적 가능성은 다음과 같이 계산될 수 있다.

상기 방정식은 조건적 가능성을 계산하기 위한 일반적인 경우를 제공한다. 도 10에 주어진 모델에 대하여, 가능성은 다음과 같이 계산될 수 있다:

여기서 v는 비디오텍스트이고, f는 페이스들이고, a는 갑작스러운 커트들이고, c는 컬러이고, t는 트랜스크립트이고 a는 오디오 관련 분석이다.

도 11은 비디오 분할 처리(1100)의 예시적인 구현을 설명하는 흐름도이다. 전술된 바와 같이, 비디오 분할 처리(1100)는 규칙 기반 발견적 기술을 사용하여 시각적, 오디오 및 트랜스크립트 특징들을 처리하여, 비디오 스트림을 개별적인 비디오들로 분할한다. 도 11에 도시된 바와 같이, 단계(1110) 동안 비디오 분할 처리(1100)는 처음에 모니터링된 비디오, 오디오 및 트랜스크립트 특징값들을 평가한다. 그 후, 단계(1120) 동안 비디오 분할 처리(1100)는 하나 이상의 미리 정의된 비디오 분할 규칙들(1115)을 특징값들에 적용한다. 예를 들어, 주어진 응용은 컬러 히스토그램 특징 및 비디오텍스트 존재에 대한 가능성 값들 모두가 미리 정의된 임계치를 초과하면, 비디오 세그먼트가 식별되어야 한다고 명기하는 비디오 분할 규칙을 정의할 수 있다. 다른 실시예에서, 비디오 분할 규칙은 비디오텍스트 존재에 대한 가능성 값들 및 적어도 N개의 다른 모니터링된 특징들이 미리 정의된 임계치들을 초과하면 비디오 세그먼트가 식별되어야 한다고 명기할 수 있다.

새로운 비디오가 검출되는지 여부를 결정하기 위하여 단계(1130) 동안 검사가 수행된다. 단계(1130) 동안 새로운 비디오가 검출되지 않았다고 결정되면, 프로그램 제어는 단계(1110)로 리턴하여 전술된 방식으로 이미지 스트림을 계속 모니터링한다. 그러나, 만약 단계(1130) 동안 새로운 비디오가 검출되었다고 결정되면, 단계(1140) 동안 새로운 비디오 세그먼트가 식별된다. 그 후 프로그램 제어는 종료되거나 적당할 때 단계(1110)로 리턴하여, 전술된 방식으로 이미지 스트림을 계속 모니터링할 수 있다.

베이시안 빌리프 네트워크(1000) 또는 비디오 분할 처리(1100)에 의한 모니터링된 특징들의 처리는 트랜스크립트가 시각적 및 오디오 스트림들보다 나중에 시작한다는 사실을 고려할 수 있다. 시각적 시청 포인트로부터, 일반적으로 노래 시작 후 몇 초 나타나는 비디오텍스트 제목 페이지가 또한 획득된다. 시작 경계는 노래에 대한 시각적 컬러 경계들 및 오디오 차원에서의 음악 분류의 시작으로 정렬된다.

도 12는 할당된 페이스 타입 라벨들(1210), 컬러 히스토그램 클러스터들(1220) 및 비디오텍스트 존재(1230)의 예시적인 시간 라인 이미지들을 제공한다. 도 12에 도시된 바와 같이, 모니터링된 특징들 각각에 대한 특징 데이터는 비디오 세그먼트들을 검출하기 위하여 정렬된다. 본 발명은 각각의 개별적인 특징에 의해 제시되는 전이 기간들에 기초하여 두 개의 비디오들 사이 또는 비디오와 비디오가 아닌 자료 사이의 전이(1240)를 식별하기 위하여 베이시안 빌리프 네트워크(1000) 또는 비디오 분할 처리(1100)를 사용한다.

코러스 검출

노래의 코러스를 결정하기 위하여, 이전 연구는 뮤직 오디오 특징들에 집중하였다. 노래들에서 반복된 세그먼트들을 찾아내기 위한 통상의 방법은 자동 상관 분석을 수행하는 것이다. 코러스는 대중 가요들에서 적어도 두번 반복된다. 일반적으로 대부분의 노래들에서 세 번 또는 그 이상 반복된다.

본 발명의 다른 특징에 따라, 노래의 코러스는 트랜스크립트를 사용하여 검출된다(폐쇄된 캡션 정보). 일반적으로, 코러스는 반복되는 단어들을 포함하는 노래 섹션들을 검출함으로써 식별된다. 폐쇄된 캡션들이 완벽하지 않고, 예를 들어 인쇄상 에러들 또는 누락들을 포함할 수 있다는 것을 명심하자. 도 13은 코러스 검출 처리(1300)의 예시적인 구현의 흐름도이다. 도 13 및 후술된 바와 같이, 코러스 검출 처리(1300)는 단계(1310) 동안의 폐쇄된 캡션들 상의 핵심 어구 검출, 단계(1320) 동안의 잠재적인 코러스 검출, 단계(1330) 동안의 코러스 후보 확인 및 단계(1340) 동안의 불규칙적인 코러스 검출 및 사후 분석을 수행함으로써 코러스 세그먼트들을 인식한다. 마지막으로, 자동 상관 분석이 임의의 코러스(들)를 식별하기 위하여 단계(1350) 동안 수행된다.

핵심 어구 식별(단계(1310))

코러스는 가장 자주 반복되는 노래의 가사들을 포함한다. 그 어구를 검출하고 클러스터링함으로써, 코러스 세그먼트들의 임시 위치가 식별될 수 있다. 코러스를 포함하는 잠재적인 섹션들을 선택하기 위하여, 노래에 존재하는 어구들의 계수 표시(카운트)가 수집된다. 이들 어구들은 트랜스크립트로부터 획득되고 텔레비전 스크린 상의 텍스트의 전체 라인 또는 콤마 또는 마침표 같은 구분 문자들에 의해 분리되는 라인의 부분들을 나타낸다. 각각의 새로운 어구에 대하여, 어구가 계수 표시에서 존재하는지를 결정하고 그 어구에 대한 카운터를 증가시킨다. 만약 그렇지 않다면, 새로운 저장소(bin)가 새로운 어구에 대하여 생성되고 카운터가 그 저장소에 대하여 1로 초기화된다. 이 처리는 각각의 노래들에 대한 모든 텍스트에 대하여 반복된다. 노래의 끝에서, 반복하는 어구들은 핵심 어구들로서 지정된다.

후보 코러스 검출(단계(1320))

코러스 세그먼트에 대한 잠재적인 후보들은 핵심 어구들의 두 번 이상의 발생을 포함하는 것들이다. 이들 세그먼트들을 찾아내기 위하여, 각각의 핵심 어구들이 발생한 타임스탬프들이 식별된다. 핵심 어구의 각각의 타임스탬프에 대하여, 잠재적인 코러스가 지정된다. 만약 이 잠재적인 코러스가 다른 코러스의 n초 내에 있으면, 그들이 병합된다. 다수의 노래들의 검사에 기초하여, 코러스들이 30초 이내(n=30)인 것이 가정된다.

코러스 후보 확인(단계(1330))

두 개 이상의 핵심 어구들을 포함하는 후보자들만이 코러스로서 선택된다. 만약 세 개 이상의 코러스가 선택되면, 다음과 같이 정의되는 가장 높은 비중의 핵심 어구들을 가진 세 개의 코러스가 결정된다:

불규칙한 코러스 검출 및 사후 분석(단계(1340))

요약을 위하여, 단지 하나의 코러스만이 올바르게 결정될 필요가 있다. 사용자들에게 프리젠테이션될 "핵심-코러스"가 식별된다. 상이한 코러스들의 지속시간과 관련하여 노래에는 큰 변수가 있다(15 내지 30초가 일반적임). 이 변수는 코러스들의 위치 및 길이를 예측하는 것을 어렵게 한다. 세 개의 코러스들 중 중간 길이인 코러스가 선택된다. 첫번째 코러스가 또한 첫번째 코러스를 갖는 노래에서 "리드(lead)"를 획득하도록 나머지 코러스들보다 선호될 수 있다. 또한, 노래 내에서의 코러스의 배치는 가변적이다. 최종 코러스 분석은 다른 코러스들로부터 적당한 간격을 가진 코러스를 선택하기 위하여 사용된다.

자동 상관 분석(단계(1350))

오디오 콘텐트 분석 시, 연구원들은 코러스를 찾아내기 위해 자동 상관을 사용했다. 예를 들어, 제이. 푸티(J. Foote)에 의한, 참조에 의해 여기에 통합된, "자체 유사성을 사용하는 뮤직 및 오디오 시각화(Visualizing Music and Audio Using Self Similarity)", AMC 멀티미디어 회보 '99, 77-80, 플로리다, 올랜도(1999년 11월)를 참조한다. 자동 상관 분석은 노래의 구조를 시각화하기 위하여 본 발명에 의해 트랜스크립트 상에서 사용된다. 자동 상관 함수를 찾아내기 위하여, 트랜스크립트의 모든 단어들은 이차원으로 놓이고 양쪽 차원들 상의 단어들이 동일한지에 따라 1 및 0으로 매트릭스를 채운다. 그 후 이 매트릭스가 대각선으로 투영되어 코러스들이 노래의 어디에서 발생하는지에 대한 표시를 제공하는, 이 뷰(view) 내의 피크(peak)들이 결정된다.

뮤직 비디오 요약

뮤직 비디오 요약은 상이한 매체(오디오, 비디오 및 트랜스크립트) 내의 비디오로부터 유도된 콘텐트 요소들로 구성된다. 예시적인 실시예에서, 베이시안 빌리프 네트워크들은 뮤직 비디오의 일반적인 콘텐트 요소들뿐만 아니라 음악 이벤트들의 전이들을 캡쳐링하고 구성의 구조를 캡쳐링하도록 사용된다. 예를 들어, BBN들은 노래들을, 예를 들어, 음악적 플러스 절(instrumental plus verse)(V) 및 코러스(C) 이벤트들을 갖는 것으로 모델링하기 위하여 사용될 수 있다. 주어진 노래에서 음악 이벤트들의 순서는 예를 들어 VVC VCC일 수 있다. 그러나, 많은 노래들은 코러스와 절 사이의 연결부 같은 보다 복잡한 구조를 가질 수 있으며, 많은 노래들에는 반복되는 코러스는 없고, 전체 노래가 하나의 단일 절이다. BBN 방법으로 인해, 비록 음악 이벤트들 중 하나가 누락되더라도, 적절한 요약이 여전히 획득된다.

도 14는 요약을 구성하는 요소들을 비디오로부터 찾아내기 위하여 사용되는 함수를 모델링하기 위하여 사용될 수 있는 베이시안 빌리프 네트워크(1400)를 나타낸다. 중요한 세그먼트를 결정하기 위한 후보 가능성은 다음과 같이 계산될 수 있다.

상기 방정식은 조건적 가능성을 계산하기 위한 일반적인 경우를 제공한다. 도 14에서 주어진 모델에 대하여, 가능성은 다음과 같이 계산될 수 있다 :

여기서

= {제목, 클로우즈업, 코러스, 음악}.

예시적인 실시예에서 네 개의 미디어 요소들이 있기 때문에 m의 값은 4이다. n의 값은 가능성들이 취할 수 있는 값들의 수에 따라 각각의 미디어 요소들에 대해 가변한다. 예를 들어, P(제목)에 대한 값은 텍스트로 덮인 이미지의 퍼센테이지에 따라 0.1의 단계들을 가진 0 및 1 사이의 값일 수 있다. 따라서, n은 여기서 10이다. 생각하건대 부모 노드들에서, 모션, 오디오-텍스쳐, 및 리드 악기/가수 강조 같은 부가적인 특징들이 포함될 수 있다.

선택 기준은 각각의 미디어 요소들에 대한 요약에 프리젠테이션될 콘텐트를 결정한다. 요약은 다음과 같이 정의된 선택 함수들로부터의 출력이다.

뮤직 비디오의 요약은 모든 상기 선택 함수들의 출력으로 구성된 세트이다:

비디오로부터 유도된 이들 요소들 외에, 가수, 제목 및 앨범 같은 고레벨 정보가 부가될 수 있다. 이 고레벨 정보는 예를 들어 인터넷으로부터 추출되어 요약을 완성할 수 있다.

물론, 베이시안 빌리프 네트워크들은 요약을 위한 중요한 요소들의 선택을 모델링하기 위한 단지 한가지 방법일 뿐이다. 에이치. 순다람(H. Sundaram) 등에 의한, "시청각 스킴들의 자동 생성을 위한 유틸리티 프레임워크(A Utility Framework for the Automatic Generation of Audio-Visual Skims)", AMC 멀티미디어(ACM Multimedia) 2002, 후안 레스 핀(Juan Les Pin)(2002년 12월 1-5일)에 기술된 바와 같은 순다람의 이용 최대화 프레임워크(Sundaram's Utilization Maximization Framework), 또는 유-페이 마(Yu-Fei Ma) 등에 의한, "비디오 요약을 위한 사용자 주의 모델(A User Attention Model for Video Summarization)" AMC 멀티미디어 2002, 후안 레스 핀(2002년 12월 1-5일)에 기술된 바와 같은 요약을 위한 마(Ma)의 사용자 주의 모델을 적용하는 것을 생각할 수 있다. 이들 모델들은 요약을 위한 생성 모델이다. 알고리즘의 디자이너가 결정하는 이런 모델은 중요하다. 관리되지 않은 기계 학습 기술들이 뮤직 비디오 시각화 및 요약에 적용되어, 고유 구조 패턴들 및 강조들을 찾아낼 수 있다.

요약은 사용자 인터페이스 및 보여지는 정보 타입 모두에 대하여 개인화될 수 있다. 사용자들은 프리젠테이션되는 요약의 특정 콘텐트 및 요약을 수신하고자하는 인터페이스 타입을 선택할 수 있다. 적은 정보 또는 많은 정보, 및 정보의 배치 같은 차이는 사용자 설정에 기초하여 변경될 수 있다. 사용자들은 요약에 포함되는 것을 선택할 수 있다. 사용자들은 그들이 보기를 원하는 정보 타입을 나타내기 위하여 짧은 표본 조사표를 채울 수 있다.

본 기술 분야에 알려진 바와 같이, 여기에 논의된 방법들 및 장치들은 구현된 컴퓨터 판독가능 코드 수단을 가진 컴퓨터 판독가능 매체를 자체적으로 포함하는 제조 품목으로서 배포될 수 있다. 컴퓨터 판독가능 프로그램 코드 수단은 컴퓨터 시스템과 관련하여, 여기에 논의된 방법들을 수행하거나 장치를 생성하기 위하여 모든 또는 일부의 단계들을 수행하도록 동작할 수 있다. 컴퓨터 판독가능 매체는 레코딩가능 매체(예를 들어, 플로피 디스크들, 하드 드라이브들, 컴팩트 디스크들, 또는 메모리 카드들)일 수 있거나 전송 매체(예를 들어, 광섬유를 포함한 네트워크, 월드-와이드 웹, 케이블들, 또는 시분할 다중 액세스, 코드 분할 다중 액세스, 또는 다른 무선 주파수 채널을 사용하는 무선 채널)일 수 있다. 컴퓨터 시스템에 사용하기에 적절한 정보를 저장할 수 있는 알려지거나 개발된 임의의 매체가 사용될 수 있다. 컴퓨터 판독가능 코드 수단은 컴퓨터가 자기 매체 상의 자기 편차들 또는 컴팩트 디스크 표면 상의 높이 편차들 같은 명령들 및 데이터를 판독하게 하는 임의의 메커니즘이다.

여기에 기술된 컴퓨터 시스템들 및 서버들 각각은 여기에 개시된 방법들, 단계들, 및 함수들을 구현하도록 연관된 처리기들을 구성하는 메모리를 포함한다. 메모리들은 분산되거나 국부적이고, 처리기들은 분산되거나 단일체일 수 있다. 메모리들은 전기, 자기 또는 광학 메모리, 또는 다른 타입의 저장 장치들의 임의의 조합으로 구현될 수 있다. 게다가, 용어 "메모리"는 연관된 처리기에 의해 액세스되는 어드레싱 가능한 공간의 어드레스로부터 판독되거나 기입될 수 있는 임의의 정보를 포함하도록 충분히 포괄적으로 해석되어야 한다. 이런 정의로 인해, 네트워크 상의 정보는 연관된 처리기가 네트워크로부터 정보를 탐색할 수 있기 때문에 여전히 메모리 내에 있다.

여기에 도시된 및 기술된 실시예들 및 변형들은 단순히 본 발명의 원리들을 예시하며, 다양한 변형들이 본 발명의 범위 및 취지로부터 벗어나지 않으면서 당업자에 의해 구현될 수 있다는 것이 이해되어야 한다.

Claims

삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
적어도 하나의 뮤직 비디오(507)에서 코러스를 검출하기 위한 방법에 있어서,

상기 적어도 하나의 뮤직 비디오(507)를 포함하는 멀티미디어 스트림(505)을 수신하는 단계;

웹 사이트로부터 상기 적어도 하나의 뮤직 비디오(507)와 연관된 가사를 획득하는 단계; 및

상기 가사의 단어들의 반복에 기초하여 상기 코러스를 검출하는 단계를 포함하는, 코러스 검출 방법.
제 19 항에 있어서, 상기 적어도 하나의 뮤직 비디오(507)와 연관된 트랜스크립트는 음성 대 텍스트 오디오 분석을 사용하여 획득되고, 상기 웹 사이트로부터 획득된 가사와, 음성 대 텍스트 오디오 분석을 사용하여 획득된 상기 트랜스크립트는 통합되는, 코러스 검출 방법.
제 19 항에 있어서, 상기 코러스는 상기 적어도 하나의 뮤직 비디오(507)의 요약(410)의 자동 생성을 위해 사용되는, 코러스 검출 방법.
제 19 항에 있어서, 상기 반복되는 단어들을 검출 및 클러스터링(clustering)하는 단계를 더 포함하는, 코러스 검출 방법.
제 19 항에 있어서, 상기 검출 단계는 상기 멀티미디어 스트림에 관련된 부가적인 콘텐트 특징들에 더 기초하는, 코러스 검출 방법.
제 19 항에 있어서, 외부 소스로부터 상기 적어도 하나의 뮤직 비디오에 대한 식별 정보를 획득하는 단계를 더 포함하는, 코러스 검출 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
적어도 하나의 뮤직 비디오(507)에서 코러스를 검출하기 위한 장치에 있어서,

상기 적어도 하나의 뮤직 비디오(507)를 포함하는 멀티미디어 스트림(505)을 수신하는 수단;

웹 사이트로부터 상기 적어도 하나의 뮤직 비디오(507)와 연관된 가사를 획득하는 수단; 및

상기 가사의 단어들의 반복에 기초하여 상기 코러스를 검출하는 수단을 포함하는, 코러스 검출 장치.