KR20060008897A

KR20060008897A - 콘텐트 분석을 사용하여 뮤직 비디오를 요약하기 위한 방법및 장치

Info

Publication number: KR20060008897A
Application number: KR1020057019649A
Authority: KR
Inventors: 라리타 아그니호트리; 네벤카 디미트로바; 존 켄더
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2003-04-14
Filing date: 2004-04-02
Publication date: 2006-01-27
Also published as: CN1774717B; EP1616275A1; US20060210157A1; CN1774717A; US7599554B2; KR101109023B1; WO2004090752A1; JP2006525537A

Abstract

콘텐트 분석을 사용하여 멀티미디어 스트림(505)에서 뮤직 비디오(507)를 분할하고 요약하기 위한 방법 및 장치가 제공된다. 뮤직 비디오(507)는 멀티미디어 스트림에 관련된 복수의 콘텐트 특징들을 평가함으로써 멀티미디어 스트림(505)으로 분할된다. 복수의 콘텐트 특징들은 적어도 두개의 페이스 존재 특징; 비디오텍스트 존재 특징; 컬러 히스토그램 특징; 오디오 특징; 카메라 커트 특징; 및 적어도 하나의 뮤직 비디오의 트랜스크립트로부터 얻어진 키 워드들의 분석을 포함한다. 복수의 콘텐트 특징들은 멀티미디어 스트림(505)에서 뮤직 비디오(57)를 식별하기 위하여 베이스 정리 네트워크 같은 패턴 인식 엔진(1000), 또는 하나 이상의 비디오 뮤직 비디오(507)를 사용하여 처리된다. 코러스는 트랜스크립트의 워드들의 수신에 기초하여 뮤직 비디오(507)의 트랜스크립트(T)를 사용하여 적어도 하나의 뮤직 비디오(507)에서 검출된다. 추출된 코러스는 뮤직 비디오(507)의 요약의 자동 생성을 위하여 사용될 수 있다.

컬러 히스토그램 특징, 트랜스크립트, 뮤직 비디오, 멀티미디어 스트림

Description

콘텐트 분석을 사용하여 뮤직 비디오를 요약하기 위한 방법 및 장치{Method and apparatus for summarizing a music video using content analysis}

본 출원은 2003년 4월 14일 출원된 미국예비출원 제 60/462,777호; 및 1999년 11월 17일 출원되고 발명의 명칭이 "비디오 스트림 분류가능한 심볼 격리 방법 및 시스템(Video Stream Classifiable Symbol Isolation Method and System)"인 미국특허출원 제 09/441,943호에 관한 것이고, 각각은 여기에 참조로써 통합된다.

본 발명은 비디오 요약 기술들, 특히 뮤직 비디오들을 인덱스하고 요약하기 위한 방법들 및 장치들에 관한 것이다.

뮤직 비디오 프로그래밍은 퓨즈, VH1, MTV 및 MTV2를 포함하는 다수의 텔레비젼 채널들에서 이용할 수 있다. www.buymusic.com 같은 다수의 대중 웹 사이트들에서 사용자가 개별 노래들의 오디오 부분들을 브라우즈하고 얻을 수 있지만, 비디오 레코더들 및 다른 비디오 바탕 애플리케이션들은 사용자가 다수의 뮤직 비디오들을 가진 프로그램들을 포함하는 전체 프로그램만을 얻을 수 있게 한다. 현재 개별 뮤직 비디오들을 자동을 얻기 위한 방법은 없다. 따라서, 만약 시청자가 하나 이상의 뮤직 비디오들을 포함하는 전체 프로그램을 레코드하면, 레코딩은 광고들 및 해설들 같은 비뮤직 비디오 부분들을 포함할 것이다. 뮤직 비디오들을 시청하기 위하여, 시청자가 목표된 뮤직 비디오 부분에 도달될 때까지 비뮤직 비디오 부분들을 통과하여 레코딩을 빠르게 진행한다. 게다가, 다량의 비디오 재생 장치의 레코딩 용량은 광고들 및 다른 대화들 같은 원하지 않는 자료를 레코딩하는데 사용된다.

콘텐트 분석 방법들은 하이라이트 부분들 같은 프로그램의 특정 부분들에 하이 레벨 액세스를 제공하기 위하여 제안 또는 제시되었다. 비디오 요약 방법들은 뉴스, 스포츠 및 영화들을 포함하는 많은 종류의 프로그램을 위하여 개발되었다. "인포미디어 프로젝트(InforMedia Project)"는 예를 들어 스피치 인식, 자연어 이해, 및 캡션 텍스트에 기초하여 우선적으로 각각의 비디오의 짧은 개요를 생성하는 디지털 비디오 라이브러리 시스템이다. 하웁트만과 엠. 스미스(Hauptmann and M. Smith)에 의한, "비디오 분할을 위한 텍스트, 스피치, 및 비전: 더 인포미디어 프로젝트(Text, Speech, and Vision for Video Segmentation: The Informedia Project)", 미국 인공 지능 협회(American Association for Artificial Intelligence(AAAI)), 1995년, 가을, 언어와 비전을 통합하기 위한 계측적 모델들에 대한 심포지움(Symposium on Computational Models for Integrating Language and Vision(1995)) 참조.

그러나, 뮤직 분석 및 탐색 영역에서 조사는 오디오 측면들에 크게 집중되었다. 예를 들어, 비. 로건과 에스. 추(B.Logan and S. Chu)에 의한 "키 어구들을 사용한 뮤직 요약화(Music Summarization Using Key Phrases)" 음향, 스피치, 및 ㅅ신호 프로세싱에 관한 국제 컨퍼런스(Int'l Conf. on Acoustics, Speech and Signal Processing), 2000는 오디오 약술을 위한 대중 뮤직의 선택시 키 어구를 발견하기 위한 알고리즘들을 개시한다. 제이. 푸티(J. Foote)에 의한 "자체 유사성을 사용하여 뮤직 및 오디오 시각화(Visualizing Music and Audio Using Self Similarity)", ACM 멀티미디어 회보(Proc. ACM Multimedia) '99, 77-80, 1999년 11월은 새로운 오디오 방법의 애플리케이션으로서 오디오 "요지화(gisting)"를 도입했다. 이런 새로운 오디오 스코어는 오디오로부터 추출된 특징들에 기초하여 오디오의 프레임들과 비교하는 유사성 매트릭스에 기초한다. 따라서, 뮤직 콘텐트 분석이 조사의 액티브 영역인 동안, 뮤직 비디오들에 대한 분석 및 요약을 위한 개선된 기술들을 제공할 필요가 있다. 추가로, 멀티미디어 데이터 스트림으로 뮤직 비디오를 분할하고 관련 뮤직 비디오 정보를 포함하는 각각의 뮤직 비디오의 요약을 제공하는 방법들 및 장치들이 필요하다.

일반적으로, 콘텐트 분석을 사용하여 뮤직 비디오를 다중 스트림을 분할하고 요약하기 위한 방법 및 장치가 제공된다. 뮤직 비디오는 멀티미디어 스트림과 관련된 복수의 콘텐트 특징들을 평가함으로써 본 발명에 따른 멀티미디어 스트림으로 분할된다. 복수의 콘텐트 특징들은 페이스 존재 특징; 비디오텍스트 존재 특징; 컬러 히스토그램 특징; 오디오 특징; 카메라 커트 특징; 및 적어도 하나의 뮤직 비디오의 트랜스스크립트로부터 얻어진 키워드들의 분석중 적어도 두개를 포함한다. 복수의 콘텐트 특징들은 멀티미디어 스트림에서 뮤직 비디오를 식별하기 위하여 베이시안 빌리프 네트워크(Bayesian Belief Network) 같은 패턴 인식 엔진, 또는 하나 이상의 비디오 분할 규칙들을 사용하여 처리된다.

본 발명의 하나의 측면에 따라, 페이스 존재 특징은 멀티미디어 스트림의 페이스 프레젠테이션의 패턴들을 평가한다. 처음에, 일부 가능한 페이스 타입 라벨들중 하나는 각각의 이미지 프레임에 할당된다. 이미지 프레임들은 할당된 페이스 타입 라벨들에 기초하여 클러스터되고 패턴들은 비디오 경계들을 검출하기 위하여 페이스 타입 라벨들의 클러스터들에서 분석된다. 본 발명의 다른 측면에 따라, 컬러 히스토그램 특징은 멀티미디어 스트림의 컬러 콘텐트의 패턴들을 평가한다. 컬러 히스토그램은 각각의 이미지 프레임에 대하여 얻어지고 이미지 프레임들은 히스토그램들에 기초하여 클러스터된다. 패턴들은 비디오 경계들을 검출하기 위하여 히스토그램들의 클러스터들에서 분석된다. 카메라 커트 특징은 카메라 커트들의 패턴 및 멀티미디어 스트림의 움직임들을 평가한다. 오디오 특징은 멀티미디어 스트림의 오디오 콘텐트의 패턴들을 평가하기 위하여 개시된다. 예를 들어, 멀티미디어 스트림의 볼륨은 볼륨을 각각 증가 및 감소시킴으로서 지시된 바와같은 노래의 시작 및 마지막을 검출하기 위하여 평가될 수 있다.

본 발명의 다른 측면에 따라, 코러스는 적어도 하나의 뮤직 비디오에서 검출된다. 수신된 멀티미디어 스트림에서 뮤직 비디오와 연관된 트랜스크립트(transcript)는 액세스되고 코러스는 트랜스크립트의 반복 워드들에 기초하여 검출된다. 트랜스크립트는 예를 들어 폐쇄된 캡션 정보로부터 얻어질 수 있다. 추출된 코러스는 뮤직 비디오의 자동 생성을 위하여 사용될 수 있다. 생성된 요약은 사용자 선호도에 따라 사용자에게 표시될 수 있고, 사용자 선호들에 따라 뮤직 비디오들을 검색하기 위하여 사용될 수 있다.

본 발명의 보다 완전한 이해, 및 본 발명의 다른 특징들 및 장점들은 다음 상세한 설명 및 도면들을 참조하여 얻어질 것이다.

도 1은 본 발명이 동작할 수 있는 예시적인 종래 비디오 디스플레이 시스템을 도시한 도면.

도 2는 본 발명의 일실시예에 따라 도 1의 예시적인 비디오 디스플레이 시스템에서 뮤직 비디오들을 인덱싱 및 요약하기 위한 시스템을 도시한 도면.

도 3은 본 발명의 특징들을 통합하는 뮤직 비디오 요약 처리들을 포함하는 메모리를 도시한 도면.

도 4는 본 발명의 일실시예에 사용된 뮤직 비디오 요약 블록들을 포함하는 메모리를 도시한 도면.

도 5는 본 발명의 특징들을 통합하는 뮤직 인덱싱 및 요약 처리의 예시적인 실행을 도시하는 흐름도.

도 6은 본 발명의 특징들을 통합한 예시적인 페이스 특징 분석 처리의 흐름도를 도시한 도면.

도 7은 본 발명의 특징들을 통합하는 예시적인 카메라 변화 분석 처리의 흐름도.

도 8은 본 발명의 특징들을 통합하는 예시적인 컬러 히스토그램 분석 처리의 흐름도.

도 9는 본 발명의 특징들을 통합한 예시적인 오디오 특징 분석의 흐름도.

도 10은 본 발명의 특징들을 통합한 예시적인 베이시안 빌리프 네트워크를 도시한 도면.

도 11은 비디오 분할 처리의 예시적인 실생을 도시하는 흐름도.

도 12는 본 발명에 의해 모니터되는 다양한 특징들의 예시적인 시간 스케쥴 이미지들을 도시한 도면.

도 13은 코러스 검출 처리의 예시적인 실행의 흐름도.

도 14는 자동으로 요약을 생성하기 위하여 비디오로부터 엘리먼트들을 발견하기 위하여 사용될 수 있는 베이시안 빌리프 네트워크를 도시한 도면.

도 1은 본 발명의 일실시예에 따른 예시적인 비디오 재생 장치(150) 및 텔레비젼 세트(105)를 도시한다. 비디오 재생 장치(150)는 케이블 텔레비젼 서비스 제공자, 로컬 안테나, 인터넷 서비스 제공자(ISP), DVD 또는 VHS 테이프 플레이어 같은 외부 소스로부터 인입 텔레비젼 신호들을 수신한다. 비디오 재생 장치(150)는 시청자 선택 채널로부터 텔레비젼 세트(150)로 텔레비젼 신호들을 전송한다. 채널은 사용자에 의해 수동으로 선택되거나 사용자에 의해 이미지 프로그램된 레코딩 장치에 의해 자동으로 선택될 수 있다. 선택적으로, 채널 및 비디오 프로그램은 사용자의 개인 시청 히스토리에서 프로그램 프로파일로부터의 정보에 기초하여 레코딩 장치에 의해 자동으로 선택될 수 있다. 본 발명의 예시적인 텔레비젼 수신기의 환경에서 기술되지만, 당업자는 본 발명의 예시적인 실시예가 임의의 형태의 비디 오 디스플레이 시스템에 사용하기 위하여 쉽게 변형될 수 있다는 것을 인식할 것이다.

최근 모드에서, 비디오 재생 장치(150)는 비디오 재생 장치(150)내의 저장 매체상에 레코드되고 저장되거나 상기 비디오 재생 장치에 접속된 기저대역 비디오 신호를 생성하기 위하여 인입 라디오 주파수(RF) 텔레비젼 신호를 복조할 수 있다. 플레이 모드에서, 비디오 재생 장치(150)는 저장 매체로부터 사용자에 의해 선택된 저장된 기저대역 비디오 신호(즉, 프로그램)를 판독하고 이것을 텔레비젼 세트(105)에 전송한다. 비디오 재생 장치(150)는 디지털 신호들을 수신하고, 레코딩하고, 상호작용하고 플레이할 수 있는 형태의 비디오 레코더를 포함할 수 있다.

비디오 재생 장치(150)는 레코딩 테이프, 또는 하드 디스크, 또는 고형 메모리, 또는 임의의 다른 형태의 레코딩 장치를 사용하는 형태의 비디오 레코더를 포함할 수 있다. 만약 비디오 재생 장치(150)가 비디오 카세트 레코더(VCR)이면, 비디오 재생 장치(150)는 자기 카세트 테이프에 그리고 상기 자기 카세트 테이프로부터 인입 텔레비젼 신호들을 저장하고 탐색한다. 만약 비디오 재생 장치(150)가 리플레이TV^TM(ReplayTV^TM)레코더 또는 TiVO^TM 레코더 같은 디스크 드라이브 바탕 장치이면, 비디오 재생 장치(150)는 자기 카세트 테이프보다 컴퓨터 자기 디스크에 그리고 상기 디스크로부터 인입 텔레비젼 신호들을 저장하고 탐색하고, 하드 디스크로부터 저장된 텔레비젼 신호들을 탐색한다. 다른 실시예들에서, 비디오 재생 장치(150)는 로컬 판독/기입(R/W) 디지털 다기능 디스크(DVD) 또는 판독/기입(R/W) 컴 팩트 디스크(CD-RW)로부터 저장 및 탐색할 수 있다. 로컬 저장 매체는 고정되거나(예를 들어, 하드 디스크 드라이브) 제거 가능하다(예를 들어, DVD, CD-ROM).

비디오 재생 장치(150)는 사용자에 의해 동작되는 원격 제어 장치(125)로부터 명령들(채널 업, 채널 다운, 볼륨 업, 볼륨 다운, 레코드, 플레이, 빠른 감기(FF), 역방향 감기, 등등)을 수신하는 적외선(IR) 센서(160)를 포함한다. 텔레비젼 세트(105)는 스크린(110), 적외선(IR) 센서(115) 및 하나 이상의 수동 제어부들(120)(점선으로 지시됨)을 포함하는 통상적인 텔레비젼이다. IR 센서(115)는 또한 사용자에 의해 동작되는 원격 제어 장치(125)로부터 명령들(볼륨 업, 볼륨 다운, 전력 온, 전력 오프)을 수신한다.

비디오 재생 장치(150)가 특정 형태의 소스로부터 인입 텔레비젼 신호의 특정 형태를 수신하는 것으로 제한되지 않는 것이 주의된다. 상기 주의된 바와 같이, 외부 소스는 케이블 서비스 제공자, 종래 RF 방송 안테나, 위성 디쉬, 인터넷 접속부, 또는 DVD 플레이어 또는 VHS 테이프 플레이어 같은 다른 로컬 저장 장치일 수 있다. 몇몇 실시예들에서, 비디오 재생 장치(150)는 레코드될 수 없고, 제거 가능한 DVD 또는 CD-ROM으로부터 탐색되는 텔레비젼 신호들을 재생하는 것으로 제한될 수 있다. 따라서, 인입 신호는 디지털 신호, 아날로그 신호, 또는 인터넷 프로토콜(IP) 패킷들일 수 있다.

그러나, 본 발명의 원리들을 설명하는데 간략화를 위하여, 일반적으로 뒤따르는 설명들은 비디오 재생 장치(1500가 케이블 서비스 제공자로부터 인입 텔레비젼 신호들(아날로그 및/또는 디지털)을 수신하는 실시예와 일반적으로 관련된다. 그럼에도 불룩하고, 당업자는 본 발명의 원리들이 무선 방송 텔레비젼 신호들, 로컬 저장 시스템들, MPEG 데이터를 포함하는 IP 패킷들의 인입 스트림, 및 기타 등등에 사용하기 위하여 쉽게 적용될 수 있다는 것을 이해할 것이다. 뮤직 비디오가 텔레비젼(150)의 스크린(110)상에 디스플레이될때, 뮤직 비디오의 시작은 비디오 이미지의 하부에서 텍스트 캡션(180)(비디오텍스트)를 일반적으로 디스플레이한다. 텍스트 캡션(180)은 일반적으로 노래의 제목, 앨범의 이름, 가수 또는 그룹의 이름, 방출일 및 다른 유사한 정보를 포함한다. 텍스트 캡션(180)은 뮤직 비디오의 종료시에 일반적으로 디스플레이된다. 텍스트 캡션(180)은 비디오텍스트 블록(180)이라 한다. 뮤직 비디오 요약 제어기(270)는 저장된 뮤직 비디오 요약 파일들(360) 모두의 리스트(190)를 액세스하고 텔레비젼(105)의 스크린(110)상에 리스트(190)를 디스플레이할 수 있다. 즉, 리스트(190)는 (1) 멀티미디어 데이터 스트림에서 검출되었던 모든 뮤직 비디오들의 뮤직 비디오 요약 파일들 및 (2) 각각의 뮤직 비디오를 레코드한 가수 또는 그룹의 식별부를 디스플레이한다. 원격 제어 장치(125) 및 IR 센서(160)를 사용하여, 사용자는 리스트(190)내의 어떤 뮤직 비디오 요약 파일을 다음에 플레이하기 위하여 선택하도록 뮤직 비디오 요약 제어기(270)에 "플레이 뮤직 비디오 요약(play music video summary)" 제어 신호를 보낸다. 이런 방식으로 사용자는 뮤직 비디오 요약 파일들이 플레이되는 순서를 선택한다.

도 2는 본 발명의 일실시예에 따라, 보다 상세히 예시적인 비디오 재생 장치(1500를 도시한다. 비디오 재생 장치(150)는 IR 센서(160), 비디오 처리기(210), MPEG2 인코더(220), 하드 디스크 드라이브(230), MPEG2 디코더/NTSC 인코더(240), 및 비디오 레코더(VR) 제어기(250)를 포함한다. 비디오 재생 장치(150)는 프레임 그래버(grabber)(265)를 포함하는 비디오 유닛(260), 폐쇄형 캡션 디코더(275)를 포함하는 뮤직 비디오 요약 제어기(27), 및 메모리(280)를 더 포함한다. 프레임 그래버(265)는 MPEG2 디코더/NTSC 인코더(240)의 출력으로부터 비디오 프레임들로 캡쳐하고 저장한다. 폐쇄형 캡션 디코더(265)는 MPEG2 디코더/NTSC 인코더(240)의 NTSC 출력 신호에서 폐쇄형 캡션 텍스트를 디코드한다. 비록 폐쇄형 캡션 디코더(275)가 도 2의 뮤직 비디오 요약 제어기(270) 내에 배치되게 도시되지만, 폐쇄형 캡션 디코더(275)가 뮤직 비디오 요약 제어기(270) 내에 배치되는 것은 필요하지 않다.

VR 제어기(250)는 시청 모드, 레코드 모드, 재생 모드, 빨리 감기(FF) 모드, 역방향 감기 모드 및 다른 유사한 기능들을 포함하는 비디오 재생 장치(150)의 전체적인 동작을 지시한다. 뮤직 비디오 요약 제어기(270)는 본 발명의 원리들에 따라 뮤직 비디오 요약들의 생성, 저장 및 플레이를 지시한다.

시청 모드에서, VR 제어기(250)는 케이블 서비스 제공자로부터의 인입 텔레비젼 신호가 하드 디스크 드라이브(230) 상에 비디오 신호들을 저장하거나 저장하지 않고(또는 하드 디스크 드라이브로부터 비디오 신호들을 탐색) 비디오 처리기(210)에 복조되고 처리되게 하고 텔레비젼 세트(105)에 전송되게 한다. 비디오 처리기(210)는 케이블 서비스 제공자로부터 인입 텔레비젼 신호들을 수신하고, 사용자 선택 채널로 동조하고, 선택된 RF 신호를 텔레비젼 세트(105)상에 디스플레이하기에 적당한 기저대역 텔레비젼 신호(예를 들어, 슈퍼 비디오 신호)로 전환하기 위 하여 라디오 주파수(RF) 프론트 엔드 회로를 포함한다. 비디오 처리기(210)는 플레이 모드 동안 MPEG2 디코더/NTSC 인코더(240)(비디오 유닛 260의 비디오 버퍼 265를 버퍼링한후)로부터 종래 NTSC 신호를 수신하고 텔레비젼 세트(105)에 기저대역 텔레비젼 신호를 전송할 수 있다.

레코드 모드에서, VR 제어기(250)는 인입 텔레비젼 신호가 하드 디스크 드라이브(230)에 저장되게 한다. VR 제어기(250)의 제어하에서, MPEG2 인코더(220)는 케이블 서비스 제공자로부터 인입 아날로그 텔레비젼 신호를 수신하고 하드 디스크 드라이브(230)에 대한 MPEG2 포맷으로 수신된 RF 신호를 전환한다. 선택적으로, 만약 비디오 재생 장치(150)가 MPEG2 데이터를 전송중에 소스에 결합되면, 인입 MPEG2 데이터는 MPEG2 인코더(220)를 바이패스할 수 있고 하드 디스크 드라이브(230)에 직접 저장될 수 있다.

플레이 모드에서, VR 제어기(250)는 하드 디스크 드라이브(230)로부터의 MPEG2 데이터를 예를 들어 비디오 처리기(210)가 텔레비젼 세트(105)에 전송하는 슈퍼 비디오(S-비디오) 신호로 전환하는 MPEG2 디코더/NTSC 인코더(240)에 저장된 텔레비젼 신호(즉, 프로그램)를 스트림하도록 하드 디스크 드라이브(230)에게 명령한다.

MPEG2 인코더(220) 및 MPEG2 디코더/NTSC 인코더(240)에 대한 MPEG2의 선택이 도시된 방식에 의해서만인 것이 주의되어야 한다. 본 발명의 다른 실시예들에서, MPEG 인코더 및 디코더는 하나 이상의 MPEG-1, MPEG-2 및 MPEG-4 표준들, 또는 하나 이상의 다른 형태의 표준들을 따른다.

하기될 애플리케이션 및 청구항들을 위하여, 하드 디스크 드라이브(230)는 제한되지 않지만, 판독/기입 디지털 다기능 디스크들(DVD-RW), 재기입 가능 CD-ROM들, VCR 테이프들 및 기타 등등을 위한 종래 자기 디스크 드라이브들 및 광학 디스크 드라이브들을 포함하는 판독 및 기입 가능한 임의의 대량 저장 장치를 포함하는 것으로 정의된다. 실제로, 하드 디스크 드라이브(230)는 비디오 재생 장치(150)에 영구적으로 내장된 종래 의미로 고정될 필요는 없다. 오히려, 하드 디스크 드라이브(230)는 레코드된 비디오 프로그램들을 저장하기 위한 비디오 재생 장치(150)에 전용으로 사용되는 임의의 대량 저장 장치를 포함한다. 따라서, 하드 디스크 드라이브(230)는 일부 판독/기입 DVD들 또는 재 기입 가능한 CD-ROM들을 홀딩하는 쥬크 박스 장치(도시되지 않음) 같은 부착된 주변 장치 또는 제거 가능한 디스크 드라이브들(내장되거나 부착됨)을 포함할 수 있다. 도 2에 개략적으로 도시된 바와 같이, 이런 종류의 제거 가능한 디스크 드라이브들은 CD-ROM 디스크(235)를 수신하고 판독할 수 있다.

게다가, 본 발명의 바람직한 실시예에서, 하드 디스크 드라이브(230)는 비디오 재생 장치(150)가 예를 들어 사용자의 홈 개인 컴퓨터(PC)의 디스크 드라이브 또는 사용자의 인터넷 서비스 제공자(ISP)에서의 서버상 디스크 드라이브를 포함하는 네트워크 접속(예를 들어, 인터넷 프로토콜 (IP) 접속)을 통하여 액세스하고 제어할 수 있는 외부 대량 저장 장치들을 포함할 수 있다.

VR 제어기(250)는 비디오 처리기(210)에 의해 수신된 비디오 신호들에 관한 정보를 비디오 처리기(210)로부터 얻는다. 비디오 재생 장치(150)가 비디오 프로그 램을 수신하는 것을 VR 제어기(250)가 결정할때, VR 제어기(250)는 만약 비디오 프로그램이 레코드되도록 선택되었던 것인지를 결정한다. 만약 비디오 프로그램이 레코드되면, VR 제어기(250)는 비디오 프로그램이 이전에 기술된 방식으로 하드 디스크 드라이브(230)상에 레코드되게 한다. 만약 비디오 프로그램이 레코드되지 않으면, VR 제어기(250)_는 비디오 프로그램이 이전에 기술된 방식으로 텔레비젼 세트(105)에 전송되고 비디오 처리기(210)에 의해 처리되게 한다.

본 발명의 예시적인 실시예에서, 메모리(280)는 랜덤 액세스 메모리(RAM) 또는 랜덤 액세스 메모리(RAM) 및 판독 전용 메모리(ROM)의 결합을 포함할 수 있다. 메모리(280)는 플래시 메모리 같은 비휘발성 랜덤 액세스 메모리(RAM)를 포함할 수 있다. 텔레비젼 세트(105)의 다른 바람직한 실시예에서, 메모리(280)는 하드 디스크 드라이브(도시되지 않음) 같은 대량 데이터 장치를 포함할 수 있다. 메모리(280)는 판독/기입 DVD들 또는 재기입 가능한 CD-ROM들을 판독하는 부착된 주변 장치 또는 제거 가능한 디스크 드라이브들(내장되거나 부착됨)을 포함한다. 도 2에 개략적으로 도시된 바와 같이, 이런 형태의 제거 가능한 디스크 드라이브들은 수신 및 판독할 수 있는 재 기입 가능한 CD-ROM 디스크(285)이다.

도 3은 본 발명의 뮤직 비디오 요약 컴퓨터 소프트웨어(300)를 포함하는 메모리(280)의 선택된 부분을 도시한다. 메모리(280)는 오퍼레이팅 시스템 인터페이스 프로그램(310), 뮤직 비디오 분할 애플리케이션(320), 뮤직 비디오 식별 애플리케이션(330), 뮤직 비디오 요약 애플리케이션(340), 뮤직 비디오 요약 블록들(350) 및 뮤직 비디오 요약 파일들(360)을 포함한다. 뮤직 비디오 요약 제어기(270) 및 뮤직 비디오 요약 컴퓨터 소프트웨어(300)는 본 발명을 수행할 수 있는 뮤직 비디오 요약 제어 시스템을 포함한다. 오퍼레이팅 시스템 인터페이스 프로그램(310)은 VR 제어기(250) 및 뮤직 비디오 요약 제어기(270)의 오퍼레이팅 시스템과 뮤직 비디오 요약 컴퓨터 소프트웨어(300)의 동작을 조정한다.

도 4는 본 발명의 바람직한 실시예의 부분으로서 한그룹의 뮤직 비디오 요약 블록들(350)을 도시한다. 본 발명의 뮤직 비디오 요약 제어기(270)는 뮤직 비디오 요약 블록(예를 들어, 뮤직 비디오 요약 블록 410)의 뮤직 비디오에 관련하여 얻는 정보를 저장한다. 도 4에 도시된 바와 같이, 뮤직 비디오 요약 블록들(350)의 그룹은 N이 정수인 N 뮤직 비디오 요약 블록들(410, 470,...,480)을 포함한다. 도 4에 도시된 예시적인 뮤직 비디오 요약 블록(410)은 각각의 뮤직 비디오 요약 블록이 포함할 수 있는 정보 형태를 도시한다. 예시적인 뮤직 비디오 요약 블록(410)은 타이틀, 앨범, 가수, 레코딩 스튜디오 및 방출일 블록들(420, 430, 440, 450 및 460)을 포함한다. 이들 카테고리들은 도시적이고 배타적이지 않다. 즉, 다른 형태의 정보(도시되지 않음)는 본 발명의 뮤직 비디오 요약 블록에 저장될 수 있다.

뮤직 비디오 요약 제어기(270)가 뮤직 비디오들을 포함하는 멀티미디어 데이터 스트림을 수신하는 것이 가정된다. 하기에 보다 완전히 기술될 바와 같이, 뮤직 비디오 요약 제어기(270)는 (1) 멀티미디어 데이터 스트림의 뮤직 비디오들을 분할하고 멀티미디어 데이터 스트림의 나머지로부터 상기 뮤직 비디오들을 분리하고, (2) 각각의 분할된 뮤직 비디오를 식별하고 각각의 뮤직 비디오의 주제인 노래에 관한 정보를 얻고, (3) 텍스트, 오디오 및 비디오 세그먼트들을 포함하는 각각의 뮤직 비디오에 대한 뮤직 비디오 요약 파일을 생성하고, 및 (4) 사용자 요구에 응답하여, 사용자에 의해 선택된 순서로 뮤직 비디오 요약 파일들을 디스플레이할 수 있다.

일실시예에서, 뮤직 비디오 요약 제어기(270)는 각각의 뮤직 비디오의 시작 및 끝을 발견함으로써 멀티미디어 데이터 스트림의 뮤직 비디오들을 분할한다. 본 발명의 하나의 측면에 따라, 뮤직 비디오들은 비뮤직 성분에서 통상적으로 새로운 노래의 시작을 나타내는 뮤직 구성요소들로 오디오 성분의 변화를 검출하기 위하여 페이스들의 존재 또는 페이스들의 식별 같은 하나 이상의 이미지 특징들, 또는 오디오 분류 기술들 같은 하나 이상의 오디오 특징들을 사용하여 분할된다. 다른 변형들에서, 분할 처리는 또한 어두운 이미지들로부터 새로운 노래의 시작을 나타내는 밝은 이미지들로 컬러의 변화들을 검출하기 위하여 슈퍼 히스토그램들(또는 컬러 클러스터링 기술들)을 사용한다.

다른 변형에서, 뮤직 비디오 요약 제어기(270)는 뮤직 비디오의 시작 및 종료시 비디오 텍스트 블록(180)을 검사하기 위하여 뮤직 비디오 분할 애플리케이션(320)의 컴퓨터 명령들을 실행한다. 두개의 비디오 텍스트 블록들(180)이 동일할때, 그들 사이의 비디오 부분은 두개의 비디오 텍스트 블록들(180)에 의해 식별된 뮤직 비디오를 나타낸다. 뮤직 비디오가 텔레비젼(105)의 스크린(110)상에 디스플레이될때, 뮤직 비디오의 시작은 일반적으로 비디오 이미지의 하부에서 텍스트 캡션(180)을 디스플레이한다. 텍스트 캡션(180)은 일반적으로 노래 제목, 앨범 제목, 가수 또는 그룹의 이름, 방출일 및 다른 유사한 정보를 포함한다. 텍스트 캡션 (180)은 일반적으로 뮤직 비디오의 종료시 디스플레이된다. 텍스트 캡션(180)은 비디오텍스트 블록(180)이라 불린다.

뮤직 비디오 요약 제어기(270)가 새로운 뮤직 비디오를 분할할때, 뮤직 비디오 요약 제어기(270)는 예를 들어 비디오 텍스트 블록(180)_으로부터 뮤직 비디오를 식별하는 정보를 추출하기 위하여 뮤직 비디오 식별 애플리케이션(330)에서 컴퓨터 명령들을 실행한다. 뮤직 비디오 요약 제어기(270)는 랄리사 아그니호트리, 네벤카 드미트로바, 및 허먼 엘렌바스(Lalitha Agnihotri, Nevenka Dimitrova, 및 Herman Elenbass)에 의하여 1999년 11월 17일 출원된 발명의 명칭이 "비디오 스트림 분류가능한 심볼 격리 방법 및 시스템(Video Stream Classifiable Symbol Isolation Method and System)"인 미국특허출원 제 09/441,943호에 개시된 형태의 방법을 사용하여 비디오 텍스트 블록(180)의 텍스트를 얻을 수 있다.

뮤직 비디오 요약 제어기(270)는 뮤직 요약 제어기(270)가 비디오 텍스트 블록(180)으로부터 얻는 정보와 비교하기 위하여 노래들, 앨범들, 가수들 또는 레코딩 회사들의 포괄적인 리스트를 발견하도록 메모리(280)(또는 인터넷상에 배치된 액세스 데이터베이스)의 데이터베이스(도시되지 않음)를 액세스할 수 있다. 뮤직 비디오 요약 제어기(270)는 뮤직 비디오 요약 블록들(350)중 하나에서 메모리(280)의 뮤직 비디오에 관련된 것을 얻는 정보를 저장한다. 각각의 독립된 뮤직 비디오에 대한 뮤직 비디오 정보는 독립된 뮤직 비디오 요약 블록(예를 들어, 뮤직 비디오 요약 블록 410)에 저장된다.

몇몇 경우들에서, 뮤직 비디오 요약 제어기(270)는 임의의 비디오 텍스트 블 록들(180)을 배치하거나 식별할 수 없을 수 있다. 상기 경우들에서, 뮤직 비디오 요약 제어기(270)는 텍스트 매칭을 발견하기 위하여 노래 가사들의 트랜스크립트들의 데이터베이스와 노래의 몇몇 라인들의 트랜스크립트를 비교할 수 있다. 뮤직 비디오 요약 제어기(270)는 노래의 일부 라인들의 텍스트를 나타내는 "탐색 문자열(search string)"을 선택한다. 일실시예에서, "탐색 문자열" 텍스트는 폐쇄형 캡션 디코더(275)로부터 얻어질 수 있다. 뮤직 비디오 요약 제어기(270)는 노래 가사들의 포괄적인 리스트를 발견하기 위하여 메모리(280)(또는 www.lyrics.com 같은 인테넷상에 배치된 노래 가사들의 데이터베이스에 액세스)의 노래 가사들(도시되지 않음)의 데이터베이스를 액세스한다. 뮤직 비디오 요약 제어기(270)는 노래의 식별을 발견하기 위하여 노래 가사들의 데이터베이스내의 트랜스크립들에 대해 "탐색 문자열" 텍스트를 비교한다. 노래의 식별이 결정된후, 가수 및 다른 정보의 이름은 데이터베이스로부터 쉽게 액세스될 수 있다. 뮤직 비디오 요약 제어기(270)가 "탐색 문자열" 텍스트와 노래 가사들의 데이터베이스를 비교함으로써 뮤직 비디오 정보를 탐색하고 배치하는 방법은 도 7을 참조하여 하기에 완전히 기술될 것이다.

상기된 바와 같이, 뮤직 비디오 요약 제어기(270)는 뮤직 비디오 정보를 얻고 뮤직 비디오 요약 블록들(350)에 뮤직 정보를 저장한다. 각각의 뮤직 비디오 요약 블록에 대하여(예를 들어, 뮤직 비디오 요약 블록 410), 뮤직 비디오 요약 제어기(270)는 노래 가사들을 액세스하고 노래 가사들로부터 노래의 "코러스(chorus)"를 식별한다. 노래의 코러스는 일반적으로 노래 가사들의 데이터베이스에서 코러스로서 식별된다. 선택적으로, 몇번 반복되는 노래 가사들 부분은 노래의 코러스로서 사용하기 위하여 선택될 수 있다. 이것은 유사한 오디오 패턴들을 발견하기 위하여 폐쇄형 캡션 디코더(275)를 사용하거나 오디오 트랙의 부분들을 비교함으로써 달성될 수 있다. 본 발명의 다른 측면에 따라, 뮤직 비디오의 코러스 부분들은 종종 코러스를 나타내는 반복된 어구들에 대한 관련된 트랜스크립트를 분석함으로써 독립된 데이터베이스의 액세스를 요구하지 않고 식별된다. 트랜스크립트는 예를 들어 폐쇄형 캡션 정보로부터 얻어진다.

노래의 "코러스"는 노래의 제 1 몇 라인들 이상에서 대부분의 청취자들에 대한 노래의 성질을 식별한다. 뮤직 비디오 요약 제어기(270)는 코러스에 대응하는 멀티미디어 파일의 오디오 및 비디오 부분들과 노래 가사들의 트랜스크립트의 코러스를 매칭할 수 있다. 뮤직 비디오 요약 제어기(270)는 뮤직 비디오 요약 파일(360)의 코러스에 대응하는 멀티미디어 파일의 오디오 및 비디오 부분들의 카피를 배치할 수 있다.

뮤직 비디오 요약 제어기(270)는 메모리(280)의 각각의 뮤직 비디오에 대하여 각각의 비디오 요약 파일(360)을 저장한다. 사용자 요구를 수신하는 것에 응답하여, 뮤직 비디오 요약 제어기(270)는 특정 뮤직 비디오 요약 파일(360)을 액세스할 수 있고 텔레비젼(105)을 통하여 뮤직 비디오 요약 파일(360)(오디오 및 비디오 부분들 포함)을 플레이할 수 있다. 선택적으로, 뮤직 비디오 요약 제어기(270)는 저장된 뮤직 비디오 요약 파일들(360) 모두의 리스트(190)를 액세스하고 텔레비젼(105)의 스크린(110)상에 상기 리스트(190)를 디스플레이할 수 있다. 즉, 리스트(190)는 (1) 멀티미디어 데이터 스트림에서 검출되었던 모든 뮤직 비디오들의 뮤직 비디오 요약 파일들; 및 (2) 각각의 뮤직 비디오를 레코드한 가사 또는 그룹의 식별부를 디스플레이한다. 리스트(190)는 리스트에 표시된 정보의 콘텐트를 강화하기 위하여 사용자 선호들에 따라 선택적으로 표시된다. 원격 제어 장치(125) 및 IR 센서(160)를 사용하여, 사용자는 다음 플레이를 위하여 리스트(190)의 어떤 뮤직 비디오 요약 파일을 선택하도록 뮤직 비디오 요약 제어기(270)에 "플레이 뮤직 비디오 요약" 제어 신호를 보낸다. 이런 방식에서 사용자는 뮤직 비디오 요약 파일들이 플레이되는 순서를 선택한다.

도 5는 뮤직 비디오들을 인덱스하고 요약하기 위하여 본 발명에 사용된 기술들의 요약을 제공하는 흐름도(500)이다. 도 5에 도시된 바와 같이, 뮤직 비디오 요약 제어기(270)는 단계(510) 동안 처음에 뮤직 비디오들(507)을 포함하는 수신된 멀티미디어 스트림(505)을 오디오, 비디오 및 트랜스크립트 성분들로 분리한다. 뮤직 비디오 요약 제어기(270)는 단계(520) 동안 오디오, 비디오 및 트랜스크립트 성분들로부터 추가로 아래에 논의된 다수의 특징들을 추출한다. 트랜스크립트는 예를 들어 폐쇄형 캡션 캡션으로부터 얻어지고, 타임 스탬프들은 소프트웨어에 의해 텍스트의 각각의 라인에 삽입된다. 이런 포인트에서 모든 특징들은 노래의 경계들의 임의의 지시없이 데이터의 타임 스탬프 스트림을 포함한다.

시작 노래 경계는 도 10 및 11과 관련하여 추가로 하기에 논의된 방식으로 가시적, 청각적 및 텍스트적 특징들을 사용하여 단계(530) 동안 결정된다. 그후, 초기 경계들 및 트랜스크립트 정보를 사용하여, 코러스 위치 및 코러스 키 어구들은 도 13과 관련하여 추가로 논의된 바와 같이, 단계(540) 동안 결정된다. 코러스 정보에 기초하여, 웹 사이트로부터의 정보는 예를 들어 단계들(545 및 550) 동안 노래의 제목, 가수 이름, 장르 및 가사들을 결정하기 위하여 사용된다.

노래 경계는 예를 들어 하나 이상의 얻어진 노래 가사들, 오디오 분류, 가시적 장면 경계들(컬러 정보 바탕) 및 오버레이드 텍스트를 사용하여 단계(560) 동안 확인된다. 본 발명은 웹 사이트상 가사들 및 트랜스크립트의 가사들이 바람직하게 항상 매칭하지 않는 것을 고려한다. 가사들에 기초하여, 노래의 경계들은 초기 경계 정보 및 가사들을 사용하여 정렬된다. 선택적으로, 만약 트랜스크립트 정보가 이용될 수 없으면, 제목 페이지는 가수 이름, 노래 제목, 년도 및 레코드 라벨 정보 같은 비디오 정보를 발견하기 위하여 추출된 비디오텍스트상 광학 문자 인식(OCR) 기술들을 사용하여 분석될 수 있고 웹 정보는 OCR 단계로부터 출력을 검증하기 위하여 사용될 수 있다. 이런 정보로 인해, 노래의 가사들은 웹 사이트로부터 얻어지고 코러스 검출 방법은 텍스트 정보를 사용하여 수행될 수 있다. (이와 관련된 것은 이들 다운로드된 가사들이 시간 스탬프되지 않고 정렬의 문제가 있다는 것이다). 바람직하게, 트랜스크립트는 스피치 대 텍스트 오디오 분석을 사용하여 얻어진다. 하나의 버젼에서, 다운로드된 트랜스크립트 및 스피치 대 텍스트 생성기에 의해 생성된 트랜스크립트는 보다 정확한 트랜스크립트를 얻기 위하여 통합될 수 있다.

각각의 노래 및 시청각적 특징들에 대한 경계를 가짐으로, 노래는 도 14와 관련하여 하기에서 논의되는 바와 같이 가장 대표적인 프레임들, 및 노래 요약을 위한 가장 우수한 비디오 클립을 결정함으로써 각각 단계들(565 및 570) 동안 요약 된다. 가장 대표적인 프레임들은 가수, 노래, 가수, 라벨, 앨범 및 년도를 가진 제목 이미지로부터의 클로우즈 업을 포함한다. 노래 요약들은 노래 요약 라이브러리에 단계(575) 동안 저장된다. 사용자들은 예를 들어 웹 바탕 뮤직 비디오 탐색 애플리케이션을 사용하여 단계(580) 동안 프로그램 요약들을 액세스할 수 있다.

본 발명에 따라 뮤직 비디오 요약은 개별 노래들의 식별 및 요약에 기초한다. 프로그램 레벨에서, 요약은 노래들의 리스트로 구성된다. 다음 레벨에서, 각각의 노래는 노래를 나타내는 제목, 가수 및 선택된 멀티미디어 엘리먼트들로 구성된다.

경계 검출

뮤직 비디오 요약은 두가지 형태의 경계 검출을 포함한다. 첫째, 노래 경계들은 자동으로 검출되어야 한다. 그후, 코러스의 경계는 검출되어야 한다. 도 5와 관련하여 상기된 바와 같이, 본 발명은 가시적, 오디오 및 트랜스크립트 특징들을 사용하여 경계 검출을 수행한다. 가시적 특징들은 비디오텍스트의 존재, 페이스 검출(및/또는 식별), 갑작스러운 커트들 및 컬러 히스토그램들을 포함한다.

비디오텍스트의 존재를 사용하는 경계 검출

비디오텍스트의 존재를 사용하는 경계 검출에 적당한 기술들의 상세한 논의를 위하여, 엔.디미트로바(N. Dimitrova) 등에 의한 "겹쳐진 텍스트를 위한 MPEG-7 비디오텍스트 기술 기법(MPEG-7 VideoText Description Scheme for Superimposed Text)", 국제 신호 프로세싱 및 이미지 통신 저널(Int'l Signal Processing and Image Communications Journal) (9월, 2000), 또는 발명의 명칭이 "뮤직 비디오를 인덱싱하고 요약하기 위한 시스템 및 방법(System and Method for Indexing and Summarizing Music Videos)",(참조번호(Attorney Docket Number) US020206)이고 2002년 6월 20일 출원된 미국특허출원 제 10/176,239호를 참조하고, 각각은 여기에 참조로써 통합된다.

가수 및 제목 같은 비디오텍스트 정보가 판독 및 인식하기 쉽게 각각의 뮤직 비디오의 시작 및 끝 부분에 표시되기 때문에, 비디오텍스트의 검출은 경계들을 검출하기 위한 신뢰적인 방법을 제공한다. 따라서, 노래의 시작에서 비디오텍스트의 존재는 노래들 사이의 경계들을 나타내는 것을 돕는다. 비디오텍스트 검출 성능은 예를 들어 텍스트 박스가 노래의 노래 제목 정보를 포함하거나, 텍스트 박스가 스크린의 하부 좌측 부분에서 주어진 위치에서 발견되는 것을 보장함으로써 개선될 수 있다. 노래의 제목 페이지는 노래의 시작을 결정하기 위하여 노래가 이미지 시작했다는 하나의 지시기로서 사용될 수 있다.

페이스 검출(또는 식별)을 사용하는 경계 검출

본 발명의 일측면에 따라, 노래들의 잠재적인 경계들은 이미지 프레임들에서 페이스들의 검출에 기초하여 식별될 수 있다. 도 6은 본 발명의 특징들을 통합하는 예시적인 페이스 특징 분석 처리(600)의 흐름도이다. 도 6에 도시된 바와 같이, 페이스 특징 분석 처리(600)는 처음에 단계(610) 동안 각각의 이미지 프레임에 몇몇 가능한 페이스 타입 라벨들중 하나를 할당한다. 예를 들어, 페이스 특징 분석 처리(600)는 프레임이 주로 어깨부 샷(S), 전체 바디 샷(F), 안면 클로우즈 업(C) 또는 다수 사람(M)으로 구성되는지에 기초하여 각각의 프레임에 라벨을 할당할 수 있다. 할당된 페이스 타입 라벨들의 예시적인 시간 라인 이미지는 하기 논의된 도 12에 포함된다. 이미지 프레임들은 할당된 페이스 타입 라벨들에 기초하여 단계(620) 동안 클러스트된다. 마지막으로, 패턴들은 비디오 경계들을 검출하기 위하여 단계(630) 동안 페이스 타입 라벨들의 클러스터들에서 분석된다. 프로그램 제어는 종료된다. 단계(630) 동안 수행된 패턴 분석은 도 10 및 도 11과 관련하여 추가로 하기에서 논의된다.

이런 방식에서, 시간에 따라, 페이스 특징 분석 처리(600)는 동종의 이미지 시퀀스 패턴들(프레임들이 동일한 비디오 부분인 것을 나타냄)을 찾을 것이다. 상기 패턴으로부터 편차는 새로운 비디오 또는 비비디오(non-video) 재료가 시작되는 것을 제시할 것이다. 검출 및 라벨링을 수행하기에 적당한 기술들의 상세한 논의를 위하여, 예를 들어 여기에 참조로써 통합된 엔. 디미트로바(N. Dimitrova) 등에 의한 "객체 추적을 사용하는 비디오 분류, 이미지와 그래픽의 국제 저널(Video Classification Using Object Tracking, International Journal of Image and Graphics)", 이미지 및 비디오 데이터베이스들에 대한 특별판(Special Issue on Image and Video Databases), Vol 1, No.3(8월. 2001)를 참조한다.

비록 페이스들이 메인 가수를 찾기 위하여 매우 중요하지만, 뮤직 비디오들이 비디오 페이스 검출을 수행하기 위한 도전 장르인 것이 주의되어야 한다. 페이스 존재는 예를 들어 특정 효과들 및 다양한 컬러들을 사용한 하이라이팅으로 인해 비디오들에서 적당하게 검출될 수 없다. 게다가, 페이스들은 가수들이 춤추거나 잠잘때 대각선 또는 수평 위치에 있는다.

다른 변형에서, 페이스 식별은 잘 알려진 방식으로 각각의 프레임에서 식별된 가수에 기초하여 식별 라벨을 할당하기 위하여 선택적으로 수행될 수 있다. 이미지 시퀀스에서 새로운 가수의 출연은 새로운 비디오의 시작을 나타낸다. 페이스 식별의 수행은 대중적이거나 예상된 가수들의 페이스 이미지들을 포함하는 데이터베이스를 사용함으로써 선택적으로 개선될 수 있다.

갑작스러운 커트들(카메라 변화들)을 사용하는 경계 검출

본 발명의 일측면에 따라, 노래들의 잠재적 경계들은 이미지 시퀀스들에서 카메라 변화 패턴들의 검출에 기초하여 식별될 수 있다. 도 7은 본 발명의 특징들을 통합하는 예시적인 카메라 변화 분석 처리(700)의 흐름도이다. 도 7에 도시된 바와 같이, 카메라 변화 분석 처리(700)는 처음에 단계(710) 동안 비디오 시퀀스에서 카메라 커트들의 주파수를 결정한다. 카메라 커트들의 빈도를 결정하기에 적당한 기술들의 상세한 논의를 위하여, 여기에 참조로써 통합된 발명의 명칭이 "시각적 인덱싱 시스템을 위한 중요 장면 검출 및 프레임 필터링(Significant Scene Detection and Frame Filtering for a Visual Indexing System)"인 미국특허 제 6137544호를 참조한다.

그후, 카메라 변화 분석 처리(700)는 단계(730) 동안 비디오 경계들을 검출하기 위하여 카메라 커트 빈도 데이터에서 패턴들을 분석한다. 단계(730) 동안 수행된 패턴 분석은 도 10 및 11과 관련하여 하기에 추가로 논의된다. 커트 변화들은 뮤직 비디오들에서 매우 빈번한 것이 주의된다. 실제로, 우리의 데이터는 평균 커트 거리가 노래들 동안 보다 광고 방송 동안 높다는 것을 나타낸다. 이것은 대부분 의 다른 장르들에 대하여, 광고들이 프로그램보다 낮은 커트 거리를 나타내기 때문에 매우 일반적이다. 다른 버젼에서, 부가적인 카메라 변화 라벨들은 팬, 경사 및 줌 같은 카메라 모션들의 형태를 특징으로 하기 위하여 제공될 수 있다.

컬러 히스토그램들을 사용하여 경계 검출

본 발명의 다른 측면에 따라, 노래들의 잠재적인 경계들은 컬러 변화 특징들에 기초하여 식별될 수 있다. 슈퍼히스토그램 방법은 유사한 컬러들을 나타내는 프레임들의 패밀리들을 나타내기 위하여 예시적인 실시예에 사용된다. 도 8은 본 발명의 특징들을 통합하는 예시적인 컬러 히스토그램 분석 처리(800)의 흐름도이다. 일반적으로, 컬러 히스토그램은 대응하는 프레임의 컬러 성분들을 특징으로 하는 시그네이쳐로 고려될 수 있다. 그 다음 이미지 프레임들은 히스토그램들(도 12에 도시됨)에 기초하여 단계(820) 동안 클러스터된다. 마지막으로, 패턴들은 비디오 경계들을 검출하기 위하여 단계(830) 동안 히스토그램들의 클러스터들에서 분석된다. 프로그램 제어는 종료된다. 단계(830) 동안 수행된 패턴 분석들은 도 10 및 11과 관련하여 하기에 추가로 논의된다. 클러스터링 단계 동안 고려되는 이미지 프레임들의 히스토리는 예를 들어 유사한 컬러들을 가진 임의의 이전 프레임들이 관련될 수 없기 때문에 한번으로 제한되지 않는다.

이런 방식에서, 시간에 따라 컬러 히스토그램 분석 처리(800)는 동종의 이미지 시퀀스 패턴들(프레임이 동일한 비디오의 부분인 것을 나타냄)을 찾을 것이다. 상기 패턴들로부터의 편차들은 새로운 비디오 또는 비비디오 자료가 시작되는 것을 나타낼 것이다. 예를 들어, 주어진 노래는 필림의 스타일로 인해 비디오를 통하여 우세한 컬러를 가질 수 있다. 게다가, 각 노래 사이의 광고 방송들은 통상적으로 다른 도미넌트 컬러를 나타낼 것이다. 컬러 히스토그램들은 유사한 컬러들을 나타내는 프레임들의 패밀리들이 식별되게 한다. 일반적으로, 새로운 노래들이 나타날때, 컬러 팔레트는 변화하고 새로운 노래들의 프레임들은 새로운 패밀리들로 클러스터된다. 따라서, 컬러 히스토그램 방법은 뮤직 비디오의 잠재적인 시작 및 끝을 검출하는데 도움을 준다.

컬러 히스토그램들의 보다 상세한 논의를 위하여, 예를 들어 엘.아그니호트리 및 엔. 디미트로바(L. Agnihotri and N. Dimitrova)에 의한 "큰 비디오 어치브들에서 수퍼히스토그램을 사용한 비디오 클러스터링(Video Clustering Using Superhistograms in Large Video Archives)", 비쥬얼 2000, 리옹, 프랑스(11월, 2000) 또는 엔. 디미트로바(N. Dimitrova) 등에 의한 "비디오 표현을 위한 수퍼히스토그램들(Superhistograms for Video Representation)" IEEE ICIP, 1999, 일본(1999)를 참조하고, 각각은 여기에 참조로써 통합된다.

오디오 특징들을 사용한 경계 검출

본 발명의 다른 측면에 따라, 노래들의 잠재적인 경계들은 오디오 특징들에 기초하여 식별된다. 도 9는 본 발명의 특징들을 통합하는 예시적인 오디오 특징 분석 처리(900)의 흐름도이다. 도 9에 도시된 바와 같이, 오디오 특징 분석 처리(900)는 처음에 단계(910) 동안 각각의 오디오 프레임에 몇가지 가능한 오디오 타입 라벨들중 하나를 할당한다. 오디오 프레임의 기간이 이미지 프레임 기간과 다를 수 있다는 것이 주의된다. 예를 들어, 오디오 특징 분석 처리(900)는 오디오 프레 임이 주로 1) 뮤직, 2) 스피치, 3) 배경 뮤직을 가진 스피치, 4) 다수 사람 대화, 5) 노이즈, 6) 노이즈와 함께 스피치, 7) 침묵, 8) 볼륨 증가 또는 9) 볼륨 감소를 주로 포함하는지에 기초하여 각각의 오디오 프레임에 라벨을 할당할 수 있다. 오디오 프레임들은 할당된 오디오 타입 라벨들에 기초하여 단계(920) 동안 클러스터된다. 마지막으로, 패턴들은 비디오 경계들을 검출하기 위하여 단계(930) 동안 오디오 테이프 라벨들의 클러스터들에서 분석된다. 프로그램 제어는 종료된다. 단계(930) 동안 수행된 패턴 분석은 도 10 및 11과 관련하여 하기에 보다 논의된다. 예를 들어, 패턴 분석은 노래의 시작을 가리키기 위하여 노래의 시작 및 끝에서 침묵 또는 볼륨의 상승, 또는 노래의 끝을 지시하기 위하여 볼륨 하강을 찾는다.

이런 방식에서, 시간에 따라 오디오 특징 분석 처리(900)는 동종의 오디오 시퀀스 패턴들(오디오 프레임들이 동일한 비디오의 일부인 것을 나타냄)을 찾을 것이다. 상기 패턴들로부터의 편차들은 새로운 비디오 또는 비비디오 자료가 시작되는 것을 나타낼 것이다. 오디오 분할 및 분류를 수행하기에 적당한 기술들의 상세한 논의를 위하여, 디.리(D. Li) 등에 의한 "콘텐트 기반 검색을 위하여 일반 오다오의 분류(Classification of General Audio Data for Content-Based Retrieval)" 패턴 인식 레터스(Pattern Recognition Letters) 2000(2000)을 참조하고, 여기에 참조로써 통합된다.

트랜스크립트 특징들을 사용하는 경계 검출

본 발명의 다른 측면에 따라, 노래들의 잠재적인 경계들은 예를 들어 폐쇄된 캡션 정보로부터 얻어질 수 있는 오디오 트랜스크립트에 기초하여 식별될 수 있다. 일반적으로, 절들은 키워드 분석(또는 자동 상관 분석)을 사용하여 텍스트 트랜스크립트에서 식별된다. 특히, 워드들의 히스토그램은 새로운 노래들을 검출하기 위하여 얻어지고 분석된다. 새로운 세트의 키워드들의 식별은 새로운 비디오 또는 비비디오 자료가 시작된 것을 나타낼 것이다. 트랜스크립트 "절(paragraphing)"을 수행하기에 적당한 기술들의 상세한 논의를 위하여, 예를 들어 엔. 스트로크스(N. Stokes) 등에 의한 여기에 참조로써 통합된 "사전적 체인들을 사용하는 방송 뉴스 스트림들 분할(Segmenting Broadcast News Streams Using Lexical Chains)" 인공 지능을 시작하는 연구원들 심포지움 회보(Proc. of Starting Artificaial Intelligence Researchers Symposium)(STAIRS)(2002)를 참조.

낮은 레벨 특징들을 사용하는 경계 검출

상기된 특징들외에, 본 발명은 각각의 이미지 프레임의 에지들 또는 형태들의 수 또는 로컬 및 글로벌 모션 같은 콘텐트로부터 직접적으로 유도된 다수의 낮은 레벨 특징들을 직접 사용하고, 이들 낮은 레벨 특징들의 상기 패턴들로부터 임의의 패턴들 및 편차들을 모니터할 수 있다. 게다가, 낮은 레벨 오디오 특징들은 멜 프리퀀시 셉스트랄 계수들(MFCC: mel frequency cepstral coefficients), 선형 예측 계수(LPC: linear predictive coefficient), 피치 변수들, 대역폭, 볼륨 및 톤과 같이 분석될 수 있다.

비쥬얼, 오디오 및 트랜스크립트 특징들의 분석

상기된 바와 같이, 본 발명은 도 5 내지 9와 관련하여 상기되었던 바와 같이 비쥬얼, 오디오 및 트랜스크립트 특징들을 사용하여 경계 검출을 수행한다. 도 10 에 도시된 하나의 예시적인 실시예에서, 비쥬얼, 오디오 및 트랜스크립트 특징들은 비디오 스트림을 개별 비디오들로 분할하기 위하여 베이시안 빌리프 네트워크(BBN)(1000) 같은 패턴 인식 엔진을 사용하여 모니터된다. 도 11에 도시된 다른 실시예에서, 비쥬얼, 오디오 및 트랜스크립트 특징들은 비디오 스트림을 개별 비디오들로 분할하기 위하여 규칙 바탕 발견 처리(1100)를 사용하여 처리된다. 일반적으로, 양쪽 예시적인 실시예들은 상기된 모든 다른 특징들로부터 적당한 경계들을 사용하여 비디오들을 분할한다.

도 10은 본 발명의 특징들을 통합한 예시적인 베이시안 빌리프 네트워크(1000)를 도시한다. 베이시안 빌리프 네트워크(1000)는 비디오 스트림을 개별 비디오들로 분할하기 위하여 비쥬얼, 오디오 및 트랜스크립트 특징들을 모니터한다. 일반적으로, 베이시안 빌리프 네트워크들은 복잡한 패턴들을 인식하고 미리 정의된 활동들을 학습 및 인식하기 위하여 사용되었다. 베이시안 빌리프 네트워크(1000)는 알려진 방식으로 분할 정보로 이미 라벨된 비디오 시퀀스들을 사용하여 트레인된다.

도 10에 도시된 바와 같이, 베이시안 빌리프 네트워크(1000)는 다수의 상태들(1010-1 내지 1010-N)을 가진 제 1 층(1010)을 포함하고, 각각은 본 발명에 의해 모니터되는 여러 특징와 연관된다. 각각의 상태에 대한 입력은 주어진 윈도우를 통하여 평균 특징 값이다. 예를 들어, 페이스 존재 특징에 대하여, 입력은 예를 들어 이전 20 초 윈도우와 비교하여 현재 20 초 윈도우에 따른 각각의 이미지의 페이스들 수 변호가 있는지일 수 있다. 유사하게, 컬러 히스토그램 특징에 대하여, 입력 은 예를 들어 새로운 클러스터가 현재 윈도우에서 검출되었는지일 수 있다.

베이시안 빌리프 네트워크(1000)는 현재 시간 윈도우가 각각의 대응 상태에 대하여 상기 상태와 연관된 단일 특징에 기초하여 비디오의 시작 또는 끝과 연관된 전이(P_trans)에 대응하는 가능성을 결정하는 제 2 층(1020)을 포함한다. 예를 들어, 가능성(P_facechng)은 페이스 변화 특징 데이터에 의해 제안된 바와같은 페이스 변화의 가능성을 지시한다. 최종 레벨(1030)에서, 베이시안 빌리프 네트워크(1000)는 모니터된 각각의 특징들을 가로질러 가능성들에 기초하여 노래 전환이 있는지 없는지를 결정하기 위하여 베이스 추론을 사용한다. 다른 변형들에서, 뉴럴 네트워크들 또는 자동 회구 이동 평균(ARMA) 기술들은 노래 경계들을 예측하기 위하여 사용될 수 있다.

현재 시간 윈도우가 상태(1030)에서 하나의 세그먼트에 대응하는지를 결정하기 위한 조건적 가능성은 다음과 같이 계산될 수 있다.

상기 방정식은 조건적 확률을 계산하기 위한 일반적인 경우를 준다. 도 10에 주어진 모델에 대하여, 사이 가능성은 다음과 같이 계산될 수 있다:

여기서 v는 비디오 텍스트이고, f는 페이스들이고, a는 갑작스러운 커트들이 고, c는 컬러이고, t는 트랜스크립트이고 a는 오디오 관련 분석이다.

도 11은 비디오 분할 처리(1100)의 예시적인 실행을 기술하는 흐름도이다. 상기된 바와 같이, 비디오 분할 처리(1100)는 비디오 스트림을 개별 비디오들로 분할하기 위하여 규칙 바탕 발견적 학습 기술을 사용하여 비쥬얼, 오디오 및 트랜스크립트 특징들을 처리한다. 도 11에 도시된 바와 같이, 비디오 분할 처리(1100)는 모니터된 비디오, 오디오 및 트랜스크립트 특징 값들을 단계(1110) 동안 평가한다. 그후, 비디오 분할 처리(1100)는 하나 이상의 미리 정의된 비디오 분할 규칙들(1115)을 단계(1120) 동안 특징 값들에 적용한다. 예를 들어, 비디오 세그먼트를 지정하는 주어진 애플리케이션은 만약 비디오텍스트 존재 및 컬러 히스토그램 특징에 대한 가능성 값들이 미리 정의된 임계치를 모두 초과하면 식별되어야 한다. 다른 실시예에서, 비디오 분할 규칙은 비디오텍스트 존재에 대한 가능성 값들 및 적어도 N개의 다른 모니터된 특징들이 미리 정의된 임계치들을 초과하면 비디오 세그먼트가 식별되어야 하는 것을 나타낼 수 있다.

검사는 새로운 비디오가 검출되는지를 결정하기 위하여 단계(1130) 동안 수행된다. 새로운 비디오가 검출되지 않은 것은 것을 단계(1130) 동안 검출하면, 프로그램 제어는 상기된 방식으로 이미지 스트림을 계속 모니터링하기 위하여 단계(1110)로 리턴한다. 그러나, 만약 단계(1130) 동안 새로운 비디오가 검출되었다는 것이 결정되면, 새로운 비디오 세그먼트는 단계(1140) 동안 식별된다. 프로그램 제어는 종료되거나 적당할때 상기된 방식으로 이미지 스트림을 계속 모니터링하기 위하여 단계(1110)로 리턴한다.

베이시안 빌리프 네트워크(1000) 또는 비디오 분할 처리(1100)에 의해 모니터된 특징들의 처리는 트랜스크립트가 비쥬얼 및 오디오 스트림들보다 나중에 시작하는 사실을 고려할 수 있다. 비쥬얼 시청 포인트로부터, 비디오텍스트 제목 페이지는 일반적으로 노래의 시작후 몇초 나타나도록 얻어진다. 시작 경계는 노래에 대한 비쥬얼 컬러 경계들 및 오디오 도메인에서 뮤직 분류의 시작과 정렬된다.

도 12는 할당된 페이스 타입 라벨들(1210), 컬러 히스토그램 클러스터들(1220) 및 비디오텍스트 존재부(1230)의 예시적인 시간 라인 이미지들을 제공한다. 도 12에 도시된 바와 같이, 모니터된 특징들 각각에 대한 특징 데이터는 비디오 세그먼트들을 검출하기 위하여 정렬된다. 본 발명은 각각의 개별 특징에 의해 제시된 종래 기간들에 기초하여 두개의 비디오들 사이 또는 비디오 및 비비디오 자료 사이의 전이부(1240)를 식별하기 위하여 베이시안 빌리프 네트워크(1000) 또는 비디오 분할 처리(1100)를 사용한다.

코러스 검출

노래의 코러스를 결정하기 위하여, 이전 조사는 뮤직 오디오 특징들에 집중되었다. 노래들에서 반복된 세그먼트들을 발견하기 위한 일반적인 방법은 자동 상관 분석을 수행하는 것이다. 코러스는 대중적인 노래들에서 적어도 두번 반복된다. 일반적으로 대부분의 노래들에서 3번 또는 그이상 반복된다.

본 발명의 다른 특징에 따라, 노래의 코러스는 트랜스크립트를 사용하여 검출된다(폐쇄된 캡션 정보). 일반적으로, 코러스는 반복된 워드들을 포함하는 노래의 섹션들을 검출함으로써 식별된다. 폐쇄된 캡션들이 완전하지 않고, 예를 들어 인쇄상 에러들 또는 누락들을 포함할 수 있다. 도 13은 코러스 거물 처리(1300)의 예시적인 실행의 흐름도이다. 도 13 및 이후 논의된 바와 같이, 코러스 검출 처리(1300)는 단계(1310) 동안 폐쇄된 캡션들상 키 어구 검출, 단계(1320) 동안 잠재적인 코러스 검출, 단계(1330) 동안 코러스 후보 확인 및 단계(1340) 동안 불규칙적인 코러스 검출 및 포스트 분석을 수행함으로써 코러스 세그먼트들을 인식한다. 마지막으로, 자동상관 분석은 임의의 코러스(들)을 식별하기 위하여 단계(1350) 동안 수행된다.

키어구 식별(단계 1310)

코러스는 가장 자주 반복되는 노래의 가사들을 포함한다. 어구를 검출하고 클러스터함으로써 코러스 세그먼트들의 임시 위치는 식별될 수 있다. 코러스를 포함하는 잠재적인 섹션들을 선택하기 위하여, 노래에 존재하는 어구들의 계수 표시(카운트)는 컴파일된다. 이들 어구들은 트랜스크립트로부터 얻어지고 콤마 또는 마침표 같은 구분 문자들에 의해 분리되는 텔레비젼 스크린상 텍스트 라인 또는 라인의 부분들을 나타낸다. 각각의 새로운 어구에 대하여, 어구가 계수 표시에서 존재하고 상기 어구에 대한 카운터를 전체적으로 증가시키는지가 결정된다. 만약 그렇지 않다면, 새로운 저장소는 새로운 어구를 위하여 생성되고 카운터는 상기 저장소에서 하나로 시작된다. 이런 처리는 각각의 노래들에 대한 모든 텍스트에서 반복된다. 노래의 종료시, 반복 어구들은 키 어구들로서 지정된다.

후보 코러스 검출(단계 1320)

코러스 세그먼트에 대한 잠재적인 후보들은 두번 이상의 키 어구들의 발생을 포함하는 것이다. 이들 세그먼트들을 발견하기 위하여, 키 어구들의 각각이 발생하는 타임스탬프들은 식별된다. 키 어구의 각각의 타임스탬프에 대하여, 잠재적인 코러스는 지정된다. 만약 이런 잠재적인 코러스가 다른 코러스의 n 초내에 있다면, 그들이 합병된다. 다수의 노래들의 검사에 기초하여, 코러스들이 30 초 길이 이내(n=30)인 것이 가정된다.

코러스 후보 확인(단계 1330)

두개 이상의 키 어구들을 포함하는 후보자들은 코러스들로서 선택된다. 만약 3개 이상의 코러스들이 선택되면, 다음과 같이 정의되는 가장 높은 밀도의 키 어구들을 가진 3개의 코러스들은 결정된다 :

밀도 =

불규칙 코러스 검출 및 포스트 분석(단계 1340)

요약을 위하여, 단지 하나의 코러스는 올바르게 결정될 필요가 있다. 사용자들에게 표시될 "키-코러스(key-chorus)"는 식별된다. 다른 코러스들의 기간(15 내지 30 초가 일반적이지는 않음)과 관련하여 노래의 변수가 크다. 이런 변수는 코러스들의 위치 및 길이를 예측하기 위하여 도전되고 있다. 3개의 코러스들의 중간 길이인 코러스는 선택된다. 제 1 코러스는 또한 제 1 코러스와 함께 노래에 "리드(lead)"되도록 코러스들의 여분으로 바람직하다. 또한, 노래내의 코러스의 배치는 가변한다. 최종 코러스 분석은 다른 코러스들로부터 합리적인 간격을 가진 코러스를 선택하기 위하여 사용된다.

자동상관 분석(단계 1350)

오디오 콘텐트 분석시, 조사자들은 코러스를 발견하기 위하여 자동 상관을 사용했다. 예를 들어 제이. 푸티(J. Foote)에 의한 여기에 통합된 "자체 유사성을 사용하는 뮤직 및 오디오 시각화(Visualizing Music and Audio Using Self Similarity)", AMC 멀티미디어 회보(Proc. ACM Multimedia) '99, 77-80, 올랜도, 플로리다(11월., 1999)를 참조한다. 자동상관 분석은 본 발명에 의해 노래의 구조를 가시화하기 위하여 트랜스크립트상에 사용된다. 자동상관 기능을 발견하기 위하여, 트랜스크립트의 모든 워드들은 두개의 크기로 놓이고 양쪽 크기들상 워드들이 동일한지에 따라 1 및 0으로 매트릭스를 채운다. 이 매트릭스는 코러스들이 노래에서 발생하는 지시를 주는 이런 뷰(view)의 피크(peak)들을 결정하기 위하여 대각선으로 프로젝팅된다.

뮤직 비디오 요약

뮤직 비디오 요약은 다른 매체(오디오, 비디오 및 트랜스크립트)로부터 유도된 콘텐트 엘리먼트들로 구성된다. 예시적인 실시예에서, 베이시안 빌리프 네트워크들은 뮤직 비디오의 일반적인 콘텐트 엘리먼트들뿐 아니라 뮤직 이벤트들의 전이부들을 캡쳐하고 구성의 구조를 캡쳐하기 위하여 사용된다. 예를 들어 악기와 독창(V) 및 코러스(C) 이벤트들을 가지는 BBN들은 노래들을 모델화하기 위하여 사용될 수 있다. 주어진 노래에서 뮤지컬 이벤트들의 주문은 예를 들어 VVC VCC일 수 있다. 그러나, 많은 노래들은 코러스 및 독창 사이의 브리지 섹션 같은 보다 복잡한 구조를 가질 수 있고, 많은 노래들에는 반복되지 않은 코러스가 있지만, 전체적인 노래는 하나의 단일 모놀리식 독창이다. BBN 방법으로 인해, 비록 뮤지컬 이벤트들중 하나가 누락되도, 합리적인 요약이 여전히 얻어진다.

도 14는 요약을 형성하는 비디오로부터 엘리먼트들을 발견하기 위하여 사용된 기능을 모델화하기 위하여 사용될 수 있는 베이시안 빌리프 네트워크(1400)를 도시한다. 중요한 세그먼트를 결정하기 위한 후보 가능성은 다음과 같이 계산될 수 있다.

상기 방정식은 조건적인 확률을 계산하기 위한 일반적인 경우를 준다. 도 14에서 주어진 모델을 위하여, 가능성은 다음과 같이 계산될 수 있다 :

여기서

= {제목, 클로우즈업, 코러스, 뮤직}.

m의 값은 예시적인 엘리먼트에 4개의 매체 엘리먼트들이 있기 때문에 넷(4)이다. n의 값은 가능성들이 취할 수 있는 값들의 수에 따라 각각의 매체 엘리먼트들에 대해 가변한다. 예를 들어, P(제목)에 대한 값은 텍스트로 커버되는 이미지의 퍼센트에 따라 0.1의 단계들을 가진 0 및 1 사이의 값일 수 있다. 따라서, n은 여기서 10이다. 모 노드들에서 모션, 오디오-텍스쳐, 및 리드 악기/가수 하이라이트 같은 부가적인 특징들은 포함될 수 있다.

선택 기준은 각각의 매체 엘리먼트들에 대한 요약에 표시될 콘텐트를 결정한다. 요약은 다음과 같이 정의된 선택 기능들로부터의 출력이다.

뮤직 비디오의 요약은 모든 상기 선택 기능들의 출력으로 구성된 세트이다 :

비디오로부터 유도된 이들 엘리먼트들외에, 가수, 제목 및 앨범 같은 하이 레벨 정보는 부가될 수 있다. 이런 하이 레벨 정보는 예를 들어 요약을 완성하기 위하여 인터넷으로부터 추출될 수 있다.

물론, 베이시안 빌리프 네트워크들은 요약을 위한 중요한 엘리먼트들의 선택을 모델화하기 위한 한가지 방법이다. 에이치. 순다람(H. Sundaram) 등에 의한 "오디오 비주얼 스킴들의 자동 생성을 위한 유틸리티 프레임워크(A Utility Framework for the Automatic Generation of Audio-Visual Skims)", AMC 멀티미디어(ACM Multimedia) 2002, 후안 레스 핀(Juan Les Pin)(12월 1-5, 2002)에서 기술된 바와같은 순다람의 이용 최대화 프레임워크(Sundaram's Utilization Maximization Framework), 또는 유-페이 마(Yu-Fei Ma) 등에 의한 "비디오 요약화를 위한 사용자 어텐션 모델(A User Attention Model for Video Summarization)" AMC 멀티미디어(ACM Multimedia) 2002, 후안 레스 핀(Juan Les Pin)(12월 1-5, 2002)에서 기술된 바와같은 요약을 위한 Ma의 사용자 주의 모델을 적용하는 것을 생각할 수 있다. 이들 모델들은 요약을 위한 모델을 생성한다. 알고리즘의 디자이너가 결정하는 이런 모델은 중요하다. 관리되지 않은 머신 학습 기술들은 고유 구조 패턴들 및 하이라이트들을 발견하기 위한 뮤직 비디오 가시화부 및 요약부에 적용될 수 있다.

요약은 사용자 인터페이스 및 도시된 정보 타입 모두에 대하여 개인화될 수 있다. 사용자들은 표시된 요약의 특정 콘텐트 및 요약을 수신하고 싶어하는 인터페이스 형태를 선택할 수 있다. 적거나 많은 정보 및 정보의 배치 같은 차이는 사용자 설정에 기초하여 변경될 수 있다. 사용자들은 요약에 포함된 것을 선택할 수 있다. 사용자들은 그들이 보기를 원하는 정보 형태를 지시하기 위하여 짧은 표본 조사표를 채울 수 있다.

종래에 알려진 바와 같이, 여기에 논의된 방법들 및 장치들은 상기에서 실현된 컴퓨터 판독가능 코드 수단을 가진 컴퓨터 판독 가능매체를 자체적으로 포함하는 제조 품목으로서 배포될 수 있다. 컴퓨터 판독가능 프로그램 코드 수단은 컴퓨터 시스템과 관련하여, 여기에 논의된 방법들을 수행하거나 장치를 생성하기 위하여 모든 또는 일부의 단계들을 수행하도록 동작할 수 있다. 컴퓨터 판독 가능 매체는 레코드 가능한 매체(예를 들어, 플로피 디스크들, 하드 드라이브들, 컴팩트 디스크들, 또는 메모리 카드들)일 수 있거나 전송 매체(예를 들어, 광섬유, 월드-와이드 웹, 케이블들, 또는 시분할 다중 액세스, 코드 분할 다중 액세스, 또는 다른 라디오 주파수 채널을 사용하는 무선 채널)일 수 있다. 컴퓨터 시스템에 사용하기에 적당한 정보를 저장할 수 있는 알려지거나 개발된 임의의 매체는 사용될 수 있다. 컴퓨터 판독 가능 코드 수단은 컴퓨터가 자기 매체상 자기 변화들 또는 컴팩트 디스크 표면상 높이 변화들 같은 명령들 및 데이터를 판독하게 하는 임의의 메카니즘이다.

여기에 각각 기술된 컴퓨터 시스템들 및 서버들은 여기에 개시된 방법들, 단계들, 및 기능들을 실행하기 위하여 연관된 처리기들을 구성할 메모리를 포함한다. 메모리들은 분산되거나 로컬적이고 처리기들은 분산되거나 단일체일 수 있다. 메모리들은 전기, 자기 또는 광학 메모리, 또는 이들의 임의의 결합 또는 다른 형태의 저장 장치들로서 실행될 수 있다. 게다가, 용어 "메모리(memory)"는 연관된 처리기에 의해 액세스되는 어드레스 가능한 공간의 어드레스로부터 판독되거나 기입될 수 있는 임의의 정보를 포함하기에 충분히 넓게 해석되어야 한다. 이런 정의로 인해, 네트워크상 정보는 연관된 처리기가 네트워크로부터 정보를 탐색하기 때문에 여전히 메모 리내에 있다.

여기에 도시된 기술된 실시예들 및 변형들이 본 발명의 원리들을 단순히 도시하고 다양한 변형들이 본 발명의 범위 및 사상으로부터 벗어나지 않고 당업자에 의해 실행될 수 있다는 것이 이해되어야 한다.

Claims

멀티미디어 스트림(505)에서 뮤직 비디오(507)를 분할하는 방법에 있어서,

적어도 하나의 뮤직 비디오(507)를 포함하는 멀티미디어 스트림(505)을 수신하는 단계;

상기 멀티미디어 스트림(505)에 관련된 복수의 콘텐트 특징들(1210, 1220, 1230)을 평가함으로써 상기 멀티미디어 스트림(505)으로부터 상기 적어도 하나의 뮤직 비디오(507)를 분할하는 단계; 및

상기 적어도 하나의 뮤직 비디오(507)를 식별하는 단계를 포함하는, 뮤직 비디오 분할 방법.
제 1 항에 있어서, 상기 적어도 하나의 뮤직 비디오(507)의 요약(410)을 생성하는 단계를 더 포함하는, 뮤직 비디오 분할 방법.
제 1 항에 있어서, 상기 적어도 하나의 뮤직 비디오(507)의 상기 요약(410)은 개인화된 선호도들에 기초하여 사용자에게 표시되는, 뮤직 비디오 분할 방법.
제 1 항에 있어서, 상기 적어도 하나의 뮤직 비디오(507)는 개인화된 선호도들에 기초하여 사용자에 의해 탐색될 수 있는 것을 특징으로 하는 뮤직 비디오 분할 방법.
제 1 항에 있어서, 상기 복수의 콘텐트 특징들(1210, 1220, 1230)은 상기 적어도 하나의 뮤직 비디오(507)를 식별하기 위한 패턴 인식 엔진(1000)을 사용하여 처리되는, 뮤직 비디오 분할 방법.
제 1 항에 있어서, 상기 복수의 콘텐트 특징들(1210, 1220, 1230)은 상기 적어도 하나의 뮤직 비디오(507)를 식별하기 위한 베이시안 빌리프 네트워크(Bayesian Belief Network: 1000)를 사용하여 처리되는, 뮤직 비디오 분할 방법.
제 1 항에 있어서, 상기 복수의 콘텐트 특징들(1210, 1220, 1230)은 상기 적어도 하나의 뮤직 비디오(507)를 식별하기 위한 하나 이상의 비디오 분할 규칙들(1115)을 사용하여 처리되는, 뮤직 비디오 분할 방법.
제 1 항에 있어서, 상기 복수의 콘텐트 특징들(1210, 1220, 1230)은 상기 멀티미디어 스트림(505) 내의 페이스들의 프리젠테이션에서의 패턴들을 평가하기 위한 페이스 존재 특징(face presence feature)를 포함하는, 뮤직 비디오 분할 방법.
제 1 항에 있어서, 상기 복수의 콘텐트 특징들(1210, 1220, 1230)은 비디오텍스트가 상기 멀티미디어 스트림(505)에 나타나는 때를 결정하는 비디오텍스트 존재 특징을 포함하는, 뮤직 비디오 분할 방법.
제 1 항에 있어서, 상기 복수의 콘텐트 특징들(1210, 1220, 1230)은 상기 멀티미디어 스트림(505)의 컬러 콘텐트에서 패턴들을 평가하기 위하여 컬러 히스토그램 특징을 포함하는, 뮤직 비디오 분할 방법.
제 1 항에 있어서, 상기 복수의 콘텐트 특징들(1210, 1220, 1230)은 상기 멀티미디어 스트림(505)의 카메라 커트들(cuts) 및 이동들의 패턴들을 평가하기 위하여 카메라 커트 특징을 포함하는, 뮤직 비디오 분할 방법.
제 1 항에 있어서, 상기 복수의 콘텐트 특징들(1210, 1220, 1230)은 상기 적어도 하나의 뮤직 비디오(507)의 트랜스크립트로부터 얻어진 키 워드들의 분석을 포함하는, 뮤직 비디오 분할 방법.
제 1 항에 있어서, 상기 복수의 콘텐트 특징들(1210, 1220, 1230)은 상기 멀티미디어 스트림으로부터 직접적으로 유도된 낮은 레벨 특징들의 분석을 포함하는, 뮤직 비디오 분할 방법.
제 13 항에 있어서, 상기 낮은 레벨 특징들은 하나 이상의 다수의 에지들 또는 형태들 또는 로컬 또는 글로벌 모션을 포함하는, 뮤직 비디오 분할 방법.
제 1 항에 있어서, 상기 복수의 콘텐트 특징들(1210, 1220, 1230)은 오디오 특징을 포함하는, 뮤직 비디오 분할 방법.
제 15 항에 있어서, 상기 오디오 특징은 상기 멀티미디어 스트림(505)의 볼륨을 평가하는, 뮤직 비디오 분할 방법.
제 15 항에 있어서, 상기 오디오 특징은 하나 이상의 멜 프리퀀시 셉스트랄 계수(mel frequency cepstral coefficient: MFCC), 선형 예측 계수(linear predictive coefficient: LPC), 또는 피치 대역폭의 변화들, 볼륨 또는 톤을 평가하는, 뮤직 비디오 분할 방법.
제 1 항에 있어서, 외부 소스로부터 상기 적어도 하나의 뮤직 비디오에 대한 정보를 식별하는 것을 얻는 단계를 더 포함하는, 뮤직 비디오 분할 방법.
적어도 하나의 뮤직 비디오(507)에서 코러스를 검출하기 위한 방법에 있어서,

상기 적어도 하나의 뮤직 비디오(507)를 포함하는 멀티미디어 스트림(505)을 수신하는 단계;

상기 적어도 하나의 뮤직 비디오(507)와 연관된 트랜스크립트를 액세스하는 단계; 및

상기 트랜스크립트에서 워드들의 반복에 기초하여 상기 코러스를 검출하는 단계를 더 포함하는, 코러스 검출 방법.
제 19 항에 있어서, 상기 트랜스크립트는 폐쇄 캡션 정보로부터 얻어지는, 코러스 검출 방법.
제 19 항에 있어서, 상기 코러스는 상기 적어도 하나의 뮤직 비디오(507)의 요약(410)의 자동 생성을 위해 채용되는, 코러스 검출 방법.
제 19 항에 있어서, 상기 반복된 워드들을 검출 및 클러스터하는 단계를 더 포함하는, 코러스 검출 방법.
제 19 항에 있어서, 상기 검출 단계는 상기 멀티미디어 스트림에 관련된 부가적인 콘텐트 특징들에 더 기초하는, 코러스 검출 방법.
제 19 항에 있어서, 외부 소스로부터 상기 적어도 하나의 뮤직 비디오에 대한 정보를 식별하는 것을 얻는 단계를 더 포함하는, 코러스 검출 방법.
멀티미디어 스트림(505)에서 뮤직 비디오(507)를 분할하는 장치에 있어서,

메모리(280); 및

상기 메모리(280)에 결합된 적어도 하나의 제어기(270)로서,

적어도 하나의 뮤직 비디오(507)를 포함하는 멀티미디어 스트림(505)을 수신하고;

상기 멀티미디어 스트림(505)으로부터 상기 적어도 하나의 뮤직 비디오(507)를 분할하기 위하여 패턴 인식 엔진(1000)에 상기 멀티미디어 스트림(505)과 연관된 복수의 콘텐트 특징들(1210, 1220, 1230)을 적용하고;

상기 적어도 하나의 뮤직 비디오(507)를 식별하도록 동작하는, 상기 제어기(207)을 포함하는, 뮤직 비디오 분할 장치.
제 25 항에 있어서, 상기 패턴 인식 엔진(1000)은 베이시안 빌리프 네트워크인, 뮤직 비디오 분할 장치.
제 25 항에 있어서, 상기 패턴 인식 엔진(1000)은 뉴럴 네트워크(neural network)인 것을 특징으로 하는 뮤직 비디오 분할 장치.
제 25 항에 있어서, 상기 패턴 인식 엔진(1000)은 자동 회구 이동 평균 기술(Auto Regressive Moving Average Technique)을 채용하는, 뮤직 비디오 분할 장치.
제 25 항에 있어서, 상기 복수의 콘텐트 특징들(1210, 1220, 1230)은 적어도 두개의 페이스 존재 특징; 비디오텍스트 존재 특징; 컬러 히스토그램 특징; 카메라 커트 특징; 및 상기 적어도 하나의 뮤직 비디오(507)의 트랜스크립트로부터 얻어진 키 워드들의 분석을 포함하는, 뮤직 비디오 분할 장치.
멀티미디어 스트림(505)에서 뮤직 비디오(507)를 분할하는 장치에 있어서,

메모리(280); 및

상기 메모리(280)에 결합된 적어도 하나의 제어기(270)로서,

적어도 하나의 뮤직 비디오(507)를 포함하는 멀티미디어 스트림(505)를 수신하고;

상기 멀티미디어 스트림(505)으로부터 상기 적어도 하나의 뮤직 비디오(507)를 분할하기 위하여 하나 이상의 비디오 분할 규칙들(1115)에 상기 멀티미디어 스트림(505)에 관련된 복수의 콘텐트 특징들(1210, 1220, 1230)을 적용하고;

상기 적어도 하나의 뮤직 비디오(507)를 식별하도록 동작하는, 상기 제어기를 포함하는, 뮤직 비디오 분할 장치.
제 30 항에 있어서, 상기 복수의 콘텐트 특징들(1210, 1220, 1230)은 페이스 존재 특징; 비디오텍스트 존재 특징; 컬러 히스토그램 특징; 카메라 커트 특징; 및 상기 적어도 하나의 뮤직 비디오(507)의 트랜스크립트로부터 얻어진 키 워드들의 분석중 적어도 두개를 포함하는, 뮤직 비디오 분할 장치.
제 30 항에 있어서, 상기 하나 이상의 비디오 분할 규칙들(1115)은 비디오 분할이 일어나는 때를 결정하기 위하여 상기 복수의 콘텐트 특징들(1210, 1220, 1230)에 대한 임계치를 정의하는 것을 특징으로 하는 뮤직 비디오 분할 장치.