KR101109023B1 - 콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치 - Google Patents

콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치 Download PDF

Info

Publication number
KR101109023B1
KR101109023B1 KR1020057019649A KR20057019649A KR101109023B1 KR 101109023 B1 KR101109023 B1 KR 101109023B1 KR 1020057019649 A KR1020057019649 A KR 1020057019649A KR 20057019649 A KR20057019649 A KR 20057019649A KR 101109023 B1 KR101109023 B1 KR 101109023B1
Authority
KR
South Korea
Prior art keywords
video
music video
music
delete delete
chorus
Prior art date
Application number
KR1020057019649A
Other languages
English (en)
Other versions
KR20060008897A (ko
Inventor
라리타 아그니호트리
네벤카 디미트로바
존 켄더
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20060008897A publication Critical patent/KR20060008897A/ko
Application granted granted Critical
Publication of KR101109023B1 publication Critical patent/KR101109023B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Television Signal Processing For Recording (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

콘텐트 분석을 사용하여 멀티미디어 스트림(505)에서 뮤직 비디오(507)를 분할하고 요약하기 위한 방법 및 장치가 제공된다. 뮤직 비디오(507)는 멀티미디어 스트림에 관련된 복수의 콘텐트 특징들을 평가하여 멀티미디어 스트림(505)으로 분할된다. 복수의 콘텐트 특징들은 페이스 존재 특징; 비디오텍스트 존재 특징; 컬러 히스토그램 특징; 오디오 특징; 카메라 커트(cut) 특징; 및 적어도 하나의 뮤직 비디오의 트랜스크립트(transcript)로부터 획득된 키워드들의 분석 중 적어도 두 개를 포함한다. 복수의 콘텐트 특징들은 멀티미디어 스트림(505)에서 뮤직 비디오(57)를 식별하기 위하여 베이시안 빌리프 네트워크(Bayesian Belief Network) 같은 패턴 인식 엔진(1000) 또는 하나 이상의 비디오 분할 규칙(1115)을 사용하여 처리된다. 코러스는 트랜스크립트 내에서의 단어들의 반복에 기초하여 뮤직 비디오(507)의 트랜스크립트(T)를 사용하여 적어도 하나의 뮤직 비디오(507)에서 검출된다. 추출된 코러스는 뮤직 비디오(507)의 요약의 자동 생성을 위하여 사용될 수 있다.
컬러 히스토그램 특징, 트랜스크립트, 뮤직 비디오, 멀티미디어 스트림

Description

콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치{Method and apparatus for summarizing a music video using content analysis}
본 출원은 2003년 4월 14일 출원된 미국가출원 제60/462,777호; 및 1999년 11월 17일 출원되고 발명의 명칭이 "비디오 스트림 분류가능한 심볼 격리 방법 및 시스템(Video Stream Classifiable Symbol Isolation Method and System)"인 미국특허출원 제09/441,943호에 관련된 것이고, 각각은 여기에 참조로써 통합된다.
본 발명은 비디오 요약 기술들, 특히 뮤직 비디오들을 색인하고 요약하는 방법들 및 장치들에 관한 것이다.
뮤직 비디오 프로그래밍은 퓨즈(Fuse), VH1, MTV 및 MTV2를 포함하는 다수의 텔레비전 채널들에서 이용할 수 있다. www.buymusic.com 같은 다수의 대중적인 웹 사이트에서 사용자가 개별적인 노래들의 오디오 부분들을 브라우징하고 획득할 수 있지만, 비디오 레코더들 및 다른 비디오 기반 애플리케이션들은 단지 사용자가 다수의 뮤직 비디오들을 갖는 프로그램들을 포함하는 전체 프로그램을 획득할 수 있게 한다. 현재 자동으로 개별적인 뮤직 비디오들을 획득하는 방법은 없다. 따라서, 시청자가 하나 이상의 뮤직 비디오들을 포함하는 전체 프로그램을 레코딩하면, 상기 레코딩은 광고들 및 사설들 같은 뮤직 비디오가 아닌 부분들도 모두 포함할 것이다. 뮤직 비디오들을 시청하기 위하여, 시청자는 원하는 뮤직 비디오 부분에 도달할 때까지 뮤직 비디오가 아닌 부분들을 지나 레코딩을 고속감기를 해야만한다. 게다가, 비디오 재생 장치의 대용량의 레코딩 용량이 광고들 및 다른 대화들 같은 원하지 않는 자료를 레코딩하는데 사용된다.
콘텐트 분석 방법들은 강조 부분들 같은 프로그램의 특정 부분들에의 고레벨 액세스를 제공하기 위하여 제안 또는 제시되었다. 비디오 요약 방법들은 뉴스, 스포츠 및 영화들을 포함하는 여러 타입의 프로그래밍에 대하여 개발되었다. "인포미디어 프로젝트(InforMedia Project)"는, 예를 들어, 주로 음성 인식(speech recognition), 자연어 이해, 및 캡션 텍스트에 기초하여 각각의 비디오의 짧은 시놉시스(synopsis)를 생성하는 디지털 비디오 라이브러리 시스템이다. 에이. 하웁트만(A. Hauptmann)과 엠. 스미스(M. Smith)에 의한, "비디오 분할을 위한 텍스트, 음성, 및 영상: 더 인포미디어 프로젝트(Text, Speech, and Vision for Video Segmentation: The Informedia Project)", 미국 인공 지능 협회(AAAI), 1995년, 가을, 언어와 영상을 통합하기 위한 계측적 모델들에 대한 심포지움(Symposium on Computational Models for Integrating Language and Vision(1995))을 참조하자.
그러나, 음악 분석 및 탐색 영역에서의 연구는 대체로 오디오 측면에 집중되어 있다. 예를 들어, 비. 로건(B.Logan)과 에스. 추(S. Chu)에 의한 "핵심 어구들을 사용한 음악 요약화(Music Summarization Using Key Phrases)", 음향, 음성 및 신호 처리에 관한 국제 컨퍼런스(Int'l Conf. on Acoustics, Speech and Signal Processing), 2000년은 오디오 썸네일(thumbnails)을 생성하기 위해 대중 음악의 선택시에 핵심 어구를 찾기 위한 알고리즘들을 개시한다. 제이. 푸티(J. Foote)에 의한 "자체 유사성을 사용한 음악 및 오디오의 시각화(Visualizing Music and Audio Using Self Similarity)", ACM 멀티미디어 회보 '99, 77-80, 1999년 11월은 오디오 신규성 측정의 응용으로서 오디오 "요지화(gisting)"를 도입했다. 이 오디오 신규성 점수는 오디오로부터 추출된 특징들에 기초하여 오디오의 프레임들을 비교하는 유사성 매트릭스에 기초한다. 따라서, 음악 콘텐트 분석이 연구의 활성 영역인 한, 뮤직 비디오들에 대한 분석 및 요약을 위한 개선된 기술들을 제공할 필요가 여전히 있다. 추가로, 멀티미디어 데이터 스트림에서 뮤직 비디오를 분할하고 관련 뮤직 비디오 정보를 포함하는 각각의 뮤직 비디오의 요약을 준비하는 방법들 및 장치들이 필요하다.
일반적으로, 콘텐트 분석을 사용하여 다중 스트림에서 뮤직 비디오를 분할하고 요약하기 위한 방법 및 장치가 제공된다. 뮤직 비디오는 멀티미디어 스트림과 관련된 복수의 콘텐트 특징들을 평가함으로써 본 발명에 따라 멀티미디어 스트림에서 분할된다. 복수의 콘텐트 특징들은 페이스(face) 존재 특징; 비디오텍스트 존재 특징; 컬러 히스토그램 특징; 오디오 특징; 카메라 커트(cut) 특징; 및 적어도 하나의 뮤직 비디오의 트랜스크립트(transcript)로부터 획득한 키워드들의 분석 중 적어도 두 개를 포함한다. 복수의 콘텐트 특징들은 멀티미디어 스트림에서 뮤직 비디오를 식별하기 위해 베이시안 빌리프 네트워크(Bayesian Belief Network) 같은 패턴 인식 엔진 또는 하나 이상의 비디오 분할 규칙들을 사용하여 처리된다.
본 발명의 일 측면에 따라, 페이스 존재 특징은 멀티미디어 스트림 내의 페이스의 프레젠테이션(presentation) 내의 패턴들을 평가한다. 초기에, 몇몇의 가능한 페이스 타입 라벨들 중 하나가 각각의 이미지 프레임에 할당된다. 그 후 이미지 프레임들은 할당된 페이스 타입 라벨들에 기초하여 클러스터링(clustering)되고 패턴들은 페이스 타입 라벨들의 클러스터들에서 분석되어, 비디오 경계들이 검출된다. 본 발명의 다른 측면에 따라, 컬러 히스토그램 특징은 멀티미디어 스트림의 컬러 콘텐트의 패턴들을 평가한다. 컬러 히스토그램은 각각의 이미지 프레임에 대하여 획득되고 그 후 이미지 프레임들이 히스토그램들에 기초하여 클러스터링된다. 패턴들이 히스토그램들의 클러스터들에서 분석되어 비디오 경계들이 검출된다. 카메라 커트 특징은 멀티미디어 스트림 내의 움직임들 및 카메라 커트들 내의 패턴을 평가한다. 오디오 특징은 멀티미디어 스트림의 오디오 콘텐트 내의 패턴들을 평가하기 위하여 개시된다. 예를 들어, 멀티미디어 스트림의 볼륨은 증가하는 및 감소하는 볼륨으로 나타내지는 노래의 시작 및 끝을 검출하기 위하여 평가될 수 있다.
본 발명의 다른 측면에 따라, 적어도 하나의 뮤직 비디오에서 코러스가 검출된다. 수신된 멀티미디어 스트림 내의 뮤직 비디오와 연관된 트랜스크립트가 액세스되고 트랜스크립트의 단어들 반복에 기초하여 코러스가 검출된다. 트랜스크립트는 예를 들어 폐쇄된 캡션 정보로부터 획득될 수 있다. 추출된 코러스는 뮤직 비디오의 요약의 자동 생성을 위하여 사용될 수 있다. 생성된 요약은 사용자 선호에 따라 사용자에게 프리젠테이션될 수 있고, 사용자 선호들에 따라 뮤직 비디오들을 검색하는데 사용될 수 있다.
본 발명의 보다 완벽한 이해, 및 본 발명의 다른 특징들 및 장점들은 다음 상세한 설명 및 도면들을 참조하여 얻어질 것이다.
도 1은 본 발명이 동작할 수 있는 예시적인 종래의 비디오 디스플레이 시스템을 도시한 도면.
도 2는 본 발명의 일 실시예에 따른, 도 1의 예시적인 비디오 디스플레이 시스템에서 뮤직 비디오들을 색인 및 요약하기 위한 시스템을 도시한 도면.
도 3은 본 발명의 특징들을 통합하는 뮤직 비디오 요약 처리들을 포함하는 메모리를 도시한 도면.
도 4는 본 발명의 일 실시예에 사용된 뮤직 비디오 요약 블록들을 포함하는 메모리를 도시한 도면.
도 5는 본 발명의 특징들을 통합하는 음악 색인 및 요약 처리의 예시적인 실행을 도시하는 흐름도.
도 6은 본 발명의 특징들을 통합한 예시적인 페이스 특징 분석 처리의 흐름도.
도 7은 본 발명의 특징들을 통합하는 예시적인 카메라 변화 분석 처리의 흐름도.
도 8은 본 발명의 특징들을 통합하는 예시적인 컬러 히스토그램 분석 처리의 흐름도.
도 9는 본 발명의 특징들을 통합한 예시적인 오디오 특징 분석의 흐름도.
도 10은 본 발명의 특징들을 통합한 예시적인 베이시안 빌리프 네트워크를 도시한 도면.
도 11은 비디오 분할 처리의 예시적인 실시예를 나타내는 흐름도.
도 12는 본 발명에 의해 모니터링되는 다양한 특징들의 예시적인 시간 라인 이미지들을 도시한 도면.
도 13은 코러스 검출 처리의 예시적인 실시예의 흐름도.
도 14는 자동으로 요약을 생성하기 위하여 비디오로부터 요소들을 찾아내기 위하여 사용될 수 있는 베이시안 빌리프 네트워크를 도시한 도면.
도 1은 본 발명의 일 실시예에 따른 예시적인 비디오 재생 장치(150) 및 텔레비전 세트(105)를 도시한다. 비디오 재생 장치(150)는 케이블 텔레비전 서비스 공급자, 로컬 안테나, 인터넷 서비스 공급자(ISP), DVD 또는 VHS 테이프 플레이어 같은 외부 소스로부터 인입 텔레비전 신호들을 수신한다. 비디오 재생 장치(150)는 시청자 선택 채널로부터 텔레비전 세트(105)로 텔레비전 신호들을 전송한다. 채널은 사용자에 의해 수동으로 선택되거나 사용자에 의해 이전에 프로그래밍된 레코딩 장치에 의해 자동으로 선택될 수 있다. 대안적으로, 채널 및 비디오 프로그램은 사용자의 개인 시청 히스토리 내의 프로그램 프로파일로부터의 정보에 기초하여 레코딩 장치에 의해 자동으로 선택될 수 있다. 본 발명이 예시적인 텔레비전 수신기의 문맥으로 기술되어있지만, 당업자는 본 발명의 예시적인 실시예가 임의의 타입의 비디오 디스플레이 시스템에 사용하기 위하여 쉽게 변형될 수 있다는 것을 인식할 것이다.
레코드 모드에서, 비디오 재생 장치(150)는 인입 무선 주파수(RF) 텔레비전 신호를 복조하여 비디오 재생 장치(150) 내의 저장 매체 상에 레코딩되고 저장되거나 상기 비디오 재생 장치(150)에 접속된 기저대역 비디오 신호를 생성할 수 있다. 재생 모드에서, 비디오 재생 장치(150)는 사용자에 의해 선택된 저장된 기저대역 비디오 신호(즉, 프로그램)를 저장 매체로부터 판독하고 그것을 텔레비전 세트(105)에 전송한다. 비디오 재생 장치(150)는 디지털 신호들을 수신하고, 레코딩하고, 상호작용하고, 재생할 수 있는 타입의 비디오 레코더를 포함할 수 있다.
비디오 재생 장치(150)는 레코딩 테이프, 또는 하드 디스크, 또는 고체 메모리, 또는 임의의 다른 타입의 레코딩 장치를 사용하는 타입의 비디오 레코더를 포함할 수 있다. 만약 비디오 재생 장치(150)가 비디오 카세트 레코더(VCR)이면, 비디오 재생 장치(150)는 자기 카세트 테이프에 인입 텔레비전 신호들을 저장하고 상기 자기 카세트 테이프로부터 인입 텔레비전 신호들을 탐색한다. 만약 비디오 재생 장치(150)가 리플레이TVTM 레코더 또는 TiVOTM 레코더 같은 디스크 드라이브 기반 장치이면, 비디오 재생 장치(150)는 자기 카세트 테이프보다는 컴퓨터 자기 하드디스크에 인입 텔레비전 신호들을 저장하고 상기 하드디스크로부터 인입 텔레비전 신호들을 탐색하고, 상기 하드 디스크로부터 저장된 텔레비전 신호들을 탐색한다. 다른 실시예들에서, 비디오 재생 장치(150)는 로컬 판독/기입(R/W) 디지털 다기능 디스크(DVD) 또는 판독/기입(R/W) 컴팩트 디스크(CD-RW)로부터 저장 및 탐색할 수 있다. 로컬 저장 매체는 고정된 것이거나(예를 들어, 하드 디스크 드라이브) 분리형일 수 있다(예를 들어, DVD, CD-ROM).
비디오 재생 장치(150)는 사용자에 의해 동작되는 원격 제어 장치(125)로부터 명령들(채널 업, 채널 다운, 볼륨 업, 볼륨 다운, 레코드, 재생, 고속감기(FF), 되감기 등)을 수신하는 적외선(IR) 센서(160)를 포함한다. 텔레비전 세트(105)는 스크린(110), 적외선(IR) 센서(115) 및 하나 이상의 수동 제어부들(120)(점선으로 표시됨)을 포함하는 종래의 텔레비전이다. IR 센서(115)는 또한 사용자에 의해 동작되는 원격 제어 장치(125)로부터 명령들(볼륨 업, 볼륨 다운, 전력 온, 전력 오프)을 수신한다.
비디오 재생 장치(150)가 특정 타입의 소스로부터 특정 타입의 인입 텔레비전 신호를 수신하는 것으로 한정되지 않는 것이 주의된다. 상기 주의된 바와 같이, 외부 소스는 케이블 서비스 공급자, 종래의 RF 방송 안테나, 위성접시, 인터넷 접속, 또는 DVD 플레이어 또는 VHS 테이프 플레이어 같은 다른 로컬 저장 장치일 수 있다. 몇몇 실시예들에서, 비디오 재생 장치(150)는 레코딩은 할 수 없고, 분리형 DVD 또는 CD-ROM으로부터 탐색된 텔레비전 신호들을 재생하는 것에만 제한될 수 있다. 따라서, 인입 신호는 디지털 신호, 아날로그 신호 또는 인터넷 프로토콜(IP) 패킷들일 수 있다.
그러나, 본 발명의 원리들을 간략하고 명료하게 설명하기 위하여, 다음의 설명들은 일반적으로 비디오 재생 장치(150)가 케이블 서비스 공급자로부터 인입 텔레비전 신호들(아날로그 및/또는 디지털)을 수신하는 실시예에 관한 것이다. 그럼에도 불구하고, 당업자들은 본 발명의 원리들이 무선 방송 텔레비전 신호들, 로컬 저장 시스템들, MPEG 데이터를 포함하는 IP 패킷들의 인입 스트림 등에 사용하기 위하여 쉽게 적용될 수 있다는 것을 이해할 것이다. 뮤직 비디오가 텔레비전(105)의 스크린(110) 상에서 디스플레이될 때, 뮤직 비디오의 시작에는 비디오 이미지의 하단에 텍스트 캡션(180)(비디오텍스트)이 일반적으로 디스플레이된다. 텍스트 캡션(180)은 일반적으로 노래의 제목, 앨범의 이름, 가수 또는 그룹의 이름, 발매일 및 다른 유사한 정보를 포함한다. 텍스트 캡션(180)은 또한 일반적으로 뮤직 비디오의 끝에 디스플레이된다. 텍스트 캡션(180)은 또한 비디오텍스트 블록(180)이라고도 불린다. 뮤직 비디오 요약 제어기(270)는 저장된 뮤직 비디오 요약 파일들(360) 모두의 리스트(190)에 액세스하고 텔레비전(105)의 스크린(110) 상에 리스트(190)를 디스플레이할 수 있다. 즉, 리스트(190)는 (1) 멀티미디어 데이터 스트림에서 검출된 모든 뮤직 비디오들의 뮤직 비디오 요약 파일들 및 (2) 각각의 뮤직 비디오를 레코드한 가수 또는 그룹의 식별을 디스플레이한다. 원격 제어 장치(125) 및 IR 센서(160)를 사용하여, 사용자는 뮤직 비디오 요약 제어기(270)에 "뮤직 비디오 요약 재생" 제어 신호를 송신하여 리스트(190) 내의 어떤 뮤직 비디오 요약 파일을 다음에 재생할지 선택한다. 이 방식으로 사용자는 뮤직 비디오 요약 파일들이 재생되는 순서를 선택한다.
도 2는 본 발명의 일 실시예에 따라, 보다 상세히 예시적인 비디오 재생 장치(150)를 도시한다. 비디오 재생 장치(150)는 IR 센서(160), 비디오 처리기(210), MPEG2 인코더(220), 하드 디스크 드라이브(230), MPEG2 디코더/NTSC 인코더(240), 및 비디오 레코더(VR) 제어기(250)를 포함한다. 비디오 재생 장치(150)는 프레임 그래버(grabber)(265)를 포함하는 비디오 유닛(260), 폐쇄형 캡션 디코더(275)를 포함하는 뮤직 비디오 요약 제어기(270), 및 메모리(280)를 더 포함한다. 프레임 그래버(265)는 MPEG2 디코더/NTSC 인코더(240)의 출력으로부터 비디오 프레임들을 캡쳐링하고 저장한다. 폐쇄형 캡션 디코더(275)는 MPEG2 디코더/NTSC 인코더(240)의 NTSC 출력 신호에서 폐쇄형 캡션 텍스트를 디코딩한다. 비록 폐쇄형 캡션 디코더(275)가 도 2에서 뮤직 비디오 요약 제어기(270) 내에 위치되는 것으로 도시었지만, 폐쇄형 캡션 디코더(275)가 뮤직 비디오 요약 제어기(270) 내에 반드시 위치되어야 하는 것은 아니다.
VR 제어기(250)는 시청 모드, 레코드 모드, 재생 모드, 고속감기(FF) 모드, 되감기 모드 및 다른 유사한 기능들을 포함하는 비디오 재생 장치(150)의 전체 동작을 지시한다. 뮤직 비디오 요약 제어기(270)는 본 발명의 원리들에 따른 뮤직 비디오 요약들의 생성, 저장 및 재생을 지시한다.
시청 모드에서, VR 제어기(250)는 케이블 서비스 공급자로부터의 인입 텔레비전 신호가 하드 디스크 드라이브(230) 상에 비디오 신호들을 저장(또는 하드 디스크 드라이브로부터 비디오 신호들을 탐색)하거나 또는 하지 않으면서 복조되고 비디오 처리기(210)에 의해 처리되고 텔레비전 세트(105)에 전송되게 한다. 비디오 처리기(210)는 케이블 서비스 공급자로부터 인입 텔레비전 신호들을 수신하고, 사용자 선택 채널로 튜닝(tuning)하고, 선택된 RF 신호를 텔레비전 세트(105) 상에 디스플레이하기에 적당한 기저대역 텔레비전 신호(예를 들어, 슈퍼 비디오 신호)로 변환시키기 위하여 무선 주파수(RF) 전단 회로를 포함한다. 비디오 처리기(210)는 또한 (비디오 유닛(260)의 비디오 버퍼(265)에 버퍼링한 후) 재생 모드 동안 MPEG2 디코더/NTSC 인코더(240)로부터 종래의 NTSC 신호를 수신하고 기저대역 텔레비전 신호를 텔레비전 세트(105)에 전송할 수 있다.
레코드 모드에서, VR 제어기(250)는 인입 텔레비전 신호가 하드 디스크 드라이브(230) 상에 저장되게 한다. VR 제어기(250)의 제어 하에서, MPEG2 인코더(220)는 케이블 서비스 공급자로부터 인입 아날로그 텔레비전 신호를 수신하고 수신한 RF 신호를 하드 디스크 드라이브(230) 상에 저장하기 위해 MPEG2 포맷으로 변환시킨다. 대안적으로, 만약 비디오 재생 장치(150)가 MPEG2 데이터를 전송하는 소스에 결합되면, 인입 MPEG2 데이터는 MPEG2 인코더(220)를 건너뛰고 하드 디스크 드라이브(230) 상에 바로 저장될 수 있다.
재생 모드에서, VR 제어기(250)는 하드 디스크 드라이브(230)로부터의 MPEG2 데이터를 예를 들어 비디오 처리기(210)가 텔레비전 세트(105)에 전송하는 슈퍼 비디오(S-Video) 신호로 변환시키는 MPEG2 디코더/NTSC 인코더(240)에 저장된 텔레비전 신호(즉, 프로그램)를 스트리밍하도록 하드 디스크 드라이브(230)에게 지시한다.
MPEG2 인코더(220) 및 MPEG2 디코더/NTSC 인코더(240)에 대한 MPEG2 표준의 선택은 단지 예시일 뿐이란 것이 주의되어야 한다. 본 발명의 대안적인 실시예들에서, MPEG 인코더 및 디코더는 MPEG-1, MPEG-2 및 MPEG-4 표준들 중 하나 이상, 또는 다른 타입의 표준들 중 하나 이상을 따를 수 있다.
본 출원 및 하기의 청구항들을 위하여, 하드 디스크 드라이브(230)는 이에 한정되는 것은 아니지만, 판독/기입 디지털 다기능 디스크들(DVD-RW), 재기입가능 CD-ROM들, VCR 테이프들 등을 위한 종래 자기 디스크 드라이브들 및 광학 디스크 드라이브들을 포함하는 판독 및 기입가능한 임의의 대용량 저장 장치를 포함하는 것으로 정의된다. 실제로, 하드 디스크 드라이브(230)는 비디오 재생 장치(150)에 영구적으로 내장된 종래 의미로 고정될 필요는 없다. 오히려, 하드 디스크 드라이브(230)는 레코딩된 비디오 프로그램들을 저장하기 위한, 비디오 재생 장치(150) 전용인 임의의 대용량 저장 장치를 포함한다. 따라서, 하드 디스크 드라이브(230)는 몇몇의 판독/기입 DVD들 또는 재기입가능 CD-ROM들을 보유하는 쥬크 박스 장치(도시되지 않음)와 같은 부착된 주변 장치 또는 분리형 디스크 드라이브들(내장되거나 부착됨)을 포함할 수 있다. 도 2에 개략적으로 도시된 바와 같이, 이 타입의 분리형 디스크 드라이브들은 재기입가능 CD-ROM 디스크(235)를 수용하고 판독할 수 있다.
게다가, 본 발명의 유용한 실시예에서, 하드 디스크 드라이브(230)는 비디오 재생 장치(150)가 예를 들어 사용자의 가정용 개인 컴퓨터(PC)의 디스크 드라이브 또는 사용자의 인터넷 서비스 공급자(ISP)에의 서버 상의 디스크 드라이브를 포함하는, 네트워크 접속(예를 들어, 인터넷 프로토콜 (IP) 접속)을 통해 액세스하고 제어할 수 있는 외부 대용량 저장 장치들을 포함할 수 있다.
VR 제어기(250)는 비디오 처리기(210)에 의해 수신되는 비디오 신호들에 관한 정보를 비디오 처리기(210)로부터 획득한다. 비디오 재생 장치(150)가 비디오 프로그램을 수신한다고 VR 제어기(250)가 결정할 때, VR 제어기(250)는 비디오 프로그램이 레코딩되도록 선택된 것인지 여부를 결정한다. 만약 비디오 프로그램이 레코딩될 것이면, VR 제어기(250)는 비디오 프로그램이 전술된 방식으로 하드 디스크 드라이브(230) 상에 레코딩되게 한다. 만약 비디오 프로그램이 레코딩될 것이 아니면, VR 제어기(250)는 비디오 프로그램이 전술된 방식으로 비디오 처리기(210)에 의해 처리되어 텔레비전 세트(105)에 전송되게 한다.
본 발명의 예시적인 실시예에서, 메모리(280)는 랜덤 액세스 메모리(RAM) 또는 랜덤 액세스 메모리(RAM)와 판독 전용 메모리(ROM)의 조합을 포함할 수 있다. 메모리(280)는 플래시 메모리 같은 비휘발성 랜덤 액세스 메모리(RAM)를 포함할 수 있다. 텔레비전 세트(105)의 대안적인 유익한 실시예에서, 메모리(280)는 하드 디스크 드라이브(도시되지 않음) 같은 대용량 데이터 저장 장치를 포함할 수 있다. 메모리(280)는 판독/기입 DVD들 또는 재기입가능 CD-ROM들을 판독하는 부착된 주변 장치 또는 분리형 디스크 드라이브들(내장되거나 부착됨)을 또한 포함할 수 있다. 도 2에 개략적으로 도시된 바와 같이, 이 타입의 분리형 디스크 드라이브들은 재기입가능 CD-ROM 디스크(285)를 수용 및 판독할 수 있다.
도 3은 본 발명의 뮤직 비디오 요약 컴퓨터 소프트웨어(300)를 포함하는 메모리(280)의 선택된 부분을 도시한다. 메모리(280)는 운영 체제 인터페이스 프로그램(310), 뮤직 비디오 분할 애플리케이션(320), 뮤직 비디오 식별 애플리케이션(330), 뮤직 비디오 요약 애플리케이션(340), 뮤직 비디오 요약 블록들(350) 및 뮤직 비디오 요약 파일들(360)을 포함한다. 뮤직 비디오 요약 제어기(270) 및 뮤직 비디오 요약 컴퓨터 소프트웨어(300)는 함께 본 발명을 수행할 수 있는 뮤직 비디오 요약 제어 시스템을 포함한다. 운영 체제 인터페이스 프로그램(310)은 VR 제어기(250) 및 뮤직 비디오 요약 제어기(270)의 운영 체제와 뮤직 비디오 요약 컴퓨터 소프트웨어(300)의 동작을 조정한다.
도 4는 본 발명의 유익한 실시예의 일 부분으로서의 뮤직 비디오 요약 블록들(350)의 한 그룹을 도시한다. 본 발명의 뮤직 비디오 요약 제어기(270)는 뮤직 비디오에 관련하여 획득한 정보를 뮤직 비디오 요약 블록(예를 들어, 뮤직 비디오 요약 블록(410))에 저장한다. 도 4에 도시된 바와 같이, 뮤직 비디오 요약 블록들(350)의 그룹은 N개의 뮤직 비디오 요약 블록들(410, 470,...,480)을 포함한다(여기서, N은 정수임). 도 4에 도시된 예시적인 뮤직 비디오 요약 블록(410)은 각각의 뮤직 비디오 요약 블록이 포함할 수 있는 정보의 타입을 예시한다. 예시적인 뮤직 비디오 요약 블록(410)은 제목, 앨범, 가수, 레코딩 스튜디오 및 발매일 블록들(420, 430, 440, 450 및 460)을 각각 포함한다. 이들 카테고리들은 예시적일 뿐 배타적이지 않다. 즉, 다른 타입의 정보(도시되지 않음)가 또한 본 발명의 뮤직 비디오 요약 블록에 저장될 수 있다.
뮤직 비디오 요약 제어기(270)가 뮤직 비디오들을 포함하는 멀티미디어 데이터 스트림을 수신하는 것을 가정하자. 보다 완벽히 후술된 바와 같이, 뮤직 비디오 요약 제어기(270)는 (1) 멀티미디어 데이터 스트림 내의 뮤직 비디오들을 분할하고 상기 뮤직 비디오들을 멀티미디어 데이터 스트림의 나머지로부터 분리하고, (2) 각각의 분할된 뮤직 비디오를 식별하고 각각의 뮤직 비디오의 주제인 노래에 관한 정보를 획득하고, (3) 텍스트, 오디오 및 비디오 세그먼트들을 포함하는 각각의 뮤직 비디오에 대한 뮤직 비디오 요약 파일을 생성하고, (4) 뮤직 비디오 요약 파일을 저장하고, 및 (5) 사용자 요구에 응답하여, 사용자에 의해 선택된 순서로 뮤직 비디오 요약 파일들을 디스플레이할 수 있다.
일 실시예에서, 뮤직 비디오 요약 제어기(270)는 각각의 뮤직 비디오의 시작 및 끝을 찾아냄으로써 멀티미디어 데이터 스트림에서 뮤직 비디오들을 분할한다. 본 발명의 일 측면에 따라, 뮤직 비디오들은 통상적으로 새로운 노래의 시작을 나타내는 음악이 아닌 구성요소에서 음악 구성요소들로의 오디오 구성요소의 변화를 검출하기 위한 오디오 분류 기술들 같은 하나 이상의 오디오 특징들 또는 페이스들의 존재 또는 페이스들의 식별 같은 하나 이상의 이미지 특징들을 사용하여 분할된다. 다른 변형들에서, 분할 처리는 또한 새로운 노래의 시작을 나타내는 어두운 이미지들로부터 밝은 이미지들로의 변화와 같은 컬러의 변화들을 검출하기 위하여 슈퍼 히스토그램들(super histograms)(또는 컬러 클러스터링 기술들)을 사용한다.
다른 변형에서, 뮤직 비디오 요약 제어기(270)는 뮤직 비디오의 시작 및 끝에서 비디오 텍스트 블록(180)을 검색하기 위하여 뮤직 비디오 분할 애플리케이션(320)의 컴퓨터 명령들을 실행한다. 두 개의 비디오 텍스트 블록들(180)이 동일할 때, 그들 사이의 비디오 부분은 두 개의 비디오 텍스트 블록들(180)에 의해 식별된 뮤직 비디오를 나타낸다. 뮤직 비디오가 텔레비전(105)의 스크린(110) 상에 디스플레이될 때, 뮤직 비디오의 시작에는 일반적으로 비디오 이미지의 하단에 텍스트 캡션(180)을 디스플레이한다. 텍스트 캡션(180)은 일반적으로 노래 제목, 앨범 이름, 가수 또는 그룹의 이름, 발매일 및 다른 유사한 정보를 포함한다. 텍스트 캡션(180)은 또한 일반적으로 뮤직 비디오의 끝에 디스플레이된다. 텍스트 캡션(180)은 또한 비디오텍스트 블록(180)이라고도 불린다.
뮤직 비디오 요약 제어기(270)가 새로운 뮤직 비디오를 분할할 때, 뮤직 비디오 요약 제어기(270)는 예를 들어 비디오 텍스트 블록(180)으로부터 뮤직 비디오를 식별하는 정보를 추출하기 위하여 뮤직 비디오 식별 애플리케이션(330) 내의 컴퓨터 명령들을 실행한다. 뮤직 비디오 요약 제어기(270)는 랄리사 아그니호트리(Lalitha Agnihotri), 네벤카 드미트로바(Nevenka Dimitrova), 및 허먼 엘렌바스(Herman Elenbass)에 의한, 1999년 11월 17일 출원된, 발명의 명칭이 "비디오 스트림 분류가능한 심볼 격리 방법 및 시스템(Video Stream Classifiable Symbol Isolation Method and System)"인 미국특허출원 제09/441,943호에 개시된 타입의 방법을 사용하여 비디오 텍스트 블록(180)의 텍스트를 획득할 수 있다.
뮤직 비디오 요약 제어기(270)는 메모리(280) 내의 데이터베이스(도시되지 않음)에 액세스하고(또는 인터넷 상에 위치된 데이터베이스에 액세스할 수 있음), 노래들, 앨범들, 가수들 또는 레코딩 회사들의 포괄적인 리스트를 찾아서, 뮤직 비디오 요약 제어기(270)가 비디오 텍스트 블록(180)으로부터 획득한 정보와 비교할 수 있다. 뮤직 비디오 요약 제어기(270)는 메모리(280) 내의 뮤직 비디오에 관련하여 획득한 정보를 뮤직 비디오 요약 블록들(350) 중 하나에 저장한다. 각각의 독립된 뮤직 비디오에 대한 뮤직 비디오 정보는 독립된 뮤직 비디오 요약 블록(예를 들어, 뮤직 비디오 요약 블록(410))에 저장된다.
몇몇 경우들에서, 뮤직 비디오 요약 제어기(270)는 임의의 비디오 텍스트 블록들(180)을 위치시키거나 식별할 수 없을 수 있다. 이러한 경우들에서, 뮤직 비디오 요약 제어기(270)는 노래의 몇몇 라인들의 트랜스크립트와 노래 가사들의 트랜스크립트들의 데이터베이스를 비교하여 텍스트 매칭을 찾을 수 있다. 뮤직 비디오 요약 제어기(270)는 노래의 일부 라인들의 텍스트를 나타내는 "검색 문자열"을 선택한다. 일 실시예에서, "검색 문자열" 텍스트는 폐쇄형 캡션 디코더(275)로부터 획득될 수 있다. 그 후 뮤직 비디오 요약 제어기(270)는 메모리(280) 내의 노래 가사들(도시되지 않음)의 데이터베이스에 액세스(또는 www.lyrics.com 같은 인테넷 상에 위치된 노래 가사들의 데이터베이스에 액세스)하여 노래 가사들의 포괄적인 리스트를 찾는다. 그 후 뮤직 비디오 요약 제어기(270)는 "검색 문자열" 텍스트를 노래 가사들의 데이터베이스 내의 트랜스스크립들에 비교하여 노래의 식별을 찾는다. 노래의 식별이 결정된 후에는, 가수의 이름 및 다른 정보가 데이터베이스로부터 쉽게 액세스될 수 있다. 뮤직 비디오 요약 제어기(270)가 "검색 문자열" 텍스트와 노래 가사들의 데이터베이스를 비교함으로써 뮤직 비디오 정보를 검색하고 위치시키는 방법은 도 7을 참조하여 완벽히 후술될 것이다.
상기된 바와 같이, 뮤직 비디오 요약 제어기(270)는 뮤직 비디오 정보를 획득하고 뮤직 비디오 정보를 뮤직 비디오 요약 블록들(350)에 저장한다. 각각의 뮤직 비디오 요약 블록에 대하여(예를 들어, 뮤직 비디오 요약 블록(410)), 뮤직 비디오 요약 제어기(270)는 노래 가사들에 액세스하고 노래 가사들로부터 노래의 "코러스(chorus)"를 식별한다. 노래의 코러스는 일반적으로 노래 가사들의 데이터베이스 내에서 코러스로서 식별된다. 대안적으로, 여러번 반복되는 노래 가사들의 부분은 또한 노래의 코러스로서 사용되도록 선택될 수 있다. 이것은 폐쇄형 캡션 디코더(275)를 사용하거나 오디오 트랙의 부분들을 비교함으로써 유사한 오디오 패턴들을 찾다 달성될 수 있다. 본 발명의 다른 측면에 따라, 뮤직 비디오의 코러스 부분들은 종종 코러스를 나타내는 반복된 어구들에 관련된 트랜스크립트를 분석함으로써 독립된 데이터베이스에의 액세스를 요구하지 않으면서 식별된다. 트랜스크립트는 예를 들어 폐쇄형 캡션 정보로부터 획득될 수 있다.
노래의 "코러스"는 대부분의 청취자들에게 노래의 처음 몇 라인들보다 노래의 성질을 더욱 식별한다. 뮤직 비디오 요약 제어기(270)는 코러스에 대응하는 멀티미디어 파일의 오디오 및 비디오 부분들과 노래 가사들의 트랜스크립트의 코러스를 매칭시킬 수 있다. 그 후 뮤직 비디오 요약 제어기(270)는 코러스에 대응하는 멀티미디어 파일의 오디오 및 비디오 부분들의 사본을 뮤직 비디오 요약 파일(360)에 위치시킨다.
뮤직 비디오 요약 제어기(270)는 각각의 뮤직 비디오에 대한 각각의 뮤직 비디오 요약 파일(360)을 메모리(280)에 저장한다. 사용자 요구의 수신에 응답하여, 뮤직 비디오 요약 제어기(270)는 특정 뮤직 비디오 요약 파일(360)에 액세스하고 텔레비전(105)을 통해 뮤직 비디오 요약 파일(360)(오디오 및 비디오 부분들 포함)을 재생할 수 있다. 대안적으로, 뮤직 비디오 요약 제어기(270)는 저장된 뮤직 비디오 요약 파일들(360) 모두의 리스트(190)에 액세스하여 텔레비전(105)의 스크린(110) 상에 상기 리스트(190)를 디스플레이할 수 있다. 즉, 리스트(190)는 (1) 멀티미디어 데이터 스트림에서 검출된 모든 뮤직 비디오들의 뮤직 비디오 요약 파일들; 및 (2) 각각의 뮤직 비디오를 레코드한 가수 또는 그룹의 식별을 디스플레이한다. 리스트(190)는 사용자 선호들에 따라 선택적으로 프리젠테이션하여 리스트에 프리젠테이션된 정보의 콘텐트를 개인화(personalize)한다. 원격 제어 장치(125) 및 IR 센서(160)를 사용하여, 사용자는 뮤직 비디오 요약 제어기(270)에 "뮤직 비디오 요약 재생" 제어 신호를 송신하여 다음에 재생할 리스트(190)의 뮤직 비디오 요약 파일을 선택한다. 이 방식으로 사용자는 뮤직 비디오 요약 파일들이 재생되는 순서를 선택한다.
도 5는 뮤직 비디오들을 색인하고 요약하기 위하여 본 발명에 사용된 기술들의 개략을 제공하는 흐름도(500)이다. 도 5에 도시된 바와 같이, 단계(510) 동안 뮤직 비디오 요약 제어기(270)는 처음에 뮤직 비디오들(507)을 포함하는 수신된 멀티미디어 스트림(505)을 오디오, 비디오 및 트랜스크립트 구성요소들로 분리한다. 단계(520) 동안 뮤직 비디오 요약 제어기(270)는 오디오, 비디오 및 트랜스크립트 구성요소들로부터 다수의 특징들(추가로 아래에 논의됨)을 추출한다. 트랜스크립트는 예를 들어 소프트웨어에 의해 텍스트의 각각의 라인에 타임 스탬프들이 삽입된 폐쇄형 캡션 정보로부터 획득될 수 있다. 이때, 모든 특징들은 노래 경계들의 임의의 표시 없이 데이터의 타임 스탬핑된 스트림을 포함한다.
초기 노래 경계는 도 10 및 11과 관련하여 추가로 후술되는 방식으로 시각적, 오디오 및 텍스트적 특징들을 사용하여 단계(530) 동안 결정된다. 그 후, 초기 경계들 및 트랜스크립트 정보를 사용하여, 코러스 위치 및 코러스 핵심 어구들이 도 13과 관련하여 추가로 후술된 바와 같이, 단계(540) 동안 결정된다. 코러스 정보에 기초하여, 단계들(545 및 550) 동안 웹 사이트로부터의 정보가, 예를 들어, 노래의 제목, 가수 이름, 장르 및 가사들을 결정하기 위하여 사용된다.
단계(560) 동안 노래 경계는, 예를 들어, 획득한 노래 가사들, 오디오 분류, 시각적 장면 경계들(컬러 정보에 기초함) 및 겹쳐진 텍스트 중 하나 이상을 사용하여 확실해진다. 본 발명은 웹 사이트 상의 가사들과 트랜스크립트 내의 가사들이 항상 완벽히 매칭하지는 않는다는 것을 고려한다. 가사들에 기초하여, 노래의 경계들이 초기 경계 정보 및 가사들을 사용하여 정렬된다. 대안적으로, 만약 트랜스크립트 정보가 이용불가능하면, 제목 페이지가 추출된 비디오텍스트 상에서 광학 문자 인식(OCR) 기술들을 사용하여 분석되어, 가수 이름, 노래 제목, 년도 및 레코드 라벨 정보 같은 비디오 정보가 찾아지고, 웹 정보가 OCR 단계로부터의 출력을 검증하기 위하여 사용될 수 있다. 이 정보로, 노래의 가사들이 웹 사이트로부터 획득되고 코러스 검출 방법이 텍스트 정보를 사용하여 수행될 수 있다. (이들 다운로드된 가사들은 타임 스탬핑되어 있지 않고 정렬의 문제가 있다는 것이 여기서 고려해야 할 점이다). 바람직하게, 트랜스크립트는 음성 대 텍스트 오디오 분석을 사용하여 획득된다. 하나의 버전에서, 다운로드된 트랜스크립트 및 음성 대 텍스트 생성기에 의해 생성된 트랜스크립트는 보다 정확한 트랜스크립트를 획득하기 위하여 통합될 수 있다.
각각의 노래 및 시청각적 특징들에 대한 경계를 가지면, 도 14와 관련하여 후술된 바와 같이, 가장 대표적인 프레임들 및 노래 요약에 가장 우수한 비디오 클립을 결정함으로써 노래는 각각의 단계들(565 및 570) 동안 요약된다. 가장 대표적인 프레임들은 가수로부터의 클로우즈 업(close-ups), 노래 정보를 포함한 제목 이미지, 가수, 라벨, 앨범 및 년도를 포함한다. 노래 요약들은 노래 요약 라이브러리에 단계(575) 동안 저장된다. 사용자들은 예를 들어 웹 기반 뮤직 비디오 탐색 애플리케이션을 사용하여 단계(580) 동안 프로그램 요약들에 액세스할 수 있다.
본 발명에 따른 뮤직 비디오 요약은 개별적인 노래들의 식별 및 요약에 기초한다. 프로그램 레벨에서, 요약은 노래들의 리스트로 구성된다. 다음 레벨에서, 각각의 노래는 노래를 나타내는 제목, 가수 및 선택된 멀티미디어 요소들로 구성된다.
경계 검출
뮤직 비디오 요약은 두가지 타입의 경계 검출을 포함한다. 첫째, 노래 경계들은 자동으로 검출되어야 한다. 그 후, 코러스의 경계가 검출되어야 한다. 도 5와 관련하여 전술된 바와 같이, 본 발명은 시각적, 오디오 및 트랜스크립트 특징들을 사용하여 경계 검출을 수행한다. 시각적 특징들은 비디오텍스트의 존재, 페이스 검출(및/또는 식별), 갑작스러운 커트들(cuts) 및 컬러 히스토그램들을 포함한다.
비디오텍스트의 존재를 사용하는 경계 검출
비디오텍스트의 존재를 사용하는 경계 검출에 적절한 기술들의 상세한 설명을 위하여, 예를 들어, 엔. 디미트로바(N. Dimitrova) 등에 의한 "포개진 텍스트를 위한 MPEG-7 비디오텍스트 기술 기법(MPEG-7 VideoText Description Scheme for Superimposed Text)", 국제 신호 처리 및 이미지 통신 저널(Int'l Signal Processing and Image Communications Journal) (2000년 9월), 또는 발명의 명칭이 "뮤직 비디오를 색인 및 요약하는 시스템 및 방법(System and Method for Indexing and Summarizing Music Videos)",(대리인 참조번호 US020206)이고 2002년 6월 20일 출원된 미국특허출원 제10/176,239호를 참조하고, 각각은 여기에 참조로써 통합된다.
가수 및 제목 같은 비디오텍스트 정보는 뮤직 비디오를 판독 및 인식하기 쉽게 각각의 뮤직 비디오의 시작 및 끝에 존재하기 때문에, 비디오텍스트의 검출은 경계들을 검출하는 신뢰적인 방법을 제공한다. 따라서, 노래의 시작에의 비디오텍스트의 존재는 노래들 사이의 경계들을 나타내는 것을 돕는다. 비디오텍스트 검출 성능은 예를 들어 텍스트 박스가 노래의 노래 제목 정보를 포함하거나, 텍스트 박스가 스크린의 좌측 하단 부분과 같은 주어진 위치에서 찾아지는 것을 보장함으로써 개선될 수 있다. 노래의 제목 페이지는 노래의 시작을 결정하기 위한, 노래가 이미 시작됐다는 하나의 표시자로서 사용될 수 있다.
페이스 검출(또는 식별)을 사용하는 경계 검출
본 발명의 일 측면에 따라, 노래들의 잠재적인 경계들은 이미지 프레임들 내의 페이스들의 검출에 기초하여 식별될 수 있다. 도 6은 본 발명의 특징들을 통합한 예시적인 페이스 특징 분석 처리(600)의 흐름도이다. 도 6에 도시된 바와 같이, 단계(610) 동안 페이스 특징 분석 처리(600)는 처음에 몇몇 가능한 페이스 타입 라벨들 중 하나를 각각의 이미지 프레임에 할당한다. 예를 들어, 페이스 특징 분석 처리(600)는 프레임이 주로 흉부 샷(S), 전신 샷(F), 얼굴 클로우즈 업(C) 또는 다수의 사람(M)으로 구성되는지에 기초하여 각각의 프레임에 한 라벨을 할당할 수 있다. 할당된 페이스 타입 라벨들의 예시적인 시간 라인 이미지가 후술된 도 12에 포함된다. 단계(620) 동안 이미지 프레임들은 할당된 페이스 타입 라벨들에 기초하여 클러스터링된다. 마지막으로, 패턴들이 단계(630) 동안 페이스 타입 라벨들의 클러스터들에서 분석되어 비디오 경계들이 검출된다. 그 후 프로그램 제어가 종료된다. 단계(630) 동안 수행된 패턴 분석은 도 10 및 도 11과 관련하여 추가로 후술된다.
이 방식에서, 시간이 지남에 따라, 페이스 특징 분석 처리(600)는 동종의 이미지 시퀀스 패턴들(프레임들이 동일한 비디오의 부분임을 나타냄)을 찾을 것이다. 상기 패턴으로부터의 편차는 새로운 비디오 또는 비디오가 아닌 자료가 시작됐음을 나타낼 것이다. 페이스 검출 및 라벨링을 수행하는 적절한 기술들의 상세한 설명을 위하여, 예를 들어, 여기에 참조로써 통합된 엔. 디미트로바 등에 의한, "객체 추적을 사용하는 비디오 분류, 이미지와 그래픽의 국제 저널(Video Classification Using Object Tracking, International Journal of Image and Graphics)", 이미지 및 비디오 데이터베이스들에 대한 특별판, Vol 1, No.3(2001년 8월)를 참조한다.
비록 페이스들이 주요 활동 가수를 찾는데 매우 중요하지만, 뮤직 비디오들이 비디오 페이스 검출을 수행하기 위한 도전 장르인 것이 주의되어야 한다. 페이스 존재는, 예를 들어, 특수 효과들 및 다양한 컬러들을 사용한 강조로 인해 비디오들에서 올바르게 검출되지 못할 수 있다. 게다가, 페이스들은 종종 대각선 또는 수평 포지션(예를 들어, 활동자가 춤추거나 잠잘 때)에 있다.
다른 변형에서, 페이스 식별은 각각의 프레임에서 식별된 가수에 기초하여 잘 알려진 방식으로 식별 라벨을 할당하기 위하여 선택적으로 수행될 수 있다. 이미지 시퀀스에서 새로운 가수의 출현은 새로운 비디오의 시작을 나타낸다. 페이스 식별의 수행은 대중적이거나 예상된 가수들의 페이스 이미지들을 포함하는 데이터베이스를 사용하여 선택적으로 개선될 수 있다.
갑작스러운 커트들(카메라 변화들)을 사용하는 경계 검출
본 발명의 일 측면에 따라, 노래들의 잠재적 경계들은 이미지 시퀀스들에서 카메라 변화 패턴들의 검출에 기초하여 식별될 수 있다. 도 7은 본 발명의 특징들을 통합한 예시적인 카메라 변화 분석 처리(700)의 흐름도이다. 도 7에 도시된 바와 같이, 단계(710) 동안 카메라 변화 분석 처리(700)는 처음에 비디오 시퀀스 내의 카메라 커트들의 빈도를 결정한다. 카메라 커트들의 빈도를 결정하기에 적절한 기술들의 상세한 설명을 위하여, 여기에 참조로써 통합된, 발명의 명칭이 "시각적 색인 시스템을 위한 중요 장면 검출 및 프레임 필터링(Significant Scene Detection and Frame Filtering for a Visual Indexing System)"인 미국특허 제 6137544호를 참조한다.
그후, 카메라 변화 분석 처리(700)는 단계(730) 동안 카메라 커트 빈도 데이터에서 패턴들을 분석하여 비디오 경계들을 검출한다. 단계(730) 동안 수행된 패턴 분석은 도 10 및 11과 관련하여 추가로 후술된다. 커트 변화들은 뮤직 비디오들에서 매우 빈번하다는 것이 주의 된다. 실제로, 이 데이터는 평균 커트 간격이 노래들 동안 보다 광고 방송 동안 높다는 것을 보여준다. 대부분의 다른 장르들에 대하여, 광고 방송들이 프로그램보다 낮은 커트 간격을 나타내기 때문에 이것은 매우 일반적인 것이 아니다. 다른 변형에서, 부가적인 카메라 변화 라벨들이 팬(pan), 기울기 및 줌 같은 카메라 모션들의 타입을 특징화 하기 위하여 제공될 수 있다.
컬러 히스토그램들을 사용하는 경계 검출
본 발명의 다른 측면에 따라, 노래들의 잠재적인 경계들은 컬러 변화 특징들에 기초하여 식별될 수 있다. 슈퍼히스토그램 방법이 유사한 컬러들을 나타내는 프레임들의 패밀리들을 나타내기 위하여 예시적인 실시예에 사용된다. 도 8은 본 발명의 특징들을 통합한 예시적인 컬러 히스토그램 분석 처리(800)의 흐름도이다. 도 8에 나타낸 바와 같이, 단계(810) 동안 컬러 히스토그램 분석 처리(800)는 처음에 각각의 이미지 프레임에 대한 컬러 히스토그램을 획득한다. 일반적으로, 컬러 히스토그램은 대응하는 프레임의 컬러 구성요소들을 특징화 하는 시그니처(signature)로 고려될 수 있다. 그 후 이미지 프레임들은 히스토그램들(도 12에 도시됨)에 기초하여 단계(820) 동안 클러스터링된다. 마지막으로, 단계(830) 동안 패턴들이 히스토그램들의 클러스터들에서 분석되어 비디오 경계들이 검출된다. 그 후 프로그램 제어는 종료된다. 단계(830) 동안 수행된 패턴 분석들은 도 10 및 11과 관련하여 추가로 후술된다. 클러스터링 단계 동안 고려되는 이미지 프레임들의 히스토리는 유사한 컬러들을 가진 임의의 이전 프레임들이 관련되지 않을 수 있기 때문에 예를 들어 1분으로 한정될 수 있다.
이 방식에서, 시간이 지남에 따라, 컬러 히스토그램 분석 처리(800)는 동종의 이미지 시퀀스 패턴들(프레임이 동일한 비디오의 부분인 것을 나타냄)을 찾을 것이다. 상기 패턴들로부터의 편차들은 새로운 비디오 또는 비디오가 아닌 자료가 시작됨을 나타낼 것이다. 예를 들어, 주어진 노래는 촬영 스타일로 인해 비디오 전체에 걸쳐 우세한 컬러를 가질 수 있다. 게다가, 각 노래 사이의 광고 방송들은 통상적으로 다른 우세한 컬러를 나타낼 것이다. 컬러 히스토그램들은 유사한 컬러들을 나타내는 프레임들의 패밀리들이 식별되게 한다. 일반적으로, 새로운 노래들이 나타날 때, 컬러 팔레트는 변화하고 새로운 노래들의 프레임들은 새로운 패밀리들로 클러스터링된다. 따라서, 컬러 히스토그램 방법은 뮤직 비디오의 잠재적인 시작 및 끝을 검출하는데 도움을 준다.
컬러 히스토그램들의 보다 상세한 설명을 위하여, 예를 들어, 엘. 아그니호트리 및 엔. 디미트로바(N. Dimitrova)에 의한, "큰 비디오 아카이브들에서 수퍼히스토그램을 사용한 비디오 클러스터링(Video Clustering Using Superhistograms in Large Video Archives)", 비쥬얼 2000, 프랑스, 리옹 (2000년 11월) 또는 엔. 디미트로바 등에 의한, "비디오 표현을 위한 수퍼히스토그램들(Superhistograms for Video Representation)" IEEE ICIP, 1999, 일본, 고베(1999)를 참조하고, 각각은 여기에 참조로써 통합된다.
오디오 특징들을 사용하는 경계 검출
본 발명의 다른 측면에 따라, 노래들의 잠재적인 경계들은 오디오 특징들에 기초하여 식별될 수 있다. 도 9는 본 발명의 특징들을 통합하는 예시적인 오디오 특징 분석 처리(900)의 흐름도이다. 도 9에 도시된 바와 같이, 오디오 특징 분석 처리(900)는 처음에 단계(910) 동안 몇가지 가능한 오디오 타입 라벨들 중 하나를 각각의 오디오 프레임에 할당한다. 오디오 프레임의 지속시간은 이미지 프레임 지속시간과 다를 수 있다는 것이 주의된다. 예를 들어, 오디오 특징 분석 처리(900)는 오디오 프레임이 주로 1) 음악, 2) 음성, 3) 배경 음악을 가진 음성, 4) 다수 사람 대화, 5) 잡음, 6) 잡음을 가진 음성, 7) 침묵, 8) 볼륨 증가 또는 9) 볼륨 감소를 포함하는지에 기초하여 한 라벨을 각각의 오디오 프레임에 할당할 수 있다. 오디오 프레임들은 그 후 할당된 오디오 타입 라벨들에 기초하여 단계(920) 동안 클러스터링된다. 마지막으로, 패턴들은 단계(930) 동안 오디오 타입 라벨들의 클러스터들에서 분석되어 비디오 경계들이 검출된다. 그 후 프로그램 제어는 종료된다. 단계(930) 동안 수행된 패턴 분석은 도 10 및 11과 관련하여 더욱 후술된다. 예를 들어, 패턴 분석은 노래의 시작 및 끝에서의 침묵 또는 노래의 시작을 나타내기 위한 볼륨 증가, 또는 노래의 끝을 나타내기 위한 볼륨 감소를 찾아낼 수 있다.
이 방식에서, 시간이 지남에 따라, 오디오 특징 분석 처리(900)는 동종의 오디오 시퀀스 패턴들(오디오 프레임들이 동일한 비디오의 일부임을 나타냄)을 찾을 것이다. 상기 패턴들로부터의 편차들은 새로운 비디오 또는 비디오가 아닌 자료가 시작됨을 나타낼 것이다. 오디오 분할 및 분류를 수행하기에 적절한 기술들의 상세한 설명을 위하여, 디. 리(D. Li) 등에 의한, "콘텐트 기반 검색을 위한 일반 오디오 데이터의 분류(Classification of General Audio Data for Content-Based Retrieval)" 패턴 인식 레터스(Pattern Recognition Letters) 2000(2000)을 참조하고, 이것은 여기에 참조로써 통합된다.
트랜스크립트 특징들을 사용하는 경계 검출
본 발명의 다른 측면에 따라, 노래들의 잠재적인 경계들은 예를 들어 폐쇄된 캡셔닝 정보로부터 획득될 수 있는 오디오 트랜스크립트에 기초하여 식별될 수 있다. 일반적으로, 절들이 키워드 분석(또는 자동 상관 분석)을 사용하여 텍스트 트랜스크립트에서 식별된다. 특히, 단어들의 히스토그램이 새로운 노래들을 검출하기 위하여 획득되고 분석된다. 키워드들의 새로운 세트의 식별은 새로운 비디오 또는 비디오가 아닌 자료가 시작됨을 나타낼 것이다. 트랜스크립트를 "절로 나누기(paragraphing)"를 수행하기에 적절한 기술들의 상세한 설명을 위하여, 예를 들어, 엔. 스트로크스(N. Stokes) 등에 의한, 여기에 참조로써 통합된, "어휘 사슬들을 사용하는 방송 뉴스 스트림들의 분할(Segmenting Broadcast News Streams Using Lexical Chains)" 시작하는 인공 지능 연구원들 심포지움 회보(Proc. of Starting Artificaial Intelligence Researchers Symposium)(STAIRS)(2002)를 참조하자.
저레벨 특징들을 사용한 경계 검출
상기된 특징들 외에, 본 발명은 또한 각각의 이미지 프레임 내의 에지들(edges) 또는 모양들의 수 또는 로컬 및 글로벌 모션 같은 콘텐트로부터 직접적으로 유도되는 다수의 저레벨 특징들을 직접 사용하고, 이들 저레벨 특징들 내의 상기 패턴들로부터 임의의 패턴들 및 편차들을 모니터링할 수 있다. 게다가, 멜 프리퀀시 켑스트럼 계수들(MFCC: mel frequency cepstral coefficients), 선형 예측 계수(LPC: linear predictive coefficient), 피치 변수들, 대역폭, 볼륨 및 톤과 같은 저레벨 오디오 특징도 분석될 수 있다.
시각적, 오디오 및 트랜스크립트 특징들의 분석
상기된 바와 같이, 본 발명은 도 5 내지 9와 관련하여 전술된 바와 같은, 시각적, 오디오 및 트랜스크립트 특징들을 사용하여 경계 검출을 수행한다. 도 10에 도시된 일 예시적인 실시예에서, 시각적, 오디오 및 트랜스크립트 특징들은 베이시안 빌리프 네트워크(BBN)(1000) 같은 패턴 인식 엔진을 사용하여 모니터링되어, 비디오 스트림을 개별적인 비디오들로 분할한다. 도 11에 도시된 다른 실시예에서, 시각적, 오디오 및 트랜스크립트 특징들은 규칙 기반 발견적 처리(rule-based heuristics process; 1100)를 사용해 처리되어, 비디오 스트림이 개별적인 비디오들로 분할된다. 일반적으로, 양쪽 예시적인 실시예들은 전술된 모든 다른 특징들로부터의 적절한 경계들을 사용하여 비디오들을 분할한다.
도 10은 본 발명의 특징들을 통합한 예시적인 베이시안 빌리프 네트워크(1000)를 도시한다. 베이시안 빌리프 네트워크(1000)는 시각적, 오디오 및 트랜스크립트 특징들을 모니터링하여 비디오 스트림을 개별적인 비디오들로 분할한다. 일반적으로, 베이시안 빌리프 네트워크들은 복잡한 패턴들을 인식하고 미리 정의된 활동들을 학습 및 인식하기 위하여 사용되었다. 베이시안 빌리프 네트워크(1000)는 알려진 방식으로 이미 분할 정보로 라벨링된 비디오 시퀀스들을 사용하여 훈련된다.
도 10에 도시된 바와 같이, 베이시안 빌리프 네트워크(1000)는 다수의 상태들(1010-1 내지 1010-N)을 가진 제 1 층(1010)을 포함하고, 상태들 각각은 본 발명에 의해 모니터링되는 상이한 특징과 연관된다. 각각의 상태에 대한 입력은 주어진 윈도우에 걸친 평균 특징값이다. 예를 들어, 페이스 존재 특징에 대하여, 입력은 예를 들어 이전 20초 윈도우와 비교하여 현재 20초 윈도우에 걸쳐 각각의 이미지에서 페이스들 수 변화가 있는지의 여부일 수 있다. 유사하게, 컬러 히스토그램 특징에 대하여, 입력은 예를 들어 새로운 클러스터가 현재 윈도우에서 검출되었는지의 여부일 수 있다.
베이시안 빌리프 네트워크(1000)는, 각각의 대응하는 상태에 대하여, 현재 시간 윈도우가 상태와 연관된 단일 특징에 기초하여 비디오의 시작 또는 끝과 연관된 전이(Ptrans)에 대응할 가능성을 결정하는 제 2 층(1020)을 포함한다. 예를 들어, 가능성(Pfacechng)은 페이스 변화 특징 데이터에 의해 나타나는 페이스 변화의 가능성을 나타낸다. 최종 레벨(1030)에서, 베이시안 빌리프 네트워크(1000)는 각각의 모니터링된 특징들에 걸친 가능성들에 기초하여 노래 끝김(song break)이 있는지 여부를 결정하기 위하여 베이시안 추론을 사용한다. 다른 변형들에서, 뉴럴 네트워크들(neural networks) 또는 자동 회귀 이동 평균(ARMA) 기술들이 노래 경계들을 예측하기 위하여 사용될 수 있다.
현재 시간 윈도우가 상태(1030)에서 어떤 한 세그먼트에 대응하는지를 결정하기 위한 조건적 가능성은 다음과 같이 계산될 수 있다.
Figure 112005058213132-pct00001
상기 방정식은 조건적 가능성을 계산하기 위한 일반적인 경우를 제공한다. 도 10에 주어진 모델에 대하여, 가능성은 다음과 같이 계산될 수 있다:
Figure 112005058213132-pct00002
여기서 v는 비디오텍스트이고, f는 페이스들이고, a는 갑작스러운 커트들이고, c는 컬러이고, t는 트랜스크립트이고 a는 오디오 관련 분석이다.
도 11은 비디오 분할 처리(1100)의 예시적인 구현을 설명하는 흐름도이다. 전술된 바와 같이, 비디오 분할 처리(1100)는 규칙 기반 발견적 기술을 사용하여 시각적, 오디오 및 트랜스크립트 특징들을 처리하여, 비디오 스트림을 개별적인 비디오들로 분할한다. 도 11에 도시된 바와 같이, 단계(1110) 동안 비디오 분할 처리(1100)는 처음에 모니터링된 비디오, 오디오 및 트랜스크립트 특징값들을 평가한다. 그 후, 단계(1120) 동안 비디오 분할 처리(1100)는 하나 이상의 미리 정의된 비디오 분할 규칙들(1115)을 특징값들에 적용한다. 예를 들어, 주어진 응용은 컬러 히스토그램 특징 및 비디오텍스트 존재에 대한 가능성 값들 모두가 미리 정의된 임계치를 초과하면, 비디오 세그먼트가 식별되어야 한다고 명기하는 비디오 분할 규칙을 정의할 수 있다. 다른 실시예에서, 비디오 분할 규칙은 비디오텍스트 존재에 대한 가능성 값들 및 적어도 N개의 다른 모니터링된 특징들이 미리 정의된 임계치들을 초과하면 비디오 세그먼트가 식별되어야 한다고 명기할 수 있다.
새로운 비디오가 검출되는지 여부를 결정하기 위하여 단계(1130) 동안 검사가 수행된다. 단계(1130) 동안 새로운 비디오가 검출되지 않았다고 결정되면, 프로그램 제어는 단계(1110)로 리턴하여 전술된 방식으로 이미지 스트림을 계속 모니터링한다. 그러나, 만약 단계(1130) 동안 새로운 비디오가 검출되었다고 결정되면, 단계(1140) 동안 새로운 비디오 세그먼트가 식별된다. 그 후 프로그램 제어는 종료되거나 적당할 때 단계(1110)로 리턴하여, 전술된 방식으로 이미지 스트림을 계속 모니터링할 수 있다.
베이시안 빌리프 네트워크(1000) 또는 비디오 분할 처리(1100)에 의한 모니터링된 특징들의 처리는 트랜스크립트가 시각적 및 오디오 스트림들보다 나중에 시작한다는 사실을 고려할 수 있다. 시각적 시청 포인트로부터, 일반적으로 노래 시작 후 몇 초 나타나는 비디오텍스트 제목 페이지가 또한 획득된다. 시작 경계는 노래에 대한 시각적 컬러 경계들 및 오디오 차원에서의 음악 분류의 시작으로 정렬된다.
도 12는 할당된 페이스 타입 라벨들(1210), 컬러 히스토그램 클러스터들(1220) 및 비디오텍스트 존재(1230)의 예시적인 시간 라인 이미지들을 제공한다. 도 12에 도시된 바와 같이, 모니터링된 특징들 각각에 대한 특징 데이터는 비디오 세그먼트들을 검출하기 위하여 정렬된다. 본 발명은 각각의 개별적인 특징에 의해 제시되는 전이 기간들에 기초하여 두 개의 비디오들 사이 또는 비디오와 비디오가 아닌 자료 사이의 전이(1240)를 식별하기 위하여 베이시안 빌리프 네트워크(1000) 또는 비디오 분할 처리(1100)를 사용한다.
코러스 검출
노래의 코러스를 결정하기 위하여, 이전 연구는 뮤직 오디오 특징들에 집중하였다. 노래들에서 반복된 세그먼트들을 찾아내기 위한 통상의 방법은 자동 상관 분석을 수행하는 것이다. 코러스는 대중 가요들에서 적어도 두번 반복된다. 일반적으로 대부분의 노래들에서 세 번 또는 그 이상 반복된다.
본 발명의 다른 특징에 따라, 노래의 코러스는 트랜스크립트를 사용하여 검출된다(폐쇄된 캡션 정보). 일반적으로, 코러스는 반복되는 단어들을 포함하는 노래 섹션들을 검출함으로써 식별된다. 폐쇄된 캡션들이 완벽하지 않고, 예를 들어 인쇄상 에러들 또는 누락들을 포함할 수 있다는 것을 명심하자. 도 13은 코러스 검출 처리(1300)의 예시적인 구현의 흐름도이다. 도 13 및 후술된 바와 같이, 코러스 검출 처리(1300)는 단계(1310) 동안의 폐쇄된 캡션들 상의 핵심 어구 검출, 단계(1320) 동안의 잠재적인 코러스 검출, 단계(1330) 동안의 코러스 후보 확인 및 단계(1340) 동안의 불규칙적인 코러스 검출 및 사후 분석을 수행함으로써 코러스 세그먼트들을 인식한다. 마지막으로, 자동 상관 분석이 임의의 코러스(들)를 식별하기 위하여 단계(1350) 동안 수행된다.
핵심 어구 식별(단계(1310))
코러스는 가장 자주 반복되는 노래의 가사들을 포함한다. 그 어구를 검출하고 클러스터링함으로써, 코러스 세그먼트들의 임시 위치가 식별될 수 있다. 코러스를 포함하는 잠재적인 섹션들을 선택하기 위하여, 노래에 존재하는 어구들의 계수 표시(카운트)가 수집된다. 이들 어구들은 트랜스크립트로부터 획득되고 텔레비전 스크린 상의 텍스트의 전체 라인 또는 콤마 또는 마침표 같은 구분 문자들에 의해 분리되는 라인의 부분들을 나타낸다. 각각의 새로운 어구에 대하여, 어구가 계수 표시에서 존재하는지를 결정하고 그 어구에 대한 카운터를 증가시킨다. 만약 그렇지 않다면, 새로운 저장소(bin)가 새로운 어구에 대하여 생성되고 카운터가 그 저장소에 대하여 1로 초기화된다. 이 처리는 각각의 노래들에 대한 모든 텍스트에 대하여 반복된다. 노래의 끝에서, 반복하는 어구들은 핵심 어구들로서 지정된다.
후보 코러스 검출(단계(1320))
코러스 세그먼트에 대한 잠재적인 후보들은 핵심 어구들의 두 번 이상의 발생을 포함하는 것들이다. 이들 세그먼트들을 찾아내기 위하여, 각각의 핵심 어구들이 발생한 타임스탬프들이 식별된다. 핵심 어구의 각각의 타임스탬프에 대하여, 잠재적인 코러스가 지정된다. 만약 이 잠재적인 코러스가 다른 코러스의 n초 내에 있으면, 그들이 병합된다. 다수의 노래들의 검사에 기초하여, 코러스들이 30초 이내(n=30)인 것이 가정된다.
코러스 후보 확인(단계(1330))
두 개 이상의 핵심 어구들을 포함하는 후보자들만이 코러스로서 선택된다. 만약 세 개 이상의 코러스가 선택되면, 다음과 같이 정의되는 가장 높은 비중의 핵심 어구들을 가진 세 개의 코러스가 결정된다:
Figure 112009019873595-pct00023
불규칙한 코러스 검출 및 사후 분석(단계(1340))
요약을 위하여, 단지 하나의 코러스만이 올바르게 결정될 필요가 있다. 사용자들에게 프리젠테이션될 "핵심-코러스"가 식별된다. 상이한 코러스들의 지속시간과 관련하여 노래에는 큰 변수가 있다(15 내지 30초가 일반적임). 이 변수는 코러스들의 위치 및 길이를 예측하는 것을 어렵게 한다. 세 개의 코러스들 중 중간 길이인 코러스가 선택된다. 첫번째 코러스가 또한 첫번째 코러스를 갖는 노래에서 "리드(lead)"를 획득하도록 나머지 코러스들보다 선호될 수 있다. 또한, 노래 내에서의 코러스의 배치는 가변적이다. 최종 코러스 분석은 다른 코러스들로부터 적당한 간격을 가진 코러스를 선택하기 위하여 사용된다.
자동 상관 분석(단계(1350))
오디오 콘텐트 분석 시, 연구원들은 코러스를 찾아내기 위해 자동 상관을 사용했다. 예를 들어, 제이. 푸티(J. Foote)에 의한, 참조에 의해 여기에 통합된, "자체 유사성을 사용하는 뮤직 및 오디오 시각화(Visualizing Music and Audio Using Self Similarity)", AMC 멀티미디어 회보 '99, 77-80, 플로리다, 올랜도(1999년 11월)를 참조한다. 자동 상관 분석은 노래의 구조를 시각화하기 위하여 본 발명에 의해 트랜스크립트 상에서 사용된다. 자동 상관 함수를 찾아내기 위하여, 트랜스크립트의 모든 단어들은 이차원으로 놓이고 양쪽 차원들 상의 단어들이 동일한지에 따라 1 및 0으로 매트릭스를 채운다. 그 후 이 매트릭스가 대각선으로 투영되어 코러스들이 노래의 어디에서 발생하는지에 대한 표시를 제공하는, 이 뷰(view) 내의 피크(peak)들이 결정된다.
뮤직 비디오 요약
뮤직 비디오 요약은 상이한 매체(오디오, 비디오 및 트랜스크립트) 내의 비디오로부터 유도된 콘텐트 요소들로 구성된다. 예시적인 실시예에서, 베이시안 빌리프 네트워크들은 뮤직 비디오의 일반적인 콘텐트 요소들뿐만 아니라 음악 이벤트들의 전이들을 캡쳐링하고 구성의 구조를 캡쳐링하도록 사용된다. 예를 들어, BBN들은 노래들을, 예를 들어, 음악적 플러스 절(instrumental plus verse)(V) 및 코러스(C) 이벤트들을 갖는 것으로 모델링하기 위하여 사용될 수 있다. 주어진 노래에서 음악 이벤트들의 순서는 예를 들어 VVC VCC일 수 있다. 그러나, 많은 노래들은 코러스와 절 사이의 연결부 같은 보다 복잡한 구조를 가질 수 있으며, 많은 노래들에는 반복되는 코러스는 없고, 전체 노래가 하나의 단일 절이다. BBN 방법으로 인해, 비록 음악 이벤트들 중 하나가 누락되더라도, 적절한 요약이 여전히 획득된다.
도 14는 요약을 구성하는 요소들을 비디오로부터 찾아내기 위하여 사용되는 함수를 모델링하기 위하여 사용될 수 있는 베이시안 빌리프 네트워크(1400)를 나타낸다. 중요한 세그먼트를 결정하기 위한 후보 가능성은 다음과 같이 계산될 수 있다.
Figure 112005058213132-pct00004
상기 방정식은 조건적 가능성을 계산하기 위한 일반적인 경우를 제공한다. 도 14에서 주어진 모델에 대하여, 가능성은 다음과 같이 계산될 수 있다 :
Figure 112005058213132-pct00005
여기서
Figure 112009019873595-pct00006
= {제목, 클로우즈업, 코러스, 음악}.
예시적인 실시예에서 네 개의 미디어 요소들이 있기 때문에 m의 값은 4이다. n의 값은 가능성들이 취할 수 있는 값들의 수에 따라 각각의 미디어 요소들에 대해 가변한다. 예를 들어, P(제목)에 대한 값은 텍스트로 덮인 이미지의 퍼센테이지에 따라 0.1의 단계들을 가진 0 및 1 사이의 값일 수 있다. 따라서, n은 여기서 10이다. 생각하건대 부모 노드들에서, 모션, 오디오-텍스쳐, 및 리드 악기/가수 강조 같은 부가적인 특징들이 포함될 수 있다.
선택 기준은 각각의 미디어 요소들에 대한 요약에 프리젠테이션될 콘텐트를 결정한다. 요약은 다음과 같이 정의된 선택 함수들로부터의 출력이다.
Figure 112005058213132-pct00007
뮤직 비디오의 요약은 모든 상기 선택 함수들의 출력으로 구성된 세트이다:
Figure 112005058213132-pct00008
비디오로부터 유도된 이들 요소들 외에, 가수, 제목 및 앨범 같은 고레벨 정보가 부가될 수 있다. 이 고레벨 정보는 예를 들어 인터넷으로부터 추출되어 요약을 완성할 수 있다.
물론, 베이시안 빌리프 네트워크들은 요약을 위한 중요한 요소들의 선택을 모델링하기 위한 단지 한가지 방법일 뿐이다. 에이치. 순다람(H. Sundaram) 등에 의한, "시청각 스킴들의 자동 생성을 위한 유틸리티 프레임워크(A Utility Framework for the Automatic Generation of Audio-Visual Skims)", AMC 멀티미디어(ACM Multimedia) 2002, 후안 레스 핀(Juan Les Pin)(2002년 12월 1-5일)에 기술된 바와 같은 순다람의 이용 최대화 프레임워크(Sundaram's Utilization Maximization Framework), 또는 유-페이 마(Yu-Fei Ma) 등에 의한, "비디오 요약을 위한 사용자 주의 모델(A User Attention Model for Video Summarization)" AMC 멀티미디어 2002, 후안 레스 핀(2002년 12월 1-5일)에 기술된 바와 같은 요약을 위한 마(Ma)의 사용자 주의 모델을 적용하는 것을 생각할 수 있다. 이들 모델들은 요약을 위한 생성 모델이다. 알고리즘의 디자이너가 결정하는 이런 모델은 중요하다. 관리되지 않은 기계 학습 기술들이 뮤직 비디오 시각화 및 요약에 적용되어, 고유 구조 패턴들 및 강조들을 찾아낼 수 있다.
요약은 사용자 인터페이스 및 보여지는 정보 타입 모두에 대하여 개인화될 수 있다. 사용자들은 프리젠테이션되는 요약의 특정 콘텐트 및 요약을 수신하고자하는 인터페이스 타입을 선택할 수 있다. 적은 정보 또는 많은 정보, 및 정보의 배치 같은 차이는 사용자 설정에 기초하여 변경될 수 있다. 사용자들은 요약에 포함되는 것을 선택할 수 있다. 사용자들은 그들이 보기를 원하는 정보 타입을 나타내기 위하여 짧은 표본 조사표를 채울 수 있다.
본 기술 분야에 알려진 바와 같이, 여기에 논의된 방법들 및 장치들은 구현된 컴퓨터 판독가능 코드 수단을 가진 컴퓨터 판독가능 매체를 자체적으로 포함하는 제조 품목으로서 배포될 수 있다. 컴퓨터 판독가능 프로그램 코드 수단은 컴퓨터 시스템과 관련하여, 여기에 논의된 방법들을 수행하거나 장치를 생성하기 위하여 모든 또는 일부의 단계들을 수행하도록 동작할 수 있다. 컴퓨터 판독가능 매체는 레코딩가능 매체(예를 들어, 플로피 디스크들, 하드 드라이브들, 컴팩트 디스크들, 또는 메모리 카드들)일 수 있거나 전송 매체(예를 들어, 광섬유를 포함한 네트워크, 월드-와이드 웹, 케이블들, 또는 시분할 다중 액세스, 코드 분할 다중 액세스, 또는 다른 무선 주파수 채널을 사용하는 무선 채널)일 수 있다. 컴퓨터 시스템에 사용하기에 적절한 정보를 저장할 수 있는 알려지거나 개발된 임의의 매체가 사용될 수 있다. 컴퓨터 판독가능 코드 수단은 컴퓨터가 자기 매체 상의 자기 편차들 또는 컴팩트 디스크 표면 상의 높이 편차들 같은 명령들 및 데이터를 판독하게 하는 임의의 메커니즘이다.
여기에 기술된 컴퓨터 시스템들 및 서버들 각각은 여기에 개시된 방법들, 단계들, 및 함수들을 구현하도록 연관된 처리기들을 구성하는 메모리를 포함한다. 메모리들은 분산되거나 국부적이고, 처리기들은 분산되거나 단일체일 수 있다. 메모리들은 전기, 자기 또는 광학 메모리, 또는 다른 타입의 저장 장치들의 임의의 조합으로 구현될 수 있다. 게다가, 용어 "메모리"는 연관된 처리기에 의해 액세스되는 어드레싱 가능한 공간의 어드레스로부터 판독되거나 기입될 수 있는 임의의 정보를 포함하도록 충분히 포괄적으로 해석되어야 한다. 이런 정의로 인해, 네트워크 상의 정보는 연관된 처리기가 네트워크로부터 정보를 탐색할 수 있기 때문에 여전히 메모리 내에 있다.
여기에 도시된 및 기술된 실시예들 및 변형들은 단순히 본 발명의 원리들을 예시하며, 다양한 변형들이 본 발명의 범위 및 취지로부터 벗어나지 않으면서 당업자에 의해 구현될 수 있다는 것이 이해되어야 한다.

Claims (33)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 적어도 하나의 뮤직 비디오(507)에서 코러스를 검출하기 위한 방법에 있어서,
    상기 적어도 하나의 뮤직 비디오(507)를 포함하는 멀티미디어 스트림(505)을 수신하는 단계;
    웹 사이트로부터 상기 적어도 하나의 뮤직 비디오(507)와 연관된 가사를 획득하는 단계; 및
    상기 가사의 단어들의 반복에 기초하여 상기 코러스를 검출하는 단계를 포함하는, 코러스 검출 방법.
  20. 제 19 항에 있어서, 상기 적어도 하나의 뮤직 비디오(507)와 연관된 트랜스크립트는 음성 대 텍스트 오디오 분석을 사용하여 획득되고, 상기 웹 사이트로부터 획득된 가사와, 음성 대 텍스트 오디오 분석을 사용하여 획득된 상기 트랜스크립트는 통합되는, 코러스 검출 방법.
  21. 제 19 항에 있어서, 상기 코러스는 상기 적어도 하나의 뮤직 비디오(507)의 요약(410)의 자동 생성을 위해 사용되는, 코러스 검출 방법.
  22. 제 19 항에 있어서, 상기 반복되는 단어들을 검출 및 클러스터링(clustering)하는 단계를 더 포함하는, 코러스 검출 방법.
  23. 제 19 항에 있어서, 상기 검출 단계는 상기 멀티미디어 스트림에 관련된 부가적인 콘텐트 특징들에 더 기초하는, 코러스 검출 방법.
  24. 제 19 항에 있어서, 외부 소스로부터 상기 적어도 하나의 뮤직 비디오에 대한 식별 정보를 획득하는 단계를 더 포함하는, 코러스 검출 방법.
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 적어도 하나의 뮤직 비디오(507)에서 코러스를 검출하기 위한 장치에 있어서,
    상기 적어도 하나의 뮤직 비디오(507)를 포함하는 멀티미디어 스트림(505)을 수신하는 수단;
    웹 사이트로부터 상기 적어도 하나의 뮤직 비디오(507)와 연관된 가사를 획득하는 수단; 및
    상기 가사의 단어들의 반복에 기초하여 상기 코러스를 검출하는 수단을 포함하는, 코러스 검출 장치.
KR1020057019649A 2003-04-14 2004-04-02 콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치 KR101109023B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US46277703P 2003-04-14 2003-04-14
US60/462,777 2003-04-14
US60/509,800 2003-08-08
US50980003P 2003-10-08 2003-10-08
PCT/IB2004/001068 WO2004090752A1 (en) 2003-04-14 2004-04-02 Method and apparatus for summarizing a music video using content analysis

Publications (2)

Publication Number Publication Date
KR20060008897A KR20060008897A (ko) 2006-01-27
KR101109023B1 true KR101109023B1 (ko) 2012-01-31

Family

ID=33162269

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057019649A KR101109023B1 (ko) 2003-04-14 2004-04-02 콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치

Country Status (6)

Country Link
US (1) US7599554B2 (ko)
EP (1) EP1616275A1 (ko)
JP (1) JP2006525537A (ko)
KR (1) KR101109023B1 (ko)
CN (1) CN1774717B (ko)
WO (1) WO2004090752A1 (ko)

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070124678A1 (en) * 2003-09-30 2007-05-31 Lalitha Agnihotri Method and apparatus for identifying the high level structure of a program
US7424150B2 (en) * 2003-12-08 2008-09-09 Fuji Xerox Co., Ltd. Systems and methods for media summarization
WO2005074275A1 (ja) * 2004-01-30 2005-08-11 Matsushita Electric Industrial Co., Ltd. コンテンツ再生装置
GB2429597B (en) * 2004-02-06 2009-09-23 Agency Science Tech & Res Automatic video event detection and indexing
JP2008527940A (ja) * 2005-01-19 2008-07-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツアイテムを含むコンテンツストリームを分析する装置及び方法
KR100681017B1 (ko) 2005-02-15 2007-02-09 엘지전자 주식회사 동영상의 요약 제공이 가능한 이동통신 단말기 및 이를 이용한 요약 제공 방법
US7742111B2 (en) 2005-05-06 2010-06-22 Mavs Lab. Inc. Highlight detecting circuit and related method for audio feature-based highlight segment detection
US8013229B2 (en) 2005-07-22 2011-09-06 Agency For Science, Technology And Research Automatic creation of thumbnails for music videos
WO2007036888A2 (en) * 2005-09-29 2007-04-05 Koninklijke Philips Electronics N.V. A method and apparatus for segmenting a content item
US7555149B2 (en) * 2005-10-25 2009-06-30 Mitsubishi Electric Research Laboratories, Inc. Method and system for segmenting videos using face detection
KR100725018B1 (ko) 2005-11-24 2007-06-07 삼성전자주식회사 음악 내용 자동 요약 방법 및 그 장치
KR20070080481A (ko) * 2006-02-07 2007-08-10 삼성전자주식회사 노래 가사를 이용하여 하이라이트 구간을 검색하는 장치 및그 방법
EP1818837B1 (en) * 2006-02-10 2009-08-19 Harman Becker Automotive Systems GmbH System for a speech-driven selection of an audio file and method therefor
US8510453B2 (en) 2007-03-21 2013-08-13 Samsung Electronics Co., Ltd. Framework for correlating content on a local network with information on an external network
US8843467B2 (en) 2007-05-15 2014-09-23 Samsung Electronics Co., Ltd. Method and system for providing relevant information to a user of a device in a local network
WO2007127695A2 (en) 2006-04-25 2007-11-08 Elmo Weber Frank Prefernce based automatic media summarization
US20090077137A1 (en) * 2006-05-05 2009-03-19 Koninklijke Philips Electronics N.V. Method of updating a video summary by user relevance feedback
WO2007129250A1 (en) * 2006-05-08 2007-11-15 Koninklijke Philips Electronics N.V. Method and electronic device for aligning a song with its lyrics
TWI312945B (en) * 2006-06-07 2009-08-01 Ind Tech Res Inst Method and apparatus for multimedia data management
US7716572B2 (en) 2006-07-14 2010-05-11 Muvee Technologies Pte Ltd. Creating a new music video by intercutting user-supplied visual data with a pre-existing music video
KR100850791B1 (ko) * 2006-09-20 2008-08-06 삼성전자주식회사 방송 프로그램 요약 생성 시스템 및 그 방법
US8935269B2 (en) * 2006-12-04 2015-01-13 Samsung Electronics Co., Ltd. Method and apparatus for contextual search and query refinement on consumer electronics devices
GB2447053A (en) * 2007-02-27 2008-09-03 Sony Uk Ltd System for generating a highlight summary of a performance
US7659471B2 (en) * 2007-03-28 2010-02-09 Nokia Corporation System and method for music data repetition functionality
US8732187B1 (en) * 2007-04-09 2014-05-20 Google Inc. Link-based ranking of objects that do not include explicitly defined links
US8204955B2 (en) 2007-04-25 2012-06-19 Miovision Technologies Incorporated Method and system for analyzing multimedia content
US8678896B2 (en) 2007-06-14 2014-03-25 Harmonix Music Systems, Inc. Systems and methods for asynchronous band interaction in a rhythm action game
US8690670B2 (en) 2007-06-14 2014-04-08 Harmonix Music Systems, Inc. Systems and methods for simulating a rock band experience
US8663013B2 (en) 2008-07-08 2014-03-04 Harmonix Music Systems, Inc. Systems and methods for simulating a rock band experience
JP2010033265A (ja) 2008-07-28 2010-02-12 Nec Corp コンテンツ配信方法およびシステム
US8938465B2 (en) 2008-09-10 2015-01-20 Samsung Electronics Co., Ltd. Method and system for utilizing packaged content sources to identify and provide information based on contextual information
NO331287B1 (no) * 2008-12-15 2011-11-14 Cisco Systems Int Sarl Fremgangsmate og anordning for gjenkjenning av ansikter i en videostrom
WO2010101996A1 (en) * 2009-03-03 2010-09-10 Davenport Ronald R A wired internet network system for the internet video streams of radio stations
JP5312166B2 (ja) * 2009-04-13 2013-10-09 キヤノン株式会社 画像処理装置及び制御方法及びプログラム
US8449360B2 (en) 2009-05-29 2013-05-28 Harmonix Music Systems, Inc. Displaying song lyrics and vocal cues
US8465366B2 (en) 2009-05-29 2013-06-18 Harmonix Music Systems, Inc. Biasing a musical performance input to a part
TWI396990B (zh) * 2009-08-03 2013-05-21 Univ Nat Taiwan Science Tech 引用文獻記錄擷取系統、方法及程式產品
JP5306114B2 (ja) * 2009-08-28 2013-10-02 Kddi株式会社 クエリ抽出装置、クエリ抽出方法およびクエリ抽出プログラム
EP3217403B1 (en) * 2009-09-30 2018-12-19 Rovi Guides, Inc. Systems and methods for identifying audio content using an interactive media guidance application
US8161071B2 (en) 2009-09-30 2012-04-17 United Video Properties, Inc. Systems and methods for audio asset storage and management
US9981193B2 (en) 2009-10-27 2018-05-29 Harmonix Music Systems, Inc. Movement based recognition and evaluation
US10357714B2 (en) 2009-10-27 2019-07-23 Harmonix Music Systems, Inc. Gesture-based user interface for navigating a menu
US8351661B2 (en) 2009-12-02 2013-01-08 At&T Intellectual Property I, L.P. System and method to assign a digital image to a face cluster
US8568234B2 (en) 2010-03-16 2013-10-29 Harmonix Music Systems, Inc. Simulating musical instruments
CN102870114B (zh) * 2010-04-28 2016-05-25 Jvc建伍株式会社 项目选择装置和项目选择方法
EP2579955B1 (en) 2010-06-11 2020-07-08 Harmonix Music Systems, Inc. Dance game and tutorial
US8562403B2 (en) 2010-06-11 2013-10-22 Harmonix Music Systems, Inc. Prompting a player of a dance game
US9358456B1 (en) 2010-06-11 2016-06-07 Harmonix Music Systems, Inc. Dance competition game
US8839318B2 (en) 2010-07-08 2014-09-16 Echostar Broadcasting Corporation Apparatus, systems and methods for quick speed presentation of media content
EP2609732A4 (en) 2010-08-27 2015-01-21 Intel Corp METHOD FOR EXTENDING A DIGITAL SCREEN GRAPHIC
US8984577B2 (en) 2010-09-08 2015-03-17 Microsoft Technology Licensing, Llc Content signaturing
US20120060116A1 (en) * 2010-09-08 2012-03-08 Microsoft Corporation Content signaturing user interface
US9024166B2 (en) 2010-09-09 2015-05-05 Harmonix Music Systems, Inc. Preventing subtractive track separation
CN102469361B (zh) * 2010-11-03 2014-04-16 Tcl集团股份有限公司 一种自动下载电视插曲的方法及电视机
US8462984B2 (en) 2011-03-03 2013-06-11 Cypher, Llc Data pattern recognition and separation engine
US9204175B2 (en) * 2011-08-03 2015-12-01 Microsoft Technology Licensing, Llc Providing partial file stream for generating thumbnail
CN102982804B (zh) 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和***
US9099064B2 (en) * 2011-12-01 2015-08-04 Play My Tone Ltd. Method for extracting representative segments from music
KR101952260B1 (ko) * 2012-04-03 2019-02-26 삼성전자주식회사 다수의 동영상 썸네일을 동시에 표시하기 위한 영상 재생 장치 및 방법
GB2501275A (en) * 2012-04-18 2013-10-23 Life On Show Ltd Method of generating video data with associated soundtrack
JP5910379B2 (ja) * 2012-07-12 2016-04-27 ソニー株式会社 情報処理装置、情報処理方法、表示制御装置および表示制御方法
US20140032537A1 (en) * 2012-07-30 2014-01-30 Ajay Shekhawat Apparatus, system, and method for music identification
US9058806B2 (en) 2012-09-10 2015-06-16 Cisco Technology, Inc. Speaker segmentation and recognition based on list of speakers
TWI497959B (zh) * 2012-10-17 2015-08-21 Inst Information Industry Scene extraction and playback system, method and its recording media
US8606576B1 (en) 2012-11-02 2013-12-10 Google Inc. Communication log with extracted keywords from speech-to-text processing
US8886011B2 (en) 2012-12-07 2014-11-11 Cisco Technology, Inc. System and method for question detection based video segmentation, search and collaboration in a video processing environment
US9507860B1 (en) 2013-03-14 2016-11-29 Google Inc. Systems, methods, and media for identifying content
EP2811416A1 (en) * 2013-06-06 2014-12-10 Vestel Elektronik Sanayi ve Ticaret A.S. An identification method
US9449646B2 (en) * 2013-06-10 2016-09-20 Htc Corporation Methods and systems for media file management
JP6085538B2 (ja) * 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
US9613605B2 (en) * 2013-11-14 2017-04-04 Tunesplice, Llc Method, device and system for automatically adjusting a duration of a song
CN103943107B (zh) * 2014-04-03 2017-04-05 北京大学深圳研究生院 一种基于决策层融合的音视频关键词识别方法
US20150301718A1 (en) * 2014-04-18 2015-10-22 Google Inc. Methods, systems, and media for presenting music items relating to media content
CN105224581B (zh) * 2014-07-03 2019-06-21 北京三星通信技术研究有限公司 在播放音乐时呈现图片的方法和装置
KR20160057864A (ko) 2014-11-14 2016-05-24 삼성전자주식회사 요약 컨텐츠를 생성하는 전자 장치 및 그 방법
US9418637B1 (en) 2015-03-20 2016-08-16 claVision Inc. Methods and systems for visual music transcription
TWI537751B (zh) * 2015-08-12 2016-06-11 國立雲林科技大學 非揮發性電腦可讀取儲存媒體、影像自動描述系統與方法
CN108353213A (zh) * 2015-10-30 2018-07-31 惠普发展公司,有限责任合伙企业 视频内容概括和类选择
CN105635129B (zh) * 2015-12-25 2020-04-21 腾讯科技(深圳)有限公司 歌曲合唱方法、装置及***
US10560734B2 (en) 2016-08-01 2020-02-11 Microsoft Technology Licensing, Llc Video segmentation and searching by segmentation dimensions
US10311863B2 (en) * 2016-09-02 2019-06-04 Disney Enterprises, Inc. Classifying segments of speech based on acoustic features and context
KR102431737B1 (ko) 2017-02-28 2022-08-11 삼성전자주식회사 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치
CN106888407B (zh) * 2017-03-28 2019-04-02 腾讯科技(深圳)有限公司 一种视频摘要生成方法及装置
US10354660B2 (en) * 2017-04-28 2019-07-16 Cisco Technology, Inc. Audio frame labeling to achieve unequal error protection for audio frames of unequal importance
KR102542788B1 (ko) 2018-01-08 2023-06-14 삼성전자주식회사 전자장치, 그 제어방법 및 컴퓨터프로그램제품
US10791376B2 (en) 2018-07-09 2020-09-29 Spotify Ab Media program having selectable content depth
CN110889034A (zh) * 2018-09-07 2020-03-17 台达电子工业股份有限公司 数据分析方法及数据分析***
EP3621022A1 (en) 2018-09-07 2020-03-11 Delta Electronics, Inc. Data analysis method and data analysis system thereof
KR102212035B1 (ko) * 2020-05-27 2021-02-04 (주)프렌즈몬 제스처 인식 기반 원격 교육서비스 시스템 및 방법
US11550844B2 (en) 2020-12-07 2023-01-10 Td Ameritrade Ip Company, Inc. Transformation of database entries for improved association with related content items
KR20220114379A (ko) * 2021-02-08 2022-08-17 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20230043318A (ko) 2021-09-24 2023-03-31 삼성전자주식회사 영상 내 객체를 분류하는 객체 분류 방법 및 장치
CN114363673B (zh) * 2022-01-10 2022-12-27 北京百度网讯科技有限公司 视频裁剪方法、模型训练方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045291A1 (en) * 1999-01-28 2000-08-03 Koninklijke Philips Electronics N.V. System and method for analyzing video content using detected text in video frames

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5805733A (en) * 1994-12-12 1998-09-08 Apple Computer, Inc. Method and system for detecting scenes and summarizing video sequences
US6137544A (en) * 1997-06-02 2000-10-24 Philips Electronics North America Corporation Significant scene detection and frame filtering for a visual indexing system
JP3325809B2 (ja) * 1997-08-15 2002-09-17 日本電信電話株式会社 映像制作方法及び装置及びこの方法を記録した記録媒体
US6819863B2 (en) * 1998-01-13 2004-11-16 Koninklijke Philips Electronics N.V. System and method for locating program boundaries and commercial boundaries using audio categories
US6614930B1 (en) * 1999-01-28 2003-09-02 Koninklijke Philips Electronics N.V. Video stream classifiable symbol isolation method and system
GB9902235D0 (en) * 1999-02-01 1999-03-24 Emuse Corp Interactive system
GB9922765D0 (en) * 1999-09-28 1999-11-24 Koninkl Philips Electronics Nv Television
JP3757719B2 (ja) * 1999-11-19 2006-03-22 松下電器産業株式会社 音響データ分析方法及びその装置
US6657117B2 (en) * 2000-07-14 2003-12-02 Microsoft Corporation System and methods for providing automatic classification of media entities according to tempo properties
US20020157116A1 (en) * 2000-07-28 2002-10-24 Koninklijke Philips Electronics N.V. Context and content based information processing for multimedia segmentation and indexing
US6925455B2 (en) * 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
KR100450793B1 (ko) * 2001-01-20 2004-10-01 삼성전자주식회사 영역 분할된 영상의 영역 특징치 정합에 기초한객체추출장치 및 그 방법
JP2002259720A (ja) * 2001-03-02 2002-09-13 Internatl Business Mach Corp <Ibm> コンテンツ要約システム、映像要約システム、ユーザ端末、要約映像生成方法、要約映像受信方法、およびプログラム
US7143353B2 (en) * 2001-03-30 2006-11-28 Koninklijke Philips Electronics, N.V. Streaming video bookmarks
US7046914B2 (en) * 2001-05-01 2006-05-16 Koninklijke Philips Electronics N.V. Automatic content analysis and representation of multimedia presentations
US7027124B2 (en) * 2002-02-28 2006-04-11 Fuji Xerox Co., Ltd. Method for automatically producing music videos
US6998527B2 (en) * 2002-06-20 2006-02-14 Koninklijke Philips Electronics N.V. System and method for indexing and summarizing music videos
US7158685B2 (en) * 2002-06-28 2007-01-02 Microsoft Corporation Demosaicing graphical content
US7127120B2 (en) * 2002-11-01 2006-10-24 Microsoft Corporation Systems and methods for automatically editing a video
US7336890B2 (en) * 2003-02-19 2008-02-26 Microsoft Corporation Automatic detection and segmentation of music videos in an audio/video stream

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045291A1 (en) * 1999-01-28 2000-08-03 Koninklijke Philips Electronics N.V. System and method for analyzing video content using detected text in video frames

Also Published As

Publication number Publication date
CN1774717B (zh) 2012-06-27
EP1616275A1 (en) 2006-01-18
US7599554B2 (en) 2009-10-06
JP2006525537A (ja) 2006-11-09
KR20060008897A (ko) 2006-01-27
US20060210157A1 (en) 2006-09-21
CN1774717A (zh) 2006-05-17
WO2004090752A1 (en) 2004-10-21

Similar Documents

Publication Publication Date Title
KR101109023B1 (ko) 콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치
Dimitrova et al. Applications of video-content analysis and retrieval
KR101001178B1 (ko) 비디오 재생 디바이스, 이 비디오 재생 디바이스에 있는 장치, 뮤직 비디오 인덱싱 방법 및 컴퓨터-실행가능 명령을 저장한 컴퓨터-판독가능 저장 매체
KR100794152B1 (ko) 오디오/데이터/시각 정보 선택을 위한 방법 및 장치
KR100915847B1 (ko) 스트리밍 비디오 북마크들
KR101242664B1 (ko) 재생목록들에 기초하여 사용자 프로파일을 발생시키기 위한 방법 및 디바이스
Kijak et al. Audiovisual integration for tennis broadcast structuring
US20030131362A1 (en) Method and apparatus for multimodal story segmentation for linking multimedia content
JP4778231B2 (ja) ビデオシーケンスに対してインデックス付けするシステムおよび方法
US20030093794A1 (en) Method and system for personal information retrieval, update and presentation
US20030117428A1 (en) Visual summary of audio-visual program features
KR20040064703A (ko) 정보 경보들을 위한 방법 및 시스템
KR20020035153A (ko) 타임 슬라이싱에 의한 텍스트의 자동적인 분류를 위한시스템 및 방법
US20090132510A1 (en) Device for enabling to represent content items through meta summary data, and method thereof
Barbieri et al. Video summarization: methods and landscape
Li et al. Bridging the semantic gap in sports
Lee et al. An application for interactive video abstraction
Bailer et al. A Survey of Advanced Content Management Tools for TV Post-Production
Ibrahim et al. About TV Stream Macro-Segmentation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee