KR20080071554A - 비디오 분류 방법 및 비디오 분류 시스템 - Google Patents

비디오 분류 방법 및 비디오 분류 시스템 Download PDF

Info

Publication number
KR20080071554A
KR20080071554A KR20087009318A KR20087009318A KR20080071554A KR 20080071554 A KR20080071554 A KR 20080071554A KR 20087009318 A KR20087009318 A KR 20087009318A KR 20087009318 A KR20087009318 A KR 20087009318A KR 20080071554 A KR20080071554 A KR 20080071554A
Authority
KR
South Korea
Prior art keywords
classes
subset
video
important
task
Prior art date
Application number
KR20087009318A
Other languages
English (en)
Other versions
KR100952804B1 (ko
Inventor
레구나단 라다크리쉬난
마이클 시라쿠사
아제이 디바카란
이사오 오츠카
Original Assignee
미쓰비시덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미쓰비시덴키 가부시키가이샤 filed Critical 미쓰비시덴키 가부시키가이샤
Publication of KR20080071554A publication Critical patent/KR20080071554A/ko
Application granted granted Critical
Publication of KR100952804B1 publication Critical patent/KR100952804B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 비디오의 오디오 신호 및 클래스의 집합을 이용하여 비디오의 세그먼트를 분류하는 방법을 제공한다. 집합의 선택된 클래스는 중요한 클래스의 부분 집합으로서 결합되고, 중요한 클래스의 부분 집합은 특정한 하이라이트 태스크에 대하여 중요한 것이고, 집합의 나머지의 클래스는 그 밖의 클래스의 부분 집합으로서 결합된다. 중요한 클래스의 부분 집합 및 클래스는 트레이닝용 오디오 데이터를 이용하여 트레이닝되고, 그에 따라 태스크 특유의 분류기를 형성한다. 그렇게 하면, 태스크 특유의 분류기를 이용하여 오디오 신호를 중요한 것 또는 그 밖의 것으로서 분류하고, 특정한 하이라이트 태스크에 대응하는 비디오 내의 하이라이트를 특정할 수 있다. 분류된 오디오 신호를 이용하여, 비디오를 분할 또는 요약화할 수 있다.

Description

비디오 분류 방법 및 비디오 분류 시스템{METHOD AND SYSTEM FOR CLASSIFYING A VIDEO}
본 발명은 일반적으로 비디오 세그먼트의 분류에 관한 것으로, 보다 구체적으로는 오디오 신호에 따른 비디오 세그먼트의 분류에 관한 것이다.
스크립트 첨부 또는 스크립트 미첨부의 비디오 콘텐츠의 분할은, 비디오의 검색 및 브라우징 애플리케이션에 있어서 중요한 태스크이다. 비디오는 하이라이트를 특정함으로써 분할될 수 있다. 하이라이트는 중요하거나 주목할만한 이벤트를 포함하는 비디오의 임의의 부분이다. 하이라이트는 비디오의 본질적 요소를 파악하기 때문에, 하이라이트 세그먼트는 비디오의 우수한 요약을 제공할 수 있다. 예컨대, 스포츠 이벤트의 비디오에 있어서, 요약은 득점 이벤트 및 흥분시키는 경기를 포함할 것이다.
도 1은 하나의 전형적인 종래 기술의 오디오 분류 방법(100)을 나타내고, Ziyou Xiong, Regunathan Radhakrishnan, Ajay Divakaran and Thomas S.Huang, "Effective and Efficient Sports Highlights Extraction Using the Minimum Description Length Criterion in Selecting GMM Structures," Intl. Conf. on Multimedia and Expo, 2004년 6월, 및 미국 특허 출원 제10/922,781호 "Feature Identification of Events in Multimedia," 2004년 8월 20일 출원, Radhakrishnan et al.,을 참조하며, 양 문헌은 참조로 여기에 채용된다.
오디오 신호(101)가 입력이다. 특징(111)이 오디오 신호(101)의 프레임(102)으로부터 추출된다(110). 특징(111)은 변형 이산 코사인 변환(MCDT)의 형태일 수 있다.
도 2에도 도시된 바와 같이, 특징(111)은 범용 다원 분류기(generic multi-way classifier)(200)에 의해 라벨(121)로서 분류된다. 범용 다원 분류기(200)는 트레이닝된 오디오 클래스의 일반적인 집합(210), 예를 들어, 박수, 환성, 음악, 통상의 음성, 및 흥분된 음성을 갖는다. 각 오디오 클래스는 가우시안 혼합 모델(GMM)에 의해서 모델화된다. GMM의 파라미터는 트레이닝 데이터(211)로부터 추출된 특징으로부터 결정된다.
프레임(102)의 특징(111)의 GMM은, 특징(111)의 GMM이 각 클래스의 GMM에 대응하는 우도를 결정하고, 또한, 및 그것들의 우도를 비교함(220)으로써 분류된다. 최대 우도를 갖는 클래스가 특징 프레임의 라벨(121)로서 선택된다.
범용 분류기(200)에 있어서, 각 클래스가 개별적으로 트레이닝된다. 각 모델의 가우시안 혼합 성분의 수 m은 최소 기술 길이(MDL) 기준에 근거한다. MDL 기준은 생성 모델을 트레이닝할 때에 일반적으로 이용된다. 입력 트레이닝 데이터(211)를 위한 MDL 기준은 다음 식의 형태를 가질 수 있다.
Figure 112008027727344-PCT00001
여기서 m은 특정한 모델의 혼합 성분을 파라미터 Θ로 인덱스 부여하고, p는 우도 또는 확률이다.
식(1)의 첫번째 항은 m 혼합 성분 모델 아래의 트레이닝 데이터의 대수 우도이다. 이것은 m 혼합 모델에 대한 데이터의 평균 부호 길이라고 볼 수도 있다. 두번째 항은 모델 파라미터 Θ의 평균 부호 길이로서 해석될 수 있다. 이들 2개의 항을 이용하여, MDL 기준은 트레이닝 데이터를 가장 잘 기술하는 특정한 모델을 특정하는 것과, 그 모델을 기술하는 데 필요한 파라미터 수와의 균형을 맞춘다.
k값의 범위, 예를 들어 1~40의 범위에 걸쳐서 탐색이 행해진다. 각 값 k에 대하여, 데이터의 우도를 최대화하는 기대값 최대화(EM)의 최적화 프로세스를 이용하여, 값 Θk이 결정되고, 또한 그에 따라 MDL 스코어가 계산된다. 최소의 기대값 스코어를 갖는 값 k가 선택된다. MDL을 이용하여 클래스(210)의 GMM을 트레이닝하는 것은, 각 오디오 클래스에 대하여 우수한 생성 GMM을 개별적으로 선택함으로써, 일반적인 분류 성능이 높아진다고 하는 암묵적인 가정을 수반한다.
중요도 레벨(131)의 판정(130)은 태스크(140) 또는 애플리케이션에 의존한다. 예컨대, 중요도 레벨은 특정한 요약화 태스크에 대해 중요한 것으로서 라벨링되는 프레임의 비율에 대응한다. 스포츠의 하이라이트 태스크에서는, 중요한 클래스는 흥분된 음성 또는 환성일 수 있다. 콘서트의 하이라이트 태스크에서는, 중요한 클래스는 음악일 수 있다. 중요도 레벨에 임계값을 설정함으로써, 상이한 분할 및 요약화는 비디오 콘텐츠를 얻을 수 있다.
적절한 클래스의 집합(210) 및 필적하는 범용 다원 분류기(200)를 선택함으로써, 중요도 레벨(131)의 판정(130)만이 태스크(140)에 의존할 필요가 있다. 따라서, 상이한 태스크를 분류기에 관련지을 수 있다. 이는, 단일의 분류기를 취급하는 구현이 간략화된다.
발명의 개시
본 발명의 실시예는 스크립트 미첨부의 비디오의 오디오 신호를 라벨로서 분류하는 방법을 제공한다. 그 후, 라벨은 비디오 내의 하이라이트를 검출하기 위해서, 또한 단지 하이라이트 세그먼트의 요약 비디오를 작성하기 위해서 이용될 수 있다.
분류기는 가우시안 혼합 모델(GMM)을 이용하여, 중요한 오디오 클래스를 나타내는 오디오 프레임을 검출한다. 특정한 태스크에 따라, 하나의 오디오 클래스 또는 오디오 클래스의 혼합의 출현 횟수에 근거하여 하이라이트가 추출된다.
예컨대, 스포츠 이벤트의 비디오에 대한 하이라이트 태스크는 해설자의 흥분된 음성 및 관객의 환성의 존재에 의존하지만, 콘서트 하이라이트의 추출은 음악의 존재에 의존할 것이다.
모든 태스크에 대하여 하나의 범용 오디오 분류기를 이용하는 대신에, 본 발명의 실시예는 태스크에 의존하는 오디오 분류기를 이용한다. 또한, 본 발명의 태스크에 의존하는 분류기에 있어서 GMM에 이용되는 혼합 성분의 수는, 종래 기술과 같은 최소 기술 길이(MDL) 기준이 아니라, 트레이닝중인 교차 검증(CV) 오차를 이 용하여 구해진다.
이는, 분류기의 정밀도를 향상시키고, 분류를 수행하는 데 필요한 시간을 단축시킨다.
도 1은 종래 기술의 분류 방법의 블록도,
도 2는 종래 기술의 범용 다원 분류기의 블록도,
도 3은 본 발명의 실시예에 따른 분류 방법의 블록도,
도 4는 태스크 특유의 2치 분류기의 블록도,
도 5는 대응하는 태스크를 위한 복수의 태스크 특유의 분류기의 블록도,
도 6(a)는 다양한 분류기의 모델을 비교하는 도면,
도 6(b)는 다양한 분류기의 모델을 비교하는 도면,
도 6(c)는 다양한 분류기의 모델을 비교하는 도면,
도 7(a)는 범용 분류기 및 태스크 특유의 분류기의 혼합 성분을 비교하는 도면,
도 7(b)는 범용 분류기 및 태스크 특유의 분류기의 혼합 성분을 비교하는 도면,
도 8은 본 발명의 실시예에 따른 분류기에 대한 분류 정밀도의 그래프.
발명을 실시하기 위한 최선의 형태
도 3은 본 발명의 실시예에 따른, 비디오(303)의 오디오 신호(301)를 특정한 태스크(350)에 대하여 라벨(321)로서 분류하는(400) 방법을 나타낸다. 그 후, 라벨(321)은 비디오 내의 하이라이트를 특정하기 위해서 이용할 수 있다. 하이라이트는 분할되어(340), 하이라이트만을 포함하는 비디오의 요약(304)을 생성할 수 있다.
비디오(303)의 오디오 신호(301)가 입력이다. 오디오 신호(301)의 프레임(302)으로부터 특징(311)을 추출한다(310). 특징(311)은 변형 이산 코사인 변환(MDCT)의 형태일 수 있다. 다른 오디오 특징, 예를 들면, 멜 주파수 셉스트랄 계수(Mel frequency cepstral coefficients), 이산 퓨리에 변환 등을 분류할 수도 있는 것에 유의해야 한다.
도 4에도 도시된 바와 같이, 특징(311)은 태스크 특유의 2치 분류기(400)에 의해서 라벨(321)을 할당함으로써 분류된다. 프레임(302)의 특징(311)의 GMM은, 특징(311)의 GMM이 각 클래스에 대한 GMM에 대응하는 우도를 구하고, 또한 그 우도를 비교함(420)으로써 분류된다. 최대 우도를 갖는 클래스가 특징 프레임의 라벨(321)로서 선택된다.
태스크 특유의 분류기(400)는 트레이닝된 클래스의 집합(410)을 포함한다. 클래스는 분류기의 메모리에 저장될 수 있다. 하이라이트를 특정하기 위해서 중요하다고 간주되는 클래스의 부분 집합은, 중요한 클래스의 부분 집합(411)으로서 결합된다. 나머지의 클래스는 그 밖의 클래스의 부분 집합(412)으로서 결합된다. 중요한 클래스의 부분 집합 및 그 밖의 클래스의 부분 집합은, 이하에 설명하는 바 와 같이, 트레이닝 데이터를 이용하여 통합적으로 트레이닝된다.
예컨대, 중요한 클래스의 부분 집합(411)은 해설자의 흥분된 음성과 관객의 환성과의 혼합을 포함한다. 해설자의 흥분된 음성이란, 스포츠 이벤트에 있어서 골이 들어갔을 때에 스포츠 아나운서 및 해설자에 의해 통상적으로 이용되는 특수한 타입이 크고 높은 톤의 음성을 의미한다. 환성은 통상, 대량의 잡음 형태이다. 그 밖의 클래스의 부분 집합(412)은 박수, 음악, 및 통상의 음성 클래스를 포함한다. 중요한 클래스의 부분 집합은 복수의 클래스의 조합, 예를 들어 흥분된 음성과, 자발적인 환성 및 박수일 수 있는 것임을 이해해야 한다.
어떤 경우라도, 트레이닝 및 분류의 목적에 있어서, 클래스의 2개의 부분 집합, 즉 중요한 클래스 및 그 밖의 클래스 밖에 없다. 태스크 특유의 분류기는 2치 분류기로서 특성화될 수 있지만, 각각의 부분 집합은 복수의 클래스를 포함할 수 있다. 이점으로서, 2치 분류기는 통상적으로 다원 분류기보다 정확하고, 분류에 걸리는 시간이 짧다.
중요도 레벨(331)의 판정(330)은 또한, 특정한 태스크(350) 또는 애플리케이션에 의존한다. 예컨대, 중요도 레벨은 특정한 요약화 태스크에 대해 중요한 것으로서 라벨링되는 프레임의 퍼센티지에 대응한다. 스포츠 하이라이트 태스크의 경우, 중요한 클래스의 부분 집합은 흥분된 음성 클래스와 환성 클래스와의 혼합을 포함한다. 콘서트 하이라이트 태스크의 경우, 중요한 클래스는 음악 클래스 및 가령 박수를 적어도 포함할 것이다.
도 5는 본 발명의 실시예에 따른 2치 오디오 분류기에 대한 일반적인 개념을 나타낸다. 특정한 태스크(501~503)를 각각, 태스크 특유의 분류기(511~513) 중 대응하는 하나에 연관시킨다. 종래 기술과의 주요한 상이점은, 범용 다원 오디오 분류기 대신에, 여기서는 특정한 태스크에 따른 분류기를 삽입하는 것이다. 이는, 사용자가 비디오 내의 상이한 형태의 하이라이트에 최적화된 소형이고 효율적인 분류기를 구축할 수 있도록 한다.
도 4에 특정한 형태의 하이라이트 태스크(350)에 대해 도시된 바와 같이, 본 발명에서는 중요한 클래스의 부분 집합에 대하여 하나의 가우시안 혼합 모델(GMM)을 이용하고, 그 밖의 클래스의 부분 집합에 대하여 하나의 GMM을 이용한다. 중요한 클래스의 부분 집합은 중요한 클래스의 트레이닝용 데이터 예를 이용하여 트레이닝된다. 그 밖의 클래스의 부분 집합은 모든 그 밖의 클래스로부터의 트레이닝용 데이터 예를 이용하여 트레이닝된다.
도 4는 스포츠 하이라이트용으로 설계된 태스크 특유의 2치 분류기(400)를 나타낸다. 이 분류기는, 중요한 클래스가 흥분된 음성과 환성과의 혼합을 포함하고, 그 밖의 클래스의 부분 집합이 모든 그 밖의 오디오 성분을 모델화하는 2치 분류기를 이용한다.
태스크 특유의 분류기(400)를 구축하는 동기는, 분류 문제의 계산량을 저감하여, 중요한 클래스의 검출 정밀도를 높일 수 있는 것이다.
복수의 클래스가 존재할 수 있지만, 클래스를 2개의 부분 집합에 결합함으로써, 효과적으로 2치 분류기를 달성한다. 2치 분류는 일반적인 오디오 클래스의 보다 큰 집합을 구별해야 하는 범용 다원 분류기보다 적은 계산량이 요구된다.
그러나, 본 발명에서는 분류기가 클래스의 부분 집합을 이용하는 것을 유의하면서, 이러한 분류기가 어떻게 트레이닝되는지도 고려한다. 본 발명에서는 종래 기술과 동일한 MDL에 기초한 트레이닝 순서에 따르면, 아마 틀림없이 다양한 클래스에 대하여 동일한 혼합 성분을 학습하게 될 것이다. 즉, 태스크 특유의 분류기에 대하여 그 밖의 클래스의 부분 집합을 MDL을 이용하여 트레이닝할 때에는, 학습되는 혼합 성분의 수는 아마, 도 2에 도시된 박수, 음성, 및 음악 클래스에 이용되는 성분 수의 합에 매우 가깝게 될 것이다. 이것은, MDL 트레이닝 순서가 트레이닝 데이터(211)로부터 우수한 생성 GMM을 생성하는 것에 관련된다.
그 밖의 클래스의 부분 집합간의 용장성이 적으면, 트레이닝된 모델은 단지, 그 모델이 표현하는 모든 클래스에 대한 모델의 결합이다. MDL 기준은 트레이닝 데이터(211)에 대한 우수한 생성 모델을 찾아내는 데 이용되지만, 본 발명의 궁극의 관심사, 즉 분류 성능을 직접적으로는 최적화하지 않는다.
본 발명에서는, 분류에 이용했을 때에 가장 낮은 분류 오차를 갖는, 각 GMM에 대한 혼합 성분의 수 및 파라미터를 선택하려고 한다. 따라서, 본 발명의 태스크 특유의 분류기에서는, MDL이 아니라, 분류의 추정값을 최적화하는 통합 트레이닝 순서를 이용한다.
C=2로 하고, 여기서 C는 본 발명의 분류기에 있어서의 클래스의 부분 집합의 수이다.
본 발명에서는, 트레이닝 데이터(413)의 벡터 x 중에 Ntrain개의 샘플을 갖는 다. 각 샘플 xi에는 1~C의 값을 취하는 클래스 라벨 yi가 연관된다. 본 발명의 분류기(400)는 다음 식의 형태를 갖는다.
Figure 112008027727344-PCT00002
여기서, m=[m1, …, mc]T은 각 클래스 모델에 대한 혼합 성분의 수이고, Θi는 클래스 i, i={1, 2}에 연관된 파라미터이다. 이는, 식(1)에 의해 표현되는 종래 기술의 범용 분류기(200)와는 대조적이다.
충분한 트레이닝 데이터(413)가 있으면, 트레이닝 데이터의 일부를 Ntest개의 샘플 및 관련 라벨(xi, yi)을 갖는 검증 집합으로서 설정한다. 특정한 m에 대한 상기 집합의 경험적(empirical) 테스트 오차는 다음과 같다.
Figure 112008027727344-PCT00003
여기서, δ는 yi=f(xi; m)인 경우에 1이고, 그렇지 않은 경우에 0이다.
이 기준을 이용하여, 본 발명에서는
Figure 112008027727344-PCT00004
을 선택한다.
Figure 112008027727344-PCT00005
이것에는, m의 설정 범위에 걸쳐서 격자 탐색이 필요하고, 각 설정마다, GMM을 유지하여, 결과적으로 얻어지는 분류기의 테스트 오차를 검사한다.
트레이닝 데이터가 검증 집합을 설정하기에 충분하지 못하면, K-분할 교차 검증을 사용할 수 있고, 여기에 참조로 채용되는 Kohavi, R., "A Study of Cross- Validation and Bootstrap for Accuracy Estimation and Model Selection," Proceedings of the 14th International Joint Conference on Artificial Intelligence, Stanford University, 1995년을 참조한다.
K-분할 교차 검증은 아래와 같이 요약된다. 트레이닝 데이터를 K개의 동일한 사이즈의 부분으로 구분화한다.
Figure 112008027727344-PCT00006
이 N개의 트레이닝 샘플을 이들 K개의 부분 중 하나에 맵핑하기로 한다. fk(x; m)를, k번째의 부분을 제거한 트레이닝 데이터의 집합에 대하여 트레이닝되는 분류기라고 한다. 그렇게 하면, 오차의 교차 검증의 추정값은 다음과 같다.
Figure 112008027727344-PCT00007
즉, k번째의 부분에 대하여, 그 모델을 데이터의 다른 K-1개의 부분에 맞게 조절하고, 데이터의 k번째의 부분을 예측할 때에 그 조절된 모델의 예측 오차를 구한다. 본 발명에서는, 이것을, 트레이닝 데이터의 K개의 부분 각각에 대하여 실행한다. 그 후, 다음 식을 구한다.
Figure 112008027727344-PCT00008
이것에는, m의 범위에 걸친 탐색이 필요하다. 본 발명에서는, m의 보다 작은 범위에 걸쳐서 탐색함으로써, 트레이닝을 가속화할 수 있다. 예컨대, 도 4에 도시된 분류기에 있어서, 중요한 클래스(411)에 있어서는 ml을 고정할 수 있고, 그 밖의 클래스의 부분 집합(412)에 있어서는 m2에만 걸쳐서 탐색할 수 있다. 본 발명에서는, MDL 기준을 이용하여, 즉, 중요한 클래스의 부분 집합의 GMM을 유지하면서 ml을 선택할 수 있다.
도 6(a)~도 6(c)는 상이한 트레이닝 순서가 어떻게 상이한 모델을 생성할 수 있는지를 상징적으로 나타낸다. 도 6(a)는 2D의 특징 공간에서 3개의 상이한 클래스에 대하여 종래 기술의 MDL 순서를 이용하여 학습되는 GMM 모델을 나타낸다. MDL 기준은 각 클래스의 혼합 성분의 수를 개별적으로 선택한다. MDL 기준은 각 생성 확률 모델이 그 밖의 클래스의 지식 없이 개별적으로 트레이닝되는 모델 선택에 우수하다. MDL을 이용하는 경우, 클래스 내의 모든 클러스터는 동등하게 중요한 것으로서 취급된다.
도 6(b)는 트레이닝에 MDL이 아니라 교차 검증(CV)을 이용하는 경우에 기대되는 결과를 나타낸다. CV는 각 클래스에 대하여 보다 적은 수의 성분을 고르는 것을 알 수 있다. 구체적으로는, CV는 보다 적은 수의 성분을 이용함으로써 도 6(a)의 모델의 상세를 요약한다. 그러나, 각 클래스에 대하여 소정의 상세는 알 수 없지만, 클래스를 여전히 구별할 수 있음을 알 수 있다.
도 6(c)는 클래스를 중요한 클래스의 부분 집합과 모든 그 밖의 클래스로 분리하여, 효과적으로 2치 분류기를 구축하는 경우에 발생하는 것을 나타낸다. 보다 적은 수의 혼합 성분을 이용하면서, 중요한 클래스(601)와 그 밖의 클래스(602)를 여전히 구별할 수 있음을 알 수 있다.
모델 선택을 위한 교차 검증은 차별적인 2치 분류기에 우수하다. 예로서, 중요한 클래스의 부분 집합에 대하여 모델을 트레이닝하면서, 그 밖의 클래스에도 주의를 하고, 그 반대도 마찬가지이다. 통합 트레이닝은 경합 클래스에 대해 민감하기 때문에, 이 모델은 다른 영역 내보다 경계 영역에 있는 클러스터를 모델화할 때에 보다 더욱 주의하게 된다. 이것은, 모델의 계산량 저감도 초래하게 된다.
도 4를 참조하면, 분류기(400)에 포함되는 클래스를 2개의 그룹(2치 오디오 분류기를 구성함)에 결합하는 방법을 설명하였다. 도 4에 도시된 실시예는, 도 2의 범용 분류기로부터 선택된 흥분된 음성 클래스 및 환성 클래스를 결합함으로써 얻어지는 클래스(411)와, 그 이외의 클래스(412)로 구성되는 부분 집합을 제공한다. 그들 부분 집합은 스포츠 프로그램에서의 하이라이트 장면을 특정하는 데 유효하다. 다른 실시예에서, 예컨대 음악 클래스의 부분 집합 및 다른 클래스(도시하지 않음)의 부분 집합을 제공하면, 음악 장면에서 높은 우도를 나타내는 분류기를 작성할 수 있다. 따라서, 음악 프로그램 내에 포함된 음악 트랙을 갖는 장면이 높은 중요도 레벨을 갖는다고 산출되기 때문에, 음악 트랙을 갖는 장면을 특정하는 데 유효하다. 또한, 웃음 소리의 음성을 트레이닝 데이터로서 사용하여 웃음 소리 클래스를 작성하고, 그 이외의 클래스와의 우도를 비교함으로써, 버라이어티 프로그램에 포함된 폭소 장면을 특정할 수도 있다.
도 5를 참조하면, 태스크(501~503)에 따라 분류기(511~513)를 적절하게 전환하여 사용하는 방법에 대해서 설명하였다. 이 태스크에 근거한 전환시에, 분석되는 비디오(303)의 장르에 따라, 분류기(511~513) 중 최상의 것을 선택한다. 예컨 대, 비디오(303)가 스포츠 프로그램을 포함하는 경우에, 흥분된 음성 클래스 및/또는 환성 클래스에 근거하여 중요도 레벨을 산출하는 분류기를 선택하고, 음악 프로그램의 경우에, 음악 트랙을 갖는 장면의 중요도 레벨을 산출하는 분류기를 선택하고, 버라이어티 프로그램의 경우에, 웃음 소리 클래스에 근거하여 중요도 레벨을 산출하는 분류기를 선택한다. 분류기를 선택하는 태스크(501~503)는, 비디오(303)에 기록된 프로그램 정보로부터 취득한 장르에 근거하여 전환을 행함으로써 수행될 수도 있다. 또한, 이 시스템이 텔레비전 방송으로부터 기록된 프로그램을 분석하는 것이면, 태스크(501~503)는 전자 프로그램 가이드(EPG)로부터 취득한 장르 정보에 근거하여 전환을 행할 수도 있다.
발명의 효과
본 발명의 실시예는 태스크 특유의 2치 분류기를 이용하여 비디오 내의 하이라이트 검출을 제공한다. 이들 태스크 특유의 2치 분류기는, 보다 적은 수의 클래스, 즉 2개의 클래스 부분 집합을 구별하도록 설계된다. 이러한 간략화는, 교차 검증 및 테스트 오차에 근거하는 트레이닝과 함께, 클래스 모델에 대하여 보다 적은 수의 혼합 성분의 사용을 가져올 수 있다. 혼합 성분의 수가 적어질수록 처리의 속도 및 정밀도는 높아진다.
도 7(a)는 종래 기술의 일반적인 클래스의 성분 수(78)를 나타내고, 도 7(b)는 태스크 특유의 클래스에 대한 성분 수(42)를 나타낸다.
도 8은 중요한 클래스에 대한 세로축 상의 평균 검출 정밀도를, 가로축 상의 그 밖의 클래스의 성분 수의 함수로서 나타낸다.
본 발명을 바람직한 실시형태의 예로서 설명하였지만, 본 발명의 정신 및 범위 내에서 여러 가지의 다른 적응 및 수정을 할 수도 있음을 이해해야 된다. 따라서, 첨부된 특허청구범위의 목적은 본 발명의 참된 정신 및 범위에 들어가는 이러한 변형 및 수정을 모두 망라하는 것이다.

Claims (13)

  1. 비디오를 분류하는 방법으로서,
    비디오의 오디오 신호를 분류하기 위한 클래스의 집합을 정의하는 단계와,
    상기 집합의 선택된 클래스를 중요한 클래스의 부분 집합으로서 결합하는 단계로서, 상기 중요한 클래스의 부분 집합이 특정한 하이라이트 태스크에 있어서 중요한, 단계와,
    상기 집합의 나머지의 클래스를 그 밖의 클래스의 부분 집합으로서 결합하는 단계와,
    상기 중요한 클래스의 부분 집합과, 상기 그 밖의 클래스의 부분 집합을, 트레이닝용 오디오 데이터를 이용하여 통합적으로 트레이닝함으로써, 태스크 특유의 분류기를 형성하는 단계와,
    상기 태스크 특유의 분류기를 이용하여 상기 오디오 신호를 중요한 것 또는 그 밖의 것으로서 분류함으로써, 상기 특정한 하이라이트 태스크에 대응하는 상기 비디오 내의 하이라이트를 특정하는 단계
    를 포함하는 비디오 분류 방법.
  2. 제 1 항에 있어서,
    상기 비디오를 상기 분류된 오디오 신호에 따라, 중요한 세그먼트와 그 밖의 세그먼트로 분할하는 단계와,
    상기 중요한 세그먼트를 결합하여 상기 비디오의 요약으로 하는 단계
    를 더 포함하는 비디오 분류 방법.
  3. 제 1 항에 있어서,
    상기 오디오 신호를 프레임으로 구분화하는 단계와,
    각 프레임으로부터 오디오 특징을 추출하는 단계와,
    각 프레임을 상기 오디오 특징에 따라, 중요한 프레임 또는 그 밖의 프레임으로서 분류하는 단계
    를 더 포함하는 비디오 분류 방법.
  4. 제 3 항에 있어서,
    상기 오디오 특징은 변형 이산 코사인 변환인 비디오 분류 방법.
  5. 제 1 항에 있어서,
    상기 비디오는 스포츠 이벤트의 것이며, 상기 특정한 하이라이트 태스크는 상기 비디오 내의 하이라이트를 특정하는 것이고, 상기 클래스의 집합은 흥분된 음 성과 환성의 혼합, 박수, 환성, 통상의 음성 및 음악 클래스를 포함하고, 상기 중요한 클래스의 부분 집합은 상기 흥분된 음성과 환성의 혼합을 포함하고, 상기 그 밖의 클래스의 부분 집합은 박수, 환성, 통상의 음성 및 음악을 포함하는
    비디오 분류 방법.
  6. 제 1 항에 있어서,
    상기 중요한 클래스의 부분 집합을 제 1 가우시안 혼합 모델에 의해 표현하는 단계와,
    상기 그 밖의 클래스의 부분 집합을 제 2 가우시안 혼합 모델에 의해 표현하는 단계를
    더 포함하는 비디오 분류 방법.
  7. 제 1 항에 있어서,
    상기 트레이닝은 K-분할 교차 검증(K-fold cross validation)을 통합적으로 이용하는 비디오 분류 방법.
  8. 제 1 항에 있어서,
    상기 트레이닝은 분류의 추정값을 통합적으로 최적화하는 비디오 분류 방법.
  9. 제 1 항에 있어서,
    상기 분류는 라벨을 할당하고,
    상기 특정한 하이라이트 태스크에 따라 상기 라벨의 중요도 레벨을 결정하는 단계를 더 포함하는
    비디오 분류 방법.
  10. 제 6 항에 있어서,
    상기 클래스의 부분 집합의 수 C는 2이고, 상기 트레이닝용 오디오 데이터의 벡터 x에는 Ntrain개의 샘플이 있고, 각 샘플 xi에는 1~C의 값을 취하는 클래스 라벨 yi가 연관되고, 상기 태스크 특유의 분류기는 다음 식의 형태를 갖고,
    Figure 112008027727344-PCT00009
    여기서, m=[m1, …, mC]T은 각 가우시안 혼합 모델의 혼합 성분의 수이며, Θi는 클래스 i, i={1, 2}에 연관되는 파라미터인
    비디오 분류 방법.
  11. 제 10 항에 있어서,
    상기 트레이닝용 오디오 데이터는, Ntest개의 샘플 및 관련 라벨 (xi, yi)를 갖는 검증 집합을 포함하고, 특정한 m에 대한 상기 검증 집합의 경험적(empirical) 테스트 오차는 이하와 같고,
    Figure 112008027727344-PCT00010
    여기서, δ는, yi=f(xi; m)인 경우에 1이고, 그렇지 않은 경우에 0인
    비디오 분류 방법.
  12. 제 11 항에 있어서,
    혼합 성분의 최적의 수
    Figure 112008027727344-PCT00011
    는,
    Figure 112008027727344-PCT00012
    에 따라서 선택되는 비디오 분류 방법.
  13. 비디오를 분류하는 시스템으로서,
    비디오의 오디오 신호를 분류하기 위한 클래스의 집합을 저장하도록 구성되는 메모리와,
    상기 집합의 선택된 클래스를 중요한 클래스의 부분 집합으로서 결합하는 수단으로서, 상기 중요한 클래스의 부분 집합이 특정한 하이라이트 태스크에 있어서 중요한, 수단과,
    상기 집합의 나머지의 클래스를 그 밖의 클래스의 부분 집합으로서 결합하는 수단과,
    상기 중요한 클래스의 부분 집합과, 상기 그 밖의 클래스의 부분 집합을, 트레이닝용 오디오 데이터를 이용하여 통합적으로 트레이닝함으로써, 태스크 특유의 분류기를 형성하는 수단과,
    상기 태스크 특유의 분류기를 이용하여 상기 오디오 신호를 중요한 것 또는 그 밖의 것으로서 분류함으로써, 상기 특정한 하이라이트 태스크에 대응하는 상기 비디오 내의 하이라이트를 특정하는 수단
    을 구비하는 비디오 분류 시스템.
KR20087009318A 2006-01-06 2006-12-27 비디오 분류 방법 및 비디오 분류 시스템 KR100952804B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/326,818 2006-01-06
US11/326,818 US7558809B2 (en) 2006-01-06 2006-01-06 Task specific audio classification for identifying video highlights

Publications (2)

Publication Number Publication Date
KR20080071554A true KR20080071554A (ko) 2008-08-04
KR100952804B1 KR100952804B1 (ko) 2010-04-14

Family

ID=38228305

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20087009318A KR100952804B1 (ko) 2006-01-06 2006-12-27 비디오 분류 방법 및 비디오 분류 시스템

Country Status (6)

Country Link
US (1) US7558809B2 (ko)
EP (1) EP1917660B1 (ko)
JP (1) JP4870087B2 (ko)
KR (1) KR100952804B1 (ko)
CN (1) CN101268505B (ko)
WO (1) WO2007077965A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014183034A1 (en) * 2013-05-10 2014-11-13 Uberfan, Llc Event-related media management system
US8948891B2 (en) 2009-08-12 2015-02-03 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding multi-channel audio signal by using semantic information
WO2016057416A1 (en) * 2014-10-09 2016-04-14 Thuuz, Inc. Generating a customized highlight sequence depicting one or more events
US11882345B2 (en) 2014-10-09 2024-01-23 Stats Llc Customized generation of highlights show with narrative component

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630950B2 (en) * 2006-08-18 2009-12-08 International Business Machines Corporation System and method for learning models from scarce and skewed training data
US20080215318A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Event recognition
CN101588450B (zh) * 2008-05-19 2013-08-14 株式会社日立制作所 记录再现装置及方法
WO2010140355A1 (ja) * 2009-06-04 2010-12-09 パナソニック株式会社 音響信号処理装置および方法
JP2011013383A (ja) * 2009-06-30 2011-01-20 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法
CN101938455A (zh) * 2009-06-30 2011-01-05 中兴通讯股份有限公司 音频数据传输方法与装置
US8532863B2 (en) * 2009-09-28 2013-09-10 Sri International Audio based robot control and navigation
US8432965B2 (en) * 2010-05-25 2013-04-30 Intellectual Ventures Fund 83 Llc Efficient method for assembling key video snippets to form a video summary
US8923607B1 (en) * 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
CA2891413C (en) * 2012-11-13 2019-04-02 Samsung Electronics Co., Ltd. Method and apparatus for determining encoding mode
JP2015037212A (ja) * 2013-08-12 2015-02-23 オリンパスイメージング株式会社 情報処理装置、撮影機器及び情報処理方法
US10297287B2 (en) 2013-10-21 2019-05-21 Thuuz, Inc. Dynamic media recording
CN104679779B (zh) 2013-11-29 2019-02-01 华为技术有限公司 视频分类的方法和装置
US10419830B2 (en) 2014-10-09 2019-09-17 Thuuz, Inc. Generating a customized highlight sequence depicting an event
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
WO2016098430A1 (ja) * 2014-12-15 2016-06-23 ソニー株式会社 情報処理方法、映像処理装置及びプログラム
CN104581380B (zh) * 2014-12-30 2018-08-31 联想(北京)有限公司 一种信息处理的方法及移动终端
CN105992061B (zh) * 2015-02-13 2018-08-03 上海交通大学 一种自适应动态的多媒体分级传送播放管理方法
US10381022B1 (en) 2015-12-23 2019-08-13 Google Llc Audio classifier
JP7033587B2 (ja) * 2016-06-20 2022-03-10 ピクセルロット エルティーディー. 映像ハイライトを自動的に製作する方法及びシステム
CN107277617A (zh) * 2017-07-26 2017-10-20 深圳Tcl新技术有限公司 预览视频的生成方法、电视机和计算机可读存储介质
CN108307250B (zh) 2018-01-23 2020-10-30 浙江大华技术股份有限公司 一种生成视频摘要的方法及装置
US11594028B2 (en) 2018-05-18 2023-02-28 Stats Llc Video processing for enabling sports highlights generation
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
US11025985B2 (en) 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
US20200037022A1 (en) * 2018-07-30 2020-01-30 Thuuz, Inc. Audio processing for extraction of variable length disjoint segments from audiovisual content
CN109089127B (zh) * 2018-07-10 2021-05-28 武汉斗鱼网络科技有限公司 一种视频拼接方法、装置、设备及介质
CN109756775B (zh) * 2018-08-28 2020-04-28 安徽瑞羽康农业科技有限公司 年代类型吻合度辨识方法
CN109344287A (zh) * 2018-09-05 2019-02-15 腾讯科技(深圳)有限公司 一种信息推荐方法及相关设备
CN109446990B (zh) * 2018-10-30 2020-02-28 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109376268A (zh) * 2018-11-27 2019-02-22 北京微播视界科技有限公司 视频分类方法、装置、电子设备及计算机可读存储介质
CN111261174B (zh) * 2018-11-30 2023-02-17 杭州海康威视数字技术股份有限公司 音频的分类方法、装置、终端及计算机可读存储介质
US10909174B1 (en) * 2019-02-04 2021-02-02 Amazon Technologies, Inc. State detection of live feed
CN113826116A (zh) * 2019-05-15 2021-12-21 北京嘀嘀无限科技发展有限公司 用于多类分类的对抗性多二元神经网络
KR102554626B1 (ko) * 2020-01-06 2023-07-13 한국전자통신연구원 점진적 학습을 위한 기계 학습 방법 및 이를 수행하기 위한 컴퓨팅 장치
US11206453B2 (en) 2020-04-14 2021-12-21 International Business Machines Corporation Cognitive broadcasting of an event
CN113096687B (zh) * 2021-03-30 2024-04-26 中国建设银行股份有限公司 音视频处理方法、装置、计算机设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3475317B2 (ja) * 1996-12-20 2003-12-08 日本電信電話株式会社 映像分類方法および装置
US20020093531A1 (en) * 2001-01-17 2002-07-18 John Barile Adaptive display for video conferences
US7007001B2 (en) * 2002-06-26 2006-02-28 Microsoft Corporation Maximizing mutual information between observations and hidden states to minimize classification errors
US20040167767A1 (en) * 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals
US20050154987A1 (en) * 2004-01-14 2005-07-14 Isao Otsuka System and method for recording and reproducing multimedia
US7302451B2 (en) * 2004-05-07 2007-11-27 Mitsubishi Electric Research Laboratories, Inc. Feature identification of events in multimedia

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8948891B2 (en) 2009-08-12 2015-02-03 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding multi-channel audio signal by using semantic information
US9817883B2 (en) 2013-05-10 2017-11-14 Uberfan, Llc Event-related media management system
US9477744B2 (en) 2013-05-10 2016-10-25 Uberfan, Llc Event-related media management system
US9727634B2 (en) 2013-05-10 2017-08-08 Uberfan, Llc Event-related media management system
US9754013B2 (en) 2013-05-10 2017-09-05 Uberfan, Llc Event-related media management system
WO2014183034A1 (en) * 2013-05-10 2014-11-13 Uberfan, Llc Event-related media management system
US10176247B2 (en) 2013-05-10 2019-01-08 Uberfan, Llc Event-related media management system
US10740305B2 (en) 2013-05-10 2020-08-11 Uberfan, Llc Event-related media management system
US10963439B1 (en) 2013-05-10 2021-03-30 Uberfan, Llc Event-related media management system
US11755551B2 (en) 2013-05-10 2023-09-12 Uberfan, Llc Event-related media management system
US11899637B2 (en) 2013-05-10 2024-02-13 Uberfan, Llc Event-related media management system
WO2016057416A1 (en) * 2014-10-09 2016-04-14 Thuuz, Inc. Generating a customized highlight sequence depicting one or more events
US11778287B2 (en) 2014-10-09 2023-10-03 Stats Llc Generating a customized highlight sequence depicting multiple events
US11882345B2 (en) 2014-10-09 2024-01-23 Stats Llc Customized generation of highlights show with narrative component

Also Published As

Publication number Publication date
JP2009522587A (ja) 2009-06-11
EP1917660B1 (en) 2015-05-13
JP4870087B2 (ja) 2012-02-08
US20070162924A1 (en) 2007-07-12
KR100952804B1 (ko) 2010-04-14
US7558809B2 (en) 2009-07-07
CN101268505A (zh) 2008-09-17
WO2007077965A1 (en) 2007-07-12
EP1917660A4 (en) 2010-02-17
CN101268505B (zh) 2011-08-17
EP1917660A1 (en) 2008-05-07

Similar Documents

Publication Publication Date Title
KR100952804B1 (ko) 비디오 분류 방법 및 비디오 분류 시스템
US8938393B2 (en) Extended videolens media engine for audio recognition
Cai et al. A flexible framework for key audio effects detection and auditory context inference
US9594959B2 (en) Videolens media engine
US20180032845A1 (en) Video content contextual classification
EP1728195B1 (en) Method and system for semantically segmenting scenes of a video sequence
US20060058998A1 (en) Indexing apparatus and indexing method
Li et al. Video content analysis using multimodal information: For movie content extraction, indexing and representation
EP3682444A1 (en) Voice-controlled management of user profiles
US6996171B1 (en) Data describing method and data processor
Sidiropoulos et al. On the use of audio events for improving video scene segmentation
Castán et al. Audio segmentation-by-classification approach based on factor analysis in broadcast news domain
CN111816170B (zh) 一种音频分类模型的训练和垃圾音频识别方法和装置
Liu et al. Major cast detection in video using both speaker and face information
Xiong Audio-visual sports highlights extraction using coupled hidden markov models
Li et al. Movie content analysis, indexing and skimming via multimodal information
JP2010038943A (ja) 音響信号処理装置及び方法
Chu et al. Generative and discriminative modeling toward semantic context detection in audio tracks
Harb et al. A general audio classifier based on human perception motivated model
Lu et al. Towards optimal audio" keywords" detection for audio content analysis and discovery
Rouvier et al. Robust audio-based classification of video genre
Bredin et al. IRIT@ TRECVid 2010: Hidden Markov Models for Context-aware Late Fusion of Multiple Audio Classifiers.
CN117334187A (zh) 一种数据分类方法、装置及电子设备
Premaratne et al. Improving Event detection in Cricket Videos Using Audio Feature Analysis
Lin et al. Structuring sport video through audio event classification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130321

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140319

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160318

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170302

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180316

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190319

Year of fee payment: 10