KR20080071554A

KR20080071554A - 비디오 분류 방법 및 비디오 분류 시스템

Info

Publication number: KR20080071554A
Application number: KR20087009318A
Authority: KR
Inventors: 레구나단 라다크리쉬난; 마이클 시라쿠사; 아제이 디바카란; 이사오 오츠카
Original assignee: 미쓰비시덴키 가부시키가이샤
Priority date: 2006-01-06
Filing date: 2006-12-27
Publication date: 2008-08-04
Also published as: JP2009522587A; EP1917660B1; JP4870087B2; US20070162924A1; KR100952804B1; US7558809B2; CN101268505A; WO2007077965A1; EP1917660A4; CN101268505B; EP1917660A1

Abstract

본 발명은 비디오의 오디오 신호 및 클래스의 집합을 이용하여 비디오의 세그먼트를 분류하는 방법을 제공한다. 집합의 선택된 클래스는 중요한 클래스의 부분 집합으로서 결합되고, 중요한 클래스의 부분 집합은 특정한 하이라이트 태스크에 대하여 중요한 것이고, 집합의 나머지의 클래스는 그 밖의 클래스의 부분 집합으로서 결합된다. 중요한 클래스의 부분 집합 및 클래스는 트레이닝용 오디오 데이터를 이용하여 트레이닝되고, 그에 따라 태스크 특유의 분류기를 형성한다. 그렇게 하면, 태스크 특유의 분류기를 이용하여 오디오 신호를 중요한 것 또는 그 밖의 것으로서 분류하고, 특정한 하이라이트 태스크에 대응하는 비디오 내의 하이라이트를 특정할 수 있다. 분류된 오디오 신호를 이용하여, 비디오를 분할 또는 요약화할 수 있다.

Description

비디오 분류 방법 및 비디오 분류 시스템{METHOD AND SYSTEM FOR CLASSIFYING A VIDEO}

본 발명은 일반적으로 비디오 세그먼트의 분류에 관한 것으로, 보다 구체적으로는 오디오 신호에 따른 비디오 세그먼트의 분류에 관한 것이다.

스크립트 첨부 또는 스크립트 미첨부의 비디오 콘텐츠의 분할은, 비디오의 검색 및 브라우징 애플리케이션에 있어서 중요한 태스크이다. 비디오는 하이라이트를 특정함으로써 분할될 수 있다. 하이라이트는 중요하거나 주목할만한 이벤트를 포함하는 비디오의 임의의 부분이다. 하이라이트는 비디오의 본질적 요소를 파악하기 때문에, 하이라이트 세그먼트는 비디오의 우수한 요약을 제공할 수 있다. 예컨대, 스포츠 이벤트의 비디오에 있어서, 요약은 득점 이벤트 및 흥분시키는 경기를 포함할 것이다.

도 1은 하나의 전형적인 종래 기술의 오디오 분류 방법(100)을 나타내고, Ziyou Xiong, Regunathan Radhakrishnan, Ajay Divakaran and Thomas S.Huang, "Effective and Efficient Sports Highlights Extraction Using the Minimum Description Length Criterion in Selecting GMM Structures," Intl. Conf. on Multimedia and Expo, 2004년 6월, 및 미국 특허 출원 제10/922,781호 "Feature Identification of Events in Multimedia," 2004년 8월 20일 출원, Radhakrishnan et al.,을 참조하며, 양 문헌은 참조로 여기에 채용된다.

오디오 신호(101)가 입력이다. 특징(111)이 오디오 신호(101)의 프레임(102)으로부터 추출된다(110). 특징(111)은 변형 이산 코사인 변환(MCDT)의 형태일 수 있다.

도 2에도 도시된 바와 같이, 특징(111)은 범용 다원 분류기(generic multi-way classifier)(200)에 의해 라벨(121)로서 분류된다. 범용 다원 분류기(200)는 트레이닝된 오디오 클래스의 일반적인 집합(210), 예를 들어, 박수, 환성, 음악, 통상의 음성, 및 흥분된 음성을 갖는다. 각 오디오 클래스는 가우시안 혼합 모델(GMM)에 의해서 모델화된다. GMM의 파라미터는 트레이닝 데이터(211)로부터 추출된 특징으로부터 결정된다.

프레임(102)의 특징(111)의 GMM은, 특징(111)의 GMM이 각 클래스의 GMM에 대응하는 우도를 결정하고, 또한, 및 그것들의 우도를 비교함(220)으로써 분류된다. 최대 우도를 갖는 클래스가 특징 프레임의 라벨(121)로서 선택된다.

범용 분류기(200)에 있어서, 각 클래스가 개별적으로 트레이닝된다. 각 모델의 가우시안 혼합 성분의 수 m은 최소 기술 길이(MDL) 기준에 근거한다. MDL 기준은 생성 모델을 트레이닝할 때에 일반적으로 이용된다. 입력 트레이닝 데이터(211)를 위한 MDL 기준은 다음 식의 형태를 가질 수 있다.

여기서 m은 특정한 모델의 혼합 성분을 파라미터 Θ로 인덱스 부여하고, p는 우도 또는 확률이다.

식(1)의 첫번째 항은 m 혼합 성분 모델 아래의 트레이닝 데이터의 대수 우도이다. 이것은 m 혼합 모델에 대한 데이터의 평균 부호 길이라고 볼 수도 있다. 두번째 항은 모델 파라미터 Θ의 평균 부호 길이로서 해석될 수 있다. 이들 2개의 항을 이용하여, MDL 기준은 트레이닝 데이터를 가장 잘 기술하는 특정한 모델을 특정하는 것과, 그 모델을 기술하는 데 필요한 파라미터 수와의 균형을 맞춘다.

k값의 범위, 예를 들어 1~40의 범위에 걸쳐서 탐색이 행해진다. 각 값 k에 대하여, 데이터의 우도를 최대화하는 기대값 최대화(EM)의 최적화 프로세스를 이용하여, 값 Θ^k이 결정되고, 또한 그에 따라 MDL 스코어가 계산된다. 최소의 기대값 스코어를 갖는 값 k가 선택된다. MDL을 이용하여 클래스(210)의 GMM을 트레이닝하는 것은, 각 오디오 클래스에 대하여 우수한 생성 GMM을 개별적으로 선택함으로써, 일반적인 분류 성능이 높아진다고 하는 암묵적인 가정을 수반한다.

중요도 레벨(131)의 판정(130)은 태스크(140) 또는 애플리케이션에 의존한다. 예컨대, 중요도 레벨은 특정한 요약화 태스크에 대해 중요한 것으로서 라벨링되는 프레임의 비율에 대응한다. 스포츠의 하이라이트 태스크에서는, 중요한 클래스는 흥분된 음성 또는 환성일 수 있다. 콘서트의 하이라이트 태스크에서는, 중요한 클래스는 음악일 수 있다. 중요도 레벨에 임계값을 설정함으로써, 상이한 분할 및 요약화는 비디오 콘텐츠를 얻을 수 있다.

적절한 클래스의 집합(210) 및 필적하는 범용 다원 분류기(200)를 선택함으로써, 중요도 레벨(131)의 판정(130)만이 태스크(140)에 의존할 필요가 있다. 따라서, 상이한 태스크를 분류기에 관련지을 수 있다. 이는, 단일의 분류기를 취급하는 구현이 간략화된다.

발명의 개시

본 발명의 실시예는 스크립트 미첨부의 비디오의 오디오 신호를 라벨로서 분류하는 방법을 제공한다. 그 후, 라벨은 비디오 내의 하이라이트를 검출하기 위해서, 또한 단지 하이라이트 세그먼트의 요약 비디오를 작성하기 위해서 이용될 수 있다.

분류기는 가우시안 혼합 모델(GMM)을 이용하여, 중요한 오디오 클래스를 나타내는 오디오 프레임을 검출한다. 특정한 태스크에 따라, 하나의 오디오 클래스 또는 오디오 클래스의 혼합의 출현 횟수에 근거하여 하이라이트가 추출된다.

예컨대, 스포츠 이벤트의 비디오에 대한 하이라이트 태스크는 해설자의 흥분된 음성 및 관객의 환성의 존재에 의존하지만, 콘서트 하이라이트의 추출은 음악의 존재에 의존할 것이다.

모든 태스크에 대하여 하나의 범용 오디오 분류기를 이용하는 대신에, 본 발명의 실시예는 태스크에 의존하는 오디오 분류기를 이용한다. 또한, 본 발명의 태스크에 의존하는 분류기에 있어서 GMM에 이용되는 혼합 성분의 수는, 종래 기술과 같은 최소 기술 길이(MDL) 기준이 아니라, 트레이닝중인 교차 검증(CV) 오차를 이 용하여 구해진다.

이는, 분류기의 정밀도를 향상시키고, 분류를 수행하는 데 필요한 시간을 단축시킨다.

도 1은 종래 기술의 분류 방법의 블록도,

도 2는 종래 기술의 범용 다원 분류기의 블록도,

도 3은 본 발명의 실시예에 따른 분류 방법의 블록도,

도 4는 태스크 특유의 2치 분류기의 블록도,

도 5는 대응하는 태스크를 위한 복수의 태스크 특유의 분류기의 블록도,

도 6(a)는 다양한 분류기의 모델을 비교하는 도면,

도 6(b)는 다양한 분류기의 모델을 비교하는 도면,

도 6(c)는 다양한 분류기의 모델을 비교하는 도면,

도 7(a)는 범용 분류기 및 태스크 특유의 분류기의 혼합 성분을 비교하는 도면,

도 7(b)는 범용 분류기 및 태스크 특유의 분류기의 혼합 성분을 비교하는 도면,

도 8은 본 발명의 실시예에 따른 분류기에 대한 분류 정밀도의 그래프.

발명을 실시하기 위한 최선의 형태

도 3은 본 발명의 실시예에 따른, 비디오(303)의 오디오 신호(301)를 특정한 태스크(350)에 대하여 라벨(321)로서 분류하는(400) 방법을 나타낸다. 그 후, 라벨(321)은 비디오 내의 하이라이트를 특정하기 위해서 이용할 수 있다. 하이라이트는 분할되어(340), 하이라이트만을 포함하는 비디오의 요약(304)을 생성할 수 있다.

비디오(303)의 오디오 신호(301)가 입력이다. 오디오 신호(301)의 프레임(302)으로부터 특징(311)을 추출한다(310). 특징(311)은 변형 이산 코사인 변환(MDCT)의 형태일 수 있다. 다른 오디오 특징, 예를 들면, 멜 주파수 셉스트랄 계수(Mel frequency cepstral coefficients), 이산 퓨리에 변환 등을 분류할 수도 있는 것에 유의해야 한다.

도 4에도 도시된 바와 같이, 특징(311)은 태스크 특유의 2치 분류기(400)에 의해서 라벨(321)을 할당함으로써 분류된다. 프레임(302)의 특징(311)의 GMM은, 특징(311)의 GMM이 각 클래스에 대한 GMM에 대응하는 우도를 구하고, 또한 그 우도를 비교함(420)으로써 분류된다. 최대 우도를 갖는 클래스가 특징 프레임의 라벨(321)로서 선택된다.

태스크 특유의 분류기(400)는 트레이닝된 클래스의 집합(410)을 포함한다. 클래스는 분류기의 메모리에 저장될 수 있다. 하이라이트를 특정하기 위해서 중요하다고 간주되는 클래스의 부분 집합은, 중요한 클래스의 부분 집합(411)으로서 결합된다. 나머지의 클래스는 그 밖의 클래스의 부분 집합(412)으로서 결합된다. 중요한 클래스의 부분 집합 및 그 밖의 클래스의 부분 집합은, 이하에 설명하는 바 와 같이, 트레이닝 데이터를 이용하여 통합적으로 트레이닝된다.

예컨대, 중요한 클래스의 부분 집합(411)은 해설자의 흥분된 음성과 관객의 환성과의 혼합을 포함한다. 해설자의 흥분된 음성이란, 스포츠 이벤트에 있어서 골이 들어갔을 때에 스포츠 아나운서 및 해설자에 의해 통상적으로 이용되는 특수한 타입이 크고 높은 톤의 음성을 의미한다. 환성은 통상, 대량의 잡음 형태이다. 그 밖의 클래스의 부분 집합(412)은 박수, 음악, 및 통상의 음성 클래스를 포함한다. 중요한 클래스의 부분 집합은 복수의 클래스의 조합, 예를 들어 흥분된 음성과, 자발적인 환성 및 박수일 수 있는 것임을 이해해야 한다.

어떤 경우라도, 트레이닝 및 분류의 목적에 있어서, 클래스의 2개의 부분 집합, 즉 중요한 클래스 및 그 밖의 클래스 밖에 없다. 태스크 특유의 분류기는 2치 분류기로서 특성화될 수 있지만, 각각의 부분 집합은 복수의 클래스를 포함할 수 있다. 이점으로서, 2치 분류기는 통상적으로 다원 분류기보다 정확하고, 분류에 걸리는 시간이 짧다.

중요도 레벨(331)의 판정(330)은 또한, 특정한 태스크(350) 또는 애플리케이션에 의존한다. 예컨대, 중요도 레벨은 특정한 요약화 태스크에 대해 중요한 것으로서 라벨링되는 프레임의 퍼센티지에 대응한다. 스포츠 하이라이트 태스크의 경우, 중요한 클래스의 부분 집합은 흥분된 음성 클래스와 환성 클래스와의 혼합을 포함한다. 콘서트 하이라이트 태스크의 경우, 중요한 클래스는 음악 클래스 및 가령 박수를 적어도 포함할 것이다.

도 5는 본 발명의 실시예에 따른 2치 오디오 분류기에 대한 일반적인 개념을 나타낸다. 특정한 태스크(501~503)를 각각, 태스크 특유의 분류기(511~513) 중 대응하는 하나에 연관시킨다. 종래 기술과의 주요한 상이점은, 범용 다원 오디오 분류기 대신에, 여기서는 특정한 태스크에 따른 분류기를 삽입하는 것이다. 이는, 사용자가 비디오 내의 상이한 형태의 하이라이트에 최적화된 소형이고 효율적인 분류기를 구축할 수 있도록 한다.

도 4에 특정한 형태의 하이라이트 태스크(350)에 대해 도시된 바와 같이, 본 발명에서는 중요한 클래스의 부분 집합에 대하여 하나의 가우시안 혼합 모델(GMM)을 이용하고, 그 밖의 클래스의 부분 집합에 대하여 하나의 GMM을 이용한다. 중요한 클래스의 부분 집합은 중요한 클래스의 트레이닝용 데이터 예를 이용하여 트레이닝된다. 그 밖의 클래스의 부분 집합은 모든 그 밖의 클래스로부터의 트레이닝용 데이터 예를 이용하여 트레이닝된다.

도 4는 스포츠 하이라이트용으로 설계된 태스크 특유의 2치 분류기(400)를 나타낸다. 이 분류기는, 중요한 클래스가 흥분된 음성과 환성과의 혼합을 포함하고, 그 밖의 클래스의 부분 집합이 모든 그 밖의 오디오 성분을 모델화하는 2치 분류기를 이용한다.

태스크 특유의 분류기(400)를 구축하는 동기는, 분류 문제의 계산량을 저감하여, 중요한 클래스의 검출 정밀도를 높일 수 있는 것이다.

복수의 클래스가 존재할 수 있지만, 클래스를 2개의 부분 집합에 결합함으로써, 효과적으로 2치 분류기를 달성한다. 2치 분류는 일반적인 오디오 클래스의 보다 큰 집합을 구별해야 하는 범용 다원 분류기보다 적은 계산량이 요구된다.

그러나, 본 발명에서는 분류기가 클래스의 부분 집합을 이용하는 것을 유의하면서, 이러한 분류기가 어떻게 트레이닝되는지도 고려한다. 본 발명에서는 종래 기술과 동일한 MDL에 기초한 트레이닝 순서에 따르면, 아마 틀림없이 다양한 클래스에 대하여 동일한 혼합 성분을 학습하게 될 것이다. 즉, 태스크 특유의 분류기에 대하여 그 밖의 클래스의 부분 집합을 MDL을 이용하여 트레이닝할 때에는, 학습되는 혼합 성분의 수는 아마, 도 2에 도시된 박수, 음성, 및 음악 클래스에 이용되는 성분 수의 합에 매우 가깝게 될 것이다. 이것은, MDL 트레이닝 순서가 트레이닝 데이터(211)로부터 우수한 생성 GMM을 생성하는 것에 관련된다.

그 밖의 클래스의 부분 집합간의 용장성이 적으면, 트레이닝된 모델은 단지, 그 모델이 표현하는 모든 클래스에 대한 모델의 결합이다. MDL 기준은 트레이닝 데이터(211)에 대한 우수한 생성 모델을 찾아내는 데 이용되지만, 본 발명의 궁극의 관심사, 즉 분류 성능을 직접적으로는 최적화하지 않는다.

본 발명에서는, 분류에 이용했을 때에 가장 낮은 분류 오차를 갖는, 각 GMM에 대한 혼합 성분의 수 및 파라미터를 선택하려고 한다. 따라서, 본 발명의 태스크 특유의 분류기에서는, MDL이 아니라, 분류의 추정값을 최적화하는 통합 트레이닝 순서를 이용한다.

C=2로 하고, 여기서 C는 본 발명의 분류기에 있어서의 클래스의 부분 집합의 수이다.

본 발명에서는, 트레이닝 데이터(413)의 벡터 x 중에 N_train개의 샘플을 갖는 다. 각 샘플 x_i에는 1~C의 값을 취하는 클래스 라벨 y_i가 연관된다. 본 발명의 분류기(400)는 다음 식의 형태를 갖는다.

여기서, m=[m₁, …, m_c]^T은 각 클래스 모델에 대한 혼합 성분의 수이고, Θ_i는 클래스 i, i={1, 2}에 연관된 파라미터이다. 이는, 식(1)에 의해 표현되는 종래 기술의 범용 분류기(200)와는 대조적이다.

충분한 트레이닝 데이터(413)가 있으면, 트레이닝 데이터의 일부를 N_test개의 샘플 및 관련 라벨(x_i, y_i)을 갖는 검증 집합으로서 설정한다. 특정한 m에 대한 상기 집합의 경험적(empirical) 테스트 오차는 다음과 같다.

여기서, δ는 y_i=f(x_i; m)인 경우에 1이고, 그렇지 않은 경우에 0이다.

이 기준을 이용하여, 본 발명에서는

을 선택한다.

이것에는, m의 설정 범위에 걸쳐서 격자 탐색이 필요하고, 각 설정마다, GMM을 유지하여, 결과적으로 얻어지는 분류기의 테스트 오차를 검사한다.

트레이닝 데이터가 검증 집합을 설정하기에 충분하지 못하면, K-분할 교차 검증을 사용할 수 있고, 여기에 참조로 채용되는 Kohavi, R., "A Study of Cross- Validation and Bootstrap for Accuracy Estimation and Model Selection," Proceedings of the 14th International Joint Conference on Artificial Intelligence, Stanford University, 1995년을 참조한다.

K-분할 교차 검증은 아래와 같이 요약된다. 트레이닝 데이터를 K개의 동일한 사이즈의 부분으로 구분화한다.

이 N개의 트레이닝 샘플을 이들 K개의 부분 중 하나에 맵핑하기로 한다. f^k(x; m)를, k번째의 부분을 제거한 트레이닝 데이터의 집합에 대하여 트레이닝되는 분류기라고 한다. 그렇게 하면, 오차의 교차 검증의 추정값은 다음과 같다.

즉, k번째의 부분에 대하여, 그 모델을 데이터의 다른 K-1개의 부분에 맞게 조절하고, 데이터의 k번째의 부분을 예측할 때에 그 조절된 모델의 예측 오차를 구한다. 본 발명에서는, 이것을, 트레이닝 데이터의 K개의 부분 각각에 대하여 실행한다. 그 후, 다음 식을 구한다.

이것에는, m의 범위에 걸친 탐색이 필요하다. 본 발명에서는, m의 보다 작은 범위에 걸쳐서 탐색함으로써, 트레이닝을 가속화할 수 있다. 예컨대, 도 4에 도시된 분류기에 있어서, 중요한 클래스(411)에 있어서는 m_l을 고정할 수 있고, 그 밖의 클래스의 부분 집합(412)에 있어서는 m₂에만 걸쳐서 탐색할 수 있다. 본 발명에서는, MDL 기준을 이용하여, 즉, 중요한 클래스의 부분 집합의 GMM을 유지하면서 m_l을 선택할 수 있다.

도 6(a)~도 6(c)는 상이한 트레이닝 순서가 어떻게 상이한 모델을 생성할 수 있는지를 상징적으로 나타낸다. 도 6(a)는 2D의 특징 공간에서 3개의 상이한 클래스에 대하여 종래 기술의 MDL 순서를 이용하여 학습되는 GMM 모델을 나타낸다. MDL 기준은 각 클래스의 혼합 성분의 수를 개별적으로 선택한다. MDL 기준은 각 생성 확률 모델이 그 밖의 클래스의 지식 없이 개별적으로 트레이닝되는 모델 선택에 우수하다. MDL을 이용하는 경우, 클래스 내의 모든 클러스터는 동등하게 중요한 것으로서 취급된다.

도 6(b)는 트레이닝에 MDL이 아니라 교차 검증(CV)을 이용하는 경우에 기대되는 결과를 나타낸다. CV는 각 클래스에 대하여 보다 적은 수의 성분을 고르는 것을 알 수 있다. 구체적으로는, CV는 보다 적은 수의 성분을 이용함으로써 도 6(a)의 모델의 상세를 요약한다. 그러나, 각 클래스에 대하여 소정의 상세는 알 수 없지만, 클래스를 여전히 구별할 수 있음을 알 수 있다.

도 6(c)는 클래스를 중요한 클래스의 부분 집합과 모든 그 밖의 클래스로 분리하여, 효과적으로 2치 분류기를 구축하는 경우에 발생하는 것을 나타낸다. 보다 적은 수의 혼합 성분을 이용하면서, 중요한 클래스(601)와 그 밖의 클래스(602)를 여전히 구별할 수 있음을 알 수 있다.

모델 선택을 위한 교차 검증은 차별적인 2치 분류기에 우수하다. 예로서, 중요한 클래스의 부분 집합에 대하여 모델을 트레이닝하면서, 그 밖의 클래스에도 주의를 하고, 그 반대도 마찬가지이다. 통합 트레이닝은 경합 클래스에 대해 민감하기 때문에, 이 모델은 다른 영역 내보다 경계 영역에 있는 클러스터를 모델화할 때에 보다 더욱 주의하게 된다. 이것은, 모델의 계산량 저감도 초래하게 된다.

도 4를 참조하면, 분류기(400)에 포함되는 클래스를 2개의 그룹(2치 오디오 분류기를 구성함)에 결합하는 방법을 설명하였다. 도 4에 도시된 실시예는, 도 2의 범용 분류기로부터 선택된 흥분된 음성 클래스 및 환성 클래스를 결합함으로써 얻어지는 클래스(411)와, 그 이외의 클래스(412)로 구성되는 부분 집합을 제공한다. 그들 부분 집합은 스포츠 프로그램에서의 하이라이트 장면을 특정하는 데 유효하다. 다른 실시예에서, 예컨대 음악 클래스의 부분 집합 및 다른 클래스(도시하지 않음)의 부분 집합을 제공하면, 음악 장면에서 높은 우도를 나타내는 분류기를 작성할 수 있다. 따라서, 음악 프로그램 내에 포함된 음악 트랙을 갖는 장면이 높은 중요도 레벨을 갖는다고 산출되기 때문에, 음악 트랙을 갖는 장면을 특정하는 데 유효하다. 또한, 웃음 소리의 음성을 트레이닝 데이터로서 사용하여 웃음 소리 클래스를 작성하고, 그 이외의 클래스와의 우도를 비교함으로써, 버라이어티 프로그램에 포함된 폭소 장면을 특정할 수도 있다.

도 5를 참조하면, 태스크(501~503)에 따라 분류기(511~513)를 적절하게 전환하여 사용하는 방법에 대해서 설명하였다. 이 태스크에 근거한 전환시에, 분석되는 비디오(303)의 장르에 따라, 분류기(511~513) 중 최상의 것을 선택한다. 예컨 대, 비디오(303)가 스포츠 프로그램을 포함하는 경우에, 흥분된 음성 클래스 및/또는 환성 클래스에 근거하여 중요도 레벨을 산출하는 분류기를 선택하고, 음악 프로그램의 경우에, 음악 트랙을 갖는 장면의 중요도 레벨을 산출하는 분류기를 선택하고, 버라이어티 프로그램의 경우에, 웃음 소리 클래스에 근거하여 중요도 레벨을 산출하는 분류기를 선택한다. 분류기를 선택하는 태스크(501~503)는, 비디오(303)에 기록된 프로그램 정보로부터 취득한 장르에 근거하여 전환을 행함으로써 수행될 수도 있다. 또한, 이 시스템이 텔레비전 방송으로부터 기록된 프로그램을 분석하는 것이면, 태스크(501~503)는 전자 프로그램 가이드(EPG)로부터 취득한 장르 정보에 근거하여 전환을 행할 수도 있다.

발명의 효과

본 발명의 실시예는 태스크 특유의 2치 분류기를 이용하여 비디오 내의 하이라이트 검출을 제공한다. 이들 태스크 특유의 2치 분류기는, 보다 적은 수의 클래스, 즉 2개의 클래스 부분 집합을 구별하도록 설계된다. 이러한 간략화는, 교차 검증 및 테스트 오차에 근거하는 트레이닝과 함께, 클래스 모델에 대하여 보다 적은 수의 혼합 성분의 사용을 가져올 수 있다. 혼합 성분의 수가 적어질수록 처리의 속도 및 정밀도는 높아진다.

도 7(a)는 종래 기술의 일반적인 클래스의 성분 수(78)를 나타내고, 도 7(b)는 태스크 특유의 클래스에 대한 성분 수(42)를 나타낸다.

도 8은 중요한 클래스에 대한 세로축 상의 평균 검출 정밀도를, 가로축 상의 그 밖의 클래스의 성분 수의 함수로서 나타낸다.

본 발명을 바람직한 실시형태의 예로서 설명하였지만, 본 발명의 정신 및 범위 내에서 여러 가지의 다른 적응 및 수정을 할 수도 있음을 이해해야 된다. 따라서, 첨부된 특허청구범위의 목적은 본 발명의 참된 정신 및 범위에 들어가는 이러한 변형 및 수정을 모두 망라하는 것이다.

Claims

비디오를 분류하는 방법으로서,

비디오의 오디오 신호를 분류하기 위한 클래스의 집합을 정의하는 단계와,

상기 집합의 선택된 클래스를 중요한 클래스의 부분 집합으로서 결합하는 단계로서, 상기 중요한 클래스의 부분 집합이 특정한 하이라이트 태스크에 있어서 중요한, 단계와,

상기 집합의 나머지의 클래스를 그 밖의 클래스의 부분 집합으로서 결합하는 단계와,

상기 중요한 클래스의 부분 집합과, 상기 그 밖의 클래스의 부분 집합을, 트레이닝용 오디오 데이터를 이용하여 통합적으로 트레이닝함으로써, 태스크 특유의 분류기를 형성하는 단계와,

상기 태스크 특유의 분류기를 이용하여 상기 오디오 신호를 중요한 것 또는 그 밖의 것으로서 분류함으로써, 상기 특정한 하이라이트 태스크에 대응하는 상기 비디오 내의 하이라이트를 특정하는 단계

를 포함하는 비디오 분류 방법.
제 1 항에 있어서,

상기 비디오를 상기 분류된 오디오 신호에 따라, 중요한 세그먼트와 그 밖의 세그먼트로 분할하는 단계와,

상기 중요한 세그먼트를 결합하여 상기 비디오의 요약으로 하는 단계

를 더 포함하는 비디오 분류 방법.
제 1 항에 있어서,

상기 오디오 신호를 프레임으로 구분화하는 단계와,

각 프레임으로부터 오디오 특징을 추출하는 단계와,

각 프레임을 상기 오디오 특징에 따라, 중요한 프레임 또는 그 밖의 프레임으로서 분류하는 단계

를 더 포함하는 비디오 분류 방법.
제 3 항에 있어서,

상기 오디오 특징은 변형 이산 코사인 변환인 비디오 분류 방법.
제 1 항에 있어서,

상기 비디오는 스포츠 이벤트의 것이며, 상기 특정한 하이라이트 태스크는 상기 비디오 내의 하이라이트를 특정하는 것이고, 상기 클래스의 집합은 흥분된 음 성과 환성의 혼합, 박수, 환성, 통상의 음성 및 음악 클래스를 포함하고, 상기 중요한 클래스의 부분 집합은 상기 흥분된 음성과 환성의 혼합을 포함하고, 상기 그 밖의 클래스의 부분 집합은 박수, 환성, 통상의 음성 및 음악을 포함하는

비디오 분류 방법.
제 1 항에 있어서,

상기 중요한 클래스의 부분 집합을 제 1 가우시안 혼합 모델에 의해 표현하는 단계와,

상기 그 밖의 클래스의 부분 집합을 제 2 가우시안 혼합 모델에 의해 표현하는 단계를

더 포함하는 비디오 분류 방법.
제 1 항에 있어서,

상기 트레이닝은 K-분할 교차 검증(K-fold cross validation)을 통합적으로 이용하는 비디오 분류 방법.
제 1 항에 있어서,

상기 트레이닝은 분류의 추정값을 통합적으로 최적화하는 비디오 분류 방법.
제 1 항에 있어서,

상기 분류는 라벨을 할당하고,

상기 특정한 하이라이트 태스크에 따라 상기 라벨의 중요도 레벨을 결정하는 단계를 더 포함하는

비디오 분류 방법.
제 6 항에 있어서,

상기 클래스의 부분 집합의 수 C는 2이고, 상기 트레이닝용 오디오 데이터의 벡터 x에는 N_train개의 샘플이 있고, 각 샘플 x_i에는 1~C의 값을 취하는 클래스 라벨 y_i가 연관되고, 상기 태스크 특유의 분류기는 다음 식의 형태를 갖고,

여기서, m=[m₁, …, m_C]^T은 각 가우시안 혼합 모델의 혼합 성분의 수이며, Θ_i는 클래스 i, i={1, 2}에 연관되는 파라미터인

비디오 분류 방법.
제 10 항에 있어서,

상기 트레이닝용 오디오 데이터는, N_test개의 샘플 및 관련 라벨 (x_i, y_i)를 갖는 검증 집합을 포함하고, 특정한 m에 대한 상기 검증 집합의 경험적(empirical) 테스트 오차는 이하와 같고,

여기서, δ는, y_i=f(x_i; m)인 경우에 1이고, 그렇지 않은 경우에 0인

비디오 분류 방법.
제 11 항에 있어서,

혼합 성분의 최적의 수
는,

에 따라서 선택되는 비디오 분류 방법.
비디오를 분류하는 시스템으로서,

비디오의 오디오 신호를 분류하기 위한 클래스의 집합을 저장하도록 구성되는 메모리와,

상기 집합의 선택된 클래스를 중요한 클래스의 부분 집합으로서 결합하는 수단으로서, 상기 중요한 클래스의 부분 집합이 특정한 하이라이트 태스크에 있어서 중요한, 수단과,

상기 집합의 나머지의 클래스를 그 밖의 클래스의 부분 집합으로서 결합하는 수단과,

상기 중요한 클래스의 부분 집합과, 상기 그 밖의 클래스의 부분 집합을, 트레이닝용 오디오 데이터를 이용하여 통합적으로 트레이닝함으로써, 태스크 특유의 분류기를 형성하는 수단과,

상기 태스크 특유의 분류기를 이용하여 상기 오디오 신호를 중요한 것 또는 그 밖의 것으로서 분류함으로써, 상기 특정한 하이라이트 태스크에 대응하는 상기 비디오 내의 하이라이트를 특정하는 수단

을 구비하는 비디오 분류 시스템.