JP4870087B2

JP4870087B2 - ビデオの分類方法およびビデオの分類システム

Info

Publication number: JP4870087B2
Application number: JP2007542936A
Authority: JP
Inventors: ラドクリシュナン、レギュナータン; シラクーサ、マイケル; ディヴァカラン、アジェイ; 功大塚
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2006-01-06
Filing date: 2006-12-27
Publication date: 2012-02-08
Anticipated expiration: 2026-12-27
Also published as: JP2009522587A; EP1917660B1; KR20080071554A; US20070162924A1; KR100952804B1; US7558809B2; CN101268505A; WO2007077965A1; EP1917660A4; CN101268505B; EP1917660A1

Description

［発明の分野］
本発明は、包括的にはビデオセグメントの分類に関し、特に、オーディオ信号によるビデオセグメントの分類に関する。

［発明の背景］
スクリプト付き又はスクリプトなしのビデオコンテンツの分割は、ビデオの検索用途及びブラウジング用途における重要なタスクである。ビデオは、ハイライトを特定することによって分割することができる。ハイライトは、重要なすなわち注目すべき事象を含むビデオの任意の部分である。ハイライトはビデオの本質的要素を捉えるため、ハイライトセグメントは、ビデオの優れた要約となり得る。例えば、スポーツイベントのビデオにおいて、要約は、得点事象及び興奮させるプレーを含むであろう。

図１は、１つの典型的な従来技術のオーディオ分類方法１００を示す（Ziyou Xiong、Regunathan Radhakrishnan、Ajay Divakaran及びThomas S. Huang著「Effective and Efficient Sports Highlights Extraction Using the Minimum Description Length Criterion in Selecting GMM Structures」Intl. Conf. on Multimedia and Expo, June 2004、及び米国特許出願第１０／９２２，７８１号「Feature Identification of Events in Multimedia」（２００４年８月２０日出願、Radhakrishnan他）を参照、両文献は参照により本明細書中に援用される）。

オーディオ信号１０１が入力である。特徴１１１がオーディオ信号１０１のフレーム１０２から抽出される（１１０）。特徴１１１は変形離散コサイン変換（ＭＣＤＴ）の形態であり得る。

図２にも示すように、特徴１１１は汎用多元分類器（generic multi-way classifier）２００によりラベル１２１として分類される。汎用多元分類器２００は、一般的なトレーニング（学習）済みオーディオクラスの集合２１０、例えば、拍手、歓声、音楽、通常の音声、及び興奮した音声を有する。各オーディオクラスはガウス混合モデル（ＧＭＭ）によってモデル化される。ＧＭＭのパラメータは、トレーニングデータ２１１から抽出された特徴から求められる。

フレーム１０２の特徴１１１のＧＭＭは、特徴１１１のＧＭＭが各クラスのＧＭＭに対応する尤度を求めること、及びそれらの尤度を比較すること（２２０）によって分類される。最大尤度を有するクラスが、特徴フレームのラベル１２１として選択される。

汎用分類器２００において、各クラスが別々にトレーニングされる。各モデルのガウス混合成分の数ｍは最小記述長（ＭＤＬ）基準に基づく。ＭＤＬ基準は、生成モデルをトレーニングする際に一般的に用いられる。入力トレーニングデータ２１１のためのＭＤＬ基準は次式の形を有し得る。

ここで、ｍは、特定のモデルの混合成分をパラメータΘによりインデックス付けし、ｐは尤度又は確率である。

式（１）の１番目の項は、ｍ混合成分モデル下のトレーニングデータの対数尤度である。これは、ｍ混合モデルに対するデータの平均符号長と見なすこともできる。２番目の項は、モデルパラメータΘの平均符号長として解釈することができる。これら２つの項を用いて、ＭＤＬ基準は、ほぼ間違いなくトレーニングデータを記述する特定のモデルの特定と、そのモデルを記述するために必要なパラメータ数とのバランスをとる。

ｋの値の範囲、例えば１〜４０の範囲にわたって探索が行われる。各値ｋについて、データの尤度項を最大化する期待値最大化（ＥＭ）の最適化プロセスを用いて値Θ^ｋが求められ、それに従ってＭＤＬスコアが計算される。期待値スコアが最小の値ｋが選択される。ＭＤＬを用いてクラス２１０のＧＭＭをトレーニングすることは、各オーディオクラスに対して優れた生成ＧＭＭを別々に選択することにより全体的な分類性能が高まるという暗黙的な仮定を伴う。

重要度レベル１３１の判定（１３０）は、タスク１４０又はアプリケーションに依存する。例えば、重要度レベルは、特定の要約化タスクに重要なものとしてラベル付けされるフレームの割合に対応する。スポーツのハイライトタスクでは、重要なクラスは、興奮した音声又は歓声であり得る。コンサートのハイライトタスクでは、重要なクラスは音楽であり得る。重要度レベルに閾値を設定することにより、ビデオコンテンツの異なる分割及び要約化を得ることができる。

適切なクラスの集合２１０及び匹敵する汎用多元分類器２００を選択することによって、重要度レベル１３１の判定（１３０）のみがタスク１４０に依存する必要がある。したがって、異なるタスクを分類器に関連付けることができる。これにより、単一の分類器を扱うインプリメンテーションが簡略化される。

［発明の概要］
本発明の実施の形態は、スクリプトなしのビデオのオーディオ信号をラベルとして分類する方法を提供する。ラベルはその後、ビデオ中のハイライトを検出するため、及びハイライトセグメントのみの要約ビデオを作成するために用いることができる。

分類器は、ガウス混合モデル（ＧＭＭ）を用いて、重要なオーディオクラスを表すオーディオフレームを検出する。特定のタスクに応じて、１つのオーディオクラス又はオーディオクラスの混合の出現回数に基づいてハイライトが抽出される。

例えば、スポーツイベントのビデオのハイライトタスクは、解説者の興奮した音声及び観客の歓声の存在に基づくが、コンサートハイライトの抽出は、音楽の存在に基づくであろう。

全てのタスクに対して１つの汎用オーディオ分類器を用いる代わりに、本発明の実施の形態は、タスクに依存するオーディオ分類器を用いる。また、本発明のタスクに依存する分類器においてＧＭＭに用いられる混合成分の数は、従来技術のような最小記述長（ＭＤＬ）基準ではなく、トレーニング中の交差検定（ＣＶ）による誤差を用いて求められる。

これにより、分類器の精度が向上し、分類を行うために必要な時間が短縮される。

［好適な実施形態の詳細な説明］
図３は、本発明の一実施形態による、ビデオ３０３のオーディオ信号３０１を特定のタスク３５０についてラベル３２１として分類する（４００）方法を示す。ラベル３２１はその後、ビデオのハイライトを特定するために用いることができる。ハイライトは分割して（３４０）、ハイライトのみを含むビデオの要約３０４を生成することができる。

ビデオ３０３のオーディオ信号３０１が入力である。オーディオ信号３０１のフレーム３０２から特徴３１１を抽出する（３１０）。特徴３１１は、変形離散コサイン変換（ＭＤＣＴ）の形態であり得る。他のオーディオ特徴、例えば、メル周波数ケプストラム係数、離散フーリエ変換等を分類することもできることに留意すべきである。

図４にも示すように、特徴３１１は、タスク特有の２値分類器４００によってラベル３２１を割り当てることによって分類される。フレーム３０２の特徴３１１のＧＭＭは、それが各クラスのＧＭＭに対応する尤度を求めること、及びそれらの尤度を比較すること（４２０）によって分類される。最大尤度を有するクラスが、特徴フレームのラベル３２１として選択される。

タスク特有の分類器４００はトレーニング済みクラスの集合４１０を含む。これらのクラスは、分類器のメモリに記憶することができる。ハイライトを特定するために重要であるとみなされるクラスの部分集合は、重要なクラスの部分集合４１１として結合される。残りのクラスは、その他のクラスの部分集合４１２として結合される。重要なクラスの部分集合及びその他のクラスの部分集合は、後述のように、トレーニングデータを用いて統合的にトレーニングされる（jointly trained）。

例えば、重要なクラスの部分集合４１１は、解説者の興奮した音声と観客の歓声との混合を含む。解説者の興奮した音声とは、スポーツイベントにおいて得点が入ったときにスポーツのアナウンサー及び解説者が通常用いる特殊なタイプの大きく甲高い音声を意味する。歓声は通常、大量の雑音の形態である。その他のクラスの部分集合４１２は、拍手クラス、音楽クラス、及び通常の音声クラスを含む。重要なクラスの部分集合は、複数のクラスの組み合わせ、例えば、興奮した音声並びに自発的な歓声及び拍手とすることもできることが理解されるべきである。

いずれにせよ、トレーニング及び分類の目的において、クラスには２つの部分集合、すなわち、重要なクラス及びその他のクラスしかない。タスク特有の分類器は２値分類器として特徴付けることができるが、ただし各部分集合は複数のクラスを含み得る。利点として、２値分類器は通常、多元分類器よりも正確であり、分類にかかる時間が短い。

重要度レベル３３１の判定（３３０）もまた、特定のタスク３５０又はアプリケーションに依存する。例えば、重要度レベルは、特定の要約化タスクに重要なものとしてラベル付けされるフレームの割合に対応する。スポーツのハイライトタスクの場合、重要なクラスの部分集合は、興奮した音声クラスと歓声クラスとの混合を含む。コンサートのハイライトタスクの場合、重要なクラスは、音楽クラス、及びおそらくは拍手を少なくとも含むであろう。

図５は、本発明の実施形態による２値オーディオ分類器の一般概念を示す。特定のタスク５０１〜５０３をそれぞれ、タスク特有の分類器５１１〜５１３のうちの対応する１つに関連付ける。従来技術との主な相違点は、汎用多元オーディオ分類器の代わりに、本発明では、特定のタスクに応じた分類器を挿入することである。これにより、ユーザは、ビデオ中の異なるタイプのハイライトに最適化された小型で効率的な分類器を構築することができる。

図４に特定のタイプのハイライトタスク３５０について示すように、本発明では、重要なクラスの部分集合に対して１つのガウス混合モデル（ＧＭＭ）を用い、その他のクラスの部分集合に対して１つのＧＭＭを用いる。重要なクラスの部分集合は、重要なクラスのトレーニング用データ例を用いてトレーニングする。その他のクラスの部分集合は、全てのその他のクラスからのトレーニング用データ例を用いてトレーニングする。

図４は、スポーツハイライト用に設計されたタスク特有の２値分類器４００を示す。この分類器は、重要なクラスが興奮した音声と歓声との混合を含み、その他のクラスの部分集合が全てのその他のオーディオ成分をモデル化する２値分類器を用いる。

タスク特有の分類器４００を構築する動機は、その場合、分類問題の計算量を低減し、重要なクラスの検出精度を高めることができることである。

複数のクラスが存在する可能性があるが、これらのクラスを２つの部分集合に結合することによって、本発明は事実上、２値分類器を達成する。２値分類は、一般的なオーディオクラスのより大きな集合を区別しなければならない汎用多元分類器よりも必要な計算量が少ない。

しかし、本発明の分類器がクラスの部分集合を用いることに留意しつつ、この分類器のトレーニング方法も検討する。従来技術の同じＭＤＬベースのトレーニング手順に従うならば、ほぼ間違いなく、様々なクラスについて同じ混合成分を学習することになる。すなわち、タスク特有の分類器についてその他のクラスの部分集合をＭＤＬを用いてトレーニングする際には、学習される混合成分の数はおそらく、図２に示す拍手クラス、音声クラス、及び音楽クラスに用いられる成分数の和に非常に近くなる。これは、ＭＤＬトレーニング手順が、トレーニングデータ２１１から優れた生成ＧＭＭを生成することに関するためである。

その他のクラスの部分集合間の冗長性が少ない場合、トレーニング済みのモデルは単に、そのモデルが表現する全てのクラスのモデルの結合となる。ＭＤＬ基準は、トレーニングデータ２１１の優れた生成モデルを見つけるのに役立てるために用いられるが、本発明の究極の関心事、すなわち分類性能を直接は最適化しない。

本発明では、分類に用いたときに分類誤差が最も小さくなる、各ＧＭＭの混合成分の数及びパラメータを選択したい。したがって、本発明のタスク特有の分類器では、ＭＤＬではなく、分類の推定値を最適化する統合トレーニング手順を用いる。

Ｃ＝２とし、ここで、Ｃは本発明の分類器におけるクラスの部分集合の数である。

本発明では、トレーニングデータ４１３のベクトルｘ中にＮ_{ｔｒａｉｎ}個のサンプルを有する。各サンプルｘ_ｉには、１〜Ｃの値をとるクラスラベルｙ_ｉが関連付けられる。本発明の分類器４００は次式の形を有する。

ここで、ｍ＝［ｍ_１，．．．，ｍ_Ｃ］^Ｔは各クラスモデルの混合成分の数であり、Θ_ｉは、クラスｉ（ｉ＝｛１，２｝）に関連するパラメータである。これは、式（１）により表される従来技術の汎用分類器２００とは対照的である。

十分なトレーニングデータ４１３がある場合、トレーニングデータの一部を、Ｎ_ｔｅｓｔ個のサンプル及び関連ラベル（ｘ_ｉ，ｙ_ｉ）を有する検証集合として取っておく。特定のｍに対するこの集合の経験的（empirical）テスト誤差は次のように表される。

ここで、δは、ｙ_ｉ＝ｆ（ｘ_ｉ；ｍ）である場合に１であり、そうでない場合に０である。

この基準を用いて、

により

を選ぶ。

これには、ｍの設定範囲にわたる格子探索が必要であり、設定毎に、ＧＭＭを保持し、結果として得られる分類器のテスト誤差を検査する。

トレーニングデータが、検証集合を取っておくほど十分にない場合、Ｋ分割交差検定を用いることができる（Kohavi, R.著「A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection」Proceedings of the 14th International Joint Conference on Artificial Intelligence, Stanford University, 1995（参照により本明細書中に援用される）を参照）。

Ｋ分割交差検定は以下のように要約される。トレーニングデータをＫ個の同サイズの部分に区分化する。

が、Ｎ個のトレーニングサンプルをＫ個の部分のうちの１つにマッピングするものとする。ｆ^ｋ（ｘ；ｍ）を、ｋ番目の部分を抜いたトレーニングデータの集合についてトレーニングされる分類器とする。すると、誤差の交差検定の推定値は次のようになる。

すなわち、ｋ番目の部分について、そのモデルをデータの他のＫ−１個の部分に当てはめ、データのｋ番目の部分を予測する際の当てはめモデルの予測誤差を求める。本発明ではこれを、トレーニングデータのＫ個の部分それぞれについて行う。次に、次式を求める。

これには、ｍの範囲にわたる探索が必要である。ｍのより小さな範囲にわたって探索することによって、トレーニングを加速することができる。例えば、図４に示す分類器において、重要なクラス４１１についてはｍ_１を固定し、その他のクラスの部分集合４１２についてはｍ_２のみにわたって探索することができる。本発明では、ＭＤＬ基準を用いて、すなわち、重要なクラスの部分集合のＧＭＭを維持してｍ_１を選択することができる。

図６Ａ〜図６Ｃは、異なるトレーニング手順がいかに異なるモデルを生じ得るかを象徴的に示す。図６Ａは、２Ｄの特徴空間において３つの異なるクラスについて従来技術のＭＤＬ手順を用いて学習されるＧＭＭモデルを示す。ＭＤＬ基準は、各クラスの混合成分の数を別々に選ぶ。ＭＤＬ基準は、各生成確率モデルがその他のクラスの知識なしに別々にトレーニングされるモデル選択に優れている。ＭＤＬを用いる場合、クラス内の全てのクラスタは等しく重要なものとして扱われる。

図６Ｂは、トレーニングにＭＤＬではなく交差検定（ＣＶ）を用いる場合に期待される結果を示す。ＣＶは、各クラスについてより少ない数の成分を選ぶことが分かる。具体的には、ＣＶは、より少ない数の成分を用いることによって図６Ａのモデルの細かな細部を要約する。しかし、各クラスについていくらかの細かな細部は失われるが、依然として、クラスを区別することはできることが分かる。

図６Ｃは、クラスを重要なクラスの部分集合と全てのその他のクラスとに分離し、事実上、２値分類器を構築する場合に生じる結果を示す。より少ない数の混合成分を用いながら、依然として、重要なクラス６０１とその他のクラス６０２とを区別できることが分かる。

モデル選択のための交差検定は、差別的な２値分類器に優れている。例として、重要なクラスの部分集合についてモデルをトレーニングしながら、その他のクラスにも注意を払い、その逆も同様である。統合トレーニングは競合クラスに対する感度が高いため、このモデルは、境界領域にあるクラスタをモデル化する際に、他の領域にあるクラスタをモデル化する際よりも注意深くなる。これは、モデルの計算量を低減することにもなる。

図４にて、分類器４００を構成するクラスを２つに統合（binary audio classifiers）する方法を述べた。図４の実施例では、図２の汎用分類器から興奮音声クラス（excited speech）と歓声クラス（cheering）を複合したクラス４１１と、それ以外のクラス４１２から構成するサブセットを提供した。これはスポーツ番組のハイライトシーンを特定するために有効なサブセットであるが、その他の実施の形態として例えば音楽クラス（music）とそれ以外（図示無し）のサブセットを提供することによって、音楽シーンで高い尤度（likelihoods）が得られる分類器を作ることが出来る。これによって、音楽番組において楽曲のシーンで高い重要度レベル（Importance Level）が算出されるので、楽曲シーンを特定するのに有効である。更に、笑い声の音声をトレーニングデータとして笑い声クラス（laughter）を作成して、それ以外のクラスとの尤度比較をすることでバラエティ番組の爆笑シーンを特定することも出来る。

図５では、タスク５０１−５０３に応じて適切な分類器５１１−５１３を切り替えて使用する方法について述べた。このタスクによる切換の際、解析の対象となっているビデオ映像３０３のジャンルに応じて、最適な分類器５１１−５１３を選択する。例えば、ビデオ映像３０３がスポーツ番組であれば、興奮音声クラス（excited speech）及び／または歓声クラス（cheering）に基づいて重要度レベルを算出する分類器を選択、音楽番組であれば楽曲シーンの重要度レベルを算出できる分類器、バラエティ番組であれば笑い声クラス（laughter）に基づいて重要度レベルを算出する分類器を選択する。分類器を選択するタスク５０１−５０３は、ビデオ映像３０３に記録された番組情報から取得したジャンルに基づいて切換を行うものであっても良い。また、当システムがテレビ放送の録画番組に対して解析を行うものであれば、タスク５０１−５０３は、電子番組表（EPG）から取得したジャンル情報に基づいて切換を行うものであっても良い。

［発明の効果］
本発明の実施形態は、タスク特有の２値分類器を用いたビデオ中のハイライト検出を提供する。これらのタスク特有の２値分類器は、より少ない数のクラス、すなわち２つのクラス部分集合を区別するように設計される。この簡略化は、交差検定及びテスト誤差に基づくトレーニングとともに、クラスモデルについて、より少ない数の混合成分の使用をもたらし得る。混合成分の数が少なくなるほど、処理の速度及び精度は高くなる。

図７Ａは、従来技術の一般的なクラスの成分数（７８）を示し、図７Ｂは、タスク特有のクラスの成分数（４２）を示す。

図８は、重要なクラスについての平均検出精度（縦軸）を、その他のクラスの成分数（横軸）の関数として示す。

本発明を、好適な実施形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び修正を行ってもよいことが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るこのような変形及び修正を全て網羅することである。

従来技術の分類方法のブロック図である。従来技術の汎用多元分類器のブロック図である。本発明の一実施形態による分類方法のブロック図である。タスク特有の２値分類器のブロック図である。対応するタスクのための複数のタスク特有の分類器のブロック図である。様々な分類器のモデルを比較する図である。様々な分類器のモデルを比較する図である。様々な分類器のモデルを比較する図である。汎用分類器及びタスク特有の分類器の混合成分を比較する図である。汎用分類器及びタスク特有の分類器の混合成分を比較する図である。本発明の一実施形態による分類器の分類精度のグラフである。

Claims

ビデオのオーディオ信号を分類するためのクラスの集合を定義するステップと、
前記集合の選択されたクラスを重要なクラスの部分集合として結合するステップであって、該重要なクラスの部分集合は特定のハイライトタスクにとって重要である、ステップと、
前記集合の残りのクラスをその他のクラスの部分集合として結合するステップと、
前記重要なクラスの部分集合と、前記その他のクラスの部分集合とを、トレーニング用のオーディオデータを用いて統合的にトレーニングして、それによって、タスク特有の分類器を形成するステップと、
前記タスク特有の分類器を用いて前記オーディオ信号を、重要なもの又はその他のものとして分類して、それによって、前記特定のハイライトタスクに対応する前記ビデオ中のハイライトを特定するステップと
を含む、ビデオの分類方法。
前記ビデオを前記分類されたオーディオ信号に従って、重要なセグメントとその他のセグメントとに分割すること、及び
前記重要なセグメントを結合して前記ビデオの要約にすること
をさらに含む、請求項１に記載のビデオの分類方法。
前記オーディオ信号をフレームに区分化すること、
各フレームからオーディオ特徴を抽出すること、及び
各フレームを前記オーディオ特徴に従って、重要なフレーム又はその他のフレームとして分類すること
をさらに含む、請求項１に記載のビデオの分類方法。
前記オーディオ特徴は変形離散コサイン変換である、請求項３に記載のビデオの分類方法。
前記ビデオはスポーツイベントのものであり、前記特定のハイライトタスクは、前記ビデオ中のハイライトを特定することであり、前記クラスの集合は、興奮した音声と歓声との混合、拍手クラス、歓声クラス、通常の音声クラス、及び音楽クラスを含み、前記重要なクラスの部分集合は、前記興奮した音声と歓声との混合を含み、前記その他のクラスの部分集合は、拍手、歓声、通常の音声、及び音楽を含む、請求項１に記載のビデオの分類方法。
前記重要なクラスの部分集合を第１のガウス混合モデルにより表現すること、及び
前記その他のクラスの部分集合を第２のガウス混合モデルにより表現すること
をさらに含む、請求項１に記載のビデオの分類方法。
前記トレーニングは、Ｋ分割交差検定を統合的に用いる、請求項１に記載のビデオの分類方法。
前記トレーニングは、分類の推定値を統合的に最適化する、請求項１に記載のビデオの分類方法。
前記分類はラベルを割り当て、前記方法は、
前記特定のハイライトタスクに従って前記ラベルの重要度レベルを求めること
をさらに含む、請求項１に記載のビデオの分類方法。
前記クラスの部分集合の数Ｃは２であり、前記トレーニング用のオーディオデータのベクトルｘにはＮ_{ｔｒａｉｎ}個のサンプルがあり、各サンプルｘ_ｉには、１〜Ｃの値をとるクラスラベルｙ_ｉが関連付けられ、前記タスク特有の分類器は次式の形を有し、

ここで、ｍ＝［ｍ_１，．．．，ｍ_Ｃ］^Ｔは各ガウス混合モデルの混合成分の数であり、Θ_ｉは、クラスｉ（ｉ＝｛１，２｝）に関連するパラメータである、請求項６に記載のビデオの分類方法。
前記トレーニング用のオーディオデータは、Ｎ_ｔｅｓｔ個のサンプル及び関連ラベル（ｘ_ｉ，ｙ_ｉ）を有する検証集合を含み、特定のｍに対する該検証集合の経験的テスト誤差は、

であり、ここで、δは、ｙ_ｉ＝ｆ（ｘ_ｉ；ｍ）である場合に１であり、そうでない場合に０である、請求項１０に記載のビデオの分類方法。
混合成分の最適な数

は、

に従って選択される、請求項１１に記載のビデオの分類方法。
ビデオのオーディオ信号を分類するためのクラスの集合を記憶するように構成されるメモリと、
前記集合の選択されたクラスを重要なクラスの部分集合として結合する手段であって、該重要なクラスの部分集合は特定のハイライトタスクにとって重要である、結合する手段と、
前記集合の残りのクラスをその他のクラスの部分集合として結合する手段と、
前記重要なクラスの部分集合と、前記その他のクラスの部分集合とを、トレーニング用のオーディオデータを用いて統合的にトレーニングして、それによって、タスク特有の分類器を形成する手段と、
前記タスク特有の分類器を用いて前記オーディオ信号を、重要なもの又はその他のものとして分類して、それによって、前記特定のハイライトタスクに対応する前記ビデオ中のハイライトを特定する手段と
を備える、ビデオの分類システム。