JP4870087B2 - ビデオの分類方法およびビデオの分類システム - Google Patents

ビデオの分類方法およびビデオの分類システム Download PDF

Info

Publication number
JP4870087B2
JP4870087B2 JP2007542936A JP2007542936A JP4870087B2 JP 4870087 B2 JP4870087 B2 JP 4870087B2 JP 2007542936 A JP2007542936 A JP 2007542936A JP 2007542936 A JP2007542936 A JP 2007542936A JP 4870087 B2 JP4870087 B2 JP 4870087B2
Authority
JP
Japan
Prior art keywords
classes
important
video
subset
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007542936A
Other languages
English (en)
Other versions
JP2009522587A (ja
Inventor
ラドクリシュナン、レギュナータン
シラクーサ、マイケル
ディヴァカラン、アジェイ
功 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2009522587A publication Critical patent/JP2009522587A/ja
Application granted granted Critical
Publication of JP4870087B2 publication Critical patent/JP4870087B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

[発明の分野]
本発明は、包括的にはビデオセグメントの分類に関し、特に、オーディオ信号によるビデオセグメントの分類に関する。
[発明の背景]
スクリプト付き又はスクリプトなしのビデオコンテンツの分割は、ビデオの検索用途及びブラウジング用途における重要なタスクである。ビデオは、ハイライトを特定することによって分割することができる。ハイライトは、重要なすなわち注目すべき事象を含むビデオの任意の部分である。ハイライトはビデオの本質的要素を捉えるため、ハイライトセグメントは、ビデオの優れた要約となり得る。例えば、スポーツイベントのビデオにおいて、要約は、得点事象及び興奮させるプレーを含むであろう。
図1は、1つの典型的な従来技術のオーディオ分類方法100を示す(Ziyou Xiong、Regunathan Radhakrishnan、Ajay Divakaran及びThomas S. Huang著「Effective and Efficient Sports Highlights Extraction Using the Minimum Description Length Criterion in Selecting GMM Structures」Intl. Conf. on Multimedia and Expo, June 2004、及び米国特許出願第10/922,781号「Feature Identification of Events in Multimedia」(2004年8月20日出願、Radhakrishnan他)を参照、両文献は参照により本明細書中に援用される)。
オーディオ信号101が入力である。特徴111がオーディオ信号101のフレーム102から抽出される(110)。特徴111は変形離散コサイン変換(MCDT)の形態であり得る。
図2にも示すように、特徴111は汎用多元分類器(generic multi-way classifier)200によりラベル121として分類される。汎用多元分類器200は、一般的なトレーニング(学習)済みオーディオクラスの集合210、例えば、拍手、歓声、音楽、通常の音声、及び興奮した音声を有する。各オーディオクラスはガウス混合モデル(GMM)によってモデル化される。GMMのパラメータは、トレーニングデータ211から抽出された特徴から求められる。
フレーム102の特徴111のGMMは、特徴111のGMMが各クラスのGMMに対応する尤度を求めること、及びそれらの尤度を比較すること(220)によって分類される。最大尤度を有するクラスが、特徴フレームのラベル121として選択される。
汎用分類器200において、各クラスが別々にトレーニングされる。各モデルのガウス混合成分の数mは最小記述長(MDL)基準に基づく。MDL基準は、生成モデルをトレーニングする際に一般的に用いられる。入力トレーニングデータ211のためのMDL基準は次式の形を有し得る。
Figure 0004870087
ここで、mは、特定のモデルの混合成分をパラメータΘによりインデックス付けし、pは尤度又は確率である。
式(1)の1番目の項は、m混合成分モデル下のトレーニングデータの対数尤度である。これは、m混合モデルに対するデータの平均符号長と見なすこともできる。2番目の項は、モデルパラメータΘの平均符号長として解釈することができる。これら2つの項を用いて、MDL基準は、ほぼ間違いなくトレーニングデータを記述する特定のモデルの特定と、そのモデルを記述するために必要なパラメータ数とのバランスをとる。
kの値の範囲、例えば1〜40の範囲にわたって探索が行われる。各値kについて、データの尤度項を最大化する期待値最大化(EM)の最適化プロセスを用いて値Θが求められ、それに従ってMDLスコアが計算される。期待値スコアが最小の値kが選択される。MDLを用いてクラス210のGMMをトレーニングすることは、各オーディオクラスに対して優れた生成GMMを別々に選択することにより全体的な分類性能が高まるという暗黙的な仮定を伴う。
重要度レベル131の判定(130)は、タスク140又はアプリケーションに依存する。例えば、重要度レベルは、特定の要約化タスクに重要なものとしてラベル付けされるフレームの割合に対応する。スポーツのハイライトタスクでは、重要なクラスは、興奮した音声又は歓声であり得る。コンサートのハイライトタスクでは、重要なクラスは音楽であり得る。重要度レベルに閾値を設定することにより、ビデオコンテンツの異なる分割及び要約化を得ることができる。
適切なクラスの集合210及び匹敵する汎用多元分類器200を選択することによって、重要度レベル131の判定(130)のみがタスク140に依存する必要がある。したがって、異なるタスクを分類器に関連付けることができる。これにより、単一の分類器を扱うインプリメンテーションが簡略化される。
[発明の概要]
本発明の実施の形態は、スクリプトなしのビデオのオーディオ信号をラベルとして分類する方法を提供する。ラベルはその後、ビデオ中のハイライトを検出するため、及びハイライトセグメントのみの要約ビデオを作成するために用いることができる。
分類器は、ガウス混合モデル(GMM)を用いて、重要なオーディオクラスを表すオーディオフレームを検出する。特定のタスクに応じて、1つのオーディオクラス又はオーディオクラスの混合の出現回数に基づいてハイライトが抽出される。
例えば、スポーツイベントのビデオのハイライトタスクは、解説者の興奮した音声及び観客の歓声の存在に基づくが、コンサートハイライトの抽出は、音楽の存在に基づくであろう。
全てのタスクに対して1つの汎用オーディオ分類器を用いる代わりに、本発明の実施の形態は、タスクに依存するオーディオ分類器を用いる。また、本発明のタスクに依存する分類器においてGMMに用いられる混合成分の数は、従来技術のような最小記述長(MDL)基準ではなく、トレーニング中の交差検定(CV)による誤差を用いて求められる。
これにより、分類器の精度が向上し、分類を行うために必要な時間が短縮される。
[好適な実施形態の詳細な説明]
図3は、本発明の一実施形態による、ビデオ303のオーディオ信号301を特定のタスク350についてラベル321として分類する(400)方法を示す。ラベル321はその後、ビデオのハイライトを特定するために用いることができる。ハイライトは分割して(340)、ハイライトのみを含むビデオの要約304を生成することができる。
ビデオ303のオーディオ信号301が入力である。オーディオ信号301のフレーム302から特徴311を抽出する(310)。特徴311は、変形離散コサイン変換(MDCT)の形態であり得る。他のオーディオ特徴、例えば、メル周波数ケプストラム係数、離散フーリエ変換等を分類することもできることに留意すべきである。
図4にも示すように、特徴311は、タスク特有の2値分類器400によってラベル321を割り当てることによって分類される。フレーム302の特徴311のGMMは、それが各クラスのGMMに対応する尤度を求めること、及びそれらの尤度を比較すること(420)によって分類される。最大尤度を有するクラスが、特徴フレームのラベル321として選択される。
タスク特有の分類器400はトレーニング済みクラスの集合410を含む。これらのクラスは、分類器のメモリに記憶することができる。ハイライトを特定するために重要であるとみなされるクラスの部分集合は、重要なクラスの部分集合411として結合される。残りのクラスは、その他のクラスの部分集合412として結合される。重要なクラスの部分集合及びその他のクラスの部分集合は、後述のように、トレーニングデータを用いて統合的にトレーニングされる(jointly trained)。
例えば、重要なクラスの部分集合411は、解説者の興奮した音声と観客の歓声との混合を含む。解説者の興奮した音声とは、スポーツイベントにおいて得点が入ったときにスポーツのアナウンサー及び解説者が通常用いる特殊なタイプの大きく甲高い音声を意味する。歓声は通常、大量の雑音の形態である。その他のクラスの部分集合412は、拍手クラス、音楽クラス、及び通常の音声クラスを含む。重要なクラスの部分集合は、複数のクラスの組み合わせ、例えば、興奮した音声並びに自発的な歓声及び拍手とすることもできることが理解されるべきである。
いずれにせよ、トレーニング及び分類の目的において、クラスには2つの部分集合、すなわち、重要なクラス及びその他のクラスしかない。タスク特有の分類器は2値分類器として特徴付けることができるが、ただし各部分集合は複数のクラスを含み得る。利点として、2値分類器は通常、多元分類器よりも正確であり、分類にかかる時間が短い。
重要度レベル331の判定(330)もまた、特定のタスク350又はアプリケーションに依存する。例えば、重要度レベルは、特定の要約化タスクに重要なものとしてラベル付けされるフレームの割合に対応する。スポーツのハイライトタスクの場合、重要なクラスの部分集合は、興奮した音声クラスと歓声クラスとの混合を含む。コンサートのハイライトタスクの場合、重要なクラスは、音楽クラス、及びおそらくは拍手を少なくとも含むであろう。
図5は、本発明の実施形態による2値オーディオ分類器の一般概念を示す。特定のタスク501〜503をそれぞれ、タスク特有の分類器511〜513のうちの対応する1つに関連付ける。従来技術との主な相違点は、汎用多元オーディオ分類器の代わりに、本発明では、特定のタスクに応じた分類器を挿入することである。これにより、ユーザは、ビデオ中の異なるタイプのハイライトに最適化された小型で効率的な分類器を構築することができる。
図4に特定のタイプのハイライトタスク350について示すように、本発明では、重要なクラスの部分集合に対して1つのガウス混合モデル(GMM)を用い、その他のクラスの部分集合に対して1つのGMMを用いる。重要なクラスの部分集合は、重要なクラスのトレーニング用データ例を用いてトレーニングする。その他のクラスの部分集合は、全てのその他のクラスからのトレーニング用データ例を用いてトレーニングする。
図4は、スポーツハイライト用に設計されたタスク特有の2値分類器400を示す。この分類器は、重要なクラスが興奮した音声と歓声との混合を含み、その他のクラスの部分集合が全てのその他のオーディオ成分をモデル化する2値分類器を用いる。
タスク特有の分類器400を構築する動機は、その場合、分類問題の計算量を低減し、重要なクラスの検出精度を高めることができることである。
複数のクラスが存在する可能性があるが、これらのクラスを2つの部分集合に結合することによって、本発明は事実上、2値分類器を達成する。2値分類は、一般的なオーディオクラスのより大きな集合を区別しなければならない汎用多元分類器よりも必要な計算量が少ない。
しかし、本発明の分類器がクラスの部分集合を用いることに留意しつつ、この分類器のトレーニング方法も検討する。従来技術の同じMDLベースのトレーニング手順に従うならば、ほぼ間違いなく、様々なクラスについて同じ混合成分を学習することになる。すなわち、タスク特有の分類器についてその他のクラスの部分集合をMDLを用いてトレーニングする際には、学習される混合成分の数はおそらく、図2に示す拍手クラス、音声クラス、及び音楽クラスに用いられる成分数の和に非常に近くなる。これは、MDLトレーニング手順が、トレーニングデータ211から優れた生成GMMを生成することに関するためである。
その他のクラスの部分集合間の冗長性が少ない場合、トレーニング済みのモデルは単に、そのモデルが表現する全てのクラスのモデルの結合となる。MDL基準は、トレーニングデータ211の優れた生成モデルを見つけるのに役立てるために用いられるが、本発明の究極の関心事、すなわち分類性能を直接は最適化しない。
本発明では、分類に用いたときに分類誤差が最も小さくなる、各GMMの混合成分の数及びパラメータを選択したい。したがって、本発明のタスク特有の分類器では、MDLではなく、分類の推定値を最適化する統合トレーニング手順を用いる。
C=2とし、ここで、Cは本発明の分類器におけるクラスの部分集合の数である。
本発明では、トレーニングデータ413のベクトルx中にNtrain個のサンプルを有する。各サンプルxには、1〜Cの値をとるクラスラベルyが関連付けられる。本発明の分類器400は次式の形を有する。
Figure 0004870087
ここで、m=[m,...,mは各クラスモデルの混合成分の数であり、Θは、クラスi(i={1,2})に関連するパラメータである。これは、式(1)により表される従来技術の汎用分類器200とは対照的である。
十分なトレーニングデータ413がある場合、トレーニングデータの一部を、Ntest個のサンプル及び関連ラベル(x,y)を有する検証集合として取っておく。特定のmに対するこの集合の経験的(empirical)テスト誤差は次のように表される。
Figure 0004870087
ここで、δは、y=f(x;m)である場合に1であり、そうでない場合に0である。
この基準を用いて、
Figure 0004870087
により
Figure 0004870087
を選ぶ。
これには、mの設定範囲にわたる格子探索が必要であり、設定毎に、GMMを保持し、結果として得られる分類器のテスト誤差を検査する。
トレーニングデータが、検証集合を取っておくほど十分にない場合、K分割交差検定を用いることができる(Kohavi, R.著「A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection」Proceedings of the 14th International Joint Conference on Artificial Intelligence, Stanford University, 1995(参照により本明細書中に援用される)を参照)。
K分割交差検定は以下のように要約される。トレーニングデータをK個の同サイズの部分に区分化する。
Figure 0004870087
が、N個のトレーニングサンプルをK個の部分のうちの1つにマッピングするものとする。f(x;m)を、k番目の部分を抜いたトレーニングデータの集合についてトレーニングされる分類器とする。すると、誤差の交差検定の推定値は次のようになる。
Figure 0004870087
すなわち、k番目の部分について、そのモデルをデータの他のK−1個の部分に当てはめ、データのk番目の部分を予測する際の当てはめモデルの予測誤差を求める。本発明ではこれを、トレーニングデータのK個の部分それぞれについて行う。次に、次式を求める。
Figure 0004870087
これには、mの範囲にわたる探索が必要である。mのより小さな範囲にわたって探索することによって、トレーニングを加速することができる。例えば、図4に示す分類器において、重要なクラス411についてはmを固定し、その他のクラスの部分集合412についてはmのみにわたって探索することができる。本発明では、MDL基準を用いて、すなわち、重要なクラスの部分集合のGMMを維持してmを選択することができる。
図6A〜図6Cは、異なるトレーニング手順がいかに異なるモデルを生じ得るかを象徴的に示す。図6Aは、2Dの特徴空間において3つの異なるクラスについて従来技術のMDL手順を用いて学習されるGMMモデルを示す。MDL基準は、各クラスの混合成分の数を別々に選ぶ。MDL基準は、各生成確率モデルがその他のクラスの知識なしに別々にトレーニングされるモデル選択に優れている。MDLを用いる場合、クラス内の全てのクラスタは等しく重要なものとして扱われる。
図6Bは、トレーニングにMDLではなく交差検定(CV)を用いる場合に期待される結果を示す。CVは、各クラスについてより少ない数の成分を選ぶことが分かる。具体的には、CVは、より少ない数の成分を用いることによって図6Aのモデルの細かな細部を要約する。しかし、各クラスについていくらかの細かな細部は失われるが、依然として、クラスを区別することはできることが分かる。
図6Cは、クラスを重要なクラスの部分集合と全てのその他のクラスとに分離し、事実上、2値分類器を構築する場合に生じる結果を示す。より少ない数の混合成分を用いながら、依然として、重要なクラス601とその他のクラス602とを区別できることが分かる。
モデル選択のための交差検定は、差別的な2値分類器に優れている。例として、重要なクラスの部分集合についてモデルをトレーニングしながら、その他のクラスにも注意を払い、その逆も同様である。統合トレーニングは競合クラスに対する感度が高いため、このモデルは、境界領域にあるクラスタをモデル化する際に、他の領域にあるクラスタをモデル化する際よりも注意深くなる。これは、モデルの計算量を低減することにもなる。
図4にて、分類器400を構成するクラスを2つに統合(binary audio classifiers)する方法を述べた。図4の実施例では、図2の汎用分類器から興奮音声クラス(excited speech)と歓声クラス(cheering)を複合したクラス411と、それ以外のクラス412から構成するサブセットを提供した。これはスポーツ番組のハイライトシーンを特定するために有効なサブセットであるが、その他の実施の形態として例えば音楽クラス(music)とそれ以外(図示無し)のサブセットを提供することによって、音楽シーンで高い尤度(likelihoods)が得られる分類器を作ることが出来る。これによって、音楽番組において楽曲のシーンで高い重要度レベル(Importance Level)が算出されるので、楽曲シーンを特定するのに有効である。更に、笑い声の音声をトレーニングデータとして笑い声クラス(laughter)を作成して、それ以外のクラスとの尤度比較をすることでバラエティ番組の爆笑シーンを特定することも出来る。
図5では、タスク501−503に応じて適切な分類器511−513を切り替えて使用する方法について述べた。このタスクによる切換の際、解析の対象となっているビデオ映像303のジャンルに応じて、最適な分類器511−513を選択する。例えば、ビデオ映像303がスポーツ番組であれば、興奮音声クラス(excited speech)及び/または歓声クラス(cheering)に基づいて重要度レベルを算出する分類器を選択、音楽番組であれば楽曲シーンの重要度レベルを算出できる分類器、バラエティ番組であれば笑い声クラス(laughter)に基づいて重要度レベルを算出する分類器を選択する。分類器を選択するタスク501−503は、ビデオ映像303に記録された番組情報から取得したジャンルに基づいて切換を行うものであっても良い。また、当システムがテレビ放送の録画番組に対して解析を行うものであれば、タスク501−503は、電子番組表(EPG)から取得したジャンル情報に基づいて切換を行うものであっても良い。
[発明の効果]
本発明の実施形態は、タスク特有の2値分類器を用いたビデオ中のハイライト検出を提供する。これらのタスク特有の2値分類器は、より少ない数のクラス、すなわち2つのクラス部分集合を区別するように設計される。この簡略化は、交差検定及びテスト誤差に基づくトレーニングとともに、クラスモデルについて、より少ない数の混合成分の使用をもたらし得る。混合成分の数が少なくなるほど、処理の速度及び精度は高くなる。
図7Aは、従来技術の一般的なクラスの成分数(78)を示し、図7Bは、タスク特有のクラスの成分数(42)を示す。
図8は、重要なクラスについての平均検出精度(縦軸)を、その他のクラスの成分数(横軸)の関数として示す。
本発明を、好適な実施形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び修正を行ってもよいことが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るこのような変形及び修正を全て網羅することである。
従来技術の分類方法のブロック図である。 従来技術の汎用多元分類器のブロック図である。 本発明の一実施形態による分類方法のブロック図である。 タスク特有の2値分類器のブロック図である。 対応するタスクのための複数のタスク特有の分類器のブロック図である。 様々な分類器のモデルを比較する図である。 様々な分類器のモデルを比較する図である。 様々な分類器のモデルを比較する図である。 汎用分類器及びタスク特有の分類器の混合成分を比較する図である。 汎用分類器及びタスク特有の分類器の混合成分を比較する図である。 本発明の一実施形態による分類器の分類精度のグラフである。

Claims (13)

  1. ビデオのオーディオ信号を分類するためのクラスの集合を定義するステップと、
    前記集合の選択されたクラスを重要なクラスの部分集合として結合するステップであって、該重要なクラスの部分集合は特定のハイライトタスクにとって重要である、ステップと、
    前記集合の残りのクラスをその他のクラスの部分集合として結合するステップと、
    前記重要なクラスの部分集合と、前記その他のクラスの部分集合とを、トレーニング用のオーディオデータを用いて統合的にトレーニングして、それによって、タスク特有の分類器を形成するステップと、
    前記タスク特有の分類器を用いて前記オーディオ信号を、重要なもの又はその他のものとして分類して、それによって、前記特定のハイライトタスクに対応する前記ビデオ中のハイライトを特定するステップと
    を含む、ビデオの分類方法。
  2. 前記ビデオを前記分類されたオーディオ信号に従って、重要なセグメントとその他のセグメントとに分割すること、及び
    前記重要なセグメントを結合して前記ビデオの要約にすること
    をさらに含む、請求項1に記載のビデオの分類方法。
  3. 前記オーディオ信号をフレームに区分化すること、
    各フレームからオーディオ特徴を抽出すること、及び
    各フレームを前記オーディオ特徴に従って、重要なフレーム又はその他のフレームとして分類すること
    をさらに含む、請求項1に記載のビデオの分類方法。
  4. 前記オーディオ特徴は変形離散コサイン変換である、請求項3に記載のビデオの分類方法。
  5. 前記ビデオはスポーツイベントのものであり、前記特定のハイライトタスクは、前記ビデオ中のハイライトを特定することであり、前記クラスの集合は、興奮した音声と歓声との混合、拍手クラス、歓声クラス、通常の音声クラス、及び音楽クラスを含み、前記重要なクラスの部分集合は、前記興奮した音声と歓声との混合を含み、前記その他のクラスの部分集合は、拍手、歓声、通常の音声、及び音楽を含む、請求項1に記載のビデオの分類方法。
  6. 前記重要なクラスの部分集合を第1のガウス混合モデルにより表現すること、及び
    前記その他のクラスの部分集合を第2のガウス混合モデルにより表現すること
    をさらに含む、請求項1に記載のビデオの分類方法。
  7. 前記トレーニングは、K分割交差検定を統合的に用いる、請求項1に記載のビデオの分類方法。
  8. 前記トレーニングは、分類の推定値を統合的に最適化する、請求項1に記載のビデオの分類方法。
  9. 前記分類はラベルを割り当て、前記方法は、
    前記特定のハイライトタスクに従って前記ラベルの重要度レベルを求めること
    をさらに含む、請求項1に記載のビデオの分類方法。
  10. 前記クラスの部分集合の数Cは2であり、前記トレーニング用のオーディオデータのベクトルxにはNtrain個のサンプルがあり、各サンプルxには、1〜Cの値をとるクラスラベルyが関連付けられ、前記タスク特有の分類器は次式の形を有し、
    Figure 0004870087
    ここで、m=[m,...,mは各ガウス混合モデルの混合成分の数であり、Θは、クラスi(i={1,2})に関連するパラメータである、請求項6に記載のビデオの分類方法。
  11. 前記トレーニング用のオーディオデータは、Ntest個のサンプル及び関連ラベル(x,y)を有する検証集合を含み、特定のmに対する該検証集合の経験的テスト誤差は、
    Figure 0004870087
    であり、ここで、δは、y=f(x;m)である場合に1であり、そうでない場合に0である、請求項10に記載のビデオの分類方法。
  12. 混合成分の最適な数
    Figure 0004870087
    は、
    Figure 0004870087
    に従って選択される、請求項11に記載のビデオの分類方法。
  13. ビデオのオーディオ信号を分類するためのクラスの集合を記憶するように構成されるメモリと、
    前記集合の選択されたクラスを重要なクラスの部分集合として結合する手段であって、該重要なクラスの部分集合は特定のハイライトタスクにとって重要である、結合する手段と、
    前記集合の残りのクラスをその他のクラスの部分集合として結合する手段と、
    前記重要なクラスの部分集合と、前記その他のクラスの部分集合とを、トレーニング用のオーディオデータを用いて統合的にトレーニングして、それによって、タスク特有の分類器を形成する手段と、
    前記タスク特有の分類器を用いて前記オーディオ信号を、重要なもの又はその他のものとして分類して、それによって、前記特定のハイライトタスクに対応する前記ビデオ中のハイライトを特定する手段と
    を備える、ビデオの分類システム。
JP2007542936A 2006-01-06 2006-12-27 ビデオの分類方法およびビデオの分類システム Active JP4870087B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/326,818 2006-01-06
US11/326,818 US7558809B2 (en) 2006-01-06 2006-01-06 Task specific audio classification for identifying video highlights
PCT/JP2006/326379 WO2007077965A1 (en) 2006-01-06 2006-12-27 Method and system for classifying a video

Publications (2)

Publication Number Publication Date
JP2009522587A JP2009522587A (ja) 2009-06-11
JP4870087B2 true JP4870087B2 (ja) 2012-02-08

Family

ID=38228305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007542936A Active JP4870087B2 (ja) 2006-01-06 2006-12-27 ビデオの分類方法およびビデオの分類システム

Country Status (6)

Country Link
US (1) US7558809B2 (ja)
EP (1) EP1917660B1 (ja)
JP (1) JP4870087B2 (ja)
KR (1) KR100952804B1 (ja)
CN (1) CN101268505B (ja)
WO (1) WO2007077965A1 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630950B2 (en) * 2006-08-18 2009-12-08 International Business Machines Corporation System and method for learning models from scarce and skewed training data
US20080215318A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Event recognition
CN101588450B (zh) * 2008-05-19 2013-08-14 株式会社日立制作所 记录再现装置及方法
WO2010140355A1 (ja) * 2009-06-04 2010-12-09 パナソニック株式会社 音響信号処理装置および方法
JP2011013383A (ja) * 2009-06-30 2011-01-20 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法
CN101938455A (zh) * 2009-06-30 2011-01-05 中兴通讯股份有限公司 音频数据传输方法与装置
KR101615262B1 (ko) 2009-08-12 2016-04-26 삼성전자주식회사 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치
US8532863B2 (en) * 2009-09-28 2013-09-10 Sri International Audio based robot control and navigation
US8432965B2 (en) * 2010-05-25 2013-04-30 Intellectual Ventures Fund 83 Llc Efficient method for assembling key video snippets to form a video summary
US8923607B1 (en) * 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
CA2891413C (en) * 2012-11-13 2019-04-02 Samsung Electronics Co., Ltd. Method and apparatus for determining encoding mode
AU2014262533A1 (en) 2013-05-10 2015-11-26 Uberfan, Llc Event-related media management system
JP2015037212A (ja) * 2013-08-12 2015-02-23 オリンパスイメージング株式会社 情報処理装置、撮影機器及び情報処理方法
US10297287B2 (en) 2013-10-21 2019-05-21 Thuuz, Inc. Dynamic media recording
CN104679779B (zh) 2013-11-29 2019-02-01 华为技术有限公司 视频分类的方法和装置
US10419830B2 (en) 2014-10-09 2019-09-17 Thuuz, Inc. Generating a customized highlight sequence depicting an event
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
US10433030B2 (en) 2014-10-09 2019-10-01 Thuuz, Inc. Generating a customized highlight sequence depicting multiple events
US10536758B2 (en) 2014-10-09 2020-01-14 Thuuz, Inc. Customized generation of highlight show with narrative component
WO2016098430A1 (ja) * 2014-12-15 2016-06-23 ソニー株式会社 情報処理方法、映像処理装置及びプログラム
CN104581380B (zh) * 2014-12-30 2018-08-31 联想(北京)有限公司 一种信息处理的方法及移动终端
CN105992061B (zh) * 2015-02-13 2018-08-03 上海交通大学 一种自适应动态的多媒体分级传送播放管理方法
US10381022B1 (en) 2015-12-23 2019-08-13 Google Llc Audio classifier
JP7033587B2 (ja) * 2016-06-20 2022-03-10 ピクセルロット エルティーディー. 映像ハイライトを自動的に製作する方法及びシステム
CN107277617A (zh) * 2017-07-26 2017-10-20 深圳Tcl新技术有限公司 预览视频的生成方法、电视机和计算机可读存储介质
CN108307250B (zh) 2018-01-23 2020-10-30 浙江大华技术股份有限公司 一种生成视频摘要的方法及装置
US11594028B2 (en) 2018-05-18 2023-02-28 Stats Llc Video processing for enabling sports highlights generation
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
US11025985B2 (en) 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
US20200037022A1 (en) * 2018-07-30 2020-01-30 Thuuz, Inc. Audio processing for extraction of variable length disjoint segments from audiovisual content
CN109089127B (zh) * 2018-07-10 2021-05-28 武汉斗鱼网络科技有限公司 一种视频拼接方法、装置、设备及介质
CN109756775B (zh) * 2018-08-28 2020-04-28 安徽瑞羽康农业科技有限公司 年代类型吻合度辨识方法
CN109344287A (zh) * 2018-09-05 2019-02-15 腾讯科技(深圳)有限公司 一种信息推荐方法及相关设备
CN109446990B (zh) * 2018-10-30 2020-02-28 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109376268A (zh) * 2018-11-27 2019-02-22 北京微播视界科技有限公司 视频分类方法、装置、电子设备及计算机可读存储介质
CN111261174B (zh) * 2018-11-30 2023-02-17 杭州海康威视数字技术股份有限公司 音频的分类方法、装置、终端及计算机可读存储介质
US10909174B1 (en) * 2019-02-04 2021-02-02 Amazon Technologies, Inc. State detection of live feed
CN113826116A (zh) * 2019-05-15 2021-12-21 北京嘀嘀无限科技发展有限公司 用于多类分类的对抗性多二元神经网络
KR102554626B1 (ko) * 2020-01-06 2023-07-13 한국전자통신연구원 점진적 학습을 위한 기계 학습 방법 및 이를 수행하기 위한 컴퓨팅 장치
US11206453B2 (en) 2020-04-14 2021-12-21 International Business Machines Corporation Cognitive broadcasting of an event
CN113096687B (zh) * 2021-03-30 2024-04-26 中国建设银行股份有限公司 音视频处理方法、装置、计算机设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3475317B2 (ja) * 1996-12-20 2003-12-08 日本電信電話株式会社 映像分類方法および装置
US20020093531A1 (en) * 2001-01-17 2002-07-18 John Barile Adaptive display for video conferences
US7007001B2 (en) * 2002-06-26 2006-02-28 Microsoft Corporation Maximizing mutual information between observations and hidden states to minimize classification errors
US20040167767A1 (en) * 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals
US20050154987A1 (en) * 2004-01-14 2005-07-14 Isao Otsuka System and method for recording and reproducing multimedia
US7302451B2 (en) * 2004-05-07 2007-11-27 Mitsubishi Electric Research Laboratories, Inc. Feature identification of events in multimedia

Also Published As

Publication number Publication date
JP2009522587A (ja) 2009-06-11
EP1917660B1 (en) 2015-05-13
KR20080071554A (ko) 2008-08-04
US20070162924A1 (en) 2007-07-12
KR100952804B1 (ko) 2010-04-14
US7558809B2 (en) 2009-07-07
CN101268505A (zh) 2008-09-17
WO2007077965A1 (en) 2007-07-12
EP1917660A4 (en) 2010-02-17
CN101268505B (zh) 2011-08-17
EP1917660A1 (en) 2008-05-07

Similar Documents

Publication Publication Date Title
JP4870087B2 (ja) ビデオの分類方法およびビデオの分類システム
US10262239B2 (en) Video content contextual classification
US8938393B2 (en) Extended videolens media engine for audio recognition
US7302451B2 (en) Feature identification of events in multimedia
US9594959B2 (en) Videolens media engine
US8737817B1 (en) Music soundtrack recommendation engine for videos
US20140245463A1 (en) System and method for accessing multimedia content
US20070294716A1 (en) Method, medium, and apparatus detecting real time event in sports video
US20060058998A1 (en) Indexing apparatus and indexing method
Chen et al. Audio-visual synchronisation in the wild
JP2005173569A (ja) オーディオ信号の分類装置及び方法
US20040107103A1 (en) Assessing consistency between facial motion and speech signals in video
Tsipas et al. Efficient audio-driven multimedia indexing through similarity-based speech/music discrimination
JP5620474B2 (ja) アンカーモデル適応装置、集積回路、AV(AudioVideo)デバイス、オンライン自己適応方法、およびそのプログラム
Sidiropoulos et al. On the use of audio events for improving video scene segmentation
JP2006058874A (ja) マルチメディア中の事象を検出する方法
Karu et al. Weakly supervised training of speaker identification models
JPH10187182A (ja) 映像分類方法および装置
Li et al. Movie content analysis, indexing and skimming via multimodal information
Xiong Audio-visual sports highlights extraction using coupled hidden markov models
Fersini et al. Multimedia summarization in law courts: a clustering-based environment for browsing and consulting judicial folders
Rouvier et al. Robust audio-based classification of video genre
JP5424306B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
AU2005252714B2 (en) Effective audio segmentation and classification
Essid et al. Nonnegative matrix factorization for unsupervised audiovisual document structuring

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111116

R150 Certificate of patent or registration of utility model

Ref document number: 4870087

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141125

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250