JP2005536937A

JP2005536937A - 一連のビデオ画像中でのコンテンツ特性の検出用のユニット及び方法

Info

Publication number: JP2005536937A
Application number: JP2004530435A
Authority: JP
Inventors: スネイデル，フレディ; ウェーエフパウリュセン，イゴル
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-08-26
Filing date: 2003-07-31
Publication date: 2005-12-02
Also published as: CN1679027A; KR20050033075A; WO2004019224A2; WO2004019224A3; EP1537498A2; AU2003250422A1; US20060074893A1

Abstract

低レベル特徴に基づいてデータストリーム中のコンテンツ特性を検出する方法が提案される。方法は、低レベル特徴のシーケンスから挙動特徴を決定し、検出された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタのうちのどれに属するかを決定し、挙動特徴の決定されたクラスタ及び決定された挙動特徴に基づいてコンテンツ性質の存在の確信度レベルを決定し、コンテンツ特性の存在の確信度レベルに基づきコンテンツ特性を検出する。

Description

本発明は、低レベル特徴に基づくデータストリーム中のコンテンツ特性の検出の方法に関連する。本発明は更に、低レベル特徴に基づくデータストリーム中のコンテンツ特性の検出用のユニットに関連する。本発明は更に、かかるユニットを有する画像処理装置に関連する。本発明は更に、かかるユニットを有するオーディオ処理装置に関連する。

人の居室からアクセス可能な消費されうるビデオ情報の量は、ますます増加している。この傾向は、将来のテレビジョン受像機及びパーソナルコンピュータによって与えられる技術及び機能の両方が集中することにより更に加速されうる。関心となるビデオ情報を得るために、必要なビデオ情報をユーザが取り出し、大量の利用可能なビデオ情報に対して効果的にナビゲーションを行うのを支援するツールが必要とされる。既存のコンテンツに基づくビデオ索引付け及び検索方法は、上述の用途において必要とされるツールを提供するものではない。これらの方法の殆どは、次の３つのカテゴリへ分類されうる。（１）ビデオの統語構造化、（２）ビデオ分類、及び（３）意味の抽出である。

第１のカテゴリにおける技術は、主にショット境界検出及びキーフレーム抽出、ショット・クラスタリング、目次の作成、ビデオ要約、及びビデオスキミングに関するものであった。これらの方法は、概して計算的に簡単であり、これらのパフォーマンスは比較的頑強である。しかしながら、これらの結果は、必ずしも意味論的に有意味な又は重要なものではないかもしれない。消費者向けの用途では、意味論的に重要でない結果は、ユーザの気を散らせ、サーチ又はブラウズ作業を苛立たしいものとする。

第２のカテゴリ、即ちビデオ分類に関する技術は、ビデオシーケンスを、ニュース、スポーツ、アクション映画、クローズアップ、群衆等へ分類しようとするものである。これらの方法は、ユーザがビデオシーケンスを粗いレベルでブラウズするのを容易とする分類結果を与える。おそらくは、ユーザが探しているものを見つけるうえでユーザを効果的に支援するために、より細かいレベルでのビデオ内容解析が必要である。実際、消費者は、自分たちが探索しているアイテムを、例えば物体、動作、事象を表わすキーワードといった、より正確な意味的なラベルで表現することが多い。

第３のカテゴリ、即ち意味の抽出に関する技術は、主に、特定の領域に特有のものであった。例えば、フットボールの試合、サッカーの試合、バスケットボールの試合、野球の試合、及び監視下の場所において、事象を検出するための方法が提案されてきた。これらの方法の利点は、検出された事象が意味論的に有意味であり、通常はユーザにとって重要なものであることである。しかしながら、不利点は、これらの方法の多くが、放送番組中の編集パターン等の特定の人為的な結果に強く依存し、これらを他の事象の検出のために拡張するのを困難とすることである。

冒頭の段落において述べた種類の方法の実施例は、非特許文献１から公知である。非特許文献１では、意味論的な事象検出についての拡張可能な解決策についての計算的な方法及び幾つかのアルゴリズム構成要素が提案されている。自動化された事象検出アルゴリズムは、ビデオコンテンツ中で意味的に重要な事象の検出を容易とし、高速なブラウジングのための意味的に有意味なハイライトを発生することを支援する。これは、異なった領域において異なった事象を検出するのに適合される拡張可能な計算的なアプローチである。３レベルのビデオ事象検出アルゴリズムが提案される。第１のレベルは、色、テクスチャ、及び動き特徴等の低レベル特徴を抽出する。
ニールス・ハーリング（Niels Haering）、リチャード・ジェイ・シャン（Richard J. Qian）及びエム・イブラヒム・セザン（M. Ibrahim Sezan）著、"A Semantic Event-Detection Approach and Its Application to Detecting Hunts in Wildlife Video"、ビデオ技術に関する回路及びシステムに関するＩＥＥＥ議事録、第１０巻、第６号、２０００年９月

本発明は、比較的ロバストな、冒頭の段落において説明した種類の方法を提供することを目的とする。

上述の本発明の目的は、
低レベル特徴に基づきデータストリーム中のコンテンツ特性を検出する方法であって、
低レベル特徴のシーケンスから挙動特徴を決定する段階と、
決定された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタの組のうちのどのクラスタに属するかを決定する段階と、
決定された挙動特徴及び決定されたクラスタに基づいてコンテンツ特性の存在の確信度レベルを決定する段階と、
決定されたコンテンツ特性の存在の確信度レベルに基づいてコンテンツ特性を決定する段階とを有する、方法によって達成される。

コンテンツ特性を検出するために低レベル特徴を適用することに関する問題は、低レベル特徴の分散が比較的高いことである。低レベル特徴のシーケンスから挙動特徴を抽出することにより、また、決定されたクラスタ及び挙動特徴に基づいて確信度レベルを決定することにおり、重要な情報を失うことなく偏差が減少される。方法の利点は、この方法が、例えばシーン変化等の事象であるがジャンルであってもよい、異なった時間尺度で異なったコンテンツ特性を検出する包括的なアプローチであることである。

データストリームは、一連のビデオ画像又はオーディオデータに対応しうる。低レベル特徴は、コンテンツに関する非常に粗い情報を与え、時間に関して低い情報密度を有する。低レベル特徴は、データストリームのサンプルに対する、例えば画像の場合は画素値に対する、単純な演算に基づく。演算は、加算、減算、及び乗算を含みうる。低レベル特徴は、例えば、平均フレーム輝度、フレーム中の輝度の分散、平均絶対差（ＭＡＤ：Mean Absolute Difference）である。例えば、高いＭＡＤ値は、コンテンツ中の多くの動き又はアクションを示しうるものであるのに対して、高い輝度はコンテンツの種別に関する何らかのことを示しうる。例えば、コマーシャルやアニメ映画は、高い輝度値を有する。或いは、低レベル特徴は、動き推定処理から求められるパラメータ、例えば、動きベクトルの大きさ、又は、復号化処理から求められるパラメータ、例えばＤＣＴ係数に対応する。

挙動特徴は、低レベル特徴の挙動に関連する。このことは、例えば、時間の関数としての低レベル特徴の値が、挙動特徴によって構成されることを意味する。挙動特徴の値は、低レベル特徴の多数の値を組み合わせることによって計算される。

本発明による方法の実施例では、決定された挙動特徴は、シーケンス中の低レベル特徴のうちの第１の低レベル特徴の値の第１の平均を含む。このことは、平均値が、シーケンスの或る時間ウィンドウにおける低レベル特徴のうちの最初のものに対して計算されることを意味する。平均値を計算することは比較的容易である。他の利点は、平均値の計算が、分散を減少させるための良い尺度であることである。低レベル特徴から挙動特徴を抽出する他のアプローチは以下の通りである。
・ウィンドウ中の低レベル特徴の標準偏差を計算する。
・ウィンドウ中の低レベル特徴のフーリエ変換のＮ個の最も重要なパワースペクトル値をとる。
・ウィンドウ中のＮ個の最も重要な主要構成要素をとる。クリストファー・エム・ビショップ（Christopher M. Bishop）、"Neural Networks for Pattern Recognition"、オックスフォード大学出版社、１９９５年参照。また、ティー・コホーネン（T.Kohonen）、"Self-Organizing Maps"、スプリンガー社、２００１年、ＩＳＢＮ３−５４０−６７９２１−９参照。
・ウィンドウ中のシーン変化又は黒フレーム等の低レベルイベントの頻度及び／又は強度を適用する。

望ましくは、決定された挙動特徴は、シーケンス中の低レベル特徴のうちの第２の低レベル特徴の値の第２の平均を含む。その場合、挙動特徴は、多数の要素から構成されるベクトルであり、各要素は夫々の低レベル特徴に関連する。或いは、挙動特徴は多数の要素を含み、各要素は１つの低レベル特徴、即ち、輝度の平均及び標準偏差に関連する。１つの低レベル特徴、又は、多数の低レベル特徴を見ることは、おそらく、ジャンルの種別又は生じている事象の種別に関する十分な情報を与えることはないが、多数の低レベル特徴の組合せの挙動を一緒に見ることは、はるかに多くの情報を与え、はるかに多くの識別力を与える。

本発明による方法の実施例によれば、コンテンツ特性の存在の確信度レベルは、挙動特徴の決定されたクラスタのモデルに基づいて決定される。望ましくは、モデルは、線形モデルであり、なぜならばこれは簡単且つロバストであるためである。設計段階中、テストデータのために挙動特徴の多くの時点が決定されている。このテストデータは、数時間の、注釈付けされたビデオ画像でありうる。注釈は、これらのビデオ画像の夫々に対して、画像がコンテンツ特性を有するか否か、例えば画像が特定のジャンルのものであるか否か、がわかっており、これが示されることを意味する。テストデータの挙動特徴の分布をセグメント化することにより、多くの所定のクラスタが確立されている。これらの各所定のクラスタに対して、モデル及びクラスタ中心が計算されている。検出段階中、即ち、本発明による方法を適用しているとき、特定の挙動特徴のために適当なクラスタが決定される。用いられるクラスタリング方法に依存して、これは、特定の挙動特徴と様々なクラスタ中心との間のユークリッド距離を計算することによって行われうる。最小ユークリッド距離は、特定の挙動特徴が属する所定のクラスタをもたらす。特定の挙動特徴についての適当な所定のクラスタのモデルの評価により、対応する確信度レベルが決定される。この確信度レベルは、モデル設計段階中の使用される注釈データの特定の挙動特徴についての所定のクラスタのモデルへの当てはめに関連する。換言すると、これは、特定の挙動特徴がコンテンツ特性に実際に対応する確率の尺度である。

或いは、コンテンツ特性の存在の確信度レベルは、ニューラルネットワークで決定される。

本発明による方法の実施例では、コンテンツ特性の検出は、コンテンツ特性の存在の確信度レベルを所定の閾値と比較することによって行われる。例えば、コンテンツ特性の存在の確信度レベルが所定の閾値よりも高ければ、データストリームはコンテンツ特性を有するとみなされる。閾値を用いることの利点は、これが比較的容易であることである。

本発明による方法の実施例は、コンテンツ特性の存在の確信度レベルを更なる挙動特徴に対応する更なる確信度レベルと比較することにより特異値フィルタリングを行うことを更に含む。任意に、確信度レベルが、コンテンツ特性が実際にデータストリームから構成されるかについての正しい印であるかを判定するために多数の挙動特徴が適用される。望ましくは、特定の挙動特徴の付近の時間ウィンドウ中の多数の挙動特徴に対応する確信度レベルは、異常値フィルタリングのために用いられる。本発明のこの実施例の利点は、比較的ロバスト且つ簡単であることである。

本発明による方法の実施例は更に、ビデオ画像のうちのどれが、コンテンツ特性を有する一連のビデオ画像の一部に対応するかを判定することを更に含む。低レベル特徴のシーケンスから挙動特徴を抽出することにより、例えば、平均を取ることにより、コンテンツ特性の検出、及び、そのコンテンツ特性を有する一連のビデオ画像の部分の実際の開始に、時間のシフトがもたらされる。例えば、一連のビデオ画像は、アニメ映画の一部と、アニメ映画に属さない他の部分とを含むことが検出される。アニメ映画から非アニメ映画への実際の遷移は、一連のビデオ画像中のアニメ映画の検出をもたらす挙動特徴の時点に基づいて、また、時間に関連するパラメータ、例えば低レベル特徴から挙動特徴を抽出するのに用いられるウィンドウの大きさに基づいて、決定される。

本発明による方法の実施例では、コンテンツ特性の検出に、ＥＰＧからのデータが適用される。電子番組ガイド等のより高いレベルのデータは、コンテンツ特性の検出の方法のロバストさを高めるのに非常に適している。これは、検出の問題に前後関係を与える。検出器にフットボールの試合を検出させることは、この検出器がＥＰＧによって示されるスポーツ番組のビデオストリームに限られるときは、より簡単である。

本発明による方法の実施例は更に、
検出された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタの組のうちのどの更なるクラスタに属するかを決定する段階と、
決定された挙動特徴及び決定されたクラスタに基づいて更なるコンテンツ特性の存在の更なる確信度レベルを決定する段階と、
更なるコンテンツ特性の存在の更なる決定された確信度レベルに基づいて更なるコンテンツ特性を決定する段階とを有する。

本発明によるこの実施例の利点は、比較的少ない追加的な努力で、更なるコンテンツ特性が検出されうることである。例えば低レベル特徴を計算するための、及び、挙動特徴を抽出するための、最も費用のかかる計算は共用される。比較的簡単な処理段階のみが、更なるコンテンツ特性の追加的な検出のために専用である。この実施例では、例えば、ビデオ画像のシーケンスがアニメ映画に対応するか、又は、ビデオ画像のシーケンスが野生生物の映画に対応するかを検出することが可能である。

本発明は更に、比較的ロバストな検出を行うよう設計された冒頭の段落に記載の種類のユニットを提供することを更なる目的とする。

本発明のこの目的は、ユニットが、
低レベル特徴のシーケンスから挙動特徴を決定する第１の決定手段と、
決定された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタの組のうちのどのクラスタに属するかを決定する第２の決定手段と、
決定された挙動特徴及び決定されたクラスタに基づいてコンテンツ特性の存在の確信度レベルを決定する第３の決定手段と、
決定されたコンテンツ特性の存在の確信度レベルに基づいてコンテンツ特性を検出する検出手段とを有することにより達成される。

本発明によるユニットの実施例を、冒頭の段落に記載したような画像処理装置に適用することが有利である。画像処理装置は、追加的な構成要素、例えば、画像を表示する表示装置、画像を記憶する記憶装置、又は、ビデオ圧縮、即ちＭＰＥＧ標準又はＨ２６Ｌ標準による符号化又は復号化用の画像圧縮装置を含みうる。画像処理装置は、以下の適用のうちの１つをサポートしうる。
・ジャンル又は事象情報に基づく記録されたデータの検索
・ジャンル又は事象情報に基づくデータの自動記録
・再生中の、同じジャンルを有する記憶されたデータストリーム間でのホッピング
・再生中の、同じ種別の事象から事象へのホッピング。例えば、フットボールのゴールからフットボールのゴールへのホッピング。
・或るジャンルが他のチャンネルで放送されているかについてユーザに知らせる。例えば、ユーザは１つのチャンネルを見ており、他のチャンネルでフットボールが始まったことを知らされうる。
・特定の事象が起こったかどうかをユーザに知らせる。例えば、ユーザは１つのチャンネルを見ているが、他のチャンネルでフットボールのゴールがされたかについて知らされる。ユーザは、他のチャンネルへ切り換え、ゴールを見ることができる。
・ビデオカメラで監視されている室内で何かが起こったことを警備員に通知する。

方法の変更及びそれらの変形例は、上述のユニットの変更及び変形例に対応するしうる。

本発明による方法、ユニット、及び画像処理装置の上述の他の面については、以下説明する実施及び実施例に関して、また、添付の図面を参照して明らかとなろう。全ての図面を通じて、同じ参照番号は同様の部分を示すのに用いられる。

例として、本発明による方法について以下説明する。例は、アニメ映画の検出に関連する。図１Ａ乃至図１Ｄ中、例に属するいくつかの曲線が示されている。アニメ映画の検出に用いられる低レベル特徴は、ＭＰＥＧ２符号化器から抽出される。符号化に用いられるＧＯＰ（Group Of Pictures）長は、１２であった。いくつかの特徴は、各Ｉフレーム毎にのみ利用可能であり、他の特徴は、各フレーム毎に利用可能である。使用される低レベルＡＶ特徴の概観については、表１を参照。この例では、オーディオ特徴は用いず、ビデオ特徴のみを用いた。

図１Ａは、低レベル特徴及びこれらの低レベル特徴から抽出される挙動特徴の例を示す図である。図１Ａは、各フレーム１０４についてのＭＡＤと、データストリームの例示的な部分の各Ｉフレームについての全フレーム輝度１０２とを示す。データストリームは、６分間のビデオ画像に対応し、非アニメ映画からアニメ映画素材への遷移を含む。遷移の位置は、垂直線１０１でマークされている。挙動特徴として、或る時間ウィンドウに亘る低レベル特徴１０２、１０４の平均１０６、１０８及び標準偏差１１０、１１２が計算される。平均及び標準偏差が計算される前に、低レベル特徴は正規化される。計算される平均値及び標準偏差値は、挙動特徴ベクトルを形成するようベクトルへとスタックされる。各ＧＯＰでウィンドウはシフトされ、新しい挙動特徴ベクトルが計算される。使用されるウィンドウ長は２５０ＧＯＰであり、これは約２分間である。ＧＯＰ中でフレームに基づく統計量を平均化することは、よりロバストな特徴を与える。例えば、ＭＡＤは、非常に大きいダイナミックレンジを有する。即ち、ショットカットが生ずると、値は、コンテンツ中にあまり動きがない場合よりも高いオーダとなりうる。

設計段階では、挙動特徴ベクトル空間は、自己編成マップ（Self-Organizing Map）を用いてクラスタへセグメント化される。これについては、ティー・コホーネン（T. Kohonen）、"Self-Organizing Maps"、Springer出版、２００１年、ＩＳＢＮ３−５４０−６７９２１−９を参照。自己編成マップは、挙動空間中に挙動特徴ベクトル分布の良い表現を形成するよう挙動特徴空間をクラスタ化することが可能である。ＳＯＭのクラスタは、空間的にマップへと編成され、本例では、マップはクラスタを含むユニットの３×３マップからなる。本例では、空間編成特性は用いられないが、マップ上の位置は情報を与えるため検出の質を更に向上させることができる。換言すれば、９つの所定のクラスタがある。設計段階中、ＳＯＭ中の各クラスタについて、局所線形分類モデルも作成された。

各挙動特徴ベクトルの検出段階において、適当なクラスタが決定される。これは、ＳＯＭが挙動特徴ベクトルを用いて評価されることを意味する。評価は、挙動特徴ベクトルに最も良く一致するクラスタを示すクラスタ指数を生じさせる。図１Ｂは、例としてのデータストリームの挙動特徴ベクトルに最も良く一致するクラスタ指数を示す。

検出段階では、選択されたクラスタに属するモデルは、挙動特徴ベクトルを用いて評価される。各評価は、確信度のレベル、即ち「アニメ映画であることの確信度」を生じさせる。図１Ｃは、例としてのデータの各ＧＯＰ１１６に対する「アニメ映画であることの確信度」を示し、即ち、図１Ｃは、図１Ａの挙動特徴ベクトル及び図１Ｂのクラスタ指数に基づいて決定される確信度レベルを示す。尚、図示の確信度レベルは、厳密に確率論的な意味での確信度である必要はなく、何故ならば、値は０と１の間の範囲内ではないからである。

要約すると、各ＧＯＰの新しい挙動特徴ベクトルが計算され、この挙動特徴ベクトルに最も良く一致するクラスタ指数が見つけられる。このように、計算された挙動特徴ベクトル上で各ＧＯＰ毎に１つの局所線形モデルのみが評価される。

閾値処理により、コンテンツ特性が検出され、即ち、確信度レベルを所定の閾値と比較することにより、アニメ映画に属する画像をデータストリームが有することが検出される。所定の閾値は、設計段階中に決定されている。図１Ｃの下側の部分は、閾値処理の出力１１８を示す。出力１１８は、「アニメ映画であることの確信度」が所定の閾値に等しいかそれよりも高ければ１であり、出力は、「アニメ映画であることの確信度」が所定の閾値よりも低ければ０である。

閾値処理の出力１１８では、いくつかの異常値１２０乃至１２６がある。これは、出力１１８中にスパイク波形があることを意味する。フィルタリングにより、これらの異常値１２０乃至１２６は除去される。このフィルタリングは以下のように作用する。時間ウィンドウ内で、閾値処理によって決定された分類の何割が肯定であるか（即ち、「１」であるか）が計算される。割合が第２の所定の閾値よりも高ければ、アニメ映画が存在するという決定がされ、そうでなければアニメ映画が存在しないと決定される。異常値除去ウィンドウ長及び第２の所定の閾値は、設計段階中に計算されている。

データストリームによって表わされているビデオシーケンス中にアニメ映画が存在すると決定した後、アニメ映画の先頭と末尾を決定することが要求されるかもしれない。例えば挙動特徴の抽出及び異常値の除去のために、様々な時間ウィンドウの長さを考慮に入れることにより、最悪の場合の先頭と末尾が計算されうる。最悪の場合の先頭１０３及び末尾は、完全なアニメ映画がこの先頭１０３と末尾の間にあるという非常に高い確実性があるようなものである。本発明による画像処理装置のユーザは、アニメ映画が既に開始した後は検出されたアニメ映画の再生を開始させることにより又はアニメ映画が終了する前は再生を停止することにより迷惑と思ってはならないため、これは高い関心となる。例としてのデータストリーム中の計算された最悪の場合の先頭１０３を、図１Ｄに示す。

図２は、低レベル特徴に基づきデータストリーム中のコンテンツ特性を検出するユニット２００を概略的に示す。ユニット２００は、以下のものを有する。
・入力コネクタ２１２で与えられる低レベル特徴１０２、１０４のシーケンスから挙動特徴１０６−１１２を抽出する抽出ユニット２０２。低レベル特徴は、ビデオ又はオーディオデータに基づいて計算されうる。挙動特徴は、スカラー又はベクトルでありうる。
・挙動特徴が、挙動特徴空間３００内の挙動特徴３１８乃至３２８のどの所定のクラスタ３０２乃至３１６に属するかを決定する第１の決定ユニット２０４。図１Ｂ及び図３も参照。
・挙動特徴３１８乃至３２８の選択されたクラスタ３０２乃至３１６に基づいて夫々の挙動特徴の確信度レベルを決定する第２の決定ユニット２０６。図１Ｃ及び図３も参照。
・挙動特徴の確信度レベルに基づいてコンテンツ特性を検出する分類ユニット２０８。任意に、この分類ユニット２０８は、図１Ｄに関連して説明した異常値除去フィルタを有する。
・コンテンツ特性を有するシーケンスの部分の先頭を計算する先頭及び末尾計算ユニット２１０。この先頭計算ユニット２１０は、図１Ｄを参照して説明したのと同様のものである。この先頭計算ユニット２１０は任意である。コンテンツ特性を検出するユニット２００の抽出ユニット２０２、第１の決定ユニット２０４、第２の決定ユニット２０６、分類ユニット２０８、並びに、先頭及び末尾計算ユニット２１０は、１つのプロセッサを用いて実現されうる。通常は、これらの機能はソフトウエアプログラム製品の制御下で実行される。実行中、通常は、ソフトウエアプログラム製品は、メモリ等のメモリへロードされ、そこから実行される。プログラムは、ＲＯＭ、ハードディスク、又は、磁気的に及び／又は光学的な記憶装置等のバックグランドメモリからロードされてもよく、又は、インターネット等のネットワークを介してロードされてもよい。任意に、特定用途向け集積回路は、開示される機能を提供する。

方法は、ハードウエア検出ユニット用の設計テンプレートを提供し、各ユニット中で、構成要素は同じであるが、設計パラメータが異なる。

図３は、挙動特徴ベクトル３１８乃至３２８の多数のクラスタ３０２乃至３１６を有する挙動特著空間３００を概略的に示す。図３に示す挙動特徴空間３００は、多次元空間である。挙動特徴空間３００の各軸は、挙動特徴ベクトル３１８乃至３２８の夫々の要素に対応する。挙動特徴空間３００内の各クラスタ３０２乃至３１６は、コンテンツの態様であると解釈されうる。例えば、コンテンツ特性が「ビデオ画像のシーケンス中のアニメ映画」に対応する場合、第１のクラスタ３０２は、素早く動くキャラクタを伴うアニメ映画の第１の態様に対応しうる。クラスタは、原理的には、特定のコンテンツ特性とは独立であり、１つのクラスタは、変化する輝度を伴う素早く動く素材を示しうる。すると、局所的なモデルによって表わされる関係は、低輝度を有する特徴ベクトルはアニメ映画ではないが、高輝度を有するベクトルはアニメ映画であると述べうる。他のクラスタでは、（そのクラスタに属するローカルモデルによって示される）他の関係が存在しうる。第２のクラスタ３１６は、ゆっくりと動くキャラクタを有するアニメ映画の第２のモードに対応し、第３のクラスタ３０６は、夕方のアニメ映画の場面に対応しうる。
各クラスタ３０２乃至３１６に対して、設計段階中にモデルが決定される。これは、最小平方法で一組の方程式を解くことにより決定される線形モデルでありうる。Ｎ個の要素を有する挙動特徴ベクトル
（外１）

の１つの時点について、線型モデルＭ_iの式は、以下の式１、

で与えられる。設計段階中、パラメータα_k（１≦ｋ≦Ｎ）のＮ個の値と、パラメータβ_iのＮ個の値が決定されねばならない。設計段階中、テストデータの特定の挙動特徴ベクトルがコンテンツ特性を有さないデータ、例えばビデオ画像の一部に対応する場合、ｙの値は０であり、テストデータの特定の挙動特徴ベクトルがコンテンツ特性を有するデータの一部に対応する場合は、ｙの値は１である。

検出段階では、ｙの値は、目標データの特定の挙動特徴ベクトルに対する確信度レベルに対応する。このｙの後者の値は、目標データの特定の挙動特徴ベクトルについての式１をパラメータα_k（１≦ｋ≦Ｎ）及びパラメータβ_iの既知の値で評価することによって容易に見つけられる。

図４は、データストリームについて計算される低レベル特徴に基づくコンテンツ解析処理を概略的に示すブロック図である。低レベル特徴は、挙動特徴の抽出４０２のために入力される。これらの挙動特徴は、多数の決定処理４０４乃至４０８のために用いられ、例えば、ビデオシーケンスを表わすデータストリームが、アニメ映画を含むか否か４０４、又はコマーシャルを含むか否か４０６、又はスポーツの試合を含む否か４０８を検出するために用いられる。任意に、データストリームに対応するＥＰＧからの情報又は関連するデータストリームのＥＰＧ情報から導出される統計的データは、データストリームを解析するために適用される。

任意に、第１の決定処理４０８からの中間結果４１４は、第２の決定処理４０６へ与えられ、第２の決定処理３０６からの結果４１２は、第３３の決定処理４０４へ与えられる。これらの決定処理４０４乃至４０８は、異なる時間尺度に対応することがあり、即ち、例えばシーン変化及びコマーシャル分離部を伴う短い期間から、例えばハイライト、ビデオクリップ、同様のコンテンツを含む中程度の期間へ例えばジャンル認識及びユーザの好みの認識等の長い期間へ対応しうる。任意に、決定処理４０４乃至４０８の最終結果は、組み合わされる４１０。連理的に、例えば、４０８からの情報は、直接４０４へ向かってもよい。

図５は、本発明による画像処理装置５００の要素を概略的に示す図であり、各要素は以下の通りである。
・いくらかの処理が行われた後に表示されるべき画像を表わすデータストリームを受信する受信ユニット５０２。信号は、アンテナ又はケーブルを介して受信された放送信号であってもよいが、ＶＣＲ（ビデオ・カセット・レコーダ）又はディジタル・バーサタイル・ディスク（ＤＶＤ）等の記憶装置からの信号であってもよい。信号は、入力コネクタ４１０において与えられる。
・図１Ａ乃至図１Ｄに関連して説明したような低レベル特徴に基づいてデータストリーム中のコンテンツ特性を検出するユニット５０４。
・コンテンツ特性に基づいてコンテンツ特性を検出するユニット５０４によって制御される画像処理ユニット５０６。この画像処理ユニット５０６は、雑音抑制を行うようにされてもよい。例えば、ユニット５０４が、データストリームがアニメ映画に対応することを検出した場合、雑音抑制の量は高められる。
・処理された画像を表示する表示装置５０８。この表示装置５０８は任意である。

上述の実施例は、本発明を例示するものであって制限するものではなく、当業者は、特許請求の範囲を逸脱することなく他の実施例を設計することが可能であることに留意すべきである。特許請求の範囲では、括弧内に示すいかなる参照符号も請求項を制限するものと理解されるべきではない。「有する」又は「含む」の語は、請求項に列挙されていない要素又は段階以外の要素又は段階の存在を排除するものではない。要素が単数形で示されている場合は、かかる要素が複数存在する場合を排除するものではない。本発明は、いくつかの別個の要素を含むハードウエアによって、又は適切にプログラムされたコンピュータによって実現されうる。いくつかの手段を列挙するユニットに関する請求項では、これらの手段のうちのいくつかは、同一のハードウエアによって実現されうる。

低レベル特徴及びこれらの低レベル特徴から抽出される挙動特徴を示す図である。図１Ａからの挙動特徴ベクトルについての最も良く一致するクラスタの例を示す図である。図１Ａの挙動特徴ベクトル及び図１Ｂの最も良く一致するクラスタに基づいて決定される確信度レベルを示す図である。図１Ｃの確信度レベルの閾値処理及び異常値除去の後の最終出力を示す図である。データストリーム中のコンテンツ特性を検出するユニットを概略的に示す図である。挙動特徴ベクトルの多数のクラスタから構成される挙動特徴空間を概略的に示す図である。低レベル特徴に基づくコンテンツ解析処理を概略的に示すブロック図である。本発明による画像処理装置の要素を概略的に示す図である。

Claims

低レベル特徴に基づきデータストリーム中のコンテンツ特性を検出する方法であって、
前記低レベル特徴のシーケンスから挙動特徴を決定する段階と、
前記決定された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタの組のうちのどのクラスタに属するかを決定する段階と、
前記決定された挙動特徴及び前記決定されたクラスタに基づいてコンテンツ特性の存在の確信度レベルを決定する段階と、
前記決定されたコンテンツ特性の存在の確信度レベルに基づいて前記コンテンツ特性を決定する段階とを有する、方法。
前記データストリームは、一連のビデオ画像に対応する、請求項１記載のコンテンツ特性を検出する方法。
前記決定された挙動特徴は、前記シーケンス中の前記低レベル特徴のうちの第１の低レベル特徴の値の第１の平均を含む、請求項１記載のコンテンツ特性を検出する方法。
前記決定された挙動特徴は、前記シーケンス中の前記低レベル特徴のうちの第２の低レベル特徴の値の第２の平均を含む、請求項３記載のコンテンツ特性を検出する方法。
前記コンテンツ特性の存在の確信度レベルは、前記挙動特徴の決定されたクラスタのモデルに基づいて決定される、請求項１記載のコンテンツ特性を検出する方法。
前記挙動特徴の決定されたクラスタのモデルは線形モデルである、請求項５記載のコンテンツ特性を検出する方法。
前記コンテンツ特性の存在の確信度レベルは、ニューラルネットワークで決定される、請求項１記載のコンテンツ特性を検出する方法。
前記コンテンツ特性の検出は、前記コンテンツ特性の存在の確信度レベルを所定の閾値と比較することによって行われる、請求項１記載のコンテンツ特性を検出する方法。
前記コンテンツ特性の存在の前記確信度レベルを更なる挙動特徴に対応する更なる確信度レベルと比較することにより特異値フィルタリングを行うことを含む、請求項１記載のコンテンツ特性を検出する方法。
前記ビデオ画像のうちのどれが、前記コンテンツ特性を有する前記一連のビデオ画像の一部に対応するかを判定することを更に含む、請求項２記載のコンテンツ特性を検出する方法。
前記コンテンツ特性の検出に、ＥＰＧからのデータが適用される、請求項１記載のコンテンツ特性を検出する方法。
前記検出された挙動特徴が、前記挙動特徴空間内の前記挙動特徴の所定のクラスタの組のうちのどの更なるクラスタに属するかを決定する段階と、
前記決定された挙動特徴及び前記決定されたクラスタに基づいて更なるコンテンツ特性の存在の更なる確信度レベルを決定する段階と、
前記更なるコンテンツ特性の存在の前記更なる決定された確信度レベルに基づいて更なるコンテンツ特性を決定する段階とを有する、請求項１記載のコンテンツ特性を検出する方法。
低レベル特徴に基づきデータストリーム中のコンテンツ特性を検出するユニットであって、
前記低レベル特徴のシーケンスから挙動特徴を決定する第１の決定手段と、
前記決定された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタの組のうちのどのクラスタに属するかを決定する第２の決定手段と、
前記決定された挙動特徴及び前記決定されたクラスタに基づいてコンテンツ特性存在の確信度レベルを決定する第３の決定手段と、
前記決定されたコンテンツ特性の存在の確信度レベルに基づいて前記コンテンツ特性を検出する検出手段とを有する、ユニット。
ビデオ画像のシーケンスを表わすデータストリームを受信する受信手段と、
請求項１３に記載の低レベル特徴に基づき前記ビデオ画像のシーケンス中のコンテンツ特性を検出するユニットと、
前記コンテンツ特性に基づき前記コンテンツ特性を検出するユニットによって制御される画像処理ユニットとを有する、
画像処理装置。
前記画像処理ユニットは記憶装置を有する、請求項１３記載の画像処理装置。
前記画像処理ユニットはビデオ画像圧縮装置を有する、請求項１３記載の画像処理装置。
オーディオを表わすデータストリームを受信する受信手段と、
請求項１３に記載の低レベル特徴に基づき前記オーディオ中のコンテンツ特性を検出するユニットと、
前記コンテンツ特性に基づき、コンテンツ特性を検出するユニットによって制御されるオーディオ処理ユニットとを有する、
オーディオ処理装置。