JP2005536937A - 一連のビデオ画像中でのコンテンツ特性の検出用のユニット及び方法 - Google Patents
一連のビデオ画像中でのコンテンツ特性の検出用のユニット及び方法 Download PDFInfo
- Publication number
- JP2005536937A JP2005536937A JP2004530435A JP2004530435A JP2005536937A JP 2005536937 A JP2005536937 A JP 2005536937A JP 2004530435 A JP2004530435 A JP 2004530435A JP 2004530435 A JP2004530435 A JP 2004530435A JP 2005536937 A JP2005536937 A JP 2005536937A
- Authority
- JP
- Japan
- Prior art keywords
- content
- features
- determined
- level
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
低レベル特徴に基づいてデータストリーム中のコンテンツ特性を検出する方法が提案される。方法は、低レベル特徴のシーケンスから挙動特徴を決定し、検出された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタのうちのどれに属するかを決定し、挙動特徴の決定されたクラスタ及び決定された挙動特徴に基づいてコンテンツ性質の存在の確信度レベルを決定し、コンテンツ特性の存在の確信度レベルに基づきコンテンツ特性を検出する。
Description
本発明は、低レベル特徴に基づくデータストリーム中のコンテンツ特性の検出の方法に関連する。本発明は更に、低レベル特徴に基づくデータストリーム中のコンテンツ特性の検出用のユニットに関連する。本発明は更に、かかるユニットを有する画像処理装置に関連する。本発明は更に、かかるユニットを有するオーディオ処理装置に関連する。
人の居室からアクセス可能な消費されうるビデオ情報の量は、ますます増加している。この傾向は、将来のテレビジョン受像機及びパーソナルコンピュータによって与えられる技術及び機能の両方が集中することにより更に加速されうる。関心となるビデオ情報を得るために、必要なビデオ情報をユーザが取り出し、大量の利用可能なビデオ情報に対して効果的にナビゲーションを行うのを支援するツールが必要とされる。既存のコンテンツに基づくビデオ索引付け及び検索方法は、上述の用途において必要とされるツールを提供するものではない。これらの方法の殆どは、次の3つのカテゴリへ分類されうる。(1)ビデオの統語構造化、(2)ビデオ分類、及び(3)意味の抽出である。
第1のカテゴリにおける技術は、主にショット境界検出及びキーフレーム抽出、ショット・クラスタリング、目次の作成、ビデオ要約、及びビデオスキミングに関するものであった。これらの方法は、概して計算的に簡単であり、これらのパフォーマンスは比較的頑強である。しかしながら、これらの結果は、必ずしも意味論的に有意味な又は重要なものではないかもしれない。消費者向けの用途では、意味論的に重要でない結果は、ユーザの気を散らせ、サーチ又はブラウズ作業を苛立たしいものとする。
第2のカテゴリ、即ちビデオ分類に関する技術は、ビデオシーケンスを、ニュース、スポーツ、アクション映画、クローズアップ、群衆等へ分類しようとするものである。これらの方法は、ユーザがビデオシーケンスを粗いレベルでブラウズするのを容易とする分類結果を与える。おそらくは、ユーザが探しているものを見つけるうえでユーザを効果的に支援するために、より細かいレベルでのビデオ内容解析が必要である。実際、消費者は、自分たちが探索しているアイテムを、例えば物体、動作、事象を表わすキーワードといった、より正確な意味的なラベルで表現することが多い。
第3のカテゴリ、即ち意味の抽出に関する技術は、主に、特定の領域に特有のものであった。例えば、フットボールの試合、サッカーの試合、バスケットボールの試合、野球の試合、及び監視下の場所において、事象を検出するための方法が提案されてきた。これらの方法の利点は、検出された事象が意味論的に有意味であり、通常はユーザにとって重要なものであることである。しかしながら、不利点は、これらの方法の多くが、放送番組中の編集パターン等の特定の人為的な結果に強く依存し、これらを他の事象の検出のために拡張するのを困難とすることである。
冒頭の段落において述べた種類の方法の実施例は、非特許文献1から公知である。非特許文献1では、意味論的な事象検出についての拡張可能な解決策についての計算的な方法及び幾つかのアルゴリズム構成要素が提案されている。自動化された事象検出アルゴリズムは、ビデオコンテンツ中で意味的に重要な事象の検出を容易とし、高速なブラウジングのための意味的に有意味なハイライトを発生することを支援する。これは、異なった領域において異なった事象を検出するのに適合される拡張可能な計算的なアプローチである。3レベルのビデオ事象検出アルゴリズムが提案される。第1のレベルは、色、テクスチャ、及び動き特徴等の低レベル特徴を抽出する。
ニールス・ハーリング(Niels Haering)、リチャード・ジェイ・シャン(Richard J. Qian)及びエム・イブラヒム・セザン(M. Ibrahim Sezan)著、"A Semantic Event-Detection Approach and Its Application to Detecting Hunts in Wildlife Video"、ビデオ技術に関する回路及びシステムに関するIEEE議事録、第10巻、第6号、2000年9月
ニールス・ハーリング(Niels Haering)、リチャード・ジェイ・シャン(Richard J. Qian)及びエム・イブラヒム・セザン(M. Ibrahim Sezan)著、"A Semantic Event-Detection Approach and Its Application to Detecting Hunts in Wildlife Video"、ビデオ技術に関する回路及びシステムに関するIEEE議事録、第10巻、第6号、2000年9月
本発明は、比較的ロバストな、冒頭の段落において説明した種類の方法を提供することを目的とする。
上述の本発明の目的は、
低レベル特徴に基づきデータストリーム中のコンテンツ特性を検出する方法であって、
低レベル特徴のシーケンスから挙動特徴を決定する段階と、
決定された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタの組のうちのどのクラスタに属するかを決定する段階と、
決定された挙動特徴及び決定されたクラスタに基づいてコンテンツ特性の存在の確信度レベルを決定する段階と、
決定されたコンテンツ特性の存在の確信度レベルに基づいてコンテンツ特性を決定する段階とを有する、方法によって達成される。
低レベル特徴に基づきデータストリーム中のコンテンツ特性を検出する方法であって、
低レベル特徴のシーケンスから挙動特徴を決定する段階と、
決定された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタの組のうちのどのクラスタに属するかを決定する段階と、
決定された挙動特徴及び決定されたクラスタに基づいてコンテンツ特性の存在の確信度レベルを決定する段階と、
決定されたコンテンツ特性の存在の確信度レベルに基づいてコンテンツ特性を決定する段階とを有する、方法によって達成される。
コンテンツ特性を検出するために低レベル特徴を適用することに関する問題は、低レベル特徴の分散が比較的高いことである。低レベル特徴のシーケンスから挙動特徴を抽出することにより、また、決定されたクラスタ及び挙動特徴に基づいて確信度レベルを決定することにおり、重要な情報を失うことなく偏差が減少される。方法の利点は、この方法が、例えばシーン変化等の事象であるがジャンルであってもよい、異なった時間尺度で異なったコンテンツ特性を検出する包括的なアプローチであることである。
データストリームは、一連のビデオ画像又はオーディオデータに対応しうる。低レベル特徴は、コンテンツに関する非常に粗い情報を与え、時間に関して低い情報密度を有する。低レベル特徴は、データストリームのサンプルに対する、例えば画像の場合は画素値に対する、単純な演算に基づく。演算は、加算、減算、及び乗算を含みうる。低レベル特徴は、例えば、平均フレーム輝度、フレーム中の輝度の分散、平均絶対差(MAD:Mean Absolute Difference)である。例えば、高いMAD値は、コンテンツ中の多くの動き又はアクションを示しうるものであるのに対して、高い輝度はコンテンツの種別に関する何らかのことを示しうる。例えば、コマーシャルやアニメ映画は、高い輝度値を有する。或いは、低レベル特徴は、動き推定処理から求められるパラメータ、例えば、動きベクトルの大きさ、又は、復号化処理から求められるパラメータ、例えばDCT係数に対応する。
挙動特徴は、低レベル特徴の挙動に関連する。このことは、例えば、時間の関数としての低レベル特徴の値が、挙動特徴によって構成されることを意味する。挙動特徴の値は、低レベル特徴の多数の値を組み合わせることによって計算される。
本発明による方法の実施例では、決定された挙動特徴は、シーケンス中の低レベル特徴のうちの第1の低レベル特徴の値の第1の平均を含む。このことは、平均値が、シーケンスの或る時間ウィンドウにおける低レベル特徴のうちの最初のものに対して計算されることを意味する。平均値を計算することは比較的容易である。他の利点は、平均値の計算が、分散を減少させるための良い尺度であることである。低レベル特徴から挙動特徴を抽出する他のアプローチは以下の通りである。
・ウィンドウ中の低レベル特徴の標準偏差を計算する。
・ウィンドウ中の低レベル特徴のフーリエ変換のN個の最も重要なパワースペクトル値をとる。
・ウィンドウ中のN個の最も重要な主要構成要素をとる。クリストファー・エム・ビショップ(Christopher M. Bishop)、"Neural Networks for Pattern Recognition"、オックスフォード大学出版社、1995年参照。また、ティー・コホーネン(T.Kohonen)、"Self-Organizing Maps"、スプリンガー社、2001年、ISBN3−540−67921−9参照。
・ウィンドウ中のシーン変化又は黒フレーム等の低レベルイベントの頻度及び/又は強度を適用する。
・ウィンドウ中の低レベル特徴の標準偏差を計算する。
・ウィンドウ中の低レベル特徴のフーリエ変換のN個の最も重要なパワースペクトル値をとる。
・ウィンドウ中のN個の最も重要な主要構成要素をとる。クリストファー・エム・ビショップ(Christopher M. Bishop)、"Neural Networks for Pattern Recognition"、オックスフォード大学出版社、1995年参照。また、ティー・コホーネン(T.Kohonen)、"Self-Organizing Maps"、スプリンガー社、2001年、ISBN3−540−67921−9参照。
・ウィンドウ中のシーン変化又は黒フレーム等の低レベルイベントの頻度及び/又は強度を適用する。
望ましくは、決定された挙動特徴は、シーケンス中の低レベル特徴のうちの第2の低レベル特徴の値の第2の平均を含む。その場合、挙動特徴は、多数の要素から構成されるベクトルであり、各要素は夫々の低レベル特徴に関連する。或いは、挙動特徴は多数の要素を含み、各要素は1つの低レベル特徴、即ち、輝度の平均及び標準偏差に関連する。1つの低レベル特徴、又は、多数の低レベル特徴を見ることは、おそらく、ジャンルの種別又は生じている事象の種別に関する十分な情報を与えることはないが、多数の低レベル特徴の組合せの挙動を一緒に見ることは、はるかに多くの情報を与え、はるかに多くの識別力を与える。
本発明による方法の実施例によれば、コンテンツ特性の存在の確信度レベルは、挙動特徴の決定されたクラスタのモデルに基づいて決定される。望ましくは、モデルは、線形モデルであり、なぜならばこれは簡単且つロバストであるためである。設計段階中、テストデータのために挙動特徴の多くの時点が決定されている。このテストデータは、数時間の、注釈付けされたビデオ画像でありうる。注釈は、これらのビデオ画像の夫々に対して、画像がコンテンツ特性を有するか否か、例えば画像が特定のジャンルのものであるか否か、がわかっており、これが示されることを意味する。テストデータの挙動特徴の分布をセグメント化することにより、多くの所定のクラスタが確立されている。これらの各所定のクラスタに対して、モデル及びクラスタ中心が計算されている。検出段階中、即ち、本発明による方法を適用しているとき、特定の挙動特徴のために適当なクラスタが決定される。用いられるクラスタリング方法に依存して、これは、特定の挙動特徴と様々なクラスタ中心との間のユークリッド距離を計算することによって行われうる。最小ユークリッド距離は、特定の挙動特徴が属する所定のクラスタをもたらす。特定の挙動特徴についての適当な所定のクラスタのモデルの評価により、対応する確信度レベルが決定される。この確信度レベルは、モデル設計段階中の使用される注釈データの特定の挙動特徴についての所定のクラスタのモデルへの当てはめに関連する。換言すると、これは、特定の挙動特徴がコンテンツ特性に実際に対応する確率の尺度である。
或いは、コンテンツ特性の存在の確信度レベルは、ニューラルネットワークで決定される。
本発明による方法の実施例では、コンテンツ特性の検出は、コンテンツ特性の存在の確信度レベルを所定の閾値と比較することによって行われる。例えば、コンテンツ特性の存在の確信度レベルが所定の閾値よりも高ければ、データストリームはコンテンツ特性を有するとみなされる。閾値を用いることの利点は、これが比較的容易であることである。
本発明による方法の実施例は、コンテンツ特性の存在の確信度レベルを更なる挙動特徴に対応する更なる確信度レベルと比較することにより特異値フィルタリングを行うことを更に含む。任意に、確信度レベルが、コンテンツ特性が実際にデータストリームから構成されるかについての正しい印であるかを判定するために多数の挙動特徴が適用される。望ましくは、特定の挙動特徴の付近の時間ウィンドウ中の多数の挙動特徴に対応する確信度レベルは、異常値フィルタリングのために用いられる。本発明のこの実施例の利点は、比較的ロバスト且つ簡単であることである。
本発明による方法の実施例は更に、ビデオ画像のうちのどれが、コンテンツ特性を有する一連のビデオ画像の一部に対応するかを判定することを更に含む。低レベル特徴のシーケンスから挙動特徴を抽出することにより、例えば、平均を取ることにより、コンテンツ特性の検出、及び、そのコンテンツ特性を有する一連のビデオ画像の部分の実際の開始に、時間のシフトがもたらされる。例えば、一連のビデオ画像は、アニメ映画の一部と、アニメ映画に属さない他の部分とを含むことが検出される。アニメ映画から非アニメ映画への実際の遷移は、一連のビデオ画像中のアニメ映画の検出をもたらす挙動特徴の時点に基づいて、また、時間に関連するパラメータ、例えば低レベル特徴から挙動特徴を抽出するのに用いられるウィンドウの大きさに基づいて、決定される。
本発明による方法の実施例では、コンテンツ特性の検出に、EPGからのデータが適用される。電子番組ガイド等のより高いレベルのデータは、コンテンツ特性の検出の方法のロバストさを高めるのに非常に適している。これは、検出の問題に前後関係を与える。検出器にフットボールの試合を検出させることは、この検出器がEPGによって示されるスポーツ番組のビデオストリームに限られるときは、より簡単である。
本発明による方法の実施例は更に、
検出された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタの組のうちのどの更なるクラスタに属するかを決定する段階と、
決定された挙動特徴及び決定されたクラスタに基づいて更なるコンテンツ特性の存在の更なる確信度レベルを決定する段階と、
更なるコンテンツ特性の存在の更なる決定された確信度レベルに基づいて更なるコンテンツ特性を決定する段階とを有する。
検出された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタの組のうちのどの更なるクラスタに属するかを決定する段階と、
決定された挙動特徴及び決定されたクラスタに基づいて更なるコンテンツ特性の存在の更なる確信度レベルを決定する段階と、
更なるコンテンツ特性の存在の更なる決定された確信度レベルに基づいて更なるコンテンツ特性を決定する段階とを有する。
本発明によるこの実施例の利点は、比較的少ない追加的な努力で、更なるコンテンツ特性が検出されうることである。例えば低レベル特徴を計算するための、及び、挙動特徴を抽出するための、最も費用のかかる計算は共用される。比較的簡単な処理段階のみが、更なるコンテンツ特性の追加的な検出のために専用である。この実施例では、例えば、ビデオ画像のシーケンスがアニメ映画に対応するか、又は、ビデオ画像のシーケンスが野生生物の映画に対応するかを検出することが可能である。
本発明は更に、比較的ロバストな検出を行うよう設計された冒頭の段落に記載の種類のユニットを提供することを更なる目的とする。
本発明のこの目的は、ユニットが、
低レベル特徴のシーケンスから挙動特徴を決定する第1の決定手段と、
決定された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタの組のうちのどのクラスタに属するかを決定する第2の決定手段と、
決定された挙動特徴及び決定されたクラスタに基づいてコンテンツ特性の存在の確信度レベルを決定する第3の決定手段と、
決定されたコンテンツ特性の存在の確信度レベルに基づいてコンテンツ特性を検出する検出手段とを有することにより達成される。
低レベル特徴のシーケンスから挙動特徴を決定する第1の決定手段と、
決定された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタの組のうちのどのクラスタに属するかを決定する第2の決定手段と、
決定された挙動特徴及び決定されたクラスタに基づいてコンテンツ特性の存在の確信度レベルを決定する第3の決定手段と、
決定されたコンテンツ特性の存在の確信度レベルに基づいてコンテンツ特性を検出する検出手段とを有することにより達成される。
本発明によるユニットの実施例を、冒頭の段落に記載したような画像処理装置に適用することが有利である。画像処理装置は、追加的な構成要素、例えば、画像を表示する表示装置、画像を記憶する記憶装置、又は、ビデオ圧縮、即ちMPEG標準又はH26L標準による符号化又は復号化用の画像圧縮装置を含みうる。画像処理装置は、以下の適用のうちの1つをサポートしうる。
・ジャンル又は事象情報に基づく記録されたデータの検索
・ジャンル又は事象情報に基づくデータの自動記録
・再生中の、同じジャンルを有する記憶されたデータストリーム間でのホッピング
・再生中の、同じ種別の事象から事象へのホッピング。例えば、フットボールのゴールからフットボールのゴールへのホッピング。
・或るジャンルが他のチャンネルで放送されているかについてユーザに知らせる。例えば、ユーザは1つのチャンネルを見ており、他のチャンネルでフットボールが始まったことを知らされうる。
・特定の事象が起こったかどうかをユーザに知らせる。例えば、ユーザは1つのチャンネルを見ているが、他のチャンネルでフットボールのゴールがされたかについて知らされる。ユーザは、他のチャンネルへ切り換え、ゴールを見ることができる。
・ビデオカメラで監視されている室内で何かが起こったことを警備員に通知する。
・ジャンル又は事象情報に基づく記録されたデータの検索
・ジャンル又は事象情報に基づくデータの自動記録
・再生中の、同じジャンルを有する記憶されたデータストリーム間でのホッピング
・再生中の、同じ種別の事象から事象へのホッピング。例えば、フットボールのゴールからフットボールのゴールへのホッピング。
・或るジャンルが他のチャンネルで放送されているかについてユーザに知らせる。例えば、ユーザは1つのチャンネルを見ており、他のチャンネルでフットボールが始まったことを知らされうる。
・特定の事象が起こったかどうかをユーザに知らせる。例えば、ユーザは1つのチャンネルを見ているが、他のチャンネルでフットボールのゴールがされたかについて知らされる。ユーザは、他のチャンネルへ切り換え、ゴールを見ることができる。
・ビデオカメラで監視されている室内で何かが起こったことを警備員に通知する。
方法の変更及びそれらの変形例は、上述のユニットの変更及び変形例に対応するしうる。
本発明による方法、ユニット、及び画像処理装置の上述の他の面については、以下説明する実施及び実施例に関して、また、添付の図面を参照して明らかとなろう。全ての図面を通じて、同じ参照番号は同様の部分を示すのに用いられる。
例として、本発明による方法について以下説明する。例は、アニメ映画の検出に関連する。図1A乃至図1D中、例に属するいくつかの曲線が示されている。アニメ映画の検出に用いられる低レベル特徴は、MPEG2符号化器から抽出される。符号化に用いられるGOP(Group Of Pictures)長は、12であった。いくつかの特徴は、各Iフレーム毎にのみ利用可能であり、他の特徴は、各フレーム毎に利用可能である。使用される低レベルAV特徴の概観については、表1を参照。この例では、オーディオ特徴は用いず、ビデオ特徴のみを用いた。
設計段階では、挙動特徴ベクトル空間は、自己編成マップ(Self-Organizing Map)を用いてクラスタへセグメント化される。これについては、ティー・コホーネン(T. Kohonen)、"Self-Organizing Maps"、Springer出版、2001年、ISBN3−540−67921−9を参照。自己編成マップは、挙動空間中に挙動特徴ベクトル分布の良い表現を形成するよう挙動特徴空間をクラスタ化することが可能である。SOMのクラスタは、空間的にマップへと編成され、本例では、マップはクラスタを含むユニットの3×3マップからなる。本例では、空間編成特性は用いられないが、マップ上の位置は情報を与えるため検出の質を更に向上させることができる。換言すれば、9つの所定のクラスタがある。設計段階中、SOM中の各クラスタについて、局所線形分類モデルも作成された。
各挙動特徴ベクトルの検出段階において、適当なクラスタが決定される。これは、SOMが挙動特徴ベクトルを用いて評価されることを意味する。評価は、挙動特徴ベクトルに最も良く一致するクラスタを示すクラスタ指数を生じさせる。図1Bは、例としてのデータストリームの挙動特徴ベクトルに最も良く一致するクラスタ指数を示す。
検出段階では、選択されたクラスタに属するモデルは、挙動特徴ベクトルを用いて評価される。各評価は、確信度のレベル、即ち「アニメ映画であることの確信度」を生じさせる。図1Cは、例としてのデータの各GOP116に対する「アニメ映画であることの確信度」を示し、即ち、図1Cは、図1Aの挙動特徴ベクトル及び図1Bのクラスタ指数に基づいて決定される確信度レベルを示す。尚、図示の確信度レベルは、厳密に確率論的な意味での確信度である必要はなく、何故ならば、値は0と1の間の範囲内ではないからである。
要約すると、各GOPの新しい挙動特徴ベクトルが計算され、この挙動特徴ベクトルに最も良く一致するクラスタ指数が見つけられる。このように、計算された挙動特徴ベクトル上で各GOP毎に1つの局所線形モデルのみが評価される。
閾値処理により、コンテンツ特性が検出され、即ち、確信度レベルを所定の閾値と比較することにより、アニメ映画に属する画像をデータストリームが有することが検出される。所定の閾値は、設計段階中に決定されている。図1Cの下側の部分は、閾値処理の出力118を示す。出力118は、「アニメ映画であることの確信度」が所定の閾値に等しいかそれよりも高ければ1であり、出力は、「アニメ映画であることの確信度」が所定の閾値よりも低ければ0である。
閾値処理の出力118では、いくつかの異常値120乃至126がある。これは、出力118中にスパイク波形があることを意味する。フィルタリングにより、これらの異常値120乃至126は除去される。このフィルタリングは以下のように作用する。時間ウィンドウ内で、閾値処理によって決定された分類の何割が肯定であるか(即ち、「1」であるか)が計算される。割合が第2の所定の閾値よりも高ければ、アニメ映画が存在するという決定がされ、そうでなければアニメ映画が存在しないと決定される。異常値除去ウィンドウ長及び第2の所定の閾値は、設計段階中に計算されている。
データストリームによって表わされているビデオシーケンス中にアニメ映画が存在すると決定した後、アニメ映画の先頭と末尾を決定することが要求されるかもしれない。例えば挙動特徴の抽出及び異常値の除去のために、様々な時間ウィンドウの長さを考慮に入れることにより、最悪の場合の先頭と末尾が計算されうる。最悪の場合の先頭103及び末尾は、完全なアニメ映画がこの先頭103と末尾の間にあるという非常に高い確実性があるようなものである。本発明による画像処理装置のユーザは、アニメ映画が既に開始した後は検出されたアニメ映画の再生を開始させることにより又はアニメ映画が終了する前は再生を停止することにより迷惑と思ってはならないため、これは高い関心となる。例としてのデータストリーム中の計算された最悪の場合の先頭103を、図1Dに示す。
図2は、低レベル特徴に基づきデータストリーム中のコンテンツ特性を検出するユニット200を概略的に示す。ユニット200は、以下のものを有する。
・入力コネクタ212で与えられる低レベル特徴102、104のシーケンスから挙動特徴106−112を抽出する抽出ユニット202。低レベル特徴は、ビデオ又はオーディオデータに基づいて計算されうる。挙動特徴は、スカラー又はベクトルでありうる。
・挙動特徴が、挙動特徴空間300内の挙動特徴318乃至328のどの所定のクラスタ302乃至316に属するかを決定する第1の決定ユニット204。図1B及び図3も参照。
・挙動特徴318乃至328の選択されたクラスタ302乃至316に基づいて夫々の挙動特徴の確信度レベルを決定する第2の決定ユニット206。図1C及び図3も参照。
・挙動特徴の確信度レベルに基づいてコンテンツ特性を検出する分類ユニット208。任意に、この分類ユニット208は、図1Dに関連して説明した異常値除去フィルタを有する。
・コンテンツ特性を有するシーケンスの部分の先頭を計算する先頭及び末尾計算ユニット210。この先頭計算ユニット210は、図1Dを参照して説明したのと同様のものである。この先頭計算ユニット210は任意である。コンテンツ特性を検出するユニット200の抽出ユニット202、第1の決定ユニット204、第2の決定ユニット206、分類ユニット208、並びに、先頭及び末尾計算ユニット210は、1つのプロセッサを用いて実現されうる。通常は、これらの機能はソフトウエアプログラム製品の制御下で実行される。実行中、通常は、ソフトウエアプログラム製品は、メモリ等のメモリへロードされ、そこから実行される。プログラムは、ROM、ハードディスク、又は、磁気的に及び/又は光学的な記憶装置等のバックグランドメモリからロードされてもよく、又は、インターネット等のネットワークを介してロードされてもよい。任意に、特定用途向け集積回路は、開示される機能を提供する。
・入力コネクタ212で与えられる低レベル特徴102、104のシーケンスから挙動特徴106−112を抽出する抽出ユニット202。低レベル特徴は、ビデオ又はオーディオデータに基づいて計算されうる。挙動特徴は、スカラー又はベクトルでありうる。
・挙動特徴が、挙動特徴空間300内の挙動特徴318乃至328のどの所定のクラスタ302乃至316に属するかを決定する第1の決定ユニット204。図1B及び図3も参照。
・挙動特徴318乃至328の選択されたクラスタ302乃至316に基づいて夫々の挙動特徴の確信度レベルを決定する第2の決定ユニット206。図1C及び図3も参照。
・挙動特徴の確信度レベルに基づいてコンテンツ特性を検出する分類ユニット208。任意に、この分類ユニット208は、図1Dに関連して説明した異常値除去フィルタを有する。
・コンテンツ特性を有するシーケンスの部分の先頭を計算する先頭及び末尾計算ユニット210。この先頭計算ユニット210は、図1Dを参照して説明したのと同様のものである。この先頭計算ユニット210は任意である。コンテンツ特性を検出するユニット200の抽出ユニット202、第1の決定ユニット204、第2の決定ユニット206、分類ユニット208、並びに、先頭及び末尾計算ユニット210は、1つのプロセッサを用いて実現されうる。通常は、これらの機能はソフトウエアプログラム製品の制御下で実行される。実行中、通常は、ソフトウエアプログラム製品は、メモリ等のメモリへロードされ、そこから実行される。プログラムは、ROM、ハードディスク、又は、磁気的に及び/又は光学的な記憶装置等のバックグランドメモリからロードされてもよく、又は、インターネット等のネットワークを介してロードされてもよい。任意に、特定用途向け集積回路は、開示される機能を提供する。
方法は、ハードウエア検出ユニット用の設計テンプレートを提供し、各ユニット中で、構成要素は同じであるが、設計パラメータが異なる。
図3は、挙動特徴ベクトル318乃至328の多数のクラスタ302乃至316を有する挙動特著空間300を概略的に示す。図3に示す挙動特徴空間300は、多次元空間である。挙動特徴空間300の各軸は、挙動特徴ベクトル318乃至328の夫々の要素に対応する。挙動特徴空間300内の各クラスタ302乃至316は、コンテンツの態様であると解釈されうる。例えば、コンテンツ特性が「ビデオ画像のシーケンス中のアニメ映画」に対応する場合、第1のクラスタ302は、素早く動くキャラクタを伴うアニメ映画の第1の態様に対応しうる。クラスタは、原理的には、特定のコンテンツ特性とは独立であり、1つのクラスタは、変化する輝度を伴う素早く動く素材を示しうる。すると、局所的なモデルによって表わされる関係は、低輝度を有する特徴ベクトルはアニメ映画ではないが、高輝度を有するベクトルはアニメ映画であると述べうる。他のクラスタでは、(そのクラスタに属するローカルモデルによって示される)他の関係が存在しうる。第2のクラスタ316は、ゆっくりと動くキャラクタを有するアニメ映画の第2のモードに対応し、第3のクラスタ306は、夕方のアニメ映画の場面に対応しうる。
各クラスタ302乃至316に対して、設計段階中にモデルが決定される。これは、最小平方法で一組の方程式を解くことにより決定される線形モデルでありうる。N個の要素を有する挙動特徴ベクトル
(外1)
の1つの時点について、線型モデルMiの式は、以下の式1、
各クラスタ302乃至316に対して、設計段階中にモデルが決定される。これは、最小平方法で一組の方程式を解くことにより決定される線形モデルでありうる。N個の要素を有する挙動特徴ベクトル
(外1)
の1つの時点について、線型モデルMiの式は、以下の式1、
検出段階では、yの値は、目標データの特定の挙動特徴ベクトルに対する確信度レベルに対応する。このyの後者の値は、目標データの特定の挙動特徴ベクトルについての式1をパラメータαk(1≦k≦N)及びパラメータβiの既知の値で評価することによって容易に見つけられる。
図4は、データストリームについて計算される低レベル特徴に基づくコンテンツ解析処理を概略的に示すブロック図である。低レベル特徴は、挙動特徴の抽出402のために入力される。これらの挙動特徴は、多数の決定処理404乃至408のために用いられ、例えば、ビデオシーケンスを表わすデータストリームが、アニメ映画を含むか否か404、又はコマーシャルを含むか否か406、又はスポーツの試合を含む否か408を検出するために用いられる。任意に、データストリームに対応するEPGからの情報又は関連するデータストリームのEPG情報から導出される統計的データは、データストリームを解析するために適用される。
任意に、第1の決定処理408からの中間結果414は、第2の決定処理406へ与えられ、第2の決定処理306からの結果412は、第33の決定処理404へ与えられる。これらの決定処理404乃至408は、異なる時間尺度に対応することがあり、即ち、例えばシーン変化及びコマーシャル分離部を伴う短い期間から、例えばハイライト、ビデオクリップ、同様のコンテンツを含む中程度の期間へ例えばジャンル認識及びユーザの好みの認識等の長い期間へ対応しうる。任意に、決定処理404乃至408の最終結果は、組み合わされる410。連理的に、例えば、408からの情報は、直接404へ向かってもよい。
図5は、本発明による画像処理装置500の要素を概略的に示す図であり、各要素は以下の通りである。
・いくらかの処理が行われた後に表示されるべき画像を表わすデータストリームを受信する受信ユニット502。信号は、アンテナ又はケーブルを介して受信された放送信号であってもよいが、VCR(ビデオ・カセット・レコーダ)又はディジタル・バーサタイル・ディスク(DVD)等の記憶装置からの信号であってもよい。信号は、入力コネクタ410において与えられる。
・図1A乃至図1Dに関連して説明したような低レベル特徴に基づいてデータストリーム中のコンテンツ特性を検出するユニット504。
・コンテンツ特性に基づいてコンテンツ特性を検出するユニット504によって制御される画像処理ユニット506。この画像処理ユニット506は、雑音抑制を行うようにされてもよい。例えば、ユニット504が、データストリームがアニメ映画に対応することを検出した場合、雑音抑制の量は高められる。
・処理された画像を表示する表示装置508。この表示装置508は任意である。
・いくらかの処理が行われた後に表示されるべき画像を表わすデータストリームを受信する受信ユニット502。信号は、アンテナ又はケーブルを介して受信された放送信号であってもよいが、VCR(ビデオ・カセット・レコーダ)又はディジタル・バーサタイル・ディスク(DVD)等の記憶装置からの信号であってもよい。信号は、入力コネクタ410において与えられる。
・図1A乃至図1Dに関連して説明したような低レベル特徴に基づいてデータストリーム中のコンテンツ特性を検出するユニット504。
・コンテンツ特性に基づいてコンテンツ特性を検出するユニット504によって制御される画像処理ユニット506。この画像処理ユニット506は、雑音抑制を行うようにされてもよい。例えば、ユニット504が、データストリームがアニメ映画に対応することを検出した場合、雑音抑制の量は高められる。
・処理された画像を表示する表示装置508。この表示装置508は任意である。
上述の実施例は、本発明を例示するものであって制限するものではなく、当業者は、特許請求の範囲を逸脱することなく他の実施例を設計することが可能であることに留意すべきである。特許請求の範囲では、括弧内に示すいかなる参照符号も請求項を制限するものと理解されるべきではない。「有する」又は「含む」の語は、請求項に列挙されていない要素又は段階以外の要素又は段階の存在を排除するものではない。要素が単数形で示されている場合は、かかる要素が複数存在する場合を排除するものではない。本発明は、いくつかの別個の要素を含むハードウエアによって、又は適切にプログラムされたコンピュータによって実現されうる。いくつかの手段を列挙するユニットに関する請求項では、これらの手段のうちのいくつかは、同一のハードウエアによって実現されうる。
Claims (17)
- 低レベル特徴に基づきデータストリーム中のコンテンツ特性を検出する方法であって、
前記低レベル特徴のシーケンスから挙動特徴を決定する段階と、
前記決定された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタの組のうちのどのクラスタに属するかを決定する段階と、
前記決定された挙動特徴及び前記決定されたクラスタに基づいてコンテンツ特性の存在の確信度レベルを決定する段階と、
前記決定されたコンテンツ特性の存在の確信度レベルに基づいて前記コンテンツ特性を決定する段階とを有する、方法。 - 前記データストリームは、一連のビデオ画像に対応する、請求項1記載のコンテンツ特性を検出する方法。
- 前記決定された挙動特徴は、前記シーケンス中の前記低レベル特徴のうちの第1の低レベル特徴の値の第1の平均を含む、請求項1記載のコンテンツ特性を検出する方法。
- 前記決定された挙動特徴は、前記シーケンス中の前記低レベル特徴のうちの第2の低レベル特徴の値の第2の平均を含む、請求項3記載のコンテンツ特性を検出する方法。
- 前記コンテンツ特性の存在の確信度レベルは、前記挙動特徴の決定されたクラスタのモデルに基づいて決定される、請求項1記載のコンテンツ特性を検出する方法。
- 前記挙動特徴の決定されたクラスタのモデルは線形モデルである、請求項5記載のコンテンツ特性を検出する方法。
- 前記コンテンツ特性の存在の確信度レベルは、ニューラルネットワークで決定される、請求項1記載のコンテンツ特性を検出する方法。
- 前記コンテンツ特性の検出は、前記コンテンツ特性の存在の確信度レベルを所定の閾値と比較することによって行われる、請求項1記載のコンテンツ特性を検出する方法。
- 前記コンテンツ特性の存在の前記確信度レベルを更なる挙動特徴に対応する更なる確信度レベルと比較することにより特異値フィルタリングを行うことを含む、請求項1記載のコンテンツ特性を検出する方法。
- 前記ビデオ画像のうちのどれが、前記コンテンツ特性を有する前記一連のビデオ画像の一部に対応するかを判定することを更に含む、請求項2記載のコンテンツ特性を検出する方法。
- 前記コンテンツ特性の検出に、EPGからのデータが適用される、請求項1記載のコンテンツ特性を検出する方法。
- 前記検出された挙動特徴が、前記挙動特徴空間内の前記挙動特徴の所定のクラスタの組のうちのどの更なるクラスタに属するかを決定する段階と、
前記決定された挙動特徴及び前記決定されたクラスタに基づいて更なるコンテンツ特性の存在の更なる確信度レベルを決定する段階と、
前記更なるコンテンツ特性の存在の前記更なる決定された確信度レベルに基づいて更なるコンテンツ特性を決定する段階とを有する、請求項1記載のコンテンツ特性を検出する方法。 - 低レベル特徴に基づきデータストリーム中のコンテンツ特性を検出するユニットであって、
前記低レベル特徴のシーケンスから挙動特徴を決定する第1の決定手段と、
前記決定された挙動特徴が、挙動特徴空間内の挙動特徴の所定のクラスタの組のうちのどのクラスタに属するかを決定する第2の決定手段と、
前記決定された挙動特徴及び前記決定されたクラスタに基づいてコンテンツ特性存在の確信度レベルを決定する第3の決定手段と、
前記決定されたコンテンツ特性の存在の確信度レベルに基づいて前記コンテンツ特性を検出する検出手段とを有する、ユニット。 - ビデオ画像のシーケンスを表わすデータストリームを受信する受信手段と、
請求項13に記載の低レベル特徴に基づき前記ビデオ画像のシーケンス中のコンテンツ特性を検出するユニットと、
前記コンテンツ特性に基づき前記コンテンツ特性を検出するユニットによって制御される画像処理ユニットとを有する、
画像処理装置。 - 前記画像処理ユニットは記憶装置を有する、請求項13記載の画像処理装置。
- 前記画像処理ユニットはビデオ画像圧縮装置を有する、請求項13記載の画像処理装置。
- オーディオを表わすデータストリームを受信する受信手段と、
請求項13に記載の低レベル特徴に基づき前記オーディオ中のコンテンツ特性を検出するユニットと、
前記コンテンツ特性に基づき、コンテンツ特性を検出するユニットによって制御されるオーディオ処理ユニットとを有する、
オーディオ処理装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02078516 | 2002-08-26 | ||
PCT/IB2003/003401 WO2004019224A2 (en) | 2002-08-26 | 2003-07-31 | Unit for and method of detection a content property in a sequence of video images |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005536937A true JP2005536937A (ja) | 2005-12-02 |
Family
ID=31896929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004530435A Withdrawn JP2005536937A (ja) | 2002-08-26 | 2003-07-31 | 一連のビデオ画像中でのコンテンツ特性の検出用のユニット及び方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20060074893A1 (ja) |
EP (1) | EP1537498A2 (ja) |
JP (1) | JP2005536937A (ja) |
KR (1) | KR20050033075A (ja) |
CN (1) | CN1679027A (ja) |
AU (1) | AU2003250422A1 (ja) |
WO (1) | WO2004019224A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010507327A (ja) * | 2006-10-20 | 2010-03-04 | トムソン ライセンシング | ビデオコンテンツにおける関心領域を生成する方法、装置及びシステム |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050285937A1 (en) * | 2004-06-28 | 2005-12-29 | Porikli Fatih M | Unusual event detection in a video using object and frame features |
JP2008541645A (ja) * | 2005-05-19 | 2008-11-20 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | コンテンツアイテムの境界を検出するための方法及び装置 |
JP5008484B2 (ja) * | 2007-07-11 | 2012-08-22 | 株式会社日立国際電気 | 映像処理方法 |
US8149093B2 (en) * | 2008-06-06 | 2012-04-03 | Lyngsoe Systems | System and method for wireless communications |
CN102135979B (zh) * | 2010-12-08 | 2013-10-09 | 华为技术有限公司 | 数据清洗方法及装置 |
CN103365765B (zh) * | 2012-03-28 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 测试用例筛选方法和*** |
JP5993237B2 (ja) * | 2012-07-25 | 2016-09-14 | オリンパス株式会社 | 蛍光観察装置 |
US20140201120A1 (en) * | 2013-01-17 | 2014-07-17 | Apple Inc. | Generating notifications based on user behavior |
CN105844251A (zh) * | 2016-03-31 | 2016-08-10 | 乐视控股(北京)有限公司 | 一种卡通视频识别方法及装置 |
CN116704387B (zh) * | 2023-08-04 | 2023-10-13 | 众芯汉创(江苏)科技有限公司 | 一种基于视频结构化的电力线路通道巡检***和方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6496228B1 (en) * | 1997-06-02 | 2002-12-17 | Koninklijke Philips Electronics N.V. | Significant scene detection and frame filtering for a visual indexing system using dynamic thresholds |
US6278446B1 (en) * | 1998-02-23 | 2001-08-21 | Siemens Corporate Research, Inc. | System for interactive organization and browsing of video |
US6721454B1 (en) * | 1998-10-09 | 2004-04-13 | Sharp Laboratories Of America, Inc. | Method for automatic extraction of semantically significant events from video |
US6272250B1 (en) * | 1999-01-20 | 2001-08-07 | University Of Washington | Color clustering for scene change detection and object tracking in video sequences |
US6751354B2 (en) * | 1999-03-11 | 2004-06-15 | Fuji Xerox Co., Ltd | Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models |
US6678635B2 (en) * | 2001-01-23 | 2004-01-13 | Intel Corporation | Method and system for detecting semantic events |
US6956904B2 (en) * | 2002-01-15 | 2005-10-18 | Mitsubishi Electric Research Laboratories, Inc. | Summarizing videos using motion activity descriptors correlated with audio features |
US7120300B1 (en) * | 2002-05-14 | 2006-10-10 | Sasken Communication Technologies Limited | Method for finding representative vectors in a class of vector spaces |
US7103222B2 (en) * | 2002-11-01 | 2006-09-05 | Mitsubishi Electric Research Laboratories, Inc. | Pattern discovery in multi-dimensional time series using multi-resolution matching |
US7177470B2 (en) * | 2002-11-13 | 2007-02-13 | Koninklijke Philips Electronics N. V. | Method of and system for detecting uniform color segments |
-
2003
- 2003-07-31 WO PCT/IB2003/003401 patent/WO2004019224A2/en not_active Application Discontinuation
- 2003-07-31 AU AU2003250422A patent/AU2003250422A1/en not_active Abandoned
- 2003-07-31 US US10/525,171 patent/US20060074893A1/en not_active Abandoned
- 2003-07-31 EP EP03792555A patent/EP1537498A2/en not_active Withdrawn
- 2003-07-31 CN CNA038203014A patent/CN1679027A/zh active Pending
- 2003-07-31 JP JP2004530435A patent/JP2005536937A/ja not_active Withdrawn
- 2003-07-31 KR KR1020057003343A patent/KR20050033075A/ko not_active Application Discontinuation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010507327A (ja) * | 2006-10-20 | 2010-03-04 | トムソン ライセンシング | ビデオコンテンツにおける関心領域を生成する方法、装置及びシステム |
Also Published As
Publication number | Publication date |
---|---|
CN1679027A (zh) | 2005-10-05 |
KR20050033075A (ko) | 2005-04-08 |
WO2004019224A2 (en) | 2004-03-04 |
WO2004019224A3 (en) | 2004-07-22 |
EP1537498A2 (en) | 2005-06-08 |
AU2003250422A1 (en) | 2004-03-11 |
US20060074893A1 (en) | 2006-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7555149B2 (en) | Method and system for segmenting videos using face detection | |
Rasheed et al. | Scene detection in Hollywood movies and TV shows | |
US8316301B2 (en) | Apparatus, medium, and method segmenting video sequences based on topic | |
US6928233B1 (en) | Signal processing method and video signal processor for detecting and analyzing a pattern reflecting the semantics of the content of a signal | |
Aoki et al. | A shot classification method of selecting effective key-frames for video browsing | |
US8442384B2 (en) | Method and apparatus for video digest generation | |
US20070226624A1 (en) | Content-based video summarization using spectral clustering | |
Joyce et al. | Temporal segmentation of video using frame and histogram space | |
US20060114992A1 (en) | AV signal processing apparatus for detecting a boundary between scenes, method, recording medium and computer program therefor | |
US20030061612A1 (en) | Key frame-based video summary system | |
US7840081B2 (en) | Methods of representing and analysing images | |
KR20040070269A (ko) | 광고방송 및 다른 비디오 콘텐츠의 검출을 위한 패밀리히스토그램 기반으로 한 기술들 | |
EP1914994A1 (en) | Detection of gradual transitions in video sequences | |
Dimitrova et al. | Real time commercial detection using MPEG features | |
JP5360979B2 (ja) | 重要情報抽出方法および装置 | |
US20080256576A1 (en) | Method and Apparatus for Detecting Content Item Boundaries | |
JP2005536937A (ja) | 一連のビデオ画像中でのコンテンツ特性の検出用のユニット及び方法 | |
WO2005093752A1 (en) | Method and system for detecting audio and video scene changes | |
Lien et al. | Scene-based event detection for baseball videos | |
Panchal et al. | Scene detection and retrieval of video using motion vector and occurrence rate of shot boundaries | |
Kwon et al. | A new approach for high level video structuring | |
Ekin et al. | Generic event detection in sports video using cinematic features | |
US20100002149A1 (en) | Method and apparatus for detecting slow motion | |
Tapu et al. | Automatic scene/DVD chapter extraction in Hollywoodian movies | |
Kuo et al. | A mask matching approach for video segmentation on compressed data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060728 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20070731 |