JP4447689B2

JP4447689B2 - 自動映像解釈システム

Info

Publication number: JP4447689B2
Application number: JP12772899A
Authority: JP
Inventors: ジョアンレノンアリソン; アンダオリーデルフィン
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1998-05-07
Filing date: 1999-05-07
Publication date: 2010-04-07
Anticipated expiration: 2019-05-07
Also published as: US6516090B1; AUPP340798A0; JP2000030057A; EP0955599B1; EP0955599A2; DE69928164D1; EP0955599A3

Description

【０００１】
【発明の属する技術分野】
本発明はデジタルビデオ信号の統計解析に関し、特に、意味ラベルに関する自動内容解釈のためのデジタルビデオ信号の統計解析に関する。ラベルは、その後、内容に基づく検索やビデオアブストラクトの生成などのタスクの基礎として利用できる。
【０００２】
【従来の技術】
一般的には、デジタルビデオは、視覚シーンの時間的展開を表現する信号であると想定される。通常、この信号は関連する音声情報と共に符号化される(例えば、ＭＰＥＧ−２オーディオビジュアル符号化フォーマット)。場合によっては、ビデオ信号及び音声信号と共に、シーン又はシーンの捕捉に関する情報が符号化されるときもあるだろう。デジタルビデオは、典型的には、静止デジタル画像又はフレームのシーケンスにより表現され、各デジタル画像は複数のカラーチャネル(例えば、Ｒ、Ｇ、Ｂ)に対する画素輝度の集合から構成される。この表現の大部分は、視覚シーンが感知されるグリッド方式による。
【０００３】
視覚信号の内容を音声信号の中に見出すことができ、又、音声信号の内容を視覚信号の中に見出すことができるという意味で、視覚信号と、関連する音声信号とは互いに相関関係にある場合が多い。この相関は、ＭＰＥＧ−４などの、符号化の単位が１つのシーンの中の空間的位置及び時間的位置を限定されたオーディオビジュアルオブジェクトである最近のデジタルオーディオビジュアル符号化フォーマットにおいては、明白に認められる。このようなオーディオビジュアル情報の表現は、デジタル素材の利用に、より適応するものであるが、自然のシーンの視覚成分は依然としてグリッドに基づく感知技法を使用して捕捉されるのが普通である(すなわち、デジタル画像はキャプチャ装置により規定されるフレームレートで感知される)。従って、通常、デジタルビデオ解釈のプロセスは依然としてデジタル画像解釈のプロセスを基礎としており、関連する音声信号とは別個に考慮されるのが普通である。
【０００４】
デジタル画像信号の解釈は、画像中の意味のあるオブジェクト又は領域の識別を通して画像の内容を理解し且つそれらの空間的配列を解析するプロセスである。従来、画像解釈のタスクは人間による解析を必要としていた。これにはコストも、時間もかかり、そのため、自動画像解釈システムを構築すべく、多くの研究が重ねられてきた。
【０００５】
既存の多くの画像解釈システムは低レベル処理と高レベル処理とを含む。通常、低レベル処理は、画像を画素輝度のアレイから辺と領域のような空間的に関連する画像プリミティブの集合に変換する。その後、プリミティブ(例えば、平均画素輝度)から様々な特徴を抽出することができる。高レベル処理では、画像ドメインの知識と特徴測定を利用して、プリミティブにオブジェクトラベル又は領域ラベル、すなわち、解釈を割り当て、それにより、「画像の中に何が存在しているか」に関する記述を構築する。
【０００６】
初期の段階の画像解釈の試みは、個別のプリミティブをその特徴測定値に従って限られた数のオブジェクトクラスに分類することに基づいていた。この方式の成功には、低レベル処理で頻繁に発生する誤りを含む結果又は不完全な結果や、画像中の雑音に起因する特徴測定値の誤差によって限界があった。最近の技法の多くは高レベル処理に空間的制約を取り入れている。すなわち、不明瞭な領域又はオブジェクトは、隣接する領域又はオブジェクトの認識が成功した結果として認識されることが多い。
【０００７】
更に、時を経て、画像に関する領域ラベルの空間的依存性をマルコフ確率場(ＭＲＦ)などの統計的方法を使用してモデリングする技法が現れた。ＭＲＦモデルの主な利点は、空間的に関連する確率変数の相互作用の一般的で自然なモデルを提供し、場の(大域的に)最適の実現形態を見出すために使用できる最適化アルゴリズムが相対的にフレキシブルであるというところにある。通常、ＭＲＦは、一般には領域隣接度グラフ(ＲＡＧ)と呼ばれるセグメントに分割された複数の領域のグラフにおいて定義される。分割された領域は、利用できる数多くの領域に基づく画像セグメンテーション方法のいずれか１つによって生成することができる。ＭＲＦモデルは、画像からの測定値(低レベル特徴)に対するラベルの依存性と共に意味ラベルの空間的依存性に関する知識を取り入れる強力なメカニズムを構成する。
【０００８】
デジタル音声信号解釈は、語／句、すなわち、キーとなる音声の識別を通して音声信号の内容を理解し、それらの時間的配列を解析するプロセスである。通常、デジタル音声解析の研究は、結果として考えられる技術に対して、例えば、コンピュータ及び他の電子装置のための自然言語インタフェースのような多数の用途が可能であるために、音声認識に集中していた。
【０００９】
隠れマルコフモデルは、本来、デジタル音声信号の逐次且つ統計的な特性を取り入れる能力を備えているため、連続音声認識に広く使用されている。このモデルは、音声の単位(音素、又は場合によっては語)が状態の集合を介して時間のシーケンスとして表現される時変プロセスのモデリングのための確率の枠組みを構成する。状態間の遷移の確率を推定するには、音声の単位ごとの標本音声信号の集合の解析を行う必要がある(すなわち、トレーニングセット)。認識プロセスが話者とは無関係のものでなければならない場合には、トレーニングセットはある範囲の話者からの標本音声信号を含んでいなければならない。
【００１０】
【発明の概要】
本発明の１つの面によれば、奥行きを判定するための情報を含む複数種類の状況情報を有するデジタルビデオ信号を解釈する装置であって、前記デジタルビデオ信号を、各々が前記複数種類の状況情報の対応する一部分を有する１つ又は複数のビデオセグメントに分割する手段と、前記複数種類の状況情報の前記対応する部分を状況アナライザにより解析した出力に従って領域アナライザにおいて使用されるアプリケーションドメインのラベルの先験的確率を変更し、該領域アナライザによりそれぞれのビデオセグメントに含まれる１つ又は複数の領域に関わるラベル付き三次元隣接度グラフを形成する解析手段とを具備する装置が提供される。
【００１２】
本発明の更に別の面によれば、奥行きを判定するための情報を含む複数種類の状況情報を有するデジタルビデオ信号を解釈するためのコンピュータプログラムが記録されているコンピュータ読み取り可能媒体であって、前記デジタルビデオ信号を、各々が前記複数種類の状況情報の対応する一部分を有する１つ又は複数のビデオセグメントに分割する手段と、前記複数種類の状況情報の前記対応する部分を状況アナライザにより解析した出力に従って領域アナライザにおいて使用されるアプリケーションドメインのラベルの先験的確率を変更し、該領域アナライザによりそれぞれのビデオセグメントに含まれる１つ又は複数の領域に関わるラベル付き三次元隣接度グラフを形成する解析手段としてコンピュータを機能させるコンピュータプログラムが記録されているコンピュータ読み取り可能媒体が提供される。
【００１３】
【発明の実施の形態】
以下、添付の図面を参照して本発明の実施例を説明する。
【００１４】
１．概要
本発明は、空間ドメイン及び時間ドメインにおいてデジタルビデオ信号の(重要な)意味内容を捕捉する、デジタルビデオ信号の省略型高レベル記述を自動的に生成する方法、装置及びシステムに関する。そのような記述は、後に、内容に基づく検索、ビデオシーケンスのブラウジング又はデジタルビデオのアブストラクトの作成を含む数多くの目的に使用できる。
【００１５】
デジタルビデオ信号は、ビデオキャプチャ装置で記録される視覚信号であると解される。この信号は、通常、二次元センサアレイ(例えば、ＣＣＤアレイ)から指定のサンプリング速度で生成されるが、必ずそうであるとは限らないであろう。各サンプルは１つの(ビデオ)フレームにより表現される。この信号の空間的及び時間的内容の解析は、ある範囲にわたる状況情報から恩恵を受ける。場合によっては、この状況情報はデジタルビデオ信号の中に含まれており(例えば、動き)、また、他の関連する供給源(例えば、関連する音声信号、記録されたカメラのパラメータ、一般に使用される視覚スペクトルのセンサとは別の他のセンサ)から情報を利用できる場合もある。利用可能な状況情報の範囲は静止画像解析プロセスで利用可能な情報と比べてはるかに広く、時間の進展という付加的な特性を有する。
【００１６】
ビデオ信号におけるデジタル画像信号の時間の進展を利用して、デジタルビデオ信号の画像解釈プロセスの結果を改善することができる。例えば、動き情報を使用して、デジタルで記録されたシーンの中で動いている人間のようなオブジェクトの検出を支援することができる。また、動きを利用して、画像フレームの中の複数の領域をシーンの背景の一部であるとして選択的にグループ分けすることも可能である。デジタルビデオ信号を解釈又は理解するプロセスは、関連する音声信号の中にある音声要素(音声及び非音声)の識別によっても恩恵を被るであろう。例えば、音声信号で識別された言葉によって、解釈プロセスを支援することも可能であろう。また、野生動物のドキュメンタリーと関連する音声信号は様々な動物が発する音を含み、これがビデオ信号の内容を識別する上で助けになると考えられる。
【００１７】
本発明の実施例は、ＭＲＦなどの確率モデルの使用をデジタルビデオ信号の解釈に拡張している。これは、様々に異なる供給源(例えば、ビデオフレーム、音声信号など)からの、測定値及び知識の形態をとる情報を単一の最適化手続きで統合するために、ビデオシーケンスを通して確率モデルを繰り返し使用することを含む。
【００１８】
本発明の実施例においては、デジタルビデオ信号の全体にわたって、選択された解析イベントで高レベル記述を生成する。高レベル記述は、その解析イベントで現れる様々な領域への様々な意味ラベルの割り当てに基づいている。各解析イベントにおいて、その解析イベントの中心に置かれたビデオフレームは自動的に複数の均質領域に空間的に分割される。それらの領域と、それらの空間的隣接度特性は領域隣接度グラフ(ＲＡＧ)により表現される。そこで、確率モデルをＲＡＧに適用する。モデルはフレームの領域からの特徴測定値と、フレームの周囲の注目領域(ＲＯＩ)からの状況情報と、ＲＡＧの領域と関連する可能性が考えられる様々な意味ラベルに関する先験的知識とを含む。それらの意味ラベル(例えば、「人」、「空」、「水」、「木の葉」など)は、典型的には適切なアプリケーションドメイン(例えば、屋外のシーン、結婚式、都市のシーンなど)について構築されているリストから取り出される。
【００１９】
各解析イベントにおいて、状況情報を使用して、選択された適切なアプリケーションドメインの意味ラベル(以下、ラベルという)の先験的確率に偏りを与える。所定の解析イベントで実行される解析も、先行する解析イベントに依存する。この依存性は、通常、時間ドメインにおいて２つの解析イベントが互いに近接している場合にはより大きくなる。例えば、１つのビデオセグメントの中では、必ずそうであるとは限らないものの、先行する最近の解析イベントで領域について選択されたラベルはデジタルビデオの現在セクションの記述の中では選択されなかったラベルに比べてより高い確率を有するといえる。
【００２０】
デジタルビデオ解釈システムは、アプリケーションドメインが１つであっても、あるいは複数であっても動作することができる。複数のアプリケーションドメインを使用している場合には、状況情報を使用して、最も確率の高いアプリケーションドメインを判定することができる。アプリケーションドメインは狭くても(すなわち、ラベルが数個)、広くても(すなわち、多数のラベルを使用できる)、どちらでも良い。狭いアプリケーションドメインは、通常、非常に特定的で、信頼性の高い領域のラベル付けが求められる場合に使用されると考えられる。例えば、セキュリティに適用するときには、人間や自動車と関連する領域を識別する能力は望ましいであろうが、それらのオブジェクトの識別は高い信頼性をもって要求されるであろう。
【００２１】
以下の実施例の詳細な説明においては、説明を更に徹底して理解させるために、ビデオ符号化技法、センサの種類などの特定の詳細な事項を数多く挙げる。しかし、そのような特定の詳細を挙げなくても本発明を実施しうることは、当業者には明白であろう。また、場合によっては、本発明をわかりにくくしないように、ビデオフォーマット、音声フォーマットなどの周知の特徴の詳細な説明を省略した。
【００２２】
２．好ましい実施例のデジタルビデオ解釈システム
図１は、本発明の好ましい実施例による確率デジタルビデオ解釈システム１６０を示す。デジタルビデオ解釈システム１６０はビデオセグメンタ１２０と、ビデオセグメントアナライザ１４０とを含み、デジタルビデオ源１００から発生されたデジタルビデオ源出力１１０を処理する。デジタルビデオ源はデジタルビデオカメラであるのが好ましい。ビデオセグメンタ１２０はデジタルビデオ源１００と、ビデオセグメントアナライザ１４０との間に結合している。
【００２３】
デジタルビデオ解釈システム１６０は、デジタルビデオ源１００と関連して、任意に内部又は外部で実現されれば良い。デジタルビデオ解釈システム１６０がデジタルビデオ源１００(例えば、デジタルカメラ)の内部に配置されている場合、解釈システム１６０は、付加的なカメラ情報を典型的にオーディオビジュアル信号を構成するビデオ信号及び音声信号を明示して格納する必要なく、そのようなカメラ情報を容易に利用することができる。例えば、デジタルビデオカメラにおけるカメラの動きを示す情報を使用して、デジタルビデオ信号１１０Aの動き解析を補助することもできるであろう。更に、撮影者の視線位置に基づいて、シーン中の重要な被写体がどこに位置しているかに関する情報を得ることや、焦点情報(又は他の距離情報)を使用して、図３Ｂに示すようにＲＡＧに対する奥行き軸を生成するための奥行き情報を生成することも可能であろう。
【００２４】
デジタルビデオ解釈システム１６０に対する入力は、デジタルビデオカメラなどの装置を使用して捕捉されるデジタルビデオ源出力１１０である。通常、デジタルビデオ源出力１１０はデジタルビデオ信号１１０Ａと、デジタル音声信号１１０Ｂとから構成されている。キャプチャ装置に応じて、記録されるシーンに関する追加情報１１０Ｃも利用できるであろう。この追加情報１１０Ｃとしては、カメラパラメータ(焦点情報、露出の詳細、撮影者の視線位置など)や、その他のセンサ情報(例えば、赤外線感知)が考えられるであろう。
【００２５】
デジタルビデオ解釈システム１６０においては、ビデオセグメンタ１２０は、デジタルビデオ信号をその出力側で提供される複数の時間ビデオセグメント又はスロット１３０に分割する。ビデオセグメンタ１２０により生成されたビデオセグメント１３０は、ビデオセグメントアナライザ１４０への入力として提供される。ビデオセグメントアナライザ１４０は、ビデオセグメントごとに１３０ラベル付きＲＡＧのシーケンスを生成する。
【００２６】
図１のビデオセグメントアナライザ１４０は、１つ又は複数の適切なアプリケーションドメインを使用して、ＲＡＧのシーケンスを生成し、次に、そのシーケンスの領域に最適のラベルを付けようとする。これにより得られるラベル付きＲＡＧのシーケンス１５０はデジタルビデオ信号１１０Ａの内容を表現し、以下の説明においては、これをメタデータという。
【００２７】
図９に描かれたコンピュータ９００により示されるように、本発明の実施例をデジタルビデオ源に対して外部で実現することができる。あるいは、図１０に描かれているように、デジタルビデオ源１０００の内部でデジタルビデオ解釈システムを実現しても良い。
【００２８】
図９を参照すると、汎用コンピュータは遠隔デジタルビデオ源１０００に結合している。ビデオ解釈システムは、コンピュータにロードされ、コンピュータにより実行することができるコンピュータ読み取り可能媒体に記録されるソフトウェアとして実現されている。コンピュータ９００はコンピュータモジュール９０２と、ビデオ表示モニタ９０４と、入力装置９２０，９２２とを具備する。コンピュータモジュール９０２自体は少なくとも１つの中央処理装置９１２と、典型的にはランダムアクセスメモリ(ＲＡＭ)及び読み取り専用メモリ(ＲＯＭ)を含むメモリユニット９１６と、ビデオインタフェース９０６を含む入出力(Ｉ／Ｏ)インタフェース９０６，９０８，９１４とを具備する。Ｉ／Ｏインタフェース９０８はデジタルビデオ源１０００をコンピュータモジュール９０２及びマウス９２２などの指示装置と結合させることができる。記憶装置９１０は、フロッピーディスク、ハードディスクドライブ、ＣＤ−ＲＯＭドライブ、磁気テープドライブ又は当業者には知られている同様の不揮発性記憶装置のうち１つ又は２つ以上を含んでいても良い。コンピュータ９０２の構成要素９０６から９１６は、通常、相互結合バス９１８を介して、当業者に知られているコンピュータシステム９００の通常の動作モードが得られるように通信する。本発明の実施例を実施できるコンピュータシステムの例としては、ＩＢＭＰＣ／ＡＴ及びその互換機、マッキントッシュコンピュータ、サンスパークステーション、又は当業者に良く知られている多数のコンピュータシステムのうちいずれかなどがある。デジタルビデオ源１０００は、ビデオ信号を記憶装置(例えば、メモリ、磁気記録媒体など)に記録でき且つ追加情報、例えば、ビデオ信号と関連する赤外線データを記録できるデジタルカメラであるのが好ましい。デジタルビデオ信号及び関連する追加(状況)情報はコンピュータ９００にダウンロードされても良く、コンピュータ９００は本発明の実施例に従って解釈及びラベル付けのプロセスを実行する。
【００２９】
あるいは、本発明の実施例をデジタルビデオカメラであるのが好ましいデジタルビデオ源１０００の内部で実施しても差し支えない。デジタルビデオ源１０００は、画像を捕捉するビデオキャプチャ装置１００２(例えば、電荷結合素子を含む)を具備し、ビデオキャプチャ装置１００２は、その焦点データ及びその他の設定データを提供するためのセンサ及び／又は機構を有する。デジタルビデオ源１０００は、音声情報、周囲及び／又は環境データ、位置決めデータ(例えば、ＧＰＳ情報)などを捕捉するセンサ１００４を含んでいても良い。これらのセンサ１００４及びビデオキャプチャ装置１００２は、本発明の実施例を実施しうるデジタルビデオ源１０００の中央処理装置に接続している。処理装置１００６は、メモリ１００８と、通信ポート１０１０と、ユーザインタフェースユニット１０１２とに結合している。ユーザインタフェースユニット１０１２により、ビデオ源１０００の撮影者はデジタルビデオ源１０００の動作モードにおける種々の設定値を指定することができる。例えば、デジタルビデオ源の撮影者は解釈システムと共に使用すべき複数の異なるアプリケーションドメイン(例えば、屋外のシーン、都市のシーン、結婚式のシーンなど)を選択できる。アプリケーションドメインを電子的に、又は使用可能な無線リンクを介してキャプチャ装置にダウンロードすることもできるであろう。メモリ１００８はランダムアクセスメモリ、読み取り専用メモリ及び／又は不揮発性記憶装置を具備していても良い。処理装置を動作させるためのデータと処理命令は、共に、メモリ１００８に格納されても良い。通信ポート１０１０は、デジタルビデオ源１０００と図９のコンピュータ９００のような外部装置との通信を成立させる。通信ポート１０１０は、メモリ１００８及び処理装置１００６との間でデータ及び命令の送受信を行うことができる。
【００３０】
３．好ましい実施例のビデオセグメンタ
ビデオセグメンタ１２０は、デジタルビデオ信号を複数の時間ビデオセグメント又はスロット１３０に分割する。フレーム中の画素の動きに関する情報(暗黙にデジタルビデオ信号１１０Aの中にある)、及び、デジタル音声信号１１０Ｂ又はその他の情報１１０Cで利用できる何らかの他の支援情報の両方又はいずれかを使用して、ビデオセグメンタ１２０による分割を支援することができる。例えば、撮影者が記録を開始した時点及び停止した時点に関する情報を利用できるとすれば、この情報に基づいてビデオ分割を実行できるであろう。ビデオセグメンタにおいて周知のビデオ分割技法を実現しても、本発明の趣旨から逸脱することにはならない。
【００３１】
４．好ましい実施例のビデオセグメントアナライザ
ビデオセグメントアナライザ１４０は、ビデオセグメント１３０ごとにラベル付きＲＡＧのシーケンス１５０を生成する。ＲＡＧは三次元であるのが好ましく、距離情報は図１に示すデジタルビデオ源１００から得られる。各ＲＡＧは、互いに素な領域の集合と、それらの領域を結合する辺の集合とから構成される。同じＸ−Ｙ平面に位置する領域は同じ平面にあると想定する。これに対し、異なるＺ平面に位置する領域は、描かれるシーンの中で異なる奥行きにある領域に対応すると想定する。一般的には、ＲＡＧにおける奥行き軸(例えば、Ｚ軸)の使用は、特定の領域が１つ又は複数の他の領域とは異なる奥行きに位置していることを示すための情報を利用できるか否かにかかっている。例えば、特定の領域の奥行きを判定するために焦点情報又は奥行き情報を利用できるようなデジタルビデオ解釈システム１６０では、奥行き軸を利用することができる。しかし、ビデオセグメントアナライザ１４０は、ほぼ全ての互いに素な領域を同じ平面にあると扱って、奥行き情報の支援なしに、ラベル付きＲＡＧのシーケンス１５０を生成することができる。
【００３２】
図２は、好ましい実施例によるビデオセグメントアナライザ１４０を示す。ブロック２００では、解析のために、図１のビデオセグメンタ１２０からのビデオセグメント１３０の最初のフレームを選択する。フレームイベントアナライザ２０２は、以下に図６を参照して説明するように、選択されたフレームと、そのフレームに関する注目時間領域(ＲＯＩ)とを受け取り、ラベル付きＲＡＧを生成する。次に、生成されたＲＡＧはブロック２０４で格納され、決定ブロック２０６では、ビデオセグメント１３０の終わりに達したか否かを判定する。ビデオの終わりに達していれば、すなわち、決定ブロック２０６で真(イエス)が戻れば、ブロック２０８でビデオセグメントの処理は終了する。これに対し、決定ブロック２０６が偽(ノー)を戻した場合には、ビデオセグメント１３０で次に解析すべきフレームを検索し、処理はフレームイベントアナライザ２０２に戻る。ビデオセグメント１３０の各フレームはリアルタイムで選択、解析されるのが好ましい。しかし、実際には、解析すべきフレームの選択はデジタルビデオ解釈システムを適用する用途によって決まる。例えば、デジタルビデオ解釈システムを具備する装置によっては、各フレームを解析するときにリアルタイムの実行が不可能な場合もあり、そのような場合には、解析に際してビデオセグメントの所定のフレームのみを選択することになる。
【００３３】
図３Ｂは、図３Ａに示す空間的に分割されたフレーム３００の三次元ＲＡＧ３１０の一例を示す。空間的に分割されたフレーム３００はＲ１からＲ９とラベル付けされた９つの領域を含む。領域Ｒ１は空を含む。領域Ｒ２、Ｒ３及びＲ９は陸地を含み、領域Ｒ８は道路を含む。領域Ｒ４は家に似た構造であり、領域Ｒ５及びＲ６はその家の突き出た構造物である。図３Ａにおいて奥行きを指示するために、線を幾分太くして領域の境界線を示している。特に、それぞれの境界線の太さはＺ軸に沿った奥行きの前後関係を示す。ＲＡＧ３１０は分割フレーム３００中の領域Ｒ１からＲ９を結合する辺を示す。領域Ｒ１、Ｒ２、Ｒ３、Ｒ７、Ｒ８及びＲ９は、全て、ＲＡＧ３１０においてほぼ同じ奥行き(実線の辺により指示する)に位置しているが、異なるＸ−Ｙ位置にある。領域Ｒ１は一方では領域Ｒ２、Ｒ８、Ｒ９に順次結合しており、他方では、領域Ｒ３及びＲ７に結合している。又、領域Ｒ４は領域Ｒ２、Ｒ３、Ｒ７及びＲ８と辺でつながっているが、破線の辺で指示するように、異なる奥行きにある。最後に、領域Ｒ５及びＲ６は領域Ｒ４と辺を共有するが、点線の辺により指示される異なる、平行な奥行きにある。このように、破線と点線は異なるＺ平面と交わる。
【００３４】
５．フレームイベントアナライザ
図４及び図５を参照して、図２のフレームイベントアナライザ２０２の機能性を更に詳細に説明する。図４に示すフレームイベントアナライザのステップは１つのアプリケーションドメイン(例えば、屋外のシーン)を使用する。そのようなアプリケーションドメインは空、水、木の葉、草、道路、人間などのフレーム領域にラベル付けするための知識と機能性を含んでいることができるであろう。
【００３５】
図４において、情報源(例えば、デジタルビデオ信号、デジタル音声信号など)ごとの現在フレームとＲＯＩ４００がそのＲＯＩ４００を使用する状況アナライザ４１０に提供される。状況アナライザ４１０に加えて、図２のフレームイベントアナライザ２０２はフレームセグメンタ４５０と、アプリケーションにおけるラベルの先験的確率を調整する調整ユニット４３０と、領域アナライザ４７０とを具備する。
【００３６】
ＲＯＩにおいて利用できる状況情報４００は状況アナライザ４１０により解析される。状況情報を供給する源は複数存在するので、状況アナライザ４１０は、通常、２つ以上の状況解析ユニットを含む。
【００３７】
図７は、調整ユニット４３０及びアプリケーションドメイン４４０に関連して、状況アナライザ４１０を更に詳細に示す。図７に示す状況アナライザ４１０はフレームイベントに関わる状況情報４００を受信する。この情報は音声ＲＯＩ、動き解析ＲＯＩ及び／又は赤外線スペクトルＲＯＩを含むのが好ましい。状況アナライザ４１０自体は、音声解析ユニット７１０と、動き解析ユニット７２０と、赤外線解析ユニット７３０とを含んでいても良い。状況アナライザ４１０により生成された出力は、調整ユニット４３０により、図４の領域アナライザ４７０により使用されるアプリケーションドメイン４４０におけるラベルの先験的確率を変更するために使用される。音声解析ユニット７１０は、音声信号ＲＯＩに入っているデジタル音声信号中のキーワード又はキーフレーズを認識し、次に、それらのキーワード／フレーズがそのフレームでは他のラベルと比べて特定のラベルが発生しやすいことを示唆しているか否かを検査することにより、この結果を得ても良い。他の状況アナライザユニット(例えば、７２０，７３０)は、ラベルの先験的確率を直接に変更しても良い。
【００３８】
１つのアプリケーションドメイン４４０を伴うフレームイベントアナライザ２１０を有する好ましい実施例においては、アプリケーションドメイン４４０のラベルごとに、キーワード／キーフレーズごとの先験的確率重み付け係数と共に格納されているキーワード／キーフレーズ４２０のリストにもとづいて調整ユニット４３０によりラベルの先験的確率を調整しても良い。確率重み付け係数が大きくなるほど、そのラベルにより記述される領域がフレーム中に存在する尤度は高くなる。キーワード４２０に加えて、又はその代わりに、他の状況解析結果を調整ユニット４３０に提供しても良い。
【００３９】
フレームセグメンタ４５０は、領域ベースセグメンテーション方法を使用して、フレームを複数の均質領域に分割する。通常、セグメンテーション方法は異なる情報源(例えば、ビデオ１１０Ａ及び音声１１０Ｂ)のＲＯＩから抽出した状況情報を使用して、セグメンテーションプロセスを支援する。例えば、モーションベクトルによって、背景から動くオブジェクトを識別するのを助けることができる。焦点情報を利用できるのであれば、この情報を使用して距離を推定でき、従って、フレーム中の異なるオブジェクト又は領域平面を識別することができる。フレームセグメンタ４５０が実行するセグメンテーションプロセスの結果が図４に示すようなＲＡＧ４６０であり、ＲＡＧ４６０は領域アナライザ４７０に入力として提供される。このＲＡＧは三次元であるのが好ましい。領域アナライザ４７０に対するもう一方の入力は、状況情報に従ってラベルの先験的確率が調整されている場合もあるアプリケーションドメイン４４０である。
【００４０】
確率モデルに基づいた領域アナライザ４７０は、ＲＡＧ中の領域に適切なアプリケーションドメイン４４０を使用して最適のラベルを付ける。その結果として得られるラベル付きＲＡＧは、内容に基づいた検索などのより高いレベルのプロセスに使用できるフレームの内容の記述、すなわち、メタデータを表現する。領域アナライザはＭＲＦ(確率)モデルを使用して、ラベル付きＲＡＧ４８０を生成するのが好ましい。ＭＲＦモデルについては、以下に詳細に説明する。
【００４１】
図５には、フレームイベントアナライザが複数のアプリケーションドメインを有することを除いて、図４とほぼ同様に説明できるフレームイベントアナライザが示されている。複数のアプリケーションドメインを有するフレームイベントアナライザ(すなわち、図５に示すようなフレームイベントアナライザ)の場合、各アプリケーションドメインはキーワード／キーフレーズを含むと考えられ、選択ユニット５３０の役割として、解析で使用すべきアプリケーションドメインの選択を含めることができる。すなわち、選択ユニット５３０は最も確率の高いアプリケーションドメインを選択し、選択したドメインにおけるラベルの先験的確率を調整するのが好ましい。
【００４２】
図６を参照すると、ビデオセグメントに関する時間系列が示されている。ビデオセグメントの現在フレーム６０１は、利用可能な状況情報６０３、音声情報６０４(信号)及びビデオ情報６０５(信号)から抽出した１つ又は複数の注目領域(ＲＯＩ)６０２を参照して解析される。
【００４３】
ＲＯＩの時間境界は、状況情報(図６を参照)の型に応じて変わることもある。例えば、カメラパラメータのような状況情報は長い時間周期、おそらくはビデオセグメント全体にわたって広がっている可能性がある。これに対し、ビデオ信号のＲＯＩははるかに短く、おそらくは現在解析中であるフレームの前後の数フレームにすぎないと考えられる。図６に示すように、ＲＯＩの中心は現在フレームにあるとは限らない。例えば、ＲＯＩが先行フレームを含むこともありうる。
【００４４】
数学的には、ＲＡＧは互いに素な領域の集合Ｒ及びそれらの領域を結合する辺の集合Ｅ、すなわち、Ｇ＝{Ｒ，Ｅ}を含むグラフＧであると定義される。ビデオフレーム解釈では、Ｇの中の領域に最適のラベルを付けようとする。アプリケーションドメインが状況情報の解析によって偏りの与えられた先験的確率Ｐｒ_L＝{Ｐｒ_L1，Ｐｒ_L2，Ｐｒ_L3，．．，Ｐｒ_Lp}を伴うｐ個のラベルの集合Ｌ＝{Ｌ₁，Ｌ₂，Ｌ₃，．．，Ｌ_p}から構成されているとすれば、解釈プロセスはグラフＧにおいて最も確率の高いラベルの集合を推定するプロセスであるとみなすことができる。
【００４５】
グラフＧがＮ個の互いに素な領域から構成されるならば、Ｘ＝{Ｘ₁，Ｘ₂，Ｘ₃，．．，Ｘ_N}をＲＡＧにおける一連の確率変数とする。すなわち、Ｘは確率場であり、Ｘ_iはＲ_iと関連する確率変数である。Ｘ_iの実現ｘ_iはラベルの集合Ｌの一メンバである。Ｇにおける隣接系Гは次のように示される。
【００４６】
【数１】

【００４７】
式中、ｎ(Ｒ_i)はＲ_iの隣接領域を含むＲの部分集合である。領域Ｒ_iの隣接系はその領域と、Ｒ_iと共通する境界線を有する他の全ての領域とであるのが好ましい。
【００４８】
更に、Ωはあり得る全てのラベル付け構成の集合であり、ωはΩの中の１つの構成を示す。
【００４９】
【数２】

【００５０】
そこで、Ｘは、
Ｐ（Ｘ＝ω）＞０
なるＸのあらゆる実現に対して、
【００５１】
【数３】

【００５２】
であれば、隣接系Γに関してＭＲＦである。
【００５３】
ＭＲＦの重要な特徴は、その同時確率密度係数Ｐ(Ｘ＝ω)がギブズの分布を有することである。すなわち、
【００５４】
【数４】

【００５５】
式中、Ｔは温度であり、Ｕ(ω)はギブズのエネルギー関数である。分配関数Ｚは次のように求められる。
【００５６】
【数５】

【００５７】
エネルギー関数は「クリーク」の概念を使用して表現できる。グラフＧと関連するクリークｃは、１つの領域か、又は、その全てが互いに隣接するいくつかの領域かのいずれかを含むようなＲの部分集合である。図３Ｂに示すＲＡＧの中の領域ごとのクリークを図８に示す。例えば、領域Ｒ１は関連するクリーク{Ｒ１}、{Ｒ１，Ｒ２}及び{Ｒ１，Ｒ３}を有する。
グラフＧに関わるクリークの集合をＣと呼ぶ。クリーク関数Ｖ_cは、（ｉ∈ｃ）であるｘ_iの値(すなわち、ラベル)によってＶ_c（ω）が決まるという特性を有する関数である。一群のクリーク関数はポテンシャルと呼ばれるので、Ｇに関するクリーク関数を加算することによりＵ(ω)を得ることができる。
【００５８】
【数６】

【００５９】
フレーム及び先験的知識から得られる領域に基づく特徴測定値をクリーク関数Ｖ_cに取り入れる。領域特徴測定値の集合が与えられたときの特定の領域ラベルＬ_iの尤度をトレーニングセット(例えば、神経ネットワーク)の使用を含めた様々な方法を使用して推定できる。あるいは、経験的知識に基づいて尤度を推定しても良い。同様に、測定値に基づく場合も、基づかない場合もあるという制約の形で、先験的知識をクリーク関数Ｖ_cに取り入れることも可能である。例えば、制約はラベルＬ_iとラベルＬ_jとが隣接できない(すなわち、隣接する確率が零である)という形態であっても良い。あるいは、Ｌ_iとＬ_jが隣接している場合、その境界はいくつかの特性(例えば、フラクタル次元)を有すると思われ、制約の値は測定値に従属しても良いであろう。
【００６０】
式（４）から（６）は、構成に関わるギブズのＵ( )エネルギーを最小にすることは、その確率密度関数を最大にすることと等価であることを示す。本発明の好ましい実施例は、フレームから得られる測定値Ｍと、ラベルに関する先験的知識Ｋと、アプリケーションドメインにおけるラベルの先験的確率Ｐｒとが与えられた場合の最適の領域ラベル構成を見出そうとする。ラベルの先験的確率は、状況情報の解析によって偏りが与えられる。(フレームの)ＲＡＧ全体にわたりラベルを最適化するという問題は、いずれかのサイトｉでラベルを繰り返し最適化することにより解決できる。領域ｉにおけるラベルのＭ、Ｋ及びＰｒへの依存性を設計上のクリーク関数Ｖ_c(ω)に取り入れる。従って、サイトｉにおけるＸ_iをｘ_iとするとき、条件付き確率密度関数を次のように書き表すことができる。
【００６１】
【数７】

【００６２】
式中、Ｃ_iはＸ_iを含むクリークから構成されるＣの部分集合であり、ω^xはサイトｉではｘであり、その他の場所ではωと一致する構成を示す。ラベルの先験的確率を使用して、サイトの初期ラベルに偏りを与えることも可能である。例えば、先行する解析イベントのラベルを利用して、後の解析イベントのグラフを初期設定することができるであろう。
【００６３】
先に述べた通り、クリーク関数はフレームからの特徴測定値Ｍ、ラベルに関する先験的知識Ｋ及びラベルの先験的確率Ｐｒに基づくことができる。例えば、アプリケーションドメインが屋外のシーンであるときのラベル「空（そら）」を考えてみると、ＲＡＧにおける領域(サイト)ｉを含むクリークの集合(すなわち、Ｃ_i)は、通常、その領域ｉのみから構成される単項クリークと、それぞれが領域ｉを含む領域群を包含するクリークの集合とから構成されると考えられるであろう。この場合、各領域はその領域群の領域に対して互いに隣接している。
【００６４】
単項クリーク関数は、領域ｉに関する特徴の集合を測定し、次に、それらの特徴測定値を、手動操作で分割された画像からの空（そら）領域の例を使用して先にトレーニングされていた神経ネットワークへの入力として使用することにより、計算できるであろう。１つの領域に関して測定可能であると考えられる特徴の例は平均Ｒ、Ｂ、Ｂ値のいずれか１つ乃至３つと、平均輝度と、領域内の輝度の分散と、周波数ドメインで取り出される測定値を含む場合もあるテクスチャの特徴と、完全連続などの領域形状特徴とを含む。通常、神経ネットワークは、手動操作で分割された空（そら）領域の特徴測定値に類似する特徴測定値を有する領域に対しては低い値(例えば、零)を生成し、手動操作で分割された領域の特徴測定値に全く類似していない特徴測定値を有する領域に対しては高い値(例えば、１．０)を生成するようにトレーニングされるであろう。
【００６５】
また、特徴測定値を２つ以上の領域を含むクリーク関数で使用することもできる。例えば、２つの領域の間の共通する境界のねじれを、一対の領域を含むクリーク関数で使用することが可能であろう。例えば、「空」と「水」との間の共通する境界は、通常、それほど大きなねじれを伴わないであろうが、「木の葉」と「空」との間の共通する境界は非常に大きなねじれを伴うであろう。
【００６６】
制約の形態で、先験的知識をクリーク関数に取り入れることができる。例えば、「空」ラベルと、「草」ラベルとを含むクリーク関数は、「草」ラベルが適用されている領域が「空」ラベルが適用されている領域の上方にある場合は、高いエネルギー値(例えば、１．０)を戻すであろう。言い換えれば、「空」領域が通常はフレーム内で「草」領域の上方に位置しているという先験的知識を利用しているのである。
【００６７】
「空」である領域ｉの先験的確率Ｐｒ_skyをクリーク関数に取り入れることも可能であろう。これを実行する方法の１つは、既存の単項クリーク関数と、
【００６８】
【数８】

【００６９】
のような乗算係数とを乗算することであろう。式中、αは先験的確率のクリーク関数全体への寄与に重み付けする(０，１)の範囲の何らかのパラメータである。また、先験的確率を２つ以上の領域を含むクリーク関数に取り入れることも可能であろう。この場合、クリーク関数に対する乗算係数は、通常、クリーク関数の各々のラベルの先験的確率を含むであろう。
【００７０】
式７は、あるサイトにおいて最も確率の高いラベルを選択することは、ラベルの先験的確率により重み付けされた、そのサイトのギブズのエネルギー関数Ｕ(ω)を最小にすることと等価であることを実証している。フレームの最適な領域ラベル構成は、グラフＧのＮ個のサイトの各々を繰り返し見て、各サイトのラベルを更新することにより得られる。領域ラベルを更新する方法はいくつかある。ある領域に対して、ラベルの一様な分布から、又はＭＲＦの条件付き確率分布のいずれかから新たなラベルを選択することができる(すなわち、ギブズのサンプラ、Geman and Geman，IEEE Trans．Pattern Analysis and Machine Intelligence, 6，７２１から７４１ページ（１９８４年）を参照)。より迅速な対応が望まれるのであれば、反復条件付きモード(J．BesagがJ．R．Statistical Soc．B, 48の２５９から３０２ページ(１９８６年)の中で説明している)方法を使用しても良い。この第２の方法の場合、ＲＡＧのサイトを繰り返し見直し、各サイトにおいて、領域のラベルを最大の条件付き確率分布を有するラベルとなるように更新する。更新するサイトを巡回する反復手続きは、擬似焼きなましスキーム(simulated annealing scheme)(温度を徐々に下げる)の中で実現することができる。更新する方法は、本発明のこの実施例に関しては重大ではない。重大であるのは、ギブズのエネルギーＵ(ω)の計算に先験的確率を取り入れたことである。
６．状況アナライザ
図４の状況アナライザ４１０はそれぞれの情報源(例えば、ビデオ信号１１０Ａ及び音声信号１１０Ｂ)について現在フレームとＲＯＩ４００を取り出し、アプリケーションドメイン４４０におけるラベルの先験的確率をどのようにバイアスすべきかに関して情報を調整ユニット４３０に提供する。図５に示すような状況アナライザ４１０の機能については、図２のフレームイベントアナライザ２０２に関連して既に説明した。以下、音声信号ＲＯＩにおける様々なキーワード／キーフレーズの有無に基づいてアプリケーションドメイン４４０におけるラベルの先験的確率を調整する方法を更に詳細に説明する。その他の状況情報に対して類似の方法を使用することができる。
【００７１】
各ラベルを１つ又は複数の根拠単位と関連付けることができ、１つの根拠単位はキーワード又はキーフレーズと、０から１までの重み係数とを含む。例えば、ラベル「水」の根拠単位はキーワード「ビーチ」と、重み付け係数０．８とから成ると考えても良いであろう。重み付け係数の値は、音声ＲＯＩにおけるキーワードの存在がＲＡＧ中の少なくとも１つの領域について「水」は適切なラベルであることを示す尤度を意味する。
【００７２】
根拠を収集する前に、全てのラベルの先験的確率の和は１．０になるはずである。言い換えれば、
【００７３】
【数９】

【００７４】
状況情報のＲＯＩから根拠を収集するとき、根拠単位を具体化する。所定のラベルｌに関する異なる具体化根拠単位の重み係数を加算して、そのラベルの総根拠Ｅ_lを生成することができる。
【００７５】
そこで、アプリケーションドメイン４４０におけるラベルのＰｒ_l値を、
【００７６】
【数１０】

【００７７】
を使用して計算することができる。なお、式中、ｘの値は、
【００７８】
【数１１】

【００７９】
を解くことにより求められる。
【００８０】
この結果として得られるＰｒ_l値はクリーク関数により直接使用することができる(例えば、式８を参照)。
【００８１】
７．本発明の他の実施例
図１１は、本発明の他の実施例によるビデオセグメントアナライザ１４０を示す。この場合、ビデオセグメントアナライザ１４０はオブジェクトに基づくデジタルビデオ符号化システムと統合されている。ブロック２５０では、図１のビデオセグメンタ１２０により生成されたビデオセグメント１３０の第１のフレームをビデオセグメントアナライザ１４０にロードする。フレームイベントアナライザ２５２はロードされたフレームを受け取り、図２Ａのフレームイベントアナライザ２０２について説明したように、関連ＲＯＩからの状況情報を使用してフレームを解析し、ラベル付きＲＡＧを得る。次に、フレームイベントアナライザ２５２はラベル付きＲＡＧを領域エンコーダ２５４へ出力し、領域エンコーダ２５４はＲＡＧを符号化する。領域エンコーダ２５４は、ＲＡＧの領域の隣接度及び奥行き情報、意味ラベルを含めて、ＲＡＧの領域をビットストリームに符号化する。ブロック２５６では、ビデオセグメントの終わりに到達したか否かを判定するために、検査を実行する。検査ブロック２５６が真(イエス)を戻せば、ビデオセグメントの処理はブロック２５８で終了する。検査又は決定ブロック２５６が偽(ノー)を戻した場合には、ブロック２６０でビデオセグメントの次のフレームをロードする。
【００８２】
動き検出器２６２はビデオセグメントにおける動きをフレームごとに検出する。動き検出器は、領域ごとに、先行フレームから検出される何らかの動きを検査する。動きモデル(例えば、領域のアフィン変換)により個々の領域の動きを記述できれば、ブロック２６６でモデルパラメータをビットストリームに符号化する。検出された動きを動きモデルにより記述できない場合には、フレームをフレームイベントアナライザ２５２により解析し、新たなＲＡＧを生成し、領域エンコーダ２５４により符号化する。
【００８３】
図１１に示すビデオセグメントアナライザ１４０では、意味ラベルを符号化デジタルビデオ信号と統合するのが好ましい。ビデオセグメントアナライザがデジタルビデオ符号化システムと統合されていれば、分解能に左右されずに領域を別個に符号化しても良い。これにより、任意の所望の分解能でデジタルビデオ信号の単純な再構成が可能になる。デジタルビデオ信号を符号化する方法は、当業者に良く知られているそのようないくつかの技法のうちいずれかを使用して実行されれば良い。ビデオセグメントアナライザ１４０を必ずしもデジタルビデオ符号化システムと統合しなければならないとは限らないことは明らかである。先に述べた通り、統合するのではなく、ビデオセグメントアナライザ１４０はメタデータを生成するだけであっても良い。そのような実施例においては、１つのセグメントの全てのビデオフレームを処理する必要はないであろう。言い換えれば、１つのセグメントの中で選択されたフレームだけを解析すれば良いのである。そのようなフレームの選択の大部分は実現の態様によって決まるため、どのようにしてフレームを選択するかを指定することは、本発明の実施例の目的ではない。例えば、ビデオ解釈システムはリアルタイムに近い方式で動作する必要があるだろう。
【００８４】
本発明の更に別の実施例は、ビデオフレームのセグメンテーションのプロセスと領域のラベル付けのプロセスとを１つの最小化プロセスに組み合わせたものである。
【図面の簡単な説明】
【図１】好ましい実施例によるデジタルビデオ解釈システムのブロック線図である。
【図２】好ましい実施例による図１のビデオセグメントアナライザを示す図である。
【図３Ａ】
【図３Ｂ】本発明の実施例に従った代表的なセグメント分割画像と、対応する領域隣接度グラフ(ＲＡＧ)とをそれぞれ示す図である。
【図４】１つのアプリケーションドメインを有する図２のフレームイベントアナライザを示す図である。
【図５】複数のアプリケーションドメインを有する図２の別のフレームイベントアナライザを示す図である。
【図６】特定の解析イベントに関する注目時間領域(ＲＯＩ)の選択を示す図である。
【図７】図４又は図５のフレームイベントアナライザで使用するための好ましい状況アナライザを示す図である。
【図８】図３ＢのＲＡＧと関連するクリークを示す図である。
【図９】本発明の実施例を実施しうるデジタルビデオ源と共に使用するための代表的なコンピュータのブロック線図である。
【図１０】本発明の実施例を実施しうる代表的なデジタルビデオ源のブロック線図である。
【図１１】オプションとしてデジタルビデオ符号化システムに統合されている、別の実施例による図１のビデオセグメントアナライザを示す図である。

Claims

奥行きを判定するための情報を含む複数種類の状況情報を有するデジタルビデオ信号を解釈する装置であって、
前記デジタルビデオ信号を、各々が前記複数種類の状況情報の対応する一部分を有する１つ又は複数のビデオセグメントに分割する手段と、
前記複数種類の状況情報の前記対応する部分を状況アナライザにより解析した出力に従って領域アナライザにおいて使用されるアプリケーションドメインのラベルの先験的確率を変更し、該領域アナライザによりそれぞれのビデオセグメントに含まれる１つ又は複数の領域に関わるラベル付き三次元隣接度グラフを形成する解析手段と
を具備する装置。
奥行きを判定するための情報を含む複数種類の状況情報を有するデジタルビデオ信号を解釈するためのコンピュータプログラムが記録されているコンピュータ読み取り可能媒体であって、
前記デジタルビデオ信号を、各々が前記複数種類の状況情報の対応する一部分を有する１つ又は複数のビデオセグメントに分割する手段と、
前記複数種類の状況情報の前記対応する部分を状況アナライザにより解析した出力に従って領域アナライザにおいて使用されるアプリケーションドメインのラベルの先験的確率を変更し、該領域アナライザによりそれぞれのビデオセグメントに含まれる１つ又は複数の領域に関わるラベル付き三次元隣接度グラフを形成する解析手段と
してコンピュータを機能させるコンピュータプログラムが記録されているコンピュータ読み取り可能媒体。