JP4447689B2 - 自動映像解釈システム - Google Patents

自動映像解釈システム Download PDF

Info

Publication number
JP4447689B2
JP4447689B2 JP12772899A JP12772899A JP4447689B2 JP 4447689 B2 JP4447689 B2 JP 4447689B2 JP 12772899 A JP12772899 A JP 12772899A JP 12772899 A JP12772899 A JP 12772899A JP 4447689 B2 JP4447689 B2 JP 4447689B2
Authority
JP
Japan
Prior art keywords
region
digital video
analyzer
information
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP12772899A
Other languages
English (en)
Other versions
JP2000030057A (ja
JP2000030057A5 (ja
Inventor
ジョアン レノン アリソン
アン ダオ リー デルフィン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2000030057A publication Critical patent/JP2000030057A/ja
Publication of JP2000030057A5 publication Critical patent/JP2000030057A5/ja
Application granted granted Critical
Publication of JP4447689B2 publication Critical patent/JP4447689B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/543Motion estimation other than block-based using regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明はデジタルビデオ信号の統計解析に関し、特に、意味ラベルに関する自動内容解釈のためのデジタルビデオ信号の統計解析に関する。ラベルは、その後、内容に基づく検索やビデオアブストラクトの生成などのタスクの基礎として利用できる。
【0002】
【従来の技術】
一般的には、デジタルビデオは、視覚シーンの時間的展開を表現する信号であると想定される。通常、この信号は関連する音声情報と共に符号化される(例えば、MPEG−2オーディオビジュアル符号化フォーマット)。場合によっては、ビデオ信号及び音声信号と共に、シーン又はシーンの捕捉に関する情報が符号化されるときもあるだろう。デジタルビデオは、典型的には、静止デジタル画像又はフレームのシーケンスにより表現され、各デジタル画像は複数のカラーチャネル(例えば、R、G、B)に対する画素輝度の集合から構成される。この表現の大部分は、視覚シーンが感知されるグリッド方式による。
【0003】
視覚信号の内容を音声信号の中に見出すことができ、又、音声信号の内容を視覚信号の中に見出すことができるという意味で、視覚信号と、関連する音声信号とは互いに相関関係にある場合が多い。この相関は、MPEG−4などの、符号化の単位が1つのシーンの中の空間的位置及び時間的位置を限定されたオーディオビジュアルオブジェクトである最近のデジタルオーディオビジュアル符号化フォーマットにおいては、明白に認められる。このようなオーディオビジュアル情報の表現は、デジタル素材の利用に、より適応するものであるが、自然のシーンの視覚成分は依然としてグリッドに基づく感知技法を使用して捕捉されるのが普通である(すなわち、デジタル画像はキャプチャ装置により規定されるフレームレートで感知される)。従って、通常、デジタルビデオ解釈のプロセスは依然としてデジタル画像解釈のプロセスを基礎としており、関連する音声信号とは別個に考慮されるのが普通である。
【0004】
デジタル画像信号の解釈は、画像中の意味のあるオブジェクト又は領域の識別を通して画像の内容を理解し且つそれらの空間的配列を解析するプロセスである。従来、画像解釈のタスクは人間による解析を必要としていた。これにはコストも、時間もかかり、そのため、自動画像解釈システムを構築すべく、多くの研究が重ねられてきた。
【0005】
既存の多くの画像解釈システムは低レベル処理と高レベル処理とを含む。通常、低レベル処理は、画像を画素輝度のアレイから辺と領域のような空間的に関連する画像プリミティブの集合に変換する。その後、プリミティブ(例えば、平均画素輝度)から様々な特徴を抽出することができる。高レベル処理では、画像ドメインの知識と特徴測定を利用して、プリミティブにオブジェクトラベル又は領域ラベル、すなわち、解釈を割り当て、それにより、「画像の中に何が存在しているか」に関する記述を構築する。
【0006】
初期の段階の画像解釈の試みは、個別のプリミティブをその特徴測定値に従って限られた数のオブジェクトクラスに分類することに基づいていた。この方式の成功には、低レベル処理で頻繁に発生する誤りを含む結果又は不完全な結果や、画像中の雑音に起因する特徴測定値の誤差によって限界があった。最近の技法の多くは高レベル処理に空間的制約を取り入れている。すなわち、不明瞭な領域又はオブジェクトは、隣接する領域又はオブジェクトの認識が成功した結果として認識されることが多い。
【0007】
更に、時を経て、画像に関する領域ラベルの空間的依存性をマルコフ確率場(MRF)などの統計的方法を使用してモデリングする技法が現れた。MRFモデルの主な利点は、空間的に関連する確率変数の相互作用の一般的で自然なモデルを提供し、場の(大域的に)最適の実現形態を見出すために使用できる最適化アルゴリズムが相対的にフレキシブルであるというところにある。通常、MRFは、一般には領域隣接度グラフ(RAG)と呼ばれるセグメントに分割された複数の領域のグラフにおいて定義される。分割された領域は、利用できる数多くの領域に基づく画像セグメンテーション方法のいずれか1つによって生成することができる。MRFモデルは、画像からの測定値(低レベル特徴)に対するラベルの依存性と共に意味ラベルの空間的依存性に関する知識を取り入れる強力なメカニズムを構成する。
【0008】
デジタル音声信号解釈は、語/句、すなわち、キーとなる音声の識別を通して音声信号の内容を理解し、それらの時間的配列を解析するプロセスである。通常、デジタル音声解析の研究は、結果として考えられる技術に対して、例えば、コンピュータ及び他の電子装置のための自然言語インタフェースのような多数の用途が可能であるために、音声認識に集中していた。
【0009】
隠れマルコフモデルは、本来、デジタル音声信号の逐次且つ統計的な特性を取り入れる能力を備えているため、連続音声認識に広く使用されている。このモデルは、音声の単位(音素、又は場合によっては語)が状態の集合を介して時間のシーケンスとして表現される時変プロセスのモデリングのための確率の枠組みを構成する。状態間の遷移の確率を推定するには、音声の単位ごとの標本音声信号の集合の解析を行う必要がある(すなわち、トレーニングセット)。認識プロセスが話者とは無関係のものでなければならない場合には、トレーニングセットはある範囲の話者からの標本音声信号を含んでいなければならない。
【0010】
【発明の概要】
本発明の1つの面によれば、奥行きを判定するための情報を含む複数種類の状況情報を有するデジタルビデオ信号を解釈する装置であって、前記デジタルビデオ信号を、各々が前記複数種類の状況情報の対応する一部分を有する1つ又は複数のビデオセグメントに分割する手段と、前記複数種類の状況情報の前記対応する部分を状況アナライザにより解析した出力に従って領域アナライザにおいて使用されるアプリケーションドメインのラベルの先験的確率を変更し、該領域アナライザによりそれぞれのビデオセグメントに含まれる1つ又は複数の領域に関わるラベル付き三次元隣接度グラフを形成する解析手段とを具備する装置が提供される。
【0012】
本発明の更に別の面によれば、奥行きを判定するための情報を含む複数種類の状況情報を有するデジタルビデオ信号を解釈するためのコンピュータプログラムが記録されているコンピュータ読み取り可能媒体であって、前記デジタルビデオ信号を、各々が前記複数種類の状況情報の対応する一部分を有する1つ又は複数のビデオセグメントに分割する手段と、前記複数種類の状況情報の前記対応する部分を状況アナライザにより解析した出力に従って領域アナライザにおいて使用されるアプリケーションドメインのラベルの先験的確率を変更し、該領域アナライザによりそれぞれのビデオセグメントに含まれる1つ又は複数の領域に関わるラベル付き三次元隣接度グラフを形成する解析手段としてコンピュータを機能させるコンピュータプログラムが記録されているコンピュータ読み取り可能媒体が提供される。
【0013】
【発明の実施の形態】
以下、添付の図面を参照して本発明の実施例を説明する。
【0014】
1.概要
本発明は、空間ドメイン及び時間ドメインにおいてデジタルビデオ信号の(重要な)意味内容を捕捉する、デジタルビデオ信号の省略型高レベル記述を自動的に生成する方法、装置及びシステムに関する。そのような記述は、後に、内容に基づく検索、ビデオシーケンスのブラウジング又はデジタルビデオのアブストラクトの作成を含む数多くの目的に使用できる。
【0015】
デジタルビデオ信号は、ビデオキャプチャ装置で記録される視覚信号であると解される。この信号は、通常、二次元センサアレイ(例えば、CCDアレイ)から指定のサンプリング速度で生成されるが、必ずそうであるとは限らないであろう。各サンプルは1つの(ビデオ)フレームにより表現される。この信号の空間的及び時間的内容の解析は、ある範囲にわたる状況情報から恩恵を受ける。場合によっては、この状況情報はデジタルビデオ信号の中に含まれており(例えば、動き)、また、他の関連する供給源(例えば、関連する音声信号、記録されたカメラのパラメータ、一般に使用される視覚スペクトルのセンサとは別の他のセンサ)から情報を利用できる場合もある。利用可能な状況情報の範囲は静止画像解析プロセスで利用可能な情報と比べてはるかに広く、時間の進展という付加的な特性を有する。
【0016】
ビデオ信号におけるデジタル画像信号の時間の進展を利用して、デジタルビデオ信号の画像解釈プロセスの結果を改善することができる。例えば、動き情報を使用して、デジタルで記録されたシーンの中で動いている人間のようなオブジェクトの検出を支援することができる。また、動きを利用して、画像フレームの中の複数の領域をシーンの背景の一部であるとして選択的にグループ分けすることも可能である。デジタルビデオ信号を解釈又は理解するプロセスは、関連する音声信号の中にある音声要素(音声及び非音声)の識別によっても恩恵を被るであろう。例えば、音声信号で識別された言葉によって、解釈プロセスを支援することも可能であろう。また、野生動物のドキュメンタリーと関連する音声信号は様々な動物が発する音を含み、これがビデオ信号の内容を識別する上で助けになると考えられる。
【0017】
本発明の実施例は、MRFなどの確率モデルの使用をデジタルビデオ信号の解釈に拡張している。これは、様々に異なる供給源(例えば、ビデオフレーム、音声信号など)からの、測定値及び知識の形態をとる情報を単一の最適化手続きで統合するために、ビデオシーケンスを通して確率モデルを繰り返し使用することを含む。
【0018】
本発明の実施例においては、デジタルビデオ信号の全体にわたって、選択された解析イベントで高レベル記述を生成する。高レベル記述は、その解析イベントで現れる様々な領域への様々な意味ラベルの割り当てに基づいている。各解析イベントにおいて、その解析イベントの中心に置かれたビデオフレームは自動的に複数の均質領域に空間的に分割される。それらの領域と、それらの空間的隣接度特性は領域隣接度グラフ(RAG)により表現される。そこで、確率モデルをRAGに適用する。モデルはフレームの領域からの特徴測定値と、フレームの周囲の注目領域(ROI)からの状況情報と、RAGの領域と関連する可能性が考えられる様々な意味ラベルに関する先験的知識とを含む。それらの意味ラベル(例えば、「人」、「空」、「水」、「木の葉」など)は、典型的には適切なアプリケーションドメイン(例えば、屋外のシーン、結婚式、都市のシーンなど)について構築されているリストから取り出される。
【0019】
各解析イベントにおいて、状況情報を使用して、選択された適切なアプリケーションドメインの意味ラベル(以下、ラベルという)の先験的確率に偏りを与える。所定の解析イベントで実行される解析も、先行する解析イベントに依存する。この依存性は、通常、時間ドメインにおいて2つの解析イベントが互いに近接している場合にはより大きくなる。例えば、1つのビデオセグメントの中では、必ずそうであるとは限らないものの、先行する最近の解析イベントで領域について選択されたラベルはデジタルビデオの現在セクションの記述の中では選択されなかったラベルに比べてより高い確率を有するといえる。
【0020】
デジタルビデオ解釈システムは、アプリケーションドメインが1つであっても、あるいは複数であっても動作することができる。複数のアプリケーションドメインを使用している場合には、状況情報を使用して、最も確率の高いアプリケーションドメインを判定することができる。アプリケーションドメインは狭くても(すなわち、ラベルが数個)、広くても(すなわち、多数のラベルを使用できる)、どちらでも良い。狭いアプリケーションドメインは、通常、非常に特定的で、信頼性の高い領域のラベル付けが求められる場合に使用されると考えられる。例えば、セキュリティに適用するときには、人間や自動車と関連する領域を識別する能力は望ましいであろうが、それらのオブジェクトの識別は高い信頼性をもって要求されるであろう。
【0021】
以下の実施例の詳細な説明においては、説明を更に徹底して理解させるために、ビデオ符号化技法、センサの種類などの特定の詳細な事項を数多く挙げる。しかし、そのような特定の詳細を挙げなくても本発明を実施しうることは、当業者には明白であろう。また、場合によっては、本発明をわかりにくくしないように、ビデオフォーマット、音声フォーマットなどの周知の特徴の詳細な説明を省略した。
【0022】
2.好ましい実施例のデジタルビデオ解釈システム
図1は、本発明の好ましい実施例による確率デジタルビデオ解釈システム160を示す。デジタルビデオ解釈システム160はビデオセグメンタ120と、ビデオセグメントアナライザ140とを含み、デジタルビデオ源100から発生されたデジタルビデオ源出力110を処理する。デジタルビデオ源はデジタルビデオカメラであるのが好ましい。ビデオセグメンタ120はデジタルビデオ源100と、ビデオセグメントアナライザ140との間に結合している。
【0023】
デジタルビデオ解釈システム160は、デジタルビデオ源100と関連して、任意に内部又は外部で実現されれば良い。デジタルビデオ解釈システム160がデジタルビデオ源100(例えば、デジタルカメラ)の内部に配置されている場合、解釈システム160は、付加的なカメラ情報を典型的にオーディオビジュアル信号を構成するビデオ信号及び音声信号を明示して格納する必要なく、そのようなカメラ情報を容易に利用することができる。例えば、デジタルビデオカメラにおけるカメラの動きを示す情報を使用して、デジタルビデオ信号110Aの動き解析を補助することもできるであろう。更に、撮影者の視線位置に基づいて、シーン中の重要な被写体がどこに位置しているかに関する情報を得ることや、焦点情報(又は他の距離情報)を使用して、図3Bに示すようにRAGに対する奥行き軸を生成するための奥行き情報を生成することも可能であろう。
【0024】
デジタルビデオ解釈システム160に対する入力は、デジタルビデオカメラなどの装置を使用して捕捉されるデジタルビデオ源出力110である。通常、デジタルビデオ源出力110はデジタルビデオ信号110Aと、デジタル音声信号110Bとから構成されている。キャプチャ装置に応じて、記録されるシーンに関する追加情報110Cも利用できるであろう。この追加情報110Cとしては、カメラパラメータ(焦点情報、露出の詳細、撮影者の視線位置など)や、その他のセンサ情報(例えば、赤外線感知)が考えられるであろう。
【0025】
デジタルビデオ解釈システム160においては、ビデオセグメンタ120は、デジタルビデオ信号をその出力側で提供される複数の時間ビデオセグメント又はスロット130に分割する。ビデオセグメンタ120により生成されたビデオセグメント130は、ビデオセグメントアナライザ140への入力として提供される。ビデオセグメントアナライザ140は、ビデオセグメントごとに130ラベル付きRAGのシーケンスを生成する。
【0026】
図1のビデオセグメントアナライザ140は、1つ又は複数の適切なアプリケーションドメインを使用して、RAGのシーケンスを生成し、次に、そのシーケンスの領域に最適のラベルを付けようとする。これにより得られるラベル付きRAGのシーケンス150はデジタルビデオ信号110Aの内容を表現し、以下の説明においては、これをメタデータという。
【0027】
図9に描かれたコンピュータ900により示されるように、本発明の実施例をデジタルビデオ源に対して外部で実現することができる。あるいは、図10に描かれているように、デジタルビデオ源1000の内部でデジタルビデオ解釈システムを実現しても良い。
【0028】
図9を参照すると、汎用コンピュータは遠隔デジタルビデオ源1000に結合している。ビデオ解釈システムは、コンピュータにロードされ、コンピュータにより実行することができるコンピュータ読み取り可能媒体に記録されるソフトウェアとして実現されている。コンピュータ900はコンピュータモジュール902と、ビデオ表示モニタ904と、入力装置920,922とを具備する。コンピュータモジュール902自体は少なくとも1つの中央処理装置912と、典型的にはランダムアクセスメモリ(RAM)及び読み取り専用メモリ(ROM)を含むメモリユニット916と、ビデオインタフェース906を含む入出力(I/O)インタフェース906,908,914とを具備する。I/Oインタフェース908はデジタルビデオ源1000をコンピュータモジュール902及びマウス922などの指示装置と結合させることができる。記憶装置910は、フロッピーディスク、ハードディスクドライブ、CD−ROMドライブ、磁気テープドライブ又は当業者には知られている同様の不揮発性記憶装置のうち1つ又は2つ以上を含んでいても良い。コンピュータ902の構成要素906から916は、通常、相互結合バス918を介して、当業者に知られているコンピュータシステム900の通常の動作モードが得られるように通信する。本発明の実施例を実施できるコンピュータシステムの例としては、IBM PC/AT及びその互換機、マッキントッシュコンピュータ、サンスパークステーション、又は当業者に良く知られている多数のコンピュータシステムのうちいずれかなどがある。デジタルビデオ源1000は、ビデオ信号を記憶装置(例えば、メモリ、磁気記録媒体など)に記録でき且つ追加情報、例えば、ビデオ信号と関連する赤外線データを記録できるデジタルカメラであるのが好ましい。デジタルビデオ信号及び関連する追加(状況)情報はコンピュータ900にダウンロードされても良く、コンピュータ900は本発明の実施例に従って解釈及びラベル付けのプロセスを実行する。
【0029】
あるいは、本発明の実施例をデジタルビデオカメラであるのが好ましいデジタルビデオ源1000の内部で実施しても差し支えない。デジタルビデオ源1000は、画像を捕捉するビデオキャプチャ装置1002(例えば、電荷結合素子を含む)を具備し、ビデオキャプチャ装置1002は、その焦点データ及びその他の設定データを提供するためのセンサ及び/又は機構を有する。デジタルビデオ源1000は、音声情報、周囲及び/又は環境データ、位置決めデータ(例えば、GPS情報)などを捕捉するセンサ1004を含んでいても良い。これらのセンサ1004及びビデオキャプチャ装置1002は、本発明の実施例を実施しうるデジタルビデオ源1000の中央処理装置に接続している。処理装置1006は、メモリ1008と、通信ポート1010と、ユーザインタフェースユニット1012とに結合している。ユーザインタフェースユニット1012により、ビデオ源1000の撮影者はデジタルビデオ源1000の動作モードにおける種々の設定値を指定することができる。例えば、デジタルビデオ源の撮影者は解釈システムと共に使用すべき複数の異なるアプリケーションドメイン(例えば、屋外のシーン、都市のシーン、結婚式のシーンなど)を選択できる。アプリケーションドメインを電子的に、又は使用可能な無線リンクを介してキャプチャ装置にダウンロードすることもできるであろう。メモリ1008はランダムアクセスメモリ、読み取り専用メモリ及び/又は不揮発性記憶装置を具備していても良い。処理装置を動作させるためのデータと処理命令は、共に、メモリ1008に格納されても良い。通信ポート1010は、デジタルビデオ源1000と図9のコンピュータ900のような外部装置との通信を成立させる。通信ポート1010は、メモリ1008及び処理装置1006との間でデータ及び命令の送受信を行うことができる。
【0030】
3.好ましい実施例のビデオセグメンタ
ビデオセグメンタ120は、デジタルビデオ信号を複数の時間ビデオセグメント又はスロット130に分割する。フレーム中の画素の動きに関する情報(暗黙にデジタルビデオ信号110Aの中にある)、及び、デジタル音声信号110B又はその他の情報110Cで利用できる何らかの他の支援情報の両方又はいずれかを使用して、ビデオセグメンタ120による分割を支援することができる。例えば、撮影者が記録を開始した時点及び停止した時点に関する情報を利用できるとすれば、この情報に基づいてビデオ分割を実行できるであろう。ビデオセグメンタにおいて周知のビデオ分割技法を実現しても、本発明の趣旨から逸脱することにはならない。
【0031】
4.好ましい実施例のビデオセグメントアナライザ
ビデオセグメントアナライザ140は、ビデオセグメント130ごとにラベル付きRAGのシーケンス150を生成する。RAGは三次元であるのが好ましく、距離情報は図1に示すデジタルビデオ源100から得られる。各RAGは、互いに素な領域の集合と、それらの領域を結合する辺の集合とから構成される。同じX−Y平面に位置する領域は同じ平面にあると想定する。これに対し、異なるZ平面に位置する領域は、描かれるシーンの中で異なる奥行きにある領域に対応すると想定する。一般的には、RAGにおける奥行き軸(例えば、Z軸)の使用は、特定の領域が1つ又は複数の他の領域とは異なる奥行きに位置していることを示すための情報を利用できるか否かにかかっている。例えば、特定の領域の奥行きを判定するために焦点情報又は奥行き情報を利用できるようなデジタルビデオ解釈システム160では、奥行き軸を利用することができる。しかし、ビデオセグメントアナライザ140は、ほぼ全ての互いに素な領域を同じ平面にあると扱って、奥行き情報の支援なしに、ラベル付きRAGのシーケンス150を生成することができる。
【0032】
図2は、好ましい実施例によるビデオセグメントアナライザ140を示す。ブロック200では、解析のために、図1のビデオセグメンタ120からのビデオセグメント130の最初のフレームを選択する。フレームイベントアナライザ202は、以下に図6を参照して説明するように、選択されたフレームと、そのフレームに関する注目時間領域(ROI)とを受け取り、ラベル付きRAGを生成する。次に、生成されたRAGはブロック204で格納され、決定ブロック206では、ビデオセグメント130の終わりに達したか否かを判定する。ビデオの終わりに達していれば、すなわち、決定ブロック206で真(イエス)が戻れば、ブロック208でビデオセグメントの処理は終了する。これに対し、決定ブロック206が偽(ノー)を戻した場合には、ビデオセグメント130で次に解析すべきフレームを検索し、処理はフレームイベントアナライザ202に戻る。ビデオセグメント130の各フレームはリアルタイムで選択、解析されるのが好ましい。しかし、実際には、解析すべきフレームの選択はデジタルビデオ解釈システムを適用する用途によって決まる。例えば、デジタルビデオ解釈システムを具備する装置によっては、各フレームを解析するときにリアルタイムの実行が不可能な場合もあり、そのような場合には、解析に際してビデオセグメントの所定のフレームのみを選択することになる。
【0033】
図3Bは、図3Aに示す空間的に分割されたフレーム300の三次元RAG310の一例を示す。空間的に分割されたフレーム300はR1からR9とラベル付けされた9つの領域を含む。領域R1は空を含む。領域R2、R3及びR9は陸地を含み、領域R8は道路を含む。領域R4は家に似た構造であり、領域R5及びR6はその家の突き出た構造物である。図3Aにおいて奥行きを指示するために、線を幾分太くして領域の境界線を示している。特に、それぞれの境界線の太さはZ軸に沿った奥行きの前後関係を示す。RAG310は分割フレーム300中の領域R1からR9を結合する辺を示す。領域R1、R2、R3、R7、R8及びR9は、全て、RAG310においてほぼ同じ奥行き(実線の辺により指示する)に位置しているが、異なるX−Y位置にある。領域R1は一方では領域R2、R8、R9に順次結合しており、他方では、領域R3及びR7に結合している。又、領域R4は領域R2、R3、R7及びR8と辺でつながっているが、破線の辺で指示するように、異なる奥行きにある。最後に、領域R5及びR6は領域R4と辺を共有するが、点線の辺により指示される異なる、平行な奥行きにある。このように、破線と点線は異なるZ平面と交わる。
【0034】
5.フレームイベントアナライザ
図4及び図5を参照して、図2のフレームイベントアナライザ202の機能性を更に詳細に説明する。図4に示すフレームイベントアナライザのステップは1つのアプリケーションドメイン(例えば、屋外のシーン)を使用する。そのようなアプリケーションドメインは空、水、木の葉、草、道路、人間などのフレーム領域にラベル付けするための知識と機能性を含んでいることができるであろう。
【0035】
図4において、情報源(例えば、デジタルビデオ信号、デジタル音声信号など)ごとの現在フレームとROI400がそのROI400を使用する状況アナライザ410に提供される。状況アナライザ410に加えて、図2のフレームイベントアナライザ202はフレームセグメンタ450と、アプリケーションにおけるラベルの先験的確率を調整する調整ユニット430と、領域アナライザ470とを具備する。
【0036】
ROIにおいて利用できる状況情報400は状況アナライザ410により解析される。状況情報を供給する源は複数存在するので、状況アナライザ410は、通常、2つ以上の状況解析ユニットを含む。
【0037】
図7は、調整ユニット430及びアプリケーションドメイン440に関連して、状況アナライザ410を更に詳細に示す。図7に示す状況アナライザ410はフレームイベントに関わる状況情報400を受信する。この情報は音声ROI、動き解析ROI及び/又は赤外線スペクトルROIを含むのが好ましい。状況アナライザ410自体は、音声解析ユニット710と、動き解析ユニット720と、赤外線解析ユニット730とを含んでいても良い。状況アナライザ410により生成された出力は、調整ユニット430により、図4の領域アナライザ470により使用されるアプリケーションドメイン440におけるラベルの先験的確率を変更するために使用される。音声解析ユニット710は、音声信号ROIに入っているデジタル音声信号中のキーワード又はキーフレーズを認識し、次に、それらのキーワード/フレーズがそのフレームでは他のラベルと比べて特定のラベルが発生しやすいことを示唆しているか否かを検査することにより、この結果を得ても良い。他の状況アナライザユニット(例えば、720,730)は、ラベルの先験的確率を直接に変更しても良い。
【0038】
1つのアプリケーションドメイン440を伴うフレームイベントアナライザ210を有する好ましい実施例においては、アプリケーションドメイン440のラベルごとに、キーワード/キーフレーズごとの先験的確率重み付け係数と共に格納されているキーワード/キーフレーズ420のリストにもとづいて調整ユニット430によりラベルの先験的確率を調整しても良い。確率重み付け係数が大きくなるほど、そのラベルにより記述される領域がフレーム中に存在する尤度は高くなる。キーワード420に加えて、又はその代わりに、他の状況解析結果を調整ユニット430に提供しても良い。
【0039】
フレームセグメンタ450は、領域ベースセグメンテーション方法を使用して、フレームを複数の均質領域に分割する。通常、セグメンテーション方法は異なる情報源(例えば、ビデオ110A及び音声110B)のROIから抽出した状況情報を使用して、セグメンテーションプロセスを支援する。例えば、モーションベクトルによって、背景から動くオブジェクトを識別するのを助けることができる。焦点情報を利用できるのであれば、この情報を使用して距離を推定でき、従って、フレーム中の異なるオブジェクト又は領域平面を識別することができる。フレームセグメンタ450が実行するセグメンテーションプロセスの結果が図4に示すようなRAG460であり、RAG460は領域アナライザ470に入力として提供される。このRAGは三次元であるのが好ましい。領域アナライザ470に対するもう一方の入力は、状況情報に従ってラベルの先験的確率が調整されている場合もあるアプリケーションドメイン440である。
【0040】
確率モデルに基づいた領域アナライザ470は、RAG中の領域に適切なアプリケーションドメイン440を使用して最適のラベルを付ける。その結果として得られるラベル付きRAGは、内容に基づいた検索などのより高いレベルのプロセスに使用できるフレームの内容の記述、すなわち、メタデータを表現する。領域アナライザはMRF(確率)モデルを使用して、ラベル付きRAG480を生成するのが好ましい。MRFモデルについては、以下に詳細に説明する。
【0041】
図5には、フレームイベントアナライザが複数のアプリケーションドメインを有することを除いて、図4とほぼ同様に説明できるフレームイベントアナライザが示されている。複数のアプリケーションドメインを有するフレームイベントアナライザ(すなわち、図5に示すようなフレームイベントアナライザ)の場合、各アプリケーションドメインはキーワード/キーフレーズを含むと考えられ、選択ユニット530の役割として、解析で使用すべきアプリケーションドメインの選択を含めることができる。すなわち、選択ユニット530は最も確率の高いアプリケーションドメインを選択し、選択したドメインにおけるラベルの先験的確率を調整するのが好ましい。
【0042】
図6を参照すると、ビデオセグメントに関する時間系列が示されている。ビデオセグメントの現在フレーム601は、利用可能な状況情報603、音声情報604(信号)及びビデオ情報605(信号)から抽出した1つ又は複数の注目領域(ROI)602を参照して解析される。
【0043】
ROIの時間境界は、状況情報(図6を参照)の型に応じて変わることもある。例えば、カメラパラメータのような状況情報は長い時間周期、おそらくはビデオセグメント全体にわたって広がっている可能性がある。これに対し、ビデオ信号のROIははるかに短く、おそらくは現在解析中であるフレームの前後の数フレームにすぎないと考えられる。図6に示すように、ROIの中心は現在フレームにあるとは限らない。例えば、ROIが先行フレームを含むこともありうる。
【0044】
数学的には、RAGは互いに素な領域の集合R及びそれらの領域を結合する辺の集合E、すなわち、G={R,E}を含むグラフGであると定義される。ビデオフレーム解釈では、Gの中の領域に最適のラベルを付けようとする。アプリケーションドメインが状況情報の解析によって偏りの与えられた先験的確率PrL={PrL1,PrL2,PrL3,..,PrLp}を伴うp個のラベルの集合L={L1,L2,L3,..,Lp}から構成されているとすれば、解釈プロセスはグラフGにおいて最も確率の高いラベルの集合を推定するプロセスであるとみなすことができる。
【0045】
グラフGがN個の互いに素な領域から構成されるならば、X={X1,X2,X3,..,XN}をRAGにおける一連の確率変数とする。すなわち、Xは確率場であり、XiはRiと関連する確率変数である。Xiの実現xiはラベルの集合Lの一メンバである。Gにおける隣接系Гは次のように示される。
【0046】
【数1】
Figure 0004447689
【0047】
式中、n(Ri)はRiの隣接領域を含むRの部分集合である。領域Riの隣接系はその領域と、Riと共通する境界線を有する他の全ての領域とであるのが好ましい。
【0048】
更に、Ωはあり得る全てのラベル付け構成の集合であり、ωはΩの中の1つの構成を示す。
【0049】
【数2】
Figure 0004447689
【0050】
そこで、Xは、
P(X=ω)>0
なるXのあらゆる実現に対して、
【0051】
【数3】
Figure 0004447689
【0052】
であれば、隣接系Γに関してMRFである。
【0053】
MRFの重要な特徴は、その同時確率密度係数P(X=ω)がギブズの分布を有することである。すなわち、
【0054】
【数4】
Figure 0004447689
【0055】
式中、Tは温度であり、U(ω)はギブズのエネルギー関数である。分配関数Zは次のように求められる。
【0056】
【数5】
Figure 0004447689
【0057】
エネルギー関数は「クリーク」の概念を使用して表現できる。グラフGと関連するクリークcは、1つの領域か、又は、その全てが互いに隣接するいくつかの領域かのいずれかを含むようなRの部分集合である。図3Bに示すRAGの中の領域ごとのクリークを図8に示す。例えば、領域R1は関連するクリーク{R1}、{R1,R2}及び{R1,R3}を有する。
グラフGに関わるクリークの集合をCと呼ぶ。クリーク関数Vcは、(i∈c)であるxiの値(すなわち、ラベル)によってVc(ω)が決まるという特性を有する関数である。一群のクリーク関数はポテンシャルと呼ばれるので、Gに関するクリーク関数を加算することによりU(ω)を得ることができる。
【0058】
【数6】
Figure 0004447689
【0059】
フレーム及び先験的知識から得られる領域に基づく特徴測定値をクリーク関数Vcに取り入れる。領域特徴測定値の集合が与えられたときの特定の領域ラベルLiの尤度をトレーニングセット(例えば、神経ネットワーク)の使用を含めた様々な方法を使用して推定できる。あるいは、経験的知識に基づいて尤度を推定しても良い。同様に、測定値に基づく場合も、基づかない場合もあるという制約の形で、先験的知識をクリーク関数Vcに取り入れることも可能である。例えば、制約はラベルLiとラベルLjとが隣接できない(すなわち、隣接する確率が零である)という形態であっても良い。あるいは、LiとLjが隣接している場合、その境界はいくつかの特性(例えば、フラクタル次元)を有すると思われ、制約の値は測定値に従属しても良いであろう。
【0060】
式(4)から(6)は、構成に関わるギブズのU( )エネルギーを最小にすることは、その確率密度関数を最大にすることと等価であることを示す。本発明の好ましい実施例は、フレームから得られる測定値Mと、ラベルに関する先験的知識Kと、アプリケーションドメインにおけるラベルの先験的確率Prとが与えられた場合の最適の領域ラベル構成を見出そうとする。ラベルの先験的確率は、状況情報の解析によって偏りが与えられる。(フレームの)RAG全体にわたりラベルを最適化するという問題は、いずれかのサイトiでラベルを繰り返し最適化することにより解決できる。領域iにおけるラベルのM、K及びPrへの依存性を設計上のクリーク関数Vc(ω)に取り入れる。従って、サイトiにおけるXiをxiとするとき、条件付き確率密度関数を次のように書き表すことができる。
【0061】
【数7】
Figure 0004447689
【0062】
式中、CiはXiを含むクリークから構成されるCの部分集合であり、ωxはサイトiではxであり、その他の場所ではωと一致する構成を示す。ラベルの先験的確率を使用して、サイトの初期ラベルに偏りを与えることも可能である。例えば、先行する解析イベントのラベルを利用して、後の解析イベントのグラフを初期設定することができるであろう。
【0063】
先に述べた通り、クリーク関数はフレームからの特徴測定値M、ラベルに関する先験的知識K及びラベルの先験的確率Prに基づくことができる。例えば、アプリケーションドメインが屋外のシーンであるときのラベル「空(そら)」を考えてみると、RAGにおける領域(サイト)iを含むクリークの集合(すなわち、Ci)は、通常、その領域iのみから構成される単項クリークと、それぞれが領域iを含む領域群を包含するクリークの集合とから構成されると考えられるであろう。この場合、各領域はその領域群の領域に対して互いに隣接している。
【0064】
単項クリーク関数は、領域iに関する特徴の集合を測定し、次に、それらの特徴測定値を、手動操作で分割された画像からの空(そら)領域の例を使用して先にトレーニングされていた神経ネットワークへの入力として使用することにより、計算できるであろう。1つの領域に関して測定可能であると考えられる特徴の例は平均R、B、B値のいずれか1つ乃至3つと、平均輝度と、領域内の輝度の分散と、周波数ドメインで取り出される測定値を含む場合もあるテクスチャの特徴と、完全連続などの領域形状特徴とを含む。通常、神経ネットワークは、手動操作で分割された空(そら)領域の特徴測定値に類似する特徴測定値を有する領域に対しては低い値(例えば、零)を生成し、手動操作で分割された領域の特徴測定値に全く類似していない特徴測定値を有する領域に対しては高い値(例えば、1.0)を生成するようにトレーニングされるであろう。
【0065】
また、特徴測定値を2つ以上の領域を含むクリーク関数で使用することもできる。例えば、2つの領域の間の共通する境界のねじれを、一対の領域を含むクリーク関数で使用することが可能であろう。例えば、「空」と「水」との間の共通する境界は、通常、それほど大きなねじれを伴わないであろうが、「木の葉」と「空」との間の共通する境界は非常に大きなねじれを伴うであろう。
【0066】
制約の形態で、先験的知識をクリーク関数に取り入れることができる。例えば、「空」ラベルと、「草」ラベルとを含むクリーク関数は、「草」ラベルが適用されている領域が「空」ラベルが適用されている領域の上方にある場合は、高いエネルギー値(例えば、1.0)を戻すであろう。言い換えれば、「空」領域が通常はフレーム内で「草」領域の上方に位置しているという先験的知識を利用しているのである。
【0067】
「空」である領域iの先験的確率Prskyをクリーク関数に取り入れることも可能であろう。これを実行する方法の1つは、既存の単項クリーク関数と、
【0068】
【数8】
Figure 0004447689
【0069】
のような乗算係数とを乗算することであろう。式中、αは先験的確率のクリーク関数全体への寄与に重み付けする(0,1)の範囲の何らかのパラメータである。また、先験的確率を2つ以上の領域を含むクリーク関数に取り入れることも可能であろう。この場合、クリーク関数に対する乗算係数は、通常、クリーク関数の各々のラベルの先験的確率を含むであろう。
【0070】
式7は、あるサイトにおいて最も確率の高いラベルを選択することは、ラベルの先験的確率により重み付けされた、そのサイトのギブズのエネルギー関数U(ω)を最小にすることと等価であることを実証している。フレームの最適な領域ラベル構成は、グラフGのN個のサイトの各々を繰り返し見て、各サイトのラベルを更新することにより得られる。領域ラベルを更新する方法はいくつかある。ある領域に対して、ラベルの一様な分布から、又はMRFの条件付き確率分布のいずれかから新たなラベルを選択することができる(すなわち、ギブズのサンプラ、Geman and Geman,IEEE Trans.Pattern Analysis and Machine Intelligence, 6,721から741ページ(1984年)を参照)。より迅速な対応が望まれるのであれば、反復条件付きモード(J.BesagがJ.R.Statistical Soc.B, 48の259から302ページ(1986年)の中で説明している)方法を使用しても良い。この第2の方法の場合、RAGのサイトを繰り返し見直し、各サイトにおいて、領域のラベルを最大の条件付き確率分布を有するラベルとなるように更新する。更新するサイトを巡回する反復手続きは、擬似焼きなましスキーム(simulated annealing scheme)(温度を徐々に下げる)の中で実現することができる。更新する方法は、本発明のこの実施例に関しては重大ではない。重大であるのは、ギブズのエネルギーU(ω)の計算に先験的確率を取り入れたことである。
6.状況アナライザ
図4の状況アナライザ410はそれぞれの情報源(例えば、ビデオ信号110A及び音声信号110B)について現在フレームとROI400を取り出し、アプリケーションドメイン440におけるラベルの先験的確率をどのようにバイアスすべきかに関して情報を調整ユニット430に提供する。図5に示すような状況アナライザ410の機能については、図2のフレームイベントアナライザ202に関連して既に説明した。以下、音声信号ROIにおける様々なキーワード/キーフレーズの有無に基づいてアプリケーションドメイン440におけるラベルの先験的確率を調整する方法を更に詳細に説明する。その他の状況情報に対して類似の方法を使用することができる。
【0071】
各ラベルを1つ又は複数の根拠単位と関連付けることができ、1つの根拠単位はキーワード又はキーフレーズと、0から1までの重み係数とを含む。例えば、ラベル「水」の根拠単位はキーワード「ビーチ」と、重み付け係数0.8とから成ると考えても良いであろう。重み付け係数の値は、音声ROIにおけるキーワードの存在がRAG中の少なくとも1つの領域について「水」は適切なラベルであることを示す尤度を意味する。
【0072】
根拠を収集する前に、全てのラベルの先験的確率の和は1.0になるはずである。言い換えれば、
【0073】
【数9】
Figure 0004447689
【0074】
状況情報のROIから根拠を収集するとき、根拠単位を具体化する。所定のラベルlに関する異なる具体化根拠単位の重み係数を加算して、そのラベルの総根拠Elを生成することができる。
【0075】
そこで、アプリケーションドメイン440におけるラベルのPrl値を、
【0076】
【数10】
Figure 0004447689
【0077】
を使用して計算することができる。なお、式中、xの値は、
【0078】
【数11】
Figure 0004447689
【0079】
を解くことにより求められる。
【0080】
この結果として得られるPrl値はクリーク関数により直接使用することができる(例えば、式8を参照)。
【0081】
7. 本発明の他の実施例
図11は、本発明の他の実施例によるビデオセグメントアナライザ140を示す。この場合、ビデオセグメントアナライザ140はオブジェクトに基づくデジタルビデオ符号化システムと統合されている。ブロック250では、図1のビデオセグメンタ120により生成されたビデオセグメント130の第1のフレームをビデオセグメントアナライザ140にロードする。フレームイベントアナライザ252はロードされたフレームを受け取り、図2Aのフレームイベントアナライザ202について説明したように、関連ROIからの状況情報を使用してフレームを解析し、ラベル付きRAGを得る。次に、フレームイベントアナライザ252はラベル付きRAGを領域エンコーダ254へ出力し、領域エンコーダ254はRAGを符号化する。領域エンコーダ254は、RAGの領域の隣接度及び奥行き情報、意味ラベルを含めて、RAGの領域をビットストリームに符号化する。ブロック256では、ビデオセグメントの終わりに到達したか否かを判定するために、検査を実行する。検査ブロック256が真(イエス)を戻せば、ビデオセグメントの処理はブロック258で終了する。検査又は決定ブロック256が偽(ノー)を戻した場合には、ブロック260でビデオセグメントの次のフレームをロードする。
【0082】
動き検出器262はビデオセグメントにおける動きをフレームごとに検出する。動き検出器は、領域ごとに、先行フレームから検出される何らかの動きを検査する。動きモデル(例えば、領域のアフィン変換)により個々の領域の動きを記述できれば、ブロック266でモデルパラメータをビットストリームに符号化する。検出された動きを動きモデルにより記述できない場合には、フレームをフレームイベントアナライザ252により解析し、新たなRAGを生成し、領域エンコーダ254により符号化する。
【0083】
図11に示すビデオセグメントアナライザ140では、意味ラベルを符号化デジタルビデオ信号と統合するのが好ましい。ビデオセグメントアナライザがデジタルビデオ符号化システムと統合されていれば、分解能に左右されずに領域を別個に符号化しても良い。これにより、任意の所望の分解能でデジタルビデオ信号の単純な再構成が可能になる。デジタルビデオ信号を符号化する方法は、当業者に良く知られているそのようないくつかの技法のうちいずれかを使用して実行されれば良い。ビデオセグメントアナライザ140を必ずしもデジタルビデオ符号化システムと統合しなければならないとは限らないことは明らかである。先に述べた通り、統合するのではなく、ビデオセグメントアナライザ140はメタデータを生成するだけであっても良い。そのような実施例においては、1つのセグメントの全てのビデオフレームを処理する必要はないであろう。言い換えれば、1つのセグメントの中で選択されたフレームだけを解析すれば良いのである。そのようなフレームの選択の大部分は実現の態様によって決まるため、どのようにしてフレームを選択するかを指定することは、本発明の実施例の目的ではない。例えば、ビデオ解釈システムはリアルタイムに近い方式で動作する必要があるだろう。
【0084】
本発明の更に別の実施例は、ビデオフレームのセグメンテーションのプロセスと領域のラベル付けのプロセスとを1つの最小化プロセスに組み合わせたものである。
【図面の簡単な説明】
【図1】好ましい実施例によるデジタルビデオ解釈システムのブロック線図である。
【図2】好ましい実施例による図1のビデオセグメントアナライザを示す図である。
【図3A】
【図3B】本発明の実施例に従った代表的なセグメント分割画像と、対応する領域隣接度グラフ(RAG)とをそれぞれ示す図である。
【図4】1つのアプリケーションドメインを有する図2のフレームイベントアナライザを示す図である。
【図5】複数のアプリケーションドメインを有する図2の別のフレームイベントアナライザを示す図である。
【図6】特定の解析イベントに関する注目時間領域(ROI)の選択を示す図である。
【図7】図4又は図5のフレームイベントアナライザで使用するための好ましい状況アナライザを示す図である。
【図8】図3BのRAGと関連するクリークを示す図である。
【図9】本発明の実施例を実施しうるデジタルビデオ源と共に使用するための代表的なコンピュータのブロック線図である。
【図10】本発明の実施例を実施しうる代表的なデジタルビデオ源のブロック線図である。
【図11】オプションとしてデジタルビデオ符号化システムに統合されている、別の実施例による図1のビデオセグメントアナライザを示す図である。

Claims (2)

  1. 奥行きを判定するための情報を含む複数種類の状況情報を有するデジタルビデオ信号を解釈する装置であって、
    前記デジタルビデオ信号を、各々が前記複数種類の状況情報の対応する一部分を有する1つ又は複数のビデオセグメントに分割する手段と、
    前記複数種類の状況情報の前記対応する部分を状況アナライザにより解析した出力に従って領域アナライザにおいて使用されるアプリケーションドメインのラベルの先験的確率を変更し、該領域アナライザによりそれぞれのビデオセグメントに含まれる1つ又は複数の領域に関わるラベル付き三次元隣接度グラフを形成する解析手段と
    を具備する装置。
  2. 奥行きを判定するための情報を含む複数種類の状況情報を有するデジタルビデオ信号を解釈するためのコンピュータプログラムが記録されているコンピュータ読み取り可能媒体であって、
    前記デジタルビデオ信号を、各々が前記複数種類の状況情報の対応する一部分を有する1つ又は複数のビデオセグメントに分割する手段と、
    前記複数種類の状況情報の前記対応する部分を状況アナライザにより解析した出力に従って領域アナライザにおいて使用されるアプリケーションドメインのラベルの先験的確率を変更し、該領域アナライザによりそれぞれのビデオセグメントに含まれる1つ又は複数の領域に関わるラベル付き三次元隣接度グラフを形成する解析手段と
    してコンピュータを機能させるコンピュータプログラムが記録されているコンピュータ読み取り可能媒体。
JP12772899A 1998-05-07 1999-05-07 自動映像解釈システム Expired - Fee Related JP4447689B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AU3407 1985-11-13
AUPP3407A AUPP340798A0 (en) 1998-05-07 1998-05-07 Automated video interpretation system

Publications (3)

Publication Number Publication Date
JP2000030057A JP2000030057A (ja) 2000-01-28
JP2000030057A5 JP2000030057A5 (ja) 2007-04-05
JP4447689B2 true JP4447689B2 (ja) 2010-04-07

Family

ID=3807661

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12772899A Expired - Fee Related JP4447689B2 (ja) 1998-05-07 1999-05-07 自動映像解釈システム

Country Status (5)

Country Link
US (1) US6516090B1 (ja)
EP (1) EP0955599B1 (ja)
JP (1) JP4447689B2 (ja)
AU (1) AUPP340798A0 (ja)
DE (1) DE69928164D1 (ja)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6792043B1 (en) * 1998-10-23 2004-09-14 Telecommunications Advancement Organization Of Japan Method, apparatus and program products for retrieving moving image
JP4178629B2 (ja) * 1998-11-30 2008-11-12 ソニー株式会社 情報処理装置および方法、並びに記録媒体
AUPP764398A0 (en) * 1998-12-11 1999-01-14 Canon Kabushiki Kaisha Method and apparatus for computing the similarity between images
US7107286B2 (en) * 1999-07-26 2006-09-12 Geoqwest International Inc. Integrated information processing system for geospatial media
US7383504B1 (en) * 1999-08-30 2008-06-03 Mitsubishi Electric Research Laboratories Method for representing and comparing multimedia content according to rank
US6546135B1 (en) * 1999-08-30 2003-04-08 Mitsubishi Electric Research Laboratories, Inc Method for representing and comparing multimedia content
US7996878B1 (en) * 1999-08-31 2011-08-09 At&T Intellectual Property Ii, L.P. System and method for generating coded video sequences from still media
US6795578B1 (en) * 1999-09-29 2004-09-21 Canon Kabushiki Kaisha Image processing apparatus and method, and storage medium
US20020026253A1 (en) * 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US7035790B2 (en) * 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US7010483B2 (en) * 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US6954745B2 (en) * 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US6813313B2 (en) * 2000-07-06 2004-11-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for high-level structure analysis and event detection in domain specific videos
US6763069B1 (en) * 2000-07-06 2004-07-13 Mitsubishi Electric Research Laboratories, Inc Extraction of high-level features from low-level features of multimedia content
CN1393111A (zh) * 2000-08-08 2003-01-22 皇家菲利浦电子有限公司 使用副传感器优化视频通信
US6970513B1 (en) 2001-06-05 2005-11-29 At&T Corp. System for content adaptive video decoding
US6810086B1 (en) * 2001-06-05 2004-10-26 At&T Corp. System and method of filtering noise
US6909745B1 (en) 2001-06-05 2005-06-21 At&T Corp. Content adaptive video encoder
US7773670B1 (en) 2001-06-05 2010-08-10 At+T Intellectual Property Ii, L.P. Method of content adaptive video encoding
US6968006B1 (en) 2001-06-05 2005-11-22 At&T Corp. Method of content adaptive video decoding
US20030140093A1 (en) * 2002-01-23 2003-07-24 Factor Cory L. Method and apparatus for providing content over a distributed network
WO2003079663A2 (en) * 2002-03-14 2003-09-25 General Electric Company High-speed search of recorded video information to detect motion
DE10224948A1 (de) * 2002-06-05 2004-05-27 Egner, Steffen, Dr. Vorrichtung und Verfahren zum Untersuchen von Bildern
US7349477B2 (en) * 2002-07-10 2008-03-25 Mitsubishi Electric Research Laboratories, Inc. Audio-assisted video segmentation and summarization
TWI238392B (en) * 2002-09-02 2005-08-21 Samsung Electronics Co Ltd Optical information storage medium and method of and apparatus for recording and/or reproducing information on and/or from the optical information storage medium
US7116716B2 (en) 2002-11-01 2006-10-03 Microsoft Corporation Systems and methods for generating a motion attention model
DE60330898D1 (de) * 2002-11-12 2010-02-25 Intellivid Corp Verfahren und system zur verfolgung und verhaltensüberwachung von mehreren objekten, die sich durch mehrere sichtfelder bewegen
US7221775B2 (en) * 2002-11-12 2007-05-22 Intellivid Corporation Method and apparatus for computerized image background analysis
US7260261B2 (en) * 2003-02-20 2007-08-21 Microsoft Corporation Systems and methods for enhanced image adaptation
US7454342B2 (en) * 2003-03-19 2008-11-18 Intel Corporation Coupled hidden Markov model (CHMM) for continuous audiovisual speech recognition
US7286157B2 (en) * 2003-09-11 2007-10-23 Intellivid Corporation Computerized method and apparatus for determining field-of-view relationships among multiple image sensors
US7346187B2 (en) * 2003-10-10 2008-03-18 Intellivid Corporation Method of counting objects in a monitored environment and apparatus for the same
US7280673B2 (en) * 2003-10-10 2007-10-09 Intellivid Corporation System and method for searching for changes in surveillance video
WO2005076594A1 (en) * 2004-02-06 2005-08-18 Agency For Science, Technology And Research Automatic video event detection and indexing
US20050254546A1 (en) * 2004-05-12 2005-11-17 General Electric Company System and method for segmenting crowded environments into individual objects
US9053754B2 (en) 2004-07-28 2015-06-09 Microsoft Technology Licensing, Llc Thumbnail generation and presentation for recorded TV programs
US7986372B2 (en) * 2004-08-02 2011-07-26 Microsoft Corporation Systems and methods for smart media content thumbnail extraction
US20060074980A1 (en) * 2004-09-29 2006-04-06 Sarkar Pte. Ltd. System for semantically disambiguating text information
WO2007094802A2 (en) 2005-03-25 2007-08-23 Intellivid Corporation Intelligent camera selection and object tracking
US9036028B2 (en) 2005-09-02 2015-05-19 Sensormatic Electronics, LLC Object tracking and alerts
KR20080075091A (ko) 2005-09-12 2008-08-14 쓰리브이알 시큐리티, 인크. 실시간 경보 및 포렌식 분석을 위한 비디오 분석 데이터의저장
US20070112811A1 (en) * 2005-10-20 2007-05-17 Microsoft Corporation Architecture for scalable video coding applications
US8180826B2 (en) * 2005-10-31 2012-05-15 Microsoft Corporation Media sharing and authoring on the web
US7773813B2 (en) * 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis
US8196032B2 (en) * 2005-11-01 2012-06-05 Microsoft Corporation Template-based multimedia authoring and sharing
US7599918B2 (en) 2005-12-29 2009-10-06 Microsoft Corporation Dynamic search with implicit user intention mining
US7671728B2 (en) * 2006-06-02 2010-03-02 Sensormatic Electronics, LLC Systems and methods for distributed monitoring of remote sites
US7825792B2 (en) * 2006-06-02 2010-11-02 Sensormatic Electronics Llc Systems and methods for distributed monitoring of remote sites
US7986842B2 (en) * 2006-11-10 2011-07-26 Fuji Xerox Co., Ltd. Collective media annotation using undirected random field models
US8145673B2 (en) * 2007-02-16 2012-03-27 Microsoft Corporation Easily queriable software repositories
JP5121258B2 (ja) * 2007-03-06 2013-01-16 株式会社東芝 不審行動検知システム及び方法
EP2165525B1 (en) * 2007-06-04 2018-09-12 Enswers Co., Ltd. Method of processing moving picture and apparatus thereof
EP2163095A4 (en) * 2007-06-09 2011-05-18 Sensormatic Electronics Llc SYSTEM AND METHOD FOR INTEGRATION OF VIDEO ANALYTICS AND DATA EXPLORATION / ANALYTICS
US7996762B2 (en) * 2007-09-21 2011-08-09 Microsoft Corporation Correlative multi-label image annotation
US9111146B2 (en) * 2008-02-15 2015-08-18 Tivo Inc. Systems and methods for semantically classifying and normalizing shots in video
US8095963B2 (en) 2008-04-30 2012-01-10 Microsoft Corporation Securing resource stores with claims-based security
WO2011080052A1 (en) 2009-12-28 2011-07-07 Thomson Licensing Method for selection of a document shot using graphic paths and receiver implementing the method
US8489600B2 (en) * 2010-02-23 2013-07-16 Nokia Corporation Method and apparatus for segmenting and summarizing media content
US8904517B2 (en) 2011-06-28 2014-12-02 International Business Machines Corporation System and method for contexually interpreting image sequences
US9584806B2 (en) 2012-04-19 2017-02-28 Futurewei Technologies, Inc. Using depth information to assist motion compensation-based video coding
US10387729B2 (en) * 2013-07-09 2019-08-20 Outward, Inc. Tagging virtualized content
KR102306538B1 (ko) * 2015-01-20 2021-09-29 삼성전자주식회사 콘텐트 편집 장치 및 방법
AU2015271975A1 (en) * 2015-12-21 2017-07-06 Canon Kabushiki Kaisha An imaging system and method for classifying a concept type in video
WO2019110125A1 (en) * 2017-12-08 2019-06-13 Huawei Technologies Co., Ltd. Polynomial fitting for motion compensation and luminance reconstruction in texture synthesis
US20220239831A1 (en) * 2019-06-14 2022-07-28 Sony Semiconductor Solutions Corporation Transmission device, transmission method, reception device, reception method, and transmission-reception device
JP7296799B2 (ja) * 2019-06-28 2023-06-23 セコム株式会社 領域分割装置、領域分割方法、及び領域分割プログラム
US10930011B2 (en) * 2019-07-02 2021-02-23 Billups, Inc. Digital image processing system for object location and facing
CN113438500B (zh) 2020-03-23 2023-03-24 阿里巴巴集团控股有限公司 视频处理方法、装置、电子设备及计算机存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3988715A (en) * 1975-10-24 1976-10-26 International Business Machines Corporation Multi-channel recognition discriminator
US5467441A (en) * 1993-07-21 1995-11-14 Xerox Corporation Method for operating on objects in a first image using an object-based model data structure to produce a second contextual image having added, replaced or deleted objects
US6181332B1 (en) * 1993-10-28 2001-01-30 International Business Machines Corporation Method and system for contextual presentation of a temporal based object on a data processing system
US6211912B1 (en) * 1994-02-04 2001-04-03 Lucent Technologies Inc. Method for detecting camera-motion induced scene changes
US5708767A (en) 1995-02-03 1998-01-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure
US5821945A (en) * 1995-02-03 1998-10-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure
JP3542428B2 (ja) * 1995-07-20 2004-07-14 キヤノン株式会社 画像形成装置及び画像表示方法
EP0805405A3 (en) * 1996-02-05 1998-04-15 Texas Instruments Incorporated Motion event detection for video indexing
US6119135A (en) * 1996-02-09 2000-09-12 At&T Corporation Method for passively browsing the internet using images extracted from web pages
US5870754A (en) * 1996-04-25 1999-02-09 Philips Electronics North America Corporation Video retrieval of MPEG compressed sequences using DC and motion signatures
US6021213A (en) * 1996-06-13 2000-02-01 Eli Lilly And Company Automatic contextual segmentation for imaging bones for osteoporosis therapies
KR100194923B1 (ko) * 1996-06-21 1999-06-15 윤종용 동영상 정보 검색장치 및 방법
US5969716A (en) * 1996-08-06 1999-10-19 Interval Research Corporation Time-based media processing system
US6137499A (en) * 1997-03-07 2000-10-24 Silicon Graphics, Inc. Method, system, and computer program product for visualizing data using partial hierarchies
WO1999005865A1 (en) * 1997-07-22 1999-02-04 The Board Of Trustees Of The University Of Illinois Content-based video access

Also Published As

Publication number Publication date
US6516090B1 (en) 2003-02-04
AUPP340798A0 (en) 1998-05-28
JP2000030057A (ja) 2000-01-28
EP0955599B1 (en) 2005-11-09
EP0955599A2 (en) 1999-11-10
DE69928164D1 (de) 2005-12-15
EP0955599A3 (en) 2000-02-23

Similar Documents

Publication Publication Date Title
JP4447689B2 (ja) 自動映像解釈システム
US7065250B1 (en) Automated image interpretation and retrieval system
US7224852B2 (en) Video segmentation using statistical pixel modeling
EP0913793A2 (en) Image interpretation method and apparatus
JP2010526455A (ja) 画像データを処理するコンピュータ方法および装置
JP2004505378A (ja) マルチメディア・セグメンテーション及びインデキシングのためのコンテキスト及びコンテンツに基づく情報処理
JP2002125178A (ja) メディア・セグメント化システムおよび関連する方法
CN112528961B (zh) 一种基于Jetson Nano的视频分析方法
JP2004350283A (ja) 圧縮ビデオから3次元オブジェクトをセグメント化する方法
CN112068555A (zh) 一种基于语义slam方法的语音控制型移动机器人
CN112242002B (zh) 基于深度学习的物体识别和全景漫游方法
US12033075B2 (en) Training transformer neural networks to generate parameters of convolutional neural networks
CN117593702B (zh) 远程监控方法、装置、设备及存储介质
CN113901922A (zh) 一种基于隐式表征解耦网络的遮挡行人重识别方法及***
Vijayan et al. A universal foreground segmentation technique using deep-neural network
AU740614B2 (en) Automated video interpretation system
CN115909144A (zh) 一种基于对抗学习的监控视频异常检测方法及***
Kaur Background subtraction in video surveillance
AU735577B2 (en) Automated image interpretation and retrieval system
CN118298386B (zh) 一种基于区域感知的自适应多模态人群计数方法及***
CN117152668B (zh) 一种基于物联网的智慧后勤实现方法、装置及设备
Chavan et al. Multi object detection techniques in video surveillance application
CN116778277B (zh) 基于渐进式信息解耦的跨域模型训练方法
JP7386006B2 (ja) 領域分割装置、領域分割方法、領域分割プログラム、学習装置、学習方法、及び学習プログラム
AU727627B2 (en) Image Interpretation Method and Apparatus

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060508

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060508

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20060508

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060508

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080729

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090717

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130129

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140129

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees