JPH1084525A

JPH1084525A - ビデオに索引をつける方法

Info

Publication number: JPH1084525A
Application number: JP9037015A
Authority: JP
Inventors: Jonathan D Courtney; ディー．コートネイジョナサン; Dinesh R Nair; アール．ネアディネシュ
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1996-02-05
Filing date: 1997-02-05
Publication date: 1998-03-31
Also published as: EP0805405A2; EP0805405A3

Abstract

(57)【要約】【課題】物体の動きから、内容に基づく自動的なビデ
オ索引を付ける。【解決手段】監視カメラ１１からのビデオ内の動く物
体は、動きセグメント分割装置２１により、動きセグメ
ント分割方法を用いてビデオ・シーケンス内で検出され
る。物体が、物体追跡装置２２にあるセグメント分割さ
れたデータを通じて追跡される。物体並びにその動きを
記述する注釈を付したグラフの形で、ビデオの記号表示
が発生される。動き解析装置２３が物体を追跡した結果
を解析し、幾つかの事象を記述する索引をグラフの動き
に注釈として付ける。その後、物体の出現／消滅、置く
こと／取り去ること、入ってくること／出てゆくこと及
び動き／静止のような関心のある事象を確認する為の規
則に基づいた分類方式を用いて、索引が付けられる。空
間−時間的な質問並びに事象及び物体に基づく質問によ
って定められたビデオのクリップが呼出されて、所望の
ビデオを見せる。

Description

【発明の詳細な説明】関連出願との関係

【０００１】この出願は、この出願と同日に出願された
発明者ジョナサン・コートニー他の継続中の米国特許出
願番号（出願人控え番号ＴＩ−２２５４８）、発
明の名称「ＴＶ及びＩＲデータに於ける画面の変化の解
析の為の物体検出方法及び装置」と関連を有する。この
出願をここで引用する。

【０００２】

【産業上の利用分野】この発明は例えば監視に使われる
動きの事象の検出に関する。

【０００３】

【従来の技術および課題】ビデオ・オン・デマンド及び
ディジタル・ライブラリー・システムに対する商業的な
見込みを含めたマルチメディア技術の進歩により、最
近、画像内容に基づくビデオ解析に関心が持たれてい
る。ビデオ・データは、マルチメディア・システムのユ
ーザに豊富な情報を提供する。しかし、これはテキスト
のような他のデータ程、操作が容易ではない。生のビデ
オ・データは、マルチメディア・システムのユーザがそ
の内容を解析する事が出来るようにする為の直接的な
「つかみどころ」が全くない。ビデオ・データに、その
意味論的な内容を記述するシンボル情報を注釈として付
ければ、単に通して再生するよりも、解析が容易にな
る。

【０００４】ビデオ・データは、マルチメディア情報シ
ステムに対し、テキストでは起らない独特の問題を生ず
る。テキスト・データは、人間が普通に発し且つ構成す
る話し言葉を記号によって抽象したものである。これに
対して、ビデオは可視情報を直接的に記録したものであ
る。生の最も普通の形では、ビデオ・データは殆ど人間
が決めた構造を持たず、その為、マルチメディア・シス
テム・ユーザがその内容を解析する事が出来るようにす
る為の直接的な「つかみどころ」が全くない。

【０００５】例えば、オンラインの映画の脚本（テキス
ト・データ）及びディジタル化された映画（ビデオ及び
オーディオ・データ）を考える。ある人が脚本の解析を
していて、テキスト中の「馬」という言葉が出てくる画
面を捜すことに関心を持った場合、色々なテキスト探索
アルゴリズムを用いて、この記号が出てくるあらゆる場
面を希望する通りにつきとめる事が出来る。このような
解析はオンラインのテキスト・データベースでは普通で
ある。しかし、その人が、ディジタル化された映画の中
で、馬が現われる全ての場面を探索する事に関心を持っ
た場合、そのタスクはずっと困難である。人間が何らか
のビデオ・データの予備処理をしなければ、それに基づ
いて探索する為の記号となるキーが無い。コンピュータ
がこの探索を助けるとしても、コンピュータはビデオ・
データ自身の意味論的な内容を解析しなければならな
い。こういう能力がなければ、マルチメディア・システ
ム・ユーザが利用し得る情報は著しく減少する。

【０００６】従って、ビデオ解析の多くの研究は、意味
論的な内容に基づく探索及び検索方式に集中している。
この明細書で言う「ビデオに索引を付ける」という言葉
は、効率良く再生する為に、ビデオ・データ内の重要な
フレーム又は物体にマークを付ける過程を指す。索引を
付けたビデオ・シーケンスがあれば、ユーザは、そのシ
ーケンスを普通の直列の形で再生する事が出来るだけで
なく、再生しながら、関心がある点迄「飛越し」をする
事も出来る。索引を付ける普通の方式は、場面のカット
を検出して、ビデオ・データの切れ目を決定する事であ
る。マルチメディア・システムズ誌、１，１０−２８
（１９９３年）所載のＨ．ザング、Ａ．カンカンハリ及
びシュテフェンＷ．スモリアーの論文「全体的に動きの
あるビデオの自動的な区切り」を参照されたい。カメラ
（即ち視点）の動きに基づいて索引を付ける事も行なわ
れている。編集者ペトロス・マラゴスのビジュアル・コ
ミュニケーションズ・アンド・イメージ・プロセシング
誌ＳＰＩＥ１８１８，１５５２−１５３０（１９９２
年）掲載のＡ．アクツ、Ｙ．トノムラ、Ｈ．ハシモト及
びＹ．オオバの論文「動きベクトルを用いたビデオ索引
方法」参照。また、物体の動きに基づいて索引を付ける
事については、Ｐｒｏｃ．ＳＰＩＥ１６６２，３５
−４６（１９９２年）のイメージ・ストーリッジ・アン
ド・リトリーバル・システムズ掲載のＭ．イオカ及び
Ｍ．クロカワの論文「動きの解析に基づく画像のシーケ
ンスを検索する方法」、及びＰｒｏｃ．ＳＰＩＥ１
９０８，２５−３６（１９９３年）の編集者ウェイン・
ニブラックのストーリッジ・アンド・リトリーバル・フ
ォー・イメージ・アンド・ビデオ・データベース掲載の
Ｓ．Ｙ．リー及びＨ．Ｍ．カオーの論文「動く物体及び
軌道に基づいてビデオに索引を付ける一方法」参照。場
面のカットの検出を通じて見つけられた切れ目を使っ
て、他の研究者は、ビデオ・シーケンスの論理的な構成
を解析する為の階層形のセグメント分割を追及してい
る。これについてはＩＥＥＥコンピュータ・グラフィッ
クス・アンド・アプリケーションズ誌、６７−７４（１
９９１年）掲載のＧ．ダベンポート、Ｔ．スミス及び
Ｎ．ピンシーバーの論文「マルチメディア用の映画の初
歩」、Ｐｒｏｃ．ＳＰＩＥ１８１８，１１９４−１
２０５（１９９２年）のペトロス・マラゴスを編集者と
するビジュアル・コミュニケーションズ・アンド・イメ
ージ・プロセシング掲載のＭ．シバタの論文「ビデオ・
シーケンスに対する時間的セグメント分割方法」、Ｐｒ
ｏｃ．ＳＰＩＥ１９０８，１３−２４（１９９３
年）のウェイン・ニブラックを編集者とするストーリッ
ジ・アンド・リトリーバル・フォー・イメージ・アンド
・ビデオ・データベース掲載のＤ．スワンバーグ、Ｃ−
Ｆ．シュー及びＲ．ジェインの論文「ビデオ・データベ
ースに於ける知識を案内とする語句解剖」を参照された
い。テキストが文、段落及び章に構成されるのと同じよ
うに、これらの方式の目標は、ビデオのサブ・シーケン
スの階層形のグループ分けを決定する事である。この構
造的な情報をセグメント分割されたサブ・シーケンスの
内容の抽出と組合せると、マルチメディア・システムの
ユーザには、ビデオ・データの上から下に見た図が与え
られる。さらに詳しい事については、プロシーディング
ズ・オブ・ＡＣＭインターナショナル・コンファレンス
・オン・マルチメディア（１９９４年）掲載のＦ．アー
マン、Ｒ．デポミアー、Ａ．スー及びＭ．Ｙ．チューの
論文「ビデオ・シーケンスの内容に基づく拾い読み」を
参照されたい。

【０００７】閉回路テレビ（ＣＣＴＶ）システムは、保
安に関係する人々に、屋内及び屋外の両方の領域に於け
る活動に関する豊富な情報を提供する。しかし、ビデオ
・データの解析を自動化する又は助けるような道具は殆
ど存在しない。その為、大抵の保安用のカメラからの情
報は利用の仕方が不充分である。

【０００８】典型的には、保安装置は、ビデオをモニタ
に表示して、保安に関係する人員が同時に見ると共に、
又は、後の再生の為にこのデータを時間経過形ＶＣＲ装
置に記録する事により、ビデオ・カメラの出力を処理す
る。この方式には重大な制約がある。

【０００９】視覚心理の研究家は、ビデオ・カメラの監
視というような作業で人間が処理し得る可視情報の分量
は限られていることを示している。ある時間が経つと、
モニタに於ける視覚的な活動が見過ごされやすい。幾つ
かのビデオ・カメラからの出力を見なければならない
時、監視が有効である為には更に負担がかかる。

【００１０】時間経過形ＶＣＲは、解像度、毎秒フレー
ム数及び記録の長さの点で、記憶し得るデータの量が限
られている。こういう装置を連続的に使うには、装置の
頻繁な保守及び修理を必要とする。

【００１１】いずれの場合も、ビデオ情報は構成がな
く、索引が付いていない。ビデオ・ストリーム内の関心
のある可視的な事象をつきとめる為の効率の良い手段が
ないと、利用し得る全てのビデオ・カメラからの出力を
保安用の人員が監視したり記録したりするのはコスト効
果がない。

【００１２】ビデオの監視を助ける為に利用し得る道具
として最も強力なのが、ビデオ動き検出器である。この
装置は、ビデオ・ストリーム内の可視的な動きを検出
し、活動が予め設定された閾値を越える時、警報器又は
記録装置を作動する事が出来る。しかし、現存のビデオ
動き検出器は、典型的には、ビデオ・データ内の単純な
強度変化だけを感知し、在庫品の盗難のような複雑な物
体の動作が発生した事に関しては、もっと気のきいた情
報のフィードバックをする事が出来ない。

【００１３】

【課題を解決するための手段及び作用】この発明の一実
施例では、物体の動きからビデオに索引を付ける方法を
提供する。動きセグメント分割装置を用いて、ビデオ・
シーケンス内の動く物体を検出する。セグメント分割さ
れたビデオの物体が記録され、相次ぐフレームで追跡さ
れる。物体の経路及び他の物体の経路との交差を決定し
て、事象の発生を検出する。物体の出現／消滅、置くこ
と／取除くこと、入ってくること／出てゆくこと、及び
動き／静止のような関心のある事象を確認する為に索引
マークを付ける。

【００１４】この発明の上記並びにその他の特徴は、以
下図面についてこの発明を詳しく説明するところから、
当業者には明らかになろう。

【００１５】

【実施例】図１は、この発明の一実施例による自動ビデ
オ索引（ＡＶＩ）装置１０の高レベルの線図を示す。こ
の図で、データベース記憶装置１５に保存するためにデ
ィジタル化された到来ビデオを処理するプログラムされ
たコンピュータを含む視覚装置１３に対する入力を、カ
メラ１１が供給する。この明細書で言うカメラという言
葉は、普通のテレビ（ＴＶ）カメラ又は赤外線（ＩＲ）
カメラであってよい。次に、ユーザは、空間−時間の質
問、事象や物体に基づく質問を通じて、コンピュータを
含む、データベース１５に対するインターフェース１７
を使って、このビデオ情報を解析する事が出来る。ユー
ザ・インターフェース１７が、この質問に答えるビデオ
・シーケンスをモニター１９に対して再生する。

【００１６】図２は、保安監視用に見られるのと同様な
内容を持つビデオ・シーケンスからのフレームを示す。
このシーケンスでは、人が場面に入り、１枚の紙とブリ
ーフケース及び本を置き、その後出ていく。この人がそ
の後で再びこの場面に入り、ブリーフケースを取り上
げ、再び出ていく。この例のシーケンスの持続時間は約
１分間である。しかし、行動が何時間にも及ぶ事があ
る。ＡＶＩデータベース１５に質問する事により、ユー
ザは、このシーケンス全体を再生せずに、前後に亘っ
て、重要な事象に飛越す事が出来る。例えば、ユーザ
が、「シーケンス内にある全ての物を置く事象を示せ」
という質問をした場合、ＡＶＩ装置１０は、人が、紙、
ブリーフケース及び本を置く場面を映したシーケンスに
よって応答する。図３は、この質問に応答して、ＡＶＩ
装置から与えられる実際の結果を示す。この場合、当該
装置は、紙、ブリーフケース及び本を置いた所を指し、
ボックスによって、この事象に寄与する物体を目立たせ
る。ビデオ・データの処理では、ＡＶＩ視覚装置１３が
動きセグメント分割方式を用いて、各フレーム内の場面
の背景から、前景の物体を分割する。動きセグメント分
割方式については、コンピュータ・グラフィックス・ア
ンド・イメージプロセシング誌、１８，１８８−２０１
（１９８２年）掲載のＳ．ヤラマンチリー、Ｗ．マーテ
ィン及びＪ．アガーワルの論文「差分法による動く物体
の記述の抽出」、ＩＥＥＥトランザクションズ・オン・
パターン・アナリシス・アンド・マシーン・インテリジ
ェンス誌、６，６２４−６２９（１９８４年）掲載の
Ｒ．ジェインの論文「動く観察者によって得られたフレ
ームシーケンスのセグメント分割」、ＩＥＥＥワークシ
ョップ・オン・ビジュアル・モーション誌、３２５−３
３２（１９９１年）掲載のＡ．シオ及びＪ．スクランス
キーの論文「動く人のセグメント分割」、及び各フレー
ム内の場面の背景から前景の物体をセグメント分割する
為の、ニュージャージー州エングルウッド・クリフスの
プレンティスフォール社から出版されたＢ．バラード及
びＣ．ブラウンの著書「コンピュータ・ビジョン」を参
照されたい。次に、セグメント分割されたビデオを解析
して、前景の物体及びその動きの記号表示を作る。ビデ
オ内容のこの記号による記録がビデオ「メタ情報」（図
４参照）と呼ばれる。図４は、ビデオ・データ・フレー
ム、対応する動きのセグメント分割、及び対応するメタ
情報の進行を示す。このメタ情報が、後で索引して探索
するのに適切な注釈を付けられ、方向付けられたグラフ
の形で、データベースに記憶される。ユーザ・インター
フェース１７が、意味論的な内容を解析するために、生
のビデオ・データではなく、この情報に対して作用す
る。

【００１７】視覚装置１３が、このメタ情報の中に、全
てのビデオ・フレームにある各々の物体の寸法、形、位
置、時間の刻印及び画像を記録する。これは、相次ぐビ
デオ・フレームに亘って各々の物体を追跡し、各々のフ
レームに於ける瞬時速度を推定し、物体の経路並びに他
の物体の経路とのその交差を決定する。その後、視覚装
置が、その経路上で測定された速度に基づいて、物体を
動いている又は不動と分類する。

【００１８】最後に、視覚装置１３がメタ情報を走査
し、物体の出現／消滅、置くこと／取除くこと、入って
くること／出てゆくこと、並びに動き／静止というよう
な関心のある８個の事象が発生するたびに、索引マーク
を付ける。この索引動作は、メタ情報に記録された物体
の動きに基づく自得学習法を使って行なわれる。例え
ば、動く物体が不動の物体を「離す」と、その結果は
「置く」事象になる。動く物体が不動の物体と交差し、
その後それを取り除くと、その結果は「取り除く」事象
になる。

【００１９】この装置は、視覚装置の出力、即ち、ビデ
オ・データ、動きのセグメント分割及びメタ情報を、ユ
ーザ・インターフェース１７を通じて検索する為に、デ
ータベース１５に記憶する。インターフェースは、ユー
ザが、関心のあるビデオ・シーケンスを検索し、それを
前向き又は後向きに再生し、個別のフレームで停止する
事が出来るようにする。更に、ユーザは、空間−時間の
パラメータ、事象に基づくパラメータ及び物体に基づく
パラメータに基づいて、ビデオ・シーケンスに対する質
問を特定する事が出来る。

【００２０】例えば、ユーザは場面内のある領域を選択
し、「午前８時と午前９時の間に、場面のこの領域から
取り除かれた全ての物体を見せて下さい」という質問を
特定する事が出来る。この場合、ユーザ・インターフェ
ースは、午前８時及び午前９時の間の時間の刻印を持つ
物体のビデオ・メタ情報を探索し、その後、この１組を
フィルターにかけて、特定された領域内にあって、「取
り除く」事象のタグが付けられた物体を求める。その結
果、ユーザの質問に答える１組の物体が得られる。この
１組から、質問の結果を目立たたせる１組のビデオ・
「クリップ」を集める。ユーザは、関心のあるクリップ
を選択し、前と同じように再生又は質問を使って、更に
ビデオ解析を進める事が出来る。

【００２１】次に、この明細書の以下の部分で使われる
用語及び記号を説明する。シーケンスＳはＮ個のフレー
ムのある順序の集合であり、Ｓ＝｛Ｆ₀，
Ｆ₁，．．．，Ｆ_N-1｝と記される。ここでＦ_nはこの
シーケンス内のフレーム番号ｎである。

【００２２】クリップは４重子Ｃ＝（Ｓ，ｆ，ｓ，ｌ）
であり、ここでＳはＮ個のフレームを持つシーケンスで
あり、ｆ，ｓ及びｌは、０≦ｆ≦ｓ≦ｌ≦Ｎ−１となる
ようなフレーム番号である。ここでＦ_fおよびＦ_lが、
クリップ内の最初及び最後の有効なフレームであり、Ｆ
_sが現在のフレームである。従って、クリップは、「関
心のあるフレーム」を示す状態変数を持つサブ・シーケ
ンスを特定する。

【００２３】フレームＦは、時間の刻印ｔを注釈として
付けた画像Ｉである。従って、フレーム番号ｎは対Ｆ_n
＝（Ｉ_n，ｔ_n）によって表わされる。

【００２４】画像Ｉは画素のｒ×ｃ個のアレイである。
記号Ｉ（ｉ，ｊ）はＩの中の座標（行ｉ，列ｊ）にある
画素を示し、ｉ＝０，．．．，ｒ−１、およびｊ＝
０，．．．，ｃ−１である。ここでの説明では、画素は
０と２５５の間の強度値を持つと仮定する。

【００２５】図５はＡＶＩ装置を詳しく示す。動きセグ
メント分割装置２１、物体追跡装置２２、動き解析装置
２３、記録装置２４及び圧縮器２５が図１の視覚装置１
３を構成する事に注意されたい。同様に、質問エンジン
２７、グラフ式ユーザ・インターフェース２８、再生装
置２９及び圧縮解除モジュール３０がユーザ・インター
フェース１７を構成する。以下、これらの各々の部品を
詳しく説明する。

【００２６】ＡＶＩ装置の現在の構成は、実時間処理で
はなく、バッチ処理を支援する。従って、フレームは、
更に処理が行なわれる前に、一時記憶区域２０内にディ
ジタル化される。実時間形の構成は、一時記憶装置２０
を側路して、ビデオをパイプライン式に処理する。

【００２７】図６は動きセグメント分割装置を更に詳し
く示す。シーケンス内の各々のフレームＦ_nに対し、動
きセグメント分割装置２１は次のようにセグメント分割
された画像Ｃ_nを計算する。

【００２８】

【数１】Ｃ_n＝ｃｃｏｍｐｓ（Ｔ_h・ｋ）

【００２９】Ｔ_hはｈに於ける画像Ｉ_n及びＩ₀の差の
絶対値に閾値を設けることによって得られる２進画像で
あり、Ｔ_h・ｋは構成要素ｋを用いたＴ_hに対する形態
学的な閉じ操作であり、関数ｃｃｏｍｐｓ（）は連結
された構成要素の解析を行ない、この結果、画像Ｔ_h・
ｋ中の各々の連結された領域に対する独特なラベルが得
られる。画像Ｔ_hは次のように定義される。

【００３０】

【数２】

【００３１】これがＴ_h内にある全ての画素（ｉ，ｊ）
に対して成立し、Ｄ_nはＩ_n及びＩ₀の差分画像であっ
て

【００３２】

【数３】Ｄ_n（ｉ，ｊ）＝Ｉ_n（ｉ，ｊ）−Ｉ₀（ｉ，ｊ）である。（赤外線カメラから得られるような）雑音の多
いデータに対しては、画像Ｄ_nはローパスフィルタによ
って平滑して、更に一貫性のある差分画像を作る事が出
来る。最後に操作ａ・ｋは次のように定義される。

【００３３】

【数４】として定義され、

【外１】は形態学的な拡張演算子であり、Θは形態学的な侵食演
算子である。

【００３４】図７はこの過程の一例を示す。図７ａは基
準画像Ｉ₀であり、図７ｂは画像Ｉ_nであり、図７ｃは
絶対的な差｜Ｄ_n＝Ｉ_n−Ｉ₀｜であり、図７ｄは閾値
作用にかけた画像Ｔ_hであり、これは像内の動きのある
領域を目立たせ、図７ｅは形態学的な閉じ操作の結果で
あって、小さな領域を一緒に結合して、滑らかな形の物
体にすると共に、班点ノイズを取除き、図７ｆは領域１
−４の様な独特のラベルを各々の検出された物体に割当
てる連結された構成要素の解析結果である。この結果、
動きセグメント分割装置の出力であるＣ_nになる。

【００３５】この方式が処理の為に「基準画像」を使う
事に注意されたい。これは、このシーケンスからの公称
上最初の画像Ｉ₀である。多くの用途では、基準画像が
利用し得ると仮定する事は不合理ではない。場面の中の
動きが制限されている時、ビデオで捕えるのは単純に固
定視点カメラから開始される。次に、他の用途ではこの
仮定が成立しない事がある若干の理由を述べる。

【００３６】１．長いビデオ・シーケンスでは、特に屋
外の場面では、ゆっくりとした照明の変化により、基準
フレームが「旧式」になる原因になる事がある。その場
合、相次ぐビデオ・フレームの累算的な差を使う更に手
のこんだ方式を用いなければならない。

【００３７】２．視点はカメラの動きの為に変化する事
がある。この場合、動く背景を場面から「減算」する為
に、カメラの動きの補償をしなければならない。

【００３８】３．ある物体が基準フレームの中に存在し
ていて、シーケンスの間に動く事がある。これによっ
て、物体が場面の中に新しく登場した不動の物体である
かのように、動きセグメント分割過程によって物体によ
って露出した背景領域が正しくなく検出される事があ
る。

【００３９】この問題３に対する直接的な解決策は、動
きセグメント分割過程によって検出された動かない領域
に試験を適用して、所定の領域が（１）前景に存在する
不動の物体、又は（２）基準像内に存在する前景の物体
によって露出した背景の何れの結果であるかを判定する
事である。

【００４０】テレビ・カメラからのビデオ・データの場
合、この試験は次の観測に基づいて実施される。画像Ｉ
_nのセグメント分割によって検出された領域が、基準画
像内に存在する物体の動きに由る（即ち、「露出された
背景」による）場合、セグメント分割された領域の境界
が、Ｉ₀で検出された強度の縁と合う確率が高い。領域
が現在の画像内に物体が存在する事に由る場合、領域の
境界がＩ_nの強度の縁と合う確率が高い。この試験は、
現在の画像及び基準画像に縁検出演算子を適用し、Ｃ_n
のセグメント分割された領域に境界が一致する画素があ
るかどうかを検査する事によって実施される（１９８
２、ニュージャージー州エングロート・クリフス所在の
プレンティスホール社から出版されたＤ．バラード及び
Ｃ．ブラウンの著書「コンピュータ・ビジョン」参
照）。

【００４１】ＩＲカメラからのビデオ・データの場合、
熱の拡散及び像のぼけの為、前景の物体は容易に検出し
得る縁を持たない事がある。しかし、あるカメラからの
データでは、画像の光学−機械的な鮮鋭化によって物体
がコントラストを作るかさ（ｈａｌｏ）を示す。１９８
２年ニューヨーク州ニューヨーク所在のアカデミック・
プレス社から出版されたＡ．ローゼンフェルト及びＡ．
カクの著書「ディジタル映像処理」第２版、第１巻参
照。この為、この試験は、２つの画像にある関心のある
領域内の画素強度の分散を比較する事によって実施する
事が出来る。ある背景領域は一定の画素強度を示す傾向
があるから、前景の物体を含む画像では、この分散が最
大になる。

【００４２】テレビ及びＩＲデータに於ける画面の変化
の解析を行なう為の物体検出方法が、前に引用したコー
トニー他の出願に記載されており、ここで引用する。

【００４３】何れかの試験によって、問題の領域が露出
された背景によるものであるという仮説が裏付けられた
場合、物体をそれによって露出された背景領域と置換え
る事により（図８参照）、基準画像を変更する。

【００４４】公知のどんな動きセグメント分割方式も完
全ではない。次に、多くの動きセグメント分割方式の典
型的な誤差を述べる。

【００４５】１．真実の物体は、動きセグメント分割の
記録から一時的に消滅する。これが起るのは、物体と閉
塞されていた背景領域との間のコントラストが不十分な
場合、又は物体が部分的に「背景」構造（例えば、場面
内に存在する樹木又は柱）によって部分的に閉塞されて
いる場合である。

【００４６】２．虚偽の物体が動きセグメント分割の記
録に一時的に現れる。これは、光の変動又は動く物体が
投げかける影が原因である。

【００４７】３．別々の物体が一時的に一緒になる。こ
れが起るのは、典型的には、２つ又は更に多くの物体が
接近しているか、又は一方の物体が別の物体を隠す時で
ある。

【００４８】４．単独の物体が２つの領域に分れ、その
後再び一緒になる。これが起るのは、物体の一部分が、
それが隠している背景に対するコントラストが不十分な
時である。

【００４９】動きのセグメント分割の欠点を軽減する為
に増分的な改良を適用する代りに、ＡＶＩ方式は、ビデ
オ・データの意味論的な内容に関する情報が一層容易に
利用出来る更に高いレベルでこういう問題を取上げる。
後で説明する物体追跡装置及び動き解析装置が物体軌跡
の推定値及び領域の知識を用いて、動きのセグメント分
割の不正確さを補償すると共に、こうして一層正確なビ
デオ内容の記録を作る。動きセグメント分割装置２１の
出力が物体追跡装置２２によって処理される。ビデオ内
の前景の物体に対応する独特なラベルを付けたＰ個の領
域を持つセグメント分割された像Ｃ_nがあったとして、
装置は各々の領域を表わす１組の特徴を発生する。この
１組の特徴を「Ｖ物体」（ビデオ物体）と名付け、Ｖ^p
_n，ｐ＝１，．．．，Ｐで表わす。Ｖ物体は、対応する
領域のラベル、面積中心、境界ボックス及び形状マスク
並びに物体速度及び追跡過程による軌跡情報を含んでい
る。

【００５０】この後、Ｖ物体をセグメント分割されたビ
デオ・シーケンスの中で追跡する。Ｖ物体Ｖ_n＝｛Ｖ^p
_n；ｐ＝１，．．．，Ｐ｝及びＶ_n+1＝｛Ｖ^q _n+1；ｑ
＝１，．．．，Ｑ｝を持つセグメント分割された画像Ｃ
_n及びＣ_n+1があった場合、それらがフレームＦ_n及び
Ｆ_n+1内に現われる実世界の同じ物体に対応する事をそ
れらの位置及び推定速度が示す場合、動き追跡過程がＶ
物体Ｖ^p _n及びＶ^q _n+1を「リンク結合」する。これ
は、Ｖ物体の位置の線形予測、並びに「互いに最も近い
隣り」の判断基準を使って、下記の手順で決定される。

【００５１】１．各々のＶ物体Ｖ^p _n∈Ｖ_nに対し、次
の式

【数５】を使って、次のフレームに於けるその位置を予測する。
この式で、μ^p _nはＣ_n+1に於けるＶ^p _nの予測される
面積中心であり、μ^p _nはＣ_nで測定されたＶ^p _nの面
積中心であり、υ^p _nはＶ^p _nの推定（前方）速度であ
り、ｔ_n+1及びｔ_nは、夫々フレームＦ_n+1及びＦ_nの
時間刻印である。最初、速度推定値はυ^p _n＝（０，
０）に設定する。

【００５２】２．各々のＶ^p _n∈Ｖ_nに対し、

【外２】に一番近い面積中心を持つ次のフレーム内のＶ物体を決
定する。この「一番近い隣り」をη^p _nと表わす。即ち

【数６】

【００５３】３．Ｖ_nにある他のどのＶ物体もＶ^r _n+1
を最も近い隣りとして持たないような全ての対
（Ｖ^p _n，η^p _n＝Ｖ^r _n+1）に対し、Ｖ^r _n+1の（前
方）速度であるυ^r _n+1を次のように推定し、

【数７】それ以外の場合、υ^r _n+1＝（０，０）とする。

【００５４】こういう工程を各々のＣ_n，ｎ＝０，
１，．．．，Ｎ−２に対して実施する。工程１及び２に
より、各々のＶ物体に対し、この後のフレームに於ける
最も近い隣りが見つかる。工程３により、あいまいさを
残さずに追跡する事の出来るＶ物体に対する速度推定値
が発生される。この情報を工程１で使って、次のフレー
ムに対するＶ物体の位置を予測する。

【００５５】次に、逆のシーケンス、即ち、Ｃ_n，ｎ＝
Ｎ−１，Ｎ−２，．．．，１に対し、工程１−３を繰返
す。この結果、逆方向に於ける、各々のＶ物体に対する
予測された面積中心、速度推定値及び最も近い隣りの新
しい集合が得られる。従って、Ｖ物体がこのシーケンス
内で順方向にも逆方向にも追跡される。この後、残りの
工程を実施する。

【００５６】４．η^s _n＝Ｖ^r _n+1及びη^r _n+1＝Ｖ^s
_nであれば、Ｖ物体Ｖ^s _n及びＶ^r _n+1は互いに最も近
い隣りである。（ここで、η^s _nが順方向に見たＶ^s _n
の最も近い隣りであり、η^r _n+1が逆方向に見たＶ^r
_n+1の最も近い隣りである。）各々の対の互いに最も近
い隣り（Ｖ^s _n，Ｖ^r _n+1）に対し、Ｖ^s _nからＶ^r
_n+1への１次リンクを作る。

【００５７】５．互いに１番近い隣りのない各々のＶ^p
_n∈Ｖ_nに対し、予測された面積中心

【外３】が、εをある小さな距離として、η^p _nのε以内であれ
ば、Ｖ^p _nからη^p _nへの２次リンクを作る。

【００５８】６．互いに最も近い隣りのないＶ_n+1内の
各々のＶ^q _n+1に対し、予測された面積中心

【外４】がη^q _n+1のε以内であれば、η^q _n+1からＶ^q _n+1へ
の２次リンクを作る。

【００５９】物体追跡手順は互いに最も近い隣りの判断
基準（工程４）を使って、高い信頼度で、フレーム毎の
Ｖ物体の軌跡を推定する。「１次」リンクを使って、互
いに最も使い隣りの対を接続して、それらが、相次ぐビ
デオ・フレームで実世界の同じ物体を表わす可能性が高
い事を示す。

【００６０】工程５〜６は、より小さい信頼度で追跡さ
れるＶ物体を関連させるが、それらが実世界の同じ物体
から出て来たものであるかも知れない証拠を示す。この
為、これらの物体は「２次」リンクによって結合され
る。これらの工程は、前に述べたように、「分割」及び
「結合」型の動きのセグメント分割の誤差を説明する為
に必要である。

【００６１】物体追跡過程の結果、Ｖ物体、並びにビデ
オ・シーケンス内の前景の物体の位置及び軌跡を表わす
方向ぎめされたグラフ（ダイグラフ）を形成する接続リ
ンクのリストが得られる。即ち、Ｖ物体は、グラフの節
であり、接続リンクは円弧である。この動きのグラフが
物体追跡装置の出力である。

【００６２】図９は、１次元のフレームの仮説的なシー
ケンスに対する動きのグラフを示す。この場合、装置
は、Ａで物体の出現を検出し、それをＢにおけるＶ物体
迄追跡する。動きのセグメント分割における誤差の為、
物体がＤ及びＥで分割され、Ｆで一緒になる。Ｇでは、
物体が閉塞の為、Ｃから追跡された物体と一緒になる。
これらの物体がＨ及びＩで分れる。１次リンクが、最も
信頼性を持って追跡されたＶ物体を接続する。

【００６３】動き解析装置２３が物体追跡装置の結果を
解析し、関心のある幾つかの事象を記述する索引マーク
で、動きのグラフに注釈を付ける。この過程は２つの部
分に分れて進む。即ち、Ｖ物体のグループ分け及びＶ物
体の索引付けである。図１０は、以下の部分で説明する
１−Ｄフレームの仮説的なシーケンスに対する一例の動
きのグラフを示す。

【００６４】最初に、動き解析装置が、ビデオ・データ
の中での物体の経路を表わす構造にＶ物体を階層的にグ
ループ分けする。１９９３年にニューヨーク州のマック
グロウヒル社から出版されたＧ．チャートランド及び
Ｏ．エラーマンの著書「グラフ理論の応用とアルゴリズ
ム」に記載されたグラフ理論の用語を用いると、この為
には５つのグループ分けが定義される。

【００６５】ステムＭ＝｛Ｖ_i：ｉ＝１，２，．．．，
Ｎ_M｝は、下記の全ての条件を満たす、２次リンクを含
まない２つ又は更に多くのＶ物体の最大寸法の方向ぎめ
された経路（ダイパス）である。

【００６６】アウトデグリー（Ｖ_i）≦１（１≦ｉ＜Ｎ_Bに対して）インデグリー（Ｖ_i）≦１（１＜ｉ≦Ｎ_Bに対して）更に

【数８】又は

【数９】 μ₁≠μ₂≠．．．≠μ_NM （３）ここでμ_iはＶ物体Ｖ_i∈Ｍの面積中心である。

【００６７】従って、ステムは、２つ又は更に多くのフ
レームの中での不動の物体の単純な軌跡を表わす。図１
１は、図１０からのＶ物体が文字Ａ乃至Ｊを持つ別々の
ステムに属するようにラベルを付けている。

【００６８】ステムを使って、実世界の物体の「状
態」、即ち、それらが動いているか不動であるかを決定
する。式（２）が成立すれば、ステムは不動と分類さ
れ、式（３）が成立すれば、ステムは動いていると分類
される。図１１は不動のステムを取上げており、残りは
動いている。

【００６９】ブランチＢ＝｛Ｖ_i：ｉ＝１，
２，．．．，Ｎ_B｝は、アウトデグリー（Ｖ_i）≦１
（１≦ｉ＜Ｎ_Bに対して）、並びにインデグリー
（Ｖ_i）≦１（１＜ｉ≦Ｎ_Bに対して）であるような、
２次リンクを持たない２つ又は更に多くのＶ物体の最大
寸法のダイパスである。図１２は、ブランチに属するＶ
物体に文字Ｋ乃至Ｓのラベルを付けてある。ブランチ
は、一連のフレームの中での物体の信頼性の高い軌跡の
推定値を表わす。ブランチが１個の不動のステムだけで
構成される場合、それは不動と分類される。その他の場
合、動いていると分類される。図１２のブランチＭ及び
Ｐ（書込みのあるもの）は不動であり、残りが動いてい
る。

【００７０】トレイルＬは２次リンクを持たない２つ又
は更に多くのＶ物体の最大寸法のダイパスである。この
グループ分けは、互いに最も近い隣りという判断基準を
使って、物体追跡段階での物体の軌跡の最善の推定値を
表わす。図１３はトレイルに属するＶ物体に文字Ｔ乃至
Ｙのラベルを付けてある。

【００７１】トレイル及びそれが含むＶ物体は、その中
に含まれる全てのブランチが不動であれば、不動と分類
され、その中に含まれる全てのブランチが動いていれ
ば、動いていると分類される。その他の場合、トレイル
は未知と分類される。図１３のトレイルＶ及びＸは不動
であり、残りは動いている。

【００７２】トラックＫ＝｛Ｌ₁，Ｇ₁，．．．，Ｌ
_NK-1，Ｇ_NK-1，Ｌ_NK｝は、トレイル｛Ｌ_i：１≦ｉ≦Ｎ
_K｝を含んでいて、ダイパス｛Ｇ_i：１≦ｉ＜Ｎ_K｝を
接続している最大寸法のダイパスである。各々のＧｉ∈
Ｋに対し、Ｈ＝｛Ｖ^l _i，Ｇ_i，Ｖ¹ _i+1｝

【００７３】（Ｖ^l _iはＬ_iの中の最後のＶ物体であ
り、Ｖ¹ _i+1はＬ_i+1の中の最初のＶ物体である）とな
るようなダイパスが存在していなければならない。この
為、全てのＶ_j∈Ｈは次の条件を満たす。

【００７４】

【数１０】

【００７５】ここでμ^l _iはＶ^l _iの面積中心であり、
υ^l _iはＶ^l _iの前向きの速度であり、（ｔ_j−
ｔ^l _i）はＶ_j及びＶ^l _iを含むフレームの間の時間差
であり、μ_jはＶ_jを面積中心である。従って、式
（４）は、Ｖ物体Ｖ^l _iの推定軌跡が経路Ｈ上の全ての
Ｖ_jと交差しなければならない事を定めている。

【００７６】トラックは、シーケンス内で動く物体によ
って１回又は更に多くの回数だけ、閉塞作用を受けたか
もしれない物体の軌跡推定値を表わす。動き解析装置が
式（４）を使って、それが閉塞されているフレームで物
体を追いかけようとする。図１４は、トラックに属する
Ｖ物体に文字α、β、χ、δ及びεのラベルを付けてい
る。トラック“χ”がトレイルＶ及びＸを結合している
事に注意されたい。

【００７７】トラック及びその中に含まれるＶ物体は、
その中に含まれる全てのトレイルが不動であれば、不動
と分類され、その中に含まれる全てのトレイルが動いて
いれば、動いていると分類される。そうでない場合、ト
ラックは未知と分類される。図１４のトラック“χ”は
不動であり、残りのトラックは動いている。

【００７８】トレースは、Ｖ物体の最大寸法の接続され
たサブダイグラフである。トレースはある物体及びそれ
が交差する全ての物体の完全な軌跡を表わす。即ち、図
１０の動きのグラフは２つのトレースを含む。１つのト
レースはＦ₂からＦ₇迄延び、残りのＶ物体が２番目の
トレースを形成する。図１５では、これらのトレースに
あるＶ物体にそれぞれ１及び２のラベルを付けてある。

【００７９】前段のグループ分けは階層形である事、即
ち、悉くのトレースＥに対し、少なくとも１つのトラッ
クＫ、トレイルＬ、ブランチＢ及びステムＭがあって、
Ｅ⊇Ｋ⊇Ｌ⊇Ｂ⊇Ｍになる事に注意されたい。更に、悉
くのＶ物体は丁度１つのトレースだけの一員である。

【００８０】動き解析装置が、物体追跡装置によって発
生された動きのグラフを走査し、Ｖ物体をステム、ブラ
ンチ、トレイル、トラック及びトレースにグループ分け
する。この為、これらの４つの定義を使って、動きのグ
ラフの種々の部分における物体の軌跡を特徴づける。こ
の後、この情報を使って、その物体の動きの内容に従っ
て、ビデオに索引を付ける。

【００８１】ビデオ・シーケンス内にある種々の動きの
事象を選定する為に関心のある８つの事象が定義され
る。

【００８２】出現−物体が場面に出てくる。消滅−物体が画面から消える。入ってくること−動く物体が画面に入ってくる。出てゆくこと−動く物体が画面から出てゆく。置くこと−動かない物体が画面に加えられる。取り除くこと−動かない物体が画面から取り除かれる。動き−静止している物体が動き始める。静止−動いている物体が停止する。

【００８３】これらの８つの事象は、多数の動く物体を
含む多くのシーケンスの解析を助ける位に、ビデオ索引
装置にとって十分広義である。例えば、保安監視の用途
で、在庫の箱、道具、コンピュータ等の貴重な物体を盗
難（即ち取り除く事）に対して監視する事が出来る。同
様に、自動車の交通パターン（例えば入ってくること／
出てゆくこと及び動き／静止）を解析する事が出来、又
は消費者の買物パターン（例えば、動き／静止及び取り
去ること）を記録する事が出来る。

【００８４】Ｖ物体のグループ分けの過程が完了した
後、動き解析装置は、ビデオ・シーケンス内のこういう
８つの事象を確認するのに必要な全ての意味論的な情報
を持っている。グラフ内の各々のＶ物体Ｖに対し、次の
規則が適用される。

【００８５】１．トラック内の最初のＶ物体（即ち、
「頭」）が動いていて、インデグリー（Ｖ）＞０であれ
ば、Ｖに出現事象を選定する索引マークを付ける。

【００８６】２．トラックの頭のＶが不動であり、イン
デグリー（Ｖ）＝０であれば、Ｖに出現事象を選定する
索引マークを付ける。

【００８７】３．トラック内の最後のＶ物体（即ち
「尾」）が動いていて、アウトデグリー（Ｖ）＞０であ
れば、Ｖに消滅の索引マークを付ける。

【００８８】４．トラックの尾であるＶが不動で、アウ
トデグリー（Ｖ）＝０であれば、Ｖに消滅索引マークを
付ける。

【００８９】５．Ｖが不動ではない（即ち、動いている
か未知であり）、トラックの頭であり、インデグリー
（Ｖ）＝０である場合、Ｖに入って来たことの索引マー
クを付ける。

【００９０】６．Ｖが不動ではなく、トラックの尾であ
りアウトデグリー（Ｖ）＝０であれば、Ｖに出てゆくこ
との索引マークを付ける。

【００９１】７．Ｖが不動であり、トラックの頭であ
り、インデグリー（Ｖ）＝１であれば、Ｖに置く事の索
引マークを付ける。

【００９２】８．Ｖが不動であり、トラックの尾であ
り、アウトデグリー（Ｖ）＝１であれば、Ｖに取去るこ
との索引マークを付ける。

【００９３】規則１〜８はトラックのグループ分けを使
って、個別の物体の軌跡の初めと終りにあるビデオに索
引を付ける。しかし、規則７及び８は、画面に置かれた
又はそこから取り除かれた物体に対してだけ適用される
事に注意されたい。これは、置く又は取り去る事象を起
るようにしたＶ物体に索引を付けるものではない。この
目的の為、別の２つの事象を定義する。

【００９４】置き手−動く物体が動かない物体を画面に
加える。取り去り手−動く物体が動かない物体を画面から取り去
る。

【００９５】更に２つ又は更に多くの規則を用いる。

【００９６】９．Ｖが置くことという索引を持つＶ物体
に隣接している場合、Ｖに置き手の索引マークを付け
る。

【００９７】１０．Ｖが取り去ることの索引を持つＶ物
体に隣接している場合、Ｖに取り去り手の索引マークを
付ける。

【００９８】規則９〜１０は、置くこと／取り去ること
の事象の主客の区別を付ける。この区別は事象の主客を
区別しなければならない時にだけ必要である。他の場
合、置き手／取り去り手の事象は置くこと／取り去るこ
との事象と同一に取扱われる。

【００９９】最後に、索引過程は、開始及び停止事象を
説明する規則を適用する。

【０１００】１１．Ｖが不動のステムＭ_iの尾であると
共に、｜Ｍ₁｜≧ｈ_M並びに｜Ｍ_j｜≧ｈ_Mであるよう
な動くステムＭ_jの頭である場合、Ｖに動きの索引マー
クを付ける。ここでｈ_Mは考えているステムの寸法の下
限である。

【０１０１】１２．Ｖが動くステムＭ_iの尾であると共
に、｜Ｍ₁｜≧ｈ_M及び｜Ｍ_j｜≧ｈ_Mであるような不
動のステムＭ_jの頭である場合、Ｖに静止の索引マーク
を付ける。

【０１０２】動き解析装置２３の出力が、ビデオ・スト
リームにある関心のある事象を表わす、物体に基づく索
引マークを注釈として付けた前景の物体の動きを記述す
る方向ぎめされたグラフである。この為、動き解析装置
２３は、動きセグメント分割データから、ビデオ内の前
景の物体の動作及び相互作用の記号による抽象を発生す
る。この方式は、他の方法では不可能な、ビデオ・シー
ケンスの内容に基づく航行及び解析を可能にする。

【０１０３】図１６は、図１０の例の動きのグラフに全
ての索引規則を適用した場合を示してある。フレームＦ
₈にある不動の物体が閉塞されるけれども、この方式は
夫々フレームＦ₃及びＦ₁₂に一対の「置くこと」及び
「取去ること」の索引を正しく付けている事に注意され
たい。

【０１０４】記録装置が、後で検索するために、ビデオ
・ストリーム及びメタ情報をビデオ・データベースに書
き込む。メタ情報の記録は、物体向けの表示に適してい
るので、テキサス・インスツルメンツ社で開発されたＡ
ＲＰＡ開放物体向けデータベース（ＯＯＢＢ）を使って
実験した。（ＩＥＥＥコンピュータ誌７４〜８２頁、１
９９２年１０月号所載のデイビットＬ．ウエルズ他の論
文「開放物体向けデータベース管理装置の構成」参
照。）開放ＯＯＢＢ、物体向けの形で、メタ情報の直
接的な記憶及び検索が出来るようにする。入力ビデオ・
データも、フレーム毎に開放ＯＯＢＢに記憶する事が出
来る。しかし、ＯＯＢＢ内の物体を参照する「フラッ
ト」なファイルに、到来ビデオを単に記録する方が更に
効率が良いことが分った。

【０１０５】随意選択により、ビデオ・メタ情報を使っ
て、記憶効率を最大にする為に、ビデオ・データを圧縮
する事が出来る。各々のＶ物体が、動きのセグメント分
割から得られた実世界の物体の形状マスクを記憶してい
る事を前に述べた。動きセグメント分割過程はビデオ内
の突出した物体の動きを補捉するから、ビデオ・シーケ
ンス全体ではなく、この情報をビデオ・データベースに
記録する事により、入力データを実質的に圧縮する事が
出来る。

【０１０６】この場合、基準フレームＦ₀を圧縮した形
で記録し、その為にＪＰＥＧ静止映像圧縮基準を使う事
が出来る。その場合、基準フレームに対して個別の物体
を記述する情報が記録される。即ち、Ｖ物体の位置及び
形とそれに対応する像データである。このマスクは、ラ
ンレングスで符号化するのが効率が良い。その時、Ｖ物
体の像データはやはりＪＰＥＧで符号化する。再生する
時、装置は最初にＦ₀を復号し、その後、この後の各々
のフレームに対してＶ物体の像を復号し、Ｖ物体領域マ
スクを使って、これらを基準フレームにマッピングす
る。このような記憶方式を使うと、３０乃至２５０対１
の圧縮比で、相当量のビデオを普通の磁気ディスクに記
憶する事が出来る。

【０１０７】グラフ式ユーザ・インターフェスで発生さ
れた質問に応答して、ＡＶＩ質問エンジンがデータベー
スからビデオ・データを検索する。有効な質問Ｙは次の
形を取る。

【０１０８】

【数１１】Ｙ＝（Ｃ，Ｔ，Ｖ，Ｒ，Ｅ）

【０１０９】ここでＣはビデオ・クリップであり、Ｔ＝
（ｔ_i，ｔ_j）であって、クリップ内の時間区分を特定
し、Ｖはクリップ・メタ情報内のＶ物体であり、Ｒは視
野内の空間的な領域であり、Ｅは物体の動きの事象であ
る。

【０１１０】クリップＣは、質問によって処理すべきビ
デオのサブ・シーケンスを特定し、Ｔ，Ｖ，Ｒ及びＥの
（随意選択の）値が質問の範囲を定める。この形式を使
うと、ＡＶＩ装置のユーザは、「午前８時及び午前９時
の間の画面のこの領域から取り去られた物体が発生した
ら、それを見つけて下さい」という要請をする事が出来
る。この為、質問エンジンが、Ｔ，Ｖ，Ｒ及びＥを満た
すような、Ｃ内の全てのビデオの小順序を見つける事に
より、Ｙを処理する。

【０１１１】所定の質問を処理する時、質問エンジン
が、ビデオ・データベースから、クリップＣに対応する
Ｖ物体のグラフＧを検索し、次の工程を実施する。

【０１１２】１．質問にＴ＝（ｔ_i，ｔ_j）が特定され
ていれば、ＧをフレームＦ_iからＦ_jに亘る部分的なグ
ラフに切り取る。

【０１１３】２．Ｖが特定されていれば、ＧをＶを含む
トレースだけを含むように更に切り取る。

【０１１４】３．Ｖがトラックに属する場合、Ｖを含む
トラックだけを含むようにＧを更に切り取る。

【０１１５】４．Ｒが特定されていれば、その形状マス
クが特定された空間領域と交差するようなＶ物体だけを
含むようにＧを切り取る。

【０１１６】５．Ｅが特定されていれば、Ｅに合う事象
の索引を持つＶ物体だけを含むようにＧを切り取る。

【０１１７】６．Ｅが特定されていなければ、インデグ
リー（Ｖ）＝０を持つＶ物体Ｖ、即ちＧ内のソースの節
だけを含むようにＧを切り取る。これによってＶ，Ｔ及
びＲの条件に合う実世界の物体が最初に発生した時だけ
を含むように結果が縮められる。即ち、工程１は、質問
の時間的な拘束を満たし、工程２及び３は、探索を動き
のグラフ内でのＶの最も信頼性のある経路に制限する事
により、物体に基づく制約を満たし、工程４はＶ物体に
フィルター作用をかけて、空間的な制約を満たし、工程
５及び６はＶ物体をフィルター作用にかけて、特定され
た事象に合うようにする。この結果得られたグラフＧ
は、質問の全ての制約を満たすＶ物体だけを含む。

【０１１８】図１７は、図１０のＶ物体のグラフに適用
された質問Ｙ＝（Ｃ，Ｔ，Ｖ，Ｒ，Ｅ）、即ち、「期間
Ｔの間に領域Ｒ内の場面に物体Ｖが存在するかどうか見
せて下さい」をグラフに描いたものである。図１８〜２
１は、このシーケンスに対して質問エンジンによって行
なわれる工程を例示する。

【０１１９】最後に、質問を満たす各々のＶ物体Ｖ_iに
対し、質問エンジンが、クリップＣ_i並びにＶ物体に対
するポインタで構成された結果Ｒ_i＝（Ｃ_i，Ｖ_i）を
発生する。Ｃ_iの最初及び最後のフレームは、特定され
ている場合、質問の時間的な制約Ｔを反映するように設
定される。そうでなければ、質問内で特定されたクリッ
プＣのそれに設定する。Ｃ_iの「関心のあるフレーム」
は、Ｖ_iを含むフレームに設定する。こういう結果が、
表示の為に、グラフ式ユーザ・インターフェースに送ら
れる。

【０１２０】グラフ式ユーザ・インターフェース（ＧＵ
Ｉ）２８は、空間的、時間的、事象に基づいた、並びに
物体に基づいた質問の処理を通じて、ユーザがビデオ・
シーケンスを解析する事が出来るようにする。図２２
は、ＧＵＩの「再生」部分の図である。インターフェー
スは、ユーザが解析の為にビデオ・クリップを選択し、
その後、ＶＣＲのような制御装置（即ち、正転、逆転、
停止、前向き歩進、後向き歩進）を使って、それを再生
する事が出来るようにする。ＧＵＩ２８は、中間解析
結果を記録する為のシステムの「クリップボード」にも
なる。例えば、図２４に示すクリップボードは３ユーザ
によるそれ迄の質問の結果である３つのクリップを含
む。ユーザは、この内の１つのクリップを選択し、それ
を使って質問を出す事が出来る。その結果得られたクリ
ップが、クリップボード・スタックの上部に押出され
る。ユーザは、ボタンによる指令「上」、「下」及び
「飛出し」を使って、スタックを精査する事が出来る。

【０１２１】図２５はＡＶＩ装置に対する質問インター
フェースを示す。このインターフェースを使って、ユー
ザは、前に述べたようなＹ＝（Ｃ，Ｔ，Ｖ，Ｒ，Ｅ）と
いう形式の全面的な質問を出す事が出来る。「形式」フ
ィールドを使って、ユーザは質問の４つの形式の任意の
組合せを特定する事が出来る。質問インターフェース
が、時間的な並びに事象に基づいた質問に対するパラメ
ータを設定する為のフィールドを提供する。空間的な並
びに物体に基づいた質問に対するパラメータは、図２４
に示したビデオ再生窓の内側にあるマウスを使って設定
する事が出来る。質問の形式及びパラメータを特定した
後、ユーザが「適用」ボタン指令を実行して、ＡＶＩ装
置に対して質問を出す。その結果得られたクリップがシ
ステムのクリップボードに記入される。

【０１２２】図２は、保安監視用に特徴的な動きの内容
を持つ一例のビデオ・シーケンスのフレームを示してい
る。このシーケンスでは、人が画面に入り、１枚の紙、
ブリーフケース及び本を置き、その後出てゆく。この人
が再び画面に入り、ブリーフケースを取り去り、再び出
てゆく。ユーザが「全ての置く事象を見つける」という
質問を作ると、ＡＶＩ装置は、紙、ブリーフケース及び
本を置く人を映すビデオ・クリップで応答する。図３
は、この質問に対して、ＡＶＩ装置によって与えられた
実際の結果を示す。

【０１２３】図２４は、どのようにもっと複雑な質問で
も用いる事が出来るかを実証している。「全ての置く事
象を見せよ」という質問に応答して図３の３つのクリッ
プを受取った後、ＡＶＩシステムのユーザは、図３のシ
ーケンスに出てくるブリーフケースの運命について更に
知りたいと思うようになる。最初に、ユーザはクリップ
ボードからフレームＦ₇₈（図２４（ａ）に示す）を目立
たせるクリップを検索し、ブリーフケースを置くことが
映った人に対して、「この物体の入ってくる事象を見つ
けよ」という質問を用いる。装置は、図２４（ｂ）に示
すように、画面に入ってくる人が初めて登場する所を示
す１枚のクリップで応答する。ユーザはこの点でクリッ
プを再生し、ブリーフケースを部屋に運び込んだ人を観
察する事が出来る。

【０１２４】次に、ユーザは、ブリーフケースを持って
いる人に対して、「この物体（によって起された）取り
去る事象を見つけよ」という質問を用いる。装置は、そ
のような事象が無い事を述べて応答する。（実際、この
人は出ていって再び部屋に入る迄は、物体を取り去るこ
とがなく、再び入った点で、この人は異なる物体として
定義されているので、これは正しい。）

【０１２５】次にユーザは、クリップボード・スタック
の飛出しを２回叩く事により、図２４（ａ）の元のクリ
ップに戻る。そこでユーザは、ブリーフケースに対し
て、「この物体の取り去る事象を見つけよ」という質問
を用いる。装置は、図２４（ｃ）に示すように、ブリー
フケースを取去る人が２回目に登場する１枚のクリップ
で応答する。

【０１２６】最後に、ユーザは、ブリーフケースを取り
去る人に対して、「この物体の出ていく事象を見つけ
よ」という質問を特定する。この時、装置は、図２４
（ｄ）に示すように、（ブリーフケースと共に）部屋を
出ていく時のこの人の１枚のクリップで応答する。

【０１２７】合計９００フレーム、１８個の物体及び４
４個の事象を含む３つのビデオ・シーケンスに対して、
ＡＶＩ装置を使って、ここで説明したビテオ索引方式を
試験した。これらのシーケンスは、異なる場面監視領域
の実物模型として作られた。

【０１２８】試験シーケンス１（即ち、「テーブル」シ
ーケンス）は、在庫又は保安監視用に特徴的である（図
２参照）。このシーケンスでは、人が、天井カメラによ
って記録されている通りに、部屋に種々の物体を持込
み、取出す。これは毎秒約１０フレームで撮影された３
００フレーム、及び１０個の事象を発生する５個の物体
を含んでいる。このシーケンスは入ってくること／出て
いくこと、及び置くこと／取り去ることの事象と、物体
の閉塞の２つの事例を含んでいる。

【０１２９】試験シーケンス２（「玩具」シーケンス）
は小売店の客を監視する用途に特徴的である（図２５参
照）。このシーケンスでは、客が店の棚の所で止まり、
異なる製品を調べ、最後に１つを持っていく。毎秒約１
０フレームで２８５フレームを含み、１４個の事象を発
生する４個の物体を含む。これは、試験シーケンスの内
でも最も複雑である。これは８つの事象の全部の例を含
んでおり、幾つかの閉塞の場面を表示し、最初のフレー
ムにある３つの前景の物体を含んでいる。

【０１３０】試験シーケンス３（「駐車」シーケンス）
は駐車場の交通を監視する用途に特徴的である（図２６
参照）。このシーケンスでは、車が駐車場に入り、停止
し、運転者がその乗り物から出て来て、歩行者が視野の
中を歩いて行く。これは毎秒約３フレームで撮影された
３１５フレームを含むと共に、２０個の事象を発生する
９個の物体を含む。デジタル化する前に、このシーケン
スは最初は普通の消費者用の装置を用いて８ミリ・テー
プで記録され、その為、試験シーケンスの中で最も「雑
音の多い」ものであった。

【０１３１】各々の試験シーケンスに索引を付し、８つ
の事象の各々の索引を検出する時の成否を記録する事に
より、ＡＶＩ装置の性能を測定した。表１−３は、これ
ら３つの試験シーケンスに対するＡＶＩ装置の事象検出
結果を示す。各々の事象に対し、これらの表は、実際に
シーケンス内に存在する事象の数、ＡＶＩ装置によって
見つけられた数、種類Ｉ（否定的な虚偽）の誤り及び種
類ＩＩ（肯定的な虚偽）の誤りを示している。試験シー
ケンスにある合計４４個の事象の内、ＡＶＩ装置は１０
個の種類ＩＩの誤りを示したが、種類Ｉの誤りは１つし
か示さなかった。従って、この装置は控目であって、少
なくとも所望の事象を見つける傾向がある。

【０１３２】装置の性能が最も悪かったのは試験シーケ
ンス３で示したのは、種類Ｉの誤りだけと全部で１０あ
る種類ＩＩの誤り８個であった。これは主に３つの理由
に由る。

【０１３３】１．フレーム同期信号が不良である事から
生ずる垂直ジッタを含むシーケンス内の雑音により、動
きセグメント分割のマスクが非常に不安定になった。こ
の為、不動の物体がかなり動いているように見える。

【０１３４】２．閉塞を介して物体を追跡する為に使わ
れている方法は、現在では、物体の一定の軌跡を仮定し
ている。急速に変化する軌跡が存在しても更に頑丈な動
き追跡方式にすれば、多くの事象に対して肯定的な虚偽
の数が一層少なくなろう。プロシーディングズ・オブ・
ザ・フィフス・インターナショナル・コンファレンス・
オン・コンピュータ・ビジョン誌、６７２−６７８（１
９９５年）所載のＳ．インティル及びＡ．ボビックの論
文「閉じた世界の追跡」参照。

【０１３５】３．画面の固定の物体により、閉塞を介し
て物体を追跡する手段が現在では使われていない。画面
の前景にある照明用のポールは、その背後を歩く歩行者
を一時的に閉塞し、入ってくること／出ていくことの距
離の事象の対を生ずる。しかし、多数の同時の閉塞及び
動く影があるにも拘らず、装置は試験シーケンス１及び
２に対する性能は非常に良かった。シーケンス全体とし
ては、装置は多数の物体に特有の質問に正確に応答出来
る位に十分頑丈である。

【０１３６】

【表１】

【０１３７】

【表２】

【０１３８】

【表３】

【０１３９】ここで説明したビデオ索引装置は、例えば
先進的ビデオ動き検出器などでは、実時間装置として構
成する事も出来る。図２７はこのような構成の線図を示
す。ここで視覚装置１００がカメラ１０１の出力をフレ
ーム毎に処理し、事象の索引マークを注釈として付した
動きのグラフを連続的に更新する。事象スキャナ１０３
が更新された動きのグラフを連続的に読取り、あらかじ
め設定された監視点によって特定される動きの事象を探
索する。こういう監視点は、ＡＶＩユーザ・インターフ
ェースからの質問と同じ形、即ち、Ｙ＝（Ｃ，Ｔ，Ｖ，
Ｒ，Ｅ）にする事が出来る。１つの監視点に対する判断
基準が満された時、事象スキャナが（警報器のような）
アクチュエータ１０５に信号を送る。この発明並びにそ
の利点を詳しく説明したが、特許請求の範囲によって定
められたこの発明の範囲を逸脱せずに、ここで説明した
実施例に種々の置換え及び変更を加える事が出来る事を
承知されたい。

【０１４０】以上の説明に関し、さらに以下の項目を開
示する。

【０１４１】（１）ビデオに索引をつける方法に於い
て、前記ビデオ内のビデオ物体を動きによってセグメン
ト分割し、セグメント分割されたビデオ物体並びに相次
ぐフレーム内での動きを記述するセグメント分割された
ビデオ物体の記録を作成し、前記物体の経路並びに他の
物体の経路との交差を決定して、事象の発生を検出し、
事象の発生を確認する為に索引マークを付す工程を含む
方法。

【０１４２】（２）項１記載の方法に於いて、事象の
発生を決定する工程が、物体の出現／消滅、置くこと／
取除くこと、動き／静止又は入ってくること／出てゆく
ことの内の１つ又は更に多くを決定する事を含む方法。

【０１４３】（３）項１記載の方法に於いて、前記記
録を作成する工程が、悉くのビデオ・フレームに於ける
各々の物体の寸法、形、位置、時刻の刻印及び像の記録
を作成することを含む方法。

【０１４４】（４）ビデオ内にある物体の動きからビ
デオに索引を付ける方法に於いて、動きによるセグメン
ト分割によって動く物体を検出し、物体並びにビデオ・
データの相次ぐフレームでのその動きを記述する注釈付
きの方向ぎめされた動きのグラフを作成し、交差の事象
を確認する為に前記動きのグラフに索引を付す工程を含
む方法。

【０１４５】（５）項４記載の方法に於いて、前記索
引を付す事が、規則に基づく分類方式を用いる方法。

【０１４６】（６）項４記載の方法に於いて、前記事
象が、物体の出現／消滅、置くこと／取除くこと、入っ
てくること／出てゆくこと又は動き／静止を含む方法。

【０１４７】（７）ビデオ・データの人間による解析
を助ける方法に於いて、動きによるセグメント分割によ
って動く物体を検出し、物体並びにビデオ・データの相
次ぐフレームでのその動きを記述する注釈付きの方向ぎ
めされた動きのグラフを作成し、交差の事象を確認する
為に前記動きのグラフに索引を付し、ビデオの略式の前
後関係を解析する為に、前記索引によって前記動きのグ
ラフに関係づけられたビデオ・データのクリップに質問
を付ける工程を含む方法。

【０１４８】（８）動く物体を検出する手段と、該検
出する手段に結合されていて、物体並びにビデオ・デー
タの相次ぐフレームでの動きを記述する注釈付きの方向
ぎめされた動きのグラフを作成する手段と、該作成する
手段に結合されていて、関心のある事象に従って前記動
きのグラフに索引を付す手段とを有するビデオに索引を
付ける装置。

【０１４９】（９）項８記載の装置に於いて、索引を
付ける手段が、物体の出現／消滅、置くこと／取除くこ
と、入ってくること／出てゆくこと又は動き／静止の事
象に索引を付す装置。

【０１５０】（１０）監視カメラ１１からのビデオ内
の動く物体は、動きセグメント分割装置２１により、動
きセグメント分割方法を用いてビデオ・シーケンス内で
検出される。物体が、物体追跡装置２２にあるセグメン
ト分割されたデータを通じて追跡される。物体並びにそ
の動きを記述する注釈を付したグラフの形で、ビデオの
記号表示が発生される。動き解析装置２３が物体を追跡
した結果を解析し、幾つかの事象を記述する索引をグラ
フの動きに注釈として付ける。その後、物体の出現／消
滅、置くこと／取去ること、入ってくること／出てゆく
こと及び動き／静止のような関心のある事象を確認する
為の規則に基づいた分類方式を用いて、索引が付けられ
る。空間−時間的な質問並びに事象及び物体に基づく質
問によって定められたビデオのクリップが呼出されて、
所望のビデオを見せる。

【図面の簡単な説明】

【図１】この発明の一実施例に従ってあらかじめ記録さ
れたビデオに自動的に索引を付ける装置の全体図。

【図２】各々の像の下にフレーム番号を付した一連のビ
デオ・フレーム・シーケンス（試験シーケンス１）を示
す図。

【図３】「全ての物を置く事象を示せ」という質問を満
たすビデオ・シーケンス内の点を示す図。

【図４】ビデオ・データ、動きのセグメント分割及びビ
デオ・メタ情報の間の関係を示す図。

【図５】自動ビデオ索引装置のアーキテクチャーを示す
図。

【図６】動きセグメント分割装置を示す図。

【図７】動きのセグメント分割の例を示し、（ａ）は基
準画像Ｉ₀、（ｂ）画像Ｉ_n、（ｃ）絶対的な差｜Ｄ_n
＝Ｉ_n−Ｉ₀｜、（ｄ）閾値画像Ｔ_h、（ｅ）形態学的
な閉じ操作の結果、（ｆ）連結された構成要素の解析結
果。

【図８】露出された背景領域を見込んで修正されたテレ
ビ・カメラからの基準画像の図。

【図９】１−Ｄフレームの仮説的なシーケンスに対する
物体追跡段の出力を示しており、“Ｆ_n”とを記した垂
直線がフレーム番号ｎを表わし、１次リンクは実線、２
次リンクは破線で示してある。

【図１０】１−Ｄフレームのシーケンスに対する一例の
動きのグラフを示す図。

【図１１】ステムの図。

【図１２】ブランチの図。

【図１３】トレイルの図。

【図１４】トラックの図。

【図１５】トレースの図。

【図１６】図１０に索引規則を適用した結果を示す。

【図１７】質問Ｙ＝（Ｃ，Ｔ，Ｖ，Ｒ，Ｅ）を表わすグ
ラフ。

【図１８】時間的な制約の処理を示す図。

【図１９】物体に基づく制約の処理を示す図。

【図２０】空間的な制約の処理を示す図。

【図２１】事象に基づく制約の処理を示す図。

【図２２】ＧＵＩの「再生」部分の映像を示す図。

【図２３】質問インターフェースの図。

【図２４】ビデオ・クリップａ，ｂ，ｃ，ｄを備えた先
進的な質問を用いるビデオ内容の解析を示す図。

【図２５】試験シーケンス２のフレームを示す図。

【図２６】試験シーケンス３のフレームを示す図。

【図２７】実時間装置におけるビデオ索引を示す図。

【符号の説明】

１１カメラ１３視覚装置１５データベース１７ユーザ・インターフェース１９モニタ２１動きセグメント分割装置２２物体追跡装置２３動き解析装置

【手続補正書】

【提出日】平成９年６月１１日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】図面の簡単な説明

【補正方法】変更

【補正内容】

【図面の簡単な説明】

【図２】各々の像の下にフレーム番号を付した一連のビ
デオ・フレーム・シーケンス（試験シーケンス１）を示
すディスプレー上に表示した中間調画像の写真。

【図３】「全ての物を置く事象を示せ」という質問を満
たすビデオ・シーケンス内の点を示すディスプレー上に
表示した中間調画像の写真。

【図４】ビデオ・データ、動きのセグメント分割及びビ
デオ・メタ情報の間の関係を示すディスプレー上に表示
した中間調画像の写真。

【図６】動きセグメント分割装置を示す図。

【図７】動きのセグメント分割の例を示すディスプレー
上に表示した中間調画像の写真であって、（ａ）は基準
画像Ｉ_０、（ｂ）画像Ｉ_ｎ、（ｃ）絶対的な差｜Ｄｎ＝
Ｉ_ｎ−Ｉ_０｜、（ｄ）閾値画像Ｔ_ｈ、（ｅ）形態学的な
閉じ操作の結果、（ｆ）連結された構成要素の解析結
果。

【図８】露出された背景領域を見込んで修正されたテレ
ビ・カメラからの基準画像を示すディスプレー上に表示
した中間調画像の写真。

【図９】１−Ｄフレームの仮説的なシーケンスに対する
物体追跡段の出力を示しており、“Ｆ_ｎ”とを記した垂
直線がフレーム番号ｎを表わし、１次リンクは実線、２
次リンクは破線で示してある。

【図１１】ステムの図。

【図１２】ブランチの図。

【図１３】トレイルの図。

【図１４】トラックの図。

【図１５】トレースの図。

【図１６】図１０に索引規則を適用した結果を示す図。

【図１８】時間的な制約の処理を示す図。

【図１９】物体に基づく制約の処理を示す図。

【図２０】空間的な制約の処理を示す図。

【図２１】事象に基づく制約の処理を示す図。

【図２２】ＧＵＩの「再生」部分の映像を示すディスプ
レー上に表示した中間調画像の写真。

【図２３】質問インターフェースの図。

【図２４】ビデオ・クリップａ，ｂ，ｃ，ｄを備えた先
進的な質問を用いるビデオ内容の解析を示すディスプレ
ー上に表示した中間調画像の写真。

【図２５】試験シーケンス２のフレームを示すディスプ
レー上に表示した中間調画像の写真。

【図２６】試験シーケンス３のフレームを示すディスプ
レー上に表示した中間調画像の写真。

【図２７】実時間装置におけるビデオ索引を示す図。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｈ０４Ｎ 7/18 Ｇ０６Ｆ 15/62 ３４０Ａ

Claims

【特許請求の範囲】

【請求項１】ビデオに索引をつける方法に於いて、前記ビデオ内のビデオ物体を動きによってセグメント分
割し、セグメント分割されたビデオ物体並びに相次ぐフレーム
内での動きを記述するセグメント分割されたビデオ物体
の記録を作成し、前記物体の経路並びに他の物体の経路との交差を決定し
て、事象の発生を検出し、事象の発生を確認する為に索引マークを付す工程を含む
方法。
【請求項２】動く物体を検出する手段と、該検出する手段に結合されていて、物体並びにビデオ・
データの相次ぐフレームでの動きを記述する注釈付きの
方向ぎめされた動きのグラフを作成する手段と、該作成する手段に結合されていて、関心のある事象に従
って前記動きのグラフに索引を付す手段と、を有するビデオに索引を付ける装置。