JP4870803B2

JP4870803B2 - ビデオモーション検出方法

Info

Publication number: JP4870803B2
Application number: JP2009223561A
Authority: JP
Inventors: アルムブラドヨハン
Original assignee: アクシスアーベー
Priority date: 2008-09-26
Filing date: 2009-09-28
Publication date: 2012-02-08
Anticipated expiration: 2029-09-28
Also published as: CN101685543B; TWI405150B; TW201013578A; US20100080477A1; JP2010079910A; KR101223424B1; US8121424B2; CN101685543A; EP2172903B1; KR20100035616A; EP2172903A1

Description

本開示は、ビデオ分析に関し、特にビデオ内のモーションを検出する方法、コンピュータプログラム及びカメラに関する。

ビデオ分析は、デスクトップコンピュータシステムにおいてビデオを符号化し、そして復号化する操作以外の操作として行なわれようになっている。ビデオ分析は、静止画像及びビデオ画像のコンテンツを分析する手法であり、そして正しいフレームレート、解像度などを導出する操作以外の操作として使用される。ビデオ分析では、画像及びビデオが、画像（群）に含まれるアイテムのモーションのようなコンテンツに関して分析される。多くの場合、ビデオのうちの注目されない部分を廃棄するとともに、他の部分を詳細に分析して、モーションのような関連情報を抽出する。

詳細には、モーション検出では、ビデオシーケンスに含まれ、かつ画像空間内で動いている画像の空間領域を同定する。この操作では、例えば揺れている木、及び動いている影を同定することができるが、照明の変化、または画像のノイズを同定することはできない。モーション検出の問題は、全ての先行フレーム内で静止しているビデオの領域が急に、一つのフレームから次のフレームに移行するときに動くような状況によって一層複雑になる。逆の問題も起こり得る、すなわち多くのフレームにおいて動いている領域が急に停止する可能性がある。

現時点で利用することができる多くのモーション検出方法及びシステムでは、モーションではなく、変化を検出する。これらの方法では単に、フレーム間における、または現フレームと一連の先行フレームとの間における画像の一つの領域の差をサーチするに過ぎない。例えば、背景減算法では、背景または基準画像を、ビデオに含まれる一連の先行フレームから、例えば無限インパルス応答（ＩｎｆｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ：ＩＩＲ）フィルタを使用して作成する。次に、検出を一つの閾値を現画像と当該背景または当該基準画像との絶対値差に適用することにより行なう。当該閾値は、簡単なバイナリ関数とすることができ、このバイナリ関数では、結果は、差が閾値を超える場合に「１」となり、そして他の場合には「０」となる。

他の方法では、背景のモデル化を、例えば平均及び分散値を有するガウス分布を使用して試みる。ガウス混合モデルでは、各ピクセルを幾つかのガウス分布で表わし、そして各ガウス分布に、当該分布の分散及び当該分布が何回観察されるかに基づいて重み付けする。ピクセルの重みが小さくなって所定の閾値を下回るということがない場合に、背景モデル内に収まることがないピクセルは、モーション情報を含む可能性のある前景ピクセルであると考えられる。

本願発明者が認識しているように、変化を検出する方法、及び背景画像のモデル化を試みる方法はともに、照明の変化の影響を非常に受け易い。これらの方法ではどうしても、個々のピクセルを処理しながら、「真の」画像変化と照明の影響との違いを見分けるということができない。

更に、本願発明者が認識していることであるが、普通、動いている画像領域の速度を決定する、オプティカルフローのような２つの連続する画像のみを比較することにより行なわれるモーション推定方法は、非常に大きな計算能力を必要とする、不正確である、または非常に大きな計算能力を必要とし、かつ不正確である。２つよりも多くの連続する画像を分析する場合には、必要とされる計算能力は極めて大きくなるために、実用面では役に立たない。

現在利用することができるほとんどの空間−時間フィルタは、画像を個々に分析し、そしてこれらのフィルタは、高レベルモデルを使用して、時間的な変化を処理し、そしてビデオを空間的かつ時間的に同時に処理する幾つかの空間−時間アルゴリズムは、極めて大きい計算能力を必要とするので、リアルタイムな埋め込み処理を行なうことができない。

これまでの説明を鑑みて、本開示の目的は、モーションを、大きな照明の変化が生じている環境の中に正しく同定し、そして同定する操作を効率的に行なうことができるビデオモーション検出方法、コンピュータプログラム及びカメラを提供することにある。

例示的なビデオモーション検出方法では、一つのビデオの複数の画像を合成して、一つの画像ボリュームとする。複数の画像の各画像は複数のピクセルを含み、そして当該画像ボリュームは、幅に対応する次元Ｘ、高さに対応する次元Ｙ及び奥行きに対応する次元ｔを有する。形成された後、当該画像ボリュームを（Ｘ、ｔ）平面に沿ってスライスし、そして対数変換を適宜、各ピクセルに対して行なって、反射率成分を照明光成分から分離する。

次に、空間−時間フィルタをスライスされた画像ボリュームに適用して、フィルタリング結果を生成する。フィルタリングの後、フィルタリング結果の絶対値を閾値関数と比較して、明確な空間−時間エッジを含むバイナリ画像を生成する。最後に、当該バイナリ画像をピクセル群の少なくとも一つの連結ストリングに関してサーチする。複数の軸のうちのどの軸にも平行ではないピクセル群の連結ストリングがモーションを表わしている。

本発明に対する、そして本発明に付随する利点の多くに対する更に完全な理解は、以下の詳細な説明を添付の図面に関連付けて考察しながら参照することにより本発明及び利点を一層深く理解することができるようになるので容易に得られると思われる。

本発明の一つの実施形態によるネットワークカメラのブロック図である。本開示の例示的な実施形態による監視センターコンピュータ、またはクライアントコンピュータのブロック図である。本発明の一つの実施形態による監視システムのブロック図である。画像をビデオシーケンスから収集する例である。本開示の例示的な実施形態によるスライスされた画像ボリュームである。本開示の例示的な実施形態によるスライスされた画像ボリュームであり、この画像ボリュームは、空間−時間フィルタでフィルタリングされている。本開示の例示的な実施形態によるスライスされた画像ボリュームであり、この画像ボリュームには、閾値がフィルタリング後に適用されている。本開示の例示的な実施形態によるラスタライズして得られる一連のサーチラインである。本開示の例示的な実施形態によるビデオモーション検出方法のフローチャートである。本開示の例示的な実施形態による（Ｘ、ｔ）平面におけるサーチのフローチャートである。本開示の例示的な実施形態による（Ｙ、ｔ）平面におけるサーチのフローチャートである。

次に、同様の参照番号が同じ、または対応する構成要素を幾つかの図を通じて指している図面を参照する。図１は、本発明による、画像を撮影するために使用することができるネットワークカメラ１０（またはＩＰ−カメラ）のブロック図である。しかしながら、更に広い意味では、カメラ１０は、画像シーケンスを生成し、そして画像シーケンスを、または例えば、画像メタデータのような画像シーケンスの画像データを、ネットワーク（専用、公衆、またはハイブリッド）を介してユーザクライアント（図３の５１）に送信することができる、いずれのデジタルカメラとすることもできる。本文における「ｖｉｄｅｏ」という用語は、従来の動画に限定されず、時間系列で（１フレーム／秒、１フレーム／２秒などのような）撮影される静止フレームも含む。ネットワークカメラ１０は、この実施形態ではプロセッサ１９上でソフトウェアプロセスとして実行されるものとして示されるローカルビデオ分析モジュール２０を含む。しかしながら、ハードウェアモジュール、ファームウェアモジュール、またはハイブリッドモジュールを使用することもできる。

ネットワークカメラ１０は、入射光を収集するレンズシステム１２と、入射光を計測するイメージセンサ１３、例えば電荷結合装置（ＣＣＤ）、ＣＭＯＳ−センサ、または類似のセンサと、画像処理モジュール１５（ハードウェアアプローチ、ソフトウェアアプローチ、またはハイブリッドアプローチで実装される）、画像／ビデオエンコーダ２１と、例えばビデオ分析２０を管理するＣＰＵ１９と、メモリ１７と、そしてネットワークインターフェース２２と、を含む。イメージセンサ１３は、赤外放射線を検出するＩＲ−センサとすることもできる。画像／ビデオエンコーダ２１は、撮影デジタル画像データを符号化して、連続するビデオシーケンス、制限されたビデオシーケンス、静止画像、またはストリーム化された画像／ビデオに対応する複数の公知の形式のうちのいずれか一つの形式にするように構成される。例えば、画像情報を符号化して、ＭＰＥＧ１形式、ＭＰＥＧ２形式、ＭＰＥＧ４形式、Ｈ．２６４形式、ＪＰＥＧ形式、Ｍ−ＪＰＥＧ形式、ビットマップ形式などにすることができる。

アナログ画像シーケンスを生成することができるアナログカメラ（図３に示す５４）及びビデオサーバまたはビデオエンコーダのようなコンバータ５７をネットワークカメラ１０に使用する、またはネットワークカメラ１０の代わりに使用することができる。コンバータは、アナログカメラ５４からのアナログ画像シーケンスをデジタル画像シーケンスまたは画像データに変換し、そしてデジタル画像シーケンスまたは画像データをネットワークに供給する。この場合、ビデオ／画像符号化、及びローカル分析は、コンバータにおいて行なわれる。

図２は、本発明によるクライアントコンピュータまたは監視センターコンピュータの模式図である。コンピュータ１３０はコンピューティングデバイス１００を含み、このコンピューティングデバイス１００には、キーボード１１２、ポインティングデバイス１１１、ビデオ取得ユニット１１３、及びディスプレイ１１０が接続される。

コンピューティングデバイス１００は、制御プロセスを実行し、そしてメインメモリ１０５と連動して、処理対象データの一時的な保存を行なうプロセッサ１０１と、そしてプロセッサ１０１が実行する命令を格納するＲＯＭ１０６と、を含む。ディスクコントローラ１０７は、少なくとも一つのディスク１０８及びＣＤ−ＲＯＭ１０９を制御し、これらのディスク１０８及びＣＤ−ＲＯＭ１０９には、ビデオシーケンスを処理前後に保存することができる。ディスプレイコントローラ１０４を使用して外部ディスプレイ１１０を制御し、そしてＩ／Ｏインターフェースを使用して、キーボード１１２、ポインティングデバイス１１１及びビデオ取得ユニット１１３のような他の外部デバイスを制御する。バス１０３はこれらのコンポーネントの全てを相互接続する。

コンピューティングデバイス１００は、例えばペンティアム（登録商標）プロセッサを搭載するＰＣとすることができる。ＲＯＭ１０６に格納される命令セットは、オペレーティングシステムのユーティリティアプリケーション、バックグラウンドデーモン、またはコンポーネントとして、或いはＶＩＳＴＡ、Ｕｎｉｘ（登録商標）、ＳＯＬＡＲＩＳ、ＬＩＮＵＸ、ＡＰＰＬＥＭＡＣ−ＯＳ及びこの技術分野の当業者に公知の他のシステムのようなプロセッサ／オペレーティングシステムと連動して実行される上に挙げた要素の組み合わせとして提供することができる。

コンピューティングデバイス１００のメインメモリ１０５は、ＰＣに内蔵されるダイナミックまたはスタティックランダムアクセスメモリ（ＲＡＭ）とすることができる、またはＦＬＡＳＨ、ＥＥＰＲＯＭ、光ディスク、サーバなどのような他のメモリデバイスとすることができる。更に、メインメモリ１０５の少なくとも一部は、ビデオモーション検出システムから取り外し可能とすることもできる。

ビデオモーション検出システムは、ＦＰＧＡ、ＡＳＩＣ、マイクロコントローラ、ＰＬＤ、または他のこのような処理デバイス（プロセッサ）のようなハードウェアデバイスで実現することもできる。

ビデオ取得ユニット１１３の例として、ビデオカメラ、ビデオカセットレコーダ（ＶＣＲ）、デジタル多用途ディスク（ＤＶＤ）レコーダなどを挙げることができる。ポインティングデバイス１１１の例として、マウス、トラックボール、タッチパッドなどを挙げることができ、そしてディスプレイ１１０は、例えばビデオモニタとすることができる。

図３に示すように、ネットワークカメラ１０は、プライベートネットワークを介して自律的に接続することができる、または公衆ネットワークを介して一つ以上のユーザクライアント５１に離れた場所から接続することができる。ネットワークカメラのネットワークインターフェースによって、カメラとユーザクライアントとの間で、画像またはビデオだけでなく、パン／チルト／ズーム機構、オーディオ設定、画像設定、及びビデオ設定などの制御データの授受が可能になる。ユーザクライアント５１は、例えば監視センター５２、クライアントコンピュータ５１とすることができる、またはネットワークビデオレコーダ（ＮＶＲ）５３は、カメラからの画像シーケンスを保存し、操作し、そして／または中継するサーバとすることができる。図３は、モニタリングカメラと相互作用することができる異なるユーザクライアントを示すために用いられる。ネットワークカメラは、一つよりも多くのユーザクライアントが、例えば画像及びビデオの提供を受けるために利用することができる。

モーション検出のようなビデオ分析アプリケーションは、ネットワークカメラ１０またはアナログカメラ５４で撮影した画像シーケンスの画像の分析に基づいて実行される。画像の分析は、ネットワークカメラにおいて、監視センター５２において、クライアントコンピュータ５１において、またはＮＶＲ５３において実行することができる。しかしながら、ビデオ分析をネットワークカメラ１０において、またはコンバータ５７において実行すると有利であるが、その理由は、ビデオ分析を、ネットワークに、極めて大きな帯域を使用するトラフィックを流すことなく行なうことができるからである。従って、この利点は、ユーザが、ユーザに継続的に画像シーケンスを提供する状況に関心を持つことがないアプリケーションに特に関連して得られ、例えばカメラビューに何か変化があった場合にのみユーザに画像シーケンスを提供するアプリケーションにおいて得られる。ビデオ分析アプリケーションがネットワークカメラ１０またはコンバータ５７に搭載される場合、メタデータ、すなわち画像に関するデータ（例えば、画像シーケンスの内容を記述するデータのような）の抽出が可能になる。従って、カメラからユーザに転送される画像シーケンスは、メタデータに所定の条件の下で（例えば、アラームが発生しない場合に）置き換えることができる。画像シーケンスを継続的に送信することがないシステムを提供することにより、帯域を節約することができる、またはシステムのスケーラビリティを容易にすることができるが、その理由は、更に別のネットワークカメラをこのようなシステムに搭載することが一層容易になるからである。しかしながら、別の実施形態は、ビデオ分析を実行するクライアントコンピュータ５１及び／又は監視センター５２を有する。

次に、図１のビデオモーション検出システムで実行することができるビデオモーション検出方法について説明する。

図４は、例えばビデオモーション検出システムのビデオ取得ユニット１１３で撮影したビデオシーケンス２００の収集画像２０１である。この非制限的な例では、ビデオシーケンス２００に映っている対象には、人物２０２と、ジャケット２０４と、そして垂直柱２０３と、が含まれる。勿論、この技術分野の当業者が理解することができることであるが、本方法では、他の対象物を含む画像を処理することもできる。更に、これらの画像２０１は、直近の画像が他の画像の前面に表示されるように、または直近の画像が他の画像の全ての画像の後方に表示されるように配置することができる。

図４及び５では、ビデオシーケンス２００のこれらの画像２０１を合成して、一つの画像ボリューム３００を形成する。ビデオシーケンス２００は、Ｎを３以上とする場合に、画像２０１Ｉ_１、Ｉ_２、．．．、Ｉ_Ｎを含む。次に、画像ボリューム３００を（Ｘ、ｔ）平面に沿ってスライスして、２つの画像ボリューム部分３０１及び３０２を形成する。しかしながら、画像ボリューム３００は、本開示の範囲から逸脱しない範囲で、（Ｙ、ｔ）平面に沿ってスライスすることもできる。

画像ボリューム３０１の上側部分は柱３０５と、人物３０３と、そして少なくとも１本の黒色水平ライン３０４（Ｙ軸に平行な）と、を含む。柱３０５は静止しているので、ｔ軸（すなわち時間軸）に平行なラインを形成する。しかしながら、人物３０３は、ビデオシーケンス２００を取得している間に移動してしまっている。その結果、人物３０３は、いずれの軸にも平行とはならない曲線を画像ボリューム部分３０１の上側部分に沿って形成する。

黒色水平ライン３０４は照明の変化を表わす。例えば、ライン３０４は、照明を消した結果である。しかしながら、本願発明者が認識しているように、このような照明の変化は必ず、Ｘ軸またはＹ軸に平行であるので、モーションではなく照明の変化として容易に識別することができ、そして抑圧することができる。照明の変化のこのような抑圧は、差分検出法またはモーション推定法では行なうことができない。

画像ボリューム３００をスライスして画像ボリューム部分３０１及び３０２とした後、対数変換を２つの画像ボリューム部分３０１及び３０２の各ピクセルに対して行なって、反射率成分及び照明光成分を分離する。任意であるが、照明光成分は、高帯域通過フィルタリングを画像ボリューム３００のピクセル群に施すことにより抑圧することができる。

次に、画像ボリューム３００を、空間−時間フィルタでフィルタリングして、図６の画像ボリューム４００を生成する。空間−時間フィルタはエッジ強調フィルタである。従って、空間−時間フィルタで人物４０３及び柱４０４のエッジを強調する。

例えば、空間−時間フィルタリングは、３ｘ３ソベル（Ｓｏｂｅｌ）フィルタカーネルを使用して行なうことができる。更に、空間−時間フィルタリングは、米国特許出願第６１／１００，５７５号に記載される方法を使用して行なうこともでき、この特許出願では、シングルインストラクションマルチデータ（ＳＩＭＤ）命令を用いて、ピクセル当たりビット数を、フィルタリング処理全体を通じて一定に保持しながら複数のピクセルを同時に処理している。

空間−時間フィルタでフィルタリングした後、またはフィルタの一部として一緒に、閾値関数を画像ボリューム４００のピクセル群に適用してデータ削減する。図７は、結果として得られる画像ボリューム５００である。閾値関数はエッジを更に、各ピクセルをバイナリ表示することにより強調する。例えば、所定の閾値（例えば、≧５０％階調値）を満たすピクセル群に値「１」（黒）を付与し、そして当該閾値を下回るピクセル群に値「０」（白）を付与する。画像ボリューム５００では、人物５０３を定義するエッジは、柱５０４を定義するエッジと同じように、これらのエッジの周囲から明瞭に区別される。これにより、画像のサーチを以下に説明するように更に高い効率で行なうことができるが、その理由は、各ピクセルがこの時点で、「１」または「０」によってのみ表示されるからである。

図８は、（Ｘ、ｔ）平面における画像部分６００であり、この画像部分は、上に説明したように処理されている。ピクセル６０１は、この例では、スタートピクセルとして識別される。ピクセル６０１から、ラスタライズされたサーチライン６０２ａ、６０２ｂ、６０３ａ、６０３ｂ、６０４ａ及び６０４ｂが画像部分６００のエッジまで延びる。サーチ処理では、ピクセルストリング群を、全てが値「１」を有する（すなわち、全てが黒である）サーチライン群に沿って識別する。ピクセルストリングを所定の長さ（サーチ対象の画像を直線的に横切って配置されるピクセル群の数、または３、５、８（図示の）または１０ピクセルのような特定の数）とすることにより、本方法で当該ストリングを、モーションを表わしているとして識別する必要がある。例えば、一つのストリングは、サーチ対象の画像部分６００と同じ長さとする必要があり、この長さは、この例では、最大８ピクセルである。しかしながら、これよりも短い、または長いストリングサイズを本実施形態において使用することもできる。更に、ストリングが１箇所で途切れているだけで十分、ストリングをアーチファクト、ノイズなどとして無視することができる。

サーチ対象の画像部分６００のサイズによって、モーション識別の精度及びノイズ脆弱性が決まる。面積が小さい（一つの方向の３ピクセルまたは２ピクセルのような）場合、より肯定的な検出結果が得られる可能性が高くなるが、これらの検出結果は、相対的に長い検出ストリングよりも、ノイズによる劣化の影響を更に受け易くなる。相対的に大きい（例えば、一つの方向の８、９または１０個の範囲のピクセルを有する領域）画像部分６００は、ノイズ外乱の影響を受け難いが、この画像部分６００からは、より少ない数の結果しか得られない。しかしながら、相対的に長く、かつ途切れのないストリングに対応する肯定的な検出結果は必ず、相対的に短いストリングよりも信頼性の高い検出情報を提供する。

更に、サーチライン（６０２ａ、６０２ｂ、６０３ａ、６０３ｂ、６０４ａ及び６０４ｂ）に対応する角度は、或る範囲（例えば、３０°乃至６０°）で変化させることができるので、異なる速度のモーションを検出することができる。

図９は、上に説明したプロセスのフローチャートである。ステップＳ１では、ビデオシーケンス２００の複数の画像２０１を合成して一つの画像ボリューム３００とする。画像ボリューム３００を（Ｘ、ｔ）平面または（Ｙ、ｔ）平面のうちの一方の平面に沿ってステップＳ２でスライスする。画像ボリューム３００にステップＳ３で対数変換を施し、そしてステップＳ４において、空間−時間フィルタでフィルタリングして、フィルタリング済み画像ボリューム４００を生成する。閾値関数をフィルタリング済み画像ボリューム４００にステップＳ５で適用し、そしてモーションの検出（（Ｘ、ｔ）または（Ｙ、ｔ）のいずれかにおける）をステップＳ６で行なう。スライシングの方向を（Ｘ、ｔ）から（Ｙ、ｔ）に変え、そして（Ｙ、ｔ）から（Ｘ、ｔ）に変えることにより、完全なモーション検出分析をビデオシーケンスに対して行なう。

図１０は、スライス処理を（Ｘ、ｔ）平面に沿って行なう場合の図９のステップＳ６において行なわれる検出のフローチャートである。Ｓ１０では、値「１」を有するピクセルをスタートポイントとして選択する。位置（Ｘ＋ｉ、ｔ＋ｊ）の隣接ピクセルを調査して、当該ピクセルの値が「１」または「０」のいずれであるかをステップＳ１１で判断する。当該ピクセルの値が「１」である場合、このピクセルを新規のスタートポイントとしてステップＳ１２で選択し、そして値「１」で識別された隣接ピクセル群の数を追跡し続けるカウンタをステップＳ１３でインクリメントする。次に、ステップＳ１１乃至Ｓ１３を、サーチライン全体がサーチされるまで繰り返す。

インデックス変数ｉ及びｊを１または２だけインクリメントして、図８のサーチラインを引く。例えば、サーチライン６０２ｂは、ｉに対応するインクリメントが２であり、かつｊに対応するインクリメントが１である場合に設定される。サーチライン６０３ｂは、ｉ及びｊの両方に対応するインクリメントが１である場合に設定され、他のサーチラインも同様にして設定される。しかしながら、ｉ及びｊに対応する他の値を用いて、異なる角度のサーチラインを引くことができる。

一旦、一つのサーチラインが完全にサーチされると、ステップＳ１４において、値「１」を有する隣接ピクセル群の数を閾値と比較し、そしてこの数が閾値を超える場合、モーションがステップＳ１５で検出される。しかしながら、この値が閾値を下回る場合、モーションは検出されない（ステップＳ１６）。サーチをサーチライン毎に、全てのサーチラインがサーチされてしまうまで繰り返し、そして次に、実行をメインループに戻す。

図１１は、（Ｙ、ｔ）方向のサーチプロセスのフローチャートである。上に説明した事例におけるように、値１を有するピクセルをスタートポイントとしてＳ２０で選択する。次の隣接ピクセル（Ｙ＋ｉ、ｔ＋ｊ）を調査して、当該ピクセルの値が「１」または「０」のいずれであるかをステップＳ２１で判断する。「１」であることによって、ピクセル（Ｙ＋ｉ、ｔ＋ｊ）を、次のスタートポイントとしてＳ２２で選択し、そしてピクセルカウンタをステップＳ２３でインクリメントする。一旦、一つのサーチラインが完全にサーチされてしまうと、ピクセルカウンタの値を閾値とステップＳ２４で比較する。検出はＳ２５において、この値が当該閾値を上回る場合に行なわれる。それ以外の場合、モーションは検出されない（Ｓ２６）。ステップＳ２１乃至Ｓ２３を、当該サーチラインが完全にサーチされてしまうまで繰り返す。

（Ｘ、ｔ）サーチの場合と同じように、ｉ及びｊの値を１または２とすることにより、図８のサーチラインを引くことができる。しかしながら、他の値を用いることもできる。一旦、全てのサーチラインが完全にサーチされてしまうと、制御はメインループに戻る。

上に説明したサーチを、画像エリアを拡大する同心円内で行なうことにより、精度を大きく下げることなく検出の可能性を高めることができる。軸Ｘ及びＹで定義される２次元検出エリアがあると仮定する。サーチエリアには、多数の短い検出ストリング及び長い検出ストリングが存在する。エッジを効率的に検出する方法として、長い方の検出ストリングを、分析対象エリアに注目するために使用される「シード（ｓｅｅｄｓ）」として使用することができる。更に、一旦、長い方のストリングが検出されると、当該長い方のストリングが、エッジが高い可能性で存在するという重大な発見となる。従って、一つのサーチ領域に長い検出ストリングを介して固定されると、長い検出ストリングの周りの円形エリアを、相対的に信頼度の低いサンプルに関してサーチすることができる。このサーチ方法を用いる理由は、長い方の検出ストリングが正確である可能性が高いので、実際のエッジを表わす可能性が高いからである。一つのエッジが高い信頼性でこのエリアにおいて検出されているので、当該エッジの他の部分が近傍のエリアに位置していると推測することが妥当する。つまり、検出エリアの更に遠く離れた孤立部分に位置する短い検出ストリングが、ノイズによる派生的な現象である可能性が高いので、実際のエッジが原因である可能性が高いとは言えない。

一つの実施形態では、本願発明者は、各ピクセルを１ビットで表わす利点を確認した。すなわち、検出範囲全体に亘る連続ラインは、検出エリア内の隣接する行を論理「積（ＡＮＤ）」演算することにより検出される。例えば、途切れのないストリング６０３ｂは、連続した「積（ＡＮＤ）」演算を異なるデータ行に対して（ｔ方向に）実行することにより検出することができる。従って、単純なブール（Ｂｏｏｌｅａｎ）論理を用いて、途切れのない検出ストリングが、連続した「積（ＡＮＤ）」演算を実行することにより容易に識別される。同様に、一旦、検出ストリングがエリア６００内に形成されると、十分な長さのいずれの単一ストリングの存在も、候補ストリングごとに論理「和（ＯＲ）」を行なうことにより確認することができる。従って、いずれか一つのストリングが存在する場合、「和（ＯＲ）」演算の結果は、十分な長さのストリングがエリア６００内に存在し、従ってエッジが存在し、そしてピクセル６０１を含むことを示唆する。

本実施形態では、ピクセル当たり１ビットの割合で表現する手法について説明したが、ワード当たり複数ピクセルの割合で表現する、例えばワード当たり３２ピクセルの割合で表現する手法を取り入れることも可能である。この事例では、並列サーチは、斜めのストリングに対してピクセル６０１から始まるようにして行なわれ、かつ当該ピクセル６０１の右側の３１個のピクセルに対して、例えばｘ軸に沿って行なわれる。この事例では、並列サーチは、斜め方向に平行に行なわれる。ピクセル当たり複数ビットの割合で表現する手法には、更に複雑な算術演算が必要となるので、処理負荷が重くなることに留意されたい。

図８は直線ストリングを示しているが、必ずしも直線ではない他のラインパターンを用いてモーションを検出することもできる。このような他のパターンとして、一つ以上の斜め線分を含む部分斜めライン、及び屈曲ラインを挙げることができる。

別の実施形態では、サーチ手順は、全てのピクセルに対して（Ｘ、Ｙ）平面において、並行して同時に行なわれる。画像ボリューム５００内の直近のエッジ画像からスタートして、次の画像との論理「積（ＡＮＤ）」を取り、次の画像はサーチラインに沿って変換され、次に最初の「積（ＡＮＤ）」演算の結果と、「積」演算を使用して論理比較されている。次に、この手順を繰り返して、所定の長さのピクセル群に対して実行する。サーチ手順は、異なる方向を有する異なるサーチラインに対して繰り返される。論理「和（ＯＲ）」演算を異なるサーチ方向の間で使用して、モーションが特定のスタートピクセルから始まるこれらのサーチラインのうちのいずれか一つのサーチラインに検出されるかどうかを判断する。このサーチ手順は、Ｘ方向の並進移動、及びＹ方向の並進移動の両方に対して行なうことができる。このサーチ手順を使用すると、明示的なスライスステップＳ２を、図９に示すプロセスにおいて行なう必要はないが、その理由は、スライス処理が本来、検出ステップＳ６において行なわれるからである。

上に説明した方法は、コンピュータプログラムとして実行することもできる、例えばコンピュータ読み取り可能な媒体に格納されるコンピュータ読み取り可能な命令の形式で実行することもできる。

従来のビデオモーション検出方法は、大きな計算負荷を必要とし、照明の変化に対して不正確である、または照明の変化の影響を受け易い。しかしながら、ビデオシーケンスを合成して一つの画像ボリュームとすることができ、そして（Ｘ、ｔ）平面または（Ｙ、ｔ）平面に沿ってスライスすることができる。本願発明者が認識しているように、このようなスライス位置におけるモーションが、どの軸（Ｘ、Ｙ、ｔ）にも平行ではない傾斜ラインとして、または曲線として現われるのに対し、照明の変化及び静止オブジェクトがこれらの軸のうちの一つの軸に平行なラインとして現われる。従って、本方法では、照明の変化を識別し、そして抑圧する、または無視することができる。

更に、本願発明者が認識しているように、ビデオシーケンスをラスタライズして得られるサーチラインに沿ってサーチすることにより、効率を現在の方法よりも高くすることができ、そしてこのサーチ自体が、エンベッデッドシステム上での実行に適するようになる。

明らかなことであるが、本発明の多数の変形及び変更が、上述の示唆を鑑みると可能である。従って、添付の請求項の技術範囲内で、本発明を本明細書に具体的に説明している形態以外の形態で実施することができることを理解されたい。

Claims

ビデオシーケンスの複数の画像を撮影するステップであって、複数の画像の各画像が複数のピクセルを含み、各ピクセルが第１のビット数によって表わされる、前記撮影するステップと；
第１のビット数を、第１のビット数よりも少ない第２のビット数に削減するステップと；
コンピュータ読み取り可能な媒体に、複数の画像を保存するステップと；
複数の画像において、所定エリアの空間−時間領域内の空間−時間エッジをサーチして得るステップと；
前記複数の画像における共通オブジェクトのモーションを検出し、一つの共通する値を前記所定エリア内に有する連結ピクセルストリング群を識別する工程と、エッジの存在を、連結ピクセル群から成る少なくとも一つのストリングが所定の長さよりも長い場合に確認する工程を含む、前記サーチ及び検出するステップと；
を含むビデオモーション検出方法。
前記連結ストリングは直線斜め方向に配置される、請求項１記載のビデオモーション検出方法。
前記連結ストリングは直線斜めライン以外の所定のパターンに配置される、請求項１記載のビデオモーション検出方法。
前記削減するステップでは、第１のビット数をピクセル当たり１ビットに削減する、請求項１乃至３のいずれかに記載のビデオモーション検出方法。
更に、それぞれのピクセルを表わすビット群を、一つの共通するデータワードに詰めて、該データワードをプロセッサが単一の演算命令で処理することができるようにするステップを含む、請求項４記載のビデオモーション検出方法。
前記確認するステップでは、連結ピクセルストリング群の少なくとも一つが、少なくとも所定エリアの奥行きと同じ長さである場合にエッジを識別する、請求項１乃至５のいずれかに記載のビデオモーション検出方法。
前記サーチステップでは、隣接するピクセルを並行してサーチする、請求項１乃至６のいずれかに記載のビデオモーション検出方法。
前記比較するステップでは、論理「積（ＡＮＤ）」演算を、前記所定エリアにおける複数セットのピクセルに対して行ない；そして
前記確認するステップでは、論理「和（ＯＲ）」演算を、前記所定エリア内の連結ピクセルストリング群に対して行なう、
請求項１乃至７のいずれかに記載のビデオモーション検出方法。
前記削減するステップでは：
対数変換を複数のピクセルに対して行なって、反射率成分を照明光成分から分離する、請求項１乃至８のいずれかに記載のビデオモーション検出方法。
該削減するステップは、空間−時間フィルタリングステップを含む、請求項１乃至９のいずれかに記載のビデオモーション検出方法。
該削減するステップでは、閾値演算を、前記空間−時間フィルタリングステップの結果の絶対値に対して行なう、請求項１０記載のビデオモーション検出方法。
コンピュータ読み取り可能な命令を含むコンピュータプログラムであって、命令をプロセッサが実行すると、コンピュータ読み取り可能な命令によってプロセッサが複数のステップを実行するようになり、これらのステップは：
ビデオシーケンスの複数の画像を撮影するステップであって、複数の画像の各画像が複数のピクセルを含み、各ピクセルが、第１のビット数によって表わされる、前記撮影するステップと；
第１のビット数を、第１のビット数よりも少ない第２のビット数に削減するステップと；
コンピュータ読み取り可能な媒体に、複数の画像を保存するステップと；
複数の画像において、所定エリアの空間−時間領域内の空間−時間エッジをサーチして得るステップと；
前記複数の画像における共通オブジェクトのモーションを検出し、一つの共通する値を前記所定エリア内に有する連結ピクセルストリング群を識別する工程と、エッジの存在を、連結ピクセル群から成る少なくとも一つのストリングが所定の長さよりも長い場合に確認する工程を含む、前記サーチ及び検出するステップと；
からなるビデオモーション検出コンピュータプログラム。
被写体を含むシーンからの光を捕捉するように構成される光学系セクションと；
前記光をビデオシーケンスの複数の画像に変換するように構成されるセンサであって、複数の画像の各画像が複数のピクセルを含み、各ピクセルが、第１のビット数によって表わされる、前記センサと；
第１のビット数を、第１のビット数よりも少ない第２のビット数に削減するように構成される画像プロセッサと；
第２のビット数を１ピクセル当たりに有する複数の画像を保存するように構成されるメモリと；
前記ピクセル群を複数の画像において、空間−時間領域で表わされる所定エリアの空間−時間エッジに関してサーチし、前記複数の画像における被写体のモーションを、一つの共通する値を前記所定エリア内に有する連結ピクセルストリング群を識別し、そしてエッジの存在を、連結ピクセル群から成る少なくとも一つのストリングが所定の長さよりも長い場合に確認することにより検出する、プロセッサと；
を備えるように構成される、ビデオモーション検出カメラ。