JP2002511617A

JP2002511617A - ビデオ画像からの顔認識

Info

Publication number: JP2002511617A
Application number: JP2000543917A
Authority: JP
Inventors: マウラー，トーマス; エラジン，イゴー・バレリビッチ; ノセラ，ルシアノ・パスクゥアレ・アゴスティーノ; ステファンズ，ヨハネス・バーナード; ネベン，ハルトムット
Original assignee: アイマティック・インターフェイシズ・インコーポレイテッド
Priority date: 1998-04-13
Filing date: 1999-04-12
Publication date: 2002-04-16
Also published as: DE69922183T2; KR20010042659A; US6301370B1; EP1072014B1; ATE283519T1; DE69940225D1; EP1072014A1; ATE419591T1; WO1999053427A1; AU3554199A; KR100653288B1; DE69922183D1; BR9909623B1; CA2326816A1; BR9909623A; CA2326816C

Abstract

(57)【要約】本発明は、画像フレームにおける物体を検出および認識するための装置および関連の方法において実施される。物体は、たとえば、特定の顔の特色を有する頭である。物体検出プロセスでは、強力かつ計算上効率的な技術を用いる。物体識別および認識プロセスは、画像の特徴をジェットとして効率的に表わすモデルグラフおよびバンチグラフに基づく。ジェットはウェーブレット変換からなり、容易に識別可能な特徴に対応する画像のノードまたはランドマークロケーションで処理される。本発明のシステムは特に、人物を広範囲の姿勢角度にわたって認識する場合に好都合である。

Description

【発明の詳細な説明】

【０００１】

【関連出願の相互参照】

本願は、米国特許法第１１９条（ｅ）（１）および米国特許法施行規則第１．
７８条（ａ）（４）に基づき、１９９８年４月１３日出願の、「VISION ARCHITE
CTURE TO DESCRIBE FEATURES OF PERSONS」と題された、米国仮出願第６０／０
８１，６１５号の優先権を主張する。

【０００２】

【発明の分野】

本発明は、視覚に基づく物体検出および追跡に関し、より特定的には、ビデオ
画像における物体、たとえば人間の顔を検出し、その物体をリアルタイムで追跡
し、識別するためのシステムに関する。

【０００３】

【発明の背景】

最近開発された物体および顔の認識技術には、弾性バンチグラフマッチングの
使用が含まれる。バンチグラフ認識技術は、解析されている画像が、画像の顔部
分がその画像のほとんどの部分を占めるように分割される場合に、顔を認識する
のに非常に効果的である。しかしながら、弾性バンチグラフ技術は、大きなシー
ンにおいて、対象となる物体がそのシーンのほんのわずかな部分しか占めない場
合に、物体を信頼性高く検出しないかもしれない。加えて、弾性バンチグラフ認
識技術をリアルタイムで使用するには、画像を分割するプロセスが計算上効率的
でなければならない。さもなければ、この認識技術の性能上の多くの利点が得ら
れない。

【０００４】したがって、ビデオ画像における物体を検出し、ビデオ画像を、バンチグラフ
マッチングプロセスにより計算上効率的な態様でさらに処理するために準備する
ための、画像処理技術が、現在非常に必要とされている。本発明はこの必要を満
たしている。

【０００５】

【発明の概要】

本発明は、画像フレームにおける物体を検出および認識するための装置および
関連の方法において実施される。物体検出プロセスは、強力かつ計算上効率的な
技術を用いる。物体識別認識プロセスは、画像の特徴をジェットとして効率的に
表わすモデルグラフおよびバンチグラフに基づいた画像処理技術を利用する。本
発明のシステムは特に、人物を、広範囲の姿勢角度にわたって認識するのに有利
である。

【０００６】本発明のある実施例において、物体が検出され、その物体と関連する画像フレ
ームの一部が、囲みボックスによって境界が示される。画像フレームの囲み部分
は、ウェーブレット変換を用いて変換され、変換された画像が生成される。代表
的な複数の物体画像から生成されたバンチグラフのウェーブレットジェットによ
り定められる物体の目立つ特徴と関連するノードの場所を、変換された画像にお
いて求める。物体は、物体画像のギャラリーにおけるある物体画像と関連するウ
ェーブレットジェットと、変換された画像のノードのウェーブレットジェットと
の類似度に基づいて、識別される。

【０００７】加えて、画像の囲み部分内で、検出された物体の大きさを定めこの物体を中心
に置くことで、検出された物体が囲み部分内で予め定められた大きさおよびロケ
ーションを有するようにしてもよく、物体認識の前に物体に関連しない画像フレ
ームの囲み部分の背景部分を抑制してもよい。この物体は、顔の領域を示す人物
の頭であることが多い。バンチグラフは、物体の３次元表現に基づくものでもよ
い。さらに、ウェーブレット変換を、ハードウェア適応位相表現を用いて行なう
位相計算を利用して行なうことができる。

【０００８】本発明のある代替実施例において、物体は画像のシーケンス内にあり、物体を
検出するステップはさらに、物体を、その物体と関連する軌道に基づき、画像フ
レーム間で追跡することを含む。また、ノードの場所を求めるステップは、ノー
ドを画像フレーム間で追跡し、追跡されたノードを、そのノードの位置が画像フ
レーム間の予め定められた位置制約を超えて逸れている場合に、再初期化するこ
とを含む。加えて、画像フレームはステレオ画像でもよく、検出するステップは
、頭の移動に関連する凸領域を検出することを含み得る。

【０００９】本発明の他の特徴および利点は、例示として本発明の原理を示す添付の図面と
関連付けられた以下の好ましい実施例の記載から、明らかになるはずである。

【００１０】

【好ましい実施例の詳細な説明】

本発明は、画像フレームにおける物体を検出および認識するための方法および
関連の装置において実施される。物体は、たとえば特定の顔の特色を有する頭で
ある。物体検出プロセスでは、強力かつ計算上効率的な技術が用いられる。物体
識別および認識プロセスでは、画像の特徴をジェットとして効率的に表わすモデ
ルグラフおよびバンチグラフに基づく画像処理技術が用いられる。ジェットは、
ウェーブレット変換からなり、容易に識別可能な特徴に対応する画像のノードま
たはランドマークロケーションで処理される。本発明のシステムは特に、人物を
種々の姿勢角度にわたって認識するのに有利である。

【００１１】本発明の画像処理システムについて、図１−３を参照して説明する。物体認識
プロセス１０は、画像処理システム１２から与えられるデジタル化されたビデオ
画像データに対して働く。画像データは、人間の顔といった物体の種類の画像を
含む。画像データは、単一のビデオ画像フレームでもよく、または、一連のシー
ケンシャルな単眼もしくはステレオ画像フレームでもよい。

【００１２】顔の画像を弾性バンチグラフ技術を用いて処理する前に、本発明に従って、画
像の中の頭を、頭検出および追跡プロセス１４を用いて、大まかに配置する。画
像データの性質次第で、頭検出モジュールは、例として、モーション、カラー、
またはサイズ（ステレオビジョン）、トポロジーまたはパターンに基づく種々の
視覚的経路のうち１つを用いる。頭検出プロセスでは、検出された頭の周りに囲
みボックスを置くことによって、ランドマーク発見プロセスによって処理しなけ
ればならない画像領域を減じる。ヘッド検出および追跡プロセスから受けたデー
タに基づき、前選択プロセス１６は、さらなる解析のために画像材料の最も適切
な眺めを選択し、ヘッド検出を精密にして頭の画像を中心に置きかつその大きさ
を定める。選択された頭の画像は、弾性バンチグラフ技術を用いて個々の顔の特
徴を検出するために、ランドマーク発見プロセス１８に与えられる。顔のランド
マークが顔の画像において発見されると、ランドマーク追跡プロセス２０を用い
てランドマークを追跡することができる。次に、ランドマークで抽出された特徴
を、識別プロセス２２によって、ギャラリー画像から抽出された対応の特徴と比
較する。この画像認識プロセスの部分は、ランドマーク発見プロセスは比較的時
間がかかりフレームレートが比較的高い一連の画像フレームに対しリアルタイム
で実施できないことがよくあるため、好都合である。しかしながら、他方、ラン
ドマーク追跡は、フレームレートよりも高速で行なうことができる。したがって
、最初のランドマーク発見プロセスの間に、バッファを新たに入来する画像フレ
ームで満たせばよい。ランドマークがの場所が求められると、ランドマーク追跡
が開始され、処理システムは、バッファが空になるまでバッファされた画像を処
理することによって、追いつくことができる。なお、前選択およびランドマーク
追跡モジュールは、顔認識プロセスから省略してもよい。

【００１３】図３において、検出、ランドマーク発見および識別プロセスのための、認識プ
ロセスのスクリーン出力が示される。左上の画像ウィンドウは、獲得した画像を
、囲んでいる矩形により示される検出された頭とともに示している。頭の画像を
中心に置き、大きさを再び定め、ランドマーク発見プロセスに与える。右上の画
像ウィンドウは、ランドマーク発見モジュールの出力を、顔のランドマークのノ
ードでマークされた顔の画像とともに示したものである。マークされた画像は、
下側のウィンドウに示されている識別されたプロセスに与えられる。左端の画像
は、識別のためにランドマーク発見プロセスから与えられた、選択された顔を表
わす。右端３つの画像は、最も似ているギャラリー画像を、類似度の順に分類し
たものであり、最も似ている顔は左端の位置にある。各ギャラリー画像には、画
像に関連するタグ（たとえばｉｄ番号および人物の名前）が添えられる。次に、
システムは、最も似ている顔に関連するタグを報告する。

【００１４】顔認識プロセスは、ステレオ画像に基づく３次元（３Ｄ）再構成プロセス２４
を用いて実現できる。３次元顔認識プロセスにより、視点に左右されない認識が
得られる。

【００１５】本発明の顔認識プロセスを実現するための画像処理システム１２を、図２に示
す。この処理システムは、デジタルビデオ画像フレームのストリームを生成する
ビデオソース２６からある人物の画像を受ける。ビデオ画像フレームは、処理の
ためにビデオランダムアクセスメモリ（ＶＲＡＭ）２８に転送される。従来のＣ
ＣＤカメラにより生成されたデジタル化画像を発生しその画像をリアルタイムで
３０Ｈｚというフレームレートでメモリに転送する、Matrox (登録商標、Dorval
, Quebec, Canada、www.matrox.com）から入手可能なMatrox Meteor IIは、申し
分のない撮像システムである。画像フレームに対する典型的な解像度は、２５６
画素×２５６画素である。画像フレームは、ＶＲＡＭおよびランダムアクセスメ
モリ（ＲＡＭ）３２に結合された中央処理装置（ＣＰＵ）３０を備える画像プロ
セッサにより処理される。ＲＡＭは、本発明の顔認識プロセスを実現するための
プログラムコード３４およびデータを記憶する。その代わりとして、画像処理シ
ステムは、特定用途ハードウェアにおいて実現されてもよい。

【００１６】頭検出プロセスについて、図４を参照してより詳細に説明する。顔の画像は、
ＶＲＡＭ２８に、単一画像３６として、画像の単眼ビデオストリーム３８として
、または、画像の両眼ビデオストリーム４０として、記憶することができる。

【００１７】単一画像の場合、処理時間は重要でないかもしれず、以下でより詳細に説明す
る弾性バンチグラフマッチングを用いて、顔を、その顔が画像の少なくとも１０
％をカバーしかつ直径が少なくとも５０画素の場合に、検出できる。顔が画像の
１０％よりも小さいまたは複数の顔がある場合は、H. A. Rowley, S. Baluja an
d T. Kanade, "Rotation Invarient Neural Network-Based Face Detection", P
roceedings Computer Vision and Pattern Recognition, 1998 に記載されてい
るように、ニューラルネットワークに基づく顔検出器を用いることができる。画
像が色情報を含む場合は、皮膚色検出プロセスを用いて顔検出の信頼度を高める
ことができる。皮膚色検出プロセスは、可能な皮膚の色を含むルックアップテー
ブルに基づくものでもよい。顔検出の信頼度を示すもので、バンチグラフマッチ
ング中にまたはニューラルネットワークにより生まれる信頼度値を、皮膚色の画
像領域に対し、高めることができる。

【００１８】画像の動きについて、毎秒少なくとも１０フレームの単眼画像ストリームを、
特にこの画像ストリームが静止背景の前で動いている人物を一人のみ含むような
場合、分析できる。頭追跡のある技術には、異なる画像を用いて、ある画像のど
の領域が動いているのかを判断することが含まれる。

【００１９】複眼画像に関して以下でより詳細に説明するように、頭が動くと、異なる画像
が、動きシルエット内に凸領域を有することが多い。画像が静止背景の前で直立
位置にある単一の人物を含む場合は、この動きシルエット技術によって容易に頭
の動きの場所を求めてこれを追跡することができる。クラスタアルゴリズムによ
り、動いている領域をクラスタにグループ化する。最低しきい値サイズおよび直
径を超える最高クラスタのトップが、ヘッドであるとみなされかつマークされる
。

【００２０】頭の動き検出のもう１つの有利な用途では、画像の動きにより影響される画素
数が最低しきい値を超えるようなときにのみ使用されるグラフマッチングを用い
る。このしきい値は、比較的時間のかかるグラフマッチング画像解析が、画像に
おける変化が新たな綿密な解析を必要とするのに十分である場合のみ行なわれる
ように、選択される。たとえば、Turk et al., "Eignefaces for Recognition",
Journal of Cognitive Neuroscience, Vol. 3, No. 1, p. 71, 1991 のように
、雑音の多い動きシルエットの凸領域を求めるために他の技術を用いてもよい。
D. J. Fleet, "Measurement of Image Velocity", Kluwer International Serie
s in Engineering and Computer Science, No. 169, 1992 に記載されているよ
うなオプチカルフロー法は、どの画像領域が変化しているかを求めるための代替
のかつ信頼できる手段をもたらすが、計算上はより集中的なものである。

【００２１】図５を参照して、信頼性がありかつ高速の頭および顔検出を、ステレオ両眼ビ
デオ画像の画像ストリームを用いて行なうことができる（ブロック５０）。ステ
レオ視野により、前景および背景物体間の区別が可能であり、かつ、これは、頭
および手といったサイズがわかっている物体の物体サイズを求めることを考慮し
ている。動きは、一連の画像における２つの画像間で、右画像チャネルおよび左
画像チャネル双方の画像に異なるルーチンを与えることによって、検出される（
ブロック５２）。双方の画像チャネルにおいて動いている画素に対しディスパリ
ティマップが計算される（ブロック５４）。次に、凸検出器がディスパリティヒ
ストグラムを用いる（ブロック５６）。これはディスパリティに対する画素数を
示す。あるディスパリティ間隔に限定されたディスパリティを有する画像領域が
、ディスパリティヒストグラムの局所最大を調べることによって選択される（ブ
ロック５８）。局所最大に関連する画素は、動きシルエットと呼ばれる。この動
きシルエットは２値画像である。

【００２２】いくつかの動きシルエットを、ひとりの人物により生じるものとしては小さす
ぎるとして、廃棄してもよい（ブロック６０）。所与の深さに関連する動きシル
エットは、人物を他の動いている物体から区別することができる（ブロック６２
）。

【００２３】動きシルエットの凸領域は（ブロック６４）、図６に示すように凸検出器によ
って検出される。凸検出器は、シルエット内の凸領域を分析する。凸検出器は、
近隣の画素を有する動きシルエットに属する画素６８が、周囲の許容領域７０内
にあるのか、または、ディスパリティの幅７２内にあるのか検査する。接続され
た許容領域は、周囲のどこかの部分に配置できる。凸検出器の出力は２値である
。

【００２４】同様に、皮膚色シルエットを用いて頭および手を検出できる。動きシルエット
、皮膚色シルエット、動きシルエットに適用される凸検出器の出力、および、皮
膚色シルエットに適用される凸検出器の出力は、異なる４つの証拠マップを提供
する。証拠マップは、ある画素が顔または手に属するという証拠を示す画像ドメ
インにわたるスカラ関数である。４つの証拠マップ各々は２値のものである。証
拠マップは、所与のディスパリティに対して線形的に重ね合わされ、局所最大に
ついて検査が行なわれる。局所最大は、頭または手を発見し得る位置の候補を示
す。次に、予期される頭の直径を、証拠マップを生み出すディスパリティマップ
の局所最大から推察する。上記のように、頭検出は、強い背景の動きがある場合
合でさえうまく機能する。

【００２５】頭追跡プロセス（ブロック４２）は、頭軌道検査を生じさせるのに用い得る頭
位置情報を発生する。図７に示すように、新たに検出された頭の位置（ブロック
７８）を、既存の頭軌道と比較することができる。細線化を行ない（ブロック８
０）、複数の近い検出を、１つの代表的な検出と置換える（ブロック８２）。新
たな位置を検査し、時空間連続性を仮定して、新たに推定された位置が既に存在
している軌道に属するかどうかを検査する（ブロック８４）。時間ｔで得たフレ
ームに対し発見されたすべての位置推定について、このアルゴリズムは、時間ｔ
−１での先行フレームに対し求めた最も近い頭位置推定を探し（ブロック８６）
、これを接続する（ブロック８８）。十分に近い推定が発見できなければ、新た
な頭が現われたと仮定し（ブロック９０）、新たな軌道が始まる。個々の推定を
軌道に接続するために、画像座標のみを用いる。

【００２６】すべての軌道には、漏れのある積分器を用いて更新される信頼度が割り当てら
れる。信頼度の値が予め定められたしきい値を下回る場合、その軌道は削除され
る（ブロック９２）。ヒステリシスメカニズムを用いて、軌道の作成および削除
を安定化させる。軌道を開始するためには（ブロック９０）、軌道を削除するよ
りも高い信頼度の値に達していなければならない。

【００２７】前選択器１６（図２）の動作により、同じ軌道に属する一連の画像から、適切
な画像を認識のために選択する。この選択は、ハードウェアの計算力が軌道の各
画像を個々に分析するのに十分でない場合に、特に好都合である。しかしながら
、利用できる計算力が発見されたすべての顔を分析するのに十分であれば、前選
択器を用いる必要がない場合もある。

【００２８】前選択器１６は、頭追跡プロセス１４から入力を受け、ランドマーク発見プロ
セス１８に出力を与える。入力は以下のとおりである。

【００２９】＊２次元バイトアレイにより表わされる、サイズ２５６×２５６画素の単眼グ
レー値画像。

【００３０】＊画像のシーケンス番号を表わす整数。この数は同じシーケンスに属するすべ
ての画像について同じである。

【００３１】＊顔を囲む正方形の囲み矩形の左上および右下隅の画素座標を表わす４つの整
数値。

【００３２】前選択器の出力は以下のとおりである。＊先行するシーケンスから選択された単眼グレー値画像。

【００３３】＊前選択器が入力として受ける矩形と比較して、より正確なやり方で顔の位置
を表わす、正方形の囲み矩形の左上および右下隅の画素座標を表わす４つの整数
値。

【００３４】図８に示すように、前選択器１６は、頭追跡プロセス１４で求めたのと同じ軌
道に属する一連の顔候補を処理する（ブロック１００）。ランドマーク発見に関
して以下で説明するように、弾性バンチグラフマッチングを、対象となる物体（
たとえばある人物の頭）を含む画像のシーケンスに適用し（ブロック１０２）、
さらなる処理のために最も適した画像を選択する（すなわちランドマーク発見／
認識）。前選択器は、各画像を品質によって評価するためにグラフマッチングを
適用する。加えて、マッチングの結果は、頭検出モジュールよりも正確な、顔の
位置およびサイズに関する情報をもたらす。マッチング手順により発生した信頼
度の値を、画像の適切度の尺度として用いる。前選択器は、画像を、その信頼度
の値が現在のシーケンスにおいて今までに測定した最高信頼度値を超えている場
合に、次のモジュールに与える（ブロック１０４−１１０）。前選択器は、検出
された画像を囲みボックスによって囲み、その画像をランドマーク発見プロセス
１８に与える。次のプロセスは、入来する各画像に対し処理を開始するが、同じ
シーケンス内で信頼度の値（前選択器によって測定されたもの）のより高い画像
が来た場合、処理を終了する。このことにより、ＣＰＵの作業負荷が増すが、予
備結果が早く得られる。

【００３５】このようにして、前選択器は、最も適切な１組の画像をさらなる処理のために
取出す。その代わりとして、前選択器は、以下のようにして画像を評価すること
ができる。

【００３６】＊後続のモジュール（たとえばランドマーカ、識別子）は、最後の、したがっ
て、前選択器が認めた最も確実な画像を、選択するために、シーケンスが終了す
るまで待つ。これにより、ＣＰＵの作業負荷は小さくなるが、最終結果（たとえ
ば認識）が得られるまで時間的な遅れがあることが示唆される。

【００３７】＊後続のモジュールは、前選択器が認めた各画像を取込み、それを個々に評価
し、最終的な選択は次のモジュールに委ねる（たとえば認識信頼度により）。こ
れによっても予備結果は早く得られる。この場合最終的な認識結果はあるシーケ
ンス内で変化し、結局のところ認識率は向上する。しかしながら、この方策では
、３つの評価選択肢の中でＣＰＵ時間量が最も多い。

【００３８】頭部の顔のランドマークおよび特徴の場所を、図９に示す弾性グラフマッチン
グ技術を用いて求めることができる。この弾性グラフマッチング技術では、捕捉
された画像（ブロック１４０）を、図１０を参照して以下でさらに詳細に説明す
るウェーブレット変換を用いて、ガボール空間に変換する（ブロック１４２）。
変換された画像（ブロック１４４）は、当初の画像の各画素につき、ウェーブレ
ット成分を表わす４０の複素値によって表現される。次に、図１２を参照して以
下でさらに詳細に説明するモデルグラフのハードコピーを、変換された画像の上
の、変化するモデルノード位置に位置決めし、最適類似度の位置を求める（ブロ
ック１４６）。最適類似度の探索は、モデルグラフを画像の左上隅に位置決めし
、ノードにあるジェットを抽出し、画像グラフとモデルグラフとの間の類似度を
求めることによって行なうことができる。この探索は、モデルグラフを、画像の
左上隅から始めて左から右へとスライドさせることによって続けられる（ブロッ
ク１４８）。顔のおおよその位置がわかると（ブロック１５０）、ノードを個別
に動かして弾性グラフ歪みを導入する（ブロック１５２）。うまくマッチングす
る場所を求めるために、以下で述べる位相の影響を受けない類似度関数を用いる
（ブロック１５４）。次に、位相の影響を受ける類似度関数を用いて、正確にジ
ェットの場所を発見する。その理由は、位相がジェットの小さな変位の影響を大
きくうけるからである。位相の影響を受けない類似度関数および位相の影響を受
ける類似度関数については、図１０−１３を参照して以下で説明する。なお、図
９では当初の画像に関するグラフが示されているが、モデルグラフの移動および
マッチングは、実際には変換された画像に対して行なわれる。

【００３９】ウェーブレット変換について図１０を参照して説明する。当初の画像をガボー
ルウェーブレットを用いて処理し、畳込みの結果を得る。ガボールに基づくウェ
ーブレットは、ガウスエンベロープにより変調された２次元の複合波フィールド
からなる。

【００４０】

【数１】

【００４１】ウェーブレットは、ガウス窓により制限される、波数ベクトルｋ→（記号→は
本来ｋの上に示されるものである。以下の表記も同様。）の平面波であり、波長
に対するその大きさは、σによりパラメータ化される。括弧内の項はＤＣ成分を
除去する。波数ベクトルｋの振幅は以下のようにして選択できる。式中νは所望
の空間解像度に関連する。

【００４２】

【数２】

【００４３】典型的には、波数ベクトルｋ→の空間を、解像度レベルが５（２分の１オクタ
ーブずつ異なる）および各解像度レベルでの配向が８の離散階層構造において（
例として図１３参照）サンプリングすることにより、サンプリングされた画像ポ
イント各々に対し４０の複素値を生成する。（実成分および虚成分は平面波の正
弦および余弦相を指す。）ｋ−空間におけるサンプルは、インデックスｊ＝１、
…、４０で指定され、１つの画像ポイントを中心とするすべてのウェーブレット
成分は、ジェット６０と呼ばれるベクトルとみなされる。各ジェットは、ｘ→を
囲む領域の局所的な特徴を記述する。サンプリングの際の密度が十分であれば、
画像を、サンプリングされた周波数によりカバーされる帯域内のジェットから再
構成できる。このように、あるジェットの各成分は、画像のポイント（ｘ，ｙ）
で抽出されたガボールウェーブレットのフィルタ応答である。

【００４４】図１１に示す１６２で示した画像グラフを用いて物体の外観を記述する（この
コンテクストでは顔）。この番号で示されたグラフのノード１６４は、物体上の
ポイントを指し、ジェット１６０として示される。グラフのエッジ１６６は、ノ
ード間の距離ベクトルで示される。ノードおよびエッジはグラフトポロジーを定
める。ジオメトリが等しいグラフを比較することができる。２つのジェットの絶
対成分の正規化ドット積が、ジェット類似度を定める。この値は照度およびコン
ラストの変化と無関係である。２つのグラフ間の類似度を計算するために、グラ
フ間の対応するジェットの類似度に対して和を取る。

【００４５】画像における人間の顔を発見するために具体的に指定されるモデルグラフ１６
８を図１２に示す。グラフにおいて数字が付されたノードは以下のロケーション
を有する。

【００４６】０右の瞳１左の瞳２鼻の上端３右眉の右隅４右眉の左隅５左眉の右隅６左眉の左隅７右の鼻孔８鼻尖９左の鼻孔１０口の右隅１１上唇の中心１２口の左隅１３下唇の中心１４右耳の下部１５右耳の上部１６左耳の上部１７左耳の下部顔を表わすために、バンチグラフ１７０と呼ばれるデータ構造を用いる。これは
上記のグラフと似ているが、各ノードに対しジェットを１つだけ設ける代わりに
、ジェットのバンチ（束）全体７２（バンチジェット）を各ノードに設ける。各
ジェットは異なる顔の画像から得たものである。バンチグラフを形成するために
、顔の画像のコレクション（バンチグラフギャラリー）を、頭の規定された位置
のノードロケーションでマークする。この規定された位置はランドマークと呼ば
れる。バンチグラフと画像とのマッチングの際、画像から抽出された各ジェット
を、バンチグラフに設けられた対応のバンチにおけるすべてのジェットと比較し
、最もよくマッチングしているもの１つを選択する。このマッチングプロセスは
、弾性バンチグラフマッチングと呼ばれる。バンチグラフは、慎重に選択したギ
ャラリーを用いて構成されると、局所的性質が大きく異なる多岐にわたる顔をカ
バーする。

【００４７】画像における顔を発見するために、グラフが最もよくマッチングしている場所
を発見するまで、画像フレームの上でグラフを移動させ、スケーリングする（バ
ンチジェット内で最も適合するジェットは、ノードの現在の位置で画像から抽出
されたジェットに最も類似する）。顔の特徴は顔ごとに異なるため、グラフはこ
のタスクに対してより一般的に作成される。たとえば、各ノードには、１０から
１００の個々の顔から取り入れた、対応するランドマークのジェットが割当てら
れる。

【００４８】グラフに相対的な歪みがある場合、幾何学的ひずみを説明する第２の項を導入
してもよい。異なるまたは相補的でさえある２つのタスクに対して異なる２つの
ジェット類似度関数が用いられる。ジェットＪ→の成分が振幅ａ_jおよび位相ψ_j を用いた形式で書かれる場合、２つのジェットＪ→およびＪ′→の類似度は、以
下のような、振幅ベクトルの正規化されたスカラ積である。

【００４９】

【数３】

【００５０】この関数は、２つのジェットが指す画像ポイント間の相対移動ベクトルを含む。
グラフマッチング中に２つのジェットを比較するとき、これらの類似度をｄに関
して最大化し、ジェット位置の正確な判断を行なう。双方の類似度関数を用いる
が、最初にグラフのマッチングを行なうときには位相の影響を受けない方（これ
は相対的位置とともに滑らかに変化する）が好まれることが多く、ジェットを正
確に位置決めするときには位相の影響を受ける方が好まれることが多い。

【００５１】図１４に示す粗から精へのランドマーク発見方策では、解像度がより低い画像
においてノードおよびカーネルがより少ないグラフを用いる。粗いランドマーク
発見に成功した後、特定の顔の特徴を正確に発見するために、解像度のより高い
画像に対してより高い精度で局所化を行なうことができる。

【００５２】ガボール畳込みの応答は、通常絶対値および位相値として記憶される複素数で
ある。なぜなら、ガボールジェットの比較は、値が実−虚ドメインにおいてでは
なくそのドメインで表現されている場合、より効率的に行なうことができるから
である。典型的に、絶対値および位相値は、「浮動」値として記憶される。次に
浮動に基づく算術を用いて計算を行なう。位相値は、−πからπの範囲であり、
−πはπに等しいため、数の分布を図１５に示すように円形の軸で表示できる。
位相値がこの範囲を超えるときは常に、すなわち一定の位相値の加算または減算
によってこの範囲を超える場合、結果として得られる値をこの範囲内に再調整し
なければならない。これは浮動−加算のみよりも計算上の手間がかかる。

【００５３】通常用いられる整数表現および多くのプロセッサが提供する関連の算術は、２
の補数である。この値は有限範囲を有するため、加算および減算の演算において
オーバフローまたはアンダフローが起こり得る。２バイトの整数の正の最大数は
３２７６７である。１を加算することにより、実際−３２７６８を表現する数に
なる。２の補数の整数の算術的振る舞いは、位相算術の要求に非常に近い。した
がって、位相の値を、２バイトの整数で表わすことができる。位相値ｊを、図１
６に示すように整数値Ｉにマッピングする。後で説明するマッチングおよび比較
段中、−πからπの範囲にある値が要求されることは稀である。したがって、［
−π，π］および［−３２７６８，３２７６８］間のマッピングを、頻繁に計算
する必要はない。しかしながら、位相加算および減算は頻繁に生じる。これは、
プロセッサ適応間隔を用いてより高速で計算を行なう。したがって、この適応技
術により、プロセッサの計算速度を大幅に向上させることができる。

【００５４】顔の特徴およびランドマークの場所を示した後、顔の特徴を、図１７および１
８に示すように、連続するフレームにわたって追跡できる。本発明の追跡技術に
より、特徴またはノードの追跡に失敗したかどうかを検出してそのノードに対す
る追跡プロセスを再初期化する追跡修正方法を用いることで、長いフレームシー
ケンスに対し強力な追跡を行なう。

【００５５】画像シーケンスの画像Ｉ＿ｎにおける１つのノードの位置Ｘ＿ｎは、上記のラ
ンドマーク発見方法（ブロック１８０）を用いて画像Ｉ＿ｎでランドマークを発
見する、または、追跡プロセスを用いて画像Ｉ＿（ｎ−１）からＩ＿ｎへとノー
ドを追跡することによりわかる。次に、このノードを、いくつかの技術のうち１
つによって、画像Ｉ＿（ｎ＋１）における対応の位置Ｘ＿（ｎ＋１）まで追跡す
る（ブロック１８２）。以下で説明する追跡法により、有利に高速の動きに対処
することができる。

【００５６】第１の追跡技術は線形動き予測を含む。新規の画像Ｉ＿（ｎ＋１）における対
応のノード位置Ｘ＿（ｎ＋１）に対する探索は、動き予測子が発生した位置で開
始される。速度が一定であると仮定して、先行する２つのフレーム間でのノード
の変位を表わすディスパリティベクトル（Ｘ＿ｎ−Ｘ＿（ｎ−１））を計算する
。ディスパリティまたは変位ベクトルＤ＿ｎを位置Ｘ＿ｎに加算して、ノード位
置Ｘ＿（ｎ＋１）を予測することができる。この線形動きモデルは、一定速度の
動きに対処するのに特に好都合である。線形動きモデルはまた、追跡されている
物体の加速度と比較してフレームレートが高い場合に、優れた追跡をもたらす。
しかしながら、フレームレートが低すぎて、画像シーケンスにおけるフレーム間
で物体の加速度が大きい場合、線形動きモデルの性能は低い。動きモデルがこう
いった条件下で物体を追跡するのは困難であるため、フレームレートのより高い
カメラを用いることが推奨される。

【００５７】線形動きモデルが発生する推定動きベクトルＤ＿ｎが大きすぎると、動き予測
における誤差の累積につながり得る。したがって、線形予測を減衰定数ｆ＿Ｄを
用いて減衰することができる。結果として得られる、予測された動きベクトルは
、Ｄ＿ｎ＝ｆ＿Ｄ＊（Ｘ＿ｎ−Ｘ＿（ｎ−１））である。適切な減衰定数は０．
９である。先行するフレームＩ＿（ｎ−１）がない場合、たとえば、ランドマー
ク発見直後のフレームに対し、予測される動きベクトルは０と等しくなるように
設定される（Ｄ＿ｎ＝０）。

【００５８】１次元に適用される、ガウス画像ピラミッドに基づく追跡技術は、図１９に示
される。当初の画像解像度を用いる代わりに、画像を２から４倍にダウンサンプ
リングして画像のガウスピラミッドを作成する。４レベルの画像ピラミッドは、
結果として、最も粗いレベルにおいて３画素のみとして表わされている最も精細
な当初の解像度レベルに対し２４画素の距離をもたらす。ピラミッドのいずれか
のレベルでジェットを計算および比較することができる。

【００５９】一般的に、ガウス画像ピラミッドにおけるノードの追跡は、最初に最も粗いレ
ベルで行ない次に最も精細なレベルに移る。ジェットは、上記のように減衰され
た線形動き予測Ｘ＿（ｎ＋１）＝（Ｘ＿ｎ＋Ｄ＿ｎ）を用い、位置Ｘ＿（ｎ＋１
）の実際の画像フレームＩ＿（ｎ＋１）の最も粗いガウスレベルで抽出され、先
行する画像フレームの最も粗いガウスレベルで計算した対応するジェットと比較
される。これらの２つのジェットから、ディスパリティを求める、すなわちＸ＿
（ｎ＋１）から、先行するフレームからのジェットに最もよく対応する位置まで
を指し示す２次元ベクトルを求める。この新しい位置がＸ＿（ｎ＋１）に割当て
られる。このディスパリティ計算については、以下でさらに詳細に説明する。最
も粗いガウスレベルの位置Ｘ＿（ｎ＋１）に対応する、実際の画像の次に精細な
ガウスレベルの位置が（２＊Ｘ＿（ｎ＋１）である）、この次に精細なレベルの
ディスパリティ計算についての開始点である。この点で抽出されたジェットは、
先行する画像フレームの同じガウスレベルについて計算された対応するジェット
と比較される。このプロセスは、最も精細な解像度レベルに達するまで、または
、先行するフレームの位置に対応するノードの位置を求めるのに特定されたガウ
スレベルに達するまで、すべてのガウスレベルに対して繰返される。

【００６０】ガウス画像ピラミッドの代表的な２つのレベルが図１９に示されており、粗い
方のレベル１９４は上であり、精細な方のレベル１９６は下である。各ジェット
は、２つの周波数レベルに対するフィルタ応答を有すると仮定される。粗い方の
ガウスレベルの位置１、Ｘ＿（ｎ＋１）＝Ｘ＿ｎ＋Ｄ＿ｎで始めて、最低周波数
ジェット係数のみを用いた第１のディスパリティ移動により、位置２に至る。双
方の周波数レベルのすべてのジェット係数を用いた第２のディスパリティ移動に
より位置３に至り、これは、このガウスレベルの最終位置である。精細な方のガ
ウスレベルの位置１は、座標が２倍の粗い方のレベルの位置３に対応する。ディ
スパリティ移動シーケンスは繰返され、最も精細なガウスレベルの位置３が、追
跡されたランドマークの最終位置である。

【００６１】実際の画像フレームにおいて追跡されたノードの新規の位置を求めた後、すべ
のガウスレベルにおけるジェットをこの位置で計算する。追跡されたノードを表
わす、先行するフレームに対して計算されたジェットの記憶されたアレイを、現
在のフレームに対して計算されたジェットの新規のアレイと置き換える。

【００６２】ガウス画像ピラミッドを用いることには２つの主要な利点がある。第１に、粗
い方のレベルにおける画素に関しノードの移動が当初の画像におけるものよりも
遥かに小さく、これによって、大きな画像領域において徹底的に探索を行なう代
わりに局所的な移動のみを行なうことによって追跡が可能になる。第２に、ジェ
ット成分の計算が低周波数に対して非常に速い。なぜなら、この計算は、当初の
解像度の画像の大きなカーネルウィンドウに対してではなく、ダウンサンプリン
グされた画像の小さなカーネルウィンドウを用いて行なわれるからである。

【００６３】なお、対応レベルは動的に選択してもよい。たとえば、顔の特徴の追跡の場合
、対応レベルを顔の実際の大きさに依存して選択してもよい。ガウス画像ピラミ
ッドの大きさも、追跡プロセスを通して変更できる。すなわち、この大きさを、
動きが速くなったときに大きくし動きが遅くなったときに小さくできる。典型的
には、最も粗いガウスレベルの最大ノード移動は１から４画素の範囲に制限され
る。なお、動き予測は最も粗いレベルでのみ行なわれることも多い。

【００６４】同じガウスレベルの所与の２つのジェット間の移動ベクトル（ディスパリティ
ベクトル）の計算について次に説明する。連続する２つのフレーム間の変位を計
算するために用いるある方法は、本来、D. J. Fleet および A. D. Jepson, "Co
mputation of component image velocity from local phase information", Int
ernational Journal of Computer Vision, volume 5, issue 1, pages 77-104,
1990、ならびに、W. M. Theimer および H. A. Mallot, "Phase-based binocula
r vergence control and depth reconstruction using active vision", CVGIP:
Image Understanding, volume 60, issue 3, pages 343-358, November 1994
に基づき、ステレオ画像におけるディスパリティ推定に対して開発されたもので
ある。複合フィルタ応答の位相の強い変化を用いて、サブピクセル精度で変位を
明確に計算する（Wiskott, L.,"Labeled Graphs and Dynamic Link Matching fo
r Face Recognition and Scene Analysis", Verlag Harri Deutsch, Thun-Frank
furt am Main, Reihe Physik 53, PhD thesis, 1995 参照）。振幅ａ_jおよび位
相ψｊに関しｊ番目のガボールフィルタへの応答Ｊを書くことにより、類似度関
数を以下のように定めることができる。

【００６５】

【数４】

【００６６】ＪおよびＪ′を位置ＸおよびＸ′＝Ｘ＋ｄの２つのジェットとすると、変位ｄは
、ｄに関する類似度Ｓを最大化することによって発見でき、ｋ_jはＪ_jを発生する
フィルタと関連する波数ベクトルである。ｄの推定は、小さな変位、すなわちガ
ボールジェットの大きな重なりのみに対して正確であるため、大きな移動ベクト
ルは第１の推定のみとして扱われ、このプロセスは以下の態様で繰返される。最
初に、最も周波数レベルの低いフィルタ応答のみを用いて第１の推定ｄ＿１が生
まれる。次に、この推定を実行し、ジェットＪをジェットＪ′の位置Ｘ′により
近い位置Ｘ＿１＝Ｘ＋ｄ＿１で再計算する。次に、２つの最も低い周波数レベル
を変位ｄ＿２の推定のために用い、ジェットＪを位置Ｘ＿２＝Ｘ＿１＋ｄ＿２で
再計算する。これは、用いた最大周波数レベルに達するまで反復され、２つの開
始ジェットＪおよびＪ′間の最終ディスパリティｄが、和ｄ＝ｄ＿１＋ｄ＿２＋
…として与えられる。このようにして、最低周波数のカーネルの波長の半分まで
変位を計算することができる（先のWiskott、1995参照）。

【００６７】変位は浮動小数点数を用いて求めているが、ジェットを（整数）画素位置のみ
で抽出してもよい（すなわち畳込みによって計算してもよい）。その結果、シス
テム的な丸め誤差が生まれる。このサブピクセル誤差Δｄを補償するために、複
合ガボールフィルタ応答の位相を以下に従いシフトする必要がある。

【００６８】

【数５】

【００６９】こうすれば、ジェットは、あたかも正しいサブピクセル位置で抽出されたかのよ
うに見えるであろう。このように、ガボールジェットを、さらなる丸め誤差を考
慮せずに、サブピクセル精度で追跡できる。なお、ガボールジェットは画像処理
において実質的な利点をもたらす。その理由は、サブピクセル精度の問題は他の
ほとんどの画像処理方法において対処がより困難なためである。

【００７０】追跡誤差は、信頼度または類似度の値が予め定められたしきい値よりも小さい
かどうかを判断することによって検出できる（図１７のブロック１８４）。類似
度（または信頼度）の値Ｓを計算して、２つの画像フレームにおける２つの画像
領域がいかにうまく対応しているかを、連続する画像フレーム間のノードの変位
の計算と同時に、示すことができる。典型的には、信頼度の値が１に近いことは
、対応度の高いことを示す。信頼度の値が１に近くなければ、画像において対応
するポイントが発見されていないか（たとえばフレームレートが動いている物体
の速度と比較して低すぎるため）、または、この画像領域がある画像フレームか
ら次のフレームへとあまりにも大幅に変化しているため対応性をうまく定めるこ
とができないかである（たとえば瞳を追跡するノードに対し瞳が閉じられる）。
信頼度の値があるしきい値よりも低いノードはスイッチオフされる。

【００７１】何らかの幾何学的制約が侵害されたときにも追跡誤差が検出され得る（ブロッ
ク１８６）。同時に多くのノードが追跡される場合、ノードの幾何学的構成が一
致しているかどうかについて検査される。このような幾何学的制約はかなり緩や
かでよい。たとえば、顔の特徴を追跡するとき鼻は目と口との間になければなら
ないといったことである。代わりに、こういった幾何学的制約はかなり厳しいも
のでもよい。たとえば、追跡される顔の正確な形状情報を含むモデルといったも
のである。この中間の精度に対しては、制約は平面モデルに基づき得る。平面モ
デルでは、顔グラフのノードは平面にあると仮定される。正面図で始まる画像シ
ーケンスについては、追跡されるノード位置を、アフィン変換により実際のフレ
ームに変換される正面グラフの対応するノード位置と比較することができる。最
適アフィン変換の６つのパラメータが、ノード位置における最小二乗誤差を最小
にすることによって発見される。追跡されたノード位置と変換されたノード位置
との間のずれがしきい値と比較される。しきい値よりもずれの大きいノードはス
イッチオフされる。アフィン変換のパラメータを用いて、姿勢および相対的なス
ケール（開始グラフと比較したもの）を同時に求めることができる（ブロック１
８８）。このように、この大まかな平面モデルによって、追跡誤差が予め定めら
れたしきい値よりも大きくなることが確実になくなる。

【００７２】追跡されたノードが追跡誤差のためにスイッチオフされた場合、このノードを
、異なる姿勢を含むバンチグラフを有利に用いて正しい位置で再び活性化し（ブ
ロック１９０）、修正された位置から追跡を続行することができる（ブロック１
９２）。追跡されたノードがスイッチオフされた後、システムは、姿勢に固有の
バンチグラフが存在する予め規定された姿勢に達するまで待ってもよい。それ以
外の場合は、正面のバンチグラフのみが記憶されているならば、システムは、正
面の姿勢に達するまで待って追跡誤差を修正しなければならない。記憶されたジ
ェットのバンチを適合位置を囲む画像領域と比較してもよい（たとえば平面モデ
ルからのもの）。これは追跡と同じ態様で作用するが、異なる点は、先行する画
像フレームのジェットとの比較の代わりに、比較は例のバンチのジェットすべて
について繰返され最も似ているものが取込まれることである。顔の特徴はわかっ
ているので、たとえば、実際の姿勢、スケールおよび大まかな位置までもわかっ
ているので、グラフマッチングまたは画像における徹底的な探索および／または
姿勢空間は不要であり、ノード追跡修正をリアルタイムで行なうことができる。

【００７３】追跡訂正のために、多くの異なる姿勢およびスケールに対するバンチグラフは
不要である。なぜなら、画像面における回転およびスケールは、局所的画像領域
またはバンチグラフのジェットの変換を図２０に示すようにして行なうことによ
り、考慮されているからである。正面の姿勢に加え、深さにおける回転に対して
のみバンチグラフを作成する必要がある。

【００７４】再初期化プロセスの速度を、ひとつの画像シーケンス中は追跡される人物のア
イデンティティが同じであるという事実を利用して、高めることができる。した
がって、最初の学習セッションでは、人物の最初のシーケンスは、正面の顔の表
情の全レパートリーを表わしている人物とともに取込むことができる。この最初
のシーケンスを、異なる多くの人物に関する知識を含む大きな一般化されたバン
チグラフに基づき上述の追跡および訂正方法を用いて、精度高く追跡することが
できる。このプロセスをオフラインで行ない、個人別にされた新たなバンチグラ
フを生成することができる。次に、個人別にされたバンチグラフを用いて、この
人物をリアルタイムで高速レートで追跡できる。なぜならば、個人別にされたバ
ンチグラフは一般化された大きなバンチグラフよりも遥かに小さいからである。

【００７５】再初期化プロセスの速度を、部分バンチグラフ再初期化を利用して高めること
もできる。部分バンチグラフは、全バンチグラフのノードのサブセットのみを含
む。このサブセットの大きさは１つのノードぐらいでしかない。

【００７６】姿勢推定バンチグラフは、画像面において定められる２次元バンチグラフの一
族を利用する。１つの族内の異なるグラフは、頭の、異なる姿勢および／または
スケールを説明する。ランドマーク発見プロセスは、画像における頭の姿勢また
は大きさを求めるために、その族からの各バンチグラフを入力画像とマッチング
させようとする。こうした姿勢推定手順の一例が図２１に示される。この姿勢推
定の第１ステップは、通常のランドマーク発見のものと等しい。画像（ブロック
１９８）は、グラフ類似度関数を用いるために、変換される（ブロック２００お
よび２０２）。次に、１つだけではなく、３つのバンチグラフの族を用いる。第
１のバンチグラフは正面の姿勢の顔のみを含み（上記の正面図と等しい）、他の
２つのバンチグラフは４分の１だけ回転させた顔を含む（一方が左への回転を表
わし、他方が右への回転を表わす）。先のように、グラフ各々に対する初期位置
は左上隅にあり、グラフの位置は画像においてスキャンされ、ランドマーク発見
後最も高い類似度を戻す位置およびグラフが選択される（ブロック２０４−２１
４）。

【００７７】各グラフに対する最初のマッチングの後、最終位置の類似度が比較される（ブ
ロック２１６）。画像において与えられた姿勢に最もよく対応しているグラフは
類似度が最も高い（ブロック２１８）。図２１において、左に回転させたグラフ
は、類似度によって示されるように最もよく適合している。像における顔の解像
度および回転の角度に応じて、正しいグラフおよび他の姿勢に対するグラフの類
似度は、変化し、グラフを規定した２つの姿勢間のおよそ中間に顔があるときに
、非常に近くなる。より多くの姿勢に対してバンチグラフを作成することにより
、姿勢推定手順がより精細になり、これにより、他の方向（たとえば上または下
）への頭の回転およびハンドル回転のより多くの角度が区別される。

【００７８】カメラから任意の距離にある顔を確実に発見するために、同様の方策を用いて
、各々がスケールの異なる異なる２または３のバンチグラフを用いてもよい。画
像における顔は、最高のものを顔の画像に戻すバンチグラフと同じスケールを有
すると仮定される。

【００７９】上記の技術に関連する３次元（３Ｄ）ランドマーク発見技術を用いて、異なる
姿勢に適合させた複数のバンチグラフを用いることもできる。しかしながら、こ
の３次元方策は３次元空間で規定されるバンチグラフ１つのみを用いる。３次元
グラフのジオメトリは、平均的な顔または頭のジオメトリを反映する。回転度数
の異なる数人の人物の顔の画像からジェットを抽出することにより、３次元バン
チグラフを作成する。これは、２次元方策と似ている。次に各ジェットを３つの
回転角度でパラメータ化する。２次元方策のように、ノードは頭の表面の基準点
に位置する。次に、３次元グラフの突起をマッチングプロセスで用いる。３次元
方策におけるある重要な一般化は、各ノードに、異なる姿勢に適合するバンチジ
ェットのパラメータ化された族を設けることである。第２の一般化は、グラフが
画像面での変換のみではなく３次元空間でユークリッド変換し得ることである。

【００８０】３次元グラフマッチングプロセスは、粗から精への方策として定めることがで
きる。ここでは初めにノードおよびカーネルの少ないグラフを用い、次に後続の
ステップではより密度の高いグラフを利用する。粗から精への方策は、顔のある
領域における特徴ポイントの高精度の局所化が所望される場合に特に適している
。このように、階層的方策を採用することによって、計算上の手間を省く。ここ
では、最初に粗い解像度についてランドマーク発見を行ない、次に、適合したグ
ラフをより高い解像度で検査して、ある領域をより精細に解析する。

【００８１】さらに、計算上の作業負荷を、マルチプロセッサマシンで簡単に分割してもよ
い。こうすれば一旦粗い領域が発見されると、少数の子プロセスが並列に、各々
が画像全体のうちそれ自身の部分に対して作業を開始する。子プロセスの最後に
、これらプロセスはそれらが位置する特徴座標をマスタプロセスに送り、マスタ
プロセスは適切にこれらをスケーリングし組合せて当初の画像に合うようにし、
こうして計算の総時間が大幅に短縮する。

【００８２】テクスチャマッピングされた頭部３次元モデルを構成するために、多数の方法
が開発されてきた。このセクションでは、ステレオに基づく方策について説明す
る。ステレオに基づくアルゴリズムを、十分に校正されたカメラの場合について
説明する。このアルゴリズムは、画像の画素の面積に基づきマッチングを行ない
、密度の高い３次元情報が必要な場合に適している。次にこれを用いてより高度
な物体の記述を正確に定めることができる。ステレオ撮像およびマッチングに関
するさらなる背景情報は、U. Dhond および J. Aggrawal, "Structure from Ste
reo: a Review", IEEE Transactions on Systems, Man, and Cybernetics, 19 (
6), pp. 1489-1510, 1989, または、より最近では、R. Sara および R. Bajcsy,
"On Occluding Contour Artifacts in Stereo Vision", Proc. Int. Conf. Com
puter Vision and Pattern Recognition, IEEE Computer Society, Puerto Rico
, 1997.; M. Okutomi および T. Kanade, "Multiple-baseline Stereo", IEEE T
rans. on Pattern Analysis and Machine Intelligence 15 (4), pp. 353-363,
1993; P. Belhumeur, "A Bayesian Approach to Binocular Stereopsis", Intl.
J. of Compute Vision, 19 (3), pp. 237-260, 1996; Roy, S. および Cox, I.
, "Maximum-Flow Formulation of the N-camera Stereo Correspondence Proble
m", Proc. Int. Conf. Computer Vision, Narosa Publishing House, Bombay, I
ndia, 1998; Scharstein, D. および Szeliski, R., "Stereo Matching with No
n-Linear Diffusion", Proc. Int. Conf. Computer Vision and Pattern Recogn
ition, IEEE Computer Society, San Francisco, CA, 1996; ならびに Tomasi,
C. および Manduchi, R., "Stereo without Search", Proc. European Conf. Co
mputer Vision, Cambridge, UK, 1996 に示される。

【００８３】二眼式立体映像において重要なことは、対応性（マッチング）の問題であると
して知られている。すなわち、両眼ステレオからレンジ（領域）データを取戻す
ために、空間３次元ポイントの対応の射影を左右の画像で発見しなければならな
い。探索−空間次元を減じるために、エピポーラ（epipolar）制約を適用する（
S. Maybank および O. Faugeras, "A Theory of Self-Calibration of a Moving
Camera" Intl. J. of Computer Vision, 8 (2), pp. 123-151, 1992参照）。二
眼式立体映像は、以下のようにして４ステッププロセスで定めることができる。

【００８４】＊校正：カメラのパラメータを計算する。＊調整：ステレオ対を投影し、画像における対応の特徴が同じ線にあるように
する。このラインは視線像（エピポーラライン、epipolar line）と呼ばれる。
これは全く必要なわけではないが、アルゴリズムの性能を大幅に高める。なぜな
ら、マッチングプロセスを、１次元探索として、調整された画像の水平線に沿い
行なうことができるからである。

【００８５】＊マッチング：探索ウィンドウにおいてコスト関数を各位置について局所的に
計算する。相関の最大値を用いてステレオ対における対応の画素を選択する。

【００８６】＊再構成：ステレオ対においてマッチングした画素座標から３次元座標を計算
する。マッチング誤差を取除くために、マッチングの直後に後処理を加えることができ
る。可能性として、誤差は、マッチングの曖昧さにより生じ、その原因はマッチ
ングが局所的に行われることにあることが多い。いくつかの幾何学的制約および
フィルタリングを適用して、誤ったマッチングの数を減じる。連続する面を扱う
ときには（例として前位置にある顔）、内挿を用いてマッチングしていない領域
を回復させることができる（大抵は非テクスチャ領域であり相関スコアは明らか
なモノモード最大値を有さない）。

【００８７】調整および再構成プロセスにおいて用いられる等式に至る形式は、射影幾何学
と呼ばれており、O. Faugeras, "Three-Dimensional Computer Vision, A Geome
tric Viewpoint", MIT Press, Cambridge, Massachusetts, 1993 において詳細
に示されている。使用されるモデルは多大な利点をもたらす。一般に、図２２に
示す簡単なピンホールカメラモデルを想定する。必要であれば、校正時にレンズ
の歪を計算することもできる（最も重要なファクタは放射方向のレンズ歪である
）。実際的な観点からすれば、校正は、校正補助具すなわち既知の３次元構造の
物体を用いて行われる。通常、目に見えるドットまたは正方形パターンを備える
立方体を、図２３に示すように校正補助具として用いる。

【００８８】調整アルゴリズムを簡単にするために、最初に各ステレオ対の入力画像を調整
し（N. Ayache および C. Hansen, "Rectification of Images for Binocularan
d Trinocular Stereovision", Proc. of 9th International Conference on Pat
tern Recognition, 1, pp. 11-16, Italy, 1988参照）、対応するポイントが同
じ画像の線上にあるようにする。こうすれば、明らかに、対応するポイントは左
右の調整された画像において座標（ｕ_L，ｖ_L，）および（ｕ_L-d,ｖ_L）を有し、
「ｄ」はディスパリティとして知られているものである。調整プロセスの詳細に
ついては先のFaugerasを参照。調整面（画像を投影して調整された画像を得るの
に用いる面）の選択は重要である。通常、この面は、投影された画像の歪が最小
になるように、かつ、対応する画素が図２４に示すように同じライン番号（視線
像は並列でありかつ整列している）に沿う位置にあるように、選択される。この
ような構造は標準ジオメトリと呼ばれる。

【００８９】図２６を参照して、マッチングは、左右の画像において対応するポイントを発
見するプロセスである。いくつかの相関関数を用いてこのディスパリティを計算
することができる。たとえば、正規化された交差相関（H. Moravec, "Robot Rov
er Visual Navigation", Computer Science: Artificial Intelligence, pp. 13
-15, 105-108, UMI Research Press 1980/1981参照）は、以下によって与えられ
る。

【００９０】ｃ（Ｉ_L，Ｉ_R）＝２ｃｏｖ（Ｉ_L，Ｉ_R）／（ｖａｒ（Ｉ_L）＋ｖａｒ（Ｉ_R））
…（６）式中、Ｉ_LおよびＩ_Rは調整された左右の画像である。相関関数を矩形領域のポイ
ント（ｕ_L，ｖ_L）および（ｕ_R，ｖ_R）に適用する。サイズ１×Ｎの探索ウィンド
ウについて、コスト関数ｃ（Ｉ_L，Ｉ_R）を、図２５に示すようにして計算する（
調整プロセスのため）。ここでＮはある許容可能な整数である。左の画像の各画
素（ｕ_L，ｖ_L）について、マッチングにより、相関プロファイルｃ（ｕ_L，ｖ_L，
ｄ）が生まれる。ここで「ｄ」はポイント（ｕ_L，ｖ_L，）でのディスパリティと
して定められる。すなわち以下のとおりである。

【００９１】ｄ_u＝ｕ_R−ｕ_L …（７）ｄ_v＝０ …（８）２番目の等式は、視線像が整列していることを表わしている。マッチング手順に
より、ディスパリティマップが出力される、または、ベース画像に重ねることが
できるディスパリティの画像が出力される（ここではステレオ対の左の画像）。
このディスパリティマップは、「ステレオ対の右の画像において画素の対応物を
発見するために視線像に沿ってどれだけ移動すべきか」を示している。

【００９２】マッチング時にいくつかの精細化を利用してもよい。たとえば、可能な対応物
のリストを各ポイントで保持し、鮮明度の制約、順序の制約およびディスパリテ
ィ傾斜制約といった制約を用いて（A. Yuille および T. Poggio, "A Generaliz
ed Ordering Constraint for Stereo Correspondence", MIT, Artificial Intel
ligence Laboratory Memo, No. 777, 1984; 上記 Dhond et al. ならびに Fauge
ras 参照）、不可能な構造を取除くことができる（上記 R. Sara et al，1997参
照）。クロスマッチングを用いることもできる。このマッチングは、左から右へ
と次に右から左へと行われ、候補（相関ピーク）は、双方のマッチングが同じ画
像の画素に至る場合に受入れられる。すなわち、以下の場合である。

【００９３】ｄ_LR＝ｕ_L−ｕ_R＝−ｄ_LR …（９）式中ｄ_LRは、左から右へのマッチングで発見されたディスパリティであり、ｄ_RL は右から左の場合のものである。さらに、ピラミッド形の機構を用いて探索ウィ
ンドウを制限することによりマッチングプロセス全体を助けることができる。こ
れは、先行するレベルの推定を用いて、解像度のピラミッドの各レベルでマッチ
ングを行なうことにより実現される。なお、階層的機構は表面の連続性を強化す
る。

【００９４】なお、ステレオを２次元分割目的で用いた場合、ディスパリティマップのみが
必要である。このようにして、先に説明した校正プロセスなしで済まし、投影ジ
オメトリの結果を用いることができる（Q. T. Luong, "Fundamental Matrix and
autocalibration in Computer Vision", Ph.D. Thesis, University of Paris
Sud, Orsay, France, December 1992参照）。これは、基本マトリックス（Funda
mental Matrix）が利用できるならば調整が可能であることを示している。今度
は、基本マトリックスを用いて画像を調整し、マッチングが先に述べたように実
施できるようにする。

【００９５】３次元位置推定を正確にするために、整数ディスパリティマップのサブピクセ
ル補正を計算し、結果としてサブピクセルディスパリティマップを得る。サブピ
クセルディスパリティは、以下のいずれかにより得ることができる。

【００９６】＊検出された最大値の周囲の相関スコアの２次内挿を用いる。＊F. Devernay, "Computing Differential Properties of｛３−Ｄ｝Shapes f
rom Stereoscopic Images without｛３−Ｄ｝Models", INRIA, RR-2304, Sophia
Antipolis, 1994に記載されているような、より一般的な方策を用いる。（ここ
では、表面の平坦なパッチが撮像されると仮定して、斜めからの投影により生ま
れる左右の相関ウィンドウ間の歪を考慮している。）第１の方策は最も速いが、第２の方策ではサブピクセルディスパリティのより
信頼性の高い推定が得られる。高速サブピクセル推定を行なう一方で推定の正確
度を保つために、以下のようにする。Ｉ_LおよびＩ_Rが左および右の調整された画
像であるとする。εが未知のサブピクセル補正であるとし、Ａ（ｕ、ｖ）が相関
ウィンドウを左から右の画像へとマッピングする変換であるとする（平坦なター
ゲットに対しては画像列を保存するアフィンマッピングである）。左右の画像の
対応する画素については以下のとおりである。

【００９７】Ｉ_R（ｕ_L−ｄ＋ε，ｖ_L）＝αＩ_L（Ａ（ｕ_L，ｖ_L）） …（１０）式中、係数αはカメラ利得において起こり得る差を考慮している。「ε」および
「Ａ」に関する上記の式の１次線形近似により、線形系がもたらされ、各係数は
、対応する左右の相関ウィンドウにわたって推定される。この線形系の最小二乗
解により、サブピクセル補正が得られる。

【００９８】なお、連続する面を回復させる場合（前姿勢の顔について）、内挿方法を、フ
ィルタリングされたディスパリティマップに用いることができる。このような方
法は以下のことを考慮することによって導き出すことができる。ここでは下にあ
る面が連続していると想定しているため、内挿され平滑化されるディスパリティ
マップｄは、以下の等式を確かめなければならない。

【００９９】ｍｉｎ｛∬［（ｄ′−ｄ）＋λ（∇ｄ）²］ｄｕｄｖ｝ …（１１）式中、λは平滑化パラメータであり、積分を画像全体に対して取入れている（画
素座標ｕおよびｖに対して）。反復アルゴリズムは、オイラー等式を用い、かつ
ラプラシアン演算子の近似を用いて、簡単に得られる。

【０１００】ディスパリティマップおよびカメラ校正から、３次元ポイントの空間位置が、
三角測量に基づいて計算される（上記のDhond et al.参照）。（１つの画像ステ
レオ対からの）再構成の結果、空間ポイントのリストを得る。

【０１０１】いくつかの画像を用いる場合（複眼（polynocular)ステレオ）、検証ステップ
を用いることができる（R. Sara, "Reconstruction of 3-D Geometry and Topol
ogy from Polynocular Stereo", http://com.felk.cvut.cz/〜sara参照）。この
手続中、すべてのステレオ対からの再構成されたポイントの組は、すべてのカメ
ラ対のディスパリティ空間に再び戻すように投影され、投影されたポイントが各
対の他の画像において予測された位置とマッチングしている場合は、検証される
。検証によってはずれ値が非常に効果的に取除かれるように思われる（特に閉塞
近くのマッチングの結果）。

【０１０２】図２６は、ステレオアルゴリズムを、テクスチャ光を投影することにより得ら
れた画像のステレオ対に適用した、典型的な結果を示す。図２６の上の列は、主
体が動かないことを保証して短い時間間隔において取込まれた左右のおよび色画
像を示している。下の列は、ステレオをテクスチャ画像に適用し、かつ色画像で
テクスチャマッピングすることにより得た、再構成された顔のモデルの２つの図
を示している。なお、内挿およびフィルタリングをディスパリティマップに適用
しているので、顔の再構成は滑らかで連続している。また、この結果は、ステレ
オから得た未処理のポイントの組として表示されており、これらのポイントを網
目状にして、たとえば、アルゴリズム用いて、位置を記憶されたギャラリー画像
から抽出したジェットと比較し、連続面を得ることができる。顔認識アプリケー
ションのように完全なグラフを比較するか、または、部分的なグラフもしくは個
々のノードを比較する。

【０１０３】ジェットを実際の比較のために抽出する前に、多数の画像正規化を適用する。
このような正規化の１つは背景抑制と呼ばれる。プローブ画像に対する背景の影
響を抑制しなければならない。なぜなら、プローブおよびギャラリー画像間で異
なる背景が、類似度を低下させ、しばしば分類の誤りに至ることがあるためであ
る。したがって、顔を囲むノードおよびエッジを顔の境界とする。背景画素は、
顔から逸れているときに、滑らかにトーンダウンされる。頭の外側の各画素値は
以下のように変形される。

【０１０４】Ｐ_new＝Ｐ_old・λ＋ｃ・（１−λ） …（１２）

【０１０５】

【数６】

【０１０６】ここでｃは、グラフの最も近いエッジからの画素位置のユークリッド距離を表わ
す、一定の背景グレー値である。ｄ₀は、一定のトーンダウン値である。もちろ
ん、画素値およびグラフ境界からの距離間の、他の関数従属性も可能である。

【０１０７】図２８に示すように、自動背景抑制により、グレー値は、最も近いエッジから
逸れているときに滑らかに一定になる。この方法ではなおも顔を囲む背景領域が
見えているが、画像において強く妨害するようなエッジはない。これは、この領
域が単純に一定のグレー値で満たされているようなときに生じるであろう。

【０１０８】上記は本発明の特定の実施例に関するものであるが、当業者であれば、これが
例示としてのものにすぎず、こうした実施例における変更が、本発明の原理から
逸脱することなく可能であり、本発明の範囲は前掲の特許請求の範囲によって定
められていることを理解するであろう。

【図面の簡単な説明】

【図１】本発明に従う顔認識プロセスのブロック図である。

【図２】本発明に従う顔認識システムのブロック図である。

【図３】図１の認識プロセスの検出、発見、および識別プロセスを示す、
一連の画像である。

【図４】本発明に従う頭検出および追跡プロセスのブロック図である。

【図５】本発明に従うディスパリティ検出プロセスを示すためのフロー図
に、画像を添えたものである。

【図６】本発明に従う凸検出器の概略図である。

【図７】本発明に従う頭追跡プロセスのフロー図である。

【図８】本発明に従う前選択器のフロー図である。

【図９】図１の顔認識装置およびシステムのランドマーク発見技術を示す
フロー図に写真を添えたものである。

【図１０】本発明に従うガボールウェーブレットを用いた顔の像の処理を
示す、一連の画像である。

【図１１】本発明に従う、図１０のウェーブレット処理技術を用いた、ジ
ェット、画像グラフ、およびバンチグラフの構成を示す、一連のグラフである。

【図１２】本発明に従う、顔の画像を処理するためのモデルグラフの図で
ある。

【図１３】ウェーブレット処理を用いて顔の特徴をの場所を求めることを
示す２つの図を含む。

【図１４】粗から精へのランドマーク発見技術を示すための顔の図であり
、これとともに抽出された目および口領域が示されている。

【図１５】相の円形の振る舞いを示す概略図である。

【図１６】本発明に従う、円形の振る舞いを有する相の２の補数を示す概
略図である。

【図１７】本発明のランドマーク発見技術により発見されるランドマーク
を追跡するための追跡技術を示す、フロー図である。

【図１８】本発明に従う顔の特徴の追跡を示す、一連の顔の画像である。

【図１９】１次元でのランドマーク追跡を示すためのガウス画像ピラミッ
ド技術の図である。

【図２０】２つの顔の一連の画像に、５０の画像フレームのシーケンスに
わたる顔の特徴の追跡を示す、姿勢角度対フレーム数のグラフを添えたものであ
る。

【図２１】図１の認識装置およびシステムの姿勢推定技術を示すためのフ
ロー図に、写真を添えたものである。

【図２２】３次元（３Ｄ）ビューアクセスの配向を示すピンホールカメラ
モデルのグラフである。

【図２３】３次元カメラ校正構造の斜視図である。

【図２４】同じライン番号に添うステレオ画像の対応画素を投影するため
の調整の概略図である。

【図２５】一方の画像フレームのウィンドウと他方の画像フレームの探索
ウィンドウとの間の相関マッチングプロセスを示す、画像フレームである。

【図２６】ステレオ画像対の画像、ディスパリティマップ、および３次元
画像デコードを示す画像再構成である。

【図２７】本発明に従う画像識別プロセスのフロー図である。

【図２８】背景抑制の使用を示した画像である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者エラジン，イゴー・バレリビッチアメリカ合衆国、90007 カリフォルニア州、ロス・アンジェルス、セベランス・ストリート、2636、ナンバー・エイ (72)発明者ノセラ，ルシアノ・パスクゥアレ・アゴスティーノアメリカ合衆国、90025 カリフォルニア州、ロス・アンジェルス、サウス・ウェストゲート・アベニュ、1230、ユニット・エフ (72)発明者ステファンズ，ヨハネス・バーナードアメリカ合衆国、90230 カリフォルニア州、カルバー・シティ、グリーン・バレー・サークル、6420、ナンバー・207 (72)発明者ネベン，ハルトムットアメリカ合衆国、90405 カリフォルニア州、サンタ・モニカ、トゥエンティエイス・ストリート、2336、ナンバー・イーＦターム(参考） 5B057 CA01 CA12 CA13 CA16 CG09 DA11 DB02 DB03 DC36 5L096 AA02 FA02 FA26 HA03 JA11

Claims

【特許請求の範囲】

【請求項１】画像フレームにおける物体を認識するためのプロセスであっ
て、画像フレームにおける物体を検出し、前記物体に関連する画像フレームの部分
を囲むことと、前記画像フレームの前記囲み部分をウェーブレット変換を用いて変換し、変換
された画像を生成することと、前記変換された画像における、代表的な複数の物体画像から生成したバンチグ
ラフのウェーブレットジェットにより定められる物体の目立つ特徴に関連するノ
ードの場所を求めることと、前記物体を、物体画像のギャラリーにおける物体画像に関連するウェーブレッ
トジェットと、前記変換された画像のノードのウェーブレットジェットとの類似
度に基づいて、識別することとを含む、物体を認識するためのプロセス。
【請求項２】前記画像の前記囲み部分内において、前記検出された物体の
大きさを定めかつその物体を中心に置いて、前記検出された物体が、前記囲み部
分内で予め定められた大きさおよびロケーションを有するようにすることをさら
に含む、請求項１に記載の物体を認識するためのプロセス。
【請求項３】前記物体の識別前に前記物体に関連しない前記画像フレーム
の囲み部分の背景部分を抑制することをさらに含む、請求項１に記載の物体を認
識するためのプロセス。
【請求項４】前記抑制された背景部分は、前記画像フレームの囲み部分に
おける前記物体のエッジ近くで徐々に抑制される、請求項３に記載の物体を認識
するためのプロセス。
【請求項５】前記物体は顔領域を示す人物の頭である、請求項１に記載の
物体を認識するためのプロセス。
【請求項６】前記バンチグラフは前記物体の３次元表現に基づく、請求項
１に記載の物体を認識するためのプロセス。
【請求項７】前記ウェーブレット変換は、ハードウェア適応位相表現を用
いて行なわれる位相計算を利用して行なわれる、請求項１に記載の物体を認識す
るためのプロセス。
【請求項８】前記場所を求めるステップは、粗から精への方策を用いて行
なわれる、請求項１に記載の物体を認識するためのプロセス。
【請求項９】前記バンチグラフは予め定められた姿勢に基づく、請求項１
に記載の物体を認識するためのプロセス。
【請求項１０】前記識別するステップは、前記物体の３次元表現を用いる
、請求項１に記載の物体を認識するためのプロセス。
【請求項１１】画像フレームのシーケンスにおける物体を認識するための
プロセスであって、前記画像フレームにおける物体を検出し、前記物体に関連する各画像フレーム
の部分を囲むことと、各画像フレームの前記囲み部分をウェーブレット変換を用いて変換し、変換さ
れた画像を生成することと、前記変換された画像において、代表的な複数の物体画像から生成されたバンチ
グラフのウェーブレットジェットにより定められる前記物体の目立つ特徴に関連
するノードの場所を求めることと、前記物体を、物体画像のギャラリーにおける物体画像に関連するウェーブレッ
トジェットと、前記変換された画像のノードのウェーブレットジェットとの類似
度に基づいて、識別することとを含む、物体を認識するためのプロセス。
【請求項１２】前記物体を検出するステップは、前記物体を、前記物体に
関連する軌道に基づいて画像フレーム間で追跡するステップをさらに含む、請求
項１１に記載の物体を認識するためのプロセス。
【請求項１３】特定の軌道に属する眺めのシーケンスから物体の最も適切
な眺めを選択する、前選択プロセスをさらに含む、請求項１１に記載の物体を認
識するためのプロセス。
【請求項１４】前記ノードの場所を求めるステップは、画像フレーム間で
ノードを追跡することを含む、請求項１１に記載の物体を認識するためのプロセ
ス。
【請求項１５】追跡されたノードを、前記ノードの位置が画像フレーム間
の予め定められた位置制約を超えて逸れた場合に、再初期化することをさらに含
む、請求項１４に記載の物体を認識するためのプロセス。
【請求項１６】前記予め定められた位置制約は、ノードロケーション間の
相対的位置に関連する幾何学的位置制約に基づく、請求項１５に記載の物体を認
識するためのプロセス。
【請求項１７】前記画像フレームはステレオ画像であり、前記検出するス
テップは、ディスパリティヒストグラムおよびシルエット画像を生成して前記物
体を検出することを含む、請求項１１に記載の物体を認識するためのプロセス。
【請求項１８】前記ディスパリティヒストグラムおよびシルエット画像は
、頭の移動に関連しかつ凸検出器により検出される凸領域を生成する、請求項１
７に記載の物体を認識するためのプロセス。
【請求項１９】前記ウェーブレット変換は、ハードウェア適応位相表現を
用いて行なわれる位相計算を利用して行なわれる、請求項１１に記載の物体を認
識するためのプロセス。
【請求項２０】前記バンチグラフは物体の３次元表現に基づく、請求項１
１に記載の物体を認識するためのプロセス。
【請求項２１】前記場所を求めるステップは、粗から精への方策を用いて
行なわれる、請求項１１に記載の物体を認識するためのプロセス。
【請求項２２】前記バンチグラフは予め定められた姿勢に基づく、請求項
１１に記載の物体を認識するためのプロセス。
【請求項２３】画像フレームにおける物体を認識するための装置であって
、前記画像フレームにおける物体を検出し、前記物体に関連する画像フレームの
部分を囲むための手段と、前記画像フレームの前記囲み部分をウェーブレット変換を用いて変換し、変換
された画像を生成するための手段と、前記変換された画像において、代表的な複数の物体画像から生成されたバンチ
グラフのウェーブレットジェットにより定められる前記物体の目立つ特徴に関連
するノードの場所を求めるための手段と、前記物体を、物体画像のギャラリーにおける物体画像に関連するウェーブレッ
トジェットと、前記変換された画像のノードのウェーブレットジェットとの類似
度に基づいて、識別するための手段とを含む、物体を認識するための装置。
【請求項２４】画像フレームのシーケンスにおける物体を認識するための
プロセスであって、前記画像フレームにおいて物体を検出し、前記物体に関連する各画像フレーム
の部分を囲むための手段と、各画像フレームの前記囲み部分をウェーブレット変換を用いて変換し、変換さ
れた画像を生成するための手段と、前記変換された画像において、代表的な複数の物体画像から生成されたバンチ
グラフのウェーブレットジェットにより定められる前記物体の目立つ特徴に関連
するノードの場所を求めるための手段と、前記物体を、物体画像のギャラリーにおける物体画像に関連するウェーブレッ
トジェットと、前記変換された画像のノードのウェーブレットジェットとの類似
度に基づいて、識別するための手段とを含む、物体を認識するためのプロセス。