JP2008501172A - 画像比較方法 - Google Patents

画像比較方法 Download PDF

Info

Publication number
JP2008501172A
JP2008501172A JP2007514104A JP2007514104A JP2008501172A JP 2008501172 A JP2008501172 A JP 2008501172A JP 2007514104 A JP2007514104 A JP 2007514104A JP 2007514104 A JP2007514104 A JP 2007514104A JP 2008501172 A JP2008501172 A JP 2008501172A
Authority
JP
Japan
Prior art keywords
image
face
inspection
images
comparison method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007514104A
Other languages
English (en)
Inventor
ポーター、ロバート、マーク、ステファン
ランバルス、ラテュナ
ヘインズ、サイモン、ドミニク
リビング、ジョナサン
ジラード、クライブ、ヘンリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Europe BV United Kingdom Branch
Original Assignee
Sony United Kingdom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony United Kingdom Ltd filed Critical Sony United Kingdom Ltd
Publication of JP2008501172A publication Critical patent/JP2008501172A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Accessory Devices And Overall Control Thereof (AREA)

Abstract

検査画像と、2つ以上の基準画像を含む一組の基準画像とを比較する画像比較方法において、検査画像を1つ以上の検査領域に分割し、各検査領域について、検査領域と、1つ以上の基準画像における1つ以上の基準領域とを比較し、検査領域に最も類似する基準領域を特定し、検査領域と、検査領域に対応して特定された基準領域との比較から比較値を生成する。

Description

本発明は、画像比較方法及び画像比較装置に関する。
2つの画像を比較し、これらの2つの画像が互いにどれくらい類似しているかを比較する多くの手法が知られている。例えば、2つの画像間の平均二乗誤差を比較値として算出してもよく、この場合、平均二乗誤差が小さい程、2つの画像がより類似していることになる。画像比較は、例えば、MPEG2等のビデオ圧縮アルゴリズムにおける動き推定等の様々な状況で用いられる。画像比較の他の適用例としては、捕捉された画像のシーケンスを含むビデオマテリアルに存在しているオブジェクト(顔、車等)を追跡するアルゴリズムがある。以下では、一具体例として、顔追跡について説明する。
人間の顔を検出する顔検出アルゴリズムは、様々な文献で提案されており、これらには、所謂固有顔(eigenfaces)法、顔テンプレートマッチング法、変形可能なテンプレートマッチング(deformable template matching)法又はニューラルネットワーク分類法を使用する手法等がある。これらの何れの手法も完全ではなく、通常、付随した利点及び欠点を有する。何れの手法も、画像が顔を含むことを確実な信頼性を持って示すことはなく、全て確率論的な判断(probabilistic assessment)に基づいており、すなわち画像が少なくとも顔を含む可能性(likelihood)があるという画像の数学的解析に基づいている。このアルゴリズムは、通常、顔の誤検出を避けようとするために極めて高く設定された尤度の閾値(threshold likelihood value)を有する。
画像のシーケンスに亘って顔を「追跡」し、動きを判定し、対応する所謂「顔追跡(face-track)」を生成することが望まれることが多い。これにより、例えば、連続する画像において検出された顔を同じ個人にリンクすることができる。画像のシーケンスに亘って顔を追跡する一手法として、連続する画像内の2つの顔が同じ又は非常に近い位置に出現してるか否かを判定する手法がある。但し、この手法は、顔検出スキームの確率に依存する性質に起因する問題を孕んでいる。例えば、(顔検出の判定のための)確率閾値を高く設定すると、その顔の本人が顔を横に向けたり、顔の一部が隠されたり、本人が鼻を掻いたり、又は他の様々な原因により、実際には顔が存在している幾つかの画像シーケンスが、アルゴリズムによって検出されなくなる。一方、確率閾値を低く設定すると、誤検出確率が高くなり、顔ではないオブジェクトが画像のシーケンス全体に亘って追跡されてしまう虞がある。
ビデオシーケンスを処理している間顔追跡アルゴリズムは、多くの検出された顔を追跡し、対応する顔追跡を生成する。幾つかの顔追跡が実際には同じ顔に対応することは多い。上述のように、これは、例えば、顔の持ち主が頭を一方に向け、次に向きを戻したりするためである。顔追跡アルゴリズムは、横向きの顔を検出できないことがある。このため、顔の持ち主が頭を一方に向ける前の顔追跡と、顔の持ち主が頭を元に戻した後の顔追跡がそれぞれ別個になってしまうことがある。このような状況は何度も生じることがあり、これによって、特定の顔についての顔追跡が2つ以上になることもある。他の具体例として、個人がビデオシーケンス内のシーンに出たり入ったりすることによって、同じ顔についての顔追跡が出入りの回数に応じた数になってしまうこともある。ここで、多くの顔追跡アルゴリズムは、これらの複数の顔追跡が同じ顔に対応していることを判定できない。
ある顔追跡からの画像と、他の顔追跡からの画像とを比較することによって、2つの顔追跡が異なる顔に対応しているか、同じ顔に対応しているかをある程度確認できることもある。しかしながら、同じ顔の2つの画像は、スケール/ズーム、視野角/プロファイル、照明、遮蔽物の存在等によって大きく異なるように見え、したがって、2つの画像間の分散の度合いが大きいために、この手法の信頼性は低い。
本発明の一側面として、本発明に係る画像比較方法は、検査画像と、2つ以上の基準画像を含む一組の基準画像とを比較する画像比較方法において、検査画像を1つ以上の検査領域に分割するステップと、各検査領域について、検査領域と、1つ以上の基準画像における1つ以上の基準領域とを比較し、検査領域に最も類似(又は一致)する基準領域を特定する(例えば、特定された対応する基準領域によって検査領域が置き換えられると、これによって得られる画像の見た目が、検査画像の見た目と同様になる。)ステップと、検査領域と、検査領域に対応して特定された基準領域との比較から比較値を生成するステップとを有する。
本発明の実施の形態の利点として、検査画像を2つ以上の基準画像の組と比較することができる。例えば、顔追跡の場合、1つの顔追跡からの検査画像を他の顔追跡からの複数の基準画像と比較することができる。これにより、検査に用いられる基準画像では分散が大きいため、検査画像が、第2の顔追跡に存在している同じ顔に対応していることを正しく検出する可能性が高まる。
また、本発明の実施の形態では、検査画像の領域を、基準画像内の対応する領域と比較し、各領域において、検査画像に最も類似する基準画像を発見する。これにより、局所的な相異が比較に過剰な悪影響を与えることを防止できる。例えば、基準画像は、オブジェクトによって部分的に隠された顔を含む場合がある。この場合、見えている顔の一部は、検査画像に対して高い類似性を有するが、完全な画像を比較した場合、類似性は低いと判定されてしまう。したがって、検査画像をより小さい領域に区切ることによって、画像の幾つかの領域について、より高い類似性を得ることができ、この結果、類似性をより適切に判定することができる。これは、特に、幾つかの領域が1つの基準画像とよく似ており、他の領域が他の異なる基準画像と類似する場合等に有効である。
本発明のこれらの及びこの他の側面及び特徴は、添付の特許請求の範囲において定義されている。
図1〜図9cを用いて、国際特許出願PCT/GB2003/005186号に開示されている技術について説明する。ここに開示する技術的特徴の詳細については、この特許文献に開示されている。国際特許出願PCT/GB2003/005186号に開示されている特徴は、以下の説明に明示されていなくとも、本発明に基づく検出装置の(少なくとも任意の)特徴であるとみなされる。
様々な技術の目的として、以下では、人間の顔の検出及び/又は追跡(tracking)について説明する。但し、本発明の技術は、多くの異なる種類のオブジェクトの検出及び/又は追跡に適用することができる。例えば、本発明は、自動車の検出にも適用することができる。すなわち、以下の顔を用いた説明は、単に、本発明をより明瞭に開示するためのフレームワークを例示しているに過ぎない。以下の記述において用いる用語「顔」は、本発明を制限する意味で解釈されることはない。
図1は、顔検出システム及び/又は非線形編集システムとして用いる汎用コンピュータ装置のブロック図である。コンピュータ装置は、処理ユニット10を備え、処理ユニット10は、中央処理装置(CPU)20と、ランダムアクセスメモリ(RAM)のようなメモリ30と、ディスクドライブ40のような不揮発性記憶装置と、他の通常の構成要素とを備える。コンピュータ装置は、ローカルエリアネットワーク又はインターネット(或いは両方)のようなネットワーク50に接続している。また、コンピュータシステムは、キーボード60と、マウス又は他のユーザ入力デバイス70と、表示画面80とを備える。当業者には、汎用コンピュータ装置がここで記載していない多くの他の従来の部品を含むことは、明らかである。
図2は、顔検出に用いるビデオカメラレコーダ(カムコーダ)のブロック図である。カムコーダ100は、画像を電荷結合素子(CCD)からなる画像捕捉素子120上に合焦点するレンズ110を備える。電子的な形式で得られる画像は、テープカセットのような記録媒体140に記録するために画像処理回路130によって処理される。また、画像捕捉素子120によって捕捉された画像は、アイピース160を介して見られるユーザ表示画面150上に表示される。
画像と関連している音を捕捉するために、1つ以上のマイクロホンが用いられる。これらのマイクロホンは、フレキシブルケーブルによってカムコーダ100に接続され、或いはカムコーダ100の本体に搭載されるという意味で、外部マイクロホンであるとも言える。1台以上のマイクロホンからのアナログオーディオ信号は、記録媒体140に記録するための適切なオーディオ信号を生成するために、オーディオ処理回路170によって処理される。
なお、ビデオ及びオーディオ信号は、デジタル形式又はアナログ形式の何れか、或いは両方の形式で記録媒体140に記録することができる。したがって、画像処理回路130及びオーディオ処理回路170は、アナログ/デジタル変換器を備えていてもよい。
カムコーダ100のユーザは、レンズ110に電気的制御信号200を送るようにレンズ制御回路190に作用するユーザ制御180によって、レンズ110の性能における画角を制御することができる。一般的に、フォーカス及びズームのような属性はこのように制御されるが、レンズの絞り又は他の属性は、ユーザによって操作される。
更に、2個のユーザ操作子を説明する。記録媒体140への記録を開始し、中止するために押しボタン210が設けられている。例えば、押しボタン210を1回押したときに記録を開始し、もう1回押したときに記録を中止することができる。或いは、押した状態を維持することにより記録を行い、又はある時間、例えば5秒間押すことにより記録を開始するようにしてもよい。これらの如何なる構成においても、始めと終わりがある各「撮影(shot)」(連続した記録期間)に対するカムコーダ100の記録操作の確認は、技術的に非常に簡単である。
図2に示す「素晴らしい撮影マーカ(good shot marker:以下、GSMという。)」220は、ユーザによって操作され、これにより、ビデオ及びオーディオマテリアルに関連した「メタデータ」(関連データ)が記録媒体140に格納される。この特別の撮影は、ある観点で「素晴らしい(good)」と操作者によって主観的にみなされたこと(例えば、俳優が特によく演じた、ニュースリポータが各言葉を正しく発音した等)を示している。
メタデータは、記録媒体140上の予備領域(例えば「ユーザデータ」領域)に、用いられている特定のフォーマット及び規格に依存して、記録される。或いは、メタデータはリムーバブルメモリスティック(登録商標)のメモリ(図示せず)のような別個の記録媒体に格納することができ、或いはメタデータは、例えば無線リンク(図示せず)によって通信する外部データベース(図示せず)に格納することもできる。メタデータには、GSMの情報だけでなく、撮影条件(shot boundaries)、レンズの属性、ユーザ(例えばキーボード(図示せず))による文字情報入力、全地球測位システム受信機(図示せず)からの地理的位置情報等が含まれてもよい。
以上、メタデータを記録可能なカムコーダについて説明した。次に、このようなカムコーダに顔検出を適用する方法について説明する。
カムコーダ100は、顔検出器構成230を備える。適切な構成のより詳細は、後に説明するが、顔検出器230は、画像処理回路130から画像が供給され、このような画像が1つ以上の顔を含むか否かを検出、又は検出することを試みる。顔検出器230は、顔検出データを、「yes/no」フラグの形式で、或いは、各検出された顔内の目の位置のような顔の画像座標を含むより詳細な形式で出力することができる。この情報は、メタデータの他の形として処理し、上述したフォーマットとは異なるフォーマットで格納することができる。
後述するように、顔検出は、検出処理における他の種類のメタデータを用いることにより、助けられる。例えば、顔検出器230は、レンズ110の現在のフォーカス及びズーミング設定を示すレンズ制御回路190からの制御信号が供給される。これらは、画像のフォアグラウンドで表示されるあらゆる顔の予想される画像サイズの初期の表示を与えることによって、顔検出器2130を補佐することができる。なお、この観点では、フォーカス及びズーミングの設定は、カムコーダ100と撮影されている個人との予想される距離、更にはレンズ110の倍率を表している。これらの2つの属性からの顔の大きさの平均に基づいて、得られる画像データ内における顔の予想される大きさ(画素)を算出することができる。
従来の(既知の)音声検出器240は、オーディオ処理回路170からオーディオ情報が供給され、このようなオーディオ情報内の音声の存在を検出する。音声の存在は、対応する画像に顔がある可能性を、音声を検出しないときに比して、より高い指標(indicator)で示すことができる。
最終的に、撮影境界(shot boundaries)及びユーザによって最も有益であるとみなされるそれらの撮影を示すGSM情報220及び撮影情報(制御210から)は、顔検出器230に供給される。
勿論、カムコーダがアナログ記録技術に基づく場合、画像及びオーディオ情報を処理するために、更なるアナログ/デジタル変換器(以下、A/D変換器という。)が必要とされる。
図3は、ビデオ会議システムの構成を示している。2つのビデオ会議ステーション1100、1110は、例えば、インターネット、ローカルエリア又はワイドエリアネットワーク、電話回線、高ビットレート専用回線、ISDN回線等であるネットワーク接続1120を介して接続される。各ビデオ会議ステーション1100、1110は、基本的には、カメラ及び関連する送信装置1130と、表示及び関連する受信装置1140とを備える。テレビ会議システムの参加者は、カメラに撮像され、各ステーションに表示され、参加者の声は、各ステーションにおける1つ以上のマイクロホン(図3には示していない)に入力される。オーディオ及びビデオ情報は、ネットワーク1120を介して他方のステーションの受信機1140に伝送される。この他方のステーションにおいて、カメラによって撮像された画像が表示され、参加者の声は、スピーカ等の装置から再生される。
なお、ここでは、説明を簡潔にするために、2つのステーションを示しているが、2つ以上のステーションがテレビ会議システムに参加してもよい。
図4は、1つのカメラ/送信装置1130を1つの表示/受信装置1140に接続する1つのチャンネルを示している。
カメラ/送信装置1130は、ビデオカメラ1150と、上述した技術を用いた顔検出器1160と、画像プロセッサ1170と、データフォーマッタ及び送信機1180とを備える。マイクロホン1190は、参加者の声を検出する。
オーディオ、ビデオ、及び(オプションとして)メタデータ信号は、フォーマッタ及び送信機1180からネットワーク接続1120を介して表示/受信装置1140に送信される。また、ネットワーク接続1120を介して表示/受信装置1140から制御信号を受信してもよい。
表示/受信装置は、例えば、表示画面及び関連する電子回路を含む表示及び表示プロセッサ1200と、ユーザ操作子1210と、例えばデジタル−アナログ変換器(DAC)、増幅器及びスピーカを含むオーディオの出力構成1220とを備える。
包括的に言えば、顔検出器1160は、カメラ1150によって撮像された画像内の顔を検出(及び任意の機能として追跡)する。顔検出は、制御信号として画像プロセッサ1170に供給される。画像プロセッサは、以下に説明するように、様々な異なる手法で動作させることができるが、基本的には、画像プロセッサ1170は、カメラ1150によって撮像された画像をネットワーク1120を介して送信する前に処理する。この処理の主な目的は、ネットワーク接続1120の帯域幅又はビットレートを有効に活用することである。ここで、殆どの商業用途において、テレビ会議システムに適するネットワーク接続1120のコストは、ビットレートの要求に伴って高くなる。フォーマッタ及び送信機1180は、画像プロセッサ1170からの画像と、マイクロホン1190からの(例えば、アナログ−デジタル変換器(ADC)を介して、変換された)オーディオ信号と、オプションとして、画像プロセッサ1170によって行われた処理の性質を定義するメタデータとを結合する。
図5は、更なるビデオ会議システムの構成を示す図である。ここで、顔検出器1160、画像プロセッサ1170、フォーマッタ及び送信機1180、表示及び表示プロセッサ1200の処理機能は、プログラミング可能なパーソナルコンピュータ1230によって実現される。表示画面(1200の一部)に表示されている画面は、顔検出及び追跡を用いたビデオ会議の1つの可能なモードを示しており、このモードでは、顔を含んでいる画像部分のみが一方の場所から他方の場所に送信され、この他方の場所において、タイル形式又はモザイク形式で表示される。
この実施例では、2段階の顔検出技術を用いる。図6は、トレーニング段階を具体的に説明する図であり、図7は、検出段階を具体的に説明する図である。
以前に提案された顔検出方法と異なり、この方法は、全体としてではなく顔の一部のモデリングに基づいている。顔の一部は、顔の特徴(所謂「選択サンプリング(selective sampling)」)の推定位置上の中心のブロック、又は顔の通常間隔でサンプリング(所謂「標準サンプリング(regular sampling)」)されたブロックである。ここでは、主に、経験的検定で良い結果が得られた標準サンプリングについて説明する。
トレーニング段階では、解析処理を、顔を含むことが知られている一組の画像に、及び(オプションとして)顔を含まないことが知られている画像(「顔でない画像(nonface images)」)の別のセットに適用する。この処理は、顔の異なる角度(例えば、正面、左側、右側)を表す顔データの複数のトレーニング用の組について繰り返すことができる。解析処理は、検定画像を後に(検出段階で)比較することができる顔及び顔でない特徴の数学的モデルを構築する。
したがって、数学的モデル(図6のトレーニング処理310)を構築するための基本的な手順は次の通りである。
1.同じ目位置を有するように正規化された顔の画像のセット300の各顔を、小さいブロックに一様にサンプリングする。
2.各ブロックの属性を算出する。
3.属性を、異なる値の処理しやすい数に量子化する。
4.次に、量子化属性を、そのブロック位置に関して1つの量子化値を生成するために組み合わせる。
5.そして、1つの量子化値を、エントリとしてヒストグラム、ヒストグラムに記録する。全てのトレーニング画像の全てのブロック位置に関する累積されたヒストグラム情報320は、顔の特徴の数学的モデルの基礎を形成する。
上述のステップを多数の検定顔画像について繰り返すことによって、1つのそのようなヒストグラムを、各可能なブロック位置に対して作成する。そこで、8×8ブロックの配列を用いる方式では、64個のヒストグラムを準備する。処理の後半部において、検定する量子化属性を、ヒストグラムのデータと比較する。データをモデル化するために全部のヒストグラムを用いるという事実は、例えばガウス分布又は他の分布を後にパラメータ化するか否かと仮定する必要はないことを意味する。データ記憶空間(必要ならば)を節約するために、同じヒストグラムが異なるブロック位置に対して再生利用できるように、類似しているヒストグラムを併合することができる。
検出段階で、検定画像350を顔検出器340で処理するために、検定画像350内の連続したウィンドウを、以下のように処理する。
6.ウィンドウを、一連のブロックのように一様にサンプリングし、そして、各ブロックに関する属性を算出して、上述のステップ1〜4のように量子化する。
7.各ブロック位置の量子化属性値の対応する「確率(probability)」を、対応するヒストグラムから調べる。すなわち、各ブロック位置のそれぞれの量子化属性を生成し、そのブロック位置に関して予め生成されたヒストグラム(異なる角度を表す複数のトレーニング用の組がある場合には、複数のヒストグラム)と比較する。ヒストグラムが「確率」データを高める方法については後述する。
8.得られる全ての確率を互いに乗算して、ウィンドウを「顔」又は「顔でない」に分類するために、閾値と比較する最終の確率を形成する。「顔」又は「顔でない」の検出結果は絶対検出よりもむしろ確率ベースの方法であることは、言うまでもない。顔を含んでいない画像を間違って「顔」として検出(所謂誤検出(false positive))してしまうことがある。また、顔を含んでいる画像を間違って「顔でない」として検出(所謂見逃し検出(false negative))してしまうこともある。あらゆる顔検出システムの目標は、誤検出の割合及び見逃し検出の割合を減らすことであるが、現在の技術では、これらの割合をゼロに減らすことは、不可能ではないとしても困難である。
上述のように、トレーニング段階において、一組の「顔でない」画像は、「顔でない」ヒストグラムの対応するセットを生成するために用いることができる。そして、顔の検出を達成するために、顔でないヒストグラムから生成される「確率」を、個々の閾値と比較し、検定ウィンドウが顔を含むためには、確率が閾値以下でなければならない。代わりに、顔でない確率に対する顔確率の比を、閾値と比較することができる。
元のトレーニングセットを例えば位置、方向、大きさ、アスペクト比、背景の風景、照明の明るさ及び周波数成分(frequency content)の変化等の「合成変化(synthetic variations)」330で処理することによって、特別な(extra)トレーニングデータを生成することができる。
以下、顔検出装置の更なる改善について説明する。
顔追跡
顔追跡アルゴリズムについて説明する。追跡アルゴリズムは、画像シーケンスにおいて顔検出性能を向上させることを意図している。
追跡アルゴリズムの初期の目標は、画像シーケンスの全てのフレームにおける全ての顔を検出することである。しかしながら、シーケンス内の顔が検出できないこともある。これらの環境で、追跡アルゴリズムは、見逃した顔検出全体で補間するように補佐することができる。
最終的に、顔追跡の目標は、画像シーケンスにおいて同じシーンに属しているフレームの各セットから有効なメタデータを出力できることである。このメタデータには、以下のものが含まれる。
・顔の数。
・各顔の「顔写真(Mugshot)」(個人の顔の画像を表す口語的な言葉、警察にファイルされている写真を照会する用語からきている)。
・各顔が最初に出現するフレーム番号。
・各顔が最後に出現するフレーム番号。
・各顔の識別(前のシーンで見られた顔に一致するか、顔のデータベースに一致したもの)−顔の識別には、顔の認識も必要とされる。
追跡アルゴリズムは、顔検出アルゴリズムの結果を用い、画像シーケンスの各フレーム上で、その開始位置として独立して実行される。顔検出アルゴリズムは時々顔を見逃す(検出しない)こともあるので、見逃した顔を内挿する(interpolating)方法は有効である。このために、顔の次の位置を予測するためにカルマンフィルタ(Kalman filter)を用い、顔追跡を助けるために、肌色マッチングアルゴリズム(skin colour matching algorithm)を用いた。更に、顔検出アルゴリズムは、誤検出が生じることも多いので、これらの誤検出を排除することも有益である。
このためのアルゴリズムを、図8に示す。
要約すると、入力ビデオデータ545(画像シーケンスを表す)が本明細書に説明する種類の検出器540及び肌色マッチング検出器550に供給される。顔検出器540は、各画像内で1つ以上の顔を検出することを試みる。顔が検出されると、カルマンフィルタ560が起動され、その顔の位置を追跡する。カルマンフィルタ560は、画像シーケンスにおける次の画像内で同じ顔の予測される位置を生成する。目の位置比較器570、580は、顔検出器540が次の画像内のその位置(或いは、その位置からある閾値距離の範囲内)で顔を検出したかを、検出する。顔が検出された場合、その検出された顔位置は、カルマンフィルタを更新するために用いられ、処理が続けられる。
顔が予測された位置で、或いは近くで検出されない場合、肌色マッチング回路550を用いる。肌色マッチング回路550は、厳密でない顔検出技術であり、その検出の閾値は顔検出器540よりも低く設定され、顔検出器540がその位置で顔があると検出することができないときでさえ、顔を検出する(顔があるとみなす)ことができる。肌色マッチング回路550によって「顔」が検出されると、その位置がカルマンフィルタ560に更新された位置として供給され、処理が続けられる。
顔検出器450又は肌色マッチング回路550によって一致が検出されないときは、カルマンフィルタを更新するために予測された位置を用いる。
これらの結果の全ては、判定基準(下記参照)に対する対象である。したがって、例えば、1つの正しい検出に基づきシーケンスを通して追跡される顔、及び予測の残り又は肌色検出の残りは、破棄する。
追跡アルゴリズムにおいて各顔を追跡するために、それぞれ独立したカルマンフィルタを用いる。
なお、追跡処理は、必ずしもビデオシーケンスを時間的に順方向に追跡する必要はない。画像データにアクセス可能であれば(すなわち、処理が実時間ではなく、又は画像データが時間的に継続する用途のためにバッファリングされている場合)、追跡処理を時間的に逆方向に行うこともできる。又は、第1の顔が検出された場合(多くの場合ビデオシーケンスの途中で検出される)、追跡処理は、時間的に順方向及び逆方向の両方について開始してもよい。更なる任意の処理として、追跡処理は、ビデオシーケンス全体に亘って、時間的に順方向及び逆方向の両方について実行し、これらの追跡の結果を組み合わせて(例えば)許容基準に適合する追跡された顔が、追跡が実行された何れの方向についても有効な結果として含ませてもよい。
追跡アルゴリズムの利点
顔追跡法は、以下のような3つの主な利点を有する。
・顔検出結果が得られないフレームにおいて、カルマンフィルタリング及び肌色追跡を用いることにより、見逃された顔を埋める(fill in)ことができる。これにより、画像シーケンス間に亘って、真の許容率を高めることができる。
・顔を連続的に追跡することにより、顔のリンクを提供できる。アルゴリズムは、将来のフレームにおいて検出された顔が同じ個人の顔であるか、他の個人の顔であるかを自動的に知ることができる。したがって、このアルゴリズムから、シーン内の顔の数やこれらの顔が存在するフレームに関する情報を含むシーンメタデータを容易に作成することができ、各顔の代表的な顔写真を作成することもできる。
・顔の誤検出は、画像間で連続することは希であるため、顔の誤検出率を低くすることができる。
図9a〜図9cは、ビデオシーケンスに適用される顔追跡を説明する図である。
具体的には、図9aは、連続するビデオ画像(例えば、フィールド又はフレーム)810から構成されるビデオシーン800を図式的に示している。
この具体例では、画像810は、1又は複数の顔を含んでいる。詳しくは、このシーン内の全ての画像810は、画像810の図式的表現内における左上に示す顔Aを含んでいる。更に、一部の画像810は、画像810の図式的表現内における右下に示す顔Bを含んでいる。
この図9aに示すシーンに顔追跡処理を適用したとする。顔Aは、当然、シーン全体に亘って追跡される。1つの画像820においては、直接検出によっては顔は追跡されていないが、上述した色マッチング法及びカルマンフィルタリング法により、「見逃された(missing)」画像820の前後の両側について、検出が連続していることを示唆する。図9bは、検出された、各画像内に顔Aが存在する確率を示しており、図9cは、顔Bが存在する確率を示している。顔Aに対する追跡と、顔Bに対する追跡とを区別するために、各追跡には、(少なくともこのシステム内における他の追跡に関して)固有の識別番号が与えられる。
上述のシステム及びPCT/GB2003/005186に開示されたシステムでは、顔検出及び追跡において、顔が長期間に亘ってカメラから背けられた場合、又はシーンから短期間消えた場合、個人の追跡が終了する。顔がシーンに戻ると、その顔は、再び検出されるが、この場合、新たな追跡が開始され、この新たな追跡には、以前とは異なる識別(ID)番号が与えられる。
以下、所謂「顔類似(face similarity)」又は「顔照合(face matching)」技術について説明する。
顔類似の目的は、上述のような状況における、個人の同一性を維持するすることであり、これにより、(同じ個人に関連する)先の顔追跡と、後の顔追跡を互いにリンクさせることができる。この構成においては、少なくとも原理的に、各個人には、固有のID番号が割り当てられる。個人がシーンに戻るとアルゴリズムは、顔照合技術を用いて、同じ識別番号を再び割り当てるよう試みる。
顔類似法では、新たに検出した個人の複数の顔「スタンプ」(追跡された顔を代表するよう選択された画像)と、以前に検出した個人又は他の場所で検出した個人とを比較する。なお、顔スタンプは、正方形である必要はない。システムの顔検出及び追跡コンポーネントから、1人の個人に属する複数の顔スタンプが得られる。上述のように、顔追跡処理では、検出された顔を一時的にリンクし、その個人がシーンから消えるか、カメラから長時間顔を背けない限り、ビデオフレームのシーケンス中において、これらの顔の同一性を維持する。したがって、このような追跡処理内の顔検出は、同じ個人に属するものと考えられ、その追跡処理内の顔スタンプは、1人の特定の個人の顔スタンプの「組」として用いることができる。
各顔スタンプの組においては、固定された数の顔スタンプが維持される。以下、追跡処理から顔スタンプを選択する手法を説明する。次に、2つの顔スタンプセットの「類似性測定値」について説明する。続いて、顔検出と追跡システム内において、類似法をどのように用いるかを説明する。まず、図10を用いて、総合的な追跡システムのコンテキストにおける顔類似技術(face similarity techniques)について説明する。
図10は、上述した顔検出及び追跡システムの技術的コンテキストに顔類似機能を追加したシステムを示している。この図面には、上述のシステム及びPCT/GB2003/005186に開示された処理の概要も示されている。
第1のステージ2300において、所謂「関心領域」ロジックは、画像内において、顔検出を行うべき領域を導出する。これらの関心領域において、顔検出2310が行われ、顔位置が検出される。次に、顔追跡2320が行われ、追跡された顔位置及びIDが生成される。そして、顔類似処理2330において、顔スタンプの組が照合される。そして、顔類似処理2330において、顔スタンプの組が照合される。
顔スタンプの組のためのスタンプの選択
顔スタンプの組を生成及び維持するために、追跡処理において一時的にリンクされた複数の顔スタンプから所定数(n)のスタンプが選択される。選択の基準は、以下の通りである。
1.スタンプは、色追跡又はカルマン追跡からではなく、顔検出から直接生成されている必要がある。更に、スタンプは、「正面」の顔トレーニングセットから生成されたヒストグラムデータを用いて検出された場合にのみ選択される。
2.一旦、(例えば、顔追跡を構成する画像の時間順に)最初のn個のスタンプが集められると、既存の顔スタンプの組と、(時間順の)追跡から得られる新たな各スタンプとの類似性(以下参照)が測定される。追跡された各顔スタンプと、スタンプの組内の残りのスタンプとの類似性も測定され、保存される。新たに得られた顔スタンプが顔スタンプの組の既存の要素より類似性が低い場合、その既存の要素は、無視され、新たな顔スタンプが顔スタンプの組に含まれる。このようにしてスタンプを選択することにより、選択処理の終わりには、顔スタンプの組内に、入手可能な最大限の変化が含まれる。これにより、顔スタンプの組は、特定の個人をより明確に代表するようになる。
1つ顔スタンプの組について集められたスタンプがn個より少ない場合、この組は、多くの変化を含んでおらず、したがって、個人のを明確に代表するものではない可能性が高いため、この顔スタンプの組は、類似性評価には使用されない。
この技術は、顔類似アルゴリズムだけではなく、如何なる目的の如何なる用途の代表ピクチャスタンプの組の選択にも応用できる。
例えば、この技術は、所謂顔登録(face logging)にも応用できる。例えば、カメラの前を通り過ぎたことが検出され、登録された個人を表現する必要がある場合がある。この場合、幾つかのピクチャがスタンプを用いるとよい。これらのピクチャスタンプは、できるだけ多くの変化が含まれるように、互いに可能な限り異なるものであることが理想的である。これにより、人間のユーザ又は自動顔認識アルゴリズムがその個人を認識できる機会が広がる。
類似性測定値
2つの顔追跡結果が同じ個人を表しているか否かを判定するためにこれらを比較する際に用いる、新たに遭遇した個人の顔スタンプの組(セットB)と、以前に遭遇した個人の顔スタンプ(セットA)との間の類似性の基準は、セットAの顔スタンプからセットBの顔のスタンプがどれ程良好に再構築できるかに基づいて定められる。セットAの顔スタンプからセットBの顔スタンプが良好に再構築できる場合、セットAとセットBの両方の顔スタンプは、同じ個人のものである可能性が高いと考えられ、したがって、新たに遭遇した個人は、以前、検出された個人と同一人物であると判定できる。
この手法は、上述した構成にも適用でき、すなわち、特定の顔追跡結果を表す顔スタンプの組として用いる顔画像の選択にも適用できる。この場合、新たに遭遇した各候補顔スタンプと、その組内の既存のスタンプとの間の類似性、及び既存の組内の各スタンプ間の類似性は、後述するように、セットBからのスタンプと、セットAからのスタンプとの間の類似性と同様に判定できる。
セットB内のスタンプは、ブロックベースの手法によって、セットAのスタンプから再構築される。この処理図を図11に示す。
図17には、4つの顔スタンプ2000、2010、2020、2030を含む顔スタンプセットAが示されている(勿論、4個という個数は、図面を明瞭にするために選択しただけであり、実用段階では、当業者はこの個数を任意に選択することができる)。顔スタンプセットBからのスタンプ2040は、セットAの4つのスタンプと比較される。
顔スタンプ2040内の重複しない各ブロック2050は、顔スタンプセットAのスタンプから選択されたブロックによって置換される。ブロックは、セットAの如何なるスタンプから、及びスタンプの元のブロック位置の近隣又は検索ウィンドウ2100内の如何なる位置からも選択することができる。平均自乗誤差(mean squared error:MSE)が最も小さくなるこれらの位置内のブロックが選択され、これにより、動きが推定法を用いて、再構築されているブロックが置換される(ここで好適に用いられる動き推定法は、演算負荷が軽く、且つ、明るさの変化がある場合、平均自乗誤差が最も小さくなる推定法である)。なお、ブロックは、正方形である必要はない。この実施例では、ブロック2060は、スタンプ2000からの近接するブロックによって置換され、ブロック2070は、顔スタンプ2010からのブロックによって置換され、ブロック2080は、顔スタンプ2020からのブロックによって置換される。
顔スタンプを再構築する場合、各ブロックは、基準顔スタンプ(reference face stamp)内の対応する近隣のブロックによって置換することができる。オプションとして、この近隣のブロックに加えて、最良のブロック(best block)は、反転された基準顔スタンプ内の対応する近隣から選択してもよい。人間の顔は、略対称性を有しているため、このような処理を行うことができる。このようにして、顔スタンプの組内に存在するより多くの変化を利用できる。
用いられる各顔スタンプは、64×64のサイズを有し、これは、8×8のサイズのブロックに分割される。類似性測定のために用いられる顔スタンプは、システムの顔検出コンポーネントによって出力される顔スタンプより厳密にクロッピングされる。これは、類似性測定処理において、できるだけ多くの背景を除外するためである。
画像をクロッピングするために、例えば、高さ50画素、幅45画素等、縮小されたサイズが選択される(又は予め定められる)(殆どの顔が正方形でないことに対応する)。次に、このサイズの中心領域に対応する画素のグループがリサイズされ、これにより、選択された領域は、再び64×64ブロックに対応するようになる。この処理は、簡単な補間処理を含む。中央の非正方形領域をリサイジングして正方形のブロックに対応させることにより、リサイジングされた顔は、多少引き延ばされて見えることがある。
クロッピング領域(例えば、50×45画素領域)は、予め定めてもよく、又は各インスタンス内の検出された顔の属性に応じて選択してもよい。何れの場合も、64×64ブロックへのリサイジングは、顔スタンプがクロッピングされているか否かにかかわらず、同じ64×64サイズで顔スタンプが比較されることを意味する。
一旦、全体のスタンプがこのようにして再構築されると、再構築されたスタンプとセットBからのスタンプの間で平均自乗誤差が計算される。この平均自乗誤差が低い程、この顔スタンプと、顔スタンプセットAの間の類似度が高いと判定できる。
2つの顔スタンプの組を比較する場合、顔スタンプセットBの各スタンプを同様に再構築し、2つの顔スタンプの組の間の類似性測定値として、結合された平均自乗誤差を用いる。
このように、このアルゴリズムは、照合すべき各個人について、複数の顔スタンプが利用可能であるという事実に基づいている。更に、このアルゴリズムは、照合すべき顔の不正確な登録に対するロバスト性を有する。
上述のシステムにおいては、類似性測定値を生成するために、既存の顔スタンプの組から新たに集められた顔スタンプの組が再構築される。他の顔スタンプの組から(AからB)顔スタンプの組を再構築することによって得られる類似性測定値は、通常、先の組から顔スタンプの組を再構築する場合(BからA)と異なる結果を示す。したがって、幾つかの状況では、既存の顔スタンプの組を新たな顔スタンプの組から再構築した場合、例えば、非常に短い追跡から既存の顔スタンプの組を集めた場合等、逆の処理を行った場合に比べて、より高い類似性測定値が導き出されることもある。したがって、同様の顔の間の併合が成功する可能性を高めるために、2つの類似性測定値を結合(例えば、平均化)してもよい。
更に可能な変形例を説明する。顔スタンプを再構築する場合、各ブロックは、基準顔スタンプからの同じサイズ、形状及び向きを有するブロックによって置換される。しかしながら、2つの顔スタンプにおいて、サブジェクトのサイズと向きが異なる場合、再構築される顔スタンプのブロックが同じサイズ、形状及び向きのブロックに対応しないため、これらの顔スタンプは、互いから良好に再構築されない。この問題は、基準顔スタンプのブロックのサイズ、形状及び向きを任意に変更できるようにすることによって解決できる。すなわち、最良のブロックは、高次の幾何学変換推定(例えば、回転、ズーム等)を用いることによって、基準顔スタンプから選択される。これに代えて、基本的な手法によって顔がスタンプを再構築する前に基準顔スタンプの全体を回転及びリサイズしてもよい。
明るさの変化に対する類似性測定値のロバスト性を高めるために、平均輝度が0となり、分散が1となるように、各顔スタンプを正規化してもよい。
オブジェクト追跡システム内の顔類似コンポーネントの使用
オブジェクト追跡により、個人がシーンから姿を消さない限り、ビデオフレームのシーケンス中において、その個人の同一性が維持される。顔類似コンポーネントの目的は、個人が一時的にシーンから消え、又はカメラから顔を背け、或いは異なるカメラによってシーンが捕捉された場合においても個人の同一が維持されるように追跡をリンクさせることである。
顔検出及びオブジェクト追跡システムの動作の間、新たな追跡が開始されるたびに、新たな顔スタンプの組の収集が開始される。新たな顔スタンプの組には、固有の(すなわち、以前に追跡された組とは異なる)IDが与えられる。新たな顔スタンプの組の各スタンプが得られると、先に集められた顔スタンプの組に対する類似性測定値(S)が算出される。以下に示すように、この類似性測定値を用いて、反復的な手法によって、先に集められた顔スタンプの組に対する、新たな顔スタンプの組の既存の要素に関する結合された類似性測定値(S−1)が更新される。
=0.9*−1+0.1*
ここで、上付き文字jは、先に集められた顔スタンプの組jとの比較を表している。
ここで、以前に遭遇した顔スタンプの組に対する新たな顔スタンプの組の類似性がある閾値(T)を超え、新たな顔スタンプの組内の要素の数が少なくともn(上述の説明参照)個であった場合、新たな顔スタンプの組には、前の顔スタンプの組と同じ所定のIDが与えられる。次に、2つの顔スタンプの組を併合し、上述したような、同じ類似性比較法を用いて、これら2つの組に含まれる変化と同じ量の変化を可能な限り含む1つの顔スタンプの組を生成する。
新たな顔スタンプの組は、n個の顔スタンプが集められる前に追跡が終了した場合、破棄される。
2つ以上の保存された顔スタンプの組について、新たな顔スタンプの組の類似性測定値が閾値Tを超えている場合、これは、現在の個人が、先の2人の個人に良好に一致すると考えられる。この場合、現在の個人を先の2人の個人の何れかに一致させるために、更に厳格な類似性閾値(すなわち、更に低い差分値)が必要となる。
類似性基準に加えて、他の評価基準を用いて、2つの顔スタンプの組を併合すべきか否かを決定することもできる。この評価基準は、同じ個人に属する2つの顔スタンプの組が同じ時間に重複しないという知識に基づいている。すなわち、数フレーム以上に亘るピクチャ内に同時に現れた2つの顔スタンプの組が互いに一致するとみなされることはない。これは、共存マトリクス(co-existence matrix)を用いて、1又は複数のピクチャ内に同時に存在した全ての顔スタンプの組に関する記録を維持することによって実現される。共存マトリクスは、2つの顔スタンプの組のあらゆる組合せが共存したことがある複数のフレームを保存する。このフレームの数が少なくない、例えば10フレーム以上である場合(幾つかのフレームに亘って、追跡が顔に定まらないまま削除されることがあることを考慮している。)、2つの顔スタンプの組を同じIDに併合することは許可されない。ID1〜ID5が付された5人の人(追跡結果)に関する共存マトリクスの具体例を以下に示す。
Figure 2008501172
マトリクスは、以下の事実を示している。
・ID1は、合計234フレームに出現している(但し、これらは連続していない場合もある)。ID1は、ID2又はID3と同時にショット内に現れたことは一度もなく、したがって、これらの個人は、将来、併合される可能性がある。ID1は、87フレームに亘ってID4と共存しており、したがって、この個人と併合されることはない。また、ID1は、5フレームに亘ってID5と共存している。このフレーム数は、閾値フレーム数より少なく、したがって、これらの2つIDは、併合される可能性を残している。
・ID2は、合計54フレームに出現している(但し、これらは連続していない場合もある)。ID2は、ID3のみと共存しており、したがって、この個人と併合されることはない。また、ID2は、良好に一致すれば、ID1、ID4、ID5の何れかと将来併合される可能性がある。
・ID3は、合計43フレームに出現している(但し、これらは連続していない場合もある)。ID3は、ID2のみと共存しており、したがって、この個人と併合されることはない。また、ID2は、良好に一致すれば、ID1、ID4、ID5の何れかと将来併合される可能性がある。
・ID4は、合計102フレームに出現している(但し、これらは連続していない場合もある)。ID4は、ID2又はID3と同時にショット内に現れたことは一度もなく、したがって、これらの個人は、将来、併合される可能性がある。ID4は、87フレームに亘ってID1と共存しており、したがって、この個人と併合されることはない。また、ID4は、5フレームに亘ってID5と共存している。このフレーム数は、閾値フレーム数より少なく、したがって、これらの2つIDは、併合される可能性を残している。
・ID5は、合計5フレームに出現している(但し、これらは連続していない場合もある)。ID5は、全てのフレームについて、ID1及びID4と共存したが、このフレーム数は閾値フレーム数より少ないので、ID5は、ID1及びID4の何れか一方と併合される可能性がある。また、ID5は、ID2及びID3と共存していないので、ID2又はID3と併合される可能性がある。
顔類似測定値が高いために2つのIDが併合されると、共存マトリクスは、これらの併合された2つのIDの共存情報を結合することによって更新される。この更新は、単に、2つのIDに対応する行の数値を加算し、続いて、2つのIDに対応する列の数値を加算することによって行われる。
例えば、ID5をID1に併合すると、上述した共存マトリクスは、以下のようになる。
Figure 2008501172
次に、ID1がID2に併合されると、この共存マトリクスは、以下のようになる。
Figure 2008501172
なお、以下の点に注意する必要がある。
・ID1は、他の更なる既存の人とも併合することはできない。
・この具体例では、2つのIDが併合された後は、小さい方のID番号を維持するとの規約がある。
・IDがピクチャ内に存在している間は、IDを併合することは許可されない。
顔スタンプの組を生成及び併合するための類似性検出処理において、顔スタンプは、通常、他の顔スタンプから複数回再構築する必要がある。これは、動きが推定法を用いて、各ブロックを何回か照合する必要があることを意味する。幾つかの動き推定法では、最初のステップとして、用いられる基準顔スタンプの如何にかかわらず、照合する必要があるブロックに関するある情報を計算する。動き推定は、何回か実行する必要があるため、この情報は、顔スタンプとともに保存してもよく、これにより、ブロックを照合するたびにこの情報を算出する必要がなくなり、処理時間が短縮される。
以下、例外的な(少なくとも普通ではない)照明条件の下で撮像された画像の画質を向上させることを目的とする顔検出及びオブジェクト追跡技術の改善について説明する。
照明変化に対するロバスト性を向上させる方法
照明変化に対するロバスト性を向上させる方法には、次のような方法がある。
(a)広範囲に亘る照明変化を含む付加的なサンプルを用いた追加的なトレーニング。
(b)急峻な影の影響を減少させるためのコントラストの調整。
ヒストグラムを正規化する更なる修正により、顔検出システムのパラメータの1つを調整する必要がなくなるので、顔検出の性能が向上する。
これらの実験のための検査用のセットは、例外的な照明条件の下で撮像された画像を含んでいる。図12に示す「小さなトレーニングセット(曲線A)」のラベルが付された第1の組は、正面の顔(20%)と、左向きの顔(20%)と、右向きの顔(20%)と、上向きの顔(20%)と、下向きの顔(20%)とを含んでいる。図12には、上述した改善を行う前及び行った後の、この検査用の組に対する顔検出システムの性能を示している。第2の検査用の画像の組は、オフィスの周辺で撮像されたサンプル画像を含んでいる。図13a及び図13bは、これらのサンプル画像を示しており、これらについては後に説明する。
ヒストグラムトレーニングセットの更なるデータ
異なる照明条件に対処するためにトレーニングセットに更なる顔のサンプルを追加してもよい。これらの顔のサンプルは、好ましくは、元から用いていたトレーニングセット内の顔のサンプルより多くの照明の変化を含んでいるとよい。図12に示すように、拡張された(結合された)トレーニングセット(曲線B)は、小さいトレーニングセット(曲線A)のみを用いた場合に比べて、僅かに性能が向上している。
ヒストグラムの正規化
正面のポーズに関するヒストグラムを用いた検出のための適切な閾値は、正面以外のポーズに関するヒストグラムを用いた場合に比べて僅かに低くすることが好ましいことが見出されている。このため、各ポーズの確率マップを結合する前に、正面のポーズの確率マップにバイアスを加える必要がある。顔検出システムのヒストグラムトレーニング機能を変更する際には、この正面のバイアスを経験的に決定する必要があった。
なお、正面の確率マップ及び正面ではない向きの確率マップの両方の検出に同様の閾値を用いることができるように、このバイアスをヒストグラムトレーニング機能に組み込んでもよい。この処理は、正面のヒストグラム及び正面ではない向きのヒストグラムを互いに正規化したと表現することもできる。図12のグラフに示す「小さいトレーニングセット」の曲線及び「結合されたトレーニングセット」の曲線は、適切な正面のバイアスを経験的に決定する前の結果を示している。曲線Cは、最適化されたヒストグラムを用いた場合の結果であり、これは、最適ではないバイアスを用いた場合に比べて、より良好な性能が得られることを示している。
コントラスト調整
急峻な影が存在する顔画像は、検出が難しいことが観察された。このため、影の影響を低減するための前処理を考案した。この前処理では、(検査中の画像全体より小さい)ウィンドウを入力画像内の各画素の周りにセンタリングし、ウィンドウ内の最小の画素値によって、ウィンドウの中心の画素値を平均化する。これにより、出力画像の各画素の値(Ioutput)は、以下の式の通りとなる。
output(x)=(Iinput(x)+ min(W))/2
ここで、Wは、画素xにセンタリングされたウィンドウを表す。
この具体化で用いる隣接するウィンドウのサイズは、7×7画素である。続いて、処理された画像に対して通常の顔検出を行う。これにより、図12の曲線Dに示すような改善の効果が得られる。すなわち、この新規な処理により、顔検出システムの性能が著しく向上していることがわかる。(なお、「ウィンドウ」が画像全体を含む構成についても同様の検査を行ったが、この場合、上述のような有利な効果は得られなかった。)
この技術は、例えば、店舗内等の厳しい照明環境下で、例えば顔等のオブジェクトを検出する必要がある場合に特に有用であり、したがって、所謂「電子看板(デジタルサイネージ)」に適用し、広告マテリアルを表示する画面を見ている個人の顔を検出するために用いてもよい。この場合、顔の存在、顔の滞在時間、及び/又は顔の数を用いて、広告画面上に表示するマテリアルを変更することができる。
サンプル画像
ここに提案した幾つかのサンプル画像に関する修正を行った後の顔検出システムの性能を図13a及び図13bに示す。左側及び右側の画像は、それぞれ修正前及び修正後の顔検出の結果を示している。このように、上述した修正により、厳しい照明条件下でも、正面の顔及び正面以外の向きの顔の両方の検出が成功している。
以下、代替となる顔類似検出法及び/又は上述した技術の変形例について説明する。
顔認識は、通常、画像を正しく「位置合わせする」と性能がよくなり、すなわち、顔を類似アルゴリズムに適用する際、顔を同様のサイズ及び向きにし、又は顔のサイズ及び向きが既知であるために、アルゴリズムにおいてこれらを補償できる場合に、顔認識の性能が高くなる。
上述した顔検出アルゴリズムは、多くの場合、かなり高い性能のレベル(例えば、幾つかの実施の形態では、90%を上回る正しい検出及び10%を下回る誤検出)で画像又はビデオフレーム内の全ての顔の数及び位置を判定できる。しかしながら、アルゴリズムの性質のために顔の位置を高い精度で生成することはできない。したがって、ここでは、顔検出と顔認識の間の中間段階において、例えば、検出された顔の目の位置を正確に特定することによって顔位置合わせを実行する。図14は、顔検出と顔認識(類似検出)との間で、顔認証処理中のどこで顔位置合わせを行うかを説明する概略図である。
以下、上述した顔認証技術又は後述する顔認証技術と共に用いて有益な顔位置合わせ技術について説明する。
ここでは、検出ベースの位置合わせアルゴリズム及び「固有目(eigeneyes)」ベースの位置合わせアルゴリズムの2つの顔位置合わせアルゴリズムについて説明する
検出ベースの位置合わせアルゴリズム
検出ベースの顔位置合わせアルゴリズムでは、より正確な位置特定のために、スケール、回転及びトランスレーション(平行移動)を変更しながら、顔検出アルゴリズムを繰り返し実行する。元の顔検出アルゴリズムから出力される顔ピクチャスタンプは、再び実行される顔検出アルゴリズムに入力される。
位置合わせアルゴリズムでは、顔検出アルゴリズムの更に局所限定されたバージョンを使用する。このバージョンは、顔が正しく位置合わせされていない場合に顔確率が低下するように、合成変化の範囲を狭くして、顔に関してトレーニングされる。トレーニングセットは、同じ数の顔を有するが、トランスレーション、回転及びズームの範囲はより小さい。表4に示すように位置合わせアルゴリズムのための合成変化の範囲は、元の顔検出アルゴリズムと比較される。
Figure 2008501172
更に、元の顔検出アルゴリズムは、25°右及び左を見上げた顔に関してトレーニングされるが、局所限定された検出アルゴリズムは、正面の顔だけに関してトレーニングされる。
元の顔検出アルゴリズムは、1オクターブあたり4つの異なるスケールで動作し、各スケールは、前のスケールの√2倍の大きさとなる。図15は、元の顔検出アルゴリズムにおけるスケールの間隔(1オクターブあたり4スケール)を図式的に示している。
顔のサイズの分解能を高め、したがって、顔の局所限定のために、顔位置合わせアルゴリズムは、更に、それぞれの顔検出スケールの間の2つのスケールにおいて、顔検出を実行する。これは、各実行の前に、×12√2の積によってシフトされた元のスケールで顔検出アルゴリズムを3回実行することによって実現される。この構成を図16に図式的に示す。図16のスケールの各行は、(局所限定された)顔検出アルゴリズムの1つの実行を表す。最終的には、顔検出結果が最高の確率になるスケールを選択する。
元の顔検出アルゴリズムは、通常、同一平面上で最大±12°回転した顔を検出できる。このため、顔検出アルゴリズムから出力される顔ピクチャスタンプは、同一平面上で最大±12°回転している。これを補償するために、位置合わせアルゴリズムのための(局所限定された)顔検出アルゴリズムは、入力画像を−12°から+12°まで、1.2°のステップで回転させながら実行される。最終的には、最高の確率を有する顔検出結果を選択する。図17は、顔位置合わせアルゴリズムで用いられる一組の回転を図式的に示している。
元の顔検出アルゴリズムは、入力画像の16×16のウィンドウに適用される。顔検出は、(小さな頭を検出するための)元の画像サイズから、(大きな頭を検出するための)元の画像のスケールダウンされたバージョンまで、様々なスケール上で実行される。スケーリングの量によって、検出された顔の位置に関連するトランスレーション誤差が生じることがある。
顔位置合わせアルゴリズムにおいて、この誤差を補償するために、(局所限定された)顔検出アルゴリズムを実行する前に、トランスレーションの範囲に亘って、128×128画素の顔ピクチャスタンプをシフトする。図18に図式的に示すように、シフトの範囲は、水平方向に−4画素から+4画素まで、及び垂直方向に−4画素から+4画素までのトランスレーションのあらゆる組合せをカバーする。(局所限定された)顔検出アルゴリズムは、トランスレートされた各画像について実行され、最終的な顔位置は、顔検出結果が最高の確率を有するトランスレーションによって決定される。
最も高い顔確率で顔が検出された全てのスケール、同一平面回転及びトランスレーション位置を発見することによって、目の位置をより正確に推定することができる。そして、最終的に、固定された目位置を有するテンプレートに顔を位置合わせする。これは、顔検出アルゴリズムからの出力である顔ピクチャスタンプに擬似変換を実行し、顔位置合わせアルゴリズムによって得られた目位置を顔テンプレートの固定された目位置に変更することによって実行される。
固有目ベースの位置合わせアルゴリズム
顔位置合わせのための固有目ベースの手法では、目の周りの顔領域についてトレーニングされた一組の固有ブロックを用いる。これらの固有ブロックは、固有目と呼ばれる。固有目は、顔検出アルゴリズムからの出力である顔ピクチャスタンプにおいて、目を探索するために使用される。この検索法は、「B. Moghaddam & A Pentland, "Probabilistic visual learning for object detection", Proceedings of the Fifth International Conference on Computer Vision, 20-23 June 1995, pp786-793」に開示されている固有顔ベースの顔検出法に用いられた技術と同様の技術を用いる。以下、この手法について詳細に説明する。
固有目画像は、両目及び鼻を含む顔の中心領域に関してトレーニングされる。図19は、平均画像(上の画像)及び複数の固有目の組(下の4枚の画像)の具体例を示している。ここでは、目の領域及び鼻の領域の組合せを選択した。大規模な実験において、この組合せによって、最良の結果が得られることが見出された。ピクチャスタンプにおけるあらゆる可能なブロック位置について、個々の目、個々の目、鼻及び口、固有ブロックの個別のセットを含む他の領域についても検査した。しかしながら、これらの手法の何れによっても、目の位置の局所限定に関して、固有目法程の効果は得られなかった。
2677個の位置合わせされた正面の顔について固有ベクトル解析を実行することによって固有目を作成した。これらの画像は、異なる照明下で及び異なる表情を有する70人の個人を元に撮像した。固有ベクトル解析は、各顔について、目及び鼻の周りの領域のみについて実行した。図19は、これにより得られた平均の目画像及び1番目から4番目までの固有目画像を示している。合計で10個の固有目画像を生成し、目の局所限定のために用いた。
先に述べたように、固有顔顔検出法と同様の技術を用いて、目の局所限定を実行した。この手法は、制約がない画像における顔の検索については限界があるが、制約がある探索空間においては良好に機能することが見出された(すなわち、ここでは、顔画像における目の領域の探索のためにこの手法を用いている)。以下、この手法の特徴及び従来の手法との違いについて要約する。
入力画像の領域が、目にどれ程類似しているかを定義する2つの尺度として、特徴空間からの距離(distance from feature space:DFFS)及び特徴空間内の距離(distance in feature space:DIFS)を用いる。これらを明瞭にするために、画像サブ空間における固有目を例に説明する。
固有目は、完全な画像空間のサブ空間を表す。このサブ空間によって、人間の顔の目において典型的な(平均目画像からの)変化を最適に表すことができる。
DFFSは、固有目の加重和及び平均目画像から現在の顔の目を作成する際の再構築誤差を表す。これは、固有目によって表されている空間に直交するサブ空間におけるエネルギと等しい。
DIFSは、各固有目画像の分散によって重み付けされた距離メトリック(所謂マハラノビス距離)を用いて、固有目サブ空間内における平均画像からの距離を表す。
そして、DFFSとDIFSの加重和を用いて、入力画像の領域が固有目にどれくらい近いかを定義する。元の固有顔法では、全てのトレーニング画像に亘る再構築誤差の分散によってDFFSを重み付けしている。ここで元の固有顔法と異なり、画素ベースの重み付けを行う。重み付け画像は、トレーニング画像を再構築する際、各画素位置の再構築誤差の分散を見出すことによって構築される。そして、この重み付け画像を用いて、画素毎にDFFSを正規化した後、DIFSに結合する。これによって、通常、再構築が困難な画素が、距離メトリックに望ましくない影響を与えることを防ぐことができる。
そして、顔ピクチャスタンプ内の最小の加重DFFS+DIFSが得られる位置を見出すことによって、目の位置が検出される。これは、固有目サイズの画像領域を再構築し、顔ピクチャスタンプ内の全ての画素位置において、上述したように加重DFFS+DIFSを算出することによって行われる。
更に、検出ベースの手法(上述)と同様の一組の回転及びスケールを用いて、探索範囲を拡大し、検出された顔の回転及びスケールを修正する。そして、全てのスケールに亘る最小のDFFS+DIFS、検査された回転及び画素位置を用いて、目の位置の最良の推定を得る。
所定のスケール及び同一平面回転における最適の固有目位置を発見することによって、固定された目位置を有するテンプレートに顔を位置合わせできる。これは、検出ベースの位置合わせ法と同様に、単に顔ピクチャスタンプを擬似変換することによって実行できる。これによって、顔位置合わせアルゴリズムによって得られた目位置が顔テンプレートの固定された目位置に変換される。
顔位置合わせ結果
所謂顔写真画像(mugshot image)及び所謂検査画像(test image)の2組のデータを用いて顔位置合わせアルゴリズムを検査した。メインの顔位置合わせ検査は、顔写真画像について実行した。これらは、制御された環境で捕捉された一組の静止画像である。
また、「検査」画像についても顔位置合わせを検査する。検査画像は、ソニー株式会社のデジタルカメラSNC−RZ30(商標)によって、オフィス環境で捕捉された一連の追跡された顔を含む。検査画像は、顔認識における検査セットとして用いた。認識の間、検査セット内の追跡された各顔を、顔写真画像の各顔に対して照合し、グラウンドトゥルース(ground truth)に対して、所定の閾値を満たす全ての一致を記録及び確認した。各閾値は、正検出/誤検出曲線における異なる点において生成した。
そして、顔写真画像に対する各顔位置合わせアルゴリズムからの目位置出力の目視による比較によって、この結果を評価した。この手法により、目の局所限定誤差の最大値を推定し、各顔位置合わせ技術の精度を高めることができる。
これにより得られた画像は、目の局所化結果が他の顔位置合わせ法の結果と非常に類似することを示している。実際に、目視検査によって、128×128の画素顔ピクチャスタンプにおいて測定した結果、2つの手法の間の目位置の最大の差分は、2画素であった。
顔類似
以下、上述した位置合わせ技術を利用する代替の顔類似検出技術について説明する。
この手法では、図20に図式的に示すように、各顔スタンプ(64×64画素のサイズ)を各ブロックが隣のブロックと8画素分重なり合う、16×16画素のサイズの重なり合うブロックに分割する。
まず、平均ゼロ及び分散1を有するように各ブロックを正規化する。そして、一組の10の固有ブロックによってこれを畳み込み、固有ブロック重み(又は属性)と呼ばれる10個の要素を有するベクトルを生成する。固有ブロック自体は、顔画像内で出現する可能性が高い画像パターンを適切に表現できるように算出された一組の16×16のパターンである。固有ブロックは、オフライントレーニング処理の間に、サンプル顔画像から得られたブロックの大きな集合に対して主成分分析(principal component analysis:PCA)を実行することによって作成される。各固有ブロックは、ゼロ平均及び単位分散を有する。各ブロックは、10個の属性を用いて表現され、顔スタンプ内には、49個のブロックがあるため、顔スタンプを表すために、490個の属性が必要である。
本発明に基づくシステムでは、追跡コンポーネントにより、1人の個人に属す複数の顔スタンプを得ることができる。この利点を活用するために、顔スタンプのセットの属性を用いて1人の個人を表す。これは、個人に関して、単に1つの顔スタンプを用いる場合に比べて、更に多くの情報を維持できることを意味する。この実施の形態では、8個の顔スタンプのための属性を用いて1人の個人を表す。1人の個人を表すために用いられる顔スタンプは、後述するように、自動的に選択される。
類似距離測定値を生成するための属性の比較
2組の顔スタンプの組間の類似距離を計算するために、顔スタンプに対応する属性間の平均二乗誤差を算出することによって、顔スタンプの一方の組を他方の組の顔スタンプのそれぞれと比較する。各組には、8個の顔スタンプがあるので、64個の平均二乗誤差の値が得られる。2つの顔スタンプの組間の類似距離は、算出された64個の値のうち、最小の平均二乗誤差値である。
このようにして、1つの組の顔スタンプの何れかが他の組の顔スタンプの何れかとよく似ている場合、2つの顔スタンプの組の類似性が高くなり、類似距離測定値が小さくなる。2つの顔が(少なくとも高い確率で)同じ個人に由来することを検出するように閾値を設定してもよい。
顔スタンプの組のためのスタンプの選択
顔スタンプの組を生成及び維持するために、追跡処理において一時的にリンクされた複数の顔スタンプから8つの顔スタンプが選択される。選択の基準は、以下の通りである。
1.スタンプは、色追跡又はカルマン追跡からではなく、顔検出から直接生成されている必要がある。更に、スタンプは、「正面」の顔トレーニングセットから生成されたヒストグラムデータを用いて検出された場合にのみ選択される。
2.一旦、最初の8個のスタンプが集められると、上述のように、既存の顔スタンプの組と、追跡から得られる新たな各スタンプとの間の平均二乗誤差が算出される。追跡された各顔スタンプと、スタンプの組内の残りのスタンプとの平均二乗誤差も測定され、保存される。新たに得られた顔スタンプが顔スタンプの組の既存の要素より類似性が低い場合、その既存の要素は、無視され、新たな顔スタンプが顔スタンプの組に含まれる。このようにしてスタンプを選択することにより、選択処理の終わりには、顔スタンプの組内に、入手可能な最大限の変化が含まれる。これにより、顔スタンプの組は、特定の個人をより明確に代表するようになる。
1つ顔スタンプの組について集められたスタンプが8個より少ない場合、この組は、多くの変化を含んでおらず、したがって、個人のを明確に代表するものではない可能性が高いため、この顔スタンプの組は、類似性評価には使用されない。
参考文献
1.エイチ・シュナイダーマン(H. Schneiderman)及びティー・カナデ(T. Kanade)著、「顔及び車に適用される3Dオブジェクト検出のための統計モデル(A statistical model for 3D object detection applied to faces and cars)」、コンピュータビジョン及びパーターン検出に関するIEEEコンファレンス2000(IEEE Conference on Computer Vision and Pattern Detection, 2000)
2.エイチ・シュナイダーマン(H. Schneiderman)及びティー・カナデ(T. Kanade)著、「オブジェクト検出のための局所的外観及び空間的関係の確率的モデリング(Probabilistic modelling of local appearance and spatial relationships for object detection)」、コンピュータビジョン及びパーターン検出に関するIEEEコンファレンス1998(IEEE Conference on Computer Vision and Pattern Detection, 1998)
3.エイチ・シュナイダーマン(H. Schneiderman)著、「顔及び車に適用される3Dオブジェクト検出のための統計的手法」、カーネギーメロン大学(Carnegie Mellon University)ロボティクス研究科(Robotics Institute)博士論文、2000年
4.ビー・モガダム(B. Moghaddam)及びエー・ペントランド(A Pentland)著、「オブジェクト検出のための確率的視覚学習(Probabilistic visual learning for object detection)」、1995年6月20〜23日、コンピュータビジョンに関する第五回国際会議報告書pp786〜793(Proceedings of the Fifth International Conference on Computer Vision, 20-23 June 1995, pp786-793)
顔検出装置及び/又は非線型編集装置として用いられる汎用コンピュータシステムの構成を示す図である。 顔検出に用いるビデオカメラ−レコーダ(カムコーダ)の内部構成を示す図である。 ビデオ会議システムの構成を示す図である。 ビデオ会議システムの構成をより詳細に示す図である。 ビデオ会議システムの構成をより詳細に示す図である。 トレーニング処理を説明する図である。 検出処理を説明する図である。 顔追跡アルゴリズムを説明する図である。 図9a〜9cは、ビデオシーケンスに適用される顔追跡を説明する図である。 顔検出及び追跡システムの構成を示す図である。 類似性検出技術を説明する図である。 異なるトレーニングセットに対するシステム性能を示すグラフ図である。 図13a〜13bは、試験結果を示す図である。 認識顔位置合わせを含む処理を図式的に示す図である。 画像スケールの選択を説明する図である。 画像スケールの選択を説明する図である。 画像回転を図式的に示す図である。 画像トランスレーションを図式的に示す。 一組の所謂固有目を図式的に示す図である。 顔のブロックへの分割を図式的に示す図である。

Claims (35)

  1. 検査画像と、2つ以上の基準画像を含む一組の基準画像とを比較する画像比較方法において、
    上記検査画像を1つ以上の検査領域に分割するステップと、
    上記各検査領域について、該検査領域と、上記1つ以上の基準画像における1つ以上の基準領域とを比較し、該検査領域に最も類似する基準領域を特定するステップと、
    上記検査領域と、該検査領域に対応して特定された基準領域との比較から比較値を生成するステップとを有する画像比較方法。
  2. 上記比較値は、上記検査画像が上記基準画像の組に類似しているか否かを判定するために用いられることを特徴とする請求項1記載の画像比較方法。
  3. 上記検査領域は、各基準画像内に対応する探索領域を有し、該基準画像について、
    上記検査領域と比較される上記基準画像からの各基準領域は、該検査領域に対応する探索領域を超えない範囲を有し、
    上記検査領域は、上記基準画像において、上記検査画像の位置と同じ位置に位置した場合、対応する探索領域を超えない範囲を有することを特徴とする請求項1又は2記載の画像比較方法。
  4. 上記探索領域は、基準画像全体より小さいことを特徴とする請求項3記載の画像比較方法。
  5. 上記探索領域は、検査領域より大きいことを特徴とする請求項3又は4記載の画像比較方法。
  6. 上記検査領域及び基準領域の形状は、実質的に長方形又は正方形であることを特徴とする請求項1乃至5何れか1項記載の画像比較方法。
  7. 上記検査領域に対応する基準領域は、該検査領域と同じ大きさ及び形状を有することを特徴とする請求項1乃至6何れか1項記載の画像比較方法。
  8. 上記検査領域を基準領域と比較するステップは、該検査領域と基準領域との間の平均二乗誤差を算出するステップを有することを特徴とする請求項1乃至7何れか1項記載の画像比較方法。
  9. 上記基準領域は、上記検査領域と比較された全ての基準領域のうちで最小の平均二乗誤差を有する場合、該検査領域に最も類似すると判定されることを特徴とする請求項8記載の画像比較方法。
  10. 上記各検査領域及び各基準領域を一組の固有ブロックと結合し、固有ブロック重みのそれぞれの組を生成する結合ステップと、
    上記検査画像及び各基準画像について得られた固有ブロック重みを比較し、それぞれの比較値を生成するステップとを更に有する請求項1乃至9何れか1項記載の画像比較方法。
  11. 上記各検査領域及び各基準領域を一組の固有ブロックと結合するステップは、該各検査領域及び各基準領域を固有ブロックの組で畳み込むステップを有することを特徴とする請求項10記載の画像比較方法。
  12. 上記検査領域に対応する基準領域の幾何学的特性を変更し、変更された基準領域を生成するステップと、
    上記検査領域を1つ以上の基準領域と比較するステップにおいて、上記元の基準領域に加えて、上記変更された基準領域を用いるステップとを更に有する請求項1乃至11何れか1項記載の画像比較方法。
  13. 上記基準領域の幾何学的特性を変更するステップは、
    上記基準領域を回転させるステップと、上記基準領域のサイズを変更するステップとのうちの少なくとも1つを含むことを特徴とする請求項12記載の画像比較方法。
  14. 上記基準画像の幾何学的特性を変更し、変更された基準画像を生成するステップと、
    上記変更された基準画像を上記基準画像の組に含ませるステップとを更に有する請求項1乃至13何れか1項記載の画像比較方法。
  15. 上記基準画像の幾何学的特性を変更するステップは、
    上記基準画像を回転させるステップと、上記基準画像のサイズを変更するステップとのうちの少なくとも1つを含むことを特徴とする請求項14記載の画像比較方法。
  16. 上記検査画像及び各基準画像を正規化するステップを更に有することを特徴とする請求項1乃至15何れか1項記載の画像比較方法。
  17. 上記検査画像及び基準画像は、それぞれ、平均ゼロ、分散1を有するように正規化されることを特徴とする請求項16記載の画像比較方法。
  18. 動き推定を実行し、上記基準画像内のどの基準領域が、上記検査領域に最も類似するかを判定するステップを更に有する請求項1乃至17何れか1項記載の画像比較方法。
  19. 上記動き推定パラメータは、保存され、後の画像比較において再計算する必要がないことを特徴とする請求項18記載の画像比較方法。
  20. 上記動き推定を実行するステップは、
    ロバストカーネルを用いるステップと、メジアン減算を実行するステップとのうちの少なくとも1つを含むことを特徴とする請求項18又は19記載の画像比較方法。
  21. 上記検査画像及び基準画像は、オブジェクトの画像であることを特徴とする請求項1乃至請求項20何れか1項記載の画像比較方法。
  22. オブジェクト追跡アルゴリズムを用いて上記画像のビデオシーケンスから基準画像を選択するステップを更に有し、該オブジェクト追跡アルゴリズムが、
    (a)少なくとも、真である所定の確率でオブジェクトの存在を検出し、
    (b)検出されたオブジェクトが適切な向きを向いていると判定した場合に、基準画像を選択することを特徴とする請求項21記載の画像比較方法。
  23. 上記オブジェクトは、顔であることを特徴とする請求項21又は22記載の画像比較方法。
  24. オブジェクト位置、オブジェクトサイズ及びオブジェクトの向きの少なくとも1つに関して上記比較処理を正規化するステップを更に有する請求項21乃至23何れか1項記載の画像比較方法。
  25. 上記正規化するステップは、上記検査画像及び基準画像の少なくとも1つにおけるオブジェクト位置、オブジェクトサイズ及びオブジェクトの向きのうちの少なくとも一方を、他方の検査画像及び基準画像の各プロパティにより近付けるように調整することを特徴とする請求項24記載の画像比較方法。
  26. 上記基準画像を縦軸に関して反転させ、反転された基準画像を生成するステップと、
    上記反転された基準画像を上記基準画像の組に含ませるステップとを更に有する請求項1乃至25何れか1項記載の画像比較方法。
  27. 検査画像を2枚以上の基準画像を含む2組以上の基準画像の組と比較する画像比較方法において、
    請求項1乃至26何れか1項記載の画像比較方法に基づいて、上記検査画像を上記基準画像の各組と比較し、各基準画像の組について、上記検査画像が該基準画像の組に類似するか否かを示す対応する比較値を判定するステップと、
    上記検査画像が上記基準画像の2つ以上の組に類似すると判定された場合、該基準画像の組に対応する上記比較値を比較し、該基準画像の組のうち、何れの組が該検査画像に最も類似するかを判定するステップとを有する画像比較方法。
  28. 2つ以上の検査画像及び2つ以上の基準画像について、該基準画像の組と、該検査画像の組とを比較する画像比較方法において、
    請求項1乃至27何れか1項記載の画像比較方法に基づいて、上記各検査画像を比較する上記基準画像の組と比較し、各検査画像について対応する比較値を算出するステップと、
    上記比較値を結合して類似値を生成するステップとを有する画像比較方法。
  29. 上記類似値を用いて、上記検査画像の組が上記基準画像の組に類似するか否かを判定するステップを更に有する請求項28記載の画像比較方法。
  30. 2つ以上の第1の画像の組を2つ以上の第2の画像の組と比較する画像比較方法において、
    請求項28記載の画像比較方法に基づき、上記第1の画像の組を検査画像の組として用い、上記第2の画像の組を基準画像の組として用いて、該第1の画像の組と該第2の画像の組とを比較し、第1の類似値を算出するステップと、
    請求項28記載の画像比較方法に基づき、上記第1の画像の組を基準画像の組として用い、上記第2の画像の組を検査画像の組として用いて、該第1の画像の組と該第2の画像の組とを比較し、第2の類似値を算出するステップと、
    上記第1の類似値及び第2の類似値を用いて、上記第1の画像の組及び第2の画像の組が類似しているかを判定するステップとを有する画像比較方法。
  31. 検査画像と、2つ以上の基準画像を含む一組の基準画像とを比較する画像比較装置において、
    上記検査画像を1つ以上の検査領域に分割する分割器と、
    上記検査領域と、上記1つ以上の基準画像における1つ以上の基準領域とを比較し、該検査領域に最も類似する基準領域を特定する特定器と、
    上記検査領域と、該検査領域に対応して特定された基準領域との比較から比較値を生成する生成器とを備える画像比較装置。
  32. コンピュータに請求項1乃至30何れか1項記載の画像比較方法を実行させるためのログラムコードを有するコンピュータソフトウェア。
  33. 請求項32記載のコンピュータソフトウェアを格納した提供媒体。
  34. 当該提供媒体は、記録媒体であることを特徴とする請求項33記載の提供媒体。
  35. 当該提供媒体は、伝送媒体であることを特徴とする請求項33記載の提供媒体。
JP2007514104A 2004-05-28 2005-05-27 画像比較方法 Pending JP2008501172A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0412037A GB2414616A (en) 2004-05-28 2004-05-28 Comparing test image with a set of reference images
PCT/GB2005/002104 WO2005116910A2 (en) 2004-05-28 2005-05-27 Image comparison

Publications (1)

Publication Number Publication Date
JP2008501172A true JP2008501172A (ja) 2008-01-17

Family

ID=32671285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007514104A Pending JP2008501172A (ja) 2004-05-28 2005-05-27 画像比較方法

Country Status (5)

Country Link
US (1) US20080013837A1 (ja)
JP (1) JP2008501172A (ja)
CN (1) CN101095149B (ja)
GB (1) GB2414616A (ja)
WO (1) WO2005116910A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146522A (ja) * 2008-12-22 2010-07-01 Nec Software Kyushu Ltd 顔画像追跡装置及び顔画像追跡方法並びにプログラム
KR101521136B1 (ko) * 2013-12-16 2015-05-20 경북대학교 산학협력단 얼굴 인식 방법 및 얼굴 인식 장치
WO2024150267A1 (ja) * 2023-01-10 2024-07-18 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2430736A (en) 2005-09-30 2007-04-04 Sony Uk Ltd Image processing
GB2431793B (en) 2005-10-31 2011-04-27 Sony Uk Ltd Image processing
WO2009052574A1 (en) * 2007-10-25 2009-04-30 Andrew James Mathers Improvements in oudoor advertising metrics
US8194933B2 (en) 2007-12-12 2012-06-05 3M Innovative Properties Company Identification and verification of an unknown document according to an eigen image process
US8540158B2 (en) * 2007-12-12 2013-09-24 Yiwu Lei Document verification using dynamic document identification framework
US20090151773A1 (en) * 2007-12-14 2009-06-18 E. I. Du Pont De Nemours And Company Acid Terpolymer Films or Sheets and Articles Comprising the Same
JP5453717B2 (ja) 2008-01-10 2014-03-26 株式会社ニコン 情報表示装置
US20090290791A1 (en) * 2008-05-20 2009-11-26 Holub Alex David Automatic tracking of people and bodies in video
CN102033727A (zh) * 2009-09-29 2011-04-27 鸿富锦精密工业(深圳)有限公司 电子设备界面控制***及方法
TWI506592B (zh) * 2011-01-05 2015-11-01 Hon Hai Prec Ind Co Ltd 電子裝置及其圖像相似度比較的方法
KR101381439B1 (ko) * 2011-09-15 2014-04-04 가부시끼가이샤 도시바 얼굴 인식 장치 및 얼굴 인식 방법
KR101289087B1 (ko) * 2011-11-03 2013-08-07 인텔 코오퍼레이션 얼굴 검출 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
WO2013113974A1 (en) * 2012-01-30 2013-08-08 Nokia Corporation A method, an apparatus and a computer program for promoting the apparatus
US9047376B2 (en) * 2012-05-01 2015-06-02 Hulu, LLC Augmenting video with facial recognition
US9813666B2 (en) * 2012-05-29 2017-11-07 Qualcomm Incorporated Video transmission and reconstruction
US9830567B2 (en) 2013-10-25 2017-11-28 Location Labs, Inc. Task management system and method
CN104573534B (zh) * 2014-12-24 2018-01-16 北京奇虎科技有限公司 一种在移动设备中处理隐私数据的方法和装置
US20170237986A1 (en) * 2016-02-11 2017-08-17 Samsung Electronics Co., Ltd. Video encoding method and electronic device adapted thereto
US10306315B2 (en) * 2016-03-29 2019-05-28 International Business Machines Corporation Video streaming augmenting
CN108596911B (zh) * 2018-03-15 2022-02-25 西安电子科技大学 一种基于pca重构误差水平集的图像分割方法
DE102018121997A1 (de) * 2018-09-10 2020-03-12 Pöttinger Landtechnik Gmbh Verfahren und Vorrichtung zur Verschleißerkennung eines Bauteils für landwirtschaftliche Geräte
CN112889068A (zh) 2018-10-26 2021-06-01 英特尔公司 用于图像处理的神经网络对象识别的方法和***
CN112465717B (zh) * 2020-11-25 2024-05-31 北京字跳网络技术有限公司 脸部图像处理模型训练方法、装置、电子设备和介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07306939A (ja) * 1994-05-09 1995-11-21 Loral Aerospace Corp 連結性を利用するクラッター排除方法
JPH0935067A (ja) * 1995-07-21 1997-02-07 Video Res:Kk テレビ視聴者識別方法およびその装置
JPH1115945A (ja) * 1997-06-19 1999-01-22 N T T Data:Kk 画像処理装置及び方法、及び、危険物検出システム及び方法
JPH11306325A (ja) * 1998-04-24 1999-11-05 Toshiba Tec Corp 対象物検出装置及び対象物検出方法
JP2000187733A (ja) * 1998-12-22 2000-07-04 Canon Inc 画像処理装置及び方法並びに記憶媒体
JP2000306095A (ja) * 1999-04-16 2000-11-02 Fujitsu Ltd 画像照合・検索システム
WO2002007096A1 (fr) * 2000-07-17 2002-01-24 Mitsubishi Denki Kabushiki Kaisha Dispositif de recherche d'un point caracteristique sur un visage
JP2003108981A (ja) * 2001-09-20 2003-04-11 Eastman Kodak Co 顔の特徴を位置確認するための方法及びコンピュータープログラム製品
JP2003281548A (ja) * 2002-03-26 2003-10-03 Toshiba Corp 映像編集方法及びプログラム
JP2003346149A (ja) * 2002-05-24 2003-12-05 Omron Corp 顔照合装置および生体情報照合装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5291563A (en) * 1990-12-17 1994-03-01 Nippon Telegraph And Telephone Corporation Method and apparatus for detection of target object with improved robustness
US6023530A (en) * 1995-11-13 2000-02-08 Applied Intelligent Systems, Inc. Vector correlation system for automatically locating patterns in an image
US6185314B1 (en) * 1997-06-19 2001-02-06 Ncr Corporation System and method for matching image information to object model information
US6115140A (en) * 1998-07-28 2000-09-05 Shira Computers Ltd. Method and system for half tone color conversion
US20030059124A1 (en) * 1999-04-16 2003-03-27 Viisage Technology, Inc. Real-time facial recognition and verification system
US6501857B1 (en) * 1999-07-20 2002-12-31 Craig Gotsman Method and system for detecting and classifying objects in an image
JP3603737B2 (ja) * 2000-03-30 2004-12-22 日本電気株式会社 移動体追尾方法及びその装置
US6836554B1 (en) * 2000-06-16 2004-12-28 International Business Machines Corporation System and method for distorting a biometric for transactions with enhanced security and privacy
JP3780830B2 (ja) * 2000-07-28 2006-05-31 日本電気株式会社 指紋識別方法及び装置
EP1229486A1 (en) * 2001-01-31 2002-08-07 GRETAG IMAGING Trading AG Automatic image pattern detection
US7327866B2 (en) * 2001-04-09 2008-02-05 Bae Kyongtae T Method and apparatus for compressing computed tomography raw projection data
EP1293925A1 (en) * 2001-09-18 2003-03-19 Agfa-Gevaert Radiographic scoring method
JP2003219225A (ja) * 2002-01-25 2003-07-31 Nippon Micro Systems Kk 動体画像監視装置
KR100455294B1 (ko) * 2002-12-06 2004-11-06 삼성전자주식회사 감시 시스템에서의 사용자 검출 방법, 움직임 검출 방법및 사용자 검출 장치
US7194110B2 (en) * 2002-12-18 2007-03-20 Intel Corporation Method and apparatus for tracking features in a video sequence
US7127127B2 (en) * 2003-03-04 2006-10-24 Microsoft Corporation System and method for adaptive video fast forward using scene generative models
US7184602B2 (en) * 2003-05-02 2007-02-27 Microsoft Corp. System and method for low bandwidth video streaming for face-to-face teleconferencing

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07306939A (ja) * 1994-05-09 1995-11-21 Loral Aerospace Corp 連結性を利用するクラッター排除方法
JPH0935067A (ja) * 1995-07-21 1997-02-07 Video Res:Kk テレビ視聴者識別方法およびその装置
JPH1115945A (ja) * 1997-06-19 1999-01-22 N T T Data:Kk 画像処理装置及び方法、及び、危険物検出システム及び方法
JPH11306325A (ja) * 1998-04-24 1999-11-05 Toshiba Tec Corp 対象物検出装置及び対象物検出方法
JP2000187733A (ja) * 1998-12-22 2000-07-04 Canon Inc 画像処理装置及び方法並びに記憶媒体
JP2000306095A (ja) * 1999-04-16 2000-11-02 Fujitsu Ltd 画像照合・検索システム
WO2002007096A1 (fr) * 2000-07-17 2002-01-24 Mitsubishi Denki Kabushiki Kaisha Dispositif de recherche d'un point caracteristique sur un visage
JP2003108981A (ja) * 2001-09-20 2003-04-11 Eastman Kodak Co 顔の特徴を位置確認するための方法及びコンピュータープログラム製品
JP2003281548A (ja) * 2002-03-26 2003-10-03 Toshiba Corp 映像編集方法及びプログラム
JP2003346149A (ja) * 2002-05-24 2003-12-05 Omron Corp 顔照合装置および生体情報照合装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146522A (ja) * 2008-12-22 2010-07-01 Nec Software Kyushu Ltd 顔画像追跡装置及び顔画像追跡方法並びにプログラム
KR101521136B1 (ko) * 2013-12-16 2015-05-20 경북대학교 산학협력단 얼굴 인식 방법 및 얼굴 인식 장치
WO2024150267A1 (ja) * 2023-01-10 2024-07-18 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体

Also Published As

Publication number Publication date
CN101095149A (zh) 2007-12-26
GB0412037D0 (en) 2004-06-30
US20080013837A1 (en) 2008-01-17
CN101095149B (zh) 2010-06-23
WO2005116910A3 (en) 2007-04-05
GB2414616A (en) 2005-11-30
WO2005116910A2 (en) 2005-12-08

Similar Documents

Publication Publication Date Title
JP4616702B2 (ja) 画像処理
JP2008501172A (ja) 画像比較方法
JP4381310B2 (ja) メディア処理システム
US7636453B2 (en) Object detection
JP2006508461A (ja) 顔検出及び顔追跡
JP2006508601A (ja) ビデオカメラ
JP2006508463A (ja) 顔検出
JP2006508601A5 (ja)
US7489803B2 (en) Object detection
JP4939968B2 (ja) 監視画像処理方法、監視システム及び監視画像処理プログラム
US8270806B2 (en) Information processing apparatus and method of controlling same
US7421149B2 (en) Object detection
JP2006508462A (ja) 顔検出
US7522772B2 (en) Object detection
JP2004192637A (ja) 顔検出
JP2004199669A (ja) 顔検出
US20050129277A1 (en) Object detection
US20050128306A1 (en) Object detection
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
CN110830734B (zh) 一种突变和渐变镜头切换识别方法及***
JP2005176339A (ja) 動画像処理方法、動画像処理装置、動画像処理プログラム及びそのプログラムを記録した記録媒体
GB2414613A (en) Modifying pixels in dependence on surrounding test region

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080325

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080418

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100811

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110112

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110222