JP2014505952A

JP2014505952A - 画像品質の評価

Info

Publication number: JP2014505952A
Application number: JP2013553746A
Authority: JP
Inventors: チェン，シャオカン; ウォン，ヨンカン
Original assignee: ナショナル・アイシーティ・オーストラリア・リミテッド
Priority date: 2011-02-18
Filing date: 2012-02-20
Publication date: 2014-03-06
Anticipated expiration: 2032-02-20
Also published as: AU2012219026B2; JP6204199B2; US9613258B2; EP2676224B1; EP2676224A4; AU2012219026A1; US20140044348A1; EP2676224A1; WO2012109712A1

Abstract

この開示は画像品質の評価に関する。詳細には、画像品質を評価するための、コンピュータで実施される方法、ソフトウェア、およびコンピュータについて記述されている。非限定的な例として、顔の画像品質は、顔認識に使用するための画像の適合性を示す。本発明は、被写体の画像（６０８）とモデル（４１２）との２つ以上の部分画像の特徴の類似度を判定するステップ（１１２）を含み、前記モデルは、同じタイプの複数の異なる被写体の複数の訓練画像（６１２）に基づいて決められる。モデル（４１２）は部分モデル（４０６）からなり、部分モデル（４０６）はそれぞれ前記画像の部分画像（６０８）に対応する。類似度の判定は、各部分画像の特徴とそれに対応する部分モデルによってモデル化された特徴との類似度に基づいて決められる。１つの利点は、画像と、同一したがって単一の包括的モデルとの類似度のみから画像品質を判定できるので、品質評価に入力パラメータが必要ない点である。

Description

（参照による援用）
２０１１年２月１８日に出願された「顔選択のためのパッチに基づく確率論的画像品質の評価および改良型のビデオに基づく顔認識（Patch-based Probabilistic Image Quality Assessment for Face Selection and Improved Video Based Face Recognition）」という名称であるオーストラリア仮特許出願第２０１１９００５５７号の開示を、参照としてここに援用する。２０１１年１２月２１日に出願された「画像品質の評価（Image quality assessment）」という名称であるオーストラリア仮特許出願第２０１１９０５３４１号の開示もまた参照としてここに援用する。

この開示は画像品質の評価に関する。詳細には、画像品質を評価するための、コンピュータで実施される方法、ソフトウェア、およびコンピュータについて記述されている。非限定的な例として、顔の画像品質は、顔認識に使用するための画像の適合性を示す。

画像処理は、例えば画像の強調、被写体の分類、識別などができるように、画像内の被写体を検出することを含む。

顔認識は、画像処理の重要な領域となっている。カメラによって取り込まれた画像内の顔を自動検出するための技術は、バイオメトリック・アクセス・コントロールや、セキュリティ監視、画像位置合わせ、画像のタグ付けなど、多数の適用先があ。

顔認識分野における主要な課題の１つは、理想的かつ制御可能な状態でセットアップされていないカメラによって元画像が取り込まれることである。得られる画像には、しばしば、低い基礎解像度、ブレ、姿勢の大きなばらつき、低いコントラストおよび頻繁な照明変化が存在する。その結果、同じ人物の複数の画像品質が大きく変動する可能性がある。この品質の変動は、（１）画像固有の品質（解像度や鮮鋭度、コントラスト、圧縮アーチファクトなど）のばらつきと、（２）顔固有の品質（顔幾何形状や姿勢、検出可能な視野角／照明角度など）のばらつきを含む。

現在の顔認識のための手法の大部分は、既知の顔画像を含んだ参照ギャラリを使用するものであり、その目的は、調査画像の顔と整合するギャラリの顔を確実に見つけ出すことである。当然ながら、ギャラリの顔と調査画像の顔が異なる品質（解像度や鮮鋭度、コントラスト、圧縮アーチファクト、顔幾何形状、姿勢、検出可能な視野角／照明角度など）で取り込まれても、この整合を見出す必要がある。

第１の態様では、被写体の画像品質を評価するための、コンピュータで実施される方法が提供され、上記方法は、
上記画像の２つ以上の部分画像の特徴と上記被写体のモデルとの類似度を判定するステップにおいて、上記モデルが同じタイプの複数の異なる被写体の複数の訓練画像（training images）に基づいて決められ、上記モデルが上記画像の部分画像にそれぞれ対応する部分モデルからなり、類似度の判定が、各部分画像の特徴とそれに対応する部分モデルによってモデル化された特徴との類似度に基づいて決められるステップと、
上記画像の品質を、上記２つ以上の部分画像の上記判定された類似度に基づいて判定するステップと、を含む。

１つの利点は、画像と、同一したがって単一の包括的モデルとの類似度のみから画像品質を判定できるので、品質評価に入力パラメータが必要ない点である。他の利点は、この方法では、被写体の実物の要素（顔の場合は目や鼻など）を検出する必要がない点である。その結果、他の利点は、この方法が、各要素の検出が不可能である低い解像度画像など、低い品質画像の使用に適している点である。

１つの利点は、同じタイプの異なる被写体の複数の画像から１つのモデルが構築される点である。その結果、類似度の判定が、実物の参照画像との一連の比較に基づいて行われない。これにより、計算時間が短縮され、リアルタイムの品質判定が可能になる。例えば、この計算時間は、ストリーミング・ビデオの次のフレームとの間の時間よりも短い。計算時間は、この方法のスケーリング（scaling）にとっても重要になる。

１つの利点は、部分画像を評価することによって、類似度の判定ごとに考慮する必要があるピクセル数が低減される点である。その結果、メモリの必要量と計算時間が低減される。他の利点は、個々の部分画像の計算を並列化して、現行のマルチコア・コンピュータ・アーキテクチャを最大限に利用できる点である。

場合により、上記方法は画像の前処理ステップとして使用され、場合により、判定された画像品質に基づいて追加処理が行われる。１つの利点は、より優れた品質の追加処理用画像の選択に、上記の品質判定を使用することができ、それにより追加処理の精度が向上する点である。

場合により、各訓練画像が、品質を決める複数の好ましい特性を有する。他の利点は、新たな好ましい特性を有する訓練画像の異なるセットを使用するだけで、同じ方法を使用して、異なる品質（つまり異なる前処理の目的に適合するように異なる特性セットに基づいて決められた品質）を判定できる点である。

場合により、上記好ましい特性は、所定の被写体内移動、所定の回転、所定のスケール、所定の解像度、所定の姿勢、所定の照度であり、上記被写体が顔である場合である。

場合により、各部分モデルは平均ベクトルおよび分散行列に基づいて決められ、この平均ベクトルおよび分散行列は、上記部分モデルが基にしている各訓練画像の部分画像の特徴に基づいて決められる。１つの利点は、モデルが２つのパラメータだけに基づいて決められる点である。その結果、類似度を判定する複雑さが低減される。

場合により、部分画像の特徴が、上記部分画像のより低い周波数成分のみにほぼ基づいて決められる。場合により、上記モデルが、訓練画像のより低い周波数成分のみにほぼ基づいて決められる。画像の部分画像とモデルとの類似度の判定は、画像の部分画像のより低い周波数成分と上記モデルとの類似度のみに基づいて決めることができる。１つの利点は、より低い周波数成分のみを使用することにより、画像の全成分の使用と比較して複雑さが低減される点である。より低い周波数成分のみを使用することによりまた、より認識に有用な識別的成分ではなく、記述のための生成的（generative）成分に上記方法が絞られる。品質の確実な判定に、少数の成分しか（３つなど）必要ない。さらに、低い周波数成分を使用すると、主として高い周波数帯域にある顔の表情の変化に対する感度が低減される。

場合により、特徴がＨａａｒ−ｌｉｋｅ特徴、ＬＢＰまたはＳＩＦＴに基づいて決められる。１つの利点は、上記方法が、所与の状況にいっそう適し得る他の特徴生成方法との併用に柔軟に対応できる点である。

場合により、部分画像のより低い周波数成分が、離散コサイン変換に基づいて決められる。

場合により、被写体が顔である。

場合により、部分モデルによってモデル化された上記特徴が、上記部分モデルが基にしている各訓練画像の部分画像の上記特徴の平均値である。

場合により、類似度の判定が、部分モデルが基にしている各訓練画像の部分画像の特徴に基づいて決められる平均値および分散行列に特徴付けられるガウス確率密度関数に基づいて決められる。

場合により、類似度の判定が、上記ガウス確率密度関数に基づいて上記画像の上記部分画像の上記特徴の確率を判定するステップを含む。１つの利点は、ガウス確率密度関数が、部分画像の特徴の確率を正確に推定する簡単な方法である点である。他の利点は、ガウス確率密度関数が、異なる訓練画像または他の入力パラメータの変更に合わせて変換する必要がない値を返す点である。したがって、品質の閾値は固定したままにでき、異なる状況に適合させる必要がない。

場合により、画像の２つ以上の部分画像とモデルとの類似度を判定するステップが、部分画像ごとに独立して実行される。

類似度の判定が、部分画像ごとに１つの類似度基準判定するステップを含み、上記画像品質の判定が、上記２つ以上の部分画像の上記判定された類似度の結合に基づいて決められる。他の利点は、単一の品質スコアが直接判定される点である。その結果、融合法（fusion method）は必要ない。融合法では、例えばコントラストや鮮鋭度、解像度、幾何形状、姿勢、照射角などの異なる画像品質面が異なるアルゴリズムによって別々に測定され、１つの品質スコア生成するために融合される。

場合により、全ての部分画像の類似度を結合するステップが、部分画像ごとに独立して確率を判定するステップと、画像の部分画像ごとの確率に基づいて結合確率を判定するステップを含む。１つの利点は、部分画像ごとの確率を独立して判定することによって、これらの確率を単に掛けるだけで結合確率を判定できる点である。この乗算は対数の合計に都合よく変換することができ、その結果、計算の複雑さが低減する。

画像の部分画像は、部分モデルが基にしている各訓練画像の部分画像に対応する。典型的には、画像の部分画像は位置合わせされるはず、つまり、その画像内の、対応する部分モデルが基にしている訓練画像の部分画像と同じ位置に、位置合わせされるはずである。画像の部分画像間の空間的関係は、訓練画像の部分画像間の空間的関係と同一である。

場合により、上記方法がさらに、対数正規化関数に基づいて画像を正規化するステップを含む。１つの利点は、対数正規化関数によって、より小さい輝度値は増幅され、より大きな輝度値は圧縮され、それによって上記方法の効率が高められる点である。

場合により、上記方法がさらに、上記画像の上記判定された品質の指標を出力として提供するステップを含む。場合により、上記方法がさらに、上記画像の上記判定された品質の指標を不揮発性メモリに記憶するステップを含む。

場合により、上記方法がさらに、複数の画像のそれぞれの品質を判定するために、上記複数の異なる画像ごとに上記方法を繰り返すステップと、
上記判定された品質に基づいて上記画像の追加処理を実行するステップと、を含む。

場合により、追加処理が、より高い品質を有する画像に、より大きな重みを与えるステップを含む。例えば、上記方法は、より高い品質を有する複数の画像のサブセットを識別するステップと、複数の顔画像のサブセットに対して追加処理を実行するステップとを含むことができる。別の例では、追加処理により、より良い品質を有する画像をより強調することができる。

他の例では、場合により、所定の数のより良好な品質を有する画像が追加処理のために識別されるように、上記画像がランキングに基づいて決められる。１つの利点は、追加処理が最も機能する画像数を事前に決めることができる点である。

場合により、追加処理が、上記の画像のサブセットなどに対して顔認識または顔照合を実行する。１つの利点は、顔認識のために複数の画像の全てではなく、判定された品質に基づいて決められたより少ない数しか考慮する必要がない点である。その結果、低い品質の顔画像によって顔認識の結果が損なわれることはない。さらなる結果として、多数の低い品質の顔画像とほんの少数の高い品質の顔画像からなるセットにおいて、高い品質の顔画像が外れ値として廃棄されることがなくなる。

場合により、上記の顔画像のサブセットの選択が、閾値よりも良い品質を有する顔画像のみが選択されるように品質閾値に基づいて決められる。１つの利点は、顔画像を受け取りながら、その画像を追加処理のために使用するか廃棄するかどうか顔画像ごとに独立して決定することができる点である。

場合により、画像は、ビデオのフレームなどの一続きの画像からのものである。

場合により、上記方法がさらに、フレーム内の被写体を検出し、上述の方法で使用するための画像を形成するために、検出された被写体に基づいてフレームを切り出す（crop）最初のステップを含む。

場合により、上記方法がさらに、画像からの２つ以上の部分画像を識別するステップを含む。

第２の態様では、コンピュータによって実行されたときに上述の方法を上記コンピュータに実行させる、不揮発性のコンピュータ読み取り可能な媒体上に記録されたソフトウェア、すなわちコンピュータ命令も提供される。

第３の態様では、被写体の画像の品質を評価するためのコンピュータが存在し、上記コンピュータは、
同じタイプの複数の異なる被写体の複数の訓練画像に基づいて決められた上記被写体のモデルを記憶するためのコンピュータ記憶装置において、上記モデルが上記画像の部分画像にそれぞれ対応する部分モデルからなる、コンピュータ記憶装置と、
上記画像の２つ以上の部分画像の特徴と上記モデルとの類似度を判定するためのプロセッサにおいて、類似度の判定が、各部分画像の特徴とそれに対応する部分モデルによってモデル化された特徴との類似度に基づいて決められ、上記判定された類似度に基づいて上記画像の品質を判定するためのプロセッサと、を備える。

上述の第１の態様の任意選択的な特徴は、等しく第２および第３の態様の任意選択の特徴になる。

次に、本発明の例について説明する。

ストリーミング・ビデオまたはビデオ・シーケンスから顔認識する方法を図示する。パッチへの顔画像の分割を図示する。２Ｄ−ＤＣＴ基底関数の行列を図示する。参照ギャラリ、３次元特徴ベクトルのセットおよび包括的な確率論的顔モデルを図示する。上記方法を実行するためのコンピュータ・システムを図示する。顔認識のためのワークフローを図示する。

この例は、ストリーミング・ビデオから顔の認識を行う（つまり被写体が顔である）ための画像品質の評価に関する。図１にこの例の方法１００のフローチャートが示されている。

図５に、方法１００を実行できるコンピュータ・システムが示されている。コンピュータ５００は、上記コンピュータ・システムを方法１００に従って動作させるようにインストールされたアプリケーション・ソフトウェアを有する。コンピュータ５００はまた、キーボードやマウスおよび／またはタッチスクリーンなどのパーソナル・コンピュータの典型的な入力手段を有する。コンピュータ５００は、異なる人々の顔の訓練画像のライブラリを含んだ内部および／または外部記憶装置５０６を含む。この例では、訓練画像は、中立的な表情を有する、適切な照明下で適切に位置合わせされた中心に位置する正面の顔画像である。１つのライブラリの例として、ＦＥＲＥＴデータセットが挙げられる。

方法１００は、包括的顔モデルを構築すること（１０２）によって初期化される。この初期化ステップは一般に、上記方法の残り１０４〜１２４が、ステップ１０２で構築された同一の包括的顔モデルに基づいて複数回繰り返されている間に１回実行される。

上記モデルは、同じタイプの異なる被写体をやはり取り込んでいる複数の訓練画像からなるライブラリを参照して構築される。この事例では、被写体のタイプは顔であり、訓練画像はそれぞれやはり単一の顔を取り込んでいる。複数の異なる人々の顔が訓練画像に取り込まれる。

品質評価の状況での包括的とは、単一のモデルが、ライブラリ内の複数の訓練顔（典型的には全ての顔）に基づいて構築されること、したがってそのモデルが特定の個人に特有のものではないことを意味する。これは、顔認識の状況での既存の方法とは対照的である。顔認識では、参照ギャラリが別々の個人の顔を含み、その参照ギャラリに独立した顔モデルが個人ごとに生成される。その結果、参照ギャラリが１１２４個の異なる人の顔を含む場合、１１２４個の作成された顔モデルが存在し、取り込まれた顔画像が１１２４個の異なる顔モデルのそれぞれと比較され、１１２４個の異なる類似度スコアが判定される。最高のスコアを有する顔画像が最良の整合として採用される。品質評価では、１１２４個の異なるモデルの代わりに、唯一の単一の包括的モデルが訓練画像から構築され、取り込まれた顔画像に対して唯一のスコアが判定される。この例では、このスコアは顔の画像品質を直接反映する。

顔の画像は、移動（例えば垂直または水平方向の中心からの変位など）、顔面の回転、スケール、解像度、頭部の姿勢および照度を含んだ特性を有する。この例では、訓練画像は、顔認識解析に使用されるどの画像においても好ましい特性を共有する。つまり、そういった好ましい特性を有する画像は、その好ましい特性を示さない画像よりも品質が良いとみなされる。この例では、訓練画像は正面の顔画像であり、そのそれぞれがほぼ中心に配置され、ほぼ中立的な姿勢および中程度の照度で適切に位置合わせされている。その結果、訓練画像の内容により、何が良好な品質画像なのかを表すものとして、上述の特性が定義される。つまり、上記方法の異なる適用先では、その適用先に特有の品質画像を規定する、異なる特性を有する異なる訓練画像のセットを使用できるということである。

図２に、顔２０１を含んだ画像２００が示されている。部分画像（パッチとも呼ばれる）２０２が、事前定義された経路２０３に沿ってフレーム２００の全体にわたって段階的に移動する。パッチのサイズおよび段階のサイズは、次の段階のパッチが重なり合うようなものにすることができる。１つの例では、画像のサイズは６４×６４ピクセル、パッチのサイズは８×８ピクセルであり、次の段のパッチは７ピクセルだけ重なり合う。その結果、画像２００の各列に６４−８＋１＝５９個のパッチが存在し、画像２００全体で５９×５９＝３４８１個のパッチが存在する。ここで注目されるのは、後で取り込まれる調査画像だけでなく訓練画像も、同じサイズに切り出し、サイズ変更されるということである。次いで、それらはさらに、訓練画像のパッチが、取り込まれる画像のパッチと位置合わせされるように、等しいサイズの小さなパッチに分割される。つまり、取り込まれたフレームにおける顔が適切に位置合わせされていない場合でも、切り出し、サイズ変更後のパッチは適切に位置合わせされる。

モデルは部分モデルからなる。つまり、包括的パッチモデルがパッチごとに生成される。包括的パッチモデルは、訓練画像のパッチから抽出された特徴に対して統計的なモデル化（多変量ガウスモデルなど）を実行することによって生成される。各パッチの特徴は、離散コサイン変換（ｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍａｔｉｏｎ、ＤＣＴ）や主成分分析（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ、ＰＣＡ）、ガボール・ウェーブレット変換（ＧａｂｏｒＷａｖｅｌｅｔＴｒａｎｓｆｏｒｍａｔｉｏｎ）などの任意の適した方法を使用して抽出することができる。この例ではＤＣＴが特徴抽出に適用される。

図３に、２次元離散コサイン変換（ｔｗｏ−ｄｉｍｅｎｓｉｏｎａｌｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍａｔｉｏｎ、２Ｄ−ＤＣＴ）の基底関数である行列３００が示されている。この例では、行列３００は８×８個の異なる基底関数を含む。各訓練画像の各パッチが、行列３００を使用してスペクトル解析によって得られるベクトルによって表される。換言すれば、パッチごとに８×８個の係数、つまり行列３００における８×８個の周波数のそれぞれに対して１つの係数が判定される。これらのＤＣＴ係数は、６４次元の特徴ベクトルに配列される。したがって各パッチは、ＤＣＴ係数を使用してベクトルに変換される。この明細書全体にわたって、顔面の要素と特徴の混同を回避するために、目や鼻などの顔の部品を顔面要素と呼ぶ。顔面の特徴という呼び方は、顔画像から抽出された、ＤＣＴ係数などの特徴に用いる。

行列３００の左上の方のより低い周波数成分３０２が、粗い顔の外観および記述的な属性（目や鼻の位置など）の特性を示すことが図３から明らかである。行列３００の右下の方のより高い周波数成分は、より精細な顔の識別的（discriminative）な属性の特性を示す。ここで提案する方法は、取り込まれた顔が包括的な平均顔と類似しているかどうか判定することを目的とするので、顔の識別的な属性すなわちより高い周波数成分に対する関心はあまりない。したがって、少数のより低い周波数成分のみが使用される。１つの例では、行列３００の左上における２×２のマス目の周波数のみが考慮される。ＤＣ成分を無視すると、行列３００の左上要素により、次元が３の特徴ベクトルが得られる。当然ながら、他の実施形態では、特徴ベクトルはより少ない、またはより多くの次元を有することができる。

各訓練画像のパッチごとに、ＤＣＴによって特徴ベクトルが判定される。次いで、全ての訓練画像の特徴ベクトルの平均および共分散が算出される。

別の例では、特徴を、ＤＣＴによって判定せず、Ｈａａｒ−ｌｉｋｅ特徴やローカル・バイナリ・パターン（ＬＢＰ）、スケール不変特徴変換（ｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ、ＳＩＦＴ）などの周波数成分に基づいて決めなくてもよい。

図４に、記憶装置５０６に記憶された訓練画像４００のライブラリが示されている。訓練画像４００は、図２を参照して説明したようにパッチに分割される。例示的パッチ位置における１つのパッチ例４０２が、各訓練画像上に示されている。以下のステップについてパッチ４０２の位置を参照して説明するが、そういったステップはパッチ位置ごとに独立して実行されることを理解されたい。

訓練画像４００のパッチ位置４０２に対してＤＣＴによって抽出された３次元の特徴ベクトル４０４のセットと、パッチ位置４０２のための包括的な確率論的パッチモデル４０６も示されている。特徴ベクトル４０４のセットは、各訓練画像４００のパッチ位置４０２ごとに１つの特徴ベクトルを備える。１つの例では、ライブラリは、１１２４個の異なる訓練画像を備える。包括的な確率論的パッチモデル４０６は、パッチ位置４０２に対する特徴ベクトル４０４のセットの、３次元平均ベクトル４０８および３×３対角分散行列４１０を含む。残り全てのパッチ位置に対して、同様の包括的な確率論的パッチモデルが作成される。全てのパッチ位置に対する平均ベクトルおよび分散行列が、包括的な確率論的顔モデル４１２を形成する行列に入力される。パッチ位置４０２に関連する行列の入力が黒ベタで示されている。

各パッチモデルからなる上記の包括的顔モデル４１２は、ステップ１０４〜１２４によって規定される方法で使用できる状態にあるコンピュータ記憶装置５０６上に記憶される。１つの例では、包括的顔モデル４１２が算出されると、訓練画像が削除される。別の例では、高性能コンピュータで包括的顔モデルが１回算出され、より性能が低い複数のクライアントデバイスにエクスポートされる。

この例の図１における次のステップは、人の顔５０４を取り込むストリーミング・ビデオのフレームにアクセスするステップ１０４である。訓練画像と異なり、１０４でアクセスされるフレームは、姿勢のばらつき、影状態の変動、ブレ、位置合わせ誤差（例えば平面内の回転、水平および垂直の移動など）を有する。

この取り出しステップは、ストリーミング・ビデオのフレームが、監視ビデオカメラ５０２などの取り込みデバイスから利用可能なすぐ次のフレームであるように、リアルタイムで実行することができる。あるいは、一連の画像をスチールカメラによって取り込み、コンピュータ記憶装置５０６に記憶し、その後以下のステップに従って処理することができる。

フレームの受け取りは、入力ポートへの直接接続によって、またはローカル・コンピュータ・ネットワーク（図示せず）を経由して、またはインターネットなどの広域ネットワーク（図示せず）を経由してなど、カメラ５０２からコンピュータ５００への入力として行われる。１つの代替方法では、コンピュータ５００がカメラ５０２に組み込まれる。あるいは、フレームを事前に記録し、記憶装置５０６から取り出すことができる。別の例では、同一の人物すなわち被写体をターゲットにした複数のカメラにコンピュータが接続され、少なくとも１つのカメラはその人物の顔の良好な品質の画像を取り込む可能性がより高まるようになっている。

顔検出アルゴリズムが上記フレームに適用される（１０６）。１つの例では、ＯｐｅｎＣＶのＶｉｏｌａ−ＪｏｎｅｓＨａａｒに基づく顔検出器が使用されるが、別の例では、任意の適当な顔検出アルゴリズムを使用することができる。ここで注目されるのは、顔検出はフレームにおける顔の位置のみを判定し、その顔と関連付けられた人物の認識は行わないということである。顔検出アルゴリズムはまた、フレームに含まれる顔の位置および大きさまでフレームを切り出して顔画像をもたらす。別の例では、顔はフレーム全体に広がり、顔検出アルゴリズムはフレームの切り出しを行わない。その例では、顔画像はフレームと同一である。別の例では、フレームは複数の顔を含み、顔検出アルゴリズムはフレームを別々の顔画像に切り出す。この例では、異なる顔の画像をその後の顔認識時に同一人物に属すると見なすことなく顔ごとの良好な品質の画像を別々に見つけることができるように顔を追跡する必要がある。

次のステップは、顔画像の大きさが訓練画像の大きさと同じであるように、顔画像の大きさを正規化することである。１つの例では、大きさは６４×６４ピクセルである。

次いで上記フレームは、以下の対数正規化関数に従って低輝度のピクセルを増幅し、高輝度のピクセルを圧縮するようにピクセルごとに輝度が正規化される（１０８）。

ここで、Ｉ（ｒ，ｃ）は位置（ｒ，ｃ）におけるピクセル輝度である。小さな輝度値の勾配は、より大きな輝度値の勾配よりも大きい。その結果、より小さな輝度値は増幅され、より大きな輝度値は圧縮される。この性質は、皮膚の色と背景の照明との輝度差を低減させるのに役立つ。

正規化ステップの後、顔画像は、ここでパッチと呼ばれる部分画像に分割される（１１０）。顔画像の分割は訓練画像の分割と同様である。同じ数の部分画像が入力画像と訓練画像の両方から定義され、その全てが位置合わせされる。その位置合わせは、ビデオフレームからの顔画像の各パッチが１つの部分モデルに対応し、したがって図４にある包括的顔モデル４１２の行列における１入力であるようになっている。言い換えれば、入力画像の各パッチ間の空間的関係が訓練画像で使用されるパッチ間の空間的関係と同じになっている。１つの例では、各パッチは、顔画像間のコントラストのばらつきを吸収するように、ゼロ平均および単位分散を有するように正規化される。

パッチごとに、特徴ベクトルつまりＤＣＴ係数は、上記でステップ１０２における訓練画像のパッチに関して説明したように判定される（１１２）。この例では、３つのＤＣＴ係数からなるベクトルがパッチごとに判定されるが、別の例ではそれより多い係数を使用しても、それより少ない係数を使用してもよい。

次のステップは、顔画像の各パッチとそれに対応する包括的顔モデルのパッチとの類似度を判定することである（１１４）。この類似度は、パッチごとの事後確率（posterior probability）として表される。事後確率は、そのパッチに対して判定されたベクトルを、包括的顔モデルに基づいて決められる以下のガウス確率密度関数に送ることによって判定される。

ここで、λ_ｉは位置固有の多変量ガウスモデル、μ_ｉおよびΣ_ｉは対応する包括的顔モデルのパッチの平均および分散行列である。ステップ１０２に従って、パッチごとの包括的モデル４１２は、適切な照明下の中立的な表情を有する正面画像のプールを使用して訓練された。訓練画像の全てと、ビデオフレームからの顔画像は、スケーリングや位置合わせなどによって６４×６４ピクセルという固定サイズに正規化される。

訓練画像などの訓練データから各パッチをモデル化するための他の例は、多変量ガウス分布、ラプラス分布、周波数分布のヒストグラム、ポアソン分布である。一般に、任意の分布モデル生成技術またはそれらの技術の組み合わせをパッチのモデル化に使用することができる。

この段階での目的は、個々の顔を認識することではなく、ビデオフレームからの顔のパッチが同じ位置にある包括的顔モデルで表される平均パッチにどのくらい類似しているかを判定することである。上記公式は、確率論的なモデルの平均μ_ｉからかけ離れたＤＣＴ係数を有するパッチには低い確率を割り当て、確率論的なモデルの平均μ_ｉに近いＤＣＴ係数を有するパッチには高い確率を割り当てる。その結果、事後確率は、ビデオフレームからの顔画像パッチと包括的顔モデル４１２との類似度を反映する。

他の例では、ＤＣＴ特徴の置き換えに、ローカル・バイナリ・パターン（ＬＢＰ）や主成分分析（ＰＣＡ）、ガボール、ＳＩＦＴなどの他の画像特徴およびそれらの組み合わせを使用することができる。測定に必要な画像の特性が何かに応じて、表情の変化などの異なる画像品質面の特性を示すためにこういった特徴を使用してもよい。

他の例では、パッチサイズは様々な値をとることができる。つまり、パッチサイズは画像全体にわたって固定的ではない。パッチサイズは画像の領域別に変化してよい。例えば、目領域の周りのパッチサイズを、口または顎領域の周りのパッチサイズと異なるサイズにすることができる。

画像特徴と可変パッチサイズの組み合わせも可能である。画像領域別に、様々な特徴とパッチサイズを使用することができる。例えば、目領域の周りで、パッチサイズ８×８を有するＤＣＴ特徴を使用する一方、顎領域など他の顔領域で、パッチサイズ１２×１０を有するガボール特徴を使用することもできる。

次に、画像品質が判定される。つまり、顔画像全体の品質を判定する（１１６）ために、全てのパッチの事後確率が結合される。パッチの確率が統計的に互いに独立していると仮定すれば、フレーム全体の結合確率を判定するために、これらのパッチ確率を乗算することができる。いくつかの例では、パッチが統計的に独立していない可能性があるが、過度の不正確をもたらさずに独立性が近似として仮定される。加算は乗算より計算コストが大きくないことから、確率の対数が使用され、その結果、顔画像Ｉの品質スコアＱを判定するために対数が合計される。

融合法に頼らずに、上記方法により顔画像ごとの品質スコアが生成される。このスコアは、位置合わせ誤差、姿勢のばらつき、スケール類似度、影および画像鮮鋭度（基礎解像度）の程度を同時に表す。顔面要素（すなわち目、鼻および口）の位置特定もまた、この方法では必要ない。１つの例では、ステップ１０６における顔検出アルゴリズムは、特に低い解像度画像では不正確であり、その結果、顔画像は数ピクセルだけ位置合わせがずれる。

小さなパッチへの分割の性質上、２ピクセルを超える位置合わせずれを確実に検出することができ、その結果、顔検出アルゴリズムの不正確さを発見することができる。パッチは比較的小さいので、各パッチにおけるモデルは、２ピクセルの移動などの小さな変化を検出するのに十分に高い感度を有する。任意選択で、こういった低い品質の画像を、上記方法でその画像に追加解析を実行しないことにより廃棄することができる。同様にして、上記方法を、モデルに対して最も位置合わせされた顔画像の識別に役立てることができる。顔検出器が顔を検出するときに、検出された領域の周囲で数多くの様々な方法により顔画像を切り出すことができる。各方法で、切り出し済みの顔の画像品質が測定される。品質に基づいて最良の切り出し済みの顔画像を選択することによって、位置合わせずれを追加処理する際の誤差を最小限にするために、ここで提案する方法を役立てることができる。

姿勢、照度および解像度の変化もここで提案する方法で検出される。

他の例では、品質スコアは、確率の加重和、エントロピー、または確率の対数の加重和に基づいて決められる。一般に、単一のスコアの生成に、確率に基づく任意の融合法またはそういった技術の組み合わせを使用することができる。

次いで、フレームの品質が顔認識に十分かどうか判定するために、品質スコアが閾値と比較される（１１８）。１つの例では、品質閾値は１．４である。他の例では、品質閾値は、３シグマ閾値μ_ｇ−３σ_ｇなどの分布のσ値に基づいて与えることができる。品質が不十分の場合、フレームは廃棄される（１２０）。

次いで、十分な数の顔画像が顔認識に使用可能かどうか、またはビデオの終わりに達したかどうか、つまり使用可能な全てのフレームの処理が完了したかどうか判定される（１２２）。顔画像の必要数は１０個など、事前に決められた数であってよい。あるいは、全てのフレームからの全ての顔の画像品質を判定することができ、１０個など、最高スコアの顔画像数を選択することもできる。他の代替方法として、品質閾値を超える全ての顔画像を画像認識に使用してもよい。顔画像の使用可能な数が不十分である場合、上記方法は、より多くのフレームを収集するためにステップ１０２から再スタートする。他の例では、上記システムは、より高い認識品質を有する上位１０個の画像を選択することができる。

顔画像が選択されると、選択されたフレームに対して顔認識が実行される（１２４）。顔認識は、確率論的なマルチ・リージョン・ヒストグラム（ＭｕｌｔｉＲｅｇｉｏｎＨｉｓｔｏｇｒａｍ、ＭＲＨ）またはローカル・バイナリ・パターン（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ、ＬＢＰ）を使用して、相互部分空間法（ＭｕｔｕａｌＳｕｂｓｐａｃｅＭｅｔｈｏｄ、ＭＳＭ）に基づいて実行することができる。これらの方法は、上述したように、より識別力のあるより高い周波数成分を使用することができる。

コンピュータ５００のディスプレイ上に方法１００の結果を表示することができる。例えば、品質表示がグラフで表示されたり、他のフレームと比較されたフレームの数値ランキングが表示されたりする。この品質表示は、簡易的に、品質基準を満たした（１０８）フレームの表示であってもよい。

別法または追加として、整合済みの顔画像およびその整合済みの画像に示されている人物の情報などの、顔認識の結果を表示することもできる。１つの例では、品質スコアが顔認識アルゴリズムに提供され、分類または顔認識のために特徴を結合するための重みとして使用される。より良好な品質を有する顔画像は、より大きな重みが割り当てられ、これは、良好な品質画像が認識結果に対してより大きく寄与すべきことを示している。

他の例では、上記方法を、所望の特性に合致する画像を選択するために用いることができる。その特性は、包括的モデルの生成に使用される訓練画像に取り込まれている。例えば、訓練画像は、笑顔などの一定の顔の表情を示すことができ、その場合、上記方法を良好な品質を有する、つまり表情が笑顔である画像の識別に使用することができる。このようにして、特性が、ひいては品質の定義が、この方法ではプラグアンドプレイ可能になっている。

図６に、顔認識システムのためのワークフロー６００が示されている。このワークフローは、顔検出テストに適合済みの上述したように正規化されたビデオフレームなどの取り込まれた画像のセット６０２を備える。次いで、この取り込まれた顔画像のセット６０２は、上述した方法に従って画像品質のための評価が行われる（６０４）。品質評価の結果に基づいて、顔画像が選択され（６０６）、その結果、顔認識に使用される顔画像のサブセットが得られる（６０８）。ここで注目されるのは、顔認識を単一の顔画像に対して実行することができるが、顔画像が低品質のものであると、その認識は正確にならないということである。顔認識アルゴリズムの正確さは、使用される顔画像の数と共に高まり、ビデオ監視の状況では、同じ顔の多数の画像が様々なビデオフレームで容易に利用可能である。しかしながら、不十分な品質の顔画像があると、顔認識の品質が損なわれる可能性がある。したがって、上記で提案した方法で、最良の画像品質を有する顔画像のみを選択する。

顔画像のサブセット６０８が選択されると、最も適当な顔整合方法が選択され（６１０）、これはギャラリ画像６１２に基づいて決められる。顔整合方法を選択する主要な基準は、顔画像がどのくらい適切に位置合わせされているかということである。顔画像が適切に位置合わせされている場合（６１４）、ＰＣＡやＬＢＰのような方法が最も適当であるが、顔画像が適切に位置合わせされていない場合（６１６）、ＭＲＨ類の方法が選択されると好ましい。

顔整合方法の結果が、ランキング表示などの後処理方法に提供され（６１８）、最後に顔の識別情報が判定される（６２０）。

上記の実施形態は顔画像のための品質評価の適用例について特に論じたが、モデル化できる他のタイプの被写体に適用することもできる。被写体のタイプの例には、道路標識およびナンバー・プレートが含まれる。当然ながら、被写体は、物理的な３次元の被写体や、画像に現れる着目する被写体を定義するその他任意の特徴の集まりなど、任意の適当なタイプの被写体であってよい。例えば、画像に表示される道路標識や被写体に印刷された商標図案などがある。

選択またはフィルタ処理のための使用とは別に、品質スコアを認識などのその後の処理のための画像重要度の重みとして使用することもできる。

この方法は、テンプレートと位置合わせするための画像の位置合わせのために使用することもできる。これは一連の候補画像を生成することによって行うことができ、最大品質のスコアが最良の位置合わせ選択肢を示す。

この方法はまた、顔照合と共に使用することもでき、この顔照合では、顔の画像品質に基づいて閾値を適合するように選択する。

本発明で使用されるコンピュータは、カメラ自体の内部に組み込まれたプロセッサなどの任意の適当なコンピュータ、またはネットワークをなど介した分散処理システムにすることができる。一つの代替方法では、コンピュータは、組み込みシステム、つまり特定の制御機能またはタスクのために設計されたコンピュータ・システムにすることができる。これは大型システムの一部分として組み込むことができる。組み込みシステムは、典型的にはマイクロ・コントローラまたはデジタル信号プロセッサ（ＤＳＰ）である処理コアを含む。こういった組み込みシステムは、タスク固有であるので、サイズおよびコストを低減するように設計することができ、したがって一般に、携帯電話や様々なタイプのカメラなどの携帯デバイスの領域に見られる。

ここで説明した技術は、種々の技術を使用して実施できることを理解されたい。例えば、ここで説明した方法は、適当なコンピュータ読み取り可能な媒体上にある一連のコンピュータ実行可能な命令によって実施することができる。適当なコンピュータ読み取り可能な媒体は、揮発性（例えばＲＡＭなど）および／または不揮発性（例えばＲＯＭ、ディスクなど）メモリ、搬送波および伝送媒体（例えば銅線、同軸ケーブル、光ファイバ媒体など）を含むことができる。搬送波の例には、ローカルネットワークまたはインターネットなどの公衆がアクセス可能なネットワークに沿ってデジタルデータ流を搬送する電気信号、電磁信号または光信号の形をとるものが挙げられる。

特に明記されていない限り、以下の説明から明らかなように、上記説明全体を通して、「処理する」、「構築する」、「算出する」、「計算する」、「判定する」「表示する」などの用語を用いた記述は、コンピュータ・システムまたは同様の電子計算デバイスの動作および処理を示すと認識されていることも理解されたい。コンピュータ・システムは、そのコンピュータ・システムのレジスタおよびメモリ内部の物理的（電子的）な量として表されるデータを処理し、そのコンピュータ・システムのメモリまたはレジスタまたはその他のかかる情報記憶装置、伝送または表示デバイス内部の物理的な量として同様に表される他のデータに変換する。

したがって、本明細書の各実施形態は、あらゆる点で、例示的かつ非限定的であるとみなされるべきである。

Claims

被写体の画像品質を評価するための、コンピュータで実施される方法であって、
前記画像の２つ以上の部分画像の特徴と前記被写体のモデルとの類似度を判定するステップにおいて、前記モデルが同じタイプの複数の異なる被写体の複数の訓練画像に基づいて決められ、前記モデルが前記画像の部分画像にそれぞれ対応する部分モデルからなり、類似度の判定が、各部分画像の特徴とそれに対応する部分モデルによってモデル化された特徴との類似度に基づいて決められるステップと、
前記画像の品質を、前記２つ以上の部分画像の前記判定された類似度に基づいて判定するステップと、を含む方法。
前記画像のための前処理ステップとして使用され、追加処理が、前記画像の前記判定された品質に基づいて決められる、請求項１に記載のコンピュータで実施される方法。
各訓練画像が、品質を決める複数の好ましい特性を有し、好ましい特性は、所定の前記被写体内移動、所定の回転、所定のスケール、所定の解像度、所定の姿勢、所定の照度のうちの１つまたは複数を含み、前記被写体が顔である場合所定の表情を含む、請求項１または２に記載のコンピュータで実施される方法。
各部分モデルが、平均ベクトルおよび分散行列によって特徴をモデル化し、前記平均ベクトルおよび分散行列は、前記部分モデルが基にしている各訓練画像の部分画像の特徴に基づいて決められる、請求項１〜３のいずれか一項に記載のコンピュータで実施される方法。
部分画像の特徴が、前記部分画像のより低い周波数成分のみに略基づいて決められ、前記モデルが、訓練画像のより低い周波数成分のみに略基づいて決められる、請求項１〜４のいずれか一項に記載のコンピュータで実施される方法。
部分モデルによってモデル化された前記特徴が、前記部分モデルが基にしている各訓練画像の部分画像の前記特徴の平均値である、請求項１〜５のいずれか一項に記載のコンピュータで実施される方法。
部分モデルによってモデル化された前記特徴が、前記部分モデルが基にしている各訓練画像の部分画像の前記特徴の平均ベクトルおよび分散行列に特徴付けられるガウス確率密度関数に基づいて決められる、請求項１〜６のいずれか一項に記載のコンピュータで実施される方法。
類似度の判定が、前記ガウス確率密度関数に基づいて前記画像の前記部分画像の前記特徴の確率を判定するステップを含む、請求項１〜７のいずれか一項に記載のコンピュータで実施される方法。
前記画像の前記部分画像が、それに対応する部分モデルが基にしている各訓練画像の前記部分画像と位置合わせされる、請求項１〜８のいずれか一項に記載のコンピュータで実施される方法。
前記類似度の判定が、部分画像ごとに独立して実行される、請求項１〜９のいずれか一項に記載のコンピュータで実施される方法。
類似度の判定が、部分画像ごとに１つの類似度基準判定するステップを含み、前記画像品質の判定が、前記２つ以上の部分画像の前記判定された類似度の結合に基づいて決められる、請求項１〜１０のいずれか一項に記載のコンピュータで実施される方法。
前記２つ以上の部分画像の前記判定された類似度の結合が、部分画像ごとに独立して確率を判定するステップと、前記画像の部分画像ごとの前記確率に基づいて結合確率を判定するステップとを含む、請求項１１に記載のコンピュータで実施される方法。
前記画像の前記判定された品質の指標を出力として提供するステップをさらに含む、請求項１〜１２のいずれか一項に記載のコンピュータで実施される方法。
前記画像の前記判定された品質の指標を不揮発性メモリに記憶するステップをさらに含む、請求項１〜１３のいずれか一項に記載のコンピュータで実施される方法。
請求項１〜１４のいずれか一項に記載のコンピュータで実施される方法であって、
複数の画像のそれぞれの品質を判定するために、上記複数の異なる画像ごとに前記方法を繰り返すステップと、
前記判定された品質に基づいて前記画像の追加処理を実行するステップと、をさらに含む方法。
前記被写体が顔である、請求項１〜１５のいずれか一項に記載のコンピュータで実施される方法。
前記追加処理が、より良好な品質を有すると判定された画像のサブセットに対して顔認識または顔照合を実行する、請求項１６に記載のコンピュータで実施される方法。
コンピュータによって実行されたときに請求項１〜１７のいずれか一項に記載の方法を前記コンピュータに実行させる、不揮発性のコンピュータ読み取り可能な媒体上に記録されたソフトウェア、すなわちコンピュータ命令。
被写体の画像の品質を評価するためのコンピュータであって、
同じタイプの複数の異なる被写体の複数の訓練画像に基づいて決められた前記被写体のモデルを記憶するためのコンピュータ記憶装置において、前記モデルが前記画像の部分画像にそれぞれ対応する部分モデルからなる、コンピュータ記憶装置と、
前記画像の２つ以上の部分画像の特徴と前記モデルとの類似度を判定するためのプロセッサにおいて、類似度の判定が、各部分画像の特徴とそれに対応する部分モデルによってモデル化された特徴との類似度に基づいて決められ、前記判定された類似度に基づいて前記画像の品質を判定するためのプロセッサと、を備える、コンピュータ。