JP6202938B2

JP6202938B2 - 画像認識装置および画像認識方法

Info

Publication number: JP6202938B2
Application number: JP2013172620A
Authority: JP
Inventors: 敦夫野本; 山本　貴久; 貴久山本; 佐藤　博; 博佐藤; 雄司金田; 俊亮中野; 崇士鈴木
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-08-22
Filing date: 2013-08-22
Publication date: 2017-09-27
Anticipated expiration: 2033-08-22
Also published as: JP2015041293A

Description

本発明は、特に、異なる照明条件によって物体認識を行うために用いて好適な画像認識装置、画像認識方法、プログラムおよび記憶媒体に関する。

従来、画像に含まれる物体を、予め辞書に登録された物体と比較することにより物体を識別する物体認識技術が数多く提案されている。この物体認識技術の代表例としては、顔認識技術が挙げられ、顔認識技術の応用例としては、画像データベースの中から特定の人物を探し出す検索用途や、デジタルカメラ等の撮影パラメタを人物毎に自動で切り換える機器制御用途などがある。これらの用途に用いられる画像は実環境下で撮影されるため、様々な撮影環境に頑健な顔認識技術が求められる。特に、辞書と入力画像とで照明条件が異なる場合に顔認証の精度を向上させることが大きな課題となっている。

一般には、様々な照明条件で撮影された多数の顔画像を辞書に登録しておくことが望ましい。しかし、入力画像の照明条件を網羅するような顔画像を集めて辞書に登録するのは難しい。また、様々な照明条件で撮影すると、撮影対象となるユーザの負担が大きく、先に挙げた顔認証技術の応用例において、利便性を大きく損ねることになる。

このような課題に対して、任意の照明条件の顔認識用情報（顔画像または特徴量）を生成し、顔認証に利用する方法が提案されている。例えば特許文献１には、入力画像と顔立体形状モデルとを用いて顔の表面反射率を推定し、その表面反射率から任意の照明条件の顔画像を生成する手法が提案されている。この方法によれば、入力画像と似た照明条件の顔画像を生成することにより照明条件の変化に頑健な顔認識を実現すると記載されている。

また、特許文献２には、抽出した特徴量に対して座標変換を施すことによって、任意の照明条件の特徴量を生成する手法が提案されている。この手法では、特徴量に対する変換を行うことによりメモリ容量および計算コストを低減しつつ、照明条件の変化に頑健な顔認識を実現すると記載されている。

特開２００２−２４８３０号公報特許第４９５１９９５号公報特開２００９−２１１１７７号公報

Ｐ．ＶｉｏｌａａｎｄＭ．Ｊｏｎｅｓ， "Ｒｏｂｕｓｔｒｅａｌ−ｔｉｍｅｆａｃｅｄｅｔｅｃｔｉｏｎ"，ＩｎｐａｇｅＩＩ：７４７，２００１．Ｎ．ＤａｌａｌａｎｄＢ．Ｔｒｉｇｇｓ．Ｈｉｓｔｏｇｒａｍｓｏｆｏｒｉｅｎｔｅｄｇｒａｄｉｅｎｔｓｆｏｒｈｕｍａｎｄｅｔｅｃｔｉｏｎ．ＣｏｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２００５．

しかしながら、上記の方法では、入力画像と辞書に登録されている登録画像とで照明の方向が異なる場合に依然として類似度の判定精度が低下する問題がある。特許文献１に記載の方法では、顔画像と顔立体形状モデルとを使用するため、照明条件の変化に伴う変換の質が表面反射率の推定精度によって左右されてしまう。また、顔立体形状モデルを用いる点や画像ベースで変換・生成処理を行うため、計算コストが膨大となる。また、特許文献２に記載の方法では、特徴量に対する処理により少ない計算コストを実現しているものの、座標変換によって特徴量を一律に変換してしまう。このため、顔の器官領域など、個体差が生じやすい部分のエッジまで変換してしまい、認識精度の低下を招く可能性がある。

本発明は前述の問題点に鑑み、計算コストを抑えて照明条件の変化に頑健な物体認識を実現できるようにすることを目的としている。

本発明の画像認識装置は、登録画像および入力画像のそれぞれから物体画像を取得する取得手段と、前記取得手段によって取得された物体画像から、画素値の大小関係に基づく第一特徴量を抽出する第一特徴量抽出手段と、前記第一特徴量抽出手段によって抽出された前記登録画像に係る第一特徴量を画素値の変化の勾配に応じて変化させた第二特徴量を抽出する第二特徴抽出手段と、前記登録画像に係る第一および第二特徴量を辞書に登録する登録手段と、前記辞書に登録された特徴量と前記入力画像の特徴量とを比較することにより前記入力画像の物体と前記登録画像の物体との類似度を算出する算出手段とを備えたことを特徴とする。

本発明によれば、計算コストを抑えて照明条件の変化に頑健な物体認識を実現することができる。

本発明の実施形態に係る画像認識装置のハードウェア構成例を示すブロック図である。実施形態における画像認識装置の機能構成例を示すブロック図である。実施形態における辞書データを登録する処理手順の一例を示すフローチャートである。第一特徴抽出処理の詳細な手順の一例を示すフローチャートである。注目画素とその周辺画素との関係を表わした模式図である。第二特徴抽出処理の詳細な手順の一例を示すフローチャートである。第１の実施形態における入力画像を識別する処理手順の一例を示すフローチャートである。局所類似度を算出する詳細な処理手順の一例を示すフローチャートである。統合類似度を算出する詳細な処理手順の一例を示すフローチャートである。第１の実施形態において、局所類似度および統合類似度を算出する処理を模式的に説明するための図である。第２の実施形態における入力画像を識別する処理手順の一例を示すフローチャートである。第２の実施形態において、局所類似度および統合類似度を算出する処理を模式的に説明するための図である。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について詳細に説明する。以下の説明では、物体画像から物体認識を行う例として顔認識について説明する。

＜ハードウェア構成＞
図１は、本実施形態に係る画像認識装置１００のハードウェア構成例を示すブロック図である。
図１に示すように、本実施形態に係る画像認識装置１００は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、２次記憶装置１０４、撮像素子１０５、信号処理装置１０６、外部出力装置１０７、および接続バス１０８を備えている。

ＣＰＵ１０１は、ＲＯＭ１０２やＲＡＭ１０３に格納された制御プログラムを実行することにより、画像認識装置１００全体の制御を行う。ＲＯＭ１０２は不揮発性メモリであり、制御プログラムや各種パラメタデータを記憶する。制御プログラムは、ＣＰＵ１０１で実行され、後述する各処理を実行するための手段として、当該装置を機能させる。ＲＡＭ１０３は揮発性メモリであり、画像データや制御プログラムおよびその実行結果を一時的に記憶する。２次記憶装置１０４は、ハードディスクやフラッシュメモリーなどの書き換え可能な２次記憶装置であり、画像情報や制御プログラム、各種設定内容などを記憶する。これらの情報はＲＡＭ１０３に出力され、ＣＰＵ１０１がプログラムの実行に利用する。

撮像素子１０５は、ＣＣＤセンサやＣＭＯＳセンサで構成され、被写体像の光を電気信号に変換する。信号処理装置１０６は撮像素子１０５から取得した電気信号を処理し、デジタル信号に変換する信号処理回路である。このデジタル信号は、画像データとして、ＲＡＭ１０３または２次記憶装置１０４へ出力される。外部出力装置１０７は、ＣＲＴやＴＦＴ液晶などのモニタであり、ＲＡＭ１０３または２次記憶装置１０４から取得した画像データや制御プログラムの実行結果等を表示する。接続バス１０８は、これらの各構成を接続して相互にデータの入出力を行う。

なお、本実施形態では、後述する処理を、ＣＰＵ１０１を用いてソフトウェアで実現することとするが、その処理の一部または全部をハードウェアで実現するようにしても構わない。ハードウェアとして専用回路（ＡＳＩＣ）やプロセッサ（リコンフィギュラブルプロセッサ、ＤＳＰ、ＣＰＵ）などを用いることができる。また、本実施形態の画像認識装置１００は、撮像素子１０５や信号処理装置１０６を備えていないパーソナルコンピュータ（ＰＣ）を用いて実現してもよいし、画像認識専用装置として実現するようにしても構わない。また、ネットワークまたは各種記憶媒体を介して取得したソフトウェア（プログラム）をパーソナルコンピュータ等の処理装置（ＣＰＵ、プロセッサ）にて実行してもよい。

＜機能構成＞
図２は、本実施形態における画像認識装置１００の制御プログラムによる機能構成例を示すブロック図である。
図２に示すように、本実施形態に係る画像認識装置１００は、顔画像取得部２０１、顔特徴点抽出部２０２、局所画像取得部２０３、第一特徴抽出部２０４、および第一特徴抽出パラメタ保持部２０５を備えている。さらに、第二特徴抽出部２０６、第二特徴抽出パラメタ保持部２０７、特徴量射影部２０８、辞書データ登録部２０９、局所類似度算出部２１０、統合類似度算出部２１１、および認識結果出力部２１２を備えている。

顔画像取得部２０１は、ＲＡＭ１０３または２次記憶装置１０４から画像データを取得し、その画像中から切り出した顔画像を、顔特徴点抽出部２０２および局所画像取得部２０３へ出力する。顔特徴点抽出部２０２は、顔画像取得部２０１から取得した顔画像から、顔の器官位置を抽出し、局所画像取得部２０３へ出力する。局所画像取得部２０３は、顔画像取得部２０１から取得した顔画像と顔特徴点抽出部から取得した顔の器官位置の情報とを用いて、所定のサイズの局所領域を設定し、第一特徴抽出部２０４および第二特徴抽出部２０６へ、局所画像を出力する。

第一特徴抽出部２０４は、局所画像取得部２０３から取得した局所画像と、第一特徴抽出パラメタ保持部２０５が保持する所定の特徴抽出パラメタとを用いて第一特徴量を抽出する。第二特徴抽出部２０６は、局所画像取得部２０３から取得した局所画像と、第二特徴抽出パラメタ保持部２０７が保持する所定の特徴抽出パラメタとを用いて、第二特徴量を取得する。

特徴量射影部２０８は、第一特徴抽出部２０４または第二特徴抽出部２０６からそれぞれ第一特徴量または第二特徴量を取得し、特徴量の射影処理を行い、辞書データ登録部２０９または局所類似度算出部２１０に出力する。以下、第一特徴量を射影したベクトルを第一射影特徴量と呼び、第二特徴量を射影したベクトルを第二射影特徴量と呼ぶ。辞書データ登録部２０９は、特徴量射影部２０８から取得した第一および第二射影特徴量を辞書として登録する。辞書データ登録部２０９は、登録した辞書（以下、登録辞書）を局所類似度算出部２１０に出力する。

局所類似度算出部２１０は、取得した第一射影特徴量と、辞書データ登録部２０９から取得した登録辞書とを比較し、局所画像毎の局所類似度を算出し、統合類似度算出部２１１へ出力する。統合類似度算出部２１１は、局所類似度算出部２１０から取得した局所類似度を人物ＩＤ毎の類似度に統合した統合類似度を算出し、認識結果出力部２１２へ出力する。認識結果出力部２１２は、取得した人物ＩＤ毎の統合類似度から、最終的な識別結果を算出し、ＲＡＭ１０３または外部出力装置１０７に出力する。

＜全体の処理＞
本実施形態に係る画像認識装置１００は、辞書データ登録処理と識別処理とを行う。辞書データ登録処理では、識別したい人物の顔画像を登録する。一方、識別処理では、入力画像と辞書データ登録処理で登録された辞書とを用いて識別処理を行う。以下、それぞれについて説明する。

＜辞書データ登録処理＞
図３は、本実施形態における辞書データを登録する処理手順の一例を示すフローチャートである。
始めに、顔画像取得部２０１は、ＲＡＭ１０３または２次記憶装置１０４から画像データを取得する（Ｓ３００）。そして、取得した画像データから人物の顔を検出する処理を行う（Ｓ３０１）。画像中から人物の顔を検出する方法については、公知の技術を用いればよい。例えば、非特許文献１に記載されているような技術を用いることができる。

続いて、顔画像取得部２０１は、取得した画像データから顔が検出されたか否かを判定する（Ｓ３０２）。この判定の結果、顔が１つも検出されなかった場合は、処理を終了する。一方、顔が検出された場合は、顔画像取得部２０１は、検出された顔の位置情報を元に顔領域を切り出した顔画像データを取得する。なお、顔領域を切り出す際に、画像データの水平方向の軸に対して顔の両目をつないだ直線が平行になるよう画像を回転させる処理を施し、画像の面内回転を補正しておく。こうすることにより、以後の処理で、顔の面内回転による余計な影響を除去することができる。さらに、両目をつなぐ線分が顔画像の横幅に占める割合が一定になるよう拡大・縮小を行う顔サイズ正規化処理を施すことにより、どのような顔でも一定の目幅で以後の処理を実行することができる。そして、顔特徴点抽出部２０２は、顔画像データから器官の位置を示す顔特徴点を抽出する（Ｓ３０３）。抽出する顔特徴点としては、両目や口といった顔の個人差が出やすい器官を選択する。顔特徴点を抽出する方法については、公知の技術を用いればよい。例えば、特許文献３に記載されているような技術を用いることができる。

続いて、抽出した顔特徴点を基に第一特徴抽出処理を行う（Ｓ３０４）。この処理では、顔特徴点を基準に定めた局所領域毎に特徴量を抽出するため、局所領域の数だけ特徴量が抽出される。この処理の詳細については後述する。

続いて、特徴量射影部２０８は、第一特徴抽出部２０４において局所領域毎に抽出されたすべての第一特徴量に対して射影処理を行う（Ｓ３０５）。射影時に使用する射影行列は、学習データ（大量の顔画像データ）から事前に計算しておく。計算には主成分分析（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ、ＰＣＡ）を用いる。以下、射影にＰＣＡを用いた場合の具体的な処理方法について説明する。まず、入力の第一特徴量ベクトルＸを以下の式（１）により定義する。

ここでＴは転置を表し、ｘはＬＢＰ特徴量の構成要素成分を表し、ｍは特徴量の次元数を表す。次に、あらかじめ学習しておいた固有空間への射影行列Ｖを以下の式（２）により表す。

さらに、次元削減を行うために行列Ｖのｎ行以降を削除した行列Ｖ′を以下の式（３）により表す。

以上のように式（２）および式（３）に示した行列を射影処理に用いる。ただしｎ＜ｍとする。また、射影後の特徴量Ｐは、以下の式（４）により算出される。

ここで、Ａは学習データの平均ベクトルである。

主成分分析は、特徴量群の分布を解析し、分散最大基準で基底を計算する手法であり、特徴量を元の特徴空間よりも情報的価値（分散最大基準での）が高い空間で表現することができる。主成分分析により得られた固有空間に特徴量を射影することにより、学習に用いた画像セットをよりよく表現できるだけでなく、情報的価値の低い次元を切り落とすことにより特徴量の次元数を削減する効果も期待できる。なお、削減する次元の量を調整するには式（３）の変数ｎを調整すればよい。ここでは削減する次元数を実験的に定めるが、累積寄与率を基に定めてもよい。固有空間の計算方法としては、この他にもＬｏｃａｌｉｔｙＰｒｅｓｅｒｖｉｎｇＰｒｏｊｅｃｔｉｏｎ（ＬＰＰ）を用いてもよい。また、それ以外に、教師付きの固有空間学習方法であるＬｏｃａｌＦｉｓｈｅｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ（ＬＦＤＡ）、などの公知の例を用いてもよい。

続いて、顔特徴点を基に第二特徴量抽出処理を行う（Ｓ３０６）。この処理では、Ｓ３０４における第一特徴抽出処理と同様に、局所領域毎に特徴量が抽出されるため、局所領域の数だけ特徴量が抽出される。この処理の詳細については後述する。続いて、特徴量射影部２０８は、第二特徴量に対して射影処理を行う（Ｓ３０７）。具体的な処理の内容は、Ｓ３０５の第一特徴量に対する射影処理と同様であるため、ここでの説明は省略する。

続いて、辞書データ登録部２０９は、第一射影特徴量および第二射影特徴量を辞書に登録する（Ｓ３０８）。このとき、第一射影特徴量および第二射影特徴量は同一人物（同一の画像）から抽出した特徴量であるため、同一の人物ＩＤを割り振り、辞書に登録する。

次に、まだ処理していない顔が存在するか否かを判定する（Ｓ３０９）。この判定の結果、まだ処理していない顔が存在する場合は、次の顔について、Ｓ３０３に戻って処理を繰り返す。一方、全ての顔について処理が完了した場合は、処理を終了する。

＜第一特徴抽出処理＞
次に、Ｓ３０４の第一特徴抽出処理について説明する。図４は、図３のＳ３０４における第一特徴抽出処理の詳細な手順の一例を示すフローチャートである。
始めに、局所画像取得部２０３は、顔画像取得部２０１から顔画像データを取得する（Ｓ４００）。続いて局所画像取得部２０３は、顔特徴点抽出部２０２から顔特徴点を取得する（Ｓ４０１）。続いて、第一特徴抽出部２０４は、第一特徴抽出パラメタ保持部２０５から第一特徴抽出パラメタを取得する（Ｓ４０２）。

続いて、局所画像取得部２０３は、取得した顔画像および顔特徴点を用いて局所領域を設定し、局所画像を取得する（Ｓ４０３）。局所領域を設定する際には、顔特徴点を基準点として、そこから所定画素数の距離にある点を中心点とする所定サイズの矩形領域を局所領域として設定する。このとき、一つの基準点に対して複数の局所領域を設定してよい。また、どの局所領域を局所画像として取得するかについては、事前に学習で定めるようにしてもよい。

続いて、第一特徴抽出部２０４は、局所画像と第一特徴抽出パラメタとを用いて第一特徴量を抽出する（Ｓ４０４）。このとき、第一特徴抽出部２０４は、抽出した特徴量を局所画像毎に固有のラベルと対応付けて保持する。本実施形態では、特徴量としてＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）特徴量を抽出するが、その他公知の例を用いてもよい。ＬＢＰ特徴量は、隣り合う画素値の大小関係をコード化した特徴量である。画素間の大小関係のみに着目するため、画像の全体的な照明変化に頑健な特徴量として知られている。そのため、様々な照明条件が想定される顔画像の識別等に適している。ＬＢＰ特徴量の抽出方法は以下の通りである。

図５は、ＬＢＰ特徴量を抽出するための注目画素とその周辺画素との関係を表わした模式図である。ここで、注目画素ｇ_cの画素値をＩ_cとし、周辺のｐ番目の画素ｇ_pの画素値をＩ_pとする。図５に示すように、注目画素ｇ_cの真上がｇ₁、右上がｇ₂となり、時計周りにｇ₈まで続いている。このとき、注目画素ｇ_cにおけるＬＢＰコード値ＬＢＰ_cは、第一特徴抽出パラメタである以下の式（５）により算出される。

ここで、ＰはＬＢＰコードのビット数を示しており、図５に示す例ではＰ＝８である。式（５）では、注目画素とその周辺８画素との差分が０以上である場合は１（ビットを立てる）を当てはめ、０より小さい場合は０（ビットを立てない）を当てはめる。このように数値を連結したコードを８ビットの数値として扱う。このＬＢＰコード値ＬＢＰ_cをＬＢＰ特徴量と呼び、本実施形態における第一特徴量とする。

次に、全ての局所画像の特徴抽出を完了したか否かを判定する（Ｓ４０５）。この判定の結果、特徴抽出が完了した場合は、局所画像取得部２０３は、使用した局所画像を保持し（Ｓ４０６）、第一特徴抽出処理を終了する。なお、保持した局所画像は第二特徴抽出処理で使用するため、この処理では保持したままにしておく。一方、まだ特徴抽出していない局所画像がある場合は、Ｓ４０３に戻り、残りの局所画像に対して処理を繰り返す。

＜第二特徴抽出処理＞
次に、第二特徴抽出処理について説明する。図６は、図３のＳ３０６における第二特徴抽出処理の詳細な手順の一例を示すフローチャートである。
始めに、第二特徴抽出部２０６は、第二特徴抽出パラメタ保持部２０７から第二特徴抽出パラメタを取得する（Ｓ６０１）。本実施形態では、この第二特徴抽出パラメタを事前に３種類用意しておく。第二特徴抽出パラメタの数は、多いほど精度向上に寄与する傾向があるが、多くすると特徴抽出時の計算量が多くなってしまうため、目的に応じて第二特徴抽出パラメタの数を設定する。ここで取得する第二特徴抽出パラメタは、第一特徴抽出パラメタとは異なるパラメタである。具体的には、式（５）に示したＬＢＰ特徴量の算出式と比べて、以下の式（６）に示すように注目画素値をＩ_cと周辺画素値Ｉ_pとの比較にオフセット値θを導入する。

このようにオフセット値θを導入することによって、顔の個人差はそのままにし、照明方向が異なる顔画像の特徴量を疑似的に生成することができる。以下、そのオフセット値θの詳細について説明する。

顔画像において、顔にあたる照明の方向が変わると、肌領域では画素値の変化の勾配が小さく起伏が乏しいため、画素値の大小関係が照明方向に応じて変化する。そのため、ＬＢＰ特徴量のように画素値の大小関係を利用する特徴量のパターンも変化してしまう。一方、顔の器官領域における器官のエッジは、画素値の変化の勾配が大きく画素値の大小関係の差が大きいため、照明方向が変わっても画素値の大小関係が逆転することはなく、特徴量のパターンは大きく変化しない。

つまり、画素値の大小関係を利用する特徴量で照明方向の異なる顔を表現するには、元の特徴量と比較して、肌領域では照明方向による変化があり、器官領域ではその変化が少ない特徴量を生成しなければならない。そこで、式（６）において、オフセット値θを、肌領域では特徴量のパターンが変化し、器官領域ではあまり変化しないような値に設定することによって、あたかも照明方向を変えたかのような特徴量を抽出することができる。オフセット値θをどのような値に設定するかについては、表現したい照明条件によるため実験的に定めるのがよい。

一つの例として、入力画像と登録辞書とで照明方向が大きく異なる場合（順光の顔と逆光の顔との比較など）では、オフセット値θを負の値にすることによって、大小関係が逆転したかのような特徴量を抽出することができる。また、本実施形態ではオフセット値θを含む式を第二特徴抽出パラメタとし、第一特徴量を変更した特徴量を第二特徴量としたが、ＬＢＰ特徴量のその他のパラメタを変更して第二特徴量としてもよい。例えば、式（５）のｐの順番、つまりコード化の順番などを変えてもよい。

続いて、第二特徴抽出部２０６は、局所画像取得部２０３から局所画像を取得する（Ｓ６０２）。前述の第一特徴抽出処理のＳ４０６において、局所画像取得部２０３は局所画像を保持しているので、保持している局所画像をそのまま取得することになる。

続いて、第二特徴抽出部２０６は、前述した第二特徴抽出パラメタと局所画像とを用いて第二特徴量を抽出する（Ｓ６０３）。このとき、第一特徴抽出処理と同様に、抽出した特徴量を局所画像毎に固有のラベルと対応付けて保持するようにする。

次に、全ての局所画像について処理を完了したか否かを判定する（Ｓ６０４）。この判定の結果、処理していない局所画像が存在する場合はＳ６０２に戻り、全ての局所画像について処理を完了した場合は、次のＳ６０５に進む。最後に、全ての第二特徴抽出パラメタで第二特徴量の抽出が完了したか否かを判定する（Ｓ６０５）。この判定の結果、全ての第二特徴抽出パラメタで終了した場合は、第二特徴抽出処理を終了する。一方、まだ処理が完了していない第二特徴抽出パラメタがある場合は、Ｓ６０１に戻り、残りの特徴抽出パラメタに対して処理を継続する。

＜識別処理フロー＞
次に、識別処理について説明する。図７は、本実施形態における入力画像を識別する処理手順の一例を示すフローチャートである。なお、図７のＳ７００〜Ｓ７０５は図３の辞書データ登録処理におけるＳ３００〜Ｓ３０５と同様であるため、説明は省略する。以下、Ｓ７０６の局所類似度算出処理から説明する。

Ｓ７０５の処理が終了すると、局所類似度算出部２１０は、Ｓ７０５で算出した第一射影特徴量と辞書（第一射影特徴量および第二射影特徴量）とを比較することにより局所類似度を算出する（Ｓ７０６）。この処理の詳細については後述する。続いて、統合類似度算出部２１１は、取得した局所類似度から辞書に登録されている人物ＩＤ毎の類似度を算出する（Ｓ７０７）。この処理の詳細についても後述する。

次に、まだ処理していない顔画像データが存在するか否かを判定する（Ｓ７０８）。この判定の結果、まだ処理していない顔画像データが存在する場合は、Ｓ７０３に戻り、次の顔画像データについて処理を継続する。一方、全ての顔画像データの処理を完了した場合は、認識結果出力部２１２は、顔認識結果をＲＡＭ１０３または外部出力装置１０７に出力する（Ｓ７０９）。この処理では、人物ＩＤ毎の類似度のうち最も高いものを選択し、その類似度が所定値よりも大きい場合は、その類似度に対応する人物ＩＤを顔認識結果として出力する。なお、類似度が所定値以下の場合は、辞書中の誰でもないという顔認識結果を出力する。また、Ｓ７０２の判定の結果、入力画像から顔が１つも検出されなかった場合も、その旨の結果を出力する。

＜局所類似度算出処理＞
次に、局所類似度算出処理について説明する。図８は、図７のＳ７０６における局所類似度を算出する詳細な処理手順の一例を示すフローチャートである。なお、図８に示す各処理は局所類似度算出部２１０により行われる。

始めに、局所類似度算出部２１０は、特徴量射影部２０８から、図７のＳ７０５により得られた特徴量（第一射影特徴量）を取得する（Ｓ８００）。続いて、辞書データ登録部２０９から登録辞書を取得する（Ｓ８０１）。

続いて、取得した特徴量と登録辞書とから局所類似度を算出する（Ｓ８０２）。前述の通り、射影特徴量は局所画像の数だけ存在するので、局所画像毎に局所類似度を算出することとなる。また、特徴量には局所画像毎に固有のラベルが対応付けられているので、同一のラベルを持つ特徴量同士で局所類似度を算出する。局所類似度を算出する方法としては、特徴ベクトル間の内積に基づくコサイン類似度を用いる。すなわち、入力画像の特徴量をＶ₁、登録辞書の特徴量をＶ_Rとし、Ｖ₁とＶ_Rとがなす角をαとすると、コサイン類似度Ｓは、以下の式（７）により算出される。

ここで、Ｖ₁・Ｖ_RはＶ₁とＶ_Rとの内積、｜Ｖ₁｜および｜Ｖ_R｜はそれぞれのベクトルのノルムを表す。本実施形態ではコサイン類似度を用いているため、局所類似度の範囲が−１から＋１の間となり、異なる局所領域で算出された類似度を統合する際に都合がよい。

次に、全ての局所画像について局所類似度を算出したか否かを判定する（Ｓ８０３）。この判定の結果、全ての局所画像について局所類似度を算出した場合は次の処理に進み、そうでない場合はＳ８０２に戻り、残りの局所画像について局所類似度を算出する。次に、全登録辞書について局所類似度の算出が完了したか否かを判定する（Ｓ８０４）。この判定の結果、全登録辞書について局所類似度を算出した場合は、算出した局所類似度を出力し（Ｓ８０５）、この類似度算出処理を終了する。この時点で、登録されている画像毎に複数の局所類似度が算出されている状態となっている。一方、局所類似度の算出が完了していない登録辞書がある場合は、Ｓ８０１に戻り、残りの登録辞書に対して処理を継続する。

＜統合類似度算出処理＞
次に、統合類似度算出処理について説明する。図９は、図７のＳ７０７における統合類似度を算出する詳細な処理手順の一例を示すフローチャートである。なお、図９に示す各処理は、統合類似度算出部２１１により行われる。

始めに、統合類似度算出部２１１は、局所類似度算出部２１０から局所類似度を取得する（Ｓ９００）。続いて、登録辞書の顔画像毎に存在する局所類似度を、人物ＩＤ毎の局所類似度に統合する（Ｓ９０１）。図１０は、人物ＩＤ毎の局所類似度を算出する際の、ある局所領域についての処理例を示した模式図である。図１０に示す例では、人物ＩＤ＝１の人物の局所領域Ａについて、人物ＩＤ毎の局所類似度を算出する場合について示している。

図１０に示すように、人物ＩＤ＝１の局所領域Ａにおける局所類似度の中から、最も高い類似度を選択し、その類似度をその人物ＩＤの局所領域Ａの局所類似度とする。なお、図１０に示す登録画像３は人物ＩＤが異なるので、この計算には使用しない。このように全局所領域について同様の計算を施す。

一般的に、顔の個人差を示すような複雑なパターンの場合、類似度が偶然にも高くなってしまう可能性は低い。このため、局所類似度の中で最も高い値を選択することにより、他人に比べて統合後の類似度も高くなることが期待できる。また、本実施形態では、第二特徴量を３種類抽出して、第一特徴量とは異なる照明方向の特徴量を疑似的に辞書に登録している。これらの情報を用いて人物ＩＤ毎の局所類似度を算出することにより、照明方向により頑健な類似度を算出することができる。

続いて、人物ＩＤ毎に複数ある局所類似度を、人物ＩＤ毎に一つの統合類似度に統合する（Ｓ９０２）。統合の方法としては、局所類似度の平均値を用いる。なお、極端に高いまたは低い局所類似度はノイズである可能性があるため、それらを除去した上で平均値をとってもよい。最後に、算出した統合類似度を出力し（Ｓ９０３）、この統合類似度算出処理を終了する。

以上のように本実施形態によれば、辞書に第一特徴量と３種類の第二特徴量とを登録して、疑似的に異なる照明方向の辞書を生成するようにしている。これにより、入力画像の照明方向が、登録辞書の第一特徴量とは異なる場合においても、第二特徴量で表現した照明方向の情報を用いることができ、照明方向の変化に頑健な顔認識を実現できる。また、特徴量のパラメタを変更することによって疑似的に辞書を生成するため、画像そのものを疑似的に生成する方法などと比較して、メモリ容量および計算コストを低減することができる。また、本実施形態では、局所画像から特徴量を抽出する方法について述べたが、顔画像全体から特徴量を抽出してもよい。

（第２の実施形態）
第１の実施形態では、辞書に登録する顔画像のみから第二特徴量を抽出したが、本実施形態では、類似度を算出する入力画像からも第二特徴量を抽出し、入力画像、登録辞書ともに疑似的に特徴量を増す例について説明する。また、第１の実施形態では、特徴量としてＬＢＰ特徴量を用いる場合について説明したが、他の画素値の大小関係に基づいた特徴量の一例として、ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔ（ＨＯＧ）特徴量を用いる例について説明する。以下、第１の実施形態と同じ処理を行う場合は説明を省略し、処理の異なる部分のみを説明する。また、第１の実施形態で説明した図１に示したハードウェア構成、および図２に示した機能構成については、本実施形態においても同様であるため、説明を省略する。

＜全体の処理＞
本実施形態における辞書データ登録処理については第１の実施形態と同様であるため、説明は省略する。以下、本実施形態に係る識別処理について図１１を参照しながら説明する。

＜識別処理＞
図１１は、本実施形態における入力画像を識別する処理手順の一例を示すフローチャートである。なお、Ｓ１１００〜Ｓ１１０３は、それぞれ図７のＳ７００〜Ｓ７０３と同様であるため、説明は省略する。ここで、Ｓ１１０４の第一特徴量を抽出する際に、ＨＯＧ特徴量を抽出する処理について説明する。まず、画像の座標（ｘ，ｙ）の画素（輝度）値をＩ（ｘ，ｙ）とした場合に、輝度勾配はｘ方向、ｙ方向で、以下の式（８）により表される。

次に、これらの輝度勾配から、勾配強度ｍ（ｘ，ｙ）、および勾配方向θ（ｘ，ｙ）は、それぞれ以下の式（９）および式（１０）により表される。

次に、勾配方向の範囲１８０度を２０度毎に９分割したそれぞれの区間をビンとして、勾配方向θ（ｘ，ｙ）の頻度ヒストグラムを画像の所定の矩形領域（セル）毎に作成する。そして、３×３の９個のセルを１ブロックとして、ブロック毎に正規化を行う。正規化は１セルずつずらしながら全領域に対して行い、正規化の度にヒストグラムを連結していく。この処理を画像全体にわたって行って得た連結ヒストグラムがＨＯＧ特徴量である。このように、通常は、ブロック毎の正規化を１セルずつずらしながら行うが、ずらす量を増やすことにより計算量および特徴量の次元数を軽減してもよい。このＨＯＧ特徴量は、画像中の物体の回転、スケール変化に対しては不変ではないものの、局所的な幾何学的変化や明るさの変化には不変な特徴量として知られている。勾配方向ヒストグラム特徴量についての詳細は非特許文献２に開示されている。本実施形態では、局所画像から取得したこのＨＯＧ特徴量を第一特徴量とする。次のＳ１１０５については図７のＳ７０５と同様であるため、説明は省略する。

次に、Ｓ１１０６の第二特徴量を抽出する際に、ＨＯＧ特徴量に関する第二特徴量を抽出する処理について説明する。第二特徴量を算出する際には、前述の式（８）の勾配計算においてオフセット値ρ₁、ρ₂を導入し、以下の式（１１）を用いる。

これ以外の点については第一特徴量を取得した手順と同様であるため、説明は省略する。輝度勾配の計算をこのように変更することにより画素の大小関係を変化させ、あたかも照明の方向が変化したかのようなＨＯＧ特徴量を抽出することができる。次のＳ１１０７については図３のＳ３０７と同様であるため、説明は省略する。次のＳ１１０８およびＳ１１０９については図７のＳ７０６およびＳ７０７と異なる点についてのみ説明する。

図１２は、図１１のＳ１１０８およびＳ１１０９の処理を模式的に説明するための図である。第１の実施形態で示した図１０と比較して、入力画像においても第二特徴量を抽出し、Ｓ１１０８ではその局所類似度も算出する。このため、画像毎の局所類似度の数が飛躍的に増えている。Ｓ１１０９においても、最も高い局所類似度を選択し、最終的な統合類似度を算出する。Ｓ１１１０およびＳ１１１１については、それぞれ図７のＳ７０８およびＳ７０９と同様である。

以上のように本実施形態によれば、識別処理においても第二特徴量を抽出するようにしたので、最終的な統合類似度を算出する際に使用できる情報量を増やすことができ、照明方向に対する頑健性のさらなる向上が期待できる。常に第二特徴量を抽出し、飛躍的に増えた局所類似度を算出しなければならないため、第１の実施形態と比較して、計算量は増大する。そこで、この場合にはユーザが許容できる計算量となるよう第二特徴量を抽出するためのパラメタの数を調整し、その分の計算量を抑えることも可能である。

（その他の実施形態）
前述した各実施形態では、顔認識について説明したが、一般の物体に対しても、領域によって画素値の変化の勾配が異なる場合には第二特徴量を同様に抽出することができる。このため、顔認識のみならず、一般の物体認識でも適用することができる。

また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。この場合、そのプログラム、及び該プログラムを記憶したコンピュータ読み取り可能な記憶媒体は本発明を構成することになる。

２０１顔画像取得部
２０４第一特徴抽出部
２０６第二特徴抽出部
２０９辞書データ登録部
２１０局所類似度算出部
２１１統合類似度算出部

Claims

登録画像および入力画像のそれぞれから物体画像を取得する取得手段と、
前記取得手段によって取得された物体画像から、画素値の大小関係に基づく第一特徴量を抽出する第一特徴量抽出手段と、
前記第一特徴量抽出手段によって抽出された前記登録画像に係る第一特徴量を画素値の変化の勾配に応じて変化させた第二特徴量を抽出する第二特徴抽出手段と、
前記登録画像に係る第一および第二特徴量を辞書に登録する登録手段と、
前記辞書に登録された特徴量と前記入力画像の特徴量とを比較することにより前記入力画像の物体と前記登録画像の物体との類似度を算出する算出手段とを備えたことを特徴とする画像認識装置。
前記算出手段は、前記第一特徴量抽出手段によって抽出された前記入力画像に係る第一特徴量と、前記辞書に登録された第一特徴量および第二特徴量のそれぞれとを比較して類似度を算出することを特徴とする請求項１に記載の画像認識装置。
前記第二特徴抽出手段は、前記入力画像に係る第一特徴量を画素値の変化の勾配に応じて変化させた第二特徴量をも抽出し、
前記算出手段は、前記第一および第二特徴量抽出手段によって抽出された前記入力画像に係る第一特徴量および第二特徴量と、前記辞書に登録された第一特徴量および第二特徴量のそれぞれと比較して類似度を算出することを特徴とする請求項１に記載の画像認識装置。
前記第二特徴抽出手段は、画素値の変化の勾配が小さいほど前記第一特徴量のパターンが大きく変化するように前記第二特徴量を抽出することを特徴とする請求項１〜３の何れか１項に記載の画像認識装置。
前記第一特徴量抽出手段は、前記登録画像および前記入力画像の局所領域から特徴量を抽出し、
前記算出手段は、前記局所領域毎に局所類似度を算出し、前記算出した局所類似度を統合した類似度を算出することを特徴とする請求項１〜４の何れか１項に記載の画像認識装置。
前記第一および第二特徴量抽出手段は、ＬＢＰ特徴量を抽出することを特徴とする請求項１〜５の何れか１項に記載の画像認識装置。
前記第一および第二特徴量抽出手段は、ＨＯＧ特徴量を抽出することを特徴とする請求項１〜５の何れか１項に記載の画像認識装置。
登録画像および入力画像のそれぞれから物体画像を取得する取得工程と、
前記取得工程において取得された物体画像から、画素値の大小関係に基づく第一特徴量を抽出する第一特徴量抽出工程と、
前記第一特徴量抽出工程において抽出された前記登録画像に係る第一特徴量を画素値の変化の勾配に応じて変化させた第二特徴量を抽出する第二特徴抽出工程と、
前記登録画像に係る第一および第二特徴量を辞書に登録する登録工程と、
前記辞書に登録された特徴量と前記入力画像の特徴量とを比較することにより前記入力画像の物体と前記登録画像の物体との類似度を算出する算出工程とを備えたことを特徴とする画像認識方法。
登録画像および入力画像のそれぞれから物体画像を取得する取得工程と、
前記取得工程において取得された物体画像から、画素値の大小関係に基づく第一特徴量を抽出する第一特徴量抽出工程と、
前記第一特徴量抽出工程において抽出された前記登録画像に係る第一特徴量を画素値の変化の勾配に応じて変化させた第二特徴量を抽出する第二特徴抽出工程と、
前記登録画像に係る第一および第二特徴量を辞書に登録する登録工程と、
前記辞書に登録された特徴量と前記入力画像の特徴量とを比較することにより前記入力画像の物体と前記登録画像の物体との類似度を算出する算出工程とをコンピュータに実行させることを特徴とするプログラム。
請求項９に記載のプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記憶媒体。