JP6624794B2

JP6624794B2 - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP6624794B2
Application number: JP2015048766A
Authority: JP
Inventors: 俊亮中野; 佐藤　博; 博佐藤; 雄司金田; 敦夫野本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-03-11
Filing date: 2015-03-11
Publication date: 2019-12-25
Anticipated expiration: 2035-03-11
Also published as: US10558851B2; US20160267339A1; JP2016170542A

Description

本発明は、画像処理装置、画像処理方法及びプログラムに関する。

撮影された画像データ内に写るオブジェクトの画像を高度に処理して有用な情報を抽出する技術が多く提案されており、その中でも人間の顔画像を認識して、顔の属性を判定する顔認識と呼ばれる技術がある。顔認識の例としては、顔から人物の性別を推定する性別推定、顔から人物の年齢を推定する年齢推定、又は２つの顔画像が同じ人物であるか否かを判定する顔識別等がある。
顔識別において、比較する２つの顔画像の撮影条件が異なることによる画像の変動は、顔識別の精度に大きな影響を及ぼす。画像の変動の原因となる撮影条件には、照明条件、表情、隠れ、経年変化、顔向き等がある。顔向きを例に撮影条件について説明する。顔向きとは、顔をどの方向から撮影するかということである。顔は、複雑な形状をしている。そのため、撮影された画像は、顔向きにより前面になる顔の部分が変化することで、見た目がめまぐるしく変化する。特に顔識別では、同じ人物における顔向きが異なる顔画像の見た目の変化は、異なる人物間に由来する顔画像の見た目の変化よりも大きく、人物を識別する大きな妨げになっていることが知られている（非特許文献１）。

顔識別において、変動の影響を軽減する方法は、大きく二つある。一つ目の方法は、変動の情報を打ち消して、もともとある顔の情報のみを残す方法である。例えば顔向き変動に対する方法としては、非特許文献２に示される画像変換が代表的な方法である。ただし、非特許文献２の方法では、顔向き変動の影響を受けにくい領域のみを比較して顔向き変動を打ち消すが、照合する顔の領域が減ることで個人差の情報も削られてしまうことが課題となっている。
二つ目の方法は、非特許文献３に示される方法のように、一方の顔画像を、もう一方の顔画像の撮影条件で見たときの見た目を推定して、新しい顔画像を生成する方法である。そうすることで、撮影条件が同じ（変動がない）条件で２つの顔を識別することができる。非特許文献３では、入力された顔の目や鼻等を部品ごとに処理が実行される。例えば目については、多くの人物の目の事例画像と、同じ人物の目を異なる撮影条件で撮影した事例画像と、が、予め対応づけて保持されている。処理の際には、保持されている目の事例画像の中から、入力された目の画像と最も似ているものが一つ選択される。そして、選択された目の事例画像に対応する別の撮影条件の事例画像が選択される。以上の処理を目や鼻等の全ての部品に対して行うことで、あたかも入力された顔を別の撮影条件で撮影したかのような画像を生成することができる。

ＦａｃｅＲｅｃｏｇｎｉｔｉｏｎＡｃｒｏｓｓＰｏｓｅ −Ｒｅｖｉｅｗ：Ｘ．Ｚｈａｎｇ，ＹＧａｏ：２００９ＴｏｗａｒｄｓＰｏｓｅＲｏｂｕｓｔＦａｃｅＲｅｃｏｇｎｉｔｉｏｎ：Ｄ．Ｙｉ，Ｚ．Ｌｅｉ，Ｓ．Ｚ．Ｌｉ：２０１３ＡｎＡｓｓｏｃｉａｔｅＰｒｅｄｉｃｔＭｏｄｅｌｆｏｒＦａｃｅＲｅｃｏｇｎｉｔｉｏｎ：Ｑ．Ｙｉｎ．Ｘ．Ｔａｎｇ，Ｊ．Ｓｕｎ：２０１１

非特許文献３では、予め保持する人物の事例画像が全人類を含むのであれば、どのような顔画像が入力されようと、適切に別の撮影条件での見た目を予測することができる。しかしながら、現実的に保持できる人物の数は有限であり、入力された顔と十分に似ている人物を含まない場合には本人とは似ていない画像が生成されてしまう。
つまり、非特許文献３の方法では、入力と似ている事例画像をひとつだけ検索するという制約のため、有限の事例画像では十分に入力を表現できないという課題がある。
そこで、本発明は、事例画像が入力された顔と十分に類似する人物を含まない場合でも、入力された顔に類似する画像を生成することを目的とする。

そこで、本発明の画像処理装置は、第１の属性を有する入力顔画像を近似する、前記第１の属性を有する第１の複数の事例画像の線形結合の係数を、前記第１の複数の事例画像の線形結合の結果と前記入力顔画像との差分が小さくなり、かつ、前記第１の複数の事例画像について各事例画像と前記入力顔画像との差分に前記各事例画像に対する係数の絶対値を乗じて加算した総和が小さくなるように決定する決定手段と、前記第１の属性を有する前記第１の複数の事例画像に対応する第２の属性を有する第２の複数の事例画像を、前記決定手段により決定された前記係数で線形結合して前記第２の属性を有する入力顔画像を近似する画像を合成する合成手段と、を有する。

本発明によれば、事例画像が入力された顔と十分に類似する人物を含まない場合でも、入力された顔に類似する画像を生成することができる。

顔向きによる変動の一例を示す図である。オブジェクト識別装置の機能構成の一例を示す図である。顔画像識別処理の一例を示すフローチャートである。カテゴリ判定処理の一例を示すフローチャートである。画像識別部の機能構成等の一例を示す図である。識別処理の一例を示すフローチャートである。登録画像記録部の機能構成等の一例を示す図である。変動データ生成部の機能構成等の一例を示す図である。変動データ生成処理の一例を示すフローチャートである。変動データ生成処理の一例を説明するための図である。登録画像記録部の機能構成等の一例を示す図である。カテゴリ判定処理の一例を示すフローチャートである。照明による変動の一例を示す図である。変動データ生成部の機能構成等の一例を示す図である。

以下、本発明の実施形態について図面に基づいて説明する。

＜実施形態１＞
本実施形態では、撮像装置による撮影対象のオブジェクトとして人間の顔を扱う。本実施形態の処理として、人物の違いを顔画像から識別する顔識別を例に説明する。変動の例としては、オブジェクトと撮像装置との位置関係によって生じる見えの異なりを説明する。オブジェクトと撮像装置との位置関係によって生じる見えの異なりによる変動には、画像中のオブジェクトの向きや、画像中に写るオブジェクトの解像度（画像中のオブジェクトの大きさ）等の変動が挙げられる。
図１は、顔向きによる変動の一例を示す図である。図１（ａ）は、正面から撮影された人の顔を示している。図１（ｂ）は、図１（ａ）の顔が手前から見て右方向を向いた（Ｙａｗ方向に回転した）際の状況を示している。本実施形態では簡便のため、図１に示すようなＹａｗ方向の角度の変動のみを例として、正面向きの顔画像（ａ）と右向きの顔画像（ｂ）との変動を扱う処理について説明する。以下では、図１に示す顔のＹａｗ方向の撮影角度の違いを、単に顔向き変動とする。

（全体の構成）
図２は、本実施形態におけるオブジェクト識別装置１０００の機能構成等の一例を示す図である。オブジェクト識別装置１０００は、画像を入力する画像入力部１１００、画像を識別する画像識別部１２００、登録画像を保持する登録画像記録部１３００、オブジェクトの識別結果及び属性判定結果を出力する外部出力部１４００等を含む。オブジェクト識別装置１０００は、画像処理装置の一例である。
オブジェクト識別装置１０００は、ＣＰＵ等の単一のプロセッサを有し、各機能構成要素の機能を前記プロセッサにより実行することとしてもよい。また、オブジェクト識別装置１０００は、各機能構成要素がそれぞれ別個にＣＰＵ等のプロセッサを有し、各機能構成要素のプロセッサにより各機能構成要素の処理が実行されることとしてもよい。
オブジェクト識別装置１０００が単一のプロセッサを有す場合、以下のようになる。即ち、前記プロセッサがオブジェクト識別装置１０００の記憶部に記憶されたプログラムに基づき処理を実行することによって、後述するオブジェクト識別装置１０００の機能及び後述するフローチャートの処理が実現される。

画像入力部１１００は、識別すべき画像データを供給する装置であり、光学レンズと映像センサとを備えた撮像装置、又は、画像データが保持され読み出し可能な半導体メモリ等を含む。また、画像入力部１１００は、画像識別部１２００に、連続して識別すべき画像データを供給する。
登録画像記録部１３００は、画像入力部１１００から供給された画像データを、識別すべき人物の画像を記録・保持する辞書を記録している。以下では、登録画像記録部１３００に保持された識別すべき人物の画像を、単に登録画像とする。登録画像記録部１３００は、保持する登録画像を人物ごとに分類し、それぞれ同一のカテゴリとして保持する。登録画像記録部１３００は、それぞれの登録画像に対応する顔向き、照明条件等の変動条件を示す属性情報を記録している。登録画像記録部１３００は、繰り返し書き換え可能な半導体メモリ等で構成される。登録画像記録部１３００は、画像データを数十枚、又は、それ以上保持するために十分に大容量な記憶装置を持つことが望ましい。
画像識別部１２００は、画像入力部１１００から受付けた顔画像がどのカテゴリに属するか、つまり、予め登録画像記録部１３００に登録された人物のうちどれに属するかを出力する。画像識別部１２００の処理の詳細に関しては、図３等で後述する。画像識別部１２００は、専用回路（ＡＳＩＣ）又は、プロセッサ（リコンフィギュラブルプロセッサ、ＤＳＰ、ＣＰＵ等）等で構成される。又は、画像識別部１２００の処理は、単一の専用回路又は汎用回路（ＰＣ用ＣＰＵ）内部によりプログラムが実行されることによって、実現されてもよい。

外部出力部１４００は、画像識別部１２００からの出力、つまり画像入力部１１００からの入力画像に対応するカテゴリを適切な形式で出力する。外部出力部１４００は、ＣＲＴやＴＦＴ液晶等のモニタで構成され、画像入力部１１００から受付けた画像データを表示する。また、外部出力部１４００は、表示した画像データに画像識別部１２００の出力を表示している画像データ等に重畳して表示する。また、外部出力部１４００は、外部の記憶装置への出力機能を有し、出力データを電子データとして外部の記憶媒体等に記憶してもよい。また、外部出力部１４００は、印刷機能を有し、出力データを紙媒体に印刷してもよい。
なお、外部出力部１４００の出力の方法は、上に挙げた限りではなく、外部出力部１４００は、出力データを設定されたアドレスにメールで送信する等してもよい。更に、外部出力部１４００は、出力データを複数の方法で出力してもよい。

（識別フロー）
図３は、オブジェクト識別装置１０００による顔画像識別処理の一例を示したフローチャートである。図３を参照して、オブジェクト識別装置１０００が顔画像を識別する実際の処理について説明する。
Ｓ１１０１において、画像入力部１１００は、処理すべき入力画像を取得する。
Ｓ１１０２において、画像入力部１１００は、Ｓ１１０１で取得した入力画像に対して、顔検出処理を行う。

Ｓ１１０３において、画像入力部１１００は、Ｓ１１０２で顔を検出できたか否かを判定する。画像入力部１１００は、Ｓ１１０２で顔を検出できたと判定した場合、Ｓ１１０４の処理に進み、Ｓ１１０２で顔を検出できなかったと判定した場合、Ｓ１１０１の処理に進む。
Ｓ１１０４において、画像識別部１２００は、Ｓ１１０２で顔が検出された入力画像を入力として、顔のカテゴリ、即ち人物を判定する処理を行う。カテゴリ判定処理では、画像識別部１２００は、登録画像それぞれについて、入力画像で検出された顔に係る人物とどれほど同一人物らしいかを表す類似度を算出する。画像識別部１２００は、登録画像それぞれについて算出した類似度を比較して、最も高い類似度に対応する登録画像のカテゴリを、入力画像のカテゴリとして判定する。Ｓ１１０４の処理の詳細は、図４等で後述する。

Ｓ１１０５において、画像識別部１２００は、入力画像中の全ての顔について処理を行ったか否かを判定する。画像識別部１２００は、入力画像中の全ての顔について処理を行ったと判定した場合、全ての顔を処理したものとして、Ｓ１１０１の処理に進む。また、画像識別部１２００は、入力画像中の全ての顔について処理を行っていないと判定した場合、まだカテゴリ判定処理を行うべき顔が残っているとして、Ｓ１１０４の処理に進む。
オブジェクト識別装置１０００は、図３の一連の処理を、リアルタイムで実行し、外部出力部１４００を介してリアルタイムでカテゴリ判定結果を出力することもできる。リアルタイムとは、ユーザに遅延を感じさせないように、設定された期間内に処理が完了することを意味する。図３には、一連の処理の終了が記されていない。しかし、オブジェクト識別装置１０００は、ユーザによるオブジェクト識別装置１０００のユーザインターフェースを介した操作に基づいて、停止又は一時停止できるようにしてもよい。

図４は、カテゴリ判定処理の一例を示すフローチャートである。図４は、図３のＳ１１０４の処理の詳細について示している。図４を参照して、オブジェクト識別装置１０００が入力画像のカテゴリを判定する処理について説明する。
Ｓ１２０１において、画像識別部１２００は、画像入力部１１００から顔が検出された入力画像を受け付ける。前記入力画像は、静止画であり、人物の顔が１つだけ撮影されているものとする。
Ｓ１２０２において、画像識別部１２００は、登録画像として、登録画像記録部１３００に予め保持されている顔画像を１つ取得する。

Ｓ１２０３において、画像識別部１２００は、Ｓ１２０１で取得した入力画像とＳ１２０２で取得した登録画像とを識別し、入力画像に写る人物と登録画像に写る人物とが同一人物かどうかの確からしさを表す類似度を算出する。Ｓ１２０３の処理の詳細については、図６等で後述する。
Ｓ１２０４において、画像識別部１２００は、登録画像記録部１３００に保持されている全ての登録画像について入力画像との識別処理を行ったか否かを判定する。画像識別部１２００は、登録画像記録部１３００に保持されている全ての登録画像について入力画像との識別処理を行ったと判定した場合、全ての登録画像について入力画像に対する類似度を得たとして、Ｓ１２０５の処理に進む。画像識別部１２００は、登録画像記録部１３００に保持されている全ての登録画像について入力画像との識別処理を行っていないと判定した場合、Ｓ１２０２の処理に進む。

Ｓ１２０５において、画像識別部１２００は、Ｓ１２０３で算出した類似度のうち最も大きいものと、設定された閾値と、を比較し、比較結果に基づいて、入力画像の最終的なカテゴリを判定する。画像識別部１２００は、前記最も大きい類似度が前記閾値以上であれば、入力画像のカテゴリを、前記最も大きい類似度に対応する登録画像が属するカテゴリであると判定する。画像識別部１２００は、最も大きい類似度が前記閾値未満である場合、入力画像が属するカテゴリはないと判定する。前記閾値は、オブジェクト識別装置１０００の記憶装置等に設定ファイル等の形式で保存されているものとする。オブジェクト識別装置１０００は、ユーザによるオブジェクト識別装置１０００のユーザインターフェースを介した操作に基づいて、前記設定ファイル等に記憶されている前記閾値の値を変更できる。前記閾値は、予め目的に応じて調整されているものとする。閾値が低いほど、登録されている人物を認識できる可能性は、高まるが、登録されていない人物が登録されている人物のいずれかであると誤って判定される可能性も、高まる。逆に閾値が高いほど、登録されていない人物を誤認識する可能性は、減少するが、登録されている人物を認識できない可能性は、高まる。

（識別処理の概要）
図５は、画像識別部１２００の機能構成等の一例を示す図である。図６は、Ｓ１２０３の識別処理の一例を示すフローチャートである。図５、図６を参照して、図４のＳ１２０３の処理の概要について説明する。
画像識別部１２００は、特徴抽出部１２１０、類似度算出部１２２０等を含む。特徴抽出部１２１０は、入力画像、登録画像から特徴量を抽出する。類似度算出部１２２０は、特徴抽出部１２１０により入力画像と登録画像とから抽出された特徴量に基づいて、入力画像と登録画像との類似度を算出する。
Ｓ１３０１において、特徴抽出部１２１０は、Ｓ１２０１で取得された入力画像を取得する。入力画像は、図４の処理における入力画像と同じであり、顔が一つ写る画像であるとする。
Ｓ１３０２において、特徴抽出部１２１０は、Ｓ１２０２で取得された入力画像と識別する登録画像を取得する。

Ｓ１３０３において、特徴抽出部１２１０は、Ｓ１３０１で取得した入力画像とＳ１３０２で取得した登録画像とのそれぞれから特徴量を抽出する。
Ｓ１３０４において、類似度算出部１２２０は、Ｓ１３０３で抽出された入力画像と登録画像との特徴量に基づいて、入力画像と登録画像との類似度を算出する。
図６のＳ１３０３、Ｓ１３０４の処理の詳細については、（識別処理における特徴抽出処理）、（識別処理における類似度算出処理）の章で後述する。図４のカテゴリ判定処理では、登録画像記録部１３００は、登録された顔画像を、登録画像として保持しているとした。また、登録画像記録部１３００は、Ｓ１３０３で得られた登録画像の特徴量を保存することが望ましい。そうすることで、特徴抽出部１２１０は、再度、入力画像を得た場合に登録画像の特徴量を抽出する処理をせずに済むので、処理の負担の軽減が図れる。

（識別処理における特徴抽出処理）
図６のＳ１３０３の処理の詳細について説明する。Ｓ１３０３において、特徴抽出部１２１０は、顔が写っている入力画像から、個人の識別に必要な特徴量を抽出する。本実施形態では、特徴抽出部１２１０は、以下のように特徴量を抽出する。
まず、特徴抽出部１２１０は、入力画像の上に目・鼻・口等の代表的な顔の器官の位置を表す特徴点を検出する。特徴抽出部１２１０は、特徴点を設定する方法として、公知の技術を用い、例えば以下の参考文献１の技術を用いる。
参考文献１：ＡｃｔｉｖｅＳｈａｐｅＭｏｄｅｌｓ − ＴｈｅｉｒＴｒａｉｎｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎ：Ｔ．Ｆ．Ｃｏｏｔｅｓ，Ｃ．Ｊ．Ｔａｙｌｏｒ，Ｄ．Ｃｏｏｐｅｒ，ａｎｄＪ．Ｇｒａｈａｍ：１９９８

続いて、特徴抽出部１２１０は、入力画像の正規化処理を行う。特徴抽出部１２１０は、例えば、検出した両目の位置に基づいて、典型的には、両目の幅と傾きが画像上で設定された距離になるように入力画像に回転・拡大縮小処理を施す。
そして、特徴抽出部１２１０は、正規化した入力画像に対して、特徴量を抽出する矩形領域を設定する。特徴抽出部１２１０は、領域の大きさを、任意に設定できるが、個人の特徴をよく表す目や口等の器官がもれなく入るように、しかし背景等は入らないように、一辺が目幅のおおよそ１．５倍程度の正方形を顔の中央に設定することが望ましい。
そして、特徴抽出部１２１０は、設定した矩形領域内の画素値を、左上から右下の順に抽出する。そして、特徴抽出部１２１０は、抽出した画素値を一列につなげたベクトルを取得する。特徴抽出部１２１０は、取得したベクトルを前記設定した矩形領域内の画像の特徴量とする。

（識別処理における類似度算出処理）
図６のＳ１３０４の処理の詳細について説明する。Ｓ１３０４において、類似度算出部１２２０は、Ｓ１３０３で取得された入力画像の特徴量と登録画像の特徴量とに基づいて、入力画像と登録画像との類似度を算出する。類似度算出部１２２０は、類似度として任意の指標を算出してよいが、大きいほど特徴量が類似することを示すような指標を類似度として算出することが望ましい。類似度算出部１２２０は、例えば、特徴量のベクトル同士が成す角度のコサインを類似度として算出してもよいし、特徴量のベクトル間のユークリッド距離の逆数を類似度として算出してもよい。

（登録処理の概要）
図３の顔識別処理の実行の前に、登録画像記録部１３００により予め実行される登録画像の登録処理について説明する。図７は、登録画像記録部１３００の機能構成等の一例を示す図である。
登録画像記録部１３００は、画像内の顔の向きを検出する顔向き検出部１３１０、新しい顔画像を生成する変動データ生成部１３２０、登録画像を保持する登録画像保持部１３３０等を含む。

登録画像保持部１３３０は、画像入力部１１００から受付けた顔の写る登録用入力画像と前記登録用入力画像に対応する属性情報とを保存する。顔の写る登録用入力画像は、入力顔画像の一例である。そして、変動データ生成部１３２０は、受け付けた登録用入力画像から、別の顔向きを持つ新しい顔画像を生成する。登録画像保持部１３３０は、変動データ生成部１３２０により生成された顔画像を登録用入力画像と同じカテゴリの画像として保存する。変動データ生成部１３２０の処理の詳細については、図８、図９等で後述する。
登録画像記録部１３００は、登録用入力画像から、複数の異なる属性情報（顔向き等）を有する登録画像を生成して登録する。それにより、登録画像記録部１３００には、識別すべき入力画像としてどんな顔向きの画像が入力されてきても、前記入力画像と顔向き変動のない（同じ属性情報を持つ）登録画像は、少なくとも１つ登録されていることになる。そのため、画像識別部１２００は、前記入力画像と前記入力画像と変動のない登録画像とで類似度の算出を行うことができ、精度良くカテゴリ判定ができることとなる。登録画像記録部１３００は、どのような顔向きの画像をどれだけ生成するかを、登録画像保持部１３３０の容量、顔画像の一組あたりの識別に係る期間等に基づいて、決定する。登録画像記録部１３００は、顔向きが角度１０度から１５度刻みの変動をもつ複数の顔画像を生成しておくことが望ましい。

（登録処理における変動データ生成処理）
図８は、変動データ生成部１３２０の機能構成等の一例を示す図である。図９は、変動データ生成処理の一例を示すフローチャートである。図１０は、変動データ生成処理の一例を説明するための図である。図８、図９、図１０を参照して、別の顔向きを持つ新しい顔画像を生成する処理の詳細について説明する。本実施形態において、変動データ生成部１３２０は、変動データの生成処理として、手前から見て右を向いた顔であるという条件の目の領域についての画像を生成する処理を行うとする。
変動データ生成部１３２０は、画像中の顔領域を抽出する顔領域抽出部１３２１、入力画像を近似するため事例データの線形結合を求める近似表現部１３２２、事例データを保持する事例データ保持部１３２３を含む。また、変動データ生成部１３２０は、顔の部分領域の画像から全体の顔画像を合成するデータ合成部１３２４等を含む。

Ｓ１４０１において、顔向き検出部１３１０は、画像入力部１１００から登録用入力画像を受付ける。登録用入力画像は、正面向きの顔が写る画像であるとする。
Ｓ１４０２において、顔向き検出部１３１０は、Ｓ１４０１で取得した登録用入力画像に写る顔の顔向きを検出する。本実施形態では、顔向き検出部１３１０は、前記登録用入力画像に写る顔の顔向きを正面向きであると検出する。顔向きを検出する方法としては、以下の参考文献２等の公知の技術がある。
参考文献２：Ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｂａｓｅｄｍｕｌｔｉ−ｖｉｅｗｆａｃｅｄｅｔｅｃｔｉｏｎａｎｄｒｅｃｏｇｎｉｔｉｏｎ：Ｙ．Ｌｉ，Ｓ．Ｇｏｎｇ，Ｊ．Ｓｈｅｒｒａｈ，ａｎｄＨ．Ｌｉｄｄｅｌｌ：２００４
Ｓ１４０３において、顔領域抽出部１３２１は、登録用入力画像から目・鼻・口等の部分領域を抽出する。部分領域を抽出する方法としては、図６の特徴抽出部１２１０の説明で述べたように、顔画像の上に特徴点を設定し、設定した特徴点に基づいて領域を切り出す方法等がある。本実施形態において、顔領域抽出部１３２１は、登録用入力画像から目の部分領域を抽出することとし、抽出した画像を部分領域画像ｘとする。

事例データ保持部１３２３は、登録画像保持部１３３０に保持される正面向きの顔が写る登録画像から抽出した目の部分領域画像をＮ人分、保持しており、保持している部分領域画像を正面向きの事例画像とする。Ｎ人分の正面向きの事例画像をＦ＝［ｆ１、ｆ２、ｆ３、・・・、ｆＮ］と表す。ｆｎ（ｎは、１＜＝ｎ＜＝Ｎを満たす自然数）は、正面向きの事例画像の一つ一つを表す。また、Ｆは、一つ一つの正面向きの事例画像を並べてベクトルとして表現したものである。
また、事例データ保持部１３２３は、登録画像保持部１３３０に保持される右向きの顔が写る登録画像から抽出した目の部分領域画像をＮ人分、正面向きの事例画像と同じ人物同士で対応付けて保持しており、保持している部分領域画像を右向きの事例画像とする。更に、正面向きの事例画像と右向きの事例画像とは、同じ人物の間で予め対応づけられているとする。Ｎ人分の右向きの事例画像をＲ＝［ｒ１、ｒ２、ｒ３、・・・、ｒＮ］と表す。ｒｎ（ｎは、１＜＝ｎ＜＝Ｎを満たす自然数）は、右向きの事例画像の一つ一つを表す。また、Ｒは、一つ一つの右向きの事例画像を並べてベクトルとして表現したものである。

図１０の（ａ）は、正面向きの事例画像と右向きの事例画像との関係を表している。事例データ保持部１３２３は、事例画像の数Ｎを、登録画像として与えられる人物の人種・性別・年齢の幅によって調整するものとする。事例データ保持部１３２３は、非特許文献３に示されるように、事例画像の数Ｎを数百ほどにするのが望ましい。
Ｓ１４０４において、近似表現部１３２２は、Ｓ１４０３で抽出された部分領域画像ｘと同じく顔向きが正面向きである顔の目の部分に対応する事例画像を、事例データ保持部１３２３から、取得する。近似表現部１３２２は、事例データ保持部１３２３の保持する顔の目の部分に対応する事例画像の中から、顔向きが正面向きであることを示す属性情報を持つ事例画像を抽出する。そして、近似表現部１３２２は、事例画像のうち少なくとも１枚以上を線形結合することにより部分領域画像ｘを近似的に再現する。より具体的には、近似表現部１３２２は、次の式（１）を最も満たすＮ次元の線形結合係数ベクトルαを求める。

式（１）は、次の式（２）で表される線形結合する事例画像の重みの絶対値の和をできるだけ小さくしつつ、次の式（３）で表される部分領域画像ｘとの誤差（差分）を表すＬ２ノルムを最小化する制約式である。

αを解く数値処理方法には、以下の参考文献３の方法等の公知の方法がある。
参考文献３：Ｒｅｇｒｅｓｓｉｏｎｓｈｒｉｎｋａｇｅａｎｄｓｅｌｅｃｔｉｏｎｖｉａｔｈｅｌａｓｓｏ：Ｒ．Ｔｉｂｓｈｉｒａｎ：１９９６
参考文献３の方法を用いて求まるαは、ほとんどの要素がゼロのベクトルとなり、一部の事例画像のみを線形和する疎な線形結合係数ベクトルとなる。

また、近似表現部１３２２は、次の式（４）を最も満たすＮ次元の線形結合係数ベクトルαを求めるようにしてもよい。

式（４）は、式（１）に対して、追加制約として、式（５）で示すように、入力と類似する事例画像つまり入力からのＬ２ノルムが小さい事例画像に大きな重みを与えて線形結合するような制約を加えたものである。

式（１）、式（４）中のλは、定数であり、画像の登録処理の前に予め調整されているものとする。図１０の（ｂ）は、Ｓ１４０４の処理を示す。

Ｓ１４０５において、データ合成部１３２４は、生成処理の次の段階として、Ｓ１４０４で得られた線形結合係数ベクトルαを用いて右向きの事例画像を線形結合して右向きの部分領域画像ｘｒを合成する。ｘｒを合成するための式は、次の式（６）となる。また、図１０の（ｃ）は、Ｓ１４０５の処理を示す。

Ｓ１４０６において、変動データ生成部１３２０は、Ｓ１４０５で全ての変動条件について変動データが生成されたか否かを判定する。変動データ生成部１３２０は、Ｓ１４０５で全ての変動条件について変動データが生成されたと判定した場合、Ｓ１４０７の処理に進み、Ｓ１４０５で全ての変動条件について変動データが生成していないと判定した場合、Ｓ１４０５の処理に進む。

Ｓ１４０７において、変動データ生成部１３２０は、登録用入力画像内の目・鼻・口等の部分領域の全てについてＳ１４０４〜Ｓ１４０６の処理が完了したか否かを判定する。変動データ生成部１３２０は、登録用入力画像内の目・鼻・口等の部分領域の全てについてＳ１４０４〜Ｓ１４０６の処理が完了したと判定した場合、Ｓ１４０８の処理に進む。変動データ生成部１３２０は、登録用入力画像内の目・鼻・口等の部分領域の全てについてＳ１４０４〜Ｓ１４０６の処理が完了していないと判定した場合、Ｓ１４０３の処理に進む。
Ｓ１４０８において、データ合成部１３２４は、生成処理の最後の段階として、Ｓ１４０５で合成して得られた目・鼻・口等の部分領域ごとの画像を、全体の顔画像として再構成する。データ合成部１３２４は、Ｓ１４０３で得られた顔の特徴点の座標に基づいて、得られたＳ１４０５で合成された部分領域の画像を貼り合わせる方法等で再構成を行う。
Ｓ１４０９において、変動データ生成部１３２０は、Ｓ１４０８で再構成された全体の顔画像を、顔向きが右向きであることを示す属性情報と共に登録画像保持部１３３０に保存する。

Ｓ１４０４の処理について補足説明をする。本実施形態では、処理の対象の画像の特徴量を画像内の画素値を左上から右下に一列に並べたベクトルとして表したが、前記ベクトルは、画像のピクセル数と同じ次元となり、画像のサイズに応じて、次元数が膨大になり、処理負担も膨大となる恐れがある。そこで、オブジェクト識別装置１０００は、処理の対象の画像のベクトルを予めＰＣＡ（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）等で求めた線形射影基底によって、元のベクトルよりも低次元のベクトルに線形変換してもよい。その場合、本実施形態の処理の対象の画像の特徴量は、線形変換された低次元のベクトルとして表されることになる。近似表現部１３２２は、部分領域画像ｘと正面向きの事例画像Ｆとがともに低次元のベクトルに線形変換されることで、Ｓ１４０４の処理における計算負荷を軽減できる。
以上が、本実施形態の処理の説明である。

（本実施形態の処理による効果）
本実施形態の処理により、オブジェクト識別装置１０００は、事例画像が入力された顔と十分に類似する人物を含まない場合でも、入力された顔に類似する画像を生成することができる。本実施形態のオブジェクト識別装置１０００は、複数の事例画像を組み合わせて入力を表現するような制約にすることで、非特許文献３の技術に比べて、有限の事例画像でも十分に入力を表現できるようになった。
本実施形態では、オブジェクト識別装置１０００は、従来技術において利用されている顔についての有用な仮定を利用するようにした。顔についての有用な仮定とは、次の二つの仮定である。
一つ目の仮定は、人間の顔というものは無限のバリエーションを持ち、一人一人で異なるものだが、目、鼻、口等の部品に分解すると顔全体に比べて極めて少ないバリエーションしかないとういうものである。

二つ目の仮定は、ある別人物二人の顔の部品がある撮影条件で見た目が似ている場合、別の撮影条件でも同様に見た目が似ているというものである。撮影条件が変動した際の顔の見た目の変化の仕方、例えば顔向きが変動した場合の見た目の変化の仕方は、顔の三次元形状に依存する。また、顔を画像として見たときの平面の見た目と顔の奥行きを含めた三次元形状とには、ある程度の相関がある。したがって、ある撮影条件で２つの顔の部品の見た目が似ている場合、同様に、暗黙的に内在する顔の三次元形状は、互いに似ており、例えば顔向きが変動した際の顔の見た目の変化の仕方も似ていると仮定できる。
二つ目の仮定を言い換えると、以下のようになる。即ち、顔の三次元形状は、顔の画像上の見た目からを暗黙的に予測される。別の撮影条件での顔の見た目は、予測された前記撮影条件における顔の三次元形状から予測される、ということになる。

本実施形態のＳ１４０４では、近似表現部１３２２は、式（１）で、複数の事例画像を線形結合して入力との誤差が小さくなるような近似表現を求める。しかし、式（１）には、前記二つ目の仮定を利用するような制約が入っていない。そのため、近似表現部１３２２は、入力と似ていない事例画像も線形結合してしまうため、入力の三次元形状を正しく予測できずに破綻した画像を生成してしまう可能性がある。
近似表現部１３２２は、式（２）を用いて、入力と類似する事例画像に大きな重みを与えて線形結合するよう制約することで、入力の三次元形状を正しく予測し、従来技術に比べて、入力を精度よく近似表現することができる。

＜実施形態２＞
実施形態１では顔向き変動を生成する場合を例に、登録画像から、変動が加えられた画像を予め生成しておく処理について説明した。対して本実施形態では、登録画像と識別対象の画像とのそれぞれについて処理を行い、ともに正面向きの顔を生成してカテゴリ判定する処理について説明する。本実施形態におけるオブジェクト識別装置１０００の機能構成の詳細は、登録画像記録部の詳細以外は、実施形態１と同様である。

（登録処理の概要）
本実施形態における予め顔画像を登録する処理について説明する。図１１は、登録画像記録部２３００の機能構成等の一例を示す図である。登録画像記録部２３００は、検出部２３１０、変動データ生成部２３２０、登録画像保持部２３３０等を含む。顔向き検出部２３１０、変動データ生成部２３２０の詳細は、それぞれ実施形態１の顔向き検出部１３１０、変動データ生成部１３２０の詳細と同様である。
登録画像記録部２３００と実施形態１の登録画像記録部１３００との差異は、以下の点である。即ち、登録画像保持部２３３０は、画像入力部１１００から受付けた顔画像を直接登録画像として保存せず、前記顔画像を正面向きに変換した顔画像を一つだけ、顔向きが正面向きであることを示す属性情報と共に保存することである。

（識別処理）
図１２は、カテゴリ判定処理の一例を示すフローチャートである。本実施形態の図１２の処理は、実施形態１における図４のカテゴリ判定処理に対応する処理である。図１２を参照しながら、本実施形態におけるオブジェクト識別装置１０００が入力画像のカテゴリを判定する処理について説明する。Ｓ１２０２〜Ｓ１２０５の処理は、図４と同様である。
Ｓ２１０１において、画像識別部１２００は、画像入力部１１００から、顔が検出された入力画像を受付ける。
Ｓ２１０２において、画像識別部１２００は、Ｓ２１０１で取得した入力画像を変換し、顔向きが正面向きになるような顔画像を一つだけ生成する。

実施形態１の識別処理では、登録画像記録部１３００は、登録画像として様々な顔向きの登録画像が複数登録している。そのため、登録画像記録部１３００に登録されている登録画像のうち少なくとも一つは、識別対象の入力画像と顔向き変動がない条件で識別される。
対して本実施形態では、オブジェクト識別装置１０００は、登録画像記録部２３００に登録されている登録画像と識別対象の入力画像とをともに正面向きへ変換することで、登録画像と入力画像とを顔向き変動がない条件で識別できる。

（本実施形態の処理による効果）
本実施形態の処理により、識別処理において、入力画像と類似度を算出する必要がある登録画像の数は、一つのカテゴリにつき一つとなり、一つのカテゴリにつき複数の登録画像と類似度を算出する必要があった実施形態１の場合に比べて、少なくなる。そのため、オブジェクト識別装置１０００は、識別処理において、入力画像と登録画像との類似度の算出の処理の負担を軽減できる。
実施形態１では、オブジェクト識別装置１０００は、本実施形態の場合と比べて類似度を算出する処理の回数が多くなるが、登録画像の登録の際及び入力画像の入力の際に変動データ生成処理を行う必要がないという利点がある。
オブジェクト識別装置１０００は、使用する状況に応じて、実施形態１の処理か本実施形態の処理かを選択することができる。

＜実施形態３＞
実施形態１、２では、画像の変動として顔向き変動を例に説明した。本実施形態では、画像の変動として照明変動を例にオブジェクト識別装置１０００の処理を説明する。顔の照明変動とは、顔を照らす照明条件の変化による、顔の陰の付き方による画像の変動である。顔の陰の付き方は、顔向きと同様に顔の三次元形状に依存する変動である。そのため、オブジェクト識別装置１０００は、実施形態１で説明した処理と同様の処理で照明変動が加わった変動画像を生成できる。
図１３は、照明による変動の一例を示す図である。図１３（ａ）は、正面から照明が当たっている正面向きの顔を示す。図１３（ｂ）は、手前から見て右側から照明が当たっている図１３（ａ）と同一人物の正面向きの顔を示す。本実施形態では、顔の正面からの照明条件の顔画像（ａ）から、右からの照明条件の顔画像（ｂ）を生成する処理について説明する。
本実施形態におけるオブジェクト識別装置１０００の機能構成の詳細は、照明検出部３３１０を含むこと及び変動データ生成部の詳細以外は、実施形態１と同様である。

（登録処理における変動データ生成処理）
図１４は、変動データ生成部３３２０の機能構成等の一例を示す図である。本実施形態では、実施形態１の場合と異なり、オブジェクト識別装置１０００は、顔の照明条件を検出する照明検出部３３１０を含む。また、事例データ保持部３３２３は、正面からの照明条件の事例画像と、右からの照明条件の事例画像と、を含む。
照明検出部３３１０の処理について説明する。照明検出部３３１０は、入力画像に写る一つの顔について照明条件として、顔の左右どちらに光源があるかを判定する。以下で、本実施形態における照明条件を判定する方法を説明する。

まず、照明検出部３３１０は、入力画像の顔領域を正規化する。より具体的には、照明検出部３３１０は、顔検出の処理で得られた顔の位置と大きさに基づいて、入力画像から顔のみが写る部分画像を抽出する。照明検出部３３１０は、写る顔の大きさや傾きがどのような顔についてもほぼ一定になるように前記部分画像を抽出する。
次に、照明検出部３３１０は、抽出した部分画像をバイリニア法等で縮小して、低解像度の部分画像を取得する。照明検出部３３１０は、顔の目鼻立ちが消えて個人を判定することが不可能だが、顔の全体的な明暗や陰影はわずかに残る程度の部分画像を取得するのが望ましい。

照明検出部３３１０は、取得した低解像度の部分画像の各画素値を左上から右下の順に並べたものをベクトルとして、予め求めてある基底ベクトルとの内積を求める。照明検出部３３１０は、求めた内積値が正であるか負であるかにより、顔を照らす光源がどの位置にあるか最終的に判定する。
基底ベクトルを予め求めておく方法としては、線形判別分析等の公知の手法がある。オブジェクト識別装置１０００は、予め、左に光源がある条件の縮小部分画像、及び正面に光源がある条件の縮小部分画像、を多数用意しておくことで、二つの照明条件の部分画像を最も識別し得る境界として、基底ベクトルを一つ求めることができる。説明した方法では、顔がある特定の方向を向いている、特に本実施形態では正面を向いていることを仮定している。

以上、本実施形態における照明条件を判定する方法を説明した。しかし、照明条件の判定方法は、前記方法に限られるものではなく、オブジェクト識別装置１０００は、以下の参考文献４等の任意の方法を利用して顔から照明条件を判定してよい。
参考文献４：ＩｌｌｕｍｉｎａｔｉｏｎＣｏｎｅｓｆｏｒＲｅｃｏｇｎｉｔｉｏｎＵｎｄｅｒＶａｒｉａｂｌｅＬｉｇｈｔｉｎｇ：Ａ．Ｓ．Ｇｅｏｒｇｈｉａｄｅｓ，Ｄ．Ｊ．Ｋｒｉｅｇｍａｎ，Ｐ．Ｎ．Ｂｅｌｈｕｍｅｕｒ：１９９８

（本実施形態の処理の効果）
本実施形態の処理により、オブジェクト識別装置１０００は、照明条件の異なる変動データを生成し、識別処理、登録処理に利用することができる。

＜実施形態４＞
実施形態１〜３では、画像の変動として顔向き変動、及び照明変動を例に説明した。実施形態１〜３では、オブジェクト識別装置１０００は、顔向き変動、照明変動等の変動のうち、一つの変動が加わった変動画像を生成することとした。しかし、オブジェクト識別装置１０００は、顔向き及び照明等、複数の変動が複合した変動画像も生成することができる。その場合、オブジェクト識別装置１０００は、変動が複合した条件の数だけ、事例データ保持部に顔画像を保持しておけばよい。

実施形態１〜３では、人物の顔を自動判定する例について説明した。しかし、オブジェクト識別装置１０００は、実施形態１〜３の処理以外にも、以下のような処理ができる。即ち、オブジェクト識別装置１０００は、データ合成処理で画像を変換する処理のみを行い、変換した画像ユーザに提示することができる。その場合、ユーザは、目視で提示された画像に基づいて、人物を識別する。
以上のような処理の例としては、警察で行う監視カメラからの容疑者捜索等ある。監視カメラ映像は、視野が広く顔ひとつひとつの解像度が低く、目視での顔の識別が難しい場合がある。また、警察の手元にある容疑者の顔写真は、撮影されてから年月が経っている場合もあり、経年変化を考慮しなければいけない可能性もある。

オブジェクト識別装置１０００は、低解像度については、以下のように対応できる。オブジェクト識別装置１０００は、予め事例データ保持部に、低解像度の顔画像と高解像度の顔画像とを人物で対応づけて保持しておく。それにより、オブジェクト識別装置１０００は、解像度の違いを画像の変動として扱うことで、解像度の変動がある変動データを生成することができる。オブジェクト識別装置１０００は、顔向き変動の例と同様に、低解像度の顔画像から高解像度の顔画像を予測できることとなる。
また、オブジェクト識別装置１０００は、経年変化についても、ある時点で撮影した顔画像と年数が経過してから撮影した顔画像とを対応づけて保持しておくことで、顔画像から、その人物が経年変化した顔を予測できる。更に、オブジェクト識別装置１０００は、顔の表情の変化についても、ある表情で撮影した顔画像と別の表情で撮影した顔画像とを対応づけて保持しておくことで、顔画像から、その人物の表情の変化した顔を予測できる。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０００画像識別装置、１２００画像識別部、１３２０変動データ生成部

Claims

第１の属性を有する入力顔画像を近似する、前記第１の属性を有する第１の複数の事例画像の線形結合の係数を、前記第１の複数の事例画像の線形結合の結果と前記入力顔画像との差分が小さくなり、かつ、前記第１の複数の事例画像について各事例画像と前記入力顔画像との差分に前記各事例画像に対する係数の絶対値を乗じて加算した総和が小さくなるように決定する決定手段と、
前記第１の属性を有する前記第１の複数の事例画像に対応する第２の属性を有する第２の複数の事例画像を、前記決定手段により決定された前記係数で線形結合して前記第２の属性を有する入力顔画像を近似する画像を合成する合成手段と、
を有する画像処理装置。
前記決定手段は、前記線形結合と前記入力顔画像との差分と、前記総和に所定の定数を乗じた値との和が小さくなるように、前記第１の複数の事例画像の線形結合の係数を決定する請求項１記載の画像処理装置。
前記決定手段は、前記入力顔画像の部分領域画像を近似するように、前記部分領域画像に対応する前記第１の複数の事例画像の線形結合の係数を決定する請求項１又は２記載の画像処理装置。
前記第１の属性を有する前記入力顔画像の入力を受け付ける受付手段を更に有する請求項１乃至３何れか１項記載の画像処理装置。
前記第１の複数の事例画像と前記第２の複数の事例画像とを対応付けて保持する保持手段を更に有し、
前記決定手段は、前記入力顔画像を近似する、前記保持手段が保持する前記第１の事例画像の線形結合の係数を決定し、
前記合成手段は、前記第１の複数の事例画像に対応する前記保持手段が保持する前記第２の複数の事例画像を、前記決定手段により決定された前記係数で線形結合して合成する請求項１乃至４何れか１項記載の画像処理装置。
前記入力顔画像の有する画像の変動に関する属性を、前記第１の属性として取得する取得手段を更に有し、
前記決定手段は、前記取得手段により取得された前記第１の属性を有する入力顔画像を近似する、前記第１の複数の事例画像の線形結合の係数を決定する請求項１乃至５何れか１項記載の画像処理装置。
前記決定手段は、前記入力顔画像を近似する、前記第１の複数の事例画像の線形結合の係数として、前記入力顔画像の内部の画素値を並べたベクトルを近似するように、前記第１の複数の事例画像それぞれの内部の画素値を並べたベクトルの線形結合の係数を決定し、
前記合成手段は、前記第１の複数の事例画像に対応する前記第２の複数の事例画像それぞれの内部の画素値を並べたベクトルを、前記決定手段により決定された前記係数で線形結合して合成することで、前記第２の複数の事例画像を、前記決定手段により決定された前記係数で線形結合して合成する請求項１乃至６何れか１項記載の画像処理装置。
前記決定手段は、前記入力顔画像を近似する、前記第１の複数の事例画像の線形結合の係数として、前記入力顔画像の内部の画素値を並べたベクトルを線形変換した特徴量を近似するように、前記第１の複数の事例画像それぞれの内部の画素値を並べたベクトルを線形変換した特徴量の線形結合の係数を決定し、
前記合成手段は、前記第１の複数の事例画像に対応する前記第２の複数の事例画像それぞれの内部の画素値を並べたベクトルを線形変換した特徴量を、前記決定手段により決定された前記係数で線形結合して合成することで、前記第２の複数の事例画像を、前記決定手段により決定された前記係数で線形結合して合成する請求項１乃至６何れか１項記載の画像処理装置。
前記第１の属性と前記第２の属性とは、顔の向き、照明条件、解像度、表情、年齢のうち、少なくとも１つに関する属性である請求項１乃至８何れか１項記載の画像処理装置。
画像処理装置が実行する画像処理方法であって、
第１の属性を有する入力顔画像を近似する、前記第１の属性を有する第１の複数の事例画像の線形結合の係数を、前記第１の複数の事例画像の線形結合の結果と前記入力顔画像との差分が小さくなり、かつ、前記第１の複数の事例画像について各事例画像と前記入力顔画像との差分に前記各事例画像に対する係数の絶対値を乗じて加算した総和が小さくなるように決定する決定ステップと、
前記第１の属性を有する前記第１の複数の事例画像に対応する第２の属性を有する第２の複数の事例画像を、前記決定ステップで決定された前記係数で線形結合して前記第２の属性を有する入力顔画像を近似する画像を合成する合成ステップと、
を含む画像処理方法。
コンピュータに、
第１の属性を有する入力顔画像を近似する、前記第１の属性を有する第１の複数の事例画像の線形結合の係数を、前記第１の複数の事例画像の線形結合の結果と前記入力顔画像との差分が小さくなり、かつ、前記第１の複数の事例画像について各事例画像と前記入力顔画像との差分に前記各事例画像に対する係数の絶対値を乗じて加算した総和が小さくなるように決定する決定ステップと、
前記第１の属性を有する前記第１の複数の事例画像に対応する第２の属性を有する第２の複数の事例画像を、前記決定ステップで決定された前記係数で線形結合して前記第２の属性を有する入力顔画像を近似する画像を合成する合成ステップと、
を実行させるためのプログラム。