JP4653606B2

JP4653606B2 - 画像認識装置、方法およびプログラム

Info

Publication number: JP4653606B2
Application number: JP2005268983A
Authority: JP
Inventors: 達夫小坂谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-05-23
Filing date: 2005-09-15
Publication date: 2011-03-16
Anticipated expiration: 2025-09-15
Also published as: US20060269143A1; US7894636B2; JP2007004767A

Description

本発明は、３次元形状情報を用いて入力された画像から３次元モデルを生成し、認識処理を行う画像認識装置及びその方法に関する。

顔画像を用いた認識は、物理的な鍵やパスワードと違い紛失や忘却の心配がないため、セキュリティの面で非常に有用な技術である。しかしながら、ユーザの立ち位置や体格などの個人差により顔の形状は変化する上、顔の向きも一定ではなく、認識時の照明条件も予め決まっていない。そのため、高精度な認識を行うためには、これらに起因する顔パターンの変動を吸収することが不可欠である。

これまで顔画像を用いて個人識別を行う技術としては、例えば非特許文献１の方法などがある。これは動画像を用いることにより顔パターンの変動を抑え、認識を行う方法である。高精度な認識を行うためには動画像から個人の多様な顔パターンを集めることが重要であるが、パターン収集はユーザ自身の顔の動きに依存しているという問題がある。また、入力と辞書の両方に複数枚の画像が必要なため、例えば、写真１枚のみしか認識に利用できない状況ではこの方法は適用できない。

特許文献１の方法では、予め顔の３次元形状を撮影するレンジファインダを用いて計測しておき、照合対象の顔向きと同じになるように顔形状を移動・回転させて照合を行う。個人毎に正確な形状を撮影するために、顔の向きや大きさを補正して照合を行うことができるが、形状を撮影するためには特殊な機材が必要となる。また、例えばパスポートや免許証など、既に通常のカメラで撮影されている画像に関しては形状が得られないため、この方法は適用できない。

非特許文献２の方法によれば、多数の顔形状を予め撮影しておき、それらの線形結合によって入力画像に最も近い顔のモデルを作成し、認識を行うことができる。画像１枚から顔の形状、向き、大きさ、照明条件を推定することができるが、生成される顔モデルの３次元形状情報は予め撮影した顔形状に依存するため、任意の顔に精度良く適用できるとは限らない。また、多数のパラメータを推定し、識別を行うため処理時間がかかる。
山口、福井、「顔向き表情変化にロバストな顔認識システム‘smartface’」, 信学論 (D-II), vol.J84-D-II, No.6,p.1045-1052,2001. V. Blanz and T. Vetter, "A morphable model for the synthesis of 3-D faces," in Proc. SIGGRAPH,1999,pp.187--194. 特開２００２−１５７５９５公報

上記したように、人物の顔パターンの多様な変動を吸収するためには、多様な顔パターンを何らかの方法で収集もしくは生成して識別を行う方法が有効であるが、従来技術では、複数枚の画像を撮影したり、特殊な機材を必要としたり、適用できる顔が限定されるといった問題があった。

本発明は、上記従来技術の問題点を解決するためになされたものであり、３次元形状情報を利用した３次元顔モデル生成によって、任意の枚数の画像から一般的なカメラを用いて任意の顔に適用可能な画像認識装置及びその方法を提供することを目的とする。

本発明の一側面は、３次元形状を有する物体を撮影した画像を用いて前記物体の画像認識を行う画像認識装置において、前記画像が入力される画像入力手段と、前記物体の３次元モデルの原型となる３次元形状情報を記憶しておく３次元形状情報保持手段と、前記入力画像と前記３次元形状情報とを用いて推定されたテクスチャ画像を生成するモデル生成手段と、前記生成されたテクスチャ画像に対してそれぞれ異なる２次元的な変形を加えて複数のパターン画像を生成するテクスチャ摂動手段と、前記複数のパターン画像から特徴量の抽出を行う特徴抽出手段と、前記物体の特徴量を登録しておく登録辞書保持手段と、前記抽出された特徴量と前記登録された物体の特徴量との類似度を計算し、この計算した類似度に基づいて前記物体の認識を行う類似度計算手段と、を有することを特徴とする画像認識装置である。

本発明によれば、３次元形状情報を利用して３次元モデルを生成することによって、任意の枚数の画像から一般的なカメラを用いて高精度に認識することが可能である。

［第１の実施形態］
以下、図１〜図２を参照して本発明に係わる第１の実施形態の画像認識装置１０について述べる。

［１］画像認識装置１０の構成
本実施形態の画像認識装置１０は、図１のブロック図に示すように、対象となる人物の顔を入力する画像入力部１２と、入力された画像内から人物の顔を検出する物体検出部１４と、検出された顔と予め保持してある３次元形状情報を用いて３次元顔モデルを生成するモデル生成部１６と、３次元顔モデルから顔パターン画像を生成するパターン生成部１８と、生成した顔パターン画像から認識に用いる特徴量を抽出する特徴抽出部２０と、予め登録してある登録辞書２２との類似度を計算する類似度計算部２４とを備えている。

以下、図１を用いて、画像認識装置１０の動作について説明する。

［２］画像入力部１２
まず、画像入力部１２は、処理対象となる顔画像を入力する。画像入力部１２を構成する装置の一つの例として、ＵＳＢカメラやデジタルカメラ等が挙げられる。また、予め撮影、保存された顔画像データを保持している記録装置やビデオテープ、ＤＶＤ等を用いても良いし、顔写真をスキャンするスキャナでも良い。ネットワーク等を経由して画像を入力しても構わない。

画像入力部１２より得られた画像は、物体検出部１４に逐次送られる。

［３］物体検出部１４
物体検出部１４では、顔特徴点として、画像中の顔部位の座標を検出する。顔特徴点の検出はどのような方法を用いても構わないが、例えば、非特許文献３（福井、山口、「形状抽出とパターン照合の組合せによる顔特徴点抽出」, 信学論(D-II) vol.J80-D-II, No.9, p.2170-2177,1997.）の方法を用いて検出することができる。

検出する特徴点は、同一平面状に存在しない４点以上の点であれば、瞳、鼻孔、口端、目尻、目頭、鼻頭、口輪郭、口中点、眉端、顔輪郭、顎のどのような部位でも良い。また、出力する特徴点は複数組あってもかまわない。たとえば、検出された特徴点に対して任意の方向に摂動させた別の特徴点を計算し、出力することができる。このとき、モデル生成とパターン生成の処理を出力した特徴点の組の数だけ行い、特徴抽出部２０において統合することで、出力した特徴点の組の数によらず処理を行うことができる。

［４］モデル生成部１６
モデル生成部１６では、予め保持している３次元形状情報を利用して、３次元顔モデルを生成する。

この３次元形状情報は、認識対象である人間の顔の３次元モデルの原型となる３次元形状の座標が記憶され、特に瞳、鼻孔、口端などの顔特徴点の各点の座標（ｘｉ’，ｙｉ’，ｚｉ’）が記憶されている。

物体検出部１４から得られた顔特徴点（ｘｉ，ｙｉ）と、対応するモデル上の顔特徴点（ｘｉ’，ｙｉ’，ｚｉ’）を用いて、カメラ運動行列Ｍは（１）式、（２）式及び（３）式により定義される。

ただし、（Ａ）式は入力画像上での特徴点の重心であり、（Ｂ）式は３次元顔モデル上での特徴点の重心である。（３）式の行列Ｓの一般化逆行列である（Ｃ）式の行列を計算することで、（４）式に基づいてカメラ運動行列Ｍが算出される。

次に算出されたカメラ運動行列Ｍを用いて、入力画像から３次元顔モデルのテクスチャを推定する。３次元モデル上の任意の座標（ｘ’，ｙ’，ｚ’）は、（５）式により対応する入力画像上の座標（ｓ，ｔ）に変換することができる。なお、テクスチャとは、座標毎に貼られる色などの画像情報である。

従って、３次元モデル上の座標（ｘ’，ｙ’，ｚ’）におけるテクスチャ画像の画素値Ｔ（ｘ’，ｙ’，ｚ’）は、入力画像上の画素値Ｉ（ｘ，ｙ）を用いて（６）式によって定義される。

（５）式及び（６）式について、テクスチャ画像上の全ての画素について計算することで、テクスチャ画像を算出することができる。このテクスチャ画像と３次元形状情報を３次元顔モデルとする。

［５］パターン生成部１８
次に、パターン生成部１８では、得られた３次元顔モデルを用いて顔パターン画像を生成する。

３次元顔モデルを任意の姿勢にしてコンピュータグラフィックスの技術を用いてレンダリングし、任意の姿勢に対する顔パターン画像を抽出することができる。姿勢をいくつか変えて複数の顔パターン画像を生成する。図２は、３次元モデルの姿勢を変えてパターン画像を生成した場合の概念図である。なお、顔パターン画像とは、顔の３次元モデルを複数の異なる向きで平面に射影した画像である。

どのように姿勢を変更しても構わないが、例えば、顔の縦向きや横向きに−５度から＋５度の範囲で１度ずつ変更したり、カメラ運動行列からモデルの角度を算出して、そのモデルの角度から相対的に角度を変更したりして顔パターン画像を抽出しても良い。

これら角度のパラメータは、レンダリングの結果、顔が見えるような範囲であれば、どのような値を用いても構わない。

なお、レンダリング後の顔特徴点の座標は幾何学的に計算できることから、レンダリングした結果から任意の顔特徴点を基準として顔パターン画像を抽出することができる。

［６］特徴抽出部２０
次に、特徴抽出部２０により、識別に必要な特徴を抽出する。

パターン生成部１８によって複数の顔パターン画像が得られているので、これらを例えば、画素値を要素とする特徴ベクトルとみなして一般的に知られるＫ−Ｌ展開を行い、得られた正規直交ベクトルを入力画像に対応する人物の特徴量とする。

人物の登録時には、この特徴量を記録しておく。この特徴ベクトルの要素の選び方や生成方法はどのように行っても良いし、特徴ベクトルに対して微分処理やヒストグラム平坦化などのいかなる画像処理を行っても良いし、特徴量生成方法もこれに限らない。

［７］類似度計算部２４
次に、類似度計算部２４では、予め計算された特徴量と特徴抽出部２０で計算された入力に対する特徴量との類似度を計算する。

この類似度計算についてはどのような方法を用いても構わないが、例えば、非特許文献１に述べられている相互部分空間法などがある。このような認識方法により顔特徴量同士の類似度を算出することができる。その類似度をある所定の閾値で判定し、人物を同定する。閾値は事前の認識実験などで定めた値でも良いし、人物の特徴量に応じて増減させることもできる。

［８］本実施形態の効果
このように、第１の実施形態に係わる画像認識装置１０によれば、３次元形状情報を利用して３次元顔モデルを生成することによって、任意の枚数の画像から一般的なカメラを用いて高精度に認識することが可能である。

［第２の実施形態］
図３〜図４を参照して本発明に係わる第２の実施形態の画像認識装置１０について述べる。

［１］画像認識装置１０の構成
本実施形態の画像認識装置１０は、図３のブロック図に示すように、対象となる人物の顔を入力する画像入力部１２と、入力された画像内から人物の顔を検出する物体検出部１４と、検出された顔と予め保持してある３次元形状情報を用いて３次元顔モデルを生成するモデル生成部１６と、テクスチャから複数の顔パターン画像を生成するテクスチャ摂動部２６と、生成した顔パターン画像から認識に用いる特徴量を抽出する特徴抽出部２０と、予め登録してある登録辞書２２との類似度を計算する類似度計算部２４とを備えている。

なお、画像入力部１２、物体検出部１４、３次元形状情報、モデル生成部１６、特徴抽出部２０、登録辞書２２、類似度計算部２４は第１の実施形態に記載してあるものと同じである。

［２］テクスチャ摂動部２６
次に、本実施形態の特徴的な部分であるテクスチャ摂動部２６について説明する。

テクスチャ摂動部２６では、モデル生成部１６から得られたテクスチャを用いて複数の顔パターン画像を生成する。得られたテクスチャ上での座標と３次元顔モデル上での座標は対応が取れているので、テクスチャにおける顔特徴点の座標は既知である。このテクスチャにおける顔特徴点の座標を用いて顔パターン画像を切り出す。

このとき顔特徴点に関しては、物体検出部１４から得られた顔特徴点に限らず、モデル生成時に３次元的に全ての座標において対応が取れているため、顔の任意の点を顔特徴点として選び直すこともできる。

顔パターン画像の切り出し方法に関しては、両目の間隔が等しくなるように正規化してもよいし、特徴点の重心がパターン画像の中央に来るようにしても良いし、どのような切り出し方でも構わない。

また、上下左右など任意の方向にパターン画像を伸縮させても構わない。

また、切り出す際の顔特徴点の座標を任意の方向に摂動させることによって、別の顔パターン画像を生成することができる。摂動させる量はどのような範囲でも構わない。

また、摂動させる顔特徴点の種類に関しても、１つまたは全ての特徴点を任意に組み合わせることができ、摂動させる方向についても画像に対して垂直や水平だけでなく、任意の方向に摂動させることができる。例えば、顔特徴点として両目を選んだときに、水平、垂直方向にそれぞれ−２〜＋２ピクセルの範囲で摂動させると、モデル生成部１６から得られたテクスチャから、６２５枚の顔パターン画像を生成することができる。図４は、テクスチャ画像を２次元的に変形させた場合の概念図である。

［３］本実施形態の効果
このように、第２の実施形態に係わる画像認識装置１０によれば、生成した３次元顔モデルから、コンピュータグラフィックスの技術に基づいてレンダリングせずに、テクスチャから複数の顔パターン画像を生成することによって、高速に認識することが可能である。

［第３の実施形態］
図５を参照して本発明に係わる第３の実施形態の画像認識装置１０について述べる。

［１］画像認識装置１０の構成
本実施形態の画像認識装置１０は、図５のブロック図に示すように、対象となる人物の顔を入力する画像入力部１２と、入力された画像内から人物の顔を検出する物体検出部１４と、予め保持してある３次元形状情報と、物体検出部１４からの結果を用いて適切な３次元形状情報を選択する形状選択部２８と、形状選択部２８から得られる３次元形状情報を用いて３次元顔モデルを生成するモデル生成部１６と、３次元顔モデルから顔パターン画像を生成するパターン生成部１８と、生成した顔パターン画像から認識に用いる特徴量を抽出する特徴抽出部２０と、予め登録してある登録辞書２２との類似度を計算する類似度計算部２４とを備えている。

なお、画像入力部１２、物体検出部１４、３次元形状情報、モデル生成部１６、パターン生成部１８、特徴抽出部２０、登録辞書２２、類似度計算部２４は第１の実施形態に記載してあるものと同じである。

［２］形状選択部２８
次に、本実施形態の特徴的な部分である形状選択部２８について説明する。

形状選択部２８では、物体検出部１４から得られた特徴点に基づいて、予め保持してある複数の３次元形状情報から適切なものを選択する。

物体検出部１４から特徴点が得られたときに、それらの特徴点に関する位置関係について、予め３次元形状でも同じ特徴点の距離を測っておき、複数ある３次元形状から最もその距離が近いものを出力する。

特徴点や距離計算の尺度はどのように選択しても構わない。例えば、目と鼻の距離を計算しておき、その比が最も近い３次元形状を出力する。

また、顔の幾何学的な構造だけでなく、男女や人種などが情報として与えられている場合には、それに基づいて男女別や人種別などの３次元形状を用意して適合する３次元形状を出力することもできる。このとき、パターンマッチング等を利用して、男女や人種などの判断を自動的に行ってもよい。

また、出力する３次元形状を１つに絞らず、３次元形状選択の際の閾値を満たす、または全ての３次元形状を出力し、モデル生成などの以降の処理を出力したモデルの分だけ行い、特徴抽出部２０において統合しても良い。特徴抽出部２０においてはパターン生成部１８から複数の画像を統合することができるので、モデルの数や出力されるパターン画像の数によらず、モデル１つのときと全く同様に特徴抽出することができる。

［３］本実施形態の効果
このように、第３の実施形態に係わる画像認識装置１０によれば、入力された画像に対して適切な３次元形状を選択することで、より高精度に認識を行うことが可能である。

［第４の実施形態］
図６を参照して本発明に係わる第４の実施形態の画像認識装置１０について述べる。

［１］画像認識装置１０の構成
本実施形態の画像認識装置１０は、図６のブロック図に示すように、対象となる人物の顔を入力する画像入力部１２と、入力された画像内から人物の顔を検出する物体検出部１４と、検出された顔と予め保持してある３次元形状情報を用いて３次元顔モデルを生成するモデル生成部１６と、３次元顔モデルから顔パターン画像を生成するパターン生成部１８と、生成した顔パターン画像を用いて物体検出部１４から得られた特徴点を検証するパターン画像検証部３０と、生成した顔パターン画像から認識に用いる特徴量を抽出する特徴抽出部２０と、予め登録してある登録辞書２２との類似度を計算する類似度計算部２４とを備えている。

［２］パターン画像検証部３０
次に、本実施形態の特徴的な部分であるパターン画像検証部３０について説明する。

パターン画像検証部３０では、モデル生成部１６から得られる顔モデルを用いて、特徴抽出部２０で得られた顔特徴点が正しいかどうか検証する。

（４）式で計算されるカメラ運動行列からモデルの角度を参照角度として推定し、モデル生成部１６で得られる３次元顔モデルを参照角度に回転してコンピュータグラフィックスの技術に基づいてレンダリングする。

このとき、検出された特徴点が正しい位置からずれて誤って抽出された場合には、レンダリング結果は画像入力部１２で入力された画像や標準的な顔パターンとは大きく異なって出力される。このパターン画像の違いを検証し、ある閾値を超えた場合には、特徴点検出が誤りであるとして、再度特徴点検出を行う。パターン画像の違いについては、どのような方法を用いても構わない。例えば、２つのパターン画像の輝度差の絶対値の総和（ＳＡＤ; Sum of Absolute Difference）などが利用できる。

また、レンダリングしたパターン画像の全体について検証しても構わないし、ある注目する特徴点の近傍のみについて検証しても構わないし、特徴点の近傍を複数組み合わせても良い。

［３］本実施形態の効果
このように、第４の実施形態に係わる画像認識装置１０によれば、生成した３次元顔モデルから、検出された顔特徴点を検証することができ、より高精度に認識を行うことが可能である。

［第５の実施形態］
図７および図８を参照して本発明に係わる第５の実施形態の画像認識装置について述べる。

［１］画像認識装置１０の構成
本実施形態の画像認識装置１０は、図７のブロック図に示すように、対象となる人物の顔を入力する画像入力部１２と、入力された画像内から人物の顔を検出する物体検出部１４と、対象となる人物の顔の３次元形状を入力する形状入力部７２と、予め保持してある参照形状情報７４を用いて入力された顔形状を正規化する形状正規化部７６と、検出された顔と正規化された３次元形状情報７８を用いて３次元顔モデルを生成するモデル生成部１６と、３次元顔モデルから顔パターン画像を生成するパターン生成部１８と、生成した顔パターン画像から認識に用いる特徴量を抽出する特徴抽出部２０と、予め登録してある登録辞書２２との類似度を計算する類似度計算部２４とを備えている。

なお、画像入力部１２、物体検出部１４、モデル生成部１６、パターン生成部１８、特徴抽出部２０、登録辞書２２、類似度計算部２４は第１の実施形態に記載してあるものと同じである。

［２］形状入力部７２
形状入力部７２では、レンジファインダなど物体の３次元形状を計測可能な装置により取得された対象となる人物の顔の３次元形状（図８の入力形状８２）が入力される。レンジファインダには、３次元形状だけでなく、撮影した物体の画像も同時に取得できるものもあるため、画像入力部１２と形状入力部７２を同一の機器で構成してもかまわない。また、複数の画像からステレオ法により形状を求めてもかまわないし、認識対象の形状を求める方法についてはこれらに限らない。

本実施形態の形状入力部７２に入力される形状は、奥行き（ｚ座標値）を画素値とする画像（デプスマップ）であるとする。

尚、形状入力部７２に、形状を構成する複数の頂点と頂点間の結合関係が記述されたメッシュ構造（例えばＶＲＭＬ（Virtual Reality Modeling Language））が入力されても構わない。この場合、形状入力部７２は、任意の座標における奥行きをメッシュ構造の複数の頂点からの線形関数やスプライン関数などで補間することによりデプスマップを求める。

［３］形状正規化部７６
図８は、入力形状８２からの形状正規化における概念図である。形状正規化部７６は、形状入力部７２で入力された３次元形状である入力形状８２を、予め保持されている参照形状情報７４を用いて正規化することにより、３次元形状情報７８を生成する。

まず、形状正規化部７６は入力形状８２上の特徴点を抽出する。抽出する特徴点の種類は、同一平面状に存在しない４点以上の点であれば、瞳、鼻孔、口端、目尻、目頭、鼻頭、口輪郭、口中点、眉端、顔輪郭、顎のどのような部位でも良い。物体検出部１４で抽出する特徴点と同じでも良いし、異なっていても良い。

入力画像８４と入力形状８２との対応が取れている場合には、物体検出部１４が入力画像８４から検出した特徴点（図８の特徴点８５）をそのまま用いることができる。もし、入力画像８４と入力形状８２の対応が取れていない場合は、例えばパターンマッチングにより入力形状８２上の特徴点を抽出する。あるいは、ポインティングデバイスを用いて人間が指定しても構わない。

先に述べたように入力形状８２は画像とみなすことができる。よって、形状正規化部７６は、入力形状８２または入力画像８４から抽出された特徴点８５と、入力形状８２と、予め保持してある参照形状情報７４とを用いて、前述のモデル生成部１６と同じ処理を行うことにより、モデルを生成することができる。

生成されたモデルのテクスチャ画像はｚ座標を輝度値とする画像である。形状正規化部７６は、これを正規化された３次元形状である３次元形状情報７８に変換する。本実施形態のモデル生成部１６は、入力画像８４の顔モデルを生成する際には、３次元形状形状７８を用いる。

なお、参照形状情報７４はどのようなものを用いてもかまわない。例えば、第１の実施例で述べた、認識対象である人間の一般的な顔の３次元形状を利用することができる。また、正規化された入力形状の平均から新しい参照形状を作成し、再度入力形状を生成しなおすという繰り返し処理を行うことで、正規化の精度を高めることもできる。

［４］本実施形態の効果
このように、第５の実施形態に係わる画像認識装置によれば、参照形状情報７４を用いて個人ごとに３次元形状情報を正規化し、この正規化された個人ごとの３次元形状情報７８に従って顔モデルを生成することができ、より高精度に認識を行うことが可能である。

［変更例］
画像入力部において、レンジファインダなどの３次元形状を計測可能な装置から、奥行きを画素値とする画像（デプスマップ）を入力してもかまわない。その場合、登録辞書もデプスマップから生成した特徴量を用いて類似度の計算を行う。

モデル生成部において、（３）式からカメラ運動行列を求める際に、一般化逆行列を求める方法だけでなく、いかなる方法を用いてもかまわない。例えば、ロバスト推定のひとつであるＭ推定を用いて、以下のようにしてカメラ運動行列を求めることができる。

カメラ運動行列の推定誤差ε_{M}を（７）式のように定義すると、（８）式に示すように評価基準関数ρ（ｘ）に従って推定誤差を最小にするような＜Ｍ＞を解いて、カメラ運動行列とする。なお「＜Ｍ＞」とは文字「Ｍ」の上にチルダ（tilde）を付けた文字である。評価基準関数ρ（ｘ）はどのようなものを用いてもかまわないが、例えば（９）式などが知られている。なお（９）式のσはスケールパラメータである。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。

また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。

さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

例えば、上記各実施形態では、人間の顔を対象として画像認識を行ったが、これに代えて、他の３次元物体の画像認識に用いても良い。３次元物体としては、例えば、人間の全身、自動車、飛行機、船等の乗り物がある。

本発明の第１の実施形態の構成を示すブロック図である。３次元モデルからのパターン画像生成における概念図である。本発明の第２の実施形態の構成を示すブロック図である。テクスチャ画像からのパターン画像生成における概念図である。本発明の第３の実施形態の構成を示すブロック図である。本発明の第４の実施形態の構成を示すブロック図である。本発明の第５の実施形態の構成を示すブロック図である。入力形状からの形状正規化における概念図である。

符号の説明

１０画像認識装置
１２画像入力部
１４物体検出部
１６モデル生成部
１８パターン生成部
２０特徴抽出部
２２登録辞書
２４類似度計算部

Claims

３次元形状を有する物体を撮影した画像を用いて前記物体の画像認識を行う画像認識装置において、
前記画像が入力される画像入力手段と、
前記物体の３次元モデルの原型となる３次元形状情報を記憶しておく３次元形状情報保持手段と、
前記入力画像と前記３次元形状情報とを用いて推定されたテクスチャ画像を生成するモデル生成手段と、
前記生成されたテクスチャ画像に対してそれぞれ異なる２次元的な変形を加えて複数のパターン画像を生成するテクスチャ摂動手段と、
前記複数のパターン画像から特徴量の抽出を行う特徴抽出手段と、
前記物体の特徴量を登録しておく登録辞書保持手段と、
前記抽出された特徴量と前記登録された物体の特徴量との類似度を計算し、この計算した類似度に基づいて前記物体の認識を行う類似度計算手段と、
を有する
ことを特徴とする画像認識装置。
前記モデル生成手段は、前記入力画像の特徴点と対応する前記３次元形状情報における特徴点から計算される射影行列により前記テクスチャ画像を推定する
ことを特徴とする請求項１記載の画像認識装置。
前記特徴抽出手段は、前記パターン画像から主成分分析を行うことで特徴量を抽出する
ことを特徴とする請求項１記載の画像認識装置。
前記類似度計算手段は、前記抽出された特徴量の一つである部分空間と前記登録された物体の特徴量の一つである部分空間の間の角度を類似度として計算する
ことを特徴とする請求項１記載の画像認識装置。
前記３次元形状保持手段にある３次元形状情報は、
前記物体の３次元形状を計測する形状入力手段と、
前記物体の３次元モデルの原型となる３次元形状情報を記憶しておく参照形状情報保持手段と、
前記３次元形状と参照形状情報とを用いて３次元形状情報を正規化する形状正規化手段により求める
ことを特徴とした請求項１乃至請求項４の何れか１項記載の画像認識装置。
３次元形状を有する物体を撮影した画像を用いて前記物体の画像認識を行う画像認識方法において、
前記画像が入力される画像入力ステップと、
前記物体の３次元モデルの原型となる３次元形状情報を記憶しておく３次元形状情報保持ステップと、
前記入力画像と前記３次元形状情報とを用いて推定されたテクスチャ画像を生成するモデル生成ステップと、
前記生成されたテクスチャ画像に対してそれぞれ異なる２次元的な変形を加えて複数のパターン画像を生成するテクスチャ摂動ステップと、
前記複数のパターン画像から特徴量の抽出を行う特徴抽出ステップと、
前記物体の特徴量を登録しておく登録辞書保持ステップと、
前記抽出された特徴量と前記登録された物体の特徴量との類似度を計算し、この計算した類似度に基づいて前記物体の認識を行う類似度計算ステップと、
を有する
ことを特徴とする画像認識方法。
３次元形状を有する物体を撮影した画像を用いて前記物体の画像認識を行う画像認識方法をコンピュータによって実現するプログラムにおいて、
前記画像が入力される画像入力機能と、
前記物体の３次元モデルの原型となる３次元形状情報を記憶しておく３次元形状情報保持機能と、
前記入力画像と前記３次元形状情報とを用いて推定されたテクスチャ画像を生成するモデル生成機能と、
前記生成されたテクスチャ画像に対してそれぞれ異なる２次元的な変形を加えて複数のパターン画像を生成するテクスチャ摂動機能と、
前記複数のパターン画像から特徴量の抽出を行う特徴抽出機能と、
前記物体の特徴量を登録しておく登録辞書保持機能と、
前記抽出された特徴量と前記登録された物体の特徴量との類似度を計算し、この計算した類似度に基づいて前記物体の認識を行う類似度計算機能と、
を実現する
ことを特徴とする画像認識方法のプログラム。