JP6381368B2

JP6381368B2 - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: JP6381368B2
Application number: JP2014171891A
Authority: JP
Inventors: 野村　修; 修野村; 優和真継
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-08-26
Filing date: 2014-08-26
Publication date: 2018-08-29
Anticipated expiration: 2034-08-26
Also published as: US10417487B2; JP2016045884A; US20160063345A1

Description

本発明は画像処理装置、画像処理方法、およびプログラムに関し、特に、撮像によって取得される画像から対象物を認識するために用いて好適な技術に関する。

従来、パターン認識方法としては、例えば非特許文献１に示した技術が開示されている。本技術においては、入力画像の参照点ペアの画素値比較によるバイナリコードを画像特徴量とし、前記バイナリコードをもとに、事前に学習した辞書テーブルを参照することによりパターン認識処理を実現する。

また、その他の背景技術としては、例えば特許文献１に示した技術が開示されている。本技術では、過去のフレーム画像上に頭部が検出された各人物の各特徴量と、今回のフレーム画像上に頭部が検出された各人物の各特徴量との間の、特徴量どうしの一致の程度を表わす関連度を算出する。そして、閾値以上でかつ最大の関連度となった頭部を、同一の人物の頭部と判別する。

また、その他の背景技術としては、例えば特許文献２に示した技術が開示されている。本技術では、学習画像中の注目画素から複数方向に学習参照画素を探索し、参照画素符号算出部は、特徴量比較値から学習参照画素符号としてのビット符号を算出する。参照画素統計量算出部は、複数の学習画像から得られる学習参照画素の参照画素統計量を学習画像に対して入力画像が変動している事象毎に算出する。入力画素符号算出部は、入力画像中の注目画素と、入力画像中で前記探索方向に存在する入力参照画素との特徴量比較値から入力画素符号を算出する。事象判定部は、入力画素符号と参照画素統計量との比較に基づいて、入力画像の注目画素における前記事象の発生を判定する。なお事象としては、照明変動などが言及されている。

また、その他の背景技術としては、例えば特許文献３に示した技術が開示されている。
本技術では、背景の確率値テーブルを背景の時系列画像に基づいて生成し、背景との類似度のしきい値を表す背景のしきい値テーブルを背景の時系列画像に基づいて生成する。

入力画像の注目領域に含まれる各注目画素に対し、他の画素との明度差分を求めることにより、ビット符号のいずれかを割り当てる。そして、各符号のそれぞれについて背景の確率値テーブルを参照することにより、各注目画素の符号が生起する確率値を求め、この確率値に基づいて、注目画素領域の背景との類似度を算出する。この類似度を背景のしきい値テーブルにおいて対応する画素領域のしきい値と比較することにより、注目画素領域がオブジェクトに相当するか否かを判定する。

特開２０１０−２７３１１２号公報特開２００９−３０１０８８号公報特開２００６−１８５２０６号公報

Mustafa Ozuysal, Pascal Fua, Vincent Lepetit, "Fast Keypoint Recognition in Ten Lines of Code," cvpr, pp.１-８, ２００７ IEEE Conference on Computer Vision and Pattern Recognition, ２００７ Y. Cheng, "Mean shift, mode seeking, and clustering," IEEE Trans. Pattern Anal. And Machine Intell., Vol. １７, No. ８, pp. ７９０-７９９ (１９９５) H.Bay, "Speeded-Up Robust Features (SURF)", Computing Vision and Image Understanding, Vol.１１０ (３) June ２００８, pp.３４６-３５９. B. K. P. Horn and B. G. Schunck, "Determining Optical Flow, Artificial Intelligence", vol.１７, pp.１８５-２０３, １９８１.

しかしながら、非特許文献１で提案された技術では、ノイズおよび遮蔽の影響などにより、当該画素位置における特徴量の算出結果に誤差が含まれる場合に、処理精度の劣化が生じる可能性があった。

また、特許文献１で提案された技術では、そもそも当該画素位置における特徴量が適切に算出されていることを前提としている。そのため、ノイズおよび遮蔽の影響などにより、当該画素位置における特徴量の算出結果に誤差が含まれる場合に、後処理に対する悪影響が生じる可能性があった。

また、特許文献２で提案された技術でも同様に、当該画素位置における特徴量が適切に算出されていることを前提としているため、ノイズおよび遮蔽の影響などにより、当該画素位置における特徴量の算出結果に誤差が含まれる場合には対応していない。

また、特許文献３で提案された技術でも同様に、ノイズおよび遮蔽の影響などにより、当該画素位置における輝度値に誤差（認識対象物に無関係の値）が含まれる場合には対応していない。
本発明は前述の問題点に鑑み、ノイズおよび遮蔽の影響などにより当該画素位置で算出された特徴量に誤差が含まれる場合でも、認識性能に対する特徴量誤差の影響を軽減できるようにすることを目的とする。

本発明は、入力画像に含まれる複数の画素それぞれの特徴量を抽出する抽出手段と、前記複数の画素それぞれについて、当該画素の特徴量と、当該画素の周囲の領域に含まれる１以上の画素の特徴量との一致度を算出する算出手段と、前記抽出した特徴量と前記算出した一致度とに基づいて、前記複数の画素それぞれから、複数の認識対象の中から１以上の認識対象に投票することにより、前記複数の認識対象の位置を推定する推定手段と、を有することを特徴とする。

本発明によれば、ノイズおよび遮蔽の影響などにより当該画素位置で算出された特徴量に誤差が含まれる場合でも、認識性能に対する特徴量誤差の影響を軽減することが可能となる。

本発明の実施形態におけるパターン認識装置を示す図である。実施形態におけるパターン認識処理の手順を説明するフローチャートである。第１の実施形態における距離画像の例を示す図である。第１の実施形態における参照画素の例を示す図である。第１の実施形態における特徴量の例を示す図である。第１の実施形態における辞書の例を示す図である。第１の実施形態における辞書の作成過程の手順を説明するフローチャートである。第１の実施形態における空間的に近接する画素位置の範囲を示す図である。第１の実施形態における画素位置例を示す図である。第１の実施形態における特徴量とハミング距離の例を示す図である。第１の実施形態における辞書の例を示す図である。第２の実施形態における距離画像フレームの例を示す図である。第２の実施形態におけるフレーム範囲を示す図である。第３の実施形態における人体形状例を示す図である。第３の実施形態における参照画素の例を示す図である。第４の実施形態における人体形状例を示す図である。第４の実施形態における参照画素の例を示す図である。第５の実施形態におけるハミング距離の例を示す図である。第５の実施形態におけるハミング距離の例を示す図である。

［第１の実施形態］
以下、図面を参照して本発明の第１の実施形態を説明する。
本実施形態は、過去の入力パターンに対して所定の特徴量を抽出し、抽出した特徴に基づいて入力パターン中に存在する投票対象となる認識対象物に対する投票処理を実行する。そして、投票処理結果に基づいて、入力パターンから認識対象物を認識するパターン認識装置の例を説明する。

本実施形態におけるパターン認識装置は、図１に示す距離画像撮影装置１に接続され、距離画像撮影装置１によって取得された距離画像を入力パターンとする、ＰＣ２に設けられているコンピュータシステムのパターン認識プログラムとして実現される。

具体的な概略構成として、パターン認識装置は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３をバス２４を介して接続されるコンピュータシステムにより構成されている。そして、ＲＯＭ２２に格納されているパターン認識プログラムをＲＡＭ２３に展開し、ＣＰＵ２１がパターン認識プログラムを実行することにより実現される。なお、本発明にかかるパターン認識装置は、前述したようなＰＣ２上で動作するものに限定されることは無く、同様の機能を有する汎用プロセッサまたは専用プロセッサ上で動作するものであっても構わない。

また、本実施形態におけるパターン認識装置では、処理対象となる入力パターンを距離画像としているが、本発明にかかるパターン認識装置ではこれに限定するものではない。例えば、入力パターンとして輝度画像を処理対象とするものであってもよく、この場合は、距離画像撮影装置の代わりに輝度画像撮影装置が使用される。輝度画像を入力パターンとする場合に関しては、距離画像を入力パターンとする場合を説明した後に詳細を説明する。

続いて、本実施形態におけるパターン認識装置において実行されるパターン認識処理に関して詳細に説明する。
図２にパターン認識処理の手順を説明するフローチャートを示す。
図２に示すように、本実施形態におけるパターン認識装置は、特徴量抽出工程４と、投票処理工程５とを有する。

また、投票処理工程５は、近接範囲設定工程６と、特徴量一致度算出工程７と、重み算出工程８と、重み付け投票処理工程９より構成される。なお、前述したそれぞれの工程は、本実施形態におけるパターン認識装置における特徴量抽出手段と、投票処理手段と、近接範囲設定手段と、特徴量一致度算出手段と、重み算出手段と、重み付け投票処理手段により行われる工程である。

続いて、それぞれの処理工程に関して説明する。
まず、特徴量抽出工程４では、距離画像撮影装置１から入力された距離画像に対して、特徴量抽出処理を実行する。ここで距離画像とは、図３に示すように各画素に対して、距離画像撮影装置１から被写体３までの距離情報が保持されているものを指している。

例えば、図３では被写体３として人物を含む距離画像が撮影されており、各画素は距離画像撮影装置１から被写体３までの距離情報が保持されている。図３では、距離情報を８bit階調の整数値で表わしている。
なお、本実施形態では、特徴量抽出工程４に入力される距離画像は、人物領域に対してのみ距離情報が保持されており、それ以外の背景に相当する画素は距離情報を保持していないものとし、例えば画素の値として０が設定されているものとする。

特徴量抽出工程４に入力される距離画像において人物領域を特定する方法としては、例えば撮影環境が限定される状況で、所定の距離値以上を有する画素は全て背景物とみなす手法などが考えられるが、本発明は特に前記手法に限定されるものではない。また、必ずしも処理対象とする距離画像が、人物領域のみに距離情報を有するものに限定されるわけではない。人物領域のみが距離情報を有する例を説明するのは、あくまで以降の処理に関する説明の理解を容易にすることを目的としたものである。

本実施形態における特徴量抽出処理は、以下に示すように実行される。
本実施形態におけるパターン認識装置は、k組の参照画素ペアの列をクエリとして定義し、入力された距離画像の各画素ごとに、前述したクエリを適用して得られる特徴量データに基づいて、対象物の認識を行うものである（kは自然数）。

まず、入力された距離画像の各画素（基準画素）毎に、事前に相対位置で規定された参照画素２か所の距離値の大小比較を実行する。例えば、図４に示すように参照画素の相対位置がそれぞれ参照画素a１：（３，２）、参照画素a２：（-１，-３）として設定されている場合、基準画素Ｎに対して、参照画素a１と参照画素a２が有する距離値を比較する。図４において、参照画素a１，a２を基準画素Ｎと点線で結びつけて示している。

ここで仮に、参照画素a１、参照画素a２のそれぞれの画素値が８bit階調で、a１：１４０、a２：３７の距離値を有する場合、両者の大小関係は式（１）で示される。
a１ > a２・・・式（１）

ここで、前記比較結果を元にして特徴量を設定する方法として、一つ目の参照画素の距離値が二つ目の参照画素の距離値より大きい（ここではa１ > a２の）場合、ビット符号列で表わされる特徴量のMSBに対して１を割り当てる。逆に、一つ目の参照画素の距離値が二つ目の参照画素の距離値より小さい（ここではa１ < a２の）場合には、０を割り当てるようにする。この場合、参照画素a１およびa２により算出されるビット符号は式（１）より１となる。

さらに、同一の基準画素Ｎに対して、図４に示す参照画素b１：（２，-３）と参照画素b２：（０，３）の距離値比較を実行する。
図４において、参照画素ｂ１,ｂ２を基準画素Ｎと一点鎖線で結びつけて示している。ここで仮に、参照画素b１と参照画素b２の大小関係が式（２）で示されるとすると、ビット符号列で表わされる特徴量の２ビット目に割り当てられるビット符号は０となる。
ｂ１ < ｂ２・・・式（２）

以上のように、クエリとして設定された参照画素ペア間の大小関係に基づくビット列の算出を、例えば本実施形態では６組の参照画素ペアに対して実行する。その結果各画素毎に、特徴量として６ビットのビット符号列を得ることができる。

なお、当然のことながら参照画素ペア数（すなわち、ビット符号列長）は６組に限定されるものではなく、認識対象物および求められる認識精度によって自由に設定することができる。本実施形態の場合は、以降の説明を容易にするために参照画素ペア数を６組と設定している。

また、クエリとしての参照画素ペアの選択方法としては、本実施形態では基準画素周囲の画素からランダムに選択することを想定しているが、必要に応じてその他の手法を用いるものであってもよい。例えば、選択する画素領域を限定するなどの手法が考えられる。本発明は、これら参照画素ペアの選択方法を限定するものではない。

このように、１つの画素に対してビット符号列で表わされる特徴量を抽出する処理を、距離画像中の全ての画素に対して実行する。
なお、前述したように本実施形態では、人物領域に属する画素のみが距離情報を有するものとし、特徴量を抽出する処理は、人物領域に属する画素に対してのみ実行する。結果として、人物領域に属する画素それぞれに対して、６ビットの特徴量が算出される。

図５に、各画素毎に算出された特徴量の一部を示す。
なお、算出した特徴量を各画素に対応付けたデータを、特徴量画像と呼ぶ。
続いて、前述したように算出した特徴量画像が、図２の投票処理工程５に入力される。
投票処理工程５では、事前に作成した辞書を参照して投票処理を実行するのであるが、ここでまず、辞書が保持している情報に関して図６を用いて説明を行う。

図６に示すように、本実施形態における辞書は、特徴量（６ビットの符号列）が取り得る全てのパターンに対して、認識対象の投票先の情報が記載されている。なお本来、辞書には後述する１２種類の全ての想定関節に対する情報が記載されているが、図６では図の煩雑化を防ぐため、３種類の関節に関する情報のみを記載している。また、特徴量に関しても全てのパターンを記載することが困難なため、一部の特徴量のみ記載している。

本実施形態の場合、認識対象は人体の関節位置であり、投票先の情報としては人体の関節ごとの頻度値と投票先（関節位置）への平均相対位置ベクトルが保持されている。ここで、投票先の情報に関する理解を助けるために、辞書の作成過程に関して説明を行う。

図７に、辞書の作成過程の手順を説明するフローチャートを示す。
図７に示すように、距離画像準備工程１０において、まず人体を含む距離画像を複数枚用意する。本実施形態では１００枚の距離画像を用意するものとする。なお、それぞれの距離画像においては、認識対象となる人体の関節の中心位置が所定の座標系上で既知であるものとする。
なお、本実施形態では、認識対象となる人体の関節は、“首、左肩、右肩、左肘、右肘、左手首、右手首、腰、左膝、右膝、左足首、右足首”の１２種類とする。

続いて、前述の距離画像を入力パターンとして、図７に示すサンプル点特徴量抽出工程１１を実施する。サンプル点特徴量抽出工程１１では、前述した図２の特徴量抽出工程４とほぼ同様の処理を行う。しかし、画素に対する特徴量の抽出を人体領域に属する全ての画素に対して実行するのではなく、人体領域に属する画素からランダムに抽出した画素に対してのみ処理を実行する点が異なる。

本実施形態の場合は、各距離画像中の人体領域に属する画素から１００点をランダムに抽出して基準画素とし、特徴量抽出処理を実行する。結果として、１００枚の距離画像から計１０,０００点の基準画素が抽出され、それぞれの画素に対する特徴量が決定する。

続いて、図７の集計処理工程１２において、前述のように決定した特徴量のビット符号列を元にして、同一の特徴量（すなわち、同一のビット符号列）が算出された基準画素を集計する。ここで、同一特徴量ごとに基準画素を集計する際には、基準画素位置から最も近い関節位置へのベクトルデータである相対位置ベクトルを算出する。

すなわち、基準画素が含まれる各距離画像は、前述したように人体の関節中心位置座標情報を有しているため、基準画素の位置座標から対応する関節中心位置座標への相対位置ベクトルを算出することができる。また同時に、相対位置ベクトルの算出対象とした最も近い関節に関する頻度値（図６参照）に１を加える。

以上の処理を同一特徴量を有する基準画素全てに対して実行し、前述したように算出した頻度値と、前述したように算出した相対位置ベクトルをさらに同一関節ごとに平均した平均相対位置ベクトルを、同一特徴量を有する基準画素の関節ごとに決定する。全ての特徴量（符号ビット列）に関して前述の処理を実行することで、各特徴量ごとに、関節ごとの平均相対位置ベクトルと頻度値のデータを得ることができる。

例えば、図６に示したように、各特徴量（符号ビット列）ごとに、関節ごとの平均相対位置ベクトルと頻度値が対応付けられた辞書が生成される。すなわち、本辞書に保持された情報の意味するところは、それぞれの特徴量を有する距離画像中の画素に関して、各頻度値を有する関節の近傍である可能性が高く、かつその関節中心への相対位置が平均相対位置ベクトルで表わされるというものである。

またここで、特徴量に相当する符号ビット列は、距離画像中の参照点ペアの大小関係により算出されたものである。このため、同一の関節中心位置近傍に存在し、周辺画素の距離値の分布に差が少ない基準画素同士では、算出される符号ビット列も類似した値となることが予想できる。
以上で、辞書の事前作成方法に関する説明を終える。

続いて、図２の投票処理工程５に関して説明する。
投票処理工程５では、特徴量抽出工程４において算出した特徴量画像を元にして、人物領域上の画素位置ごとに辞書を参照して、対応する関節への投票処理を行うのであるが、その際に、基準画素と空間的に近接する画素における特徴量との一致度を参照する。

投票処理工程５における処理フローを以下で詳細に説明する。
まず、投票処理工程５では、近接範囲設定工程６において、各画素毎に空間的に近接する画素位置の範囲を、認識対象の特性に基づいて設定する。
ここで、本実施形態では、認識対象の特性として、各画素に対して算出された特徴量に対応する、前述した辞書に保持された関節ごとの平均相対位置ベクトルの長さを参照する。

例えば、図９に示す画素位置Ａで算出された特徴量に対し、辞書を参照して得られた首関節中心に対する平均相対位置ベクトルの長さをLnとした時、事前に２種類の閾値（θna, θnb）を用意しておく。そして、以下の式（３）〜式（５）に示すようにLnとの比較処理を実行する。
０＜ Ln ≦ θna ・・・式（３）
θna ＜ Ln ≦ θnb ・・・式（４）
θnb ＜ Ln ・・・式（５）

ここで、比較処理結果が式（３）となった場合は、空間的に近接する画素位置の範囲を図８に示した周辺４８画素の範囲に設定する。また、比較処理結果が式（４）となった場合は、空間的に近接する画素位置の範囲を図８に示した周辺２４画素の範囲に設定する。また、比較処理結果が式（５）となった場合は、空間的に近接する画素位置の範囲を図８に示した周辺８画素の範囲に設定する。

なお、本実施形態では空間的に近接する画素位置の範囲を、２次元的な画像領域範囲として設定する。また、それぞれの画素位置範囲は、中央に位置する基準画素を除いたものとする。例えばLnの値が２０であり、閾値（θna, θnb）の値がそれぞれ（１０,３０）である場合は、比較処理結果は式（４）となるため、空間的に近接する画素位置の範囲は周辺２４画素に設定される。

以上の処理を、辞書を参照して得られた投票先の全ての想定関節に対して実行することにより、関節ごとに、空間的に近接する画素位置の範囲を設定する。
なお、前述した平均相対位置ベクトルの長さに基づく画素位置範囲の設定方法は一例に過ぎず、その他のものであっても構わない。

例えば、閾値の設定方法は２種類に限定されるものではなく、また空間的に近接する画素位置範囲の設定も、その他の種類・範囲を有するものであっても構わない。また閾値は、関節ごとに異なる値を有するものであってもよい。
また、前述したように閾値で画素位置範囲を設定するのではなく、平均相対位置ベクトルの長さを変数とする関数を事前に設定し、画素位置範囲を算出するものであってもよい。

また本実施形態では、近接範囲設定工程において平均相対位置ベクトルの長さを算出し、さらに閾値による比較処理を実行するものとしたが、空間的に近接する画素位置の範囲が事前に辞書に記載されているものとしても構わない。この場合は、辞書のサイズが増大するが、近接範囲設定工程における処理量が削減されるため、認識処理の実行時間を削減することが可能となる。

また、前述した例では平均相対位置ベクトルの長さLnを三次元ベクトルの長さとして算出することを想定しているが、それに代えて平均相対位置ベクトルの画像上でのx, y成分のみからLnを算出する。そして、前述した（３）〜（５）の比較式より画素位置範囲を設定するものであっても構わない。

また、前述した例では平均相対位置ベクトルの長さLnを三次元ベクトルの長さとして算出することを想定しているが、その場合、空間的に近接する画素位置範囲に関しても、各画素位置における距離情報を加味する。そして、前述した所定の座標系上での、基準画素位置を中心とする球状領域に含まれる画素位置範囲を指定するものであってもよい。例えば、前述した式（３）〜式（５）と同様に、事前に２種類の閾値（θna, θnb）を用意しておき、平均相対位置ベクトルの長さLnとの比較処理を実行する。

０＜ Ln ≦ θna⇒基準画素位置を中心とする半径Ｒ１の球内に属する画素（６）
θna ＜ Ln ≦ θnb⇒基準画素位置を中心とする半径Ｒ２の球内に属する画素（７）
θnb ＜ Ln ⇒基準画素位置を中心とする半径Ｒ３の球内に属する画素（８）

ここで、比較処理結果が式（６）となった場合は、空間的に近接する画素位置の範囲を基準画素位置を中心とする半径Ｒ１の球内に属する画素の範囲に設定する。
また、比較処理結果が式（７）となった場合は、空間的に近接する画素位置の範囲を基準画素位置を中心とする半径Ｒ２の球内に属する画素の範囲に設定する。
また、比較処理結果が式（８）となった場合は、空間的に近接する画素位置の範囲を基準画素位置を中心とする半径Ｒ３の球内に属する画素の範囲に設定する。
なおここで、Ｒ１、Ｒ２、Ｒ３の大小関係は、以下の式（１８）で表わされるものとする。
Ｒ１＞Ｒ２＞Ｒ３・・・式（１８）

また、前述した説明では、空間的に近接する画素位置の範囲を、平均相対位置ベクトルの長さに基づいて設定したが、さらに平均相対位置ベクトルの方向を参照するものであってもよい。この場合は、空間的に近接する画素位置の範囲を、例えば平均相対位置ベクトルに沿った周辺領域に含まれる画素として設定する。この場合は、平均相対位置ベクトルと画素位置との距離が、所定の閾値以下となる範囲として設定することができる。なお、平均相対位置ベクトルの方向を参照して空間的に近接する画素位置の範囲を設定する方法は、これに限定されるものではなく、その他の方法であっても構わない。

続いて、図２に示す特徴量一致度算出工程７について説明を行う。
特徴量一致度算出工程７では、前述したように各画素位置ごとに決定した関節ごとの近接画素位置範囲情報を元にして、特徴量一致度を算出する。例えば、図９に示す画素位置Ａにおける首関節に関する特徴量一致度を算出する場合に関して説明する。

ここで、画素位置Ａにおける画素位置参照範囲は、近接範囲設定工程６において周辺２４画素に設定されているものとする。この場合、本実施形態における特徴量一致度算出工程７では、特徴量一致度Ｍｎとして、画素位置Ａにおける特徴量と周辺２４画素における特徴量とのそれぞれのハミング距離Ｈの平均値に１を加えた値の逆数を算出する。式（９）に特徴量一致度の算出式を示す。
Ｍｎ＝１/(ΣＨ/２４＋１) ・・・式（９）

例えば、画素位置Ａにおける特徴量と、その周辺２４画素における特徴量が図１０（ａ）に示すように算出されていた場合、画素位置Ａと周辺２４画素とのそれぞれのハミング距離は図１０（ｂ）のようになる。それぞれのハミング距離を周辺２４画素位置に記載している。

結果として、特徴量一致度Ｍｎは、式（９）に基づき以下の式（１０）のように算出される。
Ｍｎ＝１/((２＋１＋１＋２＋１＋１＋０＋０＋０＋２＋２＋０＋１＋１＋１＋１＋１＋０＋１＋２＋１＋１＋１＋１)/２４＋１)
＝０.５・・・式（１０）

なお、前述した例では特徴量の一致度を算出する際にハミング距離を用いたが、その他にもユークリッド距離またはマンハッタン距離などの距離尺度を用いるものであっても構わない。またさらに、特徴量一致度の算出方法は前述したものに限定するものではなく、例えば特徴量間の相関係数Cを用いるものであってもよい。

その場合、特徴量一致度Ｍｎは、以下の式（１１）のように算出される。
Ｍｎ＝１/(ΣC/２４＋１)・・・（１１）

続いて、図２に示す重み算出工程８について説明を行う。
重み算出工程８においては、前述した特徴量一致度を元にして、以降で説明する重み付け投票処理工程９で使用する重み付け量を算出する。
例えば、本実施形態では、画素位置ごとの各関節に対する重み付け量Ｗｎとして、特徴量一致度算出工程７で算出した特徴量一致度Ｍｎを設定する。すなわち、重み付け量の算出式は以下の式（１２）のように示される。
Ｗｎ＝Ｍｎ・・・（１２）

なお、前述した重み付け量の算出方法は一例に過ぎず、その他のものであっても構わない。例えば、特徴量一致度をそのまま設定するのではなく、特徴量一致度を変数とする関数を事前に設定し、重み付け量を算出するものであってもよい。

続いて、図２に示す重み付け投票処理工程９について説明を行う。
例えば、画素位置Ａにおける特徴量が０１１０１０であり、特徴量に対応する関節ごとの頻度値と平均相対位置ベクトルが以下に示すように辞書から参照されたとする。

なお、本特徴量に対応する投票先の関節は以下の４種類のみであるとする。
左肘：頻度値h１、平均相対位置ベクトル（x１, y１, z１）
右肘：頻度値h２、平均相対位置ベクトル（x２, y２, z２）
左膝：頻度値h３、平均相対位置ベクトル（x３, y３, z３）
右膝：頻度値h４、平均相対位置ベクトル（x４, y４, z４）

この時、画素位置Ａより、前述した４種類のそれぞれの関節に関して、重み算出工程８において算出した重み付け量：WLe（左肘）、WRe（右肘）、WLk（左膝）、WRk（右膝）をそれぞれの頻度値に乗算する。さらに、画素位置Ａの所定の座標系における座標位置に対して、それぞれの平均相対位置ベクトルを加算して各関節中心の存在候補位置座標を算出する。

ここで、頻度値に対して重み付けを行う意味を説明する。
前述したように、特徴量に相当する符号ビット列は、距離画像中の参照点ペアの大小関係により算出されたものであるため、周辺画素の距離値の分布に差が少ない画素同士では、算出される符号ビット列も類似した値となる。従って、距離画像中のある関節周辺の画素において算出される特徴量は緩やかに変化することが予想できる。

これに対し、特定の画素位置において、周辺画素と大きく異なる特徴量（符号ビット列）が算出された場合、その特徴量は距離画像中に存在するノイズ等の影響による誤差を含んでいる可能性があることが予想される。このため、その画素位置で算出された特徴量を元にした投票は信頼性が低いことになる。

そこで本実施形態では、周辺画素との特徴量の一致度を算出し、その一致度が高い場合にはその画素からの投票に対して重み付け量を大きく設定する。逆に、一致度が低い場合には重み付け量を小さく設定することにより、ノイズ等の影響による投票結果の劣化を防止することを狙ったものである。そして、特にその特徴量の一致度を算出する範囲を、認識対象物の特性に応じて可変とするところに特徴を持たせている。

すなわち、認識対象物の特性としての平均相対位置ベクトルの長さLnが小さいということは、その画素位置が投票先の関節の近くに位置することを意味している。従って、その画素周囲には類似した特徴量を有する画素が広範囲に広がっていることが予想できる。

そこで本実施形態では、平均相対位置ベクトルの長さLnが小さいほど特徴量の一致度を算出する範囲を広くすることによって、より特徴量が類似すべきと考えられる範囲を調整しているのである。
これによって、より適切な画素範囲で特徴量の一致度を算出することが可能になり、結果として前述した投票に対する重み付け量を正しく算出することが可能となる。

以上の処理を特徴量画像中の人物領域に属する全ての画素に対して実行することにより、関節ごとに、関節中心位置の存在候補位置座標とそれに対応した重み付け頻度値の分布が得られる。

重み付け投票処理工程９では、さらに前述のように関節ごとに得られた重み付け頻度値分布から、例えばMean shiftなどのクラスタ中心選択手法を用いて、最終的な関節位置中心位置を算出する。Mean shiftによるクラスタ中心選択処理に関しては、例えば非特許文献２に詳しい説明が述べられているため、詳細は割愛する。

なお、関節ごとに得られた重み付け頻度値分布から関節位置中心位置を算出する方法はMean shiftに限定されるものではない。例えばk-means手法を用いた手法で有ってもよいし、分布するデータ群からクラスタ中心を算出できる手法で有れば、その他のものであっても構わない。

また本実施形態においては、重み付け投票処理工程９において、連続値を取る座標位置に対して関節中心位置の投票を行ったが、認識対象物の存在位置分布を算出するものであればその他の手法を用いるものであっても構わない。
例えば、投票する座標位置を整数値に丸める処理を行い、関節ごとの重み付け投票処理において同一の座標位置に投票される場合は、重み付け頻度値を累算するものであってもよい。

また本実施形態では、関節ごとに得られた重み付け頻度値分布から、クラスタ中心選択手法を用いて最終的な関節位置中心を算出した。他の例としては、関節ごとの重み付け頻度分布の総和値を算出し、重み付け頻度値分布を前記総和値で除算した確率分布に対して、適当なクラスタ中心選択手法を用いて、最終的な関節位置中心を算出するものであってもよい。

また本実施形態では、投票工程において、関節ごとに頻度値を投票空間に投票しているが、関節ごとの確率値を投票するものであってもよい。例えば、図１１に示すように、各特徴量に対応する投票先の情報として、辞書生成時に、その特徴量に対応する距離画像中の参照画素がどの関節の近傍に存在しているかを示す存在確率を、確率値として保持することができる。

具体的には、図６に示した頻度値を保持した辞書において、ある特徴量における頻度値の総和値を算出し、その総和値で各関節に対応する頻度値を除算することで、図１１に示した各関節の確率値を算出することができる。

また、本実施形態では入力パターンとして距離画像を想定したが、各画素が輝度値を有する輝度画像を用いるものであっても構わない。この場合、特徴量抽出処理において、参照画素ペアの輝度値の大小関係を比較することと、特徴量一致度比較範囲の設定が２次元空間（例えば、式（３）〜（５）で示される範囲）に限定されること以外は、前述した処理と同様に実行することが可能となる。
また、輝度画像を入力パターンとする場合は、特徴量抽出工程の前処理として、エッジ検出処理などの前処理を実行することも有効である。

また、本実施形態で説明したようなビット符号列により表現される特徴量を算出する手法は、参照画素２点比較に限定されるものではない。
例えば、参照画素として２点を取るのではなく、基準画素自身と参照画素１点との比較を行うものであってもよく、またその他の手法によるものであっても構わない。また、特徴量自体も、本実施形態で説明したようなビット符号列に限定されるものではなく、特徴量間で一致度を算出することが可能であるものであれば他のものであっても構わない。

一例として、入力パターンとして輝度画像を用いる場合では、各画素位置で例えばSURF特徴量を算出するものとすることができる。SURF特徴量は、１２８次元ベクトルで表現される特徴量であり、特徴量との一致度は相関係数、または前述したユークリッド距離およびマンハッタン距離により算出することができる。SURF特徴量に関しては、非特許文献３に詳しい説明が述べられているため、詳細は割愛する。

以上説明したように本実施形態によれば、基準画素と周辺画素との特徴量の一致度を算出する。そして、その一致度が高い場合にはその画素からの投票に対して重み付け量を大きく設定し、逆に一致度が低い場合には重み付け量を小さく設定することにより、ノイズ等の影響による投票結果の劣化を防止することが可能となる。

特に、その特徴量の一致度を算出する範囲を、認識対象物の特性としての、関節ごとの平均相対位置ベクトルの長さに応じて可変とすることにより、適切な画素範囲で特徴量の一致度を算出することが可能になる。結果として、前述した投票に対する重み付け量を正しく算出することが可能となる。

［第２の実施形態］
以下、図面を参照して本発明の第２の実施形態を説明する。
本実施形態におけるパターン認識装置は、第１の実施形態における投票処理工程に対し、近接範囲設定工程の処理が異なっている。従って、本実施形態では、第１の実施形態において説明した内容に関しては説明を省略し、本実施形態に特有の点についてのみ説明を行う。

本実施形態における投票処理工程５では、特徴量抽出工程４において算出した特徴量画像を元にして、人物領域上の画素位置ごとに辞書を参照して、対応する関節への投票処理を行う。その際に、基準画素と時間的に近接する画素における特徴量との一致度を参照する。

ここで時間的に近接する画素とは、前記基準画素が属する距離画像よりも以前に、所定時間幅で取得された距離画像フレームにおける、同じ位置の画素を指している。例えば、図１２に示すように、所定のフレームレートで距離画像が取得されているとすると、処理対象とされる基準画素に対して、時間的に近接する画素は、ｎフレーム前（ｎは自然数）までの距離画像に含まれる、画像上の同じ位置の画素として定義される。

まず、本実施形態における投票処理工程５では、近接範囲設定工程６において、各画素毎に時間的に近接する画素位置の範囲を認識対象の特性に基づいて設定する。ここで、本実施形態では、認識対象の特性として、各画素に対して算出された速度ベクトルの大きさを参照する。

なお、各画素に対する速度ベクトルは、本実施形態では、近接範囲設定工程６においてオプティカルフローの算出方法に基づいて算出するものとするが、例えば特徴量抽出工程４と並列に算出するなどして、近接範囲設定工程６よりも前に算出を完了してもよい。

オプティカルフローの算出方法に関しては、非特許文献４に詳しい説明が述べられているため、詳細は割愛する。また、各画素に対する速度ベクトルを算出できるものであれば、オプティカルフロー以外の算出方法を用いるものであっても構わない。

続いて、画素位置Ａで算出された速度ベクトルの大きさがVであった場合、事前に２種類の閾値（θva、θvb）を用意しておき、以下の式（１３）〜式（１５）に示すようにVとの比較処理を実行する。
０＜ V ≦ θva ⇒８フレーム前まで・・・式（１３）
θva ＜ V ≦ θvb ⇒４フレーム前まで・・・式（１４）
θvb ＜ V ⇒１フレーム前まで・・・式（１５）

ここで、比較処理結果が式（１３）となった場合は、時間的に近接する画素のフレーム範囲を図１３に示した８フレーム前までの範囲に設定する。また、比較処理結果が式（１４）となった場合は、時間的に近接する画素のフレーム範囲を図１３に示した４フレーム前までの範囲に設定する。また、比較処理結果が式（１５）となった場合は、時間的に近接する画素のフレーム範囲を図１３に示した１フレーム前までの範囲に設定する。

例えばVの値が１０であり、閾値（θva, θvb）の値がそれぞれ（５，２０）である場合は、比較処理結果は式（１４）となるため、時間的に近接する画素のフレーム範囲は４フレーム前までの範囲に設定される。

なお、前述した速度ベクトルの大きさに基づくフレーム範囲の設定方法は一例に過ぎず、その他のものであっても構わない。
例えば、閾値の設定方法は２種類に限定されるものではなく、また時間的に近接する画素のフレーム範囲の設定も、その他の種類・範囲を有するものであっても構わない。
また、前述したように閾値でフレーム範囲を設定するのではなく、速度ベクトルの大きさを変数とする関数を事前に設定し、フレーム範囲を算出するものであってもよい。

続いて、特徴量一致度算出工程７について説明を行う。
特徴量一致度算出工程７では、各画素位置ごとに決定した時間的に近接するフレーム範囲の情報を元にして、特徴量一致度を算出する。例えば、図１３に示す画素位置Ａにおける特徴量一致度を算出する場合に関して説明する。

ここで、画素位置Ａにおけるフレーム参照範囲は、近接範囲設定工程６において４フレーム前までに設定されているものとする。この場合、本実施形態における特徴量一致度算出工程７では、特徴量一致度Ｍｎとして画素位置Ａにおける特徴量と、４フレーム前までの同一画素位置での特徴量とのそれぞれのハミング距離Hの平均値に１を加えた値の逆数を算出する。式（５）に特徴量一致度の算出式を式（１６）に示す。
Ｍｎ＝１/(ΣＨ/４＋１)・・・式（１６）

以上の処理に関しては、特徴量を参照する近接する対象画素が異なるだけで、本質的な処理は第１の実施形態と同様である。また、特徴量一致度の算出方法は前述したものに限定するものではなく、距離尺度としてハミング距離以外のユークリッド距離またはマンハッタン距離などのその他の尺度を用いるものであってもよい。もしくは、例えば、特徴量間の相関係数Cを用いるものであってもよいのも第１の実施形態と同様である。
特徴量一致度算出工程７以降の処理に関しても第１の実施形態と同様であるため、詳細な説明は割愛する。

以上のように、本実施形態における投票処理工程では、特徴量の一致度を算出する範囲を、認識対象物の特性として、各画素に対して算出された速度ベクトルに応じて可変とするところに特徴を持たせている。すなわち、各画素位置で算出された速度ベクトルの大きさが小さいということは、その画素における特徴対象物の動きが小さいことを意味している。従って、時間的に近接するフレームに関して、同一の画素位置においてより広いフレーム範囲で類似する特徴量を有することが予想される。

そこで、本実施形態では、速度ベクトルの大きさが小さいほど特徴量の一致度を算出するフレーム範囲を広くすることによって、より特徴量が類似すべきと考えられるフレーム範囲を調整しているのである。これによって、より適切な画素範囲で特徴量の一致度を算出することが可能になり、結果として前述した投票に対する重み付け量を正しく算出することが可能となる。

なお、本実施形態では入力パターンが距離画像である場合について説明を行ったが、入力パターンが輝度画像である場合についても第１の実施形態と同様に適用が可能である。また、本実施形態および第１の実施形態においては、特徴量一致度算出工程７において、それぞれ時間的に近接するフレーム範囲および空間的に近接する画素範囲を参照して一致度を算出する方法に関して実例を示した。この他に、両者を組み合わせて一致度を算出するものであっても構わない。

例えば、それぞれの手法により、特徴量の一致度を算出する際、両方の手法より算出されるハミング距離を累算して平均値を算出するものであってもよい。
例えば、式（１７）により特徴量の一致度が算出される。なお式（１７）では、ハミング距離Hの平均値を算出する式をAverage(H)と表わしている。
Ｍｎ＝１/(Average(H)＋１)・・・式（１７）

なお、特徴量の一致度の算出方法は前述したものに限定するものではなく、距離尺度としてハミング距離以外のユークリッド距離またはマンハッタン距離などのその他の尺度を用いるものであってもよい。もしくは、例えば特徴量間の相関係数Cを用いるものであってもよいのは、距離画像の場合と同様である。

また、特徴量の一致度を算出する際に両者を組み合わせる方法として、前述したように両者の特徴量の一致度を合わせて平均値を算出する手法以外でもよい。例えば、それぞれの特徴量の一致度を変数とする関数を事前に設定し、両者を組み合わせた特徴量の一致度を算出するものであってもよい。

［第３の実施形態］
以下、図面を参照して本発明の第３の実施形態を説明する。
本実施形態におけるパターン認識装置は、第１の実施形態における投票処理工程に対し、近接範囲設定工程６の処理が異なっている。従って、本実施形態では、第１の実施形態において説明した内容に関しては説明を省略し、本実施形態に特有の点についてのみ説明を行う。

本実施形態における投票処理工程５では、近接範囲設定工程６において、各画素毎に空間的に近接する画素位置の範囲を、認識対象の特性に基づいて設定する。
ここで本実施形態では、認識対象の特性として、各画素に対して算出された特徴量に対応する、前述した辞書に保持された関節ごとのサイズを参照する。ここで関節のサイズというのは、人体形状において、その関節が存在する周辺の人体形状の大きさを指している。

例えば、図１４に示した人体形状において、一般的に肩などの関節中心位置１３（図の白バツ印）周辺には、広範囲に筋肉等で覆われた人体構成領域が広がっている。一方、肘などの関節中心位置１４周辺は、人体構成領域は腕などの比較的狭い（細い）領域に限られる。関節のサイズは、これらの関節中心位置周辺に広がる人体構成領域の大小に対して定義したものである。

ここで、関節のサイズを定量的に設定する方法としては、例えば人体の各関節を、関節中心を通る面で切断した場合の、最小切断面の面積で決定する方法が考えられる。本実施形態では、例えばＣＧにより作成した一般成人男性の人体形状モデルより、各関節中心位置を通る最小切断面の面積を算出し、各関節のサイズとして設定した。

例えば、図１４に例示した左肩関節および右肘関節のサイズの例Sls, Sreを式（１９）、式（２０）に示す。（なお、サイズは無名数として記載している。）
左肩：Sls＝７０・・・式（１９）
右肘：Sre＝２０・・・式（２０）

なお、前述した関節サイズの設定方法はあくまで一例に過ぎず、その他のものであっても構わない。例えば、その他の設定方法としては、一般的に人体を構成する筋肉の量はその筋肉を保持する骨の大きさに比例することから、当該関節を構成（接続）する骨の体積を関節のサイズとする方法がある。このように本発明は、関節サイズの設定方法に関して限定するものではない。

ここで、第１の実施形態で説明した特徴量抽出工程４において、より小さな関節（例えば肘関節）に関しては、図１５（ａ）に示すように、基準画素mから少し離れた基準画素nでは、例えば参照点が人体領域に含まれるか否かのパターンが変わる。このため、参照点ペアの大小関係が変化し易いことが予想される。図１５では、参照点のペアを基準画素に対して点線で結ばれた白丸で示している。

一方、より大きな関節（例えば肩関節）に関しては、図１５（ｂ）に示すように、基準画素oの近傍には広範囲に類似した画像データが広がっており、基準画素oから少し離れた基準画素ｐにおいても、例えば参照点の大小関係は変化しにくいことが予想される。

このように、特徴量が類似する周辺近接画素の範囲は、その関節のサイズによって異なることが予想されるため、本実施形態における近接範囲設定工程６では、特徴量の一致度を算出する空間的に近接する画素の範囲を関節のサイズSに応じて設定するものである。

例えば、各関節のサイズSに対し、事前に２種類の閾値（θsa, θsb）を用意しておき、以下の式（２１）〜式（２２）に示すようにSとの比較処理を実行する。
０＜ S ≦ θsa ・・・式（２１）
θsa ＜ S ≦ θsb ・・・式（２２）
θsb ＜ S ・・・式（２３）

ここで、比較処理結果が式（２１）となった場合は、空間的に近接する画素位置の範囲を図８に示した周辺８画素の範囲に設定する。また、比較処理結果が式（２２）となった場合は、空間的に近接する画素位置の範囲を図８に示した周辺２４画素の範囲に設定する。また、比較処理結果が式（２３）となった場合は、空間的に近接する画素位置の範囲を図８に示した周辺４８画素の範囲に設定する。

なお、それぞれの画素位置範囲は、中央に位置する基準画素を除いたものとする。例えば左肩関節の場合はSls＝７０であり、閾値（θsa, θsb）の値がそれぞれ（５０、１００）である場合は、比較処理結果は式（２２）となるため、空間的に近接する画素位置の範囲は周辺２４画素に設定される。

以上の処理を、辞書を参照して得られた投票先の全ての想定関節に対して実行することにより、関節ごとに、空間的に近接する画素位置の範囲を設定する。
近接範囲設定工程６以降の処理に関しては、第１の実施形態と同様であるため、詳細な説明は割愛する。

以上のように、本実施形態における投票処理工程では、特徴量の一致度を算出する範囲を、認識対象物の特性としての各関節のサイズに応じて可変とするところに特徴を持たせている。すなわち、サイズが小さい関節に対しては、特徴量が類似する画素領域が狭いと予想されることから、参照すべき空間的に近接する画素範囲を小さく設定する。そして、逆にサイズが大きい関節に対しては、特徴量が類似する画素領域が広いと予想されることから、参照すべき空間的に近接する画素範囲を広く設定する。これにより、特徴量が類似すべきと考えられる空間的に隣接する画素範囲を調整しているのである。これによって、より適切な画素範囲で特徴量の一致度を算出することが可能になり、結果として前述した投票に対する重み付け量を正しく算出することが可能となる。

なお、前述した関節のサイズに基づく画素位置範囲の設定方法は一例に過ぎず、その他のものであっても構わない。
また、第２の実施形態と組み合わせて特徴量の一致度を算出することが可能であるのも第１の実施形態と同様である。

［第４の実施形態］
以下、図面を参照して本発明の第４の実施形態を説明する。
本実施形態におけるパターン認識装置は、第２の実施形態における投票処理工程５に対し、近接範囲設定工程６の処理が異なっている。従って、本実施形態では、第２の実施形態において説明した内容に関しては説明を省略し、本実施形態に特有の点についてのみ説明を行う。

本実施形態における投票処理工程５では、第２の実施形態と同様に、近接範囲設定工程６において時間的に近接する距離画像フレームの範囲を認識対象の特性に基づいて設定する。しかし、認識対象の特性として、各画素に対して算出された特徴量に対応する、辞書に保持された関節ごとの動き易さを参照する点が第２の実施形態と異なる。

ここで関節の動き易さというのは、三次元空間における関節位置の、時間的な変動のし易さを指している。例えば、図１６に示した人体形状において、一般的に手首や足首などの末端に位置する関節１５の中心位置は比較的時間的な変動が大きい（動き易い）ことが予想される。一方、腰や首などの人体の重心に近い位置に存在する関節１６の中心位置は時間的な変動が小さい（動き難い）ことが予想される。図１６では、手首・足首の関節中心をバツ印、腰・首の関節中心を三角印で示している。
関節の動き易さは、このように人体上での関節位置に起因する、その関節の時間的な位置変動のし易さに対して定義したものである。

ここで、第２の実施形態で説明した特徴量抽出工程４において、より動き易い関節（例えば手首関節）に関しては、図１７（ａ）に示すように、画像フレームが少し離れただけでも、その間に関節位置が変動していることが起こり得る。そのため、画像中で同一位置の基準画素Ａにおける参照点ペアの大小関係が変化し易いことが予想される。図１７では、参照点のペアを基準画素に対して点線で結ばれた白丸で示している。

一方、より動きにくい関節（例えば腰関節）に関しては、図１７（ｂ）に示すように、画像フレームが少し離れても、その間の関節位置の変動量は手首より小さい可能性が高い。そのため、基準画素Ａにおける参照点ペアの大小関係が変化しにくいことが予想される。

このように、特徴量が類似する画像フレームの範囲は、その関節の動き易さによって異なることが予想される。このため、本実施形態における近接範囲設定工程６では、特徴量の一致度を算出する時間的に近接するフレーム範囲を、関節の動き易さに応じて設定するものである。具体的には、例えば第１の実施形態で説明した認識対象となる人体の１２種類の関節を以下のように３つのグループに分け、それぞれのグループに対応して時間的に近接するフレームの範囲を設定する。

動き易さ小：腰⇒８フレーム前まで
動き易さ中：首、左肩、右肩、左膝、右膝、左肘、右肘 ⇒４フレーム前まで
動き易さ大：左手首、右手首、左足首、右足首 ⇒ １フレーム前まで

以上の処理を辞書を参照して得られた投票先の全ての想定関節に対して実行することにより、関節ごとに、時間的に近接するフレームの範囲を設定する。
なお、本実施形態で説明した、関節の動き易さに対応した近接画素範囲のグループ分けは、事前に辞書に記載されているものとして構わない。
近接範囲設定工程６以降の処理に関しては、第２の実施形態と同様であるため、詳細な説明は割愛する。

以上のように、本実施形態における投票処理工程５では、特徴量の一致度を算出する範囲を、認識対象物の特性としての各関節の動き易さに応じて可変とするところに特徴を持たせている。すなわち、動き易い関節に対しては、ある画素位置において特徴量が類似するフレーム範囲が狭いと予想されることから、参照すべき時間的に近接するフレームの範囲を狭く設定する。

逆に、動きにくい関節に対しては、特徴量が類似するフレーム範囲が広いと予想されることから、参照すべき時間的に近接するフレーム範囲を広く設定する。これにより、特徴量が類似すべきと考えられる時間的に隣接するフレームの範囲を調整しているのである。これによって、より適切なフレーム範囲で特徴量の一致度を算出することが可能になり、結果として、投票に対する重み付け量を正しく算出することが可能となる。

なお、前述した関節の動き易さに基づく画素位置範囲の設定方法は一例に過ぎず、その他のものであっても構わない。当然のことながら、関節の動き易さに基づくグループ分け方法も、また近接フレーム範囲の設定パターンもその他のものでもよい。
また、第１の実施形態および第３の実施形態と組み合わせて特徴量の一致度を算出することが可能なのも第２の実施形態と同様である。

［第５の実施形態］
以下、図面を参照して本発明の第５の実施形態を説明する。
本実施形態におけるパターン認識装置は、第１の実施形態〜第４の実施形態における辞書の作成過程と、投票処理工程５における近接範囲設定工程６の処理が異なっている。
従って本実施形態では、第１の実施形態〜第４の実施形態において説明した内容に関しては説明を省略し、本実施形態に特有の点についてのみ説明を行う。

まず、本実施形態における辞書の作成過程では、距離画像として、人体の動きを時系列に連続して取得した距離画像セットを用いる。
例えば、本実施形態では、人体が距離画像撮影装置１を横切る方向に歩行する一連の動きを計１００枚の距離画像セットとして取得したものから辞書を作成するものとする。

この距離画像セットを用いて辞書を作成する際に、第１の実施形態で説明した辞書の作成過程を全て実行するのは同一である。さらに、本実施形態では、近接範囲設定工程６で空間的および時間的に近接する画素範囲を設定するための情報を、前述の距離画像セットから抽出する。

まず、辞書作成工程において、空間的に近接する画素範囲を設定するための情報を抽出する方法について説明する。
本実施形態における辞書作成工程では、第１の実施形態で説明したのと同様に、各距離画像中の人体領域に属する画素から基準画素をランダムに抽出し、サンプル点特徴量抽出処理を実行する。

この時同時に、基準点周囲の画素位置に対しても特徴抽出処理を実行し、さらに基準画素における特徴量と周囲の画素位置での特徴量との特徴量一致度を算出し、さらにその特徴量一致度の平均値が所定の閾値以内に収まる、空間的かつ時間的な範囲を算出する。

例えば、ある距離画像中から抽出した基準画素における特徴量と、その周辺画素位置における特徴量のハミング距離が、図１８に示すように算出されたとする。ここで、特徴量一致度の閾値を仮に０.６とする。この時、図１８の（１）〜（３）のそれぞれの枠線で囲まれた画素領域内での特徴量一致度平均値は以下のようになる。
（１）０.８０、（２）０.６２、（３）０.４８

ここで、前述した閾値以上の特徴量一致度を有する画素領域は（１）と（２）であり、この場合、より広い画素範囲となる（２）を特徴量一致度を算出するための近接範囲とする。
このようにして得られた近接範囲の情報は、この基準画素に対応付けられる。

続いて、時間的に近接する画素範囲を設定するための情報を抽出する方法について説明する。
まず、前述した基準画素に関して、連続する過去のフレームにおける同一画素位置に対しても特徴抽出処理を実行し、さらに基準画素における特徴量と、連続する過去のフレームにおける画素位置での特徴量との特徴量一致度を算出する。さらに、その特徴量一致度の平均値が所定の閾値以内に収まるフレーム範囲を算出する。

例えば、前述した基準画素における特徴量と、連続する過去のフレームにおける同一画素位置における特徴量のハミング距離が、図１９に示すように算出されたとする。ここで、特徴量一致度の閾値を仮に０.６とする。この時、図１９のa〜cの過去のフレーム内での特徴量一致度平均値は以下のようになる。フレーム範囲a：１フレーム前まで、フレーム範囲b：４フレーム前まで、フレーム範囲c：８フレーム前まで。ａ:１.００、ｂ:０.６７、ｃ: ０.４２。

ここで、前述の閾値以上の特徴量一致度を有するフレーム範囲はａとｂであり、この場合、より広いフレーム範囲となるｂを特徴量一致度を算出するためのフレーム範囲とする。
このようにして得られた近接範囲の情報も、この基準画素に対応付けられる。

以上説明した、空間的および時間的に近接する画素範囲を抽出する処理を、第１の実施形態で説明した辞書作成工程と同様に、各距離画像中の人体領域に属する画素からランダムに抽出した全ての基準画素に対して実行する。

続いて、本実施形態における辞書作成工程では、第１の実施形態と同様に、集計処理工程１２において、同一の特徴量が算出された基準画素を集計する。この際、同一特徴量ごとに集計された基準画素に関して、前述したように決定した空間的および時間的に近接する画素範囲を、関節ごとに平均する。

本実施形態の場合、前述したように、空間的に近接する画素範囲を正方形画素範囲として限定しているため、その一辺の長さの平均値を算出し、小数点以下を切り捨てることで、整数値で表わされる画素数を一辺として有する正方形領域を決定する。また、時間的に近接するフレーム範囲に関しても、その平均値を算出し、小数点以下を切り捨てることで整数値で表わされるフレーム範囲を決定する。

以上の処理を全ての特徴量ごとの関節ごとに実行し、空間的および時間的に近接する画素範囲情報として、辞書に保持する。なお、同一特徴量ごとに集計された基準画素に関して、空間的および時間的に近接する画素範囲を決定する方法としては、前述したように平均値を算出する方法以外であっても構わない。

例えば、空間的および時間的に近接する画素範囲をそれぞれ平均するのではなく、最も数多く選択された画素範囲を採用するものであってもよい。最終的に空間的および時間的に近接する画素範囲を算出する方法は、これ以外に様々な手法が考えられるが、本発明はこれを限定するものではない。

続いて、投票処理工程５における近接範囲設定工程６の処理に関して説明する。
本実施形態における近接範囲設定工程６では、各画素毎に空間的および時間的に近接する画素範囲として、前記辞書に保持された画素範囲を参照して設定する。すなわち、入力パターンの各画素に対して抽出した特徴量を元にして辞書を参照し、前記特徴量に対応する空間的および時間的に近接する画素範囲を設定するのである。

以上説明した処理以外に関しては、全て第１の実施形態〜第４の実施形態の処理と同様であるため、説明を省略する。
このように本実施形態におけるパターン認識装置では、空間的および時間的に近接する画素範囲を辞書作成時に用いる距離画像を参照して設定し、また特に時系列に連続した距離画像セットを用いる。これにより、実際の人体の動きに応じた近接画素範囲を設定することが可能となる。これにより、適切な画素範囲で特徴量の一致度を算出することが可能になり、結果として投票に対する重み付け量をより正しく算出することが可能となる。

［第６の実施形態］
以下、図面を参照して本発明の第６の実施形態を説明する。
本実施形態におけるパターン認識装置は、第１の実施形態におけるパターン認識処理に対し、入力パターン中の認識対象物の凡その位置が予め分っている点と、さらに投票処理工程５における近接範囲設定工程６の処理が異なっている。
従って、本実施形態では、第１の実施形態において説明した内容に関しては説明を省略し、本実施形態に特有の点についてのみ説明を行う。

まず、本実施形態におけるパターン認識装置は、前述したように、パターン認識処理に際して入力パターン中の認識対象物の凡その位置が予め判明しているものとする。例えば、第１の実施形態で説明したパターン認識装置を時系列に連続する距離画像に適用した場合に、１フレーム前の距離画像中の人体関節位置は、現在のフレームの距離画像中の凡その関節位置を示しているものとみなす。

または、第１の実施形態で説明したパターン認識処理を現在のフレームの距離画像に適用して算出した人体の関節位置を、凡その関節位置を示しているものとみなしてもよい。
なお、入力パターン中の認識対象物（本実施形態では関節位置）の凡その位置を知る方法としては、その他の手法を用いるものであっても構わない。

続いて、本実施形態では、第１の実施形態で説明したパターン認識処理と同様の処理を現在のフレームの距離画像に対して実行するのであるが、その際の投票処理工程５における近接範囲設定工程６の処理が異なっている。すなわち、本実施形態では、前述したように距離画像中の人体関節に関して凡その位置が分かっているため、その位置情報を参照して近接範囲設定工程６において近接する画素範囲を設定する。

具体的には、近接範囲設定工程６において、第１の実施形態では、各画素毎に空間的に近接する画素位置の範囲を認識対象の特性に基づいて設定する際に、辞書に保持された関節ごとの平均相対位置ベクトルの長さを参照した。本実施形態では、前述した凡その関節位置と基準画素座標との相対位置ベクトルの長さを参照する。

これはすなわち、誤差が含まれているかもしれない現在のフレームにおける特徴量に対応した平均相対位置ベクトルの代わりに、基準画素位置から１フレーム前で算出された関節中心までの距離（相対位置ベクトルの長さ）を参照することを意味する。
以上説明した処理以外に関しては、全て第１の実施形態の処理と同様であるため、説明を省略する。

このように、本実施形態におけるパターン認識装置では、１フレーム前の距離画像もしくは現在のフレームの距離画像を元にした凡その関節位置を参照し、再帰的にパターン認識処理を実行する。このようにすることにより、特徴量の一致度を算出する画素範囲をより適切に設定することが可能になり、結果として投票に対する重み付け量を正しく算出することが可能となる。

［第７の実施形態］
以下、図面を参照して本発明の第７の実施形態を説明する。
本実施形態におけるパターン認識装置は、第４の実施形態におけるパターン認識処理に対し、入力パターン中の認識対象物の運動カテゴリが予め分っている点と、さらに投票処理工程５における近接範囲設定工程６の処理が異なっている。
従って、本実施形態では、第４の実施形態において説明した内容に関しては説明を省略し、本実施形態に特有の点についてのみ説明を行う。

まず、本実施形態におけるパターン認識装置は、前述したように、パターン認識処理に際して入力パターン中の認識対象物の運動カテゴリが予め判明しているものとする。
例えば、第１の実施形態で説明したパターン認識装置を時系列に連続する距離画像に適用した場合に、１フレーム前の距離画像中の人体関節位置より、距離画像中の人体の運動カテゴリが判別されているものとする。

または、第１の実施形態で説明したパターン認識処理を現在のフレームの距離画像に適用して算出した人体の関節位置より、距離画像中の人体の運動カテゴリが判別されているものとしてもよい。

ここで、算出した人体関節位置より運動カテゴリを判別する方法としては、各関節位置の人体重心位置に対する相対位置ベクトル群を入力とし、事前に設定した運動カテゴリの種類を出力とするように学習されたニューラルネットを用いるものが考えられる。
なお、人体関節位置より運動カテゴリを判別する方法はその他のものでもよく、本発明はこれを限定するものではない。また、運動カテゴリが本実施形態におけるパターン認識装置のユーザにより設定されるものであっても構わない。

続いて、本実施形態では、第４の実施形態で説明したパターン認識処理と同様の処理を現在のフレームの距離画像に対して実行するのであるが、その際の投票処理工程５における近接範囲設定工程６の処理が異なっている。
すなわち、本実施形態では、前述したように距離画像中の人体に関してその運動カテゴリが分かっているため、その情報を活用して近接範囲設定工程６において近接する画素範囲を設定する。

具体的には、近接範囲設定工程６において、第４の実施形態では、各画素毎に時間的に近接するフレームの範囲を認識対象の特性に基づいて設定する際に、各関節の動き易さを参照した。本実施形態では、前述した運動カテゴリに基づいて決定される各関節の動き易さを参照する。

例えば、運動カテゴリとして「歩行」と「腕の回転」が事前に設定されているとする。この時、運動カテゴリごとに認識対象となる人体の１２種類の関節を以下のようにグループ分けし、それぞれのグループに対応して時間的に近接するフレームの範囲を設定する。

＊「歩行」
動き易さ中：腰、首、左肩、右肩 ⇒ ４フレーム前まで
動き易さ大：左手首、右手首、左足首、右足首、
左膝、右膝、左肘、右肘 ⇒ １フレーム前まで

＊「腕の回転」
動き易さ小：首、腰、左膝、右膝、左足首、右足首 ⇒ ８フレーム前まで
動き易さ中：左肩、右肩 ⇒ ４フレーム前まで
動き易さ大：左肘、右肘、左手首、右手首 ⇒ １フレーム前まで
以上の処理を、辞書を参照して得られた投票先の全ての想定関節に対して実行することにより、関節ごとに、時間的に近接するフレームの範囲を設定する。

なお、本実施形態で説明した、運動カテゴリに基づいて決定される関節の動き易さに対応した近接画素範囲のグループ分けは、事前に辞書に記載されているものとして構わない。
近接範囲設定工程６以降の処理に関しては、第４の実施形態と同様であるため、詳細な説明は割愛する。

このように、本実施形態におけるパターン認識装置では、１フレーム前の距離画像もしくは現在のフレームの距離画像を元にして判別した人体の運動カテゴリを参照し、再帰的にパターン認識処理を実行する。このようにすることにより、特徴量の一致度を算出する画素範囲をより適切に設定することが可能になり、結果として投票に対する重み付け量を正しく算出することが可能となる。

本発明の実施形態における、近接範囲設定工程６において、時間もしくは空間的に近接する特徴量の範囲を設定する際に参照する認識対象物の特性は、過去の入力パターンに対して算出したパターン認識結果における認識対象物の特性である。または、同一の入力パターンに対して別途算出したパターン認識結果における認識対象物の特性である。

（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、前述した実施形態の機能を実現するソフトウェア（コンピュータプログラム）を、ネットワーク又は各種のコンピュータ読み取り可能な記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

１距離画像撮影装置
２ＰＣ
３被写体
４特徴量抽出工程
５投票処理工程
６近接範囲設定工程
７特徴量一致度算出工程
８重み算出工程
９重み付け投票処理工程
１０距離画像準備工程
１１サンプル点特徴量抽出工程
１２集計処理工程
１３肩関節中心位置
１４肘関節中心位置
１５人体の末端に位置する関節
１６人体の重心に近い位置に存在する関節
２０パターン認識装置
２１ＣＰＵ
２２ＲＯＭ
２３ＲＡＭ
２４バス

Claims

入力画像に含まれる複数の画素それぞれの特徴量を抽出する抽出手段と、
前記複数の画素それぞれについて、当該画素の特徴量と、当該画素の周囲の領域に含まれる１以上の画素の特徴量との一致度を算出する算出手段と、
前記抽出した特徴量と前記算出した一致度とに基づいて、前記複数の画素それぞれから、複数の認識対象の中から１以上の認識対象に投票することにより、前記複数の認識対象の位置を推定する推定手段と、
を有することを特徴とする画像処理装置。
前記一致度に基づいて、前記投票の際の重みを算出する重み算出手段を更に有し、
前記推定手段は、前記算出した重みを用いて前記投票を行うことを特徴とする請求項１に記載の画像処理装置。
前記重み算出手段は、前記一致度の逆数により前記投票の際の重みを算出することを特徴とする請求項２に記載の画像処理装置。
前記推定手段は、予め学習された前記特徴量に対応する認識対象の頻度値もしくは存在確率を投票空間に投票することを特徴とする請求項１から３のいずれか１項に記載の画像処理装置。
前記推定手段は、特徴量と当該特徴量に対して候補となる前記認識対象との関係について予め学習された情報と、前記抽出手段により抽出された特徴量と、に基づいて、前記投票を行うことを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。
前記抽出手段は、前記特徴量としてビット符号列またはベクトルデータを算出することを特徴とする請求項１から５のいずれか１項に記載の画像処理装置。
前記抽出手段は、前記入力画像の各画素に対して予め定められた複数組の画素の特徴量の大小関係を、前記ビット符号列として算出することを特徴とする請求項６に記載の画像処理装置。
前記算出手段は、前記複数の画素それぞれにおいて、当該画素の特徴量と当該画素の周囲の領域に含まれる１以上の画素の特徴量との相関係数を用いて、前記一致度を算出することを特徴とする請求項１から７のいずれか１項に記載の画像処理装置。
前記算出手段は、前記複数の画素それぞれにおいて、当該画素の特徴量と当該画素の周囲の領域に含まれる１以上の画素の特徴量とのハミング距離の逆数を用いて、前記一致度を算出することを特徴とする請求項１から７のいずれか１項に記載の画像処理装置。
前記複数の画素それぞれについて、当該画素に対応する認識対象の種類に基づいて前記周囲の領域に含まれる画素の数を変更する変更手段を更に有することを特徴とする請求項１から９のいずれか１項に記載の画像処理装置。
前記変更手段は、前記認識対象の種類のサイズが大きいほど、前記周囲の領域に含まれる画素の数が大きくなるよう、前記画素の数を変更することを特徴とする請求項１０に記載の画像処理装置。
前記変更手段は、前記認識対象への距離、前記入力画像から抽出された速度ベクトル、前記認識対象の運動カテゴリのいずれか１つに基づいて、前記周囲の領域に含まれる画素の数を変更することを特徴とする請求項１０に記載の画像処理装置。
前記認識対象は人体の関節であることを特徴とする請求項１０に記載の画像処理装置。
前記変更手段は、前記関節の動きやすさ、または前記関節の大きさに基づいて、前記周囲の領域に含まれる画素の数を変更することを特徴とする請求項１３に記載の画像処理装置。
前記変更手段は、前記認識対象の過去の認識結果に基づいて前記周囲の領域に含まれる画素の数を変更することを特徴とする請求項１０に記載の画像処理装置。
前記周囲の領域は、前記複数の画素それぞれに隣接する１画素以上から成る領域であることを特徴とする請求項１から１５のいずれか１項に記載の画像処理装置。
入力画像に含まれる複数の画素それぞれの特徴量を抽出する抽出手段と、
前記複数の画素それぞれについて、当該画素の特徴量と、当該画素における１以上の異なるタイミングで取得された特徴量との一致度を算出する算出手段と、
前記抽出した特徴量と前記算出した一致度とに基づいて、前記複数の画素それぞれから、複数の認識対象の中から１以上の認識対象に投票することにより、前記複数の認識対象の位置を推定する推定手段と、
を有することを特徴とする画像処理装置。
前記入力画像から抽出された速度ベクトル、前記認識対象の運動カテゴリのいずれか１つに基づいて、前記１以上の異なるタイミングの範囲を変更する変更手段を更に有することを特徴とする請求項１７に記載の画像処理装置。
入力画像に含まれる複数の画素それぞれの特徴量を抽出する抽出ステップと、
前記複数の画素それぞれについて、当該画素の特徴量と、当該画素の周囲の領域に含まれる１以上の画素の特徴量との一致度を算出する算出ステップと、
前記抽出した特徴量と前記算出した一致度とに基づいて、前記複数の画素それぞれから、複数の認識対象の中から１以上の認識対象に投票することにより、前記複数の認識対象の位置を推定する推定ステップと、
を有することを特徴とする画像処理方法。
入力画像に含まれる複数の画素それぞれの特徴量を抽出する抽出ステップと、
前記複数の画素それぞれについて、当該画素の特徴量と、当該画素における１以上の異なるタイミングで取得された特徴量との一致度を算出する算出ステップと、
前記抽出した特徴量と前記算出した一致度とに基づいて、前記複数の画素それぞれから、複数の認識対象の中から１以上の認識対象に投票することにより、前記複数の認識対象の位置を推定する推定ステップと、
を有することを特徴とする画像処理方法。
コンピュータを、請求項１から１８のいずれか１項に記載の画像処理装置として機能させるためのプログラム。