JP4060261B2

JP4060261B2 - 画像に含まれる身体形状を判定する方法及び非接触型ポインティング・デバイスの実現方法

Info

Publication number: JP4060261B2
Application number: JP2003357082A
Authority: JP
Inventors: 聖星野; 悟小渡
Original assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Priority date: 2003-10-16
Filing date: 2003-10-16
Publication date: 2008-03-12
Anticipated expiration: 2023-10-16
Also published as: JP2005122492A

Description

本発明は、画像に含まれる身体形状を判定する方法及びこの方法を用いて非接触型ポインティング・デバイスを実現する方法に関するものである。

マウス、トラックボール、タブレットなどのポインティング・デバイスは、ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ（以下、ＧＵＩ）を構成する上で不可欠な要素であり、その中でも現在は操作が直感的で分かりやすいということでマウスが広く利用されている。しかし、人間から計算機への意思伝達を自然に行なえるマン・マシンインターフェースという観点からみると、マウスをはじめとする一般的なポインティング・デバイスは、操作を行なうにはユーザがデバイスに直接触れる必要がある。一方、コンピュータの利用分野は、仮想環境、モバイル環境、ユビキタス環境などと実生活全般に大きく拡大しつつあり、また、計算機の急速な普及に伴いユーザがより良い操作性や自然な操作感覚をえられるインターフェースが求められている。これらの環境で用いられるポインティング・デバイスは、ユーザを空間内に固定するものであってはならない。また、モバイル環境においては、計算機の小型化により機器の表面積が減少するため、従来のユーザの指先やスタイラスペンなどが機器に接することによるポインティング・デバイスを実装することは困難になってきている。一般にポインティング・デバイスは、ポインティング機構とスイッチ機構から成り立つことから、これらの機構をユーザの身体動作から推定できれば、上記の制限から解放されるものと思われる。

ユーザの身体動作からポインティング・デバイスを実現する手法としては、腕の筋収縮信号を用いたＥＭＧ制御型デバイス（辻敏夫、福田修、村上満、金子真、“ニューラルネットを利用したＥＭＧ制御型ポインティングデバイス、”計測自動制御学会論文集、ｖｏｌ．３７、ｎｏ．５、ｐｐ．４２５−４３１、２００１．）[非特許文献１］、両足で板を傾斜させて操作する両足操作型デバイス（久米祐一郎、井上啓、“両足操作型ポインティングデバイスの検討、”映像情報メディア学会誌、ｖｏｌ．５４、ｎｏ．６、ｐｐ．８７１−８７４、２０００．）［非特許文献２］、３系統のセンサを組み合わせた「Ｕｂｉ−Ｆｉｎｇｅｒ」（塚田浩二、安村通晃、“Ｕｂｉ−Ｆｉｎｇｅｒ：モバイル指向ジェスチャ入力デバイスの研究、”情報処理学会論文誌、ｖｏｌ．４３、ｎｏ．１２、ｐｐ．３６７５−３６８４、２００２．）［非特許文献３］などが提案されている。その他にも身振り手ぶりなどのジェスチャ識別までを含めると、データグローブ、磁気式モーションキャプチャ、加速度センサ、関節角度検出センサといったセンサを体に装着することで身体動作を計測することでジェスチャ識別を行なう各種の手法が提案されている（澤田秀之、橋本周司、“加速度センサを用いたジェスチャ認識と音楽制御への応用、”信学論Ａ、ｖｏｌ．７９−Ａ、ｎｏ．２、ｐｐ．４５２−４５９、１９９６．）［非特許文献４］、（宮尾淳一、“手話学習システムのための手話単語特徴に基づく教授法”、信学論Ｄ−Ｉ、ｖｏｌ．Ｊ８３−Ｄ−Ｉ、ｎｏ．１０、ｐｐ．１１２０−１１２８、２０００．）［非特許文献５］。これらはセンサを直接体に装着することと専用の機材を用いることで処理の高速性、安定性、計測精度を実現できるが、特殊な機材を装着することになるためユーザに対して拘束感や不自然な使用感を与えてしまい、快適とは言いがたい。これに対して非接触型の手法としては、超音波の位相差を用いた位置計測手法（野中秀俊、伊達惇、“超音波の位相差を利用したポインティング装置（ＳＰＤ）の開発、”計測自動制御学会論文集、ｖｏｌ．２９、ｎｏ．７、ｐｐ．７３５−７４４、１９９３．）［非特許文献６］、複数のカメラを用いる手法（渡辺博己、本郷仁志、安本護、山本和彦、“マルチカメラを用いた全方位ポインティングジェスチャの方向推定、”電学論Ｃ、ｖｏｌ．１２１、ｎｏ．９、ｐｐ．１３８８−１３９４、２００１．）［非特許文献７］などがある。しかしこれらは特殊な機材を使用することになるため、一般のユーザが利用するのは難しい。通常のカメラを用いて追跡領域の低次のモーメント特徴を用いる手法（高松亮、佐藤誠、“最適視点視野による掌の追跡と手指形状認識に基づくポインティングデバイスの提案、”ヒューマンインターフェース学会、ｖｏｌ．１、ｎｏ．１、ｐｐ．４５−５２、１９９９．）［非特許文献８］も提案されているが、低次のモーメントは対象の大きさや各方向の広がりなどの情報程度しか持たないため、対象が回転すると広がりの方向が変わり誤認識を起こす、細かな形状が扱えないなどの欠点を有する。そのため、一般のユーザが快適に利用することを考慮すると、このときのポインティング・デバイスは、非接触でリアルタイム処理が可能で、取り付け箇所や空間を自由に設定できること、また、十分に小型で軽量で安価であることが必要である。

このような事情から、発明者等は非接触型デバイスである単眼カメラを用い、画像からユーザの手の位置と形状を推定することで、ユーザに対して拘束感や不自然な使用感を与えないポインティング・デバイスの構築を検討した。本システムでは、取り込み画像を直交座標系から対数極座標系に変換することで、画像のデータ量を減らし計算コストを削減することで、通常のカメラ以外の専用ハードウェアを用いずにリアルタイム性を実現し、対数極座標空間の高次局所自己相関特徴を用いることで背景の変化や手の回転に対しての頑健性を実現する方法を先に提案した（小渡悟、星野聖、“単眼動画像からの手の位置と形状の推定に基づくポインティングデバイスの提案、”電子情報通信学会技術研究報告、ＨＩＰ２００２−７６、ｐｐ．７９−８４、２００３．）［非特許文献９］。
辻敏夫、福田修、村上満、金子真、"ニューラルネットを利用したＥＭＧ制御型ポインティングデバイス、"計測自動制御学会論文集、ｖｏｌ．３７、ｎｏ．５、ｐｐ．４２５−４３１、２００１．久米祐一郎、井上啓、"両足操作型ポインティングデバイスの検討、"映像情報メディア学会誌、ｖｏｌ．５４、ｎｏ．６、ｐｐ．８７１−８７４、２０００．塚田浩二、安村通晃、"Ｕｂｉ−Ｆｉｎｇｅｒ：モバイル指向ジェスチャ入力デバイスの研究、"情報処理学会論文誌、ｖｏｌ．４３、ｎｏ．１２、ｐｐ．３６７５−３６８４、２００２．澤田秀之、橋本周司、"加速度センサを用いたジェスチャ認識と音楽制御への応用、"信学論Ａ、ｖｏｌ．７９−Ａ、ｎｏ．２、ｐｐ．４５２−４５９、１９９６．宮尾淳一、"手話学習システムのための手話単語特徴に基づく教授法"、信学論Ｄ−Ｉ、ｖｏｌ．Ｊ８３−Ｄ−Ｉ、ｎｏ．１０、ｐｐ．１１２０−１１２８、２０００．野中秀俊、伊達惇、"超音波の位相差を利用したポインティング装置（ＳＰＤ）の開発、"計測自動制御学会論文集、ｖｏｌ．２９、ｎｏ．７、ｐｐ．７３５−７４４、１９９３．渡辺博己、本郷仁志、安本護、山本和彦、"マルチカメラを用いた全方位ポインティングジェスチャの方向推定、"電学論Ｃ、ｖｏｌ．１２１、ｎｏ．９、ｐｐ．１３８８−１３９４、２００１．高松亮、佐藤誠、"最適視点視野による掌の追跡と手指形状認識に基づくポインティングデバイスの提案、"ヒューマンインターフェース学会、ｖｏｌ．１、ｎｏ．１、ｐｐ．４５−５２、１９９９．小渡悟、星野聖、"単眼動画像からの手の位置と形状の推定に基づくポインティングデバイスの提案、"電子情報通信学会技術研究報告、ＨＩＰ２００２−７６、ｐｐ．７９−８４、２００３．

しかしながら非特許文献９で提案した方法では、高次局所自己相関特徴を抽出するステップでは、画像から切り分けるセルに含まれる画素の濃度を予め定めた基準と比較して、その基準より大きいか否かにより“０”か“１”の２値で表現していたため、設計者が適切な閾値を設定する手間が必要であった。また抽出のために使用する局所パターンとして、点画像または線画像成分を強調するための複数種類の局所パターンを予め定めているが、従来の局所パターンでは点画像または線画像成分を十分に強調することができなかった。そのため従来の方法では、身体形状の判定精度が必ずしも高くなく、また識別の不安定さが大きいという問題があった。

本発明の目的は、従来よりも身体形状の判定精度が高い画像に含まれた身体形状を判定する方法及び該方法を用いた非接触型ポインティング・デバイスの実現方法を提供することにある。

本発明の他の目的は、従来の方法よりも身体形状の判定精度が高く且つ識別の安定性が高い、画像に含まれた身体形状を判定する方法及び該方法を用いた非接触型ポインティング・デバイスの実現方法を提供することにある。

本発明の画像に含まれた身体形状を判定する方法では、学習ステップと判定ステップとをコンピュータにより実施する。学習ステップでは、まず予め所定の複数種類の身体動作についての学習用の動画像の各フレームについて対数極座標変換を行って対数極座標画像を取得する。そして各フレームについての対数極座標画像を複数の画素からなるセルに切り分けて各セルについての高次局所自己相関特徴を抽出し、抽出した複数の高次局所自己相関特徴に基づいて各フレームに示された身体形状の高次局所自己相関パターンを抽出し、高次局所自己相関パターンに基づいて動画像に含まれる各フレームに示された身体形状を判定するための判定基準を定める。また判定ステップでは、実際の身体動作についての動画像の各フレームについて対数極座標変換を行って実際の対数極座標画像を取得する。そして学習ステップと同様に、各フレームについての対数極座標画像を複数の画素からなるセルに切り分けて各セルについての実際の高次局所自己相関特徴を抽出し、抽出した複数の実際の高次局所自己相関特徴に基づいて各フレームに示された身体形状の実際の高次局所自己相関パターンを抽出し、実際の高次局所自己相関パターンと判定基準を用いてフレームに示された身体形状を判定する。

学習ステップの高次局所自己相関特徴及び判定ステップの実際の高次局所自己相関特徴を抽出するための特徴抽出ステップでは、まずセルに含まれる点画像または線画像成分を強調するための複数種類の局所パターンを予め定めておき、セルの画素に含まれる情報と複数種類の局所パターンに示された情報との演算条件とに基づいて１つのセルの情報について局所パターンの数に対応した複数の演算値を求め、該複数の演算値により高次局所自己相関特徴を構成する。そして高次局所自己相関パターンを抽出する相関パターン抽出ステップでは、フレームから切り出した複数のセルについて求めた複数の演算値を局所パターンに対応して加算して得た複数の加算値により高次局所自己相関パターンを抽出する。特に、本発明においては、特徴抽出ステップにおいて、セルの画素に含まれる情報として濃度を用いる。そして複数種類の局所パターンの演算条件としてセルに含まれる画素間の濃度差を強調する条件を用いる。従来は、セルに含まれる画素の濃度を予め定めた基準と比較して、その基準より大きいか否かにより“０”か“１”の２値で表現していたのに対して、本発明ではセルの画素に含まれる情報として濃度をそのまま用いるので、情報は２値ではなく多値となる。その上で、これら多値と積算される複数種類の局所パターンの演算条件としてセルに含まれる画素間の濃度差を強調する条件を用いると、多値の濃度の差はより大きなものとなり、身体形状の判定精度を高めることができる。

ここで複数種類の局所パターンの演算条件には、１つの画素の濃度を示す値を累乗する条件を含めるのが好ましい。このように累乗する条件を含めると、濃度差はより顕著なものとなり、確実に判定精度を高めることができる。また局所パターンの種類を増やすことができるので、その分判定の精度と安定性を増大させることができる。

具体的には、セルをｎ×ｎ個（ｎは２以上の整数）の画素の集合から構成し、フレームからセルを切り分ける際に、前に切り分けたセルと後から切り分けるセルとが一部重なるように切り分けるのが好ましい。このようにすると処理すべきデータ量は多くなるものの、フレーム内をより細かく精査することになるので、判定精度を更に高めることができる。

また判定ステップでの判定手法は任意である。しかし判定ステップでは、ニューラルネットを用いて高次局所相関パターンを自己組織化することにより身体形状を判定すると、従来よりも判定精度及び安定性を共に高めることができる。

上記の本発明の画像に含まれる身体形状を判定する方法をコンピュータ上で実施して、人間の手形形状を判定し、手形形状をポインティングとすると、手形を利用した非接触型ポインティング・デバイスをより高い精度で実現できる。

本発明によれば、従来の方法に比べて、身体形状の判定の精度と安定性を高めることができる。

図１は、本発明の方法を用いて手の形状及び動作（身体形状）により非接触型ポインティング・デバイスを実現する場合のステップをブロック図形式で示したものであり、図２は、本発明の画像に含まれる身体形状を判定する方法をコンピュータを用いて実現する場合に用いるソフトウエアのアルゴリズムを示すフローチャートである。

図１のステップＳ１は学習ステップであり、Ｓ２は判定ステップであり、Ｓ３はジェスチャ認識ステップである。学習ステップＳ１においては、固定単眼カメラ（ＣＣＤカメラ）で撮影された時系列画像（学習用の動画）の各フレームの画像を入力として、ステップＳ１０２で対数極座標変換を行う。この対数極座標変換ステップＳ１０２は、フレームの画像を網膜と大脳視覚領との写像関係を近似した対数極座標画像に変換するものである。Ｓｃｈｗａｒｔｚはこの網膜−皮質間の関係は、対数極座標変換（ＬｏｇＰｏｌａｒＭａｐｐｉｎｇ；以下、ＬＰＭと略す）によって近似できる（Ｅ．Ｌ．Ｓｃｈｗａｒｔｚ、“Ｃｏｍｐｕｔａｔｉｏｎａｌａｎａｔｏｍｙａｎｄｆｕｎｃｔｉｏｎａｌａｒｃｈｉｔｅｃｔｕｒｅｏｆｓｔｒｉａｔｅｃｏｒｔｅｘ：ａｓｐａｔｉａｌｍａｐｐｉｎｇａｐｐｒｏａｃｈｔｏｐｅｒｃｅｐｔｕａｌｃｏｄｉｎｇ、”ＶｉｓｉｏｎＲｅｓｅａｒｃｈ、ｖｏｌ．２０、ｎｏ．８、ｐｐ．６４５−６６８、１９８０．）としており、本願明細書においても、このＬＰＭを用いて対数極座標画像を生成する。

対数極座標変換画像の生成は以下のようにして行う。すなわち直交画像での座標Ｉ（ｘ、ｙ）を複素平面Ｚとし、そのときの複素平面上の点をｚ＝ｘ＋ｉｙと表現する。つぎにＬＰＭの座標Ｌ（ｐ、ｑ）も同様に複素平面Ｗとし、そのときの複素平面上の点をｗ＝ｐ＋ｉｑと表現する。このとき、ＬＰＭは式（１）となる。

ｗ＝ｌｏｇ（ｚ＋α） …（１）
ここで、αは原点が特異点となるのをさけるための並進量である。ＬＰＭにより、原画像Ｉは角度方向、半径方向の各成分に分解される。図３からも分かるように、半径方向のサンプリングは対数的なものとなるため、周辺部の情報は中心部に比べると大まかに捉えられている。そのため、中心部で高解像度を保ちつつ、周辺部にいくにつれ解像度を下げていくため、空間の状況を大まかに捉えデータ量を大幅に削減し、また処理時間を減少させることができる。ＬＰＭの例として、図４（ａ）の画像を図４（ｂ）に示す点においてサンプリングを行なった結果を図４（ｃ）に示す。またその逆変換を図４（ｄ）に示す。入力画像からＬＰＭを行う際、各画素がＬＰＭ画像のどの画素に対応しているかを計算する必要がある。本実施の形態では、入力画像の画像サイズは一定のため、変換処理の扱いを容易にするために、あらかじめ前処理の段階で各画素の対応点を求め、ルックアップテーブルを作成する。このようにすることで変換処理の扱いが容易になり、計算時間の短縮になる。

本実施の形態では、上記のようにして求めた各フレームについての対数極座標画像を、ステップＳ１０３で複数の画素からなるセルに切り分けて各セルについての高次局所自己相関特徴を抽出する。概念的に説明すれば、図５に示すようにフレームの対数極座標画像１からｎ×ｎ（本実施の形態では３×３）の画素を切り出す。例えば、図５の例では、第１のセルを構成する画素として画素（１，２，３，１０１，１０２，１０３，２０１，２０２，２０３）を切り出した後、第２のセルを構成する画素として画素（２，３，４，１０２，１０３，１０４，２０２，２０３，２０４）を切り出す。このように各セルを切り出す際に、一部の画素が重なるようにすると、形状の検出精度が高くなる。本実施の形態では、図６に概念的に示すように、各セルの画素に含まれる情報として濃度を用いる。図６の各画素内の数字は濃度の程度を示している。そして学習ステップＳ１の高次局所自己相関特徴を抽出するための特徴抽出ステップＳ１０４では、まずセルに含まれる点画像または線画像成分を強調するための複数種類の局所パターンを予め定めておく。図７は本実施の形態で用いる複数種類の局所パターンとして３５種類の局所パターンＭ１〜Ｍ３５の例を示している。図７の局所パターンでは、３５種類の局所パターンの演算条件として、セルに含まれる画素間の濃度差を強調する条件を用いている。例えば、局所パターンＭ１の中心の画素に対応する部分の数字「１」は、セルの対応画素の濃度を１累乗することを意味し、局所パターンＭ２の中心の画素に対応する部分の数字「１１」は、セルの対応画素の濃度を二乗することを意味し、局所パターンＭ２の中心の画素に対応する部分の数字「１１」は、セルの対応画素の濃度を二乗することを意味し、局所パターンＭ７の中心の画素に対応する部分の数字「１１１」は、セルの対応画素の濃度を三乗することを意味する。

高次局所自己相関特徴を得るためには、各セルの画素に含まれる情報（図６に示すような数値情報として表示された濃度）と３５種類の局所パターンＭ１〜Ｍ３５に示された情報との演算条件（図７の局所パターン中の累乗）とに基づいて１つのセルの情報について局所パターンの数に対応した複数の演算値を求める。ここで求める演算値とは、図６に示す９つの画素の濃度Ｎ１を局所パターンＭ１の対応する位置の累乗数で累乗して得た値を加算した値（２^１）である。図６に示す９つの画素の濃度Ｎ１と局所パターンＭ８の演算値は、（２^２＋３^１）である。この演算を図８に示すように便宜状ΣＮ１^Ｍ１と表記するものとする。具体的には、図６に示す９つの画素の濃度Ｎ１と３５種類の局所パターンＭ１〜Ｍ３５の演算値をそれぞれ求め、この演算値を各セルについての高次局所自己相関特徴として抽出する。そしてこのようにして抽出した複数の高次局所自己相関特徴に基づいて各フレームに示された身体形状の高次局所自己相関パターンを抽出する。具体的には、図８に示すように、各セルについての高次局所自己相関特徴を加算した値により高次局所自己相関パターンを抽出する。図８は、高次局所自己相関パターンの作り方を概念的に示している。そして抽出した複数の高次局所自己相関特徴に基づいて各フレームに示された身体形状の高次局所自己相関パターンを抽出し、高次局所自己相関パターンに基づいて動画像に含まれる各フレームに示された身体形状を判定するための判定基準を定める（ステップＳ１０４）。

例えば、マウス様の機能を実現するには、ポインティング、マウスの右ボタン、左ボタンを判別しなければならない。また、ジェスチャの入力キーとなる手形状を加えると最低でも４クラスを識別しなければならない。本実施の形態では、例えば手形状として図９の４種類を設定するものとする。図９の（ａ）はポインティング、（ｂ）はマウスの右ボタン、（ｃ）は左ボタン、（ｄ）はジェスチャの入力キーに対応する。本例では、これらのジェスチャについてそれぞれ判定基準を定める。

なお前述の対数極座標画像Ｌからの特徴抽出には高次局所自己相関関数（栗田多喜夫、“柔らかな情報処理のための統計的手法の応用に関する研究、”電総研研究報告、ｖｏｌ．ｊ９５７、ｐｐ．１２６−１４０、１９９３．）を用いることができる。これは画面内の対象画像をｆ（ｒ）とすると、Ｎ次自己相関関数は、変位方向（ａ１，ａ２，．．．，ａＮ）に対して式（２）として定義される。

ここでは高次自己相関係数の次数Ｎを２とし、また、変位方向を参照点ｒの周りの局所的な３×３画素の領域に限定した。

局所パターンとしては、図１０に示す公知の局所パターンを用いてもよい。図１０の例では、平行移動による等価な特徴を除いているため、特徴の数は２５個になる。図中の黒で塗りつぶした部分は、局所パターンの対応する画素の位置に対応する。局所パターンの対応する画素の値の積を全画素に対して足し合わせることで、各セルについての高次局所自己相関特徴が抽出される。

図１に示すように、実際の判定を行うためには、動画像を入力し（ステップＳ２０１）、各フレームについての対数極座標画像を複数の画素からなるセルに切り分けて（図２のステップＳ２１）各セルについての実際の高次局所自己相関特徴を抽出する（ステップＳＴ２０２）。そして抽出した複数の実際の高次局所自己相関特徴に基づいて動画像入力の各フレームに示された身体形状の実際の高次局所自己相関パターンを抽出して順次記憶し（ステップＳ２０３：図２のステップＳ２２）、実際の高次局所自己相関パターンと判定基準を用いてフレームに示された身体形状を判定する（ステップＳ２０４）。

本実施の形態では、図２に示すように、身体形状の判定にニューラルネットの自己組織化を用いる。図１１は、ニューラルネットの自己組織化を説明するために用いる図である。図１１において、入力層はｎ個のニューロンを持ち、本実施の形態では局所自己相関関数の局所パターン数と同じくｎ＝３５となる。入力層と結合層のあいだには、０から１までの間で連続量で値が変動する結合荷重Ｗがある。各入力層からの入力は結合加重により重み付け線形加算され結合層ニューロンの出力となる。出力層ニューロンの数は弁別したいパターン数であり、１０動作を識別できるようにする場合には、ｍ＝１０とする。

最初に、結合加重の初期値を０から１までのあいだでランダムに与える。次に、結合加重の更新を、以下の手順で行う。

（１）次式により、入力ベクトルｖと結合加重ベクトルＷのユークリッド距離が最小となるｃを計算し、それを最適ニューロンｃとして選ぶ（図２のステップＳ２５）。

（２）最適ニューロンｃを中心として近傍ｄにあるニューロンを近傍ニューロンＮｃとする。ｄを求める式は、以下の通りである。

ｄ＝ｄ（０）・（１．０−ｔ／ｒｌｅｎ） …（４）
ここで、ｔは経過回数、ｒｌｅｎは総学習回数（≒１００，０００）、ｄ（０）は初期値（＝２）である。

（３）結合加重Ｗを、次式に従って更新する（図２のステップＳ２６）。

ここで、α（ｔ）（０＜α（ｔ）＜１）は時間とともに単調に減衰する学習パラメータであり、次式に従うものとする。

α（ｔ）＝α（０）・（１．０−ｔ／ｒｌｅｎ） …（６）
ここで、ｔは経過回数、ｒｌｅｎは総学習回数（≒１００，０００）、α（０）は初期値（＝０．０２）である。

（１）から（３）までの操作を多数回（≒１００，０００）繰り返す（図２のステップＳ２７）。

（４）弁別したいパターン（クラス。本件では１０種類）ごとに最も多くの入力データとマッチする出力層ニューロンを見つけ、クラスを割り振る。

（５）続いて、以下の手順により教師信号を与えてパターン分類能力を付加する（図２のステップＳ２８及びＳ２９）。

Ｗｃ（ｔ＋１）＝Ｗｃ（ｔ）＋β（ｔ）（ｖ（ｔ）−Ｗｃ（ｔ）） …（７）
入力ベクトルｖと結合加重ベクトルＷが同じクラスに分類されていたら下記のようになる。

ここで、β（ｔ）は学習パラメータであり、次式に従うものとする。

β（ｔ）＝β（ｔ−１）／（１＋ｓ（ｔ）・β（ｔ−１）） …（９）
ここで、ｓ（ｔ）は分類が正しければ＋１、正しくなければ−１である。

十分なサンプル数で上記手続き（５）の操作を繰り返すことにより、パターン弁別能力が獲得される。

ニューラルネットを用いずに、各クラスにおいて抽出した特徴をもとに重回帰式を求め、識別には重回帰式の目的変数が最大値のクラスを選択し、その最大値が閾値以上のときに、そのクラスに決定するようにしてもよい。

下記の表１は、非特許文献９に記載の従来の方法により図９のパターンの識別実験を行った結果を示している。また下記の表２は、上記ニューラルネットを用いた実施の形態により図９のパターンの識別実験を行った結果を示している。実験では、手の大きさを変え、また対数極座標りサンプリングの解像度も４種類異ならせて行った。表１及び表２の平均及び標準偏差を対比すると明らかなように、上記実施の形態の方法によれば、精度（識別力）が平均７０％台から９０％以上に向上した。また識別の不安定さ（ばらつき）が１／３以下に小さくなった。なおパターンを増やしてもこれらの結果の傾向に大きな差は生じない。

前述の対数極座標変換による処理の利点は、少ない画素数で高解像度、広域の作業範囲を得るだけでなく、スケーリング不変性、変換中心に対する回転不変性を持っており、また、画像のデータ量を減らし画像処理の計算時間を減少させることも期待できる点である。しかし、欠点として非均一なサンプリングなため平行移動に対して画像の形が大きく変わってしまうことから、動的視覚処理には不向きであるとされてきた（ＲｉｃｈａｒｄＷａｌｌａｃｅ，Ｐｉｎｇ−ＷｅｎＯｎｇ，ＢｅｎＢｅｄｅｒｓｏｎ，ａｎｄＥｒｉｃＬ．Ｓｃｈｗａｒｔｚ，“ＳｐａｃｅＶａｒｉａｎｔＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ”ＩｎｔｅｒｎａｔｉｏｎａｌＪｕａｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，ｖｏｌ．１３，ｎｏ．１，ｐｐ．７１−９０，１９９４．）。この欠点を解決するために、対数極座標上で連続した画像からオプティカルフローを求め、その運動方向が２πで変化することを利用して平行移動を求める手法（ＮｏｂｏｒｕＯｋａｊｉｍａ、ＨｉｒｏｋｉＮｉｔｔａａｎｄＷａｔａｒｕＭｉｔｓｕｈａｓｈｉ“ＭｏｔｉｏｎＥｓｔｉｍａｔｉｏｎａｎｄＴａｒｇｅｔＴｒａｃｋｉｎｇｉｎＴｈｅＬｏｇ−ＰｏｌａｒＧｅｏｍｅｔｒｙ”）や、直交座標系における２次元フーリエ変換と同等の結果を対数極座標系から算出できる指数チャープ変換（ＧｉｏｒｇｉｏＢｏｎｍａｓｓａｒ，ａｎｄＥｒｉｃＬ．Ｓｃｈｗａｒｔｚ，“Ｓｐａｃｅ−ＶａｒｉａｎｔＦｏｕｒｉｅｒＡｎａｌｙｓｉｓ：ＴｈｅＥｘｐｏｎｅｎｔｉａｌＣｈｉｒｐＴｒａｎｓｆｏｒｍ、”ＩＥＥＥＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＶｉｓｉｏｎ，ｖｏｌ．１９，ｎｏ．１０，ｐｐ．１０８０−１０８９，１９９７）を用いることで、通常の２次元フーリエ変換と同じように平行移動に対して不変なパラメータを抽出する手法（野村智宣，三橋渉,“中心窩センサの設計と物体認識への応用、”信学技報ＥＩＤ２０００−３１３、ｐｐ．７７−８２、２００１．）が提案されている。しかし、前者は通常の動きベクトルの算出が、画像が変形を伴わずに動くことを前提としている。そのため対数極座標上の画像が物体の平行移動により大きく歪むことから、対象物体が大きく移動すると動きベクトルが正しく算出できず、平行移動のパラメータをうまく算出できないという欠点がある。また、後者は通常の変換より処理時間がかかるため、実時間の処理には不向きである。

そこで本実施の形態では、図１に示すように、対数極座標画像から時間差分（Ｓ３０１）、空間差分（ステップＳ３０２）、肌色情報（Ｓ３０３）を基に輪郭画像を生成し、この輪郭画像の重心をもとに手領域の位置を推定する（Ｓ３０４，Ｓ３０５）。また、手領域の過去の位置情報から移動先を推定する（Ｓ３０６）。そして、肌色情報を用いて抽出した手領域から高次局所自己相関特徴を算出し、重回帰分析により識別を行なう。また、手領域の軌跡を辞書内のデータと比較することでジェスチャ認識を行う。これより、平行移動量をチャープ変換などの複雑な計算をせずに算出することで処理の高速化が図れ、また、詳細な形状に関する情報が捨象された重心を位置の推定に用いることで、対象物体の急激な変化による追跡精度の悪化の可能性を低減させる。また、肌色領域から抽出した色情報と背景差分を用いることで、背景領域の類似した色情報をもつ物体を除去し、対象物体を抽出することができる。

手領域の位置推定について詳しく説明する。まず人物の手領域を抽出し追跡を行うために、時間差分、空間差分、肌色情報を用いる（ステップＳ３０１〜Ｓ３０３）。背景と移動領域の分離は、時系列画像中の移動領域は観測された輝度値の時間的変化に対応するため、時間差分を用いることで容易に行える。しかし、時間差分の結果は、背景と移動領域の輝度値の差に依存してしまうため、照明の変化に影響をうけやすい。そのため、画像中の輝度値の変化が大きい部分は、移動領域のエッジ付近にあることを考慮し、照明の変化に影響されがたい空間差分により得られるエッジ情報を併用する。また、ここでは手領域の抽出が目的であるため、その大きな特徴である肌色情報を用いる（ステップＳ３０４）。以下、入力画像より手指領域の抽出方法について述べる。入力画像より作成した時刻ｔでの対数極座標画像を得る。入力画像より作成した時刻ｔでの対数極座標画像をＬ（ｐ、ｑ、ｔ）とし、このＬ（ｐ、ｑ、ｔ）の時間差分により得られる画像Ｌ１（ｐ、ｑ、ｔ）、空間差分により得られる画像をＬ２（ｐ、ｑ、ｔ）、肌色領域Ｌ３（ｐ、ｑ、ｔ）を次のように計算する。時間差分画像Ｌ１（ｐ、ｑ、ｔ）は、式（１０）に示すように連続した２フレーム間の差分をとることにより得られる。これより時刻ｔの静止領域と運動領域の分割が行われる。

ただし、ｔｈ_ｔは輝度値が変化したかを決定する閾値である。

空間差分画像Ｌ２（ｐ、ｑ）は、時刻ｔにおける画像に対して、式（１１）に示す３×３のＳｏｂｅｌフィルタを施すことで、画像中のエッジを抽出することで得る。

ただし、ｔｈｓはエッジであるかを決定する閾値である。またＬ２（ｐ、ｑ、ｔ）、ＬＨＳ（ｐ、ｑ、ｔ）、ＬＶＳ（ｐ、ｑ、ｔ）は、それぞれ時刻ｔにおける座標（ｐ、ｑ）の空間差分値、ｐ方向Ｓｏｂｅｌオペレータによる値、ｑ方向Ｓｏｂｅｌオペレータによる値を表している。入力画像はＲＧＢ表色系で表現されているが、このＲＧＢ表色系では、各値間の相関が高いため、明るさの変化に大きく影響を受けるという問題がある。そのため本稿では、明るさの変動に影響をうけず、ＲＧＢそれぞれの値が１対１で対応づけられるＬ＊ｕ＊ｖ＊表色系（ＣＩＥ１９７６表色系）に変換し、その中のｕ、ｖ平面を用い、肌色領域の平均値Ｍ（ｕ、ｖ）、分散共分散行列Ｃを求める。これより、肌色領域Ｌ３（ｐ、ｑ、ｔ）は、式（１２）に示すようになる。背景領域の壁やダンボールなどの肌色領域が存在する場合にはその領域も抽出されてしまうが、前述の差分画像との論理積をとることで背景領域として静止している壁やダンボールの領域を除去することができる。

ただし、ｔｈｃは肌色であるかを決定する閾値である。このように式（１０）から式（１２）より得られた情報から式（１３）に示す輪郭画像を得る。

この得られた輪郭画像Ｌｄから重心を算出することにより、時刻ｔにおける入力画像Ｉ中の手の位置ｐ_ｘｙ（ｔ）が算出される。

次に、手領域の重心位置を追跡する方法について述べる。時刻ｔにおける手領域の重心位置をｐ_ｘｙ（ｔ）、手領域の移動速度をｖ（ｔ）、加速度をａ（ｔ）、時刻ｔ−１時による時刻ｔでの手領域の推定重心位置をｐ_ｘｙ（ｔ）とする。ただし、時刻ｔ＝０では手領域の重心位置、推定重心位置を取り込み画像の中心点とし、速度、加速度はともに０と仮定する。時刻ｔにおける手領域の推定重心位置ｐ_ｘｙ（ｔ）は、式（１４）として求まる。この推定重心位置ｐ_ｘｙ（ｔ）は、直交画像からＬＰＭ画像に変換する場合の対数極座標空間の中心点となる。ただし、式中のΔｔはフレーム間隔を表す。

ただし、実際の手領域の重心位置ｐ_ｘｙ（ｔ）と推定重心位置ｐ_ｘｙ（ｔ）が一致しない場合は、時刻ｔ１から時刻ｔまでの間に、式（１５）に示す加速度が生じたものとし、移動速度ｖ（ｔ）は式（１６）とする。

次にジェスチャ推定について説明する。

ジェスチャ動作は、図１２（ａ）のＣｉｒｃｌｅ、（ｂ）のＴｒｉａｎｇｌｅ、（ｃ）のＲｅｃｔａｎｇｌｅ、（ｄ）のＣｒｏｓｓの４種類とした。手指によるジェスチャ認識の場合、一連の手指動作をジェスチャ動作区間とその他の動作区間に分割しなければならない。この場合、連続ＤＰマッチングを用いてジェスチャ区間を指定せずにジェスチャのスポッティング認識を行う手法（西村拓一、向井理朗、野崎俊輔、岡隆一、“動作者適応のためのオンライン教示可能なジェスチャ動画像のスポッティング認識システム、”電子情報通信学会論文誌Ｄ−ＩＩ，ｖｏｌ．Ｊ８１−Ｄ−ＩＩ，ｎｏ．８，ｐｐ．１８２２−１８３０，１９９８．）、手指の動作が極小となる時点を分割位置とする手法（佐川浩彦、竹内勝、“手話認識における手動作セグメンテーション方式、”ヒューマンインターフェースシンポジウム’９９、ｐｐ．７４９−７５４、１９９９．）などがある。計算機の入力デバイスとしてのインターフェースとしてジェスチャ認識を用いることを考慮すると、任意の動作から対象とするジェスチャを認識するよりは、ユーザが入力を意図したときにジェスチャを認識をしたほうが誤動作などを招かなくて都合がよい。そこで本手法では、ユーザが手の動きが極小となり、手形状がシステムに登録されているジェスチャ入力キーと一致したときを動作の開始、または、終了の点として扱い、その間の区間をジェスチャ区間とみなし単純ＤＰマッチングによる照合を行う。一般に画像からの動作区間の推定は、手指の動作が極小となる時点を正確に検出することは難しいが、本手法では動作区間の推定情報として手指動作が極小であるという情報に加え、そのときの手指形状がシステムに登録されているかという情報を加えることで、手指動作の動作区間の決定を実現している。ジェスチャ推定のための特徴ベクトルＳは、ジェスチャ区間の手指の追跡軌跡から得られる軌道ベクトルを用いる。時刻ｔにおける手の位置をｐｘｙ（ｔ）＝（ｘｔ、ｙｔ）とすると、時刻ｔの特徴ベクトルｓ（ｔ）は式（１７）となる。

これより、ジェスチャの推定は、特徴ベクトル｛Ｓ：ｓ１（ｖ、θ）、ｓ２（ｖ、θ）、...、ｓｉ（ｖ、θ）、...、ｓＮ（ｖ、θ）｝と辞書内の参照特徴ベクトル｛Ｔ：ｔ１（ｖ、θ）、ｔ２（ｖ、θ）、...、ｔｊ（ｖ、θ）、...、ｔＭ（ｖ、θ）｝とのコストをＤＰマッチングにより算出し、その中から最小のものを選択することにより行う。

ステップＳ３０８の認識結果と、ステップＳ２０４の判別結果とは、例えばパソコンにインストールされた各種のアプリケーションの選択や起動のために利用可能である。

本発明の方法を用いて手の形状及び動作（身体形状）により非接触型ポインティング・デバイスを実現する場合のステップをブロック図形式で示したものである。画像に含まれる身体形状を判定する方法をコンピュータを用いて実現する場合に用いるソフトウエアのアルゴリズムを示すフローチャートである。対数極座標変換を説明するために用いる図である。（ａ）乃至（ｄ）は、対数極座標変換の実際の例を説明するために用いる図である。フレームからセルを切り出す方法を説明するために用いる図である。濃度を示す情報を含む１つのセルを示す図である。３５種類の局所パターンの例を示す図である。高次局所自己相関パターンの概念を示す図である。（ａ）乃至（ｄ）は、手形の例を示す図である。２５種類の他の局所パターンの例を示す図である。ニューラルネットの自己組織化を説明するための図である。（ａ）乃至（ｄ）は、ジェスチャのパターンを示す図である。

符号の説明

１フレーム
Ｎ１セル
Ｍ１〜Ｍ３５局所パターン

Claims

予め所定の複数種類の身体動作についての学習用の動画像の各フレームについて対数極座標変換を行って対数極座標画像を取得し、前記各フレームについての前記対数極座標画像を複数の画素からなるセルに切り分けて各セルについての高次局所自己相関特徴を抽出し、抽出した複数の高次局所自己相関特徴に基づいて前記各フレームに示された身体形状の高次局所自己相関パターンを抽出し、前記高次局所自己相関パターンに基づいて前記動画像に含まれる各フレームに示された前記身体形状を判定するための判定基準を定める学習ステップと、
実際の身体動作についての動画像の各フレームについて対数極座標変換を行って実際の対数極座標画像を取得し、前記各フレームについての前記対数極座標画像を複数の画素からなるセルに切り分けて各セルについての実際の高次局所自己相関特徴を抽出し、抽出した複数の実際の高次局所自己相関特徴に基づいて前記各フレームに示された身体形状の実際の高次局所自己相関パターンを抽出し、前記実際の高次局所自己相関パターンと前記判定基準を用いて前記フレームに示された前記身体形状を判定する判定ステップとをコンピュータにより実施し、
前記学習ステップの前記高次局所自己相関特徴及び前記判定ステップの前記実際の高次局所自己相関特徴を抽出するための特徴抽出ステップでは、前記セルに含まれる点画像または線画像成分を強調するための複数種類の局所パターンを予め定めておき、前記セルの画素に含まれる情報と前記複数種類の局所パターンに示された前記情報との演算条件とに基づいて、１つの前記セルの情報について前記局所パターンの数に対応した複数の演算値を求め、該複数の演算値により前記高次局所自己相関特徴を構成し、
前記高次局所自己相関パターンを抽出する相関パターン抽出ステップでは、前記フレームから切り出した複数の前記セルについて求めた前記複数の演算値を前記局所パターンに対応して加算して得た複数の加算値により前記高次局所自己相関パターンを抽出することによりコンピュータ上で画像に含まれた身体形状を判定する方法において、
前記特徴抽出ステップでは、前記セルの画素に含まれる情報として濃度を用い、前記複数種類の局所パターンの前記演算条件として前記セルに含まれる画素間の濃度差を強調する条件を用いることを特徴とする画像に含まれた身体形状を判定する方法。
前記複数種類の局所パターンの前記演算条件には、前記１つの画素の前記濃度を示す値を累乗する条件が含まれている請求項１に記載の画像に含まれた身体形状を判定する方法。
前記セルをｎ×ｎ個（ｎは２以上の整数）の画素の集合から構成し、
前記フレームから前記セルを切り分ける際に、前に切り分けたセルと後から切り分けるセルとが一部重なるように切り分けることを特徴とする請求項１に記載の画像に含まれた身体形状を判定する方法。
前記判定ステップでは、ニューラルネットを用いて前記高次局所相関パターンを自己組織化することにより前記身体形状を判定することを特徴とする請求項１または２に記載の画像に含まれる身体形状を判定する方法。
請求項１，２，３または４に記載の画像に含まれる身体形状を判定する方法をコンピュータで実施して、人間の手形形状を判定し、コンピュータ上で前記手形形状をポインティングとすることを特徴とする非接触型ポインティング・デバイスの実現方法。
予め所定の複数種類の身体動作についての学習用の動画像の各フレームについて対数極座標変換を行って対数極座標画像を取得し、前記各フレームについての前記対数極座標画像を複数の画素からなるセルに切り分けて各セルについての高次局所自己相関特徴を抽出し、抽出した複数の高次局所自己相関特徴に基づいて前記各フレームに示された身体形状の高次局所自己相関パターンを抽出し、前記高次局所自己相関パターンに基づいて前記動画像に含まれる前記各フレームに示された前記身体形状を判定するための判定基準を定める学習ステップと、
実際の身体動作についての動画像の各フレームについて対数極座標変換を行って実際の対数極座標画像を取得し、前記各フレームについての前記対数極座標画像を複数の画素からなるセルに切り分けて各セルについての実際の高次局所自己相関特徴を抽出し、抽出した複数の実際の高次局所自己相関特徴に基づいて前記各フレームに示された身体形状の実際の高次局所自己相関パターンを抽出し、前記実際の高次局所自己相関パターンと前記判定基準を用いて前記フレームに示された前記身体形状を判定する判定ステップと、
前記対数極座標画像に基づいて前記身体動作のジェスチャの始点と終点とを認識するジェスチャ認識ステップとをコンピュータにより実施し、
前記学習ステップの前記高次局所自己相関特徴及び前記判定ステップの前記実際の高次局所自己相関特徴を抽出するための特徴抽出ステップでは、前記セルに含まれる点画像または線画像成分を強調するための複数種類の局所パターンを予め定めておき、前記セルの画素に含まれる情報と前記複数種類の局所パターンに示された前記情報との演算条件とに基づいて１つの前記セルの情報について前記局所パターンの数に対応した複数の演算値を求め、該複数の演算値により前記高次局所自己相関特徴を構成し、
前記高次局所自己相関パターンを抽出する相関パターン抽出ステップでは、前記フレームから切り出した複数の前記セルについて求めた前記複数の演算値を前記局所パターンに対応して加算して得た複数の加算値により前記高次局所自己相関パターンを抽出し、
前記判定ステップの判定結果と前記ジェスチャ認識ステップの認識結果とに基づいて前記身体動作により示されたポインティングをコンピュータ上で判別する非接触型ポインティング・デバイスの実現方法であって、
前記特徴抽出ステップでは、前記セルの画素に含まれる情報として濃度を用い、前記複数種類の局所パターンの前記演算条件として前記セルに含まれる画素間の濃度差を強調する条件を用いることを特徴とする非接触型ポインティング・デバイスの実現方法。
前記複数種類の局所パターンの前記演算条件には、前記１つの画素の前記濃度を示す値をべき乗する条件が含まれている請求項６に記載の非接触型ポインティング・デバイスの実現方法。
前記判定ステップでは、ニューラルネットを用いて前記高次局所相関パターンを自己組織化することにより前記身体形状を判定することを特徴とする請求項７に記載の非接触型ポインティング・デバイスの実現方法。