JP4060261B2 - 画像に含まれる身体形状を判定する方法及び非接触型ポインティング・デバイスの実現方法 - Google Patents

画像に含まれる身体形状を判定する方法及び非接触型ポインティング・デバイスの実現方法 Download PDF

Info

Publication number
JP4060261B2
JP4060261B2 JP2003357082A JP2003357082A JP4060261B2 JP 4060261 B2 JP4060261 B2 JP 4060261B2 JP 2003357082 A JP2003357082 A JP 2003357082A JP 2003357082 A JP2003357082 A JP 2003357082A JP 4060261 B2 JP4060261 B2 JP 4060261B2
Authority
JP
Japan
Prior art keywords
image
frame
order local
body shape
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003357082A
Other languages
English (en)
Other versions
JP2005122492A (ja
Inventor
聖 星野
悟 小渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency, National Institute of Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2003357082A priority Critical patent/JP4060261B2/ja
Publication of JP2005122492A publication Critical patent/JP2005122492A/ja
Application granted granted Critical
Publication of JP4060261B2 publication Critical patent/JP4060261B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像に含まれる身体形状を判定する方法及びこの方法を用いて非接触型ポインティング・デバイスを実現する方法に関するものである。
マウス、トラックボール、タブレットなどのポインティング・デバイスは、Graphical User Interface(以下、GUI)を構成する上で不可欠な要素であり、その中でも現在は操作が直感的で分かりやすいということでマウスが広く利用されている。しかし、人間から計算機への意思伝達を自然に行なえるマン・マシンインターフェースという観点からみると、マウスをはじめとする一般的なポインティング・デバイスは、操作を行なうにはユーザがデバイスに直接触れる必要がある。一方、コンピュータの利用分野は、仮想環境、モバイル環境、ユビキタス環境などと実生活全般に大きく拡大しつつあり、また、計算機の急速な普及に伴いユーザがより良い操作性や自然な操作感覚をえられるインターフェースが求められている。これらの環境で用いられるポインティング・デバイスは、ユーザを空間内に固定するものであってはならない。また、モバイル環境においては、計算機の小型化により機器の表面積が減少するため、従来のユーザの指先やスタイラスペンなどが機器に接することによるポインティング・デバイスを実装することは困難になってきている。一般にポインティング・デバイスは、ポインティング機構とスイッチ機構から成り立つことから、これらの機構をユーザの身体動作から推定できれば、上記の制限から解放されるものと思われる。
ユーザの身体動作からポインティング・デバイスを実現する手法としては、腕の筋収縮信号を用いたEMG制御型デバイス(辻敏夫、福田修、村上満、金子真、“ニューラルネットを利用したEMG制御型ポインティングデバイス、”計測自動制御学会論文集、vol.37、no.5、pp.425−431、2001.)[非特許文献1]、両足で板を傾斜させて操作する両足操作型デバイス(久米祐一郎、井上啓、“両足操作型ポインティングデバイスの検討、”映像情報メディア学会誌、vol.54、no.6、pp.871−874、2000.)[非特許文献2]、3系統のセンサを組み合わせた「Ubi−Finger」(塚田浩二、安村通晃、“Ubi−Finger:モバイル指向ジェスチャ入力デバイスの研究、”情報処理学会論文誌、vol.43、no.12、pp.3675−3684、2002.)[非特許文献3]などが提案されている。その他にも身振り手ぶりなどのジェスチャ識別までを含めると、データグローブ、磁気式モーションキャプチャ、加速度センサ、関節角度検出センサといったセンサを体に装着することで身体動作を計測することでジェスチャ識別を行なう各種の手法が提案されている(澤田秀之、橋本周司、“加速度センサを用いたジェスチャ認識と音楽制御への応用、”信学論A、vol.79−A、no.2、pp.452−459、1996.)[非特許文献4]、(宮尾淳一、“手話学習システムのための手話単語特徴に基づく教授法”、信学論D−I、vol.J83−D−I、no.10、pp.1120−1128、2000.)[非特許文献5]。これらはセンサを直接体に装着することと専用の機材を用いることで処理の高速性、安定性、計測精度を実現できるが、特殊な機材を装着することになるためユーザに対して拘束感や不自然な使用感を与えてしまい、快適とは言いがたい。これに対して非接触型の手法としては、超音波の位相差を用いた位置計測手法(野中秀俊、伊達惇、“超音波の位相差を利用したポインティング装置(SPD)の開発、”計測自動制御学会論文集、vol.29、no.7、pp.735−744、1993.)[非特許文献6]、複数のカメラを用いる手法(渡辺博己、本郷仁志、安本護、山本和彦、“マルチカメラを用いた全方位ポインティングジェスチャの方向推定、”電学論C、vol.121、no.9、pp.1388−1394、2001.)[非特許文献7]などがある。しかしこれらは特殊な機材を使用することになるため、一般のユーザが利用するのは難しい。通常のカメラを用いて追跡領域の低次のモーメント特徴を用いる手法(高松亮、佐藤誠、“最適視点視野による掌の追跡と手指形状認識に基づくポインティングデバイスの提案、”ヒューマンインターフェース学会、vol.1、no.1、pp.45−52、1999.)[非特許文献8]も提案されているが、低次のモーメントは対象の大きさや各方向の広がりなどの情報程度しか持たないため、対象が回転すると広がりの方向が変わり誤認識を起こす、細かな形状が扱えないなどの欠点を有する。そのため、一般のユーザが快適に利用することを考慮すると、このときのポインティング・デバイスは、非接触でリアルタイム処理が可能で、取り付け箇所や空間を自由に設定できること、また、十分に小型で軽量で安価であることが必要である。
このような事情から、発明者等は非接触型デバイスである単眼カメラを用い、画像からユーザの手の位置と形状を推定することで、ユーザに対して拘束感や不自然な使用感を与えないポインティング・デバイスの構築を検討した。本システムでは、取り込み画像を直交座標系から対数極座標系に変換することで、画像のデータ量を減らし計算コストを削減することで、通常のカメラ以外の専用ハードウェアを用いずにリアルタイム性を実現し、対数極座標空間の高次局所自己相関特徴を用いることで背景の変化や手の回転に対しての頑健性を実現する方法を先に提案した(小渡悟、星野聖、“単眼動画像からの手の位置と形状の推定に基づくポインティングデバイスの提案、”電子情報通信学会技術研究報告、HIP2002−76、pp.79−84、2003.)[非特許文献9]。
辻敏夫、福田修、村上満、金子真、"ニューラルネットを利用したEMG制御型ポインティングデバイス、"計測自動制御学会論文集、vol.37、no.5、pp.425−431、2001. 久米祐一郎、井上啓、"両足操作型ポインティングデバイスの検討、"映像情報メディア学会誌、vol.54、no.6、pp.871−874、2000. 塚田浩二、安村通晃、"Ubi−Finger:モバイル指向ジェスチャ入力デバイスの研究、"情報処理学会論文誌、vol.43、no.12、pp.3675−3684、2002. 澤田秀之、橋本周司、"加速度センサを用いたジェスチャ認識と音楽制御への応用、"信学論A、vol.79−A、no.2、pp.452−459、1996. 宮尾淳一、"手話学習システムのための手話単語特徴に基づく教授法"、信学論D−I、vol.J83−D−I、no.10、pp.1120−1128、2000. 野中秀俊、伊達惇、"超音波の位相差を利用したポインティング装置(SPD)の開発、"計測自動制御学会論文集、vol.29、no.7、pp.735−744、1993. 渡辺博己、本郷仁志、安本護、山本和彦、"マルチカメラを用いた全方位ポインティングジェスチャの方向推定、"電学論C、vol.121、no.9、pp.1388−1394、2001. 高松亮、佐藤誠、"最適視点視野による掌の追跡と手指形状認識に基づくポインティングデバイスの提案、"ヒューマンインターフェース学会、vol.1、no.1、pp.45−52、1999. 小渡悟、星野聖、"単眼動画像からの手の位置と形状の推定に基づくポインティングデバイスの提案、"電子情報通信学会技術研究報告、HIP2002−76、pp.79−84、2003.
しかしながら非特許文献9で提案した方法では、高次局所自己相関特徴を抽出するステップでは、画像から切り分けるセルに含まれる画素の濃度を予め定めた基準と比較して、その基準より大きいか否かにより“0”か“1”の2値で表現していたため、設計者が適切な閾値を設定する手間が必要であった。また抽出のために使用する局所パターンとして、点画像または線画像成分を強調するための複数種類の局所パターンを予め定めているが、従来の局所パターンでは点画像または線画像成分を十分に強調することができなかった。そのため従来の方法では、身体形状の判定精度が必ずしも高くなく、また識別の不安定さが大きいという問題があった。
本発明の目的は、従来よりも身体形状の判定精度が高い画像に含まれた身体形状を判定する方法及び該方法を用いた非接触型ポインティング・デバイスの実現方法を提供することにある。
本発明の他の目的は、従来の方法よりも身体形状の判定精度が高く且つ識別の安定性が高い、画像に含まれた身体形状を判定する方法及び該方法を用いた非接触型ポインティング・デバイスの実現方法を提供することにある。
本発明の画像に含まれた身体形状を判定する方法では、学習ステップと判定ステップとをコンピュータにより実施する。学習ステップでは、まず予め所定の複数種類の身体動作についての学習用の動画像の各フレームについて対数極座標変換を行って対数極座標画像を取得する。そして各フレームについての対数極座標画像を複数の画素からなるセルに切り分けて各セルについての高次局所自己相関特徴を抽出し、抽出した複数の高次局所自己相関特徴に基づいて各フレームに示された身体形状の高次局所自己相関パターンを抽出し、高次局所自己相関パターンに基づいて動画像に含まれる各フレームに示された身体形状を判定するための判定基準を定める。また判定ステップでは、実際の身体動作についての動画像の各フレームについて対数極座標変換を行って実際の対数極座標画像を取得する。そして学習ステップと同様に、各フレームについての対数極座標画像を複数の画素からなるセルに切り分けて各セルについての実際の高次局所自己相関特徴を抽出し、抽出した複数の実際の高次局所自己相関特徴に基づいて各フレームに示された身体形状の実際の高次局所自己相関パターンを抽出し、実際の高次局所自己相関パターンと判定基準を用いてフレームに示された身体形状を判定する。
学習ステップの高次局所自己相関特徴及び判定ステップの実際の高次局所自己相関特徴を抽出するための特徴抽出ステップでは、まずセルに含まれる点画像または線画像成分を強調するための複数種類の局所パターンを予め定めておき、セルの画素に含まれる情報と複数種類の局所パターンに示された情報との演算条件とに基づいて1つのセルの情報について局所パターンの数に対応した複数の演算値を求め、該複数の演算値により高次局所自己相関特徴を構成する。そして高次局所自己相関パターンを抽出する相関パターン抽出ステップでは、フレームから切り出した複数のセルについて求めた複数の演算値を局所パターンに対応して加算して得た複数の加算値により高次局所自己相関パターンを抽出する。 特に、本発明においては、特徴抽出ステップにおいて、セルの画素に含まれる情報として濃度を用いる。そして複数種類の局所パターンの演算条件としてセルに含まれる画素間の濃度差を強調する条件を用いる。従来は、セルに含まれる画素の濃度を予め定めた基準と比較して、その基準より大きいか否かにより“0”か“1”の2値で表現していたのに対して、本発明ではセルの画素に含まれる情報として濃度をそのまま用いるので、情報は2値ではなく多値となる。その上で、これら多値と積算される複数種類の局所パターンの演算条件としてセルに含まれる画素間の濃度差を強調する条件を用いると、多値の濃度の差はより大きなものとなり、身体形状の判定精度を高めることができる。
ここで複数種類の局所パターンの演算条件には、1つの画素の濃度を示す値を累乗する条件を含めるのが好ましい。このように累乗する条件を含めると、濃度差はより顕著なものとなり、確実に判定精度を高めることができる。また局所パターンの種類を増やすことができるので、その分判定の精度と安定性を増大させることができる。
具体的には、セルをn×n個(nは2以上の整数)の画素の集合から構成し、フレームからセルを切り分ける際に、前に切り分けたセルと後から切り分けるセルとが一部重なるように切り分けるのが好ましい。このようにすると処理すべきデータ量は多くなるものの、フレーム内をより細かく精査することになるので、判定精度を更に高めることができる。
また判定ステップでの判定手法は任意である。しかし判定ステップでは、ニューラルネットを用いて高次局所相関パターンを自己組織化することにより身体形状を判定すると、従来よりも判定精度及び安定性を共に高めることができる。
上記の本発明の画像に含まれる身体形状を判定する方法をコンピュータ上で実施して、人間の手形形状を判定し、手形形状をポインティングとすると、手形を利用した非接触型ポインティング・デバイスをより高い精度で実現でる。
本発明によれば、従来の方法に比べて、身体形状の判定の精度と安定性を高めることができる。
図1は、本発明の方法を用いて手の形状及び動作(身体形状)により非接触型ポインティング・デバイスを実現する場合のステップをブロック図形式で示したものであり、図2は、本発明の画像に含まれる身体形状を判定する方法をコンピュータを用いて実現する場合に用いるソフトウエアのアルゴリズムを示すフローチャートである。
図1のステップS1は学習ステップであり、S2は判定ステップであり、S3はジェスチャ認識ステップである。学習ステップS1においては、固定単眼カメラ(CCDカメラ)で撮影された時系列画像(学習用の動画)の各フレームの画像を入力として、ステップS102で対数極座標変換を行う。この対数極座標変換ステップS102は、フレームの画像を網膜と大脳視覚領との写像関係を近似した対数極座標画像に変換するものである。Schwartzはこの網膜−皮質間の関係は、対数極座標変換(Log Polar Mapping;以下、LPMと略す)によって近似できる(E.L.Schwartz、“Computational anatomy and functional architecture of striate cortex: a spatial mapping approach to perceptual coding、”Vision Research、vol.20、no.8、pp.645−668、1980.)としており、本願明細書においても、このLPMを用いて対数極座標画像を生成する。
対数極座標変換画像の生成は以下のようにして行う。すなわち直交画像での座標I(x、y)を複素平面Zとし、そのときの複素平面上の点をz=x+iyと表現する。つぎにLPMの座標L(p、q)も同様に複素平面Wとし、そのときの複素平面上の点をw=p+iqと表現する。このとき、LPMは式(1)となる。
w=log(z+α) …(1)
ここで、αは原点が特異点となるのをさけるための並進量である。LPMにより、原画像Iは角度方向、半径方向の各成分に分解される。図3からも分かるように、半径方向のサンプリングは対数的なものとなるため、周辺部の情報は中心部に比べると大まかに捉えられている。そのため、中心部で高解像度を保ちつつ、周辺部にいくにつれ解像度を下げていくため、空間の状況を大まかに捉えデータ量を大幅に削減し、また処理時間を減少させることができる。LPMの例として、図4(a)の画像を図4(b)に示す点においてサンプリングを行なった結果を図4(c)に示す。またその逆変換を図4(d)に示す。入力画像からLPMを行う際、各画素がLPM画像のどの画素に対応しているかを計算する必要がある。本実施の形態では、入力画像の画像サイズは一定のため、変換処理の扱いを容易にするために、あらかじめ前処理の段階で各画素の対応点を求め、ルックアップテーブルを作成する。このようにすることで変換処理の扱いが容易になり、計算時間の短縮になる。
本実施の形態では、上記のようにして求めた各フレームについての対数極座標画像を、ステップS103で複数の画素からなるセルに切り分けて各セルについての高次局所自己相関特徴を抽出する。概念的に説明すれば、図5に示すようにフレームの対数極座標画像1からn×n(本実施の形態では3×3)の画素を切り出す。例えば、図5の例では、第1のセルを構成する画素として画素(1,2,3,101,102,103,201,202,203)を切り出した後、第2のセルを構成する画素として画素(2,3,4,102,103,104,202,203,204)を切り出す。このように各セルを切り出す際に、一部の画素が重なるようにすると、形状の検出精度が高くなる。本実施の形態では、図6に概念的に示すように、各セルの画素に含まれる情報として濃度を用いる。図6の各画素内の数字は濃度の程度を示している。そして学習ステップS1の高次局所自己相関特徴を抽出するための特徴抽出ステップS104では、まずセルに含まれる点画像または線画像成分を強調するための複数種類の局所パターンを予め定めておく。図7は本実施の形態で用いる複数種類の局所パターンとして35種類の局所パターンM1〜M35の例を示している。図7の局所パターンでは、35種類の局所パターンの演算条件として、セルに含まれる画素間の濃度差を強調する条件を用いている。例えば、局所パターンM1の中心の画素に対応する部分の数字「1」は、セルの対応画素の濃度を1累乗することを意味し、局所パターンM2の中心の画素に対応する部分の数字「11」は、セルの対応画素の濃度を二乗することを意味し、局所パターンM2の中心の画素に対応する部分の数字「11」は、セルの対応画素の濃度を二乗することを意味し、局所パターンM7の中心の画素に対応する部分の数字「111」は、セルの対応画素の濃度を三乗することを意味する。
高次局所自己相関特徴を得るためには、各セルの画素に含まれる情報(図6に示すような数値情報として表示された濃度)と35種類の局所パターンM1〜M35に示された情報との演算条件(図7の局所パターン中の累乗)とに基づいて1つのセルの情報について局所パターンの数に対応した複数の演算値を求める。ここで求める演算値とは、図6に示す9つの画素の濃度N1を局所パターンM1の対応する位置の累乗数で累乗して得た値を加算した値(2)である。図6に示す9つの画素の濃度N1と局所パターンM8の演算値は、(2+3)である。この演算を図8に示すように便宜状ΣN1M1と表記するものとする。具体的には、図6に示す9つの画素の濃度N1と35種類の局所パターンM1〜M35の演算値をそれぞれ求め、この演算値を各セルについての高次局所自己相関特徴として抽出する。そしてこのようにして抽出した複数の高次局所自己相関特徴に基づいて各フレームに示された身体形状の高次局所自己相関パターンを抽出する。具体的には、図8に示すように、各セルについての高次局所自己相関特徴を加算した値により高次局所自己相関パターンを抽出する。図8は、高次局所自己相関パターンの作り方を概念的に示している。そして抽出した複数の高次局所自己相関特徴に基づいて各フレームに示された身体形状の高次局所自己相関パターンを抽出し、高次局所自己相関パターンに基づいて動画像に含まれる各フレームに示された身体形状を判定するための判定基準を定める(ステップS104)。
例えば、マウス様の機能を実現するには、ポインティング、マウスの右ボタン、左ボタンを判別しなければならない。また、ジェスチャの入力キーとなる手形状を加えると最低でも4クラスを識別しなければならない。本実施の形態では、例えば手形状として図9の4種類を設定するものとする。図9の(a)はポインティング、(b)はマウスの右ボタン、(c)は左ボタン、(d)はジェスチャの入力キーに対応する。本例では、これらのジェスチャについてそれぞれ判定基準を定める。
なお前述の対数極座標画像Lからの特徴抽出には高次局所自己相関関数(栗田多喜夫、“柔らかな情報処理のための統計的手法の応用に関する研究、”電総研研究報告、vol.j957、pp.126−140、1993.)を用いることができる。これは画面内の対象画像をf(r)とすると、N次自己相関関数は、変位方向(a1,a2,...,aN)に対して式(2)として定義される。
Figure 0004060261
ここでは高次自己相関係数の次数Nを2とし、また、変位方向を参照点rの周りの局所的な3×3画素の領域に限定した。
局所パターンとしては、図10に示す公知の局所パターンを用いてもよい。図10の例では、平行移動による等価な特徴を除いているため、特徴の数は25個になる。図中の黒で塗りつぶした部分は、局所パターンの対応する画素の位置に対応する。局所パターンの対応する画素の値の積を全画素に対して足し合わせることで、各セルについての高次局所自己相関特徴が抽出される。
図1に示すように、実際の判定を行うためには、動画像を入力し(ステップS201)、各フレームについての対数極座標画像を複数の画素からなるセルに切り分けて(図2のステップS21)各セルについての実際の高次局所自己相関特徴を抽出する(ステップST202)。そして抽出した複数の実際の高次局所自己相関特徴に基づいて動画像入力の各フレームに示された身体形状の実際の高次局所自己相関パターンを抽出して順次記憶し(ステップS203:図2のステップS22)、実際の高次局所自己相関パターンと判定基準を用いてフレームに示された身体形状を判定する(ステップS204)。
本実施の形態では、図2に示すように、身体形状の判定にニューラルネットの自己組織化を用いる。図11は、ニューラルネットの自己組織化を説明するために用いる図である。図11において、入力層はn個のニューロンを持ち、本実施の形態では局所自己相関関数の局所パターン数と同じくn=35となる。入力層と結合層のあいだには、0から1までの間で連続量で値が変動する結合荷重Wがある。各入力層からの入力は結合加重により重み付け線形加算され結合層ニューロンの出力となる。出力層ニューロンの数は弁別したいパターン数であり、10動作を識別できるようにする場合には、m=10とする。
最初に、結合加重の初期値を0から1までのあいだでランダムに与える。次に、結合加重の更新を、以下の手順で行う。
(1)次式により、入力ベクトルvと結合加重ベクトルWのユークリッド距離が最小となるcを計算し、それを最適ニューロンcとして選ぶ(図2のステップS25)。
Figure 0004060261
(2)最適ニューロンcを中心として近傍dにあるニューロンを近傍ニューロンNcとする。dを求める式は、以下の通りである。
d=d(0)・(1.0−t/rlen) …(4)
ここで、tは経過回数、rlenは総学習回数(≒100,000)、d(0)は初期値(=2)である。
(3)結合加重Wを、次式に従って更新する(図2のステップS26)。
Figure 0004060261
ここで、α(t)(0<α(t)<1)は時間とともに単調に減衰する学習パラメータであり、次式に従うものとする。
α(t)=α(0)・(1.0−t/rlen) …(6)
ここで、tは経過回数、rlenは総学習回数(≒100,000)、α(0)は初期値(=0.02)である。
(1)から(3)までの操作を多数回(≒100,000)繰り返す(図2のステップS27)。
(4)弁別したいパターン(クラス。本件では10種類)ごとに最も多くの入力データとマッチする出力層ニューロンを見つけ、クラスを割り振る。
(5)続いて、以下の手順により教師信号を与えてパターン分類能力を付加する(図2のステップS28及びS29)。
Wc(t+1)=Wc(t)+β(t)(v(t)−Wc(t)) …(7)
入力ベクトルvと結合加重ベクトルWが同じクラスに分類されていたら下記のようになる。
Figure 0004060261
ここで、β(t)は学習パラメータであり、次式に従うものとする。
β(t)=β(t−1)/(1+s(t)・β(t−1)) …(9)
ここで、s(t)は分類が正しければ+1、正しくなければ−1である。
十分なサンプル数で上記手続き(5)の操作を繰り返すことにより、パターン弁別能力が獲得される。
ニューラルネットを用いずに、各クラスにおいて抽出した特徴をもとに重回帰式を求め、識別には重回帰式の目的変数が最大値のクラスを選択し、その最大値が閾値以上のときに、そのクラスに決定するようにしてもよい。
下記の表1は、非特許文献9に記載の従来の方法により図9のパターンの識別実験を行った結果を示している。また下記の表2は、上記ニューラルネットを用いた実施の形態により図9のパターンの識別実験を行った結果を示している。実験では、手の大きさを変え、また対数極座標りサンプリングの解像度も4種類異ならせて行った。表1及び表2の平均及び標準偏差を対比すると明らかなように、上記実施の形態の方法によれば、精度(識別力)が平均70%台から90%以上に向上した。また識別の不安定さ(ばらつき)が1/3以下に小さくなった。なおパターンを増やしてもこれらの結果の傾向に大きな差は生じない。
Figure 0004060261
Figure 0004060261
前述の対数極座標変換による処理の利点は、少ない画素数で高解像度、広域の作業範囲を得るだけでなく、スケーリング不変性、変換中心に対する回転不変性を持っており、また、画像のデータ量を減らし画像処理の計算時間を減少させることも期待できる点である。しかし、欠点として非均一なサンプリングなため平行移動に対して画像の形が大きく変わってしまうことから、動的視覚処理には不向きであるとされてきた(Richard Wallace,Ping−Wen Ong, Ben Bederson,and Eric L.Schwartz,“Space Variant Image Processing”International Juarnal of Computer Vision,vol.13,no.1,pp.71−90,1994.)。この欠点を解決するために、対数極座標上で連続した画像からオプティカルフローを求め、その運動方向が2πで変化することを利用して平行移動を求める手法(Noboru Okajima、Hiroki Nitta and Wataru Mitsuhashi“Motion Estimation and Target Tracking in The Log−Polar Geometry”)や、直交座標系における2次元フーリエ変換と同等の結果を対数極座標系から算出できる指数チャープ変換(Giorgio Bonmassar,and Eric L. Schwartz,“Space−Variant Fourier Analysis: The Exponential Chirp Transform、”IEEE Pattern Analysis and Machine Vision, vol.19,no.10,pp.1080−1089,1997)を用いることで、通常の2次元フーリエ変換と同じように平行移動に対して不変なパラメータを抽出する手法(野村智宣,三橋渉,“中心窩センサの設計と物体認識への応用、”信学技報EID2000−313、pp.77−82、2001.)が提案されている。しかし、前者は通常の動きベクトルの算出が、画像が変形を伴わずに動くことを前提としている。そのため対数極座標上の画像が物体の平行移動により大きく歪むことから、対象物体が大きく移動すると動きベクトルが正しく算出できず、平行移動のパラメータをうまく算出できないという欠点がある。また、後者は通常の変換より処理時間がかかるため、実時間の処理には不向きである。
そこで本実施の形態では、図1に示すように、対数極座標画像から時間差分(S301)、空間差分(ステップS302)、肌色情報(S303)を基に輪郭画像を生成し、この輪郭画像の重心をもとに手領域の位置を推定する(S304,S305)。また、手領域の過去の位置情報から移動先を推定する(S306)。そして、肌色情報を用いて抽出した手領域から高次局所自己相関特徴を算出し、重回帰分析により識別を行なう。また、手領域の軌跡を辞書内のデータと比較することでジェスチャ認識を行う。これより、平行移動量をチャープ変換などの複雑な計算をせずに算出することで処理の高速化が図れ、また、詳細な形状に関する情報が捨象された重心を位置の推定に用いることで、対象物体の急激な変化による追跡精度の悪化の可能性を低減させる。また、肌色領域から抽出した色情報と背景差分を用いることで、背景領域の類似した色情報をもつ物体を除去し、対象物体を抽出することができる。
手領域の位置推定について詳しく説明する。まず人物の手領域を抽出し追跡を行うために、時間差分、空間差分、肌色情報を用いる(ステップS301〜S303)。背景と移動領域の分離は、時系列画像中の移動領域は観測された輝度値の時間的変化に対応するため、時間差分を用いることで容易に行える。しかし、時間差分の結果は、背景と移動領域の輝度値の差に依存してしまうため、照明の変化に影響をうけやすい。そのため、画像中の輝度値の変化が大きい部分は、移動領域のエッジ付近にあることを考慮し、照明の変化に影響されがたい空間差分により得られるエッジ情報を併用する。また、ここでは手領域の抽出が目的であるため、その大きな特徴である肌色情報を用いる(ステップS304)。以下、入力画像より手指領域の抽出方法について述べる。入力画像より作成した時刻tでの対数極座標画像を得る。入力画像より作成した時刻tでの対数極座標画像をL(p、q、t)とし、このL(p、q、t)の時間差分により得られる画像L1(p、q、t)、空間差分により得られる画像をL2(p、q、t)、肌色領域L3(p、q、t)を次のように計算する。時間差分画像L1(p、q、t)は、式(10)に示すように連続した2フレーム間の差分をとることにより得られる。これより時刻tの静止領域と運動領域の分割が行われる。
Figure 0004060261
ただし、thは輝度値が変化したかを決定する閾値である。
空間差分画像L2(p、q)は、時刻tにおける画像に対して、式(11)に示す3×3のSobelフィルタを施すことで、画像中のエッジを抽出することで得る。
Figure 0004060261
ただし、thsはエッジであるかを決定する閾値である。またL2(p、q、t)、LHS(p、q、t)、LVS(p、q、t)は、それぞれ時刻tにおける座標(p、q)の空間差分値、p方向Sobelオペレータによる値、q方向Sobelオペレータによる値を表している。入力画像はRGB表色系で表現されているが、このRGB表色系では、各値間の相関が高いため、明るさの変化に大きく影響を受けるという問題がある。そのため本稿では、明るさの変動に影響をうけず、RGBそれぞれの値が1対1で対応づけられるL*u*v*表色系(CIE1976表色系)に変換し、その中のu、v平面を用い、肌色領域の平均値M(u、v)、分散共分散行列C を求める。これより、肌色領域L3(p、q、t)は、式(12)に示すようになる。背景領域の壁やダンボールなどの肌色領域が存在する場合にはその領域も抽出されてしまうが、前述の差分画像との論理積をとることで背景領域として静止している壁やダンボールの領域を除去することができる。
Figure 0004060261
ただし、thcは肌色であるかを決定する閾値である。このように式(10)から式(12)より得られた情報から式(13)に示す輪郭画像を得る。
Figure 0004060261
この得られた輪郭画像Ldから重心を算出することにより、時刻tにおける入力画像I中の手の位置pxy(t)が算出される。
次に、手領域の重心位置を追跡する方法について述べる。時刻tにおける手領域の重心位置をpxy(t)、手領域の移動速度をv(t)、加速度をa(t)、時刻t−1時による時刻tでの手領域の推定重心位置をpxy(t)とする。ただし、時刻t=0では手領域の重心位置、推定重心位置を取り込み画像の中心点とし、速度、加速度はともに0と仮定する。時刻tにおける手領域の推定重心位置pxy(t)は、式(14)として求まる。この推定重心位置pxy(t)は、直交画像からLPM画像に変換する場合の対数極座標空間の中心点となる。ただし、式中のΔtはフレーム間隔を表す。
Figure 0004060261
ただし、実際の手領域の重心位置pxy(t)と推定重心位置pxy(t)が一致しない場合は、時刻t1から時刻tまでの間に、式(15)に示す加速度が生じたものとし、移動速度v(t)は式(16)とする。
Figure 0004060261
次にジェスチャ推定について説明する。
ジェスチャ動作は、図12(a)のCircle、(b)のTriangle、(c)のRectangle、(d)のCrossの4種類とした。手指によるジェスチャ認識の場合、一連の手指動作をジェスチャ動作区間とその他の動作区間に分割しなければならない。この場合、連続DPマッチングを用いてジェスチャ区間を指定せずにジェスチャのスポッティング認識を行う手法(西村拓一、向井理朗、野崎俊輔、岡隆一、“動作者適応のためのオンライン教示可能なジェスチャ動画像のスポッティング認識システム、”電子情報通信学会論文誌D−II,vol.J81−D−II,no.8,pp.1822−1830,1998.)、手指の動作が極小となる時点を分割位置とする手法(佐川浩彦、竹内勝、“手話認識における手動作セグメンテーション方式、”ヒューマンインターフェースシンポジウム’99、pp.749−754、1999.)などがある。計算機の入力デバイスとしてのインターフェースとしてジェスチャ認識を用いることを考慮すると、任意の動作から対象とするジェスチャを認識するよりは、ユーザが入力を意図したときにジェスチャを認識をしたほうが誤動作などを招かなくて都合がよい。そこで本手法では、ユーザが手の動きが極小となり、手形状がシステムに登録されているジェスチャ入力キーと一致したときを動作の開始、または、終了の点として扱い、その間の区間をジェスチャ区間とみなし単純DPマッチングによる照合を行う。一般に画像からの動作区間の推定は、手指の動作が極小となる時点を正確に検出することは難しいが、本手法では動作区間の推定情報として手指動作が極小であるという情報に加え、そのときの手指形状がシステムに登録されているかという情報を加えることで、手指動作の動作区間の決定を実現している。ジェスチャ推定のための特徴ベクトルSは、ジェスチャ区間の手指の追跡軌跡から得られる軌道ベクトルを用いる。時刻tにおける手の位置をpxy(t)=(xt、yt)とすると、時刻tの特徴ベクトルs(t)は式(17)となる。
Figure 0004060261
これより、ジェスチャの推定は、特徴ベクトル{S:s1(v、θ)、s2(v、θ)、...、si(v、θ)、...、sN(v、θ)}と辞書内の参照特徴ベクトル{T:t1(v、θ)、t2(v、θ)、...、tj(v、θ)、...、tM(v、θ)}とのコストをDPマッチングにより算出し、その中から最小のものを選択することにより行う。
ステップS308の認識結果と、ステップS204の判別結果とは、例えばパソコンにインストールされた各種のアプリケーションの選択や起動のために利用可能である。
本発明の方法を用いて手の形状及び動作(身体形状)により非接触型ポインティング・デバイスを実現する場合のステップをブロック図形式で示したものである。 画像に含まれる身体形状を判定する方法をコンピュータを用いて実現する場合に用いるソフトウエアのアルゴリズムを示すフローチャートである。 対数極座標変換を説明するために用いる図である。 (a)乃至(d)は、対数極座標変換の実際の例を説明するために用いる図である。 フレームからセルを切り出す方法を説明するために用いる図である。 濃度を示す情報を含む1つのセルを示す図である。 35種類の局所パターンの例を示す図である。 高次局所自己相関パターンの概念を示す図である。 (a)乃至(d)は、手形の例を示す図である。 25種類の他の局所パターンの例を示す図である。 ニューラルネットの自己組織化を説明するための図である。 (a)乃至(d)は、ジェスチャのパターンを示す図である。
符号の説明
1 フレーム
N1 セル
M1〜M35 局所パターン

Claims (8)

  1. 予め所定の複数種類の身体動作についての学習用の動画像の各フレームについて対数極座標変換を行って対数極座標画像を取得し、前記各フレームについての前記対数極座標画像を複数の画素からなるセルに切り分けて各セルについての高次局所自己相関特徴を抽出し、抽出した複数の高次局所自己相関特徴に基づいて前記各フレームに示された身体形状の高次局所自己相関パターンを抽出し、前記高次局所自己相関パターンに基づいて前記動画像に含まれる各フレームに示された前記身体形状を判定するための判定基準を定める学習ステップと、
    実際の身体動作についての動画像の各フレームについて対数極座標変換を行って実際の対数極座標画像を取得し、前記各フレームについての前記対数極座標画像を複数の画素からなるセルに切り分けて各セルについての実際の高次局所自己相関特徴を抽出し、抽出した複数の実際の高次局所自己相関特徴に基づいて前記各フレームに示された身体形状の実際の高次局所自己相関パターンを抽出し、前記実際の高次局所自己相関パターンと前記判定基準を用いて前記フレームに示された前記身体形状を判定する判定ステップとをコンピュータにより実施し、
    前記学習ステップの前記高次局所自己相関特徴及び前記判定ステップの前記実際の高次局所自己相関特徴を抽出するための特徴抽出ステップでは、前記セルに含まれる点画像または線画像成分を強調するための複数種類の局所パターンを予め定めておき、前記セルの画素に含まれる情報と前記複数種類の局所パターンに示された前記情報との演算条件とに基づいて、1つの前記セルの情報について前記局所パターンの数に対応した複数の演算値を求め、該複数の演算値により前記高次局所自己相関特徴を構成し、
    前記高次局所自己相関パターンを抽出する相関パターン抽出ステップでは、前記フレームから切り出した複数の前記セルについて求めた前記複数の演算値を前記局所パターンに対応して加算して得た複数の加算値により前記高次局所自己相関パターンを抽出することによりコンピュータ上で画像に含まれた身体形状を判定する方法において、
    前記特徴抽出ステップでは、前記セルの画素に含まれる情報として濃度を用い、前記複数種類の局所パターンの前記演算条件として前記セルに含まれる画素間の濃度差を強調する条件を用いることを特徴とする画像に含まれた身体形状を判定する方法。
  2. 前記複数種類の局所パターンの前記演算条件には、前記1つの画素の前記濃度を示す値を累乗する条件が含まれている請求項1に記載の画像に含まれた身体形状を判定する方法。
  3. 前記セルをn×n個(nは2以上の整数)の画素の集合から構成し、
    前記フレームから前記セルを切り分ける際に、前に切り分けたセルと後から切り分けるセルとが一部重なるように切り分けることを特徴とする請求項1に記載の画像に含まれた身体形状を判定する方法。
  4. 前記判定ステップでは、ニューラルネットを用いて前記高次局所相関パターンを自己組織化することにより前記身体形状を判定することを特徴とする請求項1または2に記載の画像に含まれる身体形状を判定する方法。
  5. 請求項1,2,3または4に記載の画像に含まれる身体形状を判定する方法をコンピュータで実施して、人間の手形形状を判定し、コンピュータ上で前記手形形状をポインティングとすることを特徴とする非接触型ポインティング・デバイスの実現方法。
  6. 予め所定の複数種類の身体動作についての学習用の動画像の各フレームについて対数極座標変換を行って対数極座標画像を取得し、前記各フレームについての前記対数極座標画像を複数の画素からなるセルに切り分けて各セルについての高次局所自己相関特徴を抽出し、抽出した複数の高次局所自己相関特徴に基づいて前記各フレームに示された身体形状の高次局所自己相関パターンを抽出し、前記高次局所自己相関パターンに基づいて前記動画像に含まれる前記各フレームに示された前記身体形状を判定するための判定基準を定める学習ステップと、
    実際の身体動作についての動画像の各フレームについて対数極座標変換を行って実際の対数極座標画像を取得し、前記各フレームについての前記対数極座標画像を複数の画素からなるセルに切り分けて各セルについての実際の高次局所自己相関特徴を抽出し、抽出した複数の実際の高次局所自己相関特徴に基づいて前記各フレームに示された身体形状の実際の高次局所自己相関パターンを抽出し、前記実際の高次局所自己相関パターンと前記判定基準を用いて前記フレームに示された前記身体形状を判定する判定ステップと、
    前記対数極座標画像に基づいて前記身体動作のジェスチャの始点と終点とを認識するジェスチャ認識ステップとをコンピュータにより実施し
    前記学習ステップの前記高次局所自己相関特徴及び前記判定ステップの前記実際の高次局所自己相関特徴を抽出するための特徴抽出ステップでは、前記セルに含まれる点画像または線画像成分を強調するための複数種類の局所パターンを予め定めておき、前記セルの画素に含まれる情報と前記複数種類の局所パターンに示された前記情報との演算条件とに基づいて1つの前記セルの情報について前記局所パターンの数に対応した複数の演算値を求め、該複数の演算値により前記高次局所自己相関特徴を構成し、
    前記高次局所自己相関パターンを抽出する相関パターン抽出ステップでは、前記フレームから切り出した複数の前記セルについて求めた前記複数の演算値を前記局所パターンに対応して加算して得た複数の加算値により前記高次局所自己相関パターンを抽出し、
    前記判定ステップの判定結果と前記ジェスチャ認識ステップの認識結果とに基づいて前記身体動作により示されたポインティングをコンピュータ上で判別する非接触型ポインティング・デバイスの実現方法であって、
    前記特徴抽出ステップでは、前記セルの画素に含まれる情報として濃度を用い、前記複数種類の局所パターンの前記演算条件として前記セルに含まれる画素間の濃度差を強調する条件を用いることを特徴とする非接触型ポインティング・デバイスの実現方法。
  7. 前記複数種類の局所パターンの前記演算条件には、前記1つの画素の前記濃度を示す値をべき乗する条件が含まれている請求項6に記載の非接触型ポインティング・デバイスの実現方法。
  8. 前記判定ステップでは、ニューラルネットを用いて前記高次局所相関パターンを自己組織化することにより前記身体形状を判定することを特徴とする請求項7に記載の非接触型ポインティング・デバイスの実現方法。
JP2003357082A 2003-10-16 2003-10-16 画像に含まれる身体形状を判定する方法及び非接触型ポインティング・デバイスの実現方法 Expired - Fee Related JP4060261B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003357082A JP4060261B2 (ja) 2003-10-16 2003-10-16 画像に含まれる身体形状を判定する方法及び非接触型ポインティング・デバイスの実現方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003357082A JP4060261B2 (ja) 2003-10-16 2003-10-16 画像に含まれる身体形状を判定する方法及び非接触型ポインティング・デバイスの実現方法

Publications (2)

Publication Number Publication Date
JP2005122492A JP2005122492A (ja) 2005-05-12
JP4060261B2 true JP4060261B2 (ja) 2008-03-12

Family

ID=34614075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003357082A Expired - Fee Related JP4060261B2 (ja) 2003-10-16 2003-10-16 画像に含まれる身体形状を判定する方法及び非接触型ポインティング・デバイスの実現方法

Country Status (1)

Country Link
JP (1) JP4060261B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110244A (zh) * 2011-02-25 2011-06-29 杭州电子科技大学 一种基于关联维数的神经元动作电位特征提取方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4710508B2 (ja) * 2005-09-21 2011-06-29 富士ゼロックス株式会社 画像処理プログラム、画像処理装置
GB2438449C (en) 2006-05-24 2018-05-30 Sony Computer Entertainment Europe Ltd Control of data processing
JP4309439B2 (ja) 2007-03-30 2009-08-05 ファナック株式会社 対象物取出装置
US8225343B2 (en) 2008-01-11 2012-07-17 Sony Computer Entertainment America Llc Gesture cataloging and recognition
CN101393648B (zh) * 2008-10-07 2011-06-29 广东威创视讯科技股份有限公司 手绘几何图形的识别方法
JP5569062B2 (ja) * 2010-03-15 2014-08-13 オムロン株式会社 ジェスチャ認識装置、ジェスチャ認識装置の制御方法、および、制御プログラム
JP7216373B2 (ja) * 2019-11-01 2023-02-01 学校法人トヨタ学園 ジェスチャ検出装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110244A (zh) * 2011-02-25 2011-06-29 杭州电子科技大学 一种基于关联维数的神经元动作电位特征提取方法
CN102110244B (zh) * 2011-02-25 2013-09-18 杭州电子科技大学 一种基于关联维数的神经元动作电位特征提取方法

Also Published As

Publication number Publication date
JP2005122492A (ja) 2005-05-12

Similar Documents

Publication Publication Date Title
Raheja et al. Robust gesture recognition using Kinect: A comparison between DTW and HMM
Hasan et al. RETRACTED ARTICLE: Static hand gesture recognition using neural networks
Shenoy et al. Real-time Indian sign language (ISL) recognition
Pan et al. Real-time sign language recognition in complex background scene based on a hierarchical clustering classification method
Malassiotis et al. A gesture recognition system using 3D data
Qi et al. Computer vision-based hand gesture recognition for human-robot interaction: a review
KR100862349B1 (ko) 제스처 인식 기능을 이용한 반투과 거울 기반 사용자인터페이스 시스템
Badi et al. Hand posture and gesture recognition technology
Moeslund et al. A brief overview of hand gestures used in wearable human computer interfaces
Desai et al. Human Computer Interaction through hand gestures for home automation using Microsoft Kinect
Pattanaworapan et al. Signer-independence finger alphabet recognition using discrete wavelet transform and area level run lengths
JP4060261B2 (ja) 画像に含まれる身体形状を判定する方法及び非接触型ポインティング・デバイスの実現方法
CN114445853A (zh) 一种视觉手势识别***识别方法
EP2781991B1 (en) Signal processing device and signal processing method
Conci et al. Natural human-machine interface using an interactive virtual blackboard
KR101439190B1 (ko) 이미지 처리 기반의 모바일 기기 구동 방법, 모바일 기기의 이미지 처리 방법 및 이를 이용하는 모바일 기기
Abdallah et al. An overview of gesture recognition
Caplier et al. Comparison of 2D and 3D analysis for automated cued speech gesture recognition
Desai Segmentation and recognition of fingers using Microsoft Kinect
Elsayed et al. Hybrid method based on multi-feature descriptor for static sign language recognition
Kumar A Vision based Application for Virtual Mouse Interface Using Finger-Tip
US11847823B2 (en) Object and keypoint detection system with low spatial jitter, low latency and low power usage
Thakur Robust hand gesture recognition for human machine interaction system
Craciun et al. Interface for gestural interaction in virtual reality environments
Hiremath et al. Gesture Recognition System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4060261

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111228

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121228

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121228

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees