JPH11296673A

JPH11296673A - ジェスチャ認識装置

Info

Publication number: JPH11296673A
Application number: JP10104725A
Authority: JP
Inventors: Kunimitsu Sakakibara; 邦光榊原; Takahiro Watanabe; 孝弘渡辺; Masahiko Yanaida; 正彦谷内田
Original assignee: IMAGE JOHO KAGAKU KENKYUSHO
Current assignee: IMAGE JOHO KAGAKU KENKYUSHO
Priority date: 1998-04-15
Filing date: 1998-04-15
Publication date: 1999-10-29
Anticipated expiration: 2018-04-15
Also published as: JP4221681B2

Abstract

(57)【要約】【構成】テンプレートマッチング処理装置１４では、
画像入力装置１２によって入力された入力画像と汎用モ
デル記憶装置１６に記憶した複数のテンプレート画像と
の相違度を演算する。テンプレートマッチング処理装置
１４からは、各テンプレート画像と入力画像との相違度
が出力され、コンピューター１８の状態認識装置２０に
与えられる。状態認識装置２０では、テンプレート間相
関度記憶装置２２に記憶されたテンプレート間相違度お
よび状態番号記憶装置２４に記憶された各テンプレート
画像の状態番号を参照して、入力画像における腕や脚の
状態番号を出力する。このとき、相違度がある閾値値以
上の場合、音声指示発生装置２６によって人物に音声に
よる指示を行い、個人モデル記憶装置２８に記憶されて
いる個人モデルを用いて再びテンプレートマッチングを
行う。【効果】簡単な装置によって特定の人物のジェスチャ
を認識できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明はジェスチャ認識装置に
関し、特にたとえばビデオカメラなどで撮影した人物画
像を処理して人物の動作を認識し、脚や腕等の状態を同
定してコンピュータやゲーム機などへ情報を提供するジ
ェスチャ認識装置に関する。

【０００２】

【従来の技術】人間にとって最も自然なコミュニケーシ
ョン手段の一つであるジェスチャは、人間と機械のイン
タラクションをより自然なものにするためにも重要な要
素の一つである。従来の人間のジェスチャを認識する方
法としては、背景差分２値画像を用いて動画像からジェ
スチャを認識する手法が数多く提案されている。

【０００３】

【発明が解決しようとする課題】しかしながら、従来の
技術では、実環境下において実時間でジェスチャを認識
しようとする場合は、ユーザの服装や背景などが複雑な
映像となり、単純に２値化する方法では正確な認識はで
きないといった問題があった。そのため、使用環境を制
限せざるを得ず、さまざまな実環境下においてジェスチ
ャを正確に抽出するのは困難であった。

【０００４】それゆえに、この発明の主たる目的は、実
環境下でも実時間で正確に人間のジェスチャを認識でき
るジェスチャ認識装置を提供することである。

【０００５】

【課題を解決するための手段】この発明は、人間を撮影
した入力画像を入力する画像入力手段、人間に所定動作
の指示をする指示手段、人間が指示手段の指示に応じた
動作をしたときの入力画像から個人モデルを作成する個
人モデル作成手段、および個人モデルと入力画像とに基
づいてジェスチャを認識する認識手段を備える、ジェス
チャ認識装置である。

【０００６】

【作用】個人モデルを特定の人間とインタラクティブに
対応することによって作成する。そして、テンプレート
マッチングを基本としたジェスチャテンプレートモデル
（ＧＴＭ）を用いてジェスチャ認識を行う。また、この
ときオートマトンを用いることによって、ＧＴＭの認識
結果を正確に認識できる。

【０００７】

【発明の効果】この発明によれば、特定の人物に個別に
対応する個人モデルを作成するようにしたので、複雑な
入力画像から人間を容易に特定でき、したがって実環境
下でも実時間で正確に人間のジェスチャを認識できる。
この発明の上述の目的，その他の目的，特徴および利点
は、図面を参照して行う以下の実施例の詳細な説明から
一層明らかとなろう。

【０００８】

【実施例】図１に示すこの発明の実施例のジェスチャ認
識装置１０は、たとえばビデオカメラを含む画像入力装
置１２によって撮影された、カラー画像のような入力画
像を処理する。この入力画像は、たとえば富士通株式会
社製「カラートラッキングビジョン」などの専用ハード
ウエアで構成されたテンプレートマッチング処理装置１
４によって処理される。テンプレートマッチング処理装
置１４では、入力画像と汎用モデル記憶装置１６に記憶
した複数のテンプレート画像との相違度を演算する。テ
ンプレートマッチング処理装置１４からは、通常のテン
プレートマッチング手法に従って、各テンプレート画像
と入力画像との相違度が出力され、コンピューター１８
すなわち状態認識装置２０に与えられる。状態認識装置
２０では、テンプレート間相関度記憶装置２２に記憶さ
れたテンプレート間相違度および状態番号記憶装置２４
に記憶された各テンプレート画像の状態番号を参照し
て、入力画像における腕や脚の状態番号を出力する。こ
のとき、相違度がある閾値値以上の場合、音声指示発生
装置２６によって人物に音声による動作指示を行い、個
人モデルを作成する。この個人モデルは個人モデル記憶
装置２８に記憶され、テンプレートマッチング処理装置
１４は個人モデルを用いて再び、テンプレートマッチン
グを行う。

【０００９】以下、図２に示すこの実施例のフロー図を
参照して説明を行う。まず、ステップ１で画像入力装置
１２により入力画面中に人物が検出されると、次のステ
ップ２から個人モデルを作成するプロセスを開始する。
その際、この実施例は入力画像から人物の特定部位をイ
ンタラクティブにセグメンテーションする方法をとる
が、人物のインタラクションに対する負担を軽減するた
めに、まずステップ２〜６のオートモードにおいて背景
差分の情報から人物の特定部位のセグメンテーションを
試みる。ここで、もしシステムがセグメンテーションに
成功したと判断した場合には、ステップ２１の個人ジェ
スチャモデル作成処理のステップに進む。しかし、シス
テムがセグメンテーションに失敗したと判断した場合
は、ステップ７〜２０のインタラクティブモードに進
む。ここでは、音声によってユーザに指示し、セグメン
テーションしやすい特定アクションを行なってもらい、
その動き情報からユーザの特定部位のセグメンテーショ
ンを行う。

【００１０】オートモードでは、入力画像の背景差分２
値画像と、２値画像のセグメンテーションのために発明
者が開発したMaskable Template Model(ＭＴＭ) を用
いてセグメンテーションを行なう。まずステップ２にお
いて背景差分２値画像を検出する。背景差分２値画像は
次の数１から求めることができる。ただし、Ｉ′は時刻
ｔにおける背景差分２値画像，Ｉは入力画像，Ｂは背景
画像，thは２値化の閾値を表す。図４はステップ２によ
って検出されたコントラストの高い場合の背景差分２値
画像（シルエット画像）の例である。

【００１１】

【数１】

【００１２】次に、ステップ３ではテンプレートマッチ
ング処理装置１４においてボデイのセグメンテーション
を試みる。ボデイを検出することによって入力画像中の
人物が存在するかどうか確認するためである。このとき
のボデイのセグメンテーションは汎用モデル記憶装置１
６に記憶されているＭＴＭを用いて行われる。ＭＴＭは
改良型のテンプレート画像であり、さまざまな形状に変
化する人物の特定部位を少ないテンプレートで正確にセ
グメンテーションすることができる。図５および図６に
示すように、ＭＴＭは２値画像がとる２値（背景領域を
表す値０の黒領域と人物領域を表す値２５４の白領域）
と、その２値の中間値をとるマスク領域（値１２７のグ
レー領域）との３値から構成される。ＭＴＭによるテン
プレートマッチングを行なうと、マスク領域が“don't
care ”となり、黒領域と白領域における相違度のみを
求めることができる。図５のボデイ用ＭＴＭではボデイ
の回りにマスク領域を置くことで、見せかけの大きさが
変化したボデイに対してもこのＭＴＭを用いてセグメン
テーションが行なうことができる。ＭＴＭによるセグ
メンテーションは通常のテンプレートマッチングと同様
に次の数２の式によって、入力２値画像中から最もマッ
チする位置、つまり入力画像とＭＴＭの相違度Ｄ（Ｔ）
が最小になる座標（ｘ，ｙ）を捜し出し、その位置でセ
グメンテーションを行う。この処理は通常のテンプレー
トマッチング用ハードウエアを用いて実時間で行われ
る。

【００１３】

【数２】

【００１４】ただし、Ｉ′は入力２値画像，Ｔはテンプ
レート画像，ｍ×ｎがテンプレート画像の大きさ，Ｓは
入力画像中の探索範囲，Ｄ（Ｔ）は入力２値画像中で最
もマッチした座標（ｘ，ｙ）における相違度を表す。そ
して次のステップ４において、図５のボデイ用ＭＴＭと
入力２値画像のマッチングの程度が非常に高い場合、つ
まり相違度Ｄ（Ｔ）がある閾値Ｔh₁以下の場合、入力画
像中に人が存在するものとして、この画像と、あらかじ
め用意したジェスチャモデルとをテンプレートマッチン
グすることにより部位に位置を決定し、個人ジェスチャ
モデルであるボデイのカラーテンプレートを生成し、個
人モデル記憶装置２８に記憶した後、次のステップ５に
進む。また反対に、マッチングの程度が非常に低く相違
度Ｄ（Ｔ）がある閾値Ｔh₂（＞Ｔh₁）以上の場合、入力
画面中に人が存在しないものとして入力画像で背景画像
を更新して、ステップ１に戻り次の入力画像の処理に進
む。これは時間変化に伴う照明条件などの環境の変化に
対応するためである。しかし、相違度Ｄ（Ｔ）がＴh₁＜
Ｄ（Ｔ）＜Ｔh₂となった場合、つまり、背景から何らか
の変化はあるが人の形状が検出されなかった場合、ステ
ップ７からのインタラクティブモードに移行する。図７
はオートモードでセグメンテーションを行った結果を表
わす画像であり、最もマッチした位置（ｘ，ｙ）で入力
画像からＭＴＭのボデイ領域に対応する部分をセグメン
テーションした結果を示すものである。

【００１５】ステップ４でボデイがセグメンテーション
されユーザが検出された場合は、次のステップ５におい
て、各部位（腕や脚）のセグメンテーションが行われ
る。ここでのセグメンテーションには図５の腕（脚）用
のＭＴＭを利用する。このＭＴＭは腕（脚）領域の間を
カバーするようにマスク領域を設定している。これは腕
（脚）を伸ばして上下に振っても抽出できるようにして
いるためである。図７の場合では図６のＬ５のモデルに
よって腕のセグメンテーションがなされ、Ｌ５の腕領域
に対応する部分が切り出される。

【００１６】腕（脚）領域のセグメンテーションでもボ
デイ領域の場合と同様に、ステップ６において相違度Ｄ
（Ｔ）によってセグメンテーションの成否を判断する。
ここで、腕（脚）領域のセグメンテーションに成功した
と判断された場合、つまり相違度Ｄ（Ｔ）がある閾値Ｔ
h₃以下の場合、入力画像中に各部位が存在するものとし
て、この画像と、あらかじめ用意したジェスチャモデル
とをテンプレートマッチングすることにより部位に位置
を決定し、個人ジェスチャモデルである各部位のカラー
テンプレートを生成し、個人モデル記憶装置２８に記憶
した後、ステップ２１に進む。また反対に、腕（脚）領
域のセグメンテーションに失敗したと判断された場合、
つまり相違度Ｄ（Ｔ）がある閾値Ｔh₄より大きい場合、
ステップ１６からのインタラクティブモードに進む。

【００１７】図８はコントラストの低い場合の背景差分
２値画像（シルエット画像）の例である。このように、
シルエット領域のコントラストが低い場合はオートモー
ドではセグメンテーションを行うことができず、インタ
ラクティブモードにおいて、セグメンテーションを実行
する。以下、図３のインタラクティブモードの場合のフ
ロー図を参照して説明を行う。

【００１８】インタラクティブモードでは、各ステップ
において、オプテイカルフローによって動領域の有無，
位置，および速度を検出し、その情報に基づいて発見，
追跡，およびセグメンテーションの処理を行う。オプテ
イカルフローを得るための手法として、この実施例では
リアルタイム性を重視しブロックマッチング法を採用し
た。数３で与えられるＳＡＤを最小とするｕ，ｖが時刻
ｔ，ｔ＋１間の速度ベクトルである。

【００１９】

【数３】

【００２０】この実施例ではカラー画像を扱うため、
Ｒ，Ｇ，ＢのプレーンのＳＡＤの和をトータルのＳＡＤ
とした。

【００２１】

【数４】SAD(x,y,u,v)＝SADr(x,y,u,v) ＋SADg(x,y,u,
v) ＋SADb(x,y,u,v) また、ノイズによる誤った検出を防ぐため以下の条件の
ときは、動領域とはみなさない。ただし、ｕ′，ｖ′は
得られた速度ベクトル、THは所定値を示す。

【００２２】

【数５】 SAD(x,y,u ′，v ′) − SAD(x,y,0,0) ＜TH まず、ステップ７では、画面全体の範囲で比較的粗い密
度でオプテイカルフローを検出する。このとき動領域が
所定数以上検出されると、それを人物とみなす。そし
て、次のステップ８においてその動領域の重心位置を算
出する。なお、この実施例では画面のサイズは水平方向
に３２０ピクセル、垂直方向に２４０ピクセルであり、
検出グリッドは水平方向および垂直方向にいずれも１６
ピクセルである。

【００２３】ステップ９では、発見された人物に対して
所定の位置に移動し静止するように音声指示発生装置２
６によって、音声によって指示する。ステップ１０で
は、重心位置の周辺範囲で比較的細かい密度でオプテイ
カルフローを検出し、各フレーム毎に重心位置を更新す
ることによって、人物の追跡を行う。このとき、動領域
が所定数以下の場合は重心の更新は行わない。そして、
ステップ１１において所定時間、重心の更新が行わなけ
れば、人物が静止したとみなす。なお、この実施例では
検出グリッドは水平方向および垂直方向にいずれも８ピ
クセルである。

【００２４】ステップ１２では人物にうなずいてもらう
ように音声指示発生装置２６によって音声による指示を
行う。ステップ１３では、重心位置を基準とした所定の
範囲で、先の指示によって人物が頭部を動かしたときの
垂直方向の速度成分を持つ領域を検出する。この検出さ
れた領域は頭の位置とみなされる。次のステップ１４で
は、このときの頭の位置を基準としてボデイの位置を決
定する。そして、ステップ１５においてテンプレートマ
ッチング処理装置１４によりボデイのセグメンテーショ
ンを行う。このセグメンテーションを行うことによって
画像よりボデイの画像を切り取り、個人ジェスチャモデ
ルであるボデイのカラーテンプレートを生成し、個人モ
デル記憶装置２８に記憶する。

【００２５】ボデイのセグメンテーションが行われた
後、オートモードと同様に各部位のセグメンテーション
を行う。まずステップ１６で、人物に所定の動作を行う
ように音声指示発生装置２６によって音声メッセージを
発する。人物が音声メッセージに応じて所定の動作（た
とえば右手を振り上げる動作）を行うと、次のステップ
１７においてボデイの位置に対して所定の範囲内に動領
域が検出される。そしてステップ１８において、先の範
囲内の動領域の速度ベクトルの平均値を求め、その平均
値が所定方向と最も近いフレームを対象フレームとして
選択する。所定方向とは、たとえば、右腕を振り上げる
動作の場合は、垂直方向とし、これは、右腕が水平に伸
びた状態に対応する。また、速度ベクトルを求める際、
３フレーム間のオプテイカルフローを求めることによ
り、背景による影響を軽減する。つまり、（ｔ）フレー
ムと（ｔ−１）フレーム間、および（ｔ）フレームと
（ｔ＋１）フレーム間のオプテイカルフローをそれぞれ
求め、両方が動領域である場合のみ、（ｔ）フレームの
その領域を動領域とする。動領域である場合は二つの速
度ベクトルを平均化する。これにより３フレーム間のオ
プテイカルフローが得られる。平均化された速度ベクト
ルの式を数６に示す。

【００２６】

【数６】Ｕ（ｔ）＝｛−ｕ（ｔ，ｔ−１）＋ｕ（ｔ，ｔ
＋１）｝／２Ｖ（ｔ）＝｛−ｖ（ｔ，ｔ−１）＋ｖ（ｔ，ｔ＋１）｝
／２対象フレームが選択されると、ステップ１９において、
さらに詳細な密度でオプテイカルフローを求め、画像
を、動領域，静止領域，および境界領域に分類し３値化
する。図９a,b,c,d,e に示すように、３値化は４ピクセ
ル四方のブロック単位で行う。まず８ピクセル四方の領
域のオプテイカルフローを水平、垂直にそれぞれ４ピク
セルずつ、ずらして求める。このとき、ある４ピクセル
四方のブロックを含む領域は４つ存在する。この４つの
領域すべてが動領域であれば、その４ピクセル四方のブ
ロックを動領域とし、この４つの領域がすべて動領域で
なければ、その４ピクセル四方のブロックを静止領域と
し、それ以外の場合は、境界領域とする。境界領域には
動領域と静止領域の平均値をあたえ画像を３値化する。
この画像は検出すべき動物体の姿勢、形状を表してあ
り、ステップ２０において、テンプレートマッチング処
理装置１４によってこの画像と、汎用モデル記憶装置１
６に記憶されているジェスチャモデルとをテンプレート
マッチングすることにより部位に位置を決定し、個人ジ
ェスチャモデルである各部位のカラーテンプレートを生
成する。

【００２７】このように、図８のようなコントラストの
低い場合の背景差分２値画像でも、インタラクティブモ
ードによってセグメンテーションを行うことによって、
個人ジェスチャモデルを作成することができる。図１０
はインタラクティブモードによってセグメンテーション
を行ったときの結果画像である。ここで用いられている
汎用モデル記憶装置１６に記憶されているジェスチャモ
デルとは、テンプレートマッチングをベースにしたジェ
スチャテンプレートモデル（ＧＴＭ）という改良型テン
プレートモデルを用いている。ＧＴＭはそれぞれのジェ
スチャにおける代表的なポーズを一枚のテンプレート画
像で表現し、あるジェスチャをこれらのテンプレート画
像の集合として表現するものである。

【００２８】図１１はパンチジェスチャにおける腕のポ
ーズに対応させて、一般ＧＴＭとあるユーザの個人ＧＴ
Ｍを表している。パンチジェスチャのＧＴＭは、パンチ
における腕の状態を表した４枚のジェスチャテンプレー
トＧＴ（ＰＧＴ１からＰＧＴ４）を１つのセットとして
構成される。一般ＧＴは、特定のユーザのテクスチャが
マッピングされていない、対象の形状特徴だけを表した
テンプレート画像であり、対象領域とそれ以外のマスク
領域の２つの領域から構成される。個人ＧＴは、図６の
ようにセグメンテーションされたそれぞれのユーザごと
のカラーテクスチャをもった部位領域を、一般テンプレ
ートの対象領域に合うように変形、マッピングして作成
する。個人ＧＴＭも対象領域とマスク領域の２つの領域
から構成され、このＧＴＭによってテンプレートマッチ
ングを行うと、対象領域のみがマッチング処理に利用さ
れ、マスク領域はマッチング処理とは無関係になる。そ
の場合、対象領域のマッチングにはポーズ形状特徴だけ
ではなく、それぞれのユーザごとのカラーテクスチャが
使えるために様々な環境においても正確にマッチングで
きる。

【００２９】図１２はあるユーザにおけるボデイ用のＧ
ＴＭの例である。このボデイ用の個人ＧＴＭは図６にお
けるボデイ領域を一般ボデイＧＴＭにマッピングして作
られたものである。ＢＧＴ３が直立したボデイを表し、
ＢＧＴ１，２，４，５ではそれぞれの方向に傾いたボデ
イを表現している。ボデイＧＴＭは、ボデイの傾きのジ
ェスチャを認識することもできるが、パンチジェスチャ
など腕や脚をＧＴＭによってトラッキングする場合に探
索範囲を限定するのにも使われる。

【００３０】このように、ＧＴＭを用いてテンプレート
マッチングを行うことによって、実時間において容易に
個人ジェスチャモデルを作成することができる。ステッ
プ２１では上述のようにして形成された個人ジェスチャ
モデルを用いて、状態認識装置２０においてジェスチャ
認識を行う。まず、個人ジェスチャモデルを用いて、入
力画像中のユーザの特定部位のトラッキングを行う。ト
ラッキングの方法はまずボデイ用の個人ＧＴＭを用いて
ボデイの位置と状態を推定する。次にそのボデイの位置
から限定される範囲でそれぞれのジェスチャの個人ＧＴ
Ｍを用いて特定部位をトラッキングしていく。

【００３１】通常のテンプレートマッチングでは、すべ
てのテンプレート画像におけるマッチングの結果から最
もマッチするものを選択して認識処理を行う。しかし、
一人のユーザがジェスチャを行う場合、ＧＴＭで用意し
たすべてのポーズを同時にとることはできない。また、
ジェスチャではＧＴＭにおけるポーズを順に取らなけれ
ばならない。以下では、ジェスチャがもつ特性を利用し
た個人ＧＴＭの時系列マッチングの結果からのジェスチ
ャの認識処理について説明する。

【００３２】図１３は、あるジェスチャのＧＴＭに対し
てそのジェスチャを行った場合にＧＴＭにおける各ＧＴ
がジェスチャのポーズの変化に対してとる相違度の変化
を表している。このグラフにおいて横軸がそのジェスチ
ャの対象領域のポーズの変化を表しており、縦軸はその
時の入力画像とＧＴとの相違度を表している。また、番
号をつけた各曲線が各ＧＴの相違度を表している。ある
ジェスチャを行う場合、ポーズは横軸に対して左から右
に変化する。このグラフにおいて各ＧＴが入力画像中の
対象領域と完全にマッチした場合、各ＧＴにおける相違
度の変化は太線のようになるはずである。つまり、ある
ジェスチャはまず第１のポーズＰ１となり、その場合Ｇ
Ｔ１の相違度が最小となる。ジェスチャが進むとポーズ
はＰ２，Ｐ３と変化し、それぞれＧＴ２，ＧＴ３の相違
度が最小になっていく。つまり、ＧＴＭによるマッチン
グ結果はＧＴ１から順に相違度が最小になっていくはず
である。しかし、実際の処理では各ユーザのジェスチャ
の個人差などによって、あるＧＴの相違度グラフは図１
２の点線で示すように変化することがある。その場合、
各ＧＴの境となるポーズＰm付近でこれが起こると、こ
の場合のみマッチング結果はＧＴの順にならずに前後す
る。また、ジェスチャのスピードが非常に早い場合、Ｇ
Ｔ１からＧＴ３のように変化することもある。

【００３３】そこでこのような特性を持つＧＴＭのマッ
チング結果を図１４のようなオートマトンによって認識
する。このオートマトンは状態が時間と共に変化する。
この図において、Ｓｎが現在の入力画像において相違度
が最小となったＧＴｎに対応する。そして次の時刻にお
いてＧＴ_n-1からＧＴ_n+2までのモデルで入力画像との
マッチングを行ない、その中で最もマッチしたモデルの
番号で状態を遷移させる。ただし、ＧＴ_n-1からＧＴ
_n+2までの相違度がすべて閾値以上なら状態番号は０と
する。もしＧＴ_n+1かＧＴ_n+2にマッチすると状態はそ
れぞれＳ_n+1、Ｓ _n+2に変化して、このときＳ_n+1かＳ
_n+2が最終状態であればジェスチャを認識して処理を終
了する。もし最終状態でなければ遷移した先のＳ_n+1か
Ｓ_n+2で現在の状態Ｓ_nを書き換え、それに合わせて他
のＳも書き換える。ただしＧＴ_n-1にマッチして状態が
Ｓ_n-1に遷移しても、Ｓ_nは書き換えられない。つま
り、これは図１２においてマッチする対象の状態が次の
ポーズか次の次のポーズに進むか、あるいは一つ前のポ
ーズに戻ることは許されるが、それ以上は許さないこと
を意味する。このように、状態遷移によってジェスチャ
を認識することで、ＤＰマッチングやＨＭＭで時系列特
徴を認識する方法に比べ、様々なジェスチャスピードの
変化に対応できるようになる。また、現在の状態に合わ
せて比較するＧＴの数を減らすことで誤ったモデルとの
マッチを減らすことができるため、認識の精度が高くな
る。

【００３４】図１５はあるユーザがパンチジェスチャを
行なって、さらにその腕を元の状態に戻したときに、パ
ンチＧＴＭの各ＰＧＴがとった相違度の変化を表してい
る。各ＰＧＴの相違度が図１２のように順に最小になっ
ていく様子がよくわかる。発明者等は、上述したオート
モードとインタラクティブモードで作成した個人ジェス
チャモデルを用いて簡単なジェスチャ認識実験を行っ
た。ここでは、ジェスチャは、通常パンチ，上方向に出
す特別パンチ、キックの３種類とした。実験の手順は以
下の通りである。まず、４人のユーザにそれぞれの場合
で各ジェスチャを５回してもらった。表１がオートモー
ドにおける実験結果、そして表２がインタラクティブモ
ードにおける実験結果を示す。この結果から分かるよう
にインタラクティブモードの方が認識率が僅かに下が
る。これはインタラクティブモードで作成されたモデル
の方がセグメンテーションの位置が本来のものと若干ず
れることがあるためであるが、現在の認識率でも十分に
インタラクティブシステムに対応できると思われる。

【００３５】

【表１】

【００３６】

【表２】

【００３７】また、発明者等は、さらに実時間インタラ
クティブシステムであるジェスチャゲームシステムを構
築して本発明の有効性を調べた。このシステムは、ユー
ザのジェスチャを実時間で認識し、その結果によりＴＶ
ゲームの操作を行うものである。本システムはシルエッ
ト画像生成部とジェスチャ認識部の２つのユニットによ
って構成される。図１６はこのときのジェスチャゲーム
システムを表わしたものである。

【００３８】シルエット画像形成部は、実時間画像処理
システムを用いて背景差分画像を閾値処理して２値画像
を作成する。この処理はオートセグメンテーションのと
きのみに行われ、ここで抽出された２値画像は次のジェ
スチャ認識部に送られる。ジェスチャ認識部では、セグ
メンテーション，個人モデル作成，ジェスチ認識を行
う。このユニットには、インタラクションを行うための
音声認識・合成システムとテンプレートマッチング専用
ハード（富士通社製カラートラッキングビジョン）が利
用されている。このジェスチャ認識の結果はゲーム用の
コードに変換され、ＴＶゲームとのインターフェースを
通じてＴＶゲームに送られる。

【００３９】このＴＶゲームは、通常パンチ，特別パン
チ、キックなどのジェスチャでゲームのキャラクタを操
作し、敵のキャラクターを倒す格闘ゲームである。この
システムでは、３０フレーム／秒処理されるが、処理結
果のアウトプットには通信時間の影響などによって約
０．２秒ほどかかっている。そのためＴＶゲームを付属
のコントローラで操作するよりも若干のタイムラグを感
じさせるが、ＴＶゲームの面白さを損なうほどではな
く、十分インタラクティブにゲームを楽しむことができ
る。また、非常になれたユーザになると通常のコントロ
ーラーよりうまくキャラクターを操作できる場合もあっ
た。このようなことから、本発明が実時間インタラクテ
ィブシステムの操作に十分に応用可能であることが確認
できた。

【００４０】なお、上述の実施例では、インタラクティ
ブシステムにおいては音声による指示を行っていたが、
映像によってインタラクションを行ってももちろんかま
わない。また、上述の実施例では、オプテイカルフロー
を検出することによって、動領域を検出したが、２値動
領域を用いて動き情報を得る方法もある。２値動領域と
は、背景差分２値画像と連続差分２値画像の論理積をと
った領域のことで、以下の式から求められる。

【００４１】

【数７】Ｍ（ｘ，ｙ，ｔ）＝Ｉ′（ｘ，ｙ，ｔ）＊Ｊ′
（ｘ，ｙ，ｔ）ただし、Ｍは時刻ｔにおける２値動領域を、Ｉ′は背景
差分２値画像を、Ｊ′は連続差分２値画像を表し、＊は
理論積を表す。Ｊ′は以下の式で求められる。

【００４２】

【数８】

【００４３】これは現在動きのある領域で、なおかつあ
る程度背景画像とは異なった領域のことを表しているた
め、比較的安定した動き情報が得られる。

【図面の簡単な説明】

【図１】この発明の一実施例を示すブロック図である。

【図２】この実施例全体の動作を示すフロー図である。

【図３】インタラクティブモードを示すフロー図であ
る。

【図４】コントラストが高い場合の背景差分２値画像を
示す表示画像である。

【図５】ボデイ用のＭＴＭを示す表示画像である。

【図６】腕（脚）用のＭＴＭを示す表示画像である。

【図７】オートモードでセグメンテーションを行った結
果画像を示す表示画像である。

【図８】コントラストが低い場合の背景差分２値画像を
示す表示画像である。

【図９】４ピクセル四方の単位領域で３値化を表すこと
を説明するための図解図である。

【図１０】インタラクティブモードでセグメンテーショ
ンを行った結果画像を示す表示画像である。

【図１１】パンチジェスチャにおける腕のポーズに対応
させて汎用ＧＴＭと個人ＧＴＭを示す表示画像である。

【図１２】ボデイ用の個人ＧＴＭを示す表示画像であ
る。

【図１３】腕の状態変化に伴う各テンプレート画像の相
違度の変化を示すグラフである。

【図１４】ＧＴＭのマッチング結果を認識する状態変化
オートマトンを示す図解図である。

【図１５】あるユーザのパンチジェスチャにおけるパン
チＧＴＭの相違度を示すグラフである。

【図１６】ジェスチャゲームのシステムを示す図解図で
ある。

【符号の説明】

１０ …ジェスチャ認識装置１２ …画像入力装置識装置１４ …テンプレートマッチング処理装置１６ …汎用モデル記憶装置１８ …コンピュータ２０ …状態認識装置２２ …テンプレート間相関度認識装置２４ …状態番号記憶装置２６ …音声指示発生装置２８ …個人モデル記憶装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者谷内田正彦大阪市住之江区南港北１丁目14−16 ＷＴＣビル21階メールボックス番号82 財団法人イメージ情報科学研究所内

Claims

【特許請求の範囲】

【請求項１】人物を撮影した入力画像を入力する画像入
力手段、人物に所定動作を指示する指示手段、前記指示手段の指示に応じた動作をしたときの入力画像
から個人モデルを作成する個人モデル作成手段、および
前記個人モデルと入力画像とに基づいてジェスチャを認
識する手段を備える、ジェスチャ認識装置。
【請求項２】前記個人モデル作成手段は前記入力画像か
ら特定部位画像を抽出する抽出手段を備える、請求項１
記載のジェスチャ認識装置。
【請求項３】前記抽出手段は、人物の頭部位置を検出
し、前記頭部位置からボデイ位置を決定し、前記ボデイ
位置に基づいて前記特定部位画像の抽出を行う、請求項
２記載のジェスチャ認識装置。
【請求項４】汎用モデルを予め記憶している汎用モデル
記憶手段をさらに備え、前記個人ジェスチャモデル作成手段は、前記汎用モデル
を変形して個人ジェスチャモデルを作成する変形手段を
備える、請求項１ないし３のいずれかに記載のジェスチ
ャ認識装置。
【請求項５】前記変形手段は、前記入力画像からの個人
データとして色情報を取り込み、前記汎用モデルに色を
付加する、請求項４記載のジェスチャ認識装置。
【請求項６】前記入力画像より前記特定部位画像を抽出
し個人ジェスチャモデルの作成が可能であるかどうかを
判別する判別手段、可能であると判断された場合に自動
的に個人モデルを作成する手段を備える、請求項１ない
し５のいずれかに記載のジェスチャ認識装置。
【請求項７】前記判別手段で個人モデルの作成が不可能
であると判断された場合に、前記個人モデル作成手段に
よって個人モデルを作成する手段を備える、請求項６記
載のジェスチャ認識装置。