JPH11296673A - ジェスチャ認識装置 - Google Patents

ジェスチャ認識装置

Info

Publication number
JPH11296673A
JPH11296673A JP10104725A JP10472598A JPH11296673A JP H11296673 A JPH11296673 A JP H11296673A JP 10104725 A JP10104725 A JP 10104725A JP 10472598 A JP10472598 A JP 10472598A JP H11296673 A JPH11296673 A JP H11296673A
Authority
JP
Japan
Prior art keywords
model
gesture
image
personal
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10104725A
Other languages
English (en)
Other versions
JP4221681B2 (ja
Inventor
Kunimitsu Sakakibara
邦光 榊原
Takahiro Watanabe
孝弘 渡辺
Masahiko Yanaida
正彦 谷内田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IMAGE JOHO KAGAKU KENKYUSHO
Original Assignee
IMAGE JOHO KAGAKU KENKYUSHO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IMAGE JOHO KAGAKU KENKYUSHO filed Critical IMAGE JOHO KAGAKU KENKYUSHO
Priority to JP10472598A priority Critical patent/JP4221681B2/ja
Publication of JPH11296673A publication Critical patent/JPH11296673A/ja
Application granted granted Critical
Publication of JP4221681B2 publication Critical patent/JP4221681B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【構成】 テンプレートマッチング処理装置14では、
画像入力装置12によって入力された入力画像と汎用モ
デル記憶装置16に記憶した複数のテンプレート画像と
の相違度を演算する。テンプレートマッチング処理装置
14からは、各テンプレート画像と入力画像との相違度
が出力され、コンピューター18の状態認識装置20に
与えられる。状態認識装置20では、テンプレート間相
関度記憶装置22に記憶されたテンプレート間相違度お
よび状態番号記憶装置24に記憶された各テンプレート
画像の状態番号を参照して、入力画像における腕や脚の
状態番号を出力する。このとき、相違度がある閾値値以
上の場合、音声指示発生装置26によって人物に音声に
よる指示を行い、個人モデル記憶装置28に記憶されて
いる個人モデルを用いて再びテンプレートマッチングを
行う。 【効果】 簡単な装置によって特定の人物のジェスチャ
を認識できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明はジェスチャ認識装置に
関し、特にたとえばビデオカメラなどで撮影した人物画
像を処理して人物の動作を認識し、脚や腕等の状態を同
定してコンピュータやゲーム機などへ情報を提供するジ
ェスチャ認識装置に関する。
【0002】
【従来の技術】人間にとって最も自然なコミュニケーシ
ョン手段の一つであるジェスチャは、人間と機械のイン
タラクションをより自然なものにするためにも重要な要
素の一つである。従来の人間のジェスチャを認識する方
法としては、背景差分2値画像を用いて動画像からジェ
スチャを認識する手法が数多く提案されている。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
技術では、実環境下において実時間でジェスチャを認識
しようとする場合は、ユーザの服装や背景などが複雑な
映像となり、単純に2値化する方法では正確な認識はで
きないといった問題があった。そのため、使用環境を制
限せざるを得ず、さまざまな実環境下においてジェスチ
ャを正確に抽出するのは困難であった。
【0004】それゆえに、この発明の主たる目的は、実
環境下でも実時間で正確に人間のジェスチャを認識でき
るジェスチャ認識装置を提供することである。
【0005】
【課題を解決するための手段】この発明は、人間を撮影
した入力画像を入力する画像入力手段、人間に所定動作
の指示をする指示手段、人間が指示手段の指示に応じた
動作をしたときの入力画像から個人モデルを作成する個
人モデル作成手段、および個人モデルと入力画像とに基
づいてジェスチャを認識する認識手段を備える、ジェス
チャ認識装置である。
【0006】
【作用】個人モデルを特定の人間とインタラクティブに
対応することによって作成する。そして、テンプレート
マッチングを基本としたジェスチャテンプレートモデル
(GTM)を用いてジェスチャ認識を行う。また、この
ときオートマトンを用いることによって、GTMの認識
結果を正確に認識できる。
【0007】
【発明の効果】この発明によれば、特定の人物に個別に
対応する個人モデルを作成するようにしたので、複雑な
入力画像から人間を容易に特定でき、したがって実環境
下でも実時間で正確に人間のジェスチャを認識できる。
この発明の上述の目的,その他の目的,特徴および利点
は、図面を参照して行う以下の実施例の詳細な説明から
一層明らかとなろう。
【0008】
【実施例】図1に示すこの発明の実施例のジェスチャ認
識装置10は、たとえばビデオカメラを含む画像入力装
置12によって撮影された、カラー画像のような入力画
像を処理する。この入力画像は、たとえば富士通株式会
社製「カラートラッキングビジョン」などの専用ハード
ウエアで構成されたテンプレートマッチング処理装置1
4によって処理される。テンプレートマッチング処理装
置14では、入力画像と汎用モデル記憶装置16に記憶
した複数のテンプレート画像との相違度を演算する。テ
ンプレートマッチング処理装置14からは、通常のテン
プレートマッチング手法に従って、各テンプレート画像
と入力画像との相違度が出力され、コンピューター18
すなわち状態認識装置20に与えられる。状態認識装置
20では、テンプレート間相関度記憶装置22に記憶さ
れたテンプレート間相違度および状態番号記憶装置24
に記憶された各テンプレート画像の状態番号を参照し
て、入力画像における腕や脚の状態番号を出力する。こ
のとき、相違度がある閾値値以上の場合、音声指示発生
装置26によって人物に音声による動作指示を行い、個
人モデルを作成する。この個人モデルは個人モデル記憶
装置28に記憶され、テンプレートマッチング処理装置
14は個人モデルを用いて再び、テンプレートマッチン
グを行う。
【0009】以下、図2に示すこの実施例のフロー図を
参照して説明を行う。まず、ステップ1で画像入力装置
12により入力画面中に人物が検出されると、次のステ
ップ2から個人モデルを作成するプロセスを開始する。
その際、この実施例は入力画像から人物の特定部位をイ
ンタラクティブにセグメンテーションする方法をとる
が、人物のインタラクションに対する負担を軽減するた
めに、まずステップ2〜6のオートモードにおいて背景
差分の情報から人物の特定部位のセグメンテーションを
試みる。ここで、もしシステムがセグメンテーションに
成功したと判断した場合には、ステップ21の個人ジェ
スチャモデル作成処理のステップに進む。しかし、シス
テムがセグメンテーションに失敗したと判断した場合
は、ステップ7〜20のインタラクティブモードに進
む。ここでは、音声によってユーザに指示し、セグメン
テーションしやすい特定アクションを行なってもらい、
その動き情報からユーザの特定部位のセグメンテーショ
ンを行う。
【0010】オートモードでは、入力画像の背景差分2
値画像と、2値画像のセグメンテーションのために発明
者が開発したMaskable Template Model(MTM) を用
いてセグメンテーションを行なう。まずステップ2にお
いて背景差分2値画像を検出する。背景差分2値画像は
次の数1から求めることができる。ただし、I′は時刻
tにおける背景差分2値画像,Iは入力画像,Bは背景
画像,thは2値化の閾値を表す。図4はステップ2によ
って検出されたコントラストの高い場合の背景差分2値
画像(シルエット画像)の例である。
【0011】
【数1】
【0012】次に、ステップ3ではテンプレートマッチ
ング処理装置14においてボデイのセグメンテーション
を試みる。ボデイを検出することによって入力画像中の
人物が存在するかどうか確認するためである。このとき
のボデイのセグメンテーションは汎用モデル記憶装置1
6に記憶されているMTMを用いて行われる。MTMは
改良型のテンプレート画像であり、さまざまな形状に変
化する人物の特定部位を少ないテンプレートで正確にセ
グメンテーションすることができる。図5および図6に
示すように、MTMは2値画像がとる2値(背景領域を
表す値0の黒領域と人物領域を表す値254の白領域)
と、その2値の中間値をとるマスク領域(値127のグ
レー領域)との3値から構成される。MTMによるテン
プレートマッチングを行なうと、マスク領域が“don't
care ”となり、黒領域と白領域における相違度のみを
求めることができる。図5のボデイ用MTMではボデイ
の回りにマスク領域を置くことで、見せかけの大きさが
変化したボデイに対してもこのMTMを用いてセグメン
テーションが行なうことができる。 MTMによるセグ
メンテーションは通常のテンプレートマッチングと同様
に次の数2の式によって、入力2値画像中から最もマッ
チする位置、つまり入力画像とMTMの相違度D(T)
が最小になる座標(x,y)を捜し出し、その位置でセ
グメンテーションを行う。この処理は通常のテンプレー
トマッチング用ハードウエアを用いて実時間で行われ
る。
【0013】
【数2】
【0014】ただし、I′は入力2値画像,Tはテンプ
レート画像,m×nがテンプレート画像の大きさ,Sは
入力画像中の探索範囲,D(T)は入力2値画像中で最
もマッチした座標(x,y)における相違度を表す。そ
して次のステップ4において、図5のボデイ用MTMと
入力2値画像のマッチングの程度が非常に高い場合、つ
まり相違度D(T)がある閾値Th1以下の場合、入力画
像中に人が存在するものとして、この画像と、あらかじ
め用意したジェスチャモデルとをテンプレートマッチン
グすることにより部位に位置を決定し、個人ジェスチャ
モデルであるボデイのカラーテンプレートを生成し、個
人モデル記憶装置28に記憶した後、次のステップ5に
進む。また反対に、マッチングの程度が非常に低く相違
度D(T)がある閾値Th2(>Th1)以上の場合、入力
画面中に人が存在しないものとして入力画像で背景画像
を更新して、ステップ1に戻り次の入力画像の処理に進
む。これは時間変化に伴う照明条件などの環境の変化に
対応するためである。しかし、相違度D(T)がTh1
D(T)<Th2となった場合、つまり、背景から何らか
の変化はあるが人の形状が検出されなかった場合、ステ
ップ7からのインタラクティブモードに移行する。図7
はオートモードでセグメンテーションを行った結果を表
わす画像であり、最もマッチした位置(x,y)で入力
画像からMTMのボデイ領域に対応する部分をセグメン
テーションした結果を示すものである。
【0015】ステップ4でボデイがセグメンテーション
されユーザが検出された場合は、次のステップ5におい
て、各部位(腕や脚)のセグメンテーションが行われ
る。ここでのセグメンテーションには図5の腕(脚)用
のMTMを利用する。このMTMは腕(脚)領域の間を
カバーするようにマスク領域を設定している。これは腕
(脚)を伸ばして上下に振っても抽出できるようにして
いるためである。図7の場合では図6のL5のモデルに
よって腕のセグメンテーションがなされ、L5の腕領域
に対応する部分が切り出される。
【0016】腕(脚)領域のセグメンテーションでもボ
デイ領域の場合と同様に、ステップ6において相違度D
(T)によってセグメンテーションの成否を判断する。
ここで、腕(脚)領域のセグメンテーションに成功した
と判断された場合、つまり相違度D(T)がある閾値T
h3以下の場合、入力画像中に各部位が存在するものとし
て、この画像と、あらかじめ用意したジェスチャモデル
とをテンプレートマッチングすることにより部位に位置
を決定し、個人ジェスチャモデルである各部位のカラー
テンプレートを生成し、個人モデル記憶装置28に記憶
した後、ステップ21に進む。また反対に、腕(脚)領
域のセグメンテーションに失敗したと判断された場合、
つまり相違度D(T)がある閾値Th4より大きい場合、
ステップ16からのインタラクティブモードに進む。
【0017】図8はコントラストの低い場合の背景差分
2値画像(シルエット画像)の例である。このように、
シルエット領域のコントラストが低い場合はオートモー
ドではセグメンテーションを行うことができず、インタ
ラクティブモードにおいて、セグメンテーションを実行
する。以下、図3のインタラクティブモードの場合のフ
ロー図を参照して説明を行う。
【0018】インタラクティブモードでは、各ステップ
において、オプテイカルフローによって動領域の有無,
位置,および速度を検出し、その情報に基づいて発見,
追跡,およびセグメンテーションの処理を行う。オプテ
イカルフローを得るための手法として、この実施例では
リアルタイム性を重視しブロックマッチング法を採用し
た。数3で与えられるSADを最小とするu,vが時刻
t,t+1間の速度ベクトルである。
【0019】
【数3】
【0020】この実施例ではカラー画像を扱うため、
R,G,BのプレーンのSADの和をトータルのSAD
とした。
【0021】
【数4】SAD(x,y,u,v)=SADr(x,y,u,v) +SADg(x,y,u,
v) +SADb(x,y,u,v) また、ノイズによる誤った検出を防ぐため以下の条件の
ときは、動領域とはみなさない。ただし、u′,v′は
得られた速度ベクトル、THは所定値を示す。
【0022】
【数5】 SAD(x,y,u ′,v ′) − SAD(x,y,0,0) <TH まず、ステップ7では、画面全体の範囲で比較的粗い密
度でオプテイカルフローを検出する。このとき動領域が
所定数以上検出されると、それを人物とみなす。そし
て、次のステップ8においてその動領域の重心位置を算
出する。なお、この実施例では画面のサイズは水平方向
に320ピクセル、垂直方向に240ピクセルであり、
検出グリッドは水平方向および垂直方向にいずれも16
ピクセルである。
【0023】ステップ9では、発見された人物に対して
所定の位置に移動し静止するように音声指示発生装置2
6によって、音声によって指示する。ステップ10で
は、重心位置の周辺範囲で比較的細かい密度でオプテイ
カルフローを検出し、各フレーム毎に重心位置を更新す
ることによって、人物の追跡を行う。このとき、動領域
が所定数以下の場合は重心の更新は行わない。そして、
ステップ11において所定時間、重心の更新が行わなけ
れば、人物が静止したとみなす。なお、この実施例では
検出グリッドは水平方向および垂直方向にいずれも8ピ
クセルである。
【0024】ステップ12では人物にうなずいてもらう
ように音声指示発生装置26によって音声による指示を
行う。ステップ13では、重心位置を基準とした所定の
範囲で、先の指示によって人物が頭部を動かしたときの
垂直方向の速度成分を持つ領域を検出する。この検出さ
れた領域は頭の位置とみなされる。次のステップ14で
は、このときの頭の位置を基準としてボデイの位置を決
定する。そして、ステップ15においてテンプレートマ
ッチング処理装置14によりボデイのセグメンテーショ
ンを行う。このセグメンテーションを行うことによって
画像よりボデイの画像を切り取り、個人ジェスチャモデ
ルであるボデイのカラーテンプレートを生成し、個人モ
デル記憶装置28に記憶する。
【0025】ボデイのセグメンテーションが行われた
後、オートモードと同様に各部位のセグメンテーション
を行う。まずステップ16で、人物に所定の動作を行う
ように音声指示発生装置26によって音声メッセージを
発する。人物が音声メッセージに応じて所定の動作(た
とえば右手を振り上げる動作)を行うと、次のステップ
17においてボデイの位置に対して所定の範囲内に動領
域が検出される。そしてステップ18において、先の範
囲内の動領域の速度ベクトルの平均値を求め、その平均
値が所定方向と最も近いフレームを対象フレームとして
選択する。所定方向とは、たとえば、右腕を振り上げる
動作の場合は、垂直方向とし、これは、右腕が水平に伸
びた状態に対応する。また、速度ベクトルを求める際、
3フレーム間のオプテイカルフローを求めることによ
り、背景による影響を軽減する。つまり、(t)フレー
ムと(t−1)フレーム間、および(t)フレームと
(t+1)フレーム間のオプテイカルフローをそれぞれ
求め、両方が動領域である場合のみ、(t)フレームの
その領域を動領域とする。動領域である場合は二つの速
度ベクトルを平均化する。これにより3フレーム間のオ
プテイカルフローが得られる。平均化された速度ベクト
ルの式を数6に示す。
【0026】
【数6】U(t)={−u(t,t−1)+u(t,t
+1)}/2 V(t)={−v(t,t−1)+v(t,t+1)}
/2 対象フレームが選択されると、ステップ19において、
さらに詳細な密度でオプテイカルフローを求め、画像
を、動領域,静止領域,および境界領域に分類し3値化
する。図9a,b,c,d,e に示すように、3値化は4ピクセ
ル四方のブロック単位で行う。まず8ピクセル四方の領
域のオプテイカルフローを水平、垂直にそれぞれ4ピク
セルずつ、ずらして求める。このとき、ある4ピクセル
四方のブロックを含む領域は4つ存在する。この4つの
領域すべてが動領域であれば、その4ピクセル四方のブ
ロックを動領域とし、この4つの領域がすべて動領域で
なければ、その4ピクセル四方のブロックを静止領域と
し、それ以外の場合は、境界領域とする。境界領域には
動領域と静止領域の平均値をあたえ画像を3値化する。
この画像は検出すべき動物体の姿勢、形状を表してあ
り、ステップ20において、テンプレートマッチング処
理装置14によってこの画像と、汎用モデル記憶装置1
6に記憶されているジェスチャモデルとをテンプレート
マッチングすることにより部位に位置を決定し、個人ジ
ェスチャモデルである各部位のカラーテンプレートを生
成する。
【0027】このように、図8のようなコントラストの
低い場合の背景差分2値画像でも、インタラクティブモ
ードによってセグメンテーションを行うことによって、
個人ジェスチャモデルを作成することができる。図10
はインタラクティブモードによってセグメンテーション
を行ったときの結果画像である。ここで用いられている
汎用モデル記憶装置16に記憶されているジェスチャモ
デルとは、テンプレートマッチングをベースにしたジェ
スチャテンプレートモデル(GTM)という改良型テン
プレートモデルを用いている。GTMはそれぞれのジェ
スチャにおける代表的なポーズを一枚のテンプレート画
像で表現し、あるジェスチャをこれらのテンプレート画
像の集合として表現するものである。
【0028】図11はパンチジェスチャにおける腕のポ
ーズに対応させて、一般GTMとあるユーザの個人GT
Mを表している。パンチジェスチャのGTMは、パンチ
における腕の状態を表した4枚のジェスチャテンプレー
トGT(PGT1からPGT4)を1つのセットとして
構成される。一般GTは、特定のユーザのテクスチャが
マッピングされていない、対象の形状特徴だけを表した
テンプレート画像であり、対象領域とそれ以外のマスク
領域の2つの領域から構成される。個人GTは、図6の
ようにセグメンテーションされたそれぞれのユーザごと
のカラーテクスチャをもった部位領域を、一般テンプレ
ートの対象領域に合うように変形、マッピングして作成
する。個人GTMも対象領域とマスク領域の2つの領域
から構成され、このGTMによってテンプレートマッチ
ングを行うと、対象領域のみがマッチング処理に利用さ
れ、マスク領域はマッチング処理とは無関係になる。そ
の場合、対象領域のマッチングにはポーズ形状特徴だけ
ではなく、それぞれのユーザごとのカラーテクスチャが
使えるために様々な環境においても正確にマッチングで
きる。
【0029】図12はあるユーザにおけるボデイ用のG
TMの例である。このボデイ用の個人GTMは図6にお
けるボデイ領域を一般ボデイGTMにマッピングして作
られたものである。BGT3が直立したボデイを表し、
BGT1,2,4,5ではそれぞれの方向に傾いたボデ
イを表現している。ボデイGTMは、ボデイの傾きのジ
ェスチャを認識することもできるが、パンチジェスチャ
など腕や脚をGTMによってトラッキングする場合に探
索範囲を限定するのにも使われる。
【0030】このように、GTMを用いてテンプレート
マッチングを行うことによって、実時間において容易に
個人ジェスチャモデルを作成することができる。ステッ
プ21では上述のようにして形成された個人ジェスチャ
モデルを用いて、状態認識装置20においてジェスチャ
認識を行う。まず、個人ジェスチャモデルを用いて、入
力画像中のユーザの特定部位のトラッキングを行う。ト
ラッキングの方法はまずボデイ用の個人GTMを用いて
ボデイの位置と状態を推定する。次にそのボデイの位置
から限定される範囲でそれぞれのジェスチャの個人GT
Mを用いて特定部位をトラッキングしていく。
【0031】通常のテンプレートマッチングでは、すべ
てのテンプレート画像におけるマッチングの結果から最
もマッチするものを選択して認識処理を行う。しかし、
一人のユーザがジェスチャを行う場合、GTMで用意し
たすべてのポーズを同時にとることはできない。また、
ジェスチャではGTMにおけるポーズを順に取らなけれ
ばならない。以下では、ジェスチャがもつ特性を利用し
た個人GTMの時系列マッチングの結果からのジェスチ
ャの認識処理について説明する。
【0032】図13は、あるジェスチャのGTMに対し
てそのジェスチャを行った場合にGTMにおける各GT
がジェスチャのポーズの変化に対してとる相違度の変化
を表している。このグラフにおいて横軸がそのジェスチ
ャの対象領域のポーズの変化を表しており、縦軸はその
時の入力画像とGTとの相違度を表している。また、番
号をつけた各曲線が各GTの相違度を表している。ある
ジェスチャを行う場合、ポーズは横軸に対して左から右
に変化する。このグラフにおいて各GTが入力画像中の
対象領域と完全にマッチした場合、各GTにおける相違
度の変化は太線のようになるはずである。つまり、ある
ジェスチャはまず第1のポーズP1となり、その場合G
T1の相違度が最小となる。ジェスチャが進むとポーズ
はP2,P3と変化し、それぞれGT2,GT3の相違
度が最小になっていく。つまり、GTMによるマッチン
グ結果はGT1から順に相違度が最小になっていくはず
である。しかし、実際の処理では各ユーザのジェスチャ
の個人差などによって、あるGTの相違度グラフは図1
2の点線で示すように変化することがある。その場合、
各GTの境となるポーズPm付近でこれが起こると、こ
の場合のみマッチング結果はGTの順にならずに前後す
る。また、ジェスチャのスピードが非常に早い場合、G
T1からGT3のように変化することもある。
【0033】そこでこのような特性を持つGTMのマッ
チング結果を図14のようなオートマトンによって認識
する。このオートマトンは状態が時間と共に変化する。
この図において、Snが現在の入力画像において相違度
が最小となったGTnに対応する。そして次の時刻にお
いてGTn-1 からGTn+2 までのモデルで入力画像との
マッチングを行ない、その中で最もマッチしたモデルの
番号で状態を遷移させる。ただし、GTn-1 からGT
n+2 までの相違度がすべて閾値以上なら状態番号は0と
する。もしGTn+1 かGTn+2 にマッチすると状態はそ
れぞれSn+1 、S n+2 に変化して、このときSn+1 かS
n+2 が最終状態であればジェスチャを認識して処理を終
了する。もし最終状態でなければ遷移した先のSn+1
n+2 で現在の状態Sn を書き換え、それに合わせて他
のSも書き換える。ただしGTn-1にマッチして状態が
n-1 に遷移しても、Sn は書き換えられない。つま
り、これは図12においてマッチする対象の状態が次の
ポーズか次の次のポーズに進むか、あるいは一つ前のポ
ーズに戻ることは許されるが、それ以上は許さないこと
を意味する。このように、状態遷移によってジェスチャ
を認識することで、DPマッチングやHMMで時系列特
徴を認識する方法に比べ、様々なジェスチャスピードの
変化に対応できるようになる。また、現在の状態に合わ
せて比較するGTの数を減らすことで誤ったモデルとの
マッチを減らすことができるため、認識の精度が高くな
る。
【0034】図15はあるユーザがパンチジェスチャを
行なって、さらにその腕を元の状態に戻したときに、パ
ンチGTMの各PGTがとった相違度の変化を表してい
る。各PGTの相違度が図12のように順に最小になっ
ていく様子がよくわかる。発明者等は、上述したオート
モードとインタラクティブモードで作成した個人ジェス
チャモデルを用いて簡単なジェスチャ認識実験を行っ
た。ここでは、ジェスチャは、通常パンチ,上方向に出
す特別パンチ、キックの3種類とした。実験の手順は以
下の通りである。まず、4人のユーザにそれぞれの場合
で各ジェスチャを5回してもらった。表1がオートモー
ドにおける実験結果、そして表2がインタラクティブモ
ードにおける実験結果を示す。この結果から分かるよう
にインタラクティブモードの方が認識率が僅かに下が
る。これはインタラクティブモードで作成されたモデル
の方がセグメンテーションの位置が本来のものと若干ず
れることがあるためであるが、現在の認識率でも十分に
インタラクティブシステムに対応できると思われる。
【0035】
【表1】
【0036】
【表2】
【0037】また、発明者等は、さらに実時間インタラ
クティブシステムであるジェスチャゲームシステムを構
築して本発明の有効性を調べた。このシステムは、ユー
ザのジェスチャを実時間で認識し、その結果によりTV
ゲームの操作を行うものである。本システムはシルエッ
ト画像生成部とジェスチャ認識部の2つのユニットによ
って構成される。図16はこのときのジェスチャゲーム
システムを表わしたものである。
【0038】シルエット画像形成部は、実時間画像処理
システムを用いて背景差分画像を閾値処理して2値画像
を作成する。この処理はオートセグメンテーションのと
きのみに行われ、ここで抽出された2値画像は次のジェ
スチャ認識部に送られる。ジェスチャ認識部では、セグ
メンテーション,個人モデル作成,ジェスチ認識を行
う。このユニットには、インタラクションを行うための
音声認識・合成システムとテンプレートマッチング専用
ハード(富士通社製カラートラッキングビジョン)が利
用されている。このジェスチャ認識の結果はゲーム用の
コードに変換され、TVゲームとのインターフェースを
通じてTVゲームに送られる。
【0039】このTVゲームは、通常パンチ,特別パン
チ、キックなどのジェスチャでゲームのキャラクタを操
作し、敵のキャラクターを倒す格闘ゲームである。この
システムでは、30フレーム/秒処理されるが、処理結
果のアウトプットには通信時間の影響などによって約
0.2秒ほどかかっている。そのためTVゲームを付属
のコントローラで操作するよりも若干のタイムラグを感
じさせるが、TVゲームの面白さを損なうほどではな
く、十分インタラクティブにゲームを楽しむことができ
る。また、非常になれたユーザになると通常のコントロ
ーラーよりうまくキャラクターを操作できる場合もあっ
た。このようなことから、本発明が実時間インタラクテ
ィブシステムの操作に十分に応用可能であることが確認
できた。
【0040】なお、上述の実施例では、インタラクティ
ブシステムにおいては音声による指示を行っていたが、
映像によってインタラクションを行ってももちろんかま
わない。また、上述の実施例では、オプテイカルフロー
を検出することによって、動領域を検出したが、2値動
領域を用いて動き情報を得る方法もある。2値動領域と
は、背景差分2値画像と連続差分2値画像の論理積をと
った領域のことで、以下の式から求められる。
【0041】
【数7】M(x,y,t)=I′(x,y,t)*J′
(x,y,t) ただし、Mは時刻tにおける2値動領域を、I′は背景
差分2値画像を、J′は連続差分2値画像を表し、*は
理論積を表す。J′は以下の式で求められる。
【0042】
【数8】
【0043】これは現在動きのある領域で、なおかつあ
る程度背景画像とは異なった領域のことを表しているた
め、比較的安定した動き情報が得られる。
【図面の簡単な説明】
【図1】この発明の一実施例を示すブロック図である。
【図2】この実施例全体の動作を示すフロー図である。
【図3】インタラクティブモードを示すフロー図であ
る。
【図4】コントラストが高い場合の背景差分2値画像を
示す表示画像である。
【図5】ボデイ用のMTMを示す表示画像である。
【図6】腕(脚)用のMTMを示す表示画像である。
【図7】オートモードでセグメンテーションを行った結
果画像を示す表示画像である。
【図8】コントラストが低い場合の背景差分2値画像を
示す表示画像である。
【図9】4ピクセル四方の単位領域で3値化を表すこと
を説明するための図解図である。
【図10】インタラクティブモードでセグメンテーショ
ンを行った結果画像を示す表示画像である。
【図11】パンチジェスチャにおける腕のポーズに対応
させて汎用GTMと個人GTMを示す表示画像である。
【図12】ボデイ用の個人GTMを示す表示画像であ
る。
【図13】腕の状態変化に伴う各テンプレート画像の相
違度の変化を示すグラフである。
【図14】GTMのマッチング結果を認識する状態変化
オートマトンを示す図解図である。
【図15】あるユーザのパンチジェスチャにおけるパン
チGTMの相違度を示すグラフである。
【図16】ジェスチャゲームのシステムを示す図解図で
ある。
【符号の説明】
10 …ジェスチャ認識装置 12 …画像入力装置識装置 14 …テンプレートマッチング処理装置 16 …汎用モデル記憶装置 18 …コンピュータ 20 …状態認識装置 22 …テンプレート間相関度認識装置 24 …状態番号記憶装置 26 …音声指示発生装置 28 …個人モデル記憶装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 谷内田 正彦 大阪市住之江区南港北1丁目14−16 WT Cビル21階 メールボックス番号82 財団 法人イメージ情報科学研究所内

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】人物を撮影した入力画像を入力する画像入
    力手段、 人物に所定動作を指示する指示手段、 前記指示手段の指示に応じた動作をしたときの入力画像
    から個人モデルを作成する個人モデル作成手段、および
    前記個人モデルと入力画像とに基づいてジェスチャを認
    識する手段を備える、ジェスチャ認識装置。
  2. 【請求項2】前記個人モデル作成手段は前記入力画像か
    ら特定部位画像を抽出する抽出手段を備える、請求項1
    記載のジェスチャ認識装置。
  3. 【請求項3】前記抽出手段は、人物の頭部位置を検出
    し、前記頭部位置からボデイ位置を決定し、前記ボデイ
    位置に基づいて前記特定部位画像の抽出を行う、請求項
    2記載のジェスチャ認識装置。
  4. 【請求項4】汎用モデルを予め記憶している汎用モデル
    記憶手段をさらに備え、 前記個人ジェスチャモデル作成手段は、前記汎用モデル
    を変形して個人ジェスチャモデルを作成する変形手段を
    備える、請求項1ないし3のいずれかに記載のジェスチ
    ャ認識装置。
  5. 【請求項5】前記変形手段は、前記入力画像からの個人
    データとして色情報を取り込み、前記汎用モデルに色を
    付加する、請求項4記載のジェスチャ認識装置。
  6. 【請求項6】前記入力画像より前記特定部位画像を抽出
    し個人ジェスチャモデルの作成が可能であるかどうかを
    判別する判別手段、可能であると判断された場合に自動
    的に個人モデルを作成する手段を備える、請求項1ない
    し5のいずれかに記載のジェスチャ認識装置。
  7. 【請求項7】前記判別手段で個人モデルの作成が不可能
    であると判断された場合に、前記個人モデル作成手段に
    よって個人モデルを作成する手段を備える、請求項6記
    載のジェスチャ認識装置。
JP10472598A 1998-04-15 1998-04-15 ジェスチャ認識装置 Expired - Lifetime JP4221681B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10472598A JP4221681B2 (ja) 1998-04-15 1998-04-15 ジェスチャ認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10472598A JP4221681B2 (ja) 1998-04-15 1998-04-15 ジェスチャ認識装置

Publications (2)

Publication Number Publication Date
JPH11296673A true JPH11296673A (ja) 1999-10-29
JP4221681B2 JP4221681B2 (ja) 2009-02-12

Family

ID=14388483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10472598A Expired - Lifetime JP4221681B2 (ja) 1998-04-15 1998-04-15 ジェスチャ認識装置

Country Status (1)

Country Link
JP (1) JP4221681B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6532482B1 (en) 1998-09-25 2003-03-11 Xybernaut Corporation Mobile computer with audio interrupt system
JP2006330136A (ja) * 2005-05-24 2006-12-07 Advanced Telecommunication Research Institute International 表情付け音声発生装置
JP2007272839A (ja) * 2006-03-31 2007-10-18 Nippon Syst Wear Kk ジェスチャ認識装置、これを用いたオンライン動作システム、ジェスチャ認識方法及びコンピュータ可読媒体
JP2008250950A (ja) * 2007-03-30 2008-10-16 Sharp Corp 画像処理装置、制御プログラム、コンピュータ読み取り可能な記録媒体、電子機器及び画像処理装置の制御方法
JP2012157013A (ja) * 2012-02-27 2012-08-16 Fuji Xerox Co Ltd 画像記録装置及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6532482B1 (en) 1998-09-25 2003-03-11 Xybernaut Corporation Mobile computer with audio interrupt system
JP2006330136A (ja) * 2005-05-24 2006-12-07 Advanced Telecommunication Research Institute International 表情付け音声発生装置
JP4677543B2 (ja) * 2005-05-24 2011-04-27 株式会社国際電気通信基礎技術研究所 表情付け音声発生装置
JP2007272839A (ja) * 2006-03-31 2007-10-18 Nippon Syst Wear Kk ジェスチャ認識装置、これを用いたオンライン動作システム、ジェスチャ認識方法及びコンピュータ可読媒体
JP4613142B2 (ja) * 2006-03-31 2011-01-12 日本システムウエア株式会社 ジェスチャ認識装置、これを用いたオンライン動作システム、ジェスチャ認識方法及びコンピュータ可読媒体
JP2008250950A (ja) * 2007-03-30 2008-10-16 Sharp Corp 画像処理装置、制御プログラム、コンピュータ読み取り可能な記録媒体、電子機器及び画像処理装置の制御方法
JP2012157013A (ja) * 2012-02-27 2012-08-16 Fuji Xerox Co Ltd 画像記録装置及びプログラム

Also Published As

Publication number Publication date
JP4221681B2 (ja) 2009-02-12

Similar Documents

Publication Publication Date Title
JP5726125B2 (ja) 奥行き画像内の物体を検出する方法およびシステム
US8620024B2 (en) System and method for dynamic gesture recognition using geometric classification
Park et al. Recognition of two-person interactions using a hierarchical Bayesian network
Park et al. A hierarchical Bayesian network for event recognition of human actions and interactions
US7715476B2 (en) System, method and article of manufacture for tracking a head of a camera-generated image of a person
US7817822B2 (en) Bi-directional tracking using trajectory segment analysis
Hofmann et al. Multi-view 3d human pose estimation combining single-frame recovery, temporal integration and model adaptation
US11282257B2 (en) Pose selection and animation of characters using video data and training techniques
KR102280201B1 (ko) 머신 러닝을 이용하여 은닉 이미지를 추론하는 방법 및 장치
JP2001184488A (ja) 人物追跡装置、人物追跡方法及びそのプログラムを記録した記録媒体
US20220270324A1 (en) Systems and methods for generating a model of a character from one or more images
JP5027030B2 (ja) オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
JP4567660B2 (ja) 電子画像内で物体のセグメントを求める方法
WO2020145224A1 (ja) 映像処理装置、映像処理方法、及び映像処理プログラム
Loutas et al. Probabilistic multiple face detection and tracking using entropy measures
US11361467B2 (en) Pose selection and animation of characters using video data and training techniques
KR101350387B1 (ko) 깊이 정보를 이용한 손 검출 방법 및 그 장치
JP4221681B2 (ja) ジェスチャ認識装置
JPH103544A (ja) ジェスチャ認識装置
Okada et al. A single camera motion capture system for human-computer interaction
CN110826495A (zh) 基于面部朝向的身体左右肢体一致性跟踪判别方法及***
CN116030516A (zh) 基于多任务学习与全局循环卷积的微表情识别方法及装置
Masoud Tracking and analysis of articulated motion with an application to human motion
Micilotta Detection and tracking of humans for visual interaction
KR102358145B1 (ko) 표준 이미지 생성을 이용한 아이 얼굴 변환 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050413

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20051101

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20051101

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20051101

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080318

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080701

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081024

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081106

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131128

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term