JP5756762B2

JP5756762B2 - ジェスチャ認識装置及びそのプログラム

Info

Publication number: JP5756762B2
Application number: JP2012002418A
Authority: JP
Inventors: 良輔青木; 雅行井原; 小林　透; 透小林
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-01-10
Filing date: 2012-01-10
Publication date: 2015-07-29
Anticipated expiration: 2032-01-10
Also published as: JP2013142980A

Description

この発明は、例えばテレビジョン受信機や録画再生装置に対し離れた場所からチャネル情報や制御情報等を入力するために用いる、指又は腕の動き又は形状によるジェスチャを認識するジェスチャ認識装置及びそのプログラムに関する。

テレビジョン受信機に取り付け可能なカメラや赤外線距離センサを備える電子機器が安価に簡単に手に入るようになり、リモートコントローラを使わずに、手もしくは指のジェスチャによってテレビジョン受信機のメニュー項目を選択する方式が提案されている。このジェスチャ入力方式は、例えばユーザの指の動きをカメラを用いて撮像し、この撮像された画像データから指の動作軌跡を図形として検出して、この検出された図形を認識するものとなっている。

ジェスチャを認識するための手法には様々あるが、その１つとして一筆書きジェスチャ入力方式が提案されている。この一筆書きジェスチャ入力方式は、入力対象のメニュー項目に対し予め対応付けられたジェスチャを一筆書き操作により入力するもので、直感的で自然な動きによってジェスチャ入力できる利点がある（例えば、非特許文献１を参照）。

青木良輔、唐津豊、井原雅行、前田篤彦、渡部智樹、小林稔、鏡慎吾："大型ディスプレイ上のメニュー選択に適したカメラによる一筆書きジェスチャインタフェース"、ヒューマンインタフェース学会研究報告集2010，VOL.12，NO.9，35-42.

一筆書きジェスチャ入力方式は、人の手もしくは指によって描かれた一筆書き直線と円のみの図形を識別しているが、実際にテレビジョン受信機の操作メニューの項目数は多く、より多種類の図形の識別を可能にする必要がある。ジェスチャ認識アルゴリズムとしては、一般に“Hidden Markov Machine”が使用されている。しかし、このアルゴリズムは計算量が大きく、リアルタイム性が求められるテレビジョン受信機のメニュー操作には適さない。

この発明は上記事情に着目してなされたもので、その目的とするところは、ジェスチャにより入力された多種類の図形を簡単なアルゴリズムで短時間に認識できるようにし、これによりリアルタイム性の向上を図ったジェスチャ認識装置及びそのプログラムを提供することにある。

上記目的を達成するためにこの発明の１つの観点は、ジェスチャにより空間に図形を描く動きを撮像してその画像データを出力する撮像装置と、上記撮像装置から出力された画像データをもとに上記ジェスチャにより描かれた図形を認識する機能を有するジェスチャ認識装置とを具備するシステムで使用される上記ジェスチャ認識装置にあって、
上記撮像装置から出力された画像データを所定の周期で取り込む手段と、上記画像データが取り込まれるごとに当該画像データから上記ジェスチャによる描画点の位置情報を検出し、この検出された描画点の位置情報を記憶手段に格納する手段と、上記記憶手段に格納された描画点の位置情報の集合をもとに上記ジェスチャによる描画軌跡を表す情報を作成する手段と、図形認識手段とを具備する。そして、この図形認識手段により、上記作成された描画軌跡を表す情報をもとに、当該描画軌跡の中心点又は重心点を求めると共に、この求められた中心点又は重心点から上記描画軌跡までの距離を所定の角度間隔で求め、この求められた距離の集合をもとに上記描画軌跡の形状を識別して、この識別された描画軌跡の形状をもとに上記描画軌跡により表される図形を認識する処理を行うようにし、さらにその際に、上記求められた中心点又は重心点を中心に描画軌跡方向に対し複数の角度範囲を設定し、この設定された複数の角度範囲の各々について、上記中心点又は重心点から上記描画軌跡までの距離を所定の角度間隔で求めて、この求められた距離の集合をもとに上記描画軌跡の部分形状を識別し、この識別された描画軌跡の部分形状をもとに上記描画軌跡により表される図形を推測する処理を、上記描画軌跡により表される図形が認識されるまで、上記複数の角度範囲を順に選択して繰り返し実行するようにしたものである。

したがってこの発明の１つの観点によれば、描画点の軌跡からジェスチャの図形を認識する際に、描画軌跡の中心点又は重心点から描画軌跡までの距離から描画軌跡の形状を識別して、この識別された形状をもとにジェスチャ図形を認識するようにしている。このため、ジェスチャ認識アルゴリズムとして“Hidden Markov Machine”を使用する場合や、従来の“SVM using DtB ”をそのまま使用した場合、さらには描画軌跡を正規化する際に用いた矩形枠の４辺から描画軌跡までの距離（４辺DtB 情報）を用いる場合に比べ、少ない計算処理量でジェスチャ図形を認識することが可能となり、これにより図形認識処理に要する時間を短縮することが可能となる。

しかも、描画点の軌跡から描画図形を認識する際に描画軌跡を中心に複数の角度範囲が設定され、上記求められた距離の集合をもとに上記描画軌跡の部分形状を識別してその識別結果をもとに上記描画軌跡により表される図形を推測する処理が、上記描画軌跡により表される図形が認識されるまで、上記複数の角度範囲を順に選択して繰り返し実行される。すなわち、描画軌跡を中心に設定された角度範囲ごとに、描画図形の認識処理が段階的に絞り込みながら行われる。このため、常に全ての角度範囲について描画軌跡の中心点又は重心点から当該描画軌跡までの距離を求めて描画図形の認識処理を行う場合に比べ、図形認識処理に要する時間を短縮することが可能となる。

すなわちこの発明によれば、ジェスチャにより入力された多種類の図形を簡単なアルゴリズムで短時間に認識できるようになり、これによりリアルタイム性の向上を図ったジェスチャ認識装置を提供することができる。

この発明の一実施形態に係わるジェスチャ認識装置を含むシステムの概略構成図。図１にジェスチャ認識装置として示した情報処理装置の機能構成を示すブロック図。図２に示した情報処理装置による全体の処理手順と処理内容を示すフローチャート。図３に示したフローチャートにおける一筆書きジェスチャ認識機能のＯＮ／ＯＦＦ切替処理の処理手順と処理内容を示すフローチャート。ジェスチャ機能ＯＮのためのユーザの操作例を示す図。ジェスチャ機能ＯＦＦのためのユーザの操作例を示す図。図３に示したフローチャートにおける一筆書きジェスチャ認識処理の処理手順と処理内容を示すフローチャート。図７に示した一筆書きジェスチャ認識処理手順のうちの一筆書き図形識別処理の処理手順と処理内容を示すフローチャート。図８に示した一筆書き図形識別処理の一例を説明するための図。図８に示した一筆書き図形識別処理の一例を説明するための図。図８に示した一筆書き図形識別処理により認識される一筆書き図形の一例を示す図。図８に示した一筆書き図形識別処理の第１の具体例のステップ１を示す図。図８に示した一筆書き図形識別処理の第１の具体例のステップ２を示す図。図８に示した一筆書き図形識別処理の第２の具体例のステップ１を示す図。図８に示した一筆書き図形識別処理の第２の具体例のステップ２を示す図。図８に示した一筆書き図形識別処理の第２の具体例のステップ３を示す図。

以下、図面を参照してこの発明に係わる一実施形態を説明する。
［構成］
図１は、この発明の一実施形態に係わるジェスチャ認識装置を用いた操作情報入力システムの概略構成図である。このシステムは、テレビジョン受信機２にカメラ４を装着すると共に、テレビジョン受信機２に情報処理装置３を接続したものとなっている。カメラ４は、ユーザ１の指の動きを用いたジェスチャを撮像し、その撮像画像データをＵＳＢケーブルを介してテレビジョン受信機２へ出力する。なお、ユーザ１の指先には、指先の動きをより認識し易くするために例えばＬＥＤ（Light Emitting Diode）を用いた発光マーカ６が装着される。

情報処理装置３は、ジェスチャ認識装置としての機能を備えたもので、以下のように構成される。図２は、情報処理装置３の機能構成を示すブロック図である。情報処理装置３は、ジェスチャ認識処理を行うために必要な機能として、指の位置検出ユニット１０と、データベース２０と、一筆書きジェスチャ認識処理ユニット３０と、リアルタイム処理発生ユニット４０と、表示画面処理ユニット５０を備えている。

データベース２０は、記憶媒体として例えばハードディスク又はＮＡＮＤ型フラッシュメモリを使用したもので、この発明を実施するために必要な記憶領域として、カメラ画像蓄積部２１と、一筆書き図形蓄積部２２と、操作内容蓄積部２３と、表示画像・映像蓄積部２４と、指位置蓄積部２５と、ＳＶＭ学習データ蓄積部２６を有している。

カメラ画像蓄積部２１は、指の位置検出ユニット１０によりカメラ４から取得された画像データを記憶するために用いられる。指位置蓄積部２５は、カメラ画像蓄積部２１に蓄積された画像データから検出された指の指示位置と、当該画像データを撮像した時刻とを関連付けて格納するために用いられる。一筆書き図形蓄積部２２には、一筆書き図形の認識に用いる一筆書き図形のモデルが予め格納されている。操作内容蓄積部２３には、認識されたジェスチャの種類と方向に対応する操作内容を表す情報が予め格納されている。表示画像・映像蓄積部２４には、上記操作内容データベース２３に格納された操作内容を表す情報に対応付けて、表示画面に表示する画像や映像のデータが予め格納されている。ＳＶＭ学習データ蓄積部２６には、ＳＶＭ学習モードにおいて切り出し枠の辺ごとに得られた距離情報と、この距離情報をもとに上記辺ごとに作成されたＳＶＭモデルが格納される。

リアルタイム処理発生ユニット４０は、タイマを使用して、例えば３３msecごとにイベント信号を発行する機能を有する。
撮像画像取得ユニット１０はカメラ画像取得部１１を備え、上記リアルタイム発生ユニットによりイベント信号が発行されるごとに、カメラ４から画像データを取得して、この画像データを上記カメラ画像蓄積部２１に記憶させる機能を有する。

一筆書きジェスチャ認識処理ユニット３０は、一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ切替部３１０と、一筆書きジェスチャ認識処理部３２０を備えている。
このうち、先ず一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ切替部３１０は、指位置検出部３１１と、一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ判断・切替部３１２を有する。指位置検出部３１１は、上記カメラ画像蓄積部２１に格納された画像データからマーカ５の描画点の位置座標、つまりユーザの指の指示位置を検出し、この検出された描画点の位置座標を上記指位置蓄積部２５に格納する。

一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ判断・切替部３１２は、以下の処理機能を有している。
(1) 一筆書きジェスチャ認識処理部３２０の機能がＯＦＦに設定されている状態で、カメラ４による撮像範囲、つまりジェスチャの認識領域内に、ジェスチャの始点判定領域（ジェスチャ開始領域）を設定する。そして、上記指位置検出部３１１により検出された発光マーカ５の描画点が上記ジェスチャ開始領域内に存在するか否かを判定し、存在すると判定された場合に上記一筆書きジェスチャ認識処理部３２０の機能をＯＮに設定すると共に、ジェスチャの終点を検出するための検出ゾーン（Detection zone）を上記ジェスチャの認識領域内に設定する機能。

(2) ジェスチャ認識処理部３２０の機能がＯＮに設定されている状態で、上記指位置検出部３１１により検出された発光マーカ５の描画点が上記ジェスチャ認識領域の外に出たか否かを判定し、ジェスチャ認識領域の外に出たことが検出された場合に、上記一筆書きジェスチャ認識処理部の機能をＯＮからＯＦＦに遷移させる機能。

次に一筆書きジェスチャ認識処理部３２０は、一筆書きジェスチャ入力判断部３２１と、一筆書き図形の方向識別部３２２と、一筆書き図形識別部３２３を有している。
一筆書きジェスチャ入力判断部３２１は、一筆書きジェスチャ認識処理部３２０の機能がＯＮの状態で、上記画像データから検出される描画点が上記ジェスチャ開始領域内に入ったことが検出されたときの位置座標をジェスチャの開始点として検出する。また、上記描画点がジェスチャ開始領域外に出たのち上記検出ゾーン内に戻ったとき、このときの描画点の位置座標をジェスチャの終了点として検出する。

一筆書き図形の方向識別部３２２は、上記ジェスチャの終了点が検出された場合に、当該ジェスチャによる描画点がジェスチャ開始領域外に出たのち上記検出ゾーン内に戻るまでの軌跡を表す位置座標の集合をもとに当該描画軌跡の重心位置座標を求め、この描画軌跡の重心位置座標とジェスチャの描画開始点との関係をもとに、当該描画開始点に対する描画方向を識別する。

一筆書き図形識別部３２３は、“Support Vector Machine using Distance to Boarders”（以下、SVM using DtB と称する）を応用した本発明特有の認識アルゴリズムを用いて上記ジェスチャによる描画図形を認識するものである。そして、この図形認識処理に必要な機能として、図形作成機能３２３１と、図形領域抽出機能３２３２と、抽出画像正規化機能３２３３と、中心点ＤｔＢ情報抽出機能３２３４と、モード識別機能３２３５と、学習データ蓄積機能３２３６と、ＳＶＭモデル作成機能３２３７と、図形認識機能３２３８を有している。

なお、SVM using DtB それ自体は既知の技術であり、以下の文献に述べられている。
Lafuente-Arroyo, S.; Gil-Jimenez, P.; Maldonado-Bascon, R.; Lopez-Ferreras, F.; Maldonado-Bascon, S.; “traffic sign shape classification evaluation I: SVM using distance to borders”

図形作成機能３２３１は、指位置蓄積部２５に格納されているジェスチャの開始から終了までの間の描画点の位置座標の集合をもとに描画軌跡を表す画像を、つまり指によって描かれた図形を表す画像を作成する処理を行う。

図形領域抽出機能３２３２は、４辺により構成される矩形の枠パターンを用いて、上記図形作成機能３２３１により作成された描画軌跡を表す画像から、当該描画軌跡を含む最小面積の矩形領域を切り取る処理を行う。

抽出画像正規化機能３２３３は、上記図形領域抽出機能３２３２により切り取られた描画軌跡を含む最小面積の矩形領域の画像サイズを、予め定められたサイズに応じて正規化処理する。

中心点ＤｔＢ情報抽出機能３２３４は、上記抽出画像正規化機能３２３３により正規化された描画軌跡を含む矩形領域の画像について、その描画軌跡の中心点又は重心点等の代表点（以後中心点を例にとって説明する）を求め、この求められた中心点から上記描画図形までの距離情報（中心点DtB 情報）を抽出する処理を行う。

モード識別機能３２３５は、一筆書き図形識別部３２３の処理モードが学習モードに設定されているか或いは認識モードに設定されているかを判定する。

学習データ蓄積機能３２３６は、学習モードが設定されている状態において、上記中心点ＤｔＢ情報抽出機能３２３４により抽出された、描画軌跡の中心点から当該描画軌跡までの距離情報（中心点DtB 情報）を、学習データとしてＳＶＭ学習データ蓄積部２６に格納する処理を行う。

ＳＶＭモデル作成機能３２３７は、上記ＳＶＭ学習データ蓄積部２６に格納された学習データをもとに、描画軌跡の中心点から所定の角度範囲ごとにＳＶＭモデルを作成する。例えば、描画軌跡の中心点から上記正方形の矩形枠の上辺、下辺、左辺及び右辺の各方向に対応する角度範囲（９０度）についてＳＶＭモデルを作成する。そして、この作成されたＳＶＭモデルをＳＶＭ学習データ蓄積部２６に格納する処理を行う。

図形認識機能３２３８は、認識モードが設定されている状態で以下の処理を実行する機能を有する。
(1) 描画軌跡の中心点から上辺、下辺、左辺及び右辺の各方向（それぞれ９０度の角度範囲）を順に選択し、この選択された方向ごとに、上記中心点ＤｔＢ情報抽出機能３２３４により抽出された、描画軌跡の中心点から描画軌跡までの距離情報（中心点DtB 情報）を、上記ＳＶＭ学習データ蓄積部２６に格納された該当する方向のＳＶＭモデルに入力し、これにより上記描画軌跡の上記選択された方向に含まれる部位の形状を識別する処理。

(2) (1) の識別処理により、描画図形の中心点から上記選択された１つの方向への描画軌跡の部分形状が識別されるごとに、当該部分形状をもとに上記描画軌跡の全体形状、つまりジェスチャにより描かれた一筆書き図形の形状を識別する。そして、この識別された図形の形状を、上記一筆書き図形蓄積部２２に記憶された一筆書き図形モデルと照合することで、上記一筆書き図形の種類を認識する処理。

表示画面処理ユニット５０は表示画面処理部５１を有する。表示画面処理部５１は、上記一筆書き図形の方向識別部３２２及び一筆書き図形識別部３２３によりそれぞれ識別されたジェスチャ図形の描画方向と図形の種類をもとに、操作内容蓄積部２３から対応する操作内容を表す情報を読出す。そして、この読み出された操作内容を表す情報をもとに、表示画像・映像蓄積部２４から対応する画像や映像の表示データを読出し、この表示データをもとにテレビジョン受信機２の表示画面を更新する。

なお、上記撮像画像取得ユニット１０、一筆書きジェスチャ認識処理ユニット３０、リアルタイム処理発生ユニット４０及び表示画面処理ユニット５０の各処理機能は、図示しないプログラムメモリに格納されたアプリケーション・プログラムを中央処理ユニット（Central Processing Unit：ＣＰＵ）に実行させることにより実現される。

［動作］
次に、以上のように構成された情報処理装置３による、ジェスチャを用いた入力情報の認識動作を説明する。
図３は、その全体の処理手順と処理内容を示すフローチャートである。なお、ここではテレビジョン受信機２のディスプレイに電子番組案内（Electronic Program Guide：ＥＰＧ）情報を表示させ、このＥＰＧ情報に対しユーザ１がジェスチャにより番組の選択操作を行う場合を例にとって説明する。

（１）リアルタイムイベント発生処理
ジェスチャ入力モードが設定されると、ステップＳ１０によりリアルタイム処理発生ユニット４０が起動し、タイマの計時時間Ｔが予め設定された時間、例えば３３msecになるごとにステップＳ１１においてイベント信号が発生される。すなわち、ジェスチァ入力モードでは３３msec周期でイベント信号が発生される。なお、タイマの計時時間Ｔはイベント信号が発生されるごとにステップＳ１２でリセットされる。

（２）カメラ画像の取得及び指位置の検出処理
上記リアルタイム処理発生ユニット４０からイベント信号が発生されると、先ずステップＳ２０において撮像画像取得ユニット１０が起動し、そのカメラ画像取得部１１の制御の下で、カメラ４により撮像されたユーザ１の画像データが取り込まれてカメラ画像蓄積部２１に記憶される。

そして、上記カメラ画像蓄積部２１に新たな画像データが記憶されると、図４に示すステップＳ３１１において、上記画像データ中から発光マーカ５の輝点画像を検出する処理が行われる。そして、この検出された輝点画像の画像データ中の重心位置を示す座標が、ユーザ１の指の位置を表す描画点として指位置蓄積部２５に記憶される。以上の処理は上記３３msec周期で繰り返し行われ、この結果上記指位置蓄積部２５にはユーザ１の指の位置を表す描画点の位置座標の集合が、ユーザ１がジェスチャにより描いた図形を示すデータとして記憶される。なお、このときカメラ４の絞り値（Ｆ値）を大きく設定して受光光量を制限することで、発光マーカ５の光のみを検出しやすくするとよい。

（３）一筆書きジェスチャ認識機能のＯＮ／ＯＦＦ切替処理
上記指位置蓄積部２５に新たな指位置座標が記憶されるごとに、ステップＳ３０のステップＳ３１において一筆書きジェスチャ認識処理ユニット３０の一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ切替部３１０が起動され、この一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ切替部３１０の制御の下で以下のような処理が実行される。図４中のステップＳ３１２はその処理手順と処理内容を示すフローチャートである。

（３−１）一筆書きジェスチャ認識機能をＯＮする場合
先ずステップＳ３１２１により一筆書きジェスチャ認識処理部３２０の機能がＯＮであるか否かが判定される。そして、ここではまだＯＮになっていないのでステップＳ３１２５に移行し、カメラ４による撮像範囲、つまりジェスチャの認識領域内に、ジェスチャの始点判定領域（ジェスチャ開始領域）を設定する。例えば図５（ａ）に示すように、ジェスチャの認識領域Ｃの中央にジェスチャ開始領域Ｅ１を設定する。そして、上記指位置検出処理（ステップＳ３１１）により検出された発光マーカ５の描画点の位置座標が上記ジェスチャ開始領域Ｅ１内に存在するか否かを判定する。

この状態で、ユーザ１が指の位置を動かし、これにより図５（ａ）に示すように描画点の位置座標Ｐ０が破線Ｌ１のように上記ジェスチャ開始領域Ｅ０内に入ると、ステップＳ３１２６により上記一筆書きジェスチャ認識部３２０の機能をＯＮに設定する。またそれと共に、ステップＳ３１２７により図５（ｂ）に示すようにジェスチャの終点を検出するための検出ゾーン（Detection zone）Ｅ２を上記ジェスチャの認識領域Ｃ内に設定する。

このとき、検出ゾーンＥ２のサイズはジェスチャ開始領域Ｅ１より大きなサイズに設定される。このようにすると、ユーザ１によるユーザの指の位置が検出ゾーンＥ２内に戻った後に、震えなどにより当該検出ゾーンＥ２の境界付近で位置ずれを起こしたとしても、このときの指の位置座標、つまり終点の位置を、終点判定領域としての検出ゾーンＥ２内に安定的に留めることが可能となる。このため、検出ゾーンＥ２の境界上でいわゆるチャタリングのような現象が発生しても、これにより後述する描画の終了判定（入力判定）において誤認識が発生しないようにすることができる。

（３−２）一筆書きジェスチャ認識機能をＯＦＦする場合
上記一筆書きジェスチャ認識機能がＯＮとなった状態で、ユーザ１がジェスチャによるテレビジョン受信機２の操作を一旦中止するべく、指の位置を例えば図６（ａ）のＬ２に示すようにカメラ４の撮像範囲外、つまりジェスチャの認識領域Ｃの外へ移動させたとする。そうすると、一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ切替部３１０は、ステップＳ３１２１により一筆書きジェスチャ認識処理部３２０の機能がＯＮであるか否かを判定し、ここではＯＮになっているのでステップＳ３１２２に移行する。そして、指位置検出処理（ステップＳ３１１）により検出された発光マーカ５の描画点の位置座標が、上記ジェスチャの認識領域Ｃの外に出たか否かを判定する。

この判定の結果、図６（ａ）のＬ２に示すように、発光マーカ５の描画点の位置座標が上記ジェスチャの認識領域Ｃの外に出ると、ステップＳ３１２３により一筆書きジェスチャ認識処理部３２０の機能をＯＦＦに遷移させる。かくして、ユーザ１は指の位置をカメラ４の撮像範囲外へ移動させるだけで、一筆書きジェスチャ認識機能をＯＦＦに戻すことが可能となる。

なお、一筆書きジェスチャ認識機能がＯＦＦに復帰すると、次のイベント信号発生（３３msec）時に、ステップＳ３１２５において図６（ｂ）に示すようにジェスチャの認識領域Ｃ内にジェスチャ開始領域Ｅ１が設定される。すなわち、一筆書きジェスチャ認識機能がＯＦＦになると、消去された検出ゾーンＥ２の代わりにそれよりも小さいジェスチャ開始領域Ｅ１が再設定される。

（４）一筆書きジェスチャ認識処理
上記一筆書きジェスチャ認識機能がＯＮとなった状態で、一筆書きジェスチャ認識処理部３２０は以下のようにジェスチャの認識処理を実行する。図７はその全体の処理手順と処理内容を示すフローチャートである。

すなわち、先ずステップＳ３２１において一筆書きジェスチャ入力判断部３２１が起動し、この一筆書きジェスチャ入力判断部３２１の制御の下で、ユーザ１の指に装着された発光マーカ５による描画点が上記検出ゾーンＥ２内に入ったか否かをステップＳ３２１１により判定する。そして、描画点が上記検出ゾーンＥ２内に入っていなければ、ステップＳ３２１４によりジェスチャ入力中か否かを示すジェスチャフラグ（Gesture Flag）を“TRUE”に設定し、以後イベントが発生するごとに描画点が検出ゾーンＥ２内に入るか否かを監視する処理を繰り返す。

（４−１）一筆書き図形の方向識別処理
さて、この状態でユーザ１の指に装着された発光マーカ５による描画点が上記検出ゾーンＥ２内に入ったことが検出されたとする。そうすると、ステップＳ３２１２によりジェスチャフラグが“TRUE”になっていることを確認した後、先ずステップＳ３２２により一筆書き図形の方向識別処理を実行する。

この一筆書き図形の方向識別処理は以下のように行われる。すなわち、先ず指位置蓄積部２５に記憶された指位置座標の集合を読み出し、この指位置座標の集合により表される指の描画軌跡を表す画像をもとに当該描画軌跡を表す画像の重心位置座標を算出する。そして、この算出された描画軌跡画像の重心位置座標と描画開始点における座標との関係から、当該描画開始点に対する上記描画軌跡の描画方向が上下左右の何れであるかを識別することにより行われる。

（４−２）一筆書き図形識別処理
次にステップＳ３２３により一筆書き図形識別処理を以下のように実行する。図８はその処理手順と処理内容を示すフローチャートである。
すなわち、先ずステップＳ３２３１により、指位置蓄積部２５に格納されているジェスチャの開始から終了までの間の描画点の位置座標の集合を読出し、この読み出された描画点の位置座標の集合をもとに描画軌跡を表す画像を、つまり指に装着された発光マーカ５によって描かれた図形を表す画像を作成する。

次にステップＳ３２３２において、４辺により構成される矩形の枠パターンを用いて、上記図形作成機能３２３１により作成された描画軌跡を含む画像データから、当該描画軌跡を含む最小面積の矩形領域を切り取る。例えば、描画軌跡が「円」又はそれに近い「楕円」であれば、図９（ａ）に示すように当該描画軌跡を含む画像データＣから、描画軌跡Ｖを含む最小面積の矩形領域、つまり描画軌跡Ｖに４辺が接する矩形の領域を、枠パターンＷにより図９（ｂ）に示すように切り取る。

続いてステップＳ３２３３において、上記図形領域抽出機能３２３２により切り取られた描画軌跡Ｖを含む最小面積の矩形領域の画像サイズを、予め定められたサイズに応じて正規化する。例えば図９（ｃ）に示すように、上記切り取られた描画軌跡Ｖとこの描画軌跡Ｖの切り取りに使用した枠パターンＷの画像サイズを、それぞれ１００pixels×１００pixelsからなる「真円」及び「正方形」に正規化する。

次にステップＳ３２３４において、上記正規化された描画軌跡Ｖ′の画像について、先ず当該描画軌跡Ｖ′の座標値からその中心点を求める。なお、中心点の代わりに、先に（４−１）の一筆書き図形の方向識別処理において算出された重心位置座標を用いてもよい。次に、この求められた中心点から描画軌跡までの距離情報（中心点DtB 情報）を、描画軌跡の座標値をもとに所定の角度ごとに算出する。例えば、正規化された描画軌跡Ｖ′が「円」の場合には、図１０に示すように当該円の中心から描画軌跡Ｖ′までの距離ｄを一定の角度おきに算出する。

続いて、一筆書き図形識別部３２３の処理モードが「学習モード」に設定されているか或いは「認識モード」に設定されているかを、ステップＳ３２３５により判定する。この判定の結果、「学習モード」が設定されていれば、ステップＳ３２３７により上記ステップＳ３２３４により抽出された、描画軌跡を含む画像の中心点から描画軌跡までの距離情報（中心点DtB 情報）を、学習データとしてＳＶＭ学習データ蓄積部２６に格納する。図１０は、描画軌跡が「円」の場合のその中心から描画軌跡までの距離情報（中心点DtB 情報）の例を示すものである。そして、ステップＳ３２３８により、上記ＳＶＭ学習データ蓄積部２６に格納された学習データから、描画軌跡の中心点から上辺、下辺、左辺及び右辺に向かう各方向（９０度の角度範囲）ごとに順にＳＶＭモデルを作成し、この作成されたＳＶＭモデルをＳＶＭ学習データ蓄積部２６に格納する。

すなわち、「学習モード」においては、テレビジョン受信機２の操作に使用する全て或いは代表的な一筆書き図形を実際にジェスチャにより描くことで、その描画軌跡について枠パターンにより切り出された描画軌跡の中心点から当該描画軌跡までの距離情報（中心点DtB 情報）が抽出され、さらにこの距離情報（中心点DtB 情報）をもとに、描画軌跡の中心点から上辺、下辺、左辺及び右辺の各方向（９０度の角度範囲）に対応するＳＶＭモデルが作成されて、ＳＶＭ学習データ蓄積部２６に蓄積される。

一方、一筆書き図形識別部３２３の処理モードが「認識モード」に設定されている場合には、次のように図形認識処理が行われる。すなわち、先ず上記ステップＳ３２３３により正規化された描画軌跡を含む画像について、その中心点から上辺、下辺、左辺及び右辺の各方向（９０度の角度範囲）のうちの１つを選択する。次にステップＳ３２３４において、上記選択された角度範囲における描画軌跡の中心点から当該描画軌跡までの距離情報（中心点DtB 情報）を一定の角度間隔で算出する。続いてステップＳ３２３６において、この算出された距離情報（中心点DtB 情報）の集合を、上記ＳＶＭ学習データ蓄積部２６に格納された該当する角度範囲のＳＶＭモデルに入力し、これにより上記描画軌跡の上記選択された角度範囲に含まれる部位の形状を識別する。そして、この識別結果をもとに描画軌跡全体の形状、つまりジェスチャにより描かれた図形を識別し、この図形と形状が一致する図形が予め記憶された認識対象の一筆書き図形に存在すれば、この一筆書き図形を認識結果とする。

例えば、いま認識対象の一筆書き図形として図１１の（１）〜（８）に示す８種類の図形パターン情報が記憶されていたとする。この場合、描画軌跡を含む画像の中心点から上辺方向の角度範囲（９０度）を先ず選択し、この上辺方向の角度範囲において描画軌跡の中心点から描画軌跡までの距離情報（中心点DtB 情報）を一定の角度間隔で算出する。そして、この算出された上辺方向の角度範囲における距離情報（中心点DtB 情報）を、対応するＳＶＭモデルに入力する。これにより、図１１の（２）及び（４）以外の一筆書き図形を認識することが可能である。

一方、上記図１１の（２）及び（４）に示した一筆書き図形のように、上辺方向の角度範囲における距離情報（中心点DtB 情報）だけでは一筆書き図形を認識できなかったとする。この場合には、次に下辺方向の角度範囲（９０度）を選択する。そして、この選択された下辺方向の角度範囲において描画軌跡の中心点から描画軌跡までの距離情報（中心点DtB 情報）を一定の角度間隔で算出する。そして、この算出された下辺方向の角度範囲における距離情報（中心点DtB 情報）を、対応するＳＶＭモデルに入力して、上記描画軌跡の形状、つまりジェスチャにより描かれた一筆書き図形を識別する。この識別の結果、この描画軌跡により表される図形と形状が一致する一筆書き図形が予め記憶された認識対象の一筆書き図形の中に存在すれば、この一筆書き図形を認識結果とする。かくして、矩形領域画像の上辺からでは認識できなかった図１１の（２）及び（４）に示すような一筆書き図形についても認識することができる。

また、上記下辺方向の角度範囲における距離情報（中心点DtB 情報）を参照しても一筆書き図形を認識できなければ、今度は右辺方向の角度範囲を選択して、この右辺方向の角度範囲において描画軌跡の中心点から描画軌跡までの距離情報（中心点DtB 情報）を一定の角度間隔で算出する。そして、この算出された右辺方向の角度範囲における距離情報（中心点DtB 情報）を対応するＳＶＭモデルに入力して、描画軌跡により表される図形の認識を試みる。さらに、この右辺方向の角度範囲における距離情報（中心点DtB 情報）を参照しても一筆書き図形を認識できなければ、最後に左辺方向の角度範囲を選択し、この左辺方向の角度範囲において描画軌跡の中心点から描画軌跡までの距離情報（中心点DtB 情報）を一定の角度間隔で算出する。そして、この算出された左辺方向の角度範囲における距離情報（中心点DtB 情報）を対応するＳＶＭモデルに入力して、描画軌跡により表される図形の認識を試みる。

すなわち、描画軌跡により表される図形に対応する一筆書き図形を認識できるまで、描画軌跡の中心位置から上辺、下辺、右辺及び左辺の各方向の角度範囲を順に選択して、段階的に上記描画軌跡により表される図形の認識処理を行う。

（５）表示画面の更新処理
上記一筆書きジェスチャの認識処理が終了すると、ステップＳ４０において表示画像処理ユニット５０が起動され、この表示画像処理ユニット５０の制御の下で、表示画像の更新処理が以下のように行われる。

すなわち、上記一筆書き図形の方向識別部３２２及び一筆書き図形識別部３２３によりそれぞれ識別されたジェスチャ図形の描画方向及び図形の種類をもとに、操作内容データベース２３から対応する操作内容を表す情報が読出される。そして、この読み出された操作内容を表す情報をもとに、表示画像・映像蓄積部２４から対応する画像や映像の表示データが読出され、この表示データをもとにテレビジョン受信機２の表示画面が更新される。

（６）一筆書き図形識別処理の具体例
ここでは、描画軌跡の中心位置から上辺、下辺、右辺及び左辺の各方向の角度範囲のうち、先ず上辺（Top border）方向の角度範囲を選択して描画図形の識別処理を行い、この上辺方向の角度範囲による図形識別が不可能な場合に、次に下辺（Bottom border）方向の角度範囲を選択して描画図形の識別処理を行う場合を例にとって説明する。

（６−１）ハート形図形を識別する場合
先ず１２に示すように、上辺、下辺、右辺及び左辺の各方向の角度範囲のうち上辺方向の角度範囲を選択し、この上辺方向の角度範囲において描画軌跡の中心点から当該描画軌跡までの距離情報（中心点DtB 情報）を算出して、対応する上辺方向の角度範囲におけるＳＶＭモデルに入力する。このとき、上辺方向の角度範囲におけるＳＶＭモデルとして図１３に示すような複数の上辺図形モデルが設定されているとすれば、これらの上辺図形モデルのうち“heart”と形状が一致する。したがって、上記一筆書き描画図形は“heart”であると認識する。

（６−２）逆三角形図形を識別する場合
先ず１４に示すように、上辺、下辺、右辺及び左辺の各方向の角度範囲のうち上辺方向の角度範囲を選択し、この上辺方向の角度範囲において描画軌跡の中心点から当該描画軌跡までの距離情報（中心点DtB 情報）を算出して、対応する上辺方向の角度範囲におけるＳＶＭモデルに入力する。このとき、上辺方向の角度範囲におけるＳＶＭモデルとして、図１５に示したような複数の上辺図形モデルが設定されているものとすると、これらの上辺図形モデルの中には上記描画図形の上辺形状と一致するものは存在しない。

そこで、次に下辺方向の角度範囲を選択し、この下辺方向の角度範囲において描画軌跡の中心点から当該描画軌跡までの距離情報（中心点DtB 情報）を算出して、対応する下辺方向の角度範囲におけるＳＶＭモデルに入力する。このとき、下辺ＳＶＭモデルとして図１６に示したような複数の下辺図形モデルが設定されているものとすると、これらの下辺図形モデルのうち“Upside-down triangle” と形状が一致する。したがって、上記一筆書き描画図形は“Upside-down triangle”と認識する。

以上のように上辺、下辺、右辺及び左辺の各方向の角度範囲のうち上辺方向の角度範囲を順に選択して、描画図形の識別処理を段階的に行うようにしているので、常に４方向の角度範囲の全てについて識別処理を行う場合に比べ、識別処理のための計算量を減らして識別処理時間の短縮を図ることができる。

以上詳述したようにこの実施形態では、指位置蓄積部２５に格納されたジェスチャの開始から終了までの間の描画点の位置座標の集合をもとに描画軌跡を表す画像を作成し、この描画軌跡を表す画像を含む最小の矩形領域を枠パターンを用いて切り取る。そして、この切り取られた描画軌跡を含む最小面積の矩形領域画像のサイズを正規化したのち、この矩形領域画像をもとに“SVM using DtB ”を応用した認識アルゴリズムを用いて上記描画軌跡により表される図形を認識する。このとき、図形の認識処理は、描画軌跡の中心点に対し上辺、下辺、右辺及び左辺の各方向の角度範囲を順に選択し、選択された角度範囲において描画軌跡の中心点から当該描画軌跡までの距離情報（中心点DtB 情報）を算出してこれを対応するＳＶＭモデルに入力することにより上記描画軌跡により表される図形を識別する処理を、該当する図形が認識できるまで繰り返すことで行われる。

したがって、描画点の軌跡からジェスチャの図形を認識する際に、描画軌跡の中心点から当該描画軌跡までの距離から描画軌跡の部分形状を識別して、この識別された部分形状をもとにジェスチャ図形を認識する処理が、描画軌跡の中心点に対し上辺、下辺、右辺及び左辺の各方向の角度範囲を順に選択しながらジェスチャ図形が認識されるまで段階的に行われる。このため、ジェスチャ認識アルゴリズムとして“Hidden Markov Machine”を使用する場合や、従来の“SVM using DtB ”をそのまま使用した場合、さらには描画軌跡を正規化する際に用いた矩形枠の４辺から描画軌跡までの距離（４辺DtB情報）を用いる場合に比べ、少ない計算処理量でジェスチャ図形を認識することが可能となり、これにより図形認識処理に要する時間を短縮することが可能となる。

また、上記図形認識処理に先立ち、描画軌跡と枠型パターンのサイズを正規化するようにしているので、描画点の検出や描画軌跡の作成において誤差が発生しても、これらの誤差を吸収して図形認識処理を効率良く行うことができ、これにより図形認識処理に要する時間をさらに短縮することが可能となる。

なお、この発明は上記実施形態に限定されるものではない。例えば、前記実施形態では指の動きによって空間に描かれた一筆書き図形を認識する場合を例にとって説明したが、図形の郭枠形状を認識するようにしてもよい。例えば、ユーザがジェスチャとしてピースサインやＯＫサインを行ったときの指の輪郭形状を認識するようにしてもよい。

また、ジェスチャ認識領域Ｃをカメラ４の視野範囲に設定したが、カメラ４の視野範囲が大きい場合にはこのカメラ４の視野範囲内に当該視野範囲より小さいジェスチャ認識領域Ｃを設定するようにしてもよい。この場合のジェスチャ認識領域Ｃの大きさや形状は任意に設定可能である。

さらに、指の描画点が予め設定された時間以上連続して非検出となった場合に、一筆書きジェスチャ認識処理部３２０の機能を強制的にＯＦＦ状態に遷移させるようにした。しかしそれに限らず、指位置蓄積部２５に記憶された指位置の軌跡を表す集合のうち、その一部が予め決められた長さ以上欠損していた場合に、一筆書きジェスチャ認識処理部３２０の機能を強制的にＯＦＦ状態に遷移させるようにしてもよい。

さらに、前記実施形態では本発明に係るジェスチャ認識装置の機能を情報処理装置に設けた場合を例に説明したが、同機能をテレビジョン受信機に設けてもよいし、セットトップボックスやビデオレーダなどに設けてもよい。その他、ジェスチャ認識装置の種類や構成、処理手順と処理内容などについても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。

要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

１…ユーザ、２…テレビジョン受信機、３…情報処理装置、４…カメラ、５…発光マーカ、１０…撮像画像取得ユニット、１１…カメラ画像取得部、２０…データベース、２１…カメラ画像蓄積部、２２…一筆書き図形蓄積部、２３…操作内容蓄積部、２４…表示画像・映像蓄積部、２５…指位置蓄積部、２６…ＳＶＭ学習データ蓄積部、３０…一筆書きジェスチャ認識処理ユニット、３１０…一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ切替部、３１１…指位置検出部、３１２…一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ判断・切替部、３２０…一筆書きジェスチャ認識処理部、３２１…一筆書きジェスチャ入力判断部、３２２…一筆書き図形の方向識別部、３２３…一筆書き図形識別部、３２３１…図形作成機能、３２３２…図形領域抽出機能、３２３３…抽出画像正規化機能、３２３４…中心点ＤｔＢ情報抽出機能、３２３５…モード識別機能、３２３６…学習データ蓄積機能、３２３７…ＳＶＭモデル作成機能、３２３８…図形認識機能、４０…リアルタイム処理発生ユニット、５０…表示画面処理ユニット、５１…表示画面処理部。

Claims

ジェスチャにより空間に図形を描く動きを撮像してその画像データを出力する撮像装置と、前記撮像装置から出力された画像データをもとに前記ジェスチャにより描かれた図形を認識する機能を有するジェスチャ認識装置とを具備するシステムで使用される前記ジェスチャ認識装置であって、
前記撮像装置から出力された画像データを所定の周期で取り込む手段と、
前記画像データが取り込まれるごとに当該画像データから前記ジェスチャによる描画点の位置情報を検出し、この検出された描画点の位置情報を記憶手段に格納する手段と、
前記記憶手段に格納された描画点の位置情報の集合をもとに前記ジェスチャによる描画軌跡を表す情報を作成する手段と、
前記作成された描画軌跡を表す情報をもとに、当該描画軌跡の中心点又は重心点を求めると共に、この求められた中心点又は重心点から前記描画軌跡までの距離を所定の角度間隔で求め、この求められた距離の集合をもとに前記描画軌跡の形状を識別して、この識別された描画軌跡の形状をもとに前記描画軌跡により表される図形を認識する処理を行う図形認識手段と
を具備し、
前記図形認識手段は、
前記求められた中心点又は重心点を中心に描画軌跡方向に対し複数の角度範囲を設定する手段と、
前記設定された複数の角度範囲の各々について、前記中心点又は重心点から前記描画軌跡までの距離を所定の角度間隔で求めて、この求められた距離の集合をもとに前記描画軌跡の部分形状を識別し、この識別された描画軌跡の部分形状をもとに前記描画軌跡により表される図形を推測する処理を、前記描画軌跡により表される図形が認識されるまで、前記複数の角度範囲を順に選択して繰り返し実行する手段と
を備えることを特徴とするジェスチャ認識装置。
請求項１に記載のジェスチャ認識装置が備える各手段の処理を、当該ジェスチャ認識装置のコンピュータに実行させるプログラム。