WO2014054716A1

WO2014054716A1 - ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体

Info

Publication number: WO2014054716A1
Application number: PCT/JP2013/076901
Authority: WO
Inventors: 宗益子; 正人萩原
Original assignee: 楽天株式会社
Priority date: 2012-10-03
Filing date: 2013-10-03
Publication date: 2014-04-10
Also published as: JP5897725B2; JPWO2014054716A1; US20160147307A1; US10591998B2

Abstract

　空中に手書きジェスチャを行うことにより複数の文字を簡単に入力することができるようにすること。　ユーザインタフェース装置は、複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段と、ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段と、前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段と、順次出力される前記各文字に係る前記類似度評価情報に基づいて、前記ユーザのジェスチャに係る文字列を決定する文字列決定手段と、を含む。

Description

ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体

　本発明はユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体に関し、特に、空中に手書きジェスチャを行うことで文字入力するユーザインタフェース技術に関する。

　空中に手書きジェスチャを行うことで文字入力するシステムが検討されている（下記非特許文献１参照）。このシステムでは、ユーザがウェアラブルカメラを頭部に装着し、眼前にて指で空中に１つの文字を書く動作を行うと、手の動きが解析され、解析結果から文字が特定される。またこのシステムでは、文字を書き始めるタイミング及び書き終わったタイミングにおいて、システムに対して明示的な操作を行って、文字認識の対象を明確化する必要がある。

園田智也，村岡洋一，「空中での手書き文字入力システム」，電子情報通信学会論文誌，一般社団法人電子情報通信学会，２００３年７月１日，D-II J86-D-II(7)，p. 1015-1025

　上述のように従来技術では、１文字入力する毎に入力開始及び入力終了をシステムに対して知らせる必要がある。このため、入力操作が煩雑であり、複数の文字からなる語や文を入力するのに適さないという問題がある。

　本発明は上記課題に鑑みてなされたものであって、その目的は、空中に手書きジェスチャを行うことにより複数の文字を簡単に入力することができるユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体を提供することにある。

　上記課題を解決するために、本発明に係るユーザインタフェース装置は、複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段と、ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段と、前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段と、順次出力される前記各文字に係る前記類似度評価情報に基づいて、前記ユーザのジェスチャに係る文字列を決定する文字列決定手段と、を含む。

　また、本発明の一態様では、順次出力される前記各文字に係る前記類似度評価情報に基づいて文字判定期間を決定する期間決定手段を含んでよい。また、前記文字列決定手段は、所定基準を満たす前記類似度評価情報が前記文字判定期間内に出力される文字のうち、１以上を前記ユーザのジェスチャに係る文字列に含まれる文字として決定してよい。

　この場合、前記文字列決定手段は、１つの文字についてのみ前記所定基準を満たす類似度評価情報が前記文字判定期間内に複数回連続して出力される場合に、該１つの文字を前記ユーザのジェスチャに係る文字列に含まれると判断してよい。

　また、前記文字列決定手段は、前記文字列判定期間内において、前記所定値基準を満たす類似度評価情報が連続して出力される期間が重複する複数の文字があると判断される場合に、前記ユーザのジェスチャに係る文字列に、それら複数の文字のうちいずれかが択一的に含まれると判断してよい。

　また、前記文字列決定手段は、互いに関連する関連文字を記憶してよい。そして、前記文字列判定期間内において、前記所定基準を満たす類似度評価情報が連続して出力される期間が重複する複数の文字があると判断される場合に、それら複数の文字が前記関連文字であれば、予め定められたそのうち１つを前記ユーザのジェスチャに係る文字列に含まれると判断してよい。

　また、前記位置取得手段は、前記所定の筆記位置の３次元座標を順次取得し、そのうち少なくとも３つにより定まる平面に対する投影位置を示す２次元座標を順次取得してよい。

　また、前記文字列決定手段は、順次出力される類似度評価情報に基づいて選択される文字を連結してなる一次文字列を複数決定する手段と、前記複数の一次文字列のそれぞれに基づいて、前記ユーザのジェスチャに係る文字列の候補を１以上決定する手段と、前記各候補の評価値である候補評価値を、該候補に対応する前記一次文字列に含まれる文字に係る類似度評価値に基づいて算出する手段と、算出される候補評価値に基づいて、前記ユーザのジェスチャに係る１以上の文字列を出力する手段と、を含んでよい。

　また、本発明に係るユーザインタフェース方法は、ユーザが空中に文字を順に書くジェスチャをする場合に、所定の筆記位置を順次取得する位置取得ステップと、前記位置取得ステップで前記所定の筆記位置が取得されるごとに、複数文字のそれぞれを空中に書くジェスチャをした場合における前記所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段を参照して、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力ステップと、順次出力される前記各文字に係る前記類似度評価情報に基づいて、前記ユーザのジェスチャに係る文字列を決定する文字列決定ステップと、を含む。

　また、本発明に係るプログラムは、複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段、ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段、前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段、及び順次出力される前記各文字に係る前記類似度評価情報に基づいて、前記ユーザのジェスチャに係る文字列を決定する文字列決定手段としてコンピュータを機能させるためのプログラムである。このプログラムはコンピュータ可読情報記憶媒体に格納されてよい。

本発明の実施形態に係るユーザインタフェース装置の外観斜視図である。画面に表示されるユーザインタフェース画像の一例を示す図である。本発明の実施形態に係るユーザインタフェース装置の機能ブロック図である。文字認識処理を示すフロー図である。手の軌跡を示す３次元座標列の計測を説明する図である。３次元座標列の投影を示す図である。投影面に投影された手の軌跡を示す図である。投影面の変形例を示す図である。文字のテンプレートの一例を示す図である。ＤＰマッチングに用いるコストテーブルの一例を模式的に示す図である。ＤＰマッチングを説明する図である。入力データと各文字のテンプレートとの類似度評価値の推移を示す図である。候補文字の判定基準を説明する図である。文字認識部から出力される候補文字データを示す図である。基本辞書を示す図である。文字変換テーブルを示す図である。変換済み辞書を示す図である。変換処理を示すフロー図である。変換語候補のグラフ構造を示す図である。ユーザインタフェース処理を示すフロー図である。腕の長さを入力するためのユーザインタフェース画面の一例を示す図である。

　以下、本発明の実施形態について図面に基づき詳細に説明する。

　図１は、本発明の実施形態に係るユーザインタフェース装置の外観斜視図である。同図に示されるように、ユーザインタフェース装置１０は、テレビ受像機やパーソナルコンピュータ用モニタなどの表示装置１２と、空間計測装置１４と、本体１６と、を含んでいる。本体１６はパーソナルコンピュータやコンピュータゲームシステムなどのコンピュータであり、表示装置１２及び空間計測装置１４が接続されている。

　空間計測装置１４は、正面をリアルタイムに撮像し、２次元画像を取得する動画カメラとしての機能と、動画カメラにより映し出される２次元画像（フレーム画像）の各位置までの距離の情報（距離画像）を取得する距離センサ（デプスセンサ）としての機能と、を有している。距離センサは、例えば正面側に特定の２次元パターンの赤外光を照射し、それを赤外線カメラで撮影し、映し出される２次元パターンと元の２次元パターンとの相違から、正面を映し出した画像の各位置までの距離を計算するものであってよい。或いは、距離センサからレーザ光を出射し、レーザ光が正面の物体により反射され、再び距離センサまで戻ってくるまでの時間を計測して、その時間から距離をしてもよい。この場合、レーザ光を走査すれば、広範囲について距離情報を得ることができる。他にも、種々の方式の距離センサが知られており、これらを適宜採用することができる。空間計測装置１４は、上記２つの機能により、正面を映し出した動画像と、動画像を構成するフレーム画像に表れた各位置の３次元座標の情報（距離画像）と、を取得できる。

　空間計測装置１４は、表示装置１２の上に、表示装置１２の表示面が向く方向に向けて配置されている。ユーザＵが表示装置１２の前に立つか、又は座って、空中で文字を書く動作（ジェスチャ）をすれば、その様子を示す動画像及び距離画像が本体１６に入力される。本体１６では、これら動画像及び距離画像から、後述のようにユーザＵの利き手（ここでは右手とする）の位置の３次元座標列を認識するようになっており、その手の位置の軌跡１８に基づいて、ユーザが書いた文字が認識される。

　図２は、表示装置１２の画面に映し出されるユーザインタフェース画像の一例を示している。同図に示されるように、画面には空間計測装置１４で撮影された動画像を左右反転させた動画像（鏡像）が背景として全面に表示されている。ここでは動画像にユーザＵが映し出されている。

　ユーザＵの利き手側の肩、すなわち右肩（基準部位）が映し出された位置２２を中心とした仮想的な円２６（不可視）の周上には、変換文字列の候補を示す選択候補画像（選択要素）２０が略等間隔に配置されており、ユーザＵはそれらのうち１つに右手の表示位置を重ねることにより、当該１つの選択候補画像２０が示す変換文字列を選択することができる。選択された変換文字列は、例えば他のプログラムに渡され、検索キーワードなどとして用いられたり、メールなどのコミュニケーションツールの送信メッセージに用いられたりする。なお、選択要素としては、上記のような変換文字列の候補を示すものに限らず、他の文字列を示す画像やテキストデータそのものであってもよい。或いは、電子商取引サイトで取り扱う商品などの写真画像であってもよい。円２６の外側には、さらに入力済みの文字を削除するためのバックスペースボタンの画像など、特定機能を発動するためのボタン画像２８が配置されている。ユーザＵは、ボタン画像２８に右手を重ねることにより、特定機能を発動させることができる。ここで、円２６の径は、ユーザＵの腕が画面に表示されたときの長さを基準に、例えばその８割と決定されてよい。或いは、平均的な人の腕が画面に表示されたときの長さを基準として、例えばその８割と決定されてもよい。

　また、円２６の内側には、ユーザＵが利き手で文字を書く動作をする領域（空書領域）が設定されている。この空書領域は円形領域であってよい。また、該円形領域は円２６と同心であってよく、また、円２６より小径であってよい。ユーザＵは、自分の右手が映し出された位置２４が空書領域内に収まるようにして、右手で任意の文字を書く。右手の位置２４の所定時間ごとに本体１６で認識されており、新しく認識されたものから順に所定数の位置は、画面に丸印等の識別画像により表示される（図中黒丸）。なお、空所領域から右手の位置２４が出た場合には、認識された位置２４に基づく文字の認識処理を停止してよい。こうすれば、ユーザＵが選択候補画像２０に右手を重ねる動きを、文字を書く動きと認識せずに済み、処理効率を向上させることができる。

　同図に示されるユーザインタフェースによれば、左右反転したユーザＵの画像を表示しつつ、利き手の位置２４の軌跡が丸印等の画像群により示されるので、ユーザＵは自分が空書領域にどのような文字を書いているかを、画面内容から容易に理解できる。また、ユーザＵは腕を伸ばさないと、自分の利き手の位置２４を選択項目画像２０やボタン画像２８に重ねられないので、文字を書いている途中に誤って選択項目画像２０やボタン画像２８を選択してしまうことが無くなる。

　なお、本体１６では、空間計測装置１４により取得された動画像及び距離画像に基づき、動画像に表れた人の主要部位の３次元位置座標を計算する。動画像及び距離画像から人の主要部位（左右の肩及び手の位置を含む。）の３次元位置座標を計算するには、例えば動画像に表れた人の主要部位を認識し、その３次元座標を動画像及び距離画像から取得する。また、動画像に表れない部位については、時間的に前後する動画像及び距離画像から補間したり、同部位に連結された部位の３次元位置座標から推定したりできる。この計算結果は、例えばマイクロソフトコーポレーションのキネクト（商標）を用いることで、容易に利用できる。そして、認識された位置を、空間計測装置１４の正面に仮想的に配置される投影面に投影することにより、利き手側の肩の位置２２及び利き手の位置２４を取得する。

　なお、ここではユーザＵの右手を、文字を書くジェスチャを書く際の筆記部位や、選択項目画像２０を選択するための選択部位とし、その位置２４を筆記位置や選択位置としたが、ユーザＵの利き手が左の場合には、左手を筆記部位や選択部位とし、左手の位置を筆記位置や選択位置としてよい。また、手以外にも、指などの他の体の部位を筆記部位や選択部位としてよい。また、以上の説明では利き手の位置を選択位置とし、利き手側の肩を基準部位としたが、選択位置よりも体幹側であって、選択位置を動かすための関節が存在する部位を、選択位置の種類に応じて基準部位として適宜選択してよい。例えば、指先の位置を選択位置とし、手首を基準部位としてよい。また、手が表示される位置の認識は、以上の方法に限らない。例えば、特定色の手袋をユーザＵが装着し、該特定色の位置を筆記位置や選択位置として動画像から認識してよい。また、手で直接文字を書いたり選択項目画像２０を選択しなくても、何らかの物体（筆記具に似せた棒状の物体など）で文字を書いたり選択項目画像２０を選択するようにしてよい。この場合、当該物体の先端位置が筆記位置や選択位置となる。例えば、特定色及び／又は特定形状の物体を手に持ってユーザＵが文字を書く場合には、色又は形状を頼りに当該物体の先端の表示位置を筆記位置や選択位置として認識してよい。こうした場合、空間計測装置１４は必ずしも必要無く、動画カメラで代用できる。

　図３は、ユーザインタフェース装置１０の機能ブロック図である。同図に示されるように、ユーザインタフェース装置１０は、モーション取得部３０、文字認識部３２、変換部３４、ユーザインタフェース部３６、アプリケーション部３８、文字テンプレート記憶部４０、コストテーブル記憶部４２、基本辞書記憶部４４、変換済み辞書記憶部４６及び文字変換テーブル記憶部４８を含んでいる。これらの要素は、本体１６に本発明の実施形態に係るプログラムが実行されることにより実現される。このプログラムは、ＣＤ－ＲＯＭやＤＶＤ－ＲＯＭなどのコンピュータ可読情報記憶媒体に格納され、そこから本体１６にインストールされてもよいし、インターネットなどの情報通信ネットワークを介して本体１６にダウンロードされ、インストールされてもよい。

　モーション取得部３０は、空間計測装置１４からユーザＵの動画像及び距離画像を取得する。また、それら画像に基づいて、ユーザＵの利き手側の肩及び利き手の３次元座標を計算する。

　文字認識部３２は、ユーザの利き手の３次元座標に基づき、ユーザＵが書く文字を順次認識する。変換部３４は、文字認識部３２により順次認識される文字を順次文字列（単語や文）に変換する。ユーザインタフェース部３６は、図２に示されるユーザインタフェース画像を表示装置１２の画面に表示する。このため、変換部３４により変換された文字列を取得し、それを選択候補画像２０として表示する。また、モーション取得部３０により取得される動画像を背景として表示するとともに、ユーザＵの利き手の位置を表示する。さらに、利き手の位置が選択候補画像２０の位置から所定距離内にある場合には、同選択候補画像２０に対応する変換文字列が選択されたことをアプリケーション部３８に通知する。

　アプリケーション部３８は、ユーザインタフェース部３６から通知される変換文字列に基づき、所定の情報処理を実行する。この情報処理は、どのような処理であってもよいが、例えば通知される変換文字列を検索キーとしてデータベースから情報を検索する処理や、通知される変換文字列に基づいて送信メッセージを生成する処理であってよい。

　文字テンプレート記憶部４０及びコストテーブル記憶部４２は、後述する文字テンプレート（図９参照）及びコストテーブル（図１０参照）をそれぞれ記憶する。これらは、文字認識部３２における文字認識処理に用いられる。また、基本辞書記憶部４４、変換済み辞書記憶部４６及び文字変換テーブル記憶部４８は、後述する基本辞書（図１５参照）、変換済み辞書（図１７参照）及び文字変換テーブル（図１６参照）をそれぞれ記憶する。これらは、変換部３４における変換処理に用いられる。

　ここで、文字認識部３４による文字認識処理を詳細に説明する。図４は、文字認識部３４よる文字認識処理を示すフロー図であり、同図に示される処理は所定時間ごとに実行される。同図に示されるように、まず文字認識部３４はモーション取得部３０により取得される最新の利き手の３次元位置座標を取得する（Ｓ１０１）。次に、Ｓ１０１で取得した３次元位置座標を所定の投影面に投影する（Ｓ１０２）。具体的には、図５に示されるように、ユーザＵの利き手の３次元位置の軌跡１８が存在する空間領域と、空間計測装置１４の位置と、の間に投影面５０が設定される。投影面５０は、空間計測装置１４の正面方向と垂直に予め設けられ、左右方向にＸ軸が設定され、上下方向にＹ軸が設定される。そして、図６に示されるように、Ｓ１０１で取得されたユーザＵの利き手の３次元位置５２は、投影面５０に垂直投影される。図７は、投影面５０に投影された、ユーザＵの利き手の位置の軌跡１８の一例を示しており、同図にはユーザＵが空所領域に「Ｒ」の文字を書いた場合の投影面５０が示されている。

　なお、ここでは図５に示されるように、空間計測装置１４の前方に、該空間計測方向１４の正面方向と垂直となるよう投影面５０が設定されるようにしたが、ユーザＵが空間計測装置１４に正しく向かって字を書くとは限らない。例えば、ユーザＵが横を向いて字を書くと、投影面５０に投影された利き手の位置の軌跡１８は、左右に縮小されてしまい、どの文字をユーザＵが書いたかを判別するのが困難となる。

　そこで、図８に示されるように、ユーザＵの利き手の軌跡１８を構成する３次元位置５２のうち、３以上を選択し、それらの３次元位置５２から決まる平面を投影面５０ａとしてもよい。この場合、投影面５０ａは空間計測装置１４の正面方向と垂直に設定されるとは限らない。投影面５０ａは、選択された３次元位置５２の全ての座標を含む平面であってもよいし、選択された３次元位置５２の平均などの統計的位置を含む平面であってよい。或いは、それら平面に平行な平面であってよい。また、選択される３次元位置５２は、軌跡１８からランダムに選択されてもよいし、取得された時間が所定時間間隔となるように選択されてもよい。或いは、選択される３次元位置５２の間の距離ができるだけ大きくなるように、互いの距離に従って選択されてもよい。さらに、軌跡１８における特徴点を通過する平面を投影面５０ａとしてもよい。特徴点は、軌跡１８の各部の曲率に基づいて判断してよい。或いは、ハフ変換を用いて、軌跡における特徴点を通過する平面を投影面５０ａとして算出してもよい。このようにすれば、ユーザＵがどのような方向を向いて字を書いても、正しく文字を認識することができる。

　図４に戻り、文字認識部３４は、次に各時刻における投影後の位置座標から、直前に取得された投影後の位置座標を減算し、ユーザＵが文字を書く位置の移動方向を示すベクトルデータを得る。さらに、このベクトルデータを９種類の方向のうちいずれかに分類することにより、方向分類データを得る（Ｓ１０３）。すなわち、ベクトルデータの大きさが所定値未満であれば、移動していない旨を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では点（・）で示す。また、ベクトルデータの大きさが所定値以上であれば、ベクトルデータの向きにより８方向のいずれかを示すベクトルデータであると分類する。すなわち、ベクトルデータの方向が、上方向（Ｙ方向）を基準として－２３度以上＋２２度未満であれば、上方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では上方向の矢印で示す。＋２２度以上＋６７度未満であれば、右斜め上方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では右斜め上方向の矢印で示す。＋６７度以上＋１１２度未満であれば、右方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では右方向の矢印で示す。＋１１２度以上＋１５７度未満であれば、右斜め下方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では右斜め下方向の矢印で示す。＋１５７度以上＋２０２度未満であれば、下方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では下方向の矢印で示す。＋２０２度以上＋２４７度未満であれば、左斜め下方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では左斜め下方向の矢印で示す。＋２４７度以上＋２９２度未満であれば、左方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では左方向の矢印で示す。＋２９２度以上＋３３７度未満であれば、左斜め上方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では左斜め上方向の矢印で示す。

　次に、最新の方向分類データを一端とする、所定数の時間的に連続する方向分類データからなる入力データ（評価対象データ）と、各文字のテンプレートと、の類似度評価値（類似度評価情報）を計算する。なお、文字認識処理の開始時には、所定数の時間的に連続する方向分類データが存在しないが、その場合にはＳ１０４以降の処理は実行せず、処理を終了する。

　類似度評価値の計算のため、文字テンプレート記憶部４０には、図９に模式的に示されるテンプレートのデータが全ての文字（ここでは、アルファベット２３文字、０から９までの数字、長音を示すハイフン（「－」）の合計３４種の文字）について記憶されている。テンプレートは、各文字を空中に書く動作をした場合の利き手の位置の推移を示しており、図９に示されるように、上述した方向分類データを時間順に並べたものとなっている。各文字のテンプレートは、標準的な体格を有する者が空中で該文字を書く動作を行い、それに対してＳ１０１乃至Ｓ１０３の処理を所定時間ごとに繰り返して適用することにより容易に得ることができる。なお、テンプレートは各文字について複数用意されてもよい。

　また、コストテーブル記憶部４２には、図１０に模式的に示されるコストテーブルのデータが記憶されているコストテーブルは、方向分類データ間のコスト（かい離度）を示しており、ここでは、同じ方向分類データ間のコストは０であり、隣り合う方向を示す方向分類データ間のコストは１であり、９０度以上１３５度以下のずれで異なる方向を示す方向分類データ間のコストは２であり、反対方向を示す方向分類データ間のコストは３である。また、移動していない旨の方向分類データ（・）と他の種類の方向分類データとの間のコストは、いずれも１である。類似度評価値の計算のため、文字認識部１２はこれらのデータにアクセスすることができるようになっている。

　ＤＰマッチングでは、概念的には、図１１に示されるように、入力データを構成する方向分類データを横軸に時刻順に並べられるとともに、任意の１文字のテンプレートデータを構成する方向分類データも同様に縦軸に時刻順に並べられたマトリックスが用意される。そして、入力データを構成する方向分類データと、テンプレートデータを構成する方向分類データとのすべての組み合わせに対し、コストテーブルからコストを読み出し、図１１に示されるマトリックスにおける、対応するマトリックス要素にそれぞれ格納する。その後、入力データを構成する方向分類データのうち最も遅い（新しい）時刻に取得された方向分類データと、テンプレートデータを構成する方向分類データのうち最も遅い時刻に取得された方向分類データの組に対応するマトリックス要素（図中右下）を注目要素とし、そこに格納されたコスト（ここでは０）を取得する。次に、同マトリックス要素の上、左斜め上、左のいずれかにあるマトリックス要素に注目要素を推移させ、そこに格納されたコストを取得するとともに、既に取得されたコストに加算する。こうして、注目要素を、最上行のマトリックス要素、すなわち、テンプレートを構成する方向分類データのうち時間的に最も早い（古い）時刻に取得された方向分類データに対応するマトリックス要素まで移動させ、コストの総和を得る。このとき、複数の注目要素の経路のうち、コストの総和を最小化するよう経路を選択する。そして、同経路のコストの総和（つまりコストの総和の最小値）を、入力データと当該文字のテンプレートの類似度評価値とする。なお、ここでは類似度評価値の値が小さいほど類似していることとなる。文字認識部１２では、図４のＳ１０１において、入力データと各文字のテンプレートとの類似度評価値を上述のようにして計算する。上述のＤＰマッチングによれば、テンプレートを生成した際の文字を書くスピードと、ユーザＵが文字を書くスピードと、にずれがある場合にも、適切に文字認識することができる。

　文字認識部１２では、次に所定値以下の類似度評価値のテンプレートが存在するか否かを判断する（Ｓ１０５）。そして、そのようなテンプレートが存在すれば、同テンプレートに対応する文字及び類似度評価値を本体のメモリに用意されたバッファに格納してから（Ｓ１０６）。処理を終了する。なお、所定値以下の類似度評価値のテンプレートが複数存在する場合には、それらに対応する全ての文字及び類似度評価値をバッファに格納する。以下では、所定値以下の類似度評価値のテンプレートに対応する文字を、「検出された文字」と記すことにする。Ｓ１０５において、所定値以下の類似度評価値のテンプレートが存在しないと判断されれば、変換部３４を起動し、該変換部３４が、バッファに既に格納されている文字及び類似度評価値に基づき、候補文字のデータを出力する（Ｓ１０７）。

　図１２は、入力データと各文字のテンプレートとの類似度評価値の推移の一例を示す図である。同図において横軸は時間を示しており、縦軸は類似度評価値を示している。上述のように、文字認識部１２は、所定時間ごとに入力データと各文字のテンプレートとの類似度評価値を計算しており、ユーザＵが文字を書き終わるタイミングにて、類似度評価値が所定値以下となるテンプレートが発生することになる。ここでは、ユーザＵがＲ、Ｋ、Ｔの文字を順に空中に書いた場合を示しており、これらの文字に対応する類似度評価値が順に、所定値以下となり、再び所定値を超えている。すなわち、Ｒ、Ｋ、Ｔの文字が順に検出されている。

　図１３は、Ｓ１０７における候補文字の出力方法を説明する図である。同図には、何らかの文字が検出され、どの文字も検出されなくなるまでの間、検出された文字を左から右に順に示している。本実施形態では、何らかの文字が検出され、どの文字も検出されなくなるまでの期間を、文字判定期間としている。

　同図（ａ）に示されるように、文字判定期間において、１つの文字（ここでは「Ａ」）だけが連続して検出される場合、Ｓ１０７において、文字認識部１２は当該文字及びその類似度評価値を、候補文字のデータとして出力する。候補データは、例えば（｛文字：類似度評価値｝）のような所定の形式をとってよい（同図（ａ）の場合、（｛Ａ：１．５｝）のようになる。）。また、類似度評価値は、バッファに格納される同文字に対する類似度評価値のうち、最小のものであってもよいし、平均値などの統計値であってもよい。また、文字認識部１２は、同図（ａ）の場合、２以上の所定回数（例えば３回）以上にわたり連続して１つの文字が検出される場合にだけ、その文字及びその類似度評価値を候補文字のデータと出力し、所定回数未満しか連続して検出されない場合には、候補文字のデータを出力しないようにしてよい。こうすれば、誤認識を防止できる。

　また、同図（ｂ）に示されるように、文字判定期間において、１つの文字（ここでは「Ｆ」）が連続して検出され、その途中から、別の文字（ここでは「Ｅ」）が検出される場合、後に検出された文字についてのみ、文字及びその類似度評価値を候補文字データとして出力してよい。この場合は、後に検出された文字の一部に先に検出された文字が含まれる場合と推定されるからである。同図（ｂ）では、「Ｅ」を書く途中で「Ｆ」が検出された例を示している。なお、後に検出された文字の一部に先に検出された文字が含まれる場合は、「Ｅ」と「Ｆ」など特定の文字対に限られる。そこで、こうした先に検出される文字（先文字）とその直後に検出される文字（後文字）の対を関連文字として予め記憶しておいてよい。そして、文字判定期間において、予め記憶された先文字が連続して検出され、その途中から、対応する後文字が検出される場合に、後文字及びその類似度評価値を候補文字データとして出力してよい。

　また、同図（ｃ）に示されるように、文字判定期間において、１つの文字（ここでは「１」）が連続して検出され、その途中から、別の文字（ここでは「Ｈ」）が検出され、さらにその途中から、さらに別の文字（ここでは「２」）が検出される場合、２番目の文字（ここでは「Ｈ」）を書いたのか、１番目の文字（ここでは「１」）と３番目の文字（ここでは「２」）を連続して書いたのか、不明である。そこで、同図（ｃ）の場合には、上記２つの可能性を両方とも候補文字データとして出力する。例えば、（｛文字２：類似度評価値２｝｜｛文字１：類似度評価値１｝｛文字３：類似度評価値３｝）のような形式であってよい（同図（ｃ）の場合、（｛Ｈ：２．０｝｜｛１：１．３｝｛２：１．０｝）のようになる。）。

　このように、文字認識部１２では、何らかの文字が検出され、どの文字も検出されなくなるまでの間を文字判定期間とし、該文字判定期間における文字の検出パターンに応じて候補文字データを生成している。このようにすることで、より尤もらしい候補文字データを生成することができるようになる。

　図１４は、文字認識部１２から順に出力される候補文字データを模式的に示している。同図は、図１３（ａ）の状況が生じてＡの文字についての候補文字データが出力され、次に図１３（ｂ）の状況が生じてＥの文字について候補文字データが出力され、最後に図１３（ｃ）の状況が生じてＨ、１及び２の文字について候補文字データが出力された例を示している。この場合、文字認識部１２からは、例えば（｛Ａ：１．５｝）（｛Ｅ：１．３｝）（｛Ｈ：２．０｝｜｛１：１．３｝｛２：１．０｝）のように、候補文字データが順に出力される。

　変換部３４では、以上のようにして候補文字データが出力される度に、既に出力された候補文字データに基づいて、ユーザＵのジェスチャに係る文字列を生成する。変換部３４における変換処理のために、上述のように基本辞書記憶部４４、変換済み辞書記憶部４６及び文字変換テーブル記憶部４８は、基本辞書、変換済み辞書、文字変換テーブルをそれぞれ記憶している。基本辞書は、図１５に示されるように、多数の単語のそれぞれに関連づけて、読み仮名及び品詞を記憶している。また、文字変換テーブルは、図１６にその一部が示されるように、全ての仮名文字について、そのアルファベット表記を関連づけて記憶している。ここで、か行～わ行の文字については、少なくとも２つのアルファベット表記が関連づけられている。すなわち、ヘボン式の表記、つまり子音とそれに続く母音から構成される表記と、母音を省略して子音のみから構成される表記と、の２つの表記が少なくとも関連づけられている。また、仮名文字の「し」のように、ヘボン式では「Shi」と表記されるものの、他の方式（訓令式）で「Si」とも表記される場合、それぞれについて母音を省略し、「Sh」や「S」も、仮名文字「し」に関連づけられている。また、変換済み辞書は、基本辞書に収録される各単語に関連づけて、その単語のアルファベット表記を記憶している。これは、変換済み辞書は、変換部３４が文字変換テーブルを参照しながら基本辞書を変換することにより生成されるものである。具体的には、ある単語についての読み仮名を基本辞書から読み出し、読み仮名を構成する各仮名文字を、文字変換テーブルに従ってアルファベット表記に変換する。上述のように、多くの仮名文字には複数のアルファベット表記が関連づけられており、変換済み辞書では、１つの単語に対して、その読み仮名を構成する仮名文字のアルファベット表記のすべての組み合わせが関連づけられている。つまり、１つの単語について、変換済み辞書では、Πｎ（ｉ）個のアルファベット表記が関連づけて記憶されている。ここでｎ（ｉ）は、文字変換テーブルにおいて、単語の読み仮名を構成するｉ番目の仮名文字に関連付けられたアルファベット表記の数である。また、Πは、ｉが１～Ｎ（Ｎ：読み仮名の文字数）までの積を示している。

　図１８は、変換部３４による変換処理を示すフロー図である。この処理は、文字認識部３２から文字候補データが出力される度に実行される。まず、既に文字認識部３２から出力された文字候補データから生成されるアルファベット文字列のうち１つを選択する（Ｓ２０１）。例えば、図１４に示される文字候補データからは、「ＡＥＨ」と「ＡＥ１２」の２つのアルファベット文字列が生成されるが、そのうち１つが選択される。つまり、変換部３４は、文字候補データにより示されるアルファベット文字を順に連結することによりアルファベット文字列を生成する。また、１つの文字候補データにより複数のアルファベット文字又は文字列が書かれた可能性が示されている場合には、それらを選択的に用いて、他の文字候補データにより示されるアルファベット文字又は文字列と連結することにより、複数のアルファベット文字列（一次文字列）を生成し、そのうち１つを選択する。

　次に、Ｓ２０１で選択されたアルファベット文字列の第１のスコアを算出する（Ｓ２０２）。例えば、アルファベット文字列を構成する各文字に対応する類似度評価値を文字候補データから抽出し、それらの逆数を乗算することにより第１のスコアを算出する。さらに、Ｓ２０１で選択されたアルファベット文字列に対応する単語又は単語列を判断し、それらのグラフ、つまり連結状態を示すデータを生成する（図１９参照）。

　具体的には、Ｓ２０１で選択されたアルファベット文字列の全体又は任意の長さの先頭部分に一致するアルファベット文字列を変換済み辞書から検索し、該アルファベット文字列に関連づけられた単語（変換辞書の見出し語）を取得する。Ｓ２０１で選択されたアルファベット文字列の先頭部分に一致するアルファベット文字列が変換済み辞書に記憶されている場合には、残りの部分の全体又は任意の長さの先頭部分に一致するアルファベット文字列を変換済み辞書から検索し、該アルファベット文字列に関連づけられた単語を取得する。こうして、Ｓ２０１で選択されたアルファベット文字列に対応する単語又は単語列（ユーザＵのジェスチャに係る文字列の候補）を取得する。

　次に変換部３４では、Ｓ２０１で選択されたアルファベット文字列に対応する全ての単語又は単語列について第２のスコアを算出する（Ｓ２０４）。例えば、各単語又は単語列について、それら単語や単語列の出現頻度、日本語としての尤もらしさ、各単語の品詞の並び順などに基づいて、第２のスコアを算出することができる。さらに、Ｓ２０１で選択されたアルファベット文字列に対応する全ての単語又は単語列について、総合スコア（候補評価値）を算出する。総合スコアは、例えば第１のスコアと第２のスコアとを乗算したり、又は加算したりすることにより算出することができる。その後、Ｓ２０１で生成される全てのアルファベット文字列についてＳ２０１～Ｓ２０４の処理を繰り返す（Ｓ２０５）。そして、総合スコアの大きいな順から所定個数の単語又は単語列を出力する（Ｓ２０６）。

　ユーザインタフェース部３６は、上述したように、変換部３４により出力される単語又は単語列、モーション取得部３０により取得される動画像に基づき、図２に示されるユーザインタフェース画像を表示装置１２の画面に表示する。また、モーション取得部３０により取得されるユーザＵの利き手の位置を表示する。

　図２０は、ユーザインタフェース部３６によるユーザインタフェース処理を示すフロー図である。同図に示される処理は、所定時間ごとに実行されるものであり、まずモーション取得部３０から出力される動画像を構成する最新のフレーム画像をメモリに背景として描画する（Ｓ３０１）。次に、モーション取得部３０から取得される、フレーム画像におけるユーザＵの利き手側の肩の位置座標を取得する（Ｓ３０２）。さらに、フレーム画像におけるユーザＵの利き手の位置座標を取得する（Ｓ３０３）。そして、Ｓ３０２で取得される利き手側の肩の位置座標を中心とした円２６の周上に、選択項目画像２０を配置する位置を決定する（Ｓ３０４）。選択項目画像２０の位置は、例えば上記円２６の周上に等間隔に設定してよい。さらに、Ｓ３０３で取得される利き手の位置と、Ｓ３０４で決定された各位置と、の距離を計算し、Ｓ３０３で決定された各位置を、計算された距離に従ってソートする（Ｓ３０５）。そして、総合スコアが高いほど利き手の位置に近い位置に配置されるよう、変換部３４から出力される単語又は単語列をＳ３０３で決定された位置に配置する（Ｓ３０６）。さらに、特定機能を発動するためのボタン画像２８を円２６の外側に配置する（Ｓ３０７）。また、Ｓ３０３で取得されるユーザＵの利き手の位置に丸印などの識別画像を配置する（Ｓ３０８）。以上のようにして、図２に示されるユーザインタフェース画像を生成し、これを表示装置１２の画面に表示する。

　なお、上述のように円２６の径は、ユーザＵの腕が画面に表示されたときの長さを基準に決定してもよいし、平均的な人の腕が画面に表示されたときの長さを基準として決定してもよい。ユーザＵの腕が画面に表示されたときの長さを基準とする場合には、図２１に示されるように利き手を伸ばすようユーザＵに要求するメッセージを画面に表示して、利き手の位置２４と利き手側の肩の位置２２との距離を取得すればよい。

　以上説明したユーザインタフェース装置１０では、筆記位置である利き手の位置が取得されるごとに、新しく取得されたものから順に所定数の利き手の位置からなる入力データを生成し、該入力データと各文字に係るテンプレートとの類似度評価値を算出している。そして、筆記位置である利き手の位置が取得されるごとに、類似度評価値に基づいてユーザＵのジェスチャに係る文字列を決定している。このため、各文字を書き始めるタイミングや書き終わったタイミングで明示的な操作をしなくても、複数の文字を順に認識させることができ、極めて使い勝手の良いユーザインタフェースを実現できる。

　また、変換済み辞書には、各見出し語に関連付けて、子音のみを含むアルファベット文字列が記憶されているので、ユーザＵは少数の文字を入力するだけで、意図した文字列を得ることができる。また、各見出し語に関連づけて、子音のみを含むアルファベット文字列のみならず、子音と母音を含むアルファベット文字列が記憶されているので、ユーザＵが誤って子音と母音とを含むアルファベット文字列を入力したとしても、ユーザＵが意図した文字列を得ることができる。

　また、ユーザＵの利き手側の肩の位置を基準として、選択要素である選択項目画像２０を画面に表示するようにしているので、ユーザＵは容易に各選択項目画像２０を選択することができる。

　なお、本発明は上記実施形態に限定されず、種々の変形実施が可能である。

　例えば、以上の説明では、ユーザＵの肩の位置を中心とした円周上に選択項目画像２０を配置したが、楕円弧上に選択項目画像２０を配置してもよい。また、ユーザＵの肩の位置を基準として該位置から離間して配置された種々の曲線や直線上に選択項目画像２０を配置してよい。また、利き手側の肩の位置を基準とする代わりに、利き手側の肘の位置を基準としてもよい。筆記位置や選択位置である手、指、筆記具の位置よりも体幹側に位置する、肩や肘などの関節の位置を基準として、そこから離間した位置に選択項目画像２０を配置すれば、ユーザＵは容易に同選択項目画像２０を選択できるようになる。

　また、以上の説明では基本辞書及び文字変換テーブルから変換済み辞書を生成するようにしたが、生成された変換済み辞書のみをユーザインタフェース装置１０に記憶しておいてもよい。また、基本辞書の見出し語及び読み仮名をユーザが任意に追加する場合には、追加された見出し語に対応するアルファベット文字列を、文字変換テーブルに基づいて生成し、それらを変換済み辞書に登録するようにしてもよい。また、変換済み辞書の見出し語は、基本辞書の見出し語に限らず、任意の文字列であってよい。

　また、子音のみを用いて文字列の入力を正しく行い、子音と母音とを用いた入力は利用しないユーザも存在する。逆に、子音と母音を用いた入力だけを行い、子音のみを用いた入力を利用しないユーザも存在する。そこで、ユーザＵのジェスチャにより入力される文字に基づいて、変換済み辞書の見出し語に対応するアルファベット文字列のうち、子音と母音の両方を含むアルファベット文字列、又は子音のみを含むアルファベット文字列のいずれかを除去するようにしてよい。この場合、変換済み辞書から、それらアルファベット文字列を直接消去してよい。或いは、子音と母音の両方を含むアルファベット文字列、又は子音のみを含むアルファベット文字列の一方のみを含むよう、変換済み辞書を基本辞書及び文字変換テーブルから再度生成してもよい。

　また、以上の説明では、アルファベット、数字及びハイフンをユーザのジェスチャにより入力し、日本語の文字列に変換する例について説明したが、本発明は種々の文字、種々の言語に適用できる。例えば、日本語その他の言語のあらゆる文字からテンプレートを用意する文字を選んでよい。こうすれば、テンプレートが用意された様々な文字を、ユーザＵのジェスチャから判断できるようになる。

　また、変換済み辞書の見出し語は、日本語以外の、子音と母音の区別がある言語であってよい。例えば、見出し語を英単語のフルスペルとし、それに対応する子音のみを含むアルファベット文字列、及び子音及び少なくとも１つ母音を含むアルファベット文字列を、該見出し語に関連づけて変換済み辞書に記憶しておけば、子音のみからなるアルファベット文字列、或いは子音及び少なくとも１つの母音を含むアルファベット文字列をジェスチャで順に入力することで、任意の英単語をシステムに入力することができる。例えば、「Japan」の見出し語に、「Jpn」「Japn」「Jpan」「Japan」を関連づけて変換済み辞書に記憶しておけば、ユーザＵが想定に反して、「Japn」などの母音を含むアルファベット文字列を入力したとしても、正しく「Japan」と変換されることになる。なお、見出し語を英単語とする場合、「image」のように語頭に母音が配置された単語については、子音のみからなるアルファベット文字列「mg」に代えて、語頭だけは母音をそのまま含み、それ以外の母音が省略されたアルファベット文字列「img」を変換済み辞書に記憶するようにしてよい。

Claims

　複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段と、
　ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段と、
　前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段と、
　順次出力される前記各文字に係る前記類似度評価情報に基づいて、前記ユーザのジェスチャに係る文字列を決定する文字列決定手段と、
　を含むことを特徴とするユーザインタフェース装置。
　請求項１に記載のユーザインタフェース装置において、
　順次出力される前記各文字に係る前記類似度評価情報に基づいて文字判定期間を決定する期間決定手段を含み、
　前記文字列決定手段は、所定基準を満たす前記類似度評価情報が前記文字判定期間内に出力される文字のうち、１以上を前記ユーザのジェスチャに係る文字列に含まれる文字として決定する、
　ことを特徴とするユーザインタフェース装置。
　請求項２に記載のユーザインタフェース装置において、
　前記文字列決定手段は、１つの文字についてのみ前記所定基準を満たす類似度評価情報が前記文字判定期間内に複数回連続して出力される場合に、該１つの文字を前記ユーザのジェスチャに係る文字列に含まれると判断する、
　ことを特徴とするユーザインタフェース装置。
　請求項２又は３に記載のユーザインタフェース装置において、
　前記文字列決定手段は、前記文字列判定期間内において、前記所定値基準を満たす類似度評価情報が連続して出力される期間が重複する複数の文字があると判断される場合に、前記ユーザのジェスチャに係る文字列に、それら複数の文字のうちいずれかが択一的に含まれると判断する、
　ことを特徴とするユーザインタフェース装置。
　請求項４に記載のユーザインタフェース装置において、
　前記文字列決定手段は、互いに関連する関連文字を記憶し、前記文字列判定期間内において、前記所定基準を満たす類似度評価情報が連続して出力される期間が重複する複数の文字があると判断される場合に、それら複数の文字が前記関連文字であれば、予め定められたそのうち１つを前記ユーザのジェスチャに係る文字列に含まれると判断する、
　ことを特徴とするユーザインタフェース装置。
　請求項１乃至５のいずれかに記載のユーザインタフェース装置において、
　前記位置取得手段は、前記所定の筆記位置の３次元座標を順次取得し、そのうち少なくとも３つにより定まる平面に対する投影位置を示す２次元座標を順次取得する、
　ことを特徴とするユーザインタフェース装置。
　請求項１乃至６のいずれかに記載のユーザインタフェース装置において、
　前記文字列決定手段は、
　順次出力される類似度評価情報に基づいて選択される文字を連結してなる一次文字列を複数決定する手段と、
　前記複数の一次文字列のそれぞれに基づいて、前記ユーザのジェスチャに係る文字列の候補を１以上決定する手段と、
　前記各候補の評価値である候補評価値を、該候補に対応する前記一次文字列に含まれる文字に係る類似度評価値に基づいて算出する手段と、
　算出される候補評価値に基づいて、前記ユーザのジェスチャに係る１以上の文字列を出力する手段と、
　を含むことを特徴とするユーザインタフェース装置。
　ユーザが空中に文字を順に書くジェスチャをする場合に、所定の筆記位置を順次取得する位置取得ステップと、
　前記位置取得ステップで前記所定の筆記位置が取得されるごとに、複数文字のそれぞれを空中に書くジェスチャをした場合における前記所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段を参照して、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力ステップと、
　順次出力される前記各文字に係る前記類似度評価情報に基づいて、前記ユーザのジェスチャに係る文字列を決定する文字列決定ステップと、
　を含むことを特徴とするユーザインタフェース方法。
　複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段、
　ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段、
　前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段、及び
　順次出力される前記各文字に係る前記類似度評価情報に基づいて、前記ユーザのジェスチャに係る文字列を決定する文字列決定手段
　としてコンピュータを機能させるためのプログラム。
　請求項９に記載のプログラムを格納したコンピュータ可読情報記憶媒体。