JP5406188B2 - 高度な語彙外単語の拒否 - Google Patents

高度な語彙外単語の拒否 Download PDF

Info

Publication number
JP5406188B2
JP5406188B2 JP2010521990A JP2010521990A JP5406188B2 JP 5406188 B2 JP5406188 B2 JP 5406188B2 JP 2010521990 A JP2010521990 A JP 2010521990A JP 2010521990 A JP2010521990 A JP 2010521990A JP 5406188 B2 JP5406188 B2 JP 5406188B2
Authority
JP
Japan
Prior art keywords
gesture
input
learning
state
movement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010521990A
Other languages
English (en)
Other versions
JP2010537320A (ja
Inventor
アティド シャマイエ
フランシス マクドーガル
Original Assignee
クアルコム,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クアルコム,インコーポレイテッド filed Critical クアルコム,インコーポレイテッド
Publication of JP2010537320A publication Critical patent/JP2010537320A/ja
Application granted granted Critical
Publication of JP5406188B2 publication Critical patent/JP5406188B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Position Input By Displaying (AREA)

Description

本発明は一般的には、インタラクティブな装置に関し、少なくとも一つの特定の実施例は、定義されたジェスチャ群を使用して、モバイル機器と相互に連動することに関する。
[関連出願についてのクロス・リファレンス]
本出願は、引用によって本出願に組み込まれる、2007年8月20日に出願の米国仮特許出願番号第60/956,776号及び2007年8月20日に出願の米国仮特許出願番号第60/956,784号の優先権を主張する。
例えば携帯電話又はPDA(personal data assistant)などのモバイル機器は、複数の機能を有する。そして、それぞれはユーザによる一意のシーケンスのキーの選択、又は、画面上のメニューを使用して起動することができる。モバイル機器がますます多くの機能を得るにつれて、モバイル機器に設けることができるコントロールの数に限界があるため、機能の全てにアクセスすることは、ますます複雑になっていくことが想定される。
一般的な一実施例によれば、入力ジェスチャの状態量を選択された語彙のモデル化ジェスチャの対応する状態に対して比較したときに、入力ジェスチャが所定の閾値を満たさない場合、入力ジェスチャは語彙外であるとして拒否される。隠れマルコフモデルを使用して、モデル化ジェスチャが、入力ジェスチャで最も適合した語彙のジェスチャとして選択される。入力ジェスチャの状態シーケンスが選択されたモデル化ジェスチャの対応する状態シーケンスに適合するか否かなど、他の要因を、入力ジェスチャを「語彙内」又は「語彙外」ジェスチャであるとして受け入れるか又は拒否するための基準として用いてもよい。
他の一般的な実施例によると、コンピュータにより実施される処理は、入力ジェスチャを、学習ジェスチャの語彙を総合的にモデル化する隠れマルコフモデルに適用することに基づいて、入力ジェスチャが学習ジェスチャの各々に適合する尤度と、最大の尤度を有すると判断されたモデル化された学習ジェスチャの対応する状態に適合する入力ジェスチャの状態量と、を決定するステップを含む。この処理はまた、決定された量が閾値を満たさない場合は、入力ジェスチャを拒否するステップを含む。
実施例は、次の1以上の特徴を含むことができる。例えば、決定された量が閾値を満たす場合は、入力ジェスチャを受け入れてもよい。アプリケーションを、認識された入力ジェスチャに基づいて制御してもよい。決定された量が閾値の量を満たすと判断された場合、最大の尤度を有すると判断されたモデル化された学習ジェスチャの対応する入力コマンドを決定してもよい。2番目に高い尤度を有すると判断された第2のモデル化された学習ジェスチャの対応する状態と適合する、拒否された入力ジェスチャの第2の状態量を決定し、決定された第2の量が閾値を満たさない場合、拒否された入力ジェスチャを拒否してもよい。入力ジェスチャを定義する観察記号を隠れマルコフモデルに適用してもよい。入力ジェスチャの状態のシーケンスが、最大の尤度を有すると判断された、モデル化された学習ジェスチャの対応する状態のシーケンスと適合しない場合、入力ジェスチャを拒否してもよい。
さらなる例では、入力ジェスチャの最初又は最後の状態が、最大の尤度を有すると判断されたモデルかされた学習ジェスチャの対応する状態のそれぞれの最初又は最後と適合しない場合、入力ジェスチャを拒否してもよい。尤度と、状態の変化のシーケンスは、ビタビアルゴリズムを用いて決定してもよい。決定された量が閾値を満たさない場合、入力ジェスチャを語彙の外として拒否してもよい。学習ジェスチャの語彙を認識するために、隠れマルコフモデルを学習させてもよい。入力ジェスチャに関連する状態の変化の群を抽出してもよい。入力ジェスチャの状態量は、抽出された状態の変化の群から決定してもよい。
他の例では、最大の尤度を有すると判断されたモデル化された学習ジェスチャの対応する状態に適合する入力ジェスチャの状態量を決定するステップは、各々の状態において入力ジェスチャの抽出されたメディアンが、最大の尤度を有すると判断されたモデル化された学習ジェスチャの学習サンプル群の対応する状態における抽出されたメディアンの最小値以上である状態の量を決定するステップ、又は、各々の状態において入力ジェスチャの抽出されたメディアンが、非ゼロ調整パラメータを加えた、最大の尤度を有すると判断されたモデル化された学習ジェスチャの学習サンプル群の対応する状態における抽出されたメディアンの最小値以上である、状態の量を決定するステップをさらに含んでもよい。閾値は、対応する状態の量として表現してもよい。入力ジェスチャは、標準化してもよい。
他の一般的な実施例によると、デバイスは、入力ジェスチャを、学習ジェスチャの語彙を総合的にモデル化する隠れマルコフモデルに適用することに基づいて、入力ジェスチャが学習ジェスチャの各々に適合する尤度と、最大の尤度を有すると判断されたモデル化された学習ジェスチャの対応する状態に適合する入力ジェスチャの状態量と、を決定する用に構成されたプロセッサを含む。プロセッサは、また、決定された量が閾値を満たさない場合は、入力ジェスチャを拒否する、ように構成されている。代表的な実施例では、デバイスは入力ジェスチャを受けるように構成された入力モジュールをさらに含んでもよく。入力モジュールはカメラを備えた、相互連動する画面であってもよい。
他の一般的な実施例によると、コンピュータプログラムで符号化されたコンピュータ可読媒体は、実行されると、コンピュータに、入力ジェスチャを、学習ジェスチャの語彙を総合的にモデル化する隠れマルコフモデルに適用することに基づいて、入力ジェスチャが学習ジェスチャの各々に適合する尤度と、最大の尤度を有すると判断されたモデル化された学習ジェスチャの対応する状態に適合する入力ジェスチャの状態量と、を決定するステップを含む動作を実行させる命令を含む。また、かかる動作は、決定された量が閾値を満たさない場合は、入力ジェスチャを拒否するステップも含む。
他の一般的な実施例によると、モバイル機器のコントロールを選択する代わりに、ユーザは、モバイル機器をジェスチャを規定する一連の動きに動かして、そのジェスチャと関連するモバイル機器の特定の機能を呼び出すことができる。これによって、物理的なボタン又はユーザインタフェースコントロールを用いることを必要とせずに、機能を実行することができるので、モバイル機器をより小型化し、機能選択の精度をより一層向上することを可能とする。
他の一般的な実施例によると、コンピュータにより実施される処理は、画像データを用いてデバイスの動きを検知するステップと、検出されたデバイスの動きに対応する、ジェスチャを認識するステップと、を含む。この処理はまた、認識されたジェスチャに対応するデバイスの機能を決定するステップと、かかる機能を呼び出すステップと、を含む。
実施例は、以下の1以上の特徴を含んでもよい。例えば、動きは、第1の軌跡の第1の動きと、第2の、異なる軌跡の第2の動きと、を含んでもよい。ジェスチャを認識するステップは、検知されたデバイスの動きによって画定される、文字の形状、幾何学的形状、又はパターンを認識するステップをさらに含んでもよい。デバイスの動きを検知するステップは、デバイスのユーザの無意識(subconsicous)の身体運動を検出するステップをさらに含み、呼び出される機能は、無意識の身体運動に関連付けられるようにしてもよい。処理はまた、第1の時間と第2の時間で第1のユーザ入力と第2のユーザ入力とをそれぞれ検出するステップをさらに含み、デバイスの動きを検知するステップは、第1の時間と第2の時間の間に発生するデバイスの動きを検知するステップをさらに含んでもよい。
第1の入力は、振るユーザ入力、コントロール選択のユーザ入力、又は、静止して保持するユーザ入力であってもよい。ジェスチャを認識するステップは、検知された動きと、ジェスチャのモデル化された語彙との比較に基づいて、ジェスチャを選択するステップをさらに含んでもよい。処理は、また、デバイスの検知された動きを標準化するステップと、標準化された検知された動きと、ジェスチャのモデル化された語彙とを比較するステップと、検知された動きと、標準化された動きとの比較に基づいて、パラメータを決定するステップをさらに含んでもよい。機能は、パラメータに基づいて決定されてもよい。パラメータを呼び出された機能に入力してもよい。
追加の例では、ジェスチャの語彙を、任意の数の隠れマルコフモデル(HMM)、又は、ルールに基づくモデルを用いて、モデル化してもよい。処理はまた、ジェスチャの語彙の利用可能なジェスチャの全てより少ないジェスチャを選択的に起動するステップをさらに含んでもよく、ジェスチャは、検知された動きと起動されたジェスチャとの比較に基づいて選択されてもよい。利用可能なジェスチャの全てより少ないジェスチャは、製造者の設定、ユーザの設定、又はアプリケーションの設定に基づいて使用可能となるようにしてもよい。処理はまた、特定のジェスチャを認識するためにデバイスを学習させるステップと、ジェスチャの語彙に、特定のジェスチャを追加するステップと、をさらに含んでもよい。機能を呼び出すステップは、アプリケーションを実行するステップ、画像を操作するステップ、又は、文字を入力するステップをさらに含んでもよい。
他の例によると、デバイスの動きを検知するステップは、第1の時間と第2の時間で第1のユーザ入力と第2のユーザ入力とをそれぞれ検出するステップであって、第1の時間は第2の時間の前に生じるステップと、第1の時間の前に第1の軌跡の第1の動きを検知するステップと、第2の時間の後に第2の、異なる軌跡の第2の動きを検知するステップと、第1の動きと第2の動きとを連結するステップと、連結された、第1の動きと第2の動きとを検知された動きとして出力するステップと、を含んでもよい。機能を呼び出すステップは、仮想の環境をナビゲートするステップ、画像を操作するステップ、文字を入力するステップ、アプリケーションを実行するステップ、又はメディアハブ機能を呼び出すステップ、をさらに含んでもよい。
他の一般的な実施例によると、デバイスは、センサとプロセッサとを含む。センサは、画像データを用いて動きを検知するように構成されている。プロセッサは、センサによって検知された、検知された動きに対応するジェスチャを認識し、認識されたジェスチャに対応する機能を決定し、機能を呼び出すように構成されている。代表的な実施例では、センサがカメラであってもよく、動きが、オプティカルフローを用いて検知されるてもよい。
他の一般的な実施例によると、コンピュータ可読媒体は、コンピュータプログラムで符号化される。コンピュータプログラムは、実行されると、コンピュータに、画像データを用いてデバイスの動きを検知するステップと、検知された前記デバイスの動きに対応するジェスチャを認識するステップと、認識された前記ジェスチャに対応するデバイスの機能を決定するステップと、前記機能を呼び出すステップと、を含む動作を実行させる命令を含む。
上述のいずれの技術の実施例も、方法、処理、システム、デバイス、装置、インタラクションインタフェース、コンピュータ可読媒体に記憶された命令、又はコンピュータプログラムで符号化されたコンピュータ可読媒体を含んでもよい。以下、添付の図面を参照して、1以上の実施例の詳細について説明する。他の特徴についても、説明、図面、及び特許請求の範囲から明らかになる。
ジェスチャの認識及び拒否を説明する概念図である。 デバイスのブロック図である。 ジェスチャ認識に応じたデバイスの機能の呼び出しを説明する図である。 ジェスチャの組み合わせを説明する図である。 ジェスチャの正規化を説明する図である。 ジェスチャの学習を説明する図である。 無意識のジェスチャを説明する図である。 代表的なジェスチャ語彙を説明する図である。 代表的な処理のフローチャートである。 ジェスチャ学習の環境を説明する図である。 ジェスチャ構成設定の環境を説明する図である。 選択的なジェスチャ起動のためのユーザインタフェースを説明する図である。 代表的な処理のフローチャートである。 代表的なジェスチャを説明する図である。 ジェスチャを認識するための様々なアプローチを説明する図である。 代表的なコンピューティングデバイスを説明する図である。
明細書中で同様の構成には同様の参照番号を付している。
一般的な一実施例によれば、語彙の選択されたモデル化ジェスチャの対応する状態と比較して、入力ジェスチャの状態量が所定の閾値を満たさない場合、入力ジェスチャは語彙外(out−of−Vocabulary)であるとして拒否される。隠れマルコフモデルを使用して、モデル化ジェスチャが入力ジェスチャの最も適合した語彙のジェスチャとして選択される。入力ジェスチャの状態シーケンスが選択されたモデル化ジェスチャの対応する状態シーケンスに適合するかどうかなどの他の要因を、「語彙内」又は「語彙外」ジェスチャであるとして入力ジェスチャを受け入れるか又は拒否するための基礎として使うこともできる。
このように、そして、モバイル機器上の、又は、ユーザインタフェース上のコントロールを選択する代わりに、ユーザは、ジェスチャを定義、即ち、規定する一連の動きで動き(例えば、それらの手又は他の部位を動かすか、又はモバイル機器を動かす)、そのジェスチャと関連する特定の機能を呼び出すことができる。これによって、物理的なボタン又はユーザインタフェースコントロールを用いることを必要とせずに、機能を実行することができるので、モバイル機器の小型化、ユーザインタフェースの小型化、及び、機能選択の精度の一層の向上を可能とする。
一例では、ユーザは、一連の規定されたジェスチャを実行することによって、モバイル機器などのデバイスと相互連動する。モバイル機器は、人間の手に持つことができる、小型でもよいので、ユーザは、モバイル機器を持ちながらジェスチャを実行することもできる。ユーザは、自分の手又はタッチペンで、タッチ画面又はタブレットコンピュータに書き込むなど、モバイル機器を動かす以外のアプローチを用いて、ジェスチャを行うことができる。学習ジェスチャの語彙を全体としてモデル化する隠れマルコフモデルに入力ジェスチャを適用し、入力ジェスチャを、適合する状態について決定した尤度、及び/又は、決定した量が閾値を満たすか否かに基づいて、認識又は拒否する、高度なアプローチがある。
本明細書で使用される、「ジェスチャ」とは、発話などの言語コミュニケーションと対比される、人体の一部を用いてなされる非言語コミュニケーションの形態を意味する。例えば、ジェスチャは、第1の位置、ポーズ、又は表現と第2の位置、ポーズ、又は表現との間の動き、変化、又は変形として定義することができる。毎日の会話で用いる共通のジェスチャは、例えば、「エアクォーツ」のジェスチャ、お辞儀のジェスチャ、片膝を曲げたお辞儀、頬キス、指又は手の動き、平身低頭、頭を振る又は動かす、ハイファイブ、うなずき、悲しい顔、拳を挙げる、敬礼、親指を立てる動き、ピンチジェスチャ、手又は身体をねじるジェスチャ、又は指さすジェスチャを含む。ジェスチャは、カメラを用いてユーザの画像を分析するなどして検出する、傾斜センサを用いてユーザがデバイスを保持する、又は傾けた角度を検出してデバイスの動きを検知する、又は、その他のアプローチを用いて検出することができる。ジェスチャは、特定のパターン又は手法の一連の動きを実行することによって形作ることができる。
ユーザは、身体の一部の位置を変化させる(すなわち、身体を動かす動き)、又は、身体の一部の位置を変化させることなく、ジェスチャで表現する(すなわち、握り拳のジェスチャを行う、又は身体の一部を所定の時間固定して維持する)ことによってジェスチャを行う(すなわち、「ジェスチャする」又は「ジェスチャで表現する」)ことができる。高度なアプローチは、例えば、手、腕、指のジェスチャを用いるが、あるいは、その他の種類のジェスチャを用いてもよい。
図1は、ジェスチャの認識及び拒否を説明する概念図である。第1の入力ジェスチャ104は、指又はタッチペンでタブレットコンピュータ105に描くことによって行うことができる。他の例のジェスチャ入力として、ユーザ106は、デバイス110を特定のパターンで動かすことによって空中で第2の入力ジェスチャ108を行う。デバイス110は、携帯電話、オーディオプレーヤ、ストップウォッチ又はその他のデバイスでもよい。デバイス110は、デバイス110の動きを(例えば、センサを用いて)検知することができる。第1の入力ジェスチャ104と第2の入力ジェスチャ108は、入力ジェスチャパターンとして、例えば、隠れマルコフモデルのための観察記号の群として、又は、ジェスチャが交差する空間の二次元又は三次元の位置を表すドット、ピクセル、又は格子の点として、表すことができる。ベクトルの集合、運動指示(directive)の群(例えば、「右に水平に動き、上そして左に動く」)としてジェスチャを表すなどの、他のアプローチを、ジェスチャの表現のために用いてもよい。
第1の入力ジェスチャ104及び第2の入力ジェスチャ108に関連する入力ジェスチャパターンは、モデル化された学習ジェスチャの語彙112と比較することができる。例えば、語彙112は、数字8、6、2、3にそれぞれ対応する学習ジェスチャ114a〜dを含む。
ジェスチャ運動のシーケンスなどの時間的シーケンスは、複数の隠れマルコフモデル(HMMs)を用いて認識することができる。認識を目的とするHMMsを用いることは、HMMsの群(例えば、語彙112のジェスチャと同数)を有することと、これらのジェスチャの学習サンプル群を用いて学習させることを含む。所与の入力ジェスチャについて、学習済みのモデルを採用して、所与の入力ジェスチャが、語彙の中の学習済みジェスチャの一つである尤度を生成することができる。
学習ジェスチャ114aなどの学習ジェスチャは、1以上のジェスチャ部分又は状態に分割することができる。例えば、数字「8」を、右上の始点118から下方の「8」の左下の部分に対応する第1のジェスチャ部分116aと、続く「8」の底部に対応する第2のジェスチャ部分116bと、続く「8の」右下から左上に対応する第3のジェスチャ部分116cと、続く「8」の頂部に対応する第4のジェスチャ部分116dとして表すことができる。
ジェスチャ部分は、ジェスチャ状態に対応することができる。隠れマルコフモデルは、状態と状態推移の群を含むことができる。ジェスチャ状態は、この例では、ジェスチャ部分116a〜dにそれぞれ対応する状態122a〜dを含む、トポロジー120を用いて表すことができる。
トポロジー120は、状態推移を表す。例えば、第1の状態122aは、ジェスチャ部分116aを実行した時に入力することができる。第2の状態は、矢印124aに示されるように、ジェスチャ部分116bを実行した時に入力することができる。
全体で語彙112をモデル化する隠れマルコフモデル群を用いて、学習ジェスチャ114a〜dごとに、尤度を決定することができる。この尤度は、入力ジェスチャ(例えば、ジェスチャ104、108など)が特定の学習ジェスチャ114a〜dに適合する尤度を示す。最大と判定された尤度を有する学習ジェスチャについて、適合した状態量を決定することができる。適合した状態量は、高い(又は最大)尤度を有すると判定された、モデル化された学習ジェスチャの対応する状態に適合する入力ジェスチャの状態量を表すことができる。
例えば、尤度を、学習ジェスチャ114a〜dの各々について、それぞれの学習ジェスチャが入力ジェスチャ104に適合する尤度を示すように決定することができる。この例では、学習ジェスチャ114a(例えば、数字「8」)が最大と判定された尤度を有する。表示部130aは、第1の入力ジェスチャ104が、学習ジェスチャ114aの第1の状態122aに適合することを示し、表示部130bは、第1の入力ジェスチャ104が、学習ジェスチャ114aの第2の状態122bに適合することを示し、表示部130cは、第1の入力ジェスチャ104が、学習ジェスチャ114aの第3の状態122cに適合しないことを示し、表示部130dは、第1の入力ジェスチャ104が、学習ジェスチャ114aの第4の状態122dに適合しないことを示している。
学習ジェスチャ114aの対応する状態に適合する入力ジェスチャ104の状態の数を示す、量130を決定することができる(例えば、この例では「2」)。決定された量130を閾値132と比較して、決定された量130が閾値132を満たさない場合は、入力ジェスチャ140を拒否することができる。この例で示すように、第1の入力ジェスチャ104は、学習ジェスチャ114aの二つの状態に適合しているが、閾値132を満たさないので、入力ジェスチャ104は語彙外であるとして拒否される。
尤度もまた、学習ジェスチャ114a〜dごとに、学習ジェスチャが入力ジェスチャ108を適合する尤度を示すように、決定することができる。この例でも、学習ジェスチャ114aが、最大と判定された尤度を有する。表示部140a〜cは、第2の入力ジェスチャ108が、学習ジェスチャ114aの最初の三つの状態122a〜cに適合することを示している。表示部140dは、第2のジェスチャ108が学習ジェスチャ114aの第4の状態122dに適合しないことを示している。
学習ジェスチャ114aの対応する状態に適合する入力ジェスチャ108の状態の数を示す、量150を決定することができる(例えば、この例では「3」)。決定された量150を閾値152と比較して、決定された量150が閾値152を満たす場合は、入力ジェスチャ140を受け入れることができる。この例で示すように、入力ジェスチャ108は、学習ジェスチャ114aの三つの状態に適合しており、閾値152を満たすので、入力ジェスチャ104は語彙内であるとして受け入れられる。
アプリケーションは、認識されたジェスチャに応じて制御することができる。例えば、学習ジェスチャ114aに適合するとして入力ジェスチャ108が認識されると、テーブル又はその他のデータ構造にアクセスをして、呼び出す機能又はコマンドを決定することができる。例えば、「ボブを呼び出す」(Call Bob)機能154が学習ジェスチャ114aにマッピングされると判断できて(例えば、ルックアップテーブルを用いて)、入力ジェスチャ108が学習ジェスチャ114aと受け入れ可能に適合していると認識された場合は、機能154を呼び出すことができる。
図2は、デバイス200のブロック図である。デバイス200は、携帯電話でもよく、及び/又は、パーソナルコンピュータ(PC)、又はゲームシステム、ラップトップ、ハンドヘルドコンピュータ又はタブレットコンピュータ、PDA(personal data assistant)の一部、又は、コンピュータのキーボード、リモコンなどのその他の種類の組み込みシステムでもよく、又は、それらを含んでもよい。また、デバイス200は、iPod(登録商標)デバイス、又はその他のポータブルミュージックプレーヤ、ビーパー又はその他の通信機器、又は、ゲーム、通信、時間管理、及び/又はデータ編成用の、手持ち可能な、又は携帯可能な電子機器であってもよい。いくつかの実施例では、デバイス200は、ユーザの身体に装着、又は、着用される。デバイス200は、動きセンサ202、プロセッサ204、媒体206、及びユーザインタフェース208を含む。
動きセンサ202は、デバイス200が動いた時を検出してもよく、動きの方向及び大きさを検出してもよい。動きセンサ202は、デバイス200の動き又は位置を検出又は検知するように構成された任意の種類の部品又は装置でよい。例えば、動きセンサ202は、1以上のカメラ、1以上のジャイロスコープ、1以上のGPS(global positioning system)トラッカー、又は、これら機器の組み合わせでもよい。動きセンサ202は、デバイス200の外部又は内部の様々な位置及び向きに配置されてもよい。
プロセッサ204は、ユーザインタフェース208からの入力を受けて、動きセンサ202によって得られたデータを分析する。プロセッサは、デバイス200で実行されているオペレーティングシステム、及びアプリケーションプログラムを実行することができる。デバイス200は、複数のプロセッサ(又は他の制御回路)を含んでもよく、さらに、アプリケーションプログラム、オペレーティングシステム、ユーザ入力プログラム、及び、アプリケーションプログラム、オペレーティングシステム及びユーザ入力プログラムが使用するデータを記憶したメモリ(又は他のコンピュータ可読記録媒体)を含んでもよい。
媒体206は、情報又はデータを記憶又は記録する。媒体206は、光記録媒体、磁気記録媒体、フラッシュメモリ、又はその他の種類の記録媒体でもよい。媒体206は、語彙210、学習モジュール212、ジェスチャ認識モジュール214、選択的起動モジュール216を含む。
語彙210は、デバイス200が認識してもよいジェスチャに関する情報を含む。例えば、語彙210は、認識されたジェスチャごとに、ジェスチャに含まれる軌道群又は動きの群を規定するジェスチャの定義を含んでもよい。他の例では、語彙210に含まれるジェスチャの定義は、ジェスチャの動きの境界、及び/又は、ジェスチャの動きのパターンを画定する点の群を含んでもよい。ジェスチャの定義は、また、隠れマルコフモデルを規定するための情報を含んでもよい。
学習モジュール212は、ユーザがジェスチャをカスタマイズすることを可能とする。例えば、ユーザは、ジェスチャの境界を画定する学習インタフェースを用いてジェスチャを繰り返し実行してもよい。学習インタフェースはまた、ユーザが手動でジェスチャの境界の大きさを整える、又は引き伸ばすことを可能としてもよい。
ジェスチャ認識モジュール214は、動きセンサ202から動きデータを受け取り、受け取った動きデータを、語彙210に保存された動きデータと比較して、認識可能なジェスチャが実行されたか否かを判断する。例えば、ジェスチャ認識モジュールは、隠れマルコフモデルを用いて、決定された適合した状態量を許容可能な閾値と比較することができる。
選択的起動モジュール216を用いて、語彙2190のジェスチャを選択的に起動及び起動解除する。ジェスチャは、ユーザごと、アプリケーションごと、及び/又は、デバイスごとに、起動又は起動解除することができる。例えば、大量のテキスト入力を用いるアプリケーション(例えば、電子メールエディター)の場合、「2」の文字ジェスチャと「Z」の文字のジェスチャが両方とも起動してもよい。テキスト入力をほとんど有していない、又は全く有していない、比較的少数のコマンドを有するアプリケーションでは、「2」又は「Z」の文字のジェスチャの一つを起動させるが、両方を起動させなくてもよい。類似の形状のジェスチャが同時に動作しない場合、ジェスチャ認識は、より有効又は正確となりうるからである。
図3〜12は、図13に記載する代表的な処理に基づいて受け入れる、又は拒否することができる、ジェスチャを入力するための代表的な処理及びデバイスを示す。図15に記載するデバイスを用いるなど、ジェスチャを入力するための他のアプローチを用いてもよいし、上述の処理、及び図13で説明する処理を用いて行ってもよい。
例えば、図3に、ジェスチャ認識に応じたデバイス機能の呼び出しを示す。ユーザ302は、デバイス304を用いて空中でZ形状のジェスチャを行う(すなわち、ユーザ302は、デバイス304を右方向に(読者の視点から見て)、続いて、左下方向に、その後、1回目の右方向と略平行に2回目の右方向に動かす)。音楽又はその他の再生音をデバイス304で再生している。デバイス304は、携帯電話、オーディオプレーヤ又はその他のデバイスでもよい。デバイス304は、ユーザ302の動きを(例えば、センサを用いて)検知し、検知した動きに対応するジェスチャを認識し、認識されたジェスチャに対応する機能を決定し、決定された機能を呼び出すことができる。
例えば、デバイス304は、ここでは一連のドットとして示される入力ジェスチャパターン306として、ユーザ302の動きを表してもよい。入力ジェスチャパターン306は、デバイス304に記憶された語彙に含まれるジェスチャ定義と比較することができる。例えば、テーブル308に、それぞれが文字「Z」、「O」、「P」、及び「Z」を表す、ジェスチャ310a〜dのジェスチャ定義を含む語彙を示す。より少ない、又はより多くのジェスチャ定義を規定してもよい。
語彙は、ジェスチャ定義に含まれる、あるいは、ジェスチャ定義と関連付けられる境界312a〜dなどの境界を含んでもよい。例えば、「Z」の文字のジェスチャ310aは、境界312aと関連付けられ、「O」の文字のジェスチャ310bは、境界312bと関連付けられ、「P」の文字のジェスチャ310cは、境界312cと関連付けられ、「2」の文字のジェスチャ310dは、境界312dと関連付けられてもよい。ユーザによって実行された動きが境界と比較されて、特定のジェスチャが実行されたか否かを判断されるように、この境界(又は、テンプレート)は、正規化された、又は標準化されたバージョンのジェスチャを画定してもよい。
境界を可視的な境界として示しても、各ジェスチャは、ジェスチャを規定する許容可能なベクトル、動き、又は加速の群、あるいは、ジェスチャを規定する隠れマルコフモデルの群として表されてもよい。さらに、ジェスチャの定義は、特定の動きが特定の方向に発生すること、又は、ジェスチャを構成する動きが特定のシーケンスで発生することを必須としてもよい。
ユーザによって実行されて入力されたジェスチャパターンは、語彙のジェスチャ定義の各々と比較され、入力されたジェスチャパターンが、一以上の語彙ジェスチャの境界の内部に含まれるか否かを判断してもよい。例えば、入力ジェスチャパターン306(すなわち、「Z」形状のパターン)を境界312a〜dの各々と比較してもよい。入力ジェスチャパターン306は、境界312bの「O」形状の内部、又は境界312cの「P」の形状の内部に適合しない。しかしながら、入力ジェスチャパターン306は、境界312aの「Z」の形状の内部、及び境界312dの「2」の形状の内部に適合することができる。ジェスチャ310a、310dは、したがって、候補ジェスチャとして識別される。さらに、比較は、入力ジェスチャパターンを1以上の隠れマルコフモデルに適応するようによって行ってもよい。
実行されたジェスチャが、1より多くの境界又は定義に合うことが予想されるので、語彙の個別のジェスチャは、競合を解消して演算コストを削減して、精度を向上するために、ユーザ又はアプリケーションによって使用不能(又は起動解除)としてもよい。このため、個別の語彙ジェスチャを、作動又は非作動とすることができる。例えば、テーブル308では、「Z」文字ジェスチャ310a、「0」文字ジェスチャ310b、及び「P」文字ジェスチャ310cを作動させて、「2」文字ジェスチャ310dを非作動として示している。
ジェスチャは、デバイスごとに、又はアプリケーションごとに起動又は起動解除してもよく、又は、エンドユーザ、製造者、及び/又は、アプリケーション開発者によって起動又は起動解除してもよい。ジェスチャの認識の効率性のため、類似のジェスチャ群では一つのジェスチャを作動し、同群の他のジェスチャは非作動としてもよい。例えば、「2」と「Z」の文字は、形状が類似しているため、関連するジェスチャは一つのみを作動する。この例では、候補ジェスチャ310a及び310dの一つのみを作動するので、ユーザ302の動きに応じて、「Z」の文字ジェスチャ310aが認識される。
デバイス機能はジェスチャにマッピングされ、ジェスチャが認識されると、ジェスチャの実行に応じて、マッピングされた機能が呼び出される。例えば、テーブル308では、「音量を上げる」機能314aが「Z」文字ジェスチャ310aにマッピングされ、「メールを読む」機能314bが「O」文字ジェスチャ310bにマッピングされ、「マッピングプログラム」機能314cが「P」文字ジェスチャ310cにマッピングされ、「特定の人間を呼び出す」機能314d(例えば、「ボブ」を呼び出す)が「2」文字ジェスチャ310dにマッピングされる。作動した「Z」文字ジェスチャを認識すると、「音量を上げる」機能が識別されて呼び出され、デバイス304で再生しているオーディオの音量が上がる。
上述のように、入力されたジェスチャパターンが語彙ジェスチャ定義によって画定された境界の内部にある場合に、ジェスチャは認識されることができる。他のアプローチを用いて、ジェスチャを認識してもよい。例えば、語彙ジェスチャを1以上の動きの方向記述の群として定義してもよい。例えば、「Z」文字ジェスチャ310aは、「右に水平に動く」、「下方向及び左方向に動く」、「第1の動きに対して平行に、右に水平に動く」として表(記述)してもよい。入力されたジェスチャの動きが語彙ジェスチャ定義によって定義された動きに適合する場合に、入力されたジェスチャを認識するようにしてもよい。ジェスチャ認識の他の例として、語彙ジェスチャを、格子の点の群の占有として定義し、入力されたジェスチャの動きが同一の点の群(又は点の群の所定の割合)を「交差」する場合に、入力されたジェスチャを認識するようにしてもよい。
デバイスを用いてジェスチャを行う際、壁、机、他の人間、又はその他の何らかの物理的な物体がユーザの動きの経路を遮断する場合などの、いくつかの状況では、ユーザは、ジェスチャを完了することを物理的に妨げられる場合がある。ユーザは、ジェスチャを途中で停止又は休止して部分的に完了し、デバイスを再び位置決めして(例えば、腕を再び位置決めするなど)、デバイスの動きを再開して、ジェスチャを完了してもよい。
ユーザは、デバイスのボタンを押す、デバイスを振る、又はデバイスを短い時間期間(例えば、1秒)静止して保持する、などの行動を実行してジェスチャの開始を希望することを示すことができる。図3に示すように、ジェスチャの第1の動きとして、ユーザはデバイスを第1の位置402から第2の位置404へ右方向に動かすことができる。ユーザは、下方向に動かしてジェスチャを連続したいが、物理的に妨げられる場合がある。ユーザは、デバイスを振る、デバイスを静止して保持する、又はデバイスのボタンを押すなどの行動を実行して、現在のジェスチャを休止することを示すことができる。デバイスが休止された状態で、ユーザがデバイスの位置を位置405から位置406へ再び位置決めしてもよい。ユーザは、デバイスを振る、デバイスを静止して保持する、デバイスのボタンを押すなどの、行動を実行して、ジェスチャを再開することを示すことができる。ユーザは、デバイスを位置406から位置408へ動かすことによって、ジェスチャを完了することができる。
ジェスチャの描写410a〜dは、位置402と408の間との間のデバイスの動きから認識される可能性のあるジェスチャを示す。ジェスチャの描写410aは、上述の水平の動きと垂直の動きを連続的なジェスチャに統合したことを示している。描写410bは、2つの不連続なジェスチャの認識であることを示す。描写410cは、最後のジェスチャのみが受け入れられるか、あるいは拒否され、前のジェスチャ(1回目の水平のジェスチャ)は削除、フィルタアウト、又は無視されるごとく、2回目の、垂直のジェスチャのみが認識されていることを示す。描写410dは、ジェスチャ開始境界が位置404で開始し、ジェスチャ停止境界が位置406で終了するように、位置404から位置406までの円弧の動きが認識されていることを示す。ユーザ又はアプリケーションは、これらの描写のうち何れが所望の描写であるかを判断してもよい。
図5は、ジェスチャの正規化を示す。ジェスチャ定義は、形状の正規化のために用いることができる高さ幅比を含んでもよい。例えば、「O」の文字のような形状のジェスチャについて、1対1(すなわち、1:1)の高さ幅比を記憶して、真円(perfect 円)である標準的な「O」形状を画定するように保存してもよいし、又は、1.2:1を記憶して、幅よりも僅かに高い標準的な「O」形状を画定してもよい。ジェスチャが認識されると、検出されたジェスチャの高さと幅を決定し、検出されたジェスチャの高さ幅比を算出し、ジェスチャ定義に記憶されている高さ幅比と比較することができる。算出された比率がジェスチャ定義に記憶された比率と異なる場合、検出されたジェスチャは、ジェスチャ定義に記憶された比率に縮尺を変更又は標準化することができる。
例えば、「O」形状502が「O」形状のジェスチャとして許容可能な境界を画定する。「O」形状502が1:1の標準化された高さ比を有する。ユーザは、高さ幅比2:1を有する高く痩せた「O」形状504、高さ幅比1:2を有する低く幅広の「O」形状506、高さ幅比2:2を有する大きな「O」形状508、など、1:1比でない「O」形状のジェスチャを実行してもよい。ユーザは、小さい「O」形状510などの1:1の比を有する「O」形状のジェスチャを実行してもよい。形状とは無関係に、形状504〜510の一つなどの「O」形状のジェスチャが認識された場合、検出された高さ幅比を標準化された形状502の高さ幅比と比較をして、比較した比率が異なる場合は、検出されたジェスチャの縮尺を変更してもよい。
ジェスチャを標準化するために用いる縮尺変更の量を用いて、呼び出す機能を決定してもよい。例えば、テーブル511に示すように、2:1比の512a(例えば、標準的なジェスチャと比較して)を有するジェスチャが認識された場合、「ボブを呼び出す」機能514が呼び出されるようにしてもよい。1:1比に対して2:1比は、50%の垂直縮尺変更で、0%水平縮尺変更とすることができる。他の例として、2:2比512bを有するジェスチャを実行したことが認識されると(50%の垂直縮尺変更で50%の水平縮尺変更となり)、「メールを読む」機能514bが呼び出されるようにしてもよい。2:2比512bは、2距離単位の高さと2距離単位の幅を有する寸法の動きを表し、50%垂直縮尺変更で、50%水平縮尺変更とした場合、1:1比の運動又はジェスチャとなる(すなわち、1距離単位の高さで1距離単位の幅)。
例を続けると、1:1比512c(縮尺変更していない)のジェスチャを実行したことが認識されると、「電源をオフにする」機能514cが呼び出されるようにしてもよい。最後の例では、1:2比512dを有するジェスチャの実行が認識されると(50%水平の縮尺変更、0%垂直の縮尺変更となり)、「音量を下げる」機能514dが呼び出されるようにしてもよい。
縮尺変更の量又は比率もまた、呼び出す機能の入力パラメータとして用いることができる。例えば、「O」ジェスチャが認識された場合に、「RUN PROGRAM
Y」(プログラムY作動)516などの特定の機能が呼び出されるようにデバイスを構成してもよい。機能(例えば、「RUN PROGRAM
Y」機能516)は、機能が入力として用いることができる、1以上のパラメータを受け付けてもよい。この例では、「Variable_X」(変数_X)と呼ばれる一つのパラメータ518が機能516の入力として使用される。
パラメータ518の値は、検出された認識されたジェスチャの比によって決定してもよい。例えば、テーブル519によって図示されるように、2:1の比520aのジェスチャが認識された場合、パラメータ518が「変数 A」522aの値をとるようにしてもよい。他の例では、2:2の比520bのジェスチャが認識された場合、パラメータ518が「変数 B」522bの値をとるようにしてもよい。この例で続けると、1:1の比520cのジェスチャが認識された場合、パラメータ518が「変数 C」522cの値をとるようにしてもよい。最後の例では、1:2の比520dのジェスチャが認識された場合、パラメータ518が「変数 D」522dの値をとるようにしてもよい。総括すると、呼び出す機能に付与したパラメータ値(例えば、入力値)が、実行されたジェスチャから検出された高さ幅比によってが決定されるようにして、ジェスチャの実行に応じて特定の機能を実行するように、ジェスチャを構成することができる。
入力されたジェスチャの特徴に基づいて複数のパラメータ値を決定してもよい。例えば、ジェスチャは、ジェスチャの実行に応じてADJUST−AUDIO機能524を呼び出すように構成してもよい。ADJUST−AUDIO機能524は、オーディオのトレブル設定の調整に影響を与えるために用いることができるパラメータ526と、オーディオのベース設定の調整に影響を与えるために用いることができるパラメータ528と、を受け付けるようにしてもよい。
パラメータ526と528の値は、入力されたジェスチャから検出された高さ幅比によって決定することができる。例えば、テーブル529に示されるように、2:1比530aを有するジェスチャが検出された場合、「100%」532aの値をパラメータ526の値として、「0%」534aの値をパラメータ528の値として用いてもよい。換言すると、検出された入力ジェスチャが標準的なジェスチャの2倍の高さである場合、トレブル設定を100%増加させ(すなわち、2倍)、検出された入力ジェスチャが標準的なジェスチャと同様の幅である場合は、ベース設定を変更しないで維持する(すなわち、0%増加)ようにしてもよい。
他の例では、2:2比530bのジェスチャが検出された場合、「100%」532bの値をパラメータ526の値として用い、「100%」534bの値をパラメータ528の値として用いてもよい(すなわち、入力ジェスチャが標準的なジェスチャの高さと幅の2倍である場合、トレブル設定とベース設定の両方を2倍(100%増加)とする)。最後の例では、1:2比530cのジェスチャが検出された場合、「0%」532cの値をパラメータ526の値(トレブル設定に変化がないことを示す)として用い、「100%」534cの値(ベース設定を倍とすることを示す)をパラメータ528の値として用いてもよい。
図6に、ジェスチャ学習を示す。ジェスチャ描写602a〜hは、1以上のユーザが「Z」形状のジェスチャを繰り返し実行することにょって得られた様々な学習ジェスチャ入力を示す。ジェスチャ描写602a〜hは各々、それぞれのジェスチャを実行した際のユーザの動きを表すドット群として示されている。ジェスチャ描写602a〜hはそれぞれ重ね合わされて、Z文字の形状604の境界を形成する(すなわち、一旦Z文字の形状604が画成された後、ユーザの動きがZ文字の形状604の境界の内部に存在すると、Z文字ジェスチャが認識されるようになる)。
デバイスは、一連の規定されたジェスチャを含む既存の語彙606を含んでもよい。Z文字の形状604を既存の語彙606に組み込み、以後、ユーザによって実行されるZ形状のジェスチャは認識されるようにしてもよい。ジェスチャは、製造者、及び/又はユーザによって規定されてもよい。製造者は、1以上の試験ユーザを用いて、デバイスに学習をさせ、文字、又は、デバイスの規定の語彙に含まれるその他の形状の認識可能な境界を形成してもよい。ユーザは、カスタムのジェスチャをデバイスの語彙に追加し、デバイスに学習をさせて、ジェスチャを実行する際に用いる、ユーザ別の動きを認識するようにしてもよい。
図7に、無意識(subconsicous)のジェスチャを示す。例えば、腕時計装置704を装着したユーザ702は、人間「ボブ」706と握手する。腕時計装置704は、密接に繋がった上下運動群として規定される、握手ジェスチャ708を認識する。握手ジェスチャ708を認識すると、腕時計装置704は録音装置を起動し、握手ジェスチャ708を検出してから短い時間(例えば、2秒)の録音を開始する。例えば、腕時計装置704は、人間ボブ706によって発話された「今日は。私の名前はボブです。」710という短い音声を録音する。後で、ユーザ702は、録音した音声を腕時計装置704のスピーカ712を介するなどして再生してもよい。
テーブル714は、無意識のジェスチャと、無意識のジェスチャの実行を認識することによって呼び出される付随機器の機能の他の例を説明する。例えば、息苦しいジェスチャ認識すると、911緊急電話呼び出し(例えば、緊急電話装置によって)を行ってもよい。他の例では、ユーザの神経過敏が認識されると、心の和む音楽を再生する、又は、ユーザに娯楽性のビデオゲームを行うように促してもよい。さらに他の例では、緊急電話装置が、「電話を耳に」するジェスチャを検出すると、タイマーを開始してもよい。デバイスは、腕時計装置、携帯電話、又はその他の携帯可能なデバイスでよく、装着可能なアイテムに内蔵する、又は装着可能なアイテムであってもよい。
図8に、代表的なジェスチャ語彙800を示す。例えば、語彙800は、代表的なジェスチャ描写820a〜0を含む。ジェスチャは、アルファベット(例えば、802a、802d)、又は数字(802c)、又はその他の種類の記号でもよい。例えば、ジェスチャは、波形、又は螺旋形の線(例えば、802g、802j)であってもよい。ジェスチャは、実世界のアイテムを表す記号(例えば、描写802eは手紙を表し、描写802mは八角形又は停止標識を表す)であってもよい。
他の図示の例では、ジェスチャは、略線形(例えば、802n)、又は多角形(例えば、802d、802m)であってもよい。ジェスチャは、連結した動きで形成されてもよく、又は、ジェスチャは非連続の動き又は軌道を含んでもよい(例えば、802h)。ジェスチャは、連続した動きで形成されてもよく、又は、不連続な動き(例えば、802k、又は、文字「T」を表すジェスチャ(図示していない))を含んでもよい。ジェスチャは、交差する線(例えば、802e、802L)を含んでもよい。他の代表的なジェスチャは、三次元のジェスチャ(例えば、802o)、握手から形成される密接した動きからなるジェスチャ(例えば、802i)なども可能である。
ジェスチャは、Unistrokes、Quikwriting、及びGraffitiなどの手書き認識技術で用いられる文字を表してもよい。手書き認識技術は、ユーザが一筆書きで文字を書くことを可能とする文字定義を含む。例えば、描写802bは、Graffitiで文字「T」を表し、描写802fは、Unistrokesで文字「F」を表す。ジェスチャはまた、単語を表してもよい。例えば、描写802Lは、Quikwritingで単語「the」を表す。
図9は、ジェスチャの認識に応じて機能の呼び出しに影響を与える、コンピュータにより実施される処理900を説明するフローチャートである。簡潔には、コンピュータにより実施される処理900は、デバイスの動きを検知することと、デバイスの検知された動きに対応するジェスチャを認識することと、認識されたジェスチャに対応するデバイスの機能を決定することと、決定された機能を呼び出すことを含む。
より詳細には、処理900が開始すると(S901)、デバイスの動きが検知される(S902)。例えば、センサがデバイスの動きを検出してもよい。かかるセンサは、デバイスの動き又は位置を検出又は検知するように構成された、いかなる種類の部品又は装置であってよい。例えば、センサは、1以上の内蔵カメラ、1以上のジャイロスコープ、1以上のGPS(global positioning system)トラッカーでもよい。デバイスは、これらのデバイスの何れか、あるいは、これらのデバイスの組み合わせを装備してもよい。
プロセッサは、センサからの入力に基づいてデバイスの動きを検出してもよい。例えば、デバイスがカメラを含む実施例では、プロセッサは、カメラによって撮像された画像のシーケンス、又は一連の画像を分析して、モバイル機器の動きを検出してもよい。この例では、プロセッサは、カメラによって撮像された画像にオプティカルフロー処理を実施して、デバイスの動きを検出してもよい。デバイスがジャイロスコープを含む実施例では、プロセッサは、ジャイロスコープからのデータを分析してデバイスの動きを検出してもよい。これらの実施例では、動きの軌跡が、ジャイロスコープにより生成される動きベクトルを介して、プロセッサにより検出されるようにしてもよい。デバイスがGPSトラッカー又は受信機を含む実施例では、プロセッサは、デバイスの動きをGPSトラッカー又は受信機によって提供されるデータを分析することによって検出してもよい。これらの実施例では、プロセッサは、動いている間、デバイスの相対的な位置を記録して分析することによって動きベクトルを決定してもよい。
いくつかの実施例では、デバイスは、オンセット又はオフセットのいずれかの、無線位置追跡ツールなどの位置検出/追跡装置を装備してもよい。デバイスの固有の動きに従って固有の軌跡を提示するデバイス又は装置を用いて、デバイスの動きを検知してもよい。例えば、プロセッサによって検出された動きは、デバイスの動きの検出された軌跡又はパターンであってもよい。
デバイスの検出された動きに応じて、検知されたデバイスの動きに対応するジェスチャが認識される(S904)。プロセッサは、ジェスチャの語彙にアクセスすることができる。例えば、プロセッサは、デバイスに関連する電子的ストレージからジェスチャの語彙を規定するデータにアクセスしてもよい。軌道群を語彙として定義してもよい。これらのジェスチャは、デバイスを空中で動かして、意図する軌跡を描くことによって実行することができる。動きの意図する軌跡又はパターンは、上述のようにプロセッサによって検出してもよい。ジェスチャの語彙は、デバイスによって認識されたジェスチャに対応する、デバイスの動きを規定するデータを含んでもよい。
プロセッサは、デバイスの検出された動き、及びアクセスした動きのデータに基づいてジェスチャを決定してもよい。例えば、複数の処理を用いて、媒体又はセンサから受け取った入力を処理して、手のジェスチャ、特に、手書きの軌道を認識してもよい。いくつかの実施例では、点マッチングルーチン処理、隠れマルコフモデル処理、及びその他のパターン認識の処理を用いて、ジェスチャの語彙に規定されたジェスチャを認識してもよい。
ジェスチャを決定する際、プロセッサはまた、語彙に規定されていないジェスチャは拒否するようにしてもよい。プロセッサが、ユーザ入力コマンドとして意図された動きから、ユーザ入力コマンドを意図していない動きを区別できるため、ジェスチャを拒否することは重要でありうる。ジェスチャを拒否することは、隠れマルコフモデル(HMMs)に基づいて行ってもよい。例えば、手ジェスチャを認識するためのHMMに基づく拒否方法を用いて、任意の動きを拒否してもよい。
いくつかの実施例では、プロセッサは、検出されたデバイスの動きと、ジェスチャの語彙に含まれる動きデータとを比較してもよい。プロセッサが適合しているものを発見した場合、プロセッサは、デバイスの動きを、適合した動きデータに関連するジェスチャに対応させるように判断する。プロセッサが適合しているものを発見しない場合、プロセッサは、適合しているものを発見する、又は、プロセッサが、検出された動きはジェスチャの何れにも適合しないと判定するまで、継続してデバイスの検出された動きを、ジェスチャの語彙の他のジェスチャに関連する動きデータと比較する。プロセッサは、検出された動きデータとジェスチャの語彙に含まれる動きデータとを比較する前に、検出された動きデータを処理してもよい。
あるいは、未知のジェスチャを、語彙のモデルの全てと比較して、最も適合する可能性のある一つの候補ジェスチャを選択してもよい。拒否アプローチは、最大尤度のみを発見することにより生じうるミスマッチを回避するために開発された。
一般的に、ジェスチャは、考え、意見、感情、コミュニケーション、コマンド、実演又は表現を表す、動き、位置、ポーズ、又は、姿勢を意味する。ユーザは、手持ち可能なデバイスを保持しながら、ジェスチャを行ってもよく、ユーザは、身体の一部にデバイスを装着して、身体の一以上の部分を用いてジェスチャを行ってもよい。例えば、ユーザのジェスチャは、一つ又は複数の指のジェスチャでもよく、一つの手のジェスチャでもよく、一つの手又は腕のジェスチャでもよく、一つの手及び腕、及び身体のジェスチャでもよく、両手のジェスチャでもよく、頭のポーズ又は姿勢、目の位置、顔の表情、身体のポーズ又は姿勢、又はその他の表現可能な身体の状態でもよい。
ユーザのジェスチャは、使用可能又は「契約(engagement)」ジェスチャを表してもよい。契約ジェスチャは、所定の時間維持された手のポーズ又は手の動きシーケンスで表現されるジェスチャであってもよい。一つの代表的な契約ジェスチャは、ユーザが手持ち可能なデバイスを3秒間固定して保持することである。他の例は、ユーザが手持ち可能なデバイスを保持しながら、顔の前に腕を伸ばし、腕で頭の前方に円を描くことによる、円形の手の動きである。他の例として、契約ジェスチャは、ユーザがデバイスを振ることでもよい。基本的に契約ジェスチャは、デバイスに、ユーザがさらなる入力を行う準備があることを明確にすることである。誤りを低減するため、契約ジェスチャは、通常の会話の際にボディランゲージによって無意識に行うことのないジェスチャ、通常の人間の行動を普通に実行する際に行いえないジェスチャなどの非定形のジェスチャがよい。
ユーザの考え、意見、感情、コミュニケーション、コマンド、実演又は表現を規定するジェスチャを導き出してもよい。例えば、ユーザのジェスチャは、一つ又は複数の指のジェスチャでもよく、一つの手のジェスチャでもよく、一つの手又は腕のジェスチャでもよく、一つの手及び腕、及び身体のジェスチャでもよく、両手のジェスチャでもよく、頭のポーズ又は姿勢の変化、目の位置の変化、顔の表情の変化、デバイスを保持しながらの手の動き、身体のポーズ又は姿勢の変化、又はその他の表現可能な身体の状態の変化でもよい。
簡潔には、関連するジェスチャを実行するために用いる身体の一部又は複数の部分を、広く「コントロールオブジェクト」と呼ぶ。例えば、ユーザが全身、又は他の物理的な物体を用いてコマンドを表現してもよい。この場合、全身又は他の物理的な物体をコントロールオブジェクトとすることができる。ユーザは、目を瞬かせる、小鼻をふくらませる、指を小刻みに動かすことによってより微妙にコマンドを表現してもよい。この場合、瞼、鼻、又は指をコントロールオブジェクトとすることができる。コントロールオブジェクトはまた、いくつか例を挙げると、赤外線フィンガーライト、モバイル機器、腕時計装置、再帰反射器、又はリモコンなどの物理的デバイスでもよい。
動きデータからユーザのジェスチャを判断するための多くの方法がある。例えば、「空に円を描く」又は「手で一方の側にスワイプする」ジェスチャを、ジェスチャ分析及び検出処理によって、手、腕、身体、頭、又は他のオブジェクトの位置情報を用いて検出してもよい。ジェスチャは、スワイプジェスチャを行った時など、2次元又は3次元の位置の変位を含んでもよいが、他の例では、ジェスチャは、付随する位置の変位のない変形を含む。例えば、5本の指を伸ばし、掌を前にして手が「停止」の合図をしている際に、掌を前にしたまま5本の全ての指を丸める場合、手又は腕の全体の位置は静止しているとしても、ユーザのジェスチャは変化する。
ジェスチャは、手又はデバイスの位置情報が明示的なルール群に合格しているか否かを判断するなどの、発見的方法を用いて検出してもよい。例えば、「手で一方の側にスワイプする」ジェスチャは、次のジェスチャ検出ルールを満たしている場合に識別されるようにしてもよい。(1)所定の限度を下回る時間にわたって、水平位置の変化が所定の距離を上回る、(2)水平位置の変化がその時間期間にわたって単調である、(3)垂直位置の変化がその時間期間にわたって所定の距離を下回る、及び(4)その時間期間の終了時の位置が、時間期間の開始時の位置よりも、手検出領域境界に近い、又は、境界にある。
いくつかのジェスチャは、あるルール群を満たすと、システムは、異なるルール群が適用される状態に変化することになる明確な順番で実行され、満たされる複数のルール群を用いる。システムは、隠れマルコフモデルを用いる場合などでは、これらのモデルは特定の動きの連鎖を検出させるが、動きがジェスチャに十分に適合する全体的な確率も考慮するので、微妙なジェスチャを検出することができなくてもよい。
複雑なコマンドの入力を可能とし、入力のオプションの数を増加させるために、ユーザのジェスチャを認識する処理はさらに、第1の方向の第1の変位を認識することと、第2の方向の第2の変位を認識することと、これら複数の変位を一つのジェスチャとして統合することと、を含んでもよい。さらに、ユーザのジェスチャの認識は、ユーザのジェスチャの大きさと方向を判断してもよい。
ジェスチャの認識に応じて、認識されたジェスチャに対応するデバイスの機能が決定される(S906)。例えば、プロセッサは、認識されたジェスチャに関連付けられた機能データにアクセスしてもよい。例えば、プロセッサは、デバイスに関連する電子的ストレージから、決定されたジェスチャに関連付けられた機能データにアクセスしてもよい。この例では、決定されたジェスチャに関連付けられた機能データは、ジェスチャの語彙に保存されてもよい。例えば、ジェスチャの語彙が、認識されたジェスチャを特定の機能又はユーザ入力コマンドと関連付ける、又は対応付けるデータを含んでもよい。ジェスチャの語彙は、各ジェスチャをデバイスの機能に割り当てるように規定してもよい。例えば、空中にZを描くジェスチャを、緊急電話装置の「ボイスメールボックスを開く」機能に割り当てる、円を描くジェスチャを「リダイアル」機能に割り当てる、半円を描くジェスチャを、デバイスのディスプレイに表示された画像又はアイコンを回転する「回転」機能に割り当てる、などしてもよい。
機能を決定した後、その機能を呼び出し(S908)、処理900を終了する(S910)。例えば、プロセッサは、決定された機能を実行する命令を実行してもよい。デバイスによって実行された機能は、ボイスメールの受信箱を開く、特定の電話番号をダイアルする、デバイスに関連するディスプレイに表示された画像を回転する、デバイスに関連するディスプレイに表示されたアイコン又はオブジェクトを移動する、などでよい。
図10に、ジェスチャ学習の環境1000を示す。ユーザ1002は、学習ジェスチャを実行し、この例では、デバイス1004を動かして円形の動きをさせる。ユーザ1002は、デバイス1004を所有者の用途のためにカスタマイズするデバイス1004のエンドユーザ(すなわち、消費者)であってもよく、又は、ユーザ1002は、デバイス1004を、デバイス1004の開発の一部として、及び/又は、製造者の設計の一部として、学習させる、試験ユーザであってもよい。
コンピューティングデバイス1008のディスプレイ1007に示されるユーザインタフェース1006は、前回実行されたジェスチャの描写1010(ここでは一連のドットとして示す)とともに実行したジェスチャの描写を表示する。ユーザ1002は、ボタン1011を選択して、他の学習ジェスチャを入力してもよい。ユーザ1002は、所望の数の学習ジェスチャを入力してもよい。ユーザ1002は、繰り返し、学習ジェスチャを実行し、コンピューティングデバイス1008は、境界1012を入力されたジェスチャの描写1010の周りに設ける。境界1012は動きの領域を画成し、領域は一旦画成されると、規定されたジェスチャを認識するために続くユーザの動きと比較される。ユーザ1002は、1以上のサイズ変更ハンドル1014a〜dを(例えば、選択してドラッグして)動かして、境界1012を(例えば、サイズ、位置、向きなどを変化させて)再画成してもよい。
ユーザ1002は、ボタン1016を選択して、直前に入力された学習ジェスチャに関連付けられた情報を削除してもよい。ユーザ1002は、ボタン1018を選択して、受け入れた入力によってモデル化されたジェスチャ定義を受け入れてもよい。最新のジェスチャ定義の生成をキャンセルるために用いられるボタン(図示していない)などの他のユーザインタフェース要素を示してもよい。
ユーザインタフェース1006を用いて、複数のジェスチャをモデル化してもよい。ユーザインタフェース1006を用いて、新たなジェスチャ定義を規定してもよく、及び/又は、既存の、又は予め規定されたジェスチャ定義を調整又は再画成してもよい。例えば、消費者ユーザは、ユーザインタフェース1006を用いて、予め規定されたジェスチャの境界を拡大してもよい。
コンピューティングデバイス1008は、デスクトップパーソナルコンピュータ、ラップトップコンピュータ、携帯電話、PDA(personal digital assistant)、ゲーム機器、又は、ディスプレイを有するその他のデバイスでもよい。デバイス1004は、1以上の有線又は無線のネットワーク、及び/又は、接続を介して、コンピューティングデバイス1008と通信してもよい。いくつかの実施例では、デバイス1004及びコンピューティングデバイス1008は、同一のデバイスであっってもよい(すなわち、ユーザは、デバイス1004を用いて学習ジェスチャを実行し、デバイス1004に表示されたユーザインタフェース1006と相互連動してもよい)。
図11に、ジェスチャの構成設定のための環境1100を示す。環境1100は、ユーザインタフェース1101を含む。ユーザインタフェース1101は、例えば、ジェスチャが学習された後に、表示するようにしてもよい。ユーザインタフェース1101は、エンドユーザ(例えば、消費者)によって開始(launch)してもよいし、あるいは、製造者又はアプリケーション開発者の代わりに作業する試験ユーザによって開始してもよい。
ユーザインタフェース1101は、コンピューティングデバイス1103のディスプレイ1102に示してもよい。コンピューティングデバイス1103は、デスクトップパーソナルコンピュータ、ラップトップコンピュータ、携帯電話、PDA(personal digital assistant)、ゲーム機、又はディスプレイを有するその他のデバイスでもよい。コンピューティングデバイス1103は、1以上の有線又は無線のネットワーク、及び/又は、接続を介して、モバイル機器1104と通信してもよい。いくつかの実施例では、モバイル機器1104とコンピューティングデバイス1103は同一のデバイスでもよい。
ジェスチャ名1105は、ユーザインタフェース1101を用いて、入力、及び/又は、編集してもよい。ユーザは、1以上のサイズ変更ハンドル1107a〜dをドラッグ、及び移動させて、ジェスチャの境界1106を調整してもよい。ユーザインタフェース1101を用いて機能をジェスチャに割り当ててもよい。チェックボックス1108を用いて、割り当てられた機能が大きさに依存することを示してもよい。
例えば、ジェスチャは、2:1の幅比1110aを有するジェスチャを実行した場合(すなわち、実行されたジェスチャの幅が規定された標準的なジェスチャの幅の2倍)、「メールボックスAを開く」機能1112aが呼び出されるようにしてもよい。さらに、次の代表的な構成設定を設けてもよい。1)1:1の幅比1110bを有するジェスチャを実行した場合、「メールボックスBを開く」機能1112bを呼び出すようにしてもよい。2)3:1の高さ比1110cを有するジェスチャを実行した場合、「アプリケーションをマッピングする」機能1112cを呼び出すようにしてもよい。3)4:1の高さ比1110dを有するジェスチャを実行した場合、「ボブを呼び出す」機能1112dを呼び出すようにしてもよい。デフォルト値1114を定義して、規定された標準的なジェスチャと比較して1:1の幅対高さ比を有するジェスチャを実行した場合、デフォルトの「電源をオフにする」機能1116を呼び出すようにしてもよい。
ジェスチャ構成設定の一例として、ユーザ1118がモバイル機器1104を用いて「高く痩せた」長円形のジェスチャ1120を実行した場合、モバイル機器1104は、ジェスチャ1120を認識し、認識されたジェスチャ1120の高さと規定された標準的なジェスチャの高さとを比較して、高さ比4:1と判断してもよい。モバイル機器1104は、機能1112d(「ボブを呼び出す」)を4:1の高さ比1110dに割り当て、ジェスチャ1120を認識すると、「ボブを呼び出す」機能1112dを呼び出すようにしてもよい。
他のジェスチャ構成設定を設けてもよい。例えば、機能の割り当てをジェスチャの高さ及び幅以外の要因に依存するようにしてもよい。例えば、機能割り当てをジェスチャの速度に依存させてもよい(例えば、第1の機能をゆっくりと実行されたジェスチャに応じて呼び出すように設定し、第2の機能を、そのジェスチャをより早く実行した場合に呼び出されるように設定してもよい)。
図12に、選択的なジェスチャ起動のためのユーザインタフェース1200を示す。ユーザインタフェース1200を用いて、デバイスの語彙に含まれたジェスチャを選択的に起動又は起動解除してもよい。例えば、デバイスの語彙1202は、文字「O」、「P」、「D」、「R」、「Q」、「F」をそれぞれが表す、ジェスチャ1204a〜fを含む。ジェスチャ1204a〜fは、アプリケーションごとに選択的に使用可能又は起動されるようしてもよい。例えば、ジェスチャ1204aと1204bは、アプリケーションをマッピングする1205を使用可能にし、ジェスチャ1204c、1204d、1204e、1204fは、アプリケーションをマッピングする1205を使用不可にする(すなわち、起動解除する)。
アプリケーションをマッピングする1205などの、いくつかのアプリケーションについて、類似した形状のジェスチャ群の一つのジェスチャを使用可能とし、同群の他のジェスチャを使用不可として、ジェスチャを解釈又は認識する際に、混乱が生じることのないようにしてもよい。例えば、ジェスチャ1204cと1204e(それぞれ「D」と「Q」の形状)を、ジェスチャ1204aの「O」形状の形状に類似しているために使用不可としてもよい。同様に、ジェスチャ1204dと1203f(それぞれ「R」と「F」の形状)を、ジェスチャ1204bの「P」の形状と類似しているために使用不可としてもよい。他の例として、ジェスチャ1204a〜fの全てを、電子メールエディターのアプリケーション1208、及びウェブブラウザのアプリケーション1210について使用可能とする。これらのアプリケーション1208と1210については、ユーザはがテキストを入力する(例えば、電子メールメッセージの本文、ウェブサイトのアドレス)ことが必要となり、どの文字ジェスチャも使用可能とすることが望まれうるためである。ジェスチャの起動及び起動解除はまた、製造者の設定、あるいは、文字間の過去の混乱に基づいて行うことができる。
図13は、決定された尤度と、決定された適合した状態量に基づいて入力ジェスチャを拒否するコンピュータにより実施される処理1300を説明するフローチャートである。簡潔には、入力ジェスチャを、コンピュータにより実施される処理1300は、学習ジェスチャの語彙を総合的にモデル化する隠れマルコフモデルに適用することに基づいて、入力ジェスチャが各々の学習ジェスチャに適合する尤度を決定することと、最大の尤度を有すると判断されたモデル化された学習ジェスチャの対応する状態に適合する入力ジェスチャの状態量を決定することと、決定された量が閾値を満たしていない場合は入力ジェスチャを拒否することと、を含む。
より詳細には、処理1300が開始すると(S1301)、入力ジェスチャが学習ジェスチャ群の各々と適合する尤度を、学習ジェスチャの語彙を総合的にモデル化する隠れマルコフモデルに入力ジェスチャを適用することに基づいて、決定する(S1302)。
例えば、個々の隠れマルコフモデルを、学習ジェスチャ群のジェスチャごとに割り当ててもよい。ジェスチャのサイズは、学習フェーズ及び認識フェーズ時に、水平及び垂直の両方についてサンプルごとの平均及び標準偏差を用いて、標準化してもよい。HMMsを学習することによって、各モデルのパラメータを抽出してもよい。
λ=(A、B、π)は、i番目のジェスチャに割り当てられた代表的な隠れマルコフモデルλを意味する。πはセッション開始時(例えば、i=1)の特定の状態の確率のベクトルを表す。Aは、状態推移マトリクスを表し、Bは、特定の状態の確率と、記号を観察している確率が与えられた場合の観察マトリクスを表す。V={v、v、・・・、v}は、可能な観察記号群を表す。したがって、学習ジェスチャ群のジェスチャのサンプルは、観察記号のシーケンスによって表すことができる。
適当な信頼レベルを生成するため、状態変化のシーケンスを抽出してもよい。HMMの各々が、ジェスチャのサンプルkを学習するためのN個(Nは2以上)の状態を有する場合、状態シーケンスは、式(1)及び(2)に従って、ビタビ処理を用いて抽出してもよい。
g、k={SO1、SO2、・・・、SOP} (1)
g、k={Og、k、1、Og、k、2、・・・、Og、k、p} (2)
ここで、gは1以上G以下である。
式2において、Og、k、jは、ジェスチャgのk番目の学習サンプルにおいてj番目に観測された記号を表す。式(1)では、簡潔のためにgとkは省略している。
HMMsは、状態を去る時に、所与のシーケンスの残りの処理においてその状態に戻る方法はないように定義してもよい。これらの実施例では、その状態に費やした時間とは無関係に、各状態が所与の観察記号のシーケンスについて適合することができる。また、以下の式(3)に反映させて、Φを学習サンプル群として定義してもよい。
Φ={Ω、Ω、・・・、Ω} (3)
式(3)において、Gは、語彙の中の単語(例えば、ジェスチャ)の数を表す(例えば、図1を参照して説明した例では、G=4)。
Ω={Og、1、Og、2、・・・、Og、R} (4)
式(4)は、ジェスチャgに関する全ての学習サンプルの群を表す。関数fを、観察マトリクスBの要素に基づいて定義してもよい。
B={B、B、・・・、B} (5)
δg、n、r=f(Bg、n(Og、r)) (6)
式(6)において、(Bg、n(Og、r))は、学習サンプルの状態nのジェスチャgの観察マトリクスBの要素群を表す。学習サンプルは、その状態における所与の観察群Og、rのr番目である。関数fは、上述の群のメディアン又は他の機能性(functionality)を表す。関数fの他の定義は、平均値、最小値、最大値などを含んでもよい。したがって、関数fをメディアンとして定義した実施例では、δg、n、rは、Bg、n(Og、r)によって示される群の要素のメディアンとなる。第2の関数hを、語彙の所与の単語(例えば、ジェスチャ)に関するδ群について定義してもよい。
Δg、n={δg、n、1、δg、n、2、・・・、δg、n、R} (7)
τg、n=h(Δg、n) (8)
式(7)において、Rは、ジェスチャRに関する学習サンプルの数であり、式(8)のhは、所与の群の最小値として定義される。hの他の定義を用いてもよい。これらの定義では、τg、nは、このジェスチャの学習サンプル群を用いて抽出した、状態nのジェスチャgの観察マトリクスBの要素のメディアンの数を表す。HMMが各々N個の状態を有する場合、以下のようになる。
={τg、1、τg、2、・・・、τg、N} Nは2以上 (9)
式(9)で定義した群は、一つのHMMを定義するパラメータの一部でもよい。
Ψ={A、B、π、T} (10)
したがって、所与の入力ジェスチャについて、学習済みのHMMsを採用して、所与のジェスチャが語彙の学習済み単語の一つである尤度を生成する。最大の尤度を生成するHMMをベストマッチとして選択する。学習済み隠れマルコフモデル群を与えた場合、入力ジェスチャを表すデータを、全てのモデルに提供し、実行したジェスチャ又は動きが学習済みのモデルの何れかに適合する尤度を、ビタビ処理を用いて算出することができる。最大の確率を生成するモデルを、所与のジェスチャについて適合する可能性の最も高い候補とする。このモデルを選択して所与のジェスチャを評価し、このジェスチャが、どの程度の信頼性をもって選択したモデルによって表されるジェスチャと同一として判断されうるかを評価してもよい。
処理1300を続けると、最大の尤度を有すると判断されたモデル化された学習ジェスチャの対応する状態に適合する入力ジェスチャの状態量を決定する(S1304)。
選択されたHMMの状態変化群を抽出することができる(式(11)を参照)。
Σ= {σ、σ、・・・} (11)
δ=f(Bg、n(O)) (12)
式(12)において、Bg、n(O)は、所与の観察群Oの状態nの観察マトリクスBgの要素群を表す。観察マトリクスBgはその状態にある。関数fは、式(6)と同様の機能性(functionality)を有してもよい。状態ごとに抽出した値が与えられているとすると、所与のシーケンス(例えば、ジェスチャ)が発見されたHMMで合格した状態の数をカウントすることができる。状態の数は、以下に定義する式を用いてカウントすることができる。
Figure 0005406188
(13)
xが0以上の場合、z(x)=1
それ以外の場合、 z(x)=0 (14)
d(x、y)=x―y+ε εは−1以上1以下 (15)
式(13)において、zは式(14)で定義される単位ステップ関数であり、式(15)でεは調整可能な値として定義される。ε=0とした場合、cは、所用のジェスチャについて抽出したメディアンが、選択したモデルの学習サンプル群について抽出されたメディアンの最小値以上である状態の数として解釈することができる。式(13)は、それらのシーケンスとは無関係に状態をカウントする。
他の実施例では、我々は以下の代替の定義を有してもよい。
=z(d(δu、n、τg、n))・qn−1、 q=1 (16)
Figure 0005406188
(17)
式(17)は、HMMによって定義された正しい順番で状態の数をカウントする。
処理1300を続けると、決定された量が閾値を満たさない場合に入力ジェスチャは拒否され(S1306)、処理1300は終了する(S1308)。例えば、状態の数に基づいて、所与のジェスチャが式(13)及び式(17)のc又はc’を超えると、発見されたモデルが所与の入力ジェスチャに信頼性をもって、又は正確に適合するかについて判定を行うことができる。閾値は、対応する状態の総量の百分率又は量として表してもよい。閾値は、製造者又はアプリケーション開発者などにより、設定可能としてもよい。
いくつかの実施例では、二つの調整可能な変数εと許容可能な量c又はc’の値は、処理に、ジェスチャが語彙の最も確からしい学習済みジェスチャの全ての部分とどれだけ近く適合するかに基づいて、ジェスチャを受け入れるか拒否するかの柔軟性を与える。パラメータεは、観察された記号のメディアンと、学習フェーズで抽出された記号の学習済みメディアンとの間の受け入れ可能な距離を調整する。εをゼロに設定することは、観察されたメディアンが、適合したHMMの所与の状態について学習時に観察されたメディアンの最小値以上である必要があることを意味する。
c又はc’の値は、首尾良く適合したと判断された状態の数を表す。柔軟性をジェスチャに付与する場合、より低い値が受け入れられるようにしながらも、適合する全ての状態に制限的な基準を要求してもよい。
したがって、c’は、前の状態が首尾良くパスしていることを必須として、HMMによって定義された状態の順番が考慮されるようにできるため、c’はより制限的にすることができる。
入力ジェスチャの状態のシーケンスが、対応するHMMによって最大の尤度を有すると判断されたモデル化された学習ジェスチャの対応する状態のシーケンスに適合しない場合、入力ジェスチャは拒否することができる。例えば、ユーザは、「2」を表すモデル化された学習ジェスチャの全ての部分に適合はするが、「2」を後ろから、又は、学習ジェスチャについてHMMで定義されシーケンスとは反対のシーケンスで、「2」を描いてもよい。この「逆方向の2」は、状態シーケンスに適合しないということで拒否することができる。他の例では、ユーザは、一つの円を第2の円の頂部に描いて、「8」を生成してもよいが、「8」を表す学習ジェスチャの全ての部分に適合するが、学習ジェスチャで定義されたシーケンスには適合しない可能性がある。以下により詳細に説明するが、入力ジェスチャの最初の状態と最後の状態が、最大の尤度を有すると判断されたモデル化された対応する状態の最初と最後に適合しない場合、拒否するようにしてもよい。
入力ジェスチャが、尤度が最大と判定された学習ジェスチャとの適合として拒否された場合、入力ジェスチャを拒否すると最終的に決定する前に、2番目に可能性のあるジェスチャ(及び、場合によっては追加のジェスチャ)を潜在的な適合として考慮することができる。例えば、2番目に高い尤度を有するとして、第2のモデル化された学習ジェスチャを決定することができる。第2のモデル化された学習ジェスチャの対応する状態に適合する入力ジェスチャの第2の状態量を決定することができる。決定された第2の量が、閾値を満たさない場合、入力ジェスチャを拒否することができる。例えば、ユーザのジェスチャが「S」の形状であり、入力ジェスチャを、「8」を表す最大尤度の学習ジェスチャと比較することができる場合、入力ジェスチャが、「8」に適合しないと判定された場合、入力ジェスチャは、「5」を表す2番目に高い尤度の学習ジェスチャと比較することができる。
人間又はユーザは、テーブルの画面の下のカメラがユーザの指の位置を撮像し、位置を追跡してジェスチャを認識する、インタラクティブテーブルで複数のジェスチャを実行してもよい。いくつかの実施例では、「0」から「9」の数字と、「プラス」、「マイナス」、「等号」の演算記号を、語彙にジェスチャ群として定義してもよい。個別の4状態HMMを各ジェスチャに割り当て、特定の数の学習サンプル(例えば、30)、順方向―逆方向処理、及び上述の処理を用いて学習させてもよい。
ジェスチャのサイズは、学習フェーズ及び認識フェーズ時に、水平及び垂直の両方についてサンプルごとの平均及び標準偏差を用いて、標準化してもよい。学習済みのモデルを用いて、主に、語彙に定義されていないジェスチャを含めて、46のジェスチャの群を実行した。しかし、語彙で定義された複数のジェスチャも、処理の精度を試験するためにこの群に含めた。ジェスチャは、未加工(raw)で標準化されていない、手の動きとして定義してもよい。未加工のデータは、認識処理に送られる前に標準化することができる。
図14に、代表的なジェスチャ1401〜1412を示す。各ジェスチャの下の第1の番号(例えば、ジェスチャ1401の下の「8」1414)は、HMMによって最も適合していると認識されたジェスチャを示し、第2の番号(例えば、ジェスチャ1401の下の「1110」1416)は、ジェスチャの4状態のどれが、代表的な処理で説明される基準に適合しているかを二進法の数字列で示す。例えば、「1011」は、第1、第3、及び第4の状態に適合しているが、第2の状態は適合していないことを示す。この例では、観察された記号と、学習フェーズ時に抽出された記号の学習済みメディアンとの間の許容可能な距離を調整するパラメータ(ε)は、ゼロと仮定している(ε=0)。
ジェスチャ1401は、最後の状態を除くと数字の8に類似したジェスチャを表している。代表的な処理1300を用いると、最初の三つの状態は、数字の8のジェスチャの基準に適合するが、最後の状態が定義された基準に適合しない。処理は、ジェスチャ1402について、最初の三つの状態が合格しているので、数字の6のジェスチャとして認識されていることを示している。ジェスチャ1402は、いくつかの点で数字の5のジェスチャと類似しているが、ジェスチャ1402の最後は、数字の5と類似していない。
ジェスチャ1403は、最後の状態を除くと数字の8の状態と類似している。代表的な処理を用いると、最初の三つの状態は、数字の8のジェスチャの基準に合格しているが、最後の状態は定義された基準に適合していない。ジェスチャ1404は、最初の状態を除くと数字の3と類似している。代表的な処理を用いると、最初の三つの状態は、数字の3のジェスチャの基準に適合していないが、最後の状態はこの基準に適合している。
ジェスチャ1405と1406は、両方とも、数字の9のジェスチャに最も類似していると認識されている。しかし、ジェスチャ1405では、ジェスチャの最初は、数字の9ととても異なっている。ジェスチャ1405は、第3と第4の状態が合格している。ジェスチャ1406では、ジェスチャの最初は、数字の9と類似しているが、続いて数字の9と類似しなくなり、動きの最後に到達すると、再び数字の9のジェスチャと類似するようになる。ジェスチャ1406の第1、第3、及び第4の状態は定義された基準に適合するが、第2の状態は適合しない。
ジェスチャ1407は、規定されたジェスチャの何れにも類似していないが、数字の4と最も類似していると認識されている。代表的な処理を用いると、どの状態も、数字の4のジェスチャの基準と適合しない。ジェスチャ1408は、数字の6の最初と類似しているが、ジェスチャの最後に向かうと、数字の6とは異なる。代表的な処理を用いると、第1の状態は、数にの6のジェスチャの基準に適合するが、最後の三つの状態は、基準に適合しない。ジェスチャ1409から1412は、定義された数字のジェスチャに類似した動きを示す。図示されるように、ジェスチャ1409から1412は、4つの全ての状態が定義された基準に適合している。
閾値は、ジェスチャを受け入れる又は拒否するための基準として使用可能に定義することができる。ジェスチャが少なくとも、閾値によって定義された状態の数に合格した場合、ジェスチャは受け入れられる。ジェスチャが少なくとも、閾値によって定義された状態の数に合格しない場合、ジェスチャは拒否される。例えば、閾値3が定義されると、ジェスチャ1401〜1403、1406、及び1409〜1412は、少なくとも三つの状態に合格しているので、受け入れられることができる。ジェスチャ1404、1405、1407、1408は、少なくとも3つの状態に合格していないので、拒否される。
追加的に、あるいは代替として、ジェスチャは、最初、及び/又は、最後の状態が合格していない場合、拒否することができる。例えば、ジェスチャ1401〜1403が、3つの状態、及び最初の状態が合格していても、最後の状態が合格していないので、拒否することもできる。他の例では、ジェスチャ1404は、ジェスチャの部分が「3」のように見えるが、ジェスチャが第1の状態に合格していないので、拒否することもできる。
既に説明し、図15に示すように、ユーザ1502は、デバイス1506を用いて空中にジェスチャ1504を行うことができる。ユーザはまた、様々な他のアプローチを用いてジェスチャを行ってもよい。例えば、ユーザはタブレットコンピュータ1510上で指又はタッチペンを用いてジェスチャ1508を行ってもよい。ユーザ1512は、キオスク1518にタッチ画面1516を含ませるなどした、タッチ画面1516でジェスチャ1514を行ってもよい。他の例では、ユーザ1520は、テーブル1524の下に配設されたカメラ1526でジェスチャ1522が認識される、インタラクティブテーブル1524でジェスチャ1522を行ってもよい。
図16は、本書に説明したシステム、方法、及び処理を、クライアントとして、又は1以上のサーバとして実施するために使用することができるコンピューティングデバイス1600、1650のブロック図である。コンピューティングデバイス1600は、ラップトップ、デスクトップ、ワークステーション、PDA(personal digital assistant)、サーバ、ブレードサーバ、メインフレーム、及び他の適当なコンピュータを含む、様々な形態のデジタルコンピュータを表す。コンピューティングデバイス1650は、PDA(personal digital assistant)、携帯電話、スマートフォン、又は他の類似のコンピューティングデバイスなどの、様々な形態のモバイル機器を表す。ここに示す構成要素、接続、及び関係、機能は、例示にすぎず、本書で記載、又は、請求される、実施例に限定されない。
コンピューティングデバイス1600は、プロセッサ1602、メモリ1604、ストレージデバイス1606、メモリ1604及び高速拡張ポート1610と接続した高速インタフェース1608、メモリ1604と高速拡張ポート1610と接続した低速インタフェース1612を含む。構成要素1602、1604、1606、1608、1610、1612の各々は、様々なバスを用いて相互接続されており、共通のマザーボード又はその他の適当な方式によって装着することができる。プロセッサ1602は、メモリ1604又はストレージデバイス1606に保存された命令を含む、コンピューティングデバイス1600の内部で実行するための命令を処理して、高速インタフェース1608と連結したディスプレイ1616などの外部入力/出力デバイスに、GUIの図形情報を表示する。他の実施例では、複数のプロセッサ、及び/又は、複数のバスを、適当であれば、複数のメモリ、複数の種類のメモリとともに用いてもよい。また、複数のコンピューティングデバイス1600は、必要な動作(例えば、サーババンク、ブレードサーバのグループ、又は、マルチプロセッサシステム)の一部を提供する各デバイスと連結してもよい。
メモリ1604は、コンピューティングデバイス1600の内部の情報を保存する。一実施例では、メモリ1604は、コンピュータ可読媒体である。一実施例では、メモリ1604は、1以上の揮発性メモリユニットである。他の実施例では、メモリ1604は、1以上の不揮発性メモリユニットである。
ストレージデバイス1606は、コンピューティングデバイス1600のためのマスストレージを提供することができる。一実施例では、ストレージデバイス1606は、コンピュータ可読媒体である。様々な異なる実施例では、ストレージデバイス1606は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、又はテープデバイス、フラッシュメモリ、又は他の類似の固体メモリデバイス、又は、ストレージエリアネットワークのデバイス又は他の構成設定を含むデバイスのアレイであってもよい。一実施例では、コンピュータプログラム製品は、情報坦体に有形に具現化されている。コンピュータプログラム製品は、実行されると、上述のものなど、1以上の方法を実行する命令を含む。情報坦体は、メモリ1604、ストレージデバイス1606、プロセッサ1602のメモリなどのコンピュータ又はマシン可読媒体、又は伝播される信号である。
高速コントローラ1608は、コンピューティングデバイス1600の帯域幅集約型(bandwidth−intensive)動作を管理し、低速コントローラ1612は、よい少ない帯域幅集約型の動作を管理する。かかる仕事の割り当ては、一例にすぎない。一実施例では、高速コントローラ1608は、メモリ1604、ディスプレイ1616(例えば、グラフィックプロセッサ又はグラフィックアクセラレータを介して)、及び、様々な拡張カード(図示していない)を受けることができる高速拡張ポート1610と接続する。この実施例では、低速コントローラ1612は、ストレージデバイス1606及び低速拡張ポート1614に接続する。低速拡張ポートは、様々な通信ポート(例えば、USB、Bluetooth(登録商標)、イーサネット(登録商標)、無線イーサネット(登録商標))を含んでもよく、キーボード、ポインティングデバイス、スキャナーなどの1以上の入力/出力デバイス、又は、スイッチ、ルータなどのネットワークデバイスと、例えば、ネットワークアダプタを介して接続することができる。
コンピューティングデバイス1600は、図に示すように、複数の異なる形態で実施することができる。例えば、標準的なサーバ1620として、実施してもよく、又は、かかるサーバのグループの複数のアイテムとして実施してもよい。ラックサーバシステム1624の一部として実施してもよい。さらに、ラップトップコンピュータ1622などのパーソナルコンピュータに実施してもよい。あるいは、コンピューティングデバイス1600からの構成要素を、デバイス1650などのモバイル機器(図示していない)の他の構成要素と組み合わせてもよい。かかるデバイスの各々は、1以上のコンピューティングデバイス1600、1650を含み、全システムは、相互に通信しあう複数のコンピューティングデバイス1600、1650によって構成されてもよい。コンピューティングデバイス1600は、コンピューティングデバイス1600の動き又は位置を検出又は検知するように構成された、ジャイロスコープ、カメラ又はGPS(Globap Positioning Satellite)トラッカーなどの1以上のセンタ(図示していない)を含んでもよい。
コンピューティングデバイス1650は、構成要素の中でも特に、プロセッサ1652と、メモリ1664と、ディスプレイ1654、通信インタフェース1666、及び、送受信機1668などの入力/出力デバイスと、を含む。デバイス1650は、追加の記憶部を提供するマイクロドライブなどのストレージデバイスなどを備えてもよい。構成要素1650、1652、1664、1654、1666、及び1668の各々は、様々なバスを介して相互接続し、構成要素のいくつかは、共通マザーボード又は適当なその他の適当な手法によって装着することができる。コンピューティングデバイス1650は、コンピューティングデバイス1600の動き又は位置を検出又は検知するように構成された、ジャイロスコープ、カメラ又はGPS(Globap Positioning Satellite)トラッカーなどの1以上のセンタ(図示していない)を含んでもよい。
プロセッサ1652は、メモリ1664に保存された命令を含む、コンピューティングデバイス1650の内部で実行するための命令を処理することができる。プロセッサはまた、アナログプロセッサ及びデジタルプロセッサを別々に含んでもよい。プロセッサは、例えば、ユーザインタフェースのコントロール、デバイス1650によって作動するアプリケーション、及びデバイス1650による無線通信など、デバイス1650の他の構成要素の座標を提供してもよい。
プロセッサ1652は、コントロールインタフェース1658及び、ディスプレイ1654と接続したディスプレイインタフェース1656を介して、ユーザと通信することができる。ディスプレイ1654は、例えば、TFTLCDディスプレイ、又はOLEDディスプレイ、又は他の適当なディスプレイ技術でよい。ディスプレイインタフェース1656は、ディスプレイ1654を駆動して、ユーザに図形又はその他の情報を提示するための適当な回路を含むことができる。コントロールインタフェース1658は、コマンドをユーザから受けると、変換してプロセッサ1652に送出する。さらに、外部インタフェース1662はプロセッサ1652と通信を行い、デバイス1650と他のデバイスとの近距離通信(near area comuncation)を可能とする。外部インタフェース1662は、例えば、(例えば、ドッキング手順を介した)有線通信、又は、(例えば、Bluetooth(登録商標)などの技術を介した)無線通信を行ってもよい。
メモリ1664は、コンピューティングデバイス1650の内部の情報を保存する。一実施例では、メモリ1664は、コンピュータ可読媒体である。一実施例では、メモリ1664は1以上の揮発性メモリユニットである。他の実施例では、メモリ1664は1以上の不揮発性メモリユニットである。また、拡張メモリ1674を設け、デバイス1650と、例えば、SIMMカードインタフェースを含む拡張インタフェース1672を介して接続するようにしてもよい。かかる拡張メモリ1674は、デバイス1650に追加の記憶領域を提供し、デバイス1650のアプリケーション又は他の情報を保存することができる。具体的には、拡張メモリ1674は、上述の処理を実行する、又は捕捉するための命令を含んでもよく、さらに、保護情報を含んでもよい。このようにして、例えば、拡張メモリ1674を、デバイス1650のセキュリティモジュールとして配設し、デバイス1650の安全な使用を可能にするための命令をプログラムしてもよい。さらに、保護アプリケーションは識別情報などの追加情報とともに、SEVIMカードを介して、SIMMカードにハッキングできないように配置してもよい。
メモリは、例えば、以下に説明するように、フラッシュメモリ、及び/又は、MRAMメモリを含んでもよい。一実施例では、コンピュータプログラム製品は、情報坦体に有形に具現化されている。コンピュータプログラム製品は、実行されると、上述のものなど、1以上の方法を実行する命令を含む。情報坦体は、メモリ1664、拡張メモリ1674、プロセッサ1652のメモリなどのコンピュータ又はマシン可読媒体、又は伝播される信号である。
デバイス1650は、必要な場合、デジタル信号処理回路を有する通信インタフェース1666を介して無線通信してもよい。通信インタフェース1666は、とりわけ、GSMボイスコール、SMS、EMS、又はMMSメッセージング、CDMA、TDMA、PDC、WCDMA、CDMA2000、又はGPRSなどの、様々なモード又はプロトコルで通信を行うことができる。かかる通信は、例えば、無線周波数送受信機1668を介して行ってもよい。さらに、短距離通信を、Bluetooth(登録商標)、WiFi、又は、その他の送受信機(図示していない)を用いて行ってもよい。さらに、GPS受信機モジュール1670は、デバイス1650で起動しているアプリケーションに必要であれば、追加の無線データをデバイス1650に提供してもよい。
デバイス1650は、ユーザからの発話の情報を受けて、処理可能なデジタル情報に変換する、オーディオコーデック1660を用いて音声による通信を行ってもよい。オーディオコーデック1660は同様に、例えば、デバイス1650のハンドセットを介して話者などのユーザに、可聴音声を生成することができる。この音声は、音声電話呼び出しからの音声、録音された音声(例えば、ボイスメッセージ、音楽ファイル、など)、さらにデバイス1650で動作するアプリケーションによって生成された音声を含んでもよい。
コンピューティングデバイス1650は、図示のように、複数の異なった態様で実施することができる。例えば、携帯電話1680として実施してもよい。また、スマートフォン1682、PDS(personal digital assistant)、又は、その他の類似のモバイル機器の一部として実施してもよい。
ここで説明した様々な実施例のシステム、及び技術については、デジタル電子回路、集積回路、特別に設計されたASIC (application specific integrated circuit)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/又は、それらの組み合わせによって実現することができる。これらの様々な実施例は、ストレージシステム、少なくとも一つの入力デバイス、及び少なくとも一つの出力デバイスとの間で、データ及び命令を送受信する、専用又は汎用の少なくとも一つのプログラム可能なプロセッサを含む、プログラム可能なシステムで実行可能、及び/又は、解釈可能な1以上のコンピュータプログラムの実施例を含んでもよい。
これらのコンピュータプログラム(また、プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ぶ)は、プログラム可能なプロセッサのマシン命令を含み、高級手続き型、及び/又は、オブジェクト指向プログラミング言語、及び/又は、アセンブリ/マシン言語で実施してもよい。ここで用いた用語「マシン可読媒体」、「コンピュータ可読媒体」は、マシン命令をマシン可読信号として受ける、マシン可読媒体を含むプログラム可能なプロセッサに、マシン命令及び/又はデータを提供するために用いられる、コンピュータプログラム製品、装置、及び/又は、デバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラム可能な論理デバイス(PLD))を意味する。
ユーザとの相互連動を行うため、本書で説明したシステム及び技術は、情報をユーザに表示するディスプレイデバイス(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を行うことができる、キーボード、ポインティングデバイス(例えば、マウス又はトラックボール)とを有するコンピュータで実施してもよい。他の種類のデバイスを用いて、ユーザとの相互連動を行ってもよい。例えば、ユーザに提供されたフィードバックは任意の形態の感覚フィードバック(例えば、可視的なフィードバック、聴覚的なフィードバック、又は、触覚的なフィードバック)であってもよく、ユーザからの入力は、音、発話、触覚的な入力を含む、任意の形態で受けてもよい。
本書で説明したシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとして)、ミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、フロントエンド構成要素を含むコンピューティングシステム(ユーザが本書に説明したシステム及び技術の実施例と相互連動することができる、グラフィカルユーザインタフェース、又はウェブブラウザを有するクライアントコンピュータ)、又は、かかるバックエンド、ミドルウェア、又は、フロントエンド構成要素の任意の組み合わせを含む。システムの構成要素は、デジタルデータ通信(例えば、通信ネットワーク)の任意の形態、又は任意の媒体によって相互接続することができる。通信ネットワークの例として、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、及びインターネットが含まれる。
コンピューティングシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に互いに離れており、通常、通信ネットワークを介して相互連動する。クライアントとサーバの関係は、それぞれのコンピュータで作動して、クライアントとサーバの関係を相互に有するコンピュータプログラムによって成立する。
複数の実施例について説明した。しかしながら、本開示の趣旨と範囲を逸脱しない限りにおいて様々な変形が可能であることに理解されたい。したがって、他の実施例も、以下の特許請求の範囲内にある。

Claims (41)

  1. プロセッサが、入力ジェスチャを、学習ジェスチャの語彙を総合的にモデル化する隠れマルコフモデルに適用することに基づいて、
    前記入力ジェスチャが学習ジェスチャの各々に適合する尤度と、
    最大の尤度を有するモデル化された学習ジェスチャと、
    最大の尤度を有すると判断されたモデル化された学習ジェスチャの対応する状態に適合する前記入力ジェスチャの状態量と、を決定するステップと、
    決定された量が閾値を満たさない場合は、前記プロセッサが、前記入力ジェスチャを拒否するステップと、
    を含
    各状態は、ジェスチャ部分を有していて、
    前記閾値は、入力ジェスチャの状態の総量の百分率又は量として表される、
    コンピュータにより実施される方法。
  2. 決定された量が前記閾値を満たす場合は、前記プロセッサが、前記入力ジェスチャを受け入れるステップをさらに含む、請求項1記載の方法。
  3. 認識された入力ジェスチャに基づいて、前記プロセッサが、アプリケーションを制御するステップをさらに含む、請求項2記載の方法。
  4. 前記決定された量が前記閾値の量を満たすと判断された場合、
    前記プロセッサが、前記最大の尤度を有すると判断された前記モデル化された学習ジェスチャの対応する入力コマンドを決定するステップをさらに含む、請求項2記載の方法。
  5. 前記プロセッサが、2番目に高い尤度を有すると判断された第2のモデル化された学習ジェスチャの対応する状態と適合する、拒否された入力ジェスチャの第2の状態量を決定するステップと、
    決定された第2の量が前記閾値を満たさない場合、前記プロセッサが、前記拒否された入力ジェスチャを拒否するステップと、
    をさらに含む、請求項1記載の方法。
  6. 前記プロセッサが、前記入力ジェスチャを定義する観察記号を前記隠れマルコフモデルに適用するステップをさらに含む、請求項1記載の方法。
  7. 前記入力ジェスチャの前記状態のシーケンスが、最大の尤度を有すると判断された前記モデル化された学習ジェスチャの前記対応する状態のシーケンスと適合しない場合、前記プロセッサが、入力ジェスチャを拒否するステップをさらに含む、請求項1記載の方法。
  8. ビタビアルゴリズムを用いて、前記尤度と、状態の変化のシーケンスを決定する、請求項1記載の方法。
  9. 前記決定された量が前記閾値を満たさない場合、前記語彙の外として前記入力ジェスチャは拒否される、請求項1記載の方法。
  10. 前記プロセッサが、前記学習ジェスチャの前記語彙を認識するために、前記隠れマルコフモデルを学習させるステップをさらに含む、請求項1記載の方法。
  11. 前記プロセッサが、前記入力ジェスチャに関連する状態の変化の群を抽出するステップをさらに含み、
    前記入力ジェスチャの前記状態量は、抽出された状態の変化の群から決定される、請求項1記載の方法。
  12. 前記最大の尤度を有すると判断された前記モデル化された学習ジェスチャの対応する状態に適合する前記入力ジェスチャの前記状態量を決定するステップは、
    各々の状態において前記入力ジェスチャの抽出されたメディアンが、前記最大の尤度を有すると判断された前記モデル化された学習ジェスチャの学習サンプル群の対応する状態における抽出されたメディアンの最小値以上である、状態の量を決定するステップをさらに含む、請求項1記載の方法。
  13. 前記最大の尤度を有すると判断された前記モデル化された学習ジェスチャの対応する状態に適合する前記入力ジェスチャの前記状態量を決定するステップは、
    各々の状態において前記入力ジェスチャの抽出されたメディアンが、前記最大の尤度を有すると判断された前記モデル化された学習ジェスチャの学習サンプル群の対応する状態における抽出されたメディアンの最小値に非ゼロ調整パラメータを加えた値以上である、状態の量を決定するステップをさらに含む、請求項1記載の方法。
  14. 前記閾値は、前記対応する状態の量として表現される、請求項1記載の方法。
  15. 前記プロセッサが、前記入力ジェスチャを標準化するステップをさらに含む、請求項1記載の方法。
  16. 入力ジェスチャを、学習ジェスチャの語彙を総合的にモデル化する隠れマルコフモデルに適用することに基づいて、
    前記入力ジェスチャが学習ジェスチャの各々に適合する尤度と、
    最大の尤度を有するモデル化された学習ジェスチャと、
    最大の尤度を有すると判断されたモデル化された学習ジェスチャの対応する状態に適合する前記入力ジェスチャの状態量と、を決定し、
    決定された量が閾値を満たさない場合は、前記入力ジェスチャを拒否する、ように構成されたプロセッサを含み、
    各状態は、ジェスチャ部分を有していて、
    前記閾値は、入力ジェスチャの状態の総量の百分率又は量として表される、
    デバイス。
  17. 前記入力ジェスチャを受けるように構成された入力モジュールをさらに含む、請求項16記載のデバイス。
  18. 前記入力モジュールがカメラを備えた、相互連動する画面である、請求項17記載のデバイス。
  19. ビタビアルゴリズムを用いて、前記尤度と、状態の変化のシーケンスを決定する、請求項16記載のデバイス。
  20. 実行されると、コンピュータに、
    入力ジェスチャを、学習ジェスチャの語彙を総合的にモデル化する隠れマルコフモデルに適用することに基づいて、
    前記入力ジェスチャが学習ジェスチャの各々に適合する尤度と、
    最大の尤度を有するモデル化された学習ジェスチャと、
    最大の尤度を有すると判断されたモデル化された学習ジェスチャの対応する状態に適合する前記入力ジェスチャの状態量と、を決定するステップと、
    決定された量が閾値を満たさない場合は、前記入力ジェスチャを拒否するステップと、
    を含む動作を実行させ
    各状態は、ジェスチャ部分を有していて、
    前記閾値は、入力ジェスチャの状態の総量の百分率又は量として表される、
    コンピュータプログラムを記録したコンピュータ可読媒体。
  21. センサが、画像データを用いてデバイスの動きを検知するステップと、
    プロセッサが、検出された前記デバイスの動きに対応する、ジェスチャを認識するステップと、
    前記プロセッサが、認識されたジェスチャに対応する前記デバイスの機能を決定するステップと、
    前記プロセッサが、前記機能を呼び出すステップと、
    を含んでいて、
    前記ジェスチャを認識するステップは、
    ジェスチャに適合することの最大の尤度を有するモデル化された学習ジェスチャを決定するステップと、
    ジェスチャに適合することの最大の尤度を有すると判断されたモデル化された学習ジェスチャの対応する状態に適合するジェスチャの状態量を決定するステップと、
    を含んでい
    各状態は、ジェスチャ部分を有している、
    コンピュータにより実施される方法。
  22. 前記動きは、第1の軌跡の第1の動きと、第2の、異なる軌跡の第2の動きと、を含む、請求項21記載の方法。
  23. 前記ジェスチャを認識するステップは、
    検知された前記デバイスの動きによって画定される、文字の形状、幾何学的形状、又はパターンを認識するステップをさらに含む、
    請求項21記載の方法。
  24. 前記デバイスの動きを検知するステップは、
    前記デバイスのユーザの無意識(subconsicous)の身体運動を検出するステップをさらに含み、
    呼び出される機能は、前記無意識の身体運動に関連付けられる、
    請求項21記載の方法。
  25. 第1の時間と第2の時間で第1のユーザ入力と第2のユーザ入力とをそれぞれ検出するステップをさらに含み、
    前記デバイスの動きを検知するステップは、
    前記第1の時間と前記第2の時間の間に発生する前記デバイスの動きを検知するステップをさらに含む、
    請求項21記載の方法。
  26. 前記第1のユーザ入力は、
    振るユーザ入力、コントロール選択のユーザ入力、又は、静止して保持するユーザ入力である、
    請求項25記載の方法。
  27. 前記ジェスチャを認識するステップは、
    検知された動きと、ジェスチャのモデル化された語彙との比較に基づいて、前記ジェスチャを選択するステップをさらに含む、
    請求項21記載の方法。
  28. 前記プロセッサが、前記デバイスの検知された動きを標準化するステップと、
    前記プロセッサが、標準化された前記検知された動きと、前記ジェスチャのモデル化された語彙とを比較するステップと、をさらに含む、
    請求項27記載の方法。
  29. 前記プロセッサが、前記検知された動きと、標準化された動きとの比較に基づいて、パラメータを決定するステップをさらに含む、
    請求項27記載の方法。
  30. 前記機能が前記パラメータに基づいて決定される、請求項29記載の方法。
  31. 前記プロセッサが、前記パラメータを呼び出された前記機能に入力するステップを、さらに含む、
    請求項29記載の方法。
  32. 前記ジェスチャの語彙が、隠れマルコフモデル(HMM)を用いて、又は、ルールに基づくモデルを用いて、モデル化されている、
    請求項27記載の方法。
  33. 前記プロセッサが、前記ジェスチャの語彙の利用可能なジェスチャの全てより少ないジェスチャを選択的に起動するステップをさらに含み、
    前記ジェスチャは、検知された動きと起動されたジェスチャとの比較に基づいて選択される、
    請求項27記載の方法。
  34. 前記利用可能なジェスチャの全てより少ないジェスチャは、製造者の設定、ユーザの設定、又はアプリケーションの設定に基づいて使用可能となる、
    請求項33記載の方法。
  35. 前記プロセッサが、特定のジェスチャを認識するために前記デバイスを学習させるステップと、
    前記プロセッサが、前記ジェスチャの語彙に、前記特定のジェスチャを追加するステップと、
    をさらに含む、請求項27記載の方法。
  36. 前記機能を呼び出すステップは、
    アプリケーションを実行するステップ、画像を操作するステップ、又は、文字を入力するステップをさらに含む、請求項21記載の方法。
  37. 前記デバイスの動きを検知するステップは、
    第1の時間と第2の時間で第1のユーザ入力と第2のユーザ入力とをそれぞれ検出するステップであって、前記第1の時間は前記第2の時間の前に生じるステップと、
    前記第1の時間の前に第1の軌跡の第1の動きを検知するステップと、
    前記第2の時間の後に第2の、異なる軌跡の第2の動きを検知するステップと、
    前記第1の動きと前記第2の動きとを連結するステップと、
    連結された、前記第1の動きと前記第2の動きとを検知された動きとして出力するステップと、
    をさらに含む、請求項21記載の方法。
  38. 前記機能を呼び出すステップは、
    仮想の環境をナビゲートするステップ、画像を操作するステップ、文字を入力するステップ、アプリケーションを実行するステップ、又はメディアハブ機能を呼び出すステップ、をさらに含む、請求項21記載の方法。
  39. 画像データを用いて動きを検知するように構成されたセンサと、
    前記センサによって検知された、検知された動きに対応するジェスチャを認識し、
    認識された前記ジェスチャに対応する機能を決定し、
    前記機能を呼び出すように構成されたプロセッサと、
    を含むデバイスにおいて、
    前記ジェスチャを認識することは、
    ジェスチャに適合することの最大の尤度を有するモデル化された学習ジェスチャを決定することと、
    ジェスチャに適合することの最大の尤度を有すると判断されたモデル化された学習ジェスチャの対応する状態に適合するジェスチャの状態量を決定することと、
    を含んでい
    各状態は、ジェスチャ部分を有している、
    デバイス。
  40. 前記センサがカメラであり、
    前記動きが、オプティカルフローを用いて検知される、
    請求項39記載のデバイス。
  41. 実行されると、コンピュータに、
    画像データを用いてデバイスの動きを検知するステップと、
    検知された前記デバイスの動きに対応するジェスチャを認識するステップと、
    認識された前記ジェスチャに対応するデバイスの機能を決定するステップと、
    前記機能を呼び出すステップと、
    を含む動作を実行させるためのコンピュータプログラムを記録したコンピュータ可読媒体において、
    前記ジェスチャを認識するステップは、
    ジェスチャに適合することの最大の尤度を有するモデル化された学習ジェスチャを決定するステップと、
    ジェスチャに適合することの最大の尤度を有すると判断されたモデル化された学習ジェスチャの対応する状態に適合するジェスチャの状態量を決定するステップと、
    を含んでい
    各状態は、ジェスチャ部分を有している、
    コンピュータ可読媒体。
JP2010521990A 2007-08-20 2008-08-20 高度な語彙外単語の拒否 Active JP5406188B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US95677607P 2007-08-20 2007-08-20
US95678407P 2007-08-20 2007-08-20
US60/956,784 2007-08-20
US60/956,776 2007-08-20
PCT/US2008/073671 WO2009026337A1 (en) 2007-08-20 2008-08-20 Enhanced rejection of out-of-vocabulary words

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013128357A Division JP5619961B2 (ja) 2007-08-20 2013-06-19 高度な語彙外単語の拒否のための方法、デバイス、コンピュータ可読記録媒体、および装置

Publications (2)

Publication Number Publication Date
JP2010537320A JP2010537320A (ja) 2010-12-02
JP5406188B2 true JP5406188B2 (ja) 2014-02-05

Family

ID=40378606

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010521990A Active JP5406188B2 (ja) 2007-08-20 2008-08-20 高度な語彙外単語の拒否
JP2013128357A Expired - Fee Related JP5619961B2 (ja) 2007-08-20 2013-06-19 高度な語彙外単語の拒否のための方法、デバイス、コンピュータ可読記録媒体、および装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2013128357A Expired - Fee Related JP5619961B2 (ja) 2007-08-20 2013-06-19 高度な語彙外単語の拒否のための方法、デバイス、コンピュータ可読記録媒体、および装置

Country Status (5)

Country Link
US (1) US8565535B2 (ja)
EP (1) EP2191397B1 (ja)
JP (2) JP5406188B2 (ja)
CN (2) CN107102723B (ja)
WO (1) WO2009026337A1 (ja)

Families Citing this family (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100960577B1 (ko) 2005-02-08 2010-06-03 오블롱 인더스트리즈, 인크 제스처 기반의 제어 시스템을 위한 시스템 및 방법
US8531396B2 (en) 2006-02-08 2013-09-10 Oblong Industries, Inc. Control system for navigating a principal dimension of a data space
US8370383B2 (en) 2006-02-08 2013-02-05 Oblong Industries, Inc. Multi-process interactive systems and methods
US8537112B2 (en) * 2006-02-08 2013-09-17 Oblong Industries, Inc. Control system for navigating a principal dimension of a data space
US9910497B2 (en) * 2006-02-08 2018-03-06 Oblong Industries, Inc. Gestural control of autonomous and semi-autonomous systems
US9075441B2 (en) * 2006-02-08 2015-07-07 Oblong Industries, Inc. Gesture based control using three-dimensional information extracted over an extended depth of field
US8537111B2 (en) * 2006-02-08 2013-09-17 Oblong Industries, Inc. Control system for navigating a principal dimension of a data space
US9823747B2 (en) 2006-02-08 2017-11-21 Oblong Industries, Inc. Spatial, multi-modal control device for use with spatial operating system
EP2163987A3 (en) 2007-04-24 2013-01-23 Oblong Industries, Inc. Processing of events in data processing environments
US9261979B2 (en) * 2007-08-20 2016-02-16 Qualcomm Incorporated Gesture-based mobile interaction
US8723795B2 (en) 2008-04-24 2014-05-13 Oblong Industries, Inc. Detecting, representing, and interpreting three-space input: gestural continuum subsuming freespace, proximal, and surface-contact modes
US9740293B2 (en) 2009-04-02 2017-08-22 Oblong Industries, Inc. Operating environment with gestural control and multiple client devices, displays, and users
US9495013B2 (en) 2008-04-24 2016-11-15 Oblong Industries, Inc. Multi-modal gestural interface
US9684380B2 (en) 2009-04-02 2017-06-20 Oblong Industries, Inc. Operating environment with gestural control and multiple client devices, displays, and users
US10642364B2 (en) 2009-04-02 2020-05-05 Oblong Industries, Inc. Processing tracking and recognition data in gestural recognition systems
US9740922B2 (en) 2008-04-24 2017-08-22 Oblong Industries, Inc. Adaptive tracking system for spatial input devices
US9952673B2 (en) 2009-04-02 2018-04-24 Oblong Industries, Inc. Operating environment comprising multiple client devices, multiple displays, multiple users, and gestural control
WO2009155465A1 (en) * 2008-06-18 2009-12-23 Oblong Industries, Inc. Gesture-based control system for vehicle interfaces
US9586135B1 (en) 2008-11-12 2017-03-07 David G. Capper Video motion capture for wireless gaming
US9383814B1 (en) 2008-11-12 2016-07-05 David G. Capper Plug and play wireless video game
US10086262B1 (en) 2008-11-12 2018-10-02 David G. Capper Video motion capture for wireless gaming
US9335909B2 (en) * 2009-06-03 2016-05-10 Honda Motor Co., Ltd. Drawing assist device, drawing assist program, and drawing assist method
US9746923B2 (en) 2009-03-12 2017-08-29 Immersion Corporation Systems and methods for providing features in a friction display wherein a haptic effect is configured to vary the coefficient of friction
US9874935B2 (en) 2009-03-12 2018-01-23 Immersion Corporation Systems and methods for a texture engine
US10007340B2 (en) 2009-03-12 2018-06-26 Immersion Corporation Systems and methods for interfaces featuring surface-based haptic effects
US10564721B2 (en) 2009-03-12 2020-02-18 Immersion Corporation Systems and methods for using multiple actuators to realize textures
CN102349040B (zh) * 2009-03-12 2015-11-25 意美森公司 用于包括基于表面的触觉效果的界面的***和方法
US9696803B2 (en) 2009-03-12 2017-07-04 Immersion Corporation Systems and methods for friction displays and additional haptic effects
US9927873B2 (en) 2009-03-12 2018-03-27 Immersion Corporation Systems and methods for using textures in graphical user interface widgets
US9317128B2 (en) 2009-04-02 2016-04-19 Oblong Industries, Inc. Remote devices used in a markerless installation of a spatial operating environment incorporating gestural control
US10824238B2 (en) 2009-04-02 2020-11-03 Oblong Industries, Inc. Operating environment with gestural control and multiple client devices, displays, and users
KR101593598B1 (ko) * 2009-04-03 2016-02-12 삼성전자주식회사 휴대단말에서 제스처를 이용한 기능 실행 방법
US20100306685A1 (en) * 2009-05-29 2010-12-02 Microsoft Corporation User movement feedback via on-screen avatars
KR20140039342A (ko) * 2009-06-19 2014-04-02 알까뗄 루슨트 윈도우 또는 애플리케이션을 닫기 위한 방법, 이 방법을 수행하기 위한 디바이스, 데이터 저장 디바이스, 소프트웨어 프로그램 및 사용자 디바이스
WO2011004135A1 (en) * 2009-07-07 2011-01-13 Elliptic Laboratories As Control using movements
US9030404B2 (en) * 2009-07-23 2015-05-12 Qualcomm Incorporated Method and apparatus for distributed user interfaces using wearable devices to control mobile and consumer electronic devices
JP5238635B2 (ja) * 2009-07-29 2013-07-17 京セラ株式会社 情報処理装置及びアプリケーションプログラムの起動方法
US9971807B2 (en) 2009-10-14 2018-05-15 Oblong Industries, Inc. Multi-process interactive systems and methods
US9933852B2 (en) 2009-10-14 2018-04-03 Oblong Industries, Inc. Multi-process interactive systems and methods
US9174123B2 (en) * 2009-11-09 2015-11-03 Invensense, Inc. Handheld computer systems and techniques for character and command recognition related to human movements
US9292731B2 (en) * 2009-12-30 2016-03-22 Intel Corporation Gesture-based signature authentication
US8631355B2 (en) * 2010-01-08 2014-01-14 Microsoft Corporation Assigning gesture dictionaries
US20110273380A1 (en) * 2010-05-07 2011-11-10 Research In Motion Limited Portable electronic device and method of controlling same
US9274594B2 (en) * 2010-05-28 2016-03-01 Microsoft Technology Licensing, Llc Cloud-based personal trait profile data
US8751215B2 (en) 2010-06-04 2014-06-10 Microsoft Corporation Machine based sign language interpreter
US20110317871A1 (en) * 2010-06-29 2011-12-29 Microsoft Corporation Skeletal joint recognition and tracking system
US9952671B2 (en) 2010-10-12 2018-04-24 Nokia Technologies Oy Method and apparatus for determining motion
US8610831B2 (en) * 2010-10-12 2013-12-17 Nokia Corporation Method and apparatus for determining motion
US8223589B2 (en) * 2010-10-28 2012-07-17 Hon Hai Precision Industry Co., Ltd. Gesture recognition apparatus and method
CN102480540A (zh) * 2010-11-19 2012-05-30 英业达股份有限公司 移动电话及其操作方法
EP2659335A4 (en) * 2010-12-29 2016-05-18 Thomson Licensing SYSTEM AND METHOD FOR RECOGNIZING GESTURES
WO2012104312A1 (en) * 2011-01-31 2012-08-09 Research In Motion Deutschland Gmbh Method and apparatus for gesture authentication
US8787006B2 (en) * 2011-01-31 2014-07-22 Apple Inc. Wrist-worn electronic device and methods therefor
US8873841B2 (en) * 2011-04-21 2014-10-28 Nokia Corporation Methods and apparatuses for facilitating gesture recognition
JP5747646B2 (ja) * 2011-05-09 2015-07-15 株式会社ニコン 電子装置、データ生成方法およびデータ生成プログラム
US8666406B2 (en) * 2011-05-12 2014-03-04 Qualcomm Incorporated Gesture-based commands for a group communication session on a wireless communications device
IL213514A0 (en) * 2011-06-13 2011-07-31 Univ Ben Gurion A 3d free-form gesture recognition system for character input
US9390414B2 (en) 2011-09-18 2016-07-12 Google Inc. One-click offline buying
CN102592113B (zh) * 2011-12-23 2014-07-30 哈尔滨工业大学深圳研究生院 一种基于表观特征的静态手势快速识别法
GB201203832D0 (en) * 2012-03-05 2012-04-18 Elliptic Laboratories As User input system
EP2631739B1 (en) 2012-05-21 2016-02-03 Huawei Technologies Co., Ltd. Contactless gesture-based control method and apparatus
US9323985B2 (en) * 2012-08-16 2016-04-26 Microchip Technology Incorporated Automatic gesture recognition for a sensor system
US20140141889A1 (en) 2012-11-19 2014-05-22 2343127 Ontario Inc. Systems and Methods for Capture and Use of Local Elements in Gameplay
WO2014089202A1 (en) * 2012-12-04 2014-06-12 L3 Communications Corporation Touch sensor controller responsive to environmental operating conditions
US10134267B2 (en) 2013-02-22 2018-11-20 Universal City Studios Llc System and method for tracking a passive wand and actuating an effect based on a detected wand path
JP5782061B2 (ja) * 2013-03-11 2015-09-24 レノボ・シンガポール・プライベート・リミテッド 移動物体の動作を認識する方法および携帯式コンピュータ
CN107657280B (zh) 2013-03-15 2021-08-03 英特尔公司 用于处理样本的方法和装置
KR102148645B1 (ko) * 2013-03-15 2020-08-28 엘지전자 주식회사 이동단말기 및 그 제어방법
US20140282272A1 (en) * 2013-03-15 2014-09-18 Qualcomm Incorporated Interactive Inputs for a Background Task
US9829984B2 (en) * 2013-05-23 2017-11-28 Fastvdo Llc Motion-assisted visual language for human computer interfaces
US10026116B2 (en) 2013-06-05 2018-07-17 Freshub Ltd Methods and devices for smart shopping
US10884493B2 (en) * 2013-06-20 2021-01-05 Uday Parshionikar Gesture based user interfaces, apparatuses and systems using eye tracking, head tracking, hand tracking, facial expressions and other user actions
US10558272B2 (en) * 2013-06-20 2020-02-11 Uday Parshionikar Gesture control via eye tracking, head tracking, facial expressions and other user actions
US20190265802A1 (en) * 2013-06-20 2019-08-29 Uday Parshionikar Gesture based user interfaces, apparatuses and control systems
US10137363B2 (en) * 2013-06-20 2018-11-27 Uday Parshionikar Gesture based user interfaces, apparatuses and control systems
US9625997B2 (en) 2013-07-19 2017-04-18 Microchip Technology Incorporated Human interface device and method
WO2015063901A1 (ja) * 2013-10-30 2015-05-07 株式会社東芝 電子機器、操作制御方法及びプログラム
US9405377B2 (en) * 2014-03-15 2016-08-02 Microsoft Technology Licensing, Llc Trainable sensor-based gesture recognition
US20150261280A1 (en) * 2014-03-17 2015-09-17 Mediatek Inc. Apparatuses and methods for waking a display with an adjustable power level to detect touches thereon
US9990046B2 (en) 2014-03-17 2018-06-05 Oblong Industries, Inc. Visual collaboration interface
US9633184B2 (en) 2014-05-30 2017-04-25 Google Inc. Dynamic authorization
US10148692B2 (en) 2014-06-23 2018-12-04 Google Llc Aggregation of asynchronous trust outcomes in a mobile device
US9805201B2 (en) 2014-06-23 2017-10-31 Google Inc. Trust agents
US9602811B2 (en) 2014-09-10 2017-03-21 Faro Technologies, Inc. Method for optically measuring three-dimensional coordinates and controlling a three-dimensional measuring device
JP2017528714A (ja) * 2014-09-10 2017-09-28 ファロ テクノロジーズ インコーポレーテッド 3次元座標の光学測定のための方法および3次元測定デバイスの制御
DE102014013678B3 (de) 2014-09-10 2015-12-03 Faro Technologies, Inc. Verfahren zum optischen Abtasten und Vermessen einer Umgebung mit einem Handscanner und Steuerung durch Gesten
US9746929B2 (en) * 2014-10-29 2017-08-29 Qualcomm Incorporated Gesture recognition using gesture elements
US20160132642A1 (en) * 2014-11-06 2016-05-12 Raz Carmi Device and method for monitoring food intake
CN104866110A (zh) * 2015-06-10 2015-08-26 深圳市腾讯计算机***有限公司 一种手势控制方法,移动终端及***
EP3314368A4 (en) 2015-06-26 2019-01-16 INTEL Corporation TECHNOLOGIES FOR CONTROLLING MICRO-MOTION-BASED INPUT GESTURES OF CLOTHING COMPUTING DEVICES
US9665769B2 (en) * 2015-08-18 2017-05-30 International Business Machines Corporation Handwriting recognition with natural user input on multitouch surfaces
US10169670B2 (en) * 2015-11-30 2019-01-01 International Business Machines Corporation Stroke extraction in free space
KR102433533B1 (ko) * 2015-12-09 2022-08-18 한국전자기술연구원 모션 학습을 통한 인지 기반 제어 방법 및 시스템
US10529302B2 (en) 2016-07-07 2020-01-07 Oblong Industries, Inc. Spatially mediated augmentations of and interactions among distinct devices and applications via extended pixel manifold
JP6258442B1 (ja) * 2016-10-28 2018-01-10 三菱電機インフォメーションシステムズ株式会社 動作特定装置、動作特定方法及び動作特定プログラム
CN110505919B (zh) * 2017-02-03 2022-01-14 埃佩多夫股份公司 手持流体转移设备、实验室***及操作它们的方法
US11093041B2 (en) * 2018-11-30 2021-08-17 International Business Machines Corporation Computer system gesture-based graphical user interface control
US10877568B2 (en) * 2018-12-19 2020-12-29 Arizona Board Of Regents On Behalf Of Arizona State University Three-dimensional in-the-air finger motion based user login framework for gesture interface
KR102155103B1 (ko) * 2019-01-08 2020-09-11 주식회사 원이멀스 가상 환경에서 한글 문자를 입력할 수 있는 시스템 및 방법
US20240094825A1 (en) * 2022-09-16 2024-03-21 Apple Inc. Gesture recognition with hand-object interaction

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
CA2081406C (en) * 1991-12-23 1997-09-16 Chinmoy Bhusan Bose Method and apparatus for connected and degraded text recognition
US5319721A (en) * 1992-04-14 1994-06-07 International Business Machines Corporation Methods and apparatus for evolving a starter set of handwriting prototypes into a user-specific set
JPH0728591A (ja) * 1993-05-13 1995-01-31 Toshiba Corp 空間操作マウスシステム及び空間動作パターン入力方法
US5454043A (en) * 1993-07-30 1995-09-26 Mitsubishi Electric Research Laboratories, Inc. Dynamic and static hand gesture recognition through low-level image analysis
IL110137A (en) * 1994-06-27 2000-06-29 Advanced Recognition Tech Handwriting recognition system
JP3260979B2 (ja) * 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5682439A (en) * 1995-08-07 1997-10-28 Apple Computer, Inc. Boxed input correction system and method for pen based computer systems
JP3869897B2 (ja) 1997-01-28 2007-01-17 キヤノン株式会社 カメラ制御システムおよび映像受信装置および制御方法および記憶媒体
EP0905644A3 (en) * 1997-09-26 2004-02-25 Matsushita Electric Industrial Co., Ltd. Hand gesture recognizing device
JP3639126B2 (ja) * 1998-01-22 2005-04-20 富士通株式会社 住所認識装置及び住所認識方法
US6226403B1 (en) * 1998-02-09 2001-05-01 Motorola, Inc. Handwritten character recognition using multi-resolution models
US6285786B1 (en) * 1998-04-30 2001-09-04 Motorola, Inc. Text recognizer and method using non-cumulative character scoring in a forward search
US6636631B2 (en) * 1998-06-04 2003-10-21 Matsushita Electric Industrial Co., Ltd. Optical character reading method and system for a document with ruled lines and its application
US6304674B1 (en) 1998-08-03 2001-10-16 Xerox Corporation System and method for recognizing user-specified pen-based gestures using hidden markov models
US6735566B1 (en) * 1998-10-09 2004-05-11 Mitsubishi Electric Research Laboratories, Inc. Generating realistic facial animation from speech
JP4332649B2 (ja) * 1999-06-08 2009-09-16 独立行政法人情報通信研究機構 手の形状と姿勢の認識装置および手の形状と姿勢の認識方法並びに当該方法を実施するプログラムを記録した記録媒体
US6694044B1 (en) * 1999-09-16 2004-02-17 Hewlett-Packard Development Company, L.P. Method for motion classification using switching linear dynamic system models
SE0000850D0 (sv) * 2000-03-13 2000-03-13 Pink Solution Ab Recognition arrangement
US6754386B1 (en) * 2000-08-22 2004-06-22 Microsft Corporation Method and system of matching ink processor and recognizer word breaks
US6823084B2 (en) * 2000-09-22 2004-11-23 Sri International Method and apparatus for portably recognizing text in an image sequence of scene imagery
US7095401B2 (en) * 2000-11-02 2006-08-22 Siemens Corporate Research, Inc. System and method for gesture interface
JP3893022B2 (ja) 2000-12-18 2007-03-14 独立行政法人科学技術振興機構 文字認識方法、文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体及び文字認識装置
US7274800B2 (en) * 2001-07-18 2007-09-25 Intel Corporation Dynamic gesture recognition from stereo sequences
US20050043948A1 (en) 2001-12-17 2005-02-24 Seiichi Kashihara Speech recognition method remote controller, information terminal, telephone communication terminal and speech recognizer
US6990639B2 (en) * 2002-02-07 2006-01-24 Microsoft Corporation System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration
US6938222B2 (en) 2002-02-08 2005-08-30 Microsoft Corporation Ink gestures
US7340077B2 (en) * 2002-02-15 2008-03-04 Canesta, Inc. Gesture recognition system using depth perceptive sensors
US7366645B2 (en) 2002-05-06 2008-04-29 Jezekiel Ben-Arie Method of recognition of human motion, vector sequences and speech
AU2003275134A1 (en) * 2002-09-19 2004-04-08 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
US20040143434A1 (en) 2003-01-17 2004-07-22 Ajay Divakaran Audio-Assisted segmentation and browsing of news videos
US8745541B2 (en) * 2003-03-25 2014-06-03 Microsoft Corporation Architecture for controlling a computer using hand gestures
EP1475741B1 (en) * 2003-05-08 2005-12-21 Orange S.A. Data processing apparatus and method
US7302099B2 (en) * 2003-11-10 2007-11-27 Microsoft Corporation Stroke segmentation for template-based cursive handwriting recognition
WO2005071636A1 (en) * 2004-01-20 2005-08-04 Koninklijke Philips Electronics, N.V. Advanced control device for home entertainment utilizing three dimensional motion technology
US7176888B2 (en) 2004-03-23 2007-02-13 Fujitsu Limited Selective engagement of motion detection
JP4708422B2 (ja) * 2004-04-15 2011-06-22 ジェスチャー テック,インコーポレイテッド 両手動作の追跡
JP4172584B2 (ja) * 2004-04-19 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字認識結果出力装置、文字認識装置、その方法及びプログラム
US7308112B2 (en) * 2004-05-14 2007-12-11 Honda Motor Co., Ltd. Sign based human-machine interaction
CN1722063A (zh) * 2004-07-12 2006-01-18 英业达股份有限公司 手势辨识***及其方法
US7372993B2 (en) * 2004-07-21 2008-05-13 Hewlett-Packard Development Company, L.P. Gesture recognition
JP4419768B2 (ja) * 2004-09-21 2010-02-24 日本ビクター株式会社 電子機器の制御装置
US7496547B2 (en) * 2005-06-02 2009-02-24 Microsoft Corporation Handwriting recognition using a comparative neural network
JP2007087089A (ja) * 2005-09-21 2007-04-05 Fujitsu Ltd ジェスチャ認識装置、ジェスチャ認識プログラムおよびジェスチャ認識方法
US20070130547A1 (en) * 2005-12-01 2007-06-07 Navisense, Llc Method and system for touchless user interface control
JP4744317B2 (ja) * 2006-02-16 2011-08-10 富士通株式会社 単語検索装置、単語検索方法、及びコンピュータプログラム
US9261979B2 (en) 2007-08-20 2016-02-16 Qualcomm Incorporated Gesture-based mobile interaction

Also Published As

Publication number Publication date
CN107102723A (zh) 2017-08-29
EP2191397A1 (en) 2010-06-02
JP5619961B2 (ja) 2014-11-05
CN107102723B (zh) 2019-12-06
EP2191397B1 (en) 2019-01-23
US20090052785A1 (en) 2009-02-26
WO2009026337A1 (en) 2009-02-26
EP2191397A4 (en) 2016-03-30
US8565535B2 (en) 2013-10-22
CN101836207B (zh) 2017-03-01
CN101836207A (zh) 2010-09-15
JP2010537320A (ja) 2010-12-02
JP2013232208A (ja) 2013-11-14

Similar Documents

Publication Publication Date Title
JP5619961B2 (ja) 高度な語彙外単語の拒否のための方法、デバイス、コンピュータ可読記録媒体、および装置
US9261979B2 (en) Gesture-based mobile interaction
JP7361156B2 (ja) リアルタイム手書き認識の管理
US11593984B2 (en) Using text for avatar animation
JP6997734B2 (ja) 画面用の手書きキーボード
US8793621B2 (en) Method and device to control touchless recognition
US8737693B2 (en) Enhanced detection of gesture
US8146020B2 (en) Enhanced detection of circular engagement gesture
CN108700996B (zh) 用于多输入管理的***和方法
JP2016118929A (ja) 入力支援方法、入力支援プログラムおよび入力支援装置
Wang et al. A gesture-based method for natural interaction in smart spaces
EP3835924A1 (en) Computer system and method for human-machine interaction
Amma et al. Airwriting: Bringing text entry to wearable computers
WO2023036810A1 (en) Method for detecting user input to a breath input configured user interface
JP2013077180A (ja) 認識装置およびその制御方法
EP3584688A1 (en) Information processing system, information processing method, and program
JP6481360B2 (ja) 入力方法、入力プログラムおよび入力装置
Chen Universal motion-based control and motion recognition
US12026366B2 (en) System and method for coarse and fine selection keyboard user interfaces
US20240231605A9 (en) System and method for coarse and fine selection keyboard user interfaces
US20240134516A1 (en) System and method for coarse and fine selection keyboard user interfaces
GB2610435A (en) Method for detecting user input to a breath input configured user interface
GB2610436A (en) Computer-implemented method of providing input using a dynamic keyboard breath input enabled user interface
CN117931335A (zh) 用于人机界面上的多模式输入和编辑的***和方法
Padliya Gesture Recognition and Recommendations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110816

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20120206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120925

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121221

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130124

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130619

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131031

R150 Certificate of patent or registration of utility model

Ref document number: 5406188

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250