JP2016507112A

JP2016507112A - 複合的な知覚感知入力の対話

Info

Publication number: JP2016507112A
Application number: JP2015556202A
Authority: JP
Inventors: クトリロフ，ガーショム; ヤナイ，ヤロン
Original assignee: インテルコーポレイション
Priority date: 2013-03-05
Filing date: 2014-02-03
Publication date: 2016-03-07
Anticipated expiration: 2034-02-03
Also published as: KR101688355B1; EP2965174A4; CN104956292B; KR20150103278A; EP2965174A1; WO2014137517A1; US20140258942A1; CN104956292A; JP6195939B2

Abstract

複合的な知覚感知技術を使用してユーザのアクションについての情報をキャプチャし、この情報を相乗的に処理するためのシステム及び方法を説明する。知覚感知技術の非限定的な例には、深度センサ、２次元のカメラ、視線検出及び／又は音声認識を使用するジェスチャ認識を含む。あるタイプの感知技術を使用してキャプチャされるユーザのジェスチャについての情報は、しばしば、別のタイプの技術によりキャプチャすることができない。したがって、複合的な知覚感知技術を使用することは、ユーザのジェスチャについて、より多くの情報をキャプチャすることを可能にする。さらに、複合的な知覚感知技術を使用して取得される情報を相乗的に使用することにより、電子デバイスと対話するユーザにとって、より自然なユーザインタフェースを作成することができる。

Description

最近、家庭用電子産業は、ユーザインタフェース技術の分野における革新に対する新たな重要性に直面している。技術の進歩は、より小さなフォームファクタ及び改善された携行性を可能にしつつも、同時に、利用可能な計算能力を向上させ、企業は、ユーザがデバイスとより効果的に対話することができるよう権利を与えることに焦点を当てている。タッチスクリーンは、比較的新しく、かつユーザ経験に広く適合した革新の顕著な例である。しかしながら、タッチスクリーン技術は、家庭用電子デバイスに統合されている幾つかのユーザ対話技術の１つに過ぎない。ほんの数例ではあるが、ジェスチャコントロール、視線検出及び音声認識といった追加の技術も、段々と一般的になりつつある。全体として、これらの異なる解決策は、知覚感知技術と呼ばれる。

ユーザが１つ以上の深度カメラ及び他の知覚感知技術と対話する、例示の環境を示す図である。複合的な知覚感知技術を使用するスタンドアロンのデバイスを使用してユーザ対話をキャプチャする、例示の環境を示す図である。複数のユーザが、設備の一部となるように設計されたアプリケーションと同時に対話する例示の環境を示す図である。複合的な知覚感知技術を用いるユーザの手及び／又は指の追跡を介するリモートデバイスの制御を示す図である。知覚感知技術が統合される例示の自動車環境を示す図である。追跡され得る手のジェスチャの例のグラフィック図であり、指を広げて、上向きに開いている手を示している。追跡され得る手のジェスチャの例のグラフィック図であり、人差し指を親指と平行に外側に向けて指し、他の指が手のひらの方へ曲げられている手を示している。追跡され得る手のジェスチャの例のグラフィック図であり、親指と中指で輪を作り、他の指が伸ばされている手を示している。追跡され得る手のジェスチャの例のグラフィック図であり、親指と人差し指で輪を作り、他の指が伸ばされている手を示している。追跡され得る手のジェスチャの例のグラフィック図であり、指をくっつけて上方に向けている手を示している。追跡され得る手のジェスチャの例のグラフィック図であり、人差し指と中指を広げて上方に向け、薬指と小指を手のひらの方に丸め、親指を薬指にくっつけている手を示す。検出され得る手のジェスチャの例を示す追加のグラフィック図であり、動的な波状のジェスチャを示している。検出され得る手のジェスチャの例を示す追加のグラフィック図であり、緩く閉じた手のジェスチャを示している。検出され得る手のジェスチャの例を示す追加のグラフィック図であり、親指と人差し指をくっつける手のジェスチャを示している。検出され得る手のジェスチャの例を示す追加のグラフィック図であり、動的なスワイプのジェスチャを示している。キャプチャイメージの一連のフレームを介して、ユーザの手及び指を追跡する例示のプロセスを説明するワークフロー図である。複合的な知覚感知技術からの入力に基づくユーザインタフェース（ＵＩ）フレームワークの例を示す図である。複合的な知覚感知技術に基づくユーザ対話を説明するワークフロー図である。複合的な知覚感知技術に基づく別のユーザ対話を説明するワークフロー図である。複合的な知覚感知技術を使用してユーザアクションに関するデータを取得し、データを解釈するのに使用されるシステムのブロック図である。

複合的な知覚感知技術を使用してユーザのアクションについての情報をキャプチャし、この情報を相乗的に処理するためのシステム及び方法を説明する。知覚感知技術の非限定的な例には、深度センサ及び／又は２次元のカメラを使用するジェスチャ認識、視線検出及び音声若しくはサウンド認識を含む。あるタイプの感知技術を使用してキャプチャされる情報は、しばしば、別のタイプの技術によりキャプチャすることができない。したがって、複合的な知覚感知技術を使用することは、ユーザのアクションについて、より多くの情報をキャプチャすることを可能にする。さらに、複合的な知覚感知技術を使用して取得される情報を相乗的に使用することにより、電子デバイスと対話するユーザにとって、より自然なユーザインタフェースを作成することができる。

本発明の様々な態様及び例示が説明される。以下の説明は、これらの例の説明の完全な理解及び実現のために具体的な詳細を提供する。しかしながら、当業者には、本発明は、これらの詳細の多くを用いることなく実施されてもよいことが理解されよう。加えて、幾つかの周知の構造又は機能は、関連する説明を不必要に曖昧にすることを避けるよう、詳細には示されず、説明されないことがある。

以下で提示される説明で使用される技術は、この技術の特定の具体例の詳細な説明とともに用いられるとしても、最も広範で妥当な手法で解釈されるように意図されている。特定の用語が下記で強調されるとしても、いずれかの限定的な手法で解釈されるように意図される任意の用語は、この発明を実施するための形態の項においてそれ自体が明白かつ具体的に定義されるであろう。

知覚感知技術は、ユーザの挙動及びアクションに関する情報をキャプチャする。概して、これらの技術は、ハードウェアコンポーネント−典型的には何らかのタイプの感知デバイス−を含み、また、感知デバイスから受け取ったデータを解釈するアルゴリズムを実行するための関連する処理モジュールも含む。これらのアルゴリズムは、ソフトウェアで解釈されてもハードウェアで解釈されてもよい。

感知デバイスは、単純なＲＧＢ（赤、緑、青）カメラであってよく、上記アルゴリズムは、ＲＧＢカメラから取得されるイメージに対してイメージ処理を実行して、ユーザのアクションについての情報を取得し得る。同様に、感知デバイスは深度（すなわち「３Ｄ」）カメラであってもよい。これらの双方の場合において、アルゴリズム処理モジュールは、カメラ（ＲＧＢ又は深度ビデオ又はその双方）から取得されるビデオストリームを処理して、ユーザの手及び指の動き、ユーザの頭の動きや顔の表情、あるいはユーザの身体的な動きや姿勢から抽出することができる他の情報を解釈する。

さらに、感知デバイスは、発話された言葉（spoken word）や他のタイプの可聴通信といったサウンドを電気信号へ変換するためのマイクロフォン又はマイクロフォンアレイであってよい。関連するアルゴリズム処理モジュールは、キャプチャされた音響信号を処理して、これを、発話された言葉又は他の通信へと変換する。

追加の一般的な知覚感知技術は、タッチスクリーンであり、この場合、アルゴリズム処理モジュールは、タッチスクリーンによってキャプチャされたデータを処理して、スクリーンに接触するユーザの指の位置及び動きを理解する。

更なる例は視線検出であり、視線検出では、ハードウェアデバイスを使用してユーザが見ている場所についての情報をキャプチャし、アルゴリズム処理モジュールは、このデータを解釈して、モニタ又は仮想シーンにおけるユーザの視線の方向を決定し得る。

これらの知覚感知技術は広範な用途を有しており、例えば音声認識は、電話ベースのクエリに応えるのに使用されてよく、視線検出は、ドライバの意識を検出するのに使用されてよい。しかしながら、本開示では、これらの知覚感知技術は、電子デバイスとのユーザ対話を可能にするというコンテキストにおいて考慮される。

視線検出の解決策はユーザの視線の方向及び向きを決定する。視線検出の解決策では、カメラを使用してユーザの顔のイメージをキャプチャし、次いでユーザの眼の位置を、イメージ処理技術に基づいてカメラのイメージから計算してよい。続いて、これらのイメージを分析して、対象者の視線の方向及び向きを計算し得る。視線検出の解決策はアクティブセンサシステムに依拠することがあり、このアクティブセンサシステムは、カメラに加えてアクティブな照明源を含む。例えばアクティブな照明は、眼の角膜から反射されるパターンをシーン上に投影し、これらの反射されたパターンがカメラによってキャプチャされ得る。そのようなアクティブな照明源への依拠は、技術のロバスト性及び一般的な性能を著しく向上させ得る。

視野検出を、独立した知覚感知技術として使用することができ、これは、特定のタイプのユーザ対話を可能にすることができる。例えばユーザは視野検出に依拠して、コンピュータのデスクトップ上の仮想アイコンを単に所定の時間の間見ることにより、そのアイコンを選択することがある。あるいは、コンピュータのような電子デバイスは、ユーザがウィンドウ内の利用可能なテキストを全て読んだ時を検出して、そのテキストを自動的にスクロールしてもよく、これによりユーザは続けて読むことができる。しかしながら、視線検出は、ユーザの視線の方向を追跡することに限られるため、そのようなシステムは、ジェスチャや仮想オブジェクトの非自明な操作といった、より複雑なユーザ対話の目的を決定することはできない。

タッチスクリーンは、電子デバイスでは非常に一般的になっている知覚感知技術である。ユーザがタッチスクリーンに直接触れると、タッチスクリーンは、スクリーン上でユーザが触れている場所を感知することができる。幾つかの異なるタッチスクリーン技術も利用可能である。例えば抵抗式タッチスクリーンでは、ユーザが１番上のスクリーンを押すと、１番上のスクリーンの下にある第２のスクリーンに接触することになり、次いで２つのスクリーンが接触するユーザの指の位置を検出することができる。容量式タッチセンサは、ユーザの指の接触によって生じた容量の変化を測定する。弾性表面波（surface acoustic wave）システムは、タッチスクリーンを可能にするのに使用される追加の技術である。超音波ベースの解決策も、タッチスクリーンのような経験を可能にするのに使用されることがあり、超音波は、タッチスクリーンのようなユーザの動きを、スクリーンから少し離れて検出することさえもある。様々なこれらの技術及び他の解決策を使用してタッチスクリーン経験を可能にしてもよく、実装される技術の選択は、他の考慮事項の中でも特に、コストや信頼性といった要因や、マルチタッチのような特徴に依存し得る。

タッチスクリーンは、ユーザが、スクリーン上に表示される図形的アイコンに直接触れて、影響を与えることを可能にする。ユーザの接触の位置は、特定のアルゴリズムによって計算され、ユーザインタフェースのようなアプリケーションへの入力として使用される。さらに、タッチスクリーンは、ユーザが、ジェスチャを使用してアプリケーションと対話することを可能にするか、あるいは所定の期間の間に生じる幾つかの連続フレームにわたってユーザの動きが追跡される場合にはアクションを離散させることを可能にすることができる。例えば指のスワイプは、画面に触れている２本の指のピンチのような、ジェスチャである。タッチスクリーンは、これらが、アイテムに手を伸ばして触るための自然な人の挙動をサポートする限り、直感的なインタフェースである。

しかしながら、タッチスクリーンがユーザのアクション及び意図を理解する範囲は限られている。具体的に、タッチスクリーンは概して、ユーザの異なる指を区別することができず、ユーザの２つの手を区別することさえできない。さらに、タッチスクリーンは、指の先の場所のみを検出するため、ユーザがスクリーンに触っている間、そのユーザの指の角度を検出することができない。さらに、ユーザがスクリーンにあまり近接近していない場合、あるいはスクリーンが特に大きい場合、画面に手を伸ばして触ることはユーザにとって快適でない可能性がある。

音声認識は、可聴なジェスチャを感知するための更に別の知覚感知技術である。音声認識は、サウンドを電気信号に変換する、マイクロフォンやマイクロフォンアレイといったトランスデューサ又はセンサに依拠する。トランスデューサは、ユーザの声のような音響信号をキャプチャし、（ソフトウェア又はハードウェアのいずれかの）音声認識アルゴリズムを用いて信号を処理して、これを個別の単語及び／又はセンテンスに変換する。

音声認識は、電子デバイスと対話する直感的かつ効果的な方法である。音声を通して、ユーザは、複雑な命令を容易に電子デバイスに伝えることができ、またシステムからのクエリに対しても迅速に応答することができる。しかしながら、最新のアルゴリズムでも、例えば雑音の多い環境ではユーザの音声の認識に失敗することがある。加えて音声だけの関連性は、グラフィカルなユーザ対話にとって、特にスクリーン上でカーソルを動かすことのような機能を考慮し、ウィンドウをサイズ調整することのように視覚的要素が強い機能を置き換えるときに、明らかに限定的である。

追加の効果的な知覚感知技術は、カメラからキャプチャされる入力に基づいており、このデータを解釈して、ユーザの動き、特にユーザの手と指の動きを理解する。ユーザのアクションを表すデータは、従来的なＲＧＢカメラと深度カメラのいずれかのカメラによってキャプチャされる。

ＲＧＢ（「赤・緑・青」）カメラは、「２Ｄ」カメラとしても知られるが、シーンの諸領域からの光をキャプチャし、この光を２Ｄのピクセルアレイ上に投影する。ここで、各ピクセル値は、そのシーンの関連する領域における赤、緑、青色の光の量に対応する３つの数字によって表される。イメージ処理アルゴリズムがＲＧＢビデオストリームに適用され、ビデオ内のオブジェクトを検出して追跡し得る。特に、ＲＧＢビデオストリームからユーザの手と顔を追跡することが可能である。しかしながら、ＲＧＢカメラによって生成されるデータは、正確かつロバストに解釈するのが難しいことがある。具体的には、イメージの背景から、イメージ内のオブジェクトを区別することは難しい可能性があり、これは、そのオブジェクトが相互を隠蔽するときに特にそうである。加えて、照明条件に対するデータの感度は、データの値における変化が、オブジェクトの位置又は向きにおける変化ではなく、光の効果に起因し得ることを意味する。これらの複数の問題の累積的な効果により、一般的に、複雑な手の形態をロバストで信頼性ある手法で追跡することができないことになる。対照的に、深度カメラは、非常に正確でロバストなオブジェクトの追跡をサポートすることができるデータを生成する。具体的に、深度カメラからのデータを使用して、複雑な手の関節の場合も、ユーザの手と指を追跡することができる。

深度カメラは、毎秒複数のフレームで、深度イメージ、一般的には、一連の連続する深度イメージをキャプチャする。各深度イメージは、ピクセル毎の深度データを含む、すなわちイメージ内の各ピクセルは、撮像されるシーンの対応するオブジェクトとカメラとの間の距離を表す値を有する。深度カメラは、時々３次元（３Ｄ）カメラとも呼ばれる。深度カメラは、他のコンポーネントの中でも特に、深度カメラセンサ、光学レンズ及び照明源を含み得る。深度イメージセンサは、幾つかの異なるセンサ技術のうちの１つに依拠し得る。特に、これらのセンサ技術は、「ＴＯＦ」として知られる飛行時間（time-of-flight）（スキャニングＴＯＦ又はアレイＴＯＦを含む）、構造化光、レーザースペックルパターン技術、立体カメラ、アクティブ立体センサ及び陰影（shape-from- shading）技術等である。これらの技術は、自身の照明源を供給するアクティブセンサに依拠する。対照的に、立体カメラのような受動的センサは、自身の照明源を供給せず、代わりに周辺の環境光に依存する。深度カメラに加えて、カメラは、従来の色カメラが行うのと同じ方法で色（「ＧＲＢ」）データを生成してもよく、色データを、処理のために深度データと組み合わせることができる。

深度カメラによって生成されるデータは、ＲＧＢカメラによって生成されるデータに対して幾つかの利点を有する。特に、深度データは、前景のオブジェクトからシーンの背景をセグメント化するという問題をかなり単純化し、この深度データは概して、光条件の変化に対してロバストであり、隠蔽を効果的に解釈するのに使用することができる。深度カメラを使用すると、ユーザの手と指の双方をリアルタイムで識別して追跡することが可能であり、これは複雑な手の構成でさえも可能である。

「System and Method for Close-Range Movement Tracking」という名称の米国特許出願第１３／５３２，６０９号は、深度カメラからキャプチャされる深度イメージに基づいてユーザの手と指を追跡し、追跡されたデータを使用してデバイスとのユーザの対話を制御する方法を説明しており、この出願は、これによりその全体が本開示に組み込まれる。２０１２年４月６日出願の「System and Method for Enhanced Object Tracking」という名称の米国特許出願第１３／４４１，２７１号は、飛行時間（ＴＯＦ）カメラからの深度データと振幅データとの組合せを使用して、ユーザの身体の１つ以上の部分を識別及び追跡する方法を説明しており、この出願は、これにより、その全体が本開示に組み込まれる。「System and Method for User Interaction and Control of Electronic Devices」という名称の米国特許出願第１３／６７６，０１７号は、深度カメラに基づくユーザ対話の方法を説明しており、この出願は、これによりその全体が本開示に組み込まれる。

カメラの位置は、カメラを使用してユーザの動きを追跡するときに重要なファクタである。本開示で説明される実施形態の一部では、カメラの特定の位置と、その位置からのカメラのビューを仮定する。例えばラップトップでは、カメラを、ディスプレイスクリーンの下部又は上部に配置することが望ましいことがある。対照的に、自動車の用途では、ドライバの手を見下ろすように、カメラを自動車の天井に配置することが望ましいことがある。

この開示の目的では、「ジェスチャ認識」という用語は、ユーザによって行われるアクション又はアクションのセットを識別する方法を指し、このようなアクションには、特定の動き、ポーズの形態、視線（注視）、発話された言葉及びサウンドの生成が含まれるが、これらには限定されない。例えばジェスチャ認識は、特定の方向で特定の速度での手のスワイプ、タッチスクリーン上で特定の形状をトレースする指、手の振り、発話されたコマンド及び特定の方向の視線を識別することを指してよい。ジェスチャ認識は、まず、潜在的に上記の知覚感知技術のいずれかに基づいて、入力データをキャプチャし、キャプチャされたデータを分析して、ユーザの手と指の関節、ユーザの視線の方向及び／又はユーザの発話した言葉といった、関心対象の特徴を識別し；続いて、キャプチャされたデータを分析して、ユーザによって実行されたアクションを識別することにより達成される。

我々は、ユーザのアクション及び意図についての情報を抽出するのに使用され得る複数の知覚感知技術を上記に提示した。これらの知覚感知技術は、ユーザが他の人々と自然に対話する方法により良く似た対話パラダイムをユーザに提供する、という共通の目的を共有する。実際、人々は、ビジュアルキューのようなジェスチャを使用し、話すことやオブジェクトに接触すること等により、同時に幾つかの方法を通じて通信する。したがって、複合的な知覚感知技術を相乗的に組み合わせること、これらの多く、あるいはこれらの全てをも同時に用いるユーザ対話経験を構築することは、優れたユーザインタフェース（ＵＩ）経験を届けることができる。個々の知覚感知技術について強力なユーザ経験を作成することには多くの努力がつぎ込まれているが、複合的な知覚感知技術に基づく魅力的なユーザ経験を構築することには、今日まで比較的努力があまりなされていない。

特に、異なる知覚感知技術によってキャプチャされる情報は、大体において相互排他的である。すなわち、特定の技術によってキャプチャされる情報のタイプは、他の技術ではキャプチャすることができないことが多い。例えばタッチスクリーン技術は、指がスクリーンに接触した時を正確に判断することができるが、どの指が接触したか、あるいはタッチスクリーンへの接触の間の手の形態は正確に判断することができない。さらに、３Ｄカメラベースの追跡に使用される深度カメラは、ユーザに面するスクリーンの下部に配置され得る。このシナリオでは、カメラの視野は、スクリーン自体を含まないことがあるので、ビデストリームデータに対して使用される追跡アルゴリズムは、指がいつ画面に接触するかを計算することができない。明らかに、タッチスクリーン及びカメラベースの手の追跡技術のいずれも、ユーザの視線の方向を検出することができない。

さらに、ユーザ経験を設計する際の一般的な懸念事項は、時々明確でないことがあるユーザの意図を推測することである。これは、ユーザのアクションの入力のための知覚感知技術に依拠するとき、そのような入力デバイスが誤検出の原因となり得るので、特に当てはまる。この場合において、他の知覚感知技術を使用してユーザのアクションを確認することができ、したがって、誤検出の発生を制限することができる。

本開示は、複数のモダリティにより取得される情報を組み合わせて、これらの異なる入力を組み込む自然なユーザ経験を作成するための幾つかの技術を説明する。

図１は、近距離にある２つのモニタとのユーザ対話を示す図である。２つのモニタそれぞれに深度カメラがあってよく、２つのモニタのうちの１つのみが深度カメラを有していてもよい。いずれの場合も、深度カメラとともに１つ以上の追加の知覚感知技術を使用してよい。例えば２つのモニタの一方又は双方に組み込まれてユーザの音声をキャプチャする１つ以上のマイクロフォンが存在してもよく、モニタスクリーンがタッチスクリーンであってもよく、また、モニタに組み込まれる視線検出技術が存在してもよい。ユーザは、自身の手及び指を動かすことにより、話すことにより、モニタに触れることにより、そしてモニタの異なる領域を見ることにより、スクリーンと対話することができる。これらの場合の全てにおいて、異なるハードウェアコンポーネントを使用してユーザのアクションをキャプチャし、そのアクションからユーザの意図を推定する。ユーザの対する何らかの形のフィードバックがスクリーン上に表示される。

図２は、複合的な知覚感知技術を用いるスタンドアロンデバイスを使用してユーザの対話をキャプチャする、例示の環境を示す図である。スタンドアロンデバイスは、その周辺に配置される単一の深度カメラ又は複数の深度カメラを含むことができる。さらに、マイクロフォンをデバイス内に組み込んで、ユーザの音声をキャプチャすることができ、かつ／又は視線検出技術をデバイス内に組み込んでユーザの視線の方向をキャプチャしてもよい。個々人が、自身の手及び指の動きを通して、音声により、あるいはスクリーンの特定の領域を見ることで、その環境と対話することができる。異なるハードウェアコンポーネントを使用して、ユーザの動きをキャプチャし、ユーザの意図を推定する。

図３は、複数のユーザが、設備の一部となるように設計されたアプリケーションと同時に対話する、例示の環境を示す図である。複合的な知覚感知技術が、ユーザの対話をキャプチャするのに使用されてよい。特に、ユーザの音声を検出するようディスプレイに組み込まれたマイクロフォンが存在してよく、ディスプレイスクリーンがタッチスクリーンであってよく、かつ／又はディスプレイに組み込まれた視線検出技術が存在してもよい。各ユーザは、自身の手及び指を動かすことにより、話すことにより、タッチスクリーンディスプレイを触ることにより、そしてディスプレイの異なる領域を見ることにより、ディスプレイと対話し得る。異なるハードウェアコンポーネントを使用してユーザの動き及び音声をキャプチャし、ユーザの意図を推定する。ユーザの対する何らかの形のフィードバックがディスプレイスクリーン上に表示される。

図４は、リモートデバイスの制御を示す図であり、ここで、ユーザ４１０は、深度カメラを含むハンドヘルドデバイス４２０を保持している間に自身の手及び指４３０を動かす。深度カメラは、ユーザの動きのデータをキャプチャし、追跡アルゴリズムが、キャプチャされたビデオストリームに対して実行されてユーザの動きを解釈する。マイクロフォン、タッチスクリーン及び視線検出技術といった複合的な知覚感知技術が、ハンドヘルドデバイス４２０及び／又はスクリーン４４０内に組み込まれてよい。異なるハードウェアコンポーネントを使用してユーザの動き及び音声をキャプチャし、ユーザの意図を推定する。ユーザの対する何らかの形のフィードバックが、ユーザの正面のスクリーン４４０上に表示される。

図５は、知覚感知技術が統合される例示の自動車環境を示す図である。自動車に統合されたカメラが、ディスプレイスクリーンの近く又は自動車の天井に存在してよく、これにより、ユーザの動きを明確にキャプチャすることができる。加えて、ディスプレイスクリーンはタッチスクリーンであってよく、また、自動車のコンソールに統合された視線検出技術が存在してもよく、このため、ユーザの視線の方向を決定することができる。さらに、音声認識技術もこの環境内に統合されてよい。

図６Ａ〜図６Ｆは、カメラ追跡アルゴリズムによって検出することができる幾つかの例示のジェスチャの図である。図６Ａは、指を広げて、上向きに開いた手を示し；図６Ｂは、人差し指が親指と平行に外側を指し、他の指が手の平の方へ曲げられている手を示し；図６Ｃは、親指と中指で輪を作り、他の指が伸ばされている手を示し；図６Ｄは、親指と人差し指で輪を作り、他の指が伸ばされている手を示し；図６Ｅは、指をくっつけて上方に向けている手を示し；図６Ｆは、人差し指と中指を広げて上方に向け、薬指と小指を手のひらの方に丸めて、親指を薬指にくっつけている手を示す。

図７Ａ〜図７Ｄは、カメラ追跡アルゴリズムによって検出することができる追加の４つの例示のジェスチャの図である。図７Ａは、動的な波状のジェスチャを示し；図７Ｂは、緩く閉じた手のジェスチャを示し；図７Ｃは、親指と人差し指をくっつけている手のジェスチャを示し；図７Ｄは、動的なスワイプのジェスチャを示す。図面内の矢印は、指及び手の動きを示し、この動きが特定のジェスチャを定義する。これらのジェスチャの例は、限定であるように意図されていない。多くの他のタイプの動き及びジェスチャもカメラ追跡アルゴリズムによって検出することができる。

図８は、キャプチャされる深度イメージの一連のフレームを介して、ユーザの手及び指を追跡する例示のプロセスを説明するワークフロー図である。段階８１０において、オブジェクトがセグメント化されて、背景から分離される。これを、例えば深度値を閾値処理することにより、あるいはオブジェクトの輪郭を前のフレームから追跡して、現在のフレームからの輪郭に合致させることにより行うことができる。一部の実施形態において、ユーザの手は、深度カメラから取得される深度イメージデータから識別されて、この手が、背景から分離される。望まれない雑音及び背景データは、この段階で深度イメージから除去される。

続いて、段階８２０において、深度イメージデータ及び関連する振幅データ及び／又は関連するＲＧＢデータにおいて特徴が検出される。これらの特徴は、一部の実施形態では、指の先、指の付け根が手のひらに接するポイント及び検出可能な任意の他のイメージデータであってよい。次いで、８２０において検出された特徴を使用して、段階８３０において、イメージデータ内の個々の指を識別する。

段階８４０において、指先の３Ｄポイント及び指の関節の一部を使用して、手のスケルトンモデルを構築してもよい。スケルトンモデルは追跡の品質を更に改善し、隠蔽又は失われた特徴のため、あるいは手の一部がカメラの視野から外れているために、前の段階では検出されなかった関節へ位置を割り当てるのに使用され得る。さらに、追跡結果を改善する更なる情報を追加するために、運動学的モデルがスケルトンの一部として適用されてもよい。「Model-Based Multi- Hypothesis Object Tracker」という名称の米国特許出願第１３／７６８，８３５号に、深度カメラによりキャプチャされたデータに基づく手及び指の形態を追跡するためのシステムが説明されており、これによりその全体が組み込まれる。

次に図９への参照を行う。図９は、複合的な知覚感知技術からの入力に基づくユーザインタフェース（ＵＩ）フレームワークの例を示している。

段階９１０において、様々な知覚感知技術からの入力を取得する。例えば深度イメージを、深度カメラから取得し、原イメージ（raw image）を視線検出システムから取得し、原データがタッチスクリーン技術から取得し、そして音響信号をマイクロフォンから取得することがある。段階９２０において、これらの入力が、それぞれのアルゴリズムにより並行に処理される。

ユーザの動き（接触、手／指の動き及び視線の動き）を表し、加えてユーザの音声も表すことがある、感知データは次いで、以下に説明されるように、２つの並行な経路で処理される。段階９３０において、ユーザの動きを表しているデータが、対象者の手、指及び／又は眼の動きを、仮想カーソルにマップ又は投影するのに使用され得る。対象者に対するフィードバックを提供するよう、情報がディスプレイスクリーン上に提供され得る。仮想カーソルは、矢印や手の表示といった、簡単な図形的要素であってよい。また、単に、ＵＩ要素の色を変更することやそのＵＩ要素の後ろに光彩（glow）を投影することにより、（スクリーン上のカーソルの明示的な図形的表示を用いずに）ＵＩ要素を強調表示するか識別してもよい。下述されるように、仮想カーソルを使用して、操作されるべきオブジェクトとしてスクリーンを選択してもよい。

段階９４０において、感知されたデータが、ジェスチャ認識コンポーネントによって使用されて、対象者によって実行され得るジェスチャを検出する。ジェスチャ認識コンポーネントは、「Method and System for Gesture Classification」という名称の米国特許第７，９７０，１７６号及び「Method and System for Gesture Recognition」という名称の米国特許出願第１２／７０７，３４０号に説明される要素を含んでもよい。これらの文献は、参照によってその全体が本明細書に組み込まれる。このコンテキストでは、ジェスチャは、知覚感知技術のいずれかからの入力に基づいて検出され得る。特に、ジェスチャは、手及び指の追跡又はユーザの視線の追跡に基づいて、あるいはユーザの話した言葉に基づいて検出され得る。イベントをトリガするジェスチャには２つのカテゴリ：すなわち、選択ジェスチャと操作ジェスチャという、２つのカテゴリが存在する。選択ジェスチャは、指定のＵＩを選択すべきことを指示する。

一部の実施形態では、選択ジェスチャは、手のつかむ動き（grabbing movement）であり、この場合、指は、対象者がＵＩ要素を取り上げているかのように、手のひらの中央に向かって動く。一部の実施形態において、選択ジェスチャは、対象者が選択したいＵＩ要素を仮想カーソルが囲むように、指又は手を円状に動かすことによって行われる。一部の実施形態において、選択ジェスチャは、「これ」又は「あれ」といった単語やフレーズを話すことで行われる。一部の実施形態において、選択ジェスチャは、所定の位置でタッチスクリーンに触れることにより行われる。一部の実施形態において、選択ジェスチャは、所定の時間の間、視線をスクリーン上の位置へ直接向けることによって行われる。当然、検出が、深度カメラ、ＲＧＢカメラ、視線検出技術、タッチスクリーン、音声認識技術又は任意の他の知覚感知技術に依拠するかどうかに関わらず、他のジェスチャが選択ジェスチャとして定義されてもよい。

段階９６０において、システムは、選択ジェスチャが段階９４０において検出されたかどうかを評価し、実際、選択ジェスチャが検出されていた場合は、段階９８０において、システムは、仮想カーソルが現在１つ以上のＵＩ要素にマップされるかどうかを判断する。仮想カーソルがＵＩ要素の上に置かれるとき、仮想カーソルはＵＩ要素にマップされる、仮想カーソルがＵＩ要素にマップされている場合、段階９９５において、そのＵＩ要素が選択され得る。仮想カーソルがＵＩ要素にマップされていない場合、選択ジェスチャが段階９６０で検出されていたとしても、いずれのＵＩ要素も選択されない。

選択ジェスチャに加えて、もう１つのカテゴリのジェスチャ、すなわち、操作ジェスチャが定義される。操作ジェスチャは、何らかの方法でＵＩ要素を操作するのに使用され得る。

一部の実施形態において、操作ジェスチャは、スクリーン上に追加の情報を表示するよう、ユーザが自身の手を回転させ、これにより選択されているＵＩ要素を回転させることによって行われる。例えばＵＩ要素がファイルのディレクトリである場合、ディレクトリを回転させることは、対象者が、そのディレクトリ内に含まれるファイルの全てを見ることを可能にする。操作ジェスチャの追加の例には、ＵＩ要素を上下逆さまにして、例えば仮想デスクトップ上へ向けて、そのコンテンツを空にすること；ＵＩ要素を振って、そのコンテンツを整理し直すか、他の効果を持たせること；対象者が「内側を見る」ことができるように、ＵＩ要素を傾けること（tipping）；例えばＵＩ要素を最小化するという効果を持たせるように、ＵＩ要素を絞ること（squeezing）；あるいはＵＩ要素を別の場所に移動させることが含まれ得る。一部の実施形態において、スワイプジェスチャは、選択されたＵＩ要素をリサイクルビンに移動させることがある。一部の実施形態において、操作ジェスチャは、例えばスクリーンの周囲のアイコンを移動させるユーザの視線により行われる。一部の実施形態において、操作ジェスチャの命令は、音声に基づいて与えられる。例えばユーザは、ＵＩ要素を傾けてそのコンテンツを見るために「中を見る」と言ってもよく、あるいは「最小化する」と言って、ＵＩ要素を最小化させてもよい。

段階９５０において、システムは操作ジェスチャが検出されたかどうかを評価する。操作ジェスチャが検出された場合、次いで段階９７０において、システムは、以前に選択されたＵＩ要素が存在するかどうかを確認する。ＵＩ要素が選択されていた場合、次いで段階９９０において、実行されたジェスチャについて特定の定義済みの挙動及びシステムのコンテキストに従って、ＵＩ要素が操作され得る。一部の場合において、それぞれの指先により識別される１つ以上のそれぞれのカーソルは、１本又は複数の指による、ナビゲーション、コマンドの入力又はスクリーンアイコンやオブジェクト、データの他の操作を有効にするように管理され得る。ＵＩ要素が選択されていなかった場合は、段階９５０において操作ジェスチャが検出されていたとしても、いずれのＵＩ要素も操作されない。

一部の実施形態において、仮想カーソルは、ユーザの視線の方向に基づいて制御され、知覚感知技術は、ユーザの視線の方向を追跡する。仮想カーソルが仮想オブジェクトにマップされ、ユーザがピンチジェスチャを実行するとき、あるいはユーザがグラブジェスチャを実行するとき、その仮想オブジェクトが選択される。次いで、仮想オブジェクトは、ユーザがその仮想オブジェクトを移動させたいと望む方向を注視することで、ユーザにより移動される。

一部の実施形態において、仮想カーソルは、ユーザの視線の追跡された方向に基づいて制御され、次いでオブジェクトは、手によって行われる通りにピンチ又はグラブジェスチャを通じて、ユーザにより選択される。その後、選択されたオブジェクトは、ユーザの一方又は双方の手の動きに基づいて、スクリーンの周囲を移動される。

一部の実施形態において、仮想カーソルは、ユーザの手及び指の位置の追跡された位置に基づいて制御され、ユーザの音声内の特定のキーワードを使用してオブジェクトを選択する。例えばユーザは、スクリーン上のあるオブジェクトをポイントし、「これをあちらに置く（Put this over there）」と言うことができ、このユーザが「これ（this）」という言葉を言ったときにユーザがポイントしているオブジェクトが、ユーザが「あちらに（there）」という言葉を言ったときにユーザがポイントしているスクリーン上の位置に、移動される。

図１０を参照する。図１０は、複合的な知覚感知技術に基づくユーザ対話を説明するワークフロー図である。特に、システムは、タッチスクリーンとカメラ（ＲＧＢ又は深度カメラのいずれか又は双方）を含む。段階１０１０において、タッチスクリーンから入力を取得する。次いで、タッチスクリーン入力が、段階１０３０において、タッチスクリーン処理アルゴリズムをタッチスクリーン入力に適用して、ユーザによって触れられたスクリーン上の位置を計算する、タッチスクリーン追跡モジュールにより処理される。

タッチスクリーン処理アルゴリズムの出力として、段階１０５０において、接触が検出され、タッチスクリーン追跡モジュールによって計算されるような、この接触の説明−スクリーン位置及び圧力量等−が保存される。一部の実施形態において、この接触の説明は、１本の指がスクリーンに接触していること、であってよい。一部の実施形態において、この接触の説明は、２本の指が、互いに近接した位置でスクリーンに接触し、ピンチジェスチャを形成していること、であってよい。一部の実施形態において、この接触の説明は、４本又５本の指が、相互に近接してタッチスクリーンに接触していること、であってもよい。

タッチスクリーン入力が段階１０１０において取得される一方、カメラからの入力は、段階１０２０において取得される。カメラのビデオストリームは、段階１０４０において、カメラ処理アルゴリズムをカメラ入力に適用してユーザの手の形態を計算する、カメラ追跡モジュールによって処理される。

続いて、カメラ処理アルゴリズムの出力として、ユーザの腕の位置が、段階１０６０において計算され、ユーザのどちらの手がスクリーンに接触したかについても識別する。次いで、カメラ処理アルゴリズムの出力がモニタされ、スクリーンに接触した手がスクリーンから離れて戻ると、このスクリーンに接触した手を検出する１０７０。一部の実施形態において、カメラは、タッチスクリーンのクリアなビューを有するように配置されることがあり、この場合、手は、タッチスクリーンが接触された瞬間も可視である。一部の実施形態において、カメラはスクリーンの上部又は下部のいずれかに配置され、ユーザの手がスクリーンに近接近しているとき、このカメラは、ユーザの手のクリアなビューを有しないことがある。この場合、ユーザがタッチスクリーンから離れ始めて、手がカメラの視野に入るまで、この手は検出されない可能性がある。双方のシナリオにおいて、手が検出されると、段階１０８０にいて、タッチスクリーンが接触された時と、手の指が検出された時の時間の間に、損失フレームがある場合、例えばカメラがタッチスクリーンのクリアなビューを有していない場合、損失フレームにおける指の位置は、段階１０５０において計算されるタッチスクリーンの位置の既知の位置と、段階１０７０において計算される指の既知の位置との間で、指の３Ｄ位置を補間することにより計算される。補間は線形であってよく、あるいはスパインや、フレーム間のデータを補間する他の受容される方法に基づくものであってよい。

次いで、指の３Ｄ位置の完全なセットがジェスチャ認識モジュールに転送され、ジェスチャ認識モジュールは、段階１０９０において、フレームのセットに対する指の３Ｄ位置に基づいて、ジェスチャが実行されたかどうかを判断する。

一部の実施形態において、タッチスクリーンに接触し、タッチスクリーンから離れるという指のジェスチャを検出することができる。一部の実施形態において、このジェスチャは、指の動きの速さに依存することがあり、スクリーンから離れる指の素早い動きは、スクリーンからのある応答をアクティブにし、一方、スクリーンから離れる指のゆっくりとした動きは、システムからの別の応答をアクティブにする。一部の実施形態において、検出されるジェスチャはスクリーンでのピンチであってよく、その後、指は、手がスクリーンから離れる間、開いている。一部の実施形態において、検出されるジェスチャは、グラブ動作であってもよく、この場合、手の指は手のひらに近く、そして指は、手がタッチスクリーンから離れるときに手のひらから遠くへと開いていく。

図１１を参照すると、図１１は、複合的な知覚感知技術に基づく別のユーザ対話を説明するワークフロー図である。特に、システムは、カメラ（ＲＧＢ又は深度カメラのいずれか又はその双方）及びタッチスクリーンを含む。段階１１１０において、入力がカメラから取得される。次いで段階１１３０において、カメラ入力は、カメラからビデオストリームを受け取って手及び指の形態を計算する、カメラ追跡モジュールによって処理される。段階１１５０において、手が検出されて、手の関節の３Ｄ位置が、これらがカメラによって追跡されている限り保存される。

カメラ入力は段階１１１０において取得されるが、段階１１２０においてタッチスクリーンからの入力が取得される。次いで、段階１１４０において、タッチスクリーン入力を処理して、接触されたスクリーン上の位置を計算する。段階１１６０において、タッチスクリーン上で検出される接触が存在することがある。接触が検出されると、段階１１７０において、最新の既知の手の関節の位置と、タッチスクリーン上の検出されたタッチとの間のデータの全ての損失フレームが補間され得る。この補間は、線形であってよく、あるいはスパインや、フレーム間のデータを補間する他の受容される方法に基づくものであってもよい。続いて、段階１１８０において、フレームデータの完全なセットをジェスチャ認識モジュールにより使用して、ジェスチャが検出されるかどうかを判断する。

一部の実施形態において、タッチスクリーンの領域に向かって移動し、その領域でスクリーンに接触するという手のジェスチャが検出され得る。一部の実施形態において、このジェスチャは、タッチスクリーンに近づくときの手の速度に依存し得る。一部の実施形態において、特定のアクションを指示するジェスチャが実行されることがあり、次いで、そのアクションが、続いて接触される全てのアイコンに適用される。例えば新しいフォルダを開けるというジェスチャが実行されることがあり、このジェスチャが実行された後に接触される全てのオブジェクトが、開いたフォルダへと移動される。一部の実施形態において、カメラ及びカメラ追跡モジュールによって決定されるような、タッチスクリーンに接触する際のユーザのアクションについての追加の情報が組み込まれてもよい。例えばスクリーンに接触するときのユーザの指の角度は、カメラ追跡モジュールによって計算されてよく、このデータはアプリケーションによって考慮され、利用され得る。別の例では、カメラ追跡モジュールは、どちらの手のどの指がスクリーンに接触しているかを識別することができ、この追加の情報をアプリケーションに組み込むことができる。

本開示は、ユーザの意図の補間における誤検出の可能性を制限することにも使用され得る。一部の実施形態において、仮想オブジェクトは、ピンチ又はグラブジェスチャといった、カメラによって識別可能なジェスチャにより選択されるが、オブジェクトは、選択しようとするオブジェクトを見ることのように、ユーザの視線が同時に検出される場合にのみ選択される。一部の実施形態において、自動車には、ユーザの口頭の指示を解釈する音声認識技術と、ユーザの手のジェスチャを検出するカメラが備えられることがある。ユーザの音声の誤検出は、システムをアクティブ化するのにジェスチャの実行を必要とすることによって、制限され得る。例えばユーザは「コール（call）」という音声コマンドを使用し、次いで電話のディレクトリ内で名前を指定することにより、ある人に電話を掛けるよう、電話機に指示することが可能である。しかしながら、電話機は、ユーザが、ユーザの意図を明確化する予め定義されたジェスチャを実行する場合にのみ、その通話を開始することになる。一部の実施形態において、カメラベースの追跡を使用して、複数のユーザのうちのどのユーザが話しているのかを識別し、特に雑音の多い環境における音声認識処理の品質を向上させ得る。

「System and Method for Automatically Defining and Creating a Gesture」という名称の米国特許出願第１３／３１０，５１０は、関心対象のジェスチャを実行する対象者を記録し、機械学習アルゴリズムに依拠して、トレーニングデータにおける対象者のアクションに基づいてそのジェスチャを分類することにより、ジェスチャを作成するための方法を開示している。この出願は、これによりその全体が本開示に組み込まれる。本開示において、タッチスクリーンや音声認識及び視線検出といった追加の知覚感知技術によって感知されるユーザのアクションは、ジェスチャの作成に含まれてもよい。例えばジェスチャの定義は、手、指及び／又は他の身体部分の動きに加えて、タッチスクリーン上の特定の数及び特定の位置の接触、発話される特定のフレーズやサウンド、そして実行されるべき特定の視線を含むことができる。加えて、テストシーケンス及びトレーニングシーケンスを、複合的な知覚感知技術によって検出されるべきユーザアクションについて記録することができる。

図１２は、複合的な知覚感知技術を使用してユーザアクションに関するデータを取得し、このデータを解釈するのに使用されるシステムのブロック１２００を示す。システムは、１つ以上のプロセッサ１２１０と、メモリユニット１２２０と、ディスプレイ１２３０と、タッチスクリーン１２３５、深度カメラ１２４０、マイクロフォン１２５０及び／又は視線検出デバイス１２６０を含み得る感知技術とを含んでよい。

プロセッサ１２１０は、複数の感知技術により取得されるデータを処理するためのアルゴリズムを実行するのに使用され得る。プロセッサ１２１０はまた、例えばディスプレイ１２３０上に、ユーザへのフィードバックを提供することもできる。メモリ１２２０は、これらに限られないが、ＲＡＭ、ＲＯＭ及び揮発性と不揮発性メモリの任意の組合せを含み得る。

感知技術は、これらに限られないが、ディスプレイ１２３０の一部であるタッチスクリーン１２３５、深度カメラ１２４０及び／又は２Ｄカメラ、マイクロフォン１２５０のような音響感知デバイス、並びに／あるいは視線検出システム１２６０を含むことができる。

＜結論＞
文脈上明確に他に要求されない限り、本説明及び特許請求の範囲を通じて、「備える」「備えている」及び同様の語は、排他的又は排他的な意味とは反対に、包含的な意味（すなわち、「限定ではなく、これを含む」という意味に）解釈されるべきである。本明細書で使用されるとき、「接続される（connected）」、「結合される（coupled）」という用語及びその任意の変化形は、２つ以上の要素の間の直接又は間接的な任意の接続又は結合を意味する。そのような要素間の結合又は接続は、物理的なものとすることも、論理的なものとすることも、あるいはその組合せとすることもできる。加えて、本出願で使用されるとき、「ここで」、「上記で」、「下記で」という用語又は同様の趣旨の用語は、この出願を全体として指しており、本出願のいずれかの特定の部分を指してはいない。文脈が許容する場合、上記の詳細な説明において単数形又は複数形を使用している用語は、それぞれ、その複数形又は単数形も含み得る。２つ以上の項目の列挙に関連する「又は（若しくは、あるいは）」という用語は、この用語についての以下の解釈の全てを網羅する。すなわち、列挙内の項目のいずれか、列挙内の項目の全て及び列挙内の項目の任意の組合せを網羅する。

本発明の実施例についての上記の詳細な説明は、排他的であるようには意図されておらず、本発明を上記で開示される正確な形式に限定するようにも意図されていない。例示の目的で、本発明についての具体例を上記で説明しているが、関連する分野の当業者には認識されるように、本発明の範囲内において様々な均等な修正が可能である。本出願では、処理及びブロックを所与の順序で提示しているが、代替的な実装は、異なる順序で実行されるステップを有するルーチンを実施し、あるいは異なる順序のブロックを有するシステムを用いてもよい。一部の処理又はブロックを削除、移動、追加、分割、結合及び／又は代替及び副次的組合せを提供するように修正してもよい。また、処理及びブロックは、時々、順次実行されるように示されているが、これらの処理又はブロックは、代わりに平行に実行又は実装されてもよく、あるいは異なる時に実行されてもよい。さらに、ここで示される任意の具体的な数字は例示に過ぎない。代替的な実装は異なる値又は範囲を用いてもよいことが理解される。

本明細書で提供される様々な例示及び教示を、上述のシステム以外のシステムに適用することもできる。上述の様々な例の要素及び動作を組み合わせて、本発明の更なる実装形態を提供することができる。

添付の提出書面にリストされ得るものも含め、上記した全ての特許及び特許出願及び他の参照文献は、参照によってその全体が本明細書に組み込まれる。本発明の態様は、本発明の更なる実装を提供するために、そのような文献に含まれるシステム、機能及び概念を用いるよう必要に応じて修正され得る。

上記の詳細な説明から、本発明に対するこれら及び他の変更を行うことができる。上述の説明では、本発明の特定の例を説明し、考えられるベストモードを説明したが、上記の文書においてどのような詳細が示されるとしても、本発明は多くの方法で実施することが可能である。システムの詳細は、その特有の実装により大幅に変化し得るが、依然として本明細書において開示される本発明により包含され得る。上記のように、本発明の特定の特徴又は態様を説明するときに使用される特定の用語は、本明細書においてその用語が、その用語に関連する本発明の任意の具体的な特性、特徴又は態様に制限されるように、再定義されていることを示唆するものと解釈されるべきではない。一般に、特許請求の範囲において使用される用語は、上記の発明の詳細な説明の項において、その用語を明示的に定義していない限り、本発明を明細書に開示される具体的な例に限定するように解釈されるべきではない。したがって、本発明の実際の範囲は、開示されている例だけでなく、特許請求の範囲の下において、本発明を実施又は実装する均等な方法の全ても含む。

本発明の特定の態様が、請求項の形式で提示されるが、出願人は、任意の数の請求項の形式の本発明の様々な態様を考慮している。例えば米国特許法３５Ｕ．Ｓ．Ｃ．第１１２条第６項によるミーンズ・プラス・ファンクションクレームとして本発明の１つの態様のみを記載しているが、他の態様も同様にミーンズ・プラス・ファンクションクレームとして具現化されてよく、あるいはコンピュータ読取可能媒体のような他の形で具現化されてもよい。（米国特許法３５Ｕ．Ｓ．Ｃ．第１１２条第６項で取り扱われるよう意図される全てのクレームは「means for」）という言葉で始まる。）したがって、出願人は、本出願を出願した後、本発明の他の態様について、そのような追加の請求項の形を追求するよう追加の請求項を追加する権利を有する。

Claims

複数の知覚感知技術を使用してユーザのアクションについてのデータを取得するステップと；
前記取得したデータを分析して、前記ユーザのアクションからジェスチャを識別するステップと；
を含み、前記ジェスチャは、前記複数の知覚感知技術によって検出可能な情報に基づいて定義される、
方法。
前記ジェスチャは、ユーザインタフェースと対話して電子デバイスを制御するように、前記ユーザにより実行される、
請求項１に記載の方法。
前記複数の知覚感知技術は、視線検出システムと深度カメラを含み、前記ユーザインタフェースは、カーソルを含み、さらに、前記ジェスチャは、スクリーン上の前記カーソルを注視し、前記ユーザの視線を前記カーソルから前記スクリーン上の仮想オブジェクトへ移動させて前記カーソルを前記仮想オブジェクトにマップし、前記スクリーン上の前記仮想オブジェクトを選択する手のジェスチャを実行することを含む、
請求項２に記載の方法。
前記手のジェスチャは、２本の指のピンチである、
請求項３に記載の方法。
前記手のジェスチャは、手のグラブ動作である、
請求項３に記載の方法。
前記複数の知覚感知技術は、深度カメラとマイクロフォンアレイを含み、前記ユーザインタフェースは、カーソルを含み、さらに、前記ジェスチャは、前記カーソルを制御するための手の動きと、前記カーソルを選択又は操作するために発話される言葉とを含む、
請求項２に記載の方法。
前記複数の知覚感知技術は、視線検出システムとマイクロフォンアレイを含み、前記ユーザインタフェースは、カーソルを含み、さらに、前記ジェスチャは、前記カーソルを注視し、前記カーソルを制御する前記ユーザの視線を移動させること、及び前記カーソルを選択又は操作するために発話される言葉を含む、
請求項２に記載の方法。
前記複数の知覚感知技術は、深度カメラと視線検出システムを含み、前記深度カメラから取得される前記データは、スクリーン上の仮想オブジェクトを選択するために前記ユーザの手により行われる選択ジェスチャであり、前記視線検出システムから取得される前記データは、前記選択される仮想オブジェクトにおける視線であり、該視線の検出は、前記ユーザによって選択される前記仮想オブジェクトを識別する際の誤検出を低減する、
請求項１に記載の方法。
前記複数の知覚感知技術は、タッチスクリーンと深度カメラを含む、
請求項１に記載の方法。
前記タッチスクリーンから取得される前記データは、前記タッチスクリーンのある位置の接触であり、さらに、前記深度カメラから取得される前記データは、前記ユーザの指のうちのどの指が前記タッチスクリーンに接触したかを識別する、
請求項９に記載の方法。
前記タッチスクリーンから取得される前記データは、前記タッチスクリーンの複数の位置の複数の接触であり、さらに、前記深度カメラから取得される前記データは、前記複数の接触が前記ユーザのみからものであるか、あるいは前記ユーザと１以上の他のユーザとからのものであるかを識別する、
請求項９に記載の方法。
前記タッチスクリーンから取得される前記データは、前記タッチスクリーンのある位置の接触であり、さらに、前記深度カメラから取得される前記データは、前記ユーザの指が前記タッチスクリーンに接触した角度である、
請求項９に記載の方法。
前記タッチスクリーンから取得される前記データは、前記タッチスクリーンのある位置の接触であり、さらに、前記深度カメラから取得される前記データは、前記ユーザの手のうちのどちらの手が前記タッチスクリーンに接触したかを識別する、
請求項９に記載の方法。
前記複数の知覚感知技術は、タッチスクリーンと深度カメラを含み、さらに、前記ジェスチャは、前記タッチスクリーンへの接触と、前記タッチスクリーンから離れる後続の動きとを含む、
請求項１に記載の方法。
前記複数の知覚感知技術は、深度カメラとタッチスクリーンを含み、さらに、前記ジェスチャは、前記タッチスクリーンから離れる手と指の動きと、前記タッチスクリーンへの後続の接触とを含む、
請求項１に記載の方法。
ユーザのアクションについてのデータを取得するように構成される、複数の知覚センサと；
前記取得したデータを分析して、前記ユーザのアクションからジェスチャを識別するように構成される、処理モジュールと；
を備え、前記ジェスチャが、前記複数の知覚センサによって検出可能なデータに基づいて定義される、
システム。
前記ユーザが前記識別されるジェスチャに基づいて電子デバイスを制御するのを可能にするよう構成される、ユーザインタフェースアプリケーションモジュールを更に備える、
請求項１６に記載のシステム。
前記複数の知覚センサは、タッチスクリーンと深度カメラを含み、さらに、前記深度カメラによって取得される前記データは、前記タッチスクリーンによって取得される前記データを強化する、
請求項１６に記載のシステム。
前記複数の知覚センサは、視線検出システムと深度カメラを含み、ユーザインタフェースがカーソルを含み、さらに、前記ジェスチャは、スクリーン上の前記カーソルを注視し、前記ユーザの視線を前記カーソルから前記スクリーン上の仮想オブジェクトへ移動させて前記カーソルを前記仮想オブジェクトにマップし、前記スクリーン上の前記仮想オブジェクトを選択する手のジェスチャを実行することを含む、
請求項１６に記載のシステム。
前記複数の知覚センサは、深度カメラと視線検出システムを含み、前記深度カメラから取得される前記データは、スクリーン上の仮想オブジェクトを選択するために前記ユーザの手により行われる選択ジェスチャであり、前記視線検出システムから取得される前記データは、前記選択される仮想オブジェクトにおける視線であり、該視線の検出は、前記ユーザによって選択される前記仮想オブジェクトを識別する際の誤検出を低減する、
請求項１６に記載のシステム。
ユーザのアクションについてのデータを取得する、第１の手段と；
前記ユーザのアクションについてのデータを取得する、第２の手段と；
前記取得したデータを分析して、前記ユーザのアクションからジェスチャを識別するように構成される、１つ以上の処理モジュールと；
を備え、前記ジェスチャが、データを取得する前記第１の手段と、データを取得する前記第２の手段とによって検出可能なデータに基づいて定義される、
システム。
前記ユーザが、前記識別されるジェスチャに基づいて電子デバイスを制御するのを可能にするよう構成される、ユーザインタフェースアプリケーションモジュールを更に備える、
請求項２１に記載のシステム。