JP2021078104A

JP2021078104A - コンテキスト及びコンテンツを意識した３Ｄ手ジェスチャ視覚化を伴うＷｅｂベースリモートアシスタンスシステムに関するプログラム

Info

Publication number: JP2021078104A
Application number: JP2020123056A
Authority: JP
Inventors: チョルファンキム; Kim Chul-Hwan; パトリック　チィーウ; Patrick Chiu; チィーウパトリック; ユリアスチアヒヤデ; Tjahjadi Yulius; キンバードン; Don Kimber; チョン　リュウ; Qiong Liu; リュウチョン
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2019-11-08
Filing date: 2020-07-17
Publication date: 2021-05-20
Also published as: US11288871B2; US20210142568A1; CN112783700A

Abstract

【課題】本発明は、ユーザの手の表現をモバイルデバイス上の映像に重ねる際に、より直感的で自然にモバイルデバイス上に表示することを課題とする。
【解決手段】本明細書に記載される例示的な実装は、ユーザの手又は他のオブジェクトに関するリモートデバイスへのブラウザ間接続を介した手情報の転送より、手又は他のオブジェクトは、リモートデバイスから受信した方向測定値基づいてリモートデバイス上で正しく方向付けられる。そのような例示的な実装は、リモートデバイスのユーザがガイダンスのために専門家によって提供される手又はオブジェクトの動きを見る必要があるリモートアシスタンスを容易にすることができる。
【選択図】図５ａ

Description

本開示は、リアルタイムビデオベースのジェスチャアシスタンスシステムに関するプログラムに関する。

現行関連技術のビデオ会議システムにより、人々はそれぞれが異なる場所にいても共同作業を続けることができる。しかし、関連技術である映像及び音声通信媒体を使用して伝達されるガイダンスによって離れた場所にいる専門家がローカル顧客の複雑な物理的タスクの実行を支援するリモートアシスタンスシナリオでは、顧客が専門家からの意図及び命令を誤って解釈するリスクが高くなり、共同作業エクスペリエンス及びパフォーマンスが非効率的になり得る。

関連技術におけるボディランゲージ及び手ジェスチャなどの非言語コミュニケーションは、リモートアシスタンス又は共同作業シナリオでのリモート共同作業活動のパフォーマンスを大幅に向上させることができる。リモートアシスタンス又は共同作業シナリオで手ジェスチャのビジュアルキューを使用する効果は、関連技術の実装で試験されている。

Arcore. https://developers.***.com/ar/. Accessed: 2019-06-03. Arkit. https://developer.apple.com/augmented-reality/. Accessed: 2019-06-03. Colmap. https://colmap.github.io/. Accessed: 2019-06-03. OpenCV. https://opencv.org/. Accessed: 2019-06-03. Scope AR. https://www.scopear.com. Accessed: 2019-06-03. Teamviewer pilot. https://www.teamviewer.com/en-us/solutions/augmented-reality-remote-support/#gref. Accessed:2019-06-03 Upskill skylight. https://upskill.io/skylight/. Accessed: 2019-06-03. ViewAR. https://www.viewar.com/. Accessed: 2019-06-03. Vuzix remote assist. https://www.Vuzix.com/Vuzix-Remote. Accessed: 2019-06-03. ALEM, L. et al. "Remote Tele-assistance System for Maintenance Operators in Mines" 2011 Underground Coal Operators' Conference, February 10-11, 2011 (8 pages) AMORES, J. et al. "Show Me: A Remote Collaboration System that Supports Immersive Gestural Communication" CHI, 2015, April 18-23, 2015, Seoul, Republic of Korea, pp. 1343- 1348. HUANG, W. et al. "HandsInAir. A Wearable System for Remote Collaboration" Proceedings of the 2013 conference on Computer supported cooperative work companion, 2013, pp.153-156. HUANG, W. et al. "Handsin3D: supporting remote guidance with immersive virtual environments", IFIP Conference on Human-Computer Interaction, 2013, pp. 70-77. KIRK, D. et al. "Tum It This Way: Grounding Collaborative Action with Remote Gestures" CHI 2007 Proceedings, Distributed Interaction, April 28-May 3, 2007, San Jose, CA, USA (11 pages). SODHI, R. et al. "Be There: 3D Mobile Collaboration with Spatial Input" CHI 2013: Changing Perspectives, April 27 May 2, 2013. pp. 179-188, Paris, France FUSSELL, S. et al. "Gestures Over Video Streams to Support Remote Collaboration on Physical Tasks" HUMAN COMPUTER INTERACTION, 2004, Volume 19, pp. 273-309. CHEN, S. et al. "SEMarbeta: Mobile Sketch-Gesture-Video Remote Support for Car Drivers" 4th Augmented Human International Conference, March 7-8, 2013, pp. 69-76, Stuttgart, Germany. KUNZ, A. et al. "CollaBoard: A Novel Interactive Electronic Whiteboard for Remote Collaboration with People on Content" 2010 International Conference on Cyberworlds, October 2010, pp. 430-437 (9 pages). KIM, S. et al. "The Effect of Collaboration Styles and View Independence on Video-mediated Remote Collaboration" Journal Computer Supported Cooperative Work, December 2018, Volume 27 Issue 3-6 (43 pages). HUANG, W. et al. "Sharing hand gesture and sketch cues in remote collaboration" Journal of Visual Communication Image Representatuion, December 8, 2018, Vol. 58, pp. 428-438.

本発明は、ユーザの手の表現をモバイルデバイス上の映像に重ねる際に、より直感的で自然にモバイルデバイス上に表示することを課題とする。

本明細書に記載される例示的な実装では、顧客ワークスペースのビューを分析することで取得できるいくつかのコンテキスト及びコンテンツ態様を考慮している。そのような分析を使用することにより、手モデルの視覚化パラメータ（例えば、サイズ、方向、又は色など）を変更することができ、これにより、共同作業エクスペリエンスが向上し、タスクのパフォーマンスを上げることができる。

本明細書に記載される例示的な実装は、離れた場所にいる専門家が異なる場所で物理的タスクを実行する顧客に、手ジェスチャを使用してガイダンスを提供することを容易にするリモートアシスタンスシステムを含む。このシステムは、顧客が一般的なスマートフォンを使用し、ライブビデオフィードを専門家に送信できるＷｅｂベースリアルタイム媒体通信フレームワークの上に構築されている。専門家はそこから顧客ワークスペースのビューを見ることができ、リアルタイムで表示されている映像上に彼らの手ジェスチャを示すことができる。専門家の手ジェスチャは、手追跡デバイスでキャプチャされ、ライブビデオフィード上にリギング（rigged)された３次元（３Ｄ）手モデルで視覚化される。このシステムは、Ｗｅｂブラウザを介してアクセスでき、顧客デバイス（一般的なスマートフォンなど）に必須ソフトウェアをインストールする必要はない。このシステムは、手モデルの視覚化態様（例えば、方向、スケール、及び色など）及び音声キューに基づくナビゲーションガイダンスに、顧客環境上のコンテキスト及びコンテンツ情報を利用することにより、共同作業エクスペリエンスを向上させる。また、このシステムは専門家の手ジェスチャによる動きのキャプチャ及び再生もサポートしている。

本明細書に記載される例示的な実装では、離れた場所にいる専門家からローカル顧客への手ジェスチャを使用したリモートガイダンスをサポートする軽量のＷｅｂベースシステムがある。このシステムでは、Ｗｅｂベースリアルタイム媒体通信技術（例えば、ＷｅｂＲＴＣ）を使用して、ローカル顧客が一般的なスマートフォンデバイスを使用し、ビデオ会議システムを介して離れた場所にいる専門家ヘルパーと顧客ワークスペースのビューを共有できるようにする。専門家からの手ジェスチャデータは、Ｗｅｂブラウザの共有ライブビデオストリームでリアルタイムに転送及び視覚化され得る。このシステムは、特定のＷｅｂページをブラウズするだけで、エンドユーザから主な最新のＷｅｂブラウザを介してアクセスできるため、ユーザのスマートフォンデバイスに必須ソフトウェアをインストールする必要がない。専門家側のシステムは、追跡デバイス（例えば、手追跡デバイス）を利用して、専門家の手の動きを追跡する。更に、本明細書に記載される例示的な実装は、手の追跡に限定されず、所望の実装に従って、他のタイプの追跡（例えば、足、道具）に拡張することもできる。

本開示の態様は、方向センサとカメラとを含むモバイルデバイスのプロセスを実行するためのプログラムを含み、この命令は、カメラからの映像及び方向センサからの測定値を別のデバイスへ転送することと、別のデバイスからユーザの手に関連する手情報を受信することと、受信した手情報に基づいてユーザの手の表現をモバイルデバイス上に表示される映像に重ねることであって、このユーザの手の表現を方向センサからの測定値によって決定された方向でモバイルデバイス上に表示される映像にさらに重ねることと、を含む。

本開示の態様は、方向センサとカメラとを含むモバイルデバイスのプロセスを実行する方法を含み、この命令は、カメラからの映像及び方向センサからの測定値を別のデバイスへ転送することと、別のデバイスからユーザの手に関連する手情報を受信することと、受信した手情報に基づいてユーザの手の表現をモバイルデバイス上に表示される映像に重ねることであって、このユーザの手の表現を方向センサからの測定値によって決定された方向でモバイルデバイス上に表示される映像にさらに重ねることと、を含む。

本開示の態様は、方向センサ、カメラ、及びプロセッサを含むモバイルデバイスを含み、このプロセッサは、カメラからの映像及び方向センサからの測定値を別のデバイスへ転送することと、別のデバイスからユーザの手に関連する手情報を受信することと、受信した手情報に基づいてユーザの手の表現をモバイルデバイス上に表示される映像に重ねることであって、このユーザの手の表現を方向センサからの測定値によって決定された方向でモバイルデバイス上に表示される映像にさらに重ねることと、の命令を含む。

本開示の態様は、方向センサ手段と、カメラ手段と、カメラからの映像及び方向センサからの測定値を別のデバイスへ転送する手段と、別のデバイスからユーザの手に関連する手情報を受信する手段と、受信した手情報に基づいてユーザの手の表現をモバイルデバイス上に表示される映像に重ねる手段であって、このユーザの手の表現を方向センサからの測定値によって決定された方向でモバイルデバイス上に表示される映像にさらに重ねる手段と、を含むモバイルデバイスを含む。

本開示の態様は、追跡デバイスと通信可能に結合されたデバイスのプロセスを実行するためのプログラムを含み、この命令は、モバイルデバイスから映像及び方向センサの測定値を受信することと、追跡デバイスから得られた測定値に基づいて生成された、ユーザの手に関連する手情報を転送することと、転送された手情報に基づいてユーザの手の表現をデバイス上の映像に重ねることであって、このユーザの手の表現を方向センサからの測定値によって決定された方向でデバイス上の映像にさらに重ねることと、を含む。

本開示の態様は、追跡デバイスと通信可能に結合されたデバイスの方法を含み、この方法は、モバイルデバイスから映像及び方向センサの測定値を受信することと、追跡デバイスから得られた測定値に基づいて生成された、ユーザの手に関連する手情報を転送することと、転送された手情報に基づいてユーザの手の表現をデバイス上の映像に重ねることであって、このユーザの手の表現を方向センサからの測定値によって決定された方向でデバイス上の映像にさらに重ねることと、を含む。

本開示の態様は、追跡デバイスと通信可能に結合されたデバイスを含み、このデバイスは、モバイルデバイスから映像及び方向センサの測定値を受信することと、追跡デバイスから得られた測定値に基づいて生成された、ユーザの手の表現に関連する手情報を転送することと、転送された手情報に基づいてユーザの手の表現をデバイス上の映像に重ねることであって、このユーザの手の表現を方向センサからの測定値によって決定された方向でデバイス上の映像にさらに重ねることと、の命令を実行するように構成されたプロセッサを含む。

本開示の態様は、追跡デバイスと通信可能に結合されたデバイスを含み、このデバイスは、モバイルデバイスから映像及び方向センサの測定値を受信する手段と、追跡デバイスから得られた測定値に基づいて生成された、ユーザの手に関連する手情報を転送する手段と、転送された手情報に基づいてユーザの手の表現をデバイス上の映像に重ねる手段であって、このユーザの手の表現を方向センサからの測定値によって決定された方向でデバイス上の映像にさらに重ねる手段と、を含む。

本開示の態様は、サーバの命令を記憶するプログラムを含み、この命令は、モバイルデバイスから第１の接続を受信することと、追跡デバイスと通信可能に結合された別のデバイスから第２の接続を受信することと、モバイルデバイスから別のデバイスへの映像及び方向センサ測定値の転送を容易にし、かつ別のデバイスからモバイルデバイスへの手情報の転送を容易にするように、モバイルデバイスと別のデバイスとの間に第３の接続を確立することと、を含む。

本開示の態様は、モバイルデバイスから第１の接続を受信することと、追跡デバイスと通信可能に結合された別のデバイスから第２の接続を受信することと、モバイルデバイスから別のデバイスへの映像及び方向センサ測定値の転送を容易にし、かつ別のデバイスからモバイルデバイスへの手情報の転送を容易にするように、モバイルデバイスと別のデバイスとの間に第３の接続を確立することと、を含む、方法を含む。

本開示の態様は、モバイルデバイスから第１の接続を受信する手段と、追跡デバイスと通信可能に結合された別のデバイスから第２の接続を受信する手段と、モバイルデバイスから別のデバイスへの映像及び方向センサ測定値の転送を容易にし、かつ別のデバイスからモバイルデバイスへの手情報の転送を容易にするように、モバイルデバイスと別のデバイスとの間に第３の接続を確立する手段と、を含む、サーバを含む。

前記映像は、前記モバイルデバイスの前記カメラからのライブビデオであってもよく、前記測定値は、前記方向センサからのライブ測定値であってもよく、前記手情報が、前記ユーザの手のライブの動きから決定された手骨格関節測定値及び手視覚化パラメータを含んでもよい。

前記手情報に基づいてユーザの手の前記表現を前記モバイルデバイス上に表示される映像に重ねることは、前記手骨格関節測定値に基づく前記表現として、前記ユーザの手の３Ｄ手モデルを生成することと、前記映像の色相情報及び前記映像上で検出されたオブジェクトのうちの一又は複数に基づいて前記映像に重ねるように、前記３Ｄモデルの色及びサイズのうちの一又は複数を調製することと、を含んでもよい。

前記命令は、Ｗｅｂブラウザを介して、前記モバイルデバイスから前記別のデバイスの別のＷｅｂブラウザへのブラウザ間接続を確立することを更に含んでもよく、前記カメラからの前記映像及び前記方向センサからの前記測定値を前記別のデバイスへ転送すること、並びに前記別のデバイスから前記手情報を受信することは、前記ブラウザ間接続を介して行われてもよい。

前記命令は、マイクから録音された音声を前記別のデバイスに転送することと、前記別のデバイスから受信した前記音声を出力することと、を更に含んでもよい。

前記映像は、以前に記録された映像であってもよく、前記方向センサからの前記測定値は、以前に記録された測定値であってもよい。

本開示の態様は、追跡デバイスと通信可能に結合されたデバイスのプロセスを実行する命令を記憶するプログラムであって、前記命令は、モバイルデバイスから映像及び方向センサの測定値を受信することと、前記別のデバイスから、前記追跡デバイスから得られた測定値に基づいて生成された、ユーザの手に関連する手情報を転送することと、前記手情報に基づいて前記デバイスによって表示するように、前記ユーザの手の表現を前記映像に重ねることであって、前記ユーザの手の前記表現は、前記方向センサからの前記測定値から決定された方向で前記映像に重ねられる、重ねることと、を含む方法をコンピュータに実行させるプログラムを含んでもよい。

前記映像は、モバイルデバイスからのライブビデオであってもよく、前記方向センサ測定値は、前記モバイルデバイスからのライブ方向センサ測定値であってもよく、前記手情報は、前記追跡デバイスからの前記ユーザの手のライブ測定値から決定された手骨格関節測定値及び手視覚化パラメータを含んでもよい。

前記手情報に基づいて前記デバイスによって表示するように、ユーザの手の前記表現を前記映像に重ねることは、前記手骨格関節測定値に基づく前記表現として、前記ユーザの手の３Ｄ手モデルを生成することと、前記映像の色相情報及び前記映像上の検出されたオブジェクトのうちの一又は複数に基づいて前記映像に重ねられるように、前記３Ｄモデルの色及びサイズのうちの一又は複数を調製することと、を含んでもよい。

前記命令は、Ｗｅｂブラウザを介して、前記デバイスから前記モバイルデバイスの別のＷｅｂブラウザへのブラウザ間接続を確立することを更に含んでもよく、前記モバイルデバイスから前記映像及び前記方向センサ測定値を受信すること、並びに前記デバイスから手情報を転送することは、前記ブラウザ間接続を介して行われてもよい。

前記命令は、マイクから録音された音声を前記モバイルデバイスに転送することと、前記モバイルデバイスから受信した前記音声を出力することと、を更に含んでもよい。

前記映像は、以前に記録された映像であってもよく、前記方向センサ測定値は、以前に記録された方向センサ測定値であってもよい。

本開示の態様は、サーバの命令を記憶するプログラムであって、前記命令は、モバイルデバイスから第１の接続を受信することと、追跡デバイスと通信可能に結合された別のデバイスから第２の接続を受信することと、前記モバイルデバイスから前記別のデバイスへの映像及び方向センサ測定値の転送を容易にし、かつ前記別のデバイスから前記モバイルデバイスへの手情報の転送を容易にするように、前記モバイルデバイスと前記別のデバイスとの間に第３の接続を確立することと、を含む方法をコンピュータに実行させる、プログラムを含んでもよい。

前記第１の接続及び前記第２の接続は、Ｗｅｂブラウザを介して受信され、前記第３の接続を前記確立することは、前記モバイルデバイスと前記別のデバイスとの間に直接ブラウザ間接続を確立することを含んでもよい。

前記映像は、前記モバイルデバイスからのライブビデオであってもよく、前記方向センサ測定値は、前記モバイルデバイスからのライブ方向センサ測定値であってもよく、前記手情報は、前記追跡デバイスからの前記ユーザの手のライブ測定値から決定された手骨格関節測定値及び手視覚化パラメータを含んでもよい。

例示的な実装による、例示的なシステムを示す。例示的な実装による、例示的なシステムを示す。例示的な実装による、システムのＷｅｂベースリアルタイム通信フレームワークを示す。例示的な実装による、ユーザがセッションを開始することができる例示的なＷｅｂページを示す。例示的な実装による、対話ボックス及び対応する位置合わせを示す。例示的な実装による、対話ボックス及び対応する位置合わせを示す。例示的な実装による、対話ボックス及び対応する位置合わせを示す。例示的な実装による、様々な構成におけるポインティングジェスチャ及び対話空間の例示的な視覚化を示す。例示的な実装による、様々な構成におけるポインティングジェスチャ及び対話空間の例示的な視覚化を示す。例示的な実装による、様々な構成におけるポインティングジェスチャ及び対話空間の例示的な視覚化を示す。例示的な実装による、適応可能なカラーリング又はシェーディングを示す。例示的な実装による、適応可能なカラーリング又はシェーディングを示す。例示的な実装による、指のサイズに対する調整の例を示す。例示的な実装による、指のサイズに対する調整の例を示す。例示的な実装による、対応する境界ボックスが強調表示された検出されたブロブ(blob)の例を示す。例示的な実装による、対応する境界ボックスが強調表示された検出されたブロブの例を示す。例示的な実装による、以前にキャプチャされた操作にアクセスするためのオブジェクトの再生機能の例を示す。例示的な実装による、モバイルデバイスの例を示す。例示的な実装による、追跡デバイスを含むシステムの例を示す。いくつかの例示的な実装での使用に適した例示的なコンピュータデバイスを備えた例示的なコンピューティング環境を示す。

以下の本開示の態様を実施するための形態は、本開示の図及び例示的な実装の更なる詳細を提供する。図内の参照番号及び冗長要素の説明は、簡略化のために省略されている。明細書全体を通して使用される用語は、例として提供されており、限定することを意図していない。例えば、「自動」という用語の使用は、本出願の実装を実施する当業者の所望の実装に応じて、実装の特定の態様に対するユーザ又は管理者制御を含む完全自動実装又は半自動実装を含み得る。選択は、ユーザインタフェース若しくは他の入力手段を介してユーザによって行われてもよく、又は所望のアルゴリズムを介して実装されてもよい。本明細書に記載されるような例示的な実装は、単独で又は組み合わせて利用されてもよく、例示的な実装の機能は、所望の実装に従う任意の手段を通じて実装され得る。

異なる態様のコンテキスト及びコンテンツを使用して、手ジェスチャの視覚化及び他の視覚化を強化するＷｅｂベースリモートアシスタンスシステムが、本明細書に記載される。

図１ａ及び図１ｂは、例示的な実装による、例示的なシステムを示す。具体的には、図１ａは専門家側のシステムのセットアップを示し、図１ｂは顧客側のシステムのセットアップを示す。図１ａでは、離れた場所にいる専門家が、顧客から送信されたライブビデオフィードを見て、追跡デバイス１００の上で自分の手を動かし、手ジェスチャベースのガイダンスを提供する。図１ｂでは、顧客は、スマートフォンを使用して、顧客ワークスペースのビュー及びビュー内のオブジェクト（プリンタ１０２）を離れた場所にいる専門家と共有し、スマートフォンの画面上で専門家の手ジェスチャによる動き１０３を閲覧することによって指示される。

離れた場所にいる専門家は、机の上に置かれた追跡デバイス１００（例えば、手、道具などを追跡するように構成されている）を使用し、追跡デバイス１００の前にコンピュータモニタ１０１を有する。顧客のカメラから（例えば、図１ｂに示すスマートフォンデバイスから）送信されたライブビデオフィードはモニタ１０１に表示され、専門家は、そこから顧客ワークスペース及び顧客ワークスペース内のオブジェクト（例えば、図１ｂのプリンタ１０２）をリアルタイムで閲覧することができる。ライブビデオを閲覧し、追跡デバイス１００を介して対話を実行することにより、専門家は、手又は道具ジェスチャベースガイダンス（例えば、ポインティングジェスチャで書類供給ローラーを確認するガイダンス）を提供する。手ジェスチャを含む例示的な実装では、専門家デバイス及び顧客デバイスの両方に同時に表示される映像に、半透明の効果がかかったリギングされた３Ｄ手モデル１０３で手ジェスチャが視覚化される。図１ｂのようにスマートフォン画面で専門家の３Ｄ手モデル１０３を閲覧すると、顧客は、オブジェクトに関連する物理的タスクを指示され得る（例えば、プリンタモニタ上のメッセージを確認する、書類供給ローラーを確認するなど）。

図２は、例示的な実装による、システムのＷｅｂベースリアルタイム通信フレームワークを示す。図２に示されているように、システムは、Ｗｅｂリアルタイム通信フレームワーク（ＷｅｂＲＴＣ）上に構築されている。ＷｅｂＲＴＣの中間シグナリングサーバ２００は、リアルタイム媒体通信のために顧客と専門家の間にピアツーピア（Ｐ２Ｐ）接続を確立し、各エンドユーザは、関連技術として知られている互換性のある最新のＷｅｂブラウザを使用して、サーバによってホストされたＷｅｂページをブラウズすることにより、この直接媒体通信セッションに参加できる。顧客デバイスの更なる説明は、後述する図１０に提供されている。専門家システムの更なる説明は、後述する図１１に提供されている。本明細書に記載され、図２に示されるように、Ｐ２Ｐ接続は、映像（例えば、ライブビデオ）、デバイスの方向、音声、手骨格関節、及び手モデル視覚化パラメータなどの情報の交換を容易にする。

図３は、例示的な実装による、ユーザがセッションを開始することができる例示的なＷｅｂページを示す。２つのピア間のデータ通信及びユーザデバイス（例えば、カメラ、マイク、追跡デバイス）へのデータアクセスは、ユーザＷｅｂブラウザにあるＷｅｂＲＴＣ及びＪａｖａＳｃｒｉｐｔ（登録商標）アプリケーションプログラミングインタフェース（ＡＰＩ）によって制御されるため、本明細書に記載される例示的な実装では、これらのデバイス又はブラウザに必須ソフトウェア又はプラグインをインストールする必要はない。

ユーザ側のＷｅｂブラウザで３Ｄ手モデルをリアルタイムで生成及び表示するために、本明細書に記載される例示的な実装では、ＷｅｂＧＬに基づくＴｈｒｅｅ．ｊｓＡＰＩを利用する。Ｔｈｒｅｅ．ｊｓはＷｅｂサイトの一部としてＪａｖａＳｃｒｉｐｔ言語（登録商標）を使用しているため、Ｗｅｂブラウザプラグインをインストールする必要がない。専門家の追跡デバイスから得た手骨格関節データは、Ｔｈｒｅｅ．ｊｓシーンで３Ｄ手モデルをリギングするために使用される。レンダリングされた３Ｄ手モデルの透視図及びそのポーズを顧客と専門家との間で同期するために、Ｔｈｒｅｅ．ｊｓ透視図カメラパラメータ（例えば、視野、ビュー方向、位置など）から提供される手骨格関節データ及び手モデル視覚化パラメータ（ｐａｒａｍｔｅｒｅｓ）を専門家側で設定する。次いで、図２の顧客と専門家との間のデータフローを示す矢印で示されているように、専門家側で設定された手骨格関節データ及び手モデル視覚化パラメータを顧客側に転送する。転送された手骨格関節データ及びＴｈｒｅｅ．ｊｓカメラパラメータは、顧客の手モデルをリギングして顧客側のＷｅｂブラウザの同じ透視図に表示するために使用される。例示的な実装では、すでに３Ｄ手モデルデータがＷｅｂページに埋め込まれているため、システムは、大容量の３Ｄメッシュデータを顧客に送信する必要はなく、代わりに、少量の手骨格関節及びカメラパラメータのみを顧客に転送する。

本開示におけるシステムでは、顧客環境及び対象オブジェクトのコンテキスト及びコンテンツ情報を利用して、手モデルの視覚化態様（色、サイズ、又は方向など）を変更することもできる。コンテキスト及びコンテンツのこのような視覚化と利用は、専門家側のコンテキスト及びコンテンツを意識した視覚化モジュールによって管理される。視覚化モジュールでは、顧客デバイスから転送された媒体データ及び専門家デバイスからキャプチャされたデータの両方を処理し、顧客デバイス側の手モデルに転送され、適用される手モデルの視覚化パラメータを更新する。

図４ａ〜図４ｃは、例示的な実装による、対話ボックス及び対応する位置合わせを示す。具体的には、図４ａは専門家側のシステムの追跡デバイス上の例示的な対話ボックスを示し、図４ｂはセンサ対話空間を顧客のカメラビュー空間に位置合わせする例を示し、図４ｃは対話空間の重力を意識した配置の例を示す。

本明細書に記載される例示的な実装において、顧客の実際の環境及びその中の対象オブジェクトに対して表示される専門家の仮想的な手の正確な配置は、専門家がそのオブジェクトに対して必要な物理的動作を行うことによる正確なガイダンス及び情報を伝えるために重要である。そのような例示的な実装を容易にするために、専門家の追跡デバイスの対話空間（及び、その中の仮想の手）と顧客側のカメラビュー空間との間の適切な配置を利用する。本明細書に記載される例示的な実装では、１）顧客環境の重力方向に基づいて対話空間のコンテキストを意識した位置合わせにより、対話空間を顧客の現実世界の地面にぴったりと合わせる(snap)。これは、専門家が顧客環境で物理的に提示するのと同じように、より直感的で自然な方法で専門家の仮想の手を操作するための配置である。２）顧客シーンの視覚的な外観及びオブジェクトに基づいたコンテンツを意識した位置合わせにより、仮想の手のスケール又は色を変更する。これは、顧客がオブジェクトに関連する正しいスケール及び際立った色で専門家の仮想の手の動きを閲覧することによって、専門家の指示に従いやすくするための配置である。

本開示において考慮されるコンテキストの態様は、顧客環境に対する顧客のカメラビューの方向であり、映像上で表示される専門家の仮想の手を顧客環境の物理的世界に従って位置合わせするためのものである。そのような例示的な実装は、専門家が追跡デバイスのセンサによってより自然で直感的な対話を実行するのに役立ち、専門家はまるで実際に顧客ワークスペースにいるかのように手を動かすことができる。より正確には、例示的な実装では、顧客スマートフォンの慣性センサを使用し顧客ワークスペースの重力の方向を推定する。それを使用して、顧客のカメラビュー空間（及び、その中の仮想３Ｄ手モデル）の対話空間の方向を連続的に変更し、顧客ワークスペースの地面に対するその相対的なポーズを安定させながら、顧客は手持ちのカメラを自由に動かすことができる。

図４ａは、追跡デバイス４０１上の３Ｄボックス表現４０２を対話空間として示す。ボックスの前面は、色エンコード、色、又はグレースケールエンコード（例えば、赤又は赤の色相）であり得る。図４ｂは、重力を意識せずに対話空間を顧客のカメラに位置合わせする例を示し、対話空間はカメラの前に置かれ、その正準軸はカメラの軸に位置合わせされている。

図４ｃは、対話空間の垂直軸を顧客側のカメラスペースにおける重力の方向に位置合わせすることによる、重力を意識した位置合わせを示す。この重力を意識した位置合わせを行った場合、物理的世界における専門家の実際の手からの動きは、顧客の物理的世界における仮想手モデルの動きに一致する。これは、専門家が、追跡デバイス上で容易に及び直感的に対話を実行し、顧客側のカメラビュー空間において仮想の手を操作するのを支援する。

図５ａ〜図５ｃは例示的な実装による、様々な構成におけるポインティングジェスチャ及び対話空間の例示的な視覚化を示す。具体的には、図５ａ及び図５ｃは、専門家環境における追跡デバイス上の手の動きを示し（上部のボックス）、仮想の手を操作して、顧客ワークスペースの立方体の上端を指す（下部のボックス）。図５ａ及び図５ｃにおける上部のボックスは、追跡デバイス上で行われたポインティングジェスチャを表す。図５ａ及び図５ｃにおける下部のボックスは、３Ｄ手モデルの視覚化及び顧客のビューに重ね合わされた対話ボックス表現を示す。

重力を意識した位置合わせでない場合、専門家は、多くの場合、自分の手を斜め上に動かして、仮想の手の人差し指の先を立方体の上端に向かって運びながら（図５ａ）、ライブビデオフィード上にレンダリングされた自分の仮想の手の動きを見る。重力を意識した位置合わせである場合、専門家は、顧客ワークスペースにおいて物理的に存在し、立方体の上端と平行に自分の手を動かした場合と同じように、手を動かすことができる（図５ｃ）。

重力を意識せずに対話空間を位置合わせすることで発生する別の制限は、特に手のひらがセンサにほぼ平行である場合、ポインティングジェスチャで手の不本意な視覚化につながることが多いことである。例えば、図５ｂは、手モデルの真後ろにあるカメラの視点に起因して、手モデルの人差し指の先が手のひら及び他の指によって見えなくなっていることを示す。これに対処するには、専門家が意図的に手を回転させて、図５ａの上部のボックスのように、仮想の手の人差し指の完全なビューを表示する必要がある。しかし、また多くの場合これにより、専門家が追跡デバイスのセンサに手を近づけすぎて、センサのビジュアルキューが少なくなり、追跡ポーズが困難になり、追跡パフォーマンスが低下し得る。例えば、図５ａの上部のボックスのように、追跡デバイスのビューから人差し指が他の指によって見えなくなり得ることなどが挙げられる。

例示的な実装は更に、表示されているオブジェクトのコンテンツに基づいて手の外観及びサイズを適応させるように構成されている。

図６ａ及び図６ｂは、例示的な実装による、適応可能なカラーリング又はコントラストの変化を示す。所望の実装に応じて、背景／オブジェクトの色に基づいて手の一部又は全ての部分のハイライト色を調整することで、仮想の手の背景に対するコントラストを調整できる。図６ａ及び図６ｂの例では、手の全ての部分が調整されるが、所望の実装に従って、一部分（例えば、親指及び人差し指のみ）を調整することもできる。図６ａ及び図６ｂは、コントラストを変えることによってプラスチックの歯のモデルの上に重ねられた適合された仮想の手の外観を示し、それにより手が背景からより目立つようになる。あるいは、所望の実装に応じて、ハイライト色もまた、所望の実装に従って、（例えば、赤から青に）変更することができる。手のハイライト色を選択するそのような例示的な実装では、仮想の手の近くのカメラ画像における平均色相値を取得することができ、コントラストのために補色相値が利用される。したがって、例示的な実装では、手モデルの色相値は、その可視性を高めるために赤から青に適応される。

図７ａ及び図７ｂは、例示的な実装による、指のサイズに対する調整の例を示す。Ｗｅｂブラウザウィンドウ内のカメラフィードの２Ｄキャンバス画像でコンテンツ分析を実行することにより、例示的な実装では、ポインティングする人差し指の近くにあるオブジェクトの推定サイズに基づいて指のサイズを適応させることができる。例えば、図７ａでは、指が大きすぎて、回路基板上の２つのオブジェクトのどちらを指しているのか分かりにくい。図７ｂでは、指のサイズが調整され、左のオブジェクトが対象オブジェクトであることは明らかである。

図８ａ及び図８ｂは、例示的な実装による、対応する境界ボックスが強調表示された検出されたブロブの例を示す。指の近傍にあるオブジェクトのサイズを推定するために、例示的な実装ではブロブ検出を適用する。ブロブ検出の１つの例示的なプロセスは、しきい値処理された２値化画像で輪郭検出を使用することである。図７ａ及び図７ｂで人差し指の近傍で検出されたオブジェクト及びそのサイズである図８ｂに示す、図８ａの画像でしきい値処理された２値化画像を適用した結果は、境界ボックスとして表示される。指のサイズは、近傍で検出されたオブジェクトの平均サイズになるようにスケーリングすることで調整できる。

画像内の手のサイズを調整する別の例示的な実装では、現実世界空間でのオブジェクトの３Ｄ位置を推定でき、その結果として、仮想の手がオブジェクトの近くに配置され、カメラ画像内の手のスケールがカメラとオブジェクト（又は近くに置かれた手）との間の距離に基づいて自動的に調整される。空間内のオブジェクトの３Ｄ位置は、当業者に知られているストラクチャフロムモーション（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）（ＳｆＭ）技術又は所望の実装に従う深層学習ベース深度マップ推定方法を使用して、カメラ画像のシーケンスからシーン（オブジェクトを含む）の３Ｄモデルを再構築することによって推定できる。別のアプローチとしては、事前に構築された３Ｄ参照モデルに関して、オブジェクトの３Ｄポーズを直接取得することである。モデルはＳｆＭを使用した３Ｄ点群で構成され、各３Ｄ点はローカルフィーチャ記述子に関連付けられる。オブジェクトのカメラ画像と参照モデルの間で２Ｄ−３Ｄローカルフィーチャの一致を確立し、その一致に基づいてパースペクティブ−ｎ−ポイント（Ｐｅｒｓｐｅｃｔｉｖｅ−ｎ−Ｐｏｉｎｔ）（ＰｎＰ）問題を解くことにより、オブジェクトの６自由度ポーズを取得できる。

例示的な実装では、所望の実装に従って更に、コンテキスト認識型音声キューを提供できる。例示的な実装では、顧客がスマートフォンを動かしたときにシーンを合成することに基づいて、再構築された３Ｄ環境で専門家がナビゲートするのを容易にするタイプのセットアップがあり得る。これにより、顧客のスマートフォンの視野が効果的に広がる。

更に、例示的な実装は、専門家の手の動きが顧客のスマートフォンの視野の外にある問題に対処するように構成され得る。顧客が専門家の手の動きを見る視点に向けてスマートフォンをガイドするのを支援するために、専門家は手のポインティング又は話しかけをしているため、別のモダリティ（様相）を使用する方が良い場合がある。１つの技術は、音声キューを使用して、専門家の手が現時点で存在する方向を示すことである。システムは相対的な方向を決定し、顧客に転送されるビデオストリームに追加されるステレオ信号を合成する。ステレオヘッドフォンを使用すると、顧客はスマートフォンを動かす方向を聞いて、専門家の手の動きを見ることができる。

図９は、例示的な実装による、以前にキャプチャされた操作にアクセスするためのオブジェクトの再生機能の例を示す。具体的には、図９は、再生アイコンを提供することによってそのような機能を容易にする。例示的な実装は、所望の実装に従って、手の動きのキャプチャ及び再生を更に容易にすることができる。多くの場合、顧客は特定の問題について同じ質問をする。図９に挙げる例は、プリンタのローラーをクリーニングするタスクである。専門家の時間を繰り返し使用するコストを節約するために、レンダリングされた手の操作のフレームを記録してタスクをキャプチャし、後で顧客が再生できる。例示的なシナリオは、顧客がスマートフォンを対象オブジェクトに向けることである。システムは、オブジェクトを認識し、関連付けられキャプチャされたタスクがある場合、図９に示されるように、現在のスマートフォンのカメラビューの上にレンダリングされたアイコンを表示する。顧客は、アイコンをタップして、現在のスマートフォンのカメラビューの上にレンダリングされた手の操作を再生できる。そのような例示的な実装では映像再生が記録された方向測定値に関連付けられるように、映像及び方向センサ測定値又は方向測定値の両方を専門家側のシステムによって後で使用及び処理するために記憶できる。

例示的な実装は、特別なアプリケーション又はプラグインを顧客デバイス又はＷｅｂブラウザにインストールする必要がなく、当業者に知られているほとんどのＷｅｂブラウザであり、インターネット接続された任意のデバイスで使用するためにアクセスできるＷＥＢベースシステムを使用する点が、従来の関連技術とは異なる。

例示的な実装は、ポーズ、色、スケールなどの手モデルの視覚的態様が、顧客環境及び対象オブジェクト上のコンテキスト及びコンテンツ情報によって適応されるという点で、コンテキスト及びコンテンツを意識した手の視覚化を更に容易にする。

図１０は、例示的な実装に含まれるモバイルデバイスの例を示す。モバイルデバイス１０００は、カメラ１００１、マイク１００２、プロセッサ１００３、メモリ１００４、ディスプレイ１００５、インタフェース（以下、Ｉ／Ｆと表記する）１００６、及び方向センサ１００７を含むことができる。カメラ１００１は、所望の実装に従って、任意の形態の映像を記録するように構成された任意のタイプのカメラを含むことができる。カメラと方向センサは別体であってもよい。マイク１００２は、所望の実装に従って、任意の形態の音声を録音するように構成された任意の形式のマイクを含むことができる。ディスプレイ１００５は、本明細書に記載の機能を実行するための命令を容易にする観点からタッチ入力を受け取るように構成されたタッチ画面ディスプレイ、又は所望の実装に従う、液晶ディスプレイ（ＬＣＤ）若しくは任意の他のディスプレイなどの通常のディスプレイを含むことができる。Ｉ／Ｆ１００６は、所望の実装に従って、サーバ及び任意の他のデバイスなどの外部要素へのモバイルデバイス１０００の接続を容易にするネットワークインタフェースを含むことができる。プロセッサ１００３は、所望の実装に従って、中央処理装置（ＣＰＵ）などのハードウェアプロセッサの形態、又はハードウェアユニット及びソフトウェアユニットの組み合わせであり得る。方向センサ１００７は、所望の実装に従って、傾斜角、ｘ、ｙ、ｚに対する方向、接近、又は加速（例えば、重力）など任意の種類の方向測定値を測定するように構成された、任意の形態のジャイロスコープ及び加速度計、またはいずれか一方を含むことができる。方向センサ測定値は、所望の実装に従って、デバイスの重力方向を示すための重力ベクトル測定値を含むこともできる。

プロセッサ１００３は、図１ｂ及び図２に示されるように、カメラからのビデオ及び方向センサ１００７からの測定値を、Ｉ／Ｆ１００６を介して別のデバイス（例えば、図１１に示すデバイスなど）に転送するように構成され得る。図２に示されるように、プロセッサ１００３は、別のデバイスからユーザの手の表現に関連する手情報を受信し、受信した手情報に基づいてユーザの手の表現をモバイルデバイス上に表示される映像に重ねることができ、このユーザの手の表現を方向センサ１００７からの測定値によって決定された方向で映像に重ねる。図１ｂに示され、本明細書に記載されるようなライブビデオを含む例示的な実装では、映像は、モバイルデバイスのカメラからのライブビデオであり得、測定値は、方向センサからのライブ測定値であり得る。また、手情報は、図４ａ〜図４ｃ及び図５ａ〜図５ｃに示されるように、ユーザの手のライブの動きから決定された手骨格関節測定値及び手視覚化パラメータを含み得る。

例示的な実装では、プロセッサ１００３は、図５ａ〜図５ｃ、図６ａ、図６ｂ、図７ａ、図７ｂ、並びに図８ａ及び図８ｂに示されるように、手骨格関節測定値に基づく表現として、ユーザの手の３Ｄ手モデルを生成することによって、手情報に基づいてユーザの手の表現をモバイルデバイス（例えば、ディスプレイ１００５）上に表示する映像に重ね、映像の色相情報及び映像上で検出されたオブジェクトのうちの１又は複数に基づいて映像に重ねられるように、３Ｄモデルの色及びサイズのうちの１又は複数を調製するように構成され得る。

図２及び図３に示されるように、プロセッサ１００３は、Ｗｅｂブラウザを介して、モバイルデバイスから別のデバイスの別のＷｅｂブラウザへのブラウザ間接続を確立するように構成され得る。また、プロセッサ１００３は、カメラ１００１からの映像及び方向センサ１００７からの測定値を別のデバイスへ転送し、別のデバイスからブラウザ間接続を介して手情報を受信するように構成される。

図２に示されるように、音声は、顧客デバイス又は専門家デバイスから転送され得る。そのような例示的な実装では、プロセッサ１００３は、所望の実装に従って、マイク１００２から録音された音声を別のデバイスに（例えば、Ｉ／Ｆ１００６を介して）転送し、別のデバイスから受信した音声を任意の従来のサウンドスピーカを通して出力するように構成され得る。

図９に示されるように、例えば、以前に記録された映像を含む例示的な実装について、映像は、以前に記録された映像であり得、方向センサからの測定値は、以前に記録された測定値であり得る。

図１１は、例示的な実装による、追跡デバイスを含むシステムの例を示す。システムは、所望の実装に従って、コンピュータ、ラップトップ、タブレット、又は他のデバイスなどのデバイス１１００を含むことができる。そのようなデバイスは、カメラ１１０１、マイク１１０２、プロセッサ１１０３、メモリ１１０４、ディスプレイ１００５、及びインタフェース（以下、Ｉ／Ｆと表記する）１１０６を含むことができる。また、そのハードウェアは、所望の実装に従って、図１０のモバイルデバイス１０００のハードウェアと同様であってもよく、変更されてもよい。

追跡デバイス１１１０は、モーションを追跡するように構成することができ、かつ赤外線、無線周波数などの任意のモーション追跡センサの形態とすることができるセンサ１１１１を含んでもよい。追跡デバイス１１１０は、Ｔｈｒｅｅ．ｊｓと互換性のある任意の所望の実装に従って、手骨格関節及びカメラ視覚化パラメータなどの手情報を生成するように構成され得る。

図２に示されるように、プロセッサ１１０３は、モバイルデバイスからＩ／Ｆ１１０６を介して映像及び方向センサを受信し、図４ａ〜図４ｃ及び図５ａ〜図５ｃに示されるように、追跡デバイス（例えば、センサ１１１１）から得られた測定値に基づいて生成された、ユーザの手の表現に関連する手情報を別のデバイスから転送する。図１ａ、図４ａ〜図４ｃ、図５ａ〜図５ｃ、図６ａ、図６ｂ、図７ａ、図７ｂ、図８ａ及び、図８ｂに示されるように、転送された手情報に基づいてユーザの手の表現をデバイス上に表示される映像に重ねるように構成され得る。このユーザの手の表現は、方向センサからの測定値によって決定された方向でデバイス上に表示される映像に重ねられる。方向は、方向センサの測定値から顧客環境の重力方向を決定することによって決定される。

所望の実装に応じて、図１ｂ及び図２に示されるように、映像は、モバイルデバイスからのライブビデオであり得る。方向センサ測定値は、モバイルデバイスからのライブ方向センサ測定値であり得る。手情報は、追跡デバイスからのユーザの手のライブ測定値から決定された手骨格関節測定値及び手視覚化パラメータを含み得る。

所望の実装に応じて、プロセッサ１１０３は、図６ａ〜図６ｂ、図７ａ〜図７ｂ、及び図８ａ〜図８ｂに示されるように、手骨格関節測定値に基づく表現として、ユーザの手の３Ｄ手モデルを生成すること、及び映像の色相情報及び映像上の検出されたオブジェクトのうちの一又は複数に基づいて映像に重ねられるように、３Ｄ手モデルの色及びサイズのうちの一又は複数を調製することによって、手情報に基づいてユーザの手の表現をデバイス上に表示される映像に重ねるように構成され得る。

図２及び図３に示されるように、プロセッサ１１０３は、Ｗｅｂブラウザを介して、デバイスからモバイルデバイスの別のＷｅｂブラウザへのブラウザ間接続を確立するように構成され得る。モバイルデバイスから映像及び方向センサ測定値を受信すること、並びにデバイスから手情報を転送することは、ブラウザ間接続を介して行われる。

プロセッサ１１０３は、所望の実装に従って、マイク１１０２から録音された音声をモバイルデバイスに、Ｉ／Ｆ１１０６を介して転送し、モバイルデバイスから受信した音声を任意の従来のサウンドスピーカを通して出力するように構成され得る。

図９に示されるように、映像は、以前に記録された映像であり得、方向センサ測定値は、以前に記録された方向センサ測定値である。

図１２は、顧客デバイスと確立されたデバイスとの間の接続を確立するサーバ（例えば、ＷｅｂＲＴＣシグナリングサーバ２００）などのいくつかの例示的な実装での使用に適した例示的なコンピュータデバイスを備えた例示的なコンピューティング環境を示す。コンピューティング環境１２００におけるコンピュータデバイス１２０５は、一若しくは複数の処理ユニット、コア、若しくはプロセッサ１２１０、メモリ１２１５（例えば、ＲＡＭ、ＲＯＭなど）、内部ストレージ１２２０（例えば磁気、光学、ソリッドステートストレージ、及び有機）、又はＩ／Ｏインタフェース１２２５を含むことができる。これらのいずれも、情報を通信するための通信機構若しくはバス１２３０上に結合することができ、又はコンピュータデバイス１２０５に埋め込むことができる。Ｉ／Ｏインタフェース１２２５はまた、所望の実装に応じて、カメラから画像を受信するか、又はプロジェクタ若しくはディスプレイに画像を提供するように構成される。

コンピュータデバイス１２０５は、入力／ユーザインタフェース１２３５及び出力デバイス／インタフェース１２４０に通信可能に結合され得る。入力／ユーザインタフェース１２３５及び出力デバイス／インタフェース１２４０のいずれか又は両方は、有線又は無線インタフェースであり得、取り外し可能であり得る。入力／ユーザインタフェース１２３５は、入力を提供するために使用できる物理又は仮想の任意のデバイス、コンポーネント、センサ、又はインタフェースを含み得る。例えば、ボタン、タッチ画面インタフェース、キーボード、ポインティング／カーソルコントロール、マイク、カメラ、点字表示装置、モーションセンサ、光学式リーダーなどである。出力デバイス／インタフェース１２４０は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字表示装置などを含み得る。いくつかの例示的な実装では、入力／ユーザインタフェース１２３５及び出力デバイス／インタフェース１２４０は、コンピュータデバイス１２０５に埋め込まれるか、又はコンピュータデバイス１２０５に物理的に結合され得る。他の例示的な実装では、他のコンピュータデバイスは、コンピュータデバイス１２０５の入力／ユーザインタフェース１２３５及び出力デバイス／インタフェース１２４０として機能するか、又はそれらの機能を提供することができる。

コンピュータデバイス１２０５の例としては、高度にモバイルなデバイス、モバイルデバイス、及びモビリティ用に設計されていないデバイスが挙げられ得るが、これらに限定されない。例示として、スマートフォン、車両及び他の機械内のデバイス、人間及び動物によって運ばれるデバイス、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオ、他のコンピュータ、情報キオスク、１又は複数のプロセッサが埋め込まれ結合されているテレビなどが挙げられる。

コンピュータデバイス１２０５は、同一又は異なる構成の一又は複数のコンピュータデバイスを含む、任意の数のネットワークコンポーネント、デバイス、及びシステムと通信するために、外部ストレージ１２４５及びネットワーク１２５０に（例えば、Ｉ／Ｏインタフェース１２２５を介して）通信可能に結合され得る。コンピュータデバイス１２０５又は任意の接続されたコンピュータデバイスは、サーバ、クライアント、シンサーバ、汎用機、専用機などである。

Ｉ／Ｏインタフェース１２２５としては、コンピューティング環境１２００内の少なくとも全ての接続されたコンポーネント、デバイス、及びネットワークとの間で情報を通信するための任意の通信又はＩ／Ｏプロトコル又は規格（例えば、イーサネット（登録商標）、８０２．１１ｘ、ユニバーサルシステムバス、ＷｉＭａｘ、モデム、セルラーネットワークプロトコルなど）を使用する有線及び無線インタフェースの少なくとも一方が挙げられ得るが、これらに限定されない。ネットワーク１２５０は、任意のネットワーク又はネットワークの組み合わせ（例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、セルラーネットワーク、衛星ネットワークなど）であり得る。

コンピュータデバイス１２０５は、一時的媒体及び非一時的媒体を含む、コンピュータ使用可能媒体又はコンピュータ可読媒体を使用すること及び使用して通信することの少なくともいずれか一方ができる。一時的媒体としては、転送媒体（例えば、金属ケーブル、光ファイバー）、信号、搬送波などが挙げられる。非一時的媒体としては、磁気媒体（例えば、ディスク及びテープ）、光学媒体（例えば、ＣＤＲＯＭ、デジタルビデオディスク、ブルーレイディスク）、ソリッドステート媒体（例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、ソリッドステートストレージ）、及び他の不揮発性ストレージ又はメモリが挙げられる。

コンピュータデバイス１２０５は、いくつかの例示的なコンピューティング環境において、技術、方法、アプリケーション、プロセス、又はコンピュータ実行可能命令を実装するために使用され得る。コンピュータ実行可能命令は、一時的媒体から取得し、非一時的媒体に記憶し、又は非一時的媒体から検索することができる。実行可能命令は、任意のプログラミング、スクリプト、及び機械語（例えば、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）、ＶｉｓｕａｌＢａｓｉｃ、Ｐｙｔｈｏｎ、Ｐｅｒｌ、ＪａｖａＳｃｒｉｐｔ（登録商標）など）のうちの一又は複数から発生し得る。

一又は複数のプロセッサ１２１０は、ネイティブ環境又は仮想環境において、任意のオペレーティングシステム（ＯＳ）（図示せず）の下で実行することができる。異なるユニットが互いと、ＯＳと及び他のアプリケーション（図示せず）と通信するための論理ユニット１２６０、アプリケーションプログラミングインタフェース（ＡＰＩ）ユニット１２６５、入力ユニット１２７０、出力ユニット１２７５、及びユニット間通信機構１２９５を含む一又は複数のアプリケーションを配備することができる。説明されたユニット及び要素は、設計、機能、構成、又は実装において変化する可能性があり、提供された説明に限定されない。一又は複数のプロセッサ１２１０は、中央処理装置（ＣＰＵ）などのハードウェアプロセッサの形態、又はハードウェアユニット及びソフトウェアユニットの組み合わせであり得る。

いくつかの例示的な実装では、情報又は実行命令がＡＰＩユニット１２６５によって受信されると、それは一または複数の他のユニット（例えば、論理ユニット１２６０、入力ユニット１２７０、出力ユニット１２７５）に通信され得る。例示として、論理ユニット１２６０は、ユニット間の情報フローを制御し、上述のいくつかの例示的な実装では、ＡＰＩユニット１２６５、入力ユニット１２７０、出力ユニット１２７５によって提供されるサービスを指示するように構成され得る。例えば、一又は複数のプロセス又は実装のフローは、論理ユニット１２６０のみによって、又はＡＰＩユニット１２６５と併せて制御され得る。入力ユニット１２７０は、例示的な実装で説明される計算のための入力を取得するように構成され得、出力ユニット１２７５は、例示的な実装で説明される計算に基づいて出力を提供するように構成され得る。

図２及び図３に示されるように、一又は複数のプロセッサ１２１０は、（例えば、ブラウザ及び図３の「私は顧客である」ボタンの選択を通じて）モバイルデバイスから第１の接続を受信する。次に、追跡デバイスと通信可能に結合された別のデバイスから（例えば、ブラウザ及び図３の「私は専門家である」ボタンの選択を通じて）第２の接続を受信する。このように、モバイルデバイスから別のデバイスへの映像及び方向センサ測定値の転送を容易にし、別のデバイスからモバイルデバイスへの手情報の転送を容易にするように、モバイルデバイスと別のデバイスとの間に第３の接続を確立するように構成され得る。図３に示されるように、第１の接続及び第２の接続は、Ｗｅｂブラウザを介して受信され得、第３の接続を確立することが、図１０のモバイルデバイスと図１１のシステムなどの別のデバイスとの間に直接ブラウザ間接続を確立することを含む。

図１ａ、図１ｂ、及び図２に示されるように、映像は、モバイルデバイスからのライブビデオであり得、方向センサ測定値は、モバイルデバイスからのライブ方向センサ測定値であり得る。また、手情報は、追跡デバイスからのユーザの手のライブ測定値から決定された手骨格関節測定値及び手視覚化パラメータを含み得る。

図９に示されるように、映像は、以前に記録された映像であり得、方向センサ測定値は、以前に記録された方向センサ測定値であり得る。

本開示におけるユーザの手の測定に関する例示的な実装は、オブジェクトの形状が既知であり、骨格関節及び視覚化パラメータに変換して、所望の実装を容易にすることができる限り、所望の実装に従って、ユーザの手以外のオブジェクトに拡張することができる。ユーザの手以外のオブジェクトとして例えば、ユーザの足、スタイラス、あらゆる種類の道具などが挙げられる。

発明を実施するための形態のいくつかの部分は、コンピュータ内の動作のアルゴリズム及び記号表現に関して提示される。これらのアルゴリズム記述及び記号表現は、データ処理技術の当業者がその革新の本質を他の当業者に伝えるために使用する手段である。アルゴリズムは、所望の最終状態又は結果に至る一連の定義された工程である。例示的な実装では、実行される工程は、実質のある結果を達成するために実際の量の物理的な操作を必要とする。

特に明記しない限り、説明から明らかなように、本明細書全体の記載を通して、「処理」、「コンピューティング」、「計算」、「決定」、「表示」などの用語を利用する説明には、コンピュータシステムのレジスタ及びメモリ内の物理（電子）量として表されるデータを、コンピュータシステムのメモリ若しくはレジスタ、又は他の情報ストレージ、転送若しくは表示デバイス内の物理量として同様に表される他のデータに操作及び変換する、コンピュータシステム又は他の情報処理デバイスのアクション及び処理を含み得ることは明らかである。

例示的な実装はまた、本明細書に記載の動作を実行するための装置に関連し得る。この装置は、必要な目的のために特別に構築することができ、又は一若しくは複数のコンピュータプログラムによって選択的にアクティブ化若しくは再構成される一又は複数の汎用コンピュータを含むことができる。そのようなコンピュータプログラムは、コンピュータ可読記憶媒体又はコンピュータ可読信号媒体などのコンピュータ可読媒体に記憶され得る。コンピュータ可読記憶媒体は、光ディスク、磁気ディスク、読み取り専用メモリ、ランダムアクセスメモリ、ソリッドステートデバイス及びドライブ、又は電子情報を保存するのに好適な任意の他のタイプの有形媒体若しくは非一時的媒体などの有形媒体が含まれ得るが、これらに限定されない。コンピュータ可読信号媒体は、搬送波などの媒体を含み得る。本明細書に提示されるアルゴリズム及び表示は、任意の特定のコンピュータ又は他の装置に本質的に関連するものではない。コンピュータプログラムは、所望の実装の動作を実行する命令を含む純粋なソフトウェア実装を含むことができる。

本明細書記載の例によるプログラム及びモジュールと共に様々な汎用システムを使用することができ、又は所望の方法工程を実行するためのより専門的な装置を構築することが好都合であることが判明する場合がある。更に、例示的な実装は、特定のプログラミング言語を参照して説明されていない。本明細書に記載される例示的な実装の教示を実装するために、様々なプログラミング言語が使用され得る。一又は複数のプログラミング言語の命令は、一又は複数の処理デバイス、例えば、中央処理装置（ＣＰＵ）、プロセッサ、又はコントローラによって実行され得る。

当技術分野で知られているように、上記の動作は、ハードウェア、ソフトウェア、又はソフトウェア及びハードウェアの組み合わせによって実行され得る。例示的な実装の様々な態様は、回路及び論理デバイス（ハードウェア）を使用して実装され得る。他の態様は機械可読媒体に記憶された命令（ソフトウェア）をプロセッサが実行することで本明細書に記載の方法が実行されることにより実装され得る。また、本明細書に記載のいくつかの例示的な実装は、ハードウェアのみで実行されてもよいが、他の例示的な実装は、ソフトウェアのみで実行されてもよい。更に、本明細書に記載された様々な機能は、単一のユニットで実行することでき、多数の方法で多数のコンポーネントに分散させることもできる。ソフトウェアによって実行される場合、本方法は、コンピュータ可読媒体に記憶された命令に基づいて、汎用コンピュータなどのプロセッサによって実行され得る。必要に応じて、命令は、圧縮又は暗号化された形式で媒体に記憶され得る。

更に、本明細書に記載の他の実装は、本明細書の考察及び本開示の教示の実施から当業者には明らかである。本明細書に記載された例示的な実装の様々な態様及びコンポーネントは、単独で又は任意の組み合わせで使用され得る。本明細書及び例示的な実装は、例としてのみ考慮されることが意図されており、本開示の真の範囲及び精神は、以下の特許請求の範囲によって示される。

Claims

方向センサとカメラとを含むモバイルデバイスのプロセスを実行するためのプログラムであって、命令は、
前記カメラからの映像及び前記方向センサからの測定値を別のデバイスへ転送することと、
前記別のデバイスからユーザの手に関連する手情報を受信することと、
前記手情報に基づいて前記ユーザの手の表現を前記モバイルデバイス上に表示される映像に重ねることであって、前記ユーザの手の前記表現は、前記方向センサからの前記測定値によって決定された方向で前記モバイルデバイス上に表示される映像にさらに重ねられることと、を含む方法をコンピュータに実行させる、プログラム。
前記映像が、前記モバイルデバイスの前記カメラからのライブビデオであり、前記測定値が、前記方向センサからのライブ測定値であり、
前記手情報が、前記ユーザの手のライブの動きから決定された手骨格関節測定値及び手視覚化パラメータを含む、請求項１に記載のプログラム。
前記手情報に基づいて前記ユーザの手の前記表現を前記モバイルデバイス上に表示される映像に重ねることは、前記手骨格関節測定値に基づく前記表現として、前記ユーザの手の３Ｄ手モデルを生成することと、前記映像の色相情報及び前記映像上で検出されたオブジェクトのうちの一又は複数に基づいて前記映像に重ねるように、前記３Ｄ手モデルの色及びサイズのうちの一又は複数を調製することと、を含む、請求項２に記載のプログラム。
前記命令が、
Ｗｅｂブラウザを介して、前記モバイルデバイスから前記別のデバイスの別のＷｅｂブラウザへのブラウザ間接続を確立することを更に含み、
前記カメラからの前記映像及び前記方向センサからの前記測定値を前記別のデバイスへ転送すること、並びに前記別のデバイスから前記手情報を受信することは、前記ブラウザ間接続を介して行われる、請求項１に記載のプログラム。
前記命令が、
マイクから録音された音声を前記別のデバイスに転送することと、
前記別のデバイスから受信した前記音声を出力することと、を更に含む、請求項１に記載のプログラム。
前記映像が、以前に記録された映像であり、前記方向センサからの前記測定値が、以前に記録された測定値である、請求項１に記載のプログラム。
追跡デバイスと通信可能に結合されたデバイスのプロセスを実行するためのプログラムであって、命令は、
モバイルデバイスから映像及び方向センサの測定値を受信することと、
別のデバイスから、前記追跡デバイスから得られた測定値に基づいて生成された、ユーザの手に関連する手情報を転送することと、
前記手情報に基づいて前記デバイスによって表示するように、前記ユーザの手の表現を前記映像に重ねることであって、前記ユーザの手の前記表現は、前記方向センサからの前記測定値によって決定された方向で前記映像に重ねられることと、を含む方法をコンピュータに実行させるプログラム。
前記映像が、モバイルデバイスからのライブビデオであり、前記方向センサの測定値が、前記モバイルデバイスからのライブ方向センサの測定値であり、前記手情報が、前記追跡デバイスからの前記ユーザの手のライブ測定値から決定された手骨格関節測定値及び手視覚化パラメータを含む、請求項７に記載のプログラム。
前記手情報に基づいて前記デバイスによって表示するように、前記ユーザの手の前記表現を前記映像に重ねることは、前記手骨格関節測定値に基づく前記表現として、前記ユーザの手の３Ｄ手モデルを生成することと、前記映像の色相情報及び前記映像上の検出されたオブジェクトのうちの一又は複数に基づいて前記映像に重ねられるように、前記３Ｄ手モデルの色及びサイズのうちの一又は複数を調製することと、を含む、請求項８に記載のプログラム。
前記命令が、
Ｗｅｂブラウザを介して、前記デバイスから前記モバイルデバイスの別のＷｅｂブラウザへのブラウザ間接続を確立することを更に含み、
前記モバイルデバイスから前記映像及び前記方向センサの測定値を受信すること、並びに前記デバイスから手情報を転送することは、前記ブラウザ間接続を介して行われる、請求項７に記載のプログラム。
前記命令が、
マイクから録音された音声を前記モバイルデバイスに転送することと、
前記モバイルデバイスから受信した前記音声を出力することと、を更に含む、請求項７に記載のプログラム。
前記映像が、以前に記録された映像であり、前記方向センサの測定値が、以前に記録された方向センサの測定値である、請求項７に記載のプログラム。
サーバの命令を記憶するプログラムであって、前記命令は、
モバイルデバイスから第１の接続を受信することと、
追跡デバイスと通信可能に結合された別のデバイスから第２の接続を受信することと、
前記モバイルデバイスから前記別のデバイスへの映像及び方向センサ測定値の転送を容易にし、かつ前記別のデバイスから前記モバイルデバイスへの手情報の転送を容易にするように、前記モバイルデバイスと前記別のデバイスとの間に第３の接続を確立することと、を含む方法をコンピュータに実行させる、プログラム。
前記第１の接続及び前記第２の接続が、Ｗｅｂブラウザを介して受信され、前記第３の接続を前記確立することが、前記モバイルデバイスと前記別のデバイスとの間に直接ブラウザ間接続を確立することを含む、請求項１３に記載のプログラム。
前記映像が、前記モバイルデバイスからのライブビデオであり、前記方向センサ測定値が、前記モバイルデバイスからのライブ方向センサ測定値であり、前記手情報が、前記追跡デバイスからのユーザの手のライブ測定値から決定された手骨格関節測定値及び手視覚化パラメータを含む、請求項１３に記載のプログラム。
前記映像が、以前に記録された映像であり、前記方向センサ測定値が、以前に記録された方向センサ測定値である、請求項１３に記載のプログラム。