JP7499345B2

JP7499345B2 - 複数の姿勢推定エンジンを用いた手のマーカレス運動捕捉

Info

Publication number: JP7499345B2
Application number: JP2022556030A
Authority: JP
Inventors: コリンジョゼフブラウン，; ウェンシンジャン，; ダレイワン，
Original assignee: ヒンジヘルス，インコーポレイテッド
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2024-06-13
Anticipated expiration: 2040-03-20
Also published as: AU2020436767B2; EP4121939A1; WO2021186222A1; KR20220156873A; US20230141494A1; EP4121939A4; CA3172247A1; JP2023527625A; AU2020436767A1

Description

運動捕捉は、人、動物、または物体の移動を記録することを伴う、一般的な分野である。運動捕捉は、映画、ビデオゲーム、エンターテインメント、生体力学、訓練映像、スポーツシミュレータ、および他の技術における、コンピュータ生成イメージ等、種々の用途で使用され得る。従来から、人物の手の指を伴う等、細かい移動の運動捕捉は、細かい運動を遂行する、対象の部分上に、マーカを取着することによって遂行される。マーカは、運動の容易な追跡を可能にするために、関節部分だけではなく、関節の間等、具体的な場所に設置され得る。使用されるマーカは、特に限定されず、画像処理のために、カメラシステムがマーカを容易に識別することを可能にする、アクティブまたはパッシブマーカを伴い得る。いくつかの実施例では、マーカは、手袋または衣類の一部等の装着可能装置上に、予め位置付けられ得る。

対象に取着されるマーカを使用した、運動捕捉技法は、公知である。加えて、運動捕捉が、マーカを使用することなく遂行される、マーカレス運動捕捉システムも、人気が高まりつつある。マーカレス運動捕捉技法は、自然なままの体験を提供し、対象は、それに取着されるマーカによって運動を限定されない。例えば、マーカは、結果としてエラーをもたらし得る、環境または他のマーカと衝突し得る。特に、マーカを使用した人物の運動捕捉に関して、マーカは、典型的には、人物に対してカスタムされたサイズである、特殊スーツ上に埋設される。加えて、スーツは、同時に捕捉するために望ましいものであり得る、コスチュームまたは他の扮装具の着用を不可能にし得る。さらに、マーカは、確実に検出されるように、赤外線等の特殊照明を使用し得る。マーカレス運動捕捉は、対象が、多種多様なコスチュームを着用することを可能にし、より少ない実装するべきハードウェアを使用する。しかしながら、マーカレス運動捕捉は、典型的には、より低い忠実性を有し、マーカシステムを使用した運動捕捉システムよりも少ない関節を追跡することしかできない。

特に、対象のマーカレス運動捕捉は、運動捕捉が、対象全体であるとき、対象のより小さな部分を追跡することが困難であり得る。例えば、運動捕捉の対象が、人間対象である場合、手の移動は、それらが、そのようなより小規模ベースであるため、捕捉することが困難であり得る。一般的に、人間対象の手は、非常に細かく、対象の運動に有意に寄与する。特に、手は、多くの場合、環境内の物体を操作するために使用され得る。故に、手の運動捕捉が正確ではない場合、人間対象の移動は、不自然であるように現れ得る。

複数の姿勢推定エンジンを使用した手のマーカレス運動捕捉を提供する方法に従って、システム内でともに動作する、種々の装置が、提供される。本システムは、複数のビューを処理する、複数のコンピュータビジョンベースの姿勢推定エンジンを使用し、マーカレス運動捕捉プロセスを使用して、人間対象の手の運動を捕捉し得る。特に、本システムは、全体として、対象に関する姿勢を生成し、メイン画像から抽出される、手等の対象の一部に関する付加的な姿勢推定を実施し得る。

本説明において、下記に議論される装置および方法は、概して、人間対象の手に焦点を絞って、人間対象に適用される。下記に説明される実施例が、顔の表情を捕捉すること等、人間対象の他の部分に適用され得ることが、本説明から利益を享受する当業者によって理解されるはずである。加えて、捕捉されるべき細かい複雑な移動に従事する、対象の小さな部分を有する、動物および機械等の他の対象も、同様に想定される。

図１を参照すると、マーカレス運動捕捉のための装置の概略描写が、概して、５０に示される。装置５０は、装置５０のユーザと相互作用するための、インジケータ等、種々の付加的なインターフェースおよび／または入力／出力デバイス等の付加的な構成要素を含み得る。相互作用は、装置５０またはその中で装置が動作するシステムの動作状態を視認すること、装置５０のパラメータを更新すること、または装置５０をリセットすることを含み得る。本実施例では、装置５０は、運動捕捉のための画像または映像を捕捉し、着目領域内に、人間対象上の手等の細かい詳細を伴う骨格を生成するためのものである。本実施例では、装置５０は、カメラ５５と、第１の姿勢推定エンジン６０と、第２の姿勢推定エンジン６５と、取着エンジン７０と、通信インターフェース７５とを含む。

本実施例では、装置５０はまた、装置５０およびその構成要素の一般的な動作に対する命令を記憶するために使用され得る、メモリ記憶ユニット（図示せず）を含み得る。特に、命令は、種々の機能を遂行するために、プロセッサによって使用され得る。他の実施例では、装置５０は、プロセッサに指示するための外部サーバ等、別個のソースからの命令を受信し得る。さらなる実施例では、装置５０の各構成要素は、任意の中央制御から独立して動作する、単独の構成要素であり得る。
本発明は、例えば、以下を提供する。
（項目１）
装置であって、
対象の第１の画像を捕捉するための第１のカメラと、
前記第１の画像を受信するための第１の姿勢推定エンジンであって、前記第１の姿勢推定エンジンは、前記第１の画像の第１の粗い骨格を生成し、前記第１の姿勢推定エンジンはさらに、前記第１の粗い骨格に基づいて、前記第１の画像の第１の領域を識別する、第１の姿勢推定エンジンと、
前記第１の領域を受信するための第２の姿勢推定エンジンであって、前記第２の姿勢推定エンジンは、前記第１の画像の第１の領域の第１の細かい骨格を生成する、第２の姿勢推定エンジンと、
第１の骨格全体を生成するための第１の取着エンジンであって、前記第１の骨格全体は、前記第１の粗い骨格に取着される、前記第１の細かい骨格を含む、第１の取着エンジンと、
前記対象の第２の画像を捕捉するための第２のカメラであって、前記第２の画像は、前記第１のカメラと異なる視点から捕捉される、第２のカメラと、
前記第２の画像を受信するための第３の姿勢推定エンジンであって、前記第３の姿勢推定エンジンは、前記第１の画像の第２の粗い骨格を生成し、前記第３の姿勢推定エンジンはさらに、前記第２の粗い骨格に基づいて、前記第２の画像の第２の領域を識別する、第３の姿勢推定エンジンと、
前記第２の領域を受信するための第４の姿勢推定エンジンであって、前記第４の姿勢推定エンジンは、前記第２の画像の第２の領域の第２の細かい骨格を生成する、第４の姿勢推定エンジンと、
第２の骨格全体を生成するための第２の取着エンジンであって、前記第２の骨格全体は、前記第２の粗い骨格に取着される、前記第２の細かい骨格を含む、第２の取着エンジンと、
前記第１の骨格全体および前記第２の骨格全体を受信するための集約器であって、前記集約器は、前記第１の骨格全体および前記第２の骨格全体から、３次元骨格を生成する、集約器と
を備える、装置。
（項目２）
前記第１の姿勢推定エンジンによって生成される、前記第１の粗い骨格は、前記対象の身体を表す、項目１に記載の装置。
（項目３）
前記第１の姿勢推定エンジンは、前記身体の身体関節位置を推測するために、第１の畳み込みニューラルネットワークを使用する、項目２に記載の装置。
（項目４）
前記第２の姿勢推定エンジンによって生成される、前記第１の細かい骨格は、前記対象の手を表す、項目３に記載の装置。
（項目５）
前記第２の姿勢推定エンジンは、前記手の手関節位置を推測するために、第２の畳み込みニューラルネットワークを使用する、項目４に記載の装置。
（項目６）
前記第１の取着エンジンは、前記第１の粗い骨格と組み合わせるために、前記第１の細かい骨格をスケーリングするためのものである、項目１－５のいずれか１項に記載の装置。
（項目７）
前記第１の取着エンジンは、前記第１の粗い骨格と組み合わせるために、前記第１の細かい骨格を平行移動させるためのものである、前項目１－６のいずれか１項に記載の装置。
（項目８）
前記第１の姿勢推定エンジンは、前記第１の粗い骨格を生成するために、前記第１の画像の分解能を低減させるためのものであり、前記第２の姿勢推定エンジンは、前記第１の細かい骨格を生成するために、フル分解能で、前記第１の画像を使用するためのものである、項目１－９のいずれか１項に記載の装置。
（項目９）
前記第３の姿勢推定エンジンによって生成される、前記第２の粗い骨格は、前記対象の身体を表す、項目１－８のいずれか１項に記載の装置。
（項目１０）
前記第２の姿勢推定エンジンによって生成される、前記第２の細かい骨格は、前記対象の手を表す、項目９に記載の装置。
（項目１１）
前記第２の取着エンジンは、前記第２の粗い骨格と組み合わせるために、前記第２の細かい骨格をスケーリングするためのものである、項目１－１０のいずれか１項に記載の装置。
（項目１２）
前記第２の取着エンジンは、前記第１の粗い骨格と組み合わせるために、前記第２の細かい骨格を平行移動させるためのものである、項目１－１１のいずれか１項に記載の装置。
（項目１３）
前記第３の姿勢推定エンジンは、前記第２の粗い骨格を生成するために、前記第２の画像の分解能を低減させるためのものであり、前記第４の姿勢推定エンジンは、前記第１の細かい骨格を生成するために、フル分解能で、前記第２の画像を使用するためのものである、項目１－１２のいずれか１項に記載の装置。
（項目１４）
装置であって、
対象の画像を捕捉するためのカメラと、
前記画像を受信するための第１の姿勢推定エンジンであって、前記第１の姿勢推定エンジンは、前記画像の粗い骨格を生成し、前記第１の姿勢推定エンジンはさらに、前記粗い骨格に基づいて、前記画像の領域を識別する、第１の姿勢推定エンジンと、
前記領域を受信するための第２の姿勢推定エンジンであって、前記第２の姿勢推定エンジンは、前記画像の領域の細かい骨格を生成する、第２の姿勢推定エンジンと、
骨格全体を生成するための取着エンジンであって、前記骨格全体は、前記粗い骨格に取着される、前記細かい骨格を含む、取着エンジンと、
前記骨格全体を集約器に伝送するための通信インターフェースであって、前記集約器は、前記骨格全体および付加的なデータに基づいて、３次元骨格を生成するためのものである、通信インターフェースと
を備える、装置。
（項目１５）
前記第１の姿勢推定エンジンによって生成される、前記粗い骨格は、前記対象の身体を表す、項目１４に記載の装置。
（項目１６）
前記第１の姿勢推定エンジンは、前記身体の身体関節位置を推測するために、第１の畳み込みニューラルネットワークを使用する、項目１５に記載の装置。
（項目１７）
前記第２の姿勢推定エンジンによって生成される、前記細かい骨格は、前記対象の手を表す、項目１６に記載の装置。
（項目１８）
前記第２の姿勢推定エンジンは、前記手の手関節位置を推測するために、第２の畳み込みニューラルネットワークを使用する、項目１７に記載の装置。
（項目１９）
前記取着エンジンは、前記粗い骨格と組み合わせるために、前記細かい骨格をスケーリングするためのものである、項目１４－１８のいずれか１項に記載の装置。
（項目２０）
前記取着エンジンは、前記粗い骨格と組み合わせるために、前記細かい骨格を平行移動させるためのものである、項目１４－１９のいずれか１項に記載の装置。
（項目２１）
前記第１の姿勢推定エンジンは、前記粗い骨格を生成するために、前記画像の分解能を低減させるためのものであり、前記第２の姿勢推定エンジンは、前記細かい骨格を生成するために、フル分解能で、前記画像を使用するためのものである、項目１４－２０のいずれか１項に記載の装置。
（項目２２）
装置であって、
複数の外部ソースから複数の骨格全体を受信するための通信インターフェースであって、前記複数の骨格全体のそれぞれの骨格全体は、粗い骨格に取着される、細かい骨格を含む、通信インターフェースと、
前記通信インターフェースを介して受信された前記複数の骨格全体を記憶するためのメモリ記憶ユニットと、
前記メモリ記憶ユニットと通信している集約器であって、前記集約器は、前記複数の骨格全体に基づいて、３次元骨格を生成するためのものである、集約器と
を備える、装置。
（項目２３）
前記集約器は、３次元関節を生成するために、第１の骨格全体の第１の関節と第２の骨格全体の第２の関節を組み合わせるためのものである、項目２２に記載の装置。
（項目２４）
前記３次元関節は、手関節を表す、項目２３に記載の装置。
（項目２５）
方法であって、
カメラを用いて、対象の画像を捕捉することと、
前記画像の粗い骨格を生成することであって、前記粗い骨格は、２次元である、ことと、
前記粗い骨格に基づいて、前記画像内の着目領域を識別することと、
前記着目領域の細かい骨格を生成することであって、前記細かい骨格は、２次元である、ことと、
骨格全体を形成するために、前記細かい骨格を前記粗い骨格の一部に取着することと、
３次元骨格を形成するために、付加的なデータとともに、前記骨格全体を集約することと
を含む、方法。
（項目２６）
前記画像の前記粗い骨格を生成することは、前記画像内の身体関節位置を推測するために、第１の畳み込みニューラルネットワークを適用することを含む、項目２５に記載の方法。
（項目２７）
前記着目領域の前記細かい骨格を生成することは、前記着目領域内の前記手関節位置を推測するために、第２の畳み込みニューラルネットワークを適用することを含む、項目２６に記載の方法。
（項目２８）
前記細かい骨格を前記粗い骨格の一部に取着することは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格をスケーリングすることを含む、項目２５－２７のいずれか１項に記載の方法。
（項目２９）
前記細かい骨格を前記粗い骨格の一部に取着することは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格を平行移動させることを含む、項目２５－２８のいずれか１項に記載の方法。
（項目３０）
前記粗い骨格を生成するために、前記画像の分解能を低減させることをさらに含む、項目２５－２９のいずれか１項に記載の方法。
（項目３１）
コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、前記コードは、
第１のカメラを用いて、対象の画像を捕捉することと、
前記画像の粗い骨格を生成することであって、前記粗い骨格は、２次元である、ことと、
前記粗い骨格に基づいて、前記画像内の着目領域を識別することと、
前記着目領域の細かい骨格を生成することであって、前記粗い骨格は、２次元である、ことと、
骨格全体を形成するために、前記細かい骨格を前記粗い骨格の一部に取着することと、
３次元骨格を形成するために、付加的なデータとともに、前記骨格全体を集約することと
を行うようにプロセッサに指示する、非一過性のコンピュータ可読媒体。
（項目３２）
前記コードは、前記画像内の身体関節位置を推測するために第１の畳み込みニューラルネットワークを適用することによって、前記画像の前記粗い骨格を生成するように前記プロセッサに指示する、項目３１に記載の非一過性コンピュータ可読媒体。
（項目３３）
前記コードは、前記着目領域内の前記手関節位置を推測するために第２の畳み込みニューラルネットワークを適用することによって、前記着目領域の前記細かい骨格を生成するように前記プロセッサに指示する、項目３２に記載の非一過性コンピュータ可読媒体。
（項目３４）
前記細かい骨格を前記粗い骨格の一部に取着するように前記プロセッサに指示する、前記コードはさらに、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格をスケーリングするように前記プロセッサに指示する、項目３１－３３のいずれか１項に記載の非一過性コンピュータ可読媒体。
（項目３５）
前記細かい骨格を前記粗い骨格の一部に取着するように前記プロセッサに指示する、前記コードはさらに、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格を平行移動させるように前記プロセッサに指示する、項目３１－３４のいずれか１項に記載の非一過性コンピュータ可読媒体。
（項目３６）
前記コードは、前記粗い骨格を生成するために、前記画像の分解能を低減させるように前記プロセッサに指示する、項目３１－３５のいずれか１項に記載の非一過性コンピュータ可読媒体。

ここで、単に実施例として、付随の図面が参照されるであろう。

図１は、マーカレス運動捕捉のための例示的装置の構成要素の概略描写である。

図２は、マーカレス運動捕捉のための別の例示的装置の構成要素の概略描写である。

図３は、外部ソースから、関節回転を推測するための例示的システムの描写である。

図４は、マーカレス運動捕捉の方法の実施例のフローチャートである。

詳細な説明
カメラ５５は、画像または映像の形態で、データを収集するためのものである。特に、カメラ５５は、運動中の対象の画像を捕捉するための高分解能デジタル映像レコーダであり得る。本実施例では、映像は、規定されたフレームレートで捕捉された画像の集合であり得る。故に、映像の各フレームまたは画像が、運動捕捉中に、別個に処理され、処理後に再度組み合わせられ、運動捕捉を提供し得ることが、本説明から利益を享受する当業者によって理解されるであろう。いくつかの実施例では、フレームは、１つおきのフレームまたは数個おきのフレーム等、運動捕捉のためのより遅いレートでサンプリングされ、算出リソースに関する需要を低減させ得る。例えば、カメラ５５は、人間対象の画像を捕捉し得る。いくつかの実施例では、カメラ５５は、ステージ上またはスポーツアリーナ内等、具体的な対象の運動に追従するための運動追跡を含み得る。カメラ５５は、特に限定されず、カメラ５５が画像を捕捉する様式も、限定されない。例えば、カメラ５５は、光信号を検出するために、相補型金属酸化膜半導体を有する、アクティブピクセルセンサ上に光を集束させるための種々の光学的構成要素を含み得る。他の実施例では、光学系が、電荷結合素子上に光を集束させるために使用され得る。

姿勢推定エンジン６０は、処理のためにカメラ５５から画像を受信するために、カメラ５５と通信する。姿勢推定エンジン６０が、複数の画像または映像データを受信し得ることが、本説明から利益を享受する当業者によって理解されるはずである。姿勢推定エンジン６０において受信された画像は、画像内の対象の粗い骨格を生成するために使用され得る。本実施例では、画像は、人間対象の２次元表現を含み得る。故に、姿勢推定エンジン６０は、接続された関節を有する、人間対象の身体の骨格を生成し得る。故に、各関節は、近似回転を有する、人間対象上の解剖学的場所または目印を表し得る。例えば、骨格内の関節は、肘、肩、膝、股関節等を表し得る。

いくつかの実施形態では、姿勢推定エンジン６０はまた、カメラ５５によって捕捉される画像の分解能を低減させ、装置５０の性能を増加させ得る。例えば、カメラ５５によって捕捉される画像が、高分解能画像である場合、画像データは、５１２×３８４等のより低い分解能にスケーリングダウンされ得、これは、粗い骨格を生成するために十分であり得る。

姿勢推定エンジン６０が骨格を生成する様式は、限定されず、画像処理技法を使用する、マーカレス姿勢推定プロセスを伴い得る。いくつかの実施形態では、姿勢推定エンジン６０が、それに画像データが送信され、骨格を表すデータが、それに応答して受信されることになる、外部デバイスであり得ることを理解されたい。故に、姿勢推定エンジン６０は、ウェブサービス等、画像処理に特化された別個のシステムの一部であり得、第三者によって提供され得る。本実施例では、姿勢推定エンジン６０は、骨格を生成し、関節の位置および回転を推測するために、ニューラルネットワーク等の機械学習技法を適用し得る。特に、いくつかの実施例では、畳み込みニューラルネットワークが、関節の位置および回転を推測するために使用され得る。他の実施例では、完全畳み込みモデルまたはランダムフォレスト等の他の機械モデルを含む畳み込みニューラルネットワーク、他の深層ニューラルネットワーク、再帰ニューラルネットワーク、もしくは他の時間的モデル等、人間身体の一部の類似性を検出し、場所を特定するための特徴を表すことが可能である、他の機械学習モデルが、人間姿勢推定のために使用され得る。

姿勢推定エンジン６０が、最初に、着目領域（ＲＯＩ）を検出し、次いで、各ＲＯＩ内の人間骨格等の詳細を推測する、Ｍａｓｋ－Ｒ－ＣＮＮタイプモデル等のトップダウンアーキテクチャ、入力画像全体を横断して関節を検出し、次いで、人間内に関節をクラスタ化する、ＶＧＧ１９等のボトムアップアーキテクチャ、またはハイブリッド型アーキテクチャ等の他のアーキテクチャである、モデルを使用し得ることが、当業者によって理解されるはずである。姿勢推定エンジン６０は、異なる種類の関節の検出を表す、異なるマップ上、または関節座標のベクトル等の他の表現内において、ピークを伴うヒートマップとして、関節を推測し得る。姿勢推定エンジン６０はまた、骨の類似性マップ等の他のマップ、またはインスタンスマスクおよびパーツマスク等の他のマップを出力し得、これは、骨格内の関節のクラスタ化を支援するために使用され得る。本実施例では、姿勢推定エンジン６０はさらに、着目に値する、カメラ５５から受信された２次元画像内の領域を特定する。着目領域は、特に限定されず、自動的に選択される、またはユーザ等の外部ソースから受信された入力に基づいて、選択され得る。着目領域が選択される様式は、特に限定されない。画像内の人間対象の本実施例を続けると、着目領域の位置が、左または右手首関節等の他の既知の関節の推測された場所、ならびに／もしくは前腕の推測される方向を与えられた、手のひらの中心の典型的な場所等、他の情報、予備知識、学習された機能または経験則に基づいて、自動的に選択され得る。着目される領域のサイズもまた、例えば、人物全体の推測される身長、および人物の身長と比較した、手の典型的な相対的サイズ、または推測される前腕の長さ等の関連情報、学習された機能、または経験則に基づいて、自動的に選択され得る。他の実施例では、着目領域は、顔面等の細かい詳細を伴う人間姿勢の別の部分であり得る。本実施例では、姿勢推定エンジン６０は、画像内の境界を定義することによって、領域を識別する。他の実施例では、姿勢推定エンジン６０は、元画像をクロッピングし、より小さい画像を生成してもよい。

姿勢推定エンジン６５は、カメラ５５によって最初に捕捉された画像の着目領域を受信するために、姿勢推定エンジン６０と通信する。いくつかの実施例では、姿勢推定エンジン６５は、画像をカメラ５５から直接受信し、姿勢推定エンジン６０から着目領域の境界定義を受信し得る。特に、例えば、姿勢推定エンジン６０が、元画像の分解能を低減させる場合、姿勢推定エンジン６５は、フル分解能で元画像を受信し、姿勢推定エンジン６０から受信された境界に基づいて、着目領域をクロッピングする。他の実施例では、姿勢推定エンジン６５は、姿勢推定エンジン６０からクロッピングされた画像を受信してもよい。姿勢推定エンジン６５は、着目領域内の対象の一部の細かい骨格を生成するためのものである。上記の実施例を続けると、着目領域は、手等の人間対象の一部の２次元表現である。故に、姿勢推定エンジン６０は、接続された関節を有する手の骨格を生成し得る。故に、各関節は、近似回転を有する、手のある点を表し得る。例えば、骨格内の関節は、指骨間関節、中手指節関節、または手首内等の関節の組み合わせを表し得る。

姿勢推定エンジン６５が細かい骨格を生成する様式は、限定されず、姿勢推定エンジン６０のように対象全体に適用される代わりに、着目領域上のみに適用される、画像処理技法を使用する、マーカレス姿勢推定プロセスを伴い得る。いくつかの実施形態では、姿勢推定エンジン６０が、それに画像データが送信され、骨格を表すデータが、それに応答して受信されることになる、外部デバイスであり得ることを理解されたい。故に、姿勢推定エンジン６０は、ウェブサービス等、画像処理に特化された別個のシステムの一部であり得、第三者によって提供され得る。本実施例では、姿勢推定エンジン６５は、姿勢推定エンジン６０と同様に動作され、骨格を生成し、関節の位置および回転を割り当てるために、ニューラルネットワーク等の機械学習技法を適用し得る。特に、いくつかの実施例では、別の畳み込みニューラルネットワークが使用され、クロッピングされた画像に適用されてもよい。ニューラルネットワークの適用を画像の一部に限定することによって、より多くの詳細が、画像から抽出され得、それによって、手の中の個々の関節が、識別または推測され、運動捕捉を改良し得ることが、本説明から利益を享受する当業者によって理解されるはずである。

取着エンジン７０は、姿勢推定エンジン６０によって生成される粗い骨格、および姿勢推定エンジン６５によって生成される細かい骨格から、骨格全体を生成するためのものである。取着エンジン７０が骨格全体を生成する様式は、特に限定されない。例えば、細かい骨格は、着目領域によって定義される対象の一部を表し得る。本実施例では、取着エンジン７０は、姿勢推定エンジン６０によって生成される粗い骨格の一部を、関連付けられる回転を伴う、より多くの関節位置を有し得る、姿勢推定エンジン６５によって生成される、細かい骨格を伴う部分に置換し得る。

取着エンジン７０はまた、細かい骨格から粗い骨格への遷移を平滑化し得る。取着エンジン７０によって遂行される平滑化機能は、姿勢推定エンジン６５および姿勢推定エンジン６０を使用する、細かい骨格および粗い骨格の生成が、着目領域が単に置換されるときに、それぞれ、不連続点を作成する場合、粗い骨格に対して細かい骨格を変換し、取着点を整合させることを伴い得る。取着エンジン７０によって遂行される平滑化機能はまた、粗い骨格の比率をマッチングさせるために、細かい骨格の比率をスケーリングすることを伴い得る。

姿勢推定エンジン６０が、複数の着目領域を識別し得ることが、本説明から利益を享受する当業者によって理解されるはずである。例えば、姿勢推定エンジン６０は、人間対象上の２つの手を識別し得る。加えて、姿勢推定エンジン６０はまた、顔面、足、または脊椎を識別し得る。さらに、姿勢推定エンジン６０は、指または顔特徴（例えば、目または唇）等のサブ着目領域を識別し得る。いくつかの実施例では、各着目領域は、姿勢推定エンジン６５によって、順に処理されてもよい。他の実施例では、着目領域は、姿勢推定エンジン６５によって、並行して処理されてもよい。他の実施例はまた、付加的な姿勢推定エンジン（図示せず）を含んでもよく、付加的な姿勢推定エンジンは、付加的な着目領域を並行して処理するために使用され得る。そのような実施例では、各姿勢推定エンジンは、人間対象の手等の具体的なタイプの着目領域に特殊化され得る。

通信インターフェース７５は、それに取着エンジン７０によって生成される骨格全体を表すデータが伝送される、集約器と通信する。本実施例では、通信インターフェース７５は、ＷｉＦｉネットワークまたはセルラーネットワーク等、多数の接続されたデバイスと共有される、パブリックネットワークであり得る、ネットワークを経由して、集約器と通信してもよい。他の実施例では、通信インターフェース７５は、イントラネット、または他のデバイスとの有線接続等のプライベートネットワークを介して、データを集約器に伝送してもよい。

本実施例では、骨格全体は、カメラ５５によって捕捉される画像内の対象の２次元表現である。集約器は、異なる観点において捕捉された画像から生成される２次元骨格全体等の付加的なデータとともに、取着エンジン７０によって生成される骨格全体を使用し、画像内の対象の３次元骨格を生成し得る。故に、集約器は、複数の視点または観点から骨格を統合し、種々の３次元結像技法を使用して、３次元骨格を生成し得る。したがって、いったん３次元骨格が形成されると、３次元骨格は、概して粗い骨格においては捕捉されない、詳細なレベルまで、着目領域内の詳細を捕捉し得る。

本実施例では、３次元骨格は、異なる観点から捕捉される画像データから生成される、対象の２次元骨格全体からの対応する点を三角測量することによって、算出され得る。集約器は、異なる観点からの画像データから生成される、２次元骨格全体の関節位置のノイズのある、または誤った測定および推測を破棄するために、ランダムサンプルコンセンサス（ＲＡＮＳＡＣ）もしくは他の類似技法等の外れ値棄却技法を採用し得る。外れ値棄却技法は、外れ値の棄却方法を決定するために、骨格または各骨格からの個々の関節から、加重または信頼基準を組み込み得る。三角測量は、確率的フレームワーク内の現在および過去の測定値を組み合わせる、カルマンフィルタフレームワークの一環として、算出されてもよい、または代数的アプローチまたは訓練された機械学習モデルを用いる等、他の方法で算出されてもよい。加えて、三角測量はまた、異なる観点からの画像データから生成される、複数の骨格から、３次元位置および回転の算出方法を決定するために、骨格または各骨格からの個々の関節から、加重または信頼基準を組み込み得る。

集約器はまた、複数の対象の場合、同一人物に対応するように、異なる観点から捕捉される画像からの骨格をマッチングさせる方法を決定するために、マッチング技法を採用し得る。異なる画像データから対象をマッチングするために、マッチング技法は、種々の経験則または機械学習モデルを採用し得、各ビューからの個別画像から導出される情報等、位置および速度、または関節、もしくは外見特徴等の骨格特徴を活用し得る。

本実施例は、集約器によって使用される骨格全体が、細かい骨格が粗い骨格に取着されることになる同様の様式で生成されることを想定するが、他の実施例は、集約器によって受信された付加的なデータ内では、細かい骨格を生成しない場合がある。例えば、集約器は、着目領域内の細かい特徴を伴う、一次骨格全体を使用し得るが、３次元骨格は、付加的な粗い骨格のみを伴って生成され得る。そのような実施例では、細かい骨格が各観点に対して生成されないため、本システムのための算出リソースは、低減され得る。

本実施例では、通信インターフェース７５が、データを集約器に伝送する様式は、限定されず、集約器への有線接続を介して、電気信号を伝送することを含み得る。他の実施例では、通信インターフェース７５は、ルータまたは中央コントローラ等の中継デバイスを伴い得る、インターネットを介して、無線で集約器に接続され得る。さらなる実施例では、通信インターフェース７５は、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続、無線信号、または赤外線信号等の無線信号を伝送および受信し、その後、付加的なデバイスに中継するための無線インターフェースであり得る。

図２を参照すると、マーカレス運動捕捉のための装置の概略描写が、概して、８０に示される。装置８０は、装置８０のユーザと相互作用するための、インジケータ等、種々の付加的なインターフェースおよび／または入力／出力デバイス等の付加的な構成要素を含み得る。相互作用は、装置８０またはその中で装置が動作するシステムの動作状態を視認すること、装置８０のパラメータを更新すること、または装置８０をリセットすることを含み得る。本実施例では、装置８０は、３次元骨格を形成するために、装置５０等の複数のデバイスと相互作用し、３次元運動捕捉を提供するためのものである。装置８０は、通信インターフェース８５と、メモリ記憶ユニット９０と、集約器９５とを含む。

通信インターフェース８５は、装置５０等の外部ソースと通信するためのものである。本実施例では、通信インターフェース８５は、取着エンジン７０によって、粗い骨格と細かい骨格を組み合わせることによって生成される、骨格全体を表すデータを受信するためのものである。通信インターフェース８５は、複数の装置５０と通信し得、各装置５０は、対象を捕捉するために、異なる観点で配置される。本実施例では、通信インターフェース８５は、ＷｉＦｉネットワークまたはセルラーネットワークを経由して等、上記に説明される通信インターフェース７５と同様の様式で、装置５０と通信し得る。他の実施例では、通信インターフェース８５は、イントラネット、または他の中継デバイスとの無線接続等のプライベートネットワークを介して、装置５０からデータを受信し得る。

メモリ記憶ユニット９０は、通信インターフェース８５を介して、装置５０から受信されたデータを記憶するためのものである。特に、メモリ記憶ユニット９０は、映像内の対象の運動捕捉のために組み合わせられ得る、複数の骨格全体を記憶し得る。複数の観点からの骨格全体が、通信インターフェース８５を介して受信される実施例では、メモリ記憶ユニット９０が、データベース内の粗い特徴および細かい特徴を伴う骨格全体を記憶および編成するために使用され得ることが、本説明から利益を享受する当業者によって理解されるはずである。

本実施例では、メモリ記憶ユニット９０は、特に限定されず、任意の電子、磁気、光学、または他の物理的記憶デバイスであり得る、非一過性機械可読記憶媒体を含み得る。装置５０または他のデータ収集デバイスから受信されたデータに加えて、メモリ記憶ユニット９０は、集約器９５等、装置８０およびその構成要素の一般的な動作に対する命令を記憶するために使用され得る。特に、メモリ記憶ユニット９０は、プロセッサによって実行可能である、オペレーティングシステムを記憶し、装置８０に、一般的な機能性、例えば、種々のアプリケーションをサポートするための機能性を提供し得る。特に、命令は、種々の機能を遂行するために、プロセッサによって使用され得る。さらに、メモリ記憶ユニット９０はまた、ディスプレイおよび他のユーザインターフェース等、装置８０の他の構成要素および周辺デバイスを動作させるための制御命令を記憶し得る。

集約器９５は、メモリ記憶ユニット９０と通信し、少なくとも１つの２次元骨格全体を、異なる観点からの異なる２次元骨格全体等の付加的なデータと組み合わせ、画像の対象を表す３次元骨格を生成するためのものである。複数の３次元骨格を時間の関数として組み合わせることによって、経時的に対象の運動を捕捉する。集約器９５が組み合わせ得る、装置５０によって生成される骨格全体の数が、限定されないことを理解されたい。

集約器９５が２次元骨格を組み合わせる様式は、特に限定されない。本実施例では、各骨格全体は、複数の姿勢推定エンジンからの結果を組み合わせることによって生成される、細かい特徴と、粗い特徴とを含む。２次元骨格全体のうちの１つにおける関節は、別の２次元骨格全体における対応する関節と相関し得、それによって、他の２次元骨格全体は、３次元骨格を形成するために、組み合わせられ、融合され得る。そこから２次元骨格のそれぞれが把握される位置を把握することによって、立体視技法が、２次元骨格全体に基づいて、３次元骨格全体を三角測量するために使用され得る。

故に、細かい特徴と粗い特徴とを有する、複数の２次元骨格全体を組み合わせることによって、３次元骨格は、対象の運動を捕捉し得る。対象全体の運動捕捉は、より自然に現れる。特に、３次元骨格内の粗い関節だけではなく、手および指等の細かい関節の運動も、捕捉され、３次元で自然に回転され得る。いくつかの実施例では、関節および／または回転はさらに、ノイズを低減させるために、平滑化される、またはカルマンフィルタ等のフィルタリング技法を使用して、フィルタリングされ得る。

図３を参照すると、コンピュータネットワークシステムの概略描写が、概して、１００に示される。システム１００が、純粋に例示的であることを理解されたく、様々なコンピュータネットワークシステムが想定されることが、当業者にとって明白であろう。システム１００は、装置８０と、ネットワーク１１０によって接続される、複数の装置５０－１および５０－２とを含む。ネットワーク１１０は、特に限定されず、インターネット、イントラネットまたはローカルエリアネットワーク、携帯電話ネットワーク、もしくはこれらのタイプのネットワークのいずれかの組み合わせ等、任意のタイプのネットワークを含み得る。いくつかの実施例では、ネットワーク１１０はまた、ピアツーピアネットワークを含み得る。

本実施例では、装置５０－１および装置５０－２は、限定されず、着目領域内の粗い詳細だけではなく、細かい詳細も推測される、２段階姿勢推定プロセスを使用して、骨格全体を生成するために使用される、任意のタイプの画像捕捉および処理デバイスであり得る。装置５０－１および装置５０－２は、そこから３次元骨格が生成される、骨格全体を提供するために、ネットワーク１１０を経由して、装置５０と通信する。

故に、装置５０－１は、実質的に、装置５０－２に類似し、装置５０と関連して、上記に説明される構成要素を含み得る。装置５０－１および装置５０－２はそれぞれ、対象を捕捉するために、異なる観点において搭載され、位置付けられてもよい。故に、装置５０－１および装置５０－２はそれぞれ、ネットワーク１１０を介して、装置８０内の集約器９５に伝送されることになる、対象の２次元骨格を生成し得る。

図４を参照すると、マーカを使用することなく、３次元運動を捕捉する例示的方法のフローチャートが、概して、５００に示される。方法５００の解説を支援するために、方法５００が、システム１００によって実施され得ると仮定されたい。実際に、方法５００は、システム１００が構成され得る、１つの方法であり得る。さらに、方法５００に関する以下の議論は、システム１００ならびに装置５０－１、装置５０－２、および装置８０等のその構成要素のさらなる理解につながり得る。加えて、方法５００が、示されるような正確なシーケンスで実施されなくてもよく、種々のブロックが、順にではなく、並行して、または全く異なるシーケンスで実施され得ることが強調される。

ブロック５１０を起点として、装置５０－１は、カメラを使用して、対象の画像を捕捉する。本実施例では、装置５０－２が、異なる観点において搭載されたカメラを使用して、同一対象の画像を捕捉するために、並行して動作させ得ることを理解されたい。

次いで、ブロック５２０において、粗い骨格が、ブロック５１０において捕捉された画像から生成され得る。装置５０－１および装置５０－２が並行して動作する実施例では、別個の粗い骨格が、生成され得る。本実施例では、ブロック５２０において生成される粗い骨格は、２次元で、対象の身体全体を表し得る。故に、対象のより細かい詳細が、個別の姿勢推定エンジンによって、有意に詳細に処理されない場合があることを理解されたい。粗い骨格が生成される様式は、特に限定されない。例えば、姿勢推定エンジンは、機械学習技法を画像に適用し得る。機械学習技法は、粗い骨格を生成し、関節の位置および回転を推測するためのニューラルネットワークであり得る。特に、いくつかの実施例では、畳み込みニューラルネットワークが、関節の位置および回転を推測するために使用され得る。さらに、画像の処理を遂行するための算出負荷を低減させるために、元画像の分解能が、この段階で、低減されてもよい。代替として、粗い骨格を生成するために、各フレームを処理することの代わりに、フレームのサンプルが、処理されてもよい。

ブロック５３０は、ブロック５１０によって捕捉された元画像内の着目領域を識別することを伴う。着目領域は、ブロック５２０において生成される粗い骨格に基づいて、識別され得る。例えば、特徴認識プロセスは、細かい骨格が生成される、潜在的な着目領域を識別するために、粗い骨格上で遂行され得る。具体的な実施例として、対象が人間である場合、粗い骨格の手が、着目領域として認識されてもよい。

着目領域の識別に応じて、着目領域の細かい骨格が、ブロック５４０において生成されることになる。細かい骨格が生成される様式は、特に限定されない。例えば、姿勢推定エンジンは、機械学習技法を元画像のクロッピングされた部分に適用し得る。ブロック５２０の実行が画像の分解能を低減させる実施例では、元の分解能の画像が、着目領域のより多くの詳細を捕捉するために使用され得ることを理解されたい。機械学習技法は、細かい骨格を生成し、関節の位置および回転を推測するためのニューラルネットワークであり得る。特に、いくつかの実施例では、畳み込みニューラルネットワークが、関節の位置および回転を推測するために使用され得る。

次いで、ブロック５５０は、骨格全体を形成するために、ブロック５２０において生成された粗い骨格に、ブロック５４０において生成された細かい骨格を取着することを含む。細かい骨格が粗い骨格に取着される様式は、特に限定されない。本実施例では、取着エンジン７０は、ブロック５２０において生成された粗い骨格の一部を、関連付けられる回転を伴う、より多くの関節位置を有し得る、ブロック５４０において生成された、細かい骨格を伴う部分に置換し得る。

さらに、取着エンジン７０等によるブロック５５０の実行は、細かい骨格から粗い骨格への遷移を平滑化することを伴い得る。平滑化機能は、細かい骨格および粗い骨格の生成が、着目領域が単に置換されるときに不連続点を作成させる場合、粗い骨格に対して細かい骨格を変換し、取着点を整合させることを伴い得る。平滑化機能はまた、粗い骨格の比率をマッチングさせるために、細かい骨格の比率をスケーリングすることを伴い得る。

ブロック５６０は、３次元骨格を形成するために、付加的なデータとともに、ブロック５５０において生成された骨格全体を集約する。例えば、複数の観点からの２次元骨格全体は、種々の３次元結像技法を使用して、３次元骨格を生成するために使用され得る。本実施例では、付加的な２次元骨格は、ブロック５６０の実行の際に使用される付加的なデータであり得る。他の実施例では、他のタイプのデータが、２次元骨格全体内の深度を推定するために使用され得る。

上記に提供される、種々の実施例の特徴および側面が、本開示の範囲内にある、さらなる実施例内に組み合わせられ得ることを認識されたい。

Claims

装置であって、
対象の第１の画像を捕捉するための第１のカメラと、
第１の姿勢推定エンジンであって、前記第１の姿勢推定エンジンは、
前記第１の画像を受信することと、
前記第１の画像の分析に基づいて、前記対象の異なる解剖学的領域に対応する第１の複数の関節を有する第１の粗い骨格を生成することと、
前記第１の粗い骨格の少なくとも一部を含む前記第１の画像の第１の領域を識別することと
を実行するためのものである、第１の姿勢推定エンジンと、
第２の姿勢推定エンジンであって、前記第２の姿勢推定エンジンは、
前記第１の画像の前記第１の領域を受信することと、
前記第１の画像の前記第１の領域の分析に基づいて、前記対象の単一の解剖学的領域に対応する第２の複数の関節を有する第１の細かい骨格を生成することと
を実行するためのものである、第２の姿勢推定エンジンと、
前記第１の粗い骨格に前記第１の細かい骨格を取着することによって第１の骨格全体を生成するための第１の取着エンジンと、
前記対象の第２の画像を捕捉するための第２のカメラであって、前記第２の画像は、前記第１のカメラと異なる視点から捕捉される、第２のカメラと、
第３の姿勢推定エンジンであって、前記第３の姿勢推定エンジンは、
前記第２の画像を受信することと、
前記第２の画像の分析に基づいて、第２の粗い骨格を生成することと、
前記第２の粗い骨格の少なくとも一部を含む前記第２の画像の第２の領域を識別することと
を実行するためのものである、第３の姿勢推定エンジンと、
第４の姿勢推定エンジンであって、前記第４の姿勢推定エンジンは、
前記第２の画像の前記第２の領域を受信することと、
前記第２の画像の前記第２の領域の分析に基づいて、第２の細かい骨格を生成することと
を実行するためのものである、第４の姿勢推定エンジンと、
前記第２の粗い骨格に前記第２の細かい骨格を取着することによって第２の骨格全体を生成するための第２の取着エンジンと、
集約器であって、前記集約器は、
前記第１の骨格全体および前記第２の骨格全体を受信することと、
前記第１の骨格全体および前記第２の骨格全体から、３次元骨格を生成することと
を実行するためのものである、集約器と
を備える、装置。
前記第１の姿勢推定エンジンによって生成される、前記第１の粗い骨格は、前記対象の身体を表す、請求項１に記載の装置。
前記第１の姿勢推定エンジンは、前記身体の身体関節位置を推測するために、第１の畳み込みニューラルネットワークを使用する、請求項２に記載の装置。
前記第２の姿勢推定エンジンによって生成される、前記第１の細かい骨格は、前記対象の手を表す、請求項３に記載の装置。
前記第２の姿勢推定エンジンは、前記手の手関節位置を推測するために、第２の畳み込みニューラルネットワークを使用する、請求項４に記載の装置。
前記第１の取着エンジンは、前記第１の粗い骨格と組み合わせるために、前記第１の細かい骨格をスケーリングするためのものである、請求項１～５のいずれか１項に記載の装置。
前記第１の取着エンジンは、前記第１の粗い骨格と組み合わせるために、前記第１の細かい骨格を平行移動させるためのものである、請求項１～５のいずれか１項に記載の装置。
前記第１の姿勢推定エンジンは、前記第１の粗い骨格を生成するために、前記第１の画像の分解能を低減させるためのものであり、前記第２の姿勢推定エンジンは、前記第１の細かい骨格を生成するために、フル分解能で、前記第１の画像を使用するためのものである、請求項１～５のいずれか１項に記載の装置。
前記第３の姿勢推定エンジンによって生成される、前記第２の粗い骨格は、前記対象の身体を表す、請求項１～５のいずれか１項に記載の装置。
前記第４の姿勢推定エンジンによって生成される、前記第２の細かい骨格は、前記対象の手を表す、請求項９に記載の装置。
前記第２の取着エンジンは、前記第２の粗い骨格と組み合わせるために、前記第２の細かい骨格をスケーリングするためのものである、請求項１～５のいずれか１項に記載の装置。
前記第２の取着エンジンは、前記第２の粗い骨格と組み合わせるために、前記第２の細かい骨格を平行移動させるためのものである、請求項１～５のいずれか１項に記載の装置。
前記第３の姿勢推定エンジンは、前記第２の粗い骨格を生成するために、前記第２の画像の分解能を低減させるためのものであり、前記第４の姿勢推定エンジンは、前記第２の細かい骨格を生成するために、フル分解能で、前記第２の画像を使用するためのものである、請求項１～５のいずれか１項に記載の装置。
装置であって、
対象の画像を捕捉するためのカメラと、
第１の姿勢推定エンジンであって、前記第１の姿勢推定エンジンは、
前記画像を受信することと、
前記画像の分析に基づいて、前記対象の異なる解剖学的領域に対応する第１の複数の関節を有する粗い骨格を生成することと、
前記粗い骨格の少なくとも一部を含む前記画像の領域を識別することと
を実行するためのものである、第１の姿勢推定エンジンと、
第２の姿勢推定エンジンであって、前記第２の姿勢推定エンジンは、
前記画像の前記領域を受信することと、
前記画像の前記領域の分析に基づいて、前記対象の単一の解剖学的領域に対応する第２の複数の関節を有する細かい骨格を生成することと
を実行するためのものである、第２の姿勢推定エンジンと、
前記粗い骨格に前記細かい骨格を取着することによって骨格全体を生成するための取着エンジンと、
前記骨格全体を集約器に伝送するための通信インターフェースであって、前記集約器は、前記骨格全体および付加的なデータに基づいて、３次元骨格を生成するためのものである、通信インターフェースと
を備える、装置。
前記第１の姿勢推定エンジンによって生成される、前記粗い骨格は、前記対象の身体を表す、請求項１４に記載の装置。
前記第１の姿勢推定エンジンは、前記身体の身体関節位置を推測するために、第１の畳み込みニューラルネットワークを使用する、請求項１５に記載の装置。
前記第２の姿勢推定エンジンによって生成される、前記細かい骨格は、前記対象の手を表す、請求項１６に記載の装置。
前記第２の姿勢推定エンジンは、前記手の手関節位置を推測するために、第２の畳み込みニューラルネットワークを使用する、請求項１７に記載の装置。
前記取着エンジンは、前記粗い骨格と組み合わせるために、前記細かい骨格をスケーリングするためのものである、請求項１４～１８のいずれか１項に記載の装置。
前記取着エンジンは、前記粗い骨格と組み合わせるために、前記細かい骨格を平行移動させるためのものである、請求項１４～１８のいずれか１項に記載の装置。
前記第１の姿勢推定エンジンは、前記粗い骨格を生成するために、前記画像の分解能を低減させるためのものであり、前記第２の姿勢推定エンジンは、前記細かい骨格を生成するために、フル分解能で、前記画像を使用するためのものである、請求項１４～１８のいずれか１項に記載の装置。
装置であって、
複数の運動捕捉装置によって生成された複数の骨格全体を受信するための通信インターフェースであって、前記複数の運動捕捉装置のそれぞれの運動捕捉装置は、
対象の画像を捕捉するためのカメラと、
第１の姿勢推定エンジンであって、前記第１の姿勢推定エンジンは、
前記画像を受信することと、
前記画像の分析に基づいて、前記対象の異なる解剖学的領域に対応する第１の複数の関節を有する粗い骨格を生成することと、
前記粗い骨格の少なくとも一部を含む前記画像の領域を識別することと
を実行するためのものである、第１の姿勢推定エンジンと、
第２の姿勢推定エンジンであって、前記第２の姿勢推定エンジンは、
前記画像の前記領域を受信することと、
前記画像の前記領域の分析に基づいて、前記対象の単一の解剖学的領域に対応する第２の複数の関節を有する細かい骨格を生成することと
を実行するためのものである、第２の姿勢推定エンジンと、
前記粗い骨格に前記細かい骨格を取着することによって骨格全体を生成するための取着エンジンと
を備える、通信インターフェースと、
前記通信インターフェースを介して受信された前記複数の骨格全体を記憶するためのメモリ記憶ユニットと、
前記メモリ記憶ユニットと通信している集約器であって、前記集約器は、前記複数の骨格全体に基づいて、３次元骨格を生成するためのものである、集約器と
を備える、装置。
前記集約器は、３次元関節を生成するために、第１の骨格全体の第１の関節と第２の骨格全体の第２の関節を組み合わせるためのものである、請求項２２に記載の装置。
前記３次元関節は、手関節を表す、請求項２３に記載の装置。
方法であって、
カメラを用いて、対象の画像を捕捉することと、
前記画像の分析に基づいて、前記対象の複数の解剖学的領域にわたる第１の複数の関節を有する粗い骨格を生成することであって、前記粗い骨格は、２次元である、ことと、
前記粗い骨格に基づいて、前記画像内の着目領域を識別することと、
前記着目領域の分析に基づいて、前記対象の前記複数の解剖学的領域のうちの１つの解剖学的領域にわたる第２の複数の関節を有する細かい骨格を生成することであって、前記細かい骨格は、２次元である、ことと、
骨格全体を形成するために、前記細かい骨格を前記粗い骨格の一部に取着することと、
３次元骨格を形成するために、付加的なデータとともに、前記骨格全体を集約することと
を含む、方法。
前記画像の前記粗い骨格を生成することは、前記画像内の身体関節位置を推測するために、第１の畳み込みニューラルネットワークを適用することを含む、請求項２５に記載の方法。
前記着目領域の前記細かい骨格を生成することは、前記着目領域内の手関節位置を推測するために、第２の畳み込みニューラルネットワークを適用することを含む、請求項２６に記載の方法。
前記細かい骨格を前記粗い骨格の一部に取着することは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格をスケーリングすることを含む、請求項２５～２７のいずれか１項に記載の方法。
前記細かい骨格を前記粗い骨格の一部に取着することは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格を平行移動させることを含む、請求項２５～２７のいずれか１項に記載の方法。
前記粗い骨格を生成するために、前記画像の分解能を低減させることをさらに含む、請求項２５～２７のいずれか１項に記載の方法。
コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、前記コードは、
第１のカメラを用いて、対象の画像を捕捉することと、
前記画像の分析に基づいて、前記対象の複数の解剖学的領域にわたる第１の複数の関節を有する粗い骨格を生成することであって、前記粗い骨格は、２次元である、ことと、
前記粗い骨格に基づいて、前記画像内の着目領域を識別することと、
前記着目領域の分析に基づいて、前記対象の前記複数の解剖学的領域のうちの１つの解剖学的領域にわたる第２の複数の関節を有する細かい骨格を生成することであって、前記粗い骨格は、２次元である、ことと、
骨格全体を形成するために、前記細かい骨格を前記粗い骨格の一部に取着することと、
３次元骨格を形成するために、付加的なデータとともに、前記骨格全体を集約することと
を行うようにプロセッサに指示する、非一過性コンピュータ可読媒体。
前記コードは、前記画像内の身体関節位置を推測するために第１の畳み込みニューラルネットワークを適用することによって、前記画像の前記粗い骨格を生成するように前記プロセッサに指示する、請求項３１に記載の非一過性コンピュータ可読媒体。
前記コードは、前記着目領域内の手関節位置を推測するために第２の畳み込みニューラルネットワークを適用することによって、前記着目領域の前記細かい骨格を生成するように前記プロセッサに指示する、請求項３２に記載の非一過性コンピュータ可読媒体。
前記細かい骨格を前記粗い骨格の一部に取着するように前記プロセッサに指示する、前記コードは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格をスケーリングするように前記プロセッサにさらに指示する、請求項３１～３３のいずれか１項に記載の非一過性コンピュータ可読媒体。
前記細かい骨格を前記粗い骨格の一部に取着するように前記プロセッサに指示する、前記コードは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格を平行移動させるように前記プロセッサにさらに指示する、請求項３１～３３のいずれか１項に記載の非一過性コンピュータ可読媒体。
前記コードは、前記粗い骨格を生成するために、前記画像の分解能を低減させるように前記プロセッサに指示する、請求項３１～３３のいずれか１項に記載の非一過性コンピュータ可読媒体。