JP7499345B2 - 複数の姿勢推定エンジンを用いた手のマーカレス運動捕捉 - Google Patents

複数の姿勢推定エンジンを用いた手のマーカレス運動捕捉 Download PDF

Info

Publication number
JP7499345B2
JP7499345B2 JP2022556030A JP2022556030A JP7499345B2 JP 7499345 B2 JP7499345 B2 JP 7499345B2 JP 2022556030 A JP2022556030 A JP 2022556030A JP 2022556030 A JP2022556030 A JP 2022556030A JP 7499345 B2 JP7499345 B2 JP 7499345B2
Authority
JP
Japan
Prior art keywords
skeleton
pose estimation
coarse
image
fine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022556030A
Other languages
English (en)
Other versions
JP2023527625A (ja
Inventor
コリン ジョゼフ ブラウン,
ウェンシン ジャン,
ダレイ ワン,
Original Assignee
ヒンジ ヘルス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヒンジ ヘルス, インコーポレイテッド filed Critical ヒンジ ヘルス, インコーポレイテッド
Publication of JP2023527625A publication Critical patent/JP2023527625A/ja
Application granted granted Critical
Publication of JP7499345B2 publication Critical patent/JP7499345B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Description

運動捕捉は、人、動物、または物体の移動を記録することを伴う、一般的な分野である。運動捕捉は、映画、ビデオゲーム、エンターテインメント、生体力学、訓練映像、スポーツシミュレータ、および他の技術における、コンピュータ生成イメージ等、種々の用途で使用され得る。従来から、人物の手の指を伴う等、細かい移動の運動捕捉は、細かい運動を遂行する、対象の部分上に、マーカを取着することによって遂行される。マーカは、運動の容易な追跡を可能にするために、関節部分だけではなく、関節の間等、具体的な場所に設置され得る。使用されるマーカは、特に限定されず、画像処理のために、カメラシステムがマーカを容易に識別することを可能にする、アクティブまたはパッシブマーカを伴い得る。いくつかの実施例では、マーカは、手袋または衣類の一部等の装着可能装置上に、予め位置付けられ得る。
対象に取着されるマーカを使用した、運動捕捉技法は、公知である。加えて、運動捕捉が、マーカを使用することなく遂行される、マーカレス運動捕捉システムも、人気が高まりつつある。マーカレス運動捕捉技法は、自然なままの体験を提供し、対象は、それに取着されるマーカによって運動を限定されない。例えば、マーカは、結果としてエラーをもたらし得る、環境または他のマーカと衝突し得る。特に、マーカを使用した人物の運動捕捉に関して、マーカは、典型的には、人物に対してカスタムされたサイズである、特殊スーツ上に埋設される。加えて、スーツは、同時に捕捉するために望ましいものであり得る、コスチュームまたは他の扮装具の着用を不可能にし得る。さらに、マーカは、確実に検出されるように、赤外線等の特殊照明を使用し得る。マーカレス運動捕捉は、対象が、多種多様なコスチュームを着用することを可能にし、より少ない実装するべきハードウェアを使用する。しかしながら、マーカレス運動捕捉は、典型的には、より低い忠実性を有し、マーカシステムを使用した運動捕捉システムよりも少ない関節を追跡することしかできない。
特に、対象のマーカレス運動捕捉は、運動捕捉が、対象全体であるとき、対象のより小さな部分を追跡することが困難であり得る。例えば、運動捕捉の対象が、人間対象である場合、手の移動は、それらが、そのようなより小規模ベースであるため、捕捉することが困難であり得る。一般的に、人間対象の手は、非常に細かく、対象の運動に有意に寄与する。特に、手は、多くの場合、環境内の物体を操作するために使用され得る。故に、手の運動捕捉が正確ではない場合、人間対象の移動は、不自然であるように現れ得る。
複数の姿勢推定エンジンを使用した手のマーカレス運動捕捉を提供する方法に従って、システム内でともに動作する、種々の装置が、提供される。本システムは、複数のビューを処理する、複数のコンピュータビジョンベースの姿勢推定エンジンを使用し、マーカレス運動捕捉プロセスを使用して、人間対象の手の運動を捕捉し得る。特に、本システムは、全体として、対象に関する姿勢を生成し、メイン画像から抽出される、手等の対象の一部に関する付加的な姿勢推定を実施し得る。
本説明において、下記に議論される装置および方法は、概して、人間対象の手に焦点を絞って、人間対象に適用される。下記に説明される実施例が、顔の表情を捕捉すること等、人間対象の他の部分に適用され得ることが、本説明から利益を享受する当業者によって理解されるはずである。加えて、捕捉されるべき細かい複雑な移動に従事する、対象の小さな部分を有する、動物および機械等の他の対象も、同様に想定される。
図1を参照すると、マーカレス運動捕捉のための装置の概略描写が、概して、50に示される。装置50は、装置50のユーザと相互作用するための、インジケータ等、種々の付加的なインターフェースおよび/または入力/出力デバイス等の付加的な構成要素を含み得る。相互作用は、装置50またはその中で装置が動作するシステムの動作状態を視認すること、装置50のパラメータを更新すること、または装置50をリセットすることを含み得る。本実施例では、装置50は、運動捕捉のための画像または映像を捕捉し、着目領域内に、人間対象上の手等の細かい詳細を伴う骨格を生成するためのものである。本実施例では、装置50は、カメラ55と、第1の姿勢推定エンジン60と、第2の姿勢推定エンジン65と、取着エンジン70と、通信インターフェース75とを含む。
本実施例では、装置50はまた、装置50およびその構成要素の一般的な動作に対する命令を記憶するために使用され得る、メモリ記憶ユニット(図示せず)を含み得る。特に、命令は、種々の機能を遂行するために、プロセッサによって使用され得る。他の実施例では、装置50は、プロセッサに指示するための外部サーバ等、別個のソースからの命令を受信し得る。さらなる実施例では、装置50の各構成要素は、任意の中央制御から独立して動作する、単独の構成要素であり得る。
本発明は、例えば、以下を提供する。
(項目1)
装置であって、
対象の第1の画像を捕捉するための第1のカメラと、
前記第1の画像を受信するための第1の姿勢推定エンジンであって、前記第1の姿勢推定エンジンは、前記第1の画像の第1の粗い骨格を生成し、前記第1の姿勢推定エンジンはさらに、前記第1の粗い骨格に基づいて、前記第1の画像の第1の領域を識別する、第1の姿勢推定エンジンと、
前記第1の領域を受信するための第2の姿勢推定エンジンであって、前記第2の姿勢推定エンジンは、前記第1の画像の第1の領域の第1の細かい骨格を生成する、第2の姿勢推定エンジンと、
第1の骨格全体を生成するための第1の取着エンジンであって、前記第1の骨格全体は、前記第1の粗い骨格に取着される、前記第1の細かい骨格を含む、第1の取着エンジンと、
前記対象の第2の画像を捕捉するための第2のカメラであって、前記第2の画像は、前記第1のカメラと異なる視点から捕捉される、第2のカメラと、
前記第2の画像を受信するための第3の姿勢推定エンジンであって、前記第3の姿勢推定エンジンは、前記第1の画像の第2の粗い骨格を生成し、前記第3の姿勢推定エンジンはさらに、前記第2の粗い骨格に基づいて、前記第2の画像の第2の領域を識別する、第3の姿勢推定エンジンと、
前記第2の領域を受信するための第4の姿勢推定エンジンであって、前記第4の姿勢推定エンジンは、前記第2の画像の第2の領域の第2の細かい骨格を生成する、第4の姿勢推定エンジンと、
第2の骨格全体を生成するための第2の取着エンジンであって、前記第2の骨格全体は、前記第2の粗い骨格に取着される、前記第2の細かい骨格を含む、第2の取着エンジンと、
前記第1の骨格全体および前記第2の骨格全体を受信するための集約器であって、前記集約器は、前記第1の骨格全体および前記第2の骨格全体から、3次元骨格を生成する、集約器と
を備える、装置。
(項目2)
前記第1の姿勢推定エンジンによって生成される、前記第1の粗い骨格は、前記対象の身体を表す、項目1に記載の装置。
(項目3)
前記第1の姿勢推定エンジンは、前記身体の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを使用する、項目2に記載の装置。
(項目4)
前記第2の姿勢推定エンジンによって生成される、前記第1の細かい骨格は、前記対象の手を表す、項目3に記載の装置。
(項目5)
前記第2の姿勢推定エンジンは、前記手の手関節位置を推測するために、第2の畳み込みニューラルネットワークを使用する、項目4に記載の装置。
(項目6)
前記第1の取着エンジンは、前記第1の粗い骨格と組み合わせるために、前記第1の細かい骨格をスケーリングするためのものである、項目1-5のいずれか1項に記載の装置。
(項目7)
前記第1の取着エンジンは、前記第1の粗い骨格と組み合わせるために、前記第1の細かい骨格を平行移動させるためのものである、前項目1-6のいずれか1項に記載の装置。
(項目8)
前記第1の姿勢推定エンジンは、前記第1の粗い骨格を生成するために、前記第1の画像の分解能を低減させるためのものであり、前記第2の姿勢推定エンジンは、前記第1の細かい骨格を生成するために、フル分解能で、前記第1の画像を使用するためのものである、項目1-9のいずれか1項に記載の装置。
(項目9)
前記第3の姿勢推定エンジンによって生成される、前記第2の粗い骨格は、前記対象の身体を表す、項目1-8のいずれか1項に記載の装置。
(項目10)
前記第2の姿勢推定エンジンによって生成される、前記第2の細かい骨格は、前記対象の手を表す、項目9に記載の装置。
(項目11)
前記第2の取着エンジンは、前記第2の粗い骨格と組み合わせるために、前記第2の細かい骨格をスケーリングするためのものである、項目1-10のいずれか1項に記載の装置。
(項目12)
前記第2の取着エンジンは、前記第1の粗い骨格と組み合わせるために、前記第2の細かい骨格を平行移動させるためのものである、項目1-11のいずれか1項に記載の装置。
(項目13)
前記第3の姿勢推定エンジンは、前記第2の粗い骨格を生成するために、前記第2の画像の分解能を低減させるためのものであり、前記第4の姿勢推定エンジンは、前記第1の細かい骨格を生成するために、フル分解能で、前記第2の画像を使用するためのものである、項目1-12のいずれか1項に記載の装置。
(項目14)
装置であって、
対象の画像を捕捉するためのカメラと、
前記画像を受信するための第1の姿勢推定エンジンであって、前記第1の姿勢推定エンジンは、前記画像の粗い骨格を生成し、前記第1の姿勢推定エンジンはさらに、前記粗い骨格に基づいて、前記画像の領域を識別する、第1の姿勢推定エンジンと、
前記領域を受信するための第2の姿勢推定エンジンであって、前記第2の姿勢推定エンジンは、前記画像の領域の細かい骨格を生成する、第2の姿勢推定エンジンと、
骨格全体を生成するための取着エンジンであって、前記骨格全体は、前記粗い骨格に取着される、前記細かい骨格を含む、取着エンジンと、
前記骨格全体を集約器に伝送するための通信インターフェースであって、前記集約器は、前記骨格全体および付加的なデータに基づいて、3次元骨格を生成するためのものである、通信インターフェースと
を備える、装置。
(項目15)
前記第1の姿勢推定エンジンによって生成される、前記粗い骨格は、前記対象の身体を表す、項目14に記載の装置。
(項目16)
前記第1の姿勢推定エンジンは、前記身体の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを使用する、項目15に記載の装置。
(項目17)
前記第2の姿勢推定エンジンによって生成される、前記細かい骨格は、前記対象の手を表す、項目16に記載の装置。
(項目18)
前記第2の姿勢推定エンジンは、前記手の手関節位置を推測するために、第2の畳み込みニューラルネットワークを使用する、項目17に記載の装置。
(項目19)
前記取着エンジンは、前記粗い骨格と組み合わせるために、前記細かい骨格をスケーリングするためのものである、項目14-18のいずれか1項に記載の装置。
(項目20)
前記取着エンジンは、前記粗い骨格と組み合わせるために、前記細かい骨格を平行移動させるためのものである、項目14-19のいずれか1項に記載の装置。
(項目21)
前記第1の姿勢推定エンジンは、前記粗い骨格を生成するために、前記画像の分解能を低減させるためのものであり、前記第2の姿勢推定エンジンは、前記細かい骨格を生成するために、フル分解能で、前記画像を使用するためのものである、項目14-20のいずれか1項に記載の装置。
(項目22)
装置であって、
複数の外部ソースから複数の骨格全体を受信するための通信インターフェースであって、前記複数の骨格全体のそれぞれの骨格全体は、粗い骨格に取着される、細かい骨格を含む、通信インターフェースと、
前記通信インターフェースを介して受信された前記複数の骨格全体を記憶するためのメモリ記憶ユニットと、
前記メモリ記憶ユニットと通信している集約器であって、前記集約器は、前記複数の骨格全体に基づいて、3次元骨格を生成するためのものである、集約器と
を備える、装置。
(項目23)
前記集約器は、3次元関節を生成するために、第1の骨格全体の第1の関節と第2の骨格全体の第2の関節を組み合わせるためのものである、項目22に記載の装置。
(項目24)
前記3次元関節は、手関節を表す、項目23に記載の装置。
(項目25)
方法であって、
カメラを用いて、対象の画像を捕捉することと、
前記画像の粗い骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
前記粗い骨格に基づいて、前記画像内の着目領域を識別することと、
前記着目領域の細かい骨格を生成することであって、前記細かい骨格は、2次元である、ことと、
骨格全体を形成するために、前記細かい骨格を前記粗い骨格の一部に取着することと、
3次元骨格を形成するために、付加的なデータとともに、前記骨格全体を集約することと
を含む、方法。
(項目26)
前記画像の前記粗い骨格を生成することは、前記画像内の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを適用することを含む、項目25に記載の方法。
(項目27)
前記着目領域の前記細かい骨格を生成することは、前記着目領域内の前記手関節位置を推測するために、第2の畳み込みニューラルネットワークを適用することを含む、項目26に記載の方法。
(項目28)
前記細かい骨格を前記粗い骨格の一部に取着することは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格をスケーリングすることを含む、項目25-27のいずれか1項に記載の方法。
(項目29)
前記細かい骨格を前記粗い骨格の一部に取着することは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格を平行移動させることを含む、項目25-28のいずれか1項に記載の方法。
(項目30)
前記粗い骨格を生成するために、前記画像の分解能を低減させることをさらに含む、項目25-29のいずれか1項に記載の方法。
(項目31)
コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、前記コードは、
第1のカメラを用いて、対象の画像を捕捉することと、
前記画像の粗い骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
前記粗い骨格に基づいて、前記画像内の着目領域を識別することと、
前記着目領域の細かい骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
骨格全体を形成するために、前記細かい骨格を前記粗い骨格の一部に取着することと、
3次元骨格を形成するために、付加的なデータとともに、前記骨格全体を集約することと
を行うようにプロセッサに指示する、非一過性のコンピュータ可読媒体。
(項目32)
前記コードは、前記画像内の身体関節位置を推測するために第1の畳み込みニューラルネットワークを適用することによって、前記画像の前記粗い骨格を生成するように前記プロセッサに指示する、項目31に記載の非一過性コンピュータ可読媒体。
(項目33)
前記コードは、前記着目領域内の前記手関節位置を推測するために第2の畳み込みニューラルネットワークを適用することによって、前記着目領域の前記細かい骨格を生成するように前記プロセッサに指示する、項目32に記載の非一過性コンピュータ可読媒体。
(項目34)
前記細かい骨格を前記粗い骨格の一部に取着するように前記プロセッサに指示する、前記コードはさらに、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格をスケーリングするように前記プロセッサに指示する、項目31-33のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目35)
前記細かい骨格を前記粗い骨格の一部に取着するように前記プロセッサに指示する、前記コードはさらに、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格を平行移動させるように前記プロセッサに指示する、項目31-34のいずれか1項に記載の非一過性コンピュータ可読媒体。
(項目36)
前記コードは、前記粗い骨格を生成するために、前記画像の分解能を低減させるように前記プロセッサに指示する、項目31-35のいずれか1項に記載の非一過性コンピュータ可読媒体。
ここで、単に実施例として、付随の図面が参照されるであろう。
図1は、マーカレス運動捕捉のための例示的装置の構成要素の概略描写である。
図2は、マーカレス運動捕捉のための別の例示的装置の構成要素の概略描写である。
図3は、外部ソースから、関節回転を推測するための例示的システムの描写である。
図4は、マーカレス運動捕捉の方法の実施例のフローチャートである。
詳細な説明
カメラ55は、画像または映像の形態で、データを収集するためのものである。特に、カメラ55は、運動中の対象の画像を捕捉するための高分解能デジタル映像レコーダであり得る。本実施例では、映像は、規定されたフレームレートで捕捉された画像の集合であり得る。故に、映像の各フレームまたは画像が、運動捕捉中に、別個に処理され、処理後に再度組み合わせられ、運動捕捉を提供し得ることが、本説明から利益を享受する当業者によって理解されるであろう。いくつかの実施例では、フレームは、1つおきのフレームまたは数個おきのフレーム等、運動捕捉のためのより遅いレートでサンプリングされ、算出リソースに関する需要を低減させ得る。例えば、カメラ55は、人間対象の画像を捕捉し得る。いくつかの実施例では、カメラ55は、ステージ上またはスポーツアリーナ内等、具体的な対象の運動に追従するための運動追跡を含み得る。カメラ55は、特に限定されず、カメラ55が画像を捕捉する様式も、限定されない。例えば、カメラ55は、光信号を検出するために、相補型金属酸化膜半導体を有する、アクティブピクセルセンサ上に光を集束させるための種々の光学的構成要素を含み得る。他の実施例では、光学系が、電荷結合素子上に光を集束させるために使用され得る。
姿勢推定エンジン60は、処理のためにカメラ55から画像を受信するために、カメラ55と通信する。姿勢推定エンジン60が、複数の画像または映像データを受信し得ることが、本説明から利益を享受する当業者によって理解されるはずである。姿勢推定エンジン60において受信された画像は、画像内の対象の粗い骨格を生成するために使用され得る。本実施例では、画像は、人間対象の2次元表現を含み得る。故に、姿勢推定エンジン60は、接続された関節を有する、人間対象の身体の骨格を生成し得る。故に、各関節は、近似回転を有する、人間対象上の解剖学的場所または目印を表し得る。例えば、骨格内の関節は、肘、肩、膝、股関節等を表し得る。
いくつかの実施形態では、姿勢推定エンジン60はまた、カメラ55によって捕捉される画像の分解能を低減させ、装置50の性能を増加させ得る。例えば、カメラ55によって捕捉される画像が、高分解能画像である場合、画像データは、512×384等のより低い分解能にスケーリングダウンされ得、これは、粗い骨格を生成するために十分であり得る。
姿勢推定エンジン60が骨格を生成する様式は、限定されず、画像処理技法を使用する、マーカレス姿勢推定プロセスを伴い得る。いくつかの実施形態では、姿勢推定エンジン60が、それに画像データが送信され、骨格を表すデータが、それに応答して受信されることになる、外部デバイスであり得ることを理解されたい。故に、姿勢推定エンジン60は、ウェブサービス等、画像処理に特化された別個のシステムの一部であり得、第三者によって提供され得る。本実施例では、姿勢推定エンジン60は、骨格を生成し、関節の位置および回転を推測するために、ニューラルネットワーク等の機械学習技法を適用し得る。特に、いくつかの実施例では、畳み込みニューラルネットワークが、関節の位置および回転を推測するために使用され得る。他の実施例では、完全畳み込みモデルまたはランダムフォレスト等の他の機械モデルを含む畳み込みニューラルネットワーク、他の深層ニューラルネットワーク、再帰ニューラルネットワーク、もしくは他の時間的モデル等、人間身体の一部の類似性を検出し、場所を特定するための特徴を表すことが可能である、他の機械学習モデルが、人間姿勢推定のために使用され得る。
姿勢推定エンジン60が、最初に、着目領域(ROI)を検出し、次いで、各ROI内の人間骨格等の詳細を推測する、Mask-R-CNNタイプモデル等のトップダウンアーキテクチャ、入力画像全体を横断して関節を検出し、次いで、人間内に関節をクラスタ化する、VGG19等のボトムアップアーキテクチャ、またはハイブリッド型アーキテクチャ等の他のアーキテクチャである、モデルを使用し得ることが、当業者によって理解されるはずである。姿勢推定エンジン60は、異なる種類の関節の検出を表す、異なるマップ上、または関節座標のベクトル等の他の表現内において、ピークを伴うヒートマップとして、関節を推測し得る。姿勢推定エンジン60はまた、骨の類似性マップ等の他のマップ、またはインスタンスマスクおよびパーツマスク等の他のマップを出力し得、これは、骨格内の関節のクラスタ化を支援するために使用され得る。本実施例では、姿勢推定エンジン60はさらに、着目に値する、カメラ55から受信された2次元画像内の領域を特定する。着目領域は、特に限定されず、自動的に選択される、またはユーザ等の外部ソースから受信された入力に基づいて、選択され得る。着目領域が選択される様式は、特に限定されない。画像内の人間対象の本実施例を続けると、着目領域の位置が、左または右手首関節等の他の既知の関節の推測された場所、ならびに/もしくは前腕の推測される方向を与えられた、手のひらの中心の典型的な場所等、他の情報、予備知識、学習された機能または経験則に基づいて、自動的に選択され得る。着目される領域のサイズもまた、例えば、人物全体の推測される身長、および人物の身長と比較した、手の典型的な相対的サイズ、または推測される前腕の長さ等の関連情報、学習された機能、または経験則に基づいて、自動的に選択され得る。他の実施例では、着目領域は、顔面等の細かい詳細を伴う人間姿勢の別の部分であり得る。本実施例では、姿勢推定エンジン60は、画像内の境界を定義することによって、領域を識別する。他の実施例では、姿勢推定エンジン60は、元画像をクロッピングし、より小さい画像を生成してもよい。
姿勢推定エンジン65は、カメラ55によって最初に捕捉された画像の着目領域を受信するために、姿勢推定エンジン60と通信する。いくつかの実施例では、姿勢推定エンジン65は、画像をカメラ55から直接受信し、姿勢推定エンジン60から着目領域の境界定義を受信し得る。特に、例えば、姿勢推定エンジン60が、元画像の分解能を低減させる場合、姿勢推定エンジン65は、フル分解能で元画像を受信し、姿勢推定エンジン60から受信された境界に基づいて、着目領域をクロッピングする。他の実施例では、姿勢推定エンジン65は、姿勢推定エンジン60からクロッピングされた画像を受信してもよい。姿勢推定エンジン65は、着目領域内の対象の一部の細かい骨格を生成するためのものである。上記の実施例を続けると、着目領域は、手等の人間対象の一部の2次元表現である。故に、姿勢推定エンジン60は、接続された関節を有する手の骨格を生成し得る。故に、各関節は、近似回転を有する、手のある点を表し得る。例えば、骨格内の関節は、指骨間関節、中手指節関節、または手首内等の関節の組み合わせを表し得る。
姿勢推定エンジン65が細かい骨格を生成する様式は、限定されず、姿勢推定エンジン60のように対象全体に適用される代わりに、着目領域上のみに適用される、画像処理技法を使用する、マーカレス姿勢推定プロセスを伴い得る。いくつかの実施形態では、姿勢推定エンジン60が、それに画像データが送信され、骨格を表すデータが、それに応答して受信されることになる、外部デバイスであり得ることを理解されたい。故に、姿勢推定エンジン60は、ウェブサービス等、画像処理に特化された別個のシステムの一部であり得、第三者によって提供され得る。本実施例では、姿勢推定エンジン65は、姿勢推定エンジン60と同様に動作され、骨格を生成し、関節の位置および回転を割り当てるために、ニューラルネットワーク等の機械学習技法を適用し得る。特に、いくつかの実施例では、別の畳み込みニューラルネットワークが使用され、クロッピングされた画像に適用されてもよい。ニューラルネットワークの適用を画像の一部に限定することによって、より多くの詳細が、画像から抽出され得、それによって、手の中の個々の関節が、識別または推測され、運動捕捉を改良し得ることが、本説明から利益を享受する当業者によって理解されるはずである。
取着エンジン70は、姿勢推定エンジン60によって生成される粗い骨格、および姿勢推定エンジン65によって生成される細かい骨格から、骨格全体を生成するためのものである。取着エンジン70が骨格全体を生成する様式は、特に限定されない。例えば、細かい骨格は、着目領域によって定義される対象の一部を表し得る。本実施例では、取着エンジン70は、姿勢推定エンジン60によって生成される粗い骨格の一部を、関連付けられる回転を伴う、より多くの関節位置を有し得る、姿勢推定エンジン65によって生成される、細かい骨格を伴う部分に置換し得る。
取着エンジン70はまた、細かい骨格から粗い骨格への遷移を平滑化し得る。取着エンジン70によって遂行される平滑化機能は、姿勢推定エンジン65および姿勢推定エンジン60を使用する、細かい骨格および粗い骨格の生成が、着目領域が単に置換されるときに、それぞれ、不連続点を作成する場合、粗い骨格に対して細かい骨格を変換し、取着点を整合させることを伴い得る。取着エンジン70によって遂行される平滑化機能はまた、粗い骨格の比率をマッチングさせるために、細かい骨格の比率をスケーリングすることを伴い得る。
姿勢推定エンジン60が、複数の着目領域を識別し得ることが、本説明から利益を享受する当業者によって理解されるはずである。例えば、姿勢推定エンジン60は、人間対象上の2つの手を識別し得る。加えて、姿勢推定エンジン60はまた、顔面、足、または脊椎を識別し得る。さらに、姿勢推定エンジン60は、指または顔特徴(例えば、目または唇)等のサブ着目領域を識別し得る。いくつかの実施例では、各着目領域は、姿勢推定エンジン65によって、順に処理されてもよい。他の実施例では、着目領域は、姿勢推定エンジン65によって、並行して処理されてもよい。他の実施例はまた、付加的な姿勢推定エンジン(図示せず)を含んでもよく、付加的な姿勢推定エンジンは、付加的な着目領域を並行して処理するために使用され得る。そのような実施例では、各姿勢推定エンジンは、人間対象の手等の具体的なタイプの着目領域に特殊化され得る。
通信インターフェース75は、それに取着エンジン70によって生成される骨格全体を表すデータが伝送される、集約器と通信する。本実施例では、通信インターフェース75は、WiFiネットワークまたはセルラーネットワーク等、多数の接続されたデバイスと共有される、パブリックネットワークであり得る、ネットワークを経由して、集約器と通信してもよい。他の実施例では、通信インターフェース75は、イントラネット、または他のデバイスとの有線接続等のプライベートネットワークを介して、データを集約器に伝送してもよい。
本実施例では、骨格全体は、カメラ55によって捕捉される画像内の対象の2次元表現である。集約器は、異なる観点において捕捉された画像から生成される2次元骨格全体等の付加的なデータとともに、取着エンジン70によって生成される骨格全体を使用し、画像内の対象の3次元骨格を生成し得る。故に、集約器は、複数の視点または観点から骨格を統合し、種々の3次元結像技法を使用して、3次元骨格を生成し得る。したがって、いったん3次元骨格が形成されると、3次元骨格は、概して粗い骨格においては捕捉されない、詳細なレベルまで、着目領域内の詳細を捕捉し得る。
本実施例では、3次元骨格は、異なる観点から捕捉される画像データから生成される、対象の2次元骨格全体からの対応する点を三角測量することによって、算出され得る。集約器は、異なる観点からの画像データから生成される、2次元骨格全体の関節位置のノイズのある、または誤った測定および推測を破棄するために、ランダムサンプルコンセンサス(RANSAC)もしくは他の類似技法等の外れ値棄却技法を採用し得る。外れ値棄却技法は、外れ値の棄却方法を決定するために、骨格または各骨格からの個々の関節から、加重または信頼基準を組み込み得る。三角測量は、確率的フレームワーク内の現在および過去の測定値を組み合わせる、カルマンフィルタフレームワークの一環として、算出されてもよい、または代数的アプローチまたは訓練された機械学習モデルを用いる等、他の方法で算出されてもよい。加えて、三角測量はまた、異なる観点からの画像データから生成される、複数の骨格から、3次元位置および回転の算出方法を決定するために、骨格または各骨格からの個々の関節から、加重または信頼基準を組み込み得る。
集約器はまた、複数の対象の場合、同一人物に対応するように、異なる観点から捕捉される画像からの骨格をマッチングさせる方法を決定するために、マッチング技法を採用し得る。異なる画像データから対象をマッチングするために、マッチング技法は、種々の経験則または機械学習モデルを採用し得、各ビューからの個別画像から導出される情報等、位置および速度、または関節、もしくは外見特徴等の骨格特徴を活用し得る。
本実施例は、集約器によって使用される骨格全体が、細かい骨格が粗い骨格に取着されることになる同様の様式で生成されることを想定するが、他の実施例は、集約器によって受信された付加的なデータ内では、細かい骨格を生成しない場合がある。例えば、集約器は、着目領域内の細かい特徴を伴う、一次骨格全体を使用し得るが、3次元骨格は、付加的な粗い骨格のみを伴って生成され得る。そのような実施例では、細かい骨格が各観点に対して生成されないため、本システムのための算出リソースは、低減され得る。
本実施例では、通信インターフェース75が、データを集約器に伝送する様式は、限定されず、集約器への有線接続を介して、電気信号を伝送することを含み得る。他の実施例では、通信インターフェース75は、ルータまたは中央コントローラ等の中継デバイスを伴い得る、インターネットを介して、無線で集約器に接続され得る。さらなる実施例では、通信インターフェース75は、Bluetooth(登録商標)接続、無線信号、または赤外線信号等の無線信号を伝送および受信し、その後、付加的なデバイスに中継するための無線インターフェースであり得る。
図2を参照すると、マーカレス運動捕捉のための装置の概略描写が、概して、80に示される。装置80は、装置80のユーザと相互作用するための、インジケータ等、種々の付加的なインターフェースおよび/または入力/出力デバイス等の付加的な構成要素を含み得る。相互作用は、装置80またはその中で装置が動作するシステムの動作状態を視認すること、装置80のパラメータを更新すること、または装置80をリセットすることを含み得る。本実施例では、装置80は、3次元骨格を形成するために、装置50等の複数のデバイスと相互作用し、3次元運動捕捉を提供するためのものである。装置80は、通信インターフェース85と、メモリ記憶ユニット90と、集約器95とを含む。
通信インターフェース85は、装置50等の外部ソースと通信するためのものである。本実施例では、通信インターフェース85は、取着エンジン70によって、粗い骨格と細かい骨格を組み合わせることによって生成される、骨格全体を表すデータを受信するためのものである。通信インターフェース85は、複数の装置50と通信し得、各装置50は、対象を捕捉するために、異なる観点で配置される。本実施例では、通信インターフェース85は、WiFiネットワークまたはセルラーネットワークを経由して等、上記に説明される通信インターフェース75と同様の様式で、装置50と通信し得る。他の実施例では、通信インターフェース85は、イントラネット、または他の中継デバイスとの無線接続等のプライベートネットワークを介して、装置50からデータを受信し得る。
メモリ記憶ユニット90は、通信インターフェース85を介して、装置50から受信されたデータを記憶するためのものである。特に、メモリ記憶ユニット90は、映像内の対象の運動捕捉のために組み合わせられ得る、複数の骨格全体を記憶し得る。複数の観点からの骨格全体が、通信インターフェース85を介して受信される実施例では、メモリ記憶ユニット90が、データベース内の粗い特徴および細かい特徴を伴う骨格全体を記憶および編成するために使用され得ることが、本説明から利益を享受する当業者によって理解されるはずである。
本実施例では、メモリ記憶ユニット90は、特に限定されず、任意の電子、磁気、光学、または他の物理的記憶デバイスであり得る、非一過性機械可読記憶媒体を含み得る。装置50または他のデータ収集デバイスから受信されたデータに加えて、メモリ記憶ユニット90は、集約器95等、装置80およびその構成要素の一般的な動作に対する命令を記憶するために使用され得る。特に、メモリ記憶ユニット90は、プロセッサによって実行可能である、オペレーティングシステムを記憶し、装置80に、一般的な機能性、例えば、種々のアプリケーションをサポートするための機能性を提供し得る。特に、命令は、種々の機能を遂行するために、プロセッサによって使用され得る。さらに、メモリ記憶ユニット90はまた、ディスプレイおよび他のユーザインターフェース等、装置80の他の構成要素および周辺デバイスを動作させるための制御命令を記憶し得る。
集約器95は、メモリ記憶ユニット90と通信し、少なくとも1つの2次元骨格全体を、異なる観点からの異なる2次元骨格全体等の付加的なデータと組み合わせ、画像の対象を表す3次元骨格を生成するためのものである。複数の3次元骨格を時間の関数として組み合わせることによって、経時的に対象の運動を捕捉する。集約器95が組み合わせ得る、装置50によって生成される骨格全体の数が、限定されないことを理解されたい。
集約器95が2次元骨格を組み合わせる様式は、特に限定されない。本実施例では、各骨格全体は、複数の姿勢推定エンジンからの結果を組み合わせることによって生成される、細かい特徴と、粗い特徴とを含む。2次元骨格全体のうちの1つにおける関節は、別の2次元骨格全体における対応する関節と相関し得、それによって、他の2次元骨格全体は、3次元骨格を形成するために、組み合わせられ、融合され得る。そこから2次元骨格のそれぞれが把握される位置を把握することによって、立体視技法が、2次元骨格全体に基づいて、3次元骨格全体を三角測量するために使用され得る。
故に、細かい特徴と粗い特徴とを有する、複数の2次元骨格全体を組み合わせることによって、3次元骨格は、対象の運動を捕捉し得る。対象全体の運動捕捉は、より自然に現れる。特に、3次元骨格内の粗い関節だけではなく、手および指等の細かい関節の運動も、捕捉され、3次元で自然に回転され得る。いくつかの実施例では、関節および/または回転はさらに、ノイズを低減させるために、平滑化される、またはカルマンフィルタ等のフィルタリング技法を使用して、フィルタリングされ得る。
図3を参照すると、コンピュータネットワークシステムの概略描写が、概して、100に示される。システム100が、純粋に例示的であることを理解されたく、様々なコンピュータネットワークシステムが想定されることが、当業者にとって明白であろう。システム100は、装置80と、ネットワーク110によって接続される、複数の装置50-1および50-2とを含む。ネットワーク110は、特に限定されず、インターネット、イントラネットまたはローカルエリアネットワーク、携帯電話ネットワーク、もしくはこれらのタイプのネットワークのいずれかの組み合わせ等、任意のタイプのネットワークを含み得る。いくつかの実施例では、ネットワーク110はまた、ピアツーピアネットワークを含み得る。
本実施例では、装置50-1および装置50-2は、限定されず、着目領域内の粗い詳細だけではなく、細かい詳細も推測される、2段階姿勢推定プロセスを使用して、骨格全体を生成するために使用される、任意のタイプの画像捕捉および処理デバイスであり得る。装置50-1および装置50-2は、そこから3次元骨格が生成される、骨格全体を提供するために、ネットワーク110を経由して、装置50と通信する。
故に、装置50-1は、実質的に、装置50-2に類似し、装置50と関連して、上記に説明される構成要素を含み得る。装置50-1および装置50-2はそれぞれ、対象を捕捉するために、異なる観点において搭載され、位置付けられてもよい。故に、装置50-1および装置50-2はそれぞれ、ネットワーク110を介して、装置80内の集約器95に伝送されることになる、対象の2次元骨格を生成し得る。
図4を参照すると、マーカを使用することなく、3次元運動を捕捉する例示的方法のフローチャートが、概して、500に示される。方法500の解説を支援するために、方法500が、システム100によって実施され得ると仮定されたい。実際に、方法500は、システム100が構成され得る、1つの方法であり得る。さらに、方法500に関する以下の議論は、システム100ならびに装置50-1、装置50-2、および装置80等のその構成要素のさらなる理解につながり得る。加えて、方法500が、示されるような正確なシーケンスで実施されなくてもよく、種々のブロックが、順にではなく、並行して、または全く異なるシーケンスで実施され得ることが強調される。
ブロック510を起点として、装置50-1は、カメラを使用して、対象の画像を捕捉する。本実施例では、装置50-2が、異なる観点において搭載されたカメラを使用して、同一対象の画像を捕捉するために、並行して動作させ得ることを理解されたい。
次いで、ブロック520において、粗い骨格が、ブロック510において捕捉された画像から生成され得る。装置50-1および装置50-2が並行して動作する実施例では、別個の粗い骨格が、生成され得る。本実施例では、ブロック520において生成される粗い骨格は、2次元で、対象の身体全体を表し得る。故に、対象のより細かい詳細が、個別の姿勢推定エンジンによって、有意に詳細に処理されない場合があることを理解されたい。粗い骨格が生成される様式は、特に限定されない。例えば、姿勢推定エンジンは、機械学習技法を画像に適用し得る。機械学習技法は、粗い骨格を生成し、関節の位置および回転を推測するためのニューラルネットワークであり得る。特に、いくつかの実施例では、畳み込みニューラルネットワークが、関節の位置および回転を推測するために使用され得る。さらに、画像の処理を遂行するための算出負荷を低減させるために、元画像の分解能が、この段階で、低減されてもよい。代替として、粗い骨格を生成するために、各フレームを処理することの代わりに、フレームのサンプルが、処理されてもよい。
ブロック530は、ブロック510によって捕捉された元画像内の着目領域を識別することを伴う。着目領域は、ブロック520において生成される粗い骨格に基づいて、識別され得る。例えば、特徴認識プロセスは、細かい骨格が生成される、潜在的な着目領域を識別するために、粗い骨格上で遂行され得る。具体的な実施例として、対象が人間である場合、粗い骨格の手が、着目領域として認識されてもよい。
着目領域の識別に応じて、着目領域の細かい骨格が、ブロック540において生成されることになる。細かい骨格が生成される様式は、特に限定されない。例えば、姿勢推定エンジンは、機械学習技法を元画像のクロッピングされた部分に適用し得る。ブロック520の実行が画像の分解能を低減させる実施例では、元の分解能の画像が、着目領域のより多くの詳細を捕捉するために使用され得ることを理解されたい。機械学習技法は、細かい骨格を生成し、関節の位置および回転を推測するためのニューラルネットワークであり得る。特に、いくつかの実施例では、畳み込みニューラルネットワークが、関節の位置および回転を推測するために使用され得る。
次いで、ブロック550は、骨格全体を形成するために、ブロック520において生成された粗い骨格に、ブロック540において生成された細かい骨格を取着することを含む。細かい骨格が粗い骨格に取着される様式は、特に限定されない。本実施例では、取着エンジン70は、ブロック520において生成された粗い骨格の一部を、関連付けられる回転を伴う、より多くの関節位置を有し得る、ブロック540において生成された、細かい骨格を伴う部分に置換し得る。
さらに、取着エンジン70等によるブロック550の実行は、細かい骨格から粗い骨格への遷移を平滑化することを伴い得る。平滑化機能は、細かい骨格および粗い骨格の生成が、着目領域が単に置換されるときに不連続点を作成させる場合、粗い骨格に対して細かい骨格を変換し、取着点を整合させることを伴い得る。平滑化機能はまた、粗い骨格の比率をマッチングさせるために、細かい骨格の比率をスケーリングすることを伴い得る。
ブロック560は、3次元骨格を形成するために、付加的なデータとともに、ブロック550において生成された骨格全体を集約する。例えば、複数の観点からの2次元骨格全体は、種々の3次元結像技法を使用して、3次元骨格を生成するために使用され得る。本実施例では、付加的な2次元骨格は、ブロック560の実行の際に使用される付加的なデータであり得る。他の実施例では、他のタイプのデータが、2次元骨格全体内の深度を推定するために使用され得る。
上記に提供される、種々の実施例の特徴および側面が、本開示の範囲内にある、さらなる実施例内に組み合わせられ得ることを認識されたい。

Claims (36)

  1. 装置であって、
    対象の第1の画像を捕捉するための第1のカメラと、
    第1の姿勢推定エンジンであって、前記第1の姿勢推定エンジンは、
    前記第1の画像を受信することと、
    前記第1の画像の分析に基づいて、前記対象の異なる解剖学的領域に対応する第1の複数の関節を有する第1の粗い骨格を生成することと、
    前記第1の粗い骨格の少なくとも一部を含む前記第1の画像の第1の領域を識別することと
    を実行するためのものである、第1の姿勢推定エンジンと、
    第2の姿勢推定エンジンであって、前記第2の姿勢推定エンジンは、
    前記第1の画像の前記第1の領域を受信することと、
    前記第1の画像の前記第1の領域の分析に基づいて、前記対象の単一の解剖学的領域に対応する第2の複数の関節を有する第1の細かい骨格を生成することと
    を実行するためのものである、第2の姿勢推定エンジンと、
    記第1の粗い骨格に前記第1の細かい骨格を取着することによって第1の骨格全体を生成するための第1の取着エンジンと、
    前記対象の第2の画像を捕捉するための第2のカメラであって、前記第2の画像は、前記第1のカメラと異なる視点から捕捉される、第2のカメラと、
    第3の姿勢推定エンジンであって、前記第3の姿勢推定エンジンは、
    前記第2の画像を受信することと、
    前記第2の画像の分析に基づいて、第2の粗い骨格を生成することと、
    前記第2の粗い骨格の少なくとも一部を含む前記第2の画像の第2の領域を識別することと
    を実行するためのものである、第3の姿勢推定エンジンと、
    第4の姿勢推定エンジンであって、前記第4の姿勢推定エンジンは、
    前記第2の画像の前記第2の領域を受信することと、
    前記第2の画像の前記第2の領域の分析に基づいて、第2の細かい骨格を生成することと
    を実行するためのものである、第4の姿勢推定エンジンと、
    記第2の粗い骨格に前記第2の細かい骨格を取着することによって第2の骨格全体を生成するための第2の取着エンジンと、
    集約器であって、前記集約器は、
    前記第1の骨格全体および前記第2の骨格全体を受信することと、
    前記第1の骨格全体および前記第2の骨格全体から、3次元骨格を生成することと
    を実行するためのものである、集約器と
    を備える、装置。
  2. 前記第1の姿勢推定エンジンによって生成される、前記第1の粗い骨格は、前記対象の身体を表す、請求項1に記載の装置。
  3. 前記第1の姿勢推定エンジンは、前記身体の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを使用する、請求項2に記載の装置。
  4. 前記第2の姿勢推定エンジンによって生成される、前記第1の細かい骨格は、前記対象の手を表す、請求項3に記載の装置。
  5. 前記第2の姿勢推定エンジンは、前記手の手関節位置を推測するために、第2の畳み込みニューラルネットワークを使用する、請求項4に記載の装置。
  6. 前記第1の取着エンジンは、前記第1の粗い骨格と組み合わせるために、前記第1の細かい骨格をスケーリングするためのものである、請求項1~5のいずれか1項に記載の装置。
  7. 前記第1の取着エンジンは、前記第1の粗い骨格と組み合わせるために、前記第1の細かい骨格を平行移動させるためのものである、請求項1~5のいずれか1項に記載の装置。
  8. 前記第1の姿勢推定エンジンは、前記第1の粗い骨格を生成するために、前記第1の画像の分解能を低減させるためのものであり、前記第2の姿勢推定エンジンは、前記第1の細かい骨格を生成するために、フル分解能で、前記第1の画像を使用するためのものである、請求項1~5のいずれか1項に記載の装置。
  9. 前記第3の姿勢推定エンジンによって生成される、前記第2の粗い骨格は、前記対象の身体を表す、請求項1~5のいずれか1項に記載の装置。
  10. 前記第の姿勢推定エンジンによって生成される、前記第2の細かい骨格は、前記対象の手を表す、請求項9に記載の装置。
  11. 前記第2の取着エンジンは、前記第2の粗い骨格と組み合わせるために、前記第2の細かい骨格をスケーリングするためのものである、請求項1~5のいずれか1項に記載の装置。
  12. 前記第2の取着エンジンは、前記第の粗い骨格と組み合わせるために、前記第2の細かい骨格を平行移動させるためのものである、請求項1~5のいずれか1項に記載の装置。
  13. 前記第3の姿勢推定エンジンは、前記第2の粗い骨格を生成するために、前記第2の画像の分解能を低減させるためのものであり、前記第4の姿勢推定エンジンは、前記第の細かい骨格を生成するために、フル分解能で、前記第2の画像を使用するためのものである、請求項1~5のいずれか1項に記載の装置。
  14. 装置であって、
    対象の画像を捕捉するためのカメラと、
    第1の姿勢推定エンジンであって、前記第1の姿勢推定エンジンは、
    前記画像を受信することと、
    前記画像の分析に基づいて、前記対象の異なる解剖学的領域に対応する第1の複数の関節を有する粗い骨格を生成することと、
    前記粗い骨格の少なくとも一部を含む前記画像の領域を識別することと
    を実行するためのものである、第1の姿勢推定エンジンと、
    第2の姿勢推定エンジンであって、前記第2の姿勢推定エンジンは、
    前記画像の前記領域を受信することと、
    前記画像の前記領域の分析に基づいて、前記対象の単一の解剖学的領域に対応する第2の複数の関節を有する細かい骨格を生成することと
    を実行するためのものである、第2の姿勢推定エンジンと、
    記粗い骨格に前記細かい骨格を取着することによって骨格全体を生成するための取着エンジンと、
    前記骨格全体を集約器に伝送するための通信インターフェースであって、前記集約器は、前記骨格全体および付加的なデータに基づいて、3次元骨格を生成するためのものである、通信インターフェースと
    を備える、装置。
  15. 前記第1の姿勢推定エンジンによって生成される、前記粗い骨格は、前記対象の身体を表す、請求項14に記載の装置。
  16. 前記第1の姿勢推定エンジンは、前記身体の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを使用する、請求項15に記載の装置。
  17. 前記第2の姿勢推定エンジンによって生成される、前記細かい骨格は、前記対象の手を表す、請求項16に記載の装置。
  18. 前記第2の姿勢推定エンジンは、前記手の手関節位置を推測するために、第2の畳み込みニューラルネットワークを使用する、請求項17に記載の装置。
  19. 前記取着エンジンは、前記粗い骨格と組み合わせるために、前記細かい骨格をスケーリングするためのものである、請求項14~18のいずれか1項に記載の装置。
  20. 前記取着エンジンは、前記粗い骨格と組み合わせるために、前記細かい骨格を平行移動させるためのものである、請求項14~18のいずれか1項に記載の装置。
  21. 前記第1の姿勢推定エンジンは、前記粗い骨格を生成するために、前記画像の分解能を低減させるためのものであり、前記第2の姿勢推定エンジンは、前記細かい骨格を生成するために、フル分解能で、前記画像を使用するためのものである、請求項14~18のいずれか1項に記載の装置。
  22. 装置であって、
    複数の運動捕捉装置によって生成された複数の骨格全体を受信するための通信インターフェースであって、前記複数の運動捕捉装置のそれぞれの運動捕捉装置は、
    対象の画像を捕捉するためのカメラと、
    第1の姿勢推定エンジンであって、前記第1の姿勢推定エンジンは、
    前記画像を受信することと、
    前記画像の分析に基づいて、前記対象の異なる解剖学的領域に対応する第1の複数の関節を有する粗い骨格を生成することと、
    前記粗い骨格の少なくとも一部を含む前記画像の領域を識別することと
    を実行するためのものである、第1の姿勢推定エンジンと、
    第2の姿勢推定エンジンであって、前記第2の姿勢推定エンジンは、
    前記画像の前記領域を受信することと、
    前記画像の前記領域の分析に基づいて、前記対象の単一の解剖学的領域に対応する第2の複数の関節を有する細かい骨格を生成することと
    を実行するためのものである、第2の姿勢推定エンジンと、
    前記粗い骨格に前記細かい骨格を取着することによって骨格全体を生成するための取着エンジンと
    を備える、通信インターフェースと、
    前記通信インターフェースを介して受信された前記複数の骨格全体を記憶するためのメモリ記憶ユニットと、
    前記メモリ記憶ユニットと通信している集約器であって、前記集約器は、前記複数の骨格全体に基づいて、3次元骨格を生成するためのものである、集約器と
    を備える、装置。
  23. 前記集約器は、3次元関節を生成するために、第1の骨格全体の第1の関節と第2の骨格全体の第2の関節を組み合わせるためのものである、請求項22に記載の装置。
  24. 前記3次元関節は、手関節を表す、請求項23に記載の装置。
  25. 方法であって、
    カメラを用いて、対象の画像を捕捉することと、
    前記画像の分析に基づいて、前記対象の複数の解剖学的領域にわたる第1の複数の関節を有する粗い骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
    前記粗い骨格に基づいて、前記画像内の着目領域を識別することと、
    前記着目領域の分析に基づいて、前記対象の前記複数の解剖学的領域のうちの1つの解剖学的領域にわたる第2の複数の関節を有する細かい骨格を生成することであって、前記細かい骨格は、2次元である、ことと、
    骨格全体を形成するために、前記細かい骨格を前記粗い骨格の一部に取着することと、
    3次元骨格を形成するために、付加的なデータとともに、前記骨格全体を集約することと
    を含む、方法。
  26. 前記画像の前記粗い骨格を生成することは、前記画像内の身体関節位置を推測するために、第1の畳み込みニューラルネットワークを適用することを含む、請求項25に記載の方法。
  27. 前記着目領域の前記細かい骨格を生成することは、前記着目領域内の手関節位置を推測するために、第2の畳み込みニューラルネットワークを適用することを含む、請求項26に記載の方法。
  28. 前記細かい骨格を前記粗い骨格の一部に取着することは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格をスケーリングすることを含む、請求項25~27のいずれか1項に記載の方法。
  29. 前記細かい骨格を前記粗い骨格の一部に取着することは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格を平行移動させることを含む、請求項25~27のいずれか1項に記載の方法。
  30. 前記粗い骨格を生成するために、前記画像の分解能を低減させることをさらに含む、請求項25~27のいずれか1項に記載の方法。
  31. コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、前記コードは、
    第1のカメラを用いて、対象の画像を捕捉することと、
    前記画像の分析に基づいて、前記対象の複数の解剖学的領域にわたる第1の複数の関節を有する粗い骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
    前記粗い骨格に基づいて、前記画像内の着目領域を識別することと、
    前記着目領域の分析に基づいて、前記対象の前記複数の解剖学的領域のうちの1つの解剖学的領域にわたる第2の複数の関節を有する細かい骨格を生成することであって、前記粗い骨格は、2次元である、ことと、
    骨格全体を形成するために、前記細かい骨格を前記粗い骨格の一部に取着することと、
    3次元骨格を形成するために、付加的なデータとともに、前記骨格全体を集約することと
    を行うようにプロセッサに指示する、非一過性コンピュータ可読媒体。
  32. 前記コードは、前記画像内の身体関節位置を推測するために第1の畳み込みニューラルネットワークを適用することによって、前記画像の前記粗い骨格を生成するように前記プロセッサに指示する、請求項31に記載の非一過性コンピュータ可読媒体。
  33. 前記コードは、前記着目領域内の手関節位置を推測するために第2の畳み込みニューラルネットワークを適用することによって、前記着目領域の前記細かい骨格を生成するように前記プロセッサに指示する、請求項32に記載の非一過性コンピュータ可読媒体。
  34. 前記細かい骨格を前記粗い骨格の一部に取着するように前記プロセッサに指示する、前記コードは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格をスケーリングするように前記プロセッサにさらに指示する、請求項31~33のいずれか1項に記載の非一過性コンピュータ可読媒体。
  35. 前記細かい骨格を前記粗い骨格の一部に取着するように前記プロセッサに指示する、前記コードは、前記粗い骨格の一部をマッチングさせるために、前記細かい骨格を平行移動させるように前記プロセッサにさらに指示する、請求項31~33のいずれか1項に記載の非一過性コンピュータ可読媒体。
  36. 前記コードは、前記粗い骨格を生成するために、前記画像の分解能を低減させるように前記プロセッサに指示する、請求項31~33のいずれか1項に記載の非一過性コンピュータ可読媒体。
JP2022556030A 2020-03-20 2020-03-20 複数の姿勢推定エンジンを用いた手のマーカレス運動捕捉 Active JP7499345B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2020/052600 WO2021186222A1 (en) 2020-03-20 2020-03-20 Markerless motion capture of hands with multiple pose estimation engines

Publications (2)

Publication Number Publication Date
JP2023527625A JP2023527625A (ja) 2023-06-30
JP7499345B2 true JP7499345B2 (ja) 2024-06-13

Family

ID=77771672

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022556030A Active JP7499345B2 (ja) 2020-03-20 2020-03-20 複数の姿勢推定エンジンを用いた手のマーカレス運動捕捉

Country Status (7)

Country Link
US (1) US20230141494A1 (ja)
EP (1) EP4121939A4 (ja)
JP (1) JP7499345B2 (ja)
KR (1) KR20220156873A (ja)
AU (1) AU2020436767B2 (ja)
CA (1) CA3172247A1 (ja)
WO (1) WO2021186222A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042476A (ja) 2018-09-10 2020-03-19 国立大学法人 東京大学 関節位置の取得方法及び装置、動作の取得方法及び装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7804998B2 (en) * 2006-03-09 2010-09-28 The Board Of Trustees Of The Leland Stanford Junior University Markerless motion capture system
US8023726B2 (en) * 2006-11-10 2011-09-20 University Of Maryland Method and system for markerless motion capture using multiple cameras
KR101849373B1 (ko) * 2012-01-31 2018-04-17 한국전자통신연구원 인체의 관절구조를 추정하기 위한 장치 및 방법
WO2014154839A1 (en) * 2013-03-27 2014-10-02 Mindmaze S.A. High-definition 3d camera device
CA3046612A1 (en) * 2019-06-14 2020-12-14 Wrnch Inc. Method and system for monocular depth estimation of persons

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042476A (ja) 2018-09-10 2020-03-19 国立大学法人 東京大学 関節位置の取得方法及び装置、動作の取得方法及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
渡部 直人 Naoto WATANABE,フルハイビジョンカメラによる身体・手・顔のモーションキャプチャ Body, hands and face motion capture from full high-definition television camera,映像情報メディア学会技術報告 Vol.32 No.58 ITE Technical Report,日本,(社)映像情報メディア学会 The Institute of Image Information and Television Engineers,2008年12月18日,第32巻 第58号,第61-64頁

Also Published As

Publication number Publication date
AU2020436767B2 (en) 2024-02-29
EP4121939A1 (en) 2023-01-25
WO2021186222A1 (en) 2021-09-23
KR20220156873A (ko) 2022-11-28
US20230141494A1 (en) 2023-05-11
EP4121939A4 (en) 2024-03-20
CA3172247A1 (en) 2021-09-23
JP2023527625A (ja) 2023-06-30
AU2020436767A1 (en) 2022-10-27

Similar Documents

Publication Publication Date Title
US9330470B2 (en) Method and system for modeling subjects from a depth map
JP4148281B2 (ja) モーションキャプチャ装置及びモーションキャプチャ方法、並びにモーションキャプチャプログラム
CN111881887A (zh) 基于多摄像头的运动姿态监测和指导方法及装置
JPH10320588A (ja) 画像処理装置および画像処理方法
CN110544302A (zh) 基于多目视觉的人体动作重建***、方法和动作训练***
CN113706699A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
JP2013120556A (ja) 被写体姿勢推定装置および映像描画装置
Chen et al. Camera networks for healthcare, teleimmersion, and surveillance
US20210035326A1 (en) Human pose estimation system
JP3401512B2 (ja) 移動物体追跡装置
JP2006215743A (ja) 画像処理装置及び画像処理方法
JP7499345B2 (ja) 複数の姿勢推定エンジンを用いた手のマーカレス運動捕捉
KR102483387B1 (ko) 손가락 재활 훈련을 위한 증강현실 콘텐츠 제공 방법 및 손가락 재활 훈련 시스템
JP2000268161A (ja) 実時間表情検出装置
WO2019156241A1 (ja) 学習装置、推定装置、学習方法、推定方法及びコンピュータプログラム
CN112712545A (zh) 人体部分跟踪方法和人体部分跟踪***
CN112215928B (zh) 基于视觉图像的动作捕捉方法及数字动画制作方法
CN111435535A (zh) 一种关节点信息的获取方法及装置
Sumi et al. Active wearable vision sensor: recognition of human activities and environments
KR20150061549A (ko) 하이브리드 카메라 기반 동작 추적 장치 및 그 방법
CN109785364B (zh) 机动车辆使用者运动轨迹捕捉方法
JP4027294B2 (ja) 移動体検出装置、移動体検出方法及び移動体検出プログラム
Wong et al. Multi-person vision-based head detector for markerless human motion capture
CN117612251A (zh) 一种人体姿态识别方法及***
JP2024525148A (ja) キーポイント検出のためのトレーニング・データセットを生成するための方法及びシステム、並びにマーカーなし対象上の仮想マーカーの3dロケーションを予測するための方法及びシステム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230314

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230314

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240522

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240603

R150 Certificate of patent or registration of utility model

Ref document number: 7499345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150