JP7499346B2

JP7499346B2 - 逆運動学に基づいた関節の回転の推測

Info

Publication number: JP7499346B2
Application number: JP2022556033A
Authority: JP
Inventors: ドンウクチョ，; コリンジョゼフブラウン，
Original assignee: ヒンジヘルス，インコーポレイテッド
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2024-06-13
Anticipated expiration: 2040-03-20
Also published as: US20230154091A1; CA3172248A1; WO2021186223A1; KR20220156062A; AU2020436768A1; EP4121945A1; JP2023527627A; EP4121945A4; AU2020436768B2

Description

コンピュータアニメーションは、映画、ビデオゲーム、エンターテインメント、生体力学、訓練映像、スポーツシミュレータ、および他の技術における、コンピュータ生成イメージ等、種々の用途で使用され得る。平滑かつ自然なアニメーションを提供するために、対象の一部の相対的な運動が、モデル化されることになる。例えば、人間対象では、代表的な骨格の関節が、物理的な骨関節を表し得る。人間の骨関節が、典型的には、限定された範囲の運動を有することを理解されたい。具体的な実施例として、膝または肘等のいくつかの人間の関節は、単一平面において枢動することが可能である一方、肩等の他の関節は、３次元で枢動し得る。

詳細な説明
コンピュータアニメーションは、人等の種々のオブジェクトに運動を提供するために、広範囲な異なる分野で使用される。人の移動は、人体が、種々の範囲の運動を伴う、多くの関節を含むため、モデル化および再現が複雑である。人物の片手を挙げる等の移動は、単純であるように見え得るが、そのような運動は、具体的な様式で、それぞれ回転する、少なくとも肩および肘を伴う。故に、そのような移動のアニメーションは、異なる関節のいくつかの回転を伴い得、任意の関節における、その正しくない運動は、結果として、不自然に見えるアニメーション移動をもたらし得る。したがって、種々のコンピュータアニメーション技法を使用して、より自然かつ現実的な移動が生成され得るように、各関節に対する移動の範囲が、判定されるべきである。

手等の対象の一部の移動を計算することは、運動に伴う関節毎の運動の範囲等の関節パラメータが把握されているとき、種々の計算を介して、遂行され得る。関節パラメータが把握されていないときに、具体的な手の移動を提供するために、関節の移動を判定すること等の逆動作は、逆運動学技法を使用して遂行され得る。逆運動学を使用して、対象の運動を判定することは、特に、人物の手等の対象の一部の自然に見える運動を推測するために有用であり得る。しかしながら、運動は、複数の関節の回転を伴い得るため、それは、手の追跡以外の制限された入力を伴う、不十分に制約された数学的問題を伴い得る。これは、結果として、従来的な技法を使用して解くことが数学的に不可能な問題をもたらし得る。

機械学習を使用して、逆運動学を算出する装置および方法が、提供される。本装置は、複数の関節を有する、３次元骨格等の人間骨格の表現を受信し得る。人間骨格のソースは、特に限定されず、いくつかの実施例では、入力データセットとして、提供され得る。他の実施例では、骨格は、姿勢推定エンジンを使用して、カメラによって捕捉される画像または映像から導出され得る。本装置は、続いて、骨格内の関節毎の回転および位置を推測し得る。推測された回転および位置は、次いで、骨格の姿勢またはアニメーションが、自然に見えるように促進するために使用され得る。

本説明では、下記に議論されるモデルおよび技法は、概して、人間対象に適用される。下記に説明される実施例が、動物および機械等の他の対象にも同様に適用され得ることが、本説明から利益を享受する当業者によって理解されるはずである。
本発明は、例えば、以下を提供する。
（項目１）
装置であって、
外部ソースから未加工データを受信するための通信インターフェースであって、前記未加工データは、入力骨格の第１の関節位置と、第２の関節位置とを含む、通信インターフェースと、
前記未加工データを記憶するためのメモリ記憶ユニットと、
前記未加工データから正規化されたデータを生成するための前処理エンジンであって、前記正規化されたデータは、前記メモリ記憶ユニット内に記憶されることになる、前処理エンジンと、
前記正規化されたデータから関節の回転を推測するために、ニューラルネットワークを適用するための逆運動学エンジンであって、前記ニューラルネットワークは、履歴データを使用するためのものであり、前記ニューラルネットワークを訓練するために使用される訓練データは、位置ノイズを含む、逆運動学エンジンと
を備える、装置。
（項目２）
前記前処理エンジンは、前記入力骨格の前記第１の関節位置と前記第２の関節位置との間の長さを正規化するためのものである、項目１に記載の装置。
（項目３）
前記前処理エンジンは、テンプレート骨格に基づいて、前記長さを正規化するためのものである、項目２に記載の装置。
（項目４）
前記テンプレート骨格は、Ｔ姿勢をとる、項目３に記載の装置。
（項目５）
前記通信インターフェースに接続される、姿勢推定エンジンをさらに備え、前記姿勢推定エンジンは、画像データから前記未加工データを生成するためのものである、項目１－４のいずれか１項に記載の装置。
（項目６）
前記画像データを捕捉するためのカメラシステムをさらに備える、項目５に記載の装置。
（項目７）
前記位置ノイズは、ガウスノイズである、項目１－６のいずれか１項に記載の装置。
（項目８）
前記ニューラルネットワークは、前記メモリ記憶ユニット内に、前記履歴データを記憶するためのものである、項目１－７のいずれか１項に記載の装置。
（項目９）
前記ニューラルネットワークは、再帰ニューラルネットワークである、項目８に記載の装置。
（項目１０）
前記再帰ニューラルネットワークは、長短期メモリアーキテクチャを使用する、項目９に記載の装置。
（項目１１）
前記再帰ニューラルネットワークは、ゲート付再帰ユニットアーキテクチャを使用する、項目９に記載の装置。
（項目１２）
方法であって、
通信インターフェースを介して、外部ソースから未加工データを受信することであって、前記未加工データは、入力骨格の第１の関節位置と、第２の関節位置とを含む、ことと、
前記未加工データをメモリ記憶ユニット内に記憶することと、
前記未加工データから正規化されたデータを生成することと、
前記正規化されたデータを前記メモリ記憶ユニット内に記憶することと、
前記正規化されたデータから関節の回転を推測するために、逆運動学エンジンを用いてニューラルネットワークを適用することであって、前記ニューラルネットワークは、履歴データを使用するためのものであり、前記ニューラルネットワークを訓練するために使用される訓練データは、位置ノイズを含む、ことと
を含む、方法。
（項目１３）
前記正規化されたデータを生成することは、前記入力骨格の前記第１の関節位置と前記第２の関節位置との間の長さを正規化することを含む、項目１２に記載の方法。
（項目１４）
前記長さを正規化することは、テンプレート骨格に基づいて、前記第１の関節位置と前記第２の関節位置との間の前記長さをスケーリングすることを含む、項目１３に記載の方法。
（項目１５）
前記テンプレート骨格は、Ｔ姿勢をとる、項目１４に記載の方法。
（項目１６）
姿勢推定エンジンを用いて、画像データから前記未加工データを生成することをさらに含む、項目１２－１５のいずれか１項に記載の方法。
（項目１７）
カメラシステムを用いて、前記画像データを捕捉することをさらに含む、項目１６に記載の方法。
（項目１８）
前記訓練データを生成することをさらに含む、項目１２－１７のいずれか１項に記載の方法。
（項目１９）
前記訓練データを生成することは、前記位置ノイズをサンプルデータに加えることを含む、項目１８に記載の方法。
（項目２０）
前記メモリ記憶ユニット内に、前記履歴データを記憶することをさらに含む、項目１２－１９のいずれか１項に記載の方法。
（項目２１）
コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、前記コードは、
通信インターフェースを介して、外部ソースから未加工データを受信することであって、前記未加工データは、入力骨格の第１の関節位置と、第２の関節位置とを含む、ことと、
前記未加工データをメモリ記憶ユニット内に記憶することと、
前記未加工データから正規化されたデータを生成することと、
前記正規化されたデータを前記メモリ記憶ユニット内に記憶することと、
前記正規化されたデータから関節の回転を推測するために、逆運動学エンジンを用いてニューラルネットワークを適用することであって、前記ニューラルネットワークは、履歴データを使用するためのものであり、前記ニューラルネットワークを訓練するために使用される訓練データは、位置ノイズを含む、ことと
を行うようにプロセッサに指示するためのものである、非一過性コンピュータ可読媒体。
（項目２２）
前記正規化されたデータを生成するように前記プロセッサに指示するための前記コードはさらに、前記入力骨格の前記第１の関節位置と前記第２の関節位置との間の長さを正規化するように、前記プロセッサに指示する、項目２１に記載の非一過性コンピュータ可読媒体。
（項目２３）
前記長さを正規化するように前記プロセッサに指示するための前記コードはさらに、テンプレート骨格に基づいて、前記第１の関節位置と前記第２の関節位置との間の前記長さをスケーリングするように、前記プロセッサに指示する、項目２２に記載の非一過性コンピュータ可読媒体。
（項目２４）
前記コードはさらに、姿勢推定エンジンを用いて、画像データから前記未加工データを生成するように、前記プロセッサに指示する、項目２１－２３のいずれか１項に記載の非一過性コンピュータ可読媒体。
（項目２５）
前記プロセッサに指示するための前記コードは、カメラシステムを用いて、前記画像データを捕捉するように、前記プロセッサに指示するための前記コードを含む、項目２４に記載の非一過性コンピュータ可読媒体。
（項目２６）
前記プロセッサに指示するための前記コードはさらに、前記訓練データを生成するように、前記プロセッサに指示する、項目２１－２５のいずれか１項に記載の非一過性コンピュータ可読媒体。
（項目２７）
前記プロセッサに指示するための前記コードはさらに、前記位置ノイズをサンプルデータに加えるように、前記プロセッサに指示する、項目２６に記載の非一過性コンピュータ可読媒体。

ここで、単に実施例として、付随の図面が参照されるであろう。

図１は、関節の回転を推測するための例示的装置の構成要素の概略描写である。

図２Ａは、図１の装置において受信される、入力骨格のある実施例である。

図２Ｂは、正規化された骨格のある実施例である。

図３は、外部ソースから関節の回転を推測するための例示的システムの描写である

図４は、関節の回転を推測するための別の例示的装置の構成要素の概略描写である。

図５は、関節の回転を推測する方法のある実施例のフローチャートである。

図１を参照すると、関節の回転および位置を推測するための装置の概略描写が、概して、５０に示される。装置５０は、装置５０のユーザと相互作用するための、インジケータ等、種々の付加的なインターフェースおよび／または入力／出力デバイス等の付加的な構成要素を含み得る。相互作用は、装置５０またはその中で装置が動作するシステムの動作状態を視認すること、装置５０のパラメータを更新すること、または装置５０をリセットすることを含み得る。本実施例では、装置５０は、骨格データを受信し、骨格内の関節における複数の推測される回転を生成するだけではなく、関節の位置の任意の調節を行うために、骨格データを処理するためのものである。本実施例では、装置５０は、通信インターフェース５５と、メモリ記憶ユニット６０と、前処理エンジン６５と、逆運動学エンジン７０とを含む。

通信インターフェース５５は、入力骨格を表す未加工データを受信するために、外部ソースと通信するためのものである。本実施例では、通信インターフェース５５は、ＷｉＦｉネットワークまたはセルラーネットワーク等、多数の接続されたデバイスと共有される、パブリックネットワークであり得る、ネットワークを経由して、外部ソースと通信し得る。他の実施例では、通信インターフェース５５は、イントラネットまたは他のソースとの有線接続等のプライベートネットワークを介して、外部ソースからデータを受信し得る。さらなる実施例では、通信インターフェース５５は、ＵＳＢインターフェース、ＳＡＴＡインターフェース、ＰＣＩまたはＰＣＩｅインターフェース、メモリバス、または装置５０の一部であり得る、周辺デバイスと通信するための他のインターフェース等の内部インターフェースであり得る。特に、通信インターフェース５５は、メモリ記憶ユニット６０上に記憶されることになる、外部ソースからの未加工データを受信するためのものである。

本実施例では、未加工データは、複数の関節を有する骨格を含む。外部ソースから受信された骨格が生成される様式は、特に限定されない。例えば、骨格は、カメラによって捕捉された画像データから導出され得る。そのような実施例では、画像データは、姿勢推定エンジンを使用して、処理され得る。他の実施例では、骨格は、アーティストによって生成されたデータ、または描画もしくはコンピュータ生成図等の芸術作品から処理されたデータを使用して、外部ソースから受信され得る。

さらに、通信インターフェース５５は、骨格内の関節の回転および位置の推測の結果を伝送するために使用され得る。例えば、通信インターフェース５５は、装置５０の一部である、または別個のデバイス上に存在し得る、アニメーションエンジン（図示せず）と通信してもよい。いくつかの実施例では、装置５０は、関節の回転および位置を推測するために、外部ソースから骨格を受信し、推測された関節に関連するデータを外部ソースに返送するように動作してもよい。故に、装置５０は、コンピュータアニメータのためのサービスとして動作し得る。

通信インターフェース５５がデータを伝送および受信する様式は、限定されず、データを収集する電子デバイスまたは中央サーバ等の外部ソースとの有線接続を介して、電気信号を受信することを含み得る。他の実施例では、通信インターフェース５５は、インターネットを介して、無線で他のデバイスに接続されてもよい。さらなる実施例では、通信インターフェース５５は、ＷｉＦｉネットワークを介して、または外部デバイスと直接通信して等、無線信号を伝送および受信するための無線インターフェースであってもよい。別の実施例として、通信インターフェース５５は、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続、無線信号、または赤外線信号を介して、別の近接デバイスに接続され、続いて、付加的なデバイスに中継されてもよい。

メモリ記憶ユニット６０は、通信インターフェース５５を介して受信されたデータを記憶するためのものである。特に、メモリ記憶ユニット６０は、骨格、特に、アニメーションのための人間対象を表す３次元骨格を表すデータを記憶し得る。データは、特に限定されず、骨格は、具体的な対象または対象のタイプ（例えば、人間、動物、機械等）を識別するための識別子等の付加的な情報を含み得る。本実施例では、メモリ記憶ユニット６０は、アニメーション目的のために、異なる対象を表す複数の骨格を記憶し得る。特に、骨格は、異なるサイズであり得、異なる回転を有する異なる関節を含み得る。例えば、ある骨格は、アニメーションのための子供の画像を表し得、別の骨格は、柔軟性の差異に起因して、異なる寸法および異なる関節の回転を有する大人を表し得る。さらなる実施例では、骨格は、動物または機械等の異なるタイプの対象を表し得る。

メモリ記憶ユニット６０はまた、装置５０によって使用されることになる、付加データを記憶するために使用され得る。例えば、メモリ記憶ユニット６０は、テンプレートおよびモデルデータ等の種々の参照データソースを記憶し得る。メモリ記憶ユニット６０が、複数のデータベースを維持するために使用される、物理的なコンピュータ可読媒体であり得る、または中央サーバまたはクラウドサーバ等の１つ以上の外部サーバを横断して分散され得る、複数の媒体を含み得ることを理解されたい。

本実施例では、メモリ記憶ユニット６０は、特に限定されず、任意の電子、磁気、光学、または他の物理的記憶デバイスであり得る、非一過性機械可読記憶媒体を含み得る。メモリ記憶ユニット６０は、通信インターフェース５５を介して外部ソースから受信されたデータ、テンプレートデータ、訓練データ、前処理エンジン６５から正規化されたデータ、または逆運動学エンジン７０からの結果等の情報を記憶するために使用され得る。加えて、メモリ記憶ユニット６０は、装置５０の一般的な動作に対する命令を記憶するために使用され得る。特に、メモリ記憶ユニット６０は、プロセッサによって実行可能である、オペレーティングシステムを記憶し、装置５０に、一般的な機能性、例えば、種々のアプリケーションをサポートするための機能性を提供し得る。メモリ記憶ユニット６０は、加えて、前処理エンジン６５および逆運動学エンジン７０を動作させるための命令を記憶し得る。さらに、メモリ記憶ユニット６０はまた、他の構成要素、ならびにカメラおよびユーザインターフェース等、装置５０とともに配設され得る、任意の周辺デバイスを動作させるための制御命令を記憶し得る。

メモリ記憶ユニット６０は、テンプレート骨格、訓練データ、または装置５０の構成要素を動作させるための命令等のデータとともに、事前にロードされ得る。他の実施例では、命令は、通信インターフェース５５を介して、またはメモリフラッシュドライブ等の、装置５０に接続される可搬型メモリ記憶デバイスからの命令を直接転送することによって、ロードされ得る。他の実施例では、メモリ記憶ユニット６０は、外部ハードドライブ、またはコンテンツを提供するクラウドサービス等の外部ユニットであり得る。

前処理エンジン６５は、正規化されたデータを生成するために、メモリ記憶ユニット６０からのデータを前処理するためのものである。正規化されたデータは、続いて、逆運動学エンジン７０による後続使用のために、メモリ記憶ユニット６０内に記憶される。本実施例では、メモリ記憶ユニット６０から読み出されたデータは、複数の関節位置を伴う、３次元人間骨格を表す未加工データであり得る。データは、姿勢推定エンジンを用いて、画像から生成され、関節位置毎の座標のデータセットを含み得る。例えば、データセットは、定義済みの参照点に基づいた、デカルト座標、または関節位置を定義するための角座標を含み得る。

未加工データの各関節位置が、肩、肘、手首、首等の実人間関節を表す、またはそれに近似し得ることが、本説明から利益を享受する当業者によって理解されるはずである。故に、隣接する関節位置間の線は、２つの関節間の骨を表し得る。前処理エンジン６５は、テンプレート骨格と一致するように、各長さをスケーリングするために、関節位置間の長さまたは距離をスケーリングすることによって、未加工データを正規化するために使用され得る。前処理エンジンが距離を正規化する様式は、限定されず、テンプレート骨格に対して一致するように、距離の比率を調節することを伴い得る。実施例として、テンプレート骨格の肩と肘との間の距離が、肘と手首との間の距離とおおよそ同一である場合、前処理エンジン６５は、実質的に同一比率であるように、未加工データ内の関節位置を修正し得る。

人間骨格上で遂行される、正規化プロセスの具体的な実施例として、付け根関節が選定され、各近傍関節までの距離が、テンプレート内の対応する骨の長さにスケーリングされることになる。付け根関節の選択は、特に限定されず、任意に選択され得る。いくつかの実施例では、骨盤が、選択され得、他の実施例では、首が選択され得る。各骨の方向は、変更されないままにされるが、スケーリングされた各関節の下流またはそこから離れた各従属関節は、骨を表す関節間の新しい距離に適合させるために、それに応じて移動される。本プロセスは、各関節が、テンプレートに対応する関節間の距離を有するように、再位置付けされるまで、四肢に向かって、骨格の下方へ持続する。本実施例内で議論される関節が、首関節等の人体内のいくつかの生理的関節を表し得る、骨格関節であることを理解されたい。さらに、上記に言及される骨は、骨格関節間の距離を表し、人体内の１つを上回る骨を表し得る。

前処理エンジン６５によって使用される、テンプレート骨格は、特に限定されない。例えば、テンプレート骨格は、多数の人間対象から取得された平均骨格であり得る。本実施例では、テンプレート骨格は、Ｔ姿勢にあるが、しかしながら、他の実施例では、別の姿勢が、使用され得る。他の実施例では、メモリ記憶ユニット６０は、未加工データ内の変動を考慮するために、異なるサイズを伴う、複数のテンプレート骨格を記憶し得る。例えば、未加工データは、人間の子供または大人の男性等、未加工データのタイプを規定する、識別子を含み得る。そのような実施例では、比率は、異なり得、前処理エンジン６５は、対象に対して最も適切なテンプレート骨格を選択し得る。識別子を伴わない実施例では、前処理エンジンは、未加工データに基づいて、適切なテンプレートを自動的に選択し得る。

いくつかの実施例では、未加工データはまた、ある視点から対象の身体の後方に隠れた関節を表し得る、姿勢推定によって生成された、隠れた関節位置を含み得る。例えば、人間対象の側面プロファイルは、肩を表す、一方の可視である関節位置を提供し得る一方、他方の肩は、身体によって隠されたままである。そのような実施例では、未加工データは、関節位置が、可視であるか、または隠れているかどうかを示すために、関節位置毎にバイナリフラグを含み得る。故に、隠れた関節位置もまた、テンプレート骨格と一致するように、正規化され得、これは、正規化後に、隠れた位置を越えて、または隠れた位置内に延在し得るため、関節位置の状態を変化させる場合とそうではない場合がある。

図２Ａおよび２Ｂを参照すると、前処理エンジン６５の例示的適用が、図示される。図２Ａは、通信インターフェース５５において受信される未加工データからの人間骨格６００の３次元描写を表し得る。図示されるように、骨格６００は、人間骨格の一般的な比率から歪曲されたように見える。歪曲の原因は、特に関連せず、不完全な関節位置の推定または関節検出の失敗等、姿勢推定エンジン内で行われる近似化から結果として生じ得る。他の原因は、姿勢推定エンジンによって使用される、画像データに関連し得る。例えば、カメラの光学系が、歪曲された画像を提供し得る。いくつかの実施例では、正規化は、均一な骨格比率を提供するために遂行され得、逆運動学エンジン７０によって同様の様式で取り扱われ得る。骨格６００を正規化することを適用した後、図２Ｂは、未加工データの正規化された骨格６５０を図示する。示されるように、骨格６５０は、人間対象により類似した比率を有するように見える。

逆運動学エンジン７０は、前処理エンジン６５によって生成された、正規化されたデータにおける、関節に関する関節の回転の推測だけではなく、位置の任意の調節を行うためのものである。逆運動学エンジン７０が関節の回転および位置を推測する様式は、特に限定されない。本実施例では、逆運動学エンジン７０は、前処理エンジン６５によって生成された、正規化されたデータに、ニューラルネットワークを適用する。特に、本実施例内で使用されるニューラルネットワークは、メモリ記憶ユニット６０内に記憶された、履歴または時間的データを使用する。例えば、ニューラルネットワークは、再帰ニューラルネットワークであり得る。再帰ニューラルネットワークは、長短期記憶アーキテクチャまたはゲート付再帰ユニットアーキテクチャ等の種々のアーキテクチャを使用し得る。具体的な実施例として、ニューラルネットワークは、１，０２４個のユニットを伴う、４つの完全に接続された層の後に、５１２個のユニットを伴う、２つのゲート付再帰ユニット層を含み得、それぞれ、整流線形ユニットアクティブ化およびバッチ処理正規化を伴う。ニューラルネットワークの最終層は、骨格内の関節に関する回転を表す、変数の数と一致する、出力を提供し得る。本実施例では、各回転出力は、Ｔ姿勢に対する包括的回転変換を表し得る。他の実施例では、各回転出力は、骨格の定義済みのツリー構造に基づいて、親関節に対する包括的回転変換を表し得る。

異なる関節の自然な移動間の複雑な関連性を捕捉するために十分に深く、可能性として考えられる姿勢シーケンスの大空間を表すために十分なユニットを伴う、任意の再帰ニューラルネットワークが、使用され得ることが、当業者によって理解されるはずである。より多くのユニットが、層毎に加えられる場合、ネットワークは、より計算的に要求が多く、付加的なハードウェアが、実行を維持するために要求され得る。同様に、再帰ニューラルネットワークが、より多くの層を含む場合、算出するためにより多くの時間を使用するであろうし、所与の訓練データの有限セットを訓練することがより困難であり得る。しかしながら、より多くの再帰ユニットを使用することは、より豊富な時間的特徴が、活用されることを可能にするが、予測可能な結果を伴うモデルを生産する、収束的解決策を見出すことをより困難にし得る。

他の実施例では、再帰層を伴わないモデルが、同様に使用され得る。しかしながら、そのようなモデルのノイズに対するロバスト性が、減少され得る。例えば、過去のフレームからの骨格は、後続フレームの逆運動学算出内に含まれ得る。具体的な実施例として、５つの完全に接続された層を伴い、それぞれが、フレーム毎データを処理し、先のフレームからのデータを捕捉する、５つの完全に接続された後続層内にフィードする、時空間解析モデルが、使用され得る。

逆運動学エンジン７０によって使用されるニューラルネットワークは、種々のタイプの訓練データを使用して、訓練され得る。例えば、訓練データは、ＴＥＮＳＯＲＦＬＯＷ（登録商標）等の訓練フレームワークを使用して、ＡＤＯＢＥＭＩＸＡＭＯから等、大規模アニメーションデータセットからの、既知の関節の回転を含み得る。他の実施例では、ＣＡＦＦＥまたはＰＹＴＯＲＣＨのようなツールもまた、モデルを訓練するために使用され得る。さらに、アニメーションデータは、モデルを訓練するために、ＸＳＥＮＳＥまたはＶＩＣＯＮシステム等の適切な運動捕捉システムを用いて、捕捉され得る。加えて、ＣａｒｎｅｇｉｅＭｅｌｏｎＵｎｉｖｅｒｓｉｔｙ（ＣＭＵ）ＧｒａｐｈｉｃｓＬａｂＭｏｔｉｏｎＣａｐｔｕｒｅＤａｔａｓｅｔ等の公開されている学術的ソースからのソースアニメーションデータが、使用されてもよい。本実施例では、訓練データはさらに、訓練データに加えられ得る、位置ノイズを含む。例えば、ガウスノイズが、ニューラルネットワークの訓練に先立って、訓練データに加えられ得る。他の実施例では、ノイズ分布が、統計値または履歴データから導出され得る。加えて、ノイズの物理的モデルもまた、カメラパラメータをモデル化し、予期される誤差分布を、姿勢を推測する方法の既知の挙動と組み合わせることによって、組み込まれ得る。さらに、ノイズはまた、ドロップアウトの形態で加えられ得、これは、失敗された検出およびオクルージョンをシミュレートするために、関節または関節の階層的チェーンをランダムにオクルードするためのものである。ノイズを訓練データに加えることによって、ニューラルネットワークが、マーカレス捕捉を介して、骨格を導出するために、画像に適用される、姿勢推定エンジンから取得されたデータ等、精密ではない場合がある、入力データ内の関節位置を取り扱う際、よりロバストになり得ることが、当業者によって理解されるはずである。

本実施例では、逆運動学エンジン７０の結果が、関節位置の位置精度を判定するための表１と、正規化された骨格から、関節の回転を推測するために、異なるモデルを使用して、角度精度を判定するための表２とにおいて、下記に示される。第１の列では、関節の回転が、一連の数学的計算を実施することから推測される、古典的な逆運動学ソルバが使用される。第２の列では、任意のフィードバックまたは履歴データを伴わない、畳み込みニューラルネットワーク等のニューラルネットワークが、関節の位置および回転を推測するために使用される。第３の列では、上記に説明されたもの等の再帰ニューラルネットワークが、関節の位置および回転を推測するために使用される。第４の列は、関節の位置および回転を推測するために、スライディング時間ウインドウを伴う、時空間解析を使用する。

表１および表２に例証されるように、再帰ニューラルネットワークまたは時空間解析等の履歴データを検討するモデルを使用することは、ノイズを伴う検査データを取り扱うとき、最良性能を提供する。

図３を参照すると、コンピュータネットワークシステムの概略描写が、概して、１００に示される。システム１００が、純粋に例示的であることを理解されたく、様々なコンピュータネットワークシステムが想定されることが、当業者にとって明白であろう。システム１００は、関節の位置および回転を推測するための装置５０と、ネットワーク１１０によって接続される、複数の外部ソース２０－１および２０－２（総称的に、これらの外部ソースは、本明細書内では、「ｅｘｔｅｒｎａｌｓｏｕｒｃｅ（外部ソース２０）」と称され、集合的には、それらは、「ｅｘｔｅｒｎａｌｓｏｕｒｃｅｓ２０（外部ソース２０）」と称され、本専門用語は、本説明内の他の場所においても使用される）とを含む。ネットワーク１１０は、特に限定されず、インターネット、イントラネットまたはローカルエリアネットワーク、携帯電話ネットワーク、もしくはこれらのタイプのネットワークのいずれかの組み合わせ等、任意のタイプのネットワークを含み得る。いくつかの実施例では、ネットワーク１１０はまた、ピアツーピアネットワークを含み得る。

本実施形態では、外部ソース２０は、そこから関節の位置および回転が推測されることになる、未加工データを提供するために、ネットワーク１１０を経由して、装置５０と通信するために使用される、任意のタイプのコンピューティングデバイスであり得る。例えば、外部ソース２０－１は、パーソナルコンピュータであり得る。パーソナルコンピュータが、ノート型コンピュータ、可搬型電子デバイス、ゲームデバイス、モバイルコンピューティングデバイス、可搬型コンピューティングデバイス、タブレット型コンピューティングデバイス、携帯電話、スマートフォン、または同等物で代用され得ることが、本説明から利益を享受する当業者によって理解されるはずである。いくつかの実施例では、外部ソース２０－２は、画像を捕捉し、姿勢推定エンジンを用いて、未加工データを生成するためのカメラであり得る。未加工データは、特に限定されず、複数の関節位置を有する、入力骨格であり得る。未加工データは、外部ソース２０において受信または捕捉された、画像または映像から生成され得る。他の実施例では、外部ソース２０が、その上で、コンテンツが作成され、それによって、未加工データが、コンテンツから自動的に生成される、パーソナルコンピュータであり得ることを、理解されたい。さらなる実施例では、骨格は、ユーザ入力から等、直接作成され得る。

本実施形態では、装置５０は、外部ソース２０によって提供される未加工データに基づいて、関節の位置および回転を推測するためのものである。本実施例では、外部ソース２０は、アーティスト等のコンテンツジェネレータ、または画像捕捉デバイスであり得る。外部ソース２０は、アニメーション化されることになる対象を提供し、装置５０から推測された関節の位置および回転を受信し得る。いくつかの実施例では、装置５０は、サードパーティデバイスであり得る、外部ソース２０に、サービスとしての推測を提供する、サービスプロバイダと関連付けられ得る。推測は、次いで、現実的な移動を伴うアニメーションを生成するために使用され得る。故に、装置５０は、そうでなければ、その運動が自然に見えるであろうように、骨格をアニメーション化するための努力に著しい時間を費やすであろう、アニメータによって、ツールとして使用され得る。

図４を参照すると、関節の位置および回転を推測するための装置５０ａの別の概略描写が、概して、示される。添え字「ａ」が続くことを除いて、装置５０ａの同様の構成要素が、装置５０内のその構成要素を参照して、同様に描かれている。本実施例では、装置１０ａは、通信インターフェース５５ａと、メモリ記憶ユニット６０ａと、プロセッサ７５ａと、カメラシステム８０ａとを含む。本実施例では、プロセッサ７５ａは、前処理エンジン６５ａと、逆運動学エンジン７０ａとを含む。

本実施例では、メモリ記憶ユニット６０ａはまた、装置５０ａによって使用される種々のデータを記憶するために、データベースを維持し得る。例えば、メモリ記憶ユニット６０ａは、テンプレートデータベース４００ａと、モデルデータベース４１０ａと、訓練データベース４２０ａとを含み得る。加えて、メモリ記憶ユニットは、装置５０ａに一般的な機能性を提供するために、プロセッサ７５ａによって実行可能である、オペレーティングシステム４３０ａを含み得る。メモリ記憶ユニット６０ａは、加えて、ドライバレベルならびに他のハードウェアドライブにおいて、入力を受信する、または出力を提供するための、種々のユーザインターフェース等、装置５０ａの他の構成要素、および周辺デバイスと通信するための、動作を遂行するための命令を記憶し得る。

本実施例では、テンプレートデータベース４００ａは、前処理エンジン６５ａによって使用するためのテンプレート骨格を記憶し得る。特に、テンプレートデータベース４００ａは、正準Ｔ姿勢にある骨格の関節位置を伴う、骨格を含み得る。加えて、テンプレートデータベース４００ａは、４５度の角度で腕を下した状態のＡ姿勢にある骨格を含み得る。テンプレートデータベース４００ａは、腕を横に下した状態で立っている、自然な体勢にある骨格を含み得る。いくつかの実施例では、単一の正準テンプレートもまた、使用され得ること、または他の実施例では、具体的な標的とされる人間形態構造に対する結果を改良するために、テンプレートが、システムのユーザによって定義され得ることを、理解されたい。テンプレートデータベース４００ａはまた、テンプレートが、システムのユーザに緊密に適合するが、経時的に安定したままであるように、経時的に入力データから学習される、骨格テンプレートを含み得る。本場合では、本システムは、推測されている骨格の形態構造に適合される、逆運動学計算を促進するために、複数の人間の形態構造に対してロバストになる、および／または入力としてテンプレート骨格を受け取るように訓練され得る。

モデルデータベース４１０ａは、逆運動学エンジン７０ａによって、関節の位置および回転の推測を遂行するために、ニューラルネットワークによって使用される、履歴データを記憶するためのものである。特に、モデルデータベース４１０ａは、再帰ニューラルネットワークの次層内にフィードされることになる、各層において生成され得る、ユニットを記憶するためのものである。故に、動作中、生成された新しいユニットが、ニューラルネットワーク内にフィードバックされるためのものであるため、逆運動学エンジン７０ａが、モデルデータベース４１０ａに対して読取および書込を常に行い得ることを、理解されたい。

訓練データベース４２０ａは、逆運動学エンジン７０ａによって使用されるニューラルネットワークを訓練するための訓練データを記憶するためのものである。本実施例では、訓練データベース４２０ａが、装置５０ａ上に、ローカルで記憶されることを図示する。故に、訓練データベース４２０ａ内のデータは、ニューラルネットワークを訓練するために使用されることに先立って、修正され得る。例えば、訓練データベース４２０ａ内のデータは、ガウスノイズ等のデータに、ノイズを加えるために修正され得る。他の実施例では、ランダムオクルージョン等のノイズ、および骨格の回転、スケール、および平行移動のランダム増大が加えられ得る。本実施例は、ローカルで、訓練データを記憶するが、他の実施例は、通信インターフェース５５ａを介して、ニューラルネットワークの訓練の間、アクセスされ得る、ファイルサーバまたはクラウド内等、外部に訓練データを記憶し得る。

カメラシステム８０ａは、画像または映像の形態で、データを収集するためのものである。カメラシステム８０ａは、特に限定されず、カメラシステム８０ａがデータを収集する様式も、限定されない。例えば、カメラシステム８０ａは、光信号を検出するために、相補型金属酸化膜半導体を有する、アクティブピクセルセンサ上に光を集束させるための種々の光学的構成要素を含み得る。他の実施例では、光学系が、電荷結合素子上に光を集束させるために使用され得る。

本実施例では、カメラシステム８０ａはさらに、姿勢推定エンジン８５ａを含む。姿勢推定エンジン８５ａは、特に限定されず、カメラシステム８０ａによって捕捉される画像に基づいて、３次元骨格を生成するために使用され得る。故に、カメラシステム８０ａは、処理のために、プロセッサ７５ａに、画像データおよび未加工データを提供し得る。姿勢推定エンジン８５ａが骨格を生成する様式は、限定されず、画像処理技法を使用する、マーカレス姿勢推定プロセスを伴い得る。代替として、姿勢推定エンジン８５ａは、未加工データを生成するために、周辺デバイスまたはマーカと相互作用し得る。いくつかの実施例では、姿勢推定エンジン８５ａが、一般的なカメラユニットを含み得る、カメラシステム８０ａから分離され得ることを、理解されたい。そのような実施例では、姿勢推定エンジン８５ａは、別個の独立型ユニットまたはプロセッサ７５ａの一部であり得る。さらなる実施例では、姿勢推定エンジン８５ａは、ウェブサービス等の画像処理に特化された別個のシステムの一部であり得る。姿勢推定エンジンによって生産される骨格データが、異なる数の関節または追跡された身体の目印、データの異なる順序付けを含む、異なるフォーマットを有し得、可視性情報を明示的に含む場合とそうではない場合があり、異なるスケール（例えば、ピクセル座標または正規化されたユニット）内であり得、異なるビット深度（例えば、８ビット、１６ビット）であり、関節位置を２次元または３次元座標内に提供し得、他の補助的なデータ（追跡ＩＤ、境界ボックス、セグメント化マスク等）を含み得ることが、本説明から利益を享受する当業者によって理解されるはずである。

図５を参照すると、関節の位置および関節の回転を推測する例示的方法のフローチャートが、概して、５００に示される。方法５００の解説を支援するために、方法５００が、装置５０ａによって実施され得ると仮定されたい。実際に、方法５００は、装置５０ａが構成され得る、１つの方法であり得る。さらに、方法５００に関する以下の議論は、装置５０ａおよびその構成要素のさらなる理解につながり得る。加えて、方法５００が、示されるような正確なシーケンスで実施されなくてもよく、種々のブロックが、順にではなく、並行して、または全く異なるシーケンスで実施され得ることが強調される。

ブロック５１０を起点として、装置５０ａは、通信インターフェース５５ａを介して、外部ソースからの未加工データを受信する。本実施例では、未加工データは、複数の関節を有する骨格を含み得る。例えば、装置において受信される骨格は、対象人物、動物、機械、またはアニメーションのための他のオブジェクトを表し得る。いったん装置５０ａにおいて受信されると、未加工データは、ブロック５２０において、メモリ記憶ユニット６０ａ内に記憶されることになる。

ブロック５３０は、前処理エンジン６５ａを用いて正規化されたデータを生成することを伴う。本実施例では、正規化されたデータは、複数の関節位置を伴って、３次元人間骨格を表す未加工データから生成され得る。例えば、データセットは、定義済みの参照点に基づいた、デカルト座標、または関節位置を定義するための角座標を含み得る。未加工データは、ノイズによって、または画像データの画像処理によって引き起こされる歪曲を含み得るため、未加工データは、より現実的な骨格、および／またはテンプレート骨格に基づいた、人間等の一貫したスケールの対象を提供するために正規化され得る。具体的な実施例として、カメラシステムによって捕捉される画像のマーカレス姿勢推定は、一方の腕が、他方の腕よりも長い、骨格を生成し得る。これは、画像処理欠陥によっても同様に引き起こされるため、前処理エンジン６５ａは、両腕が実質的に同様の長さにある、正規化されたデータを生成するために、未加工データを前処理し得る。他の実施例では、前処理エンジン６５ａは、対象が人間であるとき、人間の比率が取得されるように、骨を表す関節間の具体的なセグメントの長さを正規化し得る。正規化されたデータは、続いて、後続使用のために、ブロック５４０において、メモリ記憶ユニット６０ａ内に記憶される。

次いで、ブロック５５０は、関節の回転を推測するために、ニューラルネットワークを正規化されたデータに適用する、逆運動学エンジン７０ａを備える。いくつかの実施例では、逆運動学エンジン７０ａもまた、正規化されたデータ内の関節位置の調節を行う等、関節位置を推測するために使用され得る。逆運動学エンジン７０ａによって使用される、具体的なニューラルネットワークは、特に限定されず、後続の反復または層内にフィードされることになる、履歴データを使用する、再帰ニューラルネットワークであり得る。さらに、ニューラルネットワークの訓練は、特に限定されず、加えられた位置ノイズを伴う、訓練データセットを使用することを伴い得る。

上記に提供される、種々の実施例の特徴および側面が、本開示の範囲内にある、さらなる実施例内に組み合わせられ得ることを認識されたい。

Claims

装置であって、
外部ソースから未加工データを受信するための通信インターフェースであって、前記未加工データは、入力骨格の第１の関節位置および第２の関節位置を含む、通信インターフェースと、
前記未加工データを記憶するためのメモリ記憶ユニットと、
前記未加工データに基づいてテンプレート骨格を選択することと、前記テンプレート骨格と一致するように前記第１の関節位置および前記第２の関節位置を正規化することによって、前記未加工データから正規化されたデータを生成することとを行うための前処理エンジンであって、前記正規化されたデータは、前記メモリ記憶ユニット内に記憶されることになる、前処理エンジンと、
関節の回転を推測するために、履歴データを使用するニューラルネットワークを前記正規化されたデータに適用するための逆運動学エンジンであって、前記ニューラルネットワークを訓練するために使用される訓練データは、位置ノイズを含む、逆運動学エンジンと
を備える、装置。
前記前処理エンジンは、前記入力骨格の前記第１の関節位置と前記第２の関節位置との間の長さを正規化するためのものである、請求項１に記載の装置。
前記テンプレート骨格は、Ｔ姿勢をとる、請求項１に記載の装置。
前記通信インターフェースに接続される姿勢推定エンジンをさらに備え、前記姿勢推定エンジンは、画像データから前記未加工データを生成するためのものである、請求項１～３のいずれか１項に記載の装置。
前記画像データを捕捉するためのカメラシステムをさらに備える、請求項４に記載の装置。
前記位置ノイズは、ガウスノイズである、請求項１～５のいずれか１項に記載の装置。
前記ニューラルネットワークは、前記メモリ記憶ユニット内に、前記履歴データを記憶するためのものである、請求項１～５のいずれか１項に記載の装置。
前記ニューラルネットワークは、再帰ニューラルネットワークである、請求項７に記載の装置。
前記再帰ニューラルネットワークは、長短期メモリアーキテクチャを使用する、請求項８に記載の装置。
前記再帰ニューラルネットワークは、ゲート付再帰ユニットアーキテクチャを使用する、請求項８に記載の装置。
前記逆運動学エンジンによって推測された前記関節の回転を受信することと、前記関節の回転に基づいてアニメーションを生成することとを行うためのアニメーションエンジンをさらに備える、請求項１～１０のいずれか１項に記載の装置。
方法であって、
通信インターフェースを介して、外部ソースから未加工データを受信することであって、前記未加工データは、入力骨格の第１の関節位置および第２の関節位置を含む、ことと、
前記未加工データをメモリ記憶ユニット内に記憶することと、
前記未加工データに基づいてテンプレート骨格を選択することと、
前記テンプレート骨格と一致するように前記第１の関節位置および前記第２の関節位置を正規化することによって、前記未加工データから正規化されたデータを生成することと、
前記正規化されたデータを前記メモリ記憶ユニット内に記憶することと、
関節の回転を推測するために、逆運動学エンジンを用いて、履歴データを使用するニューラルネットワークを前記正規化されたデータに適用することであって、前記ニューラルネットワークを訓練するために使用される訓練データは、位置ノイズを含む、ことと
を含む、方法。
前記正規化されたデータを生成することは、前記入力骨格の前記第１の関節位置と前記第２の関節位置との間の長さを正規化することを含む、請求項１２に記載の方法。
前記テンプレート骨格は、Ｔ姿勢をとる、請求項１２に記載の方法。
カメラシステムを用いて、画像データを捕捉することと、姿勢推定エンジンを用いて、前記画像データから前記未加工データを生成することとをさらに含む、請求項１２～１４のいずれか１項に記載の方法。
前記位置ノイズをサンプルデータに加えることによって、前記訓練データを生成することをさらに含む、請求項１２～１４のいずれか１項に記載の方法。
前記メモリ記憶ユニット内に、前記履歴データを記憶することをさらに含む、請求項１２～１４のいずれか１項に記載の方法。
前記関節の回転に基づいてアニメーションを生成することをさらに含む、請求項１２～１７のいずれか１項に記載の方法。
コードを用いてエンコードされる非一過性コンピュータ可読媒体であって、前記コードは、
通信インターフェースを介して、外部ソースから未加工データを受信することであって、前記未加工データは、入力骨格の第１の関節位置および第２の関節位置を含む、ことと、
前記未加工データをメモリ記憶ユニット内に記憶することと、
前記未加工データに基づいてテンプレート骨格を選択することと、
前記テンプレート骨格と一致するように前記第１の関節位置および前記第２の関節位置を正規化することによって、前記未加工データから正規化されたデータを生成することと、
前記正規化されたデータを前記メモリ記憶ユニット内に記憶することと、
関節の回転を推測するために、逆運動学エンジンを用いて、履歴データを使用するニューラルネットワークを前記正規化されたデータに適用することであって、前記ニューラルネットワークを訓練するために使用される訓練データは、位置ノイズを含む、ことと
を行うようにプロセッサに指示するためのものである、非一過性コンピュータ可読媒体。
前記正規化されたデータを生成するように前記プロセッサに指示するための前記コードは、（ｉ）前記入力骨格の前記第１の関節位置と前記第２の関節位置との間の長さを正規化するように、前記プロセッサにさらに指示する、請求項１９に記載の非一過性コンピュータ可読媒体。
前記コードは、カメラシステムを用いて、画像データを捕捉することと、姿勢推定エンジンを用いて、前記画像データから前記未加工データを生成することとを行うように、前記プロセッサにさらに指示する、請求項１９～２０のいずれか１項に記載の非一過性コンピュータ可読媒体。
前記プロセッサに指示するための前記コードは、前記訓練データを生成するように、前記プロセッサにさらに指示する、請求項１９～２０のいずれか１項に記載の非一過性コンピュータ可読媒体。
前記プロセッサに指示するための前記コードは、前記位置ノイズをサンプルデータに加えるように、前記プロセッサにさらに指示する、請求項２２に記載の非一過性コンピュータ可読媒体。
前記プロセッサに指示するための前記コードは、前記関節の回転に基づいてアニメーションを生成するように、前記プロセッサにさらに指示する、請求項１９～２３のいずれか１項に記載の非一過性コンピュータ可読媒体。