JP2022176917A

JP2022176917A - ロボットデバイスを制御するための方法

Info

Publication number: JP2022176917A
Application number: JP2022080087A
Authority: JP
Inventors: ロソレオネル; Leonel Rozo; デイヴヴェーダント; Dave Vedant
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-05-17
Filing date: 2022-05-16
Publication date: 2022-11-30
Also published as: DE102021204961B4; CN115351780A; DE102021204961A1; KR20220155921A

Abstract

【課題】ロボットデバイスを制御するための方法が説明される。【解決手段】ロボットスキルのためのデモンストレーションを提供するステップであって、ロボット構成のシーケンスを含む軌道をデモンストレーションし、リーマン多様体の構造を有する構成空間の要素によって記述されるステップと重みベクトルに従った基本運動と、デモンストレーションされた軌道との間の距離測定値を最小化する重みベクトルを検索することで、ロボットデバイスの基本運動の重みベクトルとしての各軌道の表現を決定するステップであって、組み合わせは、多様体に写像されるステップと、デモンストレーションされた軌道について決定された重みベクトルに確率分布を適合させた基本運動を実行することによってロボットデバイスを制御するステップと、を含む。【選択図】図６

Description

本開示は、ロボットデバイスを制御するための方法に関する。

多くの用途では、ロボットが、場合によっては動的で構造化されていない環境において自律的に動作することが望まれる。このためには、ロボットは、自身の周辺環境の中でどのように動き、どのように対話するかを学習する必要がある。そうするために、ロボットは、単純な動作を実行したり、複雑なタスクを複数のスキルの組み合わせとして実行したりするために使用できるスキルのライブラリに依存する場合がある。動作スキルを学習する手法は、人間の例を介して、デモンストレーションから学ぶこと（ＬｆＤ：Learning from demonstrations）として公知である。これには、ロボットによって模倣されるべき特定の動作を１回または複数回示す専門家（典型的には人間）が必要である。

A. Paraschos らによる刊行物「Using probabilistic movement primitives in robotics” by A. Paraschos et al., in Autonomous Robots, 42:529-551, 2018」には、ロボット動作スキルを学習して合成するための確率的枠組みである確率的運動プリミティブ（ＰｒｏＭＰ）が記載されている。ＰｒｏＭＰは、コンパクトな基底関数表現に基づく軌道分布を表している。その確率論的定式化により、運動の変調、平行運動の起動、および制御における分散情報の活用が可能になる。

ＰｒｏＭＰは、直交運動の学習に使用されてきたが、その定式化では、四元数軌道の形態での配向運動を扱うことができない。しかしながら、四元数は、それらがほぼ最小の表現と、閉ループ配向制御での強い安定性とを提供するなど、ロボット制御にとって好ましい特性を備えている。したがって、四元数軌道を含むデモンストレーションからロボット制御学習を可能にするアプローチが望まれる。

発明の開示
様々な実施形態によれば、ロボットデバイスを制御するための方法が提供され、この方法は、ロボットスキルのためのデモンストレーションを提供するステップであって、ここで、各デモンストレーションは、ロボット構成のシーケンスを含む軌道をデモンストレーションし、ここで、各ロボット構成は、リーマン多様体の構造を有する予め定められた構成空間の要素によって記述されるステップを含む。本方法はさらに、各デモンストレーションされた軌道について、重みベクトルに従った基本運動の組み合わせと、デモンストレーションされた軌道との間の距離測定値を最小化する重みベクトルを検索することによって、ロボットデバイスの予め定められた基本運動の重みベクトルとしての軌道の表現を決定するステップであって、ここで、組み合わせは、多様体に写像されるステップを含む。本方法はさらに、デモンストレーションされた軌道について決定された重みベクトルに確率分布を適合させることによって重みベクトルの確率分布を決定するステップと、重みベクトルの決定された確率分布に従って基本運動を実行することによってロボットデバイスを制御するステップとを含む。

様々な実施形態によれば、上述の方法は、（以下で詳細に説明するように多変量測地線回帰を使用して）確率的動作プリミティブを符号化、再現、および適合させるリーマン多様体アプローチを使用するロボット制御を提供する。特に、様々な実施形態によれば、四元数軌道の空間は、リーマン多様体とみなされる。このアプローチは、ジオメトリを認識しないアプローチ（古典的なＰｒｏＭＰなど）と比較して、ともすれば不正確なデータを符号化したり、歪んだ軌道を再現したりすることが少なく、ロボットによるスキルの学習と再現とを可能にさせる。これは大まかな近似に依存しないため、モデルもより説明しやすくなる。その上さらに、このアプローチは、軌道分布の変調や動作プリミティブの混合などの付加的な適合能力も提供する。

様々な実施形態によれば、デモンストレーションされた軌道は、測地線回帰である重みベクトルとして表される。これは、測地線が、各デモンストレーションされた軌道に適合しているように見え得ることを意味する。

以下では様々な例が与えられる。

実施例１は、上述したようなロボットデバイスを制御するための方法である。

実施例２は、実施例１による方法であり、ここで、重みベクトルの確率分布は、デモンストレーションされた軌道について決定された重みベクトルにガウス分布を適合させることによって決定される。

訓練および再現のためにガウス分布を使用することにより、デモンストレーションでは見られなかった制御シナリオの信頼性の高い制御が提供される。

実施例３は、実施例１または２による方法であり、ここで、各デモンストレーションされた軌道は、時点の予め定められたシーケンスの各時点に対するロボット構成を含み、重みベクトルに従った基本運動の各組み合わせは、時点の予め定められたシーケンスの各時点に対するロボット構成を指定し、
各デモンストレーションされた軌道について、重みベクトルは、可能な重みベクトルの集合から、重みベクトルに従った基本運動の組み合わせと、デモンストレーションされた軌道とについての重みベクトルを決定することによって決定され、
組み合わせは、多様体に写像され、可能な重みベクトルの集合の中で最小であり、
多様体に写像された基本運動の組み合わせと、デモンストレーションされた軌道との間の距離は、時点のシーケンスの時点にわたって、多様体に写像されたときの時点における基本運動の組み合わせによって与えられる多様体の要素と、デモンストレーションされた軌道との間の多様体のメトリックの値または値のべき乗を含む各時点についての項を含んだ項にわたる合計によって与えられる。

これにより、デモンストレーションされた軌道に重みベクトルを適合させることによって、重みベクトルによりデモンストレーションされた軌道を表現する効率的な手法が提供される。組み合わせは、多様体上の点を選択し、選択された点における多様体の接空間の指数関数により多様体に組み合わせを写像することによって、多様体に写像されてもよい。

実施例４は、実施例１～３までのいずれか１つによる方法であり、この方法は、デモンストレーションされた軌道の１つについて、重みベクトルに従った基本運動の組み合わせと、デモンストレーションされた軌道との間の距離測定値が最小化されるような、多様体の点および重みベクトルを検索するステップを含み、ここで、組み合わせは、点における接空間から前記多様体に写像され、ここで、各デモンストレーションされた軌道について、多様体への各組み合わせの写像は、選択された点における接空間から前記組み合わせを写像することによって実行される。

換言すれば、接空間（すなわち、接空間を取る多様体の点）は、１つの実証された軌道について、重みおよび点にわたる最適化を実行することにより決定される。次いで、この接空間は、組み合わせまたは検索中にこれが必要な任意の組み合わせを、デモンストレーションされたすべての軌道についての多様体に写像するために使用される。換言すれば、同じ接空間、したがって同じ指数写像が、すべてのデモンストレーションされた軌道に使用される。これにより、異なる軌道に対して異なる接空間を使用することが接線重みベクトルを非常に多様化させてしまうという問題を克服する効果的な手法が提供される。

実施例５は、実施例１～４までのいずれか１つによる方法であり、ここで、軌道は、配向軌道であり、各デモンストレーションは、位置軌道をさらにデモンストレーションし、各ロボット構成は、三次元空間におけるベクトルによって記述される姿勢と、予め定められた構成空間の要素によって記述される向きとを含む。

したがって、スキルは、ロボットの姿勢のシーケンス、例えばエンドエフェクタの位置および向きをデモンストレーションすることによって学習されてもよく、ここで、向きのためのモデルは、リーマン多様体に基づくアプローチを使用して学習される。

実施例６は、実施例１～５までのいずれか１つによる方法であり、この方法は、より多くのロボットスキルのデモンストレーションを提供するステップと、各スキルについて、軌道の表現と重みベクトルと重みベクトルの確率分布とを決定するステップと、各スキルについて、重みベクトルの確率分布から、（時点毎に）多様体点のリーマンガウス分布を決定することによって、ロボットデバイスを制御するステップと、スキルのリーマンガウス分布の積分布を決定するステップと、（時点毎に）決定された積確率分布からサンプリングすることによってロボットデバイスを制御するステップと、を含む。

これにより、リーマン多様体上のデモンストレーションから学んだスキルのためのスキルのブレンディングが可能になる。

実施例７は、請求項１から６までのいずれか１項記載の方法を実行するように構成されているロボットデバイスコントローラである。

実施例８は、命令がプロセッサによって実行されるときに、該プロセッサに実施例１から６までのいずれか１つによる方法を実行させる命令を含んでいるコンピュータプログラムである。

実施例９は、命令がプロセッサによって実行されるときに、該プロセッサに実施例１から６までのいずれか１つによる方法を実行させる命令が格納されているコンピュータ可読媒体である。

図面において、同様の参照符号は、一般に、異なる図面を通して同じ部品を指している。これらの図面は必ずしも縮尺通りではなく、代わりに本発明の原理を一般的に説明することに重点が置かれている。以下の明細書では、以下の図面を参照しながら様々な態様が説明される。

ロボットを示す図である。球面多様体Ｓ^２を示す図であり、それらの点は例えばロボットのエンドエフェクタの可能な向きをそれぞれ表すことができる。一実施形態による球面多様体Ｓ^２上の多変量一般線形回帰を示す図である。説明のために球面上の文字に実施形態を適用した例を示す図である。説明のために球面上の文字のための一実施形態によるブレンディングプロセスを示す図である。ロボットデバイスを制御するための方法を示すフローチャートである。

以下の詳細な説明は、本発明が実施され得る本開示の特定の詳細および態様を例示として示す添付の図面を参照している。また、本発明の保護範囲から逸脱することなく、他の態様を使用したり、構造的、論理的、および電気的な変更を行ったりしてもよい。本開示のいくつかの態様は、新たな態様を形成するために本開示の１つ以上の他の態様と組み合わせることができるので、本開示の様々な態様は、必ずしも相互に排他的であるとは限らない。

以下では、様々な例をより詳細に説明する。

図１は、ロボット１００を示す。

このロボット１００は、作業部品（または１つ以上の他の対象物）を操作したり、組み立てたりするためのロボットアーム１０１、例えば産業用ロボットアームを含む。このロボットアーム１０１は、マニピュレータ１０２，１０３，１０４と、これらのマニピュレータ１０２，１０３，１０４が支持されている基台（または支持台）１０５とを含む。「マニピュレータ」という用語は、ロボットアーム１０１の可動部材を指し、それらの操作が、例えば作業を実行するために環境との物理的な相互作用を可能にしている。制御のために、ロボット１００は、制御プログラムに従って環境との相互作用を実施するように構成された（ロボット）コントローラ１０６を含む。マニピュレータ１０２，１０３，１０４の（支持台１０５から最も離れた）最後の部材１０４は、エンドエフェクタ１０４とも称され、１つ以上のツール、例えば溶接トーチ、把持器具、塗装設備などを含むことができる。

（支持台１０５の近傍にある）他のマニピュレータ１０２，１０３は、例えばエンドエフェクタ１０４と共に、その端部にエンドエフェクタ１０４を備えるロボットアーム１０１が設けられた位置決めデバイスを形成することができる。ロボットアーム１０１は、人間の腕と同様の機能を提供することができる機械的なアームである（場合によっては、その端部にツールを備える）。

ロボットアーム１０１は、マニピュレータ１０２，１０３，１０４を互いに相互接続し、さらに支持台１０５にも相互接続する関節要素１０７，１０８，１０９を含むことができる。関節要素１０７，１０８，１０９は、１つ以上の関節を含むことができ、それらの各々は、互いに関連するマニピュレータに対して回転可能な動作（すなわち回転動作）および／または並進動作（すなわち変位）を提供することができる。マニピュレータ１０２，１０３，１０４の運動は、コントローラ１０６によって制御されるアクチュエータを用いて開始することができる。

「アクチュエータ」という用語は、駆動されることに応じて機構やプロセスに影響を与えるように適合された構成部品として理解されてもよい。アクチュエータは、コントローラ１０６によって出力された命令（いわゆる起動）を、機械的な運動として実行することができる。アクチュエータ、例えば電気機械変換器は、駆動に応じて電気エネルギを機械エネルギに変換するように構成されていてもよい。

「コントローラ」という用語は、任意のタイプの論理実装された項目として理解されてもよく、これは、例えば、記録媒体に格納されたソフトウェア、ファームウェア、またはそれらの組み合わせを実行することができ、例えば、本例のアクチュエータに命令を出力することができる回路および／またはプロセッサを含むことができる。コントローラは、例えば、システム、本例ではロボットの運用を制御するためにプログラムコード（例えばソフトウェア）によって構成されていてもよい。

本例では、コントローラ１０６は、１つ以上のプロセッサ１１０と、コードおよびデータを格納したメモリ１１１とを含み、これらのコードおよびデータに基づいて、プロセッサ１１０はロボットアーム１０１を制御する。様々な実施形態によれば、コントローラ１０６は、メモリ１１１に格納された機械学習モデル１１２に基づいて、ロボットアーム１０１を制御する。

様々な実施形態によれば、リーマン多様体アプローチは、ＰｒｏＭＰを使用して配向動作プリミティブを学習するために使用される。すなわち、リーマン多様体定式化を使用して「配向ＰｒｏＭＰ」として示される、古典的ＰｒｏＭＰの拡張が提供される。

オリジナルの（すなわち古典的な）確率的運動プリミティブ（ＰｒｏＭＰ）アプローチは、ユークリッド空間でのロボットのスキルを処理するため、（ロボットの向きを表す）四元数軌道の学習および再現を不可能にさせる。

以下に説明するＰｒｏＭＰのリーマン定式化は、四元数データの学習および再現を可能にさせる。その上さらに、本明細書で与えられる一般的な処理のため、一般的なリーマン多様体に対する使用が可能になる。

以下では、ユークリッド空間でのロボットスキルを処理するためのＰｒｏＭＰの導入が示される。

以下では、次の表記が使用される。

一般に、単一の運動実行に対して、所定の軌道

が、変数ｙの時系列として示される。ここで、ｙ_ｔは、時間ｔについてのロボット構成とも称され、時間ステップｔでのタスク空間内の関節角度または直交位置のいずれかを表すことができる（付加的にｙの時間微分が考慮されてもよい）。古典的なＰｒｏＭＰ表記法に従って、ｙ_ｔは、ｄ自由度（ＤｏＦ）のシステム、例えば７自由度を有するロボットアーム１０１の測定値を表すｄ次元ベクトルである。軌道τの各点は、次式のように線形基底関数モデルとして表すことができる。
ｙ_ｔ＝Ψ_ｔｗ＋ε_ｙ⇒Ｐ（ｙ_ｔ│ｗ）＝Ｎ（ｙ_ｔ│Ψ_ｔｗ，Σ_ｙ）（１）
ここで、ｗは、ｄＮ_φ次元の重みベクトルであり、Ψ_ｔは、各ＤｏＦに対する時間依存の基底関数φ_ｔを含むｄ×ｄＮ_φ次元のブロック対角行列であり（１つのＤｏＦに対する基底関数は、基本運動（例えば、所定の方向への運動、所定の軸周りの回転）とも称される）、Ｎ_φは、基底関数の数を示し、ε_ｙ～Ｎ（０，Σ_ｙ）は、不確かさΣ_ｙを有するゼロ平均ｉ．ｉ．ｄ．ガウスノイズである。

ＰｒｏＭＰは、各デモンストレーションが重みベクトルｗの異なる値によって特徴付けられ、分布Ｐ（ｗ；θ）＝Ｎ（ｗ│μｗ，Σｗ）となることを想定している。次いで、完全な軌道は、Ｐ（ｗ；θ）から引き出された重みｗと共に各ｔにおける基底関数の合成としてモデル化できる。したがって、時間ｔに対する状態Ｐ（ｙ_ｔ；θ）の分布は、次式のように計算できる。

この式からは、各タイムステップｔにおける平均と分散の両方が推定される。

デモンストレーションから学習する場合、例示的な軌道は時間の長さが異なることが多い。ＰｒｏＭＰは、位相変数を導入してデータを時間インスタンスから分離することでこの問題を克服する。これにより、時間変調が可能になる。この場合、デモンストレーションの範囲は、ｚ_０＝０からｚ_Ｔ＝１であり、デモンストレーションされた軌道は、

として再定義される。Ψを形成する基底関数は、位相変数ｚにも依存する。具体的には、ＰｒｏＭＰは、幅ｈ、中心ｃ_ｉでもって、ｂ_ｉ（ｚ_ｔ）＝ｅｘｐ（（－（ｚ_ｔ－ｃ_ｉ）^２）／２ｈ）として定義されるストロークベースの運動のためのガウス基底関数を使用し、これらはしばしば実験的に設計されている。次いで、これらのガウス基底関数は、正規化され、次式となる。

一般的に言えば、ＰｒｏＭＰの学習プロセスは、主に重み分布Ｐ（ｗ；θ）を推定することからなる。そうするために、式（１）のようなｉ番目のデモンストレーションを表す重みベクトルｗ_ｉが最尤推定によって推定される。これは、次式、
ｗ_ｉ＝（Ψ^ＴΨ＋λＩ）^－１Ψ^ＴＹ_ｉ（３）
の形態の線形リッジ回帰の解につながる。ここで

は、観測されたすべての軌道点を連結し、Ψは、基底関数行列Ψ_ｔについてのすべての時間インスタンスからなる。次いで、Ｎ個のデモンストレーションの集合が与えられると、重み分布パラメータθ＝｛μ_ｗ，Σ_ｗ｝が最尤法で推定できる。新しい状況に適合するために、ＰｒｏＭＰは、関連する共分散Σ_ｙ ^＊を用いて所期の軌道点

に到達するように動作を条件付けることにより、通過点または目標位置への軌道変調を可能にする。これは、結果として、条件付き確率

となり、そのパラメータは、以下のように計算できる（ガウス分布を想定）。

軌道分布の積を計算することにより、異なる運動プリミティブは、単一の動作にブレンドすることができる。具体的には、最終動作への影響がブレンディング重みα_ｔ，ｓに従って変化するＳ個の異なるＰｒｏＭＰの集合Ｐ_ｓ（ｙ_ｔ）＝Ｎ（ｙ_ｔ│μ_ｔ，ｓ，Σ_ｔ，ｓ）に対して、各時間ステップｔにおけるブレンドされた軌道は、次の分布

に従う。次いで、

のパラメータは、次のようにガウス分布の加重積から容易に推定される。

タスクパラメータは、例えば、タスクを達成するためにロボット動作を目標対象物に適合させることができる。そのような情報は、デモンストレーション中に得られることが多く、ＰｒｏＭＰの定式化に統合させることができる。形式的には、ＰｒｏＭＰは、外部状態

を考慮し、

から平均重みベクトルμ_ｗへのアフィン写像を学習して以下の結合確率分布となる。

ここで、｛Ｏ，ｏ｝は線形リッジ回帰を使用して学習される。

上述したように、四元数は、ロボット制御に適した特性を備えている。ただし、（ロボット制御に使用される）四元数は、単位ノルム制約を満たすため、ベクトル空間を形成せず、したがって、（単位ノルムを伴う）四元値を有する変数を処理し、分析するための従来のユークリッド空間法の使用は不十分である。

様々な実施形態によれば、リーマン幾何学は、四元数空間上でＰｒｏＭＰを定式化するために活用される。

リーマン多様体Ｍは、各点が局所的にユークリッド空間

に類似し、大域的に定義された微分構造を持つｍ次元の位相空間である。各点ｘ∈Ｍに対して、ｘを通るすべての可能な滑らかな曲線の接ベクトルからなるベクトル空間である接空間Ｔ_ｘＭが存在する。リーマン多様体は、リーマンメトリックと称される滑らかに変化する正定値の内積を備え、これによりＭ内の曲線の長さを定義することができる。これらの曲線は、測地線と称され、Ｍ内の２点間の最小長さの曲線を表すため、ユークリッド空間上の直線をリーマン多様体に一般化したものである。

図２は、それらの点が例えばロボットエンドエフェクタの可能な向きをそれぞれ表すことができる球面多様体Ｓ^２の図を示す。

２つの点ｘおよびｙは、ロボットエンドエフェクタ１０４の２つの異なる方向を表すためにコントローラ１０６によって使用されてもよい球面上に示されている。

周囲空間における２点間の最短距離は直線２０１となるが、多様体上の最短経路は測地線２０２である。

ユークリッド接空間を利用するために、接空間

の間を行き来する写像が使用されてもよく、これらはそれぞれ指数写像および対数写像と表記される。

指数写像

は、ｘから始まり、ｘとｙとの間の測地距離ｄＭが、ｘとｕとの間の距離のノルムに等しくなるようなｕの方向における測地線上に存在するように、ｘの接空間内にある点ｕを多様体上の点ｙに写像する。逆の操作は対数写像

と称される。すなわち、

多様体に関する別の有用な操作として、接空間内の２つの要素間の内積が一定に保たれるように、接空間の間で要素を移動させる平行移動

がある。

例えば、図２では、

は、

から

まで平行移動されたベクトル

および

である（簡略化のため、インデックス

は省略されている）。

以下では、確率変数ｐ∈Ｍのリーマンガウス分布が、次式

ただし、平均μ∈Ｍおよび共分散Σ∈ＴμＭ
として導入される。このリーマンガウスは、リーマン多様体のための近似的な最大エントロピー分布に対応する。

以下は、球面多様体Ｓ^ｍについてのリーマン距離、指数写像、対数写像、および平行移動操作のための式である。

様々な実施形態によれば、線形回帰をリーマン多様体設定に一般化する測地線回帰が使用される（例えばコントローラ１０６）。この測地線回帰モデルは、以下のように定義される。

ここで、ｙ∈Ｍおよび

は、それぞれ出力変数と入力変数、ｐ∈Ｍは、多様体上の基点、ｕ∈Ｔ_ｐＭは、ｐにおける接空間内のベクトル、誤差項εは、

における接空間内の値をとる確率変数である。線形回帰と同様に、（ｐ，ｕ）は、切片ｐおよび傾きｕとして解釈することができる。

ここで、点｛ｙ_１，…，ｙ_Ｔ｝∈Ｍおよび

の集合を考察する。測地線回帰の目的は、すべてのＴ個の対（ｘ_ｉ，ｙ_ｉ）の間の関係を最良にモデル化する測地線曲線γ∈Ｍを見つけ出すことである。これを達成するために、モデル推定値と観測値との間のリーマン距離の２乗和（つまり誤差）が最小化される。すなわち、

ここで、

は、多様体Ｍ上のモデル推定値であり、

は、リーマン誤差であり、対（ｐ，ｕ）∈ＴＭは、接束ＴＭの要素である。測地線モデルの最小二乗推定量は、上記のリーマン距離の二乗和の最小化として定式化できる。すなわち、

しかしながら、式（９）は、式（３）のような解析的な解を与えられない。解は最急降下法によって得ることができるが、これには、リーマン距離関数の導関数と指数写像の導関数とを計算する必要がある。後者は、初期点ｐおよび初期速度ｕに関する導関数に分けられる。これらの勾配は、ヤコビ場（すなわち、リーマン曲率テンソルのもとで特定の初期条件に従う２次方程式の解）の観点から計算することができる。

上記の測地線モデルは、スカラー独立変数

のみを考慮していることに留意されたい。これは、導関数が、単一の接ベクトルｕによってパラメータ化された単一の測地線曲線に沿ったヤコビ場によって取得されることを意味する。ヤコビ場の計算は、いわゆる随伴演算子に依存し、これは、実際には測地線回帰の誤差項の平行移動の役割を果たす。

の多変量ケースへの拡張には、複数の測地線曲線（これはユークリッド空間における「基底」ベクトルとみなすことができる）の識別を伴う若干異なったアプローチが必要である。リーマン多様体上の多変量一般線形モデル（ＭＧＬＭ）は、この問題の解決策を提供する。

ＭＬＧＭは、ｘの次元毎に１つずつ、複数の接ベクトルｕｊ∈ＴｐＭによって形成される測地線基底Ｕ＝［ｕ_１…ｕ_ｎ］を使用する。次いで、問題の式（９）は、

を用いて以下のように再定式化することができる。

式（１０）を解くために、対応する勾配は、随伴演算子が平行移動操作に類似しているという洞察を活用して計算することができる。そのようにして、多変量ケースのための特別な随伴演算子を設計するというハードルを克服することができ、代わりに、平行移動操作が、必要な勾配を近似するために実行されてもよい。この多変量の枠組みは、リーマン多様体Ｍ上にある各デモンストレーションについて、式（３）に類似した重みベクトルを計算するという目的を果たす。

以下では、デモンストレーションデータが四元数軌道に対応する場合、すなわちＭ≡Ｓ^３の場合に、どのようにＭＬＧＭが使用され得るかについて説明する。

人間のデモンストレーションが（運動感覚教授または遠隔操作を介して）直交運動パターンによって特徴付けられる場合、ロボットエンドエフェクタの並進運動と回転運動の両方を包含する学習モデル１１２を有することが必要である。これは、所定のデモンストレーション軌道

が、ここで時間ステップｔにおけるエンドエフェクタの完全な直交姿勢を表すデータポイント

として構成されることを意味する。このケースでの課題は、

におけるユークリッドのケースが古典的なＰｒｏＭＰに従うため、配向空間におけるＰｒｏＭＰの学習である。

最初に

についての等価式が、ＭＧＬＭの枠組みで、式（１）における線形基底関数モデルに類似するように導入される。具体的には、推定値

であり、ここでは以下のとおりである。

この等価性は、ＰｒｏＭＰの古典的な定式化と我々の提案する配向軌道のためのアプローチとの間の類似性を確立するときに有用であることが判明した。式（１）と同様に、τの点ｙ_ｔ∈Ｍは、次のように測地線基底関数モデルとして表現することができる。
Ｐ（ｙ_ｔ│ｗ）＝Ｎ_Ｍ（ｙ_ｔ│Ｅｘｐ_ｐ（Ψ_ｔｗ），Σ_ｙ）（１２）
ここで、ｐは、Ｍ上の固定基点であり、

は、Ｎ_φ個の重みベクトルｗ_ｎ∈Ｔ_ｐＭを連結した大きな重みベクトルであり、Ψｔは、式（１）と同じ時間依存性の基底関数の行列であり、Σ_ｙは、

上の不確実性を符号化した共分散行列である。この定式化に関する２つの特別な態様、詳細には、（ｉ）式（１２）のリーマンガウス分布の平均、つまりＥｘｐ_ｐ（Ψ_ｔｗ）∈Ｍが前述のＭＧＬＭの等価的定式化を活用すること、および（ｉｉ）式（１２）においてｗを形成する重みベクトルが、ＭＧＬＭの測地基底を構成するベクトルに対応することは、とりわけ注目に値する。

すべてのデモンストレーションは、異なる重みベクトルｗによって特徴付けられるため、ここでも分布Ｐ（ｗ；θ）＝Ｎ（ｗ│μ_ｗ，Σ_ｗ）が取得できる。したがって、ｙ_ｔの周辺分布は次のように計算することができる。
Ｐ（ｙ；θ）＝∫Ｎ_Ｍ（ｙ│Ｅｘｐ_ｐ（Ψｗ），Σ_ｙ）Ｎ（ｗ│μ_ｗ，Σ_ｗ）ｄｗ（１３）
ここで、周辺分布は、異なる多様体上にある２つの確率分布に依存する（簡略化のために、ここおよび以下では時間インデックスを省略する）。しかしながら、平均μ_ｙは、単一の固定点ｐ∈Ｍおよびμ_ｗ∈Ｔ_ｐＭに依存する。これらの２つの観測値は、以下のように接空間Ｔ_ｐＭ上の境界（１３）を解くために活用される。

ここで、

は、μ_ｙからｐへの平行移動共分散Σ_ｙである。この周辺分布は、依然として接空間Ｔ_ｐＭ上にあるため、指数写像を使用してＭに逆写像されることに留意されたい。これにより、最終的に周辺分布は次のようになる。

ただし、

上述のように、ＰｒｏＭＰの学習プロセスは、重み分布Ｐ（ｗ；θ）を推定することに集約される。そうするために、各デモンストレーションｉについて、コントローラ１０６は、ＭＧＬＭを使用して、重みベクトル

を推定する。はじめに、先に導入されたｙ_ｔについての等価式が使用され、ここで、

は、基底関数の数である。その上さらに、ｙ_ｔ∈Ｓ^３を用いてデモンストレーションされた四元数軌道

を考察する。次いで、式（３）と同様にユークリッド空間において、重み推定値が、ここでは式（１０）の活用によって取得され、次式となる。

ここで、φ_ｔは、時点ｔにおける基底関数のベクトルであり、Ｗは、推定された接重みベクトル

（すなわち、点ｐ∈Ｍから現れるＮ_φ個の接ベクトル）の集合を含んでいる。

図３は、配向ＰｒｏＭＰの重みの学習に使用した球面多様体Ｓ^２上の多変量一般線形回帰を示している。軌道ｙが与えられれば、接空間Ｔ_ｐＭの原点ｐと、接重みベクトルｗ_ｎとが式（１５）を介して推定される。

式（１５）を解くために、ｐおよび各ｗ_ｎに関するＥ（ｐ，ｗ_ｎ）の勾配が計算される。上記で説明したように、これらの勾配は、いわゆる随伴演算子に依存し、大まかに言えば、各誤差項

を、

を用いて

からＴ_ｐＭにもたらしている。したがって、これらの随伴演算子は、平行移動操作として近似させることができる。これは、式（１５）の誤差関数を次のような再定式化に導く。

次いで、誤差関数Ｅ（ｐ，ｗ_ｎ）の近似勾配は次のように対応する。

上記の勾配を用いることにより、コントローラ１０６は、各デモンストレーションｉについて、Ｎ_φ個のベクトルｗ_ｎによって形成されるベクトルｐ_ｉと重み行列Ｗ_ｉの両方を推定することができる。各デモンストレーションは、各接重みベクトルｗ_ｎ∈Ｔ_ｐＭを推定するために使用される多様体Ｍにおける原点を定義するｐの異なる推定値につながる可能性があることに留意されたい。これにより、デモンストレーション全体にわたって異なる接空間が生成される可能性があり、したがって、非常に多様な接重みベクトルが生成される可能性がある。この問題を克服する有効な手法は、すべてのデモンストレーションが同じ接空間の原点ｐを共有していることを想定することであり、これは、測地線基底関数モデル（式（１２））を定義するときに行われたのと同じ想定である。したがって、様々な実施形態によれば、コントローラ１０６は、単一のデモンストレーションについてｐを推定し、それを使用して、デモンストレーションの集合全体についてすべての接重みベクトルを推定する。次いで、Ｎ個のデモンストレーションの集合が与えられると、重み分布パラメータθ＝｛μ_ｗ，Σ_ｗ｝は、

として標準最尤法によって推定することができる。

Ｎ個のデモンストレーションの集合が提供された（例えば、ロボットアーム１０１を手で動かすことによってユーザから提供された）後にコントローラ１０６が実行することができる、配向ＰｒｏＭＰによるロボット制御モデル１１２の学習アルゴリズムの一例は、以下のとおりである。

古典的なＰｒｏＭＰと同様に、コントローラ１０６は、関連する共分散

を有する所期の軌道点

に到達するように動作を調整することによって、軌道変調（すなわち新たな状況に適合するための、すなわち制御シナリオ）を実行することができる。この結果、式（１３）と同様に、異なる多様体上にある２つの確率分布に依存する条件付き確率

が得られる。ここで再び、平均μ_ｙは、単一で固定されたｐ∈Ｍに依存し、それが重み分布の存在する接空間Ｔ_ｐＭの基底であるということが活用される。これにより、条件付き分布は次のように書き換えることができる。

ここで、

は、結果としての条件付き分布について推定するためのパラメータである。ここで両分布は、ユークリッド空間に埋め込まれたＴ_ｐＭ上に存在するため、新しい分布パラメータは、共分散行列の平行移動に特別な注意を払いながら古典的なＰｒｏＭＰ条件付け手順と同様に推定することができる。次いで、新たな重み分布パラメータは、以下のとおりである。

結果としての新たな重み分布からは、新たな周辺分布Ｐ（ｙ；θ^＊）がここでは式（１４）を介して得られる可能性もある。

ブレンディングに関して、古典的なＰｒｏＭＰは、ガウス分布の積を使用することによって、運動プリミティブの集合をブレンドする。Ｍにおいてプリミティブをブレンドする場合、各軌道分布は、異なる接空間ＴｐＭ上にある重みベクトルの集合によってパラメータ化されることを考慮する必要がある。したがって、ガウス分布の加重積を再定式化する必要がある。そうするために、様々な実施形態によれば、リーマン多様体上のガウス積の定式化が使用され、ここで、積の対数尤度は、勾配ベースのアプローチを使用して繰り返し最大化される。

形式的には、リーマンガウス分布の積の対数尤度は、以下のように与えられる（定数項は除外する）。

ここで、μ_ｙ，ｓおよびΣ_ｙ，ｓは、スキルｓのための周辺分布Ｐ_ｓ（ｙ；θ）のパラメータである。なお、式（２０）における対数写像は、異なる接空間

に作用することに留意されたい。対数尤度の最大化を実行するために、元の対数尤度関数が変更されないようにしながら、写像の基数と引数とが入れ替えられる。そうするために、Ｌｏｇ_ｘ（ｙ）＝－Ｌｏｇ_ｙ（ｘ）の関係性ならびに平行移動操作をこの問題の克服のために活用することができ、次式となる。

ここで、μ^＋は、結果としての（推定される）ガウスの平均であり、

である。式（２１）は、ベクトル

とブロック対角行列

とを定義することによって書き直すことができる。この結果、Ｊは、リーマン多様体Ｍ上のガウス分布の経験的平均ｖを計算するために使用される目的関数の形態を有し、

そこからは、次のように平均を繰り返し計算することが可能である。

ここで、Ｊは、ｖ_ｋにおけるＭの接空間の基底に関するε（ｖ）のヤコビアンである。コントローラ１０６は、ここでは平均μ^＋の同様の反復推定を以下に示すように実行することができる。

ただし、

である。反復Ｋで収束した後、コントローラ１０６は、分布Ｐ（ｙ^＋）＝Ｎ_Ｍ（ｙ^＋│μ^＋，Σ^＋）の最終パラメータを以下に示すように取得する。

上記で説明したように、古典的なＰｒｏＭＰでは、重み分布Ｐ（ｗ；θ）＝Ｎ（ｗ│μ_ｗ，Σ_ｗ）を外部タスクパラメータ

の関数として適合させることができ、ここでは、各デモンストレーションについて

の値にアクセスできると想定される。タスクパラメータ化は、重みベクトル

として配向ＰｒｏＭＰにも同様に適用され、したがって、式（６）は、タスクパラメータ

がユークリッドである限り直接適用することができる。ただし、

がリーマン多様体に属する場合は、より一般的なアプローチが必要となる。

タスクパラメータ

を保持する場合、コントローラ１０６は、リーマン多様体上のガウス混合モデルを使用して結合確率分布

を学習することができる。その後、コントローラ１０６は、新たなタスクパラメータ

が提供された場合、再生中に

を計算するためにガウス混合回帰を採用することができる。

配向ＰｒｏＭＰにおけるモデル学習、軌道再生、通過点適合、およびスキルブレンディング作業のやり方をより良好に説明するために、手書き文字のデータセットが使用された。元の軌道は、

において生成され、その後の単位ノルムベクトルへの単純な写像によってＳ^２へ投影された。データセット中の各文字は、Ｎ＝８回デモンストレーションされ、主に可視化の目的で、簡単な平滑化フィルタが各軌道に適用された。４つのＰｒｏＭＰモデルがトレーニングされ、１つは｛Ｇ，Ｉ，Ｊ，Ｓ｝のセットの各文字用である。ＩおよびＪについてトレーニングされたモデルには、均一に分布した中心を有するＮ_φ＝３０個の基底関数が使用され、文字ＧおよびＳについては、Ｎ_φ＝６０個の基底関数が使用された。配向ＰｒｏＭＰモデルは、上記で与えられたアルゴリズムに従って、初期学習率α＝０．００５、対応する上限値α_ｍａｘ＝０．０３でトレーニングされた。

図４は、文字ＧおよびＳに対してトレーニングされたモデルに対応する、デモンストレーションデータ、式（１３）を介して計算された周辺分布Ｐ（ｙ；θ）、ならびに式（１８）および（１９）から得られた通過点適合を示している。周辺分布の平均は、デモンストレーションパターンに従い、対応する共分散プロファイルは、Ｓ^２におけるデモンストレーションの変動性を捕捉する。文字ＧおよびＳの軌道は、現実的なロボット設定において観察されるものよりもさらに複雑となる可能性のある非常に精巧な「動作」パターンを示しており、その複雑さには注目の価値がある。通過点適合に関しては、共分散

が関連付けられたランダム点ｙ^＊∈Ｓ^２が使用された（すなわち、ｙ^＊を通過する際に高精度が要求された）。

図４に示すように、配向ＰｒｏＭＰは、所与の通過点を正確に通過しながら、軌道と関連する共分散プロファイルとの両方をスムーズに適合させることができる。

図５は、｛Ｇ，Ｉ｝および｛Ｓ，Ｊ｝に対する配向ＰｒｏＭＰのブレンディングプロセスを示す。

目標は、集合の中の第１の文字のプロファイルを追従することによって始まり、次いで、第２の文字の軌道分布が途中で滑らかに切り替わる軌道を生成することであった。図５には、前述の２つのケースに対する結果としてのブレンドされた軌道が示されており、ここで、配向ＰｒｏＭＰは、所与の２つの軌道分布を上述したように導入された配向ＰｒｏＭＰのためのブレンディング手順を追従することによって滑らかにブレンドしている。ブレンディング挙動は、各スキルｓに関連付けられた重みα_ｓ∈［０，１］の一時的な発生に強く依存することに留意されたい。この一連の実験では、

である間、重み

および

に対してシグモイド状の関数が使用された。前述の結果は、配向ＰｒｏＭＰが、Ｓ^２上の軌道分布を正常に学習および再現し、完全な通過点適合およびブレンディング能力を提供することを示している。

実験によれば、これは、例えば、以前に掴んだ物体を持ち上げ、エンドエフェクタ１０４を回転させ、当該物体をその元の場所に戻すが、向きは変えて配置することに相当するような再配向スキルのためのロボット設定においても同様に成り立つことを示している。このロボットスキルは、大きな位置および向きの変更を特徴とし、したがって、配向ＰｒｏＭＰの機能性を披露するのに適している。

再配向スキルのようなロボットスキルをトレーニングするために、各デモンストレーションは、例えば、フルポーズのロボットエンドエフェクタの軌道

を与える。ここで、

は、タイムステップｔにおけるエンドエフェクタの姿勢を表す。このように、各デモンストレーションは、位置軌道（各々が

の要素によって記述される位置の時系列を含む）および配向軌道（各々がＳ^３の要素によって記述される向きの時系列を含む）をデモンストレーションする。これらの軌道からの生データは、位置に対するサブモデルと向きに対するサブモデルとを含んだ

のＰｒｏＭＰモデル１１２をトレーニングするために使用されてもよく、ここでの、位置モデルは、古典的なＰｒｏＭＰアプローチを使用して学習され、向きモデルは、配向ＰｒｏＭＰアプローチ（例えば上述のアルゴリズム）を使用して学習される。これらのサブモデルの両方については、同じ（例えばＮ_φ＝４０個の）基底関数の集合が使用されてもよいが、異なる成分について（位置サブモデルにおける各位置成分および向きサブモデルにおける各向き成分について）使用されてもよい。

要約すると、様々な実施形態に従って、本方法は、図６に示されるように提供される。

図６は、ロボットデバイスを制御するための方法を示すフローチャート６００を示す。

ステップ６０１では、デモンストレーションがロボットスキルのために提供され、ここで、各デモンストレーションは、ロボット構成のシーケンスを含む軌道をデモンストレーションし、ここで、各ロボット構成は、リーマン多様体の構造を有する予め定められた構成空間の要素によって記述される。

ステップ６０２では、各デモンストレーションされた軌道について、ロボットデバイスの予め定められた基本運動の重みベクトルとしての軌道の表現が、重みベクトルに従った基本運動の組み合わせと、デモンストレーションされた軌道との間の距離測定値を最小化する重みベクトルを検索することによって決定され、ここで、組み合わせは、多様体に写像される。

ステップ６０３では、重みベクトルの確率分布が、デモンストレーションされた軌道について決定された重みベクトルに確率分布を適合させることによって決定される。

ステップ６０４では、ロボットデバイスが、重みベクトルの決定された確率分布に従って基本運動を実行することによって制御される。

これは、（式（１）に従って）重みベクトルの確率分布からサンプリングし、サンプルベクトルに従って基本運動を実行することを含むことができる。また、（式（１４）に従って）軌道の確率分布を導出することも可能であり、そのうちの１つを制御のためにサンプリングすることができ、それらは上記説明のような軌道の混合などの高度な制御に使用されてもよい。

図６の方法は、１つ以上のデータ処理ユニットを含む１つ以上のコンピュータによって実行されてもよい。用語「データ処理ユニット」は、データまたは信号の処理を可能にする任意のタイプの項目として理解することができる。例えば、データまたは信号は、データ処理ユニットによって実行される少なくとも１つの（すなわち１つ以上の）特定の機能に従って処理されてもよい。データ処理ユニットは、アナログ回路、デジタル回路、コンポジット信号回路、ロジック回路、マイクロプロセッサ、マイクロコントローラ、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、プログラマブルゲートアレイ（ＦＰＧＡ）集積回路、またはそれらの任意の組み合わせを含むことができ、あるいはそれらから形成されてもよい。それぞれの機能を実装する任意の他の手法は、データ処理ユニットまたは論理回路として理解されてもよい。本明細書に詳細に記載される方法ステップのうちの１つ以上は、データ処理ユニットによって実行される１つ以上の特定の機能を通して、データ処理ユニットによって実行（例えば、実装）されてもよいことが理解されるであろう。

様々な実施形態は、例えば、デモンストレーションのデータを取得するために、ビデオ、レーダ、ＬｉＤＡＲ、超音波、サーマルイメージング、ソナーなどのような、様々な視覚センサ（カメラ）から画像データを受信し、使用することができる。

図６のアプローチは、例えば、ロボット、車両、家電製品、電動工具、製造機械、パーソナルアシスタント、またはアクセス制御システムなどのコンピュータ制御された機械のような物理システムを制御するための制御信号を計算するために使用することができる。様々な実施形態によれば、物理システムを制御するためのポリシーが学習され、次いで、この物理システムがそれに応じて操作されてもよい。

一実施形態によれば、この方法はコンピュータに実装される。

本明細書では、特定の実施形態が示され説明されてきたが、当業者であるならば、図示され説明されてきたこれらの特定の実施形態を、本発明の保護範囲から逸脱することなく様々な代替的および／または等価的な実装形態に入れ替えてもよいことは明らかであろう。本出願では、本明細書で論じられる特定の実施形態の何らかの適合化または変化形態をカバーすることが意図されている。それゆえ、本発明は、本出願の特許請求の範囲および等価物によってのみ限定されることが意図される。

Claims

ロボットデバイスを制御するための方法であって、該方法は、
ロボットスキルのためのデモンストレーションを提供するステップであって、各デモンストレーションは、ロボット構成のシーケンスを含む軌道をデモンストレーションし、各ロボット構成は、リーマン多様体の構造を有する予め定められた構成空間の要素によって記述されるステップと、
各デモンストレーションされた軌道について、重みベクトルに従った基本運動の組み合わせと、デモンストレーションされた軌道との間の距離測定値を最小化する重みベクトルを検索することによって、前記ロボットデバイスの予め定められた基本運動の重みベクトルとしての軌道の表現を決定するステップであって、前記組み合わせは、前記多様体に写像されるステップと、
前記デモンストレーションされた軌道について決定された重みベクトルに確率分布を適合させることによって重みベクトルの確率分布を決定するステップと、
前記重みベクトルの決定された確率分布に従って基本運動を実行することによって前記ロボットデバイスを制御するステップと、を含む、方法。
前記重みベクトルの確率分布は、前記デモンストレーションされた軌道について決定された重みベクトルにガウス分布を適合させることによって決定される、請求項１記載の方法。
前記各デモンストレーションされた軌道は、時点の予め定められたシーケンスの各時点に対するロボット構成を含み、重みベクトルに従った基本運動の各組み合わせは、前記時点の予め定められたシーケンスの各時点に対するロボット構成を指定し、前記各デモンストレーションされた軌道について、前記重みベクトルは、可能な重みベクトルの集合から、前記重みベクトルに従った基本運動の組み合わせと、前記デモンストレーションされた軌道とについての重みベクトルを決定することによって決定され、前記組み合わせは、多様体に写像され、前記可能な重みベクトルの集合の中で最小であり、前記多様体に写像された基本運動の組み合わせと、前記デモンストレーションされた軌道との間の距離は、前記時点のシーケンスの時点にわたって、前記多様体に写像されたときの時点における基本運動の組み合わせによって与えられる前記多様体の要素と、前記デモンストレーションされた軌道との間の前記多様体のメトリックの値または値のべき乗を含む各時点についての項を含んだ項にわたる合計によって与えられる、請求項１または２記載の方法。
前記方法は、前記デモンストレーションされた軌道の１つについて、前記重みベクトルに従った基本運動の組み合わせと、前記デモンストレーションされた軌道との間の距離測定値が最小化されるような、多様体の点および重みベクトルを検索するステップを含み、前記組み合わせは、点における接空間から前記多様体に写像され、前記各デモンストレーションされた軌道について、前記多様体への前記各組み合わせの写像は、選択された点における接空間から前記組み合わせを写像することによって実行される、請求項１から３までのいずれか１項記載の方法。
前記軌道は、配向軌道であり、前記各デモンストレーションは、位置軌道をさらにデモンストレーションし、前記各ロボット構成は、三次元空間におけるベクトルによって記述される姿勢と、予め定められた構成空間の要素によって記述される向きとを含む、請求項１から４までのいずれか１項記載の方法。
前記方法は、より多くのロボットスキルのデモンストレーションを提供するステップと、各スキルについて、軌道の表現と重みベクトルと重みベクトルの確率分布とを決定するステップと、前記各スキルについて、前記重みベクトルの確率分布から、多様体点のリーマンガウス分布を決定することによって、前記ロボットデバイスを制御するステップと、前記スキルのリーマンガウス分布の積分布を決定するステップと、決定された積確率分布からサンプリングすることによって前記ロボットデバイスを制御するステップと、を含む、請求項１から５までのいずれか１項記載の方法。
ロボットデバイスコントローラであって、請求項１から６までのいずれか１項記載の方法を実行するように構成されている、ロボットデバイスコントローラ。
コンピュータプログラムであって、命令がプロセッサによって実行されるときに、前記プロセッサに請求項１から６までのいずれか１項記載の方法を実行させる命令を含んでいる、コンピュータプログラム。
コンピュータ可読媒体であって、命令がプロセッサによって実行されるときに、前記プロセッサに請求項１から６までのいずれか１項記載の方法を実行させる命令が格納されている、コンピュータ可読媒体。