JP2022543926A

JP2022543926A - ロボットシステムのためのデリバティブフリーモデル学習のシステムおよび設計

Info

Publication number: JP2022543926A
Application number: JP2022533021A
Authority: JP
Inventors: ロメレス，ディエゴ; ダラ・リベラ，アルベルト; ジャー，デベシュ; ニコフスキ，ダニエル・ニコラエフ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-09-30
Filing date: 2020-07-29
Publication date: 2022-10-14
Also published as: US11389957B2; CN114450131A; WO2021065197A1; EP3856468A1; US20210094174A1

Abstract

操作システムを制御するためのマニピュレータ学習制御装置は、操作システムのマニピュレータ状態信号と、作業空間において操作システムが操作する物体に関する物体状態信号とを受信するように構成されたインターフェイスを含み、物体状態信号は少なくとも１つの物体検出器によって検出され、さらに、初期および更新されたポリシープログラムを操作システムに送信するように構成された出力インターフェイスと、コンピュータで実行可能なプログラムを格納するためのメモリとを含み、このプログラムは、データ前処理プログラム、物体状態履歴データ、マニピュレータ状態履歴データ、デリバティブフリーセミパラメトリックガウス過程（ＤＦ－ＳＰＧＰ）カーネル学習プログラム、デリバティブフリーセミパラメトリックガウス過程（ＤＦ－ＳＰＧＰ）モデル学習プログラム、更新ポリシープログラム、および初期ポリシープログラムを含み、さらに、メモリに関連してプロセッサを含み、プロセッサは、予め設定された期間中に物体を操作するマニピュレータシステムを動作させる学習プロセスを開始するために初期ポリシープログラムを操作システムに送信するように構成されている。

Description

本発明は、概してデリバティブフリー（derivative-free）モデル学習技術のシステムおよび設計に関し、より具体的にはロボットマニピュレータシステムのためのデリバティブフリーモデル学習技術のシステムおよび設計に関する。

深層学習、転移学習および強化学習を含む機械学習技術のニューウェーブは、ロボットおよびパーソナルアシスタントのようなインテリジェントシステムが、知識を獲得し、低速でオーダーメイドで高コストの人間によるプログラミングなしで、難しい問題を実例または命令から学習することによって解決することを、可能にする。

モデルを学習してロボットシステムを制御することの難しさは、ロボットシステムの運動が剛体力学（ＲＢＤ：Rigid Body Dynamics）と呼ばれる極めて複雑な物理法則に支配されること、および、通常はこれらの物理法則をそのまま表現したものしか知られていないことにある。加えて、これらの法則を計算するのに必要な、ロボットの各構成要素の位置、速度、および加速度のような物理量の測定値は、その一部しか入手できないことが多い。実際、ロボットシステムに搭載されたセンサが測定するのは、通常は位置成分のみであり（たとえば、エンコーダ、ポテンショメータ、近接センサ...）、速度および加速度は測定されない。速度および加速度を測定するセンサは存在するが（たとえば、タコメータ、レーザ表面速度計、圧電センサ、慣性計測装置（ＩＭＵ：Inertial Measurement Unit）、および加速度計センサ）、これらは構造上の制約および場合によっては高コストが原因で、ロボットシステムに組み込まれないことが多い。実際、大多数の産業用ロボットマニピュレータにはこれらのセンサがないが、新世代のリサーチロボットのうちの一部は、加速度を測定する何らかのセンサ、たとえばＩＭＵを有し、典型的には速度を測定するためのセンサを備えていない。加えて、タスクが特定の物体の操作を必要とする場合、この物体にはセンサがないことが多く、空間上におけるこの物体の位置を測定するためには、外部センサ、たとえばカメラまたはエンコーダを追加することしかできない。

したがって、外界の意味表現を、利用できる測定値に基づいて学習するため、および、新たなロボットタスクにおいてより適切な意思決定を行うためにこれらの測定値を再利用するための、進化したＡＩ技術を開発することが望ましい。これらの表現を用いることにより、ロボットシステムの動きを学習し予測することを可能にする機械学習技術に基づいたフレームワークを実現することができる。

強化学習（ＲＬ：Reinforcement Learning）は近年目覚ましい成長を遂げている。ＲＬアルゴリズムは、いくつかのベンチマーク問題において人間レベルの性能に達しそれを超えることができた。しかしながら、ＲＬを実際の物理システム（たとえばロボットシステム）に応用することは今もなお困難である、というのも、大量の経験が必要でありランダムな探究は安全性のリスクを伴うからである。

一般的に、物理システムの展開を正確に説明することは、非常に難しいことであり、今もなお活発な研究分野である、というのも、物理学の第一原理からモデルを導き出すことは、ある程度非常に複雑であり、パラメータの不確定性およびモデル化されていない非線形効果が原因でバイアスを導入する可能性もある。

一方、データのみからモデルを学習することは、法外なコストを要する可能性があり、通常は一般化が不十分であるという欠陥がある。ガウス過程回帰（ＧＰＲ：Gaussian Process Regression）に基づくモデルは、モデルベースのＲＬ（ＭＢＲＬ：Model-Based RL）技術におけるモデル学習タスクのためのモデルとして、大きな注目を集めている。実際、ＧＰＲは、過去の物理情報を、データ駆動型知識と、すなわちデータ間の類似性の分析から推測された情報と合体させることを可能にし、結果としていわゆるセミパラメトリックモデルとなる。

物理法則は、機械システムの状態はその一般化された座標の位置、速度、および加速度で説明できることを示唆している。しかしながら、速度および加速度センサは、特に低コストのセットアップを考慮した場合、利用できないことが多い。たとえば、これらのセンサは、最新技術として現在販売されているロボットアームマニピュレータのほとんどで利用することができない。このような場合、速度および加速度は、通常、実際の信号と推定された信号との差を導入する位置測定の因果的な数値微分を用いて推定される。これらの信号の歪みは、追加の未知の入力ノイズとみなされ得るものであり、学習アルゴリズムの予測精度を大幅に低下させる可能性がある。

本発明のいくつかの実施形態は、速度および加速度の測定値を必要としないモデルベースのＲＬアルゴリズムのための学習フレームワークを提供する。システム状態を、位置、速度、および加速度の集合で表す代わりに、位置測定値の有限の過去履歴として状態を定義することにより、モデルのデリバティブフリー状態表現を表し、位置の導関数はそこに含まれていない。デリバティブフリーＧＰＲモデルは既に、デリバティブフリーノンパラメトリックカーネルに導入されている。

本発明のいくつかの実施形態は、デリバティブフリーＧＰＲモデルを、物理的にインスパイアされたデリバティブフリー（ＰＩＤＦ：physically inspired derivative-free）モデルに拡張することで、より適切な一般化特性を提供し、セミパラメトリックデリバティブフリー（ＳＰＤＦ：semi-parametric derivative-free）モデルの設計を可能にすることができる、という認識に基づいている。

したがって、いくつかの実施形態は、以下の操作システムを制御するためのマニピュレータ学習制御装置を提供することができるという認識に基づいており、このマニピュレータ学習制御装置は、操作システムのマニピュレータ状態信号と、作業空間において操作システムが操作する物体に関する物体状態信号とを受信するように構成されたインターフェイスを備え、物体状態信号は、少なくとも１つの物体検出器によって検出され、マニピュレータ学習制御装置はさらに、初期ポリシープログラムおよび更新されたポリシープログラムを操作システムに送信するように構成された出力インターフェイスと、コンピュータで実行可能なプログラムを格納するためのメモリとを備え、プログラムは、データ前処理プログラム、物体状態履歴データ、マニピュレータ状態履歴データ、デリバティブフリーセミパラメトリックガウス過程（ＤＦ－ＳＰＧＰ：Derivative-Free Semi-parametric Gaussian Process）カーネル学習プログラム、デリバティブフリーセミパラメトリックガウス過程（ＤＦ－ＳＰＧＰ）モデル学習プログラム、更新ポリシープログラム、および初期ポリシープログラムを含み、マニピュレータ学習制御装置はさらに、メモリに関連してプロセッサを備え、プロセッサは、予め設定された期間中に物体を操作するマニピュレータシステムを動作させる学習プロセスを開始するために、初期ポリシープログラムを操作システムに送信するように構成され、その後、プロセッサは、予め設定された期間において受信したマニピュレータ状態信号および物体状態信号のセットから、データ前処理プログラムを用いて変換された、物体状態履歴データおよびマニピュレータ状態履歴データに従って、ＤＦ－ＳＰＧＰモデル学習プログラムを更新し、プロセッサは、更新したＤＦ－ＳＰＧＰモデル学習プログラムに従って更新ポリシープログラムを更新する。

さらに、本発明の別の実施形態は、コンピュータにより実現されるマニピュレータ学習方法が以下のステップを含むという認識に基づいており、上記ステップは、予め設定された期間の間、初期ポリシープログラムに従って操作システムを動作させるステップを含み、初期ポリシープログラムは、物体を操作するためにマニピュレータシステムを動作させる学習プロセスを開始させ、さらに、予め設定された期間の間、マニピュレータ状態信号と物体状態信号とを受信するステップと、予め設定された期間において受信したマニピュレータ状態信号および物体状態信号のセットから変換された物体状態履歴データおよびマニピュレータ状態履歴データに従って、ＤＦ－ＳＰＧＰモデル学習プログラムを更新するステップと、更新したＤＦ－ＳＰＧＰモデル学習プログラムに従って更新ポリシープログラムを更新するステップとを含む。

本発明の一層の理解を得るために含まれている添付の図面は、本発明の実施形態を示しており、明細書と合わせて本発明の原理を説明する役割を果たす。

本発明の実施形態に係る、ロボットシステムに接続されたデリバティブフリーモデル学習システムを含むマニピュレータ学習制御装置を示す概略図である。本発明の実施形態に係る、デリバティブフリーモデル学習プロセスを説明するためのフローチャートを示す図である。本発明の実施形態に係る、マニピュレータ学習制御装置に配置されたデリバティブフリーモデル学習システムを示す概略図である。本発明の実施形態に係る、ボールアンドビーム実験用セットアップの一例を示す図である。いくつかの標準的な物理的にインスパイアされた推定器および本発明のいくつかの実施形態に従って得られた推定器ｆＰＩ_ＤＦを用いて取得された正規化された平均二乗平方根誤差（ｎＲＭＳＥ）の比較を示す図である。本発明のいくつかの実施形態に係る、実際のシステムとデリバティブフリーＳＰＧＰモデルとの双方に対するｉＬＯＧポリシーでボールアンドビームシステムを制御しているときのボールの位置の展開の比較を示す図である。本発明のいくつかの実施形態に係る、デリバティブフリーＳＰＧＰモデル学習プログラムおよびデリバティブフリーＰＩＧＰモデル学習プログラムを使用する更新されたｉＬＯＧポリシーで得られた制御アクション間の違いを示す図である。本発明の実施形態に係る、ＦＰならびにさまざまなシステムパラメータおよび状態変数の概略図を示す。本発明のいくつかの実施形態に係る、ロボットの手首関節に保持されるフルタの振子のセットアップの一例を示す図である。

正弦波の合計で構成される初期ポリシーに記録されたテストデータについて得られるｎＲＭＳＥについて、本発明のいくつかの実施形態で得られたものを含む異なるモデル学習プログラムの性能の比較を示す図である。三角波で構成される初期ポリシーに記録されたテストデータについて得られるｎＲＭＳＥについて、本発明のいくつかの実施形態で得られたものを含む異なるモデル学習プログラムの性能の比較を示す図である。ＲＭＳＥ^ｋおよびロールアウトにおけるその相対信頼区間について、本発明のいくつかの実施形態で得られたものを含むロールアウトのいくつかのモデル学習プログラムを比較したものを示す図である。本発明の実施形態に係る、フルタの振子のスイングアップ制御に対するｉＬＯＧ軌道の性能を示す図である。本発明の実施形態に係る、フルタの振子のスイングアップ制御に対するｉＬＯＧ軌道の性能を示す図である。

実施形態の説明
図面および詳細な説明を通して、特に明記しない限り、図面の同一の参照番号は同一または同様の要素、特徴、および構造を示すものと理解される。これらの要素の相対的なサイズおよび描写は、明確化、説明、および便宜のために、誇張される場合がある。

以下、本発明の各種実施形態を図面を参照しながら説明する。なお、図面は正確な縮尺で描かれている訳ではなく、同様の構造または機能の要素は図面全体を通して同様の参照番号で示されている。また、図面は、本発明の特定の実施形態の説明を容易にすることのみを意図していることにも注意されたい。これらは、本発明を網羅的に説明すること、または本発明の範囲を限定することを意図している訳ではない。加えて、本発明の具体的な実施形態に関連して説明する局面は、かならずしもその実施形態に限定される訳ではなく、本発明のその他の実施形態のいずれにおいても実施することが可能である。

本発明のいくつかの実施形態に従うと、利用できる物理的知識を、実際の物理法則の記述に適合可能なフレキシブルなデータ駆動型機械学習方法に変換することで、より高い予測精度を提供できる、という利点がある。本発明のある実施形態は、ロボットシステムの各構成要素の位置の測定値のみを必要とし速度および加速度の測定値は必要としないので、モデル学習システムを一層簡略化することができ、十分な量の計算負荷および消費電力を減じることができる。

図１Ａは、本発明の実施形態に係る、ロボットシステムに接続されたデリバティブフリーモデル学習システムを含むマニピュレータ学習制御装置を示す概略図である。構成要素１０、５０、１７６およびワークテーブル１１は、本発明の実施形態を適用することが所望される用途の一例を示している。

操作システムを制御するためのマニピュレータ学習制御装置１００は、操作システム１０に固有のマニピュレータコントローラ５０を使用する初期のおよび更新されたポリシープログラムを、インターフェイス１５０を介し、操作システム１０に送信してもよく、少なくとも１つのマニピュレータ状態検出器、たとえば位置エンコーダ１７７が検出した操作システムのマニピュレータ状態信号と、作業空間において操作システム１０が操作すべき物体１７６の物体状態信号とを受信してもよく、物体状態信号は、少なくとも１つの物体検出器、たとえばカメラ１７５によって検出される。これらの構成要素１０、５０、１７６、１７５、１７７は、ここでは一例として示されているが、本発明の実施形態は各種用途に対応できるので、各種用途に応じて異なり得る。

学習（訓練）プロセスの最初に、ロボットを予め定められた期間動かすための初期ポリシー１３７が、インターフェイス１５０を用いて操作システム１０に送信される。この初期ポリシーは、たとえば正弦波信号、正弦波の合計またはランダム信号であってもよい、任意の信号である。上記予め定められた期間中に収集されるデータは、１７５が検出した物体の状態および１７７が検出した操作システムの状態であり、入出力インターフェイス１５０はこれらをデータ処理プログラム１３１に送信する。１３１において、これらのデータは、何らかの処理を受け、その後、マニピュレータ状態履歴１３２および物体状態履歴１３３としてメモリに格納され、各時間ステップにおけるこれらの量は、それぞれ、マニピュレータのおよび物体の過去の位置の有限履歴を含む。デリバティブフリーＳＰＧＰ（ＤＦ－ＳＰＧＰ）モデル学習プログラム１３４は、入力として、マニピュレータ状態履歴１３２と、物体状態履歴１３３と、初期ポリシーの制御信号とを取る。ＤＦ－ＳＰＧＰモデル学習プログラム１３４を実行する際、デリバティブフリーＳＰＧＰ（ＤＦ－ＳＰＧＰ）カーネル学習プログラム（図示せず）およびデリバティブフリーＳＰＧＰモデル学習プログラムが訓練される。１３４で得られたデリバティブフリーＳＰＧＰモデルは、物体１７６についてマニピュレータが計算しなければならないタスクのタスク仕様１３６とともに、１３５の更新されたポリシーを計算するために使用される。１３５におけるポリシーは、反復線形２次ガウス（ｉＬＯＧ：Iterative Linear Quadratic Gaussian）であるが、任意の軌道最適化技術モデルベースのものに置き換えることが可能である。更新されたポリシーが１３５で学習されると、これを、入出力インターフェイス１５０およびマニピュレータコントローラ５０を介してマニピュレータに送信することができる。次に操作システム１０は物体１７６に対してタスクを実行する。

図１Ｂは、本発明の実施形態に係る、マニピュレータ学習制御装置を説明するためのフローチャートを示す。本発明の実施形態は、順に、Ｓ１において、初期ポリシー１３７を定義して操作システムを予め定められた期間活動状態にし、学習プロセスを開始することで構成される。次に、Ｓ２において初期ポリシーをインターフェイス１５０を用いて操作システムに送信し、インターフェイス１５０は制御信号をマニピュレータコントローラ５０に送信し、マニピュレータコントローラ５０は、Ｓ３において初期ポリシーに従い操作システム１０を動かす。操作システム１０は、予め定められた期間物体１７６を操作し、Ｓ４において、マニピュレータ状態信号および物体状態信号を、マニピュレータ状態検出器１７７および物体状態検出器１７５が収集し、インターフェイス１５０を用いてマニピュレータ学習制御装置に送信する。インターフェイス１５０は、収集されたデータと初期ポリシーとをデータ前処理プログラムに送信し、Ｓ５においてこのデータを処理し、マニピュレータ状態履歴１３２および物体状態履歴１３３としてメモリに格納する。Ｓ６において、デリバティブフリーＳＰＧＰモデル学習プログラム１３４を、これらのデータを用いて訓練する。その後、Ｓ７において、操作される物体１７６について操作システムが計算しなければならないタスク１３６を定義し、デリバティブフリーＳＰＧＰモデル学習プログラムとともに使用し、Ｓ８においてｉＬＯＧ１３５を用いてポリシーを更新する。次に、Ｓ９において、更新したポリシーを、マニピュレータコントローラ５０に接続されたインターフェイス１５０を用いて操作システム１０に送信する。そうすると、Ｓ１０において、操作システム１０は、デリバティブフリーＳＰＧＰモデル学習プログラム１３４を用いて取得した更新後のポリシー１３５に従い、物体１７６を操作するタスクを実行することができる。

図１Ｃは、本発明の実施形態に係る、マニピュレータ学習制御装置に配置されたデリバティブフリーモデル学習システムを示す概略図である。

本発明の実施形態に従うと、操作システムを制御するためのマニピュレータ学習制御装置１００は、インターフェイス１５０を含み得るものであり、インターフェイス１５０は、初期および更新されたポリシープログラムを操作システム１０に送信し、操作システム１０のマニピュレータ状態信号と、操作システム１０がワークテーブル１１上で操作する物体に関する物体状態信号とを受信するように構成されており、物体状態信号は、少なくとも１つの物体検出器によって検出され、マニピュレータ学習制御装置１００はさらにメモリ１４０を含み、メモリ１４０は、データ前処理プログラム１３１、物体状態履歴データ１３３、マニピュレータ状態履歴データ１３２、デリバティブフリーセミパラメトリックガウス過程（ＤＦ－ＳＰＧＰ）モデル学習プログラム１３４、更新ポリシープログラム１３５、初期ポリシープログラム１３７、マニピュレータ状態履歴１３２、および物体状態履歴１３３を含む、コンピュータで実行可能なプログラムをストレージ１３０に格納するように構成されており、マニピュレータ学習制御装置１００はさらに、メモリに関連してプロセッサ１２０（または２つ以上のプロセッサ）を含む。プロセッサ１２０は、予め設定された期間の間物体を操作するマニピュレータシステムを動作させる学習プロセスを開始するために、初期ポリシープログラム１３７をネットワーク１９０を介して操作システム１９５に送信するように構成されている。この場合、プロセッサ１２０は、予め設定された期間において受信したマニピュレータ状態信号および物体状態信号のセットから、データ前処理プログラム１３１を用いて変換された、物体状態履歴データおよびマニピュレータ状態履歴データに従って、ＤＦ－ＳＰＧＰモデル学習プログラム１３４を更新し、プロセッサは、更新したＤＦ－ＳＰＧＰモデル学習プログラム１３４に従って更新ポリシープログラム１３５を更新する。

ロボットシステムのためのデリバティブフリーモデル学習の例としてのＳＰＤＦモデルを、システムの２つの例、すなわちボールアンドビームプラットフォームおよびフルタの振子に適用し、デリバティブフリー学習フレームワーク（セミパラメトリックデリバティブフリー（ＳＰＤＦ）モデル）が、標準のデリバティブベースモデルによって得られる推定性能を改善することを示す。加えて、ＳＰＤＦモデルを用いることにより、これら２つの実際のシステムにおけるＲＬベースの軌道最適化タスクを解決する。いくつかの実施形態は、セミパラメトリックデリバティブフリー（ＳＰＤＦ）モデルの正確さが、ＩＬＯＧアルゴリズムによって開ループ方式で得られる制御軌道を適用した場合でも、物理システムに対する申し分のない制御結果を可能にする、という認識に基づいている。
ガウス過程回帰を使用するモデルベースの強化学習

ガウス過程回帰

物理的にインスパイアされたカーネル

ノンパラメトリックカーネル

セミパラメトリックカーネル

ｉＬＯＧを使用する軌道最適化

このセクションでは、物理システムの展開をモデル化するための新たな学習フレームワークを提案する。上記標準的なモデル化のアプローチではいくつかの問題に対応する必要がある。ここでは本発明のいくつかの実施形態が解決する主な問題を列挙する。
第１：数値微分

物理学の第一原理から計算される任意の物理システムの剛体力学は、接合部（関節）位置、速度および加速度の関数である。しかしながら、一般的な問題は、接合部位置および加速度は測定できないことが多いことであり、これらを、接合部位置の（場合によってはノイズが多い）測定値から始める数値微分によって計算することは、最終的な解決にとって大きな障害となる可能性がある。これは、非常によく知られた頻繁に議論される問題であり、通常は、特別のフィルタ設計によって部分的に対応する問題である。しかしながら、これは、フィルタのパラメータの調整についてユーザが多大な知識および経験を持っていることを必要とし、依然としてさまざまな誤差および遅延を導入する傾向がある。
第２：条件付き独立性の仮定

第３：力学における遅延および非線形性

最後に、物理システムは、固有の遅延および非線形効果の影響を受けることが多い。これらは、いくつかの瞬間にわたってシステムに影響を与え、１次マルコフ仮定に矛盾する。このような挙動の例については後に説明する。
デリバティブフリーの状態定義

状態の定義は次のように説明される。場合によっては、物体の状態のデータは、予め定められた期間におけるこの物体の位置の逐次的測定データのセットを表すことができ、マニピュレータの状態のデータは、予め定められた期間におけるマニピュレータの位置の逐次的測定データのセットを表すことができる。

ＰＩＤＦカーネルを用いる状態遷移学習

提案する状態定義は、ＭＤＰの状態遷移関数についてのモデル化技術の必要性を伴う。既に、デリバティブフリーＧＰＲは、ノンパラメトリックデリバティブフリーＧＰＲに対してのみ導入された。しかしながら、先に指摘したように、データ駆動型モデルの一般化性能は、ロバストな学習性能を保証するには十分でない可能性があり、物理モデルに由来する最終的な過去情報を活用することが非常に重要である。一方、物理モデルは、位置、速度、および加速度に依存し、標準的な公式化でこれらをデリバティブフリーフレームワーク内で使用することは不可能であり、本発明の実施形態はこの問題を解決する。以下では、いわゆる物理的にインスパイアされたデリバティブフリー（ＰＩＤＦ）カーネルを得るための手順を提案する。

ＰＩＤＦカーネルガイドライン

次のセクションにおいて、上記本発明の実施形態を、２つのベンチマークシステムに、すなわち、ボールアンドビーム（ＢＢ）システムとフルタの振子（ＦＰ）システムとに適用し、カーネル微分を詳細に説明する。これらは本発明のいくつかの実施形態を示す２つの例である。しかしながら、本発明の実施形態はこれらの例に限定されない。

双方のセットアップについて、更新されたポリシーを使用してシステムを制御するというタスクを示し、デリバティブフリーフレームワークを採用したことによる利点を強調する。この場合、更新ポリシープログラムは、更新されたＤＦ－ＳＰＧＰモデル学習プログラムに従って更新ポリシープログラムが更新された後に、操作システムに送信される。

ボールアンドビームプラットフォーム

図２Ａは、マニピュレータシステムの一例におけるＢＢシステムの実験用セットアップを示す。アルミニウムのバーが、１の自由度（ＤｏＦ：degree of freedom）に制限された先端傾斜テーブル２１（プラットフォーム）に装着されている。このプラットフォームは、開ループのポジショニングを提供するたとえば既製品のハイテックタイプＨＳ－８０５ＢＢＲＣモデルＰＷＭ制御サーボモータであるサーボモータ（図示せず）によって起動され、プラットフォーム角度は、正確な絶対エンコーダ２３によって測定される。場合によっては、マニピュレータ状態信号は、マニピュレータシステムの移動部分に配置された状態検出器によって検出される。マニピュレータ状態信号は、操作システムのアクチュエータからのもしくは操作システムのエンコーダからの信号であってもよく、または、アクチュエータおよびエンコーダからの信号の組み合わせであってもよい。さらに、状態検出器は、ポジショニングセンサ、エンコーダ、またはポジショニングセンサとエンコーダの組み合わせであってもよい。さらに、状態検出器は、操作システムの移動部分に、操作システムの非移動部分に、または、操作システムの移動部分と非移動部分とに、配置されてもよい。タコメータはこの軸に装着されておらず、そのため角速度を直接測定することはできない。操作システムの操作対象である物体であるボール２４は、溝の中で自在に転動する。この場合、ＲＧＢカメラを固定フレームに装着してボールの位置を測定してもよい。場合によっては、少なくとも１つの物体検出器が、物体状態信号を生成するＲＧＢＤカメラであってもよい。

さらに、カメラは、操作システムから分離された物体状態検出器であってもよい。ボールは、カメラが収集した画像に対する単純であるが高速のブロブ追跡アルゴリズムを用いて、リアルタイムで追跡される。カメラとの通信およびシステムを駆動するサーボモータとの通信はすべて、ロボットオペレーティングシステム（ＲＯＳ：Robot Operating System）によって行われる。

この場合、物体状態データは、予め定められた期間における物体の位置の逐次測定データのセットを表し、マニピュレータ状態データは、予め定められた期間におけるマニピュレータの位置の逐次測定データのセットを表す。

予測性能

ボールアンドビーム制御

図３Ａは、実際のシステムとデリバティブフリーＳＰＧＰモデルとの双方に対するｉＬＯＧポリシーでボールアンドビームシステムを制御しているときのボールの位置の展開の比較を示す。２つの信号が著しく似ていることは、本発明の実施形態が正確であることを示す。

この分析は、マニピュレータ学習制御装置の一例を結論付けている。場合によっては、物体状態データが、予め定められた期間における物体の位置の逐次測定データのセットを表す。

得られた成功／効果は、本発明のいくつかの実施形態の利点の一部を示している。
フルタの振子：デリバティブフリーモデル化および制御

考慮する第２の物理システムに関連する別の実施形態は、制御理論において普及しているベンチマークシステムとしての、フルタの振子である。

図５は、本発明のいくつかの実施形態に係る、ロボットの手首関節で保持されたフルタの振子のセットアップの一例を示す。フルタの振子は、劣駆動（under-actuated）でありその力学が著しく非線形なので、制御にとって難しいシステムである。その力学は、コリオリの力および求心力の存在に起因する非常に変動しやすいクロスカップリングによって特徴付けられる。

遅延および非線形効果

予測性能

このセクションにおいて、異なるモデル学習プログラムの精度をテストすることにより、振子アームの展開を学習する。比較のために考慮するモデル学習プログラムは次の通りである。

ロールアウト性能

制御

式（１４）におけるセミパラメトリックモデルを使用してコントローラを設計することにより、更新されたポリシーである、先に説明したｉＬＯＧアルゴリズムを用いて、ＦＰをスイングアップさせる。この場合、更新ポリシープログラムは、更新されたＤＦ－ＳＰＧＰモデル学習プログラムに従って更新ポリシープログラムが更新された後に、操作システムに送信される。ｉＬＯＧアルゴリズムによって得られる軌道は、実際のシステム上に開ループ方式で簡単に実現されて、ＤＦ－ＳＰＧＰモデル学習プログラムの正確さを示した。

図９Ａおよび図９Ｂは、ＦＰスイングアップ制御に対するｉＬＯＧ軌道の性能を示す。ＦＰは、目標位置までゼロに近い速度でスイングアップすることができる。図面では、ＳＰモデルと実際のロボットとの両方を用いてｉＬＯＧ制御シーケンスで得られたθ軌道間の良好な一致を報告する。この組み合わせは、学習されたモデルの長期的な予測の正確さを示している。このモデルは不安定な平衡ポイントの周辺では正確さを失うかもしれないが、その理由が、訓練中にこのエリアで収集するのがより困難なデータの欠落にあることに、注目されたい。指摘できることは、ＧＰベースのＭＢＲＬの使用の過去の試みではより単純な種類の倒立振子（cart-poleシステム）をスイングアップさせることができず、その理由は、学習されたモデルが長期予測については正確でなかった点にあることである。このことは、本発明のいくつかの実施形態の利点を示している。

本開示では、モデルベースのＲＬについてのデリバティブフリーフレームワークを示し、物理的にインスパイアされた新たなデリバティブフリーカーネルを定義した。マニピュレータシステムの例である２つの実際のロボットシステムを用いた実験は、提案しているＤＦ－ＳＰＧＰモデル学習プログラムが、その対応するデリバティブベースのＧＰＲモデルと比較して、予測精度が勝っていること、および、現実世界の用途ではモデルベースのＲＬ制御問題を解くのに十分正確であることを示している。

また、本発明の実施形態は方法として実施されてもよく、その一例は既に示した通りである。この方法の一部として実行される動作は、任意の適切なやり方で順序付けられてもよい。したがって、実施形態は、示した順序と異なる順序で動作が実行されるように構成されてもよく、これは、いくつかの動作を、説明した実施形態では連続した動作として示されていても、同時に実行することを含み得る。

請求項において請求項の要素を修飾するために「第１の」、「第２の」といった順序を表す用語が使用されているが、これは、それ自体で何らかの優先度、優先順位、またはある請求項要素の別の請求項要素に対する順序、または方法の動作が実行される時間的順序を意味する訳ではなく、特定の名称を有するある請求項要素を同一名称（順序を表す用語の使用を除く）を有する別の要素から区別して請求項要素を特徴付けるためのラベルとして使用されているに過ぎない。

本発明を好ましい実施形態の例を用いて説明してきたが、本発明の精神および範囲の中でその他の各種適合化および修正を実施できることが理解されるはずである。

したがって、添付の請求項の目的は、本発明の真の精神および範囲に含まれるこのような変形および修正のすべてをカバーすることである。

本発明の実施形態に従うと、操作システムを制御するためのマニピュレータ学習制御装置１００は、インターフェイス１５０を含み得るものであり、インターフェイス１５０は、初期および更新されたポリシープログラムを操作システム１０に送信し、操作システム１０のマニピュレータ状態信号と、操作システム１０がワークテーブル１１上で操作する物体に関する物体状態信号とを受信するように構成されており、物体状態信号は、少なくとも１つの物体検出器によって検出され、マニピュレータ学習制御装置１００はさらにメモリ１４０を含み、メモリ１４０は、データ前処理プログラム１３１、物体状態履歴データ１３３、マニピュレータ状態履歴データ１３２、デリバティブフリーセミパラメトリックガウス過程（ＤＦ－ＳＰＧＰ）モデル学習プログラム１３４、更新ポリシープログラム１３５、初期ポリシープログラム１３７、マニピュレータ状態履歴１３２、および物体状態履歴１３３を含む、コンピュータで実行可能なプログラムをストレージ１３０に格納するように構成されており、マニピュレータ学習制御装置１００はさらに、メモリに関連してプロセッサ１２０（または２つ以上のプロセッサ）を含む。プロセッサ１２０は、予め設定された期間の間物体を操作するマニピュレータシステムを動作させる学習プロセスを開始するために、初期ポリシープログラム１３７をネットワーク１９０を介して操作システム１０に送信するように構成されている。この場合、プロセッサ１２０は、予め設定された期間において受信したマニピュレータ状態信号および物体状態信号のセットから、データ前処理プログラム１３１を用いて変換された、物体状態履歴データおよびマニピュレータ状態履歴データに従って、ＤＦ－ＳＰＧＰモデル学習プログラム１３４を更新し、プロセッサは、更新したＤＦ－ＳＰＧＰモデル学習プログラム１３４に従って更新ポリシープログラム１３５を更新する。

Claims

操作システムを制御するためのマニピュレータ学習制御装置であって、前記マニピュレータ学習制御装置は、
前記操作システムのマニピュレータ状態信号と、作業空間において前記操作システムが操作する物体に関する物体状態信号とを受信するように構成されたインターフェイスを備え、前記物体状態信号は、少なくとも１つの物体検出器によって検出され、前記マニピュレータ学習制御装置はさらに、
初期ポリシープログラムおよび更新されたポリシープログラムを前記操作システムに送信するように構成された出力インターフェイスと、
コンピュータで実行可能なプログラムを格納するためのメモリとを備え、前記プログラムは、データ前処理プログラム、物体状態履歴データ、マニピュレータ状態履歴データ、デリバティブフリーセミパラメトリックガウス過程（ＤＦ－ＳＰＧＰ）カーネル学習プログラム、デリバティブフリーセミパラメトリックガウス過程（ＤＦ－ＳＰＧＰ）モデル学習プログラム、更新ポリシープログラム、および初期ポリシープログラムを含み、前記マニピュレータ学習制御装置はさらに、
前記メモリに関連してプロセッサを備え、前記プロセッサは、予め設定された期間中に前記物体を操作する前記マニピュレータシステムを動作させる学習プロセスを開始するために、前記初期ポリシープログラムを前記操作システムに送信するように構成され、前記プロセッサは、前記予め設定された期間において受信した前記マニピュレータ状態信号および前記物体状態信号のセットから、前記データ前処理プログラムを用いて変換された、前記物体状態履歴データおよび前記マニピュレータ状態履歴データに従って、前記ＤＦ－ＳＰＧＰモデル学習プログラムを更新し、前記プロセッサは、前記更新したＤＦ－ＳＰＧＰモデル学習プログラムに従って前記更新ポリシープログラムを更新する、マニピュレータ学習制御装置。
前記更新ポリシープログラムは、前記更新したＤＦ－ＳＰＧＰモデル学習プログラムに従って前記更新ポリシープログラムが更新された後に、前記操作システムに送信される、請求項１に記載のマニピュレータ学習制御装置。
前記マニピュレータ状態信号は状態検出器によって検出され、前記状態検出器は、前記操作システムの移動部分にもしくは非移動部分に配置される、または、前記操作システムの前記移動部分および前記非移動部分の双方に配置される、請求項１に記載のマニピュレータ学習制御装置。
前記マニピュレータ状態信号は、前記操作システムのアクチュエータからの信号、前記操作システムのエンコーダからの信号、または、前記アクチュエータからの信号と前記エンコーダからの信号との組み合わせである、請求項３に記載のマニピュレータ学習制御装置。
前記状態検出器は、ポジショニングセンサ、エンコーダ、または、前記ポジショニングセンサと前記エンコーダとの組み合わせである、請求項３に記載のマニピュレータ学習制御装置。
前記少なくとも１つの物体検出器は、前記物体状態信号を生成するＲＧＢまたはＲＧＢＤカメラである、請求項１に記載のマニピュレータ学習制御装置。
前記物体状態データは、予め定められた期間における前記物体の位置の逐次測定データのセットを表す、請求項１に記載のマニピュレータ学習制御装置。
前記少なくとも１つの物体検出器は、前記操作システムから分離される、請求項１に記載のマニピュレータ学習制御装置。
前記マニピュレータの前記状態検出器は、前記操作システムの接合部位置に配置される、請求項１に記載のマニピュレータ学習制御装置。
前記マニピュレータ状態データは、予め定められた期間における前記マニピュレータの位置の逐次測定データのセットを表す、請求項３に記載のマニピュレータ学習制御装置。
前記ＤＦ－ＳＰＧＰモデル学習プログラムは、前記マニピュレータのおよび／または前記マニピュレータが操作する前記物体の挙動を予測する、請求項１に記載のマニピュレータ学習制御装置。
前記ＤＦ－ＳＰＧＰカーネル学習プログラムは、前記マニピュレータのおよび／または前記マニピュレータが操作する前記物体の挙動を予測する前記ＤＦ－ＳＰＧＰモデル学習プログラムを定義する、請求項７に記載のマニピュレータ学習制御装置。
前記少なくとも１つの物体検出器は、前記物体状態信号を生成する位置エンコーダである、請求項１に記載のマニピュレータ学習制御装置。
コンピュータにより実現されるマニピュレータ学習方法であって、前記マニピュレータ学習方法は、
予め設定された期間の間、初期ポリシープログラムに従って操作システムを動作させるステップを含み、前記初期ポリシープログラムは、物体を操作するためにマニピュレータシステムを動作させる学習プロセスを開始させ、前記マニピュレータ学習方法はさらに、
前記予め設定された期間の間、マニピュレータ状態信号と物体状態信号とを受信するステップと、
前記予め設定された期間において受信した前記マニピュレータ状態信号および前記物体状態信号のセットから変換された物体状態履歴データおよびマニピュレータ状態履歴データに従って、ＤＦ－ＳＰＧＰモデル学習プログラムを更新するステップと、
前記更新したＤＦ－ＳＰＧＰモデル学習プログラムに従って更新ポリシープログラムを更新するステップとを含む、マニピュレータ学習方法。
前記更新した更新ポリシープログラムを前記操作システムに送信するステップをさらに含む、請求項１４に記載のマニピュレータ学習方法。
前記マニピュレータ状態信号は、前記操作システムの移動部分に配置された状態検出器によって検出される、請求項１４に記載のマニピュレータ学習方法。
前記マニピュレータ状態信号は、前記操作システムのアクチュエータからの信号、前記操作システムのエンコーダからの信号、または、前記アクチュエータからの信号と前記エンコーダからの信号との組み合わせである、請求項１６に記載のマニピュレータ学習方法。
前記状態検出器は、ポジショニングセンサ、エンコーダ、または、前記ポジショニングセンサと前記エンコーダとの組み合わせである、請求項１６に記載のマニピュレータ学習方法。
前記少なくとも１つの物体検出器は、前記物体状態信号を生成するＲＧＢまたはＲＧＢＤカメラである、請求項１４に記載のマニピュレータ学習方法。
前記物体状態データは、予め定められた期間における前記物体の位置の逐次測定データのセットを表す、請求項１４に記載のマニピュレータ学習方法。
前記少なくとも１つの物体検出器は、前記操作システムから分離される、請求項１４に記載のマニピュレータ学習方法。
前記状態検出器は、前記操作システムの接合部位置に配置される、請求項１４に記載のマニピュレータ学習方法。