JP2022543926A - ロボットシステムのためのデリバティブフリーモデル学習のシステムおよび設計 - Google Patents

ロボットシステムのためのデリバティブフリーモデル学習のシステムおよび設計 Download PDF

Info

Publication number
JP2022543926A
JP2022543926A JP2022533021A JP2022533021A JP2022543926A JP 2022543926 A JP2022543926 A JP 2022543926A JP 2022533021 A JP2022533021 A JP 2022533021A JP 2022533021 A JP2022533021 A JP 2022533021A JP 2022543926 A JP2022543926 A JP 2022543926A
Authority
JP
Japan
Prior art keywords
manipulator
learning
program
state
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022533021A
Other languages
English (en)
Inventor
ロメレス,ディエゴ
ダラ・リベラ,アルベルト
ジャー,デベシュ
ニコフスキ,ダニエル・ニコラエフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2022543926A publication Critical patent/JP2022543926A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40499Reinforcement learning algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Automation & Control Theory (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Analysis (AREA)
  • Molecular Biology (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

操作システムを制御するためのマニピュレータ学習制御装置は、操作システムのマニピュレータ状態信号と、作業空間において操作システムが操作する物体に関する物体状態信号とを受信するように構成されたインターフェイスを含み、物体状態信号は少なくとも1つの物体検出器によって検出され、さらに、初期および更新されたポリシープログラムを操作システムに送信するように構成された出力インターフェイスと、コンピュータで実行可能なプログラムを格納するためのメモリとを含み、このプログラムは、データ前処理プログラム、物体状態履歴データ、マニピュレータ状態履歴データ、デリバティブフリーセミパラメトリックガウス過程(DF-SPGP)カーネル学習プログラム、デリバティブフリーセミパラメトリックガウス過程(DF-SPGP)モデル学習プログラム、更新ポリシープログラム、および初期ポリシープログラムを含み、さらに、メモリに関連してプロセッサを含み、プロセッサは、予め設定された期間中に物体を操作するマニピュレータシステムを動作させる学習プロセスを開始するために初期ポリシープログラムを操作システムに送信するように構成されている。

Description

本発明は、概してデリバティブフリー(derivative-free)モデル学習技術のシステムおよび設計に関し、より具体的にはロボットマニピュレータシステムのためのデリバティブフリーモデル学習技術のシステムおよび設計に関する。
深層学習、転移学習および強化学習を含む機械学習技術のニューウェーブは、ロボットおよびパーソナルアシスタントのようなインテリジェントシステムが、知識を獲得し、低速でオーダーメイドで高コストの人間によるプログラミングなしで、難しい問題を実例または命令から学習することによって解決することを、可能にする。
モデルを学習してロボットシステムを制御することの難しさは、ロボットシステムの運動が剛体力学(RBD:Rigid Body Dynamics)と呼ばれる極めて複雑な物理法則に支配されること、および、通常はこれらの物理法則をそのまま表現したものしか知られていないことにある。加えて、これらの法則を計算するのに必要な、ロボットの各構成要素の位置、速度、および加速度のような物理量の測定値は、その一部しか入手できないことが多い。実際、ロボットシステムに搭載されたセンサが測定するのは、通常は位置成分のみであり(たとえば、エンコーダ、ポテンショメータ、近接センサ...)、速度および加速度は測定されない。速度および加速度を測定するセンサは存在するが(たとえば、タコメータ、レーザ表面速度計、圧電センサ、慣性計測装置(IMU:Inertial Measurement Unit)、および加速度計センサ)、これらは構造上の制約および場合によっては高コストが原因で、ロボットシステムに組み込まれないことが多い。実際、大多数の産業用ロボットマニピュレータにはこれらのセンサがないが、新世代のリサーチロボットのうちの一部は、加速度を測定する何らかのセンサ、たとえばIMUを有し、典型的には速度を測定するためのセンサを備えていない。加えて、タスクが特定の物体の操作を必要とする場合、この物体にはセンサがないことが多く、空間上におけるこの物体の位置を測定するためには、外部センサ、たとえばカメラまたはエンコーダを追加することしかできない。
したがって、外界の意味表現を、利用できる測定値に基づいて学習するため、および、新たなロボットタスクにおいてより適切な意思決定を行うためにこれらの測定値を再利用するための、進化したAI技術を開発することが望ましい。これらの表現を用いることにより、ロボットシステムの動きを学習し予測することを可能にする機械学習技術に基づいたフレームワークを実現することができる。
強化学習(RL:Reinforcement Learning)は近年目覚ましい成長を遂げている。RLアルゴリズムは、いくつかのベンチマーク問題において人間レベルの性能に達しそれを超えることができた。しかしながら、RLを実際の物理システム(たとえばロボットシステム)に応用することは今もなお困難である、というのも、大量の経験が必要でありランダムな探究は安全性のリスクを伴うからである。
一般的に、物理システムの展開を正確に説明することは、非常に難しいことであり、今もなお活発な研究分野である、というのも、物理学の第一原理からモデルを導き出すことは、ある程度非常に複雑であり、パラメータの不確定性およびモデル化されていない非線形効果が原因でバイアスを導入する可能性もある。
一方、データのみからモデルを学習することは、法外なコストを要する可能性があり、通常は一般化が不十分であるという欠陥がある。ガウス過程回帰(GPR:Gaussian Process Regression)に基づくモデルは、モデルベースのRL(MBRL:Model-Based RL)技術におけるモデル学習タスクのためのモデルとして、大きな注目を集めている。実際、GPRは、過去の物理情報を、データ駆動型知識と、すなわちデータ間の類似性の分析から推測された情報と合体させることを可能にし、結果としていわゆるセミパラメトリックモデルとなる。
物理法則は、機械システムの状態はその一般化された座標の位置、速度、および加速度で説明できることを示唆している。しかしながら、速度および加速度センサは、特に低コストのセットアップを考慮した場合、利用できないことが多い。たとえば、これらのセンサは、最新技術として現在販売されているロボットアームマニピュレータのほとんどで利用することができない。このような場合、速度および加速度は、通常、実際の信号と推定された信号との差を導入する位置測定の因果的な数値微分を用いて推定される。これらの信号の歪みは、追加の未知の入力ノイズとみなされ得るものであり、学習アルゴリズムの予測精度を大幅に低下させる可能性がある。
本発明のいくつかの実施形態は、速度および加速度の測定値を必要としないモデルベースのRLアルゴリズムのための学習フレームワークを提供する。システム状態を、位置、速度、および加速度の集合で表す代わりに、位置測定値の有限の過去履歴として状態を定義することにより、モデルのデリバティブフリー状態表現を表し、位置の導関数はそこに含まれていない。デリバティブフリーGPRモデルは既に、デリバティブフリーノンパラメトリックカーネルに導入されている。
本発明のいくつかの実施形態は、デリバティブフリーGPRモデルを、物理的にインスパイアされたデリバティブフリー(PIDF:physically inspired derivative-free)モデルに拡張することで、より適切な一般化特性を提供し、セミパラメトリックデリバティブフリー(SPDF:semi-parametric derivative-free)モデルの設計を可能にすることができる、という認識に基づいている。
したがって、いくつかの実施形態は、以下の操作システムを制御するためのマニピュレータ学習制御装置を提供することができるという認識に基づいており、このマニピュレータ学習制御装置は、操作システムのマニピュレータ状態信号と、作業空間において操作システムが操作する物体に関する物体状態信号とを受信するように構成されたインターフェイスを備え、物体状態信号は、少なくとも1つの物体検出器によって検出され、マニピュレータ学習制御装置はさらに、初期ポリシープログラムおよび更新されたポリシープログラムを操作システムに送信するように構成された出力インターフェイスと、コンピュータで実行可能なプログラムを格納するためのメモリとを備え、プログラムは、データ前処理プログラム、物体状態履歴データ、マニピュレータ状態履歴データ、デリバティブフリーセミパラメトリックガウス過程(DF-SPGP:Derivative-Free Semi-parametric Gaussian Process)カーネル学習プログラム、デリバティブフリーセミパラメトリックガウス過程(DF-SPGP)モデル学習プログラム、更新ポリシープログラム、および初期ポリシープログラムを含み、マニピュレータ学習制御装置はさらに、メモリに関連してプロセッサを備え、プロセッサは、予め設定された期間中に物体を操作するマニピュレータシステムを動作させる学習プロセスを開始するために、初期ポリシープログラムを操作システムに送信するように構成され、その後、プロセッサは、予め設定された期間において受信したマニピュレータ状態信号および物体状態信号のセットから、データ前処理プログラムを用いて変換された、物体状態履歴データおよびマニピュレータ状態履歴データに従って、DF-SPGPモデル学習プログラムを更新し、プロセッサは、更新したDF-SPGPモデル学習プログラムに従って更新ポリシープログラムを更新する。
さらに、本発明の別の実施形態は、コンピュータにより実現されるマニピュレータ学習方法が以下のステップを含むという認識に基づいており、上記ステップは、予め設定された期間の間、初期ポリシープログラムに従って操作システムを動作させるステップを含み、初期ポリシープログラムは、物体を操作するためにマニピュレータシステムを動作させる学習プロセスを開始させ、さらに、予め設定された期間の間、マニピュレータ状態信号と物体状態信号とを受信するステップと、予め設定された期間において受信したマニピュレータ状態信号および物体状態信号のセットから変換された物体状態履歴データおよびマニピュレータ状態履歴データに従って、DF-SPGPモデル学習プログラムを更新するステップと、更新したDF-SPGPモデル学習プログラムに従って更新ポリシープログラムを更新するステップとを含む。
本発明の一層の理解を得るために含まれている添付の図面は、本発明の実施形態を示しており、明細書と合わせて本発明の原理を説明する役割を果たす。
本発明の実施形態に係る、ロボットシステムに接続されたデリバティブフリーモデル学習システムを含むマニピュレータ学習制御装置を示す概略図である。 本発明の実施形態に係る、デリバティブフリーモデル学習プロセスを説明するためのフローチャートを示す図である。 本発明の実施形態に係る、マニピュレータ学習制御装置に配置されたデリバティブフリーモデル学習システムを示す概略図である。 本発明の実施形態に係る、ボールアンドビーム実験用セットアップの一例を示す図である。 いくつかの標準的な物理的にインスパイアされた推定器および本発明のいくつかの実施形態に従って得られた推定器fPIDFを用いて取得された正規化された平均二乗平方根誤差(nRMSE)の比較を示す図である。 本発明のいくつかの実施形態に係る、実際のシステムとデリバティブフリーSPGPモデルとの双方に対するiLOGポリシーでボールアンドビームシステムを制御しているときのボールの位置の展開の比較を示す図である。 本発明のいくつかの実施形態に係る、デリバティブフリーSPGPモデル学習プログラムおよびデリバティブフリーPIGPモデル学習プログラムを使用する更新されたiLOGポリシーで得られた制御アクション間の違いを示す図である。 本発明の実施形態に係る、FPならびにさまざまなシステムパラメータおよび状態変数の概略図を示す。 本発明のいくつかの実施形態に係る、ロボットの手首関節に保持されるフルタの振子のセットアップの一例を示す図である。
Figure 2022543926000002

正弦波の合計で構成される初期ポリシーに記録されたテストデータについて得られるnRMSEについて、本発明のいくつかの実施形態で得られたものを含む異なるモデル学習プログラムの性能の比較を示す図である。 三角波で構成される初期ポリシーに記録されたテストデータについて得られるnRMSEについて、本発明のいくつかの実施形態で得られたものを含む異なるモデル学習プログラムの性能の比較を示す図である。 RMSEおよびロールアウトにおけるその相対信頼区間について、本発明のいくつかの実施形態で得られたものを含むロールアウトのいくつかのモデル学習プログラムを比較したものを示す図である。 本発明の実施形態に係る、フルタの振子のスイングアップ制御に対するiLOG軌道の性能を示す図である。 本発明の実施形態に係る、フルタの振子のスイングアップ制御に対するiLOG軌道の性能を示す図である。
実施形態の説明
図面および詳細な説明を通して、特に明記しない限り、図面の同一の参照番号は同一または同様の要素、特徴、および構造を示すものと理解される。これらの要素の相対的なサイズおよび描写は、明確化、説明、および便宜のために、誇張される場合がある。
以下、本発明の各種実施形態を図面を参照しながら説明する。なお、図面は正確な縮尺で描かれている訳ではなく、同様の構造または機能の要素は図面全体を通して同様の参照番号で示されている。また、図面は、本発明の特定の実施形態の説明を容易にすることのみを意図していることにも注意されたい。これらは、本発明を網羅的に説明すること、または本発明の範囲を限定することを意図している訳ではない。加えて、本発明の具体的な実施形態に関連して説明する局面は、かならずしもその実施形態に限定される訳ではなく、本発明のその他の実施形態のいずれにおいても実施することが可能である。
本発明のいくつかの実施形態に従うと、利用できる物理的知識を、実際の物理法則の記述に適合可能なフレキシブルなデータ駆動型機械学習方法に変換することで、より高い予測精度を提供できる、という利点がある。本発明のある実施形態は、ロボットシステムの各構成要素の位置の測定値のみを必要とし速度および加速度の測定値は必要としないので、モデル学習システムを一層簡略化することができ、十分な量の計算負荷および消費電力を減じることができる。
図1Aは、本発明の実施形態に係る、ロボットシステムに接続されたデリバティブフリーモデル学習システムを含むマニピュレータ学習制御装置を示す概略図である。構成要素10、50、176およびワークテーブル11は、本発明の実施形態を適用することが所望される用途の一例を示している。
操作システムを制御するためのマニピュレータ学習制御装置100は、操作システム10に固有のマニピュレータコントローラ50を使用する初期のおよび更新されたポリシープログラムを、インターフェイス150を介し、操作システム10に送信してもよく、少なくとも1つのマニピュレータ状態検出器、たとえば位置エンコーダ177が検出した操作システムのマニピュレータ状態信号と、作業空間において操作システム10が操作すべき物体176の物体状態信号とを受信してもよく、物体状態信号は、少なくとも1つの物体検出器、たとえばカメラ175によって検出される。これらの構成要素10、50、176、175、177は、ここでは一例として示されているが、本発明の実施形態は各種用途に対応できるので、各種用途に応じて異なり得る。
学習(訓練)プロセスの最初に、ロボットを予め定められた期間動かすための初期ポリシー137が、インターフェイス150を用いて操作システム10に送信される。この初期ポリシーは、たとえば正弦波信号、正弦波の合計またはランダム信号であってもよい、任意の信号である。上記予め定められた期間中に収集されるデータは、175が検出した物体の状態および177が検出した操作システムの状態であり、入出力インターフェイス150はこれらをデータ処理プログラム131に送信する。131において、これらのデータは、何らかの処理を受け、その後、マニピュレータ状態履歴132および物体状態履歴133としてメモリに格納され、各時間ステップにおけるこれらの量は、それぞれ、マニピュレータのおよび物体の過去の位置の有限履歴を含む。デリバティブフリーSPGP(DF-SPGP)モデル学習プログラム134は、入力として、マニピュレータ状態履歴132と、物体状態履歴133と、初期ポリシーの制御信号とを取る。DF-SPGPモデル学習プログラム134を実行する際、デリバティブフリーSPGP(DF-SPGP)カーネル学習プログラム(図示せず)およびデリバティブフリーSPGPモデル学習プログラムが訓練される。134で得られたデリバティブフリーSPGPモデルは、物体176についてマニピュレータが計算しなければならないタスクのタスク仕様136とともに、135の更新されたポリシーを計算するために使用される。135におけるポリシーは、反復線形2次ガウス(iLOG:Iterative Linear Quadratic Gaussian)であるが、任意の軌道最適化技術モデルベースのものに置き換えることが可能である。更新されたポリシーが135で学習されると、これを、入出力インターフェイス150およびマニピュレータコントローラ50を介してマニピュレータに送信することができる。次に操作システム10は物体176に対してタスクを実行する。
図1Bは、本発明の実施形態に係る、マニピュレータ学習制御装置を説明するためのフローチャートを示す。本発明の実施形態は、順に、S1において、初期ポリシー137を定義して操作システムを予め定められた期間活動状態にし、学習プロセスを開始することで構成される。次に、S2において初期ポリシーをインターフェイス150を用いて操作システムに送信し、インターフェイス150は制御信号をマニピュレータコントローラ50に送信し、マニピュレータコントローラ50は、S3において初期ポリシーに従い操作システム10を動かす。操作システム10は、予め定められた期間物体176を操作し、S4において、マニピュレータ状態信号および物体状態信号を、マニピュレータ状態検出器177および物体状態検出器175が収集し、インターフェイス150を用いてマニピュレータ学習制御装置に送信する。インターフェイス150は、収集されたデータと初期ポリシーとをデータ前処理プログラムに送信し、S5においてこのデータを処理し、マニピュレータ状態履歴132および物体状態履歴133としてメモリに格納する。S6において、デリバティブフリーSPGPモデル学習プログラム134を、これらのデータを用いて訓練する。その後、S7において、操作される物体176について操作システムが計算しなければならないタスク136を定義し、デリバティブフリーSPGPモデル学習プログラムとともに使用し、S8においてiLOG135を用いてポリシーを更新する。次に、S9において、更新したポリシーを、マニピュレータコントローラ50に接続されたインターフェイス150を用いて操作システム10に送信する。そうすると、S10において、操作システム10は、デリバティブフリーSPGPモデル学習プログラム134を用いて取得した更新後のポリシー135に従い、物体176を操作するタスクを実行することができる。
図1Cは、本発明の実施形態に係る、マニピュレータ学習制御装置に配置されたデリバティブフリーモデル学習システムを示す概略図である。
本発明の実施形態に従うと、操作システムを制御するためのマニピュレータ学習制御装置100は、インターフェイス150を含み得るものであり、インターフェイス150は、初期および更新されたポリシープログラムを操作システム10に送信し、操作システム10のマニピュレータ状態信号と、操作システム10がワークテーブル11上で操作する物体に関する物体状態信号とを受信するように構成されており、物体状態信号は、少なくとも1つの物体検出器によって検出され、マニピュレータ学習制御装置100はさらにメモリ140を含み、メモリ140は、データ前処理プログラム131、物体状態履歴データ133、マニピュレータ状態履歴データ132、デリバティブフリーセミパラメトリックガウス過程(DF-SPGP)モデル学習プログラム134、更新ポリシープログラム135、初期ポリシープログラム137、マニピュレータ状態履歴132、および物体状態履歴133を含む、コンピュータで実行可能なプログラムをストレージ130に格納するように構成されており、マニピュレータ学習制御装置100はさらに、メモリに関連してプロセッサ120(または2つ以上のプロセッサ)を含む。プロセッサ120は、予め設定された期間の間物体を操作するマニピュレータシステムを動作させる学習プロセスを開始するために、初期ポリシープログラム137をネットワーク190を介して操作システム195に送信するように構成されている。この場合、プロセッサ120は、予め設定された期間において受信したマニピュレータ状態信号および物体状態信号のセットから、データ前処理プログラム131を用いて変換された、物体状態履歴データおよびマニピュレータ状態履歴データに従って、DF-SPGPモデル学習プログラム134を更新し、プロセッサは、更新したDF-SPGPモデル学習プログラム134に従って更新ポリシープログラム135を更新する。
ロボットシステムのためのデリバティブフリーモデル学習の例としてのSPDFモデルを、システムの2つの例、すなわちボールアンドビームプラットフォームおよびフルタの振子に適用し、デリバティブフリー学習フレームワーク(セミパラメトリックデリバティブフリー(SPDF)モデル)が、標準のデリバティブベースモデルによって得られる推定性能を改善することを示す。加えて、SPDFモデルを用いることにより、これら2つの実際のシステムにおけるRLベースの軌道最適化タスクを解決する。いくつかの実施形態は、セミパラメトリックデリバティブフリー(SPDF)モデルの正確さが、ILOGアルゴリズムによって開ループ方式で得られる制御軌道を適用した場合でも、物理システムに対する申し分のない制御結果を可能にする、という認識に基づいている。
ガウス過程回帰を使用するモデルベースの強化学習
Figure 2022543926000003
Figure 2022543926000004
Figure 2022543926000005

ガウス過程回帰
Figure 2022543926000006

物理的にインスパイアされたカーネル
Figure 2022543926000007
Figure 2022543926000008
Figure 2022543926000009

ノンパラメトリックカーネル
Figure 2022543926000010

セミパラメトリックカーネル
Figure 2022543926000011
Figure 2022543926000012

iLOGを使用する軌道最適化
このセクションでは、物理システムの展開をモデル化するための新たな学習フレームワークを提案する。上記標準的なモデル化のアプローチではいくつかの問題に対応する必要がある。ここでは本発明のいくつかの実施形態が解決する主な問題を列挙する。
第1:数値微分
物理学の第一原理から計算される任意の物理システムの剛体力学は、接合部(関節)位置、速度および加速度の関数である。しかしながら、一般的な問題は、接合部位置および加速度は測定できないことが多いことであり、これらを、接合部位置の(場合によってはノイズが多い)測定値から始める数値微分によって計算することは、最終的な解決にとって大きな障害となる可能性がある。これは、非常によく知られた頻繁に議論される問題であり、通常は、特別のフィルタ設計によって部分的に対応する問題である。しかしながら、これは、フィルタのパラメータの調整についてユーザが多大な知識および経験を持っていることを必要とし、依然としてさまざまな誤差および遅延を導入する傾向がある。
第2:条件付き独立性の仮定
Figure 2022543926000013

第3:力学における遅延および非線形性
最後に、物理システムは、固有の遅延および非線形効果の影響を受けることが多い。これらは、いくつかの瞬間にわたってシステムに影響を与え、1次マルコフ仮定に矛盾する。このような挙動の例については後に説明する。
デリバティブフリーの状態定義
Figure 2022543926000014
状態の定義は次のように説明される。場合によっては、物体の状態のデータは、予め定められた期間におけるこの物体の位置の逐次的測定データのセットを表すことができ、マニピュレータの状態のデータは、予め定められた期間におけるマニピュレータの位置の逐次的測定データのセットを表すことができる。
Figure 2022543926000015

PIDFカーネルを用いる状態遷移学習
提案する状態定義は、MDPの状態遷移関数についてのモデル化技術の必要性を伴う。既に、デリバティブフリーGPRは、ノンパラメトリックデリバティブフリーGPRに対してのみ導入された。しかしながら、先に指摘したように、データ駆動型モデルの一般化性能は、ロバストな学習性能を保証するには十分でない可能性があり、物理モデルに由来する最終的な過去情報を活用することが非常に重要である。一方、物理モデルは、位置、速度、および加速度に依存し、標準的な公式化でこれらをデリバティブフリーフレームワーク内で使用することは不可能であり、本発明の実施形態はこの問題を解決する。以下では、いわゆる物理的にインスパイアされたデリバティブフリー(PIDF)カーネルを得るための手順を提案する。
Figure 2022543926000016

PIDFカーネルガイドライン
Figure 2022543926000017
Figure 2022543926000018
Figure 2022543926000019
Figure 2022543926000020
Figure 2022543926000021
次のセクションにおいて、上記本発明の実施形態を、2つのベンチマークシステムに、すなわち、ボールアンドビーム(BB)システムとフルタの振子(FP)システムとに適用し、カーネル微分を詳細に説明する。これらは本発明のいくつかの実施形態を示す2つの例である。しかしながら、本発明の実施形態はこれらの例に限定されない。
双方のセットアップについて、更新されたポリシーを使用してシステムを制御するというタスクを示し、デリバティブフリーフレームワークを採用したことによる利点を強調する。この場合、更新ポリシープログラムは、更新されたDF-SPGPモデル学習プログラムに従って更新ポリシープログラムが更新された後に、操作システムに送信される。
Figure 2022543926000022

ボールアンドビームプラットフォーム
図2Aは、マニピュレータシステムの一例におけるBBシステムの実験用セットアップを示す。アルミニウムのバーが、1の自由度(DoF:degree of freedom)に制限された先端傾斜テーブル21(プラットフォーム)に装着されている。このプラットフォームは、開ループのポジショニングを提供するたとえば既製品のハイテックタイプHS-805BB RCモデルPWM制御サーボモータであるサーボモータ(図示せず)によって起動され、プラットフォーム角度は、正確な絶対エンコーダ23によって測定される。場合によっては、マニピュレータ状態信号は、マニピュレータシステムの移動部分に配置された状態検出器によって検出される。マニピュレータ状態信号は、操作システムのアクチュエータからのもしくは操作システムのエンコーダからの信号であってもよく、または、アクチュエータおよびエンコーダからの信号の組み合わせであってもよい。さらに、状態検出器は、ポジショニングセンサ、エンコーダ、またはポジショニングセンサとエンコーダの組み合わせであってもよい。さらに、状態検出器は、操作システムの移動部分に、操作システムの非移動部分に、または、操作システムの移動部分と非移動部分とに、配置されてもよい。タコメータはこの軸に装着されておらず、そのため角速度を直接測定することはできない。操作システムの操作対象である物体であるボール24は、溝の中で自在に転動する。この場合、RGBカメラを固定フレームに装着してボールの位置を測定してもよい。場合によっては、少なくとも1つの物体検出器が、物体状態信号を生成するRGBDカメラであってもよい。
さらに、カメラは、操作システムから分離された物体状態検出器であってもよい。ボールは、カメラが収集した画像に対する単純であるが高速のブロブ追跡アルゴリズムを用いて、リアルタイムで追跡される。カメラとの通信およびシステムを駆動するサーボモータとの通信はすべて、ロボットオペレーティングシステム(ROS:Robot Operating System)によって行われる。
Figure 2022543926000023
この場合、物体状態データは、予め定められた期間における物体の位置の逐次測定データのセットを表し、マニピュレータ状態データは、予め定められた期間におけるマニピュレータの位置の逐次測定データのセットを表す。
Figure 2022543926000024

予測性能
Figure 2022543926000025
Figure 2022543926000026
Figure 2022543926000027
Figure 2022543926000028
Figure 2022543926000029

ボールアンドビーム制御
Figure 2022543926000030
図3Aは、実際のシステムとデリバティブフリーSPGPモデルとの双方に対するiLOGポリシーでボールアンドビームシステムを制御しているときのボールの位置の展開の比較を示す。2つの信号が著しく似ていることは、本発明の実施形態が正確であることを示す。
Figure 2022543926000031
この分析は、マニピュレータ学習制御装置の一例を結論付けている。場合によっては、物体状態データが、予め定められた期間における物体の位置の逐次測定データのセットを表す。
得られた成功/効果は、本発明のいくつかの実施形態の利点の一部を示している。
フルタの振子:デリバティブフリーモデル化および制御
考慮する第2の物理システムに関連する別の実施形態は、制御理論において普及しているベンチマークシステムとしての、フルタの振子である。
図5は、本発明のいくつかの実施形態に係る、ロボットの手首関節で保持されたフルタの振子のセットアップの一例を示す。フルタの振子は、劣駆動(under-actuated)でありその力学が著しく非線形なので、制御にとって難しいシステムである。その力学は、コリオリの力および求心力の存在に起因する非常に変動しやすいクロスカップリングによって特徴付けられる。
Figure 2022543926000032
Figure 2022543926000033
Figure 2022543926000034
Figure 2022543926000035

遅延および非線形効果
Figure 2022543926000036
Figure 2022543926000037
Figure 2022543926000038
Figure 2022543926000039
Figure 2022543926000040

予測性能
このセクションにおいて、異なるモデル学習プログラムの精度をテストすることにより、振子アームの展開を学習する。比較のために考慮するモデル学習プログラムは次の通りである。
Figure 2022543926000041
Figure 2022543926000042
Figure 2022543926000043
Figure 2022543926000044

ロールアウト性能
Figure 2022543926000045
Figure 2022543926000046

制御
式(14)におけるセミパラメトリックモデルを使用してコントローラを設計することにより、更新されたポリシーである、先に説明したiLOGアルゴリズムを用いて、FPをスイングアップさせる。この場合、更新ポリシープログラムは、更新されたDF-SPGPモデル学習プログラムに従って更新ポリシープログラムが更新された後に、操作システムに送信される。iLOGアルゴリズムによって得られる軌道は、実際のシステム上に開ループ方式で簡単に実現されて、DF-SPGPモデル学習プログラムの正確さを示した。
図9Aおよび図9Bは、FPスイングアップ制御に対するiLOG軌道の性能を示す。FPは、目標位置までゼロに近い速度でスイングアップすることができる。図面では、SPモデルと実際のロボットとの両方を用いてiLOG制御シーケンスで得られたθ軌道間の良好な一致を報告する。この組み合わせは、学習されたモデルの長期的な予測の正確さを示している。このモデルは不安定な平衡ポイントの周辺では正確さを失うかもしれないが、その理由が、訓練中にこのエリアで収集するのがより困難なデータの欠落にあることに、注目されたい。指摘できることは、GPベースのMBRLの使用の過去の試みではより単純な種類の倒立振子(cart-poleシステム)をスイングアップさせることができず、その理由は、学習されたモデルが長期予測については正確でなかった点にあることである。このことは、本発明のいくつかの実施形態の利点を示している。
本開示では、モデルベースのRLについてのデリバティブフリーフレームワークを示し、物理的にインスパイアされた新たなデリバティブフリーカーネルを定義した。マニピュレータシステムの例である2つの実際のロボットシステムを用いた実験は、提案しているDF-SPGPモデル学習プログラムが、その対応するデリバティブベースのGPRモデルと比較して、予測精度が勝っていること、および、現実世界の用途ではモデルベースのRL制御問題を解くのに十分正確であることを示している。
また、本発明の実施形態は方法として実施されてもよく、その一例は既に示した通りである。この方法の一部として実行される動作は、任意の適切なやり方で順序付けられてもよい。したがって、実施形態は、示した順序と異なる順序で動作が実行されるように構成されてもよく、これは、いくつかの動作を、説明した実施形態では連続した動作として示されていても、同時に実行することを含み得る。
請求項において請求項の要素を修飾するために「第1の」、「第2の」といった順序を表す用語が使用されているが、これは、それ自体で何らかの優先度、優先順位、またはある請求項要素の別の請求項要素に対する順序、または方法の動作が実行される時間的順序を意味する訳ではなく、特定の名称を有するある請求項要素を同一名称(順序を表す用語の使用を除く)を有する別の要素から区別して請求項要素を特徴付けるためのラベルとして使用されているに過ぎない。
本発明を好ましい実施形態の例を用いて説明してきたが、本発明の精神および範囲の中でその他の各種適合化および修正を実施できることが理解されるはずである。
したがって、添付の請求項の目的は、本発明の真の精神および範囲に含まれるこのような変形および修正のすべてをカバーすることである。
本発明の実施形態に従うと、操作システムを制御するためのマニピュレータ学習制御装置100は、インターフェイス150を含み得るものであり、インターフェイス150は、初期および更新されたポリシープログラムを操作システム10に送信し、操作システム10のマニピュレータ状態信号と、操作システム10がワークテーブル11上で操作する物体に関する物体状態信号とを受信するように構成されており、物体状態信号は、少なくとも1つの物体検出器によって検出され、マニピュレータ学習制御装置100はさらにメモリ140を含み、メモリ140は、データ前処理プログラム131、物体状態履歴データ133、マニピュレータ状態履歴データ132、デリバティブフリーセミパラメトリックガウス過程(DF-SPGP)モデル学習プログラム134、更新ポリシープログラム135、初期ポリシープログラム137、マニピュレータ状態履歴132、および物体状態履歴133を含む、コンピュータで実行可能なプログラムをストレージ130に格納するように構成されており、マニピュレータ学習制御装置100はさらに、メモリに関連してプロセッサ120(または2つ以上のプロセッサ)を含む。プロセッサ120は、予め設定された期間の間物体を操作するマニピュレータシステムを動作させる学習プロセスを開始するために、初期ポリシープログラム137をネットワーク190を介して操作システム10に送信するように構成されている。この場合、プロセッサ120は、予め設定された期間において受信したマニピュレータ状態信号および物体状態信号のセットから、データ前処理プログラム131を用いて変換された、物体状態履歴データおよびマニピュレータ状態履歴データに従って、DF-SPGPモデル学習プログラム134を更新し、プロセッサは、更新したDF-SPGPモデル学習プログラム134に従って更新ポリシープログラム135を更新する。

Claims (22)

  1. 操作システムを制御するためのマニピュレータ学習制御装置であって、前記マニピュレータ学習制御装置は、
    前記操作システムのマニピュレータ状態信号と、作業空間において前記操作システムが操作する物体に関する物体状態信号とを受信するように構成されたインターフェイスを備え、前記物体状態信号は、少なくとも1つの物体検出器によって検出され、前記マニピュレータ学習制御装置はさらに、
    初期ポリシープログラムおよび更新されたポリシープログラムを前記操作システムに送信するように構成された出力インターフェイスと、
    コンピュータで実行可能なプログラムを格納するためのメモリとを備え、前記プログラムは、データ前処理プログラム、物体状態履歴データ、マニピュレータ状態履歴データ、デリバティブフリーセミパラメトリックガウス過程(DF-SPGP)カーネル学習プログラム、デリバティブフリーセミパラメトリックガウス過程(DF-SPGP)モデル学習プログラム、更新ポリシープログラム、および初期ポリシープログラムを含み、前記マニピュレータ学習制御装置はさらに、
    前記メモリに関連してプロセッサを備え、前記プロセッサは、予め設定された期間中に前記物体を操作する前記マニピュレータシステムを動作させる学習プロセスを開始するために、前記初期ポリシープログラムを前記操作システムに送信するように構成され、前記プロセッサは、前記予め設定された期間において受信した前記マニピュレータ状態信号および前記物体状態信号のセットから、前記データ前処理プログラムを用いて変換された、前記物体状態履歴データおよび前記マニピュレータ状態履歴データに従って、前記DF-SPGPモデル学習プログラムを更新し、前記プロセッサは、前記更新したDF-SPGPモデル学習プログラムに従って前記更新ポリシープログラムを更新する、マニピュレータ学習制御装置。
  2. 前記更新ポリシープログラムは、前記更新したDF-SPGPモデル学習プログラムに従って前記更新ポリシープログラムが更新された後に、前記操作システムに送信される、請求項1に記載のマニピュレータ学習制御装置。
  3. 前記マニピュレータ状態信号は状態検出器によって検出され、前記状態検出器は、前記操作システムの移動部分にもしくは非移動部分に配置される、または、前記操作システムの前記移動部分および前記非移動部分の双方に配置される、請求項1に記載のマニピュレータ学習制御装置。
  4. 前記マニピュレータ状態信号は、前記操作システムのアクチュエータからの信号、前記操作システムのエンコーダからの信号、または、前記アクチュエータからの信号と前記エンコーダからの信号との組み合わせである、請求項3に記載のマニピュレータ学習制御装置。
  5. 前記状態検出器は、ポジショニングセンサ、エンコーダ、または、前記ポジショニングセンサと前記エンコーダとの組み合わせである、請求項3に記載のマニピュレータ学習制御装置。
  6. 前記少なくとも1つの物体検出器は、前記物体状態信号を生成するRGBまたはRGBDカメラである、請求項1に記載のマニピュレータ学習制御装置。
  7. 前記物体状態データは、予め定められた期間における前記物体の位置の逐次測定データのセットを表す、請求項1に記載のマニピュレータ学習制御装置。
  8. 前記少なくとも1つの物体検出器は、前記操作システムから分離される、請求項1に記載のマニピュレータ学習制御装置。
  9. 前記マニピュレータの前記状態検出器は、前記操作システムの接合部位置に配置される、請求項1に記載のマニピュレータ学習制御装置。
  10. 前記マニピュレータ状態データは、予め定められた期間における前記マニピュレータの位置の逐次測定データのセットを表す、請求項3に記載のマニピュレータ学習制御装置。
  11. 前記DF-SPGPモデル学習プログラムは、前記マニピュレータのおよび/または前記マニピュレータが操作する前記物体の挙動を予測する、請求項1に記載のマニピュレータ学習制御装置。
  12. 前記DF-SPGPカーネル学習プログラムは、前記マニピュレータのおよび/または前記マニピュレータが操作する前記物体の挙動を予測する前記DF-SPGPモデル学習プログラムを定義する、請求項7に記載のマニピュレータ学習制御装置。
  13. 前記少なくとも1つの物体検出器は、前記物体状態信号を生成する位置エンコーダである、請求項1に記載のマニピュレータ学習制御装置。
  14. コンピュータにより実現されるマニピュレータ学習方法であって、前記マニピュレータ学習方法は、
    予め設定された期間の間、初期ポリシープログラムに従って操作システムを動作させるステップを含み、前記初期ポリシープログラムは、物体を操作するためにマニピュレータシステムを動作させる学習プロセスを開始させ、前記マニピュレータ学習方法はさらに、
    前記予め設定された期間の間、マニピュレータ状態信号と物体状態信号とを受信するステップと、
    前記予め設定された期間において受信した前記マニピュレータ状態信号および前記物体状態信号のセットから変換された物体状態履歴データおよびマニピュレータ状態履歴データに従って、DF-SPGPモデル学習プログラムを更新するステップと、
    前記更新したDF-SPGPモデル学習プログラムに従って更新ポリシープログラムを更新するステップとを含む、マニピュレータ学習方法。
  15. 前記更新した更新ポリシープログラムを前記操作システムに送信するステップをさらに含む、請求項14に記載のマニピュレータ学習方法。
  16. 前記マニピュレータ状態信号は、前記操作システムの移動部分に配置された状態検出器によって検出される、請求項14に記載のマニピュレータ学習方法。
  17. 前記マニピュレータ状態信号は、前記操作システムのアクチュエータからの信号、前記操作システムのエンコーダからの信号、または、前記アクチュエータからの信号と前記エンコーダからの信号との組み合わせである、請求項16に記載のマニピュレータ学習方法。
  18. 前記状態検出器は、ポジショニングセンサ、エンコーダ、または、前記ポジショニングセンサと前記エンコーダとの組み合わせである、請求項16に記載のマニピュレータ学習方法。
  19. 前記少なくとも1つの物体検出器は、前記物体状態信号を生成するRGBまたはRGBDカメラである、請求項14に記載のマニピュレータ学習方法。
  20. 前記物体状態データは、予め定められた期間における前記物体の位置の逐次測定データのセットを表す、請求項14に記載のマニピュレータ学習方法。
  21. 前記少なくとも1つの物体検出器は、前記操作システムから分離される、請求項14に記載のマニピュレータ学習方法。
  22. 前記状態検出器は、前記操作システムの接合部位置に配置される、請求項14に記載のマニピュレータ学習方法。
JP2022533021A 2019-09-30 2020-07-29 ロボットシステムのためのデリバティブフリーモデル学習のシステムおよび設計 Pending JP2022543926A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/587,490 US11389957B2 (en) 2019-09-30 2019-09-30 System and design of derivative-free model learning for robotic systems
US16/587,490 2019-09-30
PCT/JP2020/030104 WO2021065197A1 (en) 2019-09-30 2020-07-29 System and design of derivative-free model learning for robotic systems

Publications (1)

Publication Number Publication Date
JP2022543926A true JP2022543926A (ja) 2022-10-14

Family

ID=72322509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022533021A Pending JP2022543926A (ja) 2019-09-30 2020-07-29 ロボットシステムのためのデリバティブフリーモデル学習のシステムおよび設計

Country Status (5)

Country Link
US (1) US11389957B2 (ja)
EP (1) EP3856468A1 (ja)
JP (1) JP2022543926A (ja)
CN (1) CN114450131A (ja)
WO (1) WO2021065197A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018215061A1 (de) * 2018-09-05 2020-03-05 Robert Bosch Gmbh Verfahren zum sicheren Trainieren eines dynamischen Modells
US11440196B1 (en) * 2019-12-17 2022-09-13 X Development Llc Object association using machine learning models
JP7463777B2 (ja) * 2020-03-13 2024-04-09 オムロン株式会社 制御装置、学習装置、ロボットシステム、および方法
CN114609925B (zh) * 2022-01-14 2022-12-06 中国科学院自动化研究所 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
CN114193458B (zh) * 2022-01-25 2024-04-09 中山大学 一种基于高斯过程在线学习的机器人控制方法
CN114789443B (zh) * 2022-04-29 2024-02-23 广东工业大学 一种基于多源信息深度强化学习的机械臂控制方法及***

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015105597A2 (en) * 2013-11-27 2015-07-16 The Trustees Of The University Of Pennsylvania Multi-sensor fusion for robust autonomous flight in indoor and outdoor environments with a rotorcraft micro-aerial vehicle (mav)
US10488865B2 (en) * 2014-12-16 2019-11-26 Al Incorporated Methods and systems for robotic surface coverage
US9889566B2 (en) 2015-05-01 2018-02-13 General Electric Company Systems and methods for control of robotic manipulation
WO2017151926A1 (en) * 2016-03-03 2017-09-08 Google Inc. Deep machine learning methods and apparatus for robotic grasping
CN109074513B (zh) * 2016-03-03 2020-02-18 谷歌有限责任公司 用于机器人抓握的深度机器学习方法和装置
EP3504034A1 (en) * 2016-09-15 2019-07-03 Google LLC. Deep reinforcement learning for robotic manipulation
JP6438512B2 (ja) 2017-03-13 2018-12-12 ファナック株式会社 機械学習により補正した計測データでワークの取り出しを行うロボットシステム、計測データ処理装置および計測データ処理方法
JP6983524B2 (ja) 2017-03-24 2021-12-17 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
JP6549644B2 (ja) 2017-06-27 2019-07-24 ファナック株式会社 機械学習装置、ロボット制御システム及び機械学習方法
US11475291B2 (en) * 2017-12-27 2022-10-18 X Development Llc Sharing learned information among robots
JP7011239B2 (ja) * 2018-08-17 2022-01-26 横河電機株式会社 装置、方法、プログラム、および、記録媒体
US11559884B2 (en) * 2018-11-28 2023-01-24 Kindred Systems Inc. Systems and methods for a passive grasping surface on an active grasping robotic manipulator
JP7000359B2 (ja) * 2019-01-16 2022-01-19 ファナック株式会社 判定装置
CN110171753B (zh) * 2019-06-03 2021-09-21 日立楼宇技术(广州)有限公司 一种电梯调度策略处理方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ROMERES,DIEGO ET AL.: "Derivative-Free Semiparametric Bayesian Modelsfor Robot Learning", HOME PAGE OF MERL -MITSUBISHI ELECTRIC RESEARCH LABORATORIES-, JPN7023001343, 7 December 2018 (2018-12-07), ISSN: 0005130332 *

Also Published As

Publication number Publication date
US11389957B2 (en) 2022-07-19
CN114450131A (zh) 2022-05-06
WO2021065197A1 (en) 2021-04-08
EP3856468A1 (en) 2021-08-04
US20210094174A1 (en) 2021-04-01

Similar Documents

Publication Publication Date Title
JP2022543926A (ja) ロボットシステムのためのデリバティブフリーモデル学習のシステムおよび設計
US11235461B2 (en) Controller and machine learning device
Nemec et al. Human robot cooperation with compliance adaptation along the motion trajectory
Abu-Dakka et al. Adaptation of manipulation skills in physical contact with the environment to reference force profiles
JP6456555B1 (ja) キャリブレーション装置、キャリブレーション方法および制御装置
KR101942167B1 (ko) 전방향 휠을 가지고 선형 예측 위치 및 속도 제어기를 기초한 휴머노이드 로봇
Mordatch et al. Combining model-based policy search with online model learning for control of physical humanoids
CN112428278A (zh) 机械臂的控制方法、装置及人机协同模型的训练方法
JP7324932B2 (ja) 動的計画コントローラ
JP2009288934A (ja) データ処理装置、データ処理方法、及びプログラム
Altuntaş et al. Reinforcement learning-based mobile robot navigation
US11975451B2 (en) Simulation-in-the-loop tuning of robot parameters for system modeling and control
Zhao et al. Stability and performance limits of latency-prone distributed feedback controllers
JP2022061022A (ja) 力及びトルク誘導ロボット組立のための技術
US20220179419A1 (en) Method and System for Modelling and Control Partially Measurable Systems
JP2021501433A (ja) ターゲットシステム用制御システムの生成
KR20230154076A (ko) 실시간 로보틱스 제어 프레임워크
JP7487338B2 (ja) 分散型ロボット実証学習
Zhang et al. Time delay compensation of a robotic arm based on multiple sensors for indirect teaching
TWI781708B (zh) 學習裝置、學習方法、學習程式、控制裝置、控制方法及控制程式
JP7391635B2 (ja) 制御システム
CN116265202A (zh) 一种机器人的控制方法、装置及介质、一种机器人
CN116476067A (zh) 机器人运动控制方法、设备及介质
Luz et al. Model Predictive Control for Assistive Robotics Manipulation
Erez et al. Receding-horizon online optimization for dexterous object manipulation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220202

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230519

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230816