JP7391635B2 - 制御システム - Google Patents

制御システム Download PDF

Info

Publication number
JP7391635B2
JP7391635B2 JP2019215401A JP2019215401A JP7391635B2 JP 7391635 B2 JP7391635 B2 JP 7391635B2 JP 2019215401 A JP2019215401 A JP 2019215401A JP 2019215401 A JP2019215401 A JP 2019215401A JP 7391635 B2 JP7391635 B2 JP 7391635B2
Authority
JP
Japan
Prior art keywords
matrix
neural network
contact
control
force
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019215401A
Other languages
English (en)
Other versions
JP2021084188A (ja
Inventor
健史 伊藤
弘二 石原
淳 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2019215401A priority Critical patent/JP7391635B2/ja
Publication of JP2021084188A publication Critical patent/JP2021084188A/ja
Application granted granted Critical
Publication of JP7391635B2 publication Critical patent/JP7391635B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Manipulator (AREA)

Description

本発明は、多関節の構造物を駆動するための駆動システムの制御の技術に関するものである。
強化学習の応用、あるいは、ディープニューラルネットワークを用いた最適な制御方法をロボット制御に応用することが一般的な研究テーマとなっている(非特許文献1、非特許文献2)。
特に、モデルベースの方策学習は、サンプリング効率により、実際のロボットへの応用に大きな可能性を秘めている(非特許文献3、非特許文献4、非特許文献5)。しかし、以前のほとんどの方法は、1) シミュレートされた環境の場合や(非特許文献6、非特許文献7), 2) 実際の環境で物理的な接触なしの場合や(非特許文献8)、3) 物理的な接触を持つが、非常に正確な動きを必要としないタスクとして(非特許文献3、非特許文献4)、評価されている。
また、このようなアクチュエータとロボットから構成されるシステムは、一般に非線形システムとなり、非線形システムに対する最適制御の方法として、「非線形モデル予測制御(Nonlinear Model Predictive Control)」と呼ばれる手法が提案されている。(なお、以下、「線形」および「非線形」の場合を総称して、「モデル予測制御」と呼ぶ。)
図10は、このようなモデル予測制御の手続きを説明するための概念図である。
モデル予測制御では、まず、図10(A)に示すように、現在時刻tから有限時間先の(t + T)まで(この期間を「予測ホライズン」と呼ぶ)において、系に対する価値関数を最小化するように、最適な制御入力列とその予測値を求める。そして得られた最適な入力列の中で最初の制御入力u(t) のみを現在時刻t において入力する。続いて、図10(B)に示すように、次の時刻では, 再び現在時刻の状態を初期値として現在時刻tから有限時間先のt + T までにおいて最適な制御入力列とその予測値を求め、その中で最初の制御入力u(t)のみを入力する。さらに、図10(c)に示すように、次の時刻では、同様な手順を繰り返していく。各時刻においては、開ループの最適制御問題を解いているが、各時刻において初期値をフィードバックして考えていることから、開ループ系から閉ループ系にすることができる。
I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning. MIT Press, 2016. [Online]. Available: http://www.deeplearningbook.org
K. He, X. Zhang, S. Ren, and J. Sun, "Delving deep into rectifiers: Surpassing human-level performance on imagenet classification," in 2015 IEEE International Conference on Computer Vision (ICCV), 2015, pp. 1026-1034.
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, "Attention is all you need," in Advances in Neural Information Processing Systems 30, 2017, pp. 5998-6008. [Online]. Available: http://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf
D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, Y. Chen, T. Lillicrap, F. Hui, L. Sifre, G. van den Driessche, T. Graepel, and D. Hassabis, "Mastering the game of go without human knowledge," Nature, vol.550, pp. 354-359, Oct 2017, article.
K. Ishihara and J. Morimoto, "Real-time model predictive control with two-step optimization based on singularly perturbed system," in 2015 IEEE-RAS 15th International Conference on Humanoid Robots (Humanoids), Nov 2015, pp. 173-180.
J. Kober, J. A. Bagnell, and J. Peters, "Reinforcement learning in robotics: A survey," The International Journal of Robotics Research, vol. 32, no. 11, pp. 1238-1274, 2013.
S. Levine, P. Pastor, A. Krizhevsky, J. Ibarz, and D. Quillen, "Learning hand-eye coordination for robotic grasping with deep learning and largescale data collection," The International Journal of Robotics Research, vol. 37, no. 4-5, pp. 421-436, 2018.
S. Gu, E. Holly, T. Lillicrap, and S. Levine, "Deep reinforcement learning for robotic manipulation with asynchronous off-policy updates," in 2017 IEEE International Conference on Robotics and Automation (ICRA), May 2017, pp. 3389-3396.
しかしながら、物理的な接触を扱い、正確な動きを生成することは、正確な操作や地上の急速な移動などの実用的なロボット制御タスクでは避けられない。
オンラインモデルベースのアプローチでは、正確な動きを必要とする接触リッチなタスクの難しさは、単にセンサーで接触イベントを検出するのではなく、限られた時間内に接触イベントを正確に予測する必要性が高いということである。
さらに、物理システムからデータを取得してモデルをトレーニングするには時間がかかる。したがって、接触リッチなタスクに対するサンプル効率的なトレーニング手順と、限られた量のデータでネットワークモデルを学習できるネットワーク構造を開発する必要があり、同時に、将来の状態の正確かつ迅速な予測を提供する必要がある。
ただし、以前のほとんどの方法は、シミュレートされた環境でも、実際の環境でも、物理的な接触が全くない場合か、あるいは、物理的な接触を持つ実際の環境では、非常に正確な移動を必要としないタスクに対して評価されているに過ぎない、という問題があった。
本発明は、上記のような問題点を解決するためになされたものであって、その目的は、対象に接触して対象を運動させる駆動系に対して、実時間制御を可能とする駆動システムを提供することである。
この発明の1つの局面に従うと、複数のパラメータで状態が規定される多関節の構造体を目標状態となるように駆動するための制御システムであって、複数のパラメータを計測するためのセンサと、制御信号で制御され、多関節の構造体の関節を駆動するためのアクチュエータ手段と、制御信号を生成するための制御手段とを備え、制御手段は、多関節の構造体のダイナミクスをモデル化するニューラルネットワークと、ニューラルネットワークで予測されるダイナミクスに基づいて、制御信号を、反復線形二次レギュレータによるモデル予測制御で生成するレギュレータ手段とを含み、ニューラルネットワークは、学習処理として、多関節の構造体が、接触して駆動するべき対象に接触していない状態で、ランダムな動きの非接触運動の学習データを収集し、非接触の学習データによりニューラルネットワークを学習させて非接触モデルを生成し、オペレータによって対象に構造体の一部を接触させて生成された動きに応じたパラメータを測定し、非接触モデルを使用して、接触運動の学習データを収集し、収集された接触運動の学習データにより、学習処理を実施して、接触状態でのダイナミクスのモデルを生成する。
好ましくは、ニューラルネットワークは、構造体の運動を表現する一般化座標の加速度を、コリオリ力および重力を表す第1の力関連行列と関節トルクおよび外部接触力を表す第2の力関連行列との和と逆慣性行列との積で表すとき、逆慣性行列を表現する第1のニューラルネットワークと、第1の力関連行列を表現する第2のニューラルネットワークと、第2の力関連行列を表現する第3のニューラルネットワークとを含む。
好ましくは、ニューラルネットワークは、構造体の運動を表現する一般化座標の加速度を、コリオリ力および重力を表す行列と関節トルクおよび外部接触力を表す第2の行列とを統合した統合力関係行列と逆慣性行列との積で表すとき、逆慣性行列を表現する第1のニューラルネットワークと、統合力関行列を表現する第2のニューラルネットワークとを含む。
好ましくは、逆慣性行列の逆行列は、対称な正定値行列である。
好ましくは、逆慣性行列は、構造体と対象とに対応する要素が、分割して配置される対称行列である。
本発明の駆動システムによれば、対象に接触して対象を運動させる駆動系に対して、実時間制御する駆動システムが可能となる。
本実施の形態におけるフィンガーロボットで使用される関節構造の構成事例を示す図である。 制御装置20において、制御信号を生成する制御プログラムの構成と動作を説明するための概念図である。 全接続型のニューラルネットワークの構成を示す概念図である。 構造化ニューラルネットワークの構成を説明するための概念図である。 構造化ニューラルネットワークに対する2段階のモデル学習方法を説明するためのフローチャートである。 ロボットの動きに合わせて移動する画像中の車を示す概念図である。 実験の全長軌道を示す概念図である。 異なる時間ステップでテストされた各ネットワークの制御時間ステップとモデル予測制御のコストスコアを示す図である。 異なる時間ステップでテストされた各ネットワークの制御時間ステップとモデル予測制御のコストスコアを示す表である。 モデル予測制御の手続きを説明するための概念図である。
以下、本発明の実施の形態の機械的構造物に対する駆動システムの構成について、図に従って説明する。なお、以下の実施の形態において、同じ符号を付した構成要素および処理工程は、同一または相当するものであり、必要でない場合は、その説明は繰り返さない。
実際の環境でオンラインモデルベースの制御に使用できるニューラルネットワークモデルを構成する手法について説明する。モデルベースの方策学習は、サンプリング効率が高いため、実際のロボットへの応用に大きな可能性を有する。
一方、物理的な接触を扱い、正確な動きを生成することは、正確な操作や地上の急速な移動などの実用的なロボット制御タスクでは避けられない。オンラインモデルベースのアプローチでは、正確な動きを必要とする接触リッチなタスクの難しさは、モデルが、単にセンサーで状態を検出するだけではなく、限られた時間内に接触イベントを正確に予測する必要があることである。
そこで本実施の形態では、ニューラルネットワークモデルが、接触イベントを含む将来の状態を予測する際に、モデルベースの制御に十分に役立つタスク関連モデルを学習できる構成を説明する。
以下では、接触リッチなタスクとして、「実際の」3DoF(自由度)の フィンガーロボットを使用してトラックボール操作タスクを取り上げる。
その結果、明示的な慣性行列表現を持つ構造化ネットワークモデルの操作パフォーマンスが、標準的な全接続されたネットワークモデルの操作パフォーマンスよりも優れていることが示される。
ただし、以下の説明のような制御方法は、より一般的に、多関節の構造体の動作を制御することに使用することが可能である。
[実施の形態]
図1は、本実施の形態におけるフィンガーロボットで使用される関節構造の構成事例を示す図である。
フィンガーロボット40を制御するためのコマンドが、制御装置20から、通信経路を介してフィンガーロボットに与えられる。特に限定されないが、制御装置20は、汎用のパーソナルコンピュータを用いることが可能であり、通信経路としては、イーサネット(登録商標)ケーブルを用いることができる。もちろん、通信経路としては、その他の規格の有線通信の経路の他、無線による通信経路、たとえば、無線LAN(Local Area Network)や他の通信規格の無線などを使用してもよい。
制御装置20は、ユーザからの指示入力を受ける入力部208と、コマンドを生成するためのプログラムや、様々な制御パラメータなど制御のために必要とされるデータが記録された不揮発性の記憶装置206と、制御装置20を起動するためのファームウェアが記憶されたROM(Read Only Memory)や、ワーキングメモリとして動作するRAM(Random Access Memory)などを含むメモリ204と、プログラムに応じて、コマンドを生成する処理を実行する演算装置210と、コマンドを通信経路を介して、フィンガーロボットに送信するためのインタフェース(I/F)部202と、演算装置210の制御の下で、フィンガーロボット40への制御の状態に関する情報などを表示するための表示装置212とを備える。
上述のとおり、制御装置20が、汎用のパーソナルコンピュータである場合は、演算装置210は、CPU(Central Processing Unit)で構成され、不揮発性の記憶装置206としては、ハードディスクドライブやソリッドステートドライブなどを用いることができる。ただし、制御装置20の機能ブロックの一部または全部は、専用のハードウェアにより構成されてもよい。
フィンガーロボット40は、一例として、第1~第4関節までを含むアーム121を備える構成である。
ロボットフィンガーは4本のリンクで構成されており、1番目~3番目の3つの関節はモータによって駆動され、3番目と4番目の関節は機械的なリンク(3自由度)によって接続されている。ロボットの前にトラックボール装置が取り付けられる。
各関節は、制御装置20からの信号に応じて、(図示しない)モータドライバにより駆動される電動モータが設けられる。
なお、関節を駆動するアクチュエータとしては、電動モータに限られず、他の駆動機構を使用してもよい。
検出機構124は、各関節の関節角度や各関節にかかるトルクを検知する。検出機構124は、例えば、各関節に配置された関節角度を検出する角度センサ、関節にかかるトルクを検出するトルクセンサや、トラックボールの状態(トラックボールで移動されるカーソルの2次元座標としての位置)を検出するセンサなどである。
(制御ソフトウェアの構成)
図2は、制御装置20において、制御信号を生成する制御プログラムの構成と動作を説明するための概念図である。
後述のとおり、フィンガーロボットのダイナミクス(動的な運動特性)は、ニューラルネットワークによりモデル化され、このようなモデルを特定するためのニューラルネットワークのパラメータは、記憶装置206に格納される。制御信号は、後述するように、このようにニューラルネットワークによりモデル化されたダイナミクスに基づいて、演算装置210により実行されるモデル予測制御の方法で、生成される。
このようなニューラルネットワークについては、接触イベントを含む、学習処理の手順に対して、接触リッチなタスクを行うための2段階のモデル学習手法が実行される。
ここで、図2(a)に示すように、演算装置210は、第1段階では、ロボットシステムのランダムな動きを通じて非接触モデルを、学習により生成する。第2段階では、演算装置210は、接触リッチな動作に関するデータ(関節角度、関節角速度、その他の状態変数の情報)を、人間のオペレータのガイダンスによる動きに基づいて、さらにフィンガーロボットからサンプリングし、第1段階のモデルから、モデルベースのコントローラを導出する。
ニューラルネットワークのネットワーク構造については、物理ダイナミクスのドメイン知識を用いるよう考慮する。
一般には、「ドメイン知識(領域知識)」は、ターゲット・システムが動作している環境に関する知識である。
ここで、たとえば、このようなドメイン知識の一例として、物理系の慣性行列は正値定符号行列であるべきであることは、よく知られている。そこで、図2(b)に示し、また、後により詳しく説明するように、ネットワーク構造に慣性行列の明示的な表現を導入することは、限られた量のデータを持つタスクのモデルをトレーニングする場合に有効と考えられる。このような対象の物理的な制約による慣性行列の明示的な構成を導入したニューラルネットワークを「構造化ニューラルネット」と呼ぶ。
上述の通り、ニューラルネットワークモデルを用いてロボットの動きを生み出すために、オンラインモデルベースの制御法としてモデル予測制御を採用する。したがって、本実施の形態では、この制御アプローチをニューラルネットワークモデル予測制御(NN-MPC)と呼ぶ。
(ニューラルネットワークのモデル予測制御の構成)
以下では、ニューラルネットワークのモデル予測制御 (NN-MPC) フレームワークの背景をまとめる。
簡単に言えば、本実施の形態でのモデル予測制御(MPC:Model Predictive Control)は、各時間ステップでダイナミクスのモデルを使用して、最適な制御信号を導出するものであり、NN-MPCはニューラルネットワークをダイナミクスモデルとして使用するモデル予測制御のアプローチである。
以下では、制御対象について、状態変数 xt ∈RNxを持つ状態空間モデルと制御シグナル ut∈RNuを考える。ここで、tは、時刻のインデックスである。この状態空間における離散時間での非線形力学系は以下のように表現される。
NN-MPC では、ニューラルネットワークを使用してダイナミクス関数 fをモデル化する。
従来の技術では、ニューラルネットワークとしては、全接続されたネットワーク(非特許文献5)や繰り返しニューラルネットワーク(非特許文献4)が使用された。
これに対して、ダイナミクス関数fを表すために、本実施の形態のモデルでは、構造化ニューラルネットワークを使用する。
また、モデル予測制御に関しては、有限ホライズン T、コスト関数 l(x, u)、および、終末コスト lf (x) を指定して、制御シーケンス U0≡{u0,u1,…, uT-1}と総コスト関数 J(x0,0) を、以下の式(2) として定義する。
最適な制御シーケンス U0 * は、この総コスト関数を使用して定義される。
モデル予測制御は、各時間ステップで式(1)のダイナミクスの下で、最適な制御シーケンスを導出するものであり、まず、初期状態 x0を観測状態に設定する。最適化が完了すると、U0 *の最初の要素である u0 *のみを制御信号としてシステムに適用する。
引き続いて、新しい状態が観察されると、同じ手順を繰り返して U1 *を計算し、u1 * を制御信号としてシステムに適用する。
ただし、式(3)で表される最適な制御シーケンスは、一般に非線形システムダイナミクスの下では、解析的に導き出すことはできない。
そこで、反復線形二次レギュレータ(iLQR)は、以下の公知文献にも記載されるように、最適な制御配列を導出するためによく使用される。
公知文献:J. Schulman, S. Levine, P. Abbeel, M. Jordan, and P. Moritz, “Trust region policy optimization,” in International Conference on Machine Learning, 2015, pp. 1889-1897. [Online].
公知文献:N. Heess, S. Sriram, J. Lemmon, J. Merel, G. Wayne, Y. Tassa, T. Erez, Z. Wang, A. Eslami, M. Riedmiller et al., “Emergence of locomotion behaviours in rich environments,” arXiv preprint arXiv:1707.02286, 2017. [Online]. Available: https://arxiv.org/pdf/1707.02286
Available: http://proceedings.mlr.press/v37/schulman15.pdf
簡単に言えば、反復線形二次レギュレータでは、制御対象のダイナミクスとコスト関数は、それぞれ、直線的および二次的に近似され、次にガウスニュートン法に類似の方法を用いて、iLQRの制御シーケンスを最適化する。
反復線形二次レギュレータ法では、制御シーケンスを効率的に計算するので、反復線形二次レギュレータ(iLQR)はモデル予測制御(MPC)において、広く使用されている。反復線形二次レギュレータ(iLQR)における線形のシステムダイナミクスと2次コスト関数を導出するには、ダイナミクスの微分(fx、fu)およびコスト関数の微分(lx, lu, lxx, lxu, luu)が必要である。
なお、ここで、以下のようにベクトル添え字を使用して、偏微分を示す。
ニューラルネットワークをダイナミクスモデルとして使用する場合は、ネットワーク上でダイナミクスの導関数を計算する必要がある。このような微分の計算手法については、後述する。
(構造化 NN-MPCについての方法)
以下では、慣性行列を明示的に表現したネットワークモデルを使用する構造化 NN-MPCについて説明する。
(1 ロボットダイナミクスをモデル化する構造化ニューラルネットワーク)
式(1)でのロボットの離散時間のダイナミクスを、以下の状態変数xで考えてみる。
ここで、qTと q(ドット)Tは、それぞれ対象となる多関節の構造体について、構造体の作業空間上の位置、速度、さらに各関節の関節角および関節角速度に基づいて決定される一般化された位置と速度を示す。
なお、変数Xに対して、変数X(ドット)は、変数Xの頭部に・が1つ付されていることを示し、変数Xの時間についての1次微分を示す。同様にして、変数Xに対して、変数X(ツードット)は、変数Xの頭部に・が2つ付されていることを示し、変数Xの時間についての2次微分を示すものとする。
時間ステップをΔtとすると、次回ステップのインデックス [qt+1 , q(ドット)t+1]の状態は、オイラー法をもちいた数値積分によって計算される。一般化加速度q(ツードット)は、以下の式(4)として表される。
ここで、式(4a)において、M-1は逆慣性行列で、Cは重力とコリオリ力を示し、Fは関節トルクと外部接触力を表す。また、式(4b)のように、これらの力をEとして組み合わせて表現できる。したがって、E項(E行列)を表現するニューラルネットワークには、物理的な接触に関する情報が潜在的に含まれる。ロボットは、この運動方程式を使用して、少数のパラメータでモデル化できるが、外部接触力を含むFとEのモデリングは、一般には、困難である。
一方、これまでの研究では、ニューラルネットワークの強力な関数近似能力をf(x,u)のモデル化に利用してきている(非特許文献4,非特許文献5など)。
図3は、このような従来使用されてきた、全接続型のニューラルネットワークの構成を示す概念図である。
複数の隠れ層があり、これらの隠れ層内の各ノードが、全接続されている。
しかし、これらの従来の研究で使用される大規模なネットワークのために、それらには大きなトレーニングデータセットを準備する必要があり、そのダイナミクスモデルはリアルタイムの高周波制御には適していない。
そこで、本実施の形態では、式(4)における、逆慣性行列 M-1および力関連項(行列) E(または 行列Cと 行列F) を明示的に表す目標ダイナミクス g をモデル化するように構造化ニューラルネットワークを設計する。
図4は、構造化ニューラルネットワークの構成を説明するための概念図である。
図4(a)に示す構造化ニューラルネットワーク(構造(A))は、式(4b)に対応して、重力とコリオリ力を表すCと、関節トルクと外部接触力とを表すFとを、統合力関係項(行列)Eとしてまとめた場合に、qと q(ドット)と制御信号uとの関数である力関係項Eを、隠れ層を有するニューラルネットワークとして近似した「Eネットワーク」と、qの関数である逆慣性行列要素m(バー)を、隠れ層を有するニューラルネットワークとして近似した「Mネットワーク」とを含む。
一方で、図4(b)に示す構造化ニューラルネットワーク(構造(B))は、式(4a)に対応して、重力とコリオリ力を表しqと q(ドット)の関数である第1の力関係項(行列)Cを、隠れ層を有するニューラルネットワークとして近似した「Cネットワーク」と、関節トルクと外部接触力とを表しqと q(ドット)と制御信号uとの関数である第2の力関係項(行列)Fを、隠れ層を有するニューラルネットワークとして近似した「Fネットワーク」と、qの関数である逆慣性行列要素m(バー)を、隠れ層を有するニューラルネットワークとして近似した「Mネットワーク」とを含む。
「Eネットワーク」(または「Cネットワーク」および「Fネットワーク」)は、直接一般化された力を表すが、「Mネットワーク」には慣性行列についてのドメイン知識を利用する。すなわち、慣性行列は必ず対称的な正定値行列であるという知識であり、この制約により、Mネットワークは、M-1の上側三角形要素 m(バー)のみを予測することで、完全な逆慣性行列を再構築できる (図4(a)のボックス内の項目を参照)。
Mネットワークと Eネットワーク(または「Cネットワーク」および「Fネットワーク」)の両方のすべての隠れ層は、正規化線形関数(ReLU:Rectified Linear Unit)型(ランプ関数型)の活性化関数である。なお、システムに追加のドメイン知識がある場合は、ネットワーク上の制約として導入できる。

(2 構造化ニューラルネットワークダイナミクスによるモデルベース制御)
図4で説明した構造化ニューラルネットワークに対して、接触リッチなタスクを学習するために、2段階のモデル学習方法を採用する。
図5は、構造化ニューラルネットワークに対する2段階のモデル学習方法を説明するためのフローチャートである。
図5を参照して、学習処理において、演算装置210は、第1段階では、ロボットシステムが対象に接触していない状態で、ランダムな動きの非接触運動の学習データを収集し、この非接触の学習データによりニューラルネットワークを学習させて非接触モデルを生成する(S100)。
演算装置210は、第2段階では、運動教示アプローチとして、オペレータによって対象にロボットの指先を接触させて生成された様々な接触リッチな動きを測定して、第1段階で学習した非接触モデルを使用して、モデルベースの制御方法によって、与えられたターゲットの動きを追跡して、接触運動の学習データを収集する(s110-1)。このトラッキングを通じてサンプリングされた動作データ(接触運動の学習データ)を使用して、ニューラルネットワークを学習させて、接触状態でのダイナミクスを潜在的に含むモデルを生成する(s110-2)。
(3 構造化ニューラルネットワークダイナミクスによるモデルベース制御)
学習処理がされた構造化ニューラルネットワークを用いて、式(4a)または式(4b)で示されるようなフィンガーロボットのシステムダイナミクスが表されるとの前提で、さらに、反復線形二次レギュレータ(iLQR)を使用して最適な制御シーケンスU*を決定するには、システムダイナミクスfとコスト関数lの導関数 (fx, fu, lx, lxxなど) を計算する必要がある。これらの計算のためのアルゴリズムは、通常は、時間を要するものとなる。
ただし、コスト関数は設計の対象となるため、解析的に微分可能なものとできる。
一方で、システムダイナミクスの微分については、本実施の形態では、以下のように、構造化ニューラルネットワークを用いて計算することができる。
離散時間でのダイナミクスに関しては、fの微分は、式(4a)の加速度関数の微分のgxおよびguを用いて計算される。ニューラルネットワークを使用して g を予測する重要な利点は、時間のかかる数値微分ではなく、ニューラルネットワーク上のバックプロパゲーション (BP) を介して g x と guを解析的に計算できることである。
BPを使用して、q(ツードット)の各要素の勾配ベクトル全体を一度に計算することができる。qn(ツードット)は q (ツードット)の n番目の要素を示し、以下のzを定義する。
勾配ベクトルは、初期勾配ベクトルを以下のように設定することで、BPによって計算される。
すべての n に対して勾配ベクトルの各成分を計算すると、gxとguが得られる。
初期勾配は、図4に示されるとおり、構造化ニューラルネットワークの出力がサブネット(全体のネットワークに対する部分ネットワーク)の出力の積として計算されるため、MネットワークとEネットワーク(または、M、C、およびFネットワーク)の両方に分散させる必要があることに注意する。特に、Mネットワークの初期勾配は、M-1の対称性を考慮して決定されなければならない。
両方のサブネットワークの出力レイヤーに勾配ベクトルを設定すると、標準的なBP の演算処理が実行される。
最後に、ニューラルネットワークのダイナミクスモデルを使用して、より高速な反復線形二次レギュレータ(iLQR)プログラムを実装するために、以下のような構成とする。
i)ループ内の各時間ステップで g の微分を計算するのではなく、行列乗算を使用して名目上の軌道全体のバッチで g の微分を計算する。
ii)勾配ベクトルの計算は nに関して相互に独立しているため、並列化できる。
iii)すべての計算は、通常ニューラルネットワークの演算処理に使用される並列演算に適したGPU (Graphics Processing Unit)ではなく CPU(Central Processing Unit:中央演算処理装置) で実行する必要がある。CPU と GPU 間のデータ転送コストは、GPU の高速線形代数計算の利点を超えることになるからである。

(実験の構成)
以下に説明する通り、接触リッチなタスクとして、「実際の」3DoF(自由度) フィンガーロボットを使用したトラックボール操作タスクを検討した。その結果、明示的な慣性行列表現を持つ制約付きネットワークモデル (この実施の形態では構造化 NN-MPC と呼ばれるフレームワーク) の制御パフォーマンスが、標準の全接続されたネットワークモデルの制御パフォーマンスよりも優れていることがわかった。
また、正確な操作作業に対して、ネットワークモデルの高速計算の重要性、すなわち小さな制御時間ステップの重要性を明確にするために、異なる制御期間を持つ制御性能を評価した。
構造化NN-MPCアプローチを評価するために、5DoFシステム上で行われる接触リッチなドライビングゲームタスクを実施した。構造化 NN-MPC と、全接続されたネットワークである標準 NN-MPC の制御性能と比較した。

(1 システムのセットアップ)
制御の対象となるのは5DoF(自由度)のロボットフィンガーであり、トラックボールをロボットフィンガーが駆動するシステムである。
ロボットフィンガーは4本のリンクで構成されており、1番目~3番目の3つの関節はモータによって駆動され、3番目と4番目の関節は機械的なリンク(3自由度)によって接続されている。ロボットの前にトラックボール装置が取り付けられ、その観測値は、カーソルの位置(2自由度)であった。システムはリアルタイムで制御され、現在の状態xtを10ミリ秒ごとに NN-MPC に送信し、次に 2つのプロセッサ(CPU)を搭載したコンピューティングサーバー上に実装されたNN-MPC は、10ミリ秒以内に、次の時間ステップに最適な制御信号を送り返した。
この制御信号は、所望のトルクを表し、モータドライバによって所望の電流に変換される。この実験では、システムにはコンタクトセンサーが取り付けられていなかったが、接触ダイナミクスはEネットワークモデルで潜在的に表現されている。

(2 ニューラルネットワークダイナミクスモデルのトレーニング)
クラウドサービスで提供されているディープラーニングフレームワークを使用して、構造化ニューラルネットワークを実装した。この実験では、ロボットとトラックボールシステムの性質上、Mネットワークに以下のような追加の制約を適用した。
a)ロボットとトラックボールは物理的に接続されていないため、慣性行列は2つのサブマトリックスに分割され、残りの要素はゼロになる。
b)トラックボールは球状の剛体であり、幾何学的に対称であるため、トラックボールについてのサブマトリックスの対角要素は同じ値を取る。したがって、Mネットワークのm(バー)の出力と再構成された完全慣性逆行列M-1の関係は次のとおりである。
ここで、左上のサブマトリックスはロボットに関連し、右下のサブマトリックスは、対角要素が同じ値を共有するトラックボールに関連している。
上述したニューラルネットワークを訓練するために、q、q(ドット)、u、q(ツードット)のタプルによる状態変数で構成されたロボット運動の軌跡を記録した。
上述したような2段階のネットワークトレーニング手順を採用した。
第1段階では、ロボットにランダム制御シーケンスを適用しながら軌道を記録した。正規分布から10時間ステップ(100ミリ秒)ごとに所望のトルクをサンプリングし、同じ信号をロボットに10時間ステップで供給した。正規分布の分散は、モータのトルク限界に関連して決定された。
結果として得られる軌道に接触についての情報が含まれることはなく、ロボットフィンガーのダイナミクスモデルは、トラックボールに対する「コンタクトレス(非接触)」の状況下で訓練することができる。
第2段階では、この「接触なし」ダイナミクスモデルを使用して、接触面の周りのロボットを制御した。オペレータの手で擬似的にロボットフィンガーをランダムに動かして、ロボットとトラックボールが触れ続ける参照関節軌道を作成した。この関節軌道に従うようにロボットを制御することで、「接触リッチな」軌道データセットを得た。このデータセットから学習することで、ニューラルネットワークは、“接触リッチな”ダイナミクスをモデル化できる。
どちらのトレーニング ステップでも、トレーニング データセットは 10分間 (60,000データ ポイント) で収集され、このデータセットの 80%がトレーニングに使用され、残りの20%が検証に使用された。
最高のパフォーマンスを求めて、1,2,3,5,8層の隠しレイヤーを持つ様々なサイズのネットワークをトレーニングし、それぞれが、20~500個の隠しユニットを有していた。このような大規模なネットワークでの反復線形二次レギュレータ最適化は、MPCの時間ステップの 10 ミリ秒の制限を守ることができないため、8層500ユニット ネットワークなど、これらの一部は省略された。パフォーマンスを比較するために、完全に接続されたネットワークでこの実験を繰り返した。ネットワークサイズ決定を含む実験手順は、構造化ニューラルネットワークに用いられるものと同じであった。

(3 パフォーマンス評価)
図6は、ロボットの動きに合わせて移動する画像中の車を示す概念図である。
図6に示すように、トラックボールカーソルの水平位置がゲームウィンドウ内の車の水平位置を表す自動車運転ゲームタスクのネットワークモデルを用いて、オンラインモデルベースの制御方法を評価した。コースの中央の黄色い線が、所望の軌道としてNN-MPCに与えられた。NN-MPC は、次のコスト関数を使用して、式(2)の総コストを最小限に抑える最適な制御シーケンスを計算した。
ここで、hはカーソル位置の水平座標を示し、h*は目標カーソル位置 (図6の道路の中央線) を示し、Wh、Q、および R は各項の重みを示す。トラックボールカーソルにとって必要な軌道のみが与えられ、ロボットフィンガー自体にとって必要な軌道は与えられていないことに注意してほしい。
したがって、NN-MPCフレームワークは、ロボットとトラックボール間の接触力を介してトラックボールを回転させるために、ロボットのための制御信号を導出する必要があった。トライアル中のパフォーマンスは、式(7)であらわされるMPC コストの合計として定義されたこのゲームSのスコアによって評価された。
ここで、Ttrialはトライアルの全長を示す。
この実施の形態では、1つのドライビング コース レイアウトを使用することに重点を置いた。ただし、ネットワークモデルの訓練のためにコースに関する情報を使用しなかったため、コントロールのパフォーマンスにおいて、特定のコースレイアウトへの過適応が問題となることはない。

(実験結果)
(1 構造化 NN-MPC の制御パフォーマンス)
全接続されたネットワークを使用して、構造化 NN-MPC と標準 NN-MPC の両方をテストした。
図6は、構造(A)を持つ構造化ネットワークによって制御される車の軌道の一部を、車を制御するロボットの動きと共に示している。
図7は、この実験の全長軌道を示す概念図である。
構造化NN-MPCフレームワークは、全に接続されたネットワークのNN-MPCよりも優れたトラッキング性能を示した。
トレーニングされた構造化ニューラルネットワークの中で、MネットワークおよびEネットワークの両方に20個の隠されたユニットを持つ3つの隠れ層を持つネットワーク構造(A)によって最高のパフォーマンスが達成された。
構造(B)を持つネットワークの中で、最もパフォーマンスの高いネットワークでは、各 Mネットワーク、Cネットワーク、および Fネットワークに 20ユニットを持つ 1つの隠れ層を設けたものであった。
最高のパフォーマンスを達成した完全に接続されたネットワークは、1つの隠れ層と各層に75ユニットを有していた。2つ以上の隠れ層を持つ全接続されたネットワークは、制限されたトレーニングデータセットからダイナミクス モデルを学習できなかった。

(2 MPCにおける制御周波数の影響)
上述の実験では、制御時間ステップをΔt=10msに固定し、接触リッチな作業において制御ロボットに高周波制御が必要であることを確認するために、それぞれ10、20、30ms(100、50、33Hz)のように様々な制御時間ステップで実験を繰り返した。10ミリ秒の時間ステップを持つ構造化NN-MPCはコースを完了することができたが、より長い時間ステップでは、コースに従うことができない傾向があった。

(3 異なるネットワークモデル間の比較)
ドライビングゲームタスクの15の試験に対して、各ネットワークでNN-MPCをテストした。
図8は、異なる時間ステップでテストされた各ネットワークの制御時間ステップとモデル予測制御のコストスコアを示す図である。
図9は、異なる時間ステップでテストされた各ネットワークの制御時間ステップとモデル予測制御のコストスコアを示す表である。
制御時間ステップがΔt = 10ミリ秒の場合、構造化NN-MPCはコース上で車をうまく制御し、その平均コストスコアはそれぞれ構造(A)と(B)に対して32.9と34.9であり、両者の間に有意な差を示さなかった。2回の試験でコースに従うことができず、平均スコアが58.5であった全接続されたネットワークのNN-MPCを、構造化NN-MPCは上回った。
構造化NN-MPCのパフォーマンスは、より大きな制御時間ステップで大幅に悪化した。それにもかかわらず、構造(A)と(B)の両方が全接続されたネットワークよりも優れたパフォーマンスを示した。構造化NN-MPC は、20 ミリ秒の時間ステップで試行を何回か成功させ、20ミリ秒の全接続されたネットワークの試行と30ミリ秒のすべてが失敗した。時間ステップを30ミリ秒以上に設定すると、ロボットは1秒間でもトラックボールとの安定した接触を維持することができず、意味のある動きが発生しなかった。
これらの結果に対して双方向分散分析(ANOVA)を行った。ネットワークタイプ(p < 0.001)と時間ステップ(p<0.001)の両方に大きな影響を及ぼし、ネットワークタイプと時間ステップ(p = 0.005)との相互作用効果を観察し、時間ステップが増加すると、全接続されたネットワークのパフォーマンスが構造化ニューラルネットワークよりも急速に悪化したことを示している。
以上説明した通り、接触リッチなタスクモデルを習得するための2段階のトレーニング手順とすることで、構造化NN-MPCフレームワークが有用であることがわかる。構造化ネットワークモデルでは、慣性行列が明示的に表されているので、接触ダイナミクスが潜在的に予測された。
今回開示された実施の形態は、本発明を具体的に実施するための構成の例示であって、本発明の技術的範囲を制限するものではない。本発明の技術的範囲は、実施の形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲の文言上の範囲および均等の意味の範囲内での変更が含まれることが意図される。
20 制御装置、40 フィンガーロボット、124 検出機構、202 I/F部、204 メモリ、206 記憶装置、208 入力部、210 演算装置、212 表示装置。

Claims (5)

  1. 複数のパラメータで状態が規定される多関節の構造体を目標状態となるように駆動するための制御システムであって、
    前記複数のパラメータを計測するためのセンサと、
    制御信号で制御され、前記多関節の構造体の関節を駆動するためのアクチュエータ手段と、
    前記制御信号を生成するための制御手段とを備え、
    前記制御手段は、
    前記多関節の構造体のダイナミクスをモデル化するニューラルネットワークと、
    前記ニューラルネットワークで予測される前記ダイナミクスに基づいて、前記制御信号を、反復線形二次レギュレータによるモデル予測制御で生成するレギュレータ手段とを含み、
    前記ニューラルネットワークは、学習処理として、
    前記多関節の構造体が、接触して駆動するべき対象に接触していない状態で、ランダムな動きの非接触運動の学習データを収集し、非接触の学習データにより前記ニューラルネットワークを学習させて非接触モデルを生成し、
    オペレータによって前記対象に前記構造体の一部を接触させて生成された動きに応じた前記パラメータを測定し、前記非接触モデルを使用して、接触運動の学習データを収集し、収集された前記接触運動の学習データにより、学習処理を実施して、接触状態でのダイナミクスのモデルを生成する、制御システム。
  2. 前記ニューラルネットワークは、
    前記構造体の運動を表現する一般化座標の加速度を、コリオリ力および重力を表す第1の力関連行列と関節トルクおよび外部接触力を表す第2の力関連行列との和と逆慣性行列との積で表すとき、
    前記逆慣性行列を表現する第1のニューラルネットワークと、
    前記第1の力関連行列を表現する第2のニューラルネットワークと、
    前記第2の力関連行列を表現する第3のニューラルネットワークとを含む、請求項1記載の制御システム。
  3. 前記ニューラルネットワークは、
    前記構造体の運動を表現する一般化座標の加速度を、コリオリ力および重力を表す行列と関節トルクおよび外部接触力を表す第2の行列とを統合した統合力関係行列と逆慣性行列との積で表すとき、
    前記逆慣性行列を表現する第1のニューラルネットワークと、
    前記統合力関行列を表現する第2のニューラルネットワークとを含む、請求項1記載の制御システム。
  4. 前記逆慣性行列の逆行列は、対称な正定値行列である、請求項2または3記載の制御システム。
  5. 前記逆慣性行列は、前記構造体と前記対象とに対応する要素が、分割して配置される対称行列である、請求項2または3記載の制御システム。
JP2019215401A 2019-11-28 2019-11-28 制御システム Active JP7391635B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019215401A JP7391635B2 (ja) 2019-11-28 2019-11-28 制御システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019215401A JP7391635B2 (ja) 2019-11-28 2019-11-28 制御システム

Publications (2)

Publication Number Publication Date
JP2021084188A JP2021084188A (ja) 2021-06-03
JP7391635B2 true JP7391635B2 (ja) 2023-12-05

Family

ID=76088698

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019215401A Active JP7391635B2 (ja) 2019-11-28 2019-11-28 制御システム

Country Status (1)

Country Link
JP (1) JP7391635B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113771081B (zh) * 2021-07-06 2024-04-30 清华大学 一种基于物理的虚拟人手自动抓取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050187643A1 (en) 2004-02-19 2005-08-25 Pavilion Technologies, Inc. Parametric universal nonlinear dynamics approximator and use
JP2016215357A (ja) 2015-05-26 2016-12-22 国立大学法人 名古屋工業大学 パラメータ推定装置、パラメータ推定方法、プログラム及び制御装置
JP2017170553A (ja) 2016-03-23 2017-09-28 国立大学法人 東京大学 制御方法
JP2019171540A (ja) 2018-03-29 2019-10-10 ファナック株式会社 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5673367A (en) * 1992-10-01 1997-09-30 Buckley; Theresa M. Method for neural network control of motion using real-time environmental feedback
JPH0736505A (ja) * 1993-07-21 1995-02-07 Nkk Corp 制御対象の同定・制御方法
JP3436320B2 (ja) * 1994-04-18 2003-08-11 富士通株式会社 非線形システムの出力軌道と動特性の制御方法および装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050187643A1 (en) 2004-02-19 2005-08-25 Pavilion Technologies, Inc. Parametric universal nonlinear dynamics approximator and use
JP2016215357A (ja) 2015-05-26 2016-12-22 国立大学法人 名古屋工業大学 パラメータ推定装置、パラメータ推定方法、プログラム及び制御装置
JP2017170553A (ja) 2016-03-23 2017-09-28 国立大学法人 東京大学 制御方法
JP2019171540A (ja) 2018-03-29 2019-10-10 ファナック株式会社 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法

Also Published As

Publication number Publication date
JP2021084188A (ja) 2021-06-03

Similar Documents

Publication Publication Date Title
Jin et al. Robot manipulator control using neural networks: A survey
Thuruthel et al. Learning dynamic models for open loop predictive control of soft robotic manipulators
Slotine et al. On the adaptive control of robot manipulators
KR102003216B1 (ko) 로봇을 위한 모터 제어 및/또는 조정
Killpack et al. Model predictive control for fast reaching in clutter
EP1974869A1 (en) Apparatus and method for generating and controlling the motion of a robot
JP2013003845A (ja) 組み込み知能コントローラ、制御システム、制御プログラム、記録媒体、及び制御方法
JP2014006566A (ja) 組み込み知能コントローラ、制御システム、制御プログラム、記録媒体、及び制御方法
JP7295421B2 (ja) 制御装置及び制御方法
Sharkawy et al. A neural network-based approach for variable admittance control in human–robot cooperation: online adjustment of the virtual inertia
Gu et al. Development and implementation of a real-time open-architecture control system for industrial robot systems
Mazare et al. Adaptive variable impedance control for a modular soft robot manipulator in configuration space
Grazioso et al. Modeling and simulation of hybrid soft robots using finite element methods: Brief overview and benefits
JP7391635B2 (ja) 制御システム
Zhang et al. Time delay compensation of a robotic arm based on multiple sensors for indirect teaching
KR101227092B1 (ko) 로봇의 동작 제어 시스템 및 동작 제어 방법
Yin et al. Active tracking of unknown surface using force sensing and control technique for robot
Zhu et al. Vision-admittance-based adaptive RBFNN control with a SMC robust compensator for collaborative parallel robots
Knani Dynamic modelling of flexible robotic mechanisms and adaptive robust control of trajectory computer simulation––Part I
Dash et al. Inverse kinematics solution of a 6-DOF industrial robot
WO2022044615A1 (ja) 学習装置、学習方法、学習プログラム、制御装置、制御方法、及び制御プログラム
Farooq et al. Hybrid force/position control scheme for flexible joint robot with friction between and the end-effector and the environment
Khanesar et al. A Neural Network Separation Approach for the Inclusion of Static Friction in Nonlinear Static Models of Industrial Robots
Adel et al. End-effector position estimation and control of a flexible interconnected industrial manipulator using machine learning
Ma et al. Shape control of elastic objects based on implicit sensorimotor models and data-driven geometric features

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20220913

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231122

R150 Certificate of patent or registration of utility model

Ref document number: 7391635

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150