JP7391635B2

JP7391635B2 - 制御システム

Info

Publication number: JP7391635B2
Application number: JP2019215401A
Authority: JP
Inventors: 健史伊藤; 弘二石原; 淳森本
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2023-12-05
Anticipated expiration: 2039-11-28
Also published as: JP2021084188A

Description

本発明は、多関節の構造物を駆動するための駆動システムの制御の技術に関するものである。

強化学習の応用、あるいは、ディープニューラルネットワークを用いた最適な制御方法をロボット制御に応用することが一般的な研究テーマとなっている（非特許文献１、非特許文献２）。

特に、モデルベースの方策学習は、サンプリング効率により、実際のロボットへの応用に大きな可能性を秘めている（非特許文献３、非特許文献４、非特許文献５）。しかし、以前のほとんどの方法は、１) シミュレートされた環境の場合や（非特許文献６、非特許文献７），２) 実際の環境で物理的な接触なしの場合や（非特許文献８）、３) 物理的な接触を持つが、非常に正確な動きを必要としないタスクとして（非特許文献３、非特許文献４）、評価されている。

また、このようなアクチュエータとロボットから構成されるシステムは、一般に非線形システムとなり、非線形システムに対する最適制御の方法として、「非線形モデル予測制御(Nonlinear Model Predictive Control)」と呼ばれる手法が提案されている。（なお、以下、「線形」および「非線形」の場合を総称して、「モデル予測制御」と呼ぶ。）
図１０は、このようなモデル予測制御の手続きを説明するための概念図である。

モデル予測制御では、まず、図１０（Ａ）に示すように、現在時刻tから有限時間先の（t + T）まで（この期間を「予測ホライズン」と呼ぶ）において、系に対する価値関数を最小化するように、最適な制御入力列とその予測値を求める。そして得られた最適な入力列の中で最初の制御入力u(t) のみを現在時刻t において入力する。続いて、図１０（Ｂ）に示すように、次の時刻では，再び現在時刻の状態を初期値として現在時刻tから有限時間先のt + T までにおいて最適な制御入力列とその予測値を求め、その中で最初の制御入力u(t)のみを入力する。さらに、図１０（ｃ）に示すように、次の時刻では、同様な手順を繰り返していく。各時刻においては、開ループの最適制御問題を解いているが、各時刻において初期値をフィードバックして考えていることから、開ループ系から閉ループ系にすることができる。

I. Goodfellow， Y. Bengio， and A. Courville， Deep Learning. MIT Press，２０１６. [Online]. Available: http://www.deeplearningbook.org

K. He， X. Zhang， S. Ren， and J. Sun， "Delving deep into rectifiers: Surpassing human-level performance on imagenet classification，" in ２０１５ IEEE International Conference on Computer Vision (ICCV)，２０15， pp. １０26-１０34.

A. Vaswani， N. Shazeer， N. Parmar， J. Uszkoreit， L. Jones， A. N. Gomez， L. Kaiser， and I. Polosukhin， "Attention is all you need，" in Advances in Neural Information Processing Systems ３０，２０１７， pp. 5998-6008. [Online]. Available: http://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf

D. Silver， J. Schrittwieser， K. Simonyan， I. Antonoglou， A. Huang， A. Guez， T. Hubert， L. Baker， M. Lai， A. Bolton， Y. Chen， T. Lillicrap， F. Hui， L. Sifre， G. van den Driessche， T. Graepel， and D. Hassabis， "Mastering the game of go without human knowledge，" Nature， vol.550， pp. 354-359， Oct ２０１７， article.

K. Ishihara and J. Morimoto， "Real-time model predictive control with two-step optimization based on singularly perturbed system，" in ２０15 IEEE-RAS 15th International Conference on Humanoid Robots (Humanoids)， Nov ２０１５， pp. 173-180.

J. Kober， J. A. Bagnell， and J. Peters， "Reinforcement learning in robotics: A survey，" The International Journal of Robotics Research， vol. 32， no. 11， pp. 1238-1274，２０１３.

S. Levine， P. Pastor， A. Krizhevsky， J. Ibarz， and D. Quillen， "Learning hand-eye coordination for robotic grasping with deep learning and largescale data collection，" The International Journal of Robotics Research， vol. 37， no. 4-5， pp. 421-436，２０１８.

S. Gu， E. Holly， T. Lillicrap， and S. Levine， "Deep reinforcement learning for robotic manipulation with asynchronous off-policy updates，" in ２０17 IEEE International Conference on Robotics and Automation (ICRA)， May ２０１７， pp. 3389-3396.

しかしながら、物理的な接触を扱い、正確な動きを生成することは、正確な操作や地上の急速な移動などの実用的なロボット制御タスクでは避けられない。

オンラインモデルベースのアプローチでは、正確な動きを必要とする接触リッチなタスクの難しさは、単にセンサーで接触イベントを検出するのではなく、限られた時間内に接触イベントを正確に予測する必要性が高いということである。

さらに、物理システムからデータを取得してモデルをトレーニングするには時間がかかる。したがって、接触リッチなタスクに対するサンプル効率的なトレーニング手順と、限られた量のデータでネットワークモデルを学習できるネットワーク構造を開発する必要があり、同時に、将来の状態の正確かつ迅速な予測を提供する必要がある。

ただし、以前のほとんどの方法は、シミュレートされた環境でも、実際の環境でも、物理的な接触が全くない場合か、あるいは、物理的な接触を持つ実際の環境では、非常に正確な移動を必要としないタスクに対して評価されているに過ぎない、という問題があった。

本発明は、上記のような問題点を解決するためになされたものであって、その目的は、対象に接触して対象を運動させる駆動系に対して、実時間制御を可能とする駆動システムを提供することである。

この発明の１つの局面に従うと、複数のパラメータで状態が規定される多関節の構造体を目標状態となるように駆動するための制御システムであって、複数のパラメータを計測するためのセンサと、制御信号で制御され、多関節の構造体の関節を駆動するためのアクチュエータ手段と、制御信号を生成するための制御手段とを備え、制御手段は、多関節の構造体のダイナミクスをモデル化するニューラルネットワークと、ニューラルネットワークで予測されるダイナミクスに基づいて、制御信号を、反復線形二次レギュレータによるモデル予測制御で生成するレギュレータ手段とを含み、ニューラルネットワークは、学習処理として、多関節の構造体が、接触して駆動するべき対象に接触していない状態で、ランダムな動きの非接触運動の学習データを収集し、非接触の学習データによりニューラルネットワークを学習させて非接触モデルを生成し、オペレータによって対象に構造体の一部を接触させて生成された動きに応じたパラメータを測定し、非接触モデルを使用して、接触運動の学習データを収集し、収集された接触運動の学習データにより、学習処理を実施して、接触状態でのダイナミクスのモデルを生成する。

好ましくは、ニューラルネットワークは、構造体の運動を表現する一般化座標の加速度を、コリオリ力および重力を表す第１の力関連行列と関節トルクおよび外部接触力を表す第２の力関連行列との和と逆慣性行列との積で表すとき、逆慣性行列を表現する第１のニューラルネットワークと、第１の力関連行列を表現する第２のニューラルネットワークと、第２の力関連行列を表現する第３のニューラルネットワークとを含む。

好ましくは、ニューラルネットワークは、構造体の運動を表現する一般化座標の加速度を、コリオリ力および重力を表す行列と関節トルクおよび外部接触力を表す第２の行列とを統合した統合力関係行列と逆慣性行列との積で表すとき、逆慣性行列を表現する第１のニューラルネットワークと、統合力関係行列を表現する第２のニューラルネットワークとを含む。

好ましくは、逆慣性行列の逆行列は、対称な正定値行列である。

好ましくは、逆慣性行列は、構造体と対象とに対応する要素が、分割して配置される対称行列である。

本発明の駆動システムによれば、対象に接触して対象を運動させる駆動系に対して、実時間制御する駆動システムが可能となる。

本実施の形態におけるフィンガーロボットで使用される関節構造の構成事例を示す図である。制御装置２０において、制御信号を生成する制御プログラムの構成と動作を説明するための概念図である。全接続型のニューラルネットワークの構成を示す概念図である。構造化ニューラルネットワークの構成を説明するための概念図である。構造化ニューラルネットワークに対する２段階のモデル学習方法を説明するためのフローチャートである。ロボットの動きに合わせて移動する画像中の車を示す概念図である。実験の全長軌道を示す概念図である。異なる時間ステップでテストされた各ネットワークの制御時間ステップとモデル予測制御のコストスコアを示す図である。異なる時間ステップでテストされた各ネットワークの制御時間ステップとモデル予測制御のコストスコアを示す表である。モデル予測制御の手続きを説明するための概念図である。

以下、本発明の実施の形態の機械的構造物に対する駆動システムの構成について、図に従って説明する。なお、以下の実施の形態において、同じ符号を付した構成要素および処理工程は、同一または相当するものであり、必要でない場合は、その説明は繰り返さない。

実際の環境でオンラインモデルベースの制御に使用できるニューラルネットワークモデルを構成する手法について説明する。モデルベースの方策学習は、サンプリング効率が高いため、実際のロボットへの応用に大きな可能性を有する。

一方、物理的な接触を扱い、正確な動きを生成することは、正確な操作や地上の急速な移動などの実用的なロボット制御タスクでは避けられない。オンラインモデルベースのアプローチでは、正確な動きを必要とする接触リッチなタスクの難しさは、モデルが、単にセンサーで状態を検出するだけではなく、限られた時間内に接触イベントを正確に予測する必要があることである。

そこで本実施の形態では、ニューラルネットワークモデルが、接触イベントを含む将来の状態を予測する際に、モデルベースの制御に十分に役立つタスク関連モデルを学習できる構成を説明する。

以下では、接触リッチなタスクとして、「実際の」３ＤｏＦ（自由度）のフィンガーロボットを使用してトラックボール操作タスクを取り上げる。

その結果、明示的な慣性行列表現を持つ構造化ネットワークモデルの操作パフォーマンスが、標準的な全接続されたネットワークモデルの操作パフォーマンスよりも優れていることが示される。

ただし、以下の説明のような制御方法は、より一般的に、多関節の構造体の動作を制御することに使用することが可能である。

[実施の形態]
図１は、本実施の形態におけるフィンガーロボットで使用される関節構造の構成事例を示す図である。

フィンガーロボット４０を制御するためのコマンドが、制御装置２０から、通信経路を介してフィンガーロボットに与えられる。特に限定されないが、制御装置２０は、汎用のパーソナルコンピュータを用いることが可能であり、通信経路としては、イーサネット（登録商標）ケーブルを用いることができる。もちろん、通信経路としては、その他の規格の有線通信の経路の他、無線による通信経路、たとえば、無線ＬＡＮ（Local Area Network）や他の通信規格の無線などを使用してもよい。

制御装置２０は、ユーザからの指示入力を受ける入力部２０８と、コマンドを生成するためのプログラムや、様々な制御パラメータなど制御のために必要とされるデータが記録された不揮発性の記憶装置２０６と、制御装置２０を起動するためのファームウェアが記憶されたＲＯＭ（Read Only Memory）や、ワーキングメモリとして動作するＲＡＭ（Random Access Memory）などを含むメモリ２０４と、プログラムに応じて、コマンドを生成する処理を実行する演算装置２１０と、コマンドを通信経路を介して、フィンガーロボットに送信するためのインタフェース（Ｉ／Ｆ）部２０２と、演算装置２１０の制御の下で、フィンガーロボット４０への制御の状態に関する情報などを表示するための表示装置２１２とを備える。

上述のとおり、制御装置２０が、汎用のパーソナルコンピュータである場合は、演算装置２１０は、ＣＰＵ（Central Processing Unit）で構成され、不揮発性の記憶装置２０６としては、ハードディスクドライブやソリッドステートドライブなどを用いることができる。ただし、制御装置２０の機能ブロックの一部または全部は、専用のハードウェアにより構成されてもよい。

フィンガーロボット４０は、一例として、第１～第４関節までを含むアーム１２１を備える構成である。

ロボットフィンガーは４本のリンクで構成されており、１番目～３番目の３つの関節はモータによって駆動され、３番目と４番目の関節は機械的なリンク(３自由度)によって接続されている。ロボットの前にトラックボール装置が取り付けられる。

各関節は、制御装置２０からの信号に応じて、（図示しない）モータドライバにより駆動される電動モータが設けられる。

なお、関節を駆動するアクチュエータとしては、電動モータに限られず、他の駆動機構を使用してもよい。

検出機構１２４は、各関節の関節角度や各関節にかかるトルクを検知する。検出機構１２４は、例えば、各関節に配置された関節角度を検出する角度センサ、関節にかかるトルクを検出するトルクセンサや、トラックボールの状態（トラックボールで移動されるカーソルの２次元座標としての位置）を検出するセンサなどである。
（制御ソフトウェアの構成）
図２は、制御装置２０において、制御信号を生成する制御プログラムの構成と動作を説明するための概念図である。

後述のとおり、フィンガーロボットのダイナミクス（動的な運動特性）は、ニューラルネットワークによりモデル化され、このようなモデルを特定するためのニューラルネットワークのパラメータは、記憶装置２０６に格納される。制御信号は、後述するように、このようにニューラルネットワークによりモデル化されたダイナミクスに基づいて、演算装置２１０により実行されるモデル予測制御の方法で、生成される。

このようなニューラルネットワークについては、接触イベントを含む、学習処理の手順に対して、接触リッチなタスクを行うための２段階のモデル学習手法が実行される。

ここで、図２（ａ）に示すように、演算装置２１０は、第１段階では、ロボットシステムのランダムな動きを通じて非接触モデルを、学習により生成する。第２段階では、演算装置２１０は、接触リッチな動作に関するデータ（関節角度、関節角速度、その他の状態変数の情報）を、人間のオペレータのガイダンスによる動きに基づいて、さらにフィンガーロボットからサンプリングし、第1段階のモデルから、モデルベースのコントローラを導出する。

ニューラルネットワークのネットワーク構造については、物理ダイナミクスのドメイン知識を用いるよう考慮する。

一般には、「ドメイン知識（領域知識）」は、ターゲット・システムが動作している環境に関する知識である。

ここで、たとえば、このようなドメイン知識の一例として、物理系の慣性行列は正値定符号行列であるべきであることは、よく知られている。そこで、図２（ｂ）に示し、また、後により詳しく説明するように、ネットワーク構造に慣性行列の明示的な表現を導入することは、限られた量のデータを持つタスクのモデルをトレーニングする場合に有効と考えられる。このような対象の物理的な制約による慣性行列の明示的な構成を導入したニューラルネットワークを「構造化ニューラルネット」と呼ぶ。

上述の通り、ニューラルネットワークモデルを用いてロボットの動きを生み出すために、オンラインモデルベースの制御法としてモデル予測制御を採用する。したがって、本実施の形態では、この制御アプローチをニューラルネットワークモデル予測制御（ＮＮ－ＭＰＣ）と呼ぶ。
（ニューラルネットワークのモデル予測制御の構成）
以下では、ニューラルネットワークのモデル予測制御 (ＮＮ－ＭＰＣ) フレームワークの背景をまとめる。

簡単に言えば、本実施の形態でのモデル予測制御(ＭＰＣ：Model Predictive Control)は、各時間ステップでダイナミクスのモデルを使用して、最適な制御信号を導出するものであり、ＮＮ－ＭＰＣはニューラルネットワークをダイナミクスモデルとして使用するモデル予測制御のアプローチである。

以下では、制御対象について、状態変数 x_t ∈R^Nxを持つ状態空間モデルと制御シグナル u_t∈R^Nuを考える。ここで、ｔは、時刻のインデックスである。この状態空間における離散時間での非線形力学系は以下のように表現される。

ＮＮ－ＭＰＣでは、ニューラルネットワークを使用してダイナミクス関数ｆをモデル化する。
従来の技術では、ニューラルネットワークとしては、全接続されたネットワーク（非特許文献５）や繰り返しニューラルネットワーク（非特許文献４）が使用された。
これに対して、ダイナミクス関数fを表すために、本実施の形態のモデルでは、構造化ニューラルネットワークを使用する。
また、モデル予測制御に関しては、有限ホライズン T、コスト関数 l(x， u)、および、終末コスト l^f (x) を指定して、制御シーケンスＵ₀≡{u₀，u₁，…， u_T-1}と総コスト関数Ｊ(x_0，Ｕ₀) を、以下の式(2) として定義する。

最適な制御シーケンスＵ₀ ^* は、この総コスト関数を使用して定義される。

モデル予測制御は、各時間ステップで式（１）のダイナミクスの下で、最適な制御シーケンスを導出するものであり、まず、初期状態ｘ₀を観測状態に設定する。最適化が完了すると、Ｕ₀ ^*の最初の要素であるｕ₀ ^*のみを制御信号としてシステムに適用する。

引き続いて、新しい状態が観察されると、同じ手順を繰り返してＵ₁ ^*を計算し、ｕ₁ ^* を制御信号としてシステムに適用する。

ただし、式（３）で表される最適な制御シーケンスは、一般に非線形システムダイナミクスの下では、解析的に導き出すことはできない。

そこで、反復線形二次レギュレータ(iLQR)は、以下の公知文献にも記載されるように、最適な制御配列を導出するためによく使用される。

公知文献：J. Schulman， S. Levine， P. Abbeel， M. Jordan， and P. Moritz， “Trust region policy optimization，” in International Conference on Machine Learning，２０15， pp. 1889-1897. [Online].
公知文献：N. Heess， S. Sriram， J. Lemmon， J. Merel， G. Wayne， Y. Tassa， T. Erez， Z. Wang， A. Eslami， M. Riedmiller et al.， “Emergence of locomotion behaviours in rich environments，” arXiv preprint arXiv:1707.02286，２０17. [Online]. Available: https://arxiv.org/pdf/1707.02286
Available: http://proceedings.mlr.press/v37/schulman15.pdf
簡単に言えば、反復線形二次レギュレータでは、制御対象のダイナミクスとコスト関数は、それぞれ、直線的および二次的に近似され、次にガウスニュートン法に類似の方法を用いて、iLQRの制御シーケンスを最適化する。

反復線形二次レギュレータ法では、制御シーケンスを効率的に計算するので、反復線形二次レギュレータ（iLQR）はモデル予測制御（ＭＰＣ）において、広く使用されている。反復線形二次レギュレータ（iLQR）における線形のシステムダイナミクスと２次コスト関数を導出するには、ダイナミクスの微分(fx、f_u)およびコスト関数の微分(l_x， l_u， l_xx， l_xu， l_uu)が必要である。

なお、ここで、以下のようにベクトル添え字を使用して、偏微分を示す。

ニューラルネットワークをダイナミクスモデルとして使用する場合は、ネットワーク上でダイナミクスの導関数を計算する必要がある。このような微分の計算手法については、後述する。
（構造化ＮＮ－ＭＰＣについての方法）
以下では、慣性行列を明示的に表現したネットワークモデルを使用する構造化ＮＮ－ＭＰＣについて説明する。
（1 ロボットダイナミクスをモデル化する構造化ニューラルネットワーク）
式（１）でのロボットの離散時間のダイナミクスを、以下の状態変数xで考えてみる。

ここで、q^Tと q(ドット)^Tは、それぞれ対象となる多関節の構造体について、構造体の作業空間上の位置、速度、さらに各関節の関節角および関節角速度に基づいて決定される一般化された位置と速度を示す。

なお、変数Ｘに対して、変数Ｘ（ドット）は、変数Ｘの頭部に・が１つ付されていることを示し、変数Ｘの時間についての1次微分を示す。同様にして、変数Ｘに対して、変数Ｘ（ツードット）は、変数Ｘの頭部に・が２つ付されていることを示し、変数Ｘの時間についての２次微分を示すものとする。

時間ステップをΔｔとすると、次回ステップのインデックス［q_t+1 ， q(ドット)_t+1］の状態は、オイラー法をもちいた数値積分によって計算される。一般化加速度q(ツードット)は、以下の式（４）として表される。

ここで、式（４ａ）において、Ｍ^-1は逆慣性行列で、Ｃは重力とコリオリ力を示し、Ｆは関節トルクと外部接触力を表す。また、式（４ｂ）のように、これらの力をＥとして組み合わせて表現できる。したがって、Ｅ項（Ｅ行列）を表現するニューラルネットワークには、物理的な接触に関する情報が潜在的に含まれる。ロボットは、この運動方程式を使用して、少数のパラメータでモデル化できるが、外部接触力を含むＦとＥのモデリングは、一般には、困難である。

一方、これまでの研究では、ニューラルネットワークの強力な関数近似能力をｆ(x，u)のモデル化に利用してきている（非特許文献４，非特許文献５など）。

図３は、このような従来使用されてきた、全接続型のニューラルネットワークの構成を示す概念図である。

複数の隠れ層があり、これらの隠れ層内の各ノードが、全接続されている。

しかし、これらの従来の研究で使用される大規模なネットワークのために、それらには大きなトレーニングデータセットを準備する必要があり、そのダイナミクスモデルはリアルタイムの高周波制御には適していない。

そこで、本実施の形態では、式(４)における、逆慣性行列Ｍ^-1および力関連項（行列）Ｅ(または行列Ｃと行列Ｆ) を明示的に表す目標ダイナミクス g をモデル化するように構造化ニューラルネットワークを設計する。

図４は、構造化ニューラルネットワークの構成を説明するための概念図である。

図４（ａ）に示す構造化ニューラルネットワーク（構造（Ａ））は、式（４ｂ）に対応して、重力とコリオリ力を表すＣと、関節トルクと外部接触力とを表すＦとを、統合力関係項（行列）Ｅとしてまとめた場合に、qと q(ドット)と制御信号ｕとの関数である力関係項Ｅを、隠れ層を有するニューラルネットワークとして近似した「Ｅネットワーク」と、qの関数である逆慣性行列要素ｍ(バー)を、隠れ層を有するニューラルネットワークとして近似した「Ｍネットワーク」とを含む。

一方で、図４（ｂ）に示す構造化ニューラルネットワーク（構造（Ｂ））は、式（４ａ）に対応して、重力とコリオリ力を表しqと q(ドット)の関数である第１の力関係項（行列）Ｃを、隠れ層を有するニューラルネットワークとして近似した「Ｃネットワーク」と、関節トルクと外部接触力とを表しqと q(ドット)と制御信号ｕとの関数である第２の力関係項（行列）Ｆを、隠れ層を有するニューラルネットワークとして近似した「Ｆネットワーク」と、qの関数である逆慣性行列要素ｍ(バー)を、隠れ層を有するニューラルネットワークとして近似した「Ｍネットワーク」とを含む。

「Ｅネットワーク」(または「Ｃネットワーク」および「Ｆネットワーク」)は、直接一般化された力を表すが、「Ｍネットワーク」には慣性行列についてのドメイン知識を利用する。すなわち、慣性行列は必ず対称的な正定値行列であるという知識であり、この制約により、Ｍネットワークは、Ｍ^-1の上側三角形要素ｍ(バー)のみを予測することで、完全な逆慣性行列を再構築できる (図４（ａ）のボックス内の項目を参照)。

ＭネットワークとＥネットワーク(または「Ｃネットワーク」および「Ｆネットワーク」)の両方のすべての隠れ層は、正規化線形関数（ReLU：Rectified Linear Unit）型（ランプ関数型）の活性化関数である。なお、システムに追加のドメイン知識がある場合は、ネットワーク上の制約として導入できる。

（2 構造化ニューラルネットワークダイナミクスによるモデルベース制御）
図４で説明した構造化ニューラルネットワークに対して、接触リッチなタスクを学習するために、２段階のモデル学習方法を採用する。

図５は、構造化ニューラルネットワークに対する２段階のモデル学習方法を説明するためのフローチャートである。

図５を参照して、学習処理において、演算装置２１０は、第1段階では、ロボットシステムが対象に接触していない状態で、ランダムな動きの非接触運動の学習データを収集し、この非接触の学習データによりニューラルネットワークを学習させて非接触モデルを生成する（Ｓ１００）。

演算装置２１０は、第２段階では、運動教示アプローチとして、オペレータによって対象にロボットの指先を接触させて生成された様々な接触リッチな動きを測定して、第１段階で学習した非接触モデルを使用して、モデルベースの制御方法によって、与えられたターゲットの動きを追跡して、接触運動の学習データを収集する（ｓ１１０－１）。このトラッキングを通じてサンプリングされた動作データ（接触運動の学習データ）を使用して、ニューラルネットワークを学習させて、接触状態でのダイナミクスを潜在的に含むモデルを生成する（ｓ１１０－２）。
（３構造化ニューラルネットワークダイナミクスによるモデルベース制御）
学習処理がされた構造化ニューラルネットワークを用いて、式（４ａ）または式（４ｂ）で示されるようなフィンガーロボットのシステムダイナミクスが表されるとの前提で、さらに、反復線形二次レギュレータ（iLQR）を使用して最適な制御シーケンスＵ^*を決定するには、システムダイナミクスｆとコスト関数ｌの導関数 (f_x， f_u， l_x， l_xxなど) を計算する必要がある。これらの計算のためのアルゴリズムは、通常は、時間を要するものとなる。
ただし、コスト関数は設計の対象となるため、解析的に微分可能なものとできる。

一方で、システムダイナミクスの微分については、本実施の形態では、以下のように、構造化ニューラルネットワークを用いて計算することができる。

離散時間でのダイナミクスに関しては、fの微分は、式（４ａ）の加速度関数の微分のg_xおよびg_uを用いて計算される。ニューラルネットワークを使用して g を予測する重要な利点は、時間のかかる数値微分ではなく、ニューラルネットワーク上のバックプロパゲーション（ＢＰ）を介して g _x と g_uを解析的に計算できることである。

ＢＰを使用して、q(ツードット)の各要素の勾配ベクトル全体を一度に計算することができる。q_n(ツードット)は q (ツードット)の n番目の要素を示し、以下のzを定義する。

勾配ベクトルは、初期勾配ベクトルを以下のように設定することで、ＢＰによって計算される。

すべての n に対して勾配ベクトルの各成分を計算すると、g_xとg_uが得られる。

初期勾配は、図４に示されるとおり、構造化ニューラルネットワークの出力がサブネット（全体のネットワークに対する部分ネットワーク）の出力の積として計算されるため、ＭネットワークとＥネットワーク(または、Ｍ、Ｃ、およびＦネットワーク)の両方に分散させる必要があることに注意する。特に、Ｍネットワークの初期勾配は、Ｍ^-1の対称性を考慮して決定されなければならない。

両方のサブネットワークの出力レイヤーに勾配ベクトルを設定すると、標準的なＢＰの演算処理が実行される。

最後に、ニューラルネットワークのダイナミクスモデルを使用して、より高速な反復線形二次レギュレータ（iLQR）プログラムを実装するために、以下のような構成とする。

ｉ）ループ内の各時間ステップで g の微分を計算するのではなく、行列乗算を使用して名目上の軌道全体のバッチで g の微分を計算する。
iｉ）勾配ベクトルの計算は nに関して相互に独立しているため、並列化できる。
ｉｉｉ）すべての計算は、通常ニューラルネットワークの演算処理に使用される並列演算に適したＧＰＵ（Graphics Processing Unit）ではなくＣＰＵ（Central Processing Unit：中央演算処理装置）で実行する必要がある。ＣＰＵとＧＰＵ間のデータ転送コストは、ＧＰＵの高速線形代数計算の利点を超えることになるからである。

（実験の構成）
以下に説明する通り、接触リッチなタスクとして、「実際の」３ＤｏＦ（自由度）フィンガーロボットを使用したトラックボール操作タスクを検討した。その結果、明示的な慣性行列表現を持つ制約付きネットワークモデル (この実施の形態では構造化ＮＮ－ＭＰＣと呼ばれるフレームワーク) の制御パフォーマンスが、標準の全接続されたネットワークモデルの制御パフォーマンスよりも優れていることがわかった。

また、正確な操作作業に対して、ネットワークモデルの高速計算の重要性、すなわち小さな制御時間ステップの重要性を明確にするために、異なる制御期間を持つ制御性能を評価した。

構造化ＮＮ－ＭＰＣアプローチを評価するために、５ＤｏＦシステム上で行われる接触リッチなドライビングゲームタスクを実施した。構造化ＮＮ－ＭＰＣと、全接続されたネットワークである標準ＮＮ－ＭＰＣの制御性能と比較した。

（１システムのセットアップ）
制御の対象となるのは５ＤｏＦ（自由度）のロボットフィンガーであり、トラックボールをロボットフィンガーが駆動するシステムである。

ロボットフィンガーは４本のリンクで構成されており、１番目～３番目の３つの関節はモータによって駆動され、３番目と４番目の関節は機械的なリンク(３自由度)によって接続されている。ロボットの前にトラックボール装置が取り付けられ、その観測値は、カーソルの位置(２自由度)であった。システムはリアルタイムで制御され、現在の状態ｘ_tを１０ミリ秒ごとにＮＮ－ＭＰＣに送信し、次に２つのプロセッサ（ＣＰＵ）を搭載したコンピューティングサーバー上に実装されたＮＮ－ＭＰＣは、１０ミリ秒以内に、次の時間ステップに最適な制御信号を送り返した。
この制御信号は、所望のトルクを表し、モータドライバによって所望の電流に変換される。この実験では、システムにはコンタクトセンサーが取り付けられていなかったが、接触ダイナミクスはＥネットワークモデルで潜在的に表現されている。

（２ニューラルネットワークダイナミクスモデルのトレーニング）
クラウドサービスで提供されているディープラーニングフレームワークを使用して、構造化ニューラルネットワークを実装した。この実験では、ロボットとトラックボールシステムの性質上、Ｍネットワークに以下のような追加の制約を適用した。

ａ）ロボットとトラックボールは物理的に接続されていないため、慣性行列は２つのサブマトリックスに分割され、残りの要素はゼロになる。

ｂ）トラックボールは球状の剛体であり、幾何学的に対称であるため、トラックボールについてのサブマトリックスの対角要素は同じ値を取る。したがって、Ｍネットワークのｍ(バー)の出力と再構成された完全慣性逆行列Ｍ^-1の関係は次のとおりである。

ここで、左上のサブマトリックスはロボットに関連し、右下のサブマトリックスは、対角要素が同じ値を共有するトラックボールに関連している。

上述したニューラルネットワークを訓練するために、ｑ、ｑ(ドット)、u、ｑ(ツードット)のタプルによる状態変数で構成されたロボット運動の軌跡を記録した。

上述したような２段階のネットワークトレーニング手順を採用した。

第１段階では、ロボットにランダム制御シーケンスを適用しながら軌道を記録した。正規分布から１０時間ステップ(１０0ミリ秒)ごとに所望のトルクをサンプリングし、同じ信号をロボットに１０時間ステップで供給した。正規分布の分散は、モータのトルク限界に関連して決定された。

結果として得られる軌道に接触についての情報が含まれることはなく、ロボットフィンガーのダイナミクスモデルは、トラックボールに対する「コンタクトレス（非接触）」の状況下で訓練することができる。

第２段階では、この「接触なし」ダイナミクスモデルを使用して、接触面の周りのロボットを制御した。オペレータの手で擬似的にロボットフィンガーをランダムに動かして、ロボットとトラックボールが触れ続ける参照関節軌道を作成した。この関節軌道に従うようにロボットを制御することで、「接触リッチな」軌道データセットを得た。このデータセットから学習することで、ニューラルネットワークは、“接触リッチな”ダイナミクスをモデル化できる。

どちらのトレーニングステップでも、トレーニングデータセットは１０分間 (６０，０００データポイント) で収集され、このデータセットの８０％がトレーニングに使用され、残りの２０％が検証に使用された。

最高のパフォーマンスを求めて、１，２，３，５，８層の隠しレイヤーを持つ様々なサイズのネットワークをトレーニングし、それぞれが、２０～５００個の隠しユニットを有していた。このような大規模なネットワークでの反復線形二次レギュレータ最適化は、ＭＰＣの時間ステップの１０ミリ秒の制限を守ることができないため、８層５００ユニットネットワークなど、これらの一部は省略された。パフォーマンスを比較するために、完全に接続されたネットワークでこの実験を繰り返した。ネットワークサイズ決定を含む実験手順は、構造化ニューラルネットワークに用いられるものと同じであった。

（３パフォーマンス評価）
図６は、ロボットの動きに合わせて移動する画像中の車を示す概念図である。

図６に示すように、トラックボールカーソルの水平位置がゲームウィンドウ内の車の水平位置を表す自動車運転ゲームタスクのネットワークモデルを用いて、オンラインモデルベースの制御方法を評価した。コースの中央の黄色い線が、所望の軌道としてＮＮ－ＭＰＣに与えられた。ＮＮ－ＭＰＣは、次のコスト関数を使用して、式（２）の総コストを最小限に抑える最適な制御シーケンスを計算した。

ここで、ｈはカーソル位置の水平座標を示し、ｈ^*は目標カーソル位置 (図６の道路の中央線) を示し、Ｗ_h、Q、および R は各項の重みを示す。トラックボールカーソルにとって必要な軌道のみが与えられ、ロボットフィンガー自体にとって必要な軌道は与えられていないことに注意してほしい。
したがって、ＮＮ－ＭＰＣフレームワークは、ロボットとトラックボール間の接触力を介してトラックボールを回転させるために、ロボットのための制御信号を導出する必要があった。トライアル中のパフォーマンスは、式（７）であらわされるＭＰＣコストの合計として定義されたこのゲームＳのスコアによって評価された。

ここで、T_trialはトライアルの全長を示す。

この実施の形態では、１つのドライビングコースレイアウトを使用することに重点を置いた。ただし、ネットワークモデルの訓練のためにコースに関する情報を使用しなかったため、コントロールのパフォーマンスにおいて、特定のコースレイアウトへの過適応が問題となることはない。

（実験結果）
（１構造化ＮＮ－ＭＰＣの制御パフォーマンス）
全接続されたネットワークを使用して、構造化ＮＮ－ＭＰＣと標準ＮＮ－ＭＰＣの両方をテストした。

図６は、構造（Ａ）を持つ構造化ネットワークによって制御される車の軌道の一部を、車を制御するロボットの動きと共に示している。

図７は、この実験の全長軌道を示す概念図である。

構造化ＮＮ－ＭＰＣフレームワークは、全に接続されたネットワークのＮＮ－ＭＰＣよりも優れたトラッキング性能を示した。

トレーニングされた構造化ニューラルネットワークの中で、ＭネットワークおよびＥネットワークの両方に２０個の隠されたユニットを持つ３つの隠れ層を持つネットワーク構造（Ａ）によって最高のパフォーマンスが達成された。

構造（Ｂ）を持つネットワークの中で、最もパフォーマンスの高いネットワークでは、各Ｍネットワーク、Ｃネットワーク、およびＦネットワークに２０ユニットを持つ１つの隠れ層を設けたものであった。

最高のパフォーマンスを達成した完全に接続されたネットワークは、１つの隠れ層と各層に７５ユニットを有していた。２つ以上の隠れ層を持つ全接続されたネットワークは、制限されたトレーニングデータセットからダイナミクスモデルを学習できなかった。

（２ＭＰＣにおける制御周波数の影響）
上述の実験では、制御時間ステップをΔt=１０msに固定し、接触リッチな作業において制御ロボットに高周波制御が必要であることを確認するために、それぞれ１０、２０、３０ｍｓ(１００、５０、３３Ｈｚ)のように様々な制御時間ステップで実験を繰り返した。１０ミリ秒の時間ステップを持つ構造化ＮＮ－ＭＰＣはコースを完了することができたが、より長い時間ステップでは、コースに従うことができない傾向があった。

（３異なるネットワークモデル間の比較）
ドライビングゲームタスクの１５の試験に対して、各ネットワークでＮＮ－ＭＰＣをテストした。

図８は、異なる時間ステップでテストされた各ネットワークの制御時間ステップとモデル予測制御のコストスコアを示す図である。

図９は、異なる時間ステップでテストされた各ネットワークの制御時間ステップとモデル予測制御のコストスコアを示す表である。

制御時間ステップがΔt = １０ミリ秒の場合、構造化ＮＮ－ＭＰＣはコース上で車をうまく制御し、その平均コストスコアはそれぞれ構造（Ａ）と（Ｂ）に対して３２．９と３４．９であり、両者の間に有意な差を示さなかった。２回の試験でコースに従うことができず、平均スコアが５８．５であった全接続されたネットワークのＮＮ－ＭＰＣを、構造化ＮＮ－ＭＰＣは上回った。

構造化ＮＮ－ＭＰＣのパフォーマンスは、より大きな制御時間ステップで大幅に悪化した。それにもかかわらず、構造（Ａ）と（Ｂ）の両方が全接続されたネットワークよりも優れたパフォーマンスを示した。構造化ＮＮ－ＭＰＣは、２０ミリ秒の時間ステップで試行を何回か成功させ、２０ミリ秒の全接続されたネットワークの試行と３０ミリ秒のすべてが失敗した。時間ステップを３０ミリ秒以上に設定すると、ロボットは1秒間でもトラックボールとの安定した接触を維持することができず、意味のある動きが発生しなかった。

これらの結果に対して双方向分散分析（ANOVA）を行った。ネットワークタイプ(p < 0.001)と時間ステップ(p<0.001)の両方に大きな影響を及ぼし、ネットワークタイプと時間ステップ(p = 0.005)との相互作用効果を観察し、時間ステップが増加すると、全接続されたネットワークのパフォーマンスが構造化ニューラルネットワークよりも急速に悪化したことを示している。
以上説明した通り、接触リッチなタスクモデルを習得するための２段階のトレーニング手順とすることで、構造化ＮＮ－ＭＰＣフレームワークが有用であることがわかる。構造化ネットワークモデルでは、慣性行列が明示的に表されているので、接触ダイナミクスが潜在的に予測された。

今回開示された実施の形態は、本発明を具体的に実施するための構成の例示であって、本発明の技術的範囲を制限するものではない。本発明の技術的範囲は、実施の形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲の文言上の範囲および均等の意味の範囲内での変更が含まれることが意図される。

２０制御装置、４０フィンガーロボット、１２４検出機構、２０２Ｉ／Ｆ部、２０４メモリ、２０６記憶装置、２０８入力部、２１０演算装置、２１２表示装置。

Claims

複数のパラメータで状態が規定される多関節の構造体を目標状態となるように駆動するための制御システムであって、
前記複数のパラメータを計測するためのセンサと、
制御信号で制御され、前記多関節の構造体の関節を駆動するためのアクチュエータ手段と、
前記制御信号を生成するための制御手段とを備え、
前記制御手段は、
前記多関節の構造体のダイナミクスをモデル化するニューラルネットワークと、
前記ニューラルネットワークで予測される前記ダイナミクスに基づいて、前記制御信号を、反復線形二次レギュレータによるモデル予測制御で生成するレギュレータ手段とを含み、
前記ニューラルネットワークは、学習処理として、
前記多関節の構造体が、接触して駆動するべき対象に接触していない状態で、ランダムな動きの非接触運動の学習データを収集し、非接触の学習データにより前記ニューラルネットワークを学習させて非接触モデルを生成し、
オペレータによって前記対象に前記構造体の一部を接触させて生成された動きに応じた前記パラメータを測定し、前記非接触モデルを使用して、接触運動の学習データを収集し、収集された前記接触運動の学習データにより、学習処理を実施して、接触状態でのダイナミクスのモデルを生成する、制御システム。
前記ニューラルネットワークは、
前記構造体の運動を表現する一般化座標の加速度を、コリオリ力および重力を表す第１の力関連行列と関節トルクおよび外部接触力を表す第２の力関連行列との和と逆慣性行列との積で表すとき、
前記逆慣性行列を表現する第１のニューラルネットワークと、
前記第１の力関連行列を表現する第２のニューラルネットワークと、
前記第２の力関連行列を表現する第３のニューラルネットワークとを含む、請求項１記載の制御システム。
前記ニューラルネットワークは、
前記構造体の運動を表現する一般化座標の加速度を、コリオリ力および重力を表す行列と関節トルクおよび外部接触力を表す第２の行列とを統合した統合力関係行列と逆慣性行列との積で表すとき、
前記逆慣性行列を表現する第１のニューラルネットワークと、
前記統合力関係行列を表現する第２のニューラルネットワークとを含む、請求項１記載の制御システム。
前記逆慣性行列の逆行列は、対称な正定値行列である、請求項２または３記載の制御システム。
前記逆慣性行列は、前記構造体と前記対象とに対応する要素が、分割して配置される対称行列である、請求項２または３記載の制御システム。