JP2022122670A

JP2022122670A - ロボットモデルの学習装置、ロボットモデルの機械学習方法、ロボットモデルの機械学習プログラム、ロボット制御装置、ロボット制御方法、及びロボット制御プログラム

Info

Publication number: JP2022122670A
Application number: JP2021020049A
Authority: JP
Inventors: 政志 ▲濱▼屋; Masaya Hamaya; 一敏田中; Kazutoshi Tanaka
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2022-08-23
Also published as: US20240083023A1; WO2022172812A1; EP4292778A1; CN116867620A

Abstract

【課題】ロボットモデルを機械学習により学習する際に、効率良く学習する。【解決手段】ロボット制御装置４０は、ロボット１０の位置姿勢の実績値及びロボット１０に加えられる外力の実績値を取得し、ある時間における位置姿勢の実績値及びロボット１０に与えることができる行動指令に基づき、ロボット１０の位置姿勢の予測値を算出する状態遷移モデル及びロボット１０に加えられる外力の予測値を算出する外力モデルを含むロボットモデルＬＭを実行し、位置姿勢の誤差及び外力の予測値に基づいて報酬を算出し、制御周期毎に、行動指令の複数の候補を生成してロボットモデルＬＭに与え、行動指令の複数の候補のそれぞれに対応して算出する報酬に基づいて報酬を最大化する行動指令を決定し、決定された行動指令に基づいて外力モデルが算出した外力の予測値と、当該外力の予測値に対応する外力の実績値との間の差異が小さくなるように外力モデルを更新する。【選択図】図１

Description

開示の技術は、ロボットモデルの学習装置、ロボットモデルの機械学習方法、ロボットモデルの機械学習プログラム、ロボット制御装置、ロボット制御方法、及びロボット制御プログラムに関する。

ロボットが作業を達成するために必要な制御則を自動で獲得するために、機械学習によりロボットモデルを学習することが行われている。

例えば特許文献１には、マニピュレータに掛かる力とモーメントを検出する機能を備えた産業用ロボットを制御する制御装置であって、前記産業用ロボットを制御指令に基づいて制御する制御部と、前記産業用ロボットのマニピュレータに掛かる力及びモーメントの少なくともいずれかを取得データとして取得するデータ取得部と、前記取得データに基づいて、前記マニピュレータに掛かる力に係る情報を含む力状態データ、及び前記マニピュレータに係る制御指令の調整行動を示す制御指令調整データを、状態データとして生成する前処理部と、を備え、前記状態データに基づいて、前記マニピュレータに係る制御指令の調整行動に係る機械学習の処理を実行する技術が開示されている。

特開２０２０－０５５０９５号公報

しかしながら、ロボットモデルを機械学習により学習する際のパラメータの設定及び報酬関数の設計は難しく、効率良く学習するのは困難である。

開示の技術は、上記の点に鑑みてなされたものであり、ロボットモデルを機械学習により学習する際に、効率良く学習することができるロボットモデルの学習装置、ロボットモデルの機械学習方法、ロボットモデルの機械学習プログラム、ロボット制御装置、ロボット制御方法、及びロボット制御プログラムを提供することを目的とする。

開示の第１態様は、ロボットモデルの学習装置であって、ロボットの位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得する取得部と、ある時間における前記位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル及び前記ロボットに加えられる外力の予測値を算出する外力モデルを含むロボットモデルと、前記ロボットモデルを実行するモデル実行部と、前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の誤差及び前記外力の予測値に基づいて報酬を算出する報酬算出部と、制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補のそれぞれに対応して前記報酬算出部が算出する報酬に基づいて報酬を最大化する行動指令を決定する行動決定部と、決定された前記行動指令に基づいて前記外力モデルが算出した前記外力の予測値と、当該外力の予測値に対応する前記外力の実績値との間の差異が小さくなるように前記外力モデルを更新する外力モデル更新部と、を備える。

上記第１態様において、決定された前記行動指令に基づいて前記状態遷移モデルが算出した前記位置姿勢の予測値と、当該位置姿勢の予測値に対応する前記位置姿勢の実績値との間の誤差が小さくなるように前記状態遷移モデルを更新する状態遷移モデル更新部と、を備えた構成としてもよい。

上記第１態様において、前記報酬算出部は、前記外力が前記誤差の拡大を抑制する外力である修正外力である場合において、前記修正外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出するようにしてもよい。

上記第１態様において、前記報酬算出部は、前記外力が前記誤差の縮小を抑制する外力である敵対外力である場合において、前記敵対外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出するようにしてもよい。

上記第１態様において、前記報酬算出部は、前記外力が前記誤差の拡大を抑制する修正外力である場合において、前記修正外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出し、前記外力が前記誤差の縮小を抑制する外力である敵対外力である場合において、前記敵対外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出するようにしてもよい。

上記第１態様において、前記報酬算出部は、タスク実行中における前記修正外力の予測値に基づく前記報酬の減少量の変化の幅が前記誤差に基づく前記報酬の変化の幅よりも小さくなり、タスク実行中における前記敵対外力の予測値に基づく前記報酬の増加量の変化の幅が前記誤差に基づく前記報酬の変化の幅よりも小さくなる計算により前記報酬を算出するようにしてもよい。

上記第１態様において、前記外力モデルは、前記外力が前記修正外力である場合において、前記修正外力の予測値を出力する修正外力モデルと、前記外力が前記敵対外力である場合において、前記敵対外力の予測値を出力する敵対外力モデルとを含み、前記外力モデル更新部は、前記外力が前記修正外力である場合において、前記決定された行動指令に基づいて前記修正外力モデルが算出した前記修正外力の予測値と前記外力の実績値との差異が小さくなるように前記修正外力モデルを更新する修正外力モデル更新部と、前記外力が前記敵対外力である場合において、前記決定された行動指令に基づいて前記敵対外力モデルが算出した前記敵対外力の予測値と前記外力の実績値との差異が小さくなるように前記敵対外力モデルを更新する敵対外力モデル更新部とを含む構成としてもよい。

上記第１態様において、前記ロボットモデルは、前記修正外力モデル及び前記敵対外力モデルを備えた統合外力モデルを含み、前記修正外力モデル及び前記敵対外力モデルはニューラルネットワークであり、前記敵対外力モデルの１又は複数の中間層及び出力層のうちの少なくとも１つの層は、前記修正外力モデルの対応する層の前段の層の出力をプログレッシブニューラルネットワークの手法により統合し、前記敵対外力モデルは、外力の予測値及び当該外力が修正外力か敵対外力かの識別情報を出力し、前記統合外力モデルは、前記敵対外力モデルの出力を自身の出力とし、前記報酬算出部は、前記識別情報が修正外力を示す場合には前記外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出し、前記識別情報が敵対外力を示す場合には前記外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出するようにしてもよい。

上記第１態様において、前記外力が前記修正外力であるか前記敵対外力であるかの指定を受け付ける受け付け部をさらに備え、前記指定が前記修正外力である場合は前記修正外力モデル更新部の動作を有効化し、前記指定が前記敵対外力である場合は前記敵対外力モデル更新部の動作を有効化する学習制御部をさらに備えた構成としてもよい。

上記第１態様において、前記位置姿勢の実績値及び前記外力の実績値に基づき前記外力が前記修正外力であるか前記敵対外力であるかを判別し、前記判別の結果が前記修正外力である場合は前記修正外力モデル更新部の動作を有効化し、前記判別の結果が前記敵対外力である場合は前記敵対外力モデル更新部の動作を有効化する学習制御部をさらに備える構成としてもよい。

開示の第２態様は、ロボットモデルの機械学習方法であって、ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル及び前記ロボットに加えられる外力の予測値を算出する外力モデルを含むロボットモデルを用意し、制御周期毎に、前記位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得し、制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補に対応して前記状態遷移モデルにより算出される複数の前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の複数の誤差及び前記行動指令の複数の候補に対応して前記外力モデルにより算出される複数の前記外力の予測値に基づいて、前記行動指令の複数の候補に対応して算出される複数の報酬に基づいて、報酬を最大化する行動指令を決定し、決定された前記行動指令に基づいて前記外力モデルが算出した前記外力の予測値と、当該外力の予測値に対応する前記外力の実績値との間の差異が小さくなるように前記外力モデルを更新する。

上記第２態様において、さらに、決定された前記行動指令に基づいて前記状態遷移モデルが算出した前記位置姿勢の予測値と、当該位置姿勢の予測値に対応する前記位置姿勢の実績値との間の誤差が小さくなるように前記状態遷移モデルを更新するようにしてもよい。

上記第２態様において、前記外力が前記誤差の拡大を抑制する外力である修正外力である場合において、前記修正外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出するようにしてもよい。

上記第２態様において、前記外力が前記誤差の縮小を抑制する外力である敵対外力である場合において、前記敵対外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出するようにしてもよい。

上記第２態様において、前記外力が前記誤差の拡大を抑制する修正外力である場合において、前記修正外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出し、前記外力が前記誤差の縮小を抑制する外力である敵対外力である場合において、前記敵対外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出するようにしてもよい。

上記第２態様において、前記外力モデルは、前記外力が前記修正外力である場合において、前記修正外力の予測値を出力する修正外力モデルと、前記外力が前記敵対外力である場合において、前記敵対外力の予測値を出力する敵対外力モデルとを含み、前記外力が前記修正外力である場合において、前記決定された行動指令に基づいて前記修正外力モデルが算出した前記修正外力の予測値と前記外力の実績値との差異が小さくなるように前記修正外力モデルを更新し、前記外力が前記敵対外力である場合において、前記決定された行動指令に基づいて前記敵対外力モデルが算出した前記敵対外力の予測値と前記外力の実績値との差異が小さくなるように前記敵対外力モデルを更新するようにしてもよい。

上記第２態様において、前記誤差が拡大しつつある場合に、前記ロボットに対して前記修正外力を加え、前記誤差が縮小しつつある場合に、前記ロボットに対して前記敵対外力を加えるようにしてもよい。

開示の第３態様は、ロボットモデルの機械学習プログラムであって、ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル及び前記ロボットに加えられる外力の予測値を算出する外力モデルを含むロボットモデルを機械学習するための機械学習プログラムであって、制御周期毎に、前記位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得し、制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補に対応して前記状態遷移モデルにより算出される複数の前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の複数の誤差及び前記行動指令の複数の候補に対応して前記外力モデルにより算出される複数の前記外力の予測値に基づいて、前記行動指令の複数の候補に対応して算出される複数の報酬に基づいて、報酬を最大化する行動指令を決定し、決定された前記行動指令に基づいて前記外力モデルが算出した前記外力の予測値と、当該外力の予測値に対応する前記外力の実績値との間の差異が小さくなるように前記外力モデルを更新する、各処理をコンピュータに行わせる。

開示の第４態様は、ロボット制御装置であって、ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル及び前記ロボットに加えられる外力の予測値を算出する外力モデルを含むロボットモデルを実行するモデル実行部と、前記ロボットの位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得する取得部と、前記ロボットモデルにより算出された位置姿勢の予測値と到達すべき位置姿勢の目標値との間の誤差及び前記ロボットモデルにより算出された外力の予測値に基づいて報酬を算出する報酬算出部と、制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補のそれぞれに対応して前記報酬算出部が算出する報酬に基づいて報酬を最大化する行動指令を決定する行動決定部と、を備える。

開示の第５態様は、ロボット制御方法であって、ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル及び前記ロボットに加えられる外力の予測値を算出する外力モデルを含むロボットモデルを用意し、制御周期毎に、前記位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得し、制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補に対応して前記状態遷移モデルにより算出される複数の前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の複数の誤差及び前記行動指令の複数の候補に対応して前記外力モデルにより算出される複数の前記外力の予測値に基づいて、前記行動指令の複数の候補に対応して算出される複数の報酬に基づいて、報酬を最大化する行動指令を決定し、決定された前記行動指令に基づいて前記ロボットを制御する。

開示の第６態様は、ロボット制御プログラムであって、ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル及び前記ロボットに加えられる外力の予測値を算出する外力モデルを含むロボットモデルを用いて前記ロボットを制御するためのプログラムであって、制御周期毎に、前記位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得し、制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補に対応して前記状態遷移モデルにより算出される複数の前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の複数の誤差及び前記行動指令の複数の候補に対応して前記外力モデルにより算出される複数の前記外力の予測値に基づいて、前記行動指令の複数の候補に対応して算出される複数の報酬に基づいて、報酬を最大化する行動指令を決定し、決定された前記行動指令に基づいて前記ロボットを制御する、各処理をコンピュータに行わせる。

開示の技術によれば、ロボットモデルを機械学習により学習する際に、効率良く学習することができる。

第１実施形態に係るロボットシステムの構成図である。（Ａ）はロボット１０の概略構成を示す図、（Ｂ）はロボットのアームの先端側を拡大した図である。修正外力及び敵対外力について説明するための図である。ロボット制御装置のハードウェア構成を示すブロック図である。ロボットモデルの構成図である。変形例に係るロボットモデルの構成図である。変形例に係るロボットモデルの構成図である。統合外力モデルの構成図である。第１実施形態に係る学習処理のフローチャートである。第２実施形態に係る学習処理のフローチャートである。第３実施形態に係るロボットシステムの構成図である。第３実施形態に係る学習処理のフローチャートである。（Ａ）は位置誤差についての学習曲線を示すグラフ、（Ｂ）は外力についての学習曲線を示すグラフである。（Ａ）は異なる摩擦におけるタスクの成功回数を表すグラフ、（Ｂ）は異なるペグの質量におけるタスクの成功回数を表すグラフである。異なるペグの材質におけるタスクの成功回数を表すグラフである。

以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されている場合があり、実際の比率とは異なる場合がある。

＜第１実施形態＞

図１は、本実施形態に係るロボットシステム１の構成を示す。ロボットシステム１は、ロボット１０、状態観測センサ２０、触覚センサ３０Ａ、３０Ｂ、ロボット制御装置４０、表示装置５０、及び入力装置６０を有する。

（ロボット）

図２（Ａ）、（Ｂ）は、ロボット１０の概略構成を示す図である。本実施形態におけるロボット１０は、６軸垂直多関節ロボットであり、アーム１１の先端１１ａに柔軟部１３を介してグリッパ（ハンド）１２が設けられる。ロボット１０は、グリッパ１２によって部品（例えばペグ）を把持して穴に嵌め込む嵌め込み作業を行う。なお、ロボット１０は、本実施形態では現実のロボットであるが、シミュレーションにおける仮想のロボットでもよい。

図２（Ａ）に示すように、ロボット１０は、関節Ｊ１～Ｊ６を備えた６自由度のアーム１１を有する。各関節Ｊ１～Ｊ６は、図示しないモータによりリンク同士を矢印Ｃ１～Ｃ６の方向に回転可能に接続する。ここでは、垂直多関節ロボットを例に挙げたが、水平多関節ロボット（スカラーロボット）であってもよい。また、６軸ロボットを例に挙げたが、５軸や７軸などその他の自由度の多関節ロボットであってもよく、パラレルリンクロボットであってもよい。

グリッパ１２は、１組の挟持部１２ａを有し、挟持部１２ａを制御して部品を挟持する。グリッパ１２は、柔軟部１３を介してアーム１１の先端１１ａと接続され、アーム１１の移動に伴って移動する。本実施形態では、柔軟部１３は各バネの基部が正三角形の各頂点になる位置関係に配置された３つのバネ１３ａ～１３ｃにより構成されるが、バネの数はいくつであってもよい。また、柔軟部１３は、位置の変動に対して復元力を生じて、柔軟性が得られる機構であればその他の機構であってもよい。例えば、柔軟部１３は、バネやゴムのような弾性体、ダンパ、空気圧または液圧シリンダなどであってもよい。柔軟部１３は、受動要素によって構成されることが好ましい。柔軟部１３により、アーム１１の先端１１ａとグリッパ１２は、水平方向および垂直方向に、５ｍｍ以上、好ましくは１ｃｍ以上、更に好ましくは２ｃｍ以上、相対移動可能に構成される。

グリッパ１２がアーム１１に対して柔軟な状態と固定された状態とを切り替えられるような機構を設けてもよい。

また、ここではアーム１１の先端１１ａとグリッパ１２の間に柔軟部１３を設ける構成を例示したが、グリッパ１２の途中（例えば、指関節の場所または指の柱状部分の途中）、アームの途中（例えば、関節Ｊ１～Ｊ６のいずれかの場所またはアームの柱状部分の途中）に設けられてもよい。また、柔軟部１３は、これらのうちの複数の箇所に設けられてもよい。

ロボットシステム１は、上記のように柔軟部１３を備えるロボット１０の制御を行うためのロボットモデルを、機械学習（例えばモデルベース強化学習）を用いて獲得する。ロボット１０は柔軟部１３を有しているため、把持した部品を環境に接触させても安全であり、また、制御周期が遅くても嵌め込み作業などを実現可能である。一方、柔軟部１３によってグリッパ１２および部品の位置が不確定となるため、解析的なロボットモデルを得ることは困難である。そこで、本実施形態では機械学習を用いてロボットモデルを獲得する。

（状態観測センサ）

状態観測センサ２０は、ロボット１０の状態としてグリッパ１２の位置姿勢を観測し、観測した位置姿勢を実績値として出力する。状態観測センサ２０としては、例えば、ロボット１０の関節のエンコーダ、視覚センサ（カメラ）、モーションキャプチャ等が用いられる。モーションキャプチャ用のマーカーがグリッパ１２に取り付けられている場合には、グリッパ１２の位置姿勢が特定でき、グリッパ１２の位置姿勢から部品（作業対象物）の姿勢が推定できる。

また、視覚センサによっても、グリッパ１２自体やグリッパ１２が把持している部品の位置姿勢をロボット１０の状態として検出できる。グリッパ１２とアーム１１との間が柔軟部である場合、アーム１１に対するグリッパ１２の変位を検出する変位センサによってもアーム１１に対するグリッパ１２の位置姿勢を特定することができる。

（触覚センサ）

図２では図示は省略したが、図３に示すように、グリッパ１２のグリッパ本体１２ｂには、触覚センサ３０Ａ、３０Ｂが取り付けられている。

触覚センサ３０Ａ、３０Ｂは、一例として１組の挟持部１２ａが対向する方向に沿った位置に設けられている。触覚センサ３０Ａ、３０Ｂは、一例として３軸又は６軸の力を検出するセンサであり、自身に加えられる外力の大きさと方向を検出することができる。ユーザーは、触覚センサ３０Ａ、３０Ｂの両方に手（指）が接触するようにグリッパ本体１２ｂを掴んでグリッパ１２を動かすことによりグリッパ１２に外力を加える。

外力としては、ロボット１０が実行するタスク（作業）が成功するように修正（ａｄｖｉｓｏｒｙ）する修正外力と、タスクが失敗するように敵対（ａｄｖｅｒｓａｒｉａｌ）する敵対外力と、がある。修正外力とは、ロボットモデルが予測するロボット１０の位置姿勢の予測値とロボット１０が到達すべき位置姿勢の目標値との間の誤差の拡大を抑制する外力である。また、敵対外力とは、ロボットモデルが予測するロボット１０の位置姿勢の予測値とロボット１０が到達すべき位置姿勢の目標値との間の誤差の拡大を縮小する外力である。

具体的には、ロボット１０が実行するタスクが、図３に示すようにペグ７０を台７２に設けられた穴７４に挿入するタスクである場合において、ペグ７０を穴７４に挿入するには、矢印Ａ方向にペグ７０を動かす必要がある。この場合、ペグ７０を穴７４に挿入するというタスクを成功させるための正しい方向である矢印Ａ方向に加える外力が修正外力である。一方、タスクを失敗させる方向であって矢印Ａ方向と反対方向である矢印Ｂ方向に加える外力が敵対外力である。

図３の場合、ユーザーがグリッパ１２を掴んで矢印Ａ方向に修正外力を加えると、触覚センサ３０Ｂよりも触覚センサ３０Ａによって検出される力が大きくなり、修正外力が加わっていると判定できる。一方、矢印Ｂ方向に敵対外力を加えると、触覚センサ３０Ａよりも触覚センサ３０Ｂによって検出される力が大きくなり、敵対外力が加わっていると判定できる。

なお、本実施形態では、グリッパ本体１２ｂに２つの触覚センサ３０Ａ、３０Ｂが設けられた場合について説明するが、これに限られない。例えば３つ以上の触覚センサをグリッパ本体１２ｂの周囲に等間隔で設けても良い。触覚センサを３つ以上設けてそれらの検出結果を総合すれば少なくともグリッパ１２の軸に垂直な面内での外力の方向がわかる場合は、各触覚センサは外力の大きさだけを検出するものであってもよい。

（ロボット制御装置）

ロボット制御装置４０は、機械学習によりロボットモデルを学習する学習装置として機能する。また、ロボット制御装置４０は、学習済みのロボットモデルを用いてロボット１０を制御する制御装置としても機能する。

図４は、本実施形態に係るロボット制御装置のハードウェア構成を示すブロック図である。図４に示すように、ロボット制御装置４０は、一般的なコンピュータ（情報処理装置）と同様の構成であり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４０Ａ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）４０Ｂ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）４０Ｃ、ストレージ４０Ｄ、キーボード４０Ｅ、マウス４０Ｆ、モニタ４０Ｇ、及び通信インタフェース４０Ｈを有する。各構成は、バス４０Ｉを介して相互に通信可能に接続されている。

本実施形態では、ＲＯＭ４０Ｂ又はストレージ４０Ｄには、ロボットモデルを機械学習するためのプログラム及びロボット制御プログラムが格納されている。ＣＰＵ４０Ａは、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、ＣＰＵ４０Ａは、ＲＯＭ４０Ｂ又はストレージ４０Ｄからプログラムを読み出し、ＲＡＭ４０Ｃを作業領域としてプログラムを実行する。ＣＰＵ４０Ａは、ＲＯＭ４０Ｂ又はストレージ４０Ｄに記録されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。ＲＯＭ４２は、各種プログラム及び各種データを格納する。ＲＡＭ４０Ｃは、作業領域として一時的にプログラム又はデータを記憶する。ストレージ４０Ｄは、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、又はフラッシュメモリにより構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。キーボード４０Ｅ及びマウス４０Ｆは入力装置６０の一例であり、各種の入力を行うために使用される。モニタ４０Ｇは、例えば、液晶ディスプレイであり、表示装置５０の一例である。モニタ４０Ｇは、タッチパネル方式を採用して、入力装置６０として機能してもよい。通信インタフェース４０Ｈは、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ又はＷｉ－Ｆｉ（登録商標）等の規格が用いられる。

次に、ロボット制御装置４０の機能構成について説明する。

図１に示すように、ロボット制御装置４０は、その機能構成として、取得部４１、モデル実行部４２、報酬算出部４３、行動決定部４４、外力モデル更新部４５、学習制御部４６、及びユーザーインターフェース（ＵＩ）制御部４７を有する。各機能構成は、ＣＰＵ４０ＡがＲＯＭ４０Ｂまたはストレージ４０Ｄに記憶された機械学習プログラムを読み出して、ＲＡＭ４０Ｃに展開して実行することにより実現される。なお、一部または全部の機能は専用のハードウェア装置によって実現されても構わない。

取得部４１は、ロボット１０の位置姿勢の実績値及びロボット１０に加えられる外力の実績値を取得する。ロボット１０の位置姿勢とは、一例としてロボット１０のエンドエフェクタとしてのグリッパ１２の位置姿勢である。ロボット１０に加えられる外力は、一例としてロボット１０のエンドエフェクタとしてのグリッパ１２に加えられる外力である。外力の実績値は、触覚センサ３０Ａ、３０Ｂにより計測される。なお、ロボット１０が、どの部分がエンドエフェクタであるかを特定しにくいようなロボットの場合には、操作対象物に対する影響が生じるロボットの箇所という観点で適宜位置姿勢を計測する箇所や外力を加える箇所を特定すればよい。

本実施形態では、アーム１１の先端１１ａに柔軟部１３を介してグリッパ１２が設けられた構成であるため、グリッパ１２に外力が加えられたときに物理的に柔軟に変位できるか、または外力に応じて制御により変位できる構成が好ましい。なお、柔軟性を有しない硬いロボットに手で外力を加えることによっても開示の技術は適用可能である。

ロボット１０の位置姿勢は、本実施形態では位置３自由度、姿勢３自由度の最大計６自由度の値で表されるが、ロボット１０の可動自由度に応じてより少ない自由度であってもよい。例えばエンドエフェクタの姿勢変化が生じないロボットの場合には、「位置姿勢」は位置３自由度のみでよい。

モデル実行部４２は、ロボットモデルＬＭを実行する。

ロボットモデルＬＭは、図５に示すように、ある時間における位置姿勢の実績値（計測値）及びロボット１０に与えることができる行動指令（候補値又は決定値）に基づき、その次の時間におけるロボット１０の位置姿勢の予測値を算出する状態遷移モデルＤＭ及びロボット１０に加えられる外力の予測値を算出する外力モデルＥＭを含む。

なお、ロボットモデルＬＭが「に基づき」（＝入力する）、「算出する」（＝出力する）というのは、モデル実行部４２がモデルを実行する際に、入力データを用いてモデルを実行する、モデルを実行することにより出力データを算出（生成）することをいう。

外力モデルＥＭは、修正外力の予測値を出力する修正外力モデルＥＭ１及び敵対外力の予測値を出力する敵対外力モデルＥＭ２を含む。

報酬算出部４３は、位置姿勢の予測値と到達すべき位置姿勢の目標値との間の誤差及び外力の予測値に基づいて報酬を算出する。到達すべき位置姿勢とは、タスク完了時に到達すべき位置姿勢でもよいし、タスク完了前の中間目標としての位置姿勢でもよい。

報酬算出部４３は、外力が誤差の拡大を抑制する外力である修正外力である場合において、修正外力の予測値を報酬の減少要因とする計算により報酬を算出する。

誤差の拡大を抑制する外力である修正外力とは、位置姿勢の誤差が拡大していく場面で拡大の速さを鈍らせるような外力であり、誤差の拡大を縮小に転じさせる外力でなくてもよい。

修正外力の予測値を報酬の減少要因とする計算とは、修正外力の予測値を０にして計算した場合の報酬にくらべて外力モデルが算出した修正外力の予測値を用いて計算した場合の報酬の方が小さいことを意味する。なお、減少は時間的な減少を意味するものではなく、修正外力モデルＥＭ１が算出した修正外力の予測値を計算に用いていても報酬が時間の経過に従い減少するとは限らない。

位置姿勢の誤差が拡大していく場合でも、位置姿勢の誤差が大きいとき（例えば図３においてペグ７０が穴７４から大きく離間しているとき）に修正外力を加えるのが好ましく、位置姿勢の誤差が小さいとき（ペグ７０が穴７４付近にあるとき）は修正外力を加えなくてもよい。また、位置姿勢の誤差が大きいときに、位置姿勢の誤差が拡大していく速さが大きいほど大きな修正外力を加えることが好ましい。

また、報酬算出部４３は、タスク実行中における修正外力の予測値に基づく報酬の減少量の変化の幅が誤差に基づく報酬の変化の幅よりも小さくなる計算により報酬を算出する。

また、報酬算出部４３は、外力が誤差の縮小を抑制する外力である敵対外力である場合において、敵対外力の予測値を報酬の増加要因とする計算により報酬を算出する。

誤差の縮小を抑制する外力である敵対外力とは、位置姿勢の誤差が縮小していく場面で縮小の速さを鈍らせるような外力であり、誤差の縮小を拡大に転じさせる外力でなくてもよい。

敵対外力の予測値を報酬の増加要因とする計算とは、敵対外力の予測値を０にして計算した場合の報酬にくらべて敵対外力モデルが算出した敵対外力の予測値を用いて計算した場合の報酬の方が大きいことを意味する。なお、増加は時間的な増加を意味するものではなく、敵対外力モデルＥＭ２が算出した敵対外力の予測値を計算に用いていても報酬が時間の経過に従い増加するとは限らない。

位置姿勢の誤差が縮小していく場合でも、位置姿勢の誤差が小さいとき（例えば図３においてペグ７０が穴７４付近にあるとき）に敵対外力を加えるのが好ましく、位置姿勢の誤差が大きいときは敵対外力を加えなくてもよい。また、位置姿勢の誤差が小さいときに、位置姿勢の誤差が縮小していく速さが大きいほど大きな敵対外力を加えることが好ましい。

また、報酬算出部４３は、タスク実行中における敵対外力の予測値に基づく報酬の増加量の変化の幅が誤差に基づく報酬の変化の幅よりも小さくなる計算により報酬を算出する。

行動決定部４４は、制御周期毎に、行動指令の複数の候補を生成してロボットモデルＬＭに与え、行動指令の複数の候補のそれぞれに対応して報酬算出部４３が算出する報酬に基づいて報酬を最大化する行動指令を決定する。

行動指令とは、本実施形態では速度指令であるが、位置指令、トルク指令、速度、位置、トルクの組み合わせ指令等でもよい。また、行動指令は、複数の時間にわたる行動指令の系列であってもよい。また、行動指令の複数の候補は、行動指令の複数の系列の候補であってもよい。

報酬を最大化するとは、限られた時間内で探索した結果として最大化されていればよく、報酬がその状況における真の最大値になっている必要はない。

外力モデル更新部４５は、決定された行動指令に基づいて外力モデルが算出した外力の予測値と、当該外力の予測値に対応する外力の実績値との間の差異が小さくなるように外力モデルを更新する。

外力モデル更新部４５は、修正外力モデル更新部４５Ａ及び敵対外力モデル更新部４５Ｂを含む。

修正外力モデル更新部４５Ａは、行動決定部４４で決定された行動指令に基づいて修正外力モデルＥＭ１が算出した修正外力の予測値と修正外力の実績値との間の差異が小さくなるように修正外力モデルＥＭ１を更新する。

敵対外力モデル更新部４５Ｂは、行動決定部４４で決定された行動指令に基づいて敵対外力モデルＥＭ２が算出した敵対外力の予測値と敵対外力の実績値との間の差異が小さくなるように敵対外力モデルＥＭ２を更新する。

学習制御部４６は、位置姿勢の実績値及び外力の実績値に基づき外力が修正外力であるか敵対外力であるかを判別し、判別の結果が修正外力である場合は修正外力モデル更新部の動作を有効化し、判別の結果が敵対外力である場合は敵対外力モデル更新部４５Ｂの動作を有効化する。さらに、判別の結果が修正外力でない場合は修正外力モデル更新部４５Ａの動作を無効化し、判別の結果が敵対外力でない場合は敵対外力モデル更新部４５Ｂの動作を無効化する。

なお、本実施形態では、学習制御部４６が、位置姿勢の実績値及び外力の実績値に基づき外力が修正外力であるか敵対外力であるかを自動で判別する場合について説明するが、学習制御部４６が、外力が修正外力であるか敵対外力であるかの指定を受け付ける受け付け部をさらに備えた構成としてもよい。

この場合、ユーザーは、入力装置６０を操作して、グリッパ１２に加える外力が修正外力であるか敵対外力であるかを指定してグリッパ１２に外力を加える。

そして、学習制御部４６は、指定が修正外力である場合は修正外力モデル更新部４５Ａの動作を有効化し、指定が敵対外力である場合は敵対外力モデル更新部４５Ｂの動作を有効化する。さらに、指定が修正外力でない場合は修正外力モデル更新部４５Ａの動作を無効化し、指定が敵対外力でない場合は敵対外力モデル更新部４５Ｂの動作を無効化する。

なお、図５の例では、状態遷移モデルＤＭ、修正外力モデルＥＭ１、及び敵対外力モデルＥＭ２がそれぞれ独立したモデルであるが、ロボットモデルＬＭの構成はこれに限られない。例えば図６に示すロボットモデルＬＭ１のように、共用部ＣＭ、状態遷移モデル固有部ＤＭａ、修正外力モデル固有部ＥＭ１ａ、及び敵対外力モデル固有部ＥＭ２ａで構成されてもよい。この場合、共用部ＣＭは、状態遷移モデルＤＭ、修正外力モデルＥＭ１、及び敵対外力モデルＥＭ２に共通の処理を行う。修正外力モデル固有部ＥＭ１ａは、修正外力モデルＥＭ１に固有の処理を行う。敵対外力モデル固有部ＥＭ２ａは、敵対外力モデルＥＭ２に固有の処理を行う。

また、図７に示すロボットモデルＬＭ２のように、図５の修正外力モデルＥＭ１及び敵対外力モデルＥＭ２を備えた統合外力モデルＩＭを含む構成としてもよい。この場合、統合外力モデルＩＭは、外力の予測値を出力すると共に、外力が修正外力であるか敵対外力であるかを識別するための識別情報を出力する。

統合外力モデルＩＭは、プログレッシブニューラルネットワークの手法により修正外力モデルＥＭ１及び敵対外力モデルＥＭ２を統合したものであってもよい。この場合、修正外力モデルＥＭ１及び敵対外力モデルはニューラルネットワークで構成する。そして、敵対外力モデルＥＭ２の１又は複数の中間層及び出力層のうちの少なくとも１つの層は、修正外力モデルＥＭ１の対応する層の前段の層の出力をプログレッシブニューラルネットワーク（ＰＮＮ：ＰｒｏｇｒｅｓｓｉｖｅＮｅｕｒａｌＮｅｔｗｏｒｋ）の手法により統合する。

図８の例では、敵対外力モデルＥＭ２の出力層ＯＵＴ２には、修正外力モデルＥＭ１の対応する出力層ＯＵＴ１の前段の層である中間層ＭＩＤ２Ａの出力が入力されている。また、敵対外力モデルＥＭ２の中間層ＭＩＤ２Ｂには、修正外力モデルＥＭ１の対応する中間層ＭＩＤ２Ａの前段の層である中間層ＭＩＤ１Ａの出力が入力されている。

このような統合外力モデルＩＭに対して、まず、修正外力モデルＥＭ１の機械学習を行い、次に、敵対外力モデルＥＭ２の機械学習を行う。修正外力を加えて修正外力モデルＥＭ１の学習を行っている間は、修正外力の実績値に対する修正外力の予測値の誤差が小さくなるように修正外力モデルＥＭ１の各層間の重みパラメータを更新し、敵対外力モデルＥＭ２は更新しない。修正外力モデルＥＭ１の１つの層（例えばＭＩＤ１Ａ）から次の層（ＭＩＤ２Ａ）に至る経路の重みパラメータと同じ層（ＭＩＤ１Ａ）から敵対外力モデルの層（ＭＩＤ２Ｂ）に至る経路の重みパラメータとは常に同じ値にする。敵対外力モデルＥＭ２の１つの層（例えばＭＩＤ２Ｂ）は、その層への修正外力モデルの層（例えばＭＩＤ１Ａ）からの重み付けられた入力と敵対外力モデルＥＭ２の前段の層（ＭＩＤ１Ｂ）からの重み付けられた入力との和を敵対外力モデルＥＭ２の後段の層（ＯＵＴ２）への出力とする。修正外力モデルＥＭ１の学習が終了した後、敵対外力を加えて敵対外力モデルＥＭ２の学習を行っている間は、敵対外力の実績値に対する敵対外力の予測値の誤差が小さくなるように敵対外力モデルＥＭ２の各層間の重みパラメータを更新し、修正外力モデルＥＭ１は更新しない。敵対外力モデルＥＭ２の学習が終了した後の運用フェーズにおいては、敵対外力モデルＥＭ２の出力を外力の予測値として使用し、修正外力モデルＥＭ１の出力は使用しない。このようにして外力の機械学習をすることにより、修正外力モデルＥＭ１と敵対外力モデルＥＭ２とを統合したモデルでありながら、先に行う修正外力についての学習結果を壊すことなく敵対外力についての学習を行うことができる。

統合外力モデルＩＭは、図示しない識別部により外力の予測値が修正外力の予測値であるか敵対外力の予測値であるかを識別し、識別結果を識別情報として出力する。この場合、報酬算出部４３は、識別情報が、修正外力の予測値であることを示す場合には外力の予測値を報酬の減少要因とする計算により報酬を算出し、識別情報が、敵対外力の予測値であることを示す場合には外力の予測値を報酬の増加要因とする計算により報酬を算出する。

なお、プログレッシブニューラルネットワークの手法とは、例えば下記参考文献に記載された手法をいう。

（参考文献）Rusu et al., “Progressive neural networks,” arXiv preprint arXiv:1606.04671, 2016.

また、プログレッシブニューラルネットワークに関しては、下記の参考記事がある。

（参考記事）複数のゲームにおけるcontinual learning
https://wba-initiative.org/wp-content/uploads/2015/05/20161008-hack2-noguchi.pdf

（ロボットモデルの学習処理）

図９は、機械学習を用いてロボットモデルＬＭを学習する機械学習処理の流れを示すフローチャートである。図９の機械学習処理は、ＣＰＵ４０ＡがＲＯＭ４０Ｂまたはストレージ４０Ｄに記憶された機械学習プログラムを読み出して、ＲＡＭ４０Ｃに展開して実行される。

以下で説明するステップＳ１００～ステップＳ１０８の処理は、制御周期に従って一定の時間間隔で実行される。制御周期は、ステップＳ１００～ステップＳ１０８の処理を実行可能な時間に設定される。

ステップＳ１００では、ＣＰＵ４０Ａが、前回の制御周期を開始してから制御周期の長さに相当する所定時間が経過するまで待機する処理を行う。なお、ステップＳ１００の処理を省略し、前の制御周期の処理が完了したら直ぐに次の制御周期の処理が開始されるようにしてもよい。

ステップＳ１０１では、ＣＰＵ４０Ａが、状態観測センサ２０からロボット１０の位置姿勢の実績値（計測値）を取得すると共に、触覚センサ３０Ａ、３０Ｂから外力の実績値（計測値）を取得する。

ステップＳ１０２では、ＣＰＵ４０Ａが、取得部４１として、ステップＳ１０１で取得した位置姿勢の実績値が予め定めた終了条件を充足するか否かを判定する。ここで、終了条件を充足する場合とは、例えば位置姿勢の実績値と到達すべき位置姿勢の目標値との誤差が規定値以内の場合である。到達すべき位置姿勢とは、本実施形態の場合はロボット１０がペグ７０を穴７４に挿入できたときのロボット１０の位置姿勢である。

ステップＳ１０２の判定が肯定判定の場合は、本ルーチンを終了する。一方、ステップＳ１０２の判定が否定判定の場合は、ステップＳ１０３へ移行する。

ステップＳ１０３では、ＣＰＵ４０Ａが、外力モデル更新部４５として、外力モデルＥＭを更新する。具体的には、まずステップＳ１０１で取得した位置姿勢の実績値及び外力の実績値に基づき外力が修正外力であるか敵対外力であるかを判別する。例えば、位置姿勢の実績値と到達すべき位置姿勢の目標値との誤差が拡大しているときに誤差の拡大を抑制するような方向の力として検出された外力は修正外力と判別し、誤差が縮小しているときに誤差の縮小を抑制するような方向の力として検出された外力は敵対外力と判別することができるが、判別方法はこれに限られるものではない。

そして、判別された外力が修正外力である場合は、決定された行動指令に基づいて修正外力モデルＥＭ１が算出した修正外力の予測値と修正外力の実績値との間の差異が小さくなるように修正外力モデルＥＭ１の修正外力モデルパラメータを更新する。

一方、判別された外力が敵対外力である場合は、決定された行動指令に基づいて敵対外力モデルＥＭ２が算出した敵対外力の予測値と敵対外力の実績値との間の差異が小さくなるように敵対外力モデルＥＭ２の敵対外力モデルパラメータを更新する。

ステップＳ１０４では、ＣＰＵ４０Ａが、行動決定部４４として、ロボット１０に対する行動指令（又は行動指令系列）の複数の候補を生成する。本実施形態では、例えばｎ個（例えば３００個）の速度指令値候補をランダムに生成し、行動指令の候補値としてモデル実行部４２に出力する。

ステップＳ１０５では、ＣＰＵ４０Ａが、モデル実行部４２として、ステップＳ１０４で生成した行動指令の複数の候補のそれぞれについて位置姿勢の予測値及び外力の予測値を算出する。具体的には、位置姿勢の実績値及びｎ個の行動指令の候補値をロボットモデルＬＭに入力し、それぞれ行動指令の候補値に対応する位置姿勢の予測値、及び修正外力の予測値又は敵対外力の予測値を算出する。

ステップＳ１０６では、ＣＰＵ４０Ａが、報酬算出部４３として、ｎ個の行動指令の候補値に対応する位置姿勢の予測値及び修正外力の組毎に、報酬を算出する。すなわち、ｎ個の報酬を算出する。

外力が修正外力の場合の報酬ｒ１は、下記（１）式を用いて算出することができる。

・・・（１）

ここで、ｒ^Ｒは、位置姿勢の予測値と到達すべき位置姿勢の目標値との誤差である。ｓ１^Ｈは修正外力である。α１は重みであり、予め設定される。α１は、タスク実行中における修正外力の予測値に基づく報酬ｒ１の減少量の変化の幅が、位置姿勢の予測値と到達すべき位置姿勢の目標値との誤差に基づく報酬ｒ１の変化の幅よりも小さくなるように設定される。

一方、外力が敵対外力の場合の報酬ｒ２は、下記（２）式を用いて算出することができる。

・・・（２）

ここで、ｓ２^Ｈは敵対外力である。α２は重みであり、予め設定される。α２は、タスク実行中における敵対外力の予測値に基づく報酬ｒ２の増加量の変化の幅が、位置姿勢の予測値と到達すべき位置姿勢の目標値との誤差に基づく報酬ｒ２の変化の幅よりも小さくなるように設定される。

上記（１）、（２）式に示すように、外力が同じ場合において、位置姿勢の予測値と到達すべき位置姿勢の目標値との誤差が大きいほど報酬は小さくなる。また、上記（１）式に示すように、誤差が同じ場合において、修正外力が大きいほど報酬は小さくなる。また、上記（２）式に示すように、誤差が同じ場合において、敵対外力が大きいほど報酬は大きくなる。

ステップＳ１０７では、ＣＰＵ４０Ａが、行動決定部４４として、報酬を最大化する行動指令を決定し、ロボット１０に出力する。例えば、ｎ個の行動指令の候補値と報酬との対応関係を表す関係式を算出し、算出した関係式によって表される曲線上における最大の報酬に対応する行動指令の候補値を決定値とする。また、所謂クロスエントロピー法（ｃｒｏｓｓ－ｅｎｔｒｏｐｙｍｅｔｈｏｄ：ＣＥＭ）を用いて報酬を最大化できる行動指令を特定してもよい。これにより、報酬を最大化した行動指令が得られる。

ステップＳ１０４からステップＳ１０６までは、所定回数繰り返して実行するようにしてもよい。その場合、ＣＰＵ４０Ａは、行動決定部４４として、１回目のステップＳ１０６を実行した後、ｎ個の行動指令の候補値と報酬との組から報酬が上位である行動指令の候補値ｍ個を抽出し、行動指令の候補値ｍ個の平均及び分散を求め、それに従う正規分布を生成する。２回目のステップＳ１０４では、ＣＰＵ４０Ａは、行動決定部４４として、ランダムにではなく、確率密度が求めた正規分布と一致するように新しいｎ個の速度指令の候補値を生成する。以下同様にして、ステップＳ１０４からステップＳ１０６までを所定回数実行する。このようにすると、報酬を最大化する精度を高めることができる。

ロボット１０は、行動指令の決定値に従って動作する。ユーザーは、ロボット１０の動作に応じて外力をロボット１０に加える。具体的には、外力をグリッパ１２に加える。ユーザーは、位置姿勢の予測値と到達すべき位置姿勢の目標値との誤差が拡大しつつある場合に、ロボット１０に対して修正外力を加え、誤差が縮小しつつある場合に、ロボット１０に対して敵対外力を加えることが好ましい。すなわち、ユーザーは、例えばロボット１０の動作によりペグ７０が穴７４から離れる方向に移動しつつある場合には、ペグ７０が穴７４に近づく方向にグリッパ１２に修正外力を加える。また、例えばロボット１０の動作によりペグ７０が穴７４から近づく方向に移動しつつある場合には、ペグ７０が穴７４から離れる方向にグリッパ１２に敵対外力を加える。

なお、外力モデルを機械学習する過程において、最初に修正外力を加えることが好ましい。最初に敵対外力を加えると学習が遅くなる可能性があるためである。また、修正外力及び敵対外力を加える比率としては、１対１でもよいし、修正外力の比率を高くしてもよい。また、修正外力及び敵対外力を加える順序としては、修正外力を複数回加えてから敵対外力を複数回加えてもよいし、修正外力及び敵対外力を交互に加えてもよい。

また、人間が修正外力又は敵対外力を加えるのではなく、外力を付与するロボット等によって自動で修正外力又は敵対外力を加えても良い。

ステップＳ１０８では、ＣＰＵ４０Ａが、モデル実行部４２として、ステップＳ１０７で決定した行動指令の決定値について外力の予測値を算出し、ステップＳ１００へ戻る。

このように、位置姿勢の実績値が終了条件を充足するまで、制御周期毎にステップＳ１００～Ｓ１０８の処理を繰り返す。

これにより、ロボットモデルＬＭが学習される。このように、ロボットモデルＬＭは、修正外力モデルＥＭ１及び敵対外力モデルＥＭ２を含み、ユーザーが修正外力又は敵対外力をロボット１０に加えながらロボットモデルＬＭを学習するため、効率良く学習することができると共に、ロボット１０の操作対象である部品の形状及び材質が変化したり、ロボット１０の物理特性が経年変化したりする等の環境変化に対するロバスト性に優れたロボットモデルＬＭを得ることができる。

なお、運用フェーズにおいては、モデル実行部４２は、図９の学習処理により学習済みのロボットモデルＬＭを実行する。運用フェーズにおけるロボット制御装置４０の機能構成は、図１の機能構成から外力モデル更新部４５及び学習制御部４６を省いた構成である。運用フェーズにおけるロボット制御処理は、図９の学習処理から、ステップＳ１０１の中の「外力の実績値を取得」の処理、及びステップＳ１０３の外力モデル更新の更新処理を除いた処理であり、この処理を実行するプログラムがロボット制御処理プログラムとなる。

なお、学習フェーズにおけるロボットモデルの学習処理を実行する装置と運用フェーズにおけるロボット制御処理を実行する装置とは、別々の装置でもよいし、同じでもよい。例えば、学習に用いた学習装置をそのままロボット制御装置４０として使用し、学習済みのロボットモデルＬＭを用いた制御を行ってもよい。また、ロボット制御装置４０は、学習を継続しながら制御を行ってもよい。

＜第１実施形態の変形例＞
第１実施形態では、状態遷移モデルＤＭは、位置姿勢の実績値及び行動指令を入力するが、外力の実績値は入力しない構成であった。これに代えて、状態遷移モデルＤＭは、外力の実績値も入力する構成にしてもよい。その場合、状態遷移モデルＤＭは、位置姿勢の実績値、行動指令、及び外力の実績値に基づいて、位置姿勢の予測値を算出する。もっとも、触覚センサ３０Ａ、３０Ｂに修正外力又は敵対外力が加えられるのは外力モデルＥＭ１、ＥＭ２、ＥＭ１ａ、ＥＭ２ａ、ＩＭの機械学習をしている期間に限られる。運用フェーズにおいては、状態遷移モデルＤＭは、外力の実績値の入力が実質的にゼロである状態が継続したままで位置姿勢の予測値を算出する。一方、外力モデルが外力の実績値の入力なしに位置姿勢の実績値及び行動指令から外力の予測値を算出することは、この変形例においても同様である。外力の予測値は、報酬計算に使われることを通して行動決定に影響を与える。この変形例と同様の変形は、以降の実施形態においても行うことができる。

＜第２実施形態＞

次に、開示の技術の第２実施形態について説明する。なお、第１実施形態と同一部分には同一符号を付し、詳細な説明は省略する。

第２実施形態にかかるロボットシステム１は第１実施形態と同一であるので説明は省略する。

（ロボットモデルの学習処理）

図１０は、第２実施形態に係る機械学習処理の流れを示すフローチャートである。図１０の機械学習処理は、ＣＰＵ４０ＡがＲＯＭ４０Ｂまたはストレージ４０Ｄに記憶された機械学習プログラムを読み出して、ＲＡＭ４０Ｃに展開して実行される。

ステップＳ１００～Ｓ１０３、Ｓ１０８の処理は、図９の処理と同一であるため説明は省略する。

ステップＳ１０４Ａでは、ＣＰＵ４０Ａが、行動決定部４４として、ロボット１０に対する行動指令（又は行動指令系列）の一の候補を生成する。

ステップＳ１０６Ａでは、ＣＰＵ４０Ａが、モデル実行部４２として、ステップＳ１０４Ａで生成した行動指令の一の候補について位置姿勢の予測値及び外力の予測値を算出する。具体的には、位置姿勢の実績値及び行動指令の候補値をロボットモデルＬＭに入力し、行動指令の候補値に対応する位置姿勢の予測値、及び修正外力の予測値又は敵対外力の予測値を算出する。

ステップＳ１０６Ａでは、ＣＰＵ４０Ａが、報酬算出部４３として、行動指令の候補値に対応する位置姿勢の予測値及び外力の予測値の組に基づいて報酬を算出する。すなわち、外力が修正外力の場合は上記（１）式により報酬ｒ１を算出し、外力が敵対外力の場合は上記（２）式により報酬ｒ２を算出する。

ステップＳ１０６Ｂでは、ＣＰＵ４０Ａが、ステップＳ１０６Ａで算出した報酬が規定条件を充足するか否かを判定する。ここで、規定条件を充足する場合とは、例えば報酬が規定値を超えた場合、または、ステップＳ１０４Ａ～Ｓ１０６Ｂの処理のループを規定回数実行した場合等である。規定回数は、例えば１０回、１００回、１０００回等に設定される。

ステップＳ１０７Ａでは、ＣＰＵ４０Ａが、行動決定部４４として、報酬を最大化する行動指令を決定し、ロボット１０に出力する。例えば、報酬が規定条件を充足したときの行動指令そのものでもよいし、行動指令の変化に対応する報酬の変化の履歴から予測される、更に報酬を最大化できる行動指令としてもよい。

＜第３実施形態＞

次に、開示の技術の第３実施形態について説明する。なお、第１実施形態と同一部分には同一符号を付し、詳細な説明は省略する。

（ロボット制御装置）

図１１は、第３実施形態に係るロボット制御装置４０Ｘの機能構成である。ロボット制御装置４０Ｘが図１に示すロボット制御装置４０と異なるのは、記憶部４８及び状態遷移モデル更新部４９を備えている点である。その他の構成はロボット制御装置４０と同一であるので説明は省略する。

記憶部４８は、取得部４１が取得したロボット１０の位置姿勢の実績値を記憶する。

状態遷移モデル更新部４９は、行動決定部４４で決定された行動指令に基づいて状態遷移モデルＤＭが算出した位置姿勢の予測値と、当該位置姿勢の予測値に対応する位置姿勢の実績値との間の誤差が小さくなるように状態遷移モデルＤＭを更新する。

（ロボットモデルの学習処理）

図１２は、第３実施形態に係る機械学習処理の流れを示すフローチャートである。図１２の機械学習処理は、ＣＰＵ４０ＡがＲＯＭ４０Ｂまたはストレージ４０Ｄに記憶された機械学習プログラムを読み出して、ＲＡＭ４０Ｃに展開して実行される。

図１２の学習処理が図９の学習装置と異なるのは、ステップＳ１０１Ａ、Ｓ１０３Ａの処理が追加されている点である。その他のステップは図９の処理と同一であるため説明は省略する。

ステップＳ１０１Ａでは、ＣＰＵ４０Ａが、取得部４１として、ステップＳ１０１で取得したロボット１０の位置姿勢の実績値を記憶部４８に記憶させる。

ステップＳ１０３Ａでは、ＣＰＵ４０Ａが、状態遷移モデル更新部４９として、状態遷移モデルＤＭを更新する。具体的には、まず記憶部４８に記憶されている中からランダムに選んだ例えば１００個の時刻ｔについての位置姿勢の実績値ｘ_ｔ、行動指令としての速度指令値ｕ_ｔ、時刻ｔ＋１についての位置姿勢の実績値ｘ_ｔ＋１の組を取得する。次に、前回の状態遷移モデルパラメータを修正した新たな状態遷移モデルパラメータを決定する。状態遷移モデルパラメータの修正は、時刻ｔにおける位置姿勢の実績値から算出した時刻ｔ＋１における位置姿勢の予測値と、時刻ｔ＋１における位置姿勢の実績値との誤差が最小となることを目標として行う。

そして、新たな状態遷移モデルパラメータを状態遷移モデルＤＭに設定する。新たな状態遷移モデルパラメータは、次の制御周期において「前回のモデルパラメータ」として使用するために状態遷移モデル更新部４９内に記憶する。

このように、本実施形態では、修正外力モデルＥＭ１及び敵対外力モデルＥＭ２と共に、状態遷移モデルＤＭも学習することができる。

＜実験例＞

次に、開示の技術の実験例について説明する。

図１３は、シミュレーションによりロボットに修正外力及び敵対外力を加えながらペグを穴に挿入するタスクを行ってロボットモデルを学習した結果を示す。このシミュレーションでは、修正外力を７回加えた後、敵対外力を７回加えてロボットモデルを学習した。

図１３（Ａ）、（Ｂ）の横軸は外力を加えた回数を表す。図１３（Ａ）の縦軸はペグの位置の誤差を表す。図１３（Ｂ）の縦軸は加えた外力の大きさを表す。

図１３（Ａ）には、従来手法により外力を加えずに状態遷移モデルのみ学習した結果(Ｂａｓｅｌｉｎｅ)と、提案手法により被験者１が加えた修正外力及び敵対外力により修正外力モデル及び敵対外力モデルを含むロボットモデルを学習した結果（Ｐｒｏｐｏｓｅｄ（ｐａｒｔｉｃｉｐａｎｔ１））と、提案手法により被験者１と異なる被験者２が加えた修正外力及び敵対外力により修正外力モデル及び敵対外力モデルを含むロボットモデルを学習した結果（Ｐｒｏｐｏｓｅｄ（ｐａｒｔｉｃｉｐａｎｔ２））と、を示した。図１３（Ａ）に示すように、学習終了時の位置の誤差を従来手法と提案手法（被験者１及び被験者２）とで比較すると、提案手法の方が従来手法よりも位置の誤差が小さいことが分かる。また、図１３（Ｂ）に示すように、外力の加え方は被験者１、２で異なるが、被験者によらず位置の誤差が小さくなることが分かった。

また、図１４（Ａ）には、穴が設けられた台の摩擦係数を変えてペグの挿入が成功した回数をシミュレーションした結果を示した。図１４（Ｂ）には、ペグの質量を変えてペグの挿入が成功した回数をシミュレーションした結果を示した。図１４（Ａ）、（Ｂ）に示すように、台の摩擦係数やペグの質量が異なる場合でも、ペグの挿入の成功回数が従来手法よりも提案手法の方が多くなることが分かった。

また、図１５には、シミュレーションと同様のペグの挿入タスクを、異なる材質のペグを用いて実機で行った結果を示した。ペグの材質は、金属（Ｄｅｆａｕｌｔ）、プラスティック、及びスポンジの３種類である。図１５に示すように、何れの材質のペグにおいても、従来手法と比べて提案手法の方がペグの挿入の成功回数が多くなることが分かった。

上記実施形態の構成及び動作、並びに上記実験例からわかるとおり、修正外力を加えて機械学習することによりロボットモデルの機械学習の効率を高めることができる。また、敵対外力を加えて機械学習することにより、把持対象物における摩擦力や質量の変化に対するロバスト性を高めることができる。また、敵対外力を加えて機械学習することにも学習効率を高める効果がある。

なお、上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。開示の技術は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。

例えば上記実施形態では、ペグの嵌め込み作業を例に説明したが、学習および制御対象の作業は任意の作業であってよい。

また、上各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行したロボットモデルの学習処理及びロボット制御処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、学習処理及び制御処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

また、上記各実施形態では、ロボットモデルの学習プログラム及びロボット制御プログラムがストレージ４０Ｄ又はＲＯＭ４０Ｂに予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
以上の実施形態に関し、更に以下の付記を開示する。
（付記１）
ロボットの位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得する取得部（４１）と、
ある時間における前記位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル（ＤＭ）及び前記ロボットに加えられる外力の予測値を算出する外力モデル（ＥＭ）を含むロボットモデル（ＬＭ）と、
前記ロボットモデルを実行するモデル実行部（４２）と、
前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の誤差及び前記外力の予測値に基づいて報酬を算出する報酬算出部（４３）と、
制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補のそれぞれに対応して前記報酬算出部が算出する報酬に基づいて報酬を最大化する行動指令を決定する行動決定部（４４）と、
決定された前記行動指令に基づいて前記外力モデルが算出した前記外力の予測値と、当該外力の予測値に対応する前記外力の実績値との間の差異が小さくなるように前記外力モデルを更新する外力モデル更新部（４５）と、
を備えたロボットモデルの学習装置。
（付記２）
決定された前記行動指令に基づいて前記状態遷移モデルが算出した前記位置姿勢の予測値と、当該位置姿勢の予測値に対応する前記位置姿勢の実績値との間の誤差が小さくなるように前記状態遷移モデルを更新する状態遷移モデル更新部（４９）と、
を備えた付記１記載のロボットモデルの学習装置。
（付記３）
前記報酬算出部は、前記外力が前記誤差の拡大を抑制する外力である修正外力である場合において、前記修正外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出する
付記１又は付記２記載のロボットモデルの学習装置。
（付記４）
前記報酬算出部は、タスク実行中における前記修正外力の予測値に基づく前記報酬の減少量の変化の幅が前記誤差に基づく前記報酬の減少量の変化の幅よりも小さくなる計算により前記報酬を算出する
付記３記載のロボットモデルの学習装置。
（付記５）
前記外力モデルは、前記外力が前記修正外力である場合において、前記修正外力の予測値を出力する修正外力モデル（ＥＭ１）を含み、
前記外力モデル更新部は、前記外力が前記修正外力である場合において、前記決定された前記行動指令に基づいて前記修正外力モデルが算出した前記修正外力の予測値と前記修正外力の実績値との間の差異が小さくなるように前記修正外力モデルを更新する修正外力モデル更新部（４５Ａ）を含む
付記３又は付記４記載のロボットモデルの学習装置。
（付記６）
前記報酬算出部は、前記外力が前記誤差の縮小を抑制する外力である敵対外力である場合において、前記敵対外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出する
付記１又は付記２記載のロボットモデルの学習装置。
（付記７）
前記報酬算出部は、タスク実行中における前記敵対外力の予測値に基づく前記報酬の増加量の変化の幅が前記誤差に基づく前記報酬の増加量の変化の幅よりも小さくなる計算により前記報酬を算出する
付記６記載のロボットモデルの学習装置。
（付記８）
前記外力モデルは、前記外力が前記敵対外力である場合において、前記敵対外力の予測値を出力する敵対外力モデル（ＥＭ２）を含み、
前記外力モデル更新部は、前記外力が前記敵対外力である場合において、前記決定された前記行動指令に基づいて前記敵対外力モデルが算出した前記敵対外力の予測値と前記敵対外力の実績値との間の差異が小さくなるように前記敵対外力モデルを更新する敵対外力モデル更新部（４５Ｂ）を含む
付記６又は付記７記載のロボットモデルの学習装置。
（付記９）
前記報酬算出部は、前記外力が前記誤差の拡大を抑制する修正外力である場合において、前記修正外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出し、前記外力が前記誤差の縮小を抑制する外力である敵対外力である場合において、前記敵対外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出する
付記１又は付記２記載のロボットモデルの学習装置。
（付記１０）
前記報酬算出部は、タスク実行中における前記修正外力の予測値に基づく前記報酬の減少量の変化の幅が前記誤差に基づく前記報酬の変化の幅よりも小さくなり、タスク実行中における前記敵対外力の予測値に基づく前記報酬の増加量の変化の幅が前記誤差に基づく前記報酬の変化の幅よりも小さくなる計算により前記報酬を算出する
付記９記載のロボットモデルの学習装置。
（付記１１）
前記外力モデルは、前記外力が前記修正外力である場合において、前記修正外力の予測値を出力する修正外力モデル（ＥＭ１）と、前記外力が前記敵対外力である場合において、前記敵対外力の予測値を出力する敵対外力モデル（ＥＭ２）とを含み、
前記外力モデル更新部は、前記外力が前記修正外力である場合において、前記決定された行動指令に基づいて前記修正外力モデルが算出した前記修正外力の予測値と前記外力の実績値との差異が小さくなるように前記修正外力モデルを更新する修正外力モデル更新部と、前記外力が前記敵対外力である場合において、前記決定された行動指令に基づいて前記敵対外力モデルが算出した前記敵対外力の予測値と前記外力の実績値との差異が小さくなるように前記敵対外力モデルを更新する敵対外力モデル更新部（４５Ｂ）とを含む
付記９又は付記１０記載のロボットモデルの学習装置。
（付記１２）
前記ロボットモデルは、前記修正外力モデル及び前記敵対外力モデルを備えた統合外力モデル（ＩＭ）を含み、
前記修正外力モデル及び前記敵対外力モデルはニューラルネットワークであり、
前記敵対外力モデルの１又は複数の中間層及び出力層のうちの少なくとも１つの層は、前記修正外力モデルの対応する層の前段の層の出力をプログレッシブニューラルネットワークの手法により統合し、
前記統合外力モデルは、前記敵対外力モデルの出力を外力の予測値として出力し、
前記統合外力モデルは、出力する前記外力の予測値が修正外力の予測値であるか敵対外力の予測値であるかの識別情報を出力し、
前記報酬算出部は、前記識別情報が、修正外力の予測値であることを示す場合には前記外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出し、前記識別情報が、敵対外力の予測値であることを示す場合には前記外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出する
付記１１記載のロボットモデルの学習装置。
（付記１３）
前記外力が前記修正外力であるか前記敵対外力であるかの指定を受け付ける受け付け部をさらに備え、
前記指定が前記修正外力である場合は前記修正外力モデル更新部の動作を有効化し、前記指定が前記敵対外力である場合は前記敵対外力モデル更新部の動作を有効化する学習制御部をさらに備えた
付記１１又は付記１２記載のロボットモデルの学習装置。
（付記１４）
前記位置姿勢の実績値及び前記外力の実績値に基づき前記外力が前記修正外力であるか前記敵対外力であるかを判別し、前記判別の結果が前記修正外力である場合は前記修正外力モデル更新部の動作を有効化し、前記判別の結果が前記敵対外力である場合は前記敵対外力モデル更新部の動作を有効化する学習制御部（４６）をさらに備える
付記１１又は付記１２記載のロボットモデルの学習装置。
（付記１５）
ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル（ＤＭ）及び前記ロボットに加えられる外力の予測値を算出する外力モデル（ＥＭ）を含むロボットモデル（ＬＭ）を用意し、
制御周期毎に、前記位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得し、
制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補に対応して前記状態遷移モデルにより算出される複数の前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の複数の誤差及び前記行動指令の複数の候補に対応して前記外力モデルにより算出される複数の前記外力の予測値に基づいて、前記行動指令の複数の候補に対応して算出される複数の報酬に基づいて、報酬を最大化する行動指令を決定し、
決定された前記行動指令に基づいて前記外力モデルが算出した前記外力の予測値と、当該外力の予測値に対応する前記外力の実績値との間の差異が小さくなるように前記外力モデルを更新する、
ロボットモデルの機械学習方法。
（付記１６）
さらに、決定された前記行動指令に基づいて前記状態遷移モデルが算出した前記位置姿勢の予測値と、当該位置姿勢の予測値に対応する前記位置姿勢の実績値との間の誤差が小さくなるように前記状態遷移モデルを更新する
付記１５記載のロボットモデルの機械学習方法。
（付記１７）
前記外力が前記誤差の拡大を抑制する外力である修正外力である場合において、前記修正外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出する
付記１５又は付記１６記載のロボットモデルの機械学習方法。
（付記１８）
タスク実行中における前記修正外力の予測値に基づく前記報酬の減少量の変化の幅が前記誤差に基づく前記報酬の変化の幅よりも小さくなる計算により前記報酬を算出する
付記１７記載のロボットモデルの機械学習方法。
（付記１９）
前記外力モデルは、前記外力が前記修正外力である場合において、前記修正外力の予測値を出力する修正外力モデル（ＥＭ１）を含み、
前記外力が前記修正外力である場合において、前記決定された前記行動指令に基づいて前記修正外力モデルが算出した前記修正外力の予測値と前記外力の実績値との間の差異が小さくなるように前記修正外力モデルを更新する
付記１７又は付記１８記載のロボットモデルの機械学習方法。
（付記２０）
前記誤差が拡大しつつある場合に、前記ロボットに対して前記修正外力を加える
付記１９記載のロボットモデルの機械学習方法。
（付記２１）
前記外力が前記誤差の縮小を抑制する外力である敵対外力である場合において、前記敵対外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出する
付記１５又は付記１６記載のロボットモデルの機械学習方法。
（付記２２）
タスク実行中における前記敵対外力の予測値に基づく前記報酬の増加量の変化の幅が前記誤差に基づく前記報酬の変化の幅よりも小さくなる計算により前記報酬を算出する
付記２１記載のロボットモデルの機械学習方法。
（付記２３）
前記外力モデルは、前記外力が前記敵対外力である場合において、前記敵対外力の予測値を出力する敵対外力モデル（ＥＭ２）を含み、
前記外力が前記敵対外力である場合において、前記決定された前記行動指令に基づいて前記敵対外力モデルが算出した前記敵対外力の予測値と前記外力の実績値との間の差異が小さくなるように前記敵対外力モデルを更新する
付記２１又は付記２２記載のロボットモデルの機械学習方法。
（付記２４）
前記誤差が縮小しつつある場合に、前記ロボットに対して前記敵対外力を加える
付記２３記載のロボットモデルの機械学習方法。
（付記２５）
前記外力が前記誤差の拡大を抑制する修正外力である場合において、前記修正外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出し、前記外力が前記誤差の縮小を抑制する外力である敵対外力である場合において、前記敵対外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出する
付記１５又は付記１６記載のロボットモデルの機械学習方法。
（付記２６）
タスク実行中における前記修正外力の予測値に基づく前記報酬の減少量の変化の幅が前記誤差に基づく前記報酬の変化の幅よりも小さくなり、タスク実行中における前記敵対外力の予測値に基づく前記報酬の増加量の変化の幅が前記誤差に基づく前記報酬の変化の幅よりも小さくなる計算により前記報酬を算出する
付記２５記載のロボットモデルの機械学習方法。
（付記２７）
前記外力モデルは、前記外力が前記修正外力である場合において、前記修正外力の予測値を出力する修正外力モデル（ＥＭ１）と、前記外力が前記敵対外力である場合において、前記敵対外力の予測値を出力する敵対外力モデル（ＥＭ２）とを含み、
前記外力が前記修正外力である場合において、前記決定された行動指令に基づいて前記修正外力モデルが算出した前記修正外力の予測値と前記外力の実績値との差異が小さくなるように前記修正外力モデルを更新し、前記外力が前記敵対外力である場合において、前記決定された行動指令に基づいて前記敵対外力モデルが算出した前記敵対外力の予測値と前記外力の実績値との差異が小さくなるように前記敵対外力モデルを更新する
付記２５又は付記２６記載のロボットモデルの機械学習方法。
（付記２８）
前記誤差が拡大しつつある場合に、前記ロボットに対して前記修正外力を加え、前記誤差が縮小しつつある場合に、前記ロボットに対して前記敵対外力を加える
付記２７記載のロボットモデルの機械学習方法。
（付記２９）
ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル（ＤＭ）及び前記ロボットに加えられる外力の予測値を算出する外力モデル（ＥＭ）を含むロボットモデル（ＬＭ）を機械学習するための機械学習プログラムであって、
制御周期毎に、前記位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得し、
制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補に対応して前記状態遷移モデルにより算出される複数の前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の複数の誤差及び前記行動指令の複数の候補に対応して前記外力モデルにより算出される複数の前記外力の予測値に基づいて、前記行動指令の複数の候補に対応して算出される複数の報酬に基づいて、報酬を最大化する行動指令を決定し、
決定された前記行動指令に基づいて前記外力モデルが算出した前記外力の予測値と、当該外力の予測値に対応する前記外力の実績値との間の差異が小さくなるように前記外力モデルを更新する、
各処理をコンピュータに行わせるロボットモデルの機械学習プログラム。
（付記３０）
ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル（ＤＭ）及び前記ロボットに加えられる外力の予測値を算出する外力モデル（ＥＭ）を含むロボットモデル（ＬＭ）を実行するモデル実行部（４２）と、
前記ロボットの位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得する取得部（４１）と、
前記ロボットモデルにより算出された位置姿勢の予測値と到達すべき位置姿勢の目標値との間の誤差及び前記ロボットモデルにより算出された外力の予測値に基づいて報酬を算出する報酬算出部（４３）と、
制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補のそれぞれに対応して前記報酬算出部が算出する報酬に基づいて報酬を最大化する行動指令を決定する行動決定部（４４）と、
を備えたロボット制御装置。
（付記３１）
ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル（ＤＭ）及び前記ロボットに加えられる外力の予測値を算出する外力モデル（ＥＭ）を含むロボットモデル（ＬＭ）を用意し、
制御周期毎に、前記位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得し、
制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補に対応して前記状態遷移モデルにより算出される複数の前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の複数の誤差及び前記行動指令の複数の候補に対応して前記外力モデルにより算出される複数の前記外力の予測値に基づいて、前記行動指令の複数の候補に対応して算出される複数の報酬に基づいて、報酬を最大化する行動指令を決定し、
決定された前記行動指令に基づいて前記ロボットを制御する、
ロボット制御方法。
（付記３２）
ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル（ＤＭ）及び前記ロボットに加えられる外力の予測値を算出する外力モデル（ＥＭ）を含むロボットモデル（ＬＭ）を用いて前記ロボットを制御するためのプログラムであって、
制御周期毎に、前記位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得し、
制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補に対応して前記状態遷移モデルにより算出される複数の前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の複数の誤差及び前記行動指令の複数の候補に対応して前記外力モデルにより算出される複数の前記外力の予測値に基づいて、前記行動指令の複数の候補に対応して算出される複数の報酬に基づいて、報酬を最大化する行動指令を決定し、
決定された前記行動指令に基づいて前記ロボットを制御する、
各処理をコンピュータに行わせるロボット制御プログラム。

１ロボットシステム
１０ロボット
２０状態観測センサ
３０Ａ、３０Ｂ触覚センサ
４０ロボット制御装置
４１取得部
４２モデル実行部
４３報酬算出部
４４行動決定部
４５外力モデル更新部
４５Ａ敵対外力モデル更新部
４５Ｂ修正外力モデル更新部
４９状態遷移モデル更新部
７０ペグ
ＬＭロボットモデル

Claims

ロボットの位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得する取得部と、
ある時間における前記位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル及び前記ロボットに加えられる外力の予測値を算出する外力モデルを含むロボットモデルと、
前記ロボットモデルを実行するモデル実行部と、
前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の誤差及び前記外力の予測値に基づいて報酬を算出する報酬算出部と、
制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補のそれぞれに対応して前記報酬算出部が算出する報酬に基づいて報酬を最大化する行動指令を決定する行動決定部と、
決定された前記行動指令に基づいて前記外力モデルが算出した前記外力の予測値と、当該外力の予測値に対応する前記外力の実績値との間の差異が小さくなるように前記外力モデルを更新する外力モデル更新部と、
を備えたロボットモデルの学習装置。
決定された前記行動指令に基づいて前記状態遷移モデルが算出した前記位置姿勢の予測値と、当該位置姿勢の予測値に対応する前記位置姿勢の実績値との間の誤差が小さくなるように前記状態遷移モデルを更新する状態遷移モデル更新部と、
を備えた請求項１記載のロボットモデルの学習装置。
前記報酬算出部は、前記外力が前記誤差の拡大を抑制する外力である修正外力である場合において、前記修正外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出する
請求項１又は請求項２記載のロボットモデルの学習装置。
前記報酬算出部は、前記外力が前記誤差の縮小を抑制する外力である敵対外力である場合において、前記敵対外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出する
請求項１又は請求項２記載のロボットモデルの学習装置。
前記報酬算出部は、前記外力が前記誤差の拡大を抑制する修正外力である場合において、前記修正外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出し、前記外力が前記誤差の縮小を抑制する外力である敵対外力である場合において、前記敵対外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出する
請求項１又は請求項２記載のロボットモデルの学習装置。
前記報酬算出部は、タスク実行中における前記修正外力の予測値に基づく前記報酬の減少量の変化の幅が前記誤差に基づく前記報酬の変化の幅よりも小さくなり、タスク実行中における前記敵対外力の予測値に基づく前記報酬の増加量の変化の幅が前記誤差に基づく前記報酬の変化の幅よりも小さくなる計算により前記報酬を算出する
請求項５記載のロボットモデルの学習装置。
前記外力モデルは、前記外力が前記修正外力である場合において、前記修正外力の予測値を出力する修正外力モデルと、前記外力が前記敵対外力である場合において、前記敵対外力の予測値を出力する敵対外力モデルとを含み、
前記外力モデル更新部は、前記外力が前記修正外力である場合において、前記決定された行動指令に基づいて前記修正外力モデルが算出した前記修正外力の予測値と前記外力の実績値との差異が小さくなるように前記修正外力モデルを更新する修正外力モデル更新部と、前記外力が前記敵対外力である場合において、前記決定された行動指令に基づいて前記敵対外力モデルが算出した前記敵対外力の予測値と前記外力の実績値との差異が小さくなるように前記敵対外力モデルを更新する敵対外力モデル更新部とを含む
請求項５又は請求項６記載のロボットモデルの学習装置。
前記ロボットモデルは、前記修正外力モデル及び前記敵対外力モデルを備えた統合外力モデルを含み、
前記修正外力モデル及び前記敵対外力モデルはニューラルネットワークであり、
前記敵対外力モデルの１又は複数の中間層及び出力層のうちの少なくとも１つの層は、前記修正外力モデルの対応する層の前段の層の出力をプログレッシブニューラルネットワークの手法により統合し、
前記統合外力モデルは、前記敵対外力モデルの出力を外力の予測値として出力し、
前記統合外力モデルは、出力する前記外力の予測値が修正外力の予測値であるか敵対外力の予測値であるかの識別情報を出力し、
前記報酬算出部は、前記識別情報が、修正外力の予測値であることを示す場合には前記外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出し、前記識別情報が、敵対外力の予測値であることを示す場合には前記外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出する
請求項７記載のロボットモデルの学習装置。
前記外力が前記修正外力であるか前記敵対外力であるかの指定を受け付ける受け付け部をさらに備え、
前記指定が前記修正外力である場合は前記修正外力モデル更新部の動作を有効化し、前記指定が前記敵対外力である場合は前記敵対外力モデル更新部の動作を有効化する学習制御部をさらに備えた
請求項７又は請求項８記載のロボットモデルの学習装置。
前記位置姿勢の実績値及び前記外力の実績値に基づき前記外力が前記修正外力であるか前記敵対外力であるかを判別し、前記判別の結果が前記修正外力である場合は前記修正外力モデル更新部の動作を有効化し、前記判別の結果が前記敵対外力である場合は前記敵対外力モデル更新部の動作を有効化する学習制御部をさらに備える
請求項７又は請求項８記載のロボットモデルの学習装置。
ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル及び前記ロボットに加えられる外力の予測値を算出する外力モデルを含むロボットモデルを用意し、
制御周期毎に、前記位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得し、
制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補に対応して前記状態遷移モデルにより算出される複数の前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の複数の誤差及び前記行動指令の複数の候補に対応して前記外力モデルにより算出される複数の前記外力の予測値に基づいて、前記行動指令の複数の候補に対応して算出される複数の報酬に基づいて、報酬を最大化する行動指令を決定し、
決定された前記行動指令に基づいて前記外力モデルが算出した前記外力の予測値と、当該外力の予測値に対応する前記外力の実績値との間の差異が小さくなるように前記外力モデルを更新する、
ロボットモデルの機械学習方法。
さらに、決定された前記行動指令に基づいて前記状態遷移モデルが算出した前記位置姿勢の予測値と、当該位置姿勢の予測値に対応する前記位置姿勢の実績値との間の誤差が小さくなるように前記状態遷移モデルを更新する
請求項１１記載のロボットモデルの機械学習方法。
前記外力が前記誤差の拡大を抑制する外力である修正外力である場合において、前記修正外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出する
請求項１１又は請求項１２記載のロボットモデルの機械学習方法。
前記外力が前記誤差の縮小を抑制する外力である敵対外力である場合において、前記敵対外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出する
請求項１１又は請求項１２記載のロボットモデルの機械学習方法。
前記外力が前記誤差の拡大を抑制する修正外力である場合において、前記修正外力の予測値を前記報酬の減少要因とする計算により前記報酬を算出し、前記外力が前記誤差の縮小を抑制する外力である敵対外力である場合において、前記敵対外力の予測値を前記報酬の増加要因とする計算により前記報酬を算出する
請求項１１又は請求項１２記載のロボットモデルの機械学習方法。
前記外力モデルは、前記外力が前記修正外力である場合において、前記修正外力の予測値を出力する修正外力モデルと、前記外力が前記敵対外力である場合において、前記敵対外力の予測値を出力する敵対外力モデルとを含み、
前記外力が前記修正外力である場合において、前記決定された行動指令に基づいて前記修正外力モデルが算出した前記修正外力の予測値と前記外力の実績値との差異が小さくなるように前記修正外力モデルを更新し、前記外力が前記敵対外力である場合において、前記決定された行動指令に基づいて前記敵対外力モデルが算出した前記敵対外力の予測値と前記外力の実績値との差異が小さくなるように前記敵対外力モデルを更新する
請求項１５記載のロボットモデルの機械学習方法。
前記誤差が拡大しつつある場合に、前記ロボットに対して前記修正外力を加え、前記誤差が縮小しつつある場合に、前記ロボットに対して前記敵対外力を加える
請求項１６記載のロボットモデルの機械学習方法。
ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル及び前記ロボットに加えられる外力の予測値を算出する外力モデルを含むロボットモデルを機械学習するための機械学習プログラムであって、
制御周期毎に、前記位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得し、
制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補に対応して前記状態遷移モデルにより算出される複数の前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の複数の誤差及び前記行動指令の複数の候補に対応して前記外力モデルにより算出される複数の前記外力の予測値に基づいて、前記行動指令の複数の候補に対応して算出される複数の報酬に基づいて、報酬を最大化する行動指令を決定し、
決定された前記行動指令に基づいて前記外力モデルが算出した前記外力の予測値と、当該外力の予測値に対応する前記外力の実績値との間の差異が小さくなるように前記外力モデルを更新する、
各処理をコンピュータに行わせるロボットモデルの機械学習プログラム。
ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル及び前記ロボットに加えられる外力の予測値を算出する外力モデルを含むロボットモデルを実行するモデル実行部と、
前記ロボットの位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得する取得部と、
前記ロボットモデルにより算出された位置姿勢の予測値と到達すべき位置姿勢の目標値との間の誤差及び前記ロボットモデルにより算出された外力の予測値に基づいて報酬を算出する報酬算出部と、
制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補のそれぞれに対応して前記報酬算出部が算出する報酬に基づいて報酬を最大化する行動指令を決定する行動決定部と、
を備えたロボット制御装置。
ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル及び前記ロボットに加えられる外力の予測値を算出する外力モデルを含むロボットモデルを用意し、
制御周期毎に、前記位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得し、
制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補に対応して前記状態遷移モデルにより算出される複数の前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の複数の誤差及び前記行動指令の複数の候補に対応して前記外力モデルにより算出される複数の前記外力の予測値に基づいて、前記行動指令の複数の候補に対応して算出される複数の報酬に基づいて、報酬を最大化する行動指令を決定し、
決定された前記行動指令に基づいて前記ロボットを制御する、
ロボット制御方法。
ある時間におけるロボットの位置姿勢の実績値及び前記ロボットに与えることができる行動指令に基づき、その次の時間における前記ロボットの位置姿勢の予測値を算出する状態遷移モデル及び前記ロボットに加えられる外力の予測値を算出する外力モデルを含むロボットモデルを用いて前記ロボットを制御するためのプログラムであって、
制御周期毎に、前記位置姿勢の実績値及び前記ロボットに加えられる外力の実績値を取得し、
制御周期毎に、前記行動指令の複数の候補を生成して前記ロボットモデルに与え、前記行動指令の複数の候補に対応して前記状態遷移モデルにより算出される複数の前記位置姿勢の予測値と到達すべき位置姿勢の目標値との間の複数の誤差及び前記行動指令の複数の候補に対応して前記外力モデルにより算出される複数の前記外力の予測値に基づいて、前記行動指令の複数の候補に対応して算出される複数の報酬に基づいて、報酬を最大化する行動指令を決定し、
決定された前記行動指令に基づいて前記ロボットを制御する、
各処理をコンピュータに行わせるロボット制御プログラム。