JP7270580B2

JP7270580B2 - ロボットの制御装置、制御方法、及びプログラム

Info

Publication number: JP7270580B2
Application number: JP2020109801A
Authority: JP
Inventors: 敬之西; 研介原田; ベルトランエルナンデスクリスティアンカミロ; 慎市菊池
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2019-12-10
Filing date: 2020-06-25
Publication date: 2023-05-10
Anticipated expiration: 2040-06-25
Also published as: JP2021091079A

Description

本開示の技術は、ロボットの制御装置、制御方法、及びプログラムに関する。

従来、部品等のワークを把持して作業を行う多関節ロボットの制御において、ロボットに関節を駆動するための関節指令値を与え、関節の位置及び速度の実測値と関節指令値との偏差に基づいてフィードバック制御を行うことが行われている。

しかし、このようなフィードバック制御では、制御対象であるロボットの特性値（負荷又は外乱など）などが変化した場合には、制御プログラムのパラメータを変更してロボットの手先の軌道を変更する必要がある。

このような制御プログラムの開発には多大なコストがかかることから、近年、ニューラルネットワークを用いた強化学習によりロボットが自ら軌道の探索を行い、目標位置までの最適な軌道を学習する手法が開発されている（例えば、特許文献１参照）。

また、近年、ロボットが把持したワークなどが物体と接触しながら目標位置へと移動する動作を自動的に学習する手法が開発されている（例えば、非特許文献１参照）。非特許文献１では、最適な軌道を学習するための強化学習に、ガイデッド・ポリシー・サーチ（以下、ＧＰＳ（ＧｕｉｄｅｄＰｏｌｉｃｙＳｅａｒｃｈ）という。）と呼ばれる手法が用いられている。ＧＰＳは、複雑な非線形の方策（ポリシー）であるニューラルネットワークでは直接学習を行わずに、簡素な線形の方策（例えば、線形ガウスモデル）を補助的に用いてニューラルネットワークの学習を行う方法である。これにより、学習時間が短縮される。

特開平１０－１１１７０１号公報

S. Levine, N. Wagener, P. Abbeel, "Learning Contact-Rich Manipulation Skills with Guided Policy Search," in International Conference on Robotics and Automation (ICRA), 2015

しかしながら、物体との接触を伴う組立作業等に関わる制御においては、学習動作中における接触による破損のリスク、又は接触による学習の継続性などが問題となっていた。

一方、物体の接触を伴う動作制御においては、力情報と位置情報を同時に制御する制御則が存在する。この制御則では指令値は予め設定する必要があるため、最適な動作を生成する指令値をプログラムする必要があり、設計コストがかかってしまう。さらに、複雑な動作生成を行うには、ステップごとに細かく位置や力の指令値を与える必要がある。

特許文献１には、力センサを用いることが記載されているが、この力センサは、ロボットの手先位置の推定に補足的に用いられるものである。また、非特許文献１には、力の制御に関する具体的な記載はない。したがって、特許文献１及び非特許文献１に記載の強化学習を用いた方法において、手先の位置に関する制御と力に関する制御とを両立させることについては考慮されていない。

本開示の技術は、手先の位置に関する制御と力に関する制御とを両立させることを可能とするロボットの制御装置、制御方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本開示のロボットの制御装置は、ロボットの関節を駆動するための関節指令値を一定のサイクルごとに与えてロボットを作動させるプロセッサを有するロボットの制御装置であって、プロセッサは、関節の位置、関節の速度、及びロボットの手先にかかる力を含むセンシング情報と、手先の位置及び力との関係を学習した学習済みモデルに基づいて、サイクルごとに手先の位置目標値及び力目標値を生成し、位置目標値とセンシング情報に基づく手先の位置との偏差を表す位置偏差値と、力目標値とセンシング情報に基づく手先にかかる力との偏差を表す力偏差値とのそれぞれに補償変換を施した値の線形和を算出し、かつ線形和を制御偏差値として現サイクルの関節指令値に対してフィードバックを行うことにより、次サイクルの関節指令値を生成する。

プロセッサは、位置偏差値と力偏差値とのそれぞれに微分補償変換を施した値の線形和を算出することが好ましい。

プロセッサは、位置偏差値に微分補償変換を施した値と、力偏差値に積分補償変換を施した値との線形和を算出することも好ましい。

プロセッサは、手先の初期位置、最終目標位置、及び最終力目標値を含むタスクを与え、サイクルごとに関節指令値を生成し、かつセンシング情報を取得することにより学習を行い、学習済みモデルを更新することが好ましい。

プロセッサは、学習済みモデルに代えて、センシング情報と手先の位置及び力との関係を、確率分布によって表現した確率分布モデルによって位置目標値及び力目標値を生成し、関節指令値に基づいてロボットを制御することにより、サイクルごとにセンシング情報を収集し、収集されたセンシング情報と位置目標値及び力目標値との関係を学習することにより確率分布モデル及び学習済みモデルを更新することが好ましい。

プロセッサは、最終目標位置及び最終力目標値への到達度を表すコストを最小化するように確率分布モデルを更新することが好ましい。

プロセッサは、更新された確率分布モデルを用いて学習済みモデルを更新することが好ましい。

確率分布モデルは、線形ガウスモデルであることが好ましい。

学習済みモデルは、ニューラルネットワークであることが好ましい。

位置偏差値に補償変換を施した値をｐ’_ｅｒｒ、力偏差値に補償変換を施した値をｆ’_ｅｒｒ、線形和をｐ_ｓｔｅｐとした場合に、「ｐ_ｓｔｅｐ＝γｐ’_ｅｒｒ＋（１－γ）ｆ’_ｅｒｒ」の関係（ここで、０≦γ＜≦１）を有することが好ましい。

プロセッサは、手先にかかる力に応じて係数γを、サイクルごとに変化させることが好ましい。

学習済みモデルは、サイクルごとの係数γの関係をさらに記憶しており、プロセッサは、係数γに基づいて線形和ｐ_ｓｔｅｐを算出することが好ましい。

本開示のロボットの制御方法は、ロボットの関節を駆動するための関節指令値を一定のサイクルごとに与えてロボットを作動させるロボットの制御方法であって、関節の位置、関節の速度、及びロボットの手先にかかる力を含むセンシング情報と、手先の位置及び力との関係を学習した学習済みモデルに基づいて、サイクルごとに手先の位置目標値及び力目標値を生成する目標値生成ステップと、位置目標値とセンシング情報に基づく手先の位置との偏差を表す位置偏差値と、力目標値とセンシング情報に基づく手先にかかる力との偏差を表す力偏差値とのそれぞれに補償変換を施した値の線形和を算出し、かつ線形和を制御偏差値として現サイクルの関節指令値に対してフィードバックを行うことにより、次サイクルの関節指令値を生成する制御ステップと、を有する。

本開示のプログラムは、ロボットの関節を駆動するための関節指令値を一定のサイクルごとに与えてロボットを作動させる制御をコンピュータに作動させるプログラムであって、関節の位置、関節の速度、及びロボットの手先にかかる力を含むセンシング情報と、手先の位置及び力との関係を学習した学習済みモデルに基づいて、サイクルごとに手先の位置目標値及び力目標値を生成する目標値生成ステップと、位置目標値とセンシング情報に基づく手先の位置との偏差を表す位置偏差値と、力目標値とセンシング情報に基づく手先にかかる力との偏差を表す力偏差値とのそれぞれに補償変換を施した値の線形和を算出し、かつ線形和を制御偏差値として現サイクルの関節指令値に対してフィードバックを行うことにより、次サイクルの関節指令値を生成する制御ステップと、をコンピュータに作動させる。

本開示の技術によれば、手先の位置に関する制御と力に関する制御とを両立させることを可能とするロボットアームの制御装置、制御方法、及びプログラムを提供することができる。

ロボットシステムを示す斜視図である。力覚センサの概略斜視図である。コンピュータの構成を示すブロック図である。制御装置の機能的な構成を示すブロック図である。ロボットの動作を説明する模式図である。手先の軌道を示す概念図である。目標値生成部及び制御部の構成を示すブロック図である。学習済みモデルを表すニューラルネットワークの一例である。学習アルゴリズムを示すフローチャートである。軌道サンプルを収集する処理の流れを示す模式図である。確率分布モデルによる状態遷移について説明する図である。ダイナミクスフィッティングの処理の流れを示す模式図である。ダイナミクスについて説明する図である。ダイナミクスフィッティングについて説明する図である。学習済みモデルの更新処理の流れを示す模式図である。確率分布モデルの更新処理の流れを示す模式図である。軌道の最適化について説明する図である。繰り返し処理の流れを示す模式図である。ゲイン係数の設定処理を示すフローチャートである。変形例に係る目標値生成部及び制御部の構成を示すブロック図である。第２実施形態に係る目標値生成部及び制御部の構成を示すブロック図である。学習回数に対するコスト値の変化を表すグラフである。

［第１実施形態］
以下、本開示の一実施形態であるロボットシステムについて説明する。図１において、ロボットシステム１は、複数の関節１１Ａを有する多関節ロボット（以下、単にロボットという。）１０と、ロボット１０の制御装置２０とを備える。ロボット１０としては、例えば、ユニバーサルロボット社製の多関節ロボットが用いられる。制御装置２０としては、パーソナルコンピュータなどの情報処理装置が用いられる。

ロボット１０は、例えば、アーム１１と、アーム１１を支持する基台１２とを有する。アーム１１の先端部分には、ワークＷを把持する、又はワークＷが取り付けられる手先１３が設けられている。ワークＷは、例えば、棒状の部材である。

アーム１１は、６軸の多関節アームである。アーム１１には、基台１２側から順に第１駆動軸Ｃ１、第２駆動軸Ｃ２、第３駆動軸Ｃ３、第４駆動軸Ｃ４、第５駆動軸Ｃ５、及び第６駆動軸Ｃ６が設けられている。各駆動軸は関節１１Ａにより構成されている。各関節１１Ａは、各関節１１Ａに設けられた駆動モータ１５（図４参照）により駆動される。各関節１１Ａには、関節１１Ａの位置及び速度を検出するエンコーダ１６（図４参照）が設けられている。

ロボット１０は、各駆動モータにより各関節１１Ａを駆動することによって、アーム１１を把持した手先１３を移動させ、手先１３の位置及び速度を自由に変更することができる。具体的には、本開示の技術では、互いに直交するＸ軸方向、Ｙ軸方向、及びＺ軸方向と、Ｘ軸回りのＲｘ方向、Ｙ軸回りのＲｙ方向、及びＺ軸回りのＲｚ方向との６軸方向へ手先１３の位置を変更することが可能である。

アーム１１の手先１３には、力覚センサ１４が内蔵されている。力覚センサ１４は、例えば、歪ゲージを用いた６軸の力センサである。力覚センサ１４は、手先１３に加わる力とモーメント（トルク）の大きさと方向を検出する。力覚センサ１４は、例えば図２に示すように、力Ｆｘ，Ｆｙ，Ｆｚ、及びモーメントＭｘ，Ｍｙ，Ｍｚを示す信号を生成して出力する。なお、本開示では、力Ｆｘ，Ｆｙ，Ｆｚ、及びモーメントＭｘ，Ｍｙ，Ｍｚをまとめて力という。

なお、アーム１１の軸数は６軸に限られない。例えば、アーム１１の軸数を、４軸、５軸、又は７軸以上としてもよい。また、力覚センサ１４が検出する力の軸数についても６軸には限られない。力覚センサ１４は、例えば力Ｆｘ，Ｆｙ，Ｆｚを検出する３軸の力センサであってもよい。

アーム１１の各関節１１Ａを制御するための関節指令値は、基台１２を介して制御装置２０から入力される。また、力覚センサ１４により検出される力の検出値は、基台１２を介して制御装置２０に入力される。

制御装置２０は、コンピュータにより構成されている。図３において、制御装置２０を構成するコンピュータは、例えば、ストレージデバイス２００、メモリ２０１、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０２、通信部２０３、ディスプレイ２０４、及び入力デバイス２０５を備えている。これらはバスライン２０６を介して相互接続されている。ＣＰＵ２０２は、本開示の技術に係るプロセッサの一例である。

ストレージデバイス２００は、コンピュータに内蔵された、若しくはケーブル、ネットワークを通じて接続されたハードディスクドライブである。ストレージデバイス２００は、ハードディスクドライブを複数台連装したディスクアレイであってもよい。ストレージデバイス２００には、オペレーティングシステム等の制御プログラム、各種アプリケーションプログラム、これらのプログラムに付随する各種データ等が記憶されている。なお、ハードディスクドライブに代えて、あるいは加えて、ソリッドステートドライブを用いてもよい。

メモリ２０１は、ＣＰＵ２０２が処理を実行するためのワークメモリである。ＣＰＵ２０２は、ストレージデバイス２００に記憶されたプログラムをメモリ２０１へロードし、プログラムにしたがった処理を実行することにより、コンピュータの各部を統括的に制御する。

通信部２０３は、ロボット１０と制御装置２０とを接続するインターフェースである。ディスプレイ２０４は各種画面を表示する表示装置である。コンピュータは、各種画面を通じて、入力デバイス２０５からの操作指示の入力を受け付ける。入力デバイス２０５は、キーボード、マウス、タッチパネル等である。

次に、制御装置２０の機能的な構成について説明する。図４において、制御装置２０は、目標値生成部３０と、制御部３１と、手先位置算出部３２と、学習部３３と、パラメータ設定部３４とを有する。これらの機能部は、コンピュータのストレージデバイス２００に格納されたプログラムと、プログラムが動作させるハードウェア資源とに基づいて実現される。

なお、図４には、一組の駆動モータ１５及びエンコーダ１６が示されているが、実際には、駆動モータ１５及びエンコーダ１６は、関節１１Ａごとに設けられている。以下では、説明の簡略化のために、１つの関節１１Ａに設けられた一組の駆動モータ１５及びエンコーダ１６を対象として説明する。駆動モータ１５は、例えばサーボモータである。エンコーダ１６は、例えばロータリエンコーダである。エンコーダ１６は、関節１１Ａの位置及び速度を検出する。関節１１Ａの速度は、関節１１Ａの角速度である。

目標値生成部３０は、ロボット１０の各関節１１Ａに設けられたエンコーダ１６から制御装置２０に入力される関節１１Ａの位置ｑ_ｔ及び速度ω_ｔと、ロボット１０の手先１３に設けられた力覚センサ１４から制御装置２０に入力される力ｆ_ｔを一定のサイクルごとに取得する。位置ｑ_ｔ、速度ω_ｔ、及び力ｆ_ｔは、ある時刻ｔに取得されたセンシング情報である。なお、力覚センサ１４が力に加えてモーメントを検出するセンサである場合には、力ｆ_ｔには、モーメントの検出値も含まれる。

目標値生成部３０は、ニューラルネットワークにより構成された学習済みモデルＴＭを保持している。なお、本開示では、学習済みモデルＴＭとは、１つ以上の教師データに基づく学習が行われたモデルをいい、教師データに対する適合性が不十分である学習不足の状態のモデルも含めて学習済みモデルという。

目標値生成部３０は、現在のサイクル（時刻ｔ）で取得された位置ｑ_ｔ、速度ω_ｔ、及び力ｆ_ｔを含むセンシング情報を入力として、次のサイクル（時刻ｔ＋１）における手先１３の位置目標値ｐ^ｒｅｆ _ｔ＋１と力目標値ｆ^ｒｅｆ _ｔ＋１とを出力する。

位置ｑ_ｔ、速度ω_ｔ、及び力ｆ_ｔを含むセンシング情報は、ロボット１０の時刻ｔにおける状態を表す情報であるため、これを状態ｓ_ｔと表記する。また、位置目標値ｐ^ｒｅｆ _ｔ＋１と力目標値ｆ^ｒｅｆ _ｔ＋１は、次のサイクルでロボット１０が取るべき行動に相当し、かつ状態ｓ_ｔに対応する行動であるため、これを行動ａ_ｔと表記する。

学習済みモデルＴＭには、各サイクルにおける状態ｓ_ｔと制御入力ａ_ｔとの関係を表す学習結果が記憶されている。目標値生成部３０は、ロボット１０の運用時において、学習済みモデルＴＭに基づき、一定のサイクルごとに状態ｓ_ｔに対応する行動ａ_ｔを制御入力として制御部３１に入力する。

手先位置算出部３２は、一定のサイクルごとにエンコーダ１６から制御装置２０に入力される関節１１Ａの位置ｑ_ｔを取得して、手先１３の位置ｐ_ｔを算出する。具体的には、手先位置算出部３２は、ロボット１０の各関節１１Ａのエンコーダ１６から関節１１Ａの位置ｑ_ｔを取得して、アーム１１の姿勢を推測することにより手先１３の位置ｐ_ｔを求める。手先位置算出部３２は、算出した手先１３の位置ｐ_ｔを制御部３１に入力する。

制御部３１は、目標値生成部３０から一定のサイクルごとに入力される行動ａ_ｔのほかに、手先位置算出部３２から入力される手先１３の位置ｐ_ｔと、力覚センサ１４から制御装置２０に入力される力ｆ_ｔを一定のサイクルごとに取得する。詳しくは後述するが、制御部３１は、位置目標値ｐ^ｒｅｆ _ｔ＋１と手先１３の位置ｐ_ｔとの偏差を表す位置偏差値と、力目標値ｆ^ｒｅｆ _ｔ＋１と力ｆ_ｔとの偏差を表す力偏差値とのそれぞれに微分補償変換を施した値の線形和を算出する。そして、制御部３１は、算出した線形和を制御偏差値として現サイクルの関節指令値（位置ｑ_ｔ）に対してフィードバックを行うことにより、次サイクルの関節指令値（位置ｑ_ｔ＋１）を生成する。

学習部３３は、目標値生成部３０に記憶された学習済みモデルＴＭを更新する処理を行う。学習部３３は、手先１３の初期位置及び最終目標位置を含むタスクに基づいてロボット１０を動作させた場合における行動ａ_ｔと状態ｓ_ｔとの関係に基づいて強化学習を行うことにより、学習済みモデルＴＭを更新する。また、詳しくは後述するが、本実施形態では、学習部３３は、ＧＰＳ法により効率よく強化学習を行う。なお、学習部３３は、ＧＰＳ法に限られず、一般的な強化学習アルゴリズムを用いてもよい。学習部３３は、例えば、ＳＡＣ（ＳｏｆｔＡｃｔｏｒＣｒｉｔｉｃ）法を用いることも可能である。

パラメータ設定部３４は、学習部３３が強化学習を行う際に必要なパラメータを設定可能である。パラメータ設定部３４は、例えば、入力デバイス２０５により構成されている。パラメータには、手先１３の初期位置及び最終目標位置のほかに、ロボット１０が一回の動作を実行する時間Ｔ、サンプルデータの取得時にロボット１０が動作を実行する繰り返し回数Ｉ、及び学習済みモデルＴＭの更新回数Ｋが含まれる。また、パラメータには、上述のサイクル周期Ｓ、強化学習に使用するコスト関数を規定する規定値、及び上述の線形和を算出する際のゲイン係数γが含まれる。

図５は、ロボット１０が実行する一回の動作を模式的に示している。図５では、ロボット１０の手先１３が把持した棒状のワークＷを、目標物４０に形成された穴４１に挿入する動作を示している。図５中の破線は初期位置を示しており、実線は最終目標位置を示している。ロボット１０は、学習が未熟である場合には、ワークＷが目標物４０の穴４１以外の箇所と接触しながら、穴４１が存在する目標位置へとワークＷを移動させる動作を行う。ロボット１０は、学習が進むに連れて、ワークＷが目標物４０の穴４１以外の箇所と接触する回数が減少する。最終的に、ロボット１０は、ワークＷを穴４１に挿入するために最適な手先１３の軌道を学習する。

図６は、ロボット１０が実行する一回の動作における手先１３の軌道を概念的に表している。軌道のサンプルτ_ｉ（以下、軌道サンプルτ_ｉという。）は、１≦ｔ≦Ｔの期間内における状態ｓ_ｔと行動ａ_ｔとの集合であり、τ_ｉ＝｛ｓ_１，ａ_１，・・・，ｓ_Ｔ，ａ_Ｔ｝と表される。

次に、目標値生成部３０及び制御部３１のより詳細な構成について説明する。図７において、目標値生成部３０は、学習済みモデル記憶部３０１と、確率分布モデル記憶部３０２と、モデル切り替え部３０３とを有する。学習済みモデル記憶部３０１は、ニューラルネットワークにより構成された学習済みモデルＴＭを記憶している。確率分布モデル記憶部３０２は、線形ガウスモデル等の確率分布モデルＳＭを記憶している。

モデル切り替え部３０３は、状態ｓ_ｔに対応する行動ａ_ｔを生成するためのモデルを切り替える。具体的には、モデル切り替え部３０３は、ロボット１０の運用時には、学習済みモデル記憶部３０１に記憶された学習済みモデルＴＭを選択する。また、モデル切り替え部３０３は、学習時には、確率分布モデル記憶部３０２に記憶された確率分布モデルＳＭを選択する。

制御部３１は、第１偏差算出部３１１Ａと、第２偏差算出部３１１Ｂと、位置制御部３１２Ａと、力制御部３１２Ｂと、線形加算部３１３と、逆運動学演算部３１４と、指令値生成部３１５とを有する。

第１偏差算出部３１１Ａは、目標値生成部３０から入力される位置目標値ｐ^ｒｅｆ _ｔ＋１と、センシング情報に含まれる手先１３の位置ｐ_ｔとの偏差（ｐ^ｒｅｆ _ｔ＋１－ｐ_ｔ）を表す位置偏差値ｐ_ｅｒｒを算出して位置制御部３１２Ａへ出力する。第２偏差算出部３１１Ｂは、目標値生成部３０から入力される力目標値ｆ^ｒｅｆ _ｔ＋１と、センシング情報に含まれる手先の力ｆ_ｔとの偏差（ｆ^ｒｅｆ _ｔ＋１－ｆ_ｔ）を表す力偏差値ｆ_ｅｒｒを算出して力制御部３１２Ｂへ出力する。

位置制御部３１２Ａ及び力制御部３１２Ｂは、それぞれ伝達関数で表現される制御器である。位置制御部３１２Ａは、位置偏差値ｐ_ｅｒｒに対して「Ｋ_ｐｐ＋Ｋ_ｄｐｓ」を伝達関数とするラプラス変換を行うことにより、微分補償変換が施された位置偏差値ｐ’_ｅｒｒを生成する。同様に、力制御部３１２Ｂは、力偏差値ｆ_ｅｒｒに対して「Ｋ_ｐｆ＋Ｋ_ｄｆｓ」を伝達関数とするラプラス変換を行うことにより、微分補償変換が施された力偏差値ｆ’_ｅｒｒを生成する。ここで、Ｋ_ｐｐ及びＫ_ｐｆ比例ゲインであり、Ｋ_ｄｐ及びＫ_ｄｆは微分ゲインである。また、ｓは、ラプラス変数であって、時間に関する微分を表す。

第１偏差算出部３１１Ａ及び位置制御部３１２Ａによる処理と、第２偏差算出部３１１Ｂ及び力制御部３１２Ｂによる処理とは、それぞれ、いわゆるＰＤ（Ｐｒｏｐｏｒｔｉｏｎａｌ－Ｄｉｆｆｅｒｅｎｔｉａｌ）制御で用いられる処理に相当する。

線形加算部３１３は、微分補償変換が施された位置偏差値ｐ’_ｅｒｒ及び力偏差値ｆ’_ｅｒｒを、下式（１）に基づいて線形加算して、線形和ｐ_ｓｔｅｐを算出する。

ここで、ゲイン係数γは、０≦γ≦１を満たす値である。なお、ゲイン係数γは、座標軸ごとに異なった値であってもよい。例えば、簡単化のため、制御装置２０がロボット１０を、Ｘ軸方向、Ｙ軸方向、及びＲｘ方向にのみ制御する場合に、各軸方向のゲイン係数γを、例えば、順に「０．９」、「０．９」、及び「０．０」とする。また、ゲイン係数γは、学習時と運用時とにおいて同一の値を用いる。

逆運動学演算部３１４は、線形加算部３１３により算出された線形和ｐ_ｓｔｅｐに基づいて逆運動学演算を行うことにより求まるロボット１０の姿勢から各関節１１Ａの変位量ｑ_ｅｒｒを算出する。変位量ｑ_ｅｒｒは、時刻ｔの関節１１Ａの位置を基準として、時刻ｔ＋１に取るべき関節１１Ａの位置までの変位量を表す。

指令値生成部３１５は、センシング情報に含まれる時刻ｔにおける関節１１Ａの位置ｑ_ｔに対して、逆運動学演算部３１４により算出された変位量ｑ_ｅｒｒを加算することにより、時刻ｔ＋１に取るべき関節１１Ａの位置ｑ_ｔ＋１に対応する関節指令値を出力する。この関節指令値は、駆動モータ１５に入力される。

このように、制御部３１により、現サイクル（時刻ｔ）の関節指令値に対して変位量ｑ_ｅｒｒがフィードバックされ、次サイクル（時刻ｔ＋１）用の新たな関節指令値が駆動モータ１５に対して出力される。

学習済みモデルＴＭは、ロボット１０を確率分布モデルＳＭに基づいて動作させた場合に収集される軌道サンプルτ_ｉを教師データとし、未学習の学習モデルを用いて機械学習を行うことにより算出されたものである。

図８は、学習済みモデル記憶部３０１に記憶される学習済みモデルＴＭを表すニューラルネットワークの一例である。ニューラルネットワークは、市販のニューラルネットワーク・フィッティング・アプリケーションを用いて構築することができる。例えば、ＭａｔｈＷｏｒｋｓ社製のＭａｔｌａｂＮｅｕｒａｌＦｉｔｔｉｎｇｔｏｏｌを用いてニューラルネットワークを構築することができる。なお、ニューラルネットワーク・フィッティング・アプリケーションとして、Ｒ言語上で動作可能なＲＳｔｕｄｉｏ社製のｋｅｒａｓパッケージ等を用いることも可能である。

図８に示すように、ニューラルネットワークで構成される学習済みモデルＴＭは、例えば、入力層Ｌ１、中間層Ｌ２、及び出力層Ｌ３の層構造を有する。入力層Ｌ１は、状態ｓ_ｔを表すセンシング情報が入力されるノードを含む。出力層Ｌ３は、行動ａ_ｔを表す目標値（位置目標値ｐ^ｒｅｆ _ｔ＋１及び力目標値ｆ^ｒｅｆ _ｔ＋１）が出力されるノードを含む。Ｌ２は、中間層（隠れ層）である。中間層Ｌ２の数は１に限られず、適宜変更可能である。

入力層Ｌ１と中間層Ｌ２との間、及び中間層Ｌ２と出力層Ｌ３との間は、重みパラメータθにより関連付けられる。以下、ニューラルネットワークで構成される学習済みモデルＴＭを、π_θ（ａ_ｔ｜ｓ_ｔ）と表現する。π_θ（ａ_ｔ｜ｓ_ｔ）は、状態ｓ_ｔを条件とした場合に取るべき行動ａ_ｔを表す方策（ポリシー）であって、状態ｓ_ｔに対する行動ａ_ｔの確率的な分布を表す。π_θ（ａ_ｔ｜ｓ_ｔ）は、複雑な非線形の方策である。

学習済みモデルＴＭの最適化は、コストｌ（ｓ_ｔ，ａ_ｔ）の期待値Ｅ_πθ［ｌ（τ）］に関して重みパラメータθを最適化することに相当する。ここで、τは、図６に示す軌道を表している。

期待値Ｅ_πθ［ｌ（τ）］は、下式（２）で表される。

コストｌ（ｓ_ｔ，ａ_ｔ）の表現は、ロボット１０が実行するタスクによって異なる。図５に示すように、ロボット１０がワークＷを穴４１に挿入するタスクを実行する場合には、コストｌ（ｓ_ｔ，ａ_ｔ）は、目標物への到達度を表すように記述される。コストｌ（ｓ_ｔ，ａ_ｔ）は、例えば、下式（３）で表される。

ここで、ｐ_ｔは、状態ｓ_ｔにおける手先１３の位置を表す。ｐ^＊は、手先１３の最終目標位置を表している。ｗ_ｐ及びｗ_ａは、重み係数である。また、ｌ_１２（ｚ）は、ｌ_１ノルムとｌ_２ノルムとの和に対応し、下式（４）で表される。

確率分布モデル記憶部３０２に記憶された確率分布モデルＳＭを、時間変化を含む線形ガウスモデルとし、ｐ（ａ_ｔ｜ｓ_ｔ）と表現する。ｐ（ａ_ｔ｜ｓ_ｔ）は、状態ｓ_ｔを条件とした場合に取るべき行動ａ_ｔを表す方策であって、状態ｓ_ｔに対する行動ａ_ｔの確率的な分布を表す。ｐ（ａ_ｔ｜ｓ_ｔ）は、簡素な線形の方策であって、下式（５）で表される。

ここで、Ｎ（μ，Σ）はガウス関数（正規分布関数）であり、μは平均、Σは分散を表している。

学習済みモデルＴＭ及び確率分布モデルＳＭともに方策であるが、本開示では、確率分布モデルＳＭは、学習済みモデルＴＭの最適化を適正な方向へ導くガイドとして補助的に用いるものである。このため、以下では、学習済みモデルＴＭを表すπ_θ（ａ_ｔ｜ｓ_ｔ）を方策という。

学習部３３は、複雑な方策であるπ_θ（ａ_ｔ｜ｓ_ｔ）では直接学習（重みパラメータθの最適化）を行わずに、簡素なｐ（ａ_ｔ｜ｓ_ｔ）を用いて得られる軌道サンプルに基づいてπ_θ（ａ_ｔ｜ｓ_ｔ）の学習を行うとともに、軌道を最適化してｐ（ａ_ｔ｜ｓ_ｔ）を更新する。

次に、学習部３３が実行する学習アルゴリズム（ポリシーサーチ）の詳細について、図９に示すフローチャート及び図１０～図１８に示す補足図を参照しながら説明する。

まず、学習部３３は、学習の繰り返し回数をカウントする繰り返しパラメータｋを「１」に設定する（ステップＳ１０）。次に、学習部３３は、軌道サンプルを取得するためのロボット１０の動作回数をカウントする繰り返しパラメータｉを「１」に設定する（ステップＳ１１）。

次に、学習部３３は、モデル切り替え部３０３により確率分布モデル記憶部３０２に記憶された確率分布モデルＳＭ（ｐ（ａ_ｔ｜ｓ_ｔ））が選択された状態で、ロボット１０に所定の動作（タスク）を実行させ、軌道サンプルτ_ｉを収集する（ステップＳ１２）。図１０は、軌道サンプルτ_ｉを収集する処理の流れを概念的に示している。図１１に示すように、目標値生成部３０は、ｐ（ａ_ｔ｜ｓ_ｔ）に基づき、状態ｓ_１に対応する行動ａ_１を出力して次の状態ｓ_２に遷移し、状態ｓ_２に対応する行動ａ_２を出力して次の状態ｓ_３に遷移するという処理を時間Ｔが経過するまで繰り返す。

なお、タスクの条件等は予めパラメータ設定部３４により設定されている。例えば、Ｔ＝７．５ｓｅｃ、Ｉ＝３、Ｋ＝１０、及びＳ＝０．０５ｓｅｃと設定されている。Ｔは、ロボット１０が一回の動作（タスク）を実行する時間である。Ｉは、軌道サンプルτ_ｉの取得回数である。Ｋは、学習済みモデルＴＭの更新回数である。Ｓは、サイクル周期である。この場合、１タスクにおいて１５０ステップの行動が行われる。

また、上式（３）で示したコストｌ（ｓ_ｔ，ａ_ｔ）を規定するパラメータがパラメータ設定部３４により予め設定されている。例えば、ｌ_１＝１．０、ｌ_２＝０．００１、α＝５×１０^－５、ｗ_ｐ＝１０．０、及びｗ_ａ＝１×１０^－４と設定されている。

学習部３３は、ロボット１０の１回の動作に対して軌道サンプルτ_ｉを収集するたびに、繰り返しパラメータｉがＩであるか否かを判定する（ステップＳ１３）。学習部３３は、繰り返しパラメータｉがＩでない場合には（ステップＳ１３：ＮＯ）、繰り返しパラメータｉに１を加算し（ステップＳ１４）、処理をステップＳ１２に戻す。学習部３３は、繰り返しパラメータｉがＩである場合には（ステップＳ１３：ＹＥＳ）、処理をステップＳ１５に移行する。

ステップＳ１５において、学習部３３は、収集された軌道サンプルτ_ｉのデータセット｛τ_ｉ｝に、線形ガウシアンで表されるダイナミクスｐ（ｓ_ｔ＋１｜ｓ_ｔ，ａ_ｔ）をフィッティングするダイナミクスフィッティングを行う。図１２は、ダイナミクスフィッティングの処理の流れを概念的に示している。図１３に示すように、ダイナミクスｐ（ｓ_ｔ＋１｜ｓ_ｔ，ａ_ｔ）は、状態ｓ_ｔに対して取った行動ａ_ｔにより状態ｓ_ｔ＋１に遷移する確率を表す。

ダイナミクスｐ（ｓ_ｔ＋１｜ｓ_ｔ，ａ_ｔ）は、ガウス関数Ｎ（μ，Σ）を用いて下式（６）で表される。

ダイナミクスｐ（ｓ_ｔ＋１｜ｓ_ｔ，ａ_ｔ）は、時間変化を含む線形ガウシアンダイナミックスである。図１４は、軌道サンプルτ_ｉのデータセット｛τ_ｉ｝にダイナミクスｐ（ｓ_ｔ＋１｜ｓ_ｔ，ａ_ｔ）をフィッティングしたグラフを例示している。

次に、学習部３３は、ＧＰＳ法によって学習済みモデルＴＭ（π_θ（ａ_ｔ｜ｓ_ｔ））を更新する（ステップＳ１６）。学習済みモデルＴＭの更新は、方策と軌道を一致させるＫＬ（Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ）ダイバージェンスによる拘束条件の下で、価値最適化問題を解くことに相当する。この価値最適化問題は、下式（７）で表される。

ここで、ｐ（τ）は軌道分布を表す関数であり、下式（８）で表される。

仮に、π_θ（ａ_ｔ｜ｓ_ｔ）がｐ（ａ_ｔ｜ｓ_ｔ）に完全に一致した場合には、上式（２）で表される期待値Ｅ_πθ［ｌ（τ）］が最小化される。上式（７）をラグランジュの未定乗数法により変形すると、下式（９）で表されるラグラジアンＬ（θ，ｐ，λ）_ＧＰＳの最小化問題となる。

ラグラジアンＬ（θ，ｐ，λ）_ＧＰＳを、双対変数λ_ｔを用いて重みパラメータθに関して最小化することによりπ_θ（ａ_ｔ｜ｓ_ｔ）が最適化される。これは、下式（１０）で表される双対変数λ_ｔにより重み付けられたＫＬダイバージェンスの和Ｓ_ＫＬを重みパラメータθに関して最小化することに相当する。

ステップＳ１６において、学習部３３は、軌道サンプルτ_ｉのデータセット｛τ_ｉ｝を用いて、ＫＬダイバージェンスの和Ｓ_ＫＬを重みパラメータθに関して最小化し、和Ｓ_ＫＬが最小化されたθを用いて学習済みモデルＴＭ（π_θ（ａ_ｔ｜ｓ_ｔ））を更新する。図１５は、学習済みモデルＴＭの更新処理の流れを概念的に示している。

次に、学習部３３は、軌道の最適化を行うことにより、確率分布モデルＳＭ（ｐ（ａ_ｔ｜ｓ_ｔ））を更新する（ステップＳ１７）。

軌道の最適化は、上式（９）で表されるラグラジアンＬ（θ，ｐ，λ）_ＧＰＳを軌道分布ｐ（τ）に関して最小化することに相当する。また、軌道の最適化は、軌道分布ｐ（τ）の前回のｐ（τ）_ｐｒｅからの乖離率を所定値以内に拘束する条件の下で、下式（１１）のようにコストｌ（ｓ_ｔ，ａ_ｔ）の期待値を最小化することに相当する。

上式（９）で表されるラグラジアンＬ（θ，ｐ，λ）_ＧＰＳに、上式（１１）の軌道の拘束条件を付加することにより、軌道の最適化において最小化すべきラグラジアンＬ（ｐ）_ＧＰＳは、下式（１２）で表される。

学習部３３は、ラグラジアンＬ（ｐ）_ＧＰＳの最小化問題を、ＬＱＧ（ＬｉｎｅａｒＱｕａｄｒａｔｉｃＧａｕｓｓｉａｎ）問題として解くことにより、新たな確率分布モデルＳＭ（ｐ（ａ_ｔ｜ｓ_ｔ））を求める。図１６は、確率分布モデルＳＭの更新処理の流れを概念的に示している。

図１７に示すように、確率分布モデルＳＭ（ｐ（ａ_ｔ｜ｓ_ｔ））は、積算コストが最も小さくなる最適な軌道を取るように更新される。

次に、学習部３３は、双対変数λ_ｔの調整を行う（ステップＳ１８）。具体的には、学習部３３は、双対変数λ_ｔを、αＤ_ＫＬ（ｐ（ｓ_ｔ）π_θ（ａ_ｔ｜ｓ_ｔ）||ｐ（ｓ_ｔ，ａ_ｔ））だけインクリメントする。

そして、学習部３３は、繰り返しパラメータｋがＫであるか否かを判定する（ステップＳ１９）。学習部３３は、繰り返しパラメータｋがＫでない場合には（ステップＳ１９：ＮＯ）、繰り返しパラメータｋに１を加算し（ステップＳ２０）、処理をステップＳ１１に戻す。一方、学習部３３は、繰り返しパラメータｋがＫである場合には（ステップＳ１９：ＹＥＳ）、学習動作を終了する。図１８は、繰り返し処理の流れを概念的に示している。

以上のように、学習部３３が実行する学習アルゴリズムによれば、学習済みモデルＴＭ（π_θ（ａ_ｔ｜ｓ_ｔ））を用いてロボット１０を実行させることなく、学習済みモデルＴＭの更新を行うことができる。最終的に更新された学習済みモデルＴＭが目標値生成部３０の学習済みモデル記憶部３０１に記憶されて、モデル切り替え部３０３により選択される。これにより、最終的に更新された学習済みモデルＴＭがロボット１０の運用に用いられる。

上記実施形態では、目標値生成部３０は、サイクルごとに手先１３の位置目標値ｐ^ｒｅｆ _ｔ＋１及び力目標値ｆ^ｒｅｆ _ｔ＋１を生成する。制御部３１は、位置目標値ｐ^ｒｅｆ _ｔ＋１とセンシング情報に基づく手先１３の位置ｐ_ｔとの偏差を表す位置偏差値ｐ_ｅｒｒと、力目標値ｆ^ｒｅｆ _ｔ＋１とセンシング情報に基づく手先１３にかかる力ｆ_ｔとの偏差を表す力偏差値ｆ_ｅｒｒとを求める。そして、制御部３１は、位置偏差値ｐ_ｅｒｒと力偏差値ｆ_ｅｒｒとのそれぞれに微分補償変換を施した値の線形和を算出し、算出した線形和を制御偏差値として現サイクルの関節指令値に対してフィードバックする。

このように、本開示の技術によれば、手先の位置に関する制御と力に関する制御とを両立させることが可能となる。本開示の技術によれば、物体との接触を伴う組立作業等に関わる制御においては、学習動作中における接触による破損のリスク、又は接触による学習の継続性などの問題を解決することができる。

また、上記実施形態では、学習部３３は、目標値生成部３０の学習済みモデルに代えて、センシング情報と手先１３の位置ｐ_ｔ及び力ｆ_ｔとの関係を、確率分布によって表現した確率分布モデルＳＭによって位置目標値ｐ^ｒｅｆ _ｔ＋１及び力目標値ｆ^ｒｅｆ _ｔ＋１を生成する。そして、学習部３３は、制御部３１により生成された関節指令値に基づいてロボット１０を制御することにより、サイクルごとにセンシング情報を収集し、収集されたセンシング情報と位置目標値ｐ^ｒｅｆ _ｔ＋１及び力目標値ｆ^ｒｅｆ _ｔ＋１との関係を学習することにより確率分布モデルＳＭ及び学習済みモデルＴＭを更新する。

このように、本開示の技術によれば、複雑な学習済みモデルＴＭでは直接学習を行わずに、簡素な確率分布モデルＳＭを補助的に用いて学習を行うので、学習時間を短縮することが可能となる。

＜変形例＞
次に、上記実施形態の変形例について説明する。上記実施形態では、学習時にロボット１０に動作させるタスクを、初期位置及び最終目標位置を含むものとしているが、さらに最終力目標値を含むものとすることも好ましい。この場合、コストｌ（ｓｔ，ａｔ）は、例えば、上式（３）に代えて、下式（１３）で表される。

ここで、ｆ_ｔｆは、タスクの最終時刻における力ｆ_ｔの値を表す。ｆ^＊は、手先１３の最終力目標値を表している。ｗ_ｆは、重み係数である。その他の変数については、上式（３）で説明した変数と同様である。

このように、上式（１３）で表されるコストｌ（ｓｔ，ａｔ）を用いることにより、最終力目標値を含むより精度の高い学習を行うことが可能となる。

また、上記実施形態では、線形加算部３１３は、ゲイン係数γを固定値としているが、力ｆ_ｔの値に応じて変化させることも好ましい。線形加算部３１３は、例えば、図１９に示す制御をサイクルごとに行う。線形加算部３１３は、サイクルごとに力覚センサ１４から力ｆ_ｔを取得し（ステップＳ３０）、取得した力ｆ_ｔが０より大きいか否かを判定する（ステップＳ３１）。

線形加算部３１３は、力ｆ_ｔが０より大きい場合には（ステップＳ３１：ＹＥＳ）、ゲイン係数γを、０より大きく、かつ１より小さい値（例えば、０．５）に設定する（ステップＳ３２）。一方、線形加算部３１３は、力ｆ_ｔが０である場合には（ステップＳ３１：ＮＯ）、ゲイン係数γを１に設定する（ステップＳ３３）。

次に、線形加算部３１３は、ロボット１０の動作を終了する際に生成される終了信号を受信したかを判定し（ステップＳ３４）、終了信号を受信していない場合には（ステップＳ３４：ＮＯ）、ステップＳ３０へ処理を戻し、次サイクルにおける力ｆ_ｔを取得する。一方、線形加算部３１３は、終了信号を受信した場合には（ステップＳ３４：ＹＥＳ）、処理を終了する。

以上の制御によれば、ｆ_ｔ＝０、すなわち手先１３が物体と接触していな場合には、γ＝１とされることにより、力偏差値ｆ’_ｅｒｒは位置偏差値ｐ’_ｅｒｒに加算されず、位置偏差値ｐ’_ｅｒｒのみが制御に用いられる。一方、ｆ_ｔ＞０、すなわち手先１３が物体と接触している場合には、１＜γ＜１とされることにより、位置偏差値ｐ’_ｅｒｒに力偏差値ｆ’_ｅｒｒが加算されて制御が行われる。このように、手先１３が物体と接触していな場合に位置制御のみを行い、手先１３が物体と接触している場合に位置及び力の制御を行うことで、目標値への収束性が高く、かつより短時間での動作が可能となる。

なお、ステップＳ３２において設定するゲイン係数γは、固定値に限られず、力ｆ_ｔの値に応じて変化させてもよい。例えば、力ｆ_ｔが閾値以下である場合には、γ＝０．５とし、力ｆ_ｔが閾値より大きい場合にγ＝０．８とする。

さらに、ゲイン係数γを学習済みモデルＴＭに基づいてサイクルごとに決定することにより、ゲイン係数γを動的に変化させることも好ましい。この場合、例えば、図２０に示すように目標値生成部３０及び制御部３１を構成する。目標値生成部３０の学習済みモデル記憶部３０１に記憶された学習済みモデルＴＭは、ゲイン係数γのサイクルごとの関係を記憶している。具体的には、学習済みモデルＴＭは、あるサイクル（時刻ｔ）におけるゲイン係数γ_ｔと、次のサイクル（時刻ｔ＋１）におけるゲイン係数γ_ｔ＋１との関係を記憶している。

すなわち、本変形例では、図２０に示すように、現サイクルにおけるゲイン係数γ_ｔを状態ｓ_ｔに含め、学習済みモデルＴＭが出力する次サイクルにおけるゲイン係数γ_ｔ＋１を行動ａ_ｔに含める。目標値生成部３０から出力されるゲイン係数γ_ｔ＋１は、制御部３１の線形加算部３１３に入力される。線形加算部３１３は、上式（１）に代えて、下式（１４）に基づいて、位置偏差値ｐ’_ｅｒｒと力偏差値ｆ’_ｅｒｒとの線形加算を行う。

このように、ゲイン係数γ_ｔを状態ｓ_ｔに含む学習済みモデルＴＭの学習は、学習部３３により、上記実施形態と同様の方法で実行される。

［第２実施形態］
次に、第２実施形態に係るロボットシステムについて説明する。本実施形態のロボットシステムは、制御部３１の機能が第１実施形態とは異なる。図２１に示すように、制御部３１には、パラメータ生成部３０４から制御部３１に各種のパラメータが供給される。パラメータ生成部３０４は、目標値生成部３０に設けられている。

本実施形態では、位置制御部３１２Ａは、位置偏差値ｐ_ｅｒｒに対して「Ｋ_ｐｐ＋Ｋ_ｄｐｓ」を伝達関数とするラプラス変換を行うことにより、微分補償変換が施された位置偏差値ｐ’_ｅｒｒを生成する。ここで、Ｋ_ｐｐは比例ゲインであり、Ｋ_ｄｐは微分ゲインである。また、ｓは、ラプラス変数であって、時間に関する微分を表す。すなわち、本実施形態の位置制御部３１２Ａは、第１実施形態の位置制御部３１２Ａと同様の構成である。

本実施形態では、力制御部３１２Ｂは、力偏差値ｆｅｒｒに対して「Ｋ_ｐｆ＋Ｋ_ｉｆ／ｓ」を伝達関数とするラプラス変換を行うことにより、積分補償変換が施された力偏差値ｆ’ｅｒｒを生成する。ここで、Ｋ_ｐｆは比例ゲインであり、Ｋ_ｉｆは積分ゲインである。すなわち、第１実施形態の位置制御部３１２Ａは微分補償変換を行うのに対して、本実施形態の位置制御部３１２Ａは積分補償変換を行う。

本実施形態では、第１偏差算出部３１１Ａ及び位置制御部３１２Ａによる処理は、ＰＤ制御で用いられる処理に相当する。また、第２偏差算出部３１１Ｂ及び力制御部３１２Ｂによる処理は、ＰＩ（Ｐｒｏｐｏｒｔｉｏｎａｌ－Ｉｎｔｅｇｒａｌ）制御で用いられる処理に相当する。

パラメータ生成部３０４は、比例ゲインＫ_ｐｐ及び微分ゲインＫ_ｄｐをサイクルごとに生成して位置制御部３１２Ａに供給する。また、パラメータ生成部３０４は、比例ゲインＫ_ｐｆ及び積分ゲインＫ_ｉｆをサイクルごとに生成して力制御部３１２Ｂに供給する。

さらに、パラメータ生成部３０４は、ゲイン係数γをサイクルごとに生成して線形加算部３１３に供給する。ゲイン係数γは、上記変形例と同様の手法で生成される。

パラメータ生成部３０４は、比例ゲインＫ_ｐｐ及びＫ_ｐｆと、ゲイン係数γとを、学習済みモデル記憶部３０１に記憶された学習済みモデルＴＭに基づいて求める。学習済みモデルＴＭは、前述の位置目標値ｐ^ｒｅｆ _ｔ＋１及び力目標値ｆ^ｒｅｆ _ｔ＋１に加えて、比例ゲインＫ_ｐｐ及びＫ_ｐｆと、ゲイン係数γとの３種のパラメータをサイクルごとに出力する。

また、パラメータ生成部３０４は、学習済みモデルＴＭに基づいて求めた比例ゲインＫ_ｐｐ及びＫ_ｐｆを用い、下式（１５）及び（１６）に基づいて、微分ゲインＫ_ｄｐ及び積分ゲインＫ_ｉｆを求める。

また、本実施形態では、例えば、上式（３）に代えて、下式（１７）で表されるコストｌ（ｓｔ，ａｔ）を用いて学習済みモデルＴＭの最適化を行う。

上式（１７）は、上式（３）の右辺に、力ｆ_ｔに関する項と、時間ｔに関する項と、タスクの成否κに関する項とを追加したものである。力ｆ_ｔは、前述の手先１３にかかる力ｆ_ｔである。時間ｔは、タスクが開始されてからの経過時間である。成否κは、タスクが成功したか否かを表すパラメータである。

第２実施形態に係るロボットシステムのその他の構成は、第１実施形態に係るロボットシステム１の構成と同様である。

［実施例］
次に、第２実施形態に係るロボットシステムの実施例について説明する。ロボット１０（図１参照）として、ユニバーサルロボット社製の多関節ロボット（モデル：ＵＲ３ｅ）を用いる。また、制御装置２０として、ＣＰＵ（Ｉｎｔｅｌ（登録商標）ｉ９－９９００ｋ）及びＧＰＵ（Ｎｖｉｄｉａ（登録商標）ＲＴＸ－２８００Ｓｕｐｅｒ）が内蔵されたコンピュータを用いる。ＧＰＵは、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略称である。

また、ワークＷ（図５参照）を四角柱の棒状の部材とし、目標物４０の穴４１を矩形状とする。そして、ワークＷと穴４１とのクリアランスを１ｍｍとする。

また、本実施例では、パラメータ設定部３４に設定するタスクの条件を、Ｔ＝１０ｓｅｃ、Ｉ＝３、Ｋ＝２０、及びＳ＝０．０５ｓｅｃとする。

本実施例では、パラメータ生成部３０４は、比例ゲインＫ_ｐｐ及びＫ_ｐｆと、ゲイン係数γとの３種のパラメータについて機械学習を行う。また、ロボット１０のアーム１１（図１参照）は、前述のように６軸方向へ手先１３の位置を変更することが可能であり、６次元の自由度を有する。したがって、本実施例において、機械学習するパラメータ数は、１８である。

また、本実施例では、目標値生成部３０は、６次元の位置目標値ｐ^ｒｅｆ _ｔ＋１と、６次元の力目標値ｆ^ｒｅｆ _ｔ＋１との合計１２次元の目標値に加えて、５種のパラメータ（Ｋ_ｐｐ，Ｋ_ｐｆ，Ｋ_ｄｐ，Ｋ_ｉｆ，γ）を出力する。

図２２は、ワークＷを穴４１に挿入するタスクを上記の条件で実行した結果得られたコストｌ（ｓｔ，ａｔ）の値（以下、コスト値という。）の推移を表す。図２２に示すグラフの横軸は、繰り返しパラメータｋで表される学習回数を表している。以下、学習回数ｋという。

図２２中の実線はコスト値の平均値を表し、破線はコスト値のばらつきを表す。コスト値の平均値は、各学習回数ｋにおいてロボット１０が動作を繰り返すことにより得られるＩ個のコスト値を平均した値である。コスト値のばらつきは、各学習回数ｋにおいてロボット１０が動作を繰り返すことにより得られるＩ個のコスト値のばらつきである。

図２２に示すように、学習回数ｋの増加にしたがって、コスト値の平均値が減少するとともに、コスト値のばらつきが低減した。したがって、本実施例により、学習回数ｋの増加にしたがってロボット１０の動作性能が向上することが確認された。

上記各実施形態において、例えば、目標値生成部３０、制御部３１、手先位置算出部３２、及び学習部３３、制御部３１に含まれる第１偏差算出部３１１Ａ、第２偏差算出部３１１Ｂ、位置制御部３１２Ａ、力制御部３１２Ｂ、線形加算部３１３、逆運動学演算部３１４、及び指令値生成部３１５などの各種の処理を実行する処理部（ＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）のハードウェア的な構造としては、次に示す各種のプロセッサ（Ｐｒｏｃｅｓｓｏｒ）を用いることができる。

各種のプロセッサには、上述したように、ソフトウェア（作動プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ２０２に加えて、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の製造後に回路構成を変更可能なプロセッサであるＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。

１つの処理部は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせ、及び／又は、ＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。

複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアント及びサーバ等のコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（ＳｙｓｔｅｍＯｎＣｈｉｐ:ＳｏＣ）等に代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの１つ以上を用いて構成される。

さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路（ｃｉｒｃｕｉｔｒｙ）を用いることができる。

本開示の技術は、上述の種々の実施形態と種々の変形例を適宜組み合わせることも可能である。また、上記各実施形態に限らず、要旨を逸脱しない限り種々の構成を採用し得ることはもちろんである。さらに、本開示の技術は、プログラムに加えて、プログラムを非一時的に記憶する記憶媒体にもおよぶ。

以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことはいうまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。

本明細書において、「Ａ及び／又はＢ」は、「Ａ及びＢのうちの少なくとも１つ」と同義である。つまり、「Ａ及び／又はＢ」は、Ａだけであってもよいし、Ｂだけであってもよいし、Ａ及びＢの組み合わせであってもよい、という意味である。

本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

１０ロボット
１１アーム
１２基台
１３手先
１４力覚センサ
１５駆動モータ
１６エンコーダ
２０制御装置
３０目標値生成部
３１制御部
３２手先位置算出部
３３学習部
３４パラメータ設定部
４０目標物
４１穴
２００ストレージデバイス
２０１メモリ
２０３通信部
２０４ディスプレイ
２０５入力デバイス
２０６バスライン
３０１モデル記憶部
３０２確率分布モデル記憶部
３０３モデル切り替え部
３０４パラメータ生成部
３１１Ａ第１偏差算出部
３１１Ｂ第２偏差算出部
３１２Ａ位置制御部
３１２Ｂ力制御部
３１３線形加算部
３１４逆運動学演算部
３１５指令値生成部
γ ゲイン係数
θ 重みパラメータ
Ｃ１第１駆動軸
Ｃ２第２駆動軸
Ｃ３第３駆動軸
Ｃ４第４駆動軸
Ｃ５第５駆動軸
Ｃ６第６駆動軸
Ｌ１入力層
Ｌ２中間層
Ｌ３出力層
ＳＭ確率分布モデル
ＴＭ学習済みモデル
Ｗワーク

Claims

ロボットの関節を駆動するための関節指令値を一定のサイクルごとに与えてロボットを作動させるプロセッサを有するロボットの制御装置であって、
前記プロセッサは、
前記関節の位置、前記関節の速度、及び前記ロボットの手先にかかる力を含むセンシング情報と、次サイクルの前記手先の位置と前記手先にかかる力の目標値である前記手先の位置目標値及び力目標値との関係を学習した学習済みモデルに基づいて、前記サイクルごとに前記位置目標値及び前記力目標値を生成し、
前記位置目標値と前記センシング情報に基づく前記手先の位置との偏差を表す位置偏差値と、前記力目標値と前記センシング情報に基づく前記手先にかかる力との偏差を表す力偏差値とのそれぞれに補償変換を施した値の線形和を算出し、かつ前記線形和を制御偏差値として現サイクルの前記関節指令値に対してフィードバックを行うことにより、次サイクルの前記関節指令値を生成する、
ロボットの制御装置。
前記プロセッサは、
前記位置偏差値と前記力偏差値とのそれぞれに微分補償変換を施した値の線形和を算出する、
請求項１に記載のロボットの制御装置。
前記プロセッサは、
前記位置偏差値に微分補償変換を施した値と、前記力偏差値に積分補償変換を施した値との線形和を算出する、
請求項１に記載のロボットの制御装置。
前記プロセッサは、
前記手先の初期位置、最終目標位置、及び最終力目標値を含むタスクを与え、前記サイクルごとに前記関節指令値を生成し、かつ前記センシング情報を取得することにより学習を行い、前記学習済みモデルを更新する、
請求項１から請求項３のうちいずれか１項に記載のロボットの制御装置。
前記プロセッサは、
前記学習済みモデルに代えて、前記センシング情報と前記手先の位置及び力との関係を、確率分布によって表現した確率分布モデルによって前記位置目標値及び前記力目標値を生成し、
前記関節指令値に基づいて前記ロボットを制御することにより、前記サイクルごとに前記センシング情報を収集し、
収集された前記センシング情報と前記位置目標値及び前記力目標値との関係を学習することにより前記確率分布モデル及び前記学習済みモデルを更新する、
請求項４に記載のロボットの制御装置。
前記プロセッサは、前記最終目標位置及び前記最終力目標値への到達度を表すコストを最小化するように前記確率分布モデルを更新する、
請求項５に記載のロボットの制御装置。
前記プロセッサは、更新された前記確率分布モデルを用いて前記学習済みモデルを更新する、
請求項６に記載のロボットの制御装置。
前記確率分布モデルは、線形ガウスモデルである、
請求項７に記載のロボットの制御装置。
前記学習済みモデルは、ニューラルネットワークである、
請求項１から請求項８のうちいずれか１項に記載のロボットの制御装置。
前記位置偏差値に補償変換を施した値をｐ’_ｅｒｒ、前記力偏差値に補償変換を施した値をｆ’_ｅｒｒ、前記線形和をｐ_ｓｔｅｐとした場合に、「ｐ_ｓｔｅｐ＝γｐ’_ｅｒｒ＋（１－γ）ｆ’_ｅｒｒ」の関係（ここで、０＜γ≦１）を有する、
請求項１から請求項９のうちいずれか１項に記載のロボットの制御装置。
前記プロセッサは、前記手先にかかる力に応じて係数γを、前記サイクルごとに変化させる、
請求項１０に記載のロボットの制御装置。
前記学習済みモデルは、サイクルごとの前記係数γの関係をさらに記憶しており、
前記プロセッサは、前記係数γに基づいて線形和ｐ_ｓｔｅｐを算出する、
請求項１１に記載のロボットの制御装置。
ロボットの関節を駆動するための関節指令値を一定のサイクルごとに与えてロボットを作動させるロボットの制御方法であって、
前記関節の位置、前記関節の速度、及び前記ロボットの手先にかかる力を含むセンシング情報と、次サイクルの前記手先の位置と前記手先にかかる力の目標値である前記手先の位置目標値及び力目標値との関係を学習した学習済みモデルに基づいて、前記サイクルごとに前記位置目標値及び前記力目標値を生成する目標値生成ステップと、
前記位置目標値と前記センシング情報に基づく前記手先の位置との偏差を表す位置偏差値と、前記力目標値と前記センシング情報に基づく前記手先にかかる力との偏差を表す力偏差値とのそれぞれに補償変換を施した値の線形和を算出し、かつ前記線形和を制御偏差値として現サイクルの前記関節指令値に対してフィードバックを行うことにより、次サイクルの前記関節指令値を生成する制御ステップと、
を有するロボットの制御方法。
ロボットの関節を駆動するための関節指令値を一定のサイクルごとに与えてロボットを作動させる制御をコンピュータに作動させるプログラムであって、
前記関節の位置、前記関節の速度、及び前記ロボットの手先にかかる力を含むセンシング情報と、次サイクルの前記手先の位置と前記手先にかかる力の目標値である前記手先の位置目標値及び力目標値との関係を学習した学習済みモデルに基づいて、前記サイクルごとに前記位置目標値及び前記力目標値を生成する目標値生成ステップと、
前記位置目標値と前記センシング情報に基づく前記手先の位置との偏差を表す位置偏差値と、前記力目標値と前記センシング情報に基づく前記手先にかかる力との偏差を表す力偏差値とのそれぞれに補償変換を施した値の線形和を算出し、かつ前記線形和を制御偏差値として現サイクルの前記関節指令値に対してフィードバックを行うことにより、次サイクルの前記関節指令値を生成する制御ステップと、
をコンピュータに作動させるプログラム。