JP2012208789A5

JP2012208789A5 -

Info

Publication number: JP2012208789A5
Application number: JP2011074694A
Authority: JP
Filing date: 2011-03-30
Publication date: 2014-05-22
Anticipated expiration: 2031-03-30

Description

しかしながら、従来の技術において、複雑な運動軌道のための報酬関数は様々な項の和で表現されることが多く、各項の間で発生するトレードオフが学習の妨げとなる（これをトレードオフ問題という）、という課題があった。例えば、２点間到達運動課題における報酬関数は、一般に、目標地点で与えられる正の報酬と使用したエネルギーに対する負の報酬から構成される。この２つの要素の比率を適切なものに設定しないと、学習の速度が非常に速くなったり、遅くなったりと、望ましくない運動軌道となってしまう。さらに到達運動に加え、障害物回避等の要求が加わると、このトレードオフ問題はさらに困難なものとなる。障害物に接触したときの負の報酬が小さすぎると障害物にぶつかってしまい、また大きすぎると開始地点から動かないような学習結果となってしまう。報酬関数が複雑になってしまった場合、要素間のバランス調節を設計者が経験的に行わなければならず、強化学習の利点を損なってしまう。

本第一の発明の強化学習装置は、報酬を出力とする報酬関数を格納し得る報酬関数格納手段と、移動する制御対象の環境に関する第一種のパラメータである１以上の第一種環境パラメータの値を取得する第一種環境パラメータ取得手段と、１以上の第一種環境パラメータの値を報酬関数に代入し、報酬関数が出力する報酬を最大とするような１以上の制御パラメータの値を算出する制御パラメータ値算出手段と、１以上の制御パラメータの値を制御対象に対して出力する制御パラメータ値出力手段と、仮想的な外力である仮想外力を出力とする仮想外力関数を格納し得る仮想外力関数格納手段と、仮想外力に関連する第二種のパラメータである１以上の第二種環境パラメータの値を取得する第二種環境パラメータ取得手段と、１以上の第二種環境パラメータの値を仮想外力関数に代入し、仮想外力を算出する仮想外力算出手段と、仮想外力を制御対象に対して出力する仮想外力出力手段とを具備する強化学習装置である。

数式１において、p(t)は手先位置、p_goalは手先の目標位置、σは正の報酬が与えられる範囲を決めるパラメータである。また、u(t)は、時刻tにおける行動である。行動とは、制御対象の運動を決定する情報である。行動uは、例えば、ロボットの各関節に与えられる制御力を並べたベクトルである。さらに、Rは、行列であり、制御力の大きさに対する負の報酬を決めるパラメータであり、一般に正定行列を用いる。Rが大きいと小さな制御力でゆっくりゴールへ、また逆に小さいと大きな制御力で素早くゴールへ向かう運動を学習する。なお、行動uは、後述する１以上の制御パラメータである。また、１以上の制御パラメータは、制御パラメータ値算出手段２１３により算出される。

仮想外力発生器２２は、仮想的な外力である仮想外力を発生し、制御対象１に対して出力する。仮想外力発生器２２は、高解像度のステレオカメラや距離センサ等を用いて障害物の表面を検知し、障害物を避けるような仮想外力f_vを手先に発生させる。なお、f_vは手先座標系で表される仮想外力であり、最終的に、関節角座標系で表される仮想外力へと変換される。障害物を確実に避けるためには仮想外力f_vを大きな値とする必要があるが、大きな力が突然発生することは、安全性や学習の安定性などの面から好ましくない。そこで仮想外力f_vを障害物との距離に応じて滑らかに変化させることが好適である。つまり、例えば、図３に示すように、仮想外力発生器２２は、障害物からの距離との関係を担保するように、仮想外力を発生させることは好適である。図３において、障害物との距離の３乗に比例して、仮想外力の大きさが変化する場合を示している。点線で表されている変数ａが仮想外力の大きさを決定する。ｄは障害物との距離を表しており、ｗより近い領域では、変数ａは距離ｄの３乗に比例して大きくなり、ｗより遠い領域では変数ａはゼロとなる。距離ｗの近傍において変数ａの変化は連続的になっていることが望ましい。また、変数ａの増加の傾きは、物理系のパラメータから大まかに決定することができる。

そして、手先に加わる仮想外力f_vは変数ａを用いて、数式２のように表される。

また、仮想外力f_vはヤコビ行列J(t)を用いて、手先座標系から関節座標系へと変換される。関節座標系における仮想外力u_vは、数式３により算出され得る。

なお、手先自由度と関節自由度が異なる場合、ヤコビ行列の逆行列は計算できないので、その場合は擬似逆行列などを用いて対処する。手先自由度の方が関節自由度より大きいヤコビ行列の擬似逆行列は（Ｊ ^ＴＪ） ^−１Ｊ ^Ｔ、また手先自由度より関節自由度が大きいヤコビ行列の擬似逆行列はＪ ^Ｔ（ＪＪ ^Ｔ） ^−１を用いることが先行研究では一般的に行われている。

仮想外力近似器２３は、仮想外力発生器２２の出力u_vを模擬する。仮想外力近似器２３はどのような状態でどのような仮想外力が発生しているかを観測し、その近似出力u_v＾（＾はuの真上に存在する）を学習する。そして、強化学習装置２は、近似精度が十分に良くなった後は、仮想外力発生器２２の変わりに、仮想外力近似器２３を用いることにより、高価な機器が無くても障害物を避けるための仮想外力を発生させられる。また、仮想外力近似器２３は、以下の数式４により、近似出力u_v＾を算出する。なお、近似出力u_v＾は、第二の仮想外力とも言う。

第二仮想外力出力手段２３７は、第二仮想外力算出手段２３４が算出した第二の仮想外力u_v＾を、制御対象１に出力する。なお、ここでの出力とは、通常、１以上の制御パラメータの値と合成されるための出力である。そして、合成された力（通常、ベクトル）が、制御対象１に与えられる。

（ステップＳ４１９）強化学習装置２は、処理を終了するか否かを判断する。処理を終了すると判断した場合は処理を終了し、処理を終了しないと判断した場合はステップＳ４０１に戻る。なお、目標を達成した場合に、処理を終了する、と判断される。なお、かかる判断は、判断手段２４が行っても良い。

また、仮想外力近似器２３は、仮想外力発生器２２の挙動を模擬するものであり、どのような時間や状態において、どのような仮想外力が出力されているのかを学習する。仮想外力近似器２３の学習が十分に収束した後は、仮想外力発生器２２の代わりに仮想外力近似器２３の出力ｕ_ｖ＾を強化学習器２１の行動ｕに足しこむことで、仮想外力発生器２２を用いずに課題を達成できるようになる（図６参照）。
（実験結果）

また、本実施の形態によれば、強化学習器２１と仮想外力発生器２２とを分離していることにより、運動開始位置や目標位置が変更した場合に、再学習を行うのは到達運動に関する部分（強化学習器２１）のみで足り、仮想外力近似器２３の近似結果は、障害物の位置や形状が変わらない限り再利用することができる。

Claims

報酬を出力とする報酬関数を格納し得る報酬関数格納手段と、
移動する制御対象の環境に関する第一種のパラメータである１以上の第一種環境パラメータの値を取得する第一種環境パラメータ取得手段と、
前記１以上の第一種環境パラメータの値を前記報酬関数に代入し、当該報酬関数が出力する報酬を最大とするような１以上の制御パラメータの値を算出する制御パラメータ値算出手段と、
前記１以上の制御パラメータの値を前記制御対象に対して出力する制御パラメータ値出力手段と、
仮想的な外力である仮想外力を出力とする仮想外力関数を格納し得る仮想外力関数格納手段と、
前記仮想外力に関連する第二種のパラメータである１以上の第二種環境パラメータの値を取得する第二種環境パラメータ取得手段と、
前記１以上の第二種環境パラメータの値を前記仮想外力関数に代入し、仮想外力を算出する仮想外力算出手段と、
前記仮想外力を前記制御対象に対して出力する仮想外力出力手段とを具備する強化学習装置。
強化学習器と、当該強化学習器とは分離されている仮想外力発生器とを具備する請求項１記載の強化学習装置であって、
前記強化学習器は、
前記報酬関数格納手段と、前記第一種環境パラメータ取得手段と、前記制御パラメータ値算出手段と、前記制御パラメータ値出力手段とを具備し、
前記仮想外力発生器は、
前記仮想外力関数格納手段と、前記第二種環境パラメータ取得手段と、前記仮想外力算出手段と、前記仮想外力出力手段とを具備する請求項１記載の強化学習装置。
前記制御パラメータ値出力手段が出力する前記１以上の制御パラメータの値と、前記仮想外力出力手段が出力する前記仮想外力とが加えられて前記制御対象に与えられる請求項１または請求項２記載の強化学習装置。
前記強化学習装置は、仮想外力近似器をさらに具備し、
前記仮想外力近似器は、
前記第二種環境パラメータとは少なくとも一部に異なる観測可能な第三種のパラメータである２以上の第三種パラメータを有し、第二の仮想外力を出力とする関数近似器を格納し得る関数近似器格納手段と、
前記制御対象を観測し、当該制御対象の状態に関する情報である１以上の状態情報を取得する状態情報取得手段と、
前記状態情報を前記関数近似器に代入し、第二の仮想外力を算出する第二仮想外力算出手段と、
前記仮想外力発生器が出力する仮想外力と前記第二の仮想外力との差異に関する情報である差異情報を算出する差異情報算出手段と、
前記差異情報が最小となるように、前記関数近似器のパラメータを更新する近似手段とを具備する請求項１から請求項３いずれか記載の強化学習装置。
前記差異情報が所定の条件を満たすか否かを判断する判断手段と、
前記判断手段が前記所定の条件を満たすほど、前記仮想外力発生器が出力する仮想外力と前記第二の仮想外力との差異が小さいと判断した場合に、前記制御対象に対して出力する仮想外力を、前記仮想外力発生器の出力から前記仮想外力近似器の出力へ切り替える切替手段とをさらに具備する請求項４記載の強化学習装置。
障害物を避けながら一の目標地点に到達する課題である２点間到達運動課題を解決する請求項１から請求項５いずれか記載の強化学習装置。
前記仮想外力の座標系は、
前記制御対象の特定の箇所に対する相対座標である請求項４から請求項６いずれか記載の強化学習装置。
前記状態情報取得手段が取得した１以上の状態情報のうち、変化が閾値より大きい１以上の状態情報を取得する選択手段をさらに具備し、
前記第二仮想外力算出手段は、
前記選択手段が取得した１以上の状態情報のみを前記関数近似器に代入し、第二の仮想外力を算出する請求項４から請求項７いずれか記載の強化学習装置。
請求項４から請求項８いずれか記載の仮想外力近似器と、請求項４から請求項８いずれか記載の強化学習器とを用いて、移動する制御対象を制御する制御装置。
記憶媒体に、
報酬を出力とする報酬関数と、
仮想的な外力である仮想外力を出力とする仮想外力関数とを格納しており、
第一種環境パラメータ取得手段、制御パラメータ値算出手段、制御パラメータ値出力手段、第二種環境パラメータ取得手段、仮想外力算出手段、および仮想外力出力手段により実現される強化学習方法であって、
前記第一種環境パラメータ取得手段が、移動する制御対象の環境に関する第一種のパラメータである１以上の第一種環境パラメータの値を取得する第一種環境パラメータ取得ステップと、
前記制御パラメータ値算出手段が、前記１以上の第一種環境パラメータの値を前記報酬関数に代入し、当該報酬関数が出力する報酬を最大とするような１以上の制御パラメータの値を算出する制御パラメータ値算出ステップと、
前記制御パラメータ値出力手段が、前記１以上の制御パラメータの値を前記制御対象に対して出力する制御パラメータ値出力ステップと、
前記第二種環境パラメータ取得手段が、前記仮想外力に関連する第二種のパラメータである１以上の第二種環境パラメータの値を取得する第二種環境パラメータ取得ステップと、
前記仮想外力算出手段が、前記１以上の第二種環境パラメータの値を前記仮想外力関数に代入し、仮想外力を算出する仮想外力算出ステップと、
前記仮想外力出力手段が、前記仮想外力を前記制御対象に対して出力する仮想外力出力ステップとを具備する強化学習方法。