JP5750657B2 - 強化学習装置、制御装置、および強化学習方法 - Google Patents

強化学習装置、制御装置、および強化学習方法 Download PDF

Info

Publication number
JP5750657B2
JP5750657B2 JP2011074694A JP2011074694A JP5750657B2 JP 5750657 B2 JP5750657 B2 JP 5750657B2 JP 2011074694 A JP2011074694 A JP 2011074694A JP 2011074694 A JP2011074694 A JP 2011074694A JP 5750657 B2 JP5750657 B2 JP 5750657B2
Authority
JP
Japan
Prior art keywords
external force
virtual external
reinforcement learning
output
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011074694A
Other languages
English (en)
Other versions
JP2012208789A5 (ja
JP2012208789A (ja
Inventor
徳和 杉本
徳和 杉本
雄悟 上田
雄悟 上田
忠明 長谷川
忠明 長谷川
総司 射場
総司 射場
赤塚 浩二
浩二 赤塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
ATR Advanced Telecommunications Research Institute International
Original Assignee
Honda Motor Co Ltd
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, ATR Advanced Telecommunications Research Institute International filed Critical Honda Motor Co Ltd
Priority to JP2011074694A priority Critical patent/JP5750657B2/ja
Priority to US13/432,094 priority patent/US8886357B2/en
Publication of JP2012208789A publication Critical patent/JP2012208789A/ja
Publication of JP2012208789A5 publication Critical patent/JP2012208789A5/ja
Application granted granted Critical
Publication of JP5750657B2 publication Critical patent/JP5750657B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S901/00Robots
    • Y10S901/02Arm motion controller
    • Y10S901/03Teaching system

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Description

本発明は、ロボットの運動学習を行う強化学習装置等に関するものである。
強化学習は制御対象や環境のダイナミクスが未知であっても実装可能であり、また課題に応じた報酬関数を設定するだけで自律的に学習を行うため、ロボットの運動学習手法として広く用いられている(例えば、特許文献1参照)。
特開2007−66242号公報
しかしながら、従来の技術において、複雑な運動軌道のための報酬関数は様々な項の和で表現されることが多く、各項の間で発生するトレードオフが学習の妨げとなる(これをトレードオフ問題という)、という課題があった。例えば、2点間到達運動課題における報酬関数は、一般に、目標地点で与えられる正の報酬と使用したエネルギーに対する負の報酬から構成される。この2つの要素の比率を適切なものに設定しないと、学習結果の速度が非常に速くなったり、遅くなったりと、望ましくない運動軌道となってしまう。さらに到達運動に加え、障害物回避等の要求が加わると、このトレードオフ問題はさらに困難なものとなる。障害物に接触したときの負の報酬が小さすぎると障害物にぶつかってしまい、また大きすぎると開始地点から動かないような学習結果となってしまう。報酬関数が複雑になってしまった場合、要素間のバランス調節を設計者が経験的に行わなければならず、強化学習の利点を損なってしまう。
本第一の発明の強化学習装置は、報酬を出力とする報酬関数を格納し得る報酬関数格納手段と、移動する制御対象の環境に関する第一種のパラメータである1以上の第一種環境パラメータの値を取得する第一種環境パラメータ取得手段と、1以上の第一種環境パラメータの値を報酬関数に代入し、報酬関数が出力する報酬を最大とするような1以上の制御パラメータの値を算出する制御パラメータ値算出手段と、1以上の制御パラメータの値を制御対象に対して出力する制御パラメータ値出力手段と、仮想的な外力である仮想外力を出力とする仮想外力関数を格納し得る仮想外力関数格納手段と、仮想外力に関連する第二種のパラメータである1以上の第二種環境パラメータの値を取得する第二種環境パラメータ取得手段と、1以上の第二種環境パラメータの値を仮想外力関数に代入し、仮想外力を算出する仮想外力算出手段と、仮想外力を制御対象に対して出力する仮想外力出力手段とを具備する強化学習装置である。
かかる構成により、障害物の回避に対する要求を仮想外力によって解決するために、単純な報酬関数ですばやく、かつ安定して、ロボットの運動学習が行える。
また、本第二の発明の強化学習装置は、第一の発明に対して、強化学習器と、強化学習器とは分離されている仮想外力発生器とを具備する強化学習装置であって、強化学習器は、報酬関数格納手段と、第一種環境パラメータ取得手段と、制御パラメータ値算出手段と、制御パラメータ値出力手段とを具備し、仮想外力発生器は、仮想外力関数格納手段と、第二種環境パラメータ取得手段と、仮想外力算出手段と、仮想外力出力手段とを具備する強化学習装置である。
かかる構成により、運動開始位置や目標位置が変更した場合に、再学習を行うのは到達運動に関する部分のみで足り、回避運動に関する学習結果は、障害物の位置や形状が変わらない限り再利用することができる。
また、本第三の発明の強化学習装置は、第一または第二の発明に対して、制御パラメータ値出力手段が出力する1以上の制御パラメータの値と、仮想外力出力手段が出力する仮想外力とが加えられて制御対象に与えられる強化学習装置である。
かかる構成により、障害物の回避に対する要求を仮想外力によって解決するために、単純な報酬関数ですばやく、かつ安定して、ロボットの運動学習が行える。
また、本第四の発明の強化学習装置は、第一から第三いずれかの発明に対して、強化学習装置は、仮想外力近似器をさらに具備し、仮想外力近似器は、第二種環境パラメータとは少なくとも一部に異なる観測可能な第三種のパラメータである2以上の第三種パラメータを有し、第二の仮想外力を出力とする関数近似器を格納し得る関数近似器格納手段と、制御対象を観測し、制御対象の状態に関する情報である1以上の状態情報を取得する状態情報取得手段と、状態情報を関数近似器に代入し、第二の仮想外力を算出する第二仮想外力算出手段と、仮想外力発生器が出力する仮想外力と第二の仮想外力との差異に関する情報である差異情報を算出する差異情報算出手段と、差異情報が最小となるように、関数近似器のパラメータを更新する近似手段とを具備する強化学習装置である。
かかる構成により、簡易な構成で制御対象を制御するための準備ができる。
また、本第五の発明の強化学習装置は、第四の発明に対して、差異情報が所定の条件を満たすか否かを判断する判断手段と、判断手段が所定の条件を満たすほど、仮想外力発生器が出力する仮想外力と第二の仮想外力との差異が小さいと判断した場合に、制御対象に対して出力する仮想外力を、仮想外力発生器の出力から仮想外力近似器の出力へ切り替える切替手段とをさらに具備する強化学習装置である。
かかる構成により、簡易な構成で制御対象を制御することができる。
また、本第六の発明の強化学習装置は、第一から第五いずれかの発明に対して、障害物を避けながら一の目標地点に到達する課題である2点間到達運動課題を解決する強化学習装置である。
かかる構成により、2点間到達運動課題を解決する制御対象について、単純な報酬関数ですばやく、かつ安定して、ロボットの運動学習が行える。
また、本第七の発明の強化学習装置は、第四から第六いずれかの発明に対して、仮想外力の座標系は、制御対象の特定の箇所に対する相対座標である強化学習装置である。
かかる構成により、障害物の位置や姿勢が変わった場合でも、仮想外力近似器の学習結果を再利用できる。
また、本第八の発明の強化学習装置は、第四から第七いずれかの発明に対して、状態情報取得手段が取得した1以上の状態情報のうち、変化が閾値より大きい1以上の状態情報を取得する選択手段をさらに具備し、第二仮想外力算出手段は、選択手段が取得した1以上の状態情報のみを関数近似器に代入し、第二の仮想外力を算出する強化学習装置である。
かかる構成により、関数近似器のパラメータを絞ることができ、学習速度を短縮できる。
また、本第九の発明の制御装置は、第四から第八いずれかの発明に対して、仮想外力近似器と、強化学習器とを用いて、移動する制御対象を制御する制御装置である。
かかる構成により、簡易な構成で制御対象を制御することができる。
本発明による強化学習装置によれば、すばやくかつ安定して、ロボットの運動学習が行える。
実施の形態1における強化学習システムが行う動作を説明する概略図 同強化学習システムのブロック図 同障害物との距離と仮想外力との関係を示す図 同強化学習システムの動作について説明するフローチャート 同強化学習器、仮想外力発生器、および仮想外力近似器と制御対象との概略図 同強化学習器、仮想外力発生器、および仮想外力近似器と制御対象との概略図 同実験結果を示す図 同実験結果を示す図 実施の形態2における強化学習システムのブロック図 上記実施の形態におけるコンピュータシステムの概観図 同コンピュータシステムのブロック図
以下、強化学習システム等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、仮想的な外力を発生させる機能を有する強化学習装置等について説明する。また、本実施の形態において、強化学習装置を構成する強化学習器と仮想外力発生器とが分離している強化学習装置について説明する。また、本実施の形態において、仮想外力発生器から仮想外力近似器への自動切り替えを行える強化学習装置について説明する。また、本実施の形態において、仮想外力発生器の再利用性を向上できる強化学習装置について説明する。さらに、本実施の形態において、関数近似器のモデル選択を行える強化学習装置について説明する。
図1は、本実施の形態における強化学習システムAが行う動作を説明する概略図である。強化学習システムAは、主として、障害物を避けて移動を行う制御対象に対して強化学習を行うシステムである。また、図1に示すように、強化学習システムAは、例えば、制御対象であるロボットアームの手先に仮想的な外力を発生させることで障害物を避けて移動する。強化学習システムAにおいて、例えば、障害物の表面に対し垂直な方向に仮想外力を発生させ、強化学習器の出力に足しこむことで障害物を回避しつつ到達運動を達成する。
図2は、本実施の形態における強化学習システムAのブロック図である。強化学習システムAは、制御対象1、および強化学習装置2を具備する。また、強化学習装置2は、強化学習器21、仮想外力発生器22、仮想外力近似器23、判断手段24、および切替手段25を具備する。
また、強化学習器21は、報酬関数格納手段211、第一種環境パラメータ取得手段212、制御パラメータ値算出手段213、および制御パラメータ値出力手段214を具備する。
また、仮想外力発生器22は、仮想外力関数格納手段221、第二種環境パラメータ取得手段222、仮想外力算出手段223、および仮想外力出力手段224を具備する。
さらに、仮想外力近似器23は、関数近似器格納手段231、状態情報取得手段232、選択手段233、第二仮想外力算出手段234、差異情報算出手段235、近似手段236、および第二仮想外力出力手段237を具備する。
制御対象1は、制御の対象であり、例えば、移動するロボットである。また、制御対象1は、例えば、2点間到達運動を達成するロボットである。
強化学習装置2を構成する強化学習器21は、制御対象1や環境のダイナミクスが未知であっても実装可能であり、また課題に応じた報酬関数を設定するだけで自律的に学習を行える装置である。
強化学習器21を構成する報酬関数格納手段211は、報酬関数を格納し得る。報酬関数は、報酬を出力とする。また、報酬関数は、通常、2以上の項の和で表現される。例えば、2点間到達運動課題における報酬関数は、一般に、目標点までの距離に応じた正の報酬と、出力の大きさに応じた負の報酬の和から構成される。さらに具体的には、例えば、報酬関数は、目標点までの距離に応じた正の報酬をガウス分布、出力の大きさに応じた負の報酬を2次形式とした関数である。
また、報酬関数r(t)は、例えば、以下の数式1である。なお、tは時刻である。
数式1において、p(t)は手先位置、p goal は手先の目標位置、σは正の報酬が与えられる範囲を決めるパラメータである。また、u(t)は、時刻tにおける行動である。行動とは、制御対象の運動を決定する情報である。行動uは、例えば、ロボットの各関節に与えられる制御力を並べたベクトルである。さらに、Rは、行列であり、制御力の大きさに対する負の報酬を決めるパラメータであり、一般に正定行列を用いる。Rが大きいと小さな制御力でゆっくりゴールへ、また逆に小さいと大きな制御力で素早くゴールへ向かう運動を学習する。なお、行動uは、後述する1以上の制御パラメータである。また、1以上の制御パラメータは、制御パラメータ値算出手段213により算出される。
また、強化学習を行うエージェント(強化学習装置2に該当)は、例えば、状態空間上を試行錯誤によって探索することで、報酬を最大とするような行動則を学習する。ただし、どのような変数を状態空間に取るかは様々な方法がある。ロボットアームの制御では各関節の角度と角速度からなるベクトルを状態空間とすることが一般的である。一方、障害物のある2点間到達運動では、関節の角度と角速度に加えて、手先の位置と速度も状態空間に含めることにより、学習効率が飛躍的に上昇する。これは、報酬関数や仮想外力が手先座標に依存するため、手先座標に関する情報が重要な役割を担っているためであると考えられる。
第一種環境パラメータ取得手段212は、制御対象1の環境に関する第一種のパラメータである1以上の第一種環境パラメータの値を取得する。第一種環境パラメータは、例えば、目標地点までの距離、現在地点、ロボットアームの各関節の角度、角速度や、手先の位置と速度などである。第一種環境パラメータは、報酬関数に代入され得る値に対応するパラメータである。第一種環境パラメータ取得手段212は、例えば、高解像度のステレオカメラや距離センサ等、およびCPU等により実現され得る。
制御パラメータ値算出手段213は、1以上の第一種環境パラメータを報酬関数に代入し、報酬関数が出力する報酬を最大とするような1以上の制御パラメータの値を算出する。制御パラメータは、制御対象の構造や学習アルゴリズムの種類に依存して決定される。なお、かかる処理は、強化学習である。強化学習のアルゴリズムにはQ学習、SARSA、方策勾配法などがあり、状況に応じて様々なものを実装できる。また、連続時間、連続空間における強化学習では、価値関数や方策の表現に関数近似器を用いる必要があり、これにはNGNet、RBF、ニューラルネット、CMACなど様々なものから選択可能である。強化学習のアルゴリズムは公知技術であるので、詳細な説明は省略する。
制御パラメータ値出力手段214は、制御パラメータ値算出手段213が算出した1以上の制御パラメータの値を制御対象1に対して出力する。なお、ここでの出力とは、通常、仮想外力または第二仮想外力と合成されるための出力である。そして、合成された力(通常、ベクトル)が、制御対象1に与えられる。
仮想外力発生器22は、仮想的な外力である仮想外力を発生し、制御対象1に対して出力する。仮想外力発生器22は、高解像度のステレオカメラや距離センサ等を用いて障害物の表面を検知し、障害物を避けるような仮想外力f v を手先に発生させる。なお、f v は手先座標系で表される仮想外力であり、最終的に、関節角座標系で表される仮想外力へと変換される。障害物を確実に避けるためには仮想外力f v を大きな値とする必要があるが、大きな力が突然発生することは、安全性や学習の安定性などの面から好ましくない。そこで仮想外力f v を障害物との距離に応じて滑らかに変化させることが好適である。つまり、例えば、図3に示すように、仮想外力発生器22は、障害物からの距離との関係を担保するように、仮想外力を発生させることは好適である。図3において、障害物との距離の3乗に比例して、仮想外力の大きさが変化する場合を示している。点線で表されている変数aが仮想外力の大きさを決定する。dは障害物との距離を表しており、wより近い領域では、変数aは距離dの3乗に比例して大きくなり、wより遠い領域では変数aはゼロとなる。距離wの近傍において変数aの変化は連続的になっていることが望ましい。また、変数aの増加の傾きは、物理系のパラメータから大まかに決定することができる。
そして、手先に加わる仮想外力f v は変数aを用いて、数式2のように表される。
ここでhは、カメラや距離センサ等を用いて計測された、障害物表面に対して垂直な単位ベクトルである。
また、仮想外力f v はヤコビ行列J(t)を用いて、手先座標系から関節座標系へと変換される。関節座標系における仮想外力u v は、数式3により算出され得る。
なお、手先自由度と関節自由度が異なる場合、ヤコビ行列の逆行列は計算できないので、その場合は擬似逆行列などを用いて対処する。手先自由度の方が関節自由度より大きいヤコビ行列の擬似逆行列は(J J) −1 、また手先自由度より関節自由度が大きいヤコビ行列の擬似逆行列は (JJ −1 を用いることが先行研究では一般的に行われている。
仮想外力発生器22を構成する仮想外力関数格納手段221は、仮想外力を出力とする仮想外力関数を格納し得る。なお、仮想外力関数とは、通常、障害物との距離をパラメータとする関数である。また、通常、仮想外力関数は、障害物との距離をパラメータとする減少関数である。また、例えば、仮想外力関数は、障害物との距離の3乗に比例して、仮想外力の大きさが小さくなる関数である。仮想外力関数は、数式2、数式3、図3により示される情報であることは好適である。
第二種環境パラメータ取得手段222は、仮想外力に関連する第二種のパラメータである1以上の第二種環境パラメータの値を取得する。なお、第二種環境パラメータは、例えば、障害物との距離などである。また、第二種環境パラメータ取得手段222は、高解像度のステレオカメラや距離センサ等により実現され得る。
仮想外力算出手段223は、仮想外力関数格納手段221の仮想外力関数に、1以上の第二種環境パラメータを代入し、仮想外力を算出する。
仮想外力出力手段224は、仮想外力算出手段223が算出した仮想外力を制御対象1に対して出力する。なお、ここでの出力とは、通常、1以上の制御パラメータの値と合成されるための出力である。そして、合成された力(通常、ベクトル)が、制御対象1に与えられる。
仮想外力近似器23は、仮想外力発生器22の出力u v を模擬する。仮想外力近似器23はどのような状態でどのような仮想外力が発生しているかを観測し、その近似出力u v ^(^はuの真上に存在する)を学習する。そして、強化学習装置2は、近似精度が十分に良くなった後は、仮想外力発生器22の変わりに、仮想外力近似器23を用いることにより、高価な機器が無くても障害物を避けるための仮想外力を発生させられる。また、仮想外力近似器23は、以下の数式4により、近似出力u v ^を算出する。なお、近似出力u v ^は、第二の仮想外力とも言う。
数式4において、φは、後述する関数近似器である。また、数式4において、θは各関節の角度から構成されるベクトル、pは手先の位置ベクトル、tは時刻である。
関数近似器格納手段231は、第二種環境パラメータとは少なくとも一部に異なる観測可能な第三種のパラメータである2以上の第三種パラメータを有し、第二の仮想外力を出力とする関数近似器を格納し得る。ここで、第三種パラメータは、例えば、関節の角度ベクトル、手先の位置ベクトル、時刻などである。第三種パラメータは、通常、制御対象1から値が得られるパラメータなどである。第三種パラメータは、ステレオカメラや距離センサなどの特別なハードウェアを用いずに観測可能なパラメータであることが好適である。また、第三種パラメータは、後述する状態情報が代入されるパラメータである。また、関数近似器とは、関数である。また、関数近似器は、NGNet、RBF、ニューラルネット、CMACなど様々なものから選択可能である。
状態情報取得手段232は、制御対象1を観測し、制御対象1の状態に関する情報である1以上の状態情報を取得する。状態情報とは、関節の角度ベクトル、手先の位置ベクトルなどである。
選択手段233は、状態情報取得手段232が取得した1以上の状態情報のうち、変化が閾値より大きい1以上の状態情報を取得する。選択手段233は、通常、障害物を避けるために重要な関節を制御するための情報である1以上の状態情報を取得する。
第二仮想外力算出手段234は、状態情報を関数近似器に代入し、第二の仮想外力を算出する。また、第二仮想外力算出手段234は、例えば、数式4により、第二の仮想外力u v ^を算出する。なお、第二仮想外力算出手段234は、選択手段233が取得した1以上の状態情報のみを関数近似器に代入し、第二の仮想外力を算出することは好適である。
差異情報算出手段235は、仮想外力発生器22が出力する仮想外力と第二の仮想外力との差異に関する情報である差異情報を算出する。差異情報とは、差の絶対値でも良いし、差の絶対値の対数値などでも良い。差異情報算出手段235は、例えば、数式5により、差異情報eを算出する。数式5において、差異情報は、仮想外力と第二の仮想外力との差のノルムの2乗である。
近似手段236は、差異情報eが最小となるように、関数近似器のパラメータを更新する。さらに具体的には、近似手段236は、差異情報eを関数近似器のパラメータにより偏微分し、その勾配が下降する方向に向かって関数近似器のパラメータを更新する。この更新を繰り返す事により、近似手段236は、差異情報eを最も小さくするような関数近似器のパラメータを獲得できる。
第二仮想外力出力手段237は、第二仮想外力算出手段234が算出した第二の仮想外力u v ^を、制御対象1に出力する。なお、ここでの出力とは、通常、1以上の制御パラメータの値と合成されるための出力である。そして、合成された力(通常、ベクトル)が、制御対象1に与えられる。
判断手段24は、差異情報eが所定の条件を満たすか否かを判断する。また、判断手段24は、差異情報の履歴が、所定の条件を満たすか否かを判断しても良い。所定の条件は、通常、差異情報eが閾値より小さい(閾値以下も含む)ことや、差異情報eが収束してきたこと等である。
切替手段25は、判断手段24が所定の条件を満たすほど、仮想外力発生器22が出力する仮想外力と第二の仮想外力との差異が小さいと判断した場合に、制御対象1に対して出力する仮想外力を、仮想外力発生器22の出力から仮想外力近似器23の出力へ切り替える。なお、仮想外力近似器23が仮想外力発生器22の役割を十分模擬できたと、判断手段24が判断した場合には、仮想外力発生器22の出力から仮想外力発生器23の出力へ切り替え、近似手段236は、パラメータの更新を終了する。
報酬関数格納手段211、仮想外力関数格納手段221、関数近似器格納手段231は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。また、報酬関数格納手段211等に報酬関数等が記憶される過程は問わない。例えば、記録媒体を介して報酬関数等が報酬関数格納手段211等で記憶されるようになってもよく、通信回線等を介して送信された報酬関数等が報酬関数格納手段211等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された報酬関数等が報酬関数格納手段211等で記憶されるようになってもよい。
制御パラメータ値算出手段213、制御パラメータ値出力手段214、第二種環境パラメータ取得手段222、仮想外力算出手段223、仮想外力出力手段224、状態情報取得手段232、選択手段233、第二仮想外力算出手段234、差異情報算出手段235、および近似手段236は、通常、MPUやメモリ等から実現され得る。制御パラメータ値算出手段213等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、強化学習システムAの動作について、図4のフローチャートを用いて説明する。
(ステップS401)強化学習器21の第一種環境パラメータ取得手段212は、制御対象1の1以上の第一種環境パラメータの値を取得する。
(ステップS402)制御パラメータ値算出手段213は、報酬関数格納手段211から報酬関数を読み出す。そして、制御パラメータ値算出手段213は、当該報酬関数に、ステップS401で取得された1以上の第一種環境パラメータの値を代入し、報酬関数が出力する報酬を最大とするような1以上の制御パラメータの値を算出する。かかる場合のアルゴリズムは、Q学習、SARSA、方策勾配法など、上述したように問わない。
(ステップS403)仮想外力発生器22の第二種環境パラメータ取得手段222は、1以上の第二種環境パラメータの値を取得する。
(ステップS404)仮想外力算出手段223は、仮想外力関数格納手段221から仮想外力関数を読み出す。そして、仮想外力算出手段223は、当該仮想外力関数に、ステップS403で取得された1以上の第二種環境パラメータの値を代入し、仮想外力を算出する。
(ステップS405)仮想外力近似器23を構成する状態情報取得手段232は、制御対象1を観測し、1以上の状態情報を取得する。
(ステップS406)第二仮想外力算出手段234は、関数近似器格納手段231から関数近似器を読み出す。次に、第二仮想外力算出手段234は、当該関数近似器に、ステップS405で取得された1以上の状態情報を代入し、第二の仮想外力を算出する。なお、第二仮想外力を算出する前に、状態情報取得手段232が取得した1以上の状態情報のうち、選択手段233が、変化が閾値より大きい1以上の状態情報を選択し、第二仮想外力算出手段234は、当該選択された状態情報のみを利用して、第二仮想外力を算出しても良い。
(ステップS407)差異情報算出手段235は、ステップS404で算出された仮想外力とステップS406で算出された第二仮想外力との差異情報を算出する。
(ステップS408)判断手段24は、ステップS407で算出された差異情報が所定の条件を満たすほど、小さいか否かを判断する。なお、判断手段24は、時間的に連続する2以上の差異情報(差異情報の履歴)を用いて、所定の条件を満たすか否かを判断しても良い。所定の条件を満たす場合はステップS409に行き、所定の条件を満たさない場合はステップS416に行く。
(ステップS409)強化学習装置2は、1以上の制御パラメータの値と第二仮想外力との和を算出する。なお、かかる算出は、強化学習装置2が有する図示しない合成手段によりなされる、と考えても良い。
(ステップS410)強化学習装置2は、ステップS409で算出した和の力ベクトルを、制御対象に出力する。なお、かかる出力も、強化学習装置2が有する図示しない合成手段によりなされる、と考えても良い。
(ステップS411)第一種環境パラメータ取得手段212は、制御対象1の1以上の第一種環境パラメータの値を取得する。
(ステップS412)制御パラメータ値算出手段213は、報酬関数に、ステップS411で取得された1以上の第一種環境パラメータの値を代入し、報酬関数が出力する報酬を最大とするような1以上の制御パラメータの値を算出する。
(ステップS413)状態情報取得手段232は、制御対象1を観測し、1以上の状態情報を取得する。
(ステップS414)第二仮想外力算出手段234は、関数近似器に、ステップS413で取得された1以上の状態情報を代入し、第二仮想外力を算出する。
(ステップS415)強化学習装置2は、処理を終了するか否かを判断する。処理を終了すると判断した場合は処理を終了し、処理を終了しないと判断した場合はステップS409に戻る。なお、目標を達成した場合に、処理を終了する、と判断される。なお、かかる判断は、判断手段24が行っても良い。
(ステップS416)近似手段236は、ステップS407で取得した差異情報が最小となるように、関数近似器のパラメータを更新する。
(ステップS417)強化学習装置2は、1以上の制御パラメータの値と仮想外力との和を算出する。なお、かかる算出は、強化学習装置2が有する図示しない合成手段によりなされる、と考えても良い。
(ステップS418)強化学習装置2は、ステップS417で算出した和の力ベクトルを、制御対象に出力する。なお、かかる出力も、強化学習装置2が有する図示しない合成手段によりなされる、と考えても良い。
(ステップS419)強化学習装置2は、処理を終了するか否かを判断する。処理を終了すると判断した場合は処理を終了し、処理を終了しないと判断した場合はステップS401に戻る。なお、目標を達成した場合に、処理を終了する、と判断される。なお、かかる判断は、判断手段24が行っても良い。
以下、本実施の形態における強化学習システムAの動作の概略について説明する。ここでの動作は、ロボットの手先に、仮想的な外力を発生させることで障害物を避ける2点間到達運動を行う動作である。強化学習システムAにおいて、障害物の表面に対し垂直な方向に仮想外力を発生させ(図1参照)、強化学習器の出力に足しこむことにより、障害物を回避しつつ到達運動を達成する。かかる場合の強化学習システムAを構成する強化学習器21、仮想外力発生器22、および仮想外力近似器23と制御対象1との概略図は図5である。
図5において、強化学習器21は、与えられた報酬関数(例えば、数式1)に従い、2点間到達運動を行うための行動u(1以上の制御パラメータに該当)を出力する。行動uは、ロボットの各関節に与えられる制御力を並べたベクトルである。図5において、pは制御対象1の手先位置に関する情報である。また、θは制御対象1の関節の角度のベクトルである。
また、仮想外力発生器22は、高解像度のステレオカメラや距離センサ等を用いて障害物を認識し、障害物と手先が反発するような仮想外力u を算出する。行動uと仮想外力u の和が各関節に与えられることで、強化学習装置2は、障害物を避けつつ、2点間到達運動を達成できる。
また、仮想外力近似器23は、仮想外力発生器22の挙動を模擬するものであり、どのような時間や状態において、どのような仮想外力が出力されているのかを学習する。仮想外力近似器23の学習が十分に収束した後は、仮想外力発生器22の代わりに仮想外力近似器23の出力u ^を強化学習器21の行動uに足しこむことで、仮想外力発生器22を用いずに課題を達成できるようになる(図6参照)。
(実験結果)
以下、実験結果について説明する。本実験において、制御対象1は、7自由度のロボットアームである。そして、本実験において、7自由度のロボットアームシミュレータを用いて、障害物のある2点間到達運動課題を行った。その結果を図7に示す。なお、図7において、太い実線(70など)は、ロボットアームである。また、図7において、縦軸、横軸の座標は、ロボットアームの位置を示す。
エージェント(強化学習装置2)は、ロボットアーム(制御対象1)の手先を初期位置(0.48,−0.16)から目標地点(0.3,0.3)まで障害物を避けながら到達する行動則を学習する。実線71、72は、障害物の表面を表しており、点線73、74よりも実線71、72に近づいたとき、変数aが0より大きくなり仮想外力f が発生する。発生した手先座標系における仮想外力f は、図の下部の実線(75、76、77、78等)で表している。
仮想外力近似器23の学習が十分に進んだ後、仮想外力発生器22を使用しない場合の結果を図8に示す。実線(81、82、83、84等)は関節座標系において近似された仮想外力u ^(t)[^はuの真上の存在する]をヤコビ行列J(t)によって手先座標系に変換した結果を示している。なお、図8において表示している、手先座標系における仮想外力の近似出力はアルゴリズムの実行上、必ずしも必要ではない。近似の結果を確認するため、便宜上算出したものである。この結果より、仮想外力発生器22が無くても障害物を避けながら目標地点にたどり着けていることが分かる。なお、図8において、太い実線(80など)は、ロボットアームである。
以上、本実施の形態によれば、障害物の回避に対する要求を仮想外力によって解決するために、単純な報酬関数ですばやく、かつ安定して、ロボットの運動学習が行える。
また、本実施の形態によれば、強化学習器21と仮想外力発生器22とを分離していることにより、運動開始位置や目標位置が変更した場合に、再学習を行うのは到達運動に関する部分(強化学習21)のみで足り、仮想外力近似器23の近似結果は、障害物の位置や形状が変わらない限り再利用することができる。


また、本実施の形態によれば、仮想外力近似器23により、簡易な構成で制御対象を制御するための準備ができる。
また、本実施の形態によれば、仮想外力発生器22から仮想外力近似器23への自動切り替えを行うことにより、簡易な構成で制御対象を制御することができる。
また、本実施の形態によれば、特に、2点間到達運動課題を解決する制御対象1について、単純な報酬関数ですばやく、かつ安定して、ロボットの運動学習が行える。
また、本実施の形態によれば、仮想外力の座標系は、制御対象1の特定の箇所に対する相対座標であることにより、障害物の位置や姿勢が変わった場合でも、仮想外力近似器の学習結果を再利用できる。
さらに、本実施の形態によれば、選択手段233により、関数近似器のパラメータを絞ることができ、学習速度を短縮できる。さらに具体的には、数式3におけるヤコビ行列の逆行列を調べることにより、手先座標系における仮想外力の近似に各関節がどの程度寄与しているかを知ることが出来る。ヤコビ行列はロボットの設計図等から容易に求めることが出来るものであるため、実験前にヤコビ行列を算出することで関数近似器のパラメータを効率よく配置できる。このようにしてパラメータの個数を絞れば、学習時間を短縮できる。
なお、本実施の形態によれば、強化学習装置2で構成された仮想外力近似器23と強化学習器21とを用いて、移動する制御対象を制御する制御装置が構築可能である。かかる制御装置により、簡易な構成で制御対象を制御することができる。
また、本実施の形態によれば、強化学習装置2において、仮想外力近似器23、判断手段24、および切替手段25は存在しなくても良い。
さらに、本実施の形態によれば、仮想外力近似器23において、選択手段233は存在しなくても良い。
(実施の形態2)
本実施の形態において、強化学習器と仮想外力発生器とが分離していない強化学習装置等について説明する。
図9は、本実施の形態における強化学習システムBのブロック図である。
強化学習システムBは、制御対象1、強化学習装置3を具備する。強化学習装置3と強化学習装置2との違いは、強化学習器と仮想外力発生器とが分離しているか否かの違いである。強化学習装置3において、強化学習器と仮想外力発生器とが分離していない。
強化学習装置3は、報酬関数格納手段211、第一種環境パラメータ取得手段212、制御パラメータ値算出手段213、制御パラメータ値出力手段214、仮想外力関数格納手段221、第二種環境パラメータ取得手段222、仮想外力算出手段223、仮想外力出力手段224を具備する。
なお、強化学習装置3と強化学習装置2とは、その動作は同様であるので、強化学習装置3の動作の説明を省略する。
以上、本実施の形態によれば、障害物の回避に対する要求を仮想外力によって解決するために、単純な報酬関数ですばやく、かつ安定して、ロボットの運動学習が行える。
また、本実施の形態によれば、特に、2点間到達運動課題を解決する制御対象1について、単純な報酬関数ですばやく、かつ安定して、ロボットの運動学習が行える。
なお、図10は、本明細書で述べたプログラムを実行して、上述した実施の形態の強化学習装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図10は、このコンピュータシステム340の概観図であり、図11は、コンピュータシステム340のブロック図である。
図10において、コンピュータシステム340は、FDドライブ3411、CD−ROMドライブ3412を含むコンピュータ341と、キーボード342と、マウス343と、モニタ344とを含む。
図11において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、MPU3413と、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM3415とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム340に、上述した実施の形態の強化学習装置等の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ341に、上述した実施の形態の強化学習装置等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる強化学習システムは、すばやくかつ安定して、ロボットの運動学習が行える、という効果を有し、ロボットの制御システム等として有用である。
1 制御対象
2、3 強化学習装置
21 強化学習器
22 仮想外力発生器
23 仮想外力近似器
24 判断手段
25 切替手段
211 報酬関数格納手段
212 第一種環境パラメータ取得手段
213 制御パラメータ値算出手段
214 制御パラメータ値出力手段
221 仮想外力関数格納手段
222 第二種環境パラメータ取得手段
223 仮想外力算出手段
224 仮想外力出力手段
231 関数近似器格納手段
232 状態情報取得手段
233 選択手段
234 第二仮想外力算出手段
235 差異情報算出手段
236 近似手段
237 第二仮想外力出力手段

Claims (10)

  1. 2点間到達運動課題における報酬を出力とする報酬関数を格納し得る報酬関数格納手段と、
    移動する制御対象の環境に関する第一種のパラメータである1以上の第一種環境パラメータの値を取得する第一種環境パラメータ取得手段と、
    前記1以上の第一種環境パラメータの値を前記報酬関数に代入し、当該報酬関数が出力する報酬を最大とするような1以上の制御パラメータの値を算出する制御パラメータ値算出手段と、
    前記1以上の制御パラメータの値を前記制御対象に対して出力する制御パラメータ値出力手段と、
    障害物を避けるための仮想的な外力である仮想外力を出力とする仮想外力関数を格納し得る仮想外力関数格納手段と、
    前記仮想外力に関連する第二種のパラメータである1以上の第二種環境パラメータの値を取得する第二種環境パラメータ取得手段と、
    前記1以上の第二種環境パラメータの値を前記仮想外力関数に代入し、仮想外力を算出する仮想外力算出手段と、
    前記仮想外力を前記制御対象に対して出力する仮想外力出力手段とを具備する強化学習装置。
  2. 強化学習器と、当該強化学習器とは分離されている仮想外力発生器とを具備する請求項1記載の強化学習装置であって、
    前記強化学習器は、
    前記報酬関数格納手段と、前記第一種環境パラメータ取得手段と、前記制御パラメータ値算出手段と、前記制御パラメータ値出力手段とを具備し、
    前記仮想外力発生器は、
    前記仮想外力関数格納手段と、前記第二種環境パラメータ取得手段と、前記仮想外力算出手段と、前記仮想外力出力手段とを具備する請求項1記載の強化学習装置。
  3. 前記制御パラメータ値出力手段が出力する前記1以上の制御パラメータの値と、前記仮想外力出力手段が出力する前記仮想外力とが加えられて前記制御対象に与えられる請求項1または請求項2記載の強化学習装置。
  4. 前記強化学習装置は、仮想外力近似器をさらに具備し、
    前記仮想外力近似器は、
    前記第二種環境パラメータとは少なくとも一部に異なる観測可能な第三種のパラメータである2以上の第三種パラメータを有し、障害物を避けるための第二の仮想外力を出力とする関数近似器を格納し得る関数近似器格納手段と、
    前記制御対象を観測し、当該制御対象の状態に関する情報である1以上の状態情報を取得する状態情報取得手段と、
    前記状態情報を前記関数近似器に代入し、第二の仮想外力を算出する第二仮想外力算出手段と、
    前記仮想外力発生器が出力する仮想外力と前記第二の仮想外力との差異に関する情報である差異情報を算出する差異情報算出手段と、
    前記差異情報が最小となるように、前記関数近似器のパラメータを更新する近似手段とを具備する請求項1から請求項3いずれか記載の強化学習装置。
  5. 前記差異情報が所定の条件を満たすか否かを判断する判断手段と、
    前記判断手段が前記所定の条件を満たすほど、前記仮想外力発生器が出力する仮想外力と前記第二の仮想外力との差異が小さいと判断した場合に、前記制御対象に対して出力する仮想外力を、前記仮想外力発生器の出力から前記仮想外力近似器の出力へ切り替える切替手段とをさらに具備する請求項4記載の強化学習装置。
  6. 障害物を避けながら一の目標地点に到達する課題である2点間到達運動課題を解決する請求項1から請求項5いずれか記載の強化学習装置。
  7. 前記仮想外力の座標系は、
    前記制御対象の特定の箇所に対する相対座標である請求項4から請求項6いずれか記載の強化学習装置。
  8. 前記状態情報取得手段が取得した1以上の状態情報のうち、変化が閾値より大きい1以上の状態情報を取得する選択手段をさらに具備し、
    前記第二仮想外力算出手段は、
    前記選択手段が取得した1以上の状態情報のみを前記関数近似器に代入し、第二の仮想外力を算出する請求項4または請求項5記載の強化学習装置。
  9. 請求項4から請求項8いずれか記載強化学習装置を用いて、移動する制御対象を制御する制御装置。
  10. 記憶媒体に、
    2点間到達運動課題における報酬を出力とする報酬関数と、
    障害物を避けるための仮想的な外力である仮想外力を出力とする仮想外力関数とを格納しており、
    第一種環境パラメータ取得手段、制御パラメータ値算出手段、制御パラメータ値出力手段、第二種環境パラメータ取得手段、仮想外力算出手段、および仮想外力出力手段により実現される強化学習方法であって、
    前記第一種環境パラメータ取得手段が、移動する制御対象の環境に関する第一種のパラメータである1以上の第一種環境パラメータの値を取得する第一種環境パラメータ取得ステップと、
    前記制御パラメータ値算出手段が、前記1以上の第一種環境パラメータの値を前記報酬関数に代入し、当該報酬関数が出力する報酬を最大とするような1以上の制御パラメータの値を算出する制御パラメータ値算出ステップと、
    前記制御パラメータ値出力手段が、前記1以上の制御パラメータの値を前記制御対象に対して出力する制御パラメータ値出力ステップと、
    前記第二種環境パラメータ取得手段が、前記仮想外力に関連する第二種のパラメータである1以上の第二種環境パラメータの値を取得する第二種環境パラメータ取得ステップと、
    前記仮想外力算出手段が、前記1以上の第二種環境パラメータの値を前記仮想外力関数に代入し、仮想外力を算出する仮想外力算出ステップと、
    前記仮想外力出力手段が、前記仮想外力を前記制御対象に対して出力する仮想外力出力ステップとを具備する強化学習方法。
JP2011074694A 2011-03-30 2011-03-30 強化学習装置、制御装置、および強化学習方法 Active JP5750657B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011074694A JP5750657B2 (ja) 2011-03-30 2011-03-30 強化学習装置、制御装置、および強化学習方法
US13/432,094 US8886357B2 (en) 2011-03-30 2012-03-28 Reinforcement learning apparatus, control apparatus, and reinforcement learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011074694A JP5750657B2 (ja) 2011-03-30 2011-03-30 強化学習装置、制御装置、および強化学習方法

Publications (3)

Publication Number Publication Date
JP2012208789A JP2012208789A (ja) 2012-10-25
JP2012208789A5 JP2012208789A5 (ja) 2014-05-22
JP5750657B2 true JP5750657B2 (ja) 2015-07-22

Family

ID=46928279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011074694A Active JP5750657B2 (ja) 2011-03-30 2011-03-30 強化学習装置、制御装置、および強化学習方法

Country Status (2)

Country Link
US (1) US8886357B2 (ja)
JP (1) JP5750657B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016009030B4 (de) 2015-07-31 2019-05-09 Fanuc Corporation Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs
JP6240689B2 (ja) 2015-07-31 2017-11-29 ファナック株式会社 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法
JP6106226B2 (ja) * 2015-07-31 2017-03-29 ファナック株式会社 ゲインの最適化を学習する機械学習装置及び機械学習装置を備えた電動機制御装置並びに機械学習方法
JP6522488B2 (ja) * 2015-07-31 2019-05-29 ファナック株式会社 ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
US10839302B2 (en) 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
JP6733239B2 (ja) * 2016-03-18 2020-07-29 セイコーエプソン株式会社 制御装置及びロボットシステム
JP2017199077A (ja) * 2016-04-25 2017-11-02 ファナック株式会社 複数台の産業機械を有する生産システムの動作を最適化するセルコントローラ
CN106886451B (zh) * 2017-01-10 2020-10-27 广东石油化工学院 一种基于虚拟化容器技术的多工作流任务分配方法
JP6453919B2 (ja) * 2017-01-26 2019-01-16 ファナック株式会社 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム
JP6706223B2 (ja) * 2017-05-25 2020-06-03 日本電信電話株式会社 移動体制御方法、移動体制御装置、及びプログラム
JP6748135B2 (ja) * 2018-03-19 2020-08-26 ファナック株式会社 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP7131087B2 (ja) * 2018-05-31 2022-09-06 セイコーエプソン株式会社 ロボットシステムの制御方法およびロボットシステム
US11403513B2 (en) * 2018-09-27 2022-08-02 Deepmind Technologies Limited Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy
CN109711040B (zh) * 2018-12-25 2023-06-02 南京天洑软件有限公司 一种基于搜索方向学习的智能工业设计强化学习算法
JP7180696B2 (ja) * 2019-01-30 2022-11-30 日本電気株式会社 制御装置、制御方法およびプログラム
JP7379833B2 (ja) * 2019-03-04 2023-11-15 富士通株式会社 強化学習方法、強化学習プログラム、および強化学習システム
JP7225923B2 (ja) 2019-03-04 2023-02-21 富士通株式会社 強化学習方法、強化学習プログラム、および強化学習システム
US20220197230A1 (en) * 2019-05-22 2022-06-23 Nec Corporation Operation rule determination device, operation rule determination method, and recording medium
US11676064B2 (en) * 2019-08-16 2023-06-13 Mitsubishi Electric Research Laboratories, Inc. Constraint adaptor for reinforcement learning control
CN110496377B (zh) * 2019-08-19 2020-07-28 华南理工大学 一种基于强化学习的虚拟乒乓球手击球训练方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4587738B2 (ja) * 2003-08-25 2010-11-24 ソニー株式会社 ロボット装置及びロボットの姿勢制御方法
JP4929449B2 (ja) * 2005-09-02 2012-05-09 国立大学法人横浜国立大学 強化学習装置および強化学習方法
US8458715B1 (en) * 2007-02-23 2013-06-04 Hrl Laboratories, Llc System for allocating resources to optimize transition from a current state to a desired state

Also Published As

Publication number Publication date
US20120253514A1 (en) 2012-10-04
US8886357B2 (en) 2014-11-11
JP2012208789A (ja) 2012-10-25

Similar Documents

Publication Publication Date Title
JP5750657B2 (ja) 強化学習装置、制御装置、および強化学習方法
JP2012208789A5 (ja)
CN108873768B (zh) 任务执行***及方法、学习装置及方法、以及记录介质
CN112428278B (zh) 机械臂的控制方法、装置及人机协同模型的训练方法
US9387589B2 (en) Visual debugging of robotic tasks
US11745355B2 (en) Control device, control method, and non-transitory computer-readable storage medium
JP2019529135A (ja) ロボット操作のための深層強化学習
US9361590B2 (en) Information processing apparatus, information processing method, and program
Xu et al. Visual-haptic aid teleoperation based on 3-D environment modeling and updating
JP7295421B2 (ja) 制御装置及び制御方法
JP6321905B2 (ja) 関節システムの制御方法、記憶媒体、制御システム
US11494632B1 (en) Generating simulated training examples for training of machine learning model used for robot control
US11790042B1 (en) Mitigating reality gap through modification of simulated state data of robotic simulator
RU2308762C2 (ru) Перемещение виртуального объекта в виртуальной окружающей среде без взаимных помех между его сочлененными элементами
CN114041828B (zh) 超声扫查控制方法、机器人及存储介质
Richter et al. Motion scaling solutions for improved performance in high delay surgical teleoperation
JP7180696B2 (ja) 制御装置、制御方法およびプログラム
JP7263987B2 (ja) 制御装置、制御方法、及び制御プログラム
US20240054393A1 (en) Learning Device, Learning Method, Recording Medium Storing Learning Program, Control Program, Control Device, Control Method, and Recording Medium Storing Control Program
CN114080304B (zh) 控制装置、控制方法及控制程序
US20220193906A1 (en) User Interface for Supervised Autonomous Grasping
JP2006155559A (ja) 経路計画装置
El-Fakdi et al. Two steps natural actor critic learning for underwater cable tracking
JPWO2020138436A1 (ja) ロボット制御装置、ロボットシステム及びロボット制御方法
US20240058961A1 (en) Path generation device, path generation method, and path generation program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140314

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140314

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150413

R150 Certificate of patent or registration of utility model

Ref document number: 5750657

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250