JP2012208789A5 - - Google Patents

Download PDF

Info

Publication number
JP2012208789A5
JP2012208789A5 JP2011074694A JP2011074694A JP2012208789A5 JP 2012208789 A5 JP2012208789 A5 JP 2012208789A5 JP 2011074694 A JP2011074694 A JP 2011074694A JP 2011074694 A JP2011074694 A JP 2011074694A JP 2012208789 A5 JP2012208789 A5 JP 2012208789A5
Authority
JP
Japan
Prior art keywords
external force
virtual external
output
control
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011074694A
Other languages
English (en)
Other versions
JP2012208789A (ja
JP5750657B2 (ja
Filing date
Publication date
Application filed filed Critical
Priority to JP2011074694A priority Critical patent/JP5750657B2/ja
Priority claimed from JP2011074694A external-priority patent/JP5750657B2/ja
Priority to US13/432,094 priority patent/US8886357B2/en
Publication of JP2012208789A publication Critical patent/JP2012208789A/ja
Publication of JP2012208789A5 publication Critical patent/JP2012208789A5/ja
Application granted granted Critical
Publication of JP5750657B2 publication Critical patent/JP5750657B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

しかしながら、従来の技術において、複雑な運動軌道のための報酬関数は様々な項の和で表現されることが多く、各項の間で発生するトレードオフが学習の妨げとなる(これをトレードオフ問題という)、という課題があった。例えば、2点間到達運動課題における報酬関数は、一般に、目標地点で与えられる正の報酬と使用したエネルギーに対する負の報酬から構成される。この2つの要素の比率を適切なものに設定しないと、学習の速度が非常に速くなったり、遅くなったりと、望ましくない運動軌道となってしまう。さらに到達運動に加え、障害物回避等の要求が加わると、このトレードオフ問題はさらに困難なものとなる。障害物に接触したときの負の報酬が小さすぎると障害物にぶつかってしまい、また大きすぎると開始地点から動かないような学習結果となってしまう。報酬関数が複雑になってしまった場合、要素間のバランス調節を設計者が経験的に行わなければならず、強化学習の利点を損なってしまう。
本第一の発明の強化学習装置は、報酬を出力とする報酬関数を格納し得る報酬関数格納手段と、移動する制御対象の環境に関する第一種のパラメータである1以上の第一種環境パラメータの値を取得する第一種環境パラメータ取得手段と、1以上の第一種環境パラメータの値を報酬関数に代入し、報酬関数が出力する報酬を最大とするような1以上の制御パラメータの値を算出する制御パラメータ値算出手段と、1以上の制御パラメータの値を制御対象に対して出力する制御パラメータ値出力手段と、仮想的な外力である仮想外力を出力とする仮想外力関数を格納し得る仮想外力関数格納手段と、仮想外力に関連する第二種のパラメータである1以上の第二種環境パラメータの値を取得する第二種環境パラメータ取得手段と、1以上の第二種環境パラメータの値を仮想外力関数に代入し、仮想外力を算出する仮想外力算出手段と、仮想外力を制御対象に対して出力する仮想外力出力手段とを具備する強化学習装置である。
数式1において、p(t)は手先位置、p goal は手先の目標位置、σは正の報酬が与えられる範囲を決めるパラメータである。また、u(t)は、時刻tにおける行動である。行動とは、制御対象の運動を決定する情報である。行動uは、例えば、ロボットの各関節に与えられる制御力を並べたベクトルである。さらに、Rは、行列であり、制御力の大きさに対する負の報酬を決めるパラメータであり、一般に正定行列を用いる。Rが大きいと小さな制御力でゆっくりゴールへ、また逆に小さいと大きな制御力で素早くゴールへ向かう運動を学習する。なお、行動uは、後述する1以上の制御パラメータである。また、1以上の制御パラメータは、制御パラメータ値算出手段213により算出される。
仮想外力発生器22は、仮想的な外力である仮想外力を発生し、制御対象1に対して出力する。仮想外力発生器22は、高解像度のステレオカメラや距離センサ等を用いて障害物の表面を検知し、障害物を避けるような仮想外力f v を手先に発生させる。なお、f v は手先座標系で表される仮想外力であり、最終的に、関節角座標系で表される仮想外力へと変換される。障害物を確実に避けるためには仮想外力f v を大きな値とする必要があるが、大きな力が突然発生することは、安全性や学習の安定性などの面から好ましくない。そこで仮想外力f v を障害物との距離に応じて滑らかに変化させることが好適である。つまり、例えば、図3に示すように、仮想外力発生器22は、障害物からの距離との関係を担保するように、仮想外力を発生させることは好適である。図3において、障害物との距離の3乗に比例して、仮想外力の大きさが変化する場合を示している。点線で表されている変数aが仮想外力の大きさを決定する。dは障害物との距離を表しており、wより近い領域では、変数aは距離dの3乗に比例して大きくなり、wより遠い領域では変数aはゼロとなる。距離wの近傍において変数aの変化は連続的になっていることが望ましい。また、変数aの増加の傾きは、物理系のパラメータから大まかに決定することができる。
そして、手先に加わる仮想外力f v は変数aを用いて、数式2のように表される。
Figure 2012208789
また、仮想外力f v はヤコビ行列J(t)を用いて、手先座標系から関節座標系へと変換される。関節座標系における仮想外力u v は、数式3により算出され得る。
Figure 2012208789
なお、手先自由度と関節自由度が異なる場合、ヤコビ行列の逆行列は計算できないので、その場合は擬似逆行列などを用いて対処する。手先自由度の方が関節自由度より大きいヤコビ行列の擬似逆行列は(J J) −1 、また手先自由度より関節自由度が大きいヤコビ行列の擬似逆行列は (JJ −1 を用いることが先行研究では一般的に行われている。
仮想外力近似器23は、仮想外力発生器22の出力u v を模擬する。仮想外力近似器23はどのような状態でどのような仮想外力が発生しているかを観測し、その近似出力u v ^(^はuの真上に存在する)を学習する。そして、強化学習装置2は、近似精度が十分に良くなった後は、仮想外力発生器22の変わりに、仮想外力近似器23を用いることにより、高価な機器が無くても障害物を避けるための仮想外力を発生させられる。また、仮想外力近似器23は、以下の数式4により、近似出力u v ^を算出する。なお、近似出力u v ^は、第二の仮想外力とも言う。
Figure 2012208789
第二仮想外力出力手段237は、第二仮想外力算出手段234が算出した第二の仮想外力u v ^を、制御対象1に出力する。なお、ここでの出力とは、通常、1以上の制御パラメータの値と合成されるための出力である。そして、合成された力(通常、ベクトル)が、制御対象1に与えられる。
(ステップS419)強化学習装置2は、処理を終了するか否かを判断する。処理を終了すると判断した場合は処理を終了し、処理を終了しないと判断した場合はステップS401に戻る。なお、目標を達成した場合に、処理を終了する、と判断される。なお、かかる判断は、判断手段24が行っても良い。
また、仮想外力近似器23は、仮想外力発生器22の挙動を模擬するものであり、どのような時間や状態において、どのような仮想外力が出力されているのかを学習する。仮想外力近似器23の学習が十分に収束した後は、仮想外力発生器22の代わりに仮想外力近似器23の出力u ^を強化学習器21の行動uに足しこむことで、仮想外力発生器22を用いずに課題を達成できるようになる(図6参照)。
(実験結果)
また、本実施の形態によれば、強化学習器21と仮想外力発生器22とを分離していることにより、運動開始位置や目標位置が変更した場合に、再学習を行うのは到達運動に関する部分(強化学習21)のみで足り、仮想外力近似器23の近似結果は、障害物の位置や形状が変わらない限り再利用することができる。


Claims (10)

  1. 報酬を出力とする報酬関数を格納し得る報酬関数格納手段と、
    移動する制御対象の環境に関する第一種のパラメータである1以上の第一種環境パラメータの値を取得する第一種環境パラメータ取得手段と、
    前記1以上の第一種環境パラメータの値を前記報酬関数に代入し、当該報酬関数が出力する報酬を最大とするような1以上の制御パラメータの値を算出する制御パラメータ値算出手段と、
    前記1以上の制御パラメータの値を前記制御対象に対して出力する制御パラメータ値出力手段と、
    仮想的な外力である仮想外力を出力とする仮想外力関数を格納し得る仮想外力関数格納手段と、
    前記仮想外力に関連する第二種のパラメータである1以上の第二種環境パラメータの値を取得する第二種環境パラメータ取得手段と、
    前記1以上の第二種環境パラメータの値を前記仮想外力関数に代入し、仮想外力を算出する仮想外力算出手段と、
    前記仮想外力を前記制御対象に対して出力する仮想外力出力手段とを具備する強化学習装置。
  2. 強化学習器と、当該強化学習器とは分離されている仮想外力発生器とを具備する請求項1記載の強化学習装置であって、
    前記強化学習器は、
    前記報酬関数格納手段と、前記第一種環境パラメータ取得手段と、前記制御パラメータ値算出手段と、前記制御パラメータ値出力手段とを具備し、
    前記仮想外力発生器は、
    前記仮想外力関数格納手段と、前記第二種環境パラメータ取得手段と、前記仮想外力算出手段と、前記仮想外力出力手段とを具備する請求項1記載の強化学習装置。
  3. 前記制御パラメータ値出力手段が出力する前記1以上の制御パラメータの値と、前記仮想外力出力手段が出力する前記仮想外力とが加えられて前記制御対象に与えられる請求項1または請求項2記載の強化学習装置。
  4. 前記強化学習装置は、仮想外力近似器をさらに具備し、
    前記仮想外力近似器は、
    前記第二種環境パラメータとは少なくとも一部に異なる観測可能な第三種のパラメータである2以上の第三種パラメータを有し、第二の仮想外力を出力とする関数近似器を格納し得る関数近似器格納手段と、
    前記制御対象を観測し、当該制御対象の状態に関する情報である1以上の状態情報を取得する状態情報取得手段と、
    前記状態情報を前記関数近似器に代入し、第二の仮想外力を算出する第二仮想外力算出手段と、
    前記仮想外力発生器が出力する仮想外力と前記第二の仮想外力との差異に関する情報である差異情報を算出する差異情報算出手段と、
    前記差異情報が最小となるように、前記関数近似器のパラメータを更新する近似手段とを具備する請求項1から請求項3いずれか記載の強化学習装置。
  5. 前記差異情報が所定の条件を満たすか否かを判断する判断手段と、
    前記判断手段が前記所定の条件を満たすほど、前記仮想外力発生器が出力する仮想外力と前記第二の仮想外力との差異が小さいと判断した場合に、前記制御対象に対して出力する仮想外力を、前記仮想外力発生器の出力から前記仮想外力近似器の出力へ切り替える切替手段とをさらに具備する請求項4記載の強化学習装置。
  6. 障害物を避けながら一の目標地点に到達する課題である2点間到達運動課題を解決する請求項1から請求項5いずれか記載の強化学習装置。
  7. 前記仮想外力の座標系は、
    前記制御対象の特定の箇所に対する相対座標である請求項4から請求項6いずれか記載の強化学習装置。
  8. 前記状態情報取得手段が取得した1以上の状態情報のうち、変化が閾値より大きい1以上の状態情報を取得する選択手段をさらに具備し、
    前記第二仮想外力算出手段は、
    前記選択手段が取得した1以上の状態情報のみを前記関数近似器に代入し、第二の仮想外力を算出する請求項4から請求項7いずれか記載の強化学習装置。
  9. 請求項4から請求項8いずれか記載の仮想外力近似器と、請求項4から請求項8いずれか記載の強化学習器とを用いて、移動する制御対象を制御する制御装置。
  10. 記憶媒体に、
    報酬を出力とする報酬関数と、
    仮想的な外力である仮想外力を出力とする仮想外力関数とを格納しており、
    第一種環境パラメータ取得手段、制御パラメータ値算出手段、制御パラメータ値出力手段、第二種環境パラメータ取得手段、仮想外力算出手段、および仮想外力出力手段により実現される強化学習方法であって、
    前記第一種環境パラメータ取得手段が、移動する制御対象の環境に関する第一種のパラメータである1以上の第一種環境パラメータの値を取得する第一種環境パラメータ取得ステップと、
    前記制御パラメータ値算出手段が、前記1以上の第一種環境パラメータの値を前記報酬関数に代入し、当該報酬関数が出力する報酬を最大とするような1以上の制御パラメータの値を算出する制御パラメータ値算出ステップと、
    前記制御パラメータ値出力手段が、前記1以上の制御パラメータの値を前記制御対象に対して出力する制御パラメータ値出力ステップと、
    前記第二種環境パラメータ取得手段が、前記仮想外力に関連する第二種のパラメータである1以上の第二種環境パラメータの値を取得する第二種環境パラメータ取得ステップと、
    前記仮想外力算出手段が、前記1以上の第二種環境パラメータの値を前記仮想外力関数に代入し、仮想外力を算出する仮想外力算出ステップと、
    前記仮想外力出力手段が、前記仮想外力を前記制御対象に対して出力する仮想外力出力ステップとを具備する強化学習方法。
JP2011074694A 2011-03-30 2011-03-30 強化学習装置、制御装置、および強化学習方法 Active JP5750657B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011074694A JP5750657B2 (ja) 2011-03-30 2011-03-30 強化学習装置、制御装置、および強化学習方法
US13/432,094 US8886357B2 (en) 2011-03-30 2012-03-28 Reinforcement learning apparatus, control apparatus, and reinforcement learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011074694A JP5750657B2 (ja) 2011-03-30 2011-03-30 強化学習装置、制御装置、および強化学習方法

Publications (3)

Publication Number Publication Date
JP2012208789A JP2012208789A (ja) 2012-10-25
JP2012208789A5 true JP2012208789A5 (ja) 2014-05-22
JP5750657B2 JP5750657B2 (ja) 2015-07-22

Family

ID=46928279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011074694A Active JP5750657B2 (ja) 2011-03-30 2011-03-30 強化学習装置、制御装置、および強化学習方法

Country Status (2)

Country Link
US (1) US8886357B2 (ja)
JP (1) JP5750657B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016009030B4 (de) 2015-07-31 2019-05-09 Fanuc Corporation Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs
JP6522488B2 (ja) * 2015-07-31 2019-05-29 ファナック株式会社 ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
JP6240689B2 (ja) 2015-07-31 2017-11-29 ファナック株式会社 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法
JP6106226B2 (ja) 2015-07-31 2017-03-29 ファナック株式会社 ゲインの最適化を学習する機械学習装置及び機械学習装置を備えた電動機制御装置並びに機械学習方法
US10839302B2 (en) 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
JP6733239B2 (ja) 2016-03-18 2020-07-29 セイコーエプソン株式会社 制御装置及びロボットシステム
JP2017199077A (ja) * 2016-04-25 2017-11-02 ファナック株式会社 複数台の産業機械を有する生産システムの動作を最適化するセルコントローラ
CN106886451B (zh) * 2017-01-10 2020-10-27 广东石油化工学院 一种基于虚拟化容器技术的多工作流任务分配方法
JP6453919B2 (ja) * 2017-01-26 2019-01-16 ファナック株式会社 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム
JP6706223B2 (ja) * 2017-05-25 2020-06-03 日本電信電話株式会社 移動体制御方法、移動体制御装置、及びプログラム
JP6748135B2 (ja) * 2018-03-19 2020-08-26 ファナック株式会社 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP7131087B2 (ja) * 2018-05-31 2022-09-06 セイコーエプソン株式会社 ロボットシステムの制御方法およびロボットシステム
WO2020065001A1 (en) 2018-09-27 2020-04-02 Deepmind Technologies Limited Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy
CN109711040B (zh) * 2018-12-25 2023-06-02 南京天洑软件有限公司 一种基于搜索方向学习的智能工业设计强化学习算法
EP3920000A4 (en) * 2019-01-30 2022-01-26 NEC Corporation CONTROL DEVICE, ORDER METHOD AND RECORDING MEDIA
JP7225923B2 (ja) 2019-03-04 2023-02-21 富士通株式会社 強化学習方法、強化学習プログラム、および強化学習システム
JP7379833B2 (ja) * 2019-03-04 2023-11-15 富士通株式会社 強化学習方法、強化学習プログラム、および強化学習システム
JP7173317B2 (ja) * 2019-05-22 2022-11-16 日本電気株式会社 動作規則決定装置、動作規則決定方法およびプログラム
US11676064B2 (en) * 2019-08-16 2023-06-13 Mitsubishi Electric Research Laboratories, Inc. Constraint adaptor for reinforcement learning control
CN110496377B (zh) * 2019-08-19 2020-07-28 华南理工大学 一种基于强化学习的虚拟乒乓球手击球训练方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4587738B2 (ja) * 2003-08-25 2010-11-24 ソニー株式会社 ロボット装置及びロボットの姿勢制御方法
JP4929449B2 (ja) * 2005-09-02 2012-05-09 国立大学法人横浜国立大学 強化学習装置および強化学習方法
US8458715B1 (en) * 2007-02-23 2013-06-04 Hrl Laboratories, Llc System for allocating resources to optimize transition from a current state to a desired state

Similar Documents

Publication Publication Date Title
JP2012208789A5 (ja)
JP5750657B2 (ja) 強化学習装置、制御装置、および強化学習方法
CN110769985B (zh) 使用循环神经网络的机器人末端执行器的视点不变的视觉伺服
US11429854B2 (en) Method and device for a computerized mechanical device
US11872699B2 (en) Generating a robot control policy from demonstrations collected via kinesthetic teaching of a robot
KR101048098B1 (ko) 로봇의 경로계획 장치 및 방법
JP2019529135A (ja) ロボット操作のための深層強化学習
US11823048B1 (en) Generating simulated training examples for training of machine learning model used for robot control
Xu et al. Visual-haptic aid teleoperation based on 3-D environment modeling and updating
EP3899797A1 (en) Multi-agent reinforcement learning with matchmaking policies
WO2020065001A1 (en) Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy
JP2019087096A (ja) 行動決定システム及び自動運転制御装置
WO2009067458A1 (en) Learning capture points for humanoid push recovery
EP3793783A1 (en) System and methods for pixel based model predictive control
CN108121347B (zh) 用于控制设备运动的方法、装置及电子设备
US11707840B1 (en) Mitigating reality gap through optimization of simulated hardware parameter(s) of simulated robot
WO2020180697A1 (en) Robotic manipulation using domain-invariant 3d representations predicted from 2.5d vision data
CN107309873B (zh) 机械臂运动控制方法和***
CN114237076B (zh) 一种基于位置动力学的活动线缆运动仿真的方法及控制器
US10556336B1 (en) Determining robot inertial properties
US11461589B1 (en) Mitigating reality gap through modification of simulated state data of robotic simulator
CN113165178A (zh) 使用高级策略模型和经训练的低级策略模型进行机器人导航
CN110610039A (zh) 一种质点弹簧模型软组织变形模拟方法
CN112665592B (zh) 一种基于多智能体的时空路径规划方法
JP5079602B2 (ja) 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法