JP5750657B2 - 強化学習装置、制御装置、および強化学習方法 - Google Patents
強化学習装置、制御装置、および強化学習方法 Download PDFInfo
- Publication number
- JP5750657B2 JP5750657B2 JP2011074694A JP2011074694A JP5750657B2 JP 5750657 B2 JP5750657 B2 JP 5750657B2 JP 2011074694 A JP2011074694 A JP 2011074694A JP 2011074694 A JP2011074694 A JP 2011074694A JP 5750657 B2 JP5750657 B2 JP 5750657B2
- Authority
- JP
- Japan
- Prior art keywords
- external force
- virtual external
- reinforcement learning
- output
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims description 127
- 238000000034 method Methods 0.000 title claims description 25
- 230000006870 function Effects 0.000 claims description 125
- 238000004364 calculation method Methods 0.000 claims description 46
- 230000007613 environmental effect Effects 0.000 claims description 29
- 230000033001 locomotion Effects 0.000 claims description 28
- 230000008859 change Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000009471 action Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- VIEYMVWPECAOCY-UHFFFAOYSA-N 7-amino-4-(chloromethyl)chromen-2-one Chemical compound ClCC1=CC(=O)OC2=CC(N)=CC=C21 VIEYMVWPECAOCY-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S901/00—Robots
- Y10S901/02—Arm motion controller
- Y10S901/03—Teaching system
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Description
(実施の形態1)
(実験結果)
(実施の形態2)
強化学習システムBは、制御対象1、強化学習装置3を具備する。強化学習装置3と強化学習装置2との違いは、強化学習器と仮想外力発生器とが分離しているか否かの違いである。強化学習装置3において、強化学習器と仮想外力発生器とが分離していない。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
2、3 強化学習装置
21 強化学習器
22 仮想外力発生器
23 仮想外力近似器
24 判断手段
25 切替手段
211 報酬関数格納手段
212 第一種環境パラメータ取得手段
213 制御パラメータ値算出手段
214 制御パラメータ値出力手段
221 仮想外力関数格納手段
222 第二種環境パラメータ取得手段
223 仮想外力算出手段
224 仮想外力出力手段
231 関数近似器格納手段
232 状態情報取得手段
233 選択手段
234 第二仮想外力算出手段
235 差異情報算出手段
236 近似手段
237 第二仮想外力出力手段
Claims (10)
- 2点間到達運動課題における報酬を出力とする報酬関数を格納し得る報酬関数格納手段と、
移動する制御対象の環境に関する第一種のパラメータである1以上の第一種環境パラメータの値を取得する第一種環境パラメータ取得手段と、
前記1以上の第一種環境パラメータの値を前記報酬関数に代入し、当該報酬関数が出力する報酬を最大とするような1以上の制御パラメータの値を算出する制御パラメータ値算出手段と、
前記1以上の制御パラメータの値を前記制御対象に対して出力する制御パラメータ値出力手段と、
障害物を避けるための仮想的な外力である仮想外力を出力とする仮想外力関数を格納し得る仮想外力関数格納手段と、
前記仮想外力に関連する第二種のパラメータである1以上の第二種環境パラメータの値を取得する第二種環境パラメータ取得手段と、
前記1以上の第二種環境パラメータの値を前記仮想外力関数に代入し、仮想外力を算出する仮想外力算出手段と、
前記仮想外力を前記制御対象に対して出力する仮想外力出力手段とを具備する強化学習装置。 - 強化学習器と、当該強化学習器とは分離されている仮想外力発生器とを具備する請求項1記載の強化学習装置であって、
前記強化学習器は、
前記報酬関数格納手段と、前記第一種環境パラメータ取得手段と、前記制御パラメータ値算出手段と、前記制御パラメータ値出力手段とを具備し、
前記仮想外力発生器は、
前記仮想外力関数格納手段と、前記第二種環境パラメータ取得手段と、前記仮想外力算出手段と、前記仮想外力出力手段とを具備する請求項1記載の強化学習装置。 - 前記制御パラメータ値出力手段が出力する前記1以上の制御パラメータの値と、前記仮想外力出力手段が出力する前記仮想外力とが加えられて前記制御対象に与えられる請求項1または請求項2記載の強化学習装置。
- 前記強化学習装置は、仮想外力近似器をさらに具備し、
前記仮想外力近似器は、
前記第二種環境パラメータとは少なくとも一部に異なる観測可能な第三種のパラメータである2以上の第三種パラメータを有し、障害物を避けるための第二の仮想外力を出力とする関数近似器を格納し得る関数近似器格納手段と、
前記制御対象を観測し、当該制御対象の状態に関する情報である1以上の状態情報を取得する状態情報取得手段と、
前記状態情報を前記関数近似器に代入し、第二の仮想外力を算出する第二仮想外力算出手段と、
前記仮想外力発生器が出力する仮想外力と前記第二の仮想外力との差異に関する情報である差異情報を算出する差異情報算出手段と、
前記差異情報が最小となるように、前記関数近似器のパラメータを更新する近似手段とを具備する請求項1から請求項3いずれか記載の強化学習装置。 - 前記差異情報が所定の条件を満たすか否かを判断する判断手段と、
前記判断手段が前記所定の条件を満たすほど、前記仮想外力発生器が出力する仮想外力と前記第二の仮想外力との差異が小さいと判断した場合に、前記制御対象に対して出力する仮想外力を、前記仮想外力発生器の出力から前記仮想外力近似器の出力へ切り替える切替手段とをさらに具備する請求項4記載の強化学習装置。 - 障害物を避けながら一の目標地点に到達する課題である2点間到達運動課題を解決する請求項1から請求項5いずれか記載の強化学習装置。
- 前記仮想外力の座標系は、
前記制御対象の特定の箇所に対する相対座標である請求項4から請求項6いずれか記載の強化学習装置。 - 前記状態情報取得手段が取得した1以上の状態情報のうち、変化が閾値より大きい1以上の状態情報を取得する選択手段をさらに具備し、
前記第二仮想外力算出手段は、
前記選択手段が取得した1以上の状態情報のみを前記関数近似器に代入し、第二の仮想外力を算出する請求項4または請求項5記載の強化学習装置。 - 請求項4から請求項8いずれか記載の強化学習装置を用いて、移動する制御対象を制御する制御装置。
- 記憶媒体に、
2点間到達運動課題における報酬を出力とする報酬関数と、
障害物を避けるための仮想的な外力である仮想外力を出力とする仮想外力関数とを格納しており、
第一種環境パラメータ取得手段、制御パラメータ値算出手段、制御パラメータ値出力手段、第二種環境パラメータ取得手段、仮想外力算出手段、および仮想外力出力手段により実現される強化学習方法であって、
前記第一種環境パラメータ取得手段が、移動する制御対象の環境に関する第一種のパラメータである1以上の第一種環境パラメータの値を取得する第一種環境パラメータ取得ステップと、
前記制御パラメータ値算出手段が、前記1以上の第一種環境パラメータの値を前記報酬関数に代入し、当該報酬関数が出力する報酬を最大とするような1以上の制御パラメータの値を算出する制御パラメータ値算出ステップと、
前記制御パラメータ値出力手段が、前記1以上の制御パラメータの値を前記制御対象に対して出力する制御パラメータ値出力ステップと、
前記第二種環境パラメータ取得手段が、前記仮想外力に関連する第二種のパラメータである1以上の第二種環境パラメータの値を取得する第二種環境パラメータ取得ステップと、
前記仮想外力算出手段が、前記1以上の第二種環境パラメータの値を前記仮想外力関数に代入し、仮想外力を算出する仮想外力算出ステップと、
前記仮想外力出力手段が、前記仮想外力を前記制御対象に対して出力する仮想外力出力ステップとを具備する強化学習方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011074694A JP5750657B2 (ja) | 2011-03-30 | 2011-03-30 | 強化学習装置、制御装置、および強化学習方法 |
US13/432,094 US8886357B2 (en) | 2011-03-30 | 2012-03-28 | Reinforcement learning apparatus, control apparatus, and reinforcement learning method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011074694A JP5750657B2 (ja) | 2011-03-30 | 2011-03-30 | 強化学習装置、制御装置、および強化学習方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012208789A JP2012208789A (ja) | 2012-10-25 |
JP2012208789A5 JP2012208789A5 (ja) | 2014-05-22 |
JP5750657B2 true JP5750657B2 (ja) | 2015-07-22 |
Family
ID=46928279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011074694A Active JP5750657B2 (ja) | 2011-03-30 | 2011-03-30 | 強化学習装置、制御装置、および強化学習方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8886357B2 (ja) |
JP (1) | JP5750657B2 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016009030B4 (de) | 2015-07-31 | 2019-05-09 | Fanuc Corporation | Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs |
JP6240689B2 (ja) | 2015-07-31 | 2017-11-29 | ファナック株式会社 | 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法 |
JP6106226B2 (ja) * | 2015-07-31 | 2017-03-29 | ファナック株式会社 | ゲインの最適化を学習する機械学習装置及び機械学習装置を備えた電動機制御装置並びに機械学習方法 |
JP6522488B2 (ja) * | 2015-07-31 | 2019-05-29 | ファナック株式会社 | ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法 |
US10839302B2 (en) | 2015-11-24 | 2020-11-17 | The Research Foundation For The State University Of New York | Approximate value iteration with complex returns by bounding |
JP6733239B2 (ja) * | 2016-03-18 | 2020-07-29 | セイコーエプソン株式会社 | 制御装置及びロボットシステム |
JP2017199077A (ja) * | 2016-04-25 | 2017-11-02 | ファナック株式会社 | 複数台の産業機械を有する生産システムの動作を最適化するセルコントローラ |
CN106886451B (zh) * | 2017-01-10 | 2020-10-27 | 广东石油化工学院 | 一种基于虚拟化容器技术的多工作流任务分配方法 |
JP6453919B2 (ja) * | 2017-01-26 | 2019-01-16 | ファナック株式会社 | 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム |
JP6706223B2 (ja) * | 2017-05-25 | 2020-06-03 | 日本電信電話株式会社 | 移動体制御方法、移動体制御装置、及びプログラム |
JP6748135B2 (ja) * | 2018-03-19 | 2020-08-26 | ファナック株式会社 | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 |
JP7131087B2 (ja) * | 2018-05-31 | 2022-09-06 | セイコーエプソン株式会社 | ロボットシステムの制御方法およびロボットシステム |
US11403513B2 (en) * | 2018-09-27 | 2022-08-02 | Deepmind Technologies Limited | Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy |
CN109711040B (zh) * | 2018-12-25 | 2023-06-02 | 南京天洑软件有限公司 | 一种基于搜索方向学习的智能工业设计强化学习算法 |
JP7180696B2 (ja) * | 2019-01-30 | 2022-11-30 | 日本電気株式会社 | 制御装置、制御方法およびプログラム |
JP7379833B2 (ja) * | 2019-03-04 | 2023-11-15 | 富士通株式会社 | 強化学習方法、強化学習プログラム、および強化学習システム |
JP7225923B2 (ja) | 2019-03-04 | 2023-02-21 | 富士通株式会社 | 強化学習方法、強化学習プログラム、および強化学習システム |
US20220197230A1 (en) * | 2019-05-22 | 2022-06-23 | Nec Corporation | Operation rule determination device, operation rule determination method, and recording medium |
US11676064B2 (en) * | 2019-08-16 | 2023-06-13 | Mitsubishi Electric Research Laboratories, Inc. | Constraint adaptor for reinforcement learning control |
CN110496377B (zh) * | 2019-08-19 | 2020-07-28 | 华南理工大学 | 一种基于强化学习的虚拟乒乓球手击球训练方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4587738B2 (ja) * | 2003-08-25 | 2010-11-24 | ソニー株式会社 | ロボット装置及びロボットの姿勢制御方法 |
JP4929449B2 (ja) * | 2005-09-02 | 2012-05-09 | 国立大学法人横浜国立大学 | 強化学習装置および強化学習方法 |
US8458715B1 (en) * | 2007-02-23 | 2013-06-04 | Hrl Laboratories, Llc | System for allocating resources to optimize transition from a current state to a desired state |
-
2011
- 2011-03-30 JP JP2011074694A patent/JP5750657B2/ja active Active
-
2012
- 2012-03-28 US US13/432,094 patent/US8886357B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20120253514A1 (en) | 2012-10-04 |
US8886357B2 (en) | 2014-11-11 |
JP2012208789A (ja) | 2012-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5750657B2 (ja) | 強化学習装置、制御装置、および強化学習方法 | |
JP2012208789A5 (ja) | ||
CN108873768B (zh) | 任务执行***及方法、学习装置及方法、以及记录介质 | |
CN112428278B (zh) | 机械臂的控制方法、装置及人机协同模型的训练方法 | |
US9387589B2 (en) | Visual debugging of robotic tasks | |
US11745355B2 (en) | Control device, control method, and non-transitory computer-readable storage medium | |
JP2019529135A (ja) | ロボット操作のための深層強化学習 | |
US9361590B2 (en) | Information processing apparatus, information processing method, and program | |
Xu et al. | Visual-haptic aid teleoperation based on 3-D environment modeling and updating | |
JP7295421B2 (ja) | 制御装置及び制御方法 | |
JP6321905B2 (ja) | 関節システムの制御方法、記憶媒体、制御システム | |
US11494632B1 (en) | Generating simulated training examples for training of machine learning model used for robot control | |
US11790042B1 (en) | Mitigating reality gap through modification of simulated state data of robotic simulator | |
RU2308762C2 (ru) | Перемещение виртуального объекта в виртуальной окружающей среде без взаимных помех между его сочлененными элементами | |
CN114041828B (zh) | 超声扫查控制方法、机器人及存储介质 | |
Richter et al. | Motion scaling solutions for improved performance in high delay surgical teleoperation | |
JP7180696B2 (ja) | 制御装置、制御方法およびプログラム | |
JP7263987B2 (ja) | 制御装置、制御方法、及び制御プログラム | |
US20240054393A1 (en) | Learning Device, Learning Method, Recording Medium Storing Learning Program, Control Program, Control Device, Control Method, and Recording Medium Storing Control Program | |
CN114080304B (zh) | 控制装置、控制方法及控制程序 | |
US20220193906A1 (en) | User Interface for Supervised Autonomous Grasping | |
JP2006155559A (ja) | 経路計画装置 | |
El-Fakdi et al. | Two steps natural actor critic learning for underwater cable tracking | |
JPWO2020138436A1 (ja) | ロボット制御装置、ロボットシステム及びロボット制御方法 | |
US20240058961A1 (en) | Path generation device, path generation method, and path generation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140314 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140314 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150304 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150401 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150413 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5750657 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |