JP5528214B2 - 学習制御システム及び学習制御方法 - Google Patents
学習制御システム及び学習制御方法 Download PDFInfo
- Publication number
- JP5528214B2 JP5528214B2 JP2010122796A JP2010122796A JP5528214B2 JP 5528214 B2 JP5528214 B2 JP 5528214B2 JP 2010122796 A JP2010122796 A JP 2010122796A JP 2010122796 A JP2010122796 A JP 2010122796A JP 5528214 B2 JP5528214 B2 JP 5528214B2
- Authority
- JP
- Japan
- Prior art keywords
- action
- state
- reward
- event list
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 83
- 230000009471 action Effects 0.000 claims description 168
- 238000007726 management method Methods 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 37
- 230000002787 reinforcement Effects 0.000 claims description 32
- 230000006399 behavior Effects 0.000 claims description 26
- 230000010391 action planning Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 description 63
- 238000004088 simulation Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000007704 transition Effects 0.000 description 11
- 230000010365 information processing Effects 0.000 description 7
- 230000010485 coping Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Landscapes
- Manipulator (AREA)
Description
つぎに、イベント・リスト学習制御システム100の構成について説明する。図1に示すように、イベント・リスト学習制御システム100は、イベント・リスト管理部101、一時的リスト記憶部103、イベント・リスト・データベース105、イベント・リスト学習制御部107及び行動計画部108を含む。
Claims (2)
- 報酬を得た直前の状態・行動対及び報酬を得たときの状態に至る、一連の状態・行動対の集合をイベント・リストとして、複数のイベント・リストを保持するイベント・リスト・データベースと、
状態・行動対を、前記複数のイベント・リストに分類して該イベント・リスト・データベースに記憶させるイベント・リスト管理部と、
各イベント・リストの要素である状態・行動対の報酬期待値を更新するイベント・リスト学習制御部と、
該イベント・リスト・データベースのイベント・リストを使用して第1の行動価値関数を求める行動計画部と、
強化学習に基づいて第2の行動価値関数を求める強化学習部と、
該行動計画部から受け取った第1の行動価値関数及び該強化学習部から受け取った第2の行動価値関数に基づいて行動を選択する行動選択部と、
を備え、
前記イベント・リスト管理部は、観測された状態、行動、及び報酬を、それぞれ、一の報酬を得た直前の時刻における状態と、当該状態に対してとった行動と、当該行動の結果生じた、当該報酬を得たときの状態と、で構成される集合で表された状態行動連鎖に、当該状態行動連鎖に至るまでの一連の状態・行動対の集合を対応付けて構成したリストを一のイベント・リストとして分類し、当該一のイベント・リストを前記一の報酬に対応付けて、前記イベント・リスト・データベースに記憶させ、
前記第1及び第2の行動価値関数は、それぞれ、前記行動計画部及び前記強化学習部が決定した行動を実行したならば現在から将来にわたって得られるであろう報酬の期待値を表すものであり、
前記第1の行動価値関数は、一の時刻における状態に対し当該一の時刻においてとった行動に起因してその後の他の時刻において得られる報酬の期待値である報酬期待値を、複数の前記他の時刻にわたって重みづけ加算した値として定義され、
前記報酬期待値は、前記一の時刻における状態に対し当該一の時刻においてとった行動に起因してその後の他の時刻において一の状態行動連鎖を経て報酬が得られる確率を、複数の前記他の時刻にわたって重みづけ加算した値である部分距離期待値と、前記一の時刻における状態に対し当該一の時刻においてとった行動に起因してその後の他の時刻において前記一の状態行動連鎖を経て一の報酬が得られる期待値を、当該一の状態行動連鎖を経て得られるすべての報酬について重みづけ加算した値である部分報酬期待値と、の積を、与えられた目標状態に至るまでの経路を構成する一の前記状態行動連鎖のセットについて加算した値として算出される、
学習制御システム。 - 報酬を得た直前の状態・行動対及び報酬を得たときの状態に至る、一連の状態・行動対の集合をイベント・リストとして、複数のイベント・リストを保持するイベント・リスト・データベースと、イベント・リスト管理部と、イベント・リスト学習制御部と、行動計画部と、強化学習部と、行動選択部と、を備えた学習制御システムによって、学習を行なって行動を選択する学習制御方法であって、
該イベント・リスト管理部が、状態・行動対を、前記複数のイベント・リストに分類して該イベント・リスト・データベースに記憶させるステップと、
該イベント・リスト学習制御部が、各イベント・リストの要素である状態・行動対の報酬期待値を更新するステップと、
該行動計画部が、該イベント・リスト・データベースのイベント・リストを使用して第1の行動価値関数を求めるステップと、
該強化学習部が、強化学習に基づいて第2の行動価値関数を求めるステップと、
該行動選択部が、該行動計画部から受け取った第1の行動価値関数及び該強化学習部から受け取った第2の行動価値関数に基づいて行動を選択するステップと、
を含み、
前記記憶させるステップでは、観測された状態、行動、及び報酬を、それぞれ、一の報酬を得た直前の時刻における状態と、当該状態に対してとった行動と、当該行動の結果生じた、当該報酬を得たときの状態と、で構成される集合で表された状態行動連鎖に、当該状態行動連鎖に至るまでの一連の状態・行動対の集合を対応付けて構成したリストを一のイベント・リストとして分類し、当該一のイベント・リストを前記一の報酬に対応付けて、前記イベント・リスト・データベースに記憶させ、
前記第1及び第2の行動価値関数は、それぞれ、前記行動計画部及び前記強化学習部が決定した行動を実行したならば現在から将来にわたって得られるであろう報酬の期待値を表すものであり、
前記第1の行動価値関数は、一の時刻における状態に対し当該一の時刻においてとった行動に起因してその後の他の時刻において得られる報酬の期待値である報酬期待値を、複数の前記他の時刻にわたって重みづけ加算した値として定義され、
前記報酬期待値は、前記一の時刻における状態に対し当該一の時刻においてとった行動に起因してその後の他の時刻において一の状態行動連鎖を経て報酬が得られる確率を、複数の前記他の時刻にわたって重みづけ加算した値である部分距離期待値と、前記一の時刻における状態に対し当該一の時刻においてとった行動に起因してその後の他の時刻において前記一の状態行動連鎖を経て一の報酬が得られる期待値を、当該一の状態行動連鎖を経て得られるすべての報酬について重みづけ加算した値である部分報酬期待値と、の積を、目標状態に至るまでの経路を構成する一の前記状態行動連鎖のセットについて加算した値として算出される、
学習制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010122796A JP5528214B2 (ja) | 2010-05-28 | 2010-05-28 | 学習制御システム及び学習制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010122796A JP5528214B2 (ja) | 2010-05-28 | 2010-05-28 | 学習制御システム及び学習制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011248728A JP2011248728A (ja) | 2011-12-08 |
JP5528214B2 true JP5528214B2 (ja) | 2014-06-25 |
Family
ID=45413888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010122796A Expired - Fee Related JP5528214B2 (ja) | 2010-05-28 | 2010-05-28 | 学習制御システム及び学習制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5528214B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016009030B4 (de) | 2015-07-31 | 2019-05-09 | Fanuc Corporation | Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs |
JP6240689B2 (ja) * | 2015-07-31 | 2017-11-29 | ファナック株式会社 | 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法 |
CN109641354B (zh) * | 2016-08-30 | 2022-08-05 | 本田技研工业株式会社 | 机器人的控制装置和机器人的控制方法 |
JP6691077B2 (ja) | 2017-08-18 | 2020-04-28 | ファナック株式会社 | 制御装置及び機械学習装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11231897A (ja) * | 1998-02-12 | 1999-08-27 | Hitachi Ltd | 音声認識装置及び方法 |
JP2002133390A (ja) * | 2000-10-18 | 2002-05-10 | Matsushita Electric Ind Co Ltd | 学習装置および記録媒体 |
JP4687732B2 (ja) * | 2008-03-13 | 2011-05-25 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP5079602B2 (ja) * | 2008-06-09 | 2012-11-21 | 日本電信電話株式会社 | 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法 |
JP5398414B2 (ja) * | 2008-09-18 | 2014-01-29 | 本田技研工業株式会社 | 学習システム及び学習方法 |
-
2010
- 2010-05-28 JP JP2010122796A patent/JP5528214B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011248728A (ja) | 2011-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Context-aware dynamics model for generalization in model-based reinforcement learning | |
US20220043972A1 (en) | Answer generating device, answer learning device, answer generating method, and answer generating program | |
EP3711000B1 (en) | Regularized neural network architecture search | |
US8290883B2 (en) | Learning system and learning method comprising an event list database | |
JP7247878B2 (ja) | 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム | |
Csordás et al. | The neural data router: Adaptive control flow in transformers improves systematic generalization | |
JP5346701B2 (ja) | 学習制御システム及び学習制御方法 | |
WO2018125337A2 (en) | Automated generation of workflows | |
CN114641779A (zh) | 机器学习模型的对抗训练 | |
JP5528214B2 (ja) | 学習制御システム及び学習制御方法 | |
KR102203252B1 (ko) | 생성적 적대 신경망에 기반한 협업 필터링을 위한 방법 및 시스템 | |
Fan et al. | Interactive reinforcement learning for feature selection with decision tree in the loop | |
JP2017182320A (ja) | 機械学習装置 | |
CN112508177A (zh) | 一种网络结构搜索方法、装置、电子设备及存储介质 | |
Zhang et al. | Deep incremental rnn for learning sequential data: A lyapunov stable dynamical system | |
Saini et al. | Machine learning-based incremental learning in interactive domain modelling | |
Ada et al. | Generalization in transfer learning | |
WO2020044414A1 (ja) | 仮説推論装置、仮説推論方法、及びコンピュータ読み取り可能な記録媒体 | |
JP5910957B2 (ja) | 言語入力により自律的に知識体系を構築する人工知能装置 | |
Xiao | Using machine learning for exploratory data analysis and predictive models on large datasets | |
CN111783980B (zh) | 基于双重协作生成式对抗网络的排序学习方法 | |
JP6844565B2 (ja) | ニューラルネットワーク装置及びプログラム | |
Pedersen et al. | Minimal neural network models for permutation invariant agents | |
Panou et al. | DeepFoldit--A Deep Reinforcement Learning Neural Network Folding Proteins | |
JP2022045731A (ja) | 情報処理装置、情報処理システムおよび情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131022 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5528214 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |