JP4929449B2 - 強化学習装置および強化学習方法 - Google Patents
強化学習装置および強化学習方法 Download PDFInfo
- Publication number
- JP4929449B2 JP4929449B2 JP2005254763A JP2005254763A JP4929449B2 JP 4929449 B2 JP4929449 B2 JP 4929449B2 JP 2005254763 A JP2005254763 A JP 2005254763A JP 2005254763 A JP2005254763 A JP 2005254763A JP 4929449 B2 JP4929449 B2 JP 4929449B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- complex
- value function
- action
- function value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Feedback Control In General (AREA)
Description
強化学習法についての改良、応用は数多くあり、例えば、基本アルゴリズムに関して言えば、学習における連続状態空間の扱いや、学習速度向上を目指した研究開発が行われている。例えば、[3]エージェント学習装置(科学技術振興事業団、特許文献1)がある。
状態siから行動aiをとって状態si+1へと遷移し報酬rを受け取ったときの、複素Q値の更新則を数1のように定義する。
ここでは、Max−Boltzmann選択を用いる。すなわち、状態siに居るエージェントは、確率1−PmaxでBoltzmann選択を行い、確率PmaxでGreedy方策を行うことにする。
状態si、行動aiに対応する複素Q値を複素Q(si,ai)とする。また、状態siにおける行動aのBoltzmannの選択確率をProb(si,a)とする。状態siにおける行動集合をA(si)、直前の状態と行動に対応する複素Q値を複素Q(si−1,ai−1)、Boltzmann選択の温度パラメーターをTとするとき、Prob(si,a)を数6のように定める。
図2のような簡単なグリッドワールドにおける迷路問題を対象として計算機実験を行い、提案手法の有効性を確認する。
エージェントが観測可能な情報は、東西南北周囲4マスの壁の有無のみとし、この情報を直接状態として割り当てることにする。すなわち観測可能な状態数は24=16となる。これらの環境において不完全知覚の影響のある状態が存在する。例えば、アスタリスク
*においてはそれぞれにおいて選択すべき行動が異なり、**においては同じ行動をとらなければならない。エージェントが任意の状態において選択することができる行動は、壁のない方向に進むのみとする。すなわち、行動集合A={東、西、南、北}の空集合でない部分集合とする。
エージェントは、ゴールにたどり着くと環境から報酬r=100を受け取り、初期状態であるスタートに再配置されるものとした。エージェントの行動1ステップごとに負の報酬を与えることや、ゴールにたどり着くのにかかったステップ数に応じて報酬を変えることなど、早くゴールにたどり着く学習を助長するような報酬の与え方はしない。
試行数100を3つのフェーズに分け、それぞれについてパラメータの設定を行った。ステップごとに変化するパラメータについては表1のように設定し、それ以外のパラメータについては各フェーズにおいて共通とし、β=0.9exp(jπ/6)、γ=0.999、T=3000、Ne=1とした。ただし、j2=−1である。
計算機実験の結果を図3に示す。この結果は100試行を1学習として100学習行い、収束したものに関しての平均である。
maze1、maze2においては100%が収束し、maze3においては95%が収束した。本計算機実験ではmaze1、maze2において100%が最短経路を実現するような方策を獲得した。
いずれの場合も、問題を自律的に解決する行動が獲得できており、本発明による不完全知覚問題の解決の効果が示されている。
不完全知覚問題は強化学習の基本的問題であり、本発明によりこれが解決されれば環境同定型学習の多くの問題点が自ずから解消し、廉価なセンサを有するロボットで自立移動学習が可能になる。本発明の実装は廉価容易であり、経済的な効果は大きい。さらに不完全知覚問題はマルチエージェント系など多数の学習主体の同時学習でも現れる問題であり、本発明はマルチロボットや多点探査アルゴリズムなど、集団としての効率的な学習を要求される用途にも有効に使用できる。
Claims (4)
- 状態と行動の対に対して価値関数値を決定し保持する価値関数値保持部と、
前記価値関数保持部から渡される価値関数値集合の中から1つの値を選択し、選択した値を基に行動を選択する行動選択部と、
状態が遷移した時に価値関数値を更新する価値関数値更新部と、
を有し、
前記価値関数値は複素数であり、
前記価値関数値更新部は、前記価値関数値の更新式において、直前の行動の複素価値関数値との位相差を考慮して複素価値関数値を更新する
強化学習装置。 - 前記行動選択部は、前記選択した価値関数値と、前記直前の行動の複素価値関数値を基に算出された複素ベクトルの共役複素数との積の実部を使用して行動を選択する
請求項1に記載の強化学習装置。 - 前記強化学習装置における強化学習方法として、Qラーニング法を用い、
前記価値関数値更新部は、前記価値関数値の更新式において、適格度トレースアルゴリズムを使用する
請求項1又は2に記載の強化学習装置。 - 価値関数値保持部と、行動選択部と、価値関数値更新部と、を有する強化学習装置の強化学習方法であって、
前記価値関数値保持部が、状態と行動の対に対して価値関数値を決定し保持する第1のステップと、
前記行動選択部が、前記価値関数保持部から渡される価値関数値集合の中から1つの値を選択し、選択した値を基に行動を選択する第2のステップと、
前記価値関数値更新部が、状態が遷移した時に価値関数値を更新する第3のステップと、
を有し、
前記第1のステップにおいて、前記価値関数値保持部が決定する価値関数値は複素数であって、
前記第3のステップにおいて、前記価値関数値更新部は、前記価値関数値の更新式において、直前の行動の複素価値関数値との位相差を考慮して複素価値関数値を更新する
強化学習装置の強化学習方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005254763A JP4929449B2 (ja) | 2005-09-02 | 2005-09-02 | 強化学習装置および強化学習方法 |
US12/065,558 US8175982B2 (en) | 2005-09-02 | 2006-08-18 | Value function representation method of reinforcement learning and apparatus using this |
PCT/JP2006/316659 WO2007029516A1 (ja) | 2005-09-02 | 2006-08-18 | 強化学習の価値関数表現方法およびこれを用いた装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005254763A JP4929449B2 (ja) | 2005-09-02 | 2005-09-02 | 強化学習装置および強化学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007066242A JP2007066242A (ja) | 2007-03-15 |
JP4929449B2 true JP4929449B2 (ja) | 2012-05-09 |
Family
ID=37835639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005254763A Active JP4929449B2 (ja) | 2005-09-02 | 2005-09-02 | 強化学習装置および強化学習方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8175982B2 (ja) |
JP (1) | JP4929449B2 (ja) |
WO (1) | WO2007029516A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120203669A1 (en) * | 2011-02-03 | 2012-08-09 | Prudsys Ag | Method for Determing a Dynamic Bundle Price for a Group of Sales Products and a Computer Program Product |
JP5750657B2 (ja) | 2011-03-30 | 2015-07-22 | 株式会社国際電気通信基礎技術研究所 | 強化学習装置、制御装置、および強化学習方法 |
US11173613B2 (en) * | 2017-02-09 | 2021-11-16 | Mitsubishi Electric Corporation | Position control device and position control method |
US11494641B2 (en) | 2017-12-27 | 2022-11-08 | Intel Corporation | Reinforcement learning for human robot interaction |
CN109523029B (zh) * | 2018-09-28 | 2020-11-03 | 清华大学深圳研究生院 | 自适应双自驱动深度确定性策略梯度强化学习方法 |
US11393341B2 (en) * | 2019-02-26 | 2022-07-19 | Beijing Didi Infinity Technology And Development Co., Ltd. | Joint order dispatching and fleet management for online ride-sharing platforms |
CN110333739B (zh) * | 2019-08-21 | 2020-07-31 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
JP7334784B2 (ja) | 2019-08-22 | 2023-08-29 | 日本電気株式会社 | ロボット制御システム、ロボット制御方法、及び、プログラム |
KR102624732B1 (ko) * | 2021-04-21 | 2024-01-11 | 경북대학교 산학협력단 | 실내 네비게이션 서비스 방법 및 장치 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0981205A (ja) | 1995-09-11 | 1997-03-28 | Fujitsu Ltd | 学習システム |
JP3086206B2 (ja) | 1998-07-17 | 2000-09-11 | 科学技術振興事業団 | エージェント学習装置 |
US20020107822A1 (en) * | 2000-07-06 | 2002-08-08 | Helmick Joseph Dale | Uncertain and complex system teaches neural networks |
AU2003260047A1 (en) * | 2002-08-29 | 2004-03-19 | Paul Rudolf | Associative memory device and method based on wave propagation |
US20110099130A1 (en) * | 2003-07-16 | 2011-04-28 | Massachusetts Institute Of Technology | Integrated learning for interactive synthetic characters |
JP3703822B2 (ja) | 2003-09-02 | 2005-10-05 | 株式会社国際電気通信基礎技術研究所 | 内部変数推定装置、内部変数推定方法及び内部変数推定プログラム |
-
2005
- 2005-09-02 JP JP2005254763A patent/JP4929449B2/ja active Active
-
2006
- 2006-08-18 US US12/065,558 patent/US8175982B2/en not_active Expired - Fee Related
- 2006-08-18 WO PCT/JP2006/316659 patent/WO2007029516A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2007029516A1 (ja) | 2007-03-15 |
US20090234783A1 (en) | 2009-09-17 |
US8175982B2 (en) | 2012-05-08 |
JP2007066242A (ja) | 2007-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4929449B2 (ja) | 強化学習装置および強化学習方法 | |
Bohez et al. | Value constrained model-free continuous control | |
Marthi | Automatic shaping and decomposition of reward functions | |
CN107844460B (zh) | 一种基于p-maxq的多水下机器人的围捕方法 | |
US11759947B2 (en) | Method for controlling a robot device and robot device controller | |
JP2019087096A (ja) | 行動決定システム及び自動運転制御装置 | |
JP2006320997A (ja) | ロボット行動選択装置及びロボット行動選択方法 | |
KR102159880B1 (ko) | 메타 인지 기반 고속 환경 탐색 방법 및 장치 | |
KR20230028501A (ko) | 보상 예측 모델을 사용하여 로봇 제어를 위한 오프라인 학습 | |
JP4699598B2 (ja) | 問題解決器として動作するデータ処理装置、及び記憶媒体 | |
KR20220154785A (ko) | 다중 태스크 강화 학습에서 메타-그래디언트를 사용한 액션 선택을 위한 학습 옵션 | |
JP2010092247A (ja) | 制御器、制御方法及び制御プログラム | |
Zhao et al. | Ensemble-based offline-to-online reinforcement learning: From pessimistic learning to optimistic exploration | |
CN114529010A (zh) | 一种机器人自主学习方法、装置、设备及存储介质 | |
JP2005078516A (ja) | 並列学習装置、並列学習方法及び並列学習プログラム | |
US20150149398A1 (en) | Method and apparatus for decision migration in a multi-component robot | |
Schut et al. | Reasoning about intentions in uncertain domains | |
JP2001510608A (ja) | 非直線ニューラル予測制御装置 | |
Bekhtaoui et al. | Maneuvering target tracking using q-learning based Kalman filter | |
JPH0981205A (ja) | 学習システム | |
Contardo et al. | Learning states representations in pomdp | |
JPWO2022091261A5 (ja) | ||
CN112183766A (zh) | 学习方法及记录介质 | |
JP2009245195A (ja) | 自律移動ロボット及びその障害物識別方法 | |
Shen et al. | An adaptive approach for the exploration-exploitation dilemma in non-stationary environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20080131 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080319 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080901 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120117 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |