JP6591672B2 - デュエリングディープニューラルネットワーク - Google Patents
デュエリングディープニューラルネットワーク Download PDFInfo
- Publication number
- JP6591672B2 JP6591672B2 JP2018524773A JP2018524773A JP6591672B2 JP 6591672 B2 JP6591672 B2 JP 6591672B2 JP 2018524773 A JP2018524773 A JP 2018524773A JP 2018524773 A JP2018524773 A JP 2018524773A JP 6591672 B2 JP6591672 B2 JP 6591672B2
- Authority
- JP
- Japan
- Prior art keywords
- action
- value
- estimate
- observation
- advantage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Description
Claims (18)
- 環境と相互作用するエージェントによって実行されるべきアクションをアクションのセットから選択するシステムであって、前記システムは、
1つまたは複数のコンピュータによって実装されたデュエリングディープニューラルネットワークを備え、前記デュエリングディープニューラルネットワークは、
前記環境の現在の状態を特徴付けるオブザーベーションの表現を受信し、
前記オブザーベーションの前記表現を処理して、バリュー推定を生成するように構成された
バリューサブネットワークであって、前記バリュー推定が、前記現在の状態にある前記環境によって生じる、予想されるリターンの推定である、バリューサブネットワークと、
前記オブザーベーションの前記表現を受信し、
前記オブザーベーションの前記表現を処理して、前記環境が前記現在の状態にある場合に前記エージェントが他のアクションを実行することによって生じるリターンと比較して、前記環境が前記現在の状態にある場合に前記エージェントがアクションを実行することによって生じるリターンの相対的な測定の推定である、前記アクションのセットの中の各アクションに対する各アドバンテージ推定を生成するように構成された
アドバンテージサブネットワークと、
各アクションに対して、前記バリュー推定および前記アクションに対する前記各アドバンテージ推定を結合して、前記アクションに対する各Q値を生成するように構成された結合層であって、前記各Q値は、前記環境が前記現在の状態にある場合に前記エージェントが前記アクションを実行することによって生じる、予想されるリターンの推定である、結合層とを備える、システム。 - 前記システムは、1つまたは複数の第2のコンピュータと、前記1つまたは複数の第2のコンピュータに実行された場合に、前記1つまたは複数の第2のコンピュータに以下の動作を実行させる命令を記憶する1つまたは複数の記憶装置とを備え、前記動作は、
前記アクションのセットの中の前記アクションに対する前記各Q値を使用して、前記オブザーベーションに応答して前記エージェントによって実行されるべきアクションを選択するステップを含む、請求項1のシステム。 - 前記デュエリングディープニューラルネットワークは、
前記オブザーベーションを受信し、
前記オブザーベーションを処理して、前記オブザーベーションの前記表現を生成するように構成された
1つまたは複数の初期ニューラルネットワーク層をさらに含む、請求項2のシステム。 - 前記オブザーベーションは、画像であり、前記1つまたは複数の初期ニューラルネットワーク層は、畳み込みニューラルネットワーク層である、請求項3のシステム。
- 前記オブザーベーションの前記表現は、前記オブザーベーションである、請求項1〜4の何れか一項に記載のシステム。
- 前記バリュー推定および前記各アドバンテージ推定を結合することは、
前記アクションのセットの中の前記アクションに対する前記各アドバンテージ推定の中心傾向の測定を決定することと、
前記中心傾向の測定を使用して前記アクションに対する前記各アドバンテージ推定を調整することによって、前記アクションに対する各調整済みアドバンテージ推定を決定することと、
前記アクションに対する前記各アドバンテージ推定、および前記バリュー推定を結合して、前記アクションに対する前記各Q値を決定することとを含む、請求項1〜5の何れか一項に記載のシステム。 - 前記バリューサブネットワークは、パラメータの第1のセットを有し、前記アドバンテージサブネットワークは、別のパラメータの第2のセットを有する、請求項1〜6の何れか一項に記載のシステム。
- 前記アクションのセットの中の前記アクションに対する前記各Q値を使用して、前記オブザーベーションに応答して前記エージェントによって実行されるべきアクションを選択することは、
最も高いQ値を有するアクションを、前記エージェントによって実行されるべきアクションとして選択することを含む、請求項2〜7の何れか一項に記載のシステム。 - 前記アクションのセットの中の前記アクションに対する前記各Q値を使用して、前記オブザーベーションに応答して前記エージェントによって実行されるべきアクションを選択することは、
確率εにより、前記アクションのセットからランダムアクションを選択することと、
確率1-εにより、最も高いQ値を有するアクションを選択することとを含む、請求項2〜8の何れか一項に記載のシステム。 - バリューサブネットワークおよびアドバンテージサブネットワークを備えたデュエリングディープニューラルネットワークを使用して、環境と相互作用するエージェントによって実行されるべきアクションをアクションのセットから選択する方法であって、前記方法は、
前記環境の現在の状態を特徴付けるオブザーベーションの表現を取得するステップと、
前記バリューサブネットワークを使用して、前記オブザーベーションの前記表現を処理するステップであって、前記バリューサブネットワークは、
前記オブザーベーションの前記表現を受信し、
前記オブザーベーションの前記表現を処理して、バリュー推定を生成するように構成され、前記バリュー推定は、前記環境が前記現在の状態にあることによって生じる、予想されるリターンの推定である、ステップと、
前記アドバンテージサブネットワークを使用して、前記オブザーベーションの前記表現を処理するステップであって、前記アドバンテージサブネットワークは、
前記オブザーベーションの前記表現を受信し、
前記オブザーベーションの前記表現を処理して、前記環境が前記現在の状態にある場合に前記エージェントが他のアクションを実行することによって生じるリターンと比較して、前記環境が前記現在の状態にある場合にエージェントがアクションを実行することによって生じるリターンの相対的な測定の推定である、前記アクションのセットの中の各アクションに対する各アドバンテージ推定を生成するように構成される、ステップと、
各アクションに対して、前記アクションに対する各Q値を生成するために、前記バリュー推定および前記アクションに対する前記各アドバンテージ推定を結合するステップであって、前記各Q値は、前記環境が前記現在の状態にある場合にエージェントが前記アクションを実行することによって生じる、予想されるリターンの推定である、ステップと、
前記アクションのセットの中の前記アクションに対する前記各Q値を使用して、前記オブザーベーションに応答して前記エージェントによって実行されるべきアクションを選択するステップと、を含む方法。 - 前記デュエリングディープニューラルネットワークは、1つまたは複数の初期ニューラルネットワーク層をさらに含み、前記方法は、
前記1つまたは複数の初期ニューラルネットワーク層を使用して、前記オブザーベーションを処理するステップをさらに含み、前記1つまたは複数の初期ニューラルネットワーク層は、
前記オブザーベーションを受信し、
前記オブザーベーションを処理して、前記オブザーベーションの前記表現を生成するように構成される、請求項10に記載の方法。 - 前記オブザーベーションは、画像であり、前記1つまたは複数の初期ニューラルネットワーク層は、畳み込みニューラルネットワーク層である、請求項11に記載の方法。
- 前記オブザーベーションの前記表現は、前記オブザーベーションである、請求項10〜12の何れか一項に記載の方法。
- 前記バリュー推定および前記各アドバンテージ推定を結合するステップは、
前記アクションのセットの中の前記アクションに対する前記各アドバンテージ推定の中心傾向の測定を決定するステップと、
前記中心傾向の測定を使用して前記アクションに対する前記各アドバンテージ推定を調整することによって、前記アクションに対する各調整済みアドバンテージ推定を決定するステップと、
前記アクションに対する前記各Q値を決定するために、前記アクションに対する前記各アドバンテージ推定、および前記バリュー推定を結合するステップとを含む、請求項10〜13の何れか一項に記載の方法。 - 前記バリューサブネットワークは、パラメータの第1のセットを有し、前記アドバンテージサブネットワークは、別のパラメータの第2のセットを有する、請求項10〜14の何れか一項に記載の方法。
- 前記アクションのセットの中の前記アクションに対する前記各Q値を使用して、前記オブザーベーションに応答して前記エージェントによって実行されるべきアクションを選択するステップは、
最も高いQ値を有するアクションを、前記エージェントによって実行されるべきアクションとして選択するステップを含む、請求項10〜15の何れか一項に記載の方法。 - 前記アクションのセットの中の前記アクションに対する前記各Q値を使用して、前記オブザーベーションを応答して前記エージェントによって実行されるべきアクションを選択するステップは、
確率εにより、前記アクションのセットからランダムアクションを選択するステップと、
確率1-εにより、最も高いQ値を有するアクションを選択するステップとを含む、請求項10〜15の何れか一項に記載の方法。 - 1つまたは複数のコンピュータによって実行された場合、前記1つまたは複数のコンピュータに請求項10〜17の何れか一項に記載の方法の動作を実行させる命令が符号化されたコンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562254684P | 2015-11-12 | 2015-11-12 | |
US62/254,684 | 2015-11-12 | ||
PCT/US2016/061702 WO2017083775A1 (en) | 2015-11-12 | 2016-11-11 | Dueling deep neural networks |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018537773A JP2018537773A (ja) | 2018-12-20 |
JP6591672B2 true JP6591672B2 (ja) | 2019-10-16 |
Family
ID=57539607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018524773A Active JP6591672B2 (ja) | 2015-11-12 | 2016-11-11 | デュエリングディープニューラルネットワーク |
Country Status (6)
Country | Link |
---|---|
US (2) | US10572798B2 (ja) |
EP (1) | EP3360083B1 (ja) |
JP (1) | JP6591672B2 (ja) |
KR (1) | KR102172277B1 (ja) |
CN (1) | CN108604309B (ja) |
WO (1) | WO2017083775A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10885432B1 (en) * | 2015-12-16 | 2021-01-05 | Deepmind Technologies Limited | Selecting actions from large discrete action sets using reinforcement learning |
US11170293B2 (en) * | 2015-12-30 | 2021-11-09 | Microsoft Technology Licensing, Llc | Multi-model controller |
US10909450B2 (en) * | 2016-03-29 | 2021-02-02 | Microsoft Technology Licensing, Llc | Multiple-action computational model training and operation |
JP6728495B2 (ja) * | 2016-11-04 | 2020-07-22 | ディープマインド テクノロジーズ リミテッド | 強化学習を用いた環境予測 |
CN107367929B (zh) * | 2017-07-19 | 2021-05-04 | 北京上格云技术有限公司 | 更新q值矩阵的方法、存储介质和终端设备 |
US20210034969A1 (en) * | 2018-03-09 | 2021-02-04 | Deepmind Technologies Limited | Training an unsupervised memory-based prediction system to learn compressed representations of an environment |
JP6857332B2 (ja) * | 2018-03-13 | 2021-04-14 | オムロン株式会社 | 演算装置、演算方法、及びそのプログラム |
US11043730B2 (en) | 2018-05-14 | 2021-06-22 | Mediatek Inc. | Fan-out package structure with integrated antenna |
US20190348747A1 (en) | 2018-05-14 | 2019-11-14 | Mediatek Inc. | Innovative air gap for antenna fan out package |
US11024954B2 (en) | 2018-05-14 | 2021-06-01 | Mediatek Inc. | Semiconductor package with antenna and fabrication method thereof |
CA3103470A1 (en) | 2018-06-12 | 2019-12-19 | Intergraph Corporation | Artificial intelligence applications for computer-aided dispatch systems |
JP7048455B2 (ja) * | 2018-08-30 | 2022-04-05 | 本田技研工業株式会社 | 学習装置、シミュレーションシステム、学習方法、およびプログラム |
US10739777B2 (en) * | 2018-11-20 | 2020-08-11 | Waymo Llc | Trajectory representation in behavior prediction systems |
KR102288785B1 (ko) * | 2019-01-17 | 2021-08-13 | 어드밴스드 뉴 테크놀로지스 씨오., 엘티디. | 당사자들 사이의 전략적 상호작용에서의 전략 검색을 위한 샘플링 방식들 |
KR102166811B1 (ko) * | 2019-01-21 | 2020-10-19 | 한양대학교 산학협력단 | 심층강화학습과 운전자보조시스템을 이용한 자율주행차량의 제어 방법 및 장치 |
US20220187084A1 (en) * | 2020-07-10 | 2022-06-16 | Beijing Didi Infinity Technology And Development Co., Ltd. | Vehicle repositioning on mobility-on-demand platforms |
CN113218400B (zh) * | 2021-05-17 | 2022-04-19 | 太原科技大学 | 一种基于深度强化学习的多智能体导航算法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5608843A (en) * | 1994-08-01 | 1997-03-04 | The United States Of America As Represented By The Secretary Of The Air Force | Learning controller with advantage updating algorithm |
DE102007042440B3 (de) * | 2007-09-06 | 2009-01-29 | Siemens Ag | Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems |
CN101261634B (zh) * | 2008-04-11 | 2012-11-21 | 哈尔滨工业大学深圳研究生院 | 基于增量Q-Learning的学习方法及*** |
JP5413831B2 (ja) * | 2009-07-17 | 2014-02-12 | 学校法人立命館 | 電力取引管理システム、管理装置、電力取引方法、及び電力取引用コンピュータプログラム |
WO2012154848A1 (en) * | 2011-05-09 | 2012-11-15 | Google Inc. | Recommending applications for mobile devices based on installation histories |
US9679258B2 (en) * | 2013-10-08 | 2017-06-13 | Google Inc. | Methods and apparatus for reinforcement learning |
US10832138B2 (en) * | 2014-11-27 | 2020-11-10 | Samsung Electronics Co., Ltd. | Method and apparatus for extending neural network |
-
2016
- 2016-11-11 KR KR1020187016564A patent/KR102172277B1/ko active IP Right Grant
- 2016-11-11 JP JP2018524773A patent/JP6591672B2/ja active Active
- 2016-11-11 CN CN201680066409.0A patent/CN108604309B/zh active Active
- 2016-11-11 EP EP16809575.0A patent/EP3360083B1/en active Active
- 2016-11-11 US US15/349,900 patent/US10572798B2/en active Active
- 2016-11-11 WO PCT/US2016/061702 patent/WO2017083775A1/en active Application Filing
-
2018
- 2018-05-11 US US15/977,913 patent/US10296825B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018537773A (ja) | 2018-12-20 |
US20180260689A1 (en) | 2018-09-13 |
US10296825B2 (en) | 2019-05-21 |
EP3360083B1 (en) | 2023-10-25 |
US20170140266A1 (en) | 2017-05-18 |
KR102172277B1 (ko) | 2020-10-30 |
KR20180091841A (ko) | 2018-08-16 |
CN108604309B (zh) | 2022-06-07 |
WO2017083775A1 (en) | 2017-05-18 |
EP3360083A1 (en) | 2018-08-15 |
US10572798B2 (en) | 2020-02-25 |
CN108604309A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6591672B2 (ja) | デュエリングディープニューラルネットワーク | |
JP6621923B2 (ja) | 優先順位付けされた経験メモリを使用したニューラルネットワークの訓練 | |
US20220284266A1 (en) | Reinforcement learning using advantage estimates | |
CN108027897B (zh) | 利用深度强化学习的连续控制 | |
CN110546653B (zh) | 使用管理者和工作者神经网络的用于强化学习的动作选择 | |
JP6667674B2 (ja) | 疑似カウントを使用する強化学習 | |
JP2018526733A (ja) | 強化学習ニューラルネットワークのトレーニング | |
CN110235149B (zh) | 神经情节控制 | |
US11875258B1 (en) | Selecting reinforcement learning actions using a low-level controller | |
WO2017201222A1 (en) | Model-free control for reinforcement learning agents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190819 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190918 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6591672 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |