JP6926218B2 - ニューラルネットワークを使用する強化学習のための行動選択 - Google Patents
ニューラルネットワークを使用する強化学習のための行動選択 Download PDFInfo
- Publication number
- JP6926218B2 JP6926218B2 JP2019546129A JP2019546129A JP6926218B2 JP 6926218 B2 JP6926218 B2 JP 6926218B2 JP 2019546129 A JP2019546129 A JP 2019546129A JP 2019546129 A JP2019546129 A JP 2019546129A JP 6926218 B2 JP6926218 B2 JP 6926218B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- action
- time step
- network
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 143
- 230000009471 action Effects 0.000 title claims description 141
- 230000002787 reinforcement Effects 0.000 title description 10
- 239000013598 vector Substances 0.000 claims description 133
- 238000000034 method Methods 0.000 claims description 98
- 230000008569 process Effects 0.000 claims description 89
- 230000000306 recurrent effect Effects 0.000 claims description 64
- 239000003795 chemical substances by application Substances 0.000 claims description 53
- 230000006399 behavior Effects 0.000 claims description 40
- 230000003542 behavioural effect Effects 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 25
- 238000004590 computer program Methods 0.000 description 14
- 230000007774 longterm Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000002349 favourable effect Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 239000002609 medium Substances 0.000 description 3
- 239000006163 transport media Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
- Feedback Control In General (AREA)
- General Factory Administration (AREA)
Description
wt=φGt
πt=Utwt
とするように構成されており、ここで、マトリクスUtの各行は時間ステップに関する行動埋め込みベクトルであり、wtは時間ステップに関する目標埋め込みベクトルであり、πtは時間ステップに関する行動スコアのベクトルである。
102 マネージャシステム
104 潜在表現ニューラルネットワーク
106 潜在表現
108 目標回帰型ニューラルネットワーク
110 初期の目標ベクトル
112 目標プールエンジン
114 最終的な目標ベクトル
116 ワーカシステム
118 中間表現
120 符号化ニューラルネットワーク
122 行動スコア回帰型ニューラルネットワーク
124 行動埋め込みベクトル
126 射影エンジン
128 調整エンジン
130 目標埋め込みベクトル
132 行動スコア
134 訓練エンジン
136 観測
138 外的報酬
140 環境
142 エージェント
144 行動
Claims (21)
- 所定の行動セットからの行動を遂行することによって環境と相互作用するエージェントが遂行する行動を選択するためのシステムであって、
複数の時間ステップの各々において、
前記時間ステップにおける前記環境の現在の状態の中間表現を受け取る工程と、
前記中間表現を潜在状態空間における前記現在の状態の潜在表現にマッピングする工程と、
目標回帰型ニューラルネットワークを使用して前記潜在表現を処理する工程であって、前記目標回帰型ニューラルネットワークが、前記潜在表現を受け取り、前記潜在表現を、前記目標回帰型ニューラルネットワークの現在の隠れ状態に従って処理して、前記時間ステップについて、目標空間における初期の目標ベクトルを生成し、前記目標回帰型ニューラルネットワークの内部状態を更新するように構成される、処理する工程と、
前記時間ステップに関する前記初期の目標ベクトルと、1つまたは複数の以前の時間ステップに関する初期の目標ベクトルとをプールして、前記時間ステップに関する最終的な目標ベクトルを生成する工程と
を行うように構成されている、マネージャニューラルネットワークサブシステムと、
前記複数の時間ステップの各々において、
前記時間ステップにおける前記環境の前記現在の状態の前記中間表現を受け取る工程と、
前記中間表現を、前記所定の行動セットの各行動に関する、埋め込み空間におけるそれぞれの行動埋め込みベクトルにマッピングする工程と、
前記時間ステップに関する前記目標空間からの前記最終的な目標ベクトルを前記埋め込み空間へ射影して目標埋め込みベクトルを生成する工程と、
前記目標埋め込みベクトルによる各行動に関する前記それぞれの行動埋め込みベクトルを調整して、前記所定の行動セットにおける各行動に関するそれぞれの行動スコアを生成する工程と
を行うように構成されている、ワーカニューラルネットワークサブシステムと、
前記複数の時間ステップの各々において、
前記時間ステップにおける前記環境の前記現在の状態を特徴付ける観測を受け取る工程と、
前記観測から前記中間表現を生成する工程と、
前記中間表現を、前記マネージャニューラルネットワークサブシステムに入力として供給して、前記時間ステップに関する前記最終的な目標ベクトルを生成する工程と、
前記中間表現および前記最終的な目標ベクトルを前記ワーカニューラルネットワークサブシステムに入力として供給して前記行動スコアを生成する工程と、
前記行動スコアを使用して、前記所定の行動セットから、前記エージェントによって前記観測に応答して遂行される行動を選択する工程と
を行うように構成されている、行動選択サブシステムと
を備える、システム。 - 前記行動を選択する工程が、最高の行動スコアを有する前記行動を選択する工程を含む、請求項1に記載のシステム。
- 前記観測から前記中間表現を生成する工程が、畳み込みニューラルネットワークを使用して前記観測を処理する工程を含む、請求項1または2に記載のシステム。
- 前記中間表現を、前記所定の行動セットの各行動に関する、埋め込み空間におけるそれぞれの行動埋め込みベクトルにマッピングする工程が、
行動スコア回帰型ニューラルネットワークを使用して前記中間表現を処理する工程であって、前記行動スコア回帰型ニューラルネットワークが、前記中間表現を受け取り、前記行動スコア回帰型ニューラルネットワークの現在の隠れ状態に従って前記中間表現を処理して、前記行動埋め込みベクトルを生成し、前記行動スコア回帰型ニューラルネットワークの前記隠れ状態を更新するように構成されている、処理する工程を含む、請求項1から3のいずれか一項に記載のシステム。 - 前記中間表現を前記現在の状態の潜在表現にマッピングする工程が、フィードフォワードニューラルネットワークを使用して前記中間表現を処理する工程を含む、請求項1から4のいずれか一項に記載のシステム。
- 前記目標空間が、前記埋め込み空間よりも大きい次元数を有する、請求項1から5のいずれか一項に記載のシステム。
- 前記目標空間の前記次元数が、前記埋め込み空間の前記次元数よりも少なくとも10倍大きい、請求項6に記載のシステム。
- 前記ワーカニューラルネットワークサブシステムが、時間割引きされた報酬の組合せを最大化する行動スコアを生成するように訓練されており、各報酬が、前記エージェントが前記選択された行動を遂行した結果として受け取られる外的報酬と、前記マネージャニューラルネットワークサブシステムによって生成された前記目標ベクトルに依拠する内的報酬との組合せである、請求項1から7のいずれか一項に記載のシステム。
- 前記マネージャニューラルネットワークサブシステムが、前記エージェントを前記潜在状態空間における有利な方向へ移動させる行動の選択を助長する行動スコアをもたらす初期の目標ベクトルを生成するように訓練されている、請求項8に記載のシステム。
- 1つまたは複数のコンピュータと、命令を記憶する1つまたは複数の記憶デバイスとを備えるシステムであって、前記命令は、前記1つまたは複数のコンピュータによって実行されたとき、前記1つまたは複数のコンピュータに、
拡張されたLSTMニューラルネットワークを実施させ、前記拡張されたLSTMニューラルネットワークは、1よりも大きい整数であるr個のサブ状態に分割される内部状態を維持するように構成されており、前記拡張されたLSTMニューラルネットワークは、時間ステップのシーケンスにおける各時間ステップにおいて、
前記時間ステップに関するネットワーク入力を受け取る工程と、
前記r個のサブ状態からあるサブ状態を選択する工程と、
LSTMニューラルネットワークを使用して前記時間ステップに関する前記選択されたサブ状態の現在の値および前記ネットワーク入力の現在の値を処理して、前記選択されたサブ状態の前記現在の値を更新し、LSTMネットワークパラメータのセットの現在の値に従って、前記時間ステップに関するネットワーク出力を生成する工程と
を行うように構成されている、
システム。 - 前記拡張されたLSTMニューラルネットワークが、前記時間ステップの各々について、
前記時間ステップに関する前記ネットワーク出力と、以前の時間ステップの所定回数までの前記ネットワーク出力とをプールして、前記時間ステップに関する最終的なネットワーク出力を生成する工程
を行うようにさらに構成されている、請求項10に記載のシステム。 - 前記ネットワーク出力をプールする工程が、前記ネットワーク出力を合計する工程を含む、請求項11に記載のシステム。
- 前記ネットワーク出力をプールする工程が、前記ネットワーク出力を平均する工程を含む、請求項11に記載のシステム。
- 前記ネットワーク出力をプールする工程が、最大のネットワーク出力を選択する工程を含む、請求項11に記載のシステム。
- 前記時間ステップが、前記時間ステップのシーケンスにおいて、前記シーケンスにおける最初の時間ステップの1から開始して前記シーケンスにおける最後の時間ステップのTまでインデックスを付けられ、各サブ状態は、1からrまでの範囲のインデックスを割り当てられ、前記r個のサブ状態からあるサブ状態を選択する工程が、
rを法とする前記時間ステップの前記インデックスと等しいインデックスを有する前記サブ状態を選択する工程
を含む、
請求項10から14のいずれか一項に記載のシステム。 - 前記LSTMニューラルネットワークが複数のLSTM層を備える、請求項10から15のいずれか一項に記載のシステム。
- LSTMニューラルネットワークを使用して前記時間ステップに関する前記選択されたサブ状態の現在の値および前記ネットワーク入力の現在の値を処理して、前記選択されたサブ状態の前記現在の値を更新し、LSTMネットワークパラメータのセットの現在の値に従って、前記時間ステップに関するネットワーク出力を生成する工程が、
前記時間ステップにおける前記ネットワーク入力を処理するために、前記LSTMニューラルネットワークの内部状態を前記選択されたサブ状態の前記現在の値に設定する工程
を含む、請求項10から16のいずれか一項に記載のシステム。 - 前記目標回帰型ニューラルネットワークが、請求項10から17のいずれか一項に記載の拡張された長短期記憶(LSTM)ニューラルネットワークである、請求項1から9のいずれか一項に記載のシステム。
- 1つまたは複数のコンピュータによって実行されたとき、前記1つまたは複数のコンピュータに、請求項1から9および18のいずれか一項に記載のシステムを実施させる命令を記憶している、1つまたは複数のコンピュータ記憶媒体。
- 請求項1から9および18のいずれか一項に記載の行動選択サブシステムによって遂行される工程を含む方法。
- 1つまたは複数のコンピュータによって実行されたとき、前記1つまたは複数のコンピュータに、請求項10から17のいずれか一項に記載の拡張されたLSTMニューラルネットワークを実施させる命令を記憶している、1つまたは複数のコンピュータ記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021127574A JP7258965B2 (ja) | 2017-02-24 | 2021-08-03 | ニューラルネットワークを使用する強化学習のための行動選択 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762463532P | 2017-02-24 | 2017-02-24 | |
US62/463,532 | 2017-02-24 | ||
PCT/EP2018/054002 WO2018153807A1 (en) | 2017-02-24 | 2018-02-19 | Action selection for reinforcement learning using neural networks |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021127574A Division JP7258965B2 (ja) | 2017-02-24 | 2021-08-03 | ニューラルネットワークを使用する強化学習のための行動選択 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020508524A JP2020508524A (ja) | 2020-03-19 |
JP6926218B2 true JP6926218B2 (ja) | 2021-08-25 |
Family
ID=61244626
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019546129A Active JP6926218B2 (ja) | 2017-02-24 | 2018-02-19 | ニューラルネットワークを使用する強化学習のための行動選択 |
JP2021127574A Active JP7258965B2 (ja) | 2017-02-24 | 2021-08-03 | ニューラルネットワークを使用する強化学習のための行動選択 |
JP2023060824A Pending JP2023093525A (ja) | 2017-02-24 | 2023-04-04 | ニューラルネットワークを使用する強化学習のための行動選択 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021127574A Active JP7258965B2 (ja) | 2017-02-24 | 2021-08-03 | ニューラルネットワークを使用する強化学習のための行動選択 |
JP2023060824A Pending JP2023093525A (ja) | 2017-02-24 | 2023-04-04 | ニューラルネットワークを使用する強化学習のための行動選択 |
Country Status (6)
Country | Link |
---|---|
US (3) | US10679126B2 (ja) |
EP (1) | EP3568810B1 (ja) |
JP (3) | JP6926218B2 (ja) |
CN (2) | CN116796791A (ja) |
DK (1) | DK3568810T3 (ja) |
WO (1) | WO2018153807A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3103470A1 (en) | 2018-06-12 | 2019-12-19 | Intergraph Corporation | Artificial intelligence applications for computer-aided dispatch systems |
KR20210011422A (ko) * | 2018-09-27 | 2021-02-01 | 딥마인드 테크놀로지스 리미티드 | 모델 없는 강화 학습을 위한 스택형 컨볼루션 장단기 메모리 |
US11455530B2 (en) * | 2018-11-20 | 2022-09-27 | Google Llc | Controlling agents using scene memory data |
US10381006B1 (en) * | 2018-11-26 | 2019-08-13 | Accenture Global Solutions Limited | Dialog management system for using multiple artificial intelligence service providers |
KR102611938B1 (ko) * | 2018-12-04 | 2023-12-08 | 구글 엘엘씨 | 신경망을 사용한 통합 회로 플로어 플랜 생성 |
US11636347B2 (en) * | 2019-01-23 | 2023-04-25 | Deepmind Technologies Limited | Action selection using interaction history graphs |
KR20210016828A (ko) * | 2019-08-05 | 2021-02-17 | 주식회사 엘지화학 | 배터리 관리 장치, 배터리 관리 방법 및 배터리 팩 |
SE1950924A1 (en) * | 2019-08-13 | 2021-02-14 | Kaaberg Johard Leonard | Improved machine learning for technical systems |
US20210089910A1 (en) * | 2019-09-25 | 2021-03-25 | Deepmind Technologies Limited | Reinforcement learning using meta-learned intrinsic rewards |
CN111245008B (zh) * | 2020-01-14 | 2021-07-16 | 香港中文大学(深圳) | 一种风场协同控制方法及装置 |
CN111487863B (zh) * | 2020-04-14 | 2022-06-17 | 东南大学 | 一种基于深度q神经网络的主动悬架强化学习控制方法 |
CN113011555B (zh) * | 2021-02-09 | 2023-01-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
WO2023217868A1 (en) * | 2022-05-11 | 2023-11-16 | Deepmind Technologies Limited | Negotiating contracts for agent cooperation in multi-agent systems |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005056185A (ja) * | 2003-08-05 | 2005-03-03 | Techno Face:Kk | 階層型エージェント学習方法およびシステム |
US20150356199A1 (en) * | 2014-06-06 | 2015-12-10 | Microsoft Corporation | Click-through-based cross-view learning for internet searches |
US10181098B2 (en) * | 2014-06-06 | 2019-01-15 | Google Llc | Generating representations of input sequences using neural networks |
FR3025344B1 (fr) * | 2014-08-28 | 2017-11-24 | Commissariat Energie Atomique | Reseau de neurones convolutionnels |
US10101786B2 (en) * | 2014-12-22 | 2018-10-16 | Intel Corporation | Holistic global performance and power management |
DK3079106T3 (da) * | 2015-04-06 | 2022-08-01 | Deepmind Tech Ltd | UDVÆLGELSE AF FORSTÆRKNINGSLÆRINGSHANDLINGER VED HJÆLP AF MÅL og OBSERVATIONER |
MX2018000942A (es) * | 2015-07-24 | 2018-08-09 | Deepmind Tech Ltd | Control continuo con aprendizaje de refuerzo profundo. |
DE202016004628U1 (de) * | 2016-07-27 | 2016-09-23 | Google Inc. | Durchqueren einer Umgebungsstatusstruktur unter Verwendung neuronaler Netze |
US20180247199A1 (en) * | 2017-02-24 | 2018-08-30 | Qualcomm Incorporated | Method and apparatus for multi-dimensional sequence prediction |
-
2018
- 2018-02-19 JP JP2019546129A patent/JP6926218B2/ja active Active
- 2018-02-19 CN CN202310839049.5A patent/CN116796791A/zh active Pending
- 2018-02-19 DK DK18705929.0T patent/DK3568810T3/da active
- 2018-02-19 EP EP18705929.0A patent/EP3568810B1/en active Active
- 2018-02-19 CN CN201880013632.8A patent/CN110546653B/zh active Active
- 2018-02-19 WO PCT/EP2018/054002 patent/WO2018153807A1/en unknown
-
2019
- 2019-07-15 US US16/511,571 patent/US10679126B2/en active Active
-
2020
- 2020-05-05 US US16/866,753 patent/US11537887B2/en active Active
-
2021
- 2021-08-03 JP JP2021127574A patent/JP7258965B2/ja active Active
-
2022
- 2022-11-30 US US18/072,175 patent/US20230090824A1/en active Pending
-
2023
- 2023-04-04 JP JP2023060824A patent/JP2023093525A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
DK3568810T3 (da) | 2023-11-13 |
JP2023093525A (ja) | 2023-07-04 |
US11537887B2 (en) | 2022-12-27 |
EP3568810A1 (en) | 2019-11-20 |
JP2020508524A (ja) | 2020-03-19 |
JP7258965B2 (ja) | 2023-04-17 |
EP3568810B1 (en) | 2023-08-16 |
US10679126B2 (en) | 2020-06-09 |
US20230090824A1 (en) | 2023-03-23 |
CN110546653A (zh) | 2019-12-06 |
CN110546653B (zh) | 2023-06-20 |
WO2018153807A1 (en) | 2018-08-30 |
JP2021185493A (ja) | 2021-12-09 |
US20200265313A1 (en) | 2020-08-20 |
CN116796791A (zh) | 2023-09-22 |
US20190340509A1 (en) | 2019-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6926218B2 (ja) | ニューラルネットワークを使用する強化学習のための行動選択 | |
JP6926203B2 (ja) | 補助タスクを伴う強化学習 | |
CN110692066B (zh) | 使用多模态输入选择动作 | |
JP6935550B2 (ja) | 強化学習を使用した環境ナビゲーション | |
JP6955105B2 (ja) | 方策オフ型アクタークリティック強化学習を使用する分散型の訓練 | |
US11741334B2 (en) | Data-efficient reinforcement learning for continuous control tasks | |
JP6917508B2 (ja) | 強化学習を用いた環境予測 | |
EP3523761B1 (en) | Recurrent environment predictors | |
WO2020152364A1 (en) | Multi-agent reinforcement learning with matchmaking policies | |
US10860895B2 (en) | Imagination-based agent neural networks | |
US11875258B1 (en) | Selecting reinforcement learning actions using a low-level controller | |
US20220366246A1 (en) | Controlling agents using causally correct environment models | |
WO2024126633A1 (en) | Training modular agent networks using layout data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190910 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190910 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201016 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210804 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6926218 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |