JP6917508B2 - 強化学習を用いた環境予測 - Google Patents
強化学習を用いた環境予測 Download PDFInfo
- Publication number
- JP6917508B2 JP6917508B2 JP2020111559A JP2020111559A JP6917508B2 JP 6917508 B2 JP6917508 B2 JP 6917508B2 JP 2020111559 A JP2020111559 A JP 2020111559A JP 2020111559 A JP2020111559 A JP 2020111559A JP 6917508 B2 JP6917508 B2 JP 6917508B2
- Authority
- JP
- Japan
- Prior art keywords
- planning
- neural network
- steps
- planning step
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007613 environmental effect Effects 0.000 title description 9
- 230000002787 reinforcement Effects 0.000 title 1
- 238000013528 artificial neural network Methods 0.000 claims description 125
- 238000000034 method Methods 0.000 claims description 53
- 230000008569 process Effects 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 18
- 230000001186 cumulative effect Effects 0.000 claims description 11
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims 3
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 description 37
- 230000006870 function Effects 0.000 description 27
- 238000012549 training Methods 0.000 description 23
- 238000004590 computer program Methods 0.000 description 15
- 238000010801 machine learning Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 8
- 238000004088 simulation Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Feedback Control In General (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
Description
vk=rk+1+γk+1rk+2+γk+1γk+2rk+3+...
ここで、vkは、計画ステップkにおける価値予測であり、riは、計画ステップiにおける予測された報酬116であり、γiは、計画ステップiにおける予測された係数118である。
gk=r1+γ1(r2+γ2(...+γk-1(rk+γkvk)...))
として決定し、ここで、gkはkステップリターンであり、riは計画ステップiの報酬であり、γiは計画ステップiの割引係数であり、vkは計画ステップkの価値予測である。
gk,λ=(1-λk)vk+λk(rk+1+γk+1gk+1,λ)、およびgK,λ=vK
であり、λ重み付けリターンgλは、g0,λとして決定される。
102 エージェント
104 行動
106 環境
108 観察
110 アグリゲート報酬
112 アキュムレータ
114 内部状態表現
116 予測された報酬
118 予測された割引係数
120 予測ニューラルネットワーク
122 状態表現ニューラルネットワーク
124 価値予測ニューラルネットワーク
126 ラムダニューラルネットワーク
128 結果
130 トレーニングエンジン
Claims (21)
- 計画ステップのシーケンスにわたって報酬および価値予測をアグリゲートすることによってタスクを遂行するために、エージェントが対話している環境に関係する結果を推定するための1つまたは複数のデータ処理装置によって実行される方法であって、前記方法が、
前記エージェントが対話している前記環境の状態を特徴づける1つまたは複数の観察を受信するステップと、
計画ステップの前記シーケンスの最初の計画ステップのための内部状態表現を生成するように、状態表現ニューラルネットワークを使用して、1つまたは複数の観察を処理するステップと、
(i)次の計画ステップのための内部状態表現、および(ii)前記次の計画ステップのための予測された報酬を生成するように、計画ステップの前記シーケンスにおける各計画ステップのために、予測ニューラルネットワークを使用して、前記計画ステップのための内部状態表現を処理するステップと、
前記計画ステップの後に受信される将来の累積割引報酬の推定である価値予測を生成するように、計画ステップの前記シーケンスにおける1つまたは複数の計画ステップの各々のために、価値予測ニューラルネットワークを使用して、前記計画ステップのための前記内部状態表現を処理するステップと、
前記計画ステップのための前記予測された報酬および前記価値予測に基づいて、前記環境に関係する前記結果の推定を決定するステップとを含む、
方法。 - 前記エージェントが、現実世界の環境と対話するロボットエージェントである、
請求項1に記載の方法。 - 前記環境に関係する前記結果が、前記タスクの遂行における前記エージェントの有効性を特徴づける、
請求項1に記載の方法。 - 前記エージェントが対話している前記環境の状態を特徴づける各観察が、前記環境の各画像を含む、
請求項1に記載の方法。 - 計画ステップの前記シーケンスにおける各計画ステップのために、前記予測ニューラルネットワークが、前記次の計画ステップのための予測された割引係数を生成し、
前記環境に関係する前記結果の前記推定を決定するステップが、
前記計画ステップのための前記予測された報酬および前記価値予測に基づくのに加えて、前記計画ステップのための前記予測された割引係数に基づいて、前記環境に関係する前記結果の前記推定を決定するステップを含む、
請求項1に記載の方法。 - 前記環境に関係する前記結果の前記推定を決定するステップが、
(i)各計画ステップのための前記予測された報酬および前記予測された割引係数と、(ii)最終計画ステップのための価値予測とを組み合わせるステップをさらに含む、
請求項5に記載の方法。 - 前記方法は、
前記次の計画ステップのためのラムダ係数を生成するように、計画ステップの前記シーケンスにおける各計画ステップのために、ラムダニューラルネットワークを使用して、前記計画ステップのための前記内部状態表現を処理するステップをさらに含み、
前記環境に関係する前記結果の前記推定を決定するステップが、
前記計画ステップのための、前記予測された割引係数、前記予測された報酬、および前記価値予測に基づくのに加えて、前記計画ステップのための前記ラムダ係数に基づいて、前記結果の前記推定を決定するステップをさらに含む、
請求項5に記載の方法。 - 前記状態表現ニューラルネットワークが、フィードフォワードニューラルネットワークを含む、
請求項1に記載の方法。 - 前記予測ニューラルネットワークが、リカレントニューラルネットワークを含む、
請求項1に記載の方法。 - 前記予測ニューラルネットワークが、各計画ステップにおいて異なるパラメータ値を有するフィードフォワードニューラルネットワークを含む、
請求項1に記載の方法。 - 1つまたは複数のコンピュータと、
前記1つまたは複数のコンピュータと通信可能に結合した1つまたは複数の記憶装置とを備えた、
システムであって、前記1つまたは複数の記憶装置が、計画ステップのシーケンスにわたって報酬および価値予測をアグリゲートすることによってタスクを遂行するために、エージェントが対話している環境に関係する結果を推定するための動作を、前記1つまたは複数のコンピュータに実行させるための命令を記憶し、前記動作が、
前記エージェントが対話している前記環境の状態を特徴づける1つまたは複数の観察を受信するステップと、
計画ステップの前記シーケンスの最初の計画ステップのための内部状態表現を生成するように、状態表現ニューラルネットワークを使用して、1つまたは複数の観察を処理するステップと、
(i)次の計画ステップのための内部状態表現、および(ii)前記次の計画ステップのための予測された報酬を生成するように、計画ステップの前記シーケンスにおける各計画ステップのために、予測ニューラルネットワークを使用して、前記計画ステップのための内部状態表現を処理するステップと、
前記計画ステップの後に受信される将来の累積割引報酬の推定である価値予測を生成するように、計画ステップの前記シーケンスにおける1つまたは複数の計画ステップの各々のために、価値予測ニューラルネットワークを使用して、前記計画ステップのための前記内部状態表現を処理するステップと、
前記計画ステップのための前記予測された報酬および前記価値予測に基づいて、前記環境に関係する前記結果の推定を決定するステップとを含む、
システム。 - 前記エージェントが、現実世界の環境と対話するロボットエージェントである、
請求項15に記載のシステム。 - 前記環境に関係する前記結果が、前記タスクの遂行における前記エージェントの有効性を特徴づける、
請求項15に記載のシステム。 - 前記エージェントが対話している前記環境の状態を特徴づける各観察が、前記環境の各画像を含む、
請求項15に記載のシステム。 - 計画ステップの前記シーケンスにおける各計画ステップのために、前記予測ニューラルネットワークが、前記次の計画ステップのための予測された割引係数を生成し、
前記環境に関係する前記結果の前記推定を決定するステップが、
前記計画ステップのための前記予測された報酬および前記価値予測に基づくのに加えて、前記計画ステップのための前記予測された割引係数に基づいて、前記環境に関係する前記結果の前記推定を決定するステップを含む、
請求項15に記載のシステム。 - 計画ステップのシーケンスにわたって報酬および価値予測をアグリゲートすることによってタスクを遂行するために、エージェントが対話している環境に関係する結果を推定するための動作を、1つまたは複数のコンピュータに実行させるための命令を記憶しているコンピュータ可読記憶媒体であって、前記動作が、
前記エージェントが対話している前記環境の状態を特徴づける1つまたは複数の観察を受信するステップと、
計画ステップの前記シーケンスの最初の計画ステップのための内部状態表現を生成するように、状態表現ニューラルネットワークを使用して、1つまたは複数の観察を処理するステップと、
(i)次の計画ステップのための内部状態表現、および(ii)前記次の計画ステップのための予測された報酬を生成するように、計画ステップの前記シーケンスにおける各計画ステップのために、予測ニューラルネットワークを使用して、前記計画ステップのための内部状態表現を処理するステップと、
前記計画ステップの後に受信される将来の累積割引報酬の推定である価値予測を生成するように、計画ステップの前記シーケンスにおける1つまたは複数の計画ステップの各々のために、価値予測ニューラルネットワークを使用して、前記計画ステップのための前記内部状態表現を処理するステップと、
前記計画ステップのための前記予測された報酬および前記価値予測に基づいて、前記環境に関係する前記結果の推定を決定するステップとを含む、
コンピュータ可読記憶媒体。 - 前記エージェントが、現実世界の環境と対話するロボットエージェントである、
請求項20に記載のコンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662418159P | 2016-11-04 | 2016-11-04 | |
US62/418,159 | 2016-11-04 | ||
JP2019523612A JP6728495B2 (ja) | 2016-11-04 | 2017-11-04 | 強化学習を用いた環境予測 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019523612A Division JP6728495B2 (ja) | 2016-11-04 | 2017-11-04 | 強化学習を用いた環境予測 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020191097A JP2020191097A (ja) | 2020-11-26 |
JP6917508B2 true JP6917508B2 (ja) | 2021-08-11 |
Family
ID=60515745
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019523612A Active JP6728495B2 (ja) | 2016-11-04 | 2017-11-04 | 強化学習を用いた環境予測 |
JP2020111559A Active JP6917508B2 (ja) | 2016-11-04 | 2020-06-29 | 強化学習を用いた環境予測 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019523612A Active JP6728495B2 (ja) | 2016-11-04 | 2017-11-04 | 強化学習を用いた環境予測 |
Country Status (5)
Country | Link |
---|---|
US (2) | US10733501B2 (ja) |
EP (1) | EP3523760B1 (ja) |
JP (2) | JP6728495B2 (ja) |
CN (2) | CN117521725A (ja) |
WO (1) | WO2018083667A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117521725A (zh) * | 2016-11-04 | 2024-02-06 | 渊慧科技有限公司 | 加强学习*** |
US10692244B2 (en) | 2017-10-06 | 2020-06-23 | Nvidia Corporation | Learning based camera pose estimation from images of an environment |
CA3103470A1 (en) | 2018-06-12 | 2019-12-19 | Intergraph Corporation | Artificial intelligence applications for computer-aided dispatch systems |
CN112840359B (zh) | 2018-10-12 | 2024-05-14 | 渊慧科技有限公司 | 通过使用时间值传递在长时间尺度上控制代理 |
US11313950B2 (en) | 2019-01-15 | 2022-04-26 | Image Sensing Systems, Inc. | Machine learning based highway radar vehicle classification across multiple lanes and speeds |
US11587552B2 (en) | 2019-04-30 | 2023-02-21 | Sutherland Global Services Inc. | Real time key conversational metrics prediction and notability |
JP7354425B2 (ja) * | 2019-09-13 | 2023-10-02 | ディープマインド テクノロジーズ リミテッド | データ駆動型ロボット制御 |
CA3167201A1 (en) * | 2020-02-07 | 2021-08-12 | Adria Puigdomenech BADIA | Reinforcement learning with adaptive return computation schemes |
CN114020079B (zh) * | 2021-11-03 | 2022-09-16 | 北京邮电大学 | 一种室内空间温度和湿度调控方法及装置 |
US20230191605A1 (en) | 2021-12-17 | 2023-06-22 | Nvidia Corporation | Neural networks to generate robotic task demonstrations |
US20230367696A1 (en) * | 2022-05-13 | 2023-11-16 | Microsoft Technology Licensing, Llc | Simulated training for reinforcement learning |
Family Cites Families (250)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004068399A1 (ja) | 2003-01-31 | 2004-08-12 | Matsushita Electric Industrial Co. Ltd. | 予測型行動決定装置および行動決定方法 |
US20160086222A1 (en) * | 2009-01-21 | 2016-03-24 | Truaxis, Inc. | Method and system to remind users of targeted offers in similar categories |
US9015093B1 (en) * | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8775341B1 (en) * | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8819523B2 (en) * | 2011-05-19 | 2014-08-26 | Cambridge Silicon Radio Limited | Adaptive controller for a configurable audio coding system |
US8793557B2 (en) * | 2011-05-19 | 2014-07-29 | Cambrige Silicon Radio Limited | Method and apparatus for real-time multidimensional adaptation of an audio coding system |
JP5874292B2 (ja) * | 2011-10-12 | 2016-03-02 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US10803525B1 (en) * | 2014-02-19 | 2020-10-13 | Allstate Insurance Company | Determining a property of an insurance policy based on the autonomous features of a vehicle |
US10558987B2 (en) * | 2014-03-12 | 2020-02-11 | Adobe Inc. | System identification framework |
JP5984147B2 (ja) * | 2014-03-27 | 2016-09-06 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理方法、及び、プログラム |
US10091785B2 (en) * | 2014-06-11 | 2018-10-02 | The Board Of Trustees Of The University Of Alabama | System and method for managing wireless frequency usage |
WO2016106238A1 (en) * | 2014-12-24 | 2016-06-30 | Google Inc. | Augmenting neural networks to generate additional outputs |
US11080587B2 (en) * | 2015-02-06 | 2021-08-03 | Deepmind Technologies Limited | Recurrent neural networks for data item generation |
US10628733B2 (en) * | 2015-04-06 | 2020-04-21 | Deepmind Technologies Limited | Selecting reinforcement learning actions using goals and observations |
AU2016297852C1 (en) * | 2015-07-24 | 2019-12-05 | Deepmind Technologies Limited | Continuous control with deep reinforcement learning |
US20170061283A1 (en) * | 2015-08-26 | 2017-03-02 | Applied Brain Research Inc. | Methods and systems for performing reinforcement learning in hierarchical and temporally extended environments |
CN107851216B (zh) * | 2015-09-11 | 2022-03-08 | 谷歌有限责任公司 | 一种用于选择待由与环境进行交互的强化学习代理执行的动作的方法 |
US10380481B2 (en) * | 2015-10-08 | 2019-08-13 | Via Alliance Semiconductor Co., Ltd. | Neural network unit that performs concurrent LSTM cell calculations |
JP6010204B1 (ja) * | 2015-10-26 | 2016-10-19 | ファナック株式会社 | パワー素子の予測寿命を学習する機械学習装置及び方法並びに該機械学習装置を備えた寿命予測装置及びモータ駆動装置 |
EP3360086A1 (en) * | 2015-11-12 | 2018-08-15 | Deepmind Technologies Limited | Training neural networks using a prioritized experience memory |
CN108604309B (zh) * | 2015-11-12 | 2022-06-07 | 渊慧科技有限公司 | 从动作集中选择代理执行的动作的方法、***和存储介质 |
US11072067B2 (en) * | 2015-11-16 | 2021-07-27 | Kindred Systems Inc. | Systems, devices, and methods for distributed artificial neural network computation |
US9536191B1 (en) * | 2015-11-25 | 2017-01-03 | Osaro, Inc. | Reinforcement learning using confidence scores |
JP6193961B2 (ja) * | 2015-11-30 | 2017-09-06 | ファナック株式会社 | 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置 |
CN108604314B (zh) * | 2015-12-01 | 2022-08-19 | 渊慧科技有限公司 | 使用强化学习选择动作名单 |
US10885432B1 (en) * | 2015-12-16 | 2021-01-05 | Deepmind Technologies Limited | Selecting actions from large discrete action sets using reinforcement learning |
CN108431549B (zh) * | 2016-01-05 | 2020-09-04 | 御眼视觉技术有限公司 | 具有施加的约束的经训练的*** |
US20170213150A1 (en) * | 2016-01-25 | 2017-07-27 | Osaro, Inc. | Reinforcement learning using a partitioned input state space |
JP6339603B2 (ja) * | 2016-01-28 | 2018-06-06 | ファナック株式会社 | レーザ加工開始条件を学習する機械学習装置、レーザ装置および機械学習方法 |
JP2017138881A (ja) * | 2016-02-05 | 2017-08-10 | ファナック株式会社 | 操作メニューの表示を学習する機械学習器,数値制御装置,工作機械システム,製造システムおよび機械学習方法 |
JP6669897B2 (ja) * | 2016-02-09 | 2020-03-18 | グーグル エルエルシー | 優位推定を使用する強化学習 |
US10942038B2 (en) * | 2016-02-15 | 2021-03-09 | Allstate Insurance Company | Real time risk assessment and operational changes with semi-autonomous vehicles |
JP6360090B2 (ja) * | 2016-03-10 | 2018-07-18 | ファナック株式会社 | 機械学習装置、レーザ装置および機械学習方法 |
JP6348137B2 (ja) * | 2016-03-24 | 2018-06-27 | ファナック株式会社 | 工作物の良否を判定する加工機械システム |
US11080594B2 (en) * | 2016-05-04 | 2021-08-03 | Deepmind Technologies Limited | Augmenting neural networks with external memory using reinforcement learning |
CN109155005A (zh) * | 2016-05-20 | 2019-01-04 | 渊慧科技有限公司 | 使用伪计数的增强学习 |
WO2017218699A1 (en) * | 2016-06-17 | 2017-12-21 | Graham Leslie Fyffe | System and methods for intrinsic reward reinforcement learning |
JP2018004473A (ja) * | 2016-07-04 | 2018-01-11 | ファナック株式会社 | 軸受の予測寿命を学習する機械学習装置、寿命予測装置および機械学習方法 |
US10839310B2 (en) * | 2016-07-15 | 2020-11-17 | Google Llc | Selecting content items using reinforcement learning |
JP6506219B2 (ja) * | 2016-07-21 | 2019-04-24 | ファナック株式会社 | モータの電流指令を学習する機械学習器,モータ制御装置および機械学習方法 |
US11049010B2 (en) * | 2016-07-26 | 2021-06-29 | The University Of Connecticut | Early prediction of an intention of a user's actions |
DE202016004628U1 (de) * | 2016-07-27 | 2016-09-23 | Google Inc. | Durchqueren einer Umgebungsstatusstruktur unter Verwendung neuronaler Netze |
US10049301B2 (en) * | 2016-08-01 | 2018-08-14 | Siemens Healthcare Gmbh | Medical scanner teaches itself to optimize clinical protocols and image acquisition |
US11080591B2 (en) * | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
US11188821B1 (en) * | 2016-09-15 | 2021-11-30 | X Development Llc | Control policies for collective robot learning |
CN115338859A (zh) * | 2016-09-15 | 2022-11-15 | 谷歌有限责任公司 | 机器人操纵的深度强化学习 |
JP6514166B2 (ja) * | 2016-09-16 | 2019-05-15 | ファナック株式会社 | ロボットの動作プログラムを学習する機械学習装置,ロボットシステムおよび機械学習方法 |
WO2018057978A1 (en) * | 2016-09-23 | 2018-03-29 | Apple Inc. | Decision making for autonomous vehicle motion control |
US20180100662A1 (en) * | 2016-10-11 | 2018-04-12 | Mitsubishi Electric Research Laboratories, Inc. | Method for Data-Driven Learning-based Control of HVAC Systems using High-Dimensional Sensory Observations |
EP3696737B1 (en) * | 2016-11-03 | 2022-08-31 | Deepmind Technologies Limited | Training action selection neural networks |
US9989964B2 (en) * | 2016-11-03 | 2018-06-05 | Mitsubishi Electric Research Laboratories, Inc. | System and method for controlling vehicle using neural network |
US11062207B2 (en) * | 2016-11-04 | 2021-07-13 | Raytheon Technologies Corporation | Control systems using deep reinforcement learning |
JP6926203B2 (ja) * | 2016-11-04 | 2021-08-25 | ディープマインド テクノロジーズ リミテッド | 補助タスクを伴う強化学習 |
US11580360B2 (en) * | 2016-11-04 | 2023-02-14 | Google Llc | Unsupervised detection of intermediate reinforcement learning goals |
CN117521725A (zh) * | 2016-11-04 | 2024-02-06 | 渊慧科技有限公司 | 加强学习*** |
CN108230057A (zh) * | 2016-12-09 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种智能推荐方法及*** |
EP3557493A4 (en) * | 2016-12-14 | 2020-01-08 | Sony Corporation | INFORMATION PROCESSING DEVICE AND METHOD |
US10977551B2 (en) * | 2016-12-14 | 2021-04-13 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
US20200365015A1 (en) * | 2016-12-19 | 2020-11-19 | ThruGreen, LLC | Connected and adaptive vehicle traffic management system with digital prioritization |
WO2018156891A1 (en) * | 2017-02-24 | 2018-08-30 | Google Llc | Training policy neural networks using path consistency learning |
WO2018154100A1 (en) * | 2017-02-24 | 2018-08-30 | Deepmind Technologies Limited | Neural episodic control |
US10373313B2 (en) * | 2017-03-02 | 2019-08-06 | Siemens Healthcare Gmbh | Spatially consistent multi-scale anatomical landmark detection in incomplete 3D-CT data |
US10542019B2 (en) * | 2017-03-09 | 2020-01-21 | International Business Machines Corporation | Preventing intersection attacks |
US10379538B1 (en) * | 2017-03-20 | 2019-08-13 | Zoox, Inc. | Trajectory generation using motion primitives |
US10345808B2 (en) * | 2017-03-30 | 2019-07-09 | Uber Technologies, Inc | Systems and methods to control autonomous vehicle motion |
WO2018188981A1 (en) * | 2017-04-12 | 2018-10-18 | Koninklijke Philips N.V. | Drawing conclusions from free form texts with deep reinforcement learning |
CN110832509B (zh) * | 2017-04-12 | 2023-11-03 | 渊慧科技有限公司 | 使用神经网络的黑盒优化 |
EP3933713A1 (en) * | 2017-04-14 | 2022-01-05 | DeepMind Technologies Limited | Distributional reinforcement learning |
US10606898B2 (en) * | 2017-04-19 | 2020-03-31 | Brown University | Interpreting human-robot instructions |
WO2018211139A1 (en) * | 2017-05-19 | 2018-11-22 | Deepmind Technologies Limited | Training action selection neural networks using a differentiable credit function |
EP3596662A1 (en) * | 2017-05-19 | 2020-01-22 | Deepmind Technologies Limited | Imagination-based agent neural networks |
WO2018215665A1 (en) * | 2017-05-26 | 2018-11-29 | Deepmind Technologies Limited | Training action selection neural networks using look-ahead search |
EP4273757A3 (en) * | 2017-06-05 | 2024-02-14 | DeepMind Technologies Limited | Selecting actions using multi-modal inputs |
WO2018224695A1 (en) * | 2017-06-09 | 2018-12-13 | Deepmind Technologies Limited | Training action selection neural networks |
US11717959B2 (en) * | 2017-06-28 | 2023-08-08 | Google Llc | Machine learning methods and apparatus for semantic robotic grasping |
US10883844B2 (en) * | 2017-07-27 | 2021-01-05 | Waymo Llc | Neural networks for vehicle trajectory planning |
US11256983B2 (en) * | 2017-07-27 | 2022-02-22 | Waymo Llc | Neural networks for vehicle trajectory planning |
JP6756676B2 (ja) * | 2017-07-27 | 2020-09-16 | ファナック株式会社 | 製造システム |
US20200174490A1 (en) * | 2017-07-27 | 2020-06-04 | Waymo Llc | Neural networks for vehicle trajectory planning |
US11112796B2 (en) * | 2017-08-08 | 2021-09-07 | Uatc, Llc | Object motion prediction and autonomous vehicle control |
JP6564432B2 (ja) * | 2017-08-29 | 2019-08-21 | ファナック株式会社 | 機械学習装置、制御システム、制御装置、及び機械学習方法 |
EP3467717A1 (en) * | 2017-10-04 | 2019-04-10 | Prowler.io Limited | Machine learning system |
US10739776B2 (en) * | 2017-10-12 | 2020-08-11 | Honda Motor Co., Ltd. | Autonomous vehicle policy generation |
US10701641B2 (en) * | 2017-10-13 | 2020-06-30 | Apple Inc. | Interference mitigation in ultra-dense wireless networks |
WO2019081782A1 (en) * | 2017-10-27 | 2019-05-02 | Deepmind Technologies Limited | AUTOMATIC LEARNING SYSTEMS WITH PARAMETER-BASED PARAMETER ADAPTATION FOR RAPID OR LOWER LEARNING |
EP3688675B1 (en) * | 2017-10-27 | 2024-05-08 | DeepMind Technologies Limited | Distributional reinforcement learning for continuous control tasks |
EP3621773B1 (en) * | 2017-12-05 | 2023-10-04 | Google LLC | Viewpoint invariant visual servoing of robot end effector using recurrent neural network |
US10926408B1 (en) * | 2018-01-12 | 2021-02-23 | Amazon Technologies, Inc. | Artificial intelligence system for efficiently learning robotic control policies |
JP6955105B2 (ja) * | 2018-02-05 | 2021-10-27 | ディープマインド テクノロジーズ リミテッド | 方策オフ型アクタークリティック強化学習を使用する分散型の訓練 |
US20190244099A1 (en) * | 2018-02-05 | 2019-08-08 | Deepmind Technologies Limited | Continual reinforcement learning with a multi-task agent |
US11221413B2 (en) * | 2018-03-14 | 2022-01-11 | Uatc, Llc | Three-dimensional object detection |
US11467590B2 (en) * | 2018-04-09 | 2022-10-11 | SafeAI, Inc. | Techniques for considering uncertainty in use of artificial intelligence models |
JP6740277B2 (ja) * | 2018-04-13 | 2020-08-12 | ファナック株式会社 | 機械学習装置、制御装置、及び機械学習方法 |
US12020164B2 (en) * | 2018-04-18 | 2024-06-25 | Deepmind Technologies Limited | Neural networks for scalable continual learning in domains with sequentially learned tasks |
CN112135716B (zh) * | 2018-05-18 | 2023-11-03 | 谷歌有限责任公司 | 数据高效的分层强化学习 |
US11263531B2 (en) * | 2018-05-18 | 2022-03-01 | Deepmind Technologies Limited | Unsupervised control using learned rewards |
US11370423B2 (en) * | 2018-06-15 | 2022-06-28 | Uatc, Llc | Multi-task machine-learned models for object intention determination in autonomous driving |
US11454975B2 (en) * | 2018-06-28 | 2022-09-27 | Uatc, Llc | Providing actionable uncertainties in autonomous vehicles |
US11397089B2 (en) * | 2018-07-13 | 2022-07-26 | Uatc, Llc | Autonomous vehicle routing with route extension |
JP6608010B1 (ja) * | 2018-07-25 | 2019-11-20 | 積水化学工業株式会社 | 制御装置、サーバ、管理システム、コンピュータプログラム、学習モデル及び制御方法 |
US11423295B2 (en) * | 2018-07-26 | 2022-08-23 | Sap Se | Dynamic, automated fulfillment of computer-based resource request provisioning using deep reinforcement learning |
US11734575B2 (en) * | 2018-07-30 | 2023-08-22 | International Business Machines Corporation | Sequential learning of constraints for hierarchical reinforcement learning |
US11537872B2 (en) * | 2018-07-30 | 2022-12-27 | International Business Machines Corporation | Imitation learning by action shaping with antagonist reinforcement learning |
EP3605334A1 (en) * | 2018-07-31 | 2020-02-05 | Prowler.io Limited | Incentive control for multi-agent systems |
JP7011239B2 (ja) * | 2018-08-17 | 2022-01-26 | 横河電機株式会社 | 装置、方法、プログラム、および、記録媒体 |
US11833681B2 (en) * | 2018-08-24 | 2023-12-05 | Nvidia Corporation | Robotic control system |
US12005578B2 (en) * | 2018-09-04 | 2024-06-11 | Ocado Innovations Limited | Real-time real-world reinforcement learning systems and methods |
CN113056749B (zh) * | 2018-09-11 | 2024-05-24 | 辉达公司 | 用于自主机器应用的未来对象轨迹预测 |
EP3850551A4 (en) * | 2018-09-12 | 2022-10-12 | Electra Vehicles, Inc. | SYSTEMS AND METHODS FOR MANAGEMENT OF ENERGY STORAGE SYSTEMS |
US20210325894A1 (en) * | 2018-09-14 | 2021-10-21 | Google Llc | Deep reinforcement learning-based techniques for end to end robot navigation |
US20200097808A1 (en) * | 2018-09-21 | 2020-03-26 | International Business Machines Corporation | Pattern Identification in Reinforcement Learning |
WO2020065024A1 (en) * | 2018-09-27 | 2020-04-02 | Deepmind Technologies Limited | Stacked convolutional long short-term memory for model-free reinforcement learning |
US11568207B2 (en) * | 2018-09-27 | 2023-01-31 | Deepmind Technologies Limited | Learning observation representations by predicting the future in latent space |
US10872294B2 (en) * | 2018-09-27 | 2020-12-22 | Deepmind Technologies Limited | Imitation learning using a generative predecessor neural network |
US10748039B2 (en) * | 2018-09-27 | 2020-08-18 | Deepmind Technologies Limited | Reinforcement learning neural networks grounded in learned visual entities |
KR20210065139A (ko) * | 2018-09-27 | 2021-06-03 | 퀀텀 서지컬 | 자동 위치이동 수단을 포함하는 의료용 로봇 |
US10831210B1 (en) * | 2018-09-28 | 2020-11-10 | Zoox, Inc. | Trajectory generation and optimization using closed-form numerical integration in route-relative coordinates |
JP6901450B2 (ja) * | 2018-10-02 | 2021-07-14 | ファナック株式会社 | 機械学習装置、制御装置及び機械学習方法 |
US20210402598A1 (en) * | 2018-10-10 | 2021-12-30 | Sony Corporation | Robot control device, robot control method, and robot control program |
EP3640873A1 (en) * | 2018-10-17 | 2020-04-22 | Tata Consultancy Services Limited | System and method for concurrent dynamic optimization of replenishment decision in networked node environment |
CN113099729B (zh) * | 2018-10-26 | 2024-05-28 | 陶氏环球技术有限责任公司 | 生产调度的深度强化学习 |
US20210383218A1 (en) * | 2018-10-29 | 2021-12-09 | Google Llc | Determining control policies by minimizing the impact of delusion |
US20200134445A1 (en) * | 2018-10-31 | 2020-04-30 | Advanced Micro Devices, Inc. | Architecture for deep q learning |
US11231717B2 (en) * | 2018-11-08 | 2022-01-25 | Baidu Usa Llc | Auto-tuning motion planning system for autonomous vehicles |
JP6849643B2 (ja) * | 2018-11-09 | 2021-03-24 | ファナック株式会社 | 出力装置、制御装置、及び評価関数と機械学習結果の出力方法 |
EP3867821A1 (en) * | 2018-11-16 | 2021-08-25 | DeepMind Technologies Limited | Controlling agents using amortized q learning |
US11048253B2 (en) * | 2018-11-21 | 2021-06-29 | Waymo Llc | Agent prioritization for autonomous vehicles |
KR101990326B1 (ko) * | 2018-11-28 | 2019-06-18 | 한국인터넷진흥원 | 감가율 자동 조정 방식의 강화 학습 방법 |
JP6970078B2 (ja) * | 2018-11-28 | 2021-11-24 | 株式会社東芝 | ロボット動作計画装置、ロボットシステム、および方法 |
US11137762B2 (en) * | 2018-11-30 | 2021-10-05 | Baidu Usa Llc | Real time decision making for autonomous driving vehicles |
US11131992B2 (en) * | 2018-11-30 | 2021-09-28 | Denso International America, Inc. | Multi-level collaborative control system with dual neural network planning for autonomous vehicle control in a noisy environment |
US10997729B2 (en) * | 2018-11-30 | 2021-05-04 | Baidu Usa Llc | Real time object behavior prediction |
US11519742B2 (en) * | 2018-12-19 | 2022-12-06 | Uber Technologies, Inc. | Routing autonomous vehicles using temporal data |
US11627165B2 (en) * | 2019-01-24 | 2023-04-11 | Deepmind Technologies Limited | Multi-agent reinforcement learning with matchmaking policies |
JP2020116869A (ja) * | 2019-01-25 | 2020-08-06 | セイコーエプソン株式会社 | 印刷装置、学習装置、学習方法および学習プログラム |
US20200272905A1 (en) * | 2019-02-26 | 2020-08-27 | GE Precision Healthcare LLC | Artificial neural network compression via iterative hybrid reinforcement learning approach |
US10700935B1 (en) * | 2019-02-27 | 2020-06-30 | Peritus.AI, Inc. | Automatic configuration and operation of complex systems |
CA3075156A1 (en) * | 2019-03-15 | 2020-09-15 | Mission Control Space Services Inc. | Terrain traficability assesment for autonomous or semi-autonomous rover or vehicle |
US20200310420A1 (en) * | 2019-03-26 | 2020-10-01 | GM Global Technology Operations LLC | System and method to train and select a best solution in a dynamical system |
US11132608B2 (en) * | 2019-04-04 | 2021-09-28 | Cisco Technology, Inc. | Learning-based service migration in mobile edge computing |
US11312372B2 (en) * | 2019-04-16 | 2022-04-26 | Ford Global Technologies, Llc | Vehicle path prediction |
JP7010877B2 (ja) * | 2019-04-25 | 2022-01-26 | ファナック株式会社 | 機械学習装置、数値制御システム及び機械学習方法 |
US20220222508A1 (en) * | 2019-04-30 | 2022-07-14 | Soul Machines | System for sequencing and planning |
US11701771B2 (en) * | 2019-05-15 | 2023-07-18 | Nvidia Corporation | Grasp generation using a variational autoencoder |
WO2020234476A1 (en) * | 2019-05-23 | 2020-11-26 | Deepmind Technologies Limited | Large scale generative neural network model with inference for representation learning using adversial training |
EP3948670A1 (en) * | 2019-05-24 | 2022-02-09 | DeepMind Technologies Limited | Hierarchical policies for multitask transfer |
US11482210B2 (en) * | 2019-05-29 | 2022-10-25 | Lg Electronics Inc. | Artificial intelligence device capable of controlling other devices based on device information |
US11814046B2 (en) * | 2019-05-29 | 2023-11-14 | Motional Ad Llc | Estimating speed profiles |
US11900818B2 (en) * | 2019-06-10 | 2024-02-13 | Joby Aero, Inc. | Time varying loudness prediction system |
CN114080634B (zh) * | 2019-07-03 | 2024-04-26 | 伟摩有限责任公司 | 使用锚定轨迹的代理轨迹预测 |
WO2021004437A1 (en) * | 2019-07-05 | 2021-01-14 | Huawei Technologies Co., Ltd. | Method and system for predictive control of vehicle using digital images |
US20220269948A1 (en) * | 2019-07-12 | 2022-08-25 | Elektrobit Automotive Gmbh | Training of a convolutional neural network |
JP7342491B2 (ja) * | 2019-07-25 | 2023-09-12 | オムロン株式会社 | 推論装置、推論方法、及び推論プログラム |
US11481420B2 (en) * | 2019-08-08 | 2022-10-25 | Nice Ltd. | Systems and methods for analyzing computer input to provide next action |
SE1950924A1 (en) * | 2019-08-13 | 2021-02-14 | Kaaberg Johard Leonard | Improved machine learning for technical systems |
US11407409B2 (en) * | 2019-08-13 | 2022-08-09 | Zoox, Inc. | System and method for trajectory validation |
US11458965B2 (en) * | 2019-08-13 | 2022-10-04 | Zoox, Inc. | Feasibility validation for vehicle trajectory selection |
US11397434B2 (en) * | 2019-08-13 | 2022-07-26 | Zoox, Inc. | Consistency validation for vehicle trajectory selection |
US11599823B2 (en) * | 2019-08-14 | 2023-03-07 | International Business Machines Corporation | Quantum reinforcement learning agent |
US20220297304A1 (en) * | 2019-08-23 | 2022-09-22 | Carrier Corporation | System and method for early event detection using generative and discriminative machine learning models |
US20220305647A1 (en) * | 2019-08-27 | 2022-09-29 | Google Llc | Future prediction, using stochastic adversarial based sampling, for robotic control and/or other purpose(s) |
US11132403B2 (en) * | 2019-09-06 | 2021-09-28 | Digital Asset Capital, Inc. | Graph-manipulation based domain-specific execution environment |
JP7354425B2 (ja) * | 2019-09-13 | 2023-10-02 | ディープマインド テクノロジーズ リミテッド | データ駆動型ロボット制御 |
US20220331962A1 (en) * | 2019-09-15 | 2022-10-20 | Google Llc | Determining environment-conditioned action sequences for robotic tasks |
US20210089908A1 (en) * | 2019-09-25 | 2021-03-25 | Deepmind Technologies Limited | Modulating agent behavior to optimize learning progress |
US20220366245A1 (en) * | 2019-09-25 | 2022-11-17 | Deepmind Technologies Limited | Training action selection neural networks using hindsight modelling |
WO2021058583A1 (en) * | 2019-09-25 | 2021-04-01 | Deepmind Technologies Limited | Training action selection neural networks using q-learning combined with look ahead search |
WO2021058626A1 (en) * | 2019-09-25 | 2021-04-01 | Deepmind Technologies Limited | Controlling agents using causally correct environment models |
US11650551B2 (en) * | 2019-10-04 | 2023-05-16 | Mitsubishi Electric Research Laboratories, Inc. | System and method for policy optimization using quasi-Newton trust region method |
US11645518B2 (en) * | 2019-10-07 | 2023-05-09 | Waymo Llc | Multi-agent simulations |
EP3812972A1 (en) * | 2019-10-25 | 2021-04-28 | Robert Bosch GmbH | Method for controlling a robot and robot controller |
US11586931B2 (en) * | 2019-10-31 | 2023-02-21 | Waymo Llc | Training trajectory scoring neural networks to accurately assign scores |
US20210133583A1 (en) * | 2019-11-05 | 2021-05-06 | Nvidia Corporation | Distributed weight update for backpropagation of a neural network |
US11912271B2 (en) * | 2019-11-07 | 2024-02-27 | Motional Ad Llc | Trajectory prediction from precomputed or dynamically generated bank of trajectories |
CN112937564B (zh) * | 2019-11-27 | 2022-09-02 | 魔门塔(苏州)科技有限公司 | 换道决策模型生成方法和无人车换道决策方法及装置 |
US11735045B2 (en) * | 2019-12-04 | 2023-08-22 | Uatc, Llc | Systems and methods for computational resource allocation for autonomous vehicles |
US11442459B2 (en) * | 2019-12-11 | 2022-09-13 | Uatc, Llc | Systems and methods for training predictive models for autonomous devices |
US20210192287A1 (en) * | 2019-12-18 | 2021-06-24 | Nvidia Corporation | Master transform architecture for deep learning |
CN111061277B (zh) * | 2019-12-31 | 2022-04-05 | 歌尔股份有限公司 | 一种无人车全局路径规划方法和装置 |
US11332165B2 (en) * | 2020-01-27 | 2022-05-17 | Honda Motor Co., Ltd. | Human trust calibration for autonomous driving agent of vehicle |
US11494649B2 (en) * | 2020-01-31 | 2022-11-08 | At&T Intellectual Property I, L.P. | Radio access network control with deep reinforcement learning |
US11982993B2 (en) * | 2020-02-03 | 2024-05-14 | Strong Force TX Portfolio 2018, LLC | AI solution selection for an automated robotic process |
EP4104104A1 (en) * | 2020-02-10 | 2022-12-21 | Deeplife | Generative digital twin of complex systems |
JP7234970B2 (ja) * | 2020-02-17 | 2023-03-08 | 株式会社デンソー | 車両行動生成装置、車両行動生成方法、および車両行動生成プログラム |
DE102020202350A1 (de) * | 2020-02-24 | 2021-08-26 | Volkswagen Aktiengesellschaft | Verfahren und Vorrichtung zum Unterstützen einer Manöverplanung für ein automatisiert fahrendes Fahrzeug oder einen Roboter |
US11717960B2 (en) * | 2020-02-25 | 2023-08-08 | Intelligrated Headquarters, Llc | Anti-sway control for a robotic arm with adaptive grasping |
US11759951B2 (en) * | 2020-02-28 | 2023-09-19 | Honda Motor Co., Ltd. | Systems and methods for incorporating latent states into robotic planning |
US11782438B2 (en) * | 2020-03-17 | 2023-10-10 | Nissan North America, Inc. | Apparatus and method for post-processing a decision-making model of an autonomous vehicle using multivariate data |
US20210327578A1 (en) * | 2020-04-08 | 2021-10-21 | Babylon Partners Limited | System and Method for Medical Triage Through Deep Q-Learning |
US20210334654A1 (en) * | 2020-04-24 | 2021-10-28 | Mastercard International Incorporated | Methods and systems for reducing bias in an artificial intelligence model |
WO2021220008A1 (en) * | 2020-04-29 | 2021-11-04 | Deep Render Ltd | Image compression and decoding, video compression and decoding: methods and systems |
US20210356965A1 (en) * | 2020-05-12 | 2021-11-18 | Uber Technologies, Inc. | Vehicle routing using third party vehicle capabilities |
US20230217264A1 (en) * | 2020-06-05 | 2023-07-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Dynamic spectrum sharing based on machine learning |
JP2023528078A (ja) * | 2020-06-05 | 2023-07-03 | ガティック エーアイ インコーポレイテッド | 自律エージェントの不確実性推定に基づく決定論的軌道選択のための方法およびシステム |
US20210390409A1 (en) * | 2020-06-12 | 2021-12-16 | Google Llc | Training reinforcement learning agents using augmented temporal difference learning |
US20210397959A1 (en) * | 2020-06-22 | 2021-12-23 | Google Llc | Training reinforcement learning agents to learn expert exploration behaviors from demonstrators |
CA3186820A1 (en) * | 2020-07-24 | 2022-01-27 | William D'ATTILIO | Method and system for scalable contact center agent scheduling utilizing automated ai modeling and multi-objective optimization |
US11835958B2 (en) * | 2020-07-28 | 2023-12-05 | Huawei Technologies Co., Ltd. | Predictive motion planning system and method |
WO2022027057A1 (en) * | 2020-07-29 | 2022-02-03 | Uber Technologies, Inc. | Routing feature flags |
DE102020209685B4 (de) * | 2020-07-31 | 2023-07-06 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung |
US20220050714A1 (en) * | 2020-08-14 | 2022-02-17 | Lancium Llc | Power aware scheduling |
JP7366860B2 (ja) * | 2020-08-17 | 2023-10-23 | 株式会社日立製作所 | 攻撃シナリオシミュレーション装置、攻撃シナリオ生成システム、および攻撃シナリオ生成方法 |
US11715007B2 (en) * | 2020-08-28 | 2023-08-01 | UMNAI Limited | Behaviour modeling, verification, and autonomous actions and triggers of ML and AI systems |
US20230376780A1 (en) * | 2020-10-02 | 2023-11-23 | Deepmind Technologies Limited | Training reinforcement learning agents using augmented temporal difference learning |
US20220129708A1 (en) * | 2020-10-22 | 2022-04-28 | Applied Materials Israel Ltd. | Segmenting an image using a neural network |
WO2022101452A1 (en) * | 2020-11-12 | 2022-05-19 | UMNAI Limited | Architecture for explainable reinforcement learning |
US20220152826A1 (en) * | 2020-11-13 | 2022-05-19 | Nvidia Corporation | Object rearrangement using learned implicit collision functions |
US20220164657A1 (en) * | 2020-11-25 | 2022-05-26 | Chevron U.S.A. Inc. | Deep reinforcement learning for field development planning optimization |
US20220188695A1 (en) * | 2020-12-16 | 2022-06-16 | Argo AI, LLC | Autonomous vehicle system for intelligent on-board selection of data for training a remote machine learning model |
US20220197280A1 (en) * | 2020-12-22 | 2022-06-23 | Uatc, Llc | Systems and Methods for Error Sourcing in Autonomous Vehicle Simulation |
US20210133633A1 (en) * | 2020-12-22 | 2021-05-06 | Intel Corporation | Autonomous machine knowledge transfer |
US20220204055A1 (en) * | 2020-12-30 | 2022-06-30 | Waymo Llc | Optimization of planning trajectories for multiple agents |
US20220207337A1 (en) * | 2020-12-31 | 2022-06-30 | Deepx Co., Ltd. | Method for artificial neural network and neural processing unit |
US20220234651A1 (en) * | 2021-01-25 | 2022-07-28 | GM Global Technology Operations LLC | Methods, systems, and apparatuses for adaptive driver override for path based automated driving assist |
CN114912041A (zh) * | 2021-01-29 | 2022-08-16 | 伊姆西Ip控股有限责任公司 | 信息处理方法、电子设备和计算机程序产品 |
US20220261635A1 (en) * | 2021-02-12 | 2022-08-18 | DeeMind Technologies Limited | Training a policy neural network for controlling an agent using best response policy iteration |
US11967239B2 (en) * | 2021-02-23 | 2024-04-23 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for order dispatching and vehicle repositioning |
US20220269937A1 (en) * | 2021-02-24 | 2022-08-25 | Nvidia Corporation | Generating frames for neural simulation using one or more neural networks |
US20220276657A1 (en) * | 2021-03-01 | 2022-09-01 | Samsung Electronics Co., Ltd. | Trajectory generation of a robot using a neural network |
US11475043B2 (en) * | 2021-03-05 | 2022-10-18 | International Business Machines Corporation | Machine learning based application of changes in a target database system |
US20220284261A1 (en) * | 2021-03-05 | 2022-09-08 | The Aerospace Corporation | Training-support-based machine learning classification and regression augmentation |
US20220300851A1 (en) * | 2021-03-18 | 2022-09-22 | Toyota Research Institute, Inc. | System and method for training a multi-task model |
US20220305649A1 (en) * | 2021-03-25 | 2022-09-29 | Naver Corporation | Reachable manifold and inverse mapping training for robots |
US20220309336A1 (en) * | 2021-03-26 | 2022-09-29 | Nvidia Corporation | Accessing tensors |
US11787055B2 (en) * | 2021-03-30 | 2023-10-17 | Honda Research Institute Europe Gmbh | Controlling a robot using predictive decision making |
US11945441B2 (en) * | 2021-03-31 | 2024-04-02 | Nissan North America, Inc. | Explainability and interface design for lane-level route planner |
US11978258B2 (en) * | 2021-04-06 | 2024-05-07 | Nvidia Corporation | Techniques for identification of out-of-distribution input data in neural networks |
US20220335624A1 (en) * | 2021-04-15 | 2022-10-20 | Waymo Llc | Unsupervised training of optical flow estimation neural networks |
US11144847B1 (en) * | 2021-04-15 | 2021-10-12 | Latent Strategies LLC | Reinforcement learning using obfuscated environment models |
US11713059B2 (en) * | 2021-04-22 | 2023-08-01 | SafeAI, Inc. | Autonomous control of heavy equipment and vehicles using task hierarchies |
KR20230166129A (ko) * | 2021-04-23 | 2023-12-06 | 모셔널 에이디 엘엘씨 | 에이전트 궤적 예측 |
US20220366220A1 (en) * | 2021-04-29 | 2022-11-17 | Nvidia Corporation | Dynamic weight updates for neural networks |
US20220366263A1 (en) * | 2021-05-06 | 2022-11-17 | Waymo Llc | Training distilled machine learning models using a pre-trained feature extractor |
US20220373980A1 (en) * | 2021-05-06 | 2022-11-24 | Massachusetts Institute Of Technology | Dymamic control of a manufacturing process using deep reinforcement learning |
US11546665B2 (en) * | 2021-05-07 | 2023-01-03 | Hulu, LLC | Reinforcement learning for guaranteed delivery of supplemental content |
US20220366235A1 (en) * | 2021-05-13 | 2022-11-17 | Deepmind Technologies Limited | Controlling operation of actor and learner computing units based on a usage rate of a replay memory |
CA3160224A1 (en) * | 2021-05-21 | 2022-11-21 | Royal Bank Of Canada | System and method for conditional marginal distributions at flexible evaluation horizons |
US20220398283A1 (en) * | 2021-05-25 | 2022-12-15 | Nvidia Corporation | Method for fast and better tree search for reinforcement learning |
US11941899B2 (en) * | 2021-05-26 | 2024-03-26 | Nvidia Corporation | Data selection based on uncertainty quantification |
US11921506B2 (en) * | 2021-05-28 | 2024-03-05 | Nissan North America, Inc. | Belief state determination for real-time decision-making |
US20220383074A1 (en) * | 2021-05-28 | 2022-12-01 | Deepmind Technologies Limited | Persistent message passing for graph neural networks |
US20230025154A1 (en) * | 2021-07-22 | 2023-01-26 | The Boeing Company | Dual agent reinforcement learning based system for autonomous operation of aircraft |
US20230075473A1 (en) * | 2021-09-09 | 2023-03-09 | Mycronic AB | Device and method for enabling deriving of corrected digital pattern descriptions |
US20230121913A1 (en) * | 2021-10-19 | 2023-04-20 | Volvo Car Corporation | Intelligent messaging framework for vehicle ecosystem communication |
US20230237342A1 (en) * | 2022-01-24 | 2023-07-27 | Nvidia Corporation | Adaptive lookahead for planning and learning |
CN114362175B (zh) * | 2022-03-10 | 2022-06-07 | 山东大学 | 基于深度确定性策略梯度算法的风电功率预测方法及*** |
US11429845B1 (en) * | 2022-03-29 | 2022-08-30 | Intuit Inc. | Sparsity handling for machine learning model forecasting |
US20230376961A1 (en) * | 2022-05-19 | 2023-11-23 | Oracle Financial Services Software Limited | Reinforcement learning agent simulation to measure monitoring system strength |
US20240070485A1 (en) * | 2022-08-16 | 2024-02-29 | Optum, Inc. | Reinforcement learning for optimizing cross-channel communications |
CN115529278A (zh) * | 2022-09-07 | 2022-12-27 | 华东师范大学 | 基于多智能体强化学习的数据中心网络ecn自动调控方法 |
-
2017
- 2017-11-04 CN CN202311473332.7A patent/CN117521725A/zh active Pending
- 2017-11-04 JP JP2019523612A patent/JP6728495B2/ja active Active
- 2017-11-04 EP EP17807934.9A patent/EP3523760B1/en active Active
- 2017-11-04 WO PCT/IB2017/056902 patent/WO2018083667A1/en unknown
- 2017-11-04 CN CN201780078702.3A patent/CN110088775B/zh active Active
-
2019
- 2019-05-03 US US16/403,314 patent/US10733501B2/en active Active
-
2020
- 2020-06-25 US US16/911,992 patent/US20200327399A1/en active Pending
- 2020-06-29 JP JP2020111559A patent/JP6917508B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CN117521725A (zh) | 2024-02-06 |
JP2020191097A (ja) | 2020-11-26 |
US20190259051A1 (en) | 2019-08-22 |
EP3523760A1 (en) | 2019-08-14 |
CN110088775A (zh) | 2019-08-02 |
WO2018083667A1 (en) | 2018-05-11 |
US10733501B2 (en) | 2020-08-04 |
CN110088775B (zh) | 2023-11-07 |
EP3523760B1 (en) | 2024-01-24 |
JP6728495B2 (ja) | 2020-07-22 |
US20200327399A1 (en) | 2020-10-15 |
JP2019537136A (ja) | 2019-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6917508B2 (ja) | 強化学習を用いた環境予測 | |
JP6926203B2 (ja) | 補助タスクを伴う強化学習 | |
JP6935550B2 (ja) | 強化学習を使用した環境ナビゲーション | |
JP6828121B2 (ja) | 優先順位付けされた経験メモリを使用したニューラルネットワークの訓練 | |
CN110692066B (zh) | 使用多模态输入选择动作 | |
JP7258965B2 (ja) | ニューラルネットワークを使用する強化学習のための行動選択 | |
CN110235148B (zh) | 训练动作选择神经网络 | |
KR102172277B1 (ko) | 듀얼 심층 신경 네트워크 | |
US11200482B2 (en) | Recurrent environment predictors | |
US20210201156A1 (en) | Sample-efficient reinforcement learning | |
US11551144B2 (en) | Dynamic placement of computation sub-graphs | |
EP3586277A1 (en) | Training policy neural networks using path consistency learning | |
WO2020152364A1 (en) | Multi-agent reinforcement learning with matchmaking policies | |
EP3867821A1 (en) | Controlling agents using amortized q learning | |
JP2022523484A (ja) | 観測値の尤度を使用して環境を探索するためのエージェントを制御すること | |
CN110622174A (zh) | 基于想象的智能体神经网络 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200827 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200827 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6917508 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |