CN106096729A - 一种面向大规模环境中复杂任务的深度策略学习方法 - Google Patents
一种面向大规模环境中复杂任务的深度策略学习方法 Download PDFInfo
- Publication number
- CN106096729A CN106096729A CN201610398668.5A CN201610398668A CN106096729A CN 106096729 A CN106096729 A CN 106096729A CN 201610398668 A CN201610398668 A CN 201610398668A CN 106096729 A CN106096729 A CN 106096729A
- Authority
- CN
- China
- Prior art keywords
- depth
- neural network
- degree
- state
- learning method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000013016 learning Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 230000007935 neutral effect Effects 0.000 claims abstract description 16
- 230000008447 perception Effects 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000007787 long-term memory Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims 1
- 230000001537 neural effect Effects 0.000 claims 1
- 230000009471 action Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 12
- 238000011160 research Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 238000010845 search algorithm Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006386 memory function Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000002567 autonomic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
Description
Claims (4)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610398668.5A CN106096729B (zh) | 2016-06-06 | 2016-06-06 | 一种面向大规模环境中复杂任务的深度策略学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610398668.5A CN106096729B (zh) | 2016-06-06 | 2016-06-06 | 一种面向大规模环境中复杂任务的深度策略学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106096729A true CN106096729A (zh) | 2016-11-09 |
CN106096729B CN106096729B (zh) | 2018-11-20 |
Family
ID=57228116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610398668.5A Active CN106096729B (zh) | 2016-06-06 | 2016-06-06 | 一种面向大规模环境中复杂任务的深度策略学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106096729B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709449A (zh) * | 2016-12-22 | 2017-05-24 | 深圳市深网视界科技有限公司 | 一种基于深度学习和强化学习的行人重识别方法及*** |
CN106844949A (zh) * | 2017-01-18 | 2017-06-13 | 清华大学 | 一种用于实现机车节能操纵的双向lstm模型的训练方法 |
CN107153871A (zh) * | 2017-05-09 | 2017-09-12 | 浙江农林大学 | 基于卷积神经网络和手机传感器数据的跌倒检测方法 |
CN107909153A (zh) * | 2017-11-24 | 2018-04-13 | 天津科技大学 | 基于条件生成对抗网络的模型化策略搜索学习方法 |
CN108288094A (zh) * | 2018-01-31 | 2018-07-17 | 清华大学 | 基于环境状态预测的深度强化学习方法及装置 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN108932671A (zh) * | 2018-06-06 | 2018-12-04 | 上海电力学院 | 一种采用深度q神经网络调参的lstm风电负荷预测方法 |
CN109257429A (zh) * | 2018-09-25 | 2019-01-22 | 南京大学 | 一种基于深度强化学习的计算卸载调度方法 |
CN109474497A (zh) * | 2018-12-19 | 2019-03-15 | 四川艾贝斯科技发展有限公司 | 一种可靠的网络维持终端深度学习算法 |
CN109621431A (zh) * | 2018-11-30 | 2019-04-16 | 网易(杭州)网络有限公司 | 一种游戏动作的处理方法和装置 |
CN109740741A (zh) * | 2019-01-09 | 2019-05-10 | 上海理工大学 | 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法 |
CN109740839A (zh) * | 2018-11-23 | 2019-05-10 | 北京交通大学 | 一种突发事件下的列车动态调整方法及*** |
CN110221611A (zh) * | 2019-06-11 | 2019-09-10 | 北京三快在线科技有限公司 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
US20190279383A1 (en) * | 2016-09-15 | 2019-09-12 | Google Llc | Image depth prediction neural networks |
CN110533054A (zh) * | 2018-05-25 | 2019-12-03 | 中国电力科学研究院有限公司 | 一种多模态自适应机器学习方法及装置 |
CN110955466A (zh) * | 2018-09-27 | 2020-04-03 | 罗伯特·博世有限公司 | 用于测定智能体的策略的方法、装置和计算机程序 |
CN110956617A (zh) * | 2019-11-18 | 2020-04-03 | 湖北工业大学 | 基于循环注意力模型的大脑核磁共振异常图像可视化方法 |
CN112348285A (zh) * | 2020-11-27 | 2021-02-09 | 中国科学院空天信息创新研究院 | 一种基于深度强化学习的动态环境下人群疏散模拟方法 |
CN113254872A (zh) * | 2021-05-31 | 2021-08-13 | 大连理工大学 | 一种基于智能体通信机制的复杂游戏场景下的策略选择方法 |
CN113614743A (zh) * | 2019-03-18 | 2021-11-05 | 罗伯特·博世有限公司 | 用于操控机器人的方法和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345656A (zh) * | 2013-07-17 | 2013-10-09 | 中国科学院自动化研究所 | 一种基于多任务深度神经网络的数据识别方法及装置 |
CN104217226A (zh) * | 2014-09-09 | 2014-12-17 | 天津大学 | 基于深度神经网络与条件随机场的对话行为识别方法 |
CN104538028A (zh) * | 2014-12-25 | 2015-04-22 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN104700828A (zh) * | 2015-03-19 | 2015-06-10 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN105389980A (zh) * | 2015-11-09 | 2016-03-09 | 上海交通大学 | 基于长短时记忆递归神经网络的短时交通流预测方法 |
-
2016
- 2016-06-06 CN CN201610398668.5A patent/CN106096729B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345656A (zh) * | 2013-07-17 | 2013-10-09 | 中国科学院自动化研究所 | 一种基于多任务深度神经网络的数据识别方法及装置 |
CN104217226A (zh) * | 2014-09-09 | 2014-12-17 | 天津大学 | 基于深度神经网络与条件随机场的对话行为识别方法 |
CN104538028A (zh) * | 2014-12-25 | 2015-04-22 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN104700828A (zh) * | 2015-03-19 | 2015-06-10 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN105389980A (zh) * | 2015-11-09 | 2016-03-09 | 上海交通大学 | 基于长短时记忆递归神经网络的短时交通流预测方法 |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11734847B2 (en) | 2016-09-15 | 2023-08-22 | Google Llc | Image depth prediction neural networks |
US10929996B2 (en) * | 2016-09-15 | 2021-02-23 | Google Llc | Image depth prediction neural networks |
US20190279383A1 (en) * | 2016-09-15 | 2019-09-12 | Google Llc | Image depth prediction neural networks |
CN106709449B (zh) * | 2016-12-22 | 2020-04-21 | 深圳市深网视界科技有限公司 | 一种基于深度学习和强化学习的行人重识别方法及*** |
CN106709449A (zh) * | 2016-12-22 | 2017-05-24 | 深圳市深网视界科技有限公司 | 一种基于深度学习和强化学习的行人重识别方法及*** |
CN106844949A (zh) * | 2017-01-18 | 2017-06-13 | 清华大学 | 一种用于实现机车节能操纵的双向lstm模型的训练方法 |
CN106844949B (zh) * | 2017-01-18 | 2020-01-10 | 清华大学 | 一种用于实现机车节能操纵的双向lstm模型的训练方法 |
CN107153871A (zh) * | 2017-05-09 | 2017-09-12 | 浙江农林大学 | 基于卷积神经网络和手机传感器数据的跌倒检测方法 |
CN107909153A (zh) * | 2017-11-24 | 2018-04-13 | 天津科技大学 | 基于条件生成对抗网络的模型化策略搜索学习方法 |
CN108288094A (zh) * | 2018-01-31 | 2018-07-17 | 清华大学 | 基于环境状态预测的深度强化学习方法及装置 |
CN108288094B (zh) * | 2018-01-31 | 2021-06-29 | 清华大学 | 基于环境状态预测的深度强化学习方法及装置 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN110533054B (zh) * | 2018-05-25 | 2024-02-06 | 中国电力科学研究院有限公司 | 一种多模态自适应机器学习方法及装置 |
CN110533054A (zh) * | 2018-05-25 | 2019-12-03 | 中国电力科学研究院有限公司 | 一种多模态自适应机器学习方法及装置 |
CN108932671A (zh) * | 2018-06-06 | 2018-12-04 | 上海电力学院 | 一种采用深度q神经网络调参的lstm风电负荷预测方法 |
CN109257429A (zh) * | 2018-09-25 | 2019-01-22 | 南京大学 | 一种基于深度强化学习的计算卸载调度方法 |
CN110955466A (zh) * | 2018-09-27 | 2020-04-03 | 罗伯特·博世有限公司 | 用于测定智能体的策略的方法、装置和计算机程序 |
CN109740839A (zh) * | 2018-11-23 | 2019-05-10 | 北京交通大学 | 一种突发事件下的列车动态调整方法及*** |
CN109740839B (zh) * | 2018-11-23 | 2021-06-18 | 北京交通大学 | 一种突发事件下的列车动态调整方法及*** |
CN109621431A (zh) * | 2018-11-30 | 2019-04-16 | 网易(杭州)网络有限公司 | 一种游戏动作的处理方法和装置 |
CN109621431B (zh) * | 2018-11-30 | 2022-06-14 | 网易(杭州)网络有限公司 | 一种游戏动作的处理方法和装置 |
CN109474497A (zh) * | 2018-12-19 | 2019-03-15 | 四川艾贝斯科技发展有限公司 | 一种可靠的网络维持终端深度学习算法 |
CN109740741B (zh) * | 2019-01-09 | 2023-07-25 | 上海理工大学 | 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法 |
CN109740741A (zh) * | 2019-01-09 | 2019-05-10 | 上海理工大学 | 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法 |
CN113614743A (zh) * | 2019-03-18 | 2021-11-05 | 罗伯特·博世有限公司 | 用于操控机器人的方法和设备 |
CN110221611B (zh) * | 2019-06-11 | 2020-09-04 | 北京三快在线科技有限公司 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
CN110221611A (zh) * | 2019-06-11 | 2019-09-10 | 北京三快在线科技有限公司 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
CN110956617A (zh) * | 2019-11-18 | 2020-04-03 | 湖北工业大学 | 基于循环注意力模型的大脑核磁共振异常图像可视化方法 |
CN112348285A (zh) * | 2020-11-27 | 2021-02-09 | 中国科学院空天信息创新研究院 | 一种基于深度强化学习的动态环境下人群疏散模拟方法 |
CN112348285B (zh) * | 2020-11-27 | 2021-08-10 | 中国科学院空天信息创新研究院 | 一种基于深度强化学习的动态环境下人群疏散模拟方法 |
CN113254872A (zh) * | 2021-05-31 | 2021-08-13 | 大连理工大学 | 一种基于智能体通信机制的复杂游戏场景下的策略选择方法 |
CN113254872B (zh) * | 2021-05-31 | 2023-12-19 | 大连理工大学 | 一种基于智能体通信机制的复杂游戏场景下的策略选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106096729B (zh) | 2018-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106096729A (zh) | 一种面向大规模环境中复杂任务的深度策略学习方法 | |
CN109711529B (zh) | 一种基于值迭代网络的跨领域联邦学习模型及方法 | |
US20200372822A1 (en) | Training system for autonomous driving control policy | |
US20220363259A1 (en) | Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device | |
US10586173B2 (en) | Searchable database of trained artificial intelligence objects that can be reused, reconfigured, and recomposed, into one or more subsequent artificial intelligence models | |
CN106970615A (zh) | 一种深度强化学习的实时在线路径规划方法 | |
CN107479547B (zh) | 基于示教学习的决策树行为决策算法 | |
US11086938B2 (en) | Interpreting human-robot instructions | |
CN104504520B (zh) | 一种基于神经网络的深空探测器自主任务规划方法 | |
CN109782600A (zh) | 一种通过虚拟环境建立自主移动机器人导航***的方法 | |
CN110472738A (zh) | 一种基于深度强化学习的无人艇实时避障算法 | |
CN104834308A (zh) | 满足复杂需求的最优巡回控制方法 | |
CN115659275A (zh) | 非结构化人机交互环境中的实时准确轨迹预测方法及*** | |
CN114372570A (zh) | 一种多模态车辆轨迹预测方法 | |
Li et al. | SADRL: Merging human experience with machine intelligence via supervised assisted deep reinforcement learning | |
CN110928302A (zh) | 一种人机协同自然语言空间导航方法及*** | |
Li | A hierarchical autonomous driving framework combining reinforcement learning and imitation learning | |
CN110039537A (zh) | 一种基于神经网络的在线自学习多关节运动规划方法 | |
CN116824303B (zh) | 基于损伤驱动和多模态多任务学习的结构巡检智能体导航方法 | |
Guan et al. | Ab-mapper: Attention and bicnet based multi-agent path planning for dynamic environment | |
US20230195134A1 (en) | Path planning method | |
Madni | Augmented intelligence: a human productivity and performance amplifier in systems engineering and engineered human–machine systems | |
CN114118371A (zh) | 一种智能体深度强化学习方法及计算机可读介质 | |
CN114153216A (zh) | 基于深度强化学习和块规划的月面路径规划***和方法 | |
Geiger et al. | Experimental and causal view on information integration in autonomous agents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210721 Address after: ACDF, 6th floor, block a, building 7, Baoneng Science Park, Qinghu Industrial Park, Qingxiang Road, Longhua office, Longhua New District, Shenzhen, Guangdong 518000 Patentee after: SHENZHEN ANRUAN TECHNOLOGY Co.,Ltd. Address before: 300222 Tianjin University of Science and Technology, 1038 South Road, Tianjin, Hexi District, Dagu Patentee before: Tianjin University of Science and Technology |
|
PP01 | Preservation of patent right | ||
PP01 | Preservation of patent right |
Effective date of registration: 20240109 Granted publication date: 20181120 |