CN108536144A - 一种融合稠密卷积网络和竞争架构的路径规划方法 - Google Patents
一种融合稠密卷积网络和竞争架构的路径规划方法 Download PDFInfo
- Publication number
- CN108536144A CN108536144A CN201810313574.2A CN201810313574A CN108536144A CN 108536144 A CN108536144 A CN 108536144A CN 201810313574 A CN201810313574 A CN 201810313574A CN 108536144 A CN108536144 A CN 108536144A
- Authority
- CN
- China
- Prior art keywords
- network
- action
- online
- planning
- framework
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000004927 fusion Effects 0.000 title claims abstract description 20
- 230000009471 action Effects 0.000 claims abstract description 62
- 230000006870 function Effects 0.000 claims abstract description 42
- 239000000203 mixture Substances 0.000 claims abstract description 31
- 238000011478 gradient descent method Methods 0.000 claims abstract description 4
- 230000007613 environmental effect Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 239000010410 layer Substances 0.000 description 10
- 238000012549 training Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000013016 learning Effects 0.000 description 4
- 230000002860 competitive effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 231100000572 poisoning Toxicity 0.000 description 2
- 230000000607 poisoning effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- General Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Electromagnetism (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Manipulator (AREA)
Abstract
本发明公开一种融合稠密卷积网络和竞争架构的路径规划方法,其中移动机器人从经验回放存储器中采样mini‑batch个转换信息,并按照预设规则从两个融合路径规划网络中选择一个作为在线网络,另一个则作为目标网络;通过预测的在线动作值函数Q(s,a;w)和对应贪婪动作,获取预测的目标动作值函数的最大值;根据预测的目标动作值函数的最大值和预测的在线动作值函数计算当前时间步上的损失函数;根据损失函数利用随机梯度下降法更新在线网络权重w。本发明通过融合稠密卷积网络和竞争架构组成了一个更加轻盈的融合路径规划网络,简化了模型参数,降低了训练开支,还缩短了规划时间,在一定程度上满足高速路径规划的需要。
Description
技术领域
本发明涉及深度学习与人工智能领域,具体而言,本发明为一种融合稠密卷积网络和竞争架构的路径规划方法。
背景技术
移动机器人的路径规划是指在给定环境、机器人模型,指定规划目标的情况下自主地计算出机器人的运动路径。在实际中,人们一般采用诸如蚁群算法、遗传算法等传统方法解决,但是随着科学技术的不断发展,移动机器人面临的环境越来越复杂多变,传统的路径规划方法已满足不了移动机器人需求。
针对这种情况,人们提出了深度增强学习(Deep Reinforcement Learning,简称,DRL),DRL将深度学习与强化学习进行了融合,其中深度学习主要负责利用神经网络的感知功能对输入的环境状态提取特征,实现环境状态到状态动作值函数的拟合;而强化学习则负责根据深度神经网络的输出和一定的探索策略完成决策,从而实现状态到动作的映射,其能够较好的满足移动机器人的移动需求。一般都以DRL中DQN网络及其改进算法为基础进行路径规划,但是,DQN算法存在动作值高估现象,且DQN网络的训练不够快速,不能满足高速路径规划的需求。
发明内容
为了寻找能够满足移动机器人高速路径规划的方案,本发明提供了一种融合稠密卷积网络和竞争架构的路径规划方法,该方法包括:
步骤S1:移动机器人从经验回放存储器中采样mini-batch个转换信息(s,a,r,s′,d),按照预设规则从两个融合路径规划网络中选择一个作为在线网络,另一个则作为目标网络;所述融合路径规划网络由稠密卷积网络和竞争架构融合而成;
其中,所述mini-batch为每个时间步上用来更新的采样经验的个数;
所述s为当前的环境状态;所述s′为与所述环境状态s对应的后继状态;
所述a为所述移动机器人采用∈-贪婪策略确认执行的动作;
所述r为执行所述动作a后环境给予的即时奖励;所述d是任务结束与否的标志;
步骤S2:根据所述环境状态s和所述在线网络获取预测的在线动作值函数Q(s,a;w),所述预测的在线动作值函数Q(s,a;w)为在所述环境状态s下所有可能动作a的预测动作函数值;根据所述后继状态s′和所述在线网络获取贪婪动作a′,所述贪婪动作a′为所述后继状态s′在所述在线网络中预测的动作值函数的最大值maxa′Q(s′,a′,w);所述w为所述在线网络的权重参数;
步骤S3:根据所述后继状态s′、所述贪婪动作a′以及所述目标网络获取预测的目标动作值函数的最大值Q(s′,argmaxa′Q(s′,a′,w),w-),所述w-为所述目标网络的权重参数;
步骤S4:根据所述预测的目标动作值函数的最大值
Q(s′,argmaxa′Q(s′,a′,w),w-)
和所述预测的在线动作值函数Q(s,a;w)计算当前时间步上的损失函数:
所述γ为折扣因子,所述为求所述采样的mini-batch个转换信息中转换信息(s,a,r,s′,d)的更新误差的期望值;
步骤S5:根据所述损失函数利用随机梯度下降法在每个时间步上更新所述在线网络的权重参数w,每隔τ个时间步更新所述目标网络的权重参数w-,所述τ为大于0的自然数。
优选地,所述预设规则为按照50%的概率从两个融合路径规划网络中选择一个作为在线网络,另一个则为目标网络。
优选地,所述步骤S1之前包括如下步骤:
移动机器人根据所处的位置信息和SLAM重构的环境地图生成环境状态s;
通过环境状态s、后继状态s′以及两个融合路径规划网络生成转换信息,并存储在经验回放存储器中。
优选地,所述通过环境状态s、后继状态s′以及两个融合路径规划网络生成转换信息,并存储在经验回放存储器中包括如下步骤:
步骤P1:将当前的环境状态s同时输入到所述两个融合路径规划网络中的所述在线网络和所述目标网络中;
步骤P2:根据∈-贪婪策略确定动作a并执行;
步骤P3:接收环境反馈回来的即时奖励r,同时获得环境在执行动作a后转换到的后继状态s′,从而得到转换信息(s,a,r,s′,d);
步骤P4:重复步骤P1、步骤P2以及步骤P3,并在每个时间上将采集到的转换信息存储到经验回放存储器中。
优选地,所述步骤P2包括:
以概率∈随机选择一个动作a或者以概率1-∈根据所述在线网络的输出Q函数选择最大Q值对应的贪婪动作。
优选地,所述融合路径规划网络由稠密卷积网络和竞争架构融合而成包括如下步骤:
在所述稠密卷积网络的最后输出层应用所述竞争架构。
与现有技术相比,本发明一种融合稠密卷积网络和竞争架构的路径规划方法具有如下有益效果:
本发明一种融合稠密卷积网络和竞争架构的路径规划方法通过融合稠密卷积网络和竞争架构形成更加轻盈的融合路径规划网络,简化了模型参数,降低了训练开支,还缩短了规划时间,在一定程度上满足高速路径规划的需要。此外,该融合稠密卷积网络和竞争架构的路径规划方法还能保证机器人对快速变化的环境具有很强的泛化能力,并达到更加顶尖的路径规划性能,从而更为高效的实现了移动机器人的路径规划。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例一种融合稠密卷积网络和竞争架构的路径规划方法的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
请参阅图1,本发明实施例一种融合稠密卷积网络和竞争架构的路径规划方法,其包括如下步骤:
步骤S1:移动机器人从经验回放存储器中采样mini-batch个转换信息(s,a,r,s′,d),按照预设规则从两个融合路径规划网络中选择一个作为在线网络,另一个则作为目标网络;所述融合路径规划网络由稠密卷积网络和竞争架构融合而成,
其中,所述mini-batch为每个时间步上用来更新的采样经验的个数;
所述s为当前的环境状态;所述s′为与所述环境状态s对应的后继状态;
所述a为所述移动机器人采用∈-贪婪策略确认执行的动作;
所述r为执行所述动作a后环境给予的即时奖励;
所述d是任务结束与否的标志。
在一些实施方式中,融合路径规划网络由稠密卷积网络和竞争架构融合而成包括如下步骤:
在稠密卷积网络的最后输出层应用所述竞争架构。
优选地,预设规则为按照50%的概率从两个融合路径规划网络中选择一个作为在线网络,另一个则为目标网络。
在一些实施方式中,在线网络和目标网络的角色优选固定不变。
在一些实施方式中,两个融合路径规划网络的权重参数都服从标准正态分布N(0,1)。
在实际中,在开始训练机器人之前,需要一些能得到环境地图且使经验回放缓冲器中有一定数量的转换信息的时间步,在步骤S1之前完成,其包括如下步骤:
移动机器人根据所处的位置信息和SLAM重构的环境地图生成环境状态s;
通过环境状态s、后继状态s′以及两个融合路径规划网络生成转换信息,并存储在经验回放存储器中。
即时定位与地图构建(simultaneous localization and mapping,简称SLAM)用于解决移动机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位,同时在自身定位的基础上建造增量式地图,实现移动机器人的自主定位和导航。
在一些实施方式中,根据移动机器人位置信息和SLAM重构的环境地图生成环境状态s还包括如下步骤:
通过移动机器人的位置信息和SLAM重构的整体环境地图确定当前的环境图像;
调用预处理模块将当前环境图像网格化为环境状态s,其中,预处理模块包含网格化、渲染两个操作,其中,网格化操作将彩色的环境图像以特定个数的像素方块为单位进行划分,网格化成为网格地图;渲染操作将网格地图中的不可通行的区域和障碍物方块渲染为红色的方块,再将其中表示起点和智能体实时位置的方块渲染成蓝色块,目标点渲染成绿色块,从而形成彩色的环境地图,即为环境状态s。
在一些实施方式中,通过环境状态s、后继状态s′以及两个融合路径规划网络生成转换信息,并存储在经验回放存储器中包括如下步骤:
步骤P1:将当前的环境状态s同时输入到所述两个融合路径规划网络中的在线网络和目标网络中。
为了便于理解竞争结构,下面以带竞争结构的DQN网络为例进行解释说明,在带竞争结构的DQN网络中其最后一个卷积层均分为两半,再分别连接一个隐藏的密集层,其每个密集层都是一个独立的估计器。其中一个估计器用于状态值函数V(s)的估计,另一个估计器用来估计依赖状态的动作优势函数A(s,a),最后按照下式组合成Q(s,a):
其中,标量V(s;θ,β)为状态值函数V(s)的估计,维向量A(s,a;θ,α)为动作优势函数A(s,a)的估计,θ为网络卷积层的权重参数,α和β分别是两个密集层的权重参数。
稠密卷积网络是由许多稠密块和过渡层组成的卷积网络。稠密块中的每两层间均以前馈方式连接,每一层都将之前所有层的输出特征图作为其输入,而将自身的输出特征图作为其之后所有层输入的一部分。在这种连接模式下,稠密卷积网络模型更加紧凑,不易陷入过拟合,信息流能传播到更深层,卷积网络变得更加容易训练。总之,稠密卷积网络有助于解决神经网络的梯度消失问题,有利于所提取特征的传播和重利用,还能减少模型的参数量。
在一些实施方式中,在路径规划任务的每一个时间步上,从两个融合路径规划网络中按照预设规则确定在线网络和目标网络。此后,用深度双重Q网络算法训练网络参数,在线网络和目标网络的角色固定不变。
示例地,设若w≡(θ,α,β),在线网络为Q(s,a,wA)和目标网络为Q(s,a,wB),其中,wA为在线网络的权重参数,wB为目标网络的权重参数。
在实际中,可以在初始化时使在线网络的权重参数wA和目标网络的权重参数wB均服从标准正态分布N(0,1)。
步骤P2:根据∈-贪婪策略确定动作a并执行。
优选地,移动机器人以概率∈随机选择一个动作a或者以概率1-∈根据在线网络的输出Q函数选择最大Q值对应的贪婪动作。
示例地,移动机器人在第t时间步上采取的贪婪策略at由在线网络的输出Q函数决定,即
步骤P3:接收环境反馈回来的即时奖励r,同时获得环境在执行动作a后转换到的后继状态s′,从而得到转换信息(s,a,r,s′,d)。
对应地,s′是执行动作a后的环境的后继状态,其与环境状态s和动作a对应;d是任务结束与否的标志;即时奖励r可为正值、负值或者零。
在一些实施方式中,若移动机器人执行动作a后遇到障碍物或者环境的边界,则给予-1的惩罚值;若移动机器人执行动作a后到达目标点,则给予+1的奖励值,其他情况下都给予-0.01的惩罚值。其中动作a可为向上、向下、向左、向右四个动作中的一个。
步骤P4:重复步骤P1、步骤P2以及步骤P3,并在每个时间上将采集到的转换信息存储到经验回放存储器中。
在一些实施方式中,mini-batch数值为32。
步骤S2:根据所述环境状态s和所述在线网络获取预测的在线动作值函数Q(s,a;w),所述预测的在线动作值函数Q(s,a;w)为在所述环境状态s下所有可能动作a的预测动作函数值;根据所述后继状态s′和所述在线网络获取贪婪动作a′,所述贪婪动作a′为所述后继状态s′在所述在线网络中预测的动作值函数的最大值maxa′Q(s′,a′,w);所述w为所述在线网络的权重参数;
步骤S3:根据所述后继状态s′、所述贪婪动作a′以及所述目标网络获取预测的目标动作值函数的最大值Q(s′,argmaxa′Q(s′,a′,w),w-),所述w-为所述目标网络的权重参数;
步骤S4:根据所述预测的目标动作值函数的最大值
Q(s′,argmaxa′Q(s′,a′,w),w-)
和所述预测的在线动作值函数Q(s,a;w)计算当前时间步上的损失函数:
所述γ为折扣因子,所述为求所述采样的mini-batch个转换信息中转换信息(s,a,r,s′,d)的更新误差的期望值。
步骤S5:根据所述损失函数利用随机梯度下降法在每个时间步上更新所述在线的融合路径规划网络的权重参数w,每隔τ个时间步更新目标网络的权重参数w-,所述τ为大于0的自然数。其中,随机梯度下降(Stochastic gradient descent,SGD)对每个训练样本进行参数更新,每次执行都进行一次参数梯度计算,它能基于训练数据迭代地更新神经网络权重。
为了便于理解步骤S2至步骤S5,下面举例说明,值得注意的是,由于本发明实施例在所有的时间步上将Q(s,a,wA)作为在线网络,Q(s,a,wB)作为目标网络。为了体现两个融合路径规划网络角色的固定性,本发明在此用w表示在线网络Q(s,a,wA)的权重参数,而w-表示目标网络Q(s,a,wB)的权重参数。详细如下:
假设在第t个时间步上,wt为在线网络Q(s,a,wA)的权重参数,wt -为目标网络Q(s,a,wB)的权重参数;则一种融合稠密卷积网络和竞争架构的路径规划方法,也即用深度双重Q网络算法训练两个融合路径规划网络用来路径规划的方法,在第t个时间步上的更新公式如下:
其中,lr为学习速率。
值得注意的是,在第t个时间步上,对在线网络的权重wt进行更新,而目标网络的权重参数不更新且保持参数不变。但是,若t为τ的整数倍,则按照的方式更新此外,在估计更新目标时使用的贪婪策略a′t由在线网络Q(·,·;wt)确定,然后再根据目标网络来确定其对应的动作函数值从而确定更新目标与损失函数来更新在线网络的参数wt。
当经过预设轮的迭代之后,得到训练完成的两个融合路径规划网络Q(s,a,wA)、Q(s,a,wB)。二者的参数更新是基于不同的经验样本集进行的,因此可以将此过程中对动作值函数的估计视为无偏估计,故融合稠密卷积网络和竞争架构的路径规划方法将竞争结构与稠密卷积网络融合得到更轻盈的路径规划网络,再用深度双重Q网络算法训练,其数据利用效率更高,训练更快。
经过上述步骤,则得到移动机器人在每个时间步上的最优决策动作,即每个时间步上的运动方向,从而组合成该任务的最优决策。
图1示出了融合稠密卷积网络和竞争架构的路径规划方法的流程示意图,其中,首先将获取的机器人位置信息和SLAM重构的环境地图合成为整体环境图像后经过预处理模块获得状态s,然后移动机器人基于状态s、两个融合路径规划网络生成并执行动作a,最后得到环境反馈的即时奖励r,并转换到环境的下一个环境状态s′。如此往复,最后,组合成该环境中寻找到的最优路径。
与现有技术相比,本发明实施例一种融合稠密卷积网络和竞争架构的路径规划方法具有如下有益效果:
本发明实施例一种融合稠密卷积网络和竞争架构的路径规划方法通过融合稠密卷积网络和竞争架构形成更加轻盈的融合路径规划网络,简化了模型参数,降低了训练开支,还缩短了规划时间,在一定程度上满足高速路径规划的需要。此外,该融合稠密卷积网络和竞争架构的路径规划方法还能保证机器人对快速变化的环境具有很强的泛化能力,并达到更加顶尖的路径规划性能,从而更为高效的实现了移动机器人的路径规划。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种融合稠密卷积网络和竞争架构的路径规划方法,其特征在于,该融合稠密卷积网络和竞争架构的路径规划方法包括:
步骤S1:移动机器人从经验回放存储器中采样mini-batch个转换信息(s,a,r,s′,d),按照预设规则从两个融合路径规划网络中选择一个作为在线网络,另一个则作为目标网络;所述融合路径规划网络由稠密卷积网络和竞争架构融合而成;
其中,所述mini-batch为每个时间步上用来更新的采样经验的个数;
所述s为当前的环境状态;所述s′为与所述环境状态s对应的后继状态;
所述a为所述移动机器人采用∈-贪婪策略确认执行的动作;
所述r为执行所述动作a后环境给予的即时奖励;所述d是任务结束与否的标志;
步骤S2:根据所述环境状态s和所述在线网络获取预测的在线动作值函数Q(s,a;w),所述预测的在线动作值函数Q(s,a;w)为在所述环境状态s下所有可能动作a的预测动作函数值;根据所述后继状态s′和所述在线网络获取贪婪动作a′,所述贪婪动作a′为所述后继状态s′在所述在线网络中预测的动作值函数的最大值maxa′Q(s′,a′,w);所述w为所述在线网络的权重参数;
步骤S3:根据所述后继状态s′、所述贪婪动作a′以及所述目标网络获取预测的目标动作值函数的最大值Q(s′,argmaxa′Q(s′,a′,w),w-),所述w-为所述目标网络的权重参数;
步骤S4:根据所述预测的目标动作值函数的最大值
Q(s′,argmaxa′Q(s′,a′,w),w-)
和所述预测的在线动作值函数Q(s,a;w)计算当前时间步上的损失函数:
所述γ为折扣因子,所述为求所述采样的mini-batch个转换信息中转换信息(s,a,r,s′,d)的更新误差的期望值;
步骤S5:根据所述损失函数利用随机梯度下降法在每个时间步上更新所述在线网络的权重参数w,每隔τ个时间步更新所述目标网络的权重参数w-,所述τ为大于0的自然数。
2.如权利要求1所述的融合稠密卷积网络和竞争架构的路径规划方法,其特征在于,所述预设规则为按照50%的概率从两个融合路径规划网络中选择一个作为在线网络,另一个则为目标网络。
3.如权利要求1所述的融合稠密卷积网络和竞争架构的路径规划方法,其特征在于,所述步骤S1之前包括如下步骤:
移动机器人根据所处的位置信息和SLAM重构的环境地图生成环境状态s;
通过环境状态s、后继状态s′以及两个融合路径规划网络生成转换信息,并存储在经验回放存储器中。
4.如权利要求3所述的融合稠密卷积网络和竞争架构的路径规划方法,其特征在于,所述通过环境状态s、后继状态s′以及两个融合路径规划网络生成转换信息,并存储在经验回放存储器中包括如下步骤:
步骤P1:将当前的环境状态s同时输入到所述两个融合路径规划网络中的所述在线网络和所述目标网络中;
步骤P2:根据∈-贪婪策略确定动作a并执行;
步骤P3:接收环境反馈回来的即时奖励r,同时获得环境在执行动作a后转换到的后继状态s′,从而得到转换信息(s,a,r,s′,d);
步骤P4:重复步骤P1、步骤P2以及步骤P3,并在每个时间上将采集到的转换信息存储到经验回放存储器中。
5.如权利要求4所述的融合稠密卷积网络和竞争架构的路径规划方法,其特征在于,所述步骤P2包括:
以概率∈随机选择一个动作a或者以概率1-∈根据所述在线网络的输出Q函数选择最大Q值对应的贪婪动作。
6.如权利要求1所述的融合稠密卷积网络和竞争架构的路径规划方法,其特征在于,所述融合路径规划网络由稠密卷积网络和竞争架构融合而成包括如下步骤:在所述稠密卷积网络的最后输出层应用所述竞争架构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810313574.2A CN108536144A (zh) | 2018-04-10 | 2018-04-10 | 一种融合稠密卷积网络和竞争架构的路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810313574.2A CN108536144A (zh) | 2018-04-10 | 2018-04-10 | 一种融合稠密卷积网络和竞争架构的路径规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108536144A true CN108536144A (zh) | 2018-09-14 |
Family
ID=63479670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810313574.2A Pending CN108536144A (zh) | 2018-04-10 | 2018-04-10 | 一种融合稠密卷积网络和竞争架构的路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108536144A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109544613A (zh) * | 2018-11-23 | 2019-03-29 | 南昌航空大学 | 一种基于稠密网络深度学习的双目立体匹配方法及*** |
CN109870162A (zh) * | 2019-04-04 | 2019-06-11 | 北京航空航天大学 | 一种基于竞争深度学习网络的无人机飞行路径规划方法 |
CN110247795A (zh) * | 2019-05-30 | 2019-09-17 | 北京邮电大学 | 一种基于意图的云网资源服务链编排方法及*** |
CN110515303A (zh) * | 2019-09-17 | 2019-11-29 | 余姚市浙江大学机器人研究中心 | 一种基于ddqn的自适应动态路径规划方法 |
CN111429502A (zh) * | 2019-03-26 | 2020-07-17 | 深圳科亚医疗科技有限公司 | 用于生成对象的中心线的方法和***以及计算机可读介质 |
CN113111296A (zh) * | 2019-12-24 | 2021-07-13 | 浙江吉利汽车研究院有限公司 | 一种车辆的路径规划方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106950969A (zh) * | 2017-04-28 | 2017-07-14 | 深圳市唯特视科技有限公司 | 一种基于无地图运动规划器的移动机器人连续控制方法 |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN106991646A (zh) * | 2017-03-28 | 2017-07-28 | 福建帝视信息科技有限公司 | 一种基于密集连接网络的图像超分辨率方法 |
CN108375379A (zh) * | 2018-02-01 | 2018-08-07 | 上海理工大学 | 基于变异的双重dqn的快速路径规划方法及移动机器人 |
-
2018
- 2018-04-10 CN CN201810313574.2A patent/CN108536144A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN106991646A (zh) * | 2017-03-28 | 2017-07-28 | 福建帝视信息科技有限公司 | 一种基于密集连接网络的图像超分辨率方法 |
CN106950969A (zh) * | 2017-04-28 | 2017-07-14 | 深圳市唯特视科技有限公司 | 一种基于无地图运动规划器的移动机器人连续控制方法 |
CN108375379A (zh) * | 2018-02-01 | 2018-08-07 | 上海理工大学 | 基于变异的双重dqn的快速路径规划方法及移动机器人 |
Non-Patent Citations (3)
Title |
---|
ZIYU WANG 等: "Dueling Network Architectures for Deep Reinforcement Learning", 《INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 * |
王丽君 等: "基于卷积神经网络的位置识别", 《电子科技》 * |
罗海波 等: "基于深度学习的目标跟踪方法研究现状与展望", 《红外与激光工程》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109544613A (zh) * | 2018-11-23 | 2019-03-29 | 南昌航空大学 | 一种基于稠密网络深度学习的双目立体匹配方法及*** |
CN111429502A (zh) * | 2019-03-26 | 2020-07-17 | 深圳科亚医疗科技有限公司 | 用于生成对象的中心线的方法和***以及计算机可读介质 |
CN111429502B (zh) * | 2019-03-26 | 2024-03-22 | 深圳科亚医疗科技有限公司 | 用于生成对象的中心线的方法和***以及计算机可读介质 |
CN109870162A (zh) * | 2019-04-04 | 2019-06-11 | 北京航空航天大学 | 一种基于竞争深度学习网络的无人机飞行路径规划方法 |
CN109870162B (zh) * | 2019-04-04 | 2020-10-30 | 北京航空航天大学 | 一种基于竞争深度学习网络的无人机飞行路径规划方法 |
CN110247795A (zh) * | 2019-05-30 | 2019-09-17 | 北京邮电大学 | 一种基于意图的云网资源服务链编排方法及*** |
CN110247795B (zh) * | 2019-05-30 | 2020-09-25 | 北京邮电大学 | 一种基于意图的云网资源服务链编排方法及*** |
CN110515303A (zh) * | 2019-09-17 | 2019-11-29 | 余姚市浙江大学机器人研究中心 | 一种基于ddqn的自适应动态路径规划方法 |
CN110515303B (zh) * | 2019-09-17 | 2022-09-09 | 余姚市浙江大学机器人研究中心 | 一种基于ddqn的自适应动态路径规划方法 |
CN113111296A (zh) * | 2019-12-24 | 2021-07-13 | 浙江吉利汽车研究院有限公司 | 一种车辆的路径规划方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536144A (zh) | 一种融合稠密卷积网络和竞争架构的路径规划方法 | |
CN108375379A (zh) | 基于变异的双重dqn的快速路径规划方法及移动机器人 | |
CN106970615B (zh) | 一种深度强化学习的实时在线路径规划方法 | |
Jiang et al. | Path planning for intelligent robots based on deep Q-learning with experience replay and heuristic knowledge | |
CN111766782B (zh) | 基于深度强化学习中Actor-Critic框架的策略选择方法 | |
CN112325897B (zh) | 基于启发式深度强化学习的路径规划方法 | |
Cao et al. | Target search control of AUV in underwater environment with deep reinforcement learning | |
CN110794842A (zh) | 基于势场的强化学习路径规划算法 | |
CN109945873A (zh) | 一种用于室内移动机器人运动控制的混合路径规划方法 | |
CN109241291A (zh) | 基于深度强化学习的知识图谱最优路径查询***及其方法 | |
CN113110509A (zh) | 一种基于深度强化学习的仓储***多机器人路径规划方法 | |
CN110883776B (zh) | 一种快速搜索机制下改进dqn的机器人路径规划算法 | |
CN111340868B (zh) | 基于视觉深度估计的无人水下航行器自主决策控制方法 | |
CN106934456A (zh) | 一种深度卷积神经网络模型构建方法 | |
CN109782600A (zh) | 一种通过虚拟环境建立自主移动机器人导航***的方法 | |
CN106022471A (zh) | 基于粒子群优化算法的小波神经网络模型船舶横摇实时预测方法 | |
CN111917642B (zh) | 分布式深度强化学习的sdn网络智慧路由数据传输方法 | |
CN109726676A (zh) | 自动驾驶***的规划方法 | |
CN109447312A (zh) | 路线规划方法、装置、电子设备及可读存储介质 | |
CN116449863A (zh) | 一种基于信息素的强化学习的无人机集群多目标搜索方法 | |
CN115129064A (zh) | 基于改进萤火虫算法与动态窗口法融合的路径规划方法 | |
Zwecher et al. | Integrating deep reinforcement and supervised learning to expedite indoor mapping | |
CN113299079B (zh) | 一种基于ppo和图卷积神经网络区域交叉口信号控制方法 | |
CN106203696A (zh) | 一种基于符号的混合装配序列生成方法 | |
Guan et al. | Ab-mapper: Attention and bicnet based multi-agent path planning for dynamic environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180914 |