CN108536144A

CN108536144A - 一种融合稠密卷积网络和竞争架构的路径规划方法

Info

Publication number: CN108536144A
Application number: CN201810313574.2A
Authority: CN
Inventors: 魏国亮; 黄颖; 耿双乐; 冯汉; 陈晗; 赵攀攀
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2018-09-14

Abstract

本发明公开一种融合稠密卷积网络和竞争架构的路径规划方法，其中移动机器人从经验回放存储器中采样mini‑batch个转换信息，并按照预设规则从两个融合路径规划网络中选择一个作为在线网络，另一个则作为目标网络；通过预测的在线动作值函数Q(s,a；w)和对应贪婪动作，获取预测的目标动作值函数的最大值；根据预测的目标动作值函数的最大值和预测的在线动作值函数计算当前时间步上的损失函数；根据损失函数利用随机梯度下降法更新在线网络权重w。本发明通过融合稠密卷积网络和竞争架构组成了一个更加轻盈的融合路径规划网络，简化了模型参数，降低了训练开支，还缩短了规划时间，在一定程度上满足高速路径规划的需要。

Description

一种融合稠密卷积网络和竞争架构的路径规划方法

技术领域

本发明涉及深度学习与人工智能领域，具体而言，本发明为一种融合稠密卷积网络和竞争架构的路径规划方法。

背景技术

移动机器人的路径规划是指在给定环境、机器人模型，指定规划目标的情况下自主地计算出机器人的运动路径。在实际中，人们一般采用诸如蚁群算法、遗传算法等传统方法解决，但是随着科学技术的不断发展，移动机器人面临的环境越来越复杂多变，传统的路径规划方法已满足不了移动机器人需求。

针对这种情况，人们提出了深度增强学习(Deep Reinforcement Learning，简称，DRL)，DRL将深度学习与强化学习进行了融合，其中深度学习主要负责利用神经网络的感知功能对输入的环境状态提取特征，实现环境状态到状态动作值函数的拟合；而强化学习则负责根据深度神经网络的输出和一定的探索策略完成决策，从而实现状态到动作的映射，其能够较好的满足移动机器人的移动需求。一般都以DRL中DQN网络及其改进算法为基础进行路径规划，但是，DQN算法存在动作值高估现象，且DQN网络的训练不够快速，不能满足高速路径规划的需求。

发明内容

为了寻找能够满足移动机器人高速路径规划的方案，本发明提供了一种融合稠密卷积网络和竞争架构的路径规划方法，该方法包括：

步骤S1：移动机器人从经验回放存储器中采样mini-batch个转换信息(s,a,r,s′,d)，按照预设规则从两个融合路径规划网络中选择一个作为在线网络，另一个则作为目标网络；所述融合路径规划网络由稠密卷积网络和竞争架构融合而成；

其中，所述mini-batch为每个时间步上用来更新的采样经验的个数；

所述s为当前的环境状态；所述s′为与所述环境状态s对应的后继状态；

所述a为所述移动机器人采用∈-贪婪策略确认执行的动作；

所述r为执行所述动作a后环境给予的即时奖励；所述d是任务结束与否的标志；

步骤S2：根据所述环境状态s和所述在线网络获取预测的在线动作值函数Q(s,a；w)，所述预测的在线动作值函数Q(s,a；w)为在所述环境状态s下所有可能动作a的预测动作函数值；根据所述后继状态s′和所述在线网络获取贪婪动作a′，所述贪婪动作a′为所述后继状态s′在所述在线网络中预测的动作值函数的最大值max_a′Q(s′,a′,w)；所述w为所述在线网络的权重参数；

步骤S3：根据所述后继状态s′、所述贪婪动作a′以及所述目标网络获取预测的目标动作值函数的最大值Q(s′,argmax_a′Q(s′,a′,w),w^-)，所述w^-为所述目标网络的权重参数；

步骤S4：根据所述预测的目标动作值函数的最大值

Q(s′,argmax_a′Q(s′,a′,w),w^-)

和所述预测的在线动作值函数Q(s,a；w)计算当前时间步上的损失函数：

所述γ为折扣因子，所述为求所述采样的mini-batch个转换信息中转换信息(s,a,r,s′,d)的更新误差的期望值；

步骤S5：根据所述损失函数利用随机梯度下降法在每个时间步上更新所述在线网络的权重参数w，每隔τ个时间步更新所述目标网络的权重参数w^-，所述τ为大于0的自然数。

优选地，所述预设规则为按照50％的概率从两个融合路径规划网络中选择一个作为在线网络，另一个则为目标网络。

优选地，所述步骤S1之前包括如下步骤：

移动机器人根据所处的位置信息和SLAM重构的环境地图生成环境状态s；

通过环境状态s、后继状态s′以及两个融合路径规划网络生成转换信息，并存储在经验回放存储器中。

优选地，所述通过环境状态s、后继状态s′以及两个融合路径规划网络生成转换信息，并存储在经验回放存储器中包括如下步骤：

步骤P1：将当前的环境状态s同时输入到所述两个融合路径规划网络中的所述在线网络和所述目标网络中；

步骤P2：根据∈-贪婪策略确定动作a并执行；

步骤P3：接收环境反馈回来的即时奖励r，同时获得环境在执行动作a后转换到的后继状态s′，从而得到转换信息(s,a,r,s′,d)；

步骤P4：重复步骤P1、步骤P2以及步骤P3，并在每个时间上将采集到的转换信息存储到经验回放存储器中。

优选地，所述步骤P2包括：

以概率∈随机选择一个动作a或者以概率1-∈根据所述在线网络的输出Q函数选择最大Q值对应的贪婪动作。

优选地，所述融合路径规划网络由稠密卷积网络和竞争架构融合而成包括如下步骤：

在所述稠密卷积网络的最后输出层应用所述竞争架构。

与现有技术相比，本发明一种融合稠密卷积网络和竞争架构的路径规划方法具有如下有益效果：

本发明一种融合稠密卷积网络和竞争架构的路径规划方法通过融合稠密卷积网络和竞争架构形成更加轻盈的融合路径规划网络，简化了模型参数，降低了训练开支，还缩短了规划时间，在一定程度上满足高速路径规划的需要。此外，该融合稠密卷积网络和竞争架构的路径规划方法还能保证机器人对快速变化的环境具有很强的泛化能力，并达到更加顶尖的路径规划性能，从而更为高效的实现了移动机器人的路径规划。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明实施例一种融合稠密卷积网络和竞争架构的路径规划方法的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

请参阅图1，本发明实施例一种融合稠密卷积网络和竞争架构的路径规划方法，其包括如下步骤：

步骤S1：移动机器人从经验回放存储器中采样mini-batch个转换信息(s,a,r,s′,d)，按照预设规则从两个融合路径规划网络中选择一个作为在线网络，另一个则作为目标网络；所述融合路径规划网络由稠密卷积网络和竞争架构融合而成，

所述a为所述移动机器人采用∈-贪婪策略确认执行的动作；

所述r为执行所述动作a后环境给予的即时奖励；

所述d是任务结束与否的标志。

在一些实施方式中，融合路径规划网络由稠密卷积网络和竞争架构融合而成包括如下步骤：

在稠密卷积网络的最后输出层应用所述竞争架构。

优选地，预设规则为按照50％的概率从两个融合路径规划网络中选择一个作为在线网络，另一个则为目标网络。

在一些实施方式中，在线网络和目标网络的角色优选固定不变。

在一些实施方式中，两个融合路径规划网络的权重参数都服从标准正态分布N(0，1)。

在实际中，在开始训练机器人之前，需要一些能得到环境地图且使经验回放缓冲器中有一定数量的转换信息的时间步，在步骤S1之前完成，其包括如下步骤：

即时定位与地图构建(simultaneous localization and mapping，简称SLAM)用于解决移动机器人在未知环境中从一个未知位置开始移动，在移动过程中根据位置估计和地图进行自身定位，同时在自身定位的基础上建造增量式地图，实现移动机器人的自主定位和导航。

在一些实施方式中，根据移动机器人位置信息和SLAM重构的环境地图生成环境状态s还包括如下步骤：

通过移动机器人的位置信息和SLAM重构的整体环境地图确定当前的环境图像；

调用预处理模块将当前环境图像网格化为环境状态s，其中，预处理模块包含网格化、渲染两个操作，其中，网格化操作将彩色的环境图像以特定个数的像素方块为单位进行划分，网格化成为网格地图；渲染操作将网格地图中的不可通行的区域和障碍物方块渲染为红色的方块，再将其中表示起点和智能体实时位置的方块渲染成蓝色块，目标点渲染成绿色块，从而形成彩色的环境地图，即为环境状态s。

在一些实施方式中，通过环境状态s、后继状态s′以及两个融合路径规划网络生成转换信息，并存储在经验回放存储器中包括如下步骤：

步骤P1：将当前的环境状态s同时输入到所述两个融合路径规划网络中的在线网络和目标网络中。

为了便于理解竞争结构，下面以带竞争结构的DQN网络为例进行解释说明，在带竞争结构的DQN网络中其最后一个卷积层均分为两半，再分别连接一个隐藏的密集层，其每个密集层都是一个独立的估计器。其中一个估计器用于状态值函数V(s)的估计，另一个估计器用来估计依赖状态的动作优势函数A(s,a)，最后按照下式组合成Q(s,a)：

其中，标量V(s；θ,β)为状态值函数V(s)的估计，维向量A(s,a；θ,α)为动作优势函数A(s,a)的估计，θ为网络卷积层的权重参数，α和β分别是两个密集层的权重参数。

稠密卷积网络是由许多稠密块和过渡层组成的卷积网络。稠密块中的每两层间均以前馈方式连接，每一层都将之前所有层的输出特征图作为其输入，而将自身的输出特征图作为其之后所有层输入的一部分。在这种连接模式下，稠密卷积网络模型更加紧凑，不易陷入过拟合，信息流能传播到更深层，卷积网络变得更加容易训练。总之，稠密卷积网络有助于解决神经网络的梯度消失问题，有利于所提取特征的传播和重利用，还能减少模型的参数量。

在一些实施方式中，在路径规划任务的每一个时间步上，从两个融合路径规划网络中按照预设规则确定在线网络和目标网络。此后，用深度双重Q网络算法训练网络参数，在线网络和目标网络的角色固定不变。

示例地，设若w≡(θ，α，β)，在线网络为Q(s,a,w^A)和目标网络为Q(s,a,w^B)，其中，w^A为在线网络的权重参数，w^B为目标网络的权重参数。

在实际中，可以在初始化时使在线网络的权重参数w^A和目标网络的权重参数w^B均服从标准正态分布N(0，1)。

步骤P2：根据∈-贪婪策略确定动作a并执行。

优选地，移动机器人以概率∈随机选择一个动作a或者以概率1-∈根据在线网络的输出Q函数选择最大Q值对应的贪婪动作。

示例地，移动机器人在第t时间步上采取的贪婪策略a_t由在线网络的输出Q函数决定，即

步骤P3：接收环境反馈回来的即时奖励r，同时获得环境在执行动作a后转换到的后继状态s′，从而得到转换信息(s,a,r,s′,d)。

对应地，s′是执行动作a后的环境的后继状态，其与环境状态s和动作a对应；d是任务结束与否的标志；即时奖励r可为正值、负值或者零。

在一些实施方式中，若移动机器人执行动作a后遇到障碍物或者环境的边界，则给予-1的惩罚值；若移动机器人执行动作a后到达目标点，则给予+1的奖励值，其他情况下都给予-0.01的惩罚值。其中动作a可为向上、向下、向左、向右四个动作中的一个。

在一些实施方式中，mini-batch数值为32。

步骤S4：根据所述预测的目标动作值函数的最大值

Q(s′,argmax_a′Q(s′,a′,w),w^-)

所述γ为折扣因子，所述为求所述采样的mini-batch个转换信息中转换信息(s,a,r,s′,d)的更新误差的期望值。

步骤S5：根据所述损失函数利用随机梯度下降法在每个时间步上更新所述在线的融合路径规划网络的权重参数w，每隔τ个时间步更新目标网络的权重参数w^-，所述τ为大于0的自然数。其中，随机梯度下降(Stochastic gradient descent，SGD)对每个训练样本进行参数更新，每次执行都进行一次参数梯度计算，它能基于训练数据迭代地更新神经网络权重。

为了便于理解步骤S2至步骤S5，下面举例说明，值得注意的是，由于本发明实施例在所有的时间步上将Q(s,a,w^A)作为在线网络，Q(s,a,w^B)作为目标网络。为了体现两个融合路径规划网络角色的固定性，本发明在此用w表示在线网络Q(s,a,w^A)的权重参数，而w^-表示目标网络Q(s,a,w^B)的权重参数。详细如下：

假设在第t个时间步上，w_t为在线网络Q(s,a,w^A)的权重参数，w_t ^-为目标网络Q(s,a,w^B)的权重参数；则一种融合稠密卷积网络和竞争架构的路径规划方法，也即用深度双重Q网络算法训练两个融合路径规划网络用来路径规划的方法，在第t个时间步上的更新公式如下：

其中，lr为学习速率。

值得注意的是，在第t个时间步上，对在线网络的权重w_t进行更新，而目标网络的权重参数不更新且保持参数不变。但是，若t为τ的整数倍，则按照的方式更新此外，在估计更新目标时使用的贪婪策略a′_t由在线网络Q(·,·；w_t)确定，然后再根据目标网络来确定其对应的动作函数值从而确定更新目标与损失函数来更新在线网络的参数w_t。

当经过预设轮的迭代之后，得到训练完成的两个融合路径规划网络Q(s,a,w^A)、Q(s,a,w^B)。二者的参数更新是基于不同的经验样本集进行的，因此可以将此过程中对动作值函数的估计视为无偏估计，故融合稠密卷积网络和竞争架构的路径规划方法将竞争结构与稠密卷积网络融合得到更轻盈的路径规划网络，再用深度双重Q网络算法训练，其数据利用效率更高，训练更快。

经过上述步骤，则得到移动机器人在每个时间步上的最优决策动作，即每个时间步上的运动方向，从而组合成该任务的最优决策。

图1示出了融合稠密卷积网络和竞争架构的路径规划方法的流程示意图，其中，首先将获取的机器人位置信息和SLAM重构的环境地图合成为整体环境图像后经过预处理模块获得状态s，然后移动机器人基于状态s、两个融合路径规划网络生成并执行动作a，最后得到环境反馈的即时奖励r，并转换到环境的下一个环境状态s′。如此往复，最后，组合成该环境中寻找到的最优路径。

与现有技术相比，本发明实施例一种融合稠密卷积网络和竞争架构的路径规划方法具有如下有益效果：

本发明实施例一种融合稠密卷积网络和竞争架构的路径规划方法通过融合稠密卷积网络和竞争架构形成更加轻盈的融合路径规划网络，简化了模型参数，降低了训练开支，还缩短了规划时间，在一定程度上满足高速路径规划的需要。此外，该融合稠密卷积网络和竞争架构的路径规划方法还能保证机器人对快速变化的环境具有很强的泛化能力，并达到更加顶尖的路径规划性能，从而更为高效的实现了移动机器人的路径规划。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种融合稠密卷积网络和竞争架构的路径规划方法，其特征在于，该融合稠密卷积网络和竞争架构的路径规划方法包括：

所述a为所述移动机器人采用∈-贪婪策略确认执行的动作；

步骤S4：根据所述预测的目标动作值函数的最大值

Q(s′,argmax_a′Q(s′,a′,w),w^-)

2.如权利要求1所述的融合稠密卷积网络和竞争架构的路径规划方法，其特征在于，所述预设规则为按照50％的概率从两个融合路径规划网络中选择一个作为在线网络，另一个则为目标网络。

3.如权利要求1所述的融合稠密卷积网络和竞争架构的路径规划方法，其特征在于，所述步骤S1之前包括如下步骤：

4.如权利要求3所述的融合稠密卷积网络和竞争架构的路径规划方法，其特征在于，所述通过环境状态s、后继状态s′以及两个融合路径规划网络生成转换信息，并存储在经验回放存储器中包括如下步骤：

步骤P2：根据∈-贪婪策略确定动作a并执行；

5.如权利要求4所述的融合稠密卷积网络和竞争架构的路径规划方法，其特征在于，所述步骤P2包括：

6.如权利要求1所述的融合稠密卷积网络和竞争架构的路径规划方法，其特征在于，所述融合路径规划网络由稠密卷积网络和竞争架构融合而成包括如下步骤：在所述稠密卷积网络的最后输出层应用所述竞争架构。