CN110956148A

CN110956148A - 无人车的自主避障方法及装置、电子设备、可读存储介质

Info

Publication number: CN110956148A
Application number: CN201911236281.XA
Authority: CN
Inventors: 宗文豪
Original assignee: Shanghai Duomin Intelligent Technology Co ltd
Current assignee: Shanghai Duomin Intelligent Technology Co ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-03
Anticipated expiration: 2039-12-05
Also published as: CN110956148B

Abstract

本发明提供了一种无人车的自主避障方法及装置、电子设备、可读存储介质，包括：获取当前状态信息；根据当前状态信息和历史状态信息，避障网络产生预测评价高的动作信息；执行该前动作信息，重复上述过程，直至到达目的地；其中，避障网络包括动作生成网络和策略评价网络；前者根据当前状态信息和历史状态信息，得到融合状态信息；再根据融合状态信息预测当前动作信息；后者根据回报值、融合状态信息和当前动作信息，得到当前动作信息的预测评价；根据该预测评价调整后续的动作产生策略。本发明通过在强化学习中引入循环神经网络和注意力机制对过去的异常状态给予更高的关注度，使无人车凭借对以往异常状态的记忆，作出有效避障。

Description

无人车的自主避障方法及装置、电子设备、可读存储介质

技术领域

本发明涉及无人驾驶领域，尤指一种无人车的自主避障方法及装置、电子设备、可读存储介质。

背景技术

在未知环境中，无人车运行需要注意躲避任意可能的静态和动态障碍物。为了实现此目的，控制算法需要考虑一系列由外部传感器获取的环境信息。

随着人工智能的发展，强化学习方法被尝试应用在无人车控制中。强化学习的目的是通过智能体与环境的交互学习最优的行为。强化学习是一种无监督学习，训练样本来源于智能体与环境的互动经历，不需要样本标注，可有效地解决环境中存在的特殊情况。同时为了适应高维度数据空间的预测场景，在强化学习架构的基础上引入了大规模深度学习，使得预测得到的动作空间更适应多变的场景。

无人车的自主避障是一个不仅与当前状态相关、还与前序状态相关，而且实时性要求比较高的部分可观测马尔可夫过程。比如，无人车在t_n时刻探测到前方一定距离存在障碍，但是随着无人车的位置、或位姿调整，在t_(n+x)时刻，之前探测的路障有可能处于视野盲区，这就要求无人车凭借对以往状态的记忆作出适时地控制。具体的，比如，当车头距离路边沿一定范围时能看到路边沿，但是当车头靠近路边沿的时候，车头逐渐遮盖住了路边沿，于是视野范围内看不到路边沿，此时需要无人车凭借对以往状态的记忆及时作出转向。但是目前基于现有的深度强化学习算法，如RDPG、DDPG(深度确定性策略梯度算法)等，构建的模型在上述场景中表现一般，甚至无法收敛。

发明内容

本发明的目的之一是为了克服现有技术中存在的至少部分不足，提供一种无人车的自主避障方法及装置、电子设备、可读存储介质。

本发明提供的技术方案如下：

一种无人车的自主避障方法，包括：获取当前状态信息，所述当前状态信息包括当前的环境状态信息和无人车的当前状态；根据所述当前状态信息和历史状态信息，经训练好的避障网络产生当前动作信息；执行所述当前动作信息，重复上述过程，获取下一状态信息，根据下一状态信息更新所述当前动作信息，如此循环，直至所述无人车到达目的地；其中，所述避障网络采用Actor-Critic结构，包括动作生成网络和策略评价网络；所述动作生成网络，用于根据所述当前状态信息和所述历史状态信息，经第一循环神经网络处理，得到融合状态信息；根据所述融合状态信息预测当前动作信息；所述策略评价网络，用于获取在所述当前状态信息下执行所述当前动作信息得到的回报值；根据所述回报值、所述融合状态信息和所述当前动作信息，经所述第二循环神经网络处理，得到所述当前动作信息的预测评价；所述动作生成网络根据所述预测评价，调整后续的动作产生策略。

进一步地，所述的根据所述回报值、所述融合状态信息和所述当前动作信息，经所述第二循环神经网络处理，得到所述当前动作信息的预测评价，包括：根据所述回报值、所述融合状态信息和所述当前动作信息，得到状态动作融合信息；根据所述状态动作融合信息，经第二全连接神经网络处理，得到预评价信息；将所述状态动作融合信息和所述预评价信息经过一步注意力处理，得到权重矫正的状态动作融合信息；根据所述权重矫正的状态动作融合信息和历史动作信息的预测评价，经所述第二循环神经网络处理，得到所述当前动作信息的预测评价。

进一步地，所述的将所述状态动作融合信息和所述预评价信息经过一步注意力处理，得到权重矫正的状态动作融合信息，具体包括：计算所述状态动作融合信息和所述预评价信息的相关性，得到相关性系数；对所述相关性信息进行归一化处理，得到对应的权重因子；用所述权重因子调整所述状态动作融合信息，得到权重矫正的状态动作融合信息。

进一步地，根据以下公式计算所述状态动作融合信息和所述预评价信息的相关性：

其中，

为t时刻的状态动作融合信息，

为j时刻的预评价信息，w1和w2为系数，

表示j时刻的预评价信息与t时刻的状态动作融合信息的相关性系数；根据以下公式对所述相关性信息进行归一化处理，得到对应的权重因子

根据以下公式得到权重矫正的状态动作融合信息

进一步地，所述的在所述当前状态信息下执行所述当前动作信息得到的回报值，具体包括：若在所述当前状态信息下执行所述动作信息，不会发生碰撞，则回报值为所述无人车在单位时间行驶的距离；若在所述当前状态信息下执行所述动作信息，会发生碰撞，则回报值为预设惩罚值。

进一步地，所述的训练所述避障网络包括：通过环境与无人车之间的交互信息训练避障网络，通过最小化损失函数更新网络参数；所述损失函数包括新旧策略的价值增量、以及新旧策略之间的KL散度；当新旧策略之间的KL散度小于预设门限，且基于新策略的的累计回报值高于基于旧策略的累计回报值时，用新策略更新旧策略。

进一步地，根据以下公式计算t时刻的损失函数J_t：

其中，

表示累计回报函数代理目标函数，

表示回报函数的平方损失，c₁,c₂是系数，s_π(s_t)表示鼓励策略探索性的交叉熵损失增益，π表示一种策略，

表示期望的估计值，A_π(t)优势函数，r_t为t时刻的回报值。

本发明还提供一种无人车的自主避障装置，包括：状态获取模块，用于获取当前状态信息，所述当前状态信息包括当前的环境状态信息和无人车的当前状态；避障模块，用于根据所述当前状态信息和历史状态信息，经训练好的避障网络产生当前动作信息；触发模块，用于执行所述动作信息，触发获取下一状态信息，根据下一状态信息更新当前动作信息，如此循环，直至所述无人车到达目的地；其中，所述避障网络采用Actor-Critic结构，所述避障模块包括：动作生成单元，用于根据所述当前状态信息，和所述历史状态信息，经第一循环神经网络处理，得到融合状态信息；根据所述融合状态信息预测当前动作信息；策略评价单元，用于获取在所述当前状态信息下执行所述当前动作信息得到的回报值；根据所述回报值、所述融合状态信息和所述当前动作信息，经所述第二循环神经网络处理，得到所述当前动作信息的预测评价；所述动作生成单元，用于根据所述预测评价，调整后续的动作产生策略。

本发明还提供一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于运行所述计算机程序时实现前述的无人车的自主避障方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述的无人车的自主避障方法。

通过本发明提供的一种无人车的自主避障方法及装置、电子设备、可读存储介质，能够带来以下有益效果：

1、本发明通过引入循环神经网络，在动作生成网络和策略评价网络中引入了记忆力机制，可以综合考虑当前探测的路障和之前探测的路障，作出合理的避障动作；可以综合考虑当前的预测评价和之前的预测评价，产生更合适的评价输出；总之，增加记忆力，可以使避障网络更准确地预测输出。

2、本发明通过在强化学习中引入注意力机制对过去的异常状态给予更高的关注度，使无人车凭借对以往异常状态的记忆，作出适时控制，从而有效避障。

3、本发明通过使用KL散度限制新、旧策略的更新幅度，避免策略在更新时迅速遗忘以往样本***滑可控。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种无人车的自主避障方法及装置、电子设备、可读存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明的一种无人车的自主避障方法的一个实施例的流程图；

图2是图1中步骤S300的一个实施例的流程图；

图3是本发明的一种无人车的自主避障方法的另一个实施例的流程图；

图4是图1中步骤S300的另一个实施例的流程图；

图5是本发明的一种无人车的自主避障装置的一个实施例的结构示意图；

图6是本发明的一种无人车的自主避障装置的另一个实施例的结构示意图；

图7是本发明的一种电子设备的一个实施例的结构示意图；

图8是本发明的一种无人车的自主避障方法的另一个实施例的测试结果图；

附图标号说明：

100.状态获取模块，200.避障模块，210.动作生成单元，220.策略评价单元，300.触发模块，400.训练模块，440.电子设备，410.存储器，420.处理器，430.计算机程序。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

在本发明的一个实施例中，如图1、图2所示，一种无人车的自主避障方法，包括：

步骤S200获取当前状态信息，所述当前状态信息包括当前的环境状态信息和无人车的当前状态；

步骤S300根据所述当前状态信息和历史状态信息，经训练好的避障网络产生当前动作信息；

其中，避障网络采用Actor-Critic结构，包括动作生成网络和策略评价网络；步骤300包括：

动作生成网络：

步骤310根据所述当前状态信息和所述历史状态信息，经第一循环神经网络处理，得到融合状态信息；

步骤320根据所述融合状态信息预测当前动作信息；

策略评价网络：

步骤330获取在所述当前状态信息下执行所述当前动作信息得到的回报值；

步骤340根据所述回报值、所述融合状态信息和所述当前动作信息，经所述第二循环神经网络处理，得到所述当前动作信息的预测评价；

步骤350根据所述预测评价，动作生成网络调整后续的动作产生策略；

步骤S400判断无人车是否到达目的地；若是，则结束；

步骤S410若否，执行当前动作信息进入下一环境状态后，跳转到步骤S200，获取下一状态信息，用下一状态信息更新当前状态信息，根据更新后的当前状态信息更新当前动作信息。

具体地，无人车包括外部传感器，比如激光雷达、摄像头等。外部传感器用于对无人车运动过程中周围环境的障碍物进行监测，通过分析激光雷达采集的时序点云数据或者摄像头采集的图像数据，获得障碍物相对车体的距离和方向等信息，即环境状态信息。无人车还包括内部传感器，用于采集无人车的速度、位置信息等；通过分析内部传感器采集的数据，获得无人车的状态(即位置和速度信息)。当前状态信息包括当前的环境状态信息和无人车的当前状态。

无人车还包括避障网络，用于控制无人车的自主避障。避障网络采用了大规模深度强化学习中常见的Actor-Critic模型结构，其中，Actor表示动作生成网络，Critic表示策略评价网络。Actor网络用于学习当前状态到动作空间的一个映射a＝λ(s)，其中s为当前状态信息，a为预测的动作信息。Critic网络用于结合动作信息在当前状态下执行所得到的环境给予的回报值，评估动作的好坏，从而控制整个算法向最大化累计回报值演进。整个算法的最终目标是获得最大化累计回报值。累计回报值反映的是从起始时刻到终止时刻(比如，到达目的地)所获得的长期激励。

累计回报值β的计算如下：

其中，γ是衰减因子，r(s_t,a_t)是t时刻的回报值(又称为t时刻的奖励函数)，定义为特定状态和特定动作下的回报值，s_t为t时刻的状态信息，a_t为t时刻的动作信息，E表示期望函数。

动作生成网络由循环神经网络构成，比如，单向LSTM(长短期记忆网络)、或双向LSTM。将当前状态信息和历史状态信息输入动作生成网络，得到融合状态信息，该融合状态信息不仅考虑了当前状态信息，还考虑了存储的历史状态信息(即当前状态信息之前的状态信息)。根据该融合状态信息预测当前时刻应该采取的动作信息。动作信息包括加速踏板信息、制动踏板信息、档位信息，转向信息等。通过动作信息控制无人车的驾驶。

有时，历史状态信息中检测到了障碍物，但当前状态信息中未检测到障碍物，比如，雷达点云在t_n时刻探测到前方一定距离存在路障，而此刻左、右近距离都有障碍不能转向，无人车需在t_(n+x)时刻转向，但是随着无人车在t_(n+x)时刻的位姿调整，之前探测的路障有可能处于视野盲区，t_(n+x)时刻未探测到路障。此时如果仅考虑当前状态信息，认为不存在障碍物，则会导致无人车在后续的行驶过程中遇上障碍物；而正确的处理应是要求无人车凭借对以往状态的记忆，及时作出避障处理。由于采用了循环神经网络技术，得到的融合状态信息中携带了历史状态信息，所以本实施例在输出动作信息时会考虑历史状态信息的影响，从而有效避开障碍物。

可选地，将当前状态信息和历史状态信息经过第一全连接神经网络处理，得到各自对应的预编码状态信息；将这些预编码状态信息经过第一循环神经网络的处理，得到融合状态信息；根据该融合状态信息生成对应的动作信息。其中，全连接神经网络是由多层多个神经元组成的人工神经网络，循环神经网络可采用单向LSTM网络。

策略评价网络获取在当前状态信息s_t下执行动作信息a_t得到的回报值，该回报值即r(s_t,a_t)。可选地，若无人车在当前环境状态执行该动作信息，不会发生碰撞，则回报值为无人车在单位时间行驶的距离；若无人车在当前环境状态执行该动作信息，会发生碰撞，则回报值为预设惩罚值。预设惩罚值为负值。通过设计这种奖励函数，可以让动作产生网络向获得高奖励的动作策略演进，从而有效避障。

策略评价网络根据当前时刻的回报值、融合状态信息，以及保存的以往动作的评价，经第二循环神经网络处理，对当前的动作信息进行预测评价，预测可能得到的累计回报值。

动作生成网络根据该预测评价，调整后续的动作产生策略。比如，在t时刻，状态s下的动作a得到一个高的预测评价，那么未来遇到相同或类似的状态s1，鼓励产生类似的动作a。

判断无人车是否到达目的地。若无，则执行动作信息，到达下一环境状态，跳转到步骤S200，获取下一状态信息、根据下一状态信息更新当前动作信息，如此循环，直至无人车到达目的地。

本实施例，通过引入循环神经网络，在动作生成网络中引入了记忆力机制，可以综合考虑当前探测的路障和之前探测的路障，作出更合理的避障动作；通过引入循环神经网络，在策略评价网络中引入了记忆力机制，可以综合考虑当前的预测评价和之前的预测评价，产生更合适的评价输出；总之，增加记忆力，可以使避障网络更准确地预测输出。

在本发明的另一个实施例中，如图1、图4所示，一种无人车的自主避障方法，包括：

在前述实施例的基础上，如图4所示，步骤S300包括：

步骤S311将当前状态信息和历史状态信息经过第一全连接神经网络处理，得到各自对应的预编码状态信息；

步骤S312将所述预编码状态信息经过第一长短期记忆网络的处理，得到融合状态信息；

步骤S321根据所述融合状态信息预测当前动作信息；

步骤S331获取在所述当前状态信息下执行所述当前动作信息得到的回报值；

步骤S341根据所述回报值、所述融合状态信息和所述当前动作信息，得到状态动作融合信息；

步骤S342根据所述状态动作融合信息，经第二全连接神经网络处理，得到预评价信息；

步骤S343将所述状态动作融合信息和所述预评价信息经过一步注意力处理，得到权重矫正的状态动作融合信息；

步骤S344根据所述权重矫正的状态动作融合信息和历史动作信息的预测评价，经第二长短期记忆网络处理，得到所述当前动作信息的预测评价；

步骤S351根据所述预测评价，动作生成网络调整后续的动作产生策略。

具体地，全连接神经网络是由多层多个神经元组成的人工神经网络。通过在全连接神经网络的基础上引入长短期记忆网络，让网络有了记忆力机制。

动作生成网络包括第一全连接神经网络和第一循环神经网络。第一全连接网络首先对输入的环境状态信息完成预编码，挖掘浅层状态之间的联系，但不具有时序关系。接着利用第一长短期记忆网络(本实施例采用单向长短期记忆网络)拟合预编码的状态信息到融合状态信息的映射。由第一长短期记忆网络构成的循环层让融合状态信息编码了带有过去时间步状态信息(即历史状态信息)的隐含表示。

由于长短期记忆网络为时序样本建立的依赖关系随着时间间隔的增大而逐渐衰减，所以这会导致无人车在避障过程中因为位姿的变化而忽视时间间隔较长的历史状态中检测到的障碍物。为了解决上述问题，对不同时间步的状态信息实现可变权重的关注程度，通过在策略评价网络中引入注意力机制，以获得带有权重矫正的状态信息，一旦环境状态出现异常，就提高该时间步的状态对输出策略评价预测回报的权重。

策略评价网络Critic包括第二全连接神经网络、一步注意力处理和第二循环神经网络。

策略评价网络首先获取在当前状态信息下执行当前动作信息得到的回报值；根据该回报值、该融合状态信息和当前动作信息，得到状态动作融合信息；比如，将回报值、融合状态信息和当前动作信息进行拼接，得到状态动作融合信息。将状态动作融合信息经第二全连接神经网络处理，得到预评价信息。将状态动作融合信息和预评价信息经过一步注意力处理，得到权重矫正的状态动作融合信息，再经过一层由第二长短期记忆网络构成的循环层处理，得到权重矫正的预测评价信息。

假设一个回合共计T个时间步，其中第t步(t∈(1,T)，即t时刻)的状态动作融合信息记为

第t步的预评价信息记为

经过第二全连接神经网络处理，得到

经过如下一步注意力处理，得到第t步的权重矫正的状态动作融合信息

1、计算第j步的预评价信息

和第t步的融合状态信息

之间的相关性，得到相关性系数

其中，

为t时刻的状态动作融合信息，

为j时刻的预评价信息，w₁和w₂为系数，

表示j时刻的预评价信息与t时刻的状态动作融合信息的相关性系数；

2、采用归一化指数函数(softmax函数)对相关性系数归一化处理，得到对应的权重因子

3、根据以下公式计算权重矫正的状态动作融合信息：

将权重矫正的状态动作融合信息

和历史动作信息的预测评价，经第二长短期记忆网络处理，得到权重矫正的预测评价信息

由于循环神经网络的记忆力时长有限，对间隔越远的状态记忆衰减越大，所以本实施例，通过在策略评价网络中引入注意力机制，对曾经出现的异常传感状态给予更高的关注度，进一步提升了整个***的记忆力，从而提高了策略评价的准确性。

在本发明的另一个实施例中，如图3所示，一种无人车的自主避障方法，包括：

在图1、图4所示实施例的基础上，增加：

步骤S100通过环境与无人车之间的交互信息训练避障网络，通过最小化损失函数更新网络参数。

首先，根据无人车与训练环境之间的交互信息生成若干训练样本，并保存至所述经历回放池中。从经历回放池中抽取若干样本切片，将其作为一系列的环境感知状态输入待训练的动作生成网络和策略评价网络。优选地，优先采样回报值较大(比如，大于预设门限)的样本，因为这种样本的学习价值更大。动作生成网络根据输入的环境状态s以及预先设定好的动作空间产生动作a，策略评价网络根据动作a以及环境状态s得到对此次动作反应的评价值v。最终选取能得到最大回报的动作a作为实际执行的动作，以此进行循环往复。直至Actor和Critic网络表现稳定，最终收敛，控制算法训练完成，经过训练的参数可以用到新的场景下完成无人车自适应性避障。

一种具体的训练过程如下：

步骤1、初始化设置无人车仿真实验环境，明确状态传感信息以及动作空间信息。比如，初始化无人车的横向、纵向速度，激光点云，雷达图像以及周围障碍物的摆放位置，动态障碍物的运动轨迹；明确无人车到达的终点位置。

步骤2、初始化动作产生网络的参数、策略评价网络的参数、目标动作产生网络的参数、目标策略评价网络的参数，和经历回放池R。

根据环境状态信息的复杂度，设计动作生成网络和策略评价网络的网络规模大小。比如，全连接神经元每层隐藏层的个数，神经网络层的层数，循环层的子单元个数以及策略迭代的最大回合数等。环境状态信息的纬度越高，建议设置的网络规模越大。

为了让算法在训练时方便记录和更新，对动作产生网络、策略评价网络都分别设置新、旧两个模型，每个模型分配对应的参数空间，即动作产生网络

的参数w_a和目标动作产生网络

的参数w'_a，策略评价网络

的参数w_v和目标策略评价网络

的参数w'_v。

步骤3、开始仿真，根据无人车自适应行驶过程中与训练环境之间的交互信息生成若干训练样本，每个训练样本以transition的形式记录，并保存至所述经历回放池中。

一个transition包括一个4元组，分别是本次时间步的状态s_t、本次时间步的动作a_t、本次时间步执行动作得到的回报值r_t，下一时间步的状态s_t+1。

具体地，接收当前状态s_t；根据当前策略在预先设定好的动作空间选择动作a_t；执行动作a_t得到的回报值r_t和新的状态s_t+1。保存(s_t,a_t,r_t,s_t+1)到经历回放池R中。

重复上述过程，采集一定时间步的transition放入经历回放池中。

步骤4、从经历回放池进行带优先级地采样，得到若干样本切片；用所述若干样本切片训练避障网络，让网络不断地迭代更新直到收敛。

具体地，从所述经历回放池中抽取若干样本切片；根据所述样本切片计算损失函数。通过最小化损失函数更新策略评价网络的参数，使用样本的策略梯度更新动作产生网络的参数。再根据更新的动作产生网络参数更新目标动作产生网络的参数，根据更新的策略评价网络参数更新目标策略评价的参数。

其中，t时刻的损失函数J_t可表示为：

损失函数一共包括三项，分别是：累计回报函数代理目标函数

回报函数的平方损失

鼓励策略探索性的交叉熵损失增益s_π(s_t)。c₁,c₂是系数，

表示期望的估计值。

对应新策略(用

表示)、旧策略(用π表示)的状态价值函数的平方损失，用来评估策略评价网络产生的价值v的准确度。V是状态价值函数，是累计回报值的期望。V_π(s_t)为旧策略的状态价值函数，

为新策略的状态价值函数。策略评价函数的预测值就是在不断的逼近这个状态价值函数。

通常，损失函数由回报函数的平方损失构成。考虑到算法训练初始阶段，智能体处于盲目探索环境的状态，样本与样本之间差异比较大，导致策略更新幅度过大，容易偏离正确的优化方向，使得算法不收敛或者更新速度慢。因此，引入优势函数A_π(t)，表示新策略

相对于旧策略π的价值增量。

为新策略的动作状态价值函数。

是优势函数的的另一种表达形式，对优势函数进行了裁剪，限制优势函数在一定取值范围内，不至于产生较大的波动。r_t为t时刻的回报值。Clip函数是裁剪函数，ε是预设波动范围，clip(1-ε,1+ε)表示限制取值范围在[1-ε,1+ε]，当小于1-ε时，取1-ε；当大于1+ε时，取1+ε。

由于新、旧策略的动作概率分布空间有所差异，这个差异又叫新旧策略之间的KL散度。如果两个分布差异越大，KL散度越大。该差异使用交叉熵损失增益s_π(s_t)来衡量。引入s_π(s_t)，可以避免让新策略老是停留在原地，陷入局部最优。

通过在损失函数中引入裁剪的优势函数

和交叉熵损失增益s_π(s_t)，可以保证优势函数单调不减，同时限制新旧策略之间的KL散度小于一定的阈值。

先计算出来损失函数，通过最小化损失函数来更新网络参数，从而保证策略沿着价值函数单调不减的方向更新，并保证策略变化幅度可控；通过限制新旧策略之间的KL散度小于一个较小的值，保证新策略得到的累计回报值要高于旧策略的。

步骤5：记录并追踪训练过程中累计回合的回报表现，一旦回合表现达到较高的水平，并且无人车能够安全达到终点位置，那么终止训练。

步骤6:训练终止后，保存模型网络参数。

本实施例通过在损失函数中引入裁剪的优势函数和交叉熵损失增益，并结合最小化损失函数的原则，保证策略沿着价值函数单调不减的方向更新，同时保证策略变化幅度可控(即用KL散度限制新、旧策略的更新幅度)。这样可以防止当算法遇到与以往训练样本分布差异明显的样本时，产生较大的调整幅度，导致新的策略向截然不同的方向演进，导致最终策略无法收敛。如此通过使用KL散度限制新、旧策略的更新幅度，不让算法在更新时迅速遗忘以往样本习得的经验。

在本发明的一个实施例中，如图5所示，一种无人车的自主避障装置，包括：

状态获取模块100，用于获取当前状态信息，所述当前状态信息包括当前的环境状态信息和无人车的当前状态；

避障模块200，用于根据所述当前状态信息和历史状态信息，经训练好的避障网络产生当前动作信息；

触发模块300，用于执行所述动作信息，触发获取下一状态信息，根据下一状态信息更新当前动作信息，如此循环，直至所述无人车到达目的地；

其中，所述避障网络采用Actor-Critic结构，所述避障模块包括：

动作生成单元210，用于根据所述当前状态信息，和所述历史状态信息，经第一循环神经网络处理，得到融合状态信息；根据所述融合状态信息预测当前动作信息；

策略评价单元220，用于获取在所述当前状态信息下执行所述当前动作信息得到的回报值；根据所述回报值、所述融合状态信息和所述当前动作信息，经所述第二循环神经网络处理，得到所述当前动作信息的预测评价；

所述动作生成单元210，用于根据所述预测评价，调整后续的动作产生策略。

具体地，无人车包括外部传感器，用于对无人车运动过程中周围环境的障碍物进行监测，通过分析激光雷达采集的时序点云数据或者摄像头采集的图像数据，获得障碍物相对车体的距离和方向等信息，即环境状态信息。无人车还包括内部传感器，用于采集无人车的速度、位置信息等；通过分析内部传感器采集的数据，获得无人车的状态(即位置和速度信息)。当前状态信息包括当前的环境状态信息和无人车的当前状态。

动作生成网络由循环神经网络构成。将当前状态信息和历史状态信息输入动作生成网络，得到融合状态信息，该融合状态信息不仅考虑了当前状态信息，还考虑了存储的历史状态信息。根据该融合状态信息预测当前时刻应该采取的动作信息。

有时，历史状态信息中检测到了障碍物，但当前状态信息中未检测到障碍物。此时如果仅考虑当前状态信息，认为不存在障碍物，则会导致无人车在后续的行驶过程中遇上障碍物；而正确的处理应是要求无人车凭借对以往状态的记忆，及时作出避障处理。由于采用了循环神经网络技术，得到的融合状态信息中携带了历史状态信息，所以本实施例在输出动作信息时会考虑历史状态信息的影响，从而有效避开障碍物。

在本发明的另一个实施例中，如图5所示，一种无人车的自主避障装置，包括：

在前述实施例的基础上，细化了避障模块200，具体地：

动作生成单元210，用于将当前状态信息和历史状态信息经过第一全连接神经网络处理，得到各自对应的预编码状态信息；将所述预编码状态信息经过第一长短期记忆网络的处理，得到融合状态信息；根据所述融合状态信息预测当前动作信息；

策略评价单元220，用于获取在所述当前状态信息下执行所述当前动作信息得到的回报值；根据所述回报值、所述融合状态信息和所述当前动作信息，得到状态动作融合信息；根据所述状态动作融合信息，经第二全连接神经网络处理，得到预评价信息；将所述状态动作融合信息和所述预评价信息经过一步注意力处理，得到权重矫正的状态动作融合信息；根据所述权重矫正的状态动作融合信息和历史动作信息的预测评价，经第二长短期记忆网络处理，得到所述当前动作信息的预测评价；

所述动作生成单元210，进一步用于根据所述预测评价调整后续的动作产生策略。

在本发明的另一个实施例中，如图6所示，一种无人车的自主避障装置，包括：

在图5所示实施例的基础上，增加训练模块400：

训练模块400，用于通过环境与无人车之间的交互信息训练避障网络，通过最小化损失函数更新网络参数。

一种具体的训练过程如下：

的参数w_a和目标动作产生网络

的参数w'_a，策略评价网络

的参数w_v和目标策略评价网络

的参数w'_v。

保存(s_t,a_t,r_t,s_t+1)到经历回放池R中。重复上述过程，采集一定时间步的transition放入经历回放池中。

步骤4、采用带优先级采样方式从经历回放池采样出一定批次的样本输入网络结构中学习，让网络不断地迭代更新直到收敛。

其中，t时刻的损失函数J_t可表示为：

回报函数的平方损失

鼓励策略探索性的交叉熵损失增益s_π(s_t)。c₁,c₂是系数，

表示期望的估计值。

对应新策略(用

相对于旧策略π的价值增量。

为新策略的动作状态价值函数。

步骤6:训练终止后，保存模型网络参数。

需要说明的是，本发明提供的无人车的自主避障装置的实施例与前述提供的自主避障方法的实施例均基于同一发明构思，能够取得相同的技术效果。因而，所述自主避障装置的实施例的其它具体内容可以参照前述自主避障方法的实施例内容的记载。

在本发明的另一个实施例中，如图7所示，一种电子设备440，包括：

包括存储器410及处理器420。所述存储器410用于存储计算机程序430。所述处理器运行所述计算机程序时实现如前述记载的无人车的自主避障方法。

作为一个示例，处理器420执行计算机程序时实现根据前述记载的步骤S200至S410。另外地，处理器420执行计算机程序时实现前述记载的无人车的自主避障中的各模块、单元的功能。作为又一个示例，处理器420执行计算机程序时实现状态获取模块100、避障模块200、动作生成单元210、策略评价单元220、触发模块300的功能。

可选地，根据完成本发明的具体需要，所述计算机程序可以被分割为一个或多个模块/单元。每个模块/单元可以为能够完成特定功能的一系列计算机程序指令段。该计算机程序指令段用于描述所述计算机程序在无人车的自主避障中的执行过程。作为示例，所述计算机程序可以被分割为虚拟装置中的各个模块/单元，譬如状态获取模块、避障模块、动作生成单元、策略评价单元、触发模块。

所述处理器用于通过执行所述计算机程序从而实现无人车的自主避障方法。根据需要，所述处理器可以是中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、通用处理器或其他逻辑器件等。

所述存储器可以为任意能够实现数据、程序存储的内部存储单元和/或外部存储设备。譬如，所述存储器可以为插接式硬盘、智能存储卡(SMC)、安全数字(SD)卡或闪存卡等。所述存储器用于存储计算机程序、无人车的自主避障装置的其他程序及数据。

所述电子设备440可以为任意计算机设备，譬如桌上型计算机(desktop)、便携式计算机(laptop)、掌上电脑(PDA)或服务器(server)等。根据需要，所述电子设备440还可以包括输入输出设备、显示设备、网络接入设备及总线等。所述电子设备440还可以是单片机，或集成了中央处理单元(CPU)及图形处理单元(GPU)的计算设备。

本领域技术人员可以理解的是，上述用于实现相应功能的单元、模块的划分是出于便利于说明、叙述的目的，根据应用需求，将上述单元、模块做进一步的划分或者组合，即将装置/设备的内部结构重新进行划分、组合，以实现的上述记载的功能。上述实施例中的各个单元、模块可以分别采用单独的物理单元，也可以将两个或两个以上的单元、模块集成在一个物理单元。上述实施例中的各个单元、模块可以采用硬件和/或软件功能单元的实现对应的功能。上述实施例中的多个单元、组件、模块之间可以的直接耦合、间接耦合或通讯连接可以通过总线或者接口实现；多个单元或装置的之间的耦合、连接，可以是电性、机械或类似的方式。相应地，上述实施例中的各个单元、模块的具体名称也只是为了便于叙述及区分，并不用限制本申请的保护范围。

在本发明的一个实施例中，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时可实现如前述实施例记载的无人车的自主避障方法。也即是，当前述本发明实施例对现有技术做出贡献的技术方案的部分或全部通过计算机软件产品的方式得以体现时，前述计算机软件产品存储在一个计算机可读存储介质中。所述计算机可读存储介质可以为任意可携带计算机程序代码实体装置或设备。譬如，所述计算机可读存储介质可以是U盘、移动磁盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器等。

采用前述的无人车避障算法构建的另一个实施例，应用于TORCS仿真环境。其中含有多种赛道，道路包括静态的障碍物例如路边沿，树木和建筑物等。也有移动的车辆作为动态障碍物。网络的训练分为两种情况，情景一是只包含静态障碍物，情景二包含动态和静态障碍物。

动作生成网络Actor和策略评价网络Critic均通过Tensorflow构建。两个网络的全连接层分别由100和200个神经元构成。输出层选择激活函数为RELU线性激活函数。设置算法的输入输出如下表1和表2所示：

表1:控制算法输入状态信息

表2:控制算法输出动作信息

如图8所示，经过训练，在大约15000个回合左右，无人车在单个回合中小于1000步的情况下可以达到终点，触发终止训练条件，说明无人车学习到比较好的策略，能完整的跑完整条赛道，并重复行驶多圈。算法的损失函数逐步收敛。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种无人车的自主避障方法，其特征在于，包括：

获取当前状态信息，所述当前状态信息包括当前的环境状态信息和无人车的当前状态；

根据所述当前状态信息和历史状态信息，经训练好的避障网络产生当前动作信息；

执行所述当前动作信息，重复上述过程，获取下一状态信息，根据下一状态信息更新所述当前动作信息，如此循环，直至所述无人车到达目的地；

其中，所述避障网络采用Actor-Critic结构，包括动作生成网络和策略评价网络；

所述动作生成网络，用于根据所述当前状态信息和所述历史状态信息，经第一循环神经网络处理，得到融合状态信息；根据所述融合状态信息预测当前动作信息；

所述策略评价网络，用于获取在所述当前状态信息下执行所述当前动作信息得到的回报值；根据所述回报值、所述融合状态信息和所述当前动作信息，经所述第二循环神经网络处理，得到所述当前动作信息的预测评价；

所述动作生成网络根据所述预测评价，调整后续的动作产生策略。

2.根据权利要求1所述的无人车的自主避障方法，其特征在于，所述的根据所述回报值、所述融合状态信息和所述当前动作信息，经所述第二循环神经网络处理，得到所述当前动作信息的预测评价，包括：

根据所述回报值、所述融合状态信息和所述当前动作信息，得到状态动作融合信息；

根据所述状态动作融合信息，经第二全连接神经网络处理，得到预评价信息；

将所述状态动作融合信息和所述预评价信息经过一步注意力处理，得到权重矫正的状态动作融合信息；

根据所述权重矫正的状态动作融合信息和历史动作信息的预测评价，经所述第二循环神经网络处理，得到所述当前动作信息的预测评价。

3.根据权利要求2所述的无人车的自主避障方法，其特征在于，所述的将所述状态动作融合信息和所述预评价信息经过一步注意力处理，得到权重矫正的状态动作融合信息，具体包括：

计算所述状态动作融合信息和所述预评价信息的相关性，得到相关性系数；

对所述相关性信息进行归一化处理，得到对应的权重因子；

用所述权重因子调整所述状态动作融合信息，得到权重矫正的状态动作融合信息。

4.根据权利要求3所述的无人车的自主避障方法，其特征在于：

根据以下公式计算所述状态动作融合信息和所述预评价信息的相关性：

其中，

为t时刻的状态动作融合信息，

为j时刻的预评价信息，w₁和w₂为系数，

根据以下公式对所述相关性信息进行归一化处理，得到对应的权重因子

根据以下公式得到权重矫正的状态动作融合信息

5.根据权利要求1所述的无人车的自主避障方法，其特征在于，所述的在所述当前状态信息下执行所述当前动作信息得到的回报值，具体包括：

若在所述当前状态信息下执行所述动作信息，不会发生碰撞，则回报值为所述无人车在单位时间行驶的距离；

若在所述当前状态信息下执行所述动作信息，会发生碰撞，则回报值为预设惩罚值。

6.根据权利要求1所述的无人车的自主避障方法，其特征在于，所述的训练所述避障网络包括：

通过环境与无人车之间的交互信息训练避障网络，通过最小化损失函数更新网络参数；所述损失函数包括新旧策略的价值增量、以及新旧策略之间的KL散度；当新旧策略之间的KL散度小于预设门限，且基于新策略的的累计回报值高于基于旧策略的累计回报值时，用新策略更新旧策略。

7.根据权利要求6所述的无人车的自主避障方法，其特征在于：

根据以下公式计算t时刻的损失函数J_t：

其中，

表示累计回报函数代理目标函数，

表示期望的估计值，A_π(t)为优势函数，r_t为t时刻的回报值。

8.一种无人车的自主避障装置，包括：

状态获取模块，用于获取当前状态信息，所述当前状态信息包括当前的环境状态信息和无人车的当前状态；

避障模块，用于根据所述当前状态信息和历史状态信息，经训练好的避障网络产生当前动作信息；

触发模块，用于执行所述动作信息，触发获取下一状态信息，根据下一状态信息更新当前动作信息，如此循环，直至所述无人车到达目的地；

动作生成单元，用于根据所述当前状态信息，和所述历史状态信息，经第一循环神经网络处理，得到融合状态信息；根据所述融合状态信息预测当前动作信息；

策略评价单元，用于获取在所述当前状态信息下执行所述当前动作信息得到的回报值；根据所述回报值、所述融合状态信息和所述当前动作信息，经所述第二循环神经网络处理，得到所述当前动作信息的预测评价；

所述动作生成单元，用于根据所述预测评价，调整后续的动作产生策略。

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于运行所述计算机程序时实现根据权利要求1至7中任一项所述的无人车的自主避障方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：

所述计算机程序被处理器执行时实现根据权利要求1至7中任一项所述的无人车的自主避障方法。