CN117208019B

CN117208019B - 基于值分布强化学习的感知遮挡下纵向决策方法及***

Info

Publication number: CN117208019B
Application number: CN202311473564.2A
Authority: CN
Inventors: 陈雪梅; 徐书缘; 朱宇臻; 薛杨武; 肖龙; 赵小萱; 沈晓旭
Original assignee: Beijing Institute of Technology BIT; Advanced Technology Research Institute of Beijing Institute of Technology
Current assignee: Beijing Institute of Technology BIT; Advanced Technology Research Institute of Beijing Institute of Technology
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-04-05
Anticipated expiration: 2043-11-08
Also published as: CN117208019A

Abstract

本发明提供了一种基于值分布强化学习的感知遮挡下纵向决策方法及***，属于车辆驾驶决策技术领域，获取目标区域的人员识别结果，获取其中的位置信息和速度信息；获取目标区域的环境信息；利用融合谨慎心驱动的值分布式强化学习模型，基于所述环境信息、位置信息和速度信息，预测人员的下一步动作和位置，并依据预测结果，生成纵向决策；融合谨慎心驱动的值分布式强化学习模型包括用于确定相关分位数下的奖励的效率分位数函数，利用谨慎心驱动更新所述函数与环境信息互动后的奖励。本发明基于分布式强化学习与谨慎心驱动方法相融合，有效提升了车辆的通行安全和效率以及算法的泛化能力。

Description

基于值分布强化学习的感知遮挡下纵向决策方法及***

技术领域

本发明属于车辆驾驶决策技术领域，具体涉及一种基于值分布强化学习的感知遮挡下纵向决策方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

感知遮挡所带来的高不确定性是自动驾驶决策的一个重大障碍。由于大障碍物的遮挡，激光雷达、毫米波雷达和摄像头视觉等探测传感器的感知可能会有能见度限制。由于没有感知到周围车辆的运动信息，因此评估在遮挡区域内的移动车辆的碰撞风险具备一定的困难。在复杂的城市环境中，这种较大障碍物的遮挡又是十分常见的，其会严重干扰对碰撞风险的评估，从而导致与其他周围环境车辆发生交通事故。

目前很多的研究忽略了感知遮挡的因素或直接使用经典的强化学习算法来应对感知遮挡场景，这是不合理的。另外，现在在创建强化学习环境时，它可以被看作是一个马尔可夫决策过程问题，但这在现实世界中是一个部分可见马尔可夫决策过程问题，造成适用性不佳。

发明内容

本发明为了解决上述问题，提出了一种基于值分布强化学习的感知遮挡下纵向决策方法及***，本发明基于分布式强化学习与谨慎心驱动方法相融合，有效提升了车辆的通行安全和效率以及算法的泛化能力。

根据一些实施例，本发明采用如下技术方案：

一种基于值分布强化学习的感知遮挡下纵向决策方法，包括以下步骤：

获取目标区域的环境信息，其中包括自车位置信息和速度信息以及环境车辆信息、冲突点距离，以此组成观测空间，并以不同观测空间堆叠为状态空间；

利用融合谨慎心驱动的值分布式强化学习模型，基于所述状态空间，以自车油门开度和刹车开度为动作空间，设计与环境交互的奖励函数，并将自车与环境交互获得的奖励与谨慎心模块获得的奖励之差作为实际奖励用于自车学习，最终生成纵向决策策略。

作为可选择的实施方式，所述融合谨慎心驱动的值分布式强化学习模型包括用于确定相关分位数下的奖励的效率分位数函数，利用谨慎心驱动更新所述函数与环境信息互动后的奖励；

所述效率分位数函数，分位数及其相应的值在分位数函数中参数化，并修改分位数的位置遵循相应的分配标准，使用分位数回归计算分位数对应的值。

作为可选择的实施方式，所述效率分位数函数包括用于提取信息特征的特征提取网络，用于为每个状态动作创建适当的分位数位置的分位数提议网络，以及用于将输出分位数转换为相关分位数值的分位数网络。

作为可选择的实施方式，利用效率分位数函数估计N个可调分位数对应的N个可调分位数值，结合狄拉克函数的加权组合，计算近似回报的分布；

使用 1-Wasserstein 测量近似分位数函数和实际分位数函数之间的差距；

表示分位数函数的动作价值，即预期奖励值；

利用前N/2个的分位数下的奖励回报之和来更新预期奖励值。

作为可选择的实施方式，利用谨慎心驱动更新所述函数与环境信息互动后的奖励的具体过程包括，在所述值分布式强化学习模型的基础上，加入第一神经网络，状态编码以及下一状态编码作为输入，预测输出下一步的动作；

在加入第二神经网路，以第一神经网络的状态编码和当前时刻动作作为输入，预测下一状态的编码。

作为进一步限定的实施方式，所述第一神经网络的参数基于回归损失函数训练优化，所述第二神经网络的参数以预测动作和真实动作之间的差异最小为目标进行优化。

作为进一步限定的实施方式，融合谨慎心驱动的值分布式强化学习模型以各个网络的损失函数之和最小为目标进行优化。

一种基于值分布强化学习的感知遮挡下纵向决策***，包括：

状态空间构建模块，被配置为获取目标区域的环境信息，其中包括自车位置信息和速度信息以及环境车辆信息、冲突点距离，以此组成观测空间，并以不同观测空间堆叠为状态空间；

学习决策模块，被配置为利用融合谨慎心驱动的值分布式强化学习模型，基于所述状态空间，以自车油门开度和刹车开度为动作空间，设计与环境交互的奖励函数，并将自车与环境交互获得的奖励与谨慎心模块获得的奖励之差作为实际奖励用于自车学习，最终生成纵向决策策略。

作为进一步限定的实施方式，所述融合谨慎心驱动的值分布式强化学习模型包括用于确定相关分位数下的奖励的效率分位数函数，利用谨慎心驱动更新所述函数与环境信息互动后的奖励；

所述效率分位数函数包括用于提取信息特征的特征提取网络，用于为每个状态动作创建适当的分位数位置的分位数提议网络，以及用于将输出分位数转换为相关分位数值的分位数网络。

与现有技术相比，本发明的有益效果为：

本发明基于分布式强化学习来解决决策中的感知遮挡和数据丢失的挑战，通过改变了分布式强化学习的学习更新，以优化较坏的情况，提高算法的有效性，有效改善了模型的行为。

本发明将分布式强化学习与谨慎心驱动模块融合，并扩展到连续动作空间，提高模型的泛化性和鲁棒性。

本发明谨慎心驱动模块的优化目标是提高预测动作的准确性和降低不确定性，谨慎心模块通过设置未来的状态越容易预测则获得越大奖励来训练得到谨慎采取动作的智能体（自车），减小了为了探索空间的动作的随机性，来应对感知遮挡带来的环境不确定性，对感知遮挡环境下的强化学习问题是有帮助的。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本实施例融合后的模型结构示意图；

图2为本实施例感知遮挡的行人鬼探头和交叉口仿真场景示意图；

图3（a）和图3（b）为本实施例CARLA 语义相机下的不同时刻的视角示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

作为一种典型实施例，如图2所示，本实施例使用用于自动驾驶研究的开源模拟器CARLA 来模拟真实世界，T字无信号交叉口行人鬼探头的场景（后面简称行人鬼探头）。在人行横道场景中，自动驾驶车辆的任务是穿越人行横道（任务1）。路边的障碍物（卡车）遮挡了自车对人行横道上过马路行人的感知。车辆的初始速度设置为 6m/s，位置设置为随机的。行人的速度设置为以 1.5 米/秒为均值的均匀分布，但行人是否穿过人行横道是随机的。为方便算法输入，使用 CARLA 的语义摄像机来识别行人，如图3（a）、图3（b）所示。行人被识别出来后位置和速度信息会被输入到模型中。

针对该典型实施环境，如图1所示，本实施例提供了一种基于值分布强化学习的感知遮挡下纵向决策方法，包括以下步骤：

步骤一，获取目标区域的环境信息，其中包括自车位置信息和速度信息以及环境车辆信息、冲突点距离，以此组成强化学习模型观测空间，并以不同观测空间堆叠为状态空间；

步骤二，智能体（自车）与环境进行交互，获取状态、下一状态、随机动作以及奖励值信息，根据奖励训练学习。其中，利用融合谨慎心驱动的值分布式强化学习模型，基于所述环境信息构成其状态空间，以自车油门开度和刹车开度为动作空间，设计与环境交互的奖励函数，自车与环境交互获得的奖励与谨慎心模块获得的奖励之差为实际奖励；

其中，步骤一中的观测空间本实例如下：/>，其中，/>自车的横向位置,/>自车的纵向位置，/>是自车的速度，env1和env2代表环境车辆，/>是车辆到冲突点之间的距离。

状态空间堆叠如下：/>，t为当前时间。

其中，步骤二中的值分布强化学习，本实施例根据基于完全参数化的分位数函数（Fully parameterized Quantile Function，FQF）算法，提出了效率分位数FQF（Efficient-FQF, E-FQF）。分位数及其相应的值在FQF中参数化，并修改分位数的位置遵循相应的分配标准。使用分位数回归计算分位数对应的值。FQF中使用的算法由两个模型组成：一个是分位数提议网络，为每个状态动作创建适当的分位数位置，另一个是从第一个网络将输出分位数转换为相关分位数值的分位数网络。

首先估计了个可调分位数对应的/>个可调分位数值。由给出的/>个 Diracs的加权组合可以用来近似回报的分布/>：/>，其中，/>是第/>个分位数，/>是对应的分位数值，/>为可调分位数个数，/>为动作空间，/>为状态空间。

使用1-Wasserstein来测量近似和实际分位数函数之间的差距：其中，/>是一个分位数函数，并且/>，/>为分位数值网络参数。

接下来，基于FQF的动作价值，也称为预期奖励值，能够表示为：其中，/>是分位数提议网络的网络参数。

分布式强化学***均值最高的动作。

传统的更新公式可以表示为：，其中，/>为在某一分位数下的奖励回报。

本实施例利用值函数的分布中较低的值，更充分地利用分布的性质，能够改善上述情况并适当提高通行效率，称之为E-FQF。更新公式可以表示如下：，其中，/>为在某一分位数下的奖励回报。将更新公式与 FQF 算法融合后，可以表示为：/>。

融合谨慎心驱动模块的强化学习算法由三部分组成：

（1）原始的强化学习算法，在本文中是指E-FQF分布式强化学习算法。

（2）一个神经网络编码特征/>,/>作为这个神经网络的输入，并且预测动作/>，/>为当前动作，/>为当前状态：/>其中，神经网络的参数/>通过如下公式训练来优化：/>，其中，/>是将状态转化为状态编码的神经网络的参数，/>代表预测动作和真实动作之间的差异。

（3）另一个神经网络，输入当前动作/>和当前状态编码/>，预测下一状态的编码/>，/>是神经网络/>的参数：/>。

此处融入谨慎心驱动模块到E-FQF算法中，本文称其为 ICM-FQF 算法（IntrinsicCaution Module-FQF，ICM-FQF），因此其与环境互动后的奖励不再是，而是，即实际奖励为智能体（自车）与环境互动奖励/>和ICM模块奖励之差/>。

上面提到的，其中，/>为超参数，可设置为1。神经网络/>的参数基于回归损失函数/>来训练优化：/>，融合了谨慎心驱动模块的强化学习算法的优化问题能够被表述为：，其中，/>,/>,/>为原始强化学习算法模块的损失函数，/>分别为谨慎心驱动模块两个神经网络的损失函数，/>是强化学习算法的参数。

本发明中谨慎心驱动模块的优化目标是提高预测动作的准确性和降低不确定性，这对感知遮挡环境下的强化学习问题是有帮助的。

本发明还提供以下产品实施例：

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法中的步骤。

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，本领域技术人员不需要付出创造性劳动所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于值分布强化学习的感知遮挡下纵向决策方法，其特征是，包括以下步骤：

利用融合谨慎心驱动的值分布式强化学习模型，基于所述状态空间，以自车油门开度和刹车开度为动作空间，设计与环境交互的奖励函数，并将自车与环境交互获得的奖励与谨慎心模块获得的奖励之差作为实际奖励用于自车学习，最终生成纵向决策策略；

融合谨慎心驱动模块的强化学习算法由三部分组成：

（1）原始的强化学习算法，是指E-FQF分布式强化学习算法；

（2）一个神经网络编码特征/>, />作为这个神经网络的输入，并且预测动作，/>为当前动作，/>为当前状态：/>其中，神经网络/>的参数/>通过如下公式训练来优化：/>，其中，/>是将状态转化为状态编码的神经网络的参数，/>代表预测动作和真实动作之间的差异；

（3）另一个神经网络，输入当前动作/>和当前状态编码/>，预测下一状态的编码，/>是神经网络/>的参数：/>；

此处融入谨慎心驱动模块到E-FQF算法中，其为 ICM-FQF 算法，因此其与环境互动后的奖励是，即实际奖励为智能体与环境互动奖励/>和ICM模块奖励之差/>；

，其中，/>为超参数，设置为1，神经网络/>的参数基于回归损失函数/>来训练优化：/>；

融合了谨慎心驱动模块的强化学习算法的优化问题被表述为：，其中，/>, />, />为原始强化学习算法模块的损失函数，/>分别为谨慎心驱动模块两个神经网络的损失函数，/>是强化学习算法的参数。

2.如权利要求1所述的一种基于值分布强化学习的感知遮挡下纵向决策方法，其特征是，所述融合谨慎心驱动的值分布式强化学习模型包括用于确定相关分位数下的奖励的效率分位数函数，利用谨慎心驱动更新所述函数与环境信息互动后的奖励。

3.如权利要求2所述的一种基于值分布强化学习的感知遮挡下纵向决策方法，其特征是，所述效率分位数函数，分位数及其相应的值在分位数函数中参数化，并修改分位数的位置遵循相应的分配标准，使用分位数回归计算分位数对应的值。

4.如权利要求2或3所述的一种基于值分布强化学习的感知遮挡下纵向决策方法，其特征是，所述效率分位数函数包括用于提取信息特征的特征提取网络，用于为每个状态动作创建适当的分位数位置的分位数提议网络，以及用于将输出分位数转换为相关分位数值的分位数网络。

5.如权利要求4所述的一种基于值分布强化学习的感知遮挡下纵向决策方法，其特征是，利用效率分位数函数估计N个可调分位数对应的N个可调分位数值，结合狄拉克函数的加权组合，计算近似回报的分布；

表示分位数函数的动作价值，即预期奖励值；

利用前N/2个的分位数下的奖励回报之和来更新预期奖励值。

6.如权利要求2所述的一种基于值分布强化学习的感知遮挡下纵向决策方法，其特征是，利用谨慎心驱动更新所述函数与环境信息互动后的奖励的具体过程包括，在所述值分布式强化学习模型的基础上，加入第一神经网络，状态编码以及下一状态编码作为输入，预测输出下一步的动作；

在加入第二神经网路，以第一神经网络的状态编码和当前时刻的动作作为输入，预测下一状态的编码。

7.如权利要求6所述的一种基于值分布强化学习的感知遮挡下纵向决策方法，其特征是，所述第一神经网络的参数基于回归损失函数训练优化，所述第二神经网络的参数以预测动作和真实动作之间的差异最小为目标进行优化。

8.如权利要求1或7所述的一种基于值分布强化学习的感知遮挡下纵向决策方法，其特征是，融合谨慎心驱动的值分布式强化学习模型以各个网络的损失函数之和最小为目标进行优化。

9.一种基于值分布强化学习的感知遮挡下纵向决策***，采用如权利要求1所述的一种基于值分布强化学习的感知遮挡下纵向决策方法，其特征是，包括：

10.如权利要求9所述的一种基于值分布强化学习的感知遮挡下纵向决策***，其特征是，所述融合谨慎心驱动的值分布式强化学习模型包括用于确定相关分位数下的奖励的效率分位数函数，利用谨慎心驱动更新所述函数与环境信息互动后的奖励；