CN116461507A

CN116461507A - 一种车辆驾驶决策方法、装置、设备和存储介质

Info

Publication number: CN116461507A
Application number: CN202310580109.6A
Authority: CN
Inventors: 任志航; 李海霞; 狄忠举; 梁瑜; 杨雪珠
Original assignee: FAW Group Corp
Current assignee: FAW Group Corp
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-07-21

Abstract

本发明实施例公开了一种车辆驾驶决策方法、装置、设备和存储介质，其中，方法包括：获取目标车辆的当前行驶属性信息，并根据当前行驶属性信息确定初始驾驶策略；基于初始驾驶策略对应的虚拟场景的安全等级确定第一安全性评估结果；将初始驾驶策略对应的驾驶控制参数值与预设驾驶控制参数标准阈值进行对比，并根据对比结果确定第二安全性评估结果；根据第一安全性评估结果和第二安全性评估结果对初始驾驶策略进行调整，得到目标驾驶策略。本发明实施例的技术方案解决了现有技术基于预设的经验模型对车辆的控制参数进行评估和调整时，存在的车辆驾驶控制安全性不足的问题，可以从多角度对驾驶策略进行评估和调整，提高车辆驾驶控制的安全性。

Description

一种车辆驾驶决策方法、装置、设备和存储介质

技术领域

本发明实施例涉及车辆控制技术领域，尤其涉及一种车辆驾驶决策方法、装置、设备和存储介质。

背景技术

车辆控制的安全性是在车辆自动控制过程中的具有重要意义。现有技术虽然可以基于预设的经验模型对车辆的控制参数进行评估和调整，但是这种单一的车辆控制方式过于依赖经验模型的准确性，存在诸多潜在安全性风险。

发明内容

本发明实施例提供了一种车辆驾驶决策方法、装置、设备和存储介质，可以从多角度对驾驶策略进行评估和调整，提高车辆驾驶控制的安全性。

第一方面，本发明实施例提供了一种车辆驾驶决策方法，该方法包括：

获取目标车辆的当前行驶属性信息，并根据所述当前行驶属性信息确定初始驾驶策略；

基于所述初始驾驶策略对应的虚拟场景的安全等级确定第一安全性评估结果；

将所述初始驾驶策略对应的驾驶控制参数值与预设驾驶控制参数标准阈值进行对比，并根据对比结果确定第二安全性评估结果；

根据所述第一安全性评估结果和所述第二安全性评估结果对所述初始驾驶策略进行调整，得到目标驾驶策略。

第二方面，本发明实施例提供了一种车辆驾驶决策装置，该装置包括：

初始驾驶策略确定模块，用于获取目标车辆的当前行驶属性信息，并根据所述当前行驶属性信息确定初始驾驶策略；

第一安全性评估结果确定模块，用于基于所述初始驾驶策略对应的虚拟场景的安全等级确定第一安全性评估结果；

第二安全性评估结果确定模块，用于将所述初始驾驶策略对应的驾驶控制参数值与预设驾驶控制参数标准阈值进行对比，并根据对比结果确定第二安全性评估结果；

驾驶策略调整模块，用于根据所述第一安全性评估结果和所述第二安全性评估结果对所述初始驾驶策略进行调整，得到目标驾驶策略。

第三方面，本发明实施例提供了一种计算机设备，该计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现任一实施例所述的车辆驾驶决策方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的车辆驾驶决策方法。

本发明实施例所提供的技术方案，通过获取目标车辆的当前行驶属性信息，并根据当前行驶属性信息确定初始驾驶策略；基于初始驾驶策略对应的虚拟场景的安全等级确定第一安全性评估结果；将初始驾驶策略对应的驾驶控制参数值与预设驾驶控制参数标准阈值进行对比，并根据对比结果确定第二安全性评估结果；根据第一安全性评估结果和第二安全性评估结果对初始驾驶策略进行调整，得到目标驾驶策略。本发明实施例的技术方案解决了现有技术基于预设的经验模型对车辆的控制参数进行评估和调整时，存在的车辆驾驶控制安全性不足的问题，可以从多角度对驾驶策略进行评估和调整，提高车辆驾驶控制的安全性。

附图说明

图1是本发明实施例提供的一种车辆驾驶决策方法流程图；

图2是本发明实施例提供的又一种车辆驾驶决策方法流程图；

图3是本发明实施例提供的一种车辆驾驶决策***的工作流程图；

图4是本发明实施例提供的一种车辆驾驶决策装置的结构示意图；

图5是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种车辆驾驶决策方法流程图，本发明实施例可适用于控制移动车辆进行自动驾驶的场景中，该方法可以由车辆驾驶决策装置执行，该装置可以由软件和/或硬件的方式来实现。

如图1所示，车辆驾驶决策方法包括以下步骤：

S110、获取目标车辆的当前行驶属性信息，并根据所述当前行驶属性信息确定初始驾驶策略。

其中，目标车辆可以是需要进行自动驾驶控制的车辆。当前行驶属性信息可以是与目标车辆当前行驶状态相关的一些属性信息。当前行驶属性信息可以对后续驾驶策略的形成具有较大影响，基于不同的当前行驶属性信息可以生成不同的驾驶策略。具体的，当前行驶属性信息可以包括车辆状态信息和车身环境信息。示例性的，车辆状态信息包括目标车辆的当前车速、目标车辆与车道的相对位置等信息。车身环境信息可以包括当前天气情况、目标车辆与前方障碍物距离等信息。当前行驶属性信息可以通过激光雷达、毫米波雷达、摄像头等传感器获得。

初始驾驶策略可以是由当前行驶属性信息确定的原始驾驶策略。具体的，可以将所述当前行驶属性信息输入至经过预先训练的目标驾驶策略确定模型中，得到初始驾驶策略。由于目标驾驶策略确定模型也是通过有限数量的训练数据训练后获得的模型，其确定的驾驶策略存在一定的局限性，因此，后续还可以对初始驾驶策略进行优化，以进一步提升驾驶策略的安全性。

S120、基于所述初始驾驶策略对应的虚拟场景的安全等级确定第一安全性评估结果。

其中，第一安全性评估结果可以是从虚拟场景仿真角度对初始驾驶策略进行安全性评估的结果。具体的，可以基于所述初始驾驶策略进行目标车辆进行虚拟场景仿真，得到所述初始驾驶策略对应的虚拟场景；根据所述虚拟场景的产生的驾驶结果的危险性确定第一安全性评估结果。例如，可以根据虚拟场景的产生的驾驶结果的危险程度确定相应的安全等级，再将相应的安全等级作为第一安全性评估结果。通过确定初始驾驶策略的安全等级，可以便于后续根据安全等级对初始驾驶策略进行相应的调整。

其中，基于所述初始驾驶策略进行目标车辆进行虚拟场景仿真的过程包括：基于预设的虚拟场景仿真软件对目标车辆的当前行驶属性信息构建初始虚拟驾驶场景，再使初始虚拟驾驶场景中的目标车辆执行初始驾驶策略，得到初始驾驶策略对应的虚拟驾驶场景。

S130、将所述初始驾驶策略对应的驾驶控制参数值与预设驾驶控制参数标准阈值进行对比，并根据对比结果确定第二安全性评估结果。

其中，驾驶控制参数值可以是初始驾驶策略对目标车辆进行驾驶控制的具体参数值。示例性的，驾驶控制参数值包括但不限于车速、转向力和转向角等参数。预设驾驶控制参数标准阈值可以是预设的与驾驶控制参数相关的参考阈值。预设驾驶控制参数标准阈值可以基于与驾驶控制相关的专家数据进行确定。

第二安全性评估结果可以是从驾驶控制参数合理性角度对初始驾驶策略进行安全性评估的结果。具体的，可以将所述初始驾驶策略对应的驾驶控制参数值与所述预设驾驶控制参数标准阈值进行对比，并根据对比结果确定第二安全性评估结果。示例性的，当驾驶控制参数值与所述预设驾驶控制参数标准阈值的误差值超过预设的驾驶控制参数误差阈值时，可以确定第二安全性评估结果存在安全性风险；当驾驶控制参数值与所述预设驾驶控制参数标准阈值的误差值在预设的驾驶控制参数误差阈值时，可以确定第二安全性评估结果不存在安全性风险。通过从驾驶控制参数合理性角度对初始驾驶策略进行分析确定第二安全性评估结果，可以便于后续根据第二安全性评估结果对初始驾驶策略中的驾驶控制参数值进行相应的调整。

S140、根据所述第一安全性评估结果和所述第二安全性评估结果对所述初始驾驶策略进行调整，得到目标驾驶策略。

其中，目标驾驶策略可以是最终的对目标车辆进行控制的驾驶策略。目标驾驶策略可以根据第一安全性评估结果和所述第二安全性评估结果对所述初始驾驶策略进行调整得到。具体的，可以根据所述第一安全性评估结果和所述第二安全性评估结果共同来确定驾驶控制参数待调整量，再根据驾驶控制参数待调整量对所述初始驾驶策略进行调整。

其中，确定驾驶控制参数待调整量的过程包括：先根据所述第一安全性评估结果确定第一驾驶控制参数待调整量，再先根据第二安全性评估结果来对第二驾驶控制参数待调整量，当第一驾驶控制参数待调整量和第二驾驶控制参数待调整量的数值接近时，可以将两者进行加权求和等处理确定驾驶控制参数待调整量；当第一驾驶控制参数待调整量和第二驾驶控制参数待调整量的数值相差较大时，可以基于第一驾驶控制参数待调整量对初始驾驶策略对应的驾驶控制参数进行调整，再对调整后的驾驶控制参数进行虚拟场景仿真，再根据仿真结果对第一驾驶控制参数进行调整得到。本发明实施例的技术方案可以从虚拟场景仿真角和驾驶控制参数合理性角度对驾驶策略进行评估和调整，提高车辆驾驶控制的安全性。

图2是本发明实施例提供的又一种车辆驾驶决策方法流程图，本发明实施例可适用于控制移动车辆进行自动驾驶的场景中，本实施例在上述实施例的基础上，进一步的说明如何根据所述当前行驶属性信息确定初始驾驶策略，如何基于所述初始驾驶策略对应的虚拟场景的安全等级确定第一安全性评估结果，如何将所述初始驾驶策略对应的驾驶控制参数值与预设驾驶控制参数标准阈值进行对比，并根据对比结果确定第二安全性评估结果，以及如何根据所述第一安全性评估结果和所述第二安全性评估结果对所述初始驾驶策略进行调整，得到目标驾驶策略。该装置可以由软件和/或硬件的方式来实现，集成于具有应用开发功能的计算机设备中。

如图2所示，车辆驾驶决策方法包括以下步骤：

S210、获取目标车辆的当前行驶属性信息，将所述当前行驶属性信息输入至经过预先训练的目标驾驶策略确定模型中，得到初始驾驶策略。

目标驾驶策略确定模型可以是用于确定目标车辆当前驾驶策略的模型。目标驾驶策略确定模型可以经过预先训练获得，具体的，目标驾驶策略确定模型的训练过程包括：获取预设驾驶策略确定模型训练集，并将所述预设驾驶策略确定模型训练集输入至初始驾驶策略确定模型；以整车安全性作为模型训练奖励函数，对所述初始驾驶策略确定模型进行训练，得到所述目标驾驶策略确定模型。

驾驶策略确定模型的训练阶段，传统的强化学习方法只需评估当前决策的价值或奖励，进而根据此奖励值进行下一轮的更新。然而，在汽车应用领域内，面对复杂的车身态势，还需考虑将整车的安全运行作为奖励函数的一部分，即用整车安全状态来间接的指导策略输出决策，其中，整车安全状态可以通过判断是否超出运行设计域或感知***识别到的行人是否与车辆过于接近，当超过运行设计域时，对于超车、加速这样的动作应给予相应的奖励调整，这样的好处是当整车处于较不安全的场景时，策略在此信息下给出的决策可以是保守的，即避免因未考虑整车安全运行状态而导致的预期功能安全风险；最后，应考虑动态奖励函数的对抗问题，当AI模型本身被当前奖励值误导后，应给出解决方案，即通过人工调整，数据标注，规则引导等方法，丰富决策奖励的层次，如速度、位置是否有偏差的纠正奖励，决策的安全性奖励等，并设置不同权值多次训练，保存模型并择优，避免因奖励值误导导致的决策模型性能下降。

其中，初始驾驶策略确定模型可以是没有经过训练的原始驾驶策略确定模型。初始驾驶策略确定模型可以是预设的神经网络模型，通过对初始驾驶策略确定模型进行训练，可以得到目标驾驶策略确定模型。模型训练奖励函数可以在驾驶策略确定模型过程中的一种激励函数。当以整车安全性作为模型训练奖励函数，对所述初始驾驶策略确定模型进行训练时，可以使初始驾驶策略确定模型以整车安全性为方向进行不断优化得到所述目标驾驶策略确定模型，进而使目标驾驶策略确定模型确定出的驾驶策略更侧重于保护目标车辆的整车安全性，提高对目标车辆进行自动控制的安全性。

初始驾驶策略可以是由初始驾驶策略确定模型确定的原始驾驶策略。具体的，可以将所述当前行驶属性信息输入至经过预先训练的目标驾驶策略确定模型中，得到初始驾驶策略。由于目标驾驶策略确定模型也是通过有限数量的训练数据训练后获得的模型，其确定的驾驶策略存在一定的局限性，因此，后续还可以对初始驾驶策略进行优化，以进一步提升驾驶策略的安全性。

S220、基于所述初始驾驶策略进行虚拟场景仿真，得到所述初始驾驶策略对应的虚拟驾驶场景。

其中，虚拟场景仿真可以是一种虚拟模仿执行初始驾驶策略的技术。虚拟驾驶场景可以是目标车辆执行初始驾驶策略后产生的结果进行模仿的虚拟场景。具体的，可以基于预设的虚拟场景仿真软件对目标车辆的当前行驶属性信息构建初始虚拟驾驶场景，再使初始虚拟驾驶场景中的目标车辆执行初始驾驶策略，得到初始驾驶策略对应的虚拟驾驶场景。

S230、根据所述虚拟驾驶场景中的虚拟驾驶结果确定所述初始驾驶策略的策略安全等级，并将所述策略安全等级作为第一安全性评估结果。

其中，虚拟驾驶结果可以是虚拟驾驶场景中目标车辆执行初始驾驶策略后产生的驾驶结果。示例性的，当目标车辆与前方车辆的距离较小时，而初始驾驶策略是保持当前车辆行驶速度，则虚拟驾驶结果可能是目标车辆与前方车辆发生碰撞。

策略安全等级可以是从行驶安全角度对初始驾驶策略进行评定的安全等级。具体的，策略安全等级可以基于虚拟驾驶场景中的虚拟驾驶结果进行确定。示例性的，转弯场景下，目标车辆在执行初始驾驶策略后：a)当虚拟驾驶结果未导致任何危害时，目标车辆能够稳定通过弯道，与正常驾驶无明显差别，则可以确定初始驾驶策略的策略安全等级为0级，表示初始驾驶策略安全性高；b)当虚拟驾驶结果导致轻微危害时，例如目标车辆偏离车道中心，但未偏离车道，则可以确定初始驾驶策略的策略安全等级为1级，表示初始驾驶策略安全性较高；c)当虚拟驾驶结果未导致不可接受的危害时，例如目标车辆旁边存在大型车辆时选择超车，则初始驾驶策略存在危害，则可以确定初始驾驶策略的策略安全等级为2级，表示初始驾驶策略存在安全性危险；d)当虚拟驾驶结果导致严重危害时，例如目标车辆与行人接近时未进行减速；或弯道超车等情况，则可以确定初始驾驶策略的策略安全等级为3级，表示初始驾驶策略存在较大安全性危险。e)当虚拟驾驶结果导致不可接受的危害时，例如冲出车道，转向失衡等情况，则可以确定初始驾驶策略的策略安全等级为4级，表示初始驾驶策略存在严重安全性危险。可选的，当初始驾驶策略的策略安全等级较高时，可以设置相应的警示信息，以告知驾驶员当前驾驶状态下可能存在的风险。

进一步的，在确定初始驾驶策略的策略安全等级后，可以将所述策略安全等级作为第一安全性评估结果。其中，第一安全性评估结果可以是从虚拟场景仿真角度对初始驾驶策略进行安全性评估的结果。通过确定初始驾驶策略的策略安全等级，可以便于后续根据策略安全等级对初始驾驶策略进行相应的调整。

S240、根据所述当前行驶属性信息确定所述目标车辆的当前行驶状态，并根据所述当前行驶状态确定预设驾驶控制参数标准阈值。

其中，当前行驶状态可以是目标车辆的当前运动状态。具体的，可以将当前行驶属性信息与预设的行驶状态判定标准进行对比，根据对比结果确定目标车辆的当前运动状态。示例性的，当前行驶状态可以包括但不限于直道行驶状态、弯道转弯状态、存在危险碰撞状态等状态。

预设驾驶控制参数标准阈值可以是预设的与驾驶控制参数相关的参考阈值。预设驾驶控制参数标准阈值与当前行驶状态具有对应关系，也即各种当前行驶状态均有相对应的预设驾驶控制参数标准阈值。具体的，在确定所述目标车辆的当前行驶状态后，可以根据对应关系确与当前行驶状态的对应关系对应的预设驾驶控制参数标准阈值。

S250、将所述初始驾驶策略对应的驾驶控制参数值与所述预设驾驶控制参数标准阈值进行对比，并根据对比结果确定第二安全性评估结果。

其中，驾驶控制参数值可以是初始驾驶策略对目标车辆进行驾驶控制的具体参数值。示例性的，驾驶控制参数值包括但不限于车速、转向力和转向角等参数。第二安全性评估结果可以是从驾驶控制参数合理性角度对初始驾驶策略进行安全性评估的结果。具体的，可以将所述初始驾驶策略对应的驾驶控制参数值与所述预设驾驶控制参数标准阈值进行对比，并根据对比结果确定第二安全性评估结果。示例性的，当驾驶控制参数值与所述预设驾驶控制参数标准阈值的误差值超过预设的驾驶控制参数误差阈值时，可以确定第二安全性评估结果存在安全性风险；当驾驶控制参数值与所述预设驾驶控制参数标准阈值的误差值在预设的驾驶控制参数误差阈值时，可以确定第二安全性评估结果不存在安全性风险。通过从驾驶控制参数合理性角度对初始驾驶策略进行分析确定第二安全性评估结果，可以便于后续根据第二安全性评估结果对初始驾驶策略中的驾驶控制参数值进行相应的调整。

S260、根据所述第一安全性评估结果和所述第二安全性评估结果确定驾驶控制参数待调整量。

其中，驾驶控制参数待调整量可以是需要对初始驾驶策略对应的驾驶控制参数进行调整的待调整量。具体的，可以根据所述第一安全性评估结果和所述第二安全性评估结果共同来确定驾驶控制参数待调整量。示例性的，可以先根据所述第一安全性评估结果确定第一驾驶控制参数待调整量，再先根据第二安全性评估结果来对第二驾驶控制参数待调整量，当第一驾驶控制参数待调整量和第二驾驶控制参数待调整量的数值接近时，可以将第一驾驶控制参数待调整量和第二驾驶控制参数待调整量进行加权求和等处理确定驾驶控制参数待调整量；当第一驾驶控制参数待调整量和第二驾驶控制参数待调整量的数值相差较大时，可以基于第一驾驶控制参数待调整量对初始驾驶策略对应的驾驶控制参数进行调整，再对调整后的驾驶控制参数进行虚拟场景仿真，若调整后的驾驶策略对应策略安全等级较低，则可以将第一驾驶控制参数待调整量作为驾驶控制参数待调整量；若调整后的驾驶策略对应策略安全等级较高，则还可以基于调整后的驾驶策略对应策略对第一驾驶控制参数待调整量进行调整，直至调整后的驾驶策略对应策略安全等级较低时，基于最终的参数调整值确定驾驶控制参数待调整量。

其中，根据所述第一安全性评估结果确定第一驾驶控制参数待调整量，包括；根据所述第一安全性评估结果中的策略安全等级确定对应的控制参数待调整量，并将对应的控制参数待调整量作为第一驾驶控制参数待调整量。根据所述第二安全性评估结果确定第二驾驶控制参数待调整量，包括：将驾驶控制参数值与所述预设驾驶控制参数标准阈值的误差值作为第二驾驶控制参数待调整量。

S270、根据所述驾驶控制参数待调整量对初始驾驶策略对应的驾驶控制参数进行调整，得到目标驾驶策略。

其中，目标驾驶策略可以是最终的对目标车辆进行控制的驾驶策略。目标驾驶策略可以根据所述驾驶控制参数待调整量对初始驾驶策略对应的驾驶控制参数进行调整后得到。具体的，可以将初始驾驶策略对应的驾驶控制参数值与驾驶控制参数待调整量进行加和，进而得到目标驾驶策略。

在一种可选的实施方式中，在所述得到目标驾驶策略之后，还可以将所述当前行驶属性信息、所述目标驾驶策略以及确定目标驾驶策略过程中的相关数据上传至云端进行储存，便于后续根据云端数据对目标驾驶策略确定模型进行优化。

在一种可选的实施方式中，在所述得到目标驾驶策略之后，还可以将所述当前行驶属性信息和所述目标驾驶策略作为新的训练集对所述目标驾驶策略确定模型进行优化。具体的，可以将当前行驶属性信息作为新的训练集样本，再将所述目标驾驶策略作为新的验证集样本，进而得到新的训练集，随后，可以基于新的新的训练集对所述目标驾驶策略确定模型进行优化。通过不断将新的环境信息-决策的数据作为训练对目标驾驶策略确定模型进行优化，以提高目标驾驶策略确定模型针对不同场景做出最佳决策的能力，间接的提高算法鲁棒性，提高确定驾驶策略的准确性和安全性。

其中，为了目标驾驶策略确定模型的优化效率，可以通过重要性采样的方法，使得样本被抽取的概率不同，但保证不同样本对梯度下降的影响相同。对于未知的环境信息或高危的决策可以进行多轮训练以找到最佳的输出。其中，未知的环境信息可以是经验库中随机抽取次数较少，即利用次数较少的环境信息；高危决策为在对应环境中导致低奖励的模型决策输出。目的是提高算法模型的鲁棒性和生成效率，即避免因算法的鲁棒性、泛化性不足，以及数据利用不充分导致的决策模型性能下降。

在一种可选的实施方式中，在驾驶策略确定模型的优化阶段，面对汽车所面对的复杂态势，输入拟合工具的数据量是呈指数级增加的，且数据可能为多模态形式的。为避免拟合工具产生估计偏差，应考虑从数据预处理、模型网络剪枝、额外的更新约束等角度控制这种从输入到输出的估计偏差，如在使用神经网络的决策模型中，使用多个神经网络同时训练并对比它们的输出值，选择使用平均值或较小值，避免每次更新中产生较大的方差，或针对同一环境数据，有差异较大的数据，则应对不符合实际的数据进行重新训练或剔除，以提高算法模型的准确性和效率，即避免因人工智能拟合工具的误差、方差等问题导致的决策***性能下降。

示例性的，图3是本发明实施例提供的一种车辆驾驶决策***的工作流程图，如图3所示，车辆驾驶决策***的工作流程主要包括决策算法设计步骤和决策输出步骤，其中，决策算法设计步骤包括：首先进行专家数据设计，随后通过热启动进行经验回放库改进，再进行奖励模型安全设计，随后通过策略安全驱动进行策略模型改进；决策输出步骤包括：首先策略评估和约束，再输出决策，随后确定该决策对应的仿真测试安全等级，最后将相关数据上传数据对到云端。

其中，在专家数据设计阶段，首先，可以根据专家给出的数据建立统一的数据集，包含数据集要求的定义、数据集设计、数据集实施、数据集的验证和确认、数据集的维护等主要阶段工作，即避免因数据集不规范导致的模型训练速度降低、训练成本增高；其次，可以考虑在不同运行设计域下，通过安全的策略融合多模态的数据以增加信息熵，包括但不限于激光雷达、毫米波雷达、摄像头等传感器的多方向、高感知数据，使用特征融合、决策融合等方法，使决策***中的神经网络等拟合工具有更多的特征信息可以学***衡专家数据、仿真数据、真实实时数据的成本和有效性。综上，此流程达到的效果为增强算法生成安全决策的能力和数据安全管理的要求。

在经验回放库阶段，离线强化学习算法的训练可使用上述专家数据进行热启动，以让智能体可以快速了解其基本行为；而后，基于马尔可夫决策过程，策略模型根据在每一步环境中获得的奖励来调整驾驶策略，并根据更新后的驾驶策略进一步地实时收集新的环境信息-决策的数据以进行下一步迭代更新。

在奖励模型设计阶段，可以对决策模型的奖励模式进行设置，并对奖励模型进行训练。

在算法模型改进阶段，可以基于新的训练集对决策模型进行优化。

在决策算法设计步骤中，可以基于训练后的决策模型输出驾驶控制策略，并对驾驶控制策略执行决策输出步骤。

在策略评估和决策输出阶段，可以对一段时间内的策略连续输出与现有的参考数据进行对比，并根据对比结果对策略给出的决策是否合理进行评估和调整。

在安全等级阶段，可以对调整后的决策进行虚拟仿真，并根据虚拟仿真测试结果的安全等级对决策进行标记和再次调整。

在云端上传阶段，可收集上述环境-决策-安全等级的数据上传到云端服务器***，这些数据可用于进一步的训练决策算法模型，以提高算法针对不同场景，根据不同的安全等级做出最佳决策的能力，间接的提高算法鲁棒性。

对于本发明设计的上述流程和方法，在智能决策***的角度保障了预期功能安全的实现，能够提高整车运行的稳定性和安全程度，增强质量保证，并间接地降低了整车所需的额外成本。

本发明实施例所提供的技术方案，通过获取目标车辆的当前行驶属性信息，将所述当前行驶属性信息输入至经过预先训练的目标驾驶策略确定模型中，得到初始驾驶策略；基于所述初始驾驶策略进行虚拟场景仿真，得到所述初始驾驶策略对应的虚拟驾驶场景；根据所述虚拟驾驶场景中的虚拟驾驶结果确定所述初始驾驶策略的策略安全等级，并将所述策略安全等级作为第一安全性评估结果；根据所述当前行驶属性信息确定所述目标车辆的当前行驶状态，并根据所述当前行驶状态确定所述预设驾驶控制参数标准阈值；将所述初始驾驶策略对应的驾驶控制参数值与所述预设驾驶控制参数标准阈值进行对比，并根据对比结果确定第二安全性评估结果；根据所述第一安全性评估结果和所述第二安全性评估结果确定驾驶控制参数待调整量；根据所述驾驶控制参数待调整量对初始驾驶策略对应的驾驶控制参数进行调整，得到目标驾驶策略。本发明实施例的技术方案解决了现有技术基于预设的经验模型对车辆的控制参数进行评估和调整时，存在的车辆驾驶控制安全性不足的问题，可以从多角度对驾驶策略进行评估和调整，提高车辆驾驶控制的安全性。

图4是本发明实施例提供的一种车辆驾驶决策装置的结构示意图，本发明实施例可适用于控制移动车辆进行自动驾驶的场景中，该装置可以由软件和/或硬件的方式来实现，集成于具有应用开发功能的计算机设备中。

如图4所示，车辆驾驶决策装置包括：初始驾驶策略确定模块310、第一安全性评估结果确定模块320、第二安全性评估结果确定模块330和驾驶策略调整模块340。

其中，初始驾驶策略确定模块310，用于获取目标车辆的当前行驶属性信息，并根据所述当前行驶属性信息确定初始驾驶策略；第一安全性评估结果确定模块320，用于基于所述初始驾驶策略对应的虚拟场景的安全等级确定第一安全性评估结果；第二安全性评估结果确定模块330，用于将所述初始驾驶策略对应的驾驶控制参数值与预设驾驶控制参数标准阈值进行对比，并根据对比结果确定第二安全性评估结果；驾驶策略调整模块340，用于根据所述第一安全性评估结果和所述第二安全性评估结果对所述初始驾驶策略进行调整，得到目标驾驶策略。

在一种可选的实施方式中，所述第一安全性评估结果确定模块320具体用于：基于所述初始驾驶策略进行虚拟场景仿真，得到所述初始驾驶策略对应的虚拟驾驶场景；根据所述虚拟驾驶场景中的虚拟驾驶结果确定所述初始驾驶策略的策略安全等级，并将所述策略安全等级作为所述第一安全性评估结果。

在一种可选的实施方式中，所述第二安全性评估结果确定模块330具体用于：根据所述当前行驶属性信息确定所述目标车辆的当前行驶状态，并根据所述当前行驶状态确定所述预设驾驶控制参数标准阈值；将所述初始驾驶策略对应的驾驶控制参数值与所述预设驾驶控制参数标准阈值进行对比，并根据对比结果确定所述第二安全性评估结果。

在一种可选的实施方式中，驾驶策略调整模块340具体用于：根据所述第一安全性评估结果和所述第二安全性评估结果确定驾驶控制参数待调整量；根据所述驾驶控制参数待调整量对初始驾驶策略对应的驾驶控制参数进行调整，得到所述目标驾驶策略。

在一种可选的实施方式中，初始驾驶策略确定模块310具体用于：将所述当前行驶属性信息输入至经过预先训练的目标驾驶策略确定模型中，得到所述初始驾驶策略。

在一种可选的实施方式中，所述车辆驾驶决策装置还包括：驾驶策略确定模型训练模块，用于：获取预设驾驶策略确定模型训练集，并将所述预设驾驶策略确定模型训练集输入至初始驾驶策略确定模型；以整车安全性作为模型训练奖励函数，对所述初始驾驶策略确定模型进行训练，得到所述目标驾驶策略确定模型。

在一种可选的实施方式中，所述驾驶策略确定模型训练模块还包括：在所述得到目标驾驶策略之后，将所述当前行驶属性信息和所述目标驾驶策略作为新的训练集对所述目标驾驶策略确定模型进行优化。

本发明实施例所提供的车辆驾驶决策装置可执行本发明任意实施例所提供的车辆驾驶决策方法，具备执行方法相应的功能模块和有益效果。

图5为本发明实施例提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。计算机设备12可以任意具有计算能力的终端设备，可以与配置于车辆驾驶决策设备中。

如图5所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18可以是几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓存32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。***存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如***存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图5中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发实施例所提供的车辆驾驶决策方法，该方法包括：

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的车辆驾驶决策方法，包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语种或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语种包括面向对象的程序设计语种，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语种，诸如“C”语种或类似的程序设计语种。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员可以明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种车辆驾驶决策方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述初始驾驶策略对应的虚拟场景的安全等级确定第一安全性评估结果，包括：

基于所述初始驾驶策略进行虚拟场景仿真，得到所述初始驾驶策略对应的虚拟驾驶场景；

根据所述虚拟驾驶场景中的虚拟驾驶结果确定所述初始驾驶策略的策略安全等级，并将所述策略安全等级作为所述第一安全性评估结果。

3.根据权利要求1所述的方法，其特征在于，所述将所述初始驾驶策略对应的驾驶控制参数值与所述预设驾驶控制参数标准阈值进行对比，并根据对比结果确定第二安全性评估结果，包括：

根据所述当前行驶属性信息确定所述目标车辆的当前行驶状态，并根据所述当前行驶状态确定所述预设驾驶控制参数标准阈值；

将所述初始驾驶策略对应的驾驶控制参数值与所述预设驾驶控制参数标准阈值进行对比，并根据对比结果确定所述第二安全性评估结果。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一安全性评估结果和所述第二安全性评估结果对所述初始驾驶策略进行调整，得到目标驾驶策略，包括：

根据所述第一安全性评估结果和所述第二安全性评估结果确定驾驶控制参数待调整量；

根据所述驾驶控制参数待调整量对初始驾驶策略对应的驾驶控制参数进行调整，得到所述目标驾驶策略。

5.根据权利要求1所述的方法，其特征在于，所述根据所述当前行驶属性信息确定初始驾驶策略，包括：

将所述当前行驶属性信息输入至经过预先训练的目标驾驶策略确定模型中，得到所述初始驾驶策略。

6.根据权利要求5所述的方法，其特征在于，所述目标驾驶策略确定模型的训练过程，包括：

获取预设驾驶策略确定模型训练集，并将所述预设驾驶策略确定模型训练集输入至初始驾驶策略确定模型；

以整车安全性作为模型训练奖励函数，对所述初始驾驶策略确定模型进行训练，得到所述目标驾驶策略确定模型。

7.根据权利要求1所述的方法，其特征在于，在所述得到目标驾驶策略之后，还包括：

将所述当前行驶属性信息和所述目标驾驶策略作为新的训练集对所述目标驾驶策略确定模型进行优化。

8.一种车辆驾驶决策装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的车辆驾驶决策方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的车辆驾驶决策方法。