CN115534998A

CN115534998A - 自动驾驶集成决策方法、装置、车辆及存储介质

Info

Publication number: CN115534998A
Application number: CN202211266914.3A
Authority: CN
Inventors: 郑四发; 谷子青; 李升波; 张创
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2022-12-30

Abstract

本申请涉及一种自动驾驶集成决策方法、装置、车辆及存储介质，包括：获取目标点在世界坐标系的第一状态信息，并转换至目标坐标系下得到第二状态信息，同时获取目标点在目标时刻偏离参考路径初始横向位移及纵向速度，基于预设稳定策略和初始横向位移与纵向速度间函数关系，获得世界坐标系生成轨迹的目标点状态信息，生成满足基本动力学约束安全轨迹，对其进行逐状态约束，得到目标点在目标时刻偏离参考路径最终横向位移及纵向速度，生成车辆最优安全轨迹，作为车辆集成决策***输出，输入到下层控制器，对车辆进行控制。由此，解决在含有交互性和不确定性场景基于规则的自动驾驶决策***难以实现高级别自动化和智能性等问题，提升决策***智能性。

Description

自动驾驶集成决策方法、装置、车辆及存储介质

技术领域

本申请涉及车辆技术领域，特别涉及一种自动驾驶集成决策方法、装置、车辆及存储介质。

背景技术

高级别自动驾驶技术对于提升道路交通安全性，降低事故率，提升通行效率具有重要意义。然而，高级别自动驾驶技术的决策***依然面临以下两大挑战。

挑战一：传统的自动驾驶决策***通常包含行为选择和路径规划两个模块。其中，两个模块通常是相对独立且顺序执行的，并且路径规划模块完全听从行为选择模块的结果，二者相互制约，彼此间缺乏有效的交互与反馈。在具有不确定性和交互性的场景中，决策模块输出的不准确或者次优结果会限制路径规划模块的优势，使得基于规则的自动驾驶决策***难以实现高级别的自动化和智能性。

行为选择和路径规划作为不同的***主体，二者的需求往往不一致。前者更加偏向战略级别的行为选择，而后者则要求路径的曲率、侧向加速度等指标满足要求。例如，在如图1所示的场景中，行为选择模块通常根据可行区间的安全性输出离散的选择结果，而路径规划模块会综合考虑曲率、侧向加速度等指标输出更加精细化的轨迹规划结果。二者的优化目标不同会导致输出结果的不同，如果路径规划模块完全听从行为选择模块的输出，则可能产生难以保证动力学稳定性的轨迹，影响下层控制器的跟踪；如果摘除行为选择模块，则会增大路径规划模块的求解范围，降低求解精度和求解效率。具体来说，当前的规划方案通常将时间和空间分开，先进行路径规划，再进行速度规划，最终合成路径。问题在于，如果采用搜索的方式，能够获得全局最优解，但是可能会采样出很多条轨迹，并且筛选出合理轨迹需要设计合理的代价函数进行选择，这个过程非常耗时。另外，基于优化的方式尽管能够一定程度上降低求解时间，但是需要将问题转化成凸问题，在考虑众多约束的情况下很难求解。在避让动态障碍物的过程中，路径的选择与速度关系十分密切，速度规划在给定路径下执行也在一定程度上影响着驾驶行为的类人性。

挑战二：基于强化学习的方法在自动驾驶顺序决策中已经展现出较大的优势，该类方法能够不依赖于有标签的数据，从与环境的交互中自进化地迭代更新策略，并且具有实现集成式决策的能力。但是，强化学习型方法从探索与试错中学习的性质也使得安全性成为限制其应用的主要瓶颈。约束型马尔科夫过程(Constrained Markov DecisionProcess，CMDP)常常被用来描述考虑安全约束的强化学习型问题。但是常见的问题设置和求解方法通常是优化期望意义下的安全。对于自动驾驶车辆而言，保证每个状态的绝对安全更为重要。

进一步地，求解安全策略需要两个步骤：(1)设计状态约束型问题；(2)求解状态约束型问题。其中，第一步的重要性体现在，强化学习优化的目标函数通常是定义在无穷时域上的，然而，受限于动力学***特性和输入状态约束，保障无穷时域内可行性的状态约束往往与普通的安全目标函数不同，且一般更加保守。进一步地，如果状态约束型问题的形式没有被正确设计，无论选择哪种优化算法，都永远无法求得可行的安全策略。

发明内容

本申请提供一种自动驾驶集成决策方法、装置、车辆及存储介质，以解决在含有交互性和不确定性场景中基于规则的自动驾驶决策***难以实现高级别的自动化和智能性等问题，提升了决策***的智能性。

本申请第一方面实施例提供一种自动驾驶集成决策方法，包括以下步骤：

获取目标点在世界坐标系的第一状态信息，并将所述第一状态信息转换至目标坐标系下，得到所述目标点在目标坐标系的第二状态信息；

基于所述第二状态信息，获取所述目标点在目标时刻偏离参考路径的初始横向位移和初始纵向速度，并基于预设的稳定策略和所述初始横向位移和初始纵向速度之间的函数关系，获得所述世界坐标系中生成轨迹的目标点的状态信息，以根据所述目标点的状态信息生成满足基本动力学约束的安全轨迹；以及

对所述满足基本动力学约束的安全轨迹进行逐状态约束，得到所述目标点在所述目标时刻偏离所述参考路径的最终横向位移和最终纵向速度，并基于所述最终横向位移和所述最终纵向速度生成车辆的最优安全轨迹，并将所述最优安全轨迹作为所述车辆的集成决策***的输出，输入到下层控制器，以根据所述最优安全轨迹对所述车辆进行控制。

根据本申请的一个实施例，所述对所述满足基本动力学约束的安全轨迹进行逐状态约束，包括：

确定安全可行区域状态空间内的替代状态价值函数的阈值；

基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略，对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新，直至满足预设迭代条件。

根据本申请的一个实施例，所述基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略，对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新，包括：

通过最小化均方误差更新所述状态价值函数的目标函数和梯度为：

其中，

为所述状态价值函数的目标函数，υ为状态价值函数的参数，V_v(s)为状态价值函数，s为状态，Q_ω(s′，a′)为状态-动作价值函数，s′为下一时刻状态，a′为对应动作，α为温度系数，logπ_μ(·)为策略函数π_μ的熵，

为所述状态价值函数的梯度，

为状态价值函数的梯度；

通过最小化贝尔曼残差更新所述状态-动作价值函数的目标函数和梯度为：

其中，

为所述状态-动作价值函数的目标函数，Q_ω(s，a)为状态-动作价值函数，a为动作，

为策略函数π_μ下的状态分布，r(s，a)为奖励函数，γ∈(0，1)表示折扣因子，

为目标状态价值函数，

为所述状态-动作价值函数的梯度，

为状态-动作值函数的梯度；

更新所述拉格朗日乘子函数数的目标函数和梯度为：

其中，

为所述拉格朗日乘子函数的目标函数，λ_ξ(s)为拉格朗日乘子函数，

为可行状态-动作价值函数，

为所述拉格朗日乘子函数的梯度；

更新所述可行状态-动作价值函数的目标函数和梯度为：

其中，

为更新可行状态-动作价值函数的目标函数，

为可行状态-动作价值函数的目标函数，d为约束阈值，

为所述可行状态-动作价值函数的梯度，

为可行状态-动作价值函数的梯度。

根据本申请的一个实施例，所述将所述第一状态信息转换至目标坐标系下，包括：

基于预设的坐标系转换函数，将所述第一状态信息转换至目标坐标系下，其中，所述预设的坐标系转换函数为：

其中，

分别为Frenet坐标系中的纵向位移、纵向速度、纵向加速度、横向位移、横向速度和横向加速度；(x_t，y_t，v_t，acc_t，θ_t，κ_t)分别为世界坐标系中的横向位置、纵向位置、速度、加速度、朝向角和曲率；F_coor(·)为坐标系间的转换函数。

根据本申请的一个实施例，所述初始横向位移和初始纵向速度之间的函数关系为：

其中，横向位移l是纵向位移s的函数，纵向位移s是时间t的函数。p和q是多项式的次数。

根据本申请实施例提供的自动驾驶集成决策方法，通过获取目标点在世界坐标系的第一状态信息，并转换至目标坐标系下得到第二状态信息，同时获取目标点在目标时刻偏离参考路径的初始横向位移及纵向速度，并基于预设的稳定策略和初始横向位移与纵向速度之间的函数关系，获得世界坐标系中生成轨迹的目标点的状态信息，生成满足基本动力学约束的安全轨迹，并对其进行逐状态约束，得到目标点在目标时刻偏离参考路径的最终横向位移及纵向速度，生成车辆最优安全轨迹，作为车辆的集成决策***的输出，输入到下层控制器，对车辆进行控制。由此，解决了在含有交互性和不确定性场景中基于规则的自动驾驶决策***难以实现高级别的自动化和智能性等问题，提升了决策***的智能性。

本申请第二方面实施例提供一种自动驾驶集成决策装置，包括：

获取模块，用于获取目标点在世界坐标系的第一状态信息，并将所述第一状态信息转换至目标坐标系下，得到所述目标点在目标坐标系的第二状态信息；

生成模块，用于基于所述第二状态信息，获取所述目标点在目标时刻偏离参考路径的初始横向位移和初始纵向速度，并基于预设的稳定策略和所述初始横向位移和初始纵向速度之间的函数关系，获得所述世界坐标系中生成轨迹的目标点的状态信息，以根据所述目标点的状态信息生成满足基本动力学约束的安全轨迹；以及

控制模块，用于对所述满足基本动力学约束的安全轨迹进行逐状态约束，得到所述目标点在所述目标时刻偏离所述参考路径的最终横向位移和最终纵向速度，并基于所述最终横向位移和所述最终纵向速度生成车辆的最优安全轨迹，并将所述最优安全轨迹作为所述车辆的集成决策***的输出，输入到下层控制器，以根据所述最优安全轨迹对所述车辆进行控制。

根据本申请的一个实施例，所述对所述满足基本动力学约束的安全轨迹进行逐状态约束，所述控制模块，具体用于：

确定安全可行区域状态空间内的替代状态价值函数的阈值；

根据本申请的一个实施例，所述基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略，对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新，所述控制模块，具体用于：

其中，

为所述状态价值函数的梯度，

为状态价值函数的梯度；

其中，

为目标状态价值函数，

为所述状态-动作价值函数的梯度，

为状态-动作值函数的梯度；

更新所述拉格朗日乘子函数数的目标函数和梯度为：

其中，

为可行状态-动作价值函数，

为所述拉格朗日乘子函数的梯度；

更新所述可行状态-动作价值函数的目标函数和梯度为：

其中，

为更新可行状态-动作价值函数的目标函数，

为可行状态-动作价值函数的目标函数，d为约束阈值，

为所述可行状态-动作价值函数的梯度，

为可行状态-动作价值函数的梯度。

根据本申请的一个实施例，所述将所述第一状态信息转换至目标坐标系下，所述获取模块，具体用于：

其中，

分别为Frenet坐标系中的纵向位移、纵向速度、纵向加速度、横向位移、横向速度和横向加速度，(x_t，y_t，v_t，acc_t，θ_t，κ_t)分别为世界坐标系中的横向位置、纵向位置、速度、加速度、朝向角和曲率，F_coor(·)为坐标系间的转换函数。

根据本申请实施例提供的自动驾驶集成决策装置，通过获取目标点在世界坐标系的第一状态信息，并转换至目标坐标系下得到第二状态信息，同时获取目标点在目标时刻偏离参考路径的初始横向位移及纵向速度，并基于预设的稳定策略和所述初始横向位移与初始纵向速度之间的函数关系，获得世界坐标系中生成轨迹的目标点的状态信息，生成满足基本动力学约束的安全轨迹，并对其进行逐状态约束，得到目标点在目标时刻偏离参考路径的最终横向位移及纵向速度，生成车辆最优安全轨迹，作为车辆的集成决策***的输出，输入到下层控制器，对车辆进行控制。由此，解决了在含有交互性和不确定性场景中基于规则的自动驾驶决策***难以实现高级别的自动化和智能性等问题，提升了决策***的智能性。

本申请第三方面实施例提供一种车辆，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的自动驾驶集成决策方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的自动驾驶集成决策方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请的一个实施例的决策***不同模块间输出差异化示意图；

图2为根据本申请实施例提供的一种自动驾驶集成决策方法的流程图；

图3为根据本申请的一个实施例的自动驾驶集成决策方法的流程框图；

图4为根据本申请的一个实施例的安全状态投影过程示意图；

图5为根据本申请的一个实施例的模块物理含义示意图；

图6为根据本申请的一个实施例的不同状态空间示意图；

图7为根据本申请实施例的自动驾驶集成决策装置的方框示意图；

图8为根据本申请实施例提供的车辆的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的自动驾驶集成决策方法、装置、车辆及存储介质。针对上述背景技术中提到的在含有交互性和不确定性场景中基于规则的自动驾驶决策***难以实现高级别的自动化和智能性等问题，本申请提供了一种自动驾驶集成决策方法，在该方法中，获取目标点在世界坐标系的第一状态信息，并转换至目标坐标系下得到第二状态信息，同时获取目标点在目标时刻偏离参考路径的初始横向位移及纵向速度，并基于预设的稳定策略和初始横向位移与初始纵向速度之间的函数关系，获得世界坐标系中生成轨迹的目标点的状态信息，生成满足基本动力学约束的安全轨迹，并对其进行逐状态约束，得到目标点在目标时刻偏离参考路径的最终横向位移及纵向速度，生成车辆最优安全轨迹，作为车辆的集成决策***的输出，输入到下层控制器，对车辆进行控制。由此，解决了在含有交互性和不确定性场景中基于规则的自动驾驶决策***难以实现高级别的自动化和智能性等问题，提升了决策***的智能性。

具体而言，如图2所示，图2为本申请实施例所提供的一种自动驾驶集成决策方法的流程示意图。

在介绍本申请实施例的自动驾驶集成决策方法之前，先简单介绍下本申请实施例的自动驾驶集成决策方法涉及的自动驾驶集成决策***。

该实施例中，自动驾驶集成决策***主要包含三个大模块，安全投影模块、策略评估模块与策略提升模块。其中，策略评估模块包含两个子模块，拉格朗日乘子模块与可行价值函数模块，策略提升模块包含连续晶格模块，如图3所示。本申请实施例主要面向具有交互性和不确定性的场景，避免决策***中不同需求主体间优化目标相互制约，缺乏交互与反馈的问题。同时，使用替代拉格朗日目标方程，构建零约束违反的约束型马尔科夫决策过程描述问题，使用考虑状态分布的拉格朗日乘子法求解最优策略，输出安全、连续且合理的路径，使得决策***的输出具有较强的灵活性和较高的智能性。

如图2所示，该自动驾驶集成决策方法包括以下步骤：

在步骤S201中，获取目标点在世界坐标系的第一状态信息，并将第一状态信息转换至目标坐标系下，得到目标点在目标坐标系的第二状态信息。

具体而言，本申请实施例可以首先定义逐状态约束型马尔科夫过程，由一个五元组构成，

其中，

表示状态及状态空间，

表示动作及动作空间，

表示马尔科夫状态转移概率，

表示奖励函数，γ∈(0，1)表示折扣因子。具体的，SCMDP问题可以定义为如下形式：

其中，ρ^π(s)为状态在策略π下的分布，

为安全可行区域状态空间，

为安全可行区域状态空间内的状态价值函数，d为约束阈值。

进一步地，(1)中定义的问题难以直接求解。因此，本申请实施例可以转化原优化问题形式(1)到其对偶问题的形式：

其中，

是安全可行区域状态空间内的替代状态价值函数，对应可行价值函数模块。λ(·)为拉格朗日乘子，对应拉格朗日乘子模块。为保证逐状态约束的要求，λ(·)被定义为状态s的函数而非常数。在约束型强化学习问题中，对偶间隙不存在，并且，当ρ^π(s)遍历全状态，即包含安全状态空间时，问题(2)得到的最优解与问题(1)等价。

进一步地，定义

为基本安全状态空间，其物理含义为道路范围内的可驾驶区域。为了保证输出的目标点在可驾驶区域

内，首先定义问题(2)中的状态空间为世界坐标系中的状态在Frenet坐标系中的状态投影，如图4所示。

进一步地，安全投影模块旨在保证输出的目标点都落在可驾驶区域内，即道路范围内，同时在输入信息层面帮助车辆理解更多相对于道路和周车的信息。其中，本申请实施例可以基于预设的坐标系转换函数，将第一状态信息转换至目标坐标系下，其中，预设的坐标系转换函数为：

其中，

由此，利用与参考线间的相对位置信息将状态空间投影并约束在基本安全状态空间

内。

在步骤S202中，基于第二状态信息，获取目标点在目标时刻偏离参考路径的初始横向位移和初始纵向速度，并基于预设的稳定策略和初始横向位移和初始纵向速度之间的函数关系，获得世界坐标系中生成轨迹的目标点的状态信息，以根据目标点的状态信息生成满足基本动力学约束的安全轨迹。

具体而言，为了保证决策***的集成化输出，本申请实施例可以定义连续动作空间

为目标点在T时刻偏离参考路径的横向位移

和纵向速度

接着通过连续晶格模块生成轨迹，对策略进行后处理，如图5所示。

其中，在一些实施例中，初始横向位移和初始纵向速度之间的函数关系为：

其中，横向位移l是纵向位移s的函数，纵向位移s是时间t的函数。p和q是多项式的次数。本申请实施例可以令p＝6，q＝5。此时，轨迹起点状态的信息

可以从(3)中得到。

进一步地，在连续晶格模块中，为了保证驾驶过程的稳定性，假设在T时刻的横纵向加速度及横向速度为0，在时间t和纵向距离s^f上进行采样，得到目标点的状态信息为

结合(4)，可以生成一条由s^f(t)和l^f(s^f)共同描述的时空轨迹。进一步地，获得世界坐标系中生成轨迹的所有点的状态信息：

其中，v_uss，acc_uss，θ_uss，κ_uss分别为不安全状态集合。

至此，可以生成一条满足基本动力学约束的轨迹。本质上，本申请实施例使用网络输出目标点的部分信息，控制目标相对于参考线的距离来统一优化高层行为选择与轨迹生成的过程，同时通过控制输出纵向参考速度来进一步调节生成轨迹的安全性，并避免复杂的筛选轨迹的过程，保证不同时刻目标点的连续性和可达性。

在步骤S203中，对满足基本动力学约束的安全轨迹进行逐状态约束，得到目标点在目标时刻偏离参考路径的最终横向位移和最终纵向速度，并基于最终横向位移和最终纵向速度生成车辆的最优安全轨迹，并将最优安全轨迹作为车辆的集成决策***的输出，输入到下层控制器，以根据最优安全轨迹对车辆进行控制。

进一步地，在一些实施例中，对满足基本动力学约束的安全轨迹进行逐状态约束，包括：确定安全可行区域状态空间内的替代状态价值函数的阈值；基于安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略，对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新，直至满足预设迭代条件。

具体而言，本申请实施例的安全策略求解模块对满足基本动力学约束的轨迹进行逐状态约束。为保证轨迹安全状态可行，从算法角度约束轨迹的安全性。不同的轨迹安全状态如图6所示。本申请实施例首先通过逐状态约束的SCMDP形式，保证从问题设置角度，能够满足求解逐状态约束问题的要求。

进一步地，对问题中(2)的目标函数进行策略求解和拉格朗日乘子更新：

其中，β_λ与β_π分别是λ和π的更新步长。λ与π分别为乘子网络与策略网络的更新参数。

进一步地，安全可行区域状态空间内的替代状态价值函数的阈值d为动态交通流场景下生成轨迹与周车间的距离，即：

其中，η是衰减系数，d_t，i为自车在在t时刻与车辆i之间的距离，n为周车数量。

进一步地，用神经网络对各模块的近似函数进行拟合，包括状态价值函数V_υ，状态-动作价值函数Q_ω，拉格朗日乘子函数λ_ξ，策略函数π_μ和可行状态-动作价值函数

本实施例通过显式对状态-值函数建模，使得训练过程更加稳定。进一步地，(2)中的问题可以转化成如下形式：

其中，a～π_μ(s)，

是策略π_μ下的状态分布；logπ_μ(·)为策略π_μ的熵，α为温度系数。

进一步地，更新策略函数π_μ的目标函数和梯度为：

其中，在一些实施例中，基于安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略，对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新，包括：

通过最小化均方误差更新状态价值函数的目标函数和梯度为：

其中，

为状态价值函数的目标函数，υ为状态价值函数的参数，V_v(s)为状态价值函数，s为状态，Q_ω(s′，a′)为状态-动作价值函数，s′为下一时刻状态，a′为对应动作，α为温度系数，logπ_μ(·)为策略函数π_μ的熵，

为状态价值函数的梯度，

为状态价值函数的梯度；

通过最小化贝尔曼残差更新、状态-动作价值函数的目标函数和梯度为：

其中，

为状态-动作价值函数的目标函数，Q_ω(s，a)为状态-动作价值函数，a为动作，

为目标状态价值函数，

为状态-动作价值函数的梯度，

为状态-动作值函数的梯度；

更新拉格朗日乘子函数数的目标函数和梯度为：

其中，

为拉格朗日乘子函数的目标函数，λ_ξ(s)为拉格朗日乘子函数，

为可行状态-动作价值函数，

为拉格朗日乘子函数的梯度；

更新可行状态-动作价值函数的目标函数和梯度为：

其中，

为更新可行状态-动作价值函数的目标函数，

为可行状态-动作价值函数的目标函数，d为约束阈值，

为可行状态-动作价值函数的梯度，

为可行状态-动作价值函数的梯度。

进一步地，更新各个网络的参数：

其中，β_(·)为学习率，τ为目标网络参数更新比例。

进一步地，通过以上网络模块间迭代更新，输出最优策略，得到目标点在T时刻偏离参考路径的横向位移

和纵向速度

结合(4)与(5)输出最优安全轨迹，得到集成决策***的输出，最后输入到下层控制器中。

根据本申请实施例提出的自动驾驶集成决策方法，通过获取目标点在世界坐标系的第一状态信息，并转换至目标坐标系下得到第二状态信息，同时获取目标点在目标时刻偏离参考路径的初始横向位移及纵向速度，并基于预设的稳定策略和初始横向位移与初始纵向速度之间的函数关系，获得世界坐标系中生成轨迹的目标点的状态信息，生成满足基本动力学约束的安全轨迹，并对其进行逐状态约束，得到目标点在目标时刻偏离参考路径的最终横向位移及纵向速度，生成车辆最优安全轨迹，作为车辆的集成决策***的输出，输入到下层控制器，对车辆进行控制。由此，解决了在含有交互性和不确定性场景中基于规则的自动驾驶决策***难以实现高级别的自动化和智能性等问题，提升了决策***的智能性。

其次参照附图描述根据本申请实施例提出的自动驾驶集成决策装置。

图7是本申请实施例的自动驾驶集成决策装置的方框示意图。

如图7所示，该自动驾驶集成决策装置10包括：获取模块100、生成模块200和控制模块300。

其中，获取模块100，用于获取目标点在世界坐标系的第一状态信息，并将第一状态信息转换至目标坐标系下，得到目标点在目标坐标系的第二状态信息；

生成模块200，用于基于第二状态信息，获取目标点在目标时刻偏离参考路径的初始横向位移和初始纵向速度，并基于预设的稳定策略和初始横向位移和初始纵向速度之间的函数关系，获得世界坐标系中生成轨迹的目标点的状态信息，以根据目标点的状态信息生成满足基本动力学约束的安全轨迹；以及

控制模块300，用于对满足基本动力学约束的安全轨迹进行逐状态约束，得到目标点在目标时刻偏离参考路径的最终横向位移和最终纵向速度，并基于最终横向位移和最终纵向速度生成车辆的最优安全轨迹，并将最优安全轨迹作为车辆的集成决策***的输出，输入到下层控制器，以根据最优安全轨迹对车辆进行控制。

进一步地，在一些实施例中，对满足基本动力学约束的安全轨迹进行逐状态约束，控制模块300，具体用于：

确定安全可行区域状态空间内的替代状态价值函数的阈值；

基于安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略，对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新，直至满足预设迭代条件。

进一步地，在一些实施例中，基于安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略，对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新，控制模块300，具体用于：

其中，

为状态价值函数的梯度，

为状态价值函数的梯度；

其中，

为目标状态价值函数，

为状态-动作价值函数的梯度，

为状态-动作值函数的梯度；

更新拉格朗日乘子函数数的目标函数和梯度为：

其中，

为可行状态-动作价值函数，

为拉格朗日乘子函数的梯度；

更新可行状态-动作价值函数的目标函数和梯度为：

其中，

为更新可行状态-动作价值函数的目标函数，

为可行状态-动作价值函数的目标函数，d为约束阈值，

为可行状态-动作价值函数的梯度，

为可行状态-动作价值函数的梯度。

进一步地，在一些实施例中，将第一状态信息转换至目标坐标系下，获取模块100，具体用于：

基于预设的坐标系转换函数，将第一状态信息转换至目标坐标系下，其中，预设的坐标系转换函数为：

其中，

进一步地，在一些实施例中，初始横向位移和初始纵向速度之间的函数关系为：

需要说明的是，前述对自动驾驶集成决策方法实施例的解释说明也适用于该实施例的自动驾驶集成决策装置，此处不再赘述。

根据本申请实施例提出的自动驾驶集成决策装置，通过获取目标点在世界坐标系的第一状态信息，并转换至目标坐标系下得到第二状态信息，同时获取目标点在目标时刻偏离参考路径的初始横向位移及纵向速度，并基于预设的稳定策略和初始横向位移与初始纵向速度之间的函数关系，获得世界坐标系中生成轨迹的目标点的状态信息，生成满足基本动力学约束的安全轨迹，并对其进行逐状态约束，得到目标点在目标时刻偏离参考路径的最终横向位移及纵向速度，生成车辆最优安全轨迹，作为车辆的集成决策***的输出，输入到下层控制器，对车辆进行控制。由此，解决了在含有交互性和不确定性场景中基于规则的自动驾驶决策***难以实现高级别的自动化和智能性等问题，提升了决策***的智能性。

图8为本申请实施例提供的车辆的结构示意图。该车辆可以包括：

存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机程序。

处理器802执行程序时实现上述实施例中提供的自动驾驶集成决策方法。

进一步地，车辆还包括：

通信接口803，用于存储器801和处理器802之间的通信。

存储器801，用于存放可在处理器802上运行的计算机程序。

存储器801可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器801、处理器802和通信接口803独立实现，则通信接口803、存储器801和处理器802可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry StandardArchitecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器801、处理器802及通信接口803，集成在一块芯片上实现，则存储器801、处理器802及通信接口803可以通过内部接口完成相互间的通信。

处理器802可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的自动驾驶集成决策方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，″计算机可读介质″可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。