CN115534998A - 自动驾驶集成决策方法、装置、车辆及存储介质 - Google Patents

自动驾驶集成决策方法、装置、车辆及存储介质 Download PDF

Info

Publication number
CN115534998A
CN115534998A CN202211266914.3A CN202211266914A CN115534998A CN 115534998 A CN115534998 A CN 115534998A CN 202211266914 A CN202211266914 A CN 202211266914A CN 115534998 A CN115534998 A CN 115534998A
Authority
CN
China
Prior art keywords
state
function
cost function
action
coordinate system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211266914.3A
Other languages
English (en)
Inventor
郑四发
谷子青
李升波
张创
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202211266914.3A priority Critical patent/CN115534998A/zh
Publication of CN115534998A publication Critical patent/CN115534998A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0011Planning or execution of driving tasks involving control alternatives for a single driving scenario, e.g. planning several paths to avoid obstacles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0098Details of control systems ensuring comfort, safety or stability not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0027Planning or execution of driving tasks using trajectory prediction for other traffic participants
    • B60W60/00276Planning or execution of driving tasks using trajectory prediction for other traffic participants for two or more other traffic participants
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4045Intention, e.g. lane change or imminent movement

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请涉及一种自动驾驶集成决策方法、装置、车辆及存储介质,包括:获取目标点在世界坐标系的第一状态信息,并转换至目标坐标系下得到第二状态信息,同时获取目标点在目标时刻偏离参考路径初始横向位移及纵向速度,基于预设稳定策略和初始横向位移与纵向速度间函数关系,获得世界坐标系生成轨迹的目标点状态信息,生成满足基本动力学约束安全轨迹,对其进行逐状态约束,得到目标点在目标时刻偏离参考路径最终横向位移及纵向速度,生成车辆最优安全轨迹,作为车辆集成决策***输出,输入到下层控制器,对车辆进行控制。由此,解决在含有交互性和不确定性场景基于规则的自动驾驶决策***难以实现高级别自动化和智能性等问题,提升决策***智能性。

Description

自动驾驶集成决策方法、装置、车辆及存储介质
技术领域
本申请涉及车辆技术领域,特别涉及一种自动驾驶集成决策方法、装置、车辆及存储介质。
背景技术
高级别自动驾驶技术对于提升道路交通安全性,降低事故率,提升通行效率具有重要意义。然而,高级别自动驾驶技术的决策***依然面临以下两大挑战。
挑战一:传统的自动驾驶决策***通常包含行为选择和路径规划两个模块。其中,两个模块通常是相对独立且顺序执行的,并且路径规划模块完全听从行为选择模块的结果,二者相互制约,彼此间缺乏有效的交互与反馈。在具有不确定性和交互性的场景中,决策模块输出的不准确或者次优结果会限制路径规划模块的优势,使得基于规则的自动驾驶决策***难以实现高级别的自动化和智能性。
行为选择和路径规划作为不同的***主体,二者的需求往往不一致。前者更加偏向战略级别的行为选择,而后者则要求路径的曲率、侧向加速度等指标满足要求。例如,在如图1所示的场景中,行为选择模块通常根据可行区间的安全性输出离散的选择结果,而路径规划模块会综合考虑曲率、侧向加速度等指标输出更加精细化的轨迹规划结果。二者的优化目标不同会导致输出结果的不同,如果路径规划模块完全听从行为选择模块的输出,则可能产生难以保证动力学稳定性的轨迹,影响下层控制器的跟踪;如果摘除行为选择模块,则会增大路径规划模块的求解范围,降低求解精度和求解效率。具体来说,当前的规划方案通常将时间和空间分开,先进行路径规划,再进行速度规划,最终合成路径。问题在于,如果采用搜索的方式,能够获得全局最优解,但是可能会采样出很多条轨迹,并且筛选出合理轨迹需要设计合理的代价函数进行选择,这个过程非常耗时。另外,基于优化的方式尽管能够一定程度上降低求解时间,但是需要将问题转化成凸问题,在考虑众多约束的情况下很难求解。在避让动态障碍物的过程中,路径的选择与速度关系十分密切,速度规划在给定路径下执行也在一定程度上影响着驾驶行为的类人性。
挑战二:基于强化学习的方法在自动驾驶顺序决策中已经展现出较大的优势,该类方法能够不依赖于有标签的数据,从与环境的交互中自进化地迭代更新策略,并且具有实现集成式决策的能力。但是,强化学习型方法从探索与试错中学习的性质也使得安全性成为限制其应用的主要瓶颈。约束型马尔科夫过程(Constrained Markov DecisionProcess,CMDP)常常被用来描述考虑安全约束的强化学习型问题。但是常见的问题设置和求解方法通常是优化期望意义下的安全。对于自动驾驶车辆而言,保证每个状态的绝对安全更为重要。
进一步地,求解安全策略需要两个步骤:(1)设计状态约束型问题;(2)求解状态约束型问题。其中,第一步的重要性体现在,强化学习优化的目标函数通常是定义在无穷时域上的,然而,受限于动力学***特性和输入状态约束,保障无穷时域内可行性的状态约束往往与普通的安全目标函数不同,且一般更加保守。进一步地,如果状态约束型问题的形式没有被正确设计,无论选择哪种优化算法,都永远无法求得可行的安全策略。
发明内容
本申请提供一种自动驾驶集成决策方法、装置、车辆及存储介质,以解决在含有交互性和不确定性场景中基于规则的自动驾驶决策***难以实现高级别的自动化和智能性等问题,提升了决策***的智能性。
本申请第一方面实施例提供一种自动驾驶集成决策方法,包括以下步骤:
获取目标点在世界坐标系的第一状态信息,并将所述第一状态信息转换至目标坐标系下,得到所述目标点在目标坐标系的第二状态信息;
基于所述第二状态信息,获取所述目标点在目标时刻偏离参考路径的初始横向位移和初始纵向速度,并基于预设的稳定策略和所述初始横向位移和初始纵向速度之间的函数关系,获得所述世界坐标系中生成轨迹的目标点的状态信息,以根据所述目标点的状态信息生成满足基本动力学约束的安全轨迹;以及
对所述满足基本动力学约束的安全轨迹进行逐状态约束,得到所述目标点在所述目标时刻偏离所述参考路径的最终横向位移和最终纵向速度,并基于所述最终横向位移和所述最终纵向速度生成车辆的最优安全轨迹,并将所述最优安全轨迹作为所述车辆的集成决策***的输出,输入到下层控制器,以根据所述最优安全轨迹对所述车辆进行控制。
根据本申请的一个实施例,所述对所述满足基本动力学约束的安全轨迹进行逐状态约束,包括:
确定安全可行区域状态空间内的替代状态价值函数的阈值;
基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,直至满足预设迭代条件。
根据本申请的一个实施例,所述基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,包括:
通过最小化均方误差更新所述状态价值函数的目标函数和梯度为:
Figure BDA0003893434650000031
Figure BDA0003893434650000032
其中,
Figure BDA0003893434650000033
为所述状态价值函数的目标函数,υ为状态价值函数的参数,Vv(s)为状态价值函数,s为状态,Qω(s′,a′)为状态-动作价值函数,s′为下一时刻状态,a′为对应动作,α为温度系数,logπμ(·)为策略函数πμ的熵,
Figure BDA0003893434650000034
为所述状态价值函数的梯度,
Figure BDA0003893434650000035
为状态价值函数的梯度;
通过最小化贝尔曼残差更新所述状态-动作价值函数的目标函数和梯度为:
Figure BDA0003893434650000036
Figure BDA0003893434650000037
其中,
Figure BDA0003893434650000038
为所述状态-动作价值函数的目标函数,Qω(s,a)为状态-动作价值函数,a为动作,
Figure BDA0003893434650000039
为策略函数πμ下的状态分布,r(s,a)为奖励函数,γ∈(0,1)表示折扣因子,
Figure BDA00038934346500000310
为目标状态价值函数,
Figure BDA00038934346500000311
为所述状态-动作价值函数的梯度,
Figure BDA00038934346500000312
为状态-动作值函数的梯度;
更新所述拉格朗日乘子函数数的目标函数和梯度为:
Figure BDA00038934346500000313
Figure BDA00038934346500000314
其中,
Figure BDA00038934346500000324
为所述拉格朗日乘子函数的目标函数,λξ(s)为拉格朗日乘子函数,
Figure BDA00038934346500000316
为可行状态-动作价值函数,
Figure BDA00038934346500000317
为所述拉格朗日乘子函数的梯度;
更新所述可行状态-动作价值函数的目标函数和梯度为:
Figure BDA00038934346500000318
Figure BDA00038934346500000319
Figure BDA00038934346500000320
其中,
Figure BDA00038934346500000321
为更新可行状态-动作价值函数的目标函数,
Figure BDA00038934346500000322
为可行状态-动作价值函数的目标函数,d为约束阈值,
Figure BDA00038934346500000323
为所述可行状态-动作价值函数的梯度,
Figure BDA0003893434650000041
为可行状态-动作价值函数的梯度。
根据本申请的一个实施例,所述将所述第一状态信息转换至目标坐标系下,包括:
基于预设的坐标系转换函数,将所述第一状态信息转换至目标坐标系下,其中,所述预设的坐标系转换函数为:
Figure BDA0003893434650000042
其中,
Figure BDA0003893434650000043
分别为Frenet坐标系中的纵向位移、纵向速度、纵向加速度、横向位移、横向速度和横向加速度;(xt,yt,vt,acct,θt,κt)分别为世界坐标系中的横向位置、纵向位置、速度、加速度、朝向角和曲率;Fcoor(·)为坐标系间的转换函数。
根据本申请的一个实施例,所述初始横向位移和初始纵向速度之间的函数关系为:
Figure BDA0003893434650000044
Figure BDA0003893434650000045
其中,横向位移l是纵向位移s的函数,纵向位移s是时间t的函数。p和q是多项式的次数。
根据本申请实施例提供的自动驾驶集成决策方法,通过获取目标点在世界坐标系的第一状态信息,并转换至目标坐标系下得到第二状态信息,同时获取目标点在目标时刻偏离参考路径的初始横向位移及纵向速度,并基于预设的稳定策略和初始横向位移与纵向速度之间的函数关系,获得世界坐标系中生成轨迹的目标点的状态信息,生成满足基本动力学约束的安全轨迹,并对其进行逐状态约束,得到目标点在目标时刻偏离参考路径的最终横向位移及纵向速度,生成车辆最优安全轨迹,作为车辆的集成决策***的输出,输入到下层控制器,对车辆进行控制。由此,解决了在含有交互性和不确定性场景中基于规则的自动驾驶决策***难以实现高级别的自动化和智能性等问题,提升了决策***的智能性。
本申请第二方面实施例提供一种自动驾驶集成决策装置,包括:
获取模块,用于获取目标点在世界坐标系的第一状态信息,并将所述第一状态信息转换至目标坐标系下,得到所述目标点在目标坐标系的第二状态信息;
生成模块,用于基于所述第二状态信息,获取所述目标点在目标时刻偏离参考路径的初始横向位移和初始纵向速度,并基于预设的稳定策略和所述初始横向位移和初始纵向速度之间的函数关系,获得所述世界坐标系中生成轨迹的目标点的状态信息,以根据所述目标点的状态信息生成满足基本动力学约束的安全轨迹;以及
控制模块,用于对所述满足基本动力学约束的安全轨迹进行逐状态约束,得到所述目标点在所述目标时刻偏离所述参考路径的最终横向位移和最终纵向速度,并基于所述最终横向位移和所述最终纵向速度生成车辆的最优安全轨迹,并将所述最优安全轨迹作为所述车辆的集成决策***的输出,输入到下层控制器,以根据所述最优安全轨迹对所述车辆进行控制。
根据本申请的一个实施例,所述对所述满足基本动力学约束的安全轨迹进行逐状态约束,所述控制模块,具体用于:
确定安全可行区域状态空间内的替代状态价值函数的阈值;
基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,直至满足预设迭代条件。
根据本申请的一个实施例,所述基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,所述控制模块,具体用于:
通过最小化均方误差更新所述状态价值函数的目标函数和梯度为:
Figure BDA0003893434650000051
Figure BDA0003893434650000052
其中,
Figure BDA0003893434650000053
为所述状态价值函数的目标函数,υ为状态价值函数的参数,Vv(s)为状态价值函数,s为状态,Qω(s′,a′)为状态-动作价值函数,s′为下一时刻状态,a′为对应动作,α为温度系数,logπμ(·)为策略函数πμ的熵,
Figure BDA0003893434650000054
为所述状态价值函数的梯度,
Figure BDA0003893434650000055
为状态价值函数的梯度;
通过最小化贝尔曼残差更新所述状态-动作价值函数的目标函数和梯度为:
Figure BDA0003893434650000056
Figure BDA0003893434650000057
其中,
Figure BDA0003893434650000058
为所述状态-动作价值函数的目标函数,Qω(s,a)为状态-动作价值函数,a为动作,
Figure BDA0003893434650000059
为策略函数πμ下的状态分布,r(s,a)为奖励函数,γ∈(0,1)表示折扣因子,
Figure BDA00038934346500000510
为目标状态价值函数,
Figure BDA00038934346500000511
为所述状态-动作价值函数的梯度,
Figure BDA00038934346500000512
为状态-动作值函数的梯度;
更新所述拉格朗日乘子函数数的目标函数和梯度为:
Figure BDA00038934346500000513
Figure BDA00038934346500000514
其中,
Figure BDA00038934346500000515
为所述拉格朗日乘子函数的目标函数,λξ(s)为拉格朗日乘子函数,
Figure BDA00038934346500000516
为可行状态-动作价值函数,
Figure BDA0003893434650000061
为所述拉格朗日乘子函数的梯度;
更新所述可行状态-动作价值函数的目标函数和梯度为:
Figure BDA0003893434650000062
Figure BDA0003893434650000063
Figure BDA0003893434650000064
其中,
Figure BDA0003893434650000065
为更新可行状态-动作价值函数的目标函数,
Figure BDA0003893434650000066
为可行状态-动作价值函数的目标函数,d为约束阈值,
Figure BDA0003893434650000067
为所述可行状态-动作价值函数的梯度,
Figure BDA0003893434650000068
为可行状态-动作价值函数的梯度。
根据本申请的一个实施例,所述将所述第一状态信息转换至目标坐标系下,所述获取模块,具体用于:
基于预设的坐标系转换函数,将所述第一状态信息转换至目标坐标系下,其中,所述预设的坐标系转换函数为:
Figure BDA0003893434650000069
其中,
Figure BDA00038934346500000610
分别为Frenet坐标系中的纵向位移、纵向速度、纵向加速度、横向位移、横向速度和横向加速度,(xt,yt,vt,acct,θt,κt)分别为世界坐标系中的横向位置、纵向位置、速度、加速度、朝向角和曲率,Fcoor(·)为坐标系间的转换函数。
根据本申请的一个实施例,所述初始横向位移和初始纵向速度之间的函数关系为:
Figure BDA00038934346500000611
Figure BDA00038934346500000612
其中,横向位移l是纵向位移s的函数,纵向位移s是时间t的函数。p和q是多项式的次数。
根据本申请实施例提供的自动驾驶集成决策装置,通过获取目标点在世界坐标系的第一状态信息,并转换至目标坐标系下得到第二状态信息,同时获取目标点在目标时刻偏离参考路径的初始横向位移及纵向速度,并基于预设的稳定策略和所述初始横向位移与初始纵向速度之间的函数关系,获得世界坐标系中生成轨迹的目标点的状态信息,生成满足基本动力学约束的安全轨迹,并对其进行逐状态约束,得到目标点在目标时刻偏离参考路径的最终横向位移及纵向速度,生成车辆最优安全轨迹,作为车辆的集成决策***的输出,输入到下层控制器,对车辆进行控制。由此,解决了在含有交互性和不确定性场景中基于规则的自动驾驶决策***难以实现高级别的自动化和智能性等问题,提升了决策***的智能性。
本申请第三方面实施例提供一种车辆,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的自动驾驶集成决策方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的自动驾驶集成决策方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请的一个实施例的决策***不同模块间输出差异化示意图;
图2为根据本申请实施例提供的一种自动驾驶集成决策方法的流程图;
图3为根据本申请的一个实施例的自动驾驶集成决策方法的流程框图;
图4为根据本申请的一个实施例的安全状态投影过程示意图;
图5为根据本申请的一个实施例的模块物理含义示意图;
图6为根据本申请的一个实施例的不同状态空间示意图;
图7为根据本申请实施例的自动驾驶集成决策装置的方框示意图;
图8为根据本申请实施例提供的车辆的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的自动驾驶集成决策方法、装置、车辆及存储介质。针对上述背景技术中提到的在含有交互性和不确定性场景中基于规则的自动驾驶决策***难以实现高级别的自动化和智能性等问题,本申请提供了一种自动驾驶集成决策方法,在该方法中,获取目标点在世界坐标系的第一状态信息,并转换至目标坐标系下得到第二状态信息,同时获取目标点在目标时刻偏离参考路径的初始横向位移及纵向速度,并基于预设的稳定策略和初始横向位移与初始纵向速度之间的函数关系,获得世界坐标系中生成轨迹的目标点的状态信息,生成满足基本动力学约束的安全轨迹,并对其进行逐状态约束,得到目标点在目标时刻偏离参考路径的最终横向位移及纵向速度,生成车辆最优安全轨迹,作为车辆的集成决策***的输出,输入到下层控制器,对车辆进行控制。由此,解决了在含有交互性和不确定性场景中基于规则的自动驾驶决策***难以实现高级别的自动化和智能性等问题,提升了决策***的智能性。
具体而言,如图2所示,图2为本申请实施例所提供的一种自动驾驶集成决策方法的流程示意图。
在介绍本申请实施例的自动驾驶集成决策方法之前,先简单介绍下本申请实施例的自动驾驶集成决策方法涉及的自动驾驶集成决策***。
该实施例中,自动驾驶集成决策***主要包含三个大模块,安全投影模块、策略评估模块与策略提升模块。其中,策略评估模块包含两个子模块,拉格朗日乘子模块与可行价值函数模块,策略提升模块包含连续晶格模块,如图3所示。本申请实施例主要面向具有交互性和不确定性的场景,避免决策***中不同需求主体间优化目标相互制约,缺乏交互与反馈的问题。同时,使用替代拉格朗日目标方程,构建零约束违反的约束型马尔科夫决策过程描述问题,使用考虑状态分布的拉格朗日乘子法求解最优策略,输出安全、连续且合理的路径,使得决策***的输出具有较强的灵活性和较高的智能性。
如图2所示,该自动驾驶集成决策方法包括以下步骤:
在步骤S201中,获取目标点在世界坐标系的第一状态信息,并将第一状态信息转换至目标坐标系下,得到目标点在目标坐标系的第二状态信息。
具体而言,本申请实施例可以首先定义逐状态约束型马尔科夫过程,由一个五元组构成,
Figure BDA0003893434650000081
其中,
Figure BDA0003893434650000082
表示状态及状态空间,
Figure BDA0003893434650000083
表示动作及动作空间,
Figure BDA0003893434650000084
表示马尔科夫状态转移概率,
Figure BDA0003893434650000085
表示奖励函数,γ∈(0,1)表示折扣因子。具体的,SCMDP问题可以定义为如下形式:
Figure BDA0003893434650000086
Figure BDA0003893434650000087
其中,ρπ(s)为状态在策略π下的分布,
Figure BDA0003893434650000088
为安全可行区域状态空间,
Figure BDA0003893434650000089
为安全可行区域状态空间内的状态价值函数,d为约束阈值。
进一步地,(1)中定义的问题难以直接求解。因此,本申请实施例可以转化原优化问题形式(1)到其对偶问题的形式:
Figure BDA00038934346500000810
其中,
Figure BDA0003893434650000091
是安全可行区域状态空间内的替代状态价值函数,对应可行价值函数模块。λ(·)为拉格朗日乘子,对应拉格朗日乘子模块。为保证逐状态约束的要求,λ(·)被定义为状态s的函数而非常数。在约束型强化学习问题中,对偶间隙不存在,并且,当ρπ(s)遍历全状态,即包含安全状态空间时,问题(2)得到的最优解与问题(1)等价。
进一步地,定义
Figure BDA0003893434650000092
为基本安全状态空间,其物理含义为道路范围内的可驾驶区域。为了保证输出的目标点在可驾驶区域
Figure BDA0003893434650000093
内,首先定义问题(2)中的状态空间为世界坐标系中的状态在Frenet坐标系中的状态投影,如图4所示。
进一步地,安全投影模块旨在保证输出的目标点都落在可驾驶区域内,即道路范围内,同时在输入信息层面帮助车辆理解更多相对于道路和周车的信息。其中,本申请实施例可以基于预设的坐标系转换函数,将第一状态信息转换至目标坐标系下,其中,预设的坐标系转换函数为:
Figure BDA0003893434650000094
其中,
Figure BDA0003893434650000095
分别为Frenet坐标系中的纵向位移、纵向速度、纵向加速度、横向位移、横向速度和横向加速度,(xt,yt,vt,acct,θt,κt)分别为世界坐标系中的横向位置、纵向位置、速度、加速度、朝向角和曲率,Fcoor(·)为坐标系间的转换函数。
由此,利用与参考线间的相对位置信息将状态空间投影并约束在基本安全状态空间
Figure BDA0003893434650000096
内。
在步骤S202中,基于第二状态信息,获取目标点在目标时刻偏离参考路径的初始横向位移和初始纵向速度,并基于预设的稳定策略和初始横向位移和初始纵向速度之间的函数关系,获得世界坐标系中生成轨迹的目标点的状态信息,以根据目标点的状态信息生成满足基本动力学约束的安全轨迹。
具体而言,为了保证决策***的集成化输出,本申请实施例可以定义连续动作空间
Figure BDA0003893434650000097
为目标点在T时刻偏离参考路径的横向位移
Figure BDA0003893434650000098
和纵向速度
Figure BDA00038934346500000913
接着通过连续晶格模块生成轨迹,对策略进行后处理,如图5所示。
其中,在一些实施例中,初始横向位移和初始纵向速度之间的函数关系为:
Figure BDA00038934346500000910
Figure BDA00038934346500000911
其中,横向位移l是纵向位移s的函数,纵向位移s是时间t的函数。p和q是多项式的次数。本申请实施例可以令p=6,q=5。此时,轨迹起点状态的信息
Figure BDA00038934346500000912
可以从(3)中得到。
进一步地,在连续晶格模块中,为了保证驾驶过程的稳定性,假设在T时刻的横纵向加速度及横向速度为0,在时间t和纵向距离sf上进行采样,得到目标点的状态信息为
Figure BDA0003893434650000101
结合(4),可以生成一条由sf(t)和lf(sf)共同描述的时空轨迹。进一步地,获得世界坐标系中生成轨迹的所有点的状态信息:
Figure BDA0003893434650000102
Figure BDA0003893434650000103
其中,vuss,accuss,θuss,κuss分别为不安全状态集合。
至此,可以生成一条满足基本动力学约束的轨迹。本质上,本申请实施例使用网络输出目标点的部分信息,控制目标相对于参考线的距离来统一优化高层行为选择与轨迹生成的过程,同时通过控制输出纵向参考速度来进一步调节生成轨迹的安全性,并避免复杂的筛选轨迹的过程,保证不同时刻目标点的连续性和可达性。
在步骤S203中,对满足基本动力学约束的安全轨迹进行逐状态约束,得到目标点在目标时刻偏离参考路径的最终横向位移和最终纵向速度,并基于最终横向位移和最终纵向速度生成车辆的最优安全轨迹,并将最优安全轨迹作为车辆的集成决策***的输出,输入到下层控制器,以根据最优安全轨迹对车辆进行控制。
进一步地,在一些实施例中,对满足基本动力学约束的安全轨迹进行逐状态约束,包括:确定安全可行区域状态空间内的替代状态价值函数的阈值;基于安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,直至满足预设迭代条件。
具体而言,本申请实施例的安全策略求解模块对满足基本动力学约束的轨迹进行逐状态约束。为保证轨迹安全状态可行,从算法角度约束轨迹的安全性。不同的轨迹安全状态如图6所示。本申请实施例首先通过逐状态约束的SCMDP形式,保证从问题设置角度,能够满足求解逐状态约束问题的要求。
进一步地,对问题中(2)的目标函数进行策略求解和拉格朗日乘子更新:
Figure BDA0003893434650000104
Figure BDA0003893434650000105
其中,βλ与βπ分别是λ和π的更新步长。λ与π分别为乘子网络与策略网络的更新参数。
进一步地,安全可行区域状态空间内的替代状态价值函数的阈值d为动态交通流场景下生成轨迹与周车间的距离,即:
Figure BDA0003893434650000111
其中,η是衰减系数,dt,i为自车在在t时刻与车辆i之间的距离,n为周车数量。
进一步地,用神经网络对各模块的近似函数进行拟合,包括状态价值函数Vυ,状态-动作价值函数Qω,拉格朗日乘子函数λξ,策略函数πμ和可行状态-动作价值函数
Figure BDA0003893434650000112
本实施例通过显式对状态-值函数建模,使得训练过程更加稳定。进一步地,(2)中的问题可以转化成如下形式:
Figure BDA0003893434650000113
Figure BDA0003893434650000114
Figure BDA0003893434650000115
其中,a~πμ(s),
Figure BDA0003893434650000116
是策略πμ下的状态分布;logπμ(·)为策略πμ的熵,α为温度系数。
进一步地,更新策略函数πμ的目标函数和梯度为:
Figure BDA0003893434650000117
Figure BDA0003893434650000118
其中,在一些实施例中,基于安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,包括:
通过最小化均方误差更新状态价值函数的目标函数和梯度为:
Figure BDA0003893434650000119
Figure BDA00038934346500001110
其中,
Figure BDA00038934346500001111
为状态价值函数的目标函数,υ为状态价值函数的参数,Vv(s)为状态价值函数,s为状态,Qω(s′,a′)为状态-动作价值函数,s′为下一时刻状态,a′为对应动作,α为温度系数,logπμ(·)为策略函数πμ的熵,
Figure BDA00038934346500001112
为状态价值函数的梯度,
Figure BDA00038934346500001113
为状态价值函数的梯度;
通过最小化贝尔曼残差更新、状态-动作价值函数的目标函数和梯度为:
Figure BDA0003893434650000121
Figure BDA0003893434650000122
其中,
Figure BDA0003893434650000123
为状态-动作价值函数的目标函数,Qω(s,a)为状态-动作价值函数,a为动作,
Figure BDA0003893434650000124
为策略函数πμ下的状态分布,r(s,a)为奖励函数,γ∈(0,1)表示折扣因子,
Figure BDA0003893434650000125
为目标状态价值函数,
Figure BDA0003893434650000126
为状态-动作价值函数的梯度,
Figure BDA0003893434650000127
为状态-动作值函数的梯度;
更新拉格朗日乘子函数数的目标函数和梯度为:
Figure BDA0003893434650000128
Figure BDA0003893434650000129
其中,
Figure BDA00038934346500001210
为拉格朗日乘子函数的目标函数,λξ(s)为拉格朗日乘子函数,
Figure BDA00038934346500001211
为可行状态-动作价值函数,
Figure BDA00038934346500001212
为拉格朗日乘子函数的梯度;
更新可行状态-动作价值函数的目标函数和梯度为:
Figure BDA00038934346500001213
Figure BDA00038934346500001214
Figure BDA00038934346500001215
其中,
Figure BDA00038934346500001216
为更新可行状态-动作价值函数的目标函数,
Figure BDA00038934346500001217
为可行状态-动作价值函数的目标函数,d为约束阈值,
Figure BDA00038934346500001218
为可行状态-动作价值函数的梯度,
Figure BDA00038934346500001219
为可行状态-动作价值函数的梯度。
进一步地,更新各个网络的参数:
Figure BDA00038934346500001220
Figure BDA00038934346500001221
Figure BDA00038934346500001222
Figure BDA00038934346500001223
Figure BDA00038934346500001224
Figure BDA00038934346500001225
其中,β(·)为学习率,τ为目标网络参数更新比例。
进一步地,通过以上网络模块间迭代更新,输出最优策略,得到目标点在T时刻偏离参考路径的横向位移
Figure BDA0003893434650000131
和纵向速度
Figure BDA0003893434650000132
结合(4)与(5)输出最优安全轨迹,得到集成决策***的输出,最后输入到下层控制器中。
根据本申请实施例提出的自动驾驶集成决策方法,通过获取目标点在世界坐标系的第一状态信息,并转换至目标坐标系下得到第二状态信息,同时获取目标点在目标时刻偏离参考路径的初始横向位移及纵向速度,并基于预设的稳定策略和初始横向位移与初始纵向速度之间的函数关系,获得世界坐标系中生成轨迹的目标点的状态信息,生成满足基本动力学约束的安全轨迹,并对其进行逐状态约束,得到目标点在目标时刻偏离参考路径的最终横向位移及纵向速度,生成车辆最优安全轨迹,作为车辆的集成决策***的输出,输入到下层控制器,对车辆进行控制。由此,解决了在含有交互性和不确定性场景中基于规则的自动驾驶决策***难以实现高级别的自动化和智能性等问题,提升了决策***的智能性。
其次参照附图描述根据本申请实施例提出的自动驾驶集成决策装置。
图7是本申请实施例的自动驾驶集成决策装置的方框示意图。
如图7所示,该自动驾驶集成决策装置10包括:获取模块100、生成模块200和控制模块300。
其中,获取模块100,用于获取目标点在世界坐标系的第一状态信息,并将第一状态信息转换至目标坐标系下,得到目标点在目标坐标系的第二状态信息;
生成模块200,用于基于第二状态信息,获取目标点在目标时刻偏离参考路径的初始横向位移和初始纵向速度,并基于预设的稳定策略和初始横向位移和初始纵向速度之间的函数关系,获得世界坐标系中生成轨迹的目标点的状态信息,以根据目标点的状态信息生成满足基本动力学约束的安全轨迹;以及
控制模块300,用于对满足基本动力学约束的安全轨迹进行逐状态约束,得到目标点在目标时刻偏离参考路径的最终横向位移和最终纵向速度,并基于最终横向位移和最终纵向速度生成车辆的最优安全轨迹,并将最优安全轨迹作为车辆的集成决策***的输出,输入到下层控制器,以根据最优安全轨迹对车辆进行控制。
进一步地,在一些实施例中,对满足基本动力学约束的安全轨迹进行逐状态约束,控制模块300,具体用于:
确定安全可行区域状态空间内的替代状态价值函数的阈值;
基于安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,直至满足预设迭代条件。
进一步地,在一些实施例中,基于安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,控制模块300,具体用于:
通过最小化均方误差更新状态价值函数的目标函数和梯度为:
Figure BDA0003893434650000141
Figure BDA0003893434650000142
其中,
Figure BDA0003893434650000143
为状态价值函数的目标函数,υ为状态价值函数的参数,Vv(s)为状态价值函数,s为状态,Qω(s′,a′)为状态-动作价值函数,s′为下一时刻状态,a′为对应动作,α为温度系数,logπμ(·)为策略函数πμ的熵,
Figure BDA0003893434650000144
为状态价值函数的梯度,
Figure BDA0003893434650000145
为状态价值函数的梯度;
通过最小化贝尔曼残差更新、状态-动作价值函数的目标函数和梯度为:
Figure BDA0003893434650000146
Figure BDA0003893434650000147
其中,
Figure BDA0003893434650000148
为状态-动作价值函数的目标函数,Qω(s,a)为状态-动作价值函数,a为动作,
Figure BDA0003893434650000149
为策略函数πμ下的状态分布,r(s,a)为奖励函数,γ∈(0,1)表示折扣因子,
Figure BDA00038934346500001410
为目标状态价值函数,
Figure BDA00038934346500001411
为状态-动作价值函数的梯度,
Figure BDA00038934346500001412
为状态-动作值函数的梯度;
更新拉格朗日乘子函数数的目标函数和梯度为:
Figure BDA00038934346500001413
Figure BDA00038934346500001414
其中,
Figure BDA00038934346500001415
为拉格朗日乘子函数的目标函数,λξ(s)为拉格朗日乘子函数,
Figure BDA00038934346500001416
为可行状态-动作价值函数,
Figure BDA00038934346500001417
为拉格朗日乘子函数的梯度;
更新可行状态-动作价值函数的目标函数和梯度为:
Figure BDA00038934346500001418
Figure BDA00038934346500001419
Figure BDA00038934346500001420
其中,
Figure BDA0003893434650000151
为更新可行状态-动作价值函数的目标函数,
Figure BDA0003893434650000152
为可行状态-动作价值函数的目标函数,d为约束阈值,
Figure BDA0003893434650000153
为可行状态-动作价值函数的梯度,
Figure BDA0003893434650000154
为可行状态-动作价值函数的梯度。
进一步地,在一些实施例中,将第一状态信息转换至目标坐标系下,获取模块100,具体用于:
基于预设的坐标系转换函数,将第一状态信息转换至目标坐标系下,其中,预设的坐标系转换函数为:
Figure BDA0003893434650000155
其中,
Figure BDA0003893434650000156
分别为Frenet坐标系中的纵向位移、纵向速度、纵向加速度、横向位移、横向速度和横向加速度,(xt,yt,vt,acct,θt,κt)分别为世界坐标系中的横向位置、纵向位置、速度、加速度、朝向角和曲率,Fcoor(·)为坐标系间的转换函数。
进一步地,在一些实施例中,初始横向位移和初始纵向速度之间的函数关系为:
Figure BDA0003893434650000157
Figure BDA0003893434650000158
其中,横向位移l是纵向位移s的函数,纵向位移s是时间t的函数。p和q是多项式的次数。
需要说明的是,前述对自动驾驶集成决策方法实施例的解释说明也适用于该实施例的自动驾驶集成决策装置,此处不再赘述。
根据本申请实施例提出的自动驾驶集成决策装置,通过获取目标点在世界坐标系的第一状态信息,并转换至目标坐标系下得到第二状态信息,同时获取目标点在目标时刻偏离参考路径的初始横向位移及纵向速度,并基于预设的稳定策略和初始横向位移与初始纵向速度之间的函数关系,获得世界坐标系中生成轨迹的目标点的状态信息,生成满足基本动力学约束的安全轨迹,并对其进行逐状态约束,得到目标点在目标时刻偏离参考路径的最终横向位移及纵向速度,生成车辆最优安全轨迹,作为车辆的集成决策***的输出,输入到下层控制器,对车辆进行控制。由此,解决了在含有交互性和不确定性场景中基于规则的自动驾驶决策***难以实现高级别的自动化和智能性等问题,提升了决策***的智能性。
图8为本申请实施例提供的车辆的结构示意图。该车辆可以包括:
存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机程序。
处理器802执行程序时实现上述实施例中提供的自动驾驶集成决策方法。
进一步地,车辆还包括:
通信接口803,用于存储器801和处理器802之间的通信。
存储器801,用于存放可在处理器802上运行的计算机程序。
存储器801可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器801、处理器802和通信接口803独立实现,则通信接口803、存储器801和处理器802可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry StandardArchitecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器801、处理器802及通信接口803,集成在一块芯片上实现,则存储器801、处理器802及通信接口803可以通过内部接口完成相互间的通信。
处理器802可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的自动驾驶集成决策方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,″计算机可读介质″可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种自动驾驶集成决策方法,其特征在于,包括以下步骤:
获取目标点在世界坐标系的第一状态信息,并将所述第一状态信息转换至目标坐标系下,得到所述目标点在目标坐标系的第二状态信息;
基于所述第二状态信息,获取所述目标点在目标时刻偏离参考路径的初始横向位移和初始纵向速度,并基于预设的稳定策略和所述初始横向位移与初始纵向速度之间的函数关系,获得所述世界坐标系中生成轨迹的目标点的状态信息,以根据所述目标点的状态信息生成满足基本动力学约束的安全轨迹;以及
对所述满足基本动力学约束的安全轨迹进行逐状态约束,得到所述目标点在所述目标时刻偏离所述参考路径的最终横向位移和最终纵向速度,并基于所述最终横向位移和所述最终纵向速度生成车辆的最优安全轨迹,并将所述最优安全轨迹作为所述车辆的集成决策***的输出,输入到下层控制器,以根据所述最优安全轨迹对所述车辆进行控制。
2.根据权利要求1所述的方法,其特征在于,所述对所述满足基本动力学约束的安全轨迹进行逐状态约束,包括:
确定安全可行区域状态空间内的替代状态价值函数的阈值;
基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,直至满足预设迭代条件。
3.根据权利要求2所述的方法,其特征在于,所述基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,包括:
通过最小化均方误差更新所述状态价值函数的目标函数和梯度为:
Figure FDA0003893434640000011
Figure FDA0003893434640000012
其中,
Figure FDA0003893434640000013
为所述状态价值函数的目标函数,υ为状态价值函数的参数,Vv(s)为状态价值函数,s为状态,Qω(s′,a′)为状态-动作价值函数,s′为下一时刻状态,a′为对应动作,α为温度系数,logπμ(·)为策略函数πμ的熵,
Figure FDA0003893434640000014
为所述状态价值函数的梯度,
Figure FDA0003893434640000015
为状态价值函数的梯度;
通过最小化贝尔曼残差更新所述状态-动作价值函数的目标函数和梯度为:
Figure FDA0003893434640000021
Figure FDA0003893434640000022
其中,
Figure FDA0003893434640000023
为所述状态-动作价值函数的目标函数,Qω(s,a)为状态-动作价值函数,a为动作,
Figure FDA0003893434640000024
为策略函数πμ下的状态分布,r(s,a)为奖励函数,γ∈(0,1)表示折扣因子,
Figure FDA00038934346400000220
为目标状态价值函数,
Figure FDA0003893434640000025
为所述状态-动作价值函数的梯度,
Figure FDA0003893434640000026
为状态-动作值函数的梯度;
更新所述拉格朗日乘子函数的目标函数和梯度为:
Figure FDA0003893434640000027
Figure FDA0003893434640000028
其中,
Figure FDA0003893434640000029
为所述拉格朗日乘子函数的目标函数,λξ(s)为拉格朗日乘子函数,QωSf(s,a)为可行状态-动作价值函数,
Figure FDA00038934346400000210
为所述拉格朗日乘子函数的梯度;
更新所述可行状态-动作价值函数的目标函数和梯度为:
Figure FDA00038934346400000211
Figure FDA00038934346400000212
Figure FDA00038934346400000213
其中,
Figure FDA00038934346400000214
为更新可行状态-动作价值函数的目标函数,
Figure FDA00038934346400000215
为可行状态-动作价值函数的目标函数,d为约束阈值,
Figure FDA00038934346400000216
为所述可行状态-动作价值函数的梯度,
Figure FDA00038934346400000217
为可行状态-动作价值函数的梯度。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一状态信息转换至目标坐标系下,包括:
基于预设的坐标系转换函数,将所述第一状态信息转换至目标坐标系下,其中,所述预设的坐标系转换函数为:
Figure FDA00038934346400000218
其中,
Figure FDA00038934346400000219
分别为Frenet坐标系中的纵向位移、纵向速度、纵向加速度、横向位移、横向速度和横向加速度,(xt,yt,vt,accttt)分别为世界坐标系中的横向位置、纵向位置、速度、加速度、朝向角和曲率,Fcoor(·)为坐标系间的转换函数。
5.根据权利要求1所述的方法,其特征在于,所述初始横向位移和初始纵向速度之间的函数关系为:
Figure FDA0003893434640000031
Figure FDA0003893434640000032
其中,横向位移l是纵向位移s的函数,纵向位移s是时间t的函数;p和q是多项式的次数。
6.一种自动驾驶集成决策装置,其特征在于,包括:
获取模块,用于获取目标点在世界坐标系的第一状态信息,并将所述第一状态信息转换至目标坐标系下,得到所述目标点在目标坐标系的第二状态信息;
生成模块,用于基于所述第二状态信息,获取所述目标点在目标时刻偏离参考路径的初始横向位移和初始纵向速度,并基于预设的稳定策略和所述初始横向位移和初始纵向速度之间的函数关系,获得所述世界坐标系中生成轨迹的目标点的状态信息,以根据所述目标点的状态信息生成满足基本动力学约束的安全轨迹;以及
控制模块,用于对所述满足基本动力学约束的安全轨迹进行逐状态约束,得到所述目标点在所述目标时刻偏离所述参考路径的最终横向位移和最终纵向速度,并基于所述最终横向位移和所述最终纵向速度生成车辆的最优安全轨迹,并将所述最优安全轨迹作为所述车辆的集成决策***的输出,输入到下层控制器,以根据所述最优安全轨迹对所述车辆进行控制。
7.根据权利要求6所述的装置,其特征在于,所述对所述满足基本动力学约束的安全轨迹进行逐状态约束,所述控制模块,具体用于:
确定安全可行区域状态空间内的替代状态价值函数的阈值;
基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,直至满足预设迭代条件。
8.根据权利要求7所述的装置,其特征在于,所述基于所述安全可行区域状态空间内的替代状态价值函数的阈值和预设的更新策略,对状态价值函数、状态-动作价值函数、拉格朗日乘子函数、策略函数和可行状态-动作价值函数进行迭代更新,所述控制模块,具体用于:
通过最小化均方误差更新所述状态价值函数的目标函数和梯度为:
Figure FDA0003893434640000033
Figure FDA0003893434640000034
其中,
Figure FDA0003893434640000035
为所述状态价值函数的目标函数,υ为状态价值函数的参数,Vv(s)为状态价值函数,s为状态,Qω(s′,a′)为状态-动作价值函数,s′为下一时刻状态,a′为对应动作,α为温度系数,logπμ(·)为策略函数πμ的熵,
Figure FDA0003893434640000041
为所述状态价值函数的梯度,
Figure FDA0003893434640000042
为状态价值函数的梯度;
通过最小化贝尔曼残差更新所述状态-动作价值函数的目标函数和梯度为:
Figure FDA0003893434640000043
Figure FDA0003893434640000044
其中,
Figure FDA0003893434640000045
为所述状态-动作价值函数的目标函数,Qω(s,a)为状态-动作价值函数,a为动作,
Figure FDA0003893434640000046
为策略函数πμ下的状态分布,r(s,a)为奖励函数,γ∈(0,1)表示折扣因子,
Figure FDA00038934346400000420
为目标状态价值函数,
Figure FDA0003893434640000047
为所述状态-动作价值函数的梯度,
Figure FDA0003893434640000048
为状态-动作值函数的梯度;
更新所述拉格朗日乘子函数数的目标函数和梯度为:
Figure FDA0003893434640000049
Figure FDA00038934346400000410
其中,
Figure FDA00038934346400000411
为所述拉格朗日乘子函数的目标函数,λξ(s)为拉格朗日乘子函数,Qωsf(s,a)为可行状态-动作价值函数,
Figure FDA00038934346400000412
为所述拉格朗日乘子函数的梯度;
更新所述可行状态-动作价值函数的目标函数和梯度为:
Figure FDA00038934346400000413
Figure FDA00038934346400000414
Figure FDA00038934346400000415
其中,
Figure FDA00038934346400000416
为更新可行状态-动作价值函数的目标函数,
Figure FDA00038934346400000417
为可行状态-动作价值函数的目标函数,d为约束阈值,
Figure FDA00038934346400000418
为所述可行状态-动作价值函数的梯度,
Figure FDA00038934346400000419
为可行状态-动作价值函数的梯度。
9.根据权利要求6所述的装置,其特征在于,所述将所述第一状态信息转换至目标坐标系下,所述获取模块,具体用于:
基于预设的坐标系转换函数,将所述第一状态信息转换至目标坐标系下,其中,所述预设的坐标系转换函数为:
Figure FDA0003893434640000051
其中,
Figure FDA0003893434640000052
分别为Frenet坐标系中的纵向位移、纵向速度、纵向加速度、横向位移、横向速度和横向加速度,(xt,yt,vt,accttt)分别为世界坐标系中的横向位置、纵向位置、速度、加速度、朝向角和曲率,Fcoor(·)为坐标系间的转换函数。
10.根据权利要求6所述的装置,其特征在于,所述初始横向位移和初始纵向速度之间的函数关系为:
Figure FDA0003893434640000053
Figure FDA0003893434640000054
其中,横向位移l是纵向位移s的函数,纵向位移s是时间t的函数,p和q是多项式的次数。
11.一种车辆,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-5任一项所述的自动驾驶集成决策方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-5任一项所述的自动驾驶集成决策方法。
CN202211266914.3A 2022-10-17 2022-10-17 自动驾驶集成决策方法、装置、车辆及存储介质 Pending CN115534998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211266914.3A CN115534998A (zh) 2022-10-17 2022-10-17 自动驾驶集成决策方法、装置、车辆及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211266914.3A CN115534998A (zh) 2022-10-17 2022-10-17 自动驾驶集成决策方法、装置、车辆及存储介质

Publications (1)

Publication Number Publication Date
CN115534998A true CN115534998A (zh) 2022-12-30

Family

ID=84736079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211266914.3A Pending CN115534998A (zh) 2022-10-17 2022-10-17 自动驾驶集成决策方法、装置、车辆及存储介质

Country Status (1)

Country Link
CN (1) CN115534998A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115900725A (zh) * 2023-01-06 2023-04-04 阿里巴巴达摩院(杭州)科技有限公司 路径规划装置、电子设备、存储介质和相关方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115900725A (zh) * 2023-01-06 2023-04-04 阿里巴巴达摩院(杭州)科技有限公司 路径规划装置、电子设备、存储介质和相关方法

Similar Documents

Publication Publication Date Title
US9738278B2 (en) Creation of an obstacle map
EP3863904A2 (en) Autonomous vehicle planning
Hug et al. Particle-based pedestrian path prediction using LSTM-MDL models
EP3800521A1 (en) Deep learning based motion control of a vehicle
CN113448335A (zh) 路径规划方法和装置、车辆和可读存储介质
O'Kelly et al. APEX: Autonomous vehicle plan verification and execution
CN114084155A (zh) 预测型智能汽车决策控制方法、装置、车辆及存储介质
CN111177934B (zh) 参考路径规划的方法、设备和存储介质
US20210192347A1 (en) Method for Determining Continuous Information on an Expected Trajectory of an Object
Hu et al. Generic prediction architecture considering both rational and irrational driving behaviors
CN115534998A (zh) 自动驾驶集成决策方法、装置、车辆及存储介质
CN113619604A (zh) 自动驾驶汽车的集成式决控方法、装置及存储介质
Nair et al. Predictive control for autonomous driving with uncertain, multi-modal predictions
CN115092141B (zh) 应用于自动驾驶车辆变道超车的轨迹规划方法及设备
CN114104005B (zh) 自动驾驶设备的决策方法、装置、设备及可读存储介质
US20240202393A1 (en) Motion planning
CN114030488B (zh) 实现自动驾驶决策的方法、装置、计算机存储介质及终端
Shen et al. Reinforcement learning and distributed model predictive control for conflict resolution in highly constrained spaces
CN114527759A (zh) 一种基于分层强化学习的端到端驾驶方法
CN114115268A (zh) 路径生成方法、装置、交通工具及存储介质
Pereida et al. Hybrid Dijkstra-PSO algorithm for motion planning of non-holonomic multiple-trailer platforms in dense contexts
Yang et al. Deep Reinforcement Learning Lane-Changing Decision Algorithm for Intelligent Vehicles Combining LSTM Trajectory Prediction
CN112631295A (zh) 路径规划方法、装置及车辆
CN114114930B (zh) 汽车局部参考路径生成方法、装置、设备及介质
CN116560241B (zh) 面向铰接车的显式循环模型预测控制轨迹跟踪方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination