CN115994332A

CN115994332A - 联合时空信息的智能驾驶多步长时行为决策方法及装置

Info

Publication number: CN115994332A
Application number: CN202211568651.1A
Authority: CN
Inventors: 华炜; 胡艳明; 冯高超; 沈峥; 项嘉琦; 杨钊
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-04-21

Abstract

本发明公开了联合时空信息的智能驾驶多步长时行为决策方法及装置，首先，根据道路结构信息与交通参与者信息，生成驾驶状态集合，将各驾驶状态作为节点，基于相邻车道的驾驶状态，生成节点间的有向边，构建驾驶状态转移图；然后，基于驾驶状态转移图与交通参与者的时空信息，通过先入先出队列和已探索驾驶状态列表，构建自车时空轨迹树；最后，在时空轨迹树中提取候选时空轨迹，并对所有候选时空轨迹进行评分，最终选择评分最高的时空轨迹作为决策结果。本发明能够使智能驾驶平台在动态交通环境中进行多步、长时的时空联合决策，指导智能驾驶平台获得更加合理的驾驶行为。

Description

联合时空信息的智能驾驶多步长时行为决策方法及装置

技术领域

本发明涉及智能驾驶行为决策技术领域，尤其是涉及联合时空信息的智能驾驶多步长时行为决策方法及装置。

背景技术

近年来，智能驾驶及其相关研究取得了很大进展，在提升交通效率和驾驶安全方面已经显现出巨大潜力。行为决策作为智能驾驶***中重要的模块，该模块的性能直接决定了智能驾驶汽车的智能性的高低，也是用于评价智能驾驶能力的最核心的指标之一。智能驾驶行为决策模块根据上层感知和预测结果与行驶任务给出决策结果，指导人类驾驶员或下层的轨迹规划与控制产生驾驶行为。

传统的驾驶行为决策方法基于规则实现对各决策基元（例如：车道保持、跟驰、换道、超车、加速、减速）的选择。例如，公开号为CN108583578A的中国发明专利申请《用于自动驾驶车辆的基于多目标决策矩阵的车道决策方法》公开了一种针对三车道模型，基于交通参与者当前位置与速度信息和车道限速信息构建决策矩阵，实现自动驾驶车辆的实时自主车道决策；公开号为CN110667578A的中国发明专利申请《自动驾驶车辆的横向决策***及横向决策确定方法》公开了一种通过道路特征信息以及预先选择的目标线和环境物体目标评估自动驾驶车辆进行横向决策所需的目标车道和车道异常情况，并据此作出符号道路特征的横向决策。

现有的方法基于道路结构信息与交通参与者当前位置与速度信息，根据设计的规则或评价函数选择下一步的最优决策基元，为一步短时行为决策。一步短时行为决策根据短时段的信息评估当前选择某一决策基元，可能会导致局部极小或不稳定（相邻决策周期的决策结果频繁切换）的短视决策结果。此外，现有方法输出的决策结果偏语义层面的信息（例如左换道、车道保持、右换道、加速、减速等），包含较少的定量信息（例如换道的起点与终点、速度期望值等）。在满足实时决策的前提下，决策结果包含更多的定量信息能够对人类驾驶员或下层的轨迹规划与控制产生更加明确有效的指导。

发明内容

为解决现有技术的不足，实现能跨越多个决策基元的决策结果，考虑时空维度上更长远的环境信息，得到包含更丰富的轨迹点序列的多步长时决策结果，从而有助于人类驾驶员或智能驾驶平台得到更加安全、稳定、高效的驾驶行为的目的，本发明采用如下的技术方案：

一种联合时空信息的智能驾驶多步长时行为决策方法，该方法根据交通参与者的位置分布以及道路结构等信息构建驾驶状态转移图，即智能汽车根据该驾驶状态转移图可能到达指定车道上指定两个前后相邻的交通参与者（包括给每个邻近车道设立的极前与极后两个虚拟交通参与者）之间；再根据交通参与者的时空信息（例如，预测轨迹）进行前向模拟来构建智能汽车的时空轨迹树，从而找到构成决策结果的完整轨迹点序列；最后，根据设计的指标对各时空轨迹树进行全方位的评分，并以综合评分最高的时空轨迹作为当前决策结果。具体包括如下步骤：

一种联合时空信息的智能驾驶多步长时行为决策方法，包括如下步骤：

步骤S1：根据道路结构信息与交通参与者信息，生成驾驶状态集合，将各驾驶状态作为节点，基于相邻车道的驾驶状态，生成节点间的有向边，构建驾驶状态转移图；

步骤S2：基于驾驶状态转移图与交通参与者的时空信息，构建时空轨迹树；将智能汽车的当前状态作为时空轨迹树根节点进入先入先出队列队尾，将与根节点关联的驾驶状态加入已探索驾驶状态列表；若先入先出队列中队头节点所在的时间步小于已探索驾驶状态列表的决策步长时，则取出队头节点；将头节点的直系子节点加入先入先出队列队尾，除叶子节点外的其他节点有且仅有1个直系子节点，直系子节点的驾驶状态与父节点的驾驶状态相同；若驾驶状态转移图中，有头节点的驾驶状态指向其候选旁系子节点的驾驶状态的有向边，且候选旁系子节点的驾驶状态属于已探索驾驶状态列表，则将候选旁系子节点加入先入先出队列队尾，将候选旁系子节点的驾驶状态加入已探索驾驶状态列表；除叶子节点外的其他节点至多有2个旁系子节点，旁系子节点的驾驶状态与父节点的驾驶状态不相同且不属于同一车道；若先入先出队列中队头节点所在的时间步大于等于已探索驾驶状态列表的决策步长时，终止迭代并输出时空轨迹树；

步骤S3：在时空轨迹树中提取时空轨迹，并对所有候选时空轨迹进行评分，最终选择分数最高的时空轨迹作为决策结果。

进一步地，所述步骤S1包括如下步骤：

步骤S1.1：根据智能汽车V所在车道确定基准车道M；若智能汽车V行驶方向与所在车道行驶方向相反，则以邻近智能汽车V所在车道的第一个与智能汽车V行驶方向同向的车道作为基准车道M；若智能汽车V行驶方向与所在车道行驶方向相同，则以智能汽车V所在车道作为基准车道M；

步骤S1.2：根据基准车道M以及与基准车道M邻近车道，构建车道集合S_lane；

步骤S1.3：沿着基准车道M的行驶方向从后往前对车道X∈S_lane上的除智能汽车V以外的其他交通参与者进行排序，得到其他交通参与者列表，将S_lane中各车道的驾驶状态集合合并成总的驾驶状态集合S_state；

步骤S1.4：以总的驾驶状态集合S_state中的所有驾驶状态，作为驾驶状态转移图STG的节点，对任意的两个驾驶状态x_i与x_j，当且仅当x_i与x_j所属的车道相邻，则在驾驶状态转移图STG中分别添加从x_i指向x_j的有向边与从x_j指向x_i的有向边。

进一步地，所述步骤S1.2中，S_lane⊆{M，L，C，R}，且M∈S_lane，且L∈S_lane与C∈S_lane互斥，L表示M的左侧同向车道，R表示M的右侧同向车道，C表示M的左侧逆向车道；

所述步骤S1.3中，其他交通参与者列表S^X _traffic={t^X ₀, t^X ₁, …, t^X _n, t^X _n+1}，其中t^X _i,i=1,… , n为车道X上其他交通参与者，t^X ₀为设置于车道X上沿基准车道M的行驶方向后方INF处的虚拟交通参与者，t^X _n+1为设置于车道X上沿基准车道M的行驶方向前方INF处的虚拟交通参与者，INF为设定的第一阈值（较大值），则车道X上的驾驶状态集合为S^X _state={x₀=f(V,A(t^X ₀)∩B(t^X ₁)), …, x_n=f(V,A(t^X _n)∩B(t^X _n+1))}，其中，A(t^X)表示车道X上其他交通参与者t^X的前方区域，B(t^X)表示车道X上其他交通参与者t^X的后方区域，A(t^X _i)∩B(t^X _i+1)表示车道X上其他交通参与者t^X _i与t^X _i+1之间的区域，f表示将智能汽车V行于车道X上的区域A(t^X _i)∩B(t^X _i+1)映射到驾驶状态的函数，X∈S_lane；

不同标记的车道对应的驾驶状态集合与驾驶状态表示如下：

若车道标记为M，则S^M _state={m₀,m₁,…,m_n(M)}，其中n(M)为M上的其他交通参与者m的数量；

若车道标记为L，则S^L _state={l₀,l₁,…,l_n(L)}，其中n(L)为L上的其他交通参与者l的数量；

若车道标记为R，则S^R _state={r₀,r₁,…,r_n(R)}，其中n(R)为R上的其他交通参与者r的数量；

若车道标记为C，则S^C _state={c₀,c₁,…,c_n(C)}，其中n(C)为C上的其他交通参与者c的数量。

进一步地，所述步骤S2包括如下步骤：

步骤S2.1：初始化一个空的先入先出队列Q_FIFO=∅、一个空的已探索驾驶状态列表ClosedList=∅以及决策步长D；

步骤S2.2：根据智能汽车V的当前状态，构建时空轨迹树T的根节点root，其中，时空轨迹树的各节点node由六元组表示<d,X,s,v,x,F>，其中d、X、s、v、x分别表智能汽车V在该节点时所在时间步、车道、位置、速度、驾驶状态以及父节点等信息；假定与根节点root相关联的驾驶状态为x_i∈S_state，将根节点root加入先入先出队列Q_FIFO队尾，将驾驶状态x_i加入已探索驾驶状态列表ClosedList；

步骤S2.3：按以下步骤迭代构建时空轨迹树：

步骤S2.3.1：先入先出队列Q_FIFO中队头节点为node_i=<d_i,X,s_i,v_i,x_i,F_i>，若节点node_i所在的时间步d_i<D，则从取出队头节点进行后续步骤，否则终止迭代并输出时空轨迹树T；

步骤S2.3.2：使用纵向一步速度规划模型P_纵向，得到node_i的直系子节点node_iic，将node_iic加入先入先出队列Q_FIFO队尾；除叶子节点外的其他节点有且仅有1个直系子节点，直系子节点的驾驶状态与父节点的驾驶状态相同；

步骤S2.3.3：使用横向一步换道决策模型P_横向，得到node_i的所有可能的候选旁系子节点node_isc：假定候选旁系子节点的驾驶状态为x_nisc，若驾驶状态转移图STG中有x_ni指向x_nisc的有向边且x_nisc∉ClosedList时，则将node_isc加入先入先出队列Q_FIFO队尾，将x_nisc加入已探索驾驶状态列表ClosedList；除叶子节点外的其他节点至多有2个旁系子节点，旁系子节点的驾驶状态与父节点的驾驶状态不相同且不属于同一车道；

步骤S2.3.4：跳转到步骤S2.3.1。

进一步地，所述步骤S2.3.2中的纵向一步速度规划模型P_纵向具体为：假定以时空轨迹树的节点node_i作为纵向一步速度规划模型P_纵向的起始状态，以交通参与者第d_i步的预测状态作为P_纵向环境状态信息，P_纵向根据起始状态与环境状态等信息规划输出一下步考虑智能汽车V本体动力学与运动学约束的速度与位置；P_纵向基于规则构建，或为可学习的网络模型。

进一步地，所述纵向一步速度规划模型P_纵向为：v_d=max{v_min, min{v_max, dist(node_i, t^X _aheadi(di))/HT}}与s_d=s_i+v_d×dt，其中，v_d为node_i的直系子节点的期望速度值，v_min与v_max分别为综合考虑node_i的速度、V的最大加/减速度以及车道限速等约速下，在node_i的直系子节点能达到的最小速度与最大速度，dist(node_i, t^X _aheadi(di))为node_i位置与它所在车道前方第一个交通参与者之间的距离，HT为最短车头时距（一般，为了安全，HT=2s），s_i为node_i的位置，s_d为node_i的直系子节点的期望位置，dt为一步规划的时间。

进一步地，所述步骤S2.3.2中的横向一步换道决策模型P_横向具体为：假定以时空轨迹树的节点node_i作为横向一步换道决策模型P_横向的起始状态，以交通参与者第d_i步的预测状态作为P_横向环境状态信息，以node_i所在车道的领近车道X∈S_lane为目标车道，P_横向根据起始状态、环境状态以及目标车道输出一下步能否变换车道等决策信息；P_横向基于规则构建，或为可学习的网络模型。

进一步地，所述横向一步换道决策模型P_横向为：若dist(node_i, t^P _behind(di))>d1且dist(node_i, t^P _ahead(di))>d2，也即若节点n_i所在位置处与旁边车道P后方与前方第一个交通参与者的距离分别大于d1与d2时，则v_d=max{v_min, min{v_max, dist(node_i, t^P _aheadi(di))/HT}}与s_d=s_i+v_d×dt，其中，d1与d2为设定的车间安全间隔，v_min与v_max分别为综合考虑node_i的速度、V的最大加/减速度以及车道限速等约速下，在node_i的直系子节点能达到的最小速度与最大速度，dist(node_i, t^P _aheadi(di))为node_i位置与旁边车道P前方第一个交通参与者之间的距离，HT为最短车头时距，s_i为node_i的位置，s_d为node_i的直系子节点的期望位置，dt为一步规划的时间。

进一步地，所述步骤S3包括如下步骤：

步骤S3.1：循着时空轨迹树T，收集从根节点到叶子节点的所有节点，构成轨迹点序列Trace_i,i=1,2,...,h，其中，h为T中叶子节点的个数，也是最终收集到的轨迹点序列个数；

步骤S3.2：根据设计的评价指标对所有轨迹点序列进行评分：

评价指标包括但不限于引导性C_guide、时效性C_effic、安全性C_safe以及一致性C_consist，各评价指标释义如下：

C_guide：引导性评估通过时空轨迹使V最终到达的车道与全局路线信息给出的目标车道的邻近程度，通过两车道的中心线距离来评估；

C_effic：时效性评估通过时空轨迹使V能够更快的完成驾驶任务，可根据与时空轨迹关联的轨迹点序列的速度信息来评估；

C_safe：安全性评估V按照该时空轨迹行驶与其他交通参与者避免发生擦碰的概率，可根据与时空轨迹关联的轨迹点序列与周围交通参与者的时空距离来评估；

C_consist：一致性评估V按照决策动行驶时变换车道的次数，可根据时空轨迹关联的轨迹点序列中连续两节点不在同一车道的事件计数来评估；

步骤S3.3：通过加权求和计算总分C_total=w_effic×C_effic+w_safe×C_safe+w_consist×C_consist，其中，w_effic、w_safe、w_consist为对应指标的权重，从引导性C_guide最高的有效时空轨迹中选择总分C_total最高的作为决策结果。

一种联合时空信息的智能驾驶多步长时行为决策装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现所述的联合时空信息的智能驾驶多步长时行为决策方法。

本发明的优势和有益效果在于：

本发明与现有技术相比，突破一步短时行为决策的限制，利用交通参与者的位置分布以及道路结构等信息得到可跨越多个决策基元的决策结果，在考虑交通参与者的时空预测信息的基础上得到的时空轨迹包含更加丰富的定量信息，使智能汽车能够对多步长时的决策结果进行定量的评价（评价指标包括但不限于引导性、时效性、安全性以及一致性等）。此外，本发明利用内嵌低级的一步速度规划模型与一步换道决策模型，来达到在多步长时的时空维度中进行实时的行为决策。本发明可得到的更具远见的决策结果，可以直接作为辅助驾驶技术供人类驾驶员提供决策建议，也可以作为无人驾驶***的决策模块引导下层的运动规划与控制，进一步提升交通效率和驾驶安全性。

附图说明

图1是本发明实施例中的方法流程图。

图2a是本发明实施例中示例一构建的候驾驶状态转移图。

图2b是本发明实施例中示例二构建的候驾驶状态转移图。

图3a是本发明实施例中示例二构建时空轨迹树的示意图；

图3b是本发明实施例中从示例二的时空轨迹树中提取时空轨迹的示意图。

图4是本发明实施例中装置的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，一种联合时空信息的智能驾驶多步长时行为决策方法，首先，根据道路结构信息与交通参与者信息构建驾驶状态转移图；再基于驾驶状态转移图与交通参与者的时空信息构建时空轨迹树；然后，在时空轨迹树中提取时空轨迹，关对所有候选时空轨迹进行评分，最终选择评分最高的时空轨迹作为决策结果；具体包括如下步骤：

步骤S1：根据道路结构信息与交通参与者信息，生成驾驶状态集合，将各驾驶状态作为节点，基于相邻车道的驾驶状态，生成节点间的有向边，构建驾驶状态转移图，具体包括如下步骤：

步骤S1.1：根据智能汽车（标记为V）所在车道确定基准车道（标记为M），即：若V行驶方向与所在车道行驶方向相反，则以邻近V所在车道的第一个与V行驶方向同向的车道作为M；若V行驶方向与所在车道行驶方向相同，则以V所在车道作为M；

具体地，根据M以及与M邻近车道（可能包含M的左侧同向车道（标记为L）、M的右侧同向车道（标记为R）、M的左侧逆向车道（标记为C））构建车道集合S_lane，其中，S_lane⊆{M，L，C，R}且M∈S_lane且L∈S_lane与C∈S_lane互斥；

步骤S1.3：沿着M的行驶方向从后往前对车道X∈S_lane上的除V以外的交通参与者（称为其他交通参与者）进行排序得其他交通参与者列表（标记为S^X _traffic={t^X ₀, t^X ₁, …,t^X _n, t^X _n+1}，其中t^X _i,i=1,… , n为X上其他交通参与者，t₀为设置于X上沿M的行驶方向后方INF处的虚拟交通参与者，t_n+1为设置于X上沿M的行驶方向前方INF处的虚拟交通参与者，INF为设定的较大值），则X上的驾驶状态集合为S^X _state={x₀=f(V,A(t^X ₀)∩B(t^X ₁)), …, x_n=f(V,A(t^X _n)∩B(t^X _n+1))}，其中，A(t^X)表示车道X上t^X的前方区域，B(t^X)表示车道X上t^X的后方区域，A(t^X _i)∩B(t^X _i+1)表示车道X上t^X _i与t^X _i+1之间的区域，f表示将V行与X上的区域A(t^X _i)∩B(t^X _i+1)映射到驾驶状态的函数，X∈S_lane；

为了方便描述，不同标记的车道对应的驾驶状态集合与驾驶状态表示如下：

若车道标记为M，则S^M _state={m₀,m₁,…,m_n(M)}，其中n(M)为M上的其他交通参与者数量；

若车道标记为L，则S^L _state={l₀,l₁,…,l_n(L)}，其中n(L)为L上的其他交通参与者数量；

若车道标记为R，则S^R _state={r₀,r₁,…,r_n(R)}，其中n(R)为R上的其他交通参与者数量；

若车道标记为C，则S^C _state={c₀,c₁,…,c_n(C)}，其中n(C)为C上的其他交通参与者数量；

将S_lane中各车道的驾驶状态集合合并成总的驾驶状态集合（标记为S_state）。

步骤S1.4：以S_state中的所有驾驶状态作为STG的节点，对任意的两个驾驶状态x_i与x_j，当且仅当x_i与x_j所属的车道相邻，则在STG中分别添加从x_i指向x_j的有向边与从x_j指向x_i的有向边。

图2a、图2b中，给出两个示例的构建驾驶状态转移图STG示意图，图2a的示例一是双向单车道（上图），图2b的示例二是单向三车道（下图），此处利用图中的双向单车道示例说明根据步骤S1构建驾驶状态转移图：智能汽车V行驶方向与所在车道行驶方向同向，将V所在车道标记为基准车道M，与在V行驶方向左侧存在的是唯一与M相邻的车道，且与M方向相反，将该相邻车道标记为C，故此示例中车道集合S_lane={M，C}，沿V行驶方向收集M上的交通参与者为S^M _traffic={t^M ₀, t^M ₁,t^M ₂}，收集C上的交通参与者为S^C _traffic={t^C ₀, t^C ₁}，其中，t^M ₀,t^M _2,t^C ₀, t^C ₁为虚拟交通参与者，得M上的驾驶状态集合S^M _state={m₀=f(V,<A(t^M ₀)∩B(t^M ₁)>),m₁₀=f(V,<A(t^M ₁)∩B(t^M ₂)>)}，得C上的驾驶状态集合S^C _state={c₀=f(V,<A(t^C ₀)∩B(t^C ₁)>)},合并S^M _state与S^C _state得总的驾驶状态集合S_state={m₀, m₁, c₀};最后，将m₀, m₁, c₀作为STG的节点，并且m₀与c₀，m₁与c₀所属车道相邻，添加m₀指向c₀的有向边、c₀指向m₀的有向边、m₁指向c₀的有向边以及c₀指向m₁的有向边，获得的STG见图2a的右侧。

按同样的步骤S1可得示例二的STG（见图2b的右侧）。

步骤S2：基于驾驶状态转移图与交通参与者的时空信息，构建时空轨迹树；将智能汽车的当前状态作为时空轨迹树根节点进入先入先出队列队尾，将与根节点关联的驾驶状态加入已探索驾驶状态列表；若先入先出队列中队头节点所在的时间步小于已探索驾驶状态列表的决策步长时，则取出队头节点；将头节点的直系子节点加入先入先出队列队尾，除叶子节点外的其他节点有且仅有1个直系子节点，直系子节点的驾驶状态与父节点的驾驶状态相同；若驾驶状态转移图中，有头节点的驾驶状态指向其候选旁系子节点的驾驶状态的有向边，且候选旁系子节点的驾驶状态属于已探索驾驶状态列表，则将候选旁系子节点加入先入先出队列队尾，将候选旁系子节点的驾驶状态加入已探索驾驶状态列表；除叶子节点外的其他节点至多有2个旁系子节点，旁系子节点的驾驶状态与父节点的驾驶状态不相同且不属于同一车道；若先入先出队列中队头节点所在的时间步大于等于已探索驾驶状态列表的决策步长时，终止迭代并输出时空轨迹树，具体包括如下步骤：

步骤S2.1：初始化一个空的先入先出队列（标记为Q_FIFO=∅）、一个空的已探索驾驶状态列表（标记为ClosedList=∅）以及决策步长D；

步骤S2.2：根据V的当前状态构建时空轨迹树（标记为T）的根节点（标记为root），其中，时空轨迹树的各节点（标记为node）由六元组表示<d,X,s,v,x,F>，其中d、X、s、v、x分别表V在该节点时所在时间步、车道、位置、速度、驾驶状态以及父节点等信息；假定与root相关联的驾驶状态为x_i∈S_state，将root加入Q_FIFO队尾，将x_i加入ClosedList；

步骤S2.3：按以下步骤迭代构建时空轨迹树：

步骤S2.3.1：Q_FIFO中队头节点为node_i=<d_i,X,s_i,v_i,x_i,F_i>，若节点node_i所在的时间步d_i<D，则从取出队头节点进行下面步骤；否则终止迭代并输出时空轨迹树T；

步骤S2.3.2：使用纵向一步速度规划模型（标记为P_纵向）得到node_i的直系子节点（标记为node_iic）,将node_iic加入Q_FIFO队尾；除叶子节点外的其他节点有且仅有1个直系子节点，直系子节点的驾驶状态与父节点的驾驶状态相同；

所述的纵向一步速度规划模型P_纵向具体为：假定以时空轨迹树的节点node_i作为纵向一步速度规划模型P_纵向的起始状态，以交通参与者第d_i步的预测状态作为P_纵向环境状态信息，P_纵向根据起始状态与环境状态等信息规划输出一下步考虑V本体动力学与运动学约束的速度与位置；P_纵向可以基于规则构建，也可以是可学习的网络模型。

一个优选的纵向一步速度规划模型P纵向为v_d=max{v_min, min{v_max, dist(node_i,t^X _aheadi(di))/HT}}与s_d=s_i+v_d×dt，其中，v_d为node_i的直系子节点的期望速度值，v_min与v_max分别为综合考虑node_i的速度、V的最大加/减速度以及车道限速等约速下在node_i的直系子节点能达到的最小速度与最大速度，dist(node_i, t^X _aheadi(di))为node_i位置与它所在车道前方第一个交通参与者之间的距离，HT为最短车头时距（一般，为了安全，HT=2s），s_i为node_i的位置，s_d为node_i的直系子节点的期望位置，dt为一步规划的时间。

步骤S2.3.3：使用横向一步换道决策模型（标记为P_横向）得到node_i的所有可能的候选旁系子节点（标记为node_isc）：假定候选旁系子节点的驾驶状态为x_nisc，若STG中有x_ni指向x_nisc的有向边且x_nisc∉ClosedList时，则将node_isc加入Q_FIFO队尾，将x_nisc加入ClosedList；除叶子节点外的其他节点至多有2个旁系子节点，旁系子节点的驾驶状态与父节点的驾驶状态不相同且不属于同一车道；

所述的横向一步换道决策模型P_横向具体为：假定以时空轨迹树的节点node_i作为横向一步换道决策模型P_横向的起始状态，以交通参与者第d_i步的预测状态作为P_横向环境状态信息，以node_i所在车道的领近车道X∈S_lane为目标车道，P_横向根据起始状态、环境状态以及目标车道输出一下步能否变换车道等决策信息；P_横向可以基于规则构建，也可以是可学习的网络模型。

一个优选的横向一步换道决策模型P_横向为，若dist(node_i, t^P _behind(di))>d1且dist(node_i, t^P _ahead(di))>d2，也即若节点node_i所在位置处与旁边车道P后方与前方第一个交通参与者的距离分别大于d1与d2时，则v_d=max{v_min, min{v_max, dist(node_i, t^P _aheadi(di))/HT}}与s_d=s_i+v_d×dt，其中，d1与d2为设定的车间安全间隔，其他的符号标记意义与所述的优选的纵向一步速度规划模型中的相同。

步骤S2.3.4：跳转到步骤S2.3.1。

图3a给出图2b的时空轨迹树示意图，已知此场景的驾驶状态集合S_state={m₀, m₁,l₀,l₁,r₀},驾驶状态转移图STG见图2b所示，初始化Q_FIFO=∅,ClosedList=∅，D=6，以V当前状态（包括位置、航向、速度）初始化时空轨迹树T的根节点（用整数0标记），节点0在车道M的A(t^M ₀)∩B(t^M ₁)位置区间上，因此根节点的驾驶状态为m₀，最终根据纵向一步速度规划模型与横向一步换道决策模型向前模拟，得到如图3a所示的时空轨迹树。

步骤S3：在所述的时空轨迹树中提取时空轨迹，并对所有候选时空轨迹进行评分，最终选择分数最高的时空轨迹作为决策结果，具体包括如下步骤：

步骤S3.1：循着T收集从根节点到叶子节点的所有节点构成轨迹点序列（标记为Trace_i,i=1,2,...,h，其中，h为T中叶子节点的个数，也是最终收集到的轨迹点序列个数）；图3b给出从图3a所示的示例二的时空轨迹树中提取出的时空轨迹。

步骤S3.2：根据设计的评价指标对所有轨迹点序列进行评分，一个优选的评价指标包括但不限于引导性（标记为C_guide）、时效性（标记为C_effic）、安全性（标记为C_safe）以及一致性（标记为C_consist），各评价指标释义如下：

C_consist：一致性评估V按照决策动行驶时变换车道的次数，可根据时空轨迹关联的轨迹点序列中连续两节点不在同一车道的事件计数来评估。

与前述联合时空信息的智能驾驶多步长时行为决策方法的实施例相对应，本发明还提供了联合时空信息的智能驾驶多步长时行为决策装置的实施例。

参见图4，本发明实施例提供的联合时空信息的智能驾驶多步长时行为决策装置，包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的联合时空信息的智能驾驶多步长时行为决策方法。

本发明联合时空信息的智能驾驶多步长时行为决策装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明联合时空信息的智能驾驶多步长时行为决策装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的联合时空信息的智能驾驶多步长时行为决策方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种联合时空信息的智能驾驶多步长时行为决策方法，其特征在于包括如下步骤：

2.根据权利要求1所述的联合时空信息的智能驾驶多步长时行为决策方法，其特征在于：所述步骤S1包括如下步骤：

3.根据权利要求2所述的联合时空信息的智能驾驶多步长时行为决策方法，其特征在于：

所述步骤S1.2中，S_lane⊆{M，L，C，R}，且M∈S_lane，且L∈S_lane与C∈S_lane互斥，L表示M的左侧同向车道，R表示M的右侧同向车道，C表示M的左侧逆向车道；

所述步骤S1.3中，其他交通参与者列表S^X _traffic={t^X ₀, t^X ₁, …, t^X _n, t^X _n+1}，其中t^X _i,i=1,… , n为车道X上其他交通参与者，t^X ₀为设置于车道X上沿基准车道M的行驶方向后方INF处的虚拟交通参与者，t^X _n+1为设置于车道X上沿基准车道M的行驶方向前方INF处的虚拟交通参与者，INF为设定的第一阈值，则车道X上的驾驶状态集合为S^X _state={x₀=f(V,A(t^X ₀)∩B(t^X ₁)), …, x_n=f(V,A(t^X _n)∩B(t^X _n+1))}，其中，A(t^X)表示车道X上其他交通参与者t^X的前方区域，B(t^X)表示车道X上其他交通参与者t^X的后方区域，A(t^X _i)∩B(t^X _i+1)表示车道X上其他交通参与者t^X _i与t^X _i+1之间的区域，f表示将智能汽车V行于车道X上的区域A(t^X _i)∩B(t^X _i+1)映射到驾驶状态的函数，X∈S_lane；

不同标记的车道对应的驾驶状态集合与驾驶状态表示如下：

4.根据权利要求1所述的联合时空信息的智能驾驶多步长时行为决策方法，其特征在于：所述步骤S2包括如下步骤：

步骤S2.3：按以下步骤迭代构建时空轨迹树：

步骤S2.3.4：跳转到步骤S2.3.1。

5.根据权利要求4所述的联合时空信息的智能驾驶多步长时行为决策方法，其特征在于：所述步骤S2.3.2中的纵向一步速度规划模型P_纵向具体为：假定以时空轨迹树的节点node_i作为纵向一步速度规划模型P_纵向的起始状态，以交通参与者第d_i步的预测状态作为P_纵向环境状态信息，P_纵向根据起始状态与环境状态等信息规划输出一下步考虑智能汽车V本体动力学与运动学约束的速度与位置；P_纵向基于规则构建，或为可学习的网络模型。

6.根据权利要求5所述的联合时空信息的智能驾驶多步长时行为决策方法，其特征在于：所述纵向一步速度规划模型P_纵向为：v_d=max{v_min, min{v_max, dist(node_i, t^X _aheadi(di))/HT}}与s_d=s_i+v_d×dt，其中，v_d为node_i的直系子节点的期望速度值，v_min与v_max分别为在node_i的直系子节点能达到的最小速度与最大速度，dist(n_i, t^X _aheadi(di))为node_i位置与它所在车道前方第一个交通参与者之间的距离，HT为最短车头时距，s_i为node_i的位置，s_d为node_i的直系子节点的期望位置，dt为一步规划的时间。

7.根据权利要求4所述的联合时空信息的智能驾驶多步长时行为决策方法，其特征在于：所述步骤S2.3.2中的横向一步换道决策模型P_横向具体为：假定以时空轨迹树的节点node_i作为横向一步换道决策模型P_横向的起始状态，以交通参与者第d_i步的预测状态作为P_横向环境状态信息，以node_i所在车道的领近车道X∈S_lane为目标车道，P_横向根据起始状态、环境状态以及目标车道输出一下步能否变换车道等决策信息；P_横向基于规则构建，或为可学习的网络模型。

8.根据权利要求7所述的联合时空信息的智能驾驶多步长时行为决策方法，其特征在于：所述横向一步换道决策模型P_横向为：若dist(node_i, t^P _behind(di))>d1且dist(node_i,t^P _ahead(di))>d2，也即若节点node_i所在位置处与旁边车道P后方与前方第一个交通参与者的距离分别大于d1与d2时，则v_d=max{v_min, min{v_max, dist(node_i, t^P _aheadi(di))/HT}}与s_d=s_i+v_d×dt，其中，d1与d2为设定的车间安全间隔，v_min与v_max分别为在n_i的直系子节点能达到的最小速度与最大速度，dist(node_i, t^P _aheadi(di))为node_i位置与旁边车道P前方第一个交通参与者之间的距离，HT为最短车头时距，s_i为node_i的位置,s_d为node_i的直系子节点的期望位置，dt为一步规划的时间。

9.根据权利要求1所述的联合时空信息的智能驾驶多步长时行为决策方法，其特征在于：所述步骤S3包括如下步骤：

步骤S3.2：根据设计的评价指标对所有轨迹点序列进行评分：

10.一种联合时空信息的智能驾驶多步长时行为决策装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-9中任一项所述的联合时空信息的智能驾驶多步长时行为决策方法。