CN113276884B

CN113276884B - 一种可变博弈模式的智能车交互决策通行方法及***

Info

Publication number: CN113276884B
Application number: CN202110468390.5A
Authority: CN
Inventors: 贾士政; 高炳钊; 张羽翔; 何钢磊; 张洪坤; 陈虹
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2022-04-26
Anticipated expiration: 2041-04-28
Also published as: CN113276884A

Abstract

本发明公开了一种可变博弈模式的智能车交互决策通行方法及***，用于无信号灯交叉路口。该方法包括：感知与获取本车及周车的状态信息和驾驶风格；判断车辆是否参与路权博弈交互，实时切换t时刻的博弈模式；考虑驾驶风格的多样化，博弈决策各车在t时刻执行的加速度；控制节气门开度和制动轮缸压力以执行t时刻决策的加速度策略；在t+1时刻更新所有智能汽车的状态及道路信息，进行新一轮的博弈交互；重复执行上述所有步骤，直至各车安全通过交叉路口或车辆之间有效化解冲突而退出博弈。该方法符合人类驾驶员决策逻辑，有效化解交叉口冲突，可变博弈模式降低了多车博弈的复杂度，实现智能汽车拟人化决策、个性化驾驶。

Description

一种可变博弈模式的智能车交互决策通行方法及***

技术领域

本发明涉及智能汽车交互式行为决策的技术领域，特别涉及一种可变博弈模式的智能车交互决策通行方法及***。

背景技术

随着经济社会的发展，汽车保有量不断增加，这也带来许多问题，例如交通拥堵、交通事故频发等。交通事故主要发生在无信号灯交叉路口，由于缺少交通信号灯的引导，而且车流密集、交通状况复杂，通行的先后顺序依靠驾驶员之间的“争夺”来实现，这使得交叉路口极易发生交通事故，且事故的发生往往会阻塞交通，甚至会导致“二次事故”，带来一系列的连锁反应。

统计数据表明，到2040年，大约有75％的车辆实现智能驾驶。理解人类驾驶员在真实交通环境下的驾驶行为，让智能汽车以符合真实人类驾驶员行为逻辑的方式安全通过复杂无信号交叉路口，成为一项重要的课题。克服现存的一些交叉路口冲突消解算法的不足，考虑车辆之间交互作用的影响，提高智能汽车行驶的安全性和舒适性，使得车辆的决策更接近人类的方式，这符合智能汽车发展对拟人化驾驶和个性化驾驶的需求。

由此可见，智能汽车如何安全的通过交叉路口对整个道路通行安全水平有着十分重要的意义。研究智能汽车在无信号灯交叉口的博弈交互决策，是智能汽车安全行驶的重要保障，同时也提高了其他出行车辆和行人的安全性，提高道路交通的通行效率。

发明内容

为了解决智能汽车在复杂无信号灯交叉路口的开放场景下安全通行的问题，本发明提供了一种可变博弈模式的智能车交互决策通行方法，模拟人类驾驶员在遇到冲突风险时与周围车辆交互决策的方式，在满足实际道路交通情况下智能汽车安全行驶要求的同时，也能够满足智能汽车拟人化驾驶和个性化驾驶的需求，有效地化解了交叉口冲突、明确路权，且智能汽车可以实时地加入和退出博弈，提高了智能汽车决策与人类驾驶员决策的符合度。

本发明实施例提供一种可变博弈模式的智能车交互决策通行方法，包括：

当经过潜在冲突区域时，通过数据采集设备感知周围车辆的状态信息和驾驶风格，并获取自身车辆的状态信息和驾驶风格；

判断t时刻参与到路权博弈交互中的车辆及数量，实时切换多智能体汽车博弈模式；

根据非合作动态博弈交互决策模型，通过求解每个阶段博弈的子博弈精炼纳什均衡，推理决策所述自身车辆在t时刻应执行的加速度；

控制节气门开度和制动轮缸压力以执行t时刻决策的所述自身车辆应执行的加速度；

在t+1时刻更新自身车辆和周围车辆的状态信息、以及道路信息，重复执行上述所有步骤，直至安全通过交叉路口或者车辆之间有效化解冲突而退出博弈。

在一个实施例中，所述潜在冲突的判断过程，包括：

衡量车辆之间是否存在潜在冲突或冲突的严重程度，根据车辆外形参数和车道宽度的滚动更新通行时间差T_Δ,ij(t)进行评估；

其中，T_Δ,ij(t)表示t时刻车辆i,j的通行时间差；L_i(t)和L_j(t)分别表示t时刻从车辆i,j的位置到潜在冲突区域的距离；v_i(t)和v_j(t)分别表示t时刻车辆i,j的速度；l_i和l_j分别表示车辆i,j的长度；w表示车道宽度。

在一个实施例中，判断t时刻参与到路权博弈交互中的车辆及数量，实时切换多智能体汽车博弈模式，包括：

根据公式(1)，每个阶段博弈开始均需要重新计算任意两车之间的通行时间差并与阈值T_M进行比较；

当车辆i、j之间的通行时间差小于等于所述阈值T_M，表示车辆i、j之间存在潜在冲突且存在路权博弈的需要；否则，表示车辆i、j之间不存在潜在冲突且不存在路权博弈的需要；

根据任意两车之间通行时间差的标准化值

判断是否每辆车存在参与到路权博弈交互决策中的需要；

确定多车动态博弈的类型及其序贯行动顺序，实现博弈模式的实时动态切换。

在一个实施例中，根据非合作动态博弈交互决策模型，通过求解每个阶段博弈的子博弈精炼纳什均衡，包括：

构建决策空间，包括四个收益指标，分别为：驾驶安全指标、平顺舒适指标、快速通行指标和周围空间指标；

根据所述四个收益指标及其权重系数构建总收益函数，并基于所述驾驶风格和约束条件，生成动态博弈树；

根据所述动态博弈树，求解得到子博弈精炼纳什均衡解。

在一个实施例中，所述驾驶安全指标表示：用于衡量是否存在潜在冲突或冲突的严重程度，模拟了人类驾驶员对车辆交叉行驶过程的安全的认知，将驾驶风格和心理安全预期结合起来；

所述平顺舒适指标表示：历史阶段博弈的加速度策略和当前阶段博弈中可能采取的加速度的整体方差；

所述快速通行指标表示：车辆i在第r个阶段博弈中采取策略

时，在此阶段博弈过程中实际行驶的距离与阶段博弈开始时速度的比值[x_i(t^r+1)-x_i(t^r)]/v_i(t^r)记为期望时间；每个阶段博弈的时间周期T和期望时间之间的差值作为快速通行指标；

所述周围空间指标表示：在第r个阶段博弈中，车辆i和车辆j在从各自博弈策略集采取动作序列后可能到达的预期位置之间距离的对数函数值

用来衡量驾驶过程中对周围行驶空间的要求。

在一个实施例中，在第r个阶段博弈中车辆i的所述驾驶安全指标定义为：

其中，

分别为在第r个阶段博弈开始车辆i,j的速度，

分别为在第r个阶段博弈中车辆i,j可能从各自博弈策略集采取的加速度策略，

分别为在第r个阶段博弈开始车辆i,j到二者潜在冲突区域的距离，q_i反映车辆i的驾驶风格，ΔT(q_i)为车辆i的心理安全预期；

分别表示车辆i与其存在潜在冲突的车辆j,k在采取各自策略下的通行时间差与车辆i心理安全预期的比值，最小值记为

即为车辆i在阶段博弈r中的安全指标

在一个实施例中，在第r个阶段博弈中车辆i的所述平顺舒适指标定义为：

其中，

表示车辆i在第r个阶段博弈中可能从博弈策略集采取的加速度策略，

表示车辆i在所有历史的前r-1个阶段博弈中所采取的最优行动，m∈[1,r-1]；

为历史阶段博弈的最优行动和当前阶段博弈中可能从博弈策略集采取的加速度策略的均值。

在一个实施例中，第r个阶段博弈中车辆i的快速通行指标定义为：

T＝t^r+1-t^r＝t^r-t^r-1 (5.5)

其中，x_i(t^r+1)表示车辆i在第r个阶段博弈采取策略

后，在此阶段博弈结束时即第r+1个阶段博弈开始时车辆i可能达到的预期位置，x_i(t^r)和v_i(t^r)分别为第r个阶段博弈开始时车辆i的位置和速度，T为每个阶段博弈的时间周期。

在一个实施例中，在第r个阶段博弈中车辆i的周围空间指标定义为：

其中，(x_i(t^r+1),y_i(t^r+1)),(x_j(t^r+1),y_j(t^r+1))表示车辆i,j在第r个阶段博弈分别采用策略

后，在此阶段博弈结束时即第r+1个阶段博弈开始时车辆i,j可能达到的预期位置；预期位置是每辆车在各自博弈策略集中采取某一具体行动的函数，即

分别表示车辆i与其存在潜在冲突的车辆j,k在采取各自策略下关于预期位置车间距离的对数函数，最小值定义为车辆i在驾驶过程中的周围空间指标，记为

在一个实施例中，根据所述动态博弈树，求解得到子博弈精炼纳什均衡解，包括：

对于博弈策略G＝{Γ₁,Γ₂,Γ₃…Γ_N；U₁,U₂,U₃…U_N}，Γ₁,Γ₂,Γ₃…Γ_N表示参与车辆1,2,3…N的策略集，U₁,U₂,U₃…U_N表示参与车辆1,2,3…N总的收益函数；策略组合

如果对每一个参与车辆i，

是给定其他参与车辆选择

的情况下参与车辆i的最优策略，即

则称该策略组合为一个纳什均衡；

本发明通过逆向归纳法求解动态博弈的子博弈精炼纳什均衡，从动态博弈树末端信息集推到博弈开始时信息集，对于有限个参与车辆的动态博弈可以达到博弈的终止节点，依次删去每个信息集中作为劣势策略的行动；实现在每一个子博弈中均为纳什均衡。

第二方面，本发明实施例还提供一种可变博弈模式的智能车交互决策通行***，包括：

感知与获取模块，用于当经过潜在冲突区域时，通过数据采集设备感知周围车辆的状态信息和驾驶风格，并获取自身车辆的状态信息和驾驶风格；

判断模块，用于判断t时刻参与到路权博弈交互中的车辆及数量，实时切换多智能体汽车博弈模式；

决策模块，用于根据非合作动态博弈交互决策模型，通过求解每个阶段博弈的子博弈精炼纳什均衡，推理决策所述自身车辆在t时刻应执行的加速度；

执行模块，用于控制节气门开度和制动轮缸压力以执行t时刻决策的所述自身车辆应执行的加速度；

更新模块，用于在t+1时刻更新自身车辆和周围车辆的状态信息、以及道路信息。

本发明实施例提供的一种可变博弈模式的智能车交互决策通行方法，用于无信号灯交叉路口。该方法包括：感知与获取本车及周车的状态信息和驾驶风格；判断车辆是否参与路权博弈交互，实时切换t时刻的博弈模式；考虑驾驶风格的多样化，博弈决策各车在t时刻执行的加速度；控制节气门开度和制动轮缸压力以执行t时刻决策的加速度策略；在t+1时刻更新所有智能汽车的状态及道路信息，进行新一轮的博弈交互；重复执行上述所有步骤，直至各车安全通过交叉路口或车辆之间有效化解冲突而退出博弈。该方法符合人类驾驶员决策逻辑，有效化解交叉口冲突，可变博弈模式降低了多车博弈的复杂度，实现智能汽车拟人化决策、个性化驾驶。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的一种可变博弈模式的智能车交互决策通行方法的流程图。

图2为本发明实例一种可变博弈模式的智能车交互决策通行方法的原理框图。

图3为本发明实施例提供的动态博弈树的示意图。

图4为本发明实施例提供为滚动阶段博弈的子博弈精炼纳什均衡时序图。

图5为无信号灯交叉路口各支路领头车辆之间多车交互示意图。

图6为车辆状态参数和冲突区域示意图。

图7为本发明实施例提供的可变博弈模式的智能车交互决策通行***的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1所示，为本发明实施例提供的一种可变博弈模式的智能车交互决策通行方法，用于智能汽车在无红绿灯路口安全通行时，可执行的最优决策；其中智能汽车包括自身车辆和周围车辆，为简化描述也可称本车和周车；周围车辆可以是多辆；当处于潜在冲突区域内的其它车辆，均指周围车辆。

该包括：

S11、当经过潜在冲突区域时，通过数据采集设备感知周围车辆的状态信息和驾驶风格，并获取自身车辆的状态信息和驾驶风格；

S12、判断t时刻参与到路权博弈交互中的车辆及数量，实时切换多智能体汽车博弈模式；

S13、根据非合作动态博弈交互决策模型，通过求解每个阶段博弈的子博弈精炼纳什均衡，推理决策所述自身车辆在t时刻应执行的加速度；

S14、控制节气门开度和制动轮缸压力以执行t时刻决策的所述自身车辆应执行的加速度；

S15、在t+1时刻更新自身车辆和周围车辆的状态信息、以及道路信息，重复执行上述所有步骤，直至安全通过交叉路口或者车辆之间有效化解冲突而退出博弈。

其中，步骤S11中，当经过无红绿灯的十字路口时，或经过潜在的冲突区域时，自身车辆可用于根据V2V***或车载摄像头、激光雷达、毫米波雷达、GPS和IMU等传感器来感知周围车辆的状态信息和驾驶风格，同时获取智能汽车自身的状态信息和驾驶风格，这些状态信息包括绝对位置坐标、速度矢量、航向角、加速度，构成状态向量

驾驶风格是指根据环境信息或驾驶员及乘客需求，拟定的权重系数，权重系数表示了对各项驾驶需求的倾向性，权重系数之和为1，可以有无限多种组合方式，后续部分会进行详细介绍。

同样地，通过本车的数据采集设备感知获取周围车辆(可以是多个)的相对位置、相对速度、相对加速度、航向角、道路信息等，并通过通讯设备交换获取得到周围车辆的驾驶风格。

步骤S12-S15中，判断t时刻哪些智能汽车需要参与到路权交互博弈中，实时切换多智能体汽车博弈模式；并用于根据所提出的非合作动态博弈交互决策模型，通过求解每个阶段博弈的子博弈精炼纳什均衡，推理决策智能汽车在t时刻应执行的加速度；在t+1时刻更新自身车辆和周围车辆的状态信息，以及道路信息，以进行新一轮的滚动博弈决策。重复执行上述所有步骤，直至智能汽车安全通过交叉路口或者车辆之间有效化解冲突而退出博弈。

上述道路信息包括：直道弯道等道路类型、几个车道、车道前进方向、路宽及道路的其他交通状况等信息。

本发明实施例中，所适用的场景：所有车辆都是加载有本发明的博弈交互决策通行方法的智能汽车。该方法可用于无信号灯交叉路口或经过潜在的冲突区域时，感知与获取本车及周车的状态信息和驾驶风格；判断车辆是否参与路权博弈交互，实时切换t时刻的博弈模式；考虑驾驶风格的多样化，博弈决策各车在t时刻执行的加速度；控制节气门开度和制动轮缸压力以执行t时刻决策的加速度策略；在t+1时刻更新所有智能汽车的状态及道路信息，进行新一轮的博弈交互；重复执行上述所有步骤，直至各车安全通过交叉路口或车辆之间有效化解冲突而退出博弈。该方法符合人类驾驶员决策逻辑，有效化解交叉口冲突，可变博弈模式降低了多车博弈的复杂度，实现智能汽车拟人化决策、个性化驾驶。

下面对本发明实施例提供的上述步骤进行详细的说明：

参照图2所示，通过获取本车和周围车辆的状态信息及驾驶风格，确定多车动态博弈模式类型，然后基于上述信息作为非合作动态博弈交互决策模型的输入；输出各车的加速度策略组合，通过对节气门开度及制动轮缸压力调整，实现对加速度策略的执行；并在下一时刻更新本车和周车的状态信息及道路信息，重复执行上述所有步骤，直至安全通过交叉路口或者车辆之间有效化解冲突而退出博弈，最后回到正常驾驶模式。

其中，非合作动态博弈交互决策模型包括：构建决策空间，包括四个收益指标，分别为：驾驶安全指标、平顺舒适指标、快速通行指标和周围空间指标；

根据所述四个收益指标及其权重系数构建总收益函数，并基于所述驾驶风格和约束条件，结合表格1中多车动态博弈模式类型的行动顺序生成动态博弈树；比如车辆的序号问题是根据交叉路口的支路来确定的，例如在1号支路上的领头车辆就是车辆1，即使此车已经驶离路口，其后面的车辆递补上来成为新的车辆1。至于根据支路来命名车辆序号，本公开实施例对此不做限定；选择一种统一的格式即可。

根据所述动态博弈树，求解得到子博弈精炼纳什均衡解。

具体地，根据车载传感器采集到的交叉路口附近车辆的状态信息，包括绝对位置坐标、速度矢量、航向角、加速度。根据采集到的信息预测将来车辆的行驶轨迹，各智能汽车行驶轨迹的交汇区域为潜在冲突区域。为了衡量车辆之间是否存在潜在冲突或冲突的严重程度，使用考虑了车辆外形参数和车道宽度的滚动更新通行时间差T_Δ,ij(t)来进行评估，T_Δ,ij(t)的计算公式如下：

其中，T_Δ,ij(t)表示t时刻车辆i,j的通行时间差，L_i(t)和L_j(t)分别表示t时刻从车辆i,j的位置到潜在冲突区域的距离，v_i(t)和v_j(t)分别表示t时刻车辆i,j的速度,l_i和l_j分别表示车辆i,j的长度，w表示车道宽度。

博弈模式是实时变化的，不断地有车辆加入和退出博弈。根据上述公式(1)，每个阶段博弈开始都要重新计算任意两车之间的通行时间差并与阈值T_M进行比较。

如果车辆i、j之间的通行时间差小于阈值，即T_Δ,ij≤T_M，那么

表示车辆i、j之间存在潜在冲突且存在路权博弈的需要；否则T_Δ,ij>T_M，

表示车辆i、j之间不存在潜在冲突且不存在路权博弈的需要。制定表格1如下，考虑了任意车辆是否已经通过了路口区域，结合任意两车之间通行时间差的标准化值

来判断是否每辆车都存在参与到路权博弈交互决策中的需要，从而确定多车动态博弈的类型及其序贯行动顺序，实现博弈模式的实时动态切换。

表格1多车动态博弈模式类型与切换规则

所有车辆均驶离冲突区域
	博弈控制器：正常模式

所有参与到博弈交互过程的车辆按照逆时针方向确定动态博弈的行动顺序。当某辆车与其他车辆均不存在博弈交互，或者已经通过了路口区域，此时博弈控制器执行正常的驾驶模式，此车保持当前的速度匀速行驶，所获得的博弈收益为0。如表格1所示，如当四条支路的车辆都驶向冲突区域，即没有车辆已经离开冲突区域，当

且

时，博弈控制器

表示按照车辆1、车辆2、车辆3、车辆4的序贯顺序进行动态博弈；如四条支路上有一辆车已驶离冲突区域，在车辆1驶离冲突区域的情况下，当

且

时，博弈控制器

表示只有车辆2和车辆3进行路权博弈交互且按照车辆2先行动车辆3后行动的序贯顺序，尽管车辆4未驶离冲突区域但也未参与到此路权博弈交互中；其他博弈模式的含义同理可以解释。表格1中，特殊地，对于

和

类型的博弈模式，以前者为例，表示车辆1和车辆2之间单独进行博弈交互且按照车辆1先行动车辆2后行动的序贯顺序进行两车动态博弈，车辆3和车辆4之间单独进行博弈交互且按照车辆3先行动车辆4后行动的序贯顺序进行两车动态博弈，车辆1与车辆4之间、车辆2与车辆3之间不进行路权博弈交互。表格还列举了当任意两辆车已经驶离冲突区域时，博弈控制器可以切换的模式。最后，当任意三辆车驶离冲突区域，或者所有车辆均驶离冲突区域时，不需要再进行路权博弈交互，所有车辆回归正常的行驶模式。

在每个阶段博弈的开始都要对任意两车之间是否存在潜在冲突进行判断，以决定有哪些车辆参与到路权的博弈交互中。

为了产生合理的路权交互决策逻辑，精细化设计了四个收益指标，指标S定义了参与车辆在博弈中的安全收益(驾驶安全指标)，指标J定义了平顺收益(平顺舒适指标)，指标T定义了快速通行收益(快速通行指标)，指标D定义了空间收益(周围空间指标)。

安全指标

衡量是否存在潜在冲突或冲突的严重程度，它模拟了人类驾驶员对车辆交叉行驶过程的安全的认知，将驾驶风格和心理安全预期结合起来。在第r个阶段博弈中车辆i的安全指标定义为：

其中，

分别为在第r个阶段博弈开始车辆i,j的速度，

分别为在第r个阶段博弈开始车辆i,j到二者潜在冲突区域的距离，q_i反映车辆i的驾驶风格，ΔT(q_i)为车辆i的心理安全预期。

分别表示车辆i与其存在潜在冲突的车辆j,k在采取各自策略下的通行时间差与车辆i心理安全预期的比值，它们的最小值记为

即为车辆i在阶段博弈r中的安全指标

为了避免频繁的加减速带来的不良驾驶体验，考虑了所有历史的阶段博弈过程。将历史阶段博弈的加速度策略和当前阶段博弈中可能采取的加速度的整体方差，作为平顺舒适指标

在第r个阶段博弈中车辆i的平顺指标定义为：

其中，

表示车辆i在所有历史的前r-1个阶段博弈中所采取的最优行动，m∈[1,r-1]。

车辆i在第r个阶段博弈中采取策略

时，在此阶段博弈过程中实际行驶的距离与阶段博弈开始时速度的比值[x_i(t^r+1)-x_i(t^r)]/v_i(t^r)记为期望时间。每个阶段博弈的时间周期T和期望时间之间的差值作为快速通行指标

在第r个阶段博弈中车辆i的快速通行指标定义为：

T＝t^r+1-t^r＝t^r-t^r-1 (5.5)

其中，x_i(t^r+1)表示车辆i在第r个阶段博弈采取策略

在第r个阶段博弈中，车辆i和车辆j在从各自博弈策略集采取动作序列后可能到达的预期位置之间距离的对数函数值

用来衡量驾驶过程中对周围行驶空间的要求。在第r个阶段博弈中车辆i的周围空间指标定义为：

其中，(x_i(t^r+1),y_i(t^r+1)),(x_j(t^r+1),y_j(t^r+1))为车辆i,j在第r个阶段博弈分别采用策略

后，在此阶段博弈结束时即第r+1个阶段博弈开始时车辆i,j可能达到的预期位置。预期位置是每辆车在各自博弈策略集中采取某一具体行动的函数，即

分别表示车辆i与其存在潜在冲突的车辆j,k在采取各自策略下关于预期位置车间距离的对数函数，它们的最小值定义为车辆i在驾驶过程中的周围空间指标，记为

在第r个阶段博弈中车辆i的总收益函数建立如下，综合考虑了人的驾驶过程中的各项需求。不同的驾驶风格对各项需求有不同的权重系数，加速度是决策参数，决定其行为方式，其他参数保证决策的合理性，确保车辆可自然地与道路环境融合。

α+β+γ+δ＝1 (7.3)

i＝i,j,k……for all players (7.4)

其中，α,β,γ,δ分别表示不同驾驶风格的智能汽车对驾驶安全、平顺舒适、快速通行和周围空间需求的权重系数。同时，还应满足运动学约束和急动度约束。a_min,a_max分别表示车辆的最小加速度和最大加速度，v_min表示车辆的最小速度，v_max表示道路限速条件，j_max为车辆行驶的急动度约束。a_i(t^r-1),a_i(t^r)分别表示在第r-1阶段和第r阶段博弈中，车辆i采取的最优加速度策略和拟采取的加速度策略。t^r-1,t^r分别表示第r-1阶段和第r阶段博弈中采取行动的时刻。对所有参与博弈交互的车辆，均应满足以上条件。

不同量纲指标的收益需要进行同趋化和归一化处理。下式中

是第r阶段博弈中车辆i的

指标收益的归一化结果。

其中，μ和σ分别是车辆i从第1到第r-1的历史阶段博弈的

指标收益和当前第r阶段博弈采取其博弈策略集中的某一行动带来的

指标收益的均值和标准差。

对于博弈G＝{Γ₁,Γ₂,Γ₃…Γ_N；U₁,U₂,U₃…U_N}，策略组合

如果对每一个参与车辆i，

是给定其他参与车辆选择

的情况下参与车辆i的最优策略，即

则称该策略组合为一个纳什均衡。

本发明所提出的非合作动态博弈交互决策方法中，每个理性参与车辆在博弈交互过程中都以自身收益最大化为目标。动态博弈首先行动的车辆基于对后行动车辆可能采取的行动的预测来选择自己的行动，如公式(9.1)(9.2)。中间行动的车辆选择自己的行动在比它先行动的车辆已采取行动的基础上，结合对比它后行动的车辆可能采取行动的预测，如公式(9.3)(9.4)。最后行动的车辆N在前N-1个车辆已采取行动的基础上选择自己的行动，如公式(9.5)。

……

其中，U_i是参与车辆i总的收益函数。

表示参与车辆i在先行动车辆已采取策略组合(*)的基础上对跟随车辆j行动的预测。

是参与车辆i采取当前阶段博弈中自身的最优策略，a_i是参与车辆i采取自身策略集中的任意策略。Γ₁,Γ₂,Γ₃…Γ_N是参与车辆1,2,3…N的策略集，

是已知参与车辆1采取策略

条件下参与车辆2的最优均衡行动，

是已知参与车辆1、2采取策略

的条件下参与车辆3的最优均衡行动，

是已知参与车辆1、2、3…N-1采取策略

的条件下参与车辆N的最优均衡行动。

上述过程可以由图3所示的动态博弈树展开，包括参与车辆、信息集、行动序列和收益矩阵。

本发明通过逆向归纳法求解非合作动态博弈的子博弈精炼纳什均衡。从博弈树末端信息集推到博弈开始时信息集，对于有限个参与车辆的动态博弈可以达到博弈的终止节点，依次删去每个信息集中作为劣势策略的行动。子博弈精炼纳什均衡剔除了不可置信的威胁，在每一个子博弈中都是纳什均衡。如图4所示，随着动态博弈的滚动进行，依次得到每个阶段博弈的子博弈精炼纳什均衡(SPNE)，即所有参与路权博弈交互决策的智能汽车在每个阶段博弈过程中应采取的最优行动组合。

所有的阶段博弈得到的子博弈精炼纳什均衡是离散的，本发明对每辆智能汽车采取的离散最优行动进行三次样条插值处理，使得控制量通过所有的子博弈精炼纳什均衡点且连续变化，插值函数是低阶连续的，满足一阶、二阶可微，可以避免高次多项式插值可能造成的龙格现象。

步骤S14中，执行过程应满足如下约束条件：

a_min≤a_Veh.auto≤a_max (10.1)

v_min≤v_Veh.auto≤v_max (10.2)

其中，a_Veh.auto、v_Veh.auto分别为智能汽车决策执行的加速度与速度；a_min、a_max分别为最小、最大加速度，与整车质量、道路条件、轮胎结构、制动器制动力、路面附着系数等因素有关；v_min、v_max分别为最小速度、道路限速，与交叉路口条件等道路信息有关。

步骤S15中，在t+1时刻更新智能汽车和周围车辆的状态信息，以及道路信息，以进行新一轮的滚动博弈交互决策。重复执行上述所有步骤，直至智能汽车安全通过交叉路口或者车辆之间有效化解冲突而退出博弈。

所有车辆都是加载有本发明的博弈交互决策通行方法的智能汽车，求解出来的子博弈精炼纳什均衡解是把所有参与此阶段博弈的车辆的策略一起求出来的，即各车在t时刻应执行的加速度。

本发明实施例中，如图5是本发明对应的一种无信号灯交叉路口情况，对于路权的博弈交互决策存在于每条支路的领头车辆之间。如图5中椭圆形区域内，四条支路上领头车辆依次编号为车辆1、车辆2、车辆3、车辆4，他们都是基于本发明博弈交互决策安全通行方法控制器的智能汽车。车辆之间通过V2V***或车载摄像头和激光雷达等传感器感知并交换他们的状态参数和驾驶风格。四条支路上的智能汽车直线行驶，他们未来行驶轨迹之间存在交叉区域，形成如图6所示四个小区域，最外侧的正方形区域即为潜在冲突区域，车辆1和车辆2关于右下角区域的通行权展开博弈，车辆1和车辆4关于左下角区域的通行权展开博弈，其他车辆之间同理。车辆1～4的坐标位置为(x₁,y₁),(x₂,y₂),(x₃,y₃),(x₄,y₄)，行驶速度分别为v₁,v₂,v₃,v₄，加速度分别为a₁,a₂,a₃,a₄。车辆1～4到冲突区域的距离分别为L₁,L₂,L₃,L₄。

基于同一发明构思，本发明实施例还提供了一种可变博弈模式的智能车交互决策通行***，由于该***所解决问题的原理与前述方法相似，因此该***的实施可以参见前述方法的实施，重复之处不再赘述。

第二方面，本发明还提供一种可变博弈模式的智能车交互决策通行***，参照图7所示，包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种可变博弈模式的智能车交互决策通行方法，其特征在于，包括：

在t+1时刻更新自身车辆和周围车辆的状态信息、以及道路信息，重复执行上述所有步骤，直至安全通过交叉路口或者车辆之间有效化解冲突而退出博弈；

其中，根据非合作动态博弈交互决策模型，通过求解每个阶段博弈的子博弈精炼纳什均衡，包括：

根据所述动态博弈树，求解得到子博弈精炼纳什均衡解。

2.如权利要求1所述的一种可变博弈模式的智能车交互决策通行方法，其特征在于，所述潜在冲突的判断过程，包括：

3.如权利要求2所述的一种可变博弈模式的智能车交互决策通行方法，其特征在于，判断t时刻参与到路权博弈交互中的车辆及数量，实时切换多智能体汽车博弈模式，包括：

根据任意两车之间通行时间差的标准化值

判断是否每辆车存在参与到路权博弈交互决策中的需要；

4.如权利要求1所述的一种可变博弈模式的智能车交互决策通行方法，其特征在于，所述驾驶安全指标表示：用于衡量是否存在潜在冲突或冲突的严重程度，模拟了人类驾驶员对车辆交叉行驶过程的安全的认知，将驾驶风格和心理安全预期结合起来；

所述快速通行指标表示：车辆i在第r个阶段博弈中采取策略

用来衡量驾驶过程中对周围行驶空间的要求。

5.如权利要求4所述的一种可变博弈模式的智能车交互决策通行方法，其特征在于，在第r个阶段博弈中车辆i的所述驾驶安全指标定义为：

其中，

分别为在第r个阶段博弈开始车辆i,j的速度，

即为车辆i在阶段博弈r中的安全指标

6.如权利要求4所述的一种可变博弈模式的智能车交互决策通行方法，其特征在于，在第r个阶段博弈中车辆i的所述平顺舒适指标定义为：

其中，

7.如权利要求4所述的一种可变博弈模式的智能车交互决策通行方法，其特征在于，第r个阶段博弈中车辆i的快速通行指标定义为：

T＝t^r+1-t^r＝t^r-t^r-1 (5.5)

其中，x_i(t^r+1)表示车辆i在第r个阶段博弈采取策略

8.如权利要求4所述的一种可变博弈模式的智能车交互决策通行方法，其特征在于，在第r个阶段博弈中车辆i的周围空间指标定义为：

9.一种可变博弈模式的智能车交互决策通行***，其特征在于，包括：

决策模块，用于根据非合作动态博弈交互决策模型，通过求解每个阶段博弈的子博弈精炼纳什均衡，推理决策所述自身车辆在t时刻应执行的加速度；其中，根据非合作动态博弈交互决策模型，通过求解每个阶段博弈的子博弈精炼纳什均衡，包括：构建决策空间，包括四个收益指标，分别为：驾驶安全指标、平顺舒适指标、快速通行指标和周围空间指标；根据所述四个收益指标及其权重系数构建总收益函数，并基于所述驾驶风格和约束条件，生成动态博弈树；根据所述动态博弈树，求解得到子博弈精炼纳什均衡解；