CN112907967B

CN112907967B - 一种基于不完全信息博弈的智能车换道决策方法

Info

Publication number: CN112907967B
Application number: CN202110134918.5A
Authority: CN
Inventors: 赵海艳; 刘万; 陈伟轩; 靳英豪; 王金鹏
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-06-10
Anticipated expiration: 2041-01-29
Also published as: CN112907967A

Abstract

本发明公开了一种基于不完全信息博弈的智能车换道决策方法，首先在时间和空间上，对智能车换道意图和换道可行性进行建模；然后根据换道车辆及其周车的状态信息来建立收益矩阵；收益矩阵的求解采用博弈论中的帕累托最优和纳什均衡进行求解；为了解决不完全信息非合作动态博弈的行为信息未知问题，换道车辆对具有博弈冲突的车辆进行速度及加速度的纵向行为预测，所采用的方法是NARX神经网络模型；换道车辆的周车通过连续隐马尔科夫模型预测换道车辆的横向运动。博弈参与者通过预测他车未来的行为趋势来对收益矩阵的决策进行修正，在决策达到执行的阈值时执行。

Description

一种基于不完全信息博弈的智能车换道决策方法

技术领域

本发明涉及智能驾驶领域，具体涉及一种基于不完全信息博弈的智能车换道决策方法。

背景技术

为了把人们从大量的驾驶时间以及复杂的交通中解放出来，提高车辆的通行率，减少事故的发生，智能车的研究逐渐深入。旨在设计智能控制驾驶***，代替人类驾驶汽车在交通环境中行驶，解决复杂的车辆行驶决策、规划和控制问题。智能车通常包含主控模块、决策与规划模块、环境感知模块和车辆控制模块，其中决策与规划模块作为智能车的核心模块尤为重要。

换道决策作为车辆核心行为决策之一，对驾驶的安全及通行的效率起着重要的作用。数据统计，由于车道变换所引起的交通事故占汽车总事故的4％～10％，并且导致了10％的道路堵塞问题。而在所有换道事故中，大约有75％的交通事故是由于驾驶员对于换道决策的判断失误而发生的，因此有必要提高车辆换道决策的安全性和高效性。

车道变换行为是驾驶员根据周围路况及周围车辆信息，以追求某种利益动机为目标，来调整车辆在交通中的位置，所采取的综合决策行为之一。根据换道意图的不同，车道变换通常可以分为强制性换道和任意性换道。一般有以下几种换道决策模型：基于规则的模型，以一系列固定规则确定是否采取换道行为，例如基于Gipps模型；基于离散选择的模型，依赖于逻辑或者概率模型来分析描述换道行为，换道行为的执行以概率来表示；基于人工智能模型，利用一系列人工智能算法来对换道行为进行建构分析，例如基于模糊的模型和人工神经网络模型；基于激励的模型，通常选择最大的收益来决定是否采取换道行为。

上述方法通常只关注于换道车辆，而没有充分考虑对周围车辆的影响，忽视了换道过程中的交互行为。在实际换道中，换道车辆与周围车辆的决策会相互影响，仅仅站在换道车辆的立场来考虑换道过程是不够的。基于博弈论的换道决策能考虑到与周车的交互，但是决策往往都是以V2X实现信息交互为前提，在信息不通信的情况下难以实现交互性的决策。同时，换道决策过程的时长会影响换道的安全性：换道越犹豫，初始决策的可行性变化就会越大；换道决策过程越短，换道考虑的环境动态变化信息就越少，容易错失最佳换道时机或者误判换道时机。

发明内容

为了解决上述现有技术存在的问题，本发明提出了一种基于不完全信息博弈的智能车换道决策方法，旨在引入不完全信息非合作动态博弈来制定换道决策，为了保证在信息不可通信情况下的交互性以及提高换道的可靠性和高效性，对不同车辆分别采用横向、纵向预测来弥补信息不可通信的问题，利用预测结果对决策进行修正，提高决策的可靠，减短决策过程，从而既保证了信息在不可通信情况下的交互性，又利用预测提高了决策的可靠性。

为实现上述目的，本发明采用的技术方案如下：

一种基于不完全信息博弈的智能车换道决策方法，其特征在于，包括以下步骤：

步骤一、产生换道意图：采集换道车辆及其周围车辆和环境信息，引入期望车速与期望间距的量化指标，当期望车速或期望间距超出阈值时，则换道车辆产生换道意图；

步骤二、判断换道的可行性：在车辆产生换道意图之后，判断换道车辆与目标车道前后车是否满足换道安全距离，进而判断换道的可行性；

步骤三、建立博弈收益矩阵：建立换道车辆CV与目标车道后车RV的非合作博弈的收益矩阵，该收益矩阵由速度收益、相对时距收益、期望跟车距离收益进行加权组合建立；

步骤四、求解收益矩阵：收益矩阵的全局帕累托最优解为换道策略最优解；以纳什均衡解作为换道策略次优解；若上述解都没有，则继续保持原策略解；

步骤五、对车辆状态进行更新：换道车辆在步骤四求解出当前换道策略解后，执行该策略过程中，通过换道轨迹及纵向轨迹对车辆状态信息进行更新；

步骤六、通过识别他车信息，对他车行为进行预测：针对换道车辆CV，采用NARX神经网络对目标车道后车RV纵向行为进行预测；针对目标车道后车RV，采用连续隐马尔可夫模型对换道车辆CV横向运动进行预测；

步骤七、利用步骤六的预测结果对步骤四的决策进行修正：换道车辆CV及目标车道车辆RV根据步骤六中对他车行为预测结果获得修正概率，对换道决策的执行概率进行修正；

步骤八、循环执行动态博弈决策：换道执行概率没有达到执行阈值时，换道车辆不执行换道，循环执行步骤四至步骤七，重新计算收益矩阵获得换道策略解，并对换道决策的换道执行概率进行修正，直到换道执行概率达到执行阈值或者换道意图消失。

与现有技术相比，本发明的积极效果是：

1.本发明针对换道车辆与目标车道车辆的竞争博弈行为，采用不完全信息非合作动态博弈的框架对换道过程中的交互行为进行深度建模分析。考虑了车辆在不可通信的情况下的交互性决策的制定方法，更加符合实际情况。

2.本发明对于收益矩阵的计算采用了改进的指标，从时间、空间及车速上充分考虑车辆的各项行为收益。在求解上以全局帕累托最优解为优先解，以纳什均衡解为次优解，在上述解都没有的情况下保持原策略解。在博弈中考虑了整体博弈***的收益与各自收益的均衡解，更加符合人类博弈的心理。

3.本发明利用NARX神经网络模型对速度、加速度进行预测，将其作为表征车辆纵向行为的指标，利用了历史数据，提高预测的精确度。利用CHMM进行横向运动识别，用GMM来表示输出观测概率，对换道的行为概率进行量化。

4.在不完全信息的博弈框架下，车辆间不可通信，而本发明正是利用预测来弥补信息的不可获取，使决策包含更多的动态信息，使换道更快更可靠的执行。采用修正的方式，还可以加快决策过程，减少博弈回合，减少计算量。

附图说明

下面将通过附图及公式对本发明的具体实施方案作进一步阐述，其中：

图1是基于速度预测和博弈论的换道决策流程图；

图2是车辆换道场景示意图；

图3是换道决策详细流程图；

图4是NARX神经网络结构图；

图5是不同初始条件下的收益矩阵三维图；

图6是不同车速下的换道轨迹图

图7是速度预测及误差图

图8是加速度预测及误差图

图9是左换道预测结果图

图10是右换道预测结果图

具体实施方式

本发明的目的是在车辆信息不可通信的情况下，提供一种换道车辆与目标车道车辆博弈冲突时的决策方法。下面将结合附图和公式对本发明实施过程中所涉及的理论知识、适用场景及优势特点进一步详细阐述。

实施例

如图1所示，一种基于不完全信息博弈的智能车换道决策方法，根据实施步骤依次详细阐释：

一、产生换道意图：通过采集周围车辆及环境信息，在行驶空间达到容忍阈值时或者期望速度达到不满意度阈值时产生换道意图，以追求更大的行驶空间或者行车速度。

在实际行驶中，换道意图产生的情况复杂多样，但是往往都是从跟车距离、跟车速度、行驶空间来决定是否换道。本发明适用于最为常见的任意性换道，针对如图2的换道场景，换道车辆CV通常不会考虑同车道跟随车辆的行为，而会着重考虑目标车道后车RV、目标车道前车FV以及同车道前车PV对其的行车影响。若换道车辆CV期望更高车速，在前车慢速情况下会产生换道意图；若换道车辆CV保持在期望车速附近，但是与前车跟车距离无法保证安全性，也会产生换道意图。由此引入期望车速与期望间距的量化指标：

其中，VS(k)为当前步长的期望速度不满意度量化指标；V_des为车辆期望车速；V为车辆实际车速；T_s为采样时间；d0_min为换道车辆CV与同车道前车PV的最小安全跟车距离；v_CV和v_PV分别为换道车辆CV与同车道前车PV的车速；τ_reaction为驾驶员和车辆制动***的反应时间总和；a_CVdec为换道车辆CV的最大减速度；τ_safe为最小安全跟车时间。公式(1)为期望车速的量化指标，公式(2)为期望间距的最小值，若以下条件满足之一：

则产生换道意图，即欲通过换道决策实现更大的行驶速度或跟车距离。

二、判断换道可行性：在车辆产生换道意图之后，需要对环境车道进行判断，筛选出在空间距离或者换道时间上满足换道安全性的邻车道，作为换道的目标车道。

如图2所示，换道可行性即判断d1和d2是否满足换道安全性，如果不满足换道安全，则表明当前目标车车道无法保证换道的安全执行，车辆保留换道意图，但不执行换道策略。判断换道可行性主要考虑换道间隙，具体计算公式如下：

其中，d1_min为换道车辆CV与目标车道后车RV之间的最小换道安全距离；d2_min为换道车辆CV与目标车道前车FV之间的最小换道安全距离；只有满足式(4)、(5)才能保证换道车辆CV换道的安全性。

三、收益矩阵计算：根据相对车速，相对时距，期望跟车距离与实际跟车距离比值的加权组合值来计算非合作博弈的收益矩阵，既考虑了行车的安全性和通行能力，也考虑了行车的时间、空间优势。

收益矩阵由参与博弈的车辆行为组合构成，如图2所示，换道车辆CV与目标车道后车RV的竞争最为强烈，直接表征整个换道的行为。换道车辆CV行为集为：{换道，不换道}，目标车道后车RV行为集为：{加速，减速}，由此构成如下收益矩阵形式：

表1收益矩阵形式

其中，P代表换道车辆CV的收益，Q代表目标车道后车RV的收益，各自的两种行为组成四种策略组合。p记为换道车辆CV换道概率，则(1-p)记为不换道概率；q记为目标车道后车RV减速概率，(1-q)记为加速概率。策略组合只表示一种策略趋势，由策略执行概率值对其进行执行程度刻画。其中，P、Q的计算包含三部分：

(1)速度收益

速度作为行车的重要特征，前车相对车速越大，自己跟车就越安全，行驶空间也会越来越大，提出如下指标：

其中，Part1为速度收益部分，作为总收益的第一部分，v_front为车辆前车的车速，v_self为自车车速。定性分析为：希望前车比自车相对车速越大越好，行车更为安全，所以选择自车车速作为分母。

(2)相对时距收益

从时间上来看，希望车辆相对时距越长越好，即通过同一个点的间隔越长，碰撞的风险越小，提出如下指标：

其中，Part2为碰撞时距，作为总收益第二部分，v_RV和v_CV分别为RV和CV车速，d1为CV和RV的纵向间距，dc为换道车辆的换道纵向距离，其计算公式在换道轨迹部分说明。

(3)期望跟车距离收益

在换道过程中，车辆希望与前车保持在一个合理的间距下，过小容易造成安全问题，过大会给周围车辆超车的机会，选取如下指标：

其中，Part3为期望跟车距离收益，作为总收益的第三部分y_front和y_rear分别为前后两辆车纵向间距，d_gap为车辆之间的间距，d_des为车辆期望间距，其计算方式如下：

d_des＝0.0029*(v*3.6)²+0.3049*(v*3.6)+d_min (9)

式中，v表示车辆车速，d_des为所求的期望跟车间距，d_min为静止最小安全距离。

(4)总的收益矩阵计算

总的收益包含上述三项重要指标，通过组合和加权来决定总的收益矩阵，收益矩阵中四个组合，八项收益的计算方式如下：

其中，α，β，γ为加权系数。d_CVdes,d_RVdes分别为CV和RV的期望跟车距离。第一项收益的计算会根据策略组合不同，而获得不同的领头车辆；第二项收益的处理较为复杂，在第三个策略组合{不换道，减速}中，车辆行为没有冲突，所以P₂₁,Q₂₁均没有相对时距这一项收益，而在其他组合分别作为该车辆是否赢得路权而取正负号。第三项根据RV和CV的不同速度确定期望跟车距离。

如图5所示，给出了不同初值下收益矩阵的三维图，在RV纵向位移0m，车速30m/s；FV纵向位移110m，车速33m/s；PV纵向位移110m，车速25m/s的初始换道场景下，LV在纵向位移0-60m，车速25-35m/s的不同初始条件下，收益矩阵八个值的三维结果图。从图中可以看出随着LV不同车速及纵向位移不同，整个决策收益变化符合实际。

四、收益矩阵求解

对于博弈矩阵的求解，主要涉及到帕累托最优、纳什均衡两个概念，下面先介绍纳什均衡：

定义：在博弈G＝{S₁,…,S_n；u₁,…,u_n}中，有n个博弈方，其行为集为S，收益为u，每个博弈参与者的策略组成一个策略组合

中，任意一个博弈方i的策略

都是对其余策略组合

的最佳应对策略，即：

对任意s_q∈S_i都成立，则称

为博弈G的一个纳什均衡(NashEquilibrium)。

纳什均衡解并不是唯一的，它只是针对一个博弈方改变策略无法使收益更好的情况，即不包括多个人改变策略的情况。纳什均衡解可能存在多个解，此时选择给所有博弈方带来的利益都大于其他所有纳什均衡会带来的利益的解，这时的解称为帕累托解，是一种全局最优解，如果不存在帕累托最优解，则选择使博弈方收益总和最大的纳什均衡解，如果不存在纳什均衡解，则沿用上一步的最优解。

五、对车辆状态进行更新

在执行决策的时候，是一个动态博弈的过程，车辆的状态会实时更新，然后根据新的状态信息进行新的决策，以完成整个决策过程。状态更新采用如下模型：

(1)换道轨迹

换道车辆在换道时的车速往往变化不太大，在横向上采用一种X-Sin函数对换道轨迹进行建模描述：

其中，x,y分别表示纵向、横向位移，d表示车道宽，L表示换道纵向总距离，a_max为横向最大加速度，v表示换道车辆车速。该模型中换道车辆车速作为变量，决定换道纵向距离，然后将参数带入X-Sin换道模型中，可以获得换道轨迹。图6显示了在车道3.5m宽，车速分别在18-33m/s下的换道轨迹图，由图可知，车速越大，换道轨迹越长，轨迹越平滑，来满足车辆换道的安全性。

(9)纵向轨迹

车辆在纵向行驶时，往往只需考虑跟车安全性，所以选择基于加速度的智能驾驶员模型(Intelligent Driver Model，IDM)，该模型能很好的描述车辆从自由流到拥堵流的变化，充分考虑了纵向道路上邻近车辆的车速，车距等信息，其模型表达如下：

其中，公式下标n表示车辆编号，

是该车辆最大的加速度，b_n是加速状态下期望的减速度，

是车辆在自由流下的期望速度，δ为车辆加速度指数，Δv_n＝v_n-v_n-1是车辆n与前车的速度差，s_n＝x_n-1-x_n-l_n-1为车辆间距，x，l分别为车辆纵向位置和车辆长度，

为静止最小安全距离，T_n为反应时间。

六、通过识别他车信息，来弥补信息不可通信的问题

换道行为参与者均无法获取他车行为信息，也不可控制他车，但是可以通过预测来弥补非完全信息博弈的不足来使决策更加可靠。CV作为换道车辆，最为关注RV的纵向行为，采用NARX神经网络对RV纵向行为预测，结构图如图4，该网络由输入层、隐藏层、输出层构成，其特点在于：输入序列具有明确的时间信息；其延迟单元起着至关重要作用，表明历史数据对预测数据的影响，n和m代表输入、输出延迟的步长，与BP静态神经网络相比，网络增加了从输出经过延迟到输入的反馈连接，使预测更为准确。选择特征数据速度和加速度{v,a}作为一个步长的数据。其数学模型为：

如图7和图8，对车辆速度和加速度的预测基本吻合实际曲线，误差因为实际数据的偏差而产生正常范围内的波动。

RV作为换道冲突车辆，其最为关注CV的横向运动，直接影响其决策的制定。RV采用CHMM来对CV的横向运动进行预测。分别选择S＝{左换道，右换道，车道保持}三种行为作为隐变量可能状态，选择车辆相对车道中心线的侧向偏移和侧向偏移速度作为观测变量，即：

给定观测序列Ο＝Ο₁Ο₂…Ο_T，计算在各个时刻t车辆的状态取值S＝{左换道，右换道，车道保持}的概率分布，即：

Γ_t(i)＝p(q_t＝s_i|Ο,λ),i∈[1,N],t∈[1,T] (18)

其中，N＝3，λ表示给定的模型，p表示概率，Γ_t(i)表示t时刻第i个状态值的概率。关于隐马尔科夫的求解，通常可以根据贝叶斯公式展开，利用前向后向算法，递归解出前向变量和后向变量，从而获得行为的概率。

图9和图10分别给出了左换道和右换道的识别结果，在观测量侧向位移及侧向速度一定变化的时候，就可以推测出隐变量的概率，即车辆是否换道的概率。

七、通过预测结果对决策进行修正

在前面，定义换道车辆CV换道概率为p，(1-p)为不换道概率；RV加速概率为q，(1-q)为减速概率，并且能获得每种决策的收益。同时根据收益矩阵会获得最优的决策。结合上面两个信息，可以计算收益矩阵获得最优策略执行的概率p1*，q1*：

其中，P，Q为CV及RV的收益值，F为对应的转化关系式。同样的，换道车辆CV及目标车道车辆RV会根据对他车预测结果获得一个修正概率p2*，q2*：

最终的决策执行概率，由两部分加权组合而成，且在换道的执行概率达到换道决策阈值时，即满足(22)，执行换道，完成决策，公式表述如下：

p*≥p_thr (22)

其中，η，μ为权重系数。

八、动态博弈决策

在具有换道意图且换道间隙满足安全性的条件下，换道执行概率没有达到阈值时，换道车辆不执行换道，此时会保留数据信息，在下一步时重新计算收益矩阵获得最优解，并预测他车的行为对决策的换道执行概率进行修正，重复循环上述决策过程，直到达到换道概率执行阈值或者换道意图消失。

本发明设计了一种基于不完全信息博弈的智能车换道决策方法，其主要目的在于解决智能车换道博弈过程中无法获得信息的交互问题。着重考虑了在不完全信息非合作动态博弈框架下，通过NARX神经网络对周车纵向行为进行预测，判断其对换道车辆自身的影响。同时周车也会通过CHMM预测换道车辆的横向行为，二者会实时修正自身采取的行为策略概率，在信息不可获取的情况下通过预测产生交互影响。这样不仅弥补了信息不可获得的问题，提高了决策的可靠性，同时还加快决策过程，减少了决策所需的时间。

Claims

1.一种基于不完全信息博弈的智能车换道决策方法，其特征在于，包括以下步骤：

步骤四、求解收益矩阵：以全局帕累托最优解为换道策略最优解；以纳什均衡解作为换道策略次优解；若上述解都没有，则继续保持原策略解；

所述步骤五包括以下过程：

(1)换道轨迹

换道车辆在横向上采用X-Sin函数对换道轨迹进行建模描述：

其中，x,y分别表示纵向、横向位移，d表示车道宽，L表示换道纵向总距离，a_max为横向最大加速度，v表示换道车辆车速；

该换道轨迹模型中，换道车辆车速作为变量，决定换道纵向距离，然后将参数带入X-Sin换道模型中，可以获得换道轨迹；

(2)纵向轨迹

车辆在纵向行驶时，选择基于加速度的智能驾驶员模型：

其中，公式下标n表示车辆编号，

是该车辆最大的加速度，b_n是加速状态下期望的减速度，

为静止最小安全距离，T_n为反应时间；

2.如权利要求1所述的一种基于不完全信息博弈的智能车换道决策方法，其特征在于，所述步骤一包括以下过程：

引入期望车速与期望间距的量化指标：

其中，VS(k)为当前步长的期望车速不满意度量化指标；V_des为车辆期望车速；V为车辆实际车速；T_s为采样时间；d0_min为换道车辆CV与同车道前车PV的最小安全跟车距离；v_CV和v_PV分别为换道车辆CV与同车道前车PV的车速；τ_reaction为驾驶员和车辆制动***的反应时间总和；a_CVdec为换道车辆CV的最大减速度；τ_safe为最小安全跟车时间；

若满足以下条件之一：

VS(k)≥VS_thr

d0≤d0_min

3.如权利要求1所述的一种基于不完全信息博弈的智能车换道决策方法，其特征在于，所述步骤二包括以下过程：

需同时满足以下两个条件，才能保证换道车辆CV换道的安全性：

其中，d1_min为换道车辆CV与目标车道后车RV之间的最小换道安全距离；d2_min为换道车辆CV与目标车道前车FV之间的最小换道安全距离。

4.如权利要求1所述的一种基于不完全信息博弈的智能车换道决策方法，其特征在于，所述步骤三包括以下过程：

收益矩阵形式为：

其中，P代表换道车辆CV的收益，Q代表目标车道后车RV的收益，各自的两种行为组成四种策略组合；

P、Q的计算包含三部分：

(1)速度收益：

其中，Part1为速度收益部分，v_front为车辆前车的车速，v_self为自车车速；

(2)相对时距收益：

其中，Part2为碰撞时距，v_RV和v_CV分别为目标车道后车RV和换道车辆CV车速，d1为目标车道后车RV和换道车辆CV的纵向间距，dc为换道车辆的换道纵向距离；

(3)期望跟车距离收益：

其中，Part3为期望跟车距离收益，y_front和y_rear分别为前后两辆车纵向间距，d_gap为车辆之间的间距，d_des为车辆期望间距；

d_des＝0.0029*(v*3.6)²+0.3049*(v*3.6)+d_min

式中，v表示车辆车速，d_des为所求的期望跟车间距，d_min为静止最小安全距离；

(4)总的收益矩阵计算：

P₁₁＝α*Part1(v_FV,v_CV)+β*Part2(v_RV,v_CV)+γ*Part3(d_CVdes)

P₁₂＝α*Part1(v_FV,v_CV)-β*Part2(v_RV,v_CV)+γ*Part3(d_CVdes)

P₂₁＝α*Part1(v_PV,v_CV)+γ*Part3(d_CVdes)

P₂₂＝α*Part1(v_PV,v_CV)-β*Part2(v_RV,v_CV)+γ*Part3(d_CVdes)

Q₁₁＝α*Part1(v_CV,v_RV)-β*Part2(v_RV,v_CV)+γ*Part3(d_RVdes)

Q₁₂＝α*Part1(v_FV,v_RV)+β*Part2(v_RV,v_CV)+γ*Part3(d_RVdes)

Q₂₁＝α*Part1(v_CV,v_RV)+γ*Part3(d_CVdes)

Q₂₂＝α*Part1(v_FV,v_RV)-β*Part2(v_RV,v_CV)+γ*Part3(d_RVdes)

其中，α，β，γ为加权系数；d_CVdes,d_RVdes分别为CV和RV的期望跟车距离。

5.如权利要求1所述的一种基于不完全信息博弈的智能车换道决策方法，其特征在于，所述步骤六包括以下过程：

换道车辆CV关注目标车道后车RV的纵向行为，采用NARX神经网络对RV纵向行为预测，选择特征数据速度和加速度{v,a}作为一个步长的数据，其数学模型为：

out(t)＝f(out(t-1),out(t-2),…,out(t-m),

in₁(t-1),in₁(t-2),…,in₁(t-n),…,in_k(t-1),in_k(t-2),…,in_k(t-n))

目标车道后车RV作为换道冲突车辆，其关注换道车辆CV的横向运动，采用CHMM来对换道车辆CV的横向运动进行预测，分别选择S＝{左换道，右换道，车道保持}三种行为作为隐变量可能状态，选择车辆相对车道中心线的侧向偏移和侧向偏移速度作为观测变量，即：

给定观测序列O＝O₁O₂…O_T，计算在各个时刻t车辆的状态取值S＝{左换道，右换道，车道保持}的概率分布，即：

Γ_t(i)＝p(q_t＝s_i|O,λ),i∈[1,N],t∈[1,T]

其中，N＝3，λ表示给定的模型，p表示概率，Γ_t(i)表示t时刻第i个状态值的概率。

6.如权利要求1所述的一种基于不完全信息博弈的智能车换道决策方法，其特征在于，所述步骤七包括以下过程：

定义换道车辆CV换道概率为p，(1-p)为不换道概率；目标车道后车RV加速概率为q，(1-q)为减速概率，并且能获得每种决策的收益，同时根据收益矩阵会获得最优的决策；

计算收益矩阵获得最优策略执行的概率p1*，q1*：

p1*＝F₁(P,Q)

q1*＝F₂(P,Q)

其中，P，Q为换道车辆CV及目标车道后车RV的收益值，F为对应的转化关系式；

换道车辆CV及目标车道车辆RV会根据对他车预测结果获得一个修正概率p2*，q2*：

p2*＝F₂(in,out)

q2*＝F₂(in,out)

最终的决策执行概率，由两部分加权组合而成，且在换道的执行概率达到换道决策阈值时，执行换道，完成决策，公式表述如下：

p*(k)＝η·p1*(k-1)+μ·p2*(k-1)

q*(k)＝η·q1*(k-1)+μ·q2*(k-1)

p*≥p_thr

其中，η，μ为权重系数。