WO2023004698A1

WO2023004698A1 - 智能驾驶决策方法、车辆行驶控制方法、装置及车辆

Info

Publication number: WO2023004698A1
Application number: PCT/CN2021/109331
Authority: WO
Inventors: 戴正晨; 王志涛; 杨绍宇; 王新宇
Original assignee: 华为技术有限公司
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2023-02-02
Also published as: US20240166242A1; EP4360976A1; CN115943354A

Abstract

一种智能驾驶决策方法，涉及智能驾驶技术，首先，确定自车的博弈对象；然后，从自车与博弈对象的多个策略空间中，执行各策略空间的多次释放，根据已经释放的各策略空间确定自车与博弈对象的策略可行域，根据策略可行域确定自车行驶的决策结果，决策结果为自车的可执行的行为动作。通过多次释放策略空间，可以在保持决策精度的前提下，在尽量少释放策略空间的情况下得到决策结果，减少了计算量，降低了对硬件算力的需求。

Description

智能驾驶决策方法、车辆行驶控制方法、装置及车辆

技术领域

本申请涉及智能驾驶技术，特别涉及智能驾驶决策方法、车辆行驶控制方法、装置及车辆。

背景技术

随着人工智能技术的发展，自动驾驶技术正在逐渐广泛地被应用，从而降低了驾驶员的驾驶负担。关于自动驾驶，例如国际汽车工程师学会(SAE International，或称为国际自动机工程师学会)提出了5个等级，即L1-L5级，其中，L1级，辅助驾驶，能够帮助驾驶员完成某些驾驶任务，且只能帮助完成一项驾驶操作；L2级，部分自动化，可以同时自动进行加减速和转向的操作；L3级，条件自动化，车辆在特定环境中可以实现自动加减速和转向，不需要驾驶者的操作；L4级，高度自动化，可以实现驾驶全程不需要驾驶员，但是会有限制条件，例如限制车辆车速不能超过一定值，且驾驶区域相对固定；L5级，完全自动化，完全自适应驾驶，适应任何驾驶场景。这些等级越高，表示自动驾驶功能也越强大。

目前，针对L2级别以上、但需要人类驾驶员视情接管的自动驾驶技术，通常认为属于智能驾驶。车辆处于智能驾驶状态时，需要能够及时、准确地感知周围障碍物，例如对向来车、横穿车辆、静态车辆、行人等，就自身的行驶行为和行驶轨迹进行决策，例如加减速、变道等。

发明内容

本申请提供一种智能驾驶决策方法、车辆行驶控制方法、装置及车辆等，能够在保证决策精度的前提下，消耗尽量少的算力实现对自身行驶的决策。

本申请第一方面提供了一种智能驾驶决策方法，包括：获取自车的博弈对象；从自车与博弈对象的多个策略空间中，执行多个策略空间的多次释放，当多次释放中的一次释放执行后，根据已经释放的各策略空间确定自车与博弈对象的策略可行域，根据策略可行域确定自车行驶的决策结果。

其中，自车与非博弈对象的策略可行域包括自车相对于非博弈对象可执行的行为动作。由上，通过多个策略空间的多次释放，保证决策精度(决策精度可以例如为所决策的结果的执行概率)的前提下，以在释放尽量少的策略空间时得到策略可行域，从而从策略可行域中选取一行为动作对作为决策结果，实现了尽量减少策略空间的释放次数和运算，降低了对硬件算力的要求。

作为第一方面的一种可能的实现方式，多个策略空间的维度包括至少以下之一：纵向采样维度、横向采样维度、或时间采样维度。

以上，根据纵向采样维度、横向采样维度、或时间采样维度，张成多个策略空间。多个策略空间包括由自车和/或博弈对象的纵向采样维度张成的纵向采样策略空间、由自车和/或博弈对象的横向采样维度张成的横向采样策略空间、或由自车和/或博弈对象在时间采样维度张成的时间维度策略空间、或所述纵向采样维度、横向采样维度、或时间采样维度任意两两组合或三者组合构成的策略空间。其中，时间维度策略空间对应于在一步决策中包括的多个单帧推演中分别张成的策略空间，而每一个单帧推演中，张成的策略空间可以包括纵向采样策略空间和/或横向采样策略空间。

由上，可以根据交通场景在至少一个采样维度上张成相应的策略空间，以及进行策略空间的释放。

作为第一方面的一种可能的实现方式，执行多个策略空间的多次释放包括按照以下维度的顺序执行所述释放：纵向采样维度、横向采样维度、时间采样维度。

以上，依次按照释放纵向采样维度、释放横向采样维度、释放时间采样维度的顺序，多次释放的策略空间可以包括下述策略空间：

由自车的纵向采样维度的一组取值张成的纵向采样策略空间；由自车的纵向采样维度的另一组取值张成的纵向采样策略空间；由自车的纵向采样维度的一组取值及博弈对象的纵向采样维度的一组取值共同张成的纵向采样策略空间；由自车的纵向采样维度的另一组取值及博弈对象的纵向采样维度的一组取值共同张成的纵向采样策略空间；由自车的纵向采样维度的另一组取值及博弈对象的纵向采样维度的另一组取值共同张成的纵向采样策略空间；由自车的横向采样维度的一组取值张成的横向采样策略空间，与由自车的纵向采样维度和/或博弈对象的纵向采样维度共同张成的纵向采样策略空间共同张成的策略空间；由自车的横向采样维度的另一组取值张成的横向采样策略空间，与由自车的纵向采样维度和/或博弈对象的纵向采样维度共同张成的纵向采样策略空间共同张成的策略空间；由自车的横向采样维度的一组取值及博弈对象的横向维度的一组取值共同张成的横向采样策略空间，与由自车的纵向采样维度和/或博弈对象的纵向采样维度共同张成的纵向采样策略空间共同张成的策略空间；由自车的横向采样维度的另一组取值及博弈对象的横向采样维度的一组取值共同张成的横向采样策略空间，与由自车的纵向采样维度和/或博弈对象的纵向采样维度共同张成的纵向采样策略空间共同张成的策略空间；由自车的横向采样维度的另一组取值及博弈对象的横向采样维度的另一组取值共同张成的横向采样策略空间，与由自车的纵向采样维度和/或博弈对象的纵向采样维度共同张成的纵向采样策略空间共同张成的策略空间。以及，在根据已经释放的各策略空间确定自车与博弈对象的策略可行域，根据策略可行域确定自车行驶的决策结果之后，释放的时间维度策略空间，包括：在一步决策中包括的多个单帧推演中分别张成的策略空间，在每一个单帧推演中，张成的策略空间可以包括前述的各纵向采样策略空间、横向采样策略空间、及各纵向采样策略空间和各横向采样策略空间共同张成的策略空间。

由上，顺序执行多个策略空间释放，也即先纵向改变车辆的加速度，再横向调整车辆的偏移，更符合车辆驾驶习惯，以及利于驾驶安全要求。最后可根据时间维度上释放的多帧推演进一步从多个可行域中确定时间一致性更好的决策结果。

作为第一方面的一种可能的实现方式，确定自车与博弈对象的策略可行域时，策略可行域中的行为动作对的总代价值，根据以下之一或多个确定：自车或博弈对象的安全性代价值、路权代价值、横向偏移代价值、通过性代价值、舒适性代价值、帧间关联性代价值、风险区域代价值。

由上，可以根据需要选取一个或多个代价值，来计算总代价值，总代价值用于确定可行域。

作为第一方面的一种可能的实现方式，行为动作对的总代价值根据两个或两个以上的代价值进行确定时，各代价值具有不同的权重。

由上，该不同的权值可以分别着重关注行驶安全、路权、通过性、舒适性、风险性等。通过灵活设置各权值，增加了智能驾驶决策的灵活性。在一些可能的实现方式中，所述权重分配的大小可以按照如下分配：安全性权重>路权权重>横向偏移权重>通过性权重>舒适性权重>风险区域权重>帧间关联权重。

作为第一方面的一种可能的实现方式，博弈对象包括两个或两个以上时，自车行驶的决策结果根据自车与各博弈对象的各策略可行域确定。

由上，当有多个博弈对象时，通过分别获得的各个策略可行域，再根据各个策略可行域的交集确定最终的策略可行域。其中，这里的交集指均包括该自车的同一个动作的行为动作。

作为第一方面的一种可能的实现方式，还包括：获取自车的非博弈对象；确定出自车与非博弈对象的策略可行域；自车与非博弈对象的策略可行域包括自车相对于非博弈对象可执行的行为动作；至少根据自车与非博弈对象的策略可行域确定自车行驶的决策结果。

由上，当存在非博弈对象时，最终决策结果的获得要与非博弈对象有关。

作为第一方面的一种可能的实现方式，根据自车与各博弈对象的各策略可行域的交集确定自车行驶的决策结果的策略可行域，或根据自车与各博弈对象的各策略可行域以及自车与各非博弈对象的各策略可行域的交集确定自车行驶的决策结果的策略可行域。

由上，当存在自车与多个博弈对象时，可以通过自车与多个博弈对象的各策略可行域的交集获得最终的策略可行域及自车行驶的决策结果。当存在自车与多个博弈对象、非博弈对象时，则可以根据自车与多个博弈对象、非博弈对象的各策略可行域的交集获得最终的策略可行域及自车行驶的决策结果。

作为第一方面的一种可能的实现方式，还包括：获取自车的非博弈对象；根据非博弈对象的运动状态，约束与自车对应的纵向采样策略空间，或约束与自车对应的横向采样策略空间。

以上，约束与自车对应的纵向采样策略空间，也即约束张成纵向采样策略空间时所使用的在自车的纵向采样维度上的取值范围；约束与自车对应的横向采样策略空间，也即约束张成横向采样策略空间时所使用的在自车的横向采样维度上的取值范围。

由上，可以通过非博弈对象的运动状态，如位置、速度等，来约束张成的策略空间中自车的纵向加速度取值范围或横向偏移取值范围，降低了策略空间的行为动作数量量，可进一步减少运算量。

作为第一方面的一种可能的实现方式，还包括：获取自车的博弈对象的非博弈对象；根据非博弈对象的运动状态，约束与自车的博弈对象对应的纵向采样策略空间，或约束与自车的博弈对象对应的横向采样策略空间。

以上，约束与自车的博弈对象对应的纵向采样策略空间，也即约束张成纵向采样策略空间时所使用的在自车的博弈对象对应的纵向采样维度上的取值范围；约束与自车的博弈对象对应的横向采样策略空间，也即约束张成横向采样策略空间时所使用的在自车的博弈对象的横向采样维度上的取值范围。

由上，可以通过非博弈对象的运动状态，如位置、速度等，来约束张成的策略空间中自车博弈对象的纵向加速度取值范围或横向偏移取值范围，降低了策略空间的行为动作数量，可进一步减少运算量。

作为第一方面的一种可能的实现方式，交集为空集时，执行自车行驶的保守决策，保守决策包括使自车安全停车的动作，或，使自车安全减速行驶的动作。

由上，可以实现自车的策略可行域为空时，使得车辆能够安全行驶。

作为第一方面的一种可能的实现方式，博弈对象或非博弈对象，根据注意力方式进行确定。

由上，可以根据各障碍物对自车分配的注意力，来确定博弈对象、非博弈对象。该注意力方式可以是通过算法实现，也可以是神经网络推理实现。

作为第一方面的一种可能的实现方式，还包括：通过人机交互界面显示至少以下之一：自车行驶的决策结果、决策结果的策略可行域、自车行驶的决策结果对应的自车行驶轨迹、或自车行驶的决策结果对应的博弈对象的行驶轨迹。

由上，可以在人机交互界面以丰富的内容显示自车或博弈对应行驶的决策结果，与用户的交互更友好。。

本申请第二方面提供了一种智能驾驶决策装置，包括：获取模块，用于获取自车的博弈对象；处理模块，用于从自车与博弈对象的多个策略空间中，执行多个策略空间的多次释放，当多次释放中的一次释放执行后，根据已经释放的各策略空间确定自车与博弈对象的策略可行域，根据策略可行域确定自车行驶的决策结果。

作为第二方面的一种可能的实现方式，多个策略空间的维度包括至少以下之一：纵向采样维度、横向采样维度、或时间采样维度。

作为第二方面的一种可能的实现方式，执行多个策略空间的多次释放包括按照以下维度的顺序执行所述释放：纵向采样维度、横向采样维度、时间采样维度。

作为第二方面的一种可能的实现方式，确定自车与博弈对象的策略可行域时，策略可行域中的行为动作对的总代价值，根据以下之一或多个确定：自车或博弈对象的安全性代价值、路权代价值、横向偏移代价值、通过性代价值、舒适性代价值、帧间关联性代价值、风险区域代价值。

作为第二方面的一种可能的实现方式，行为动作对的总代价值根据两个或两个以上的代价值进行确定时，各代价值具有不同的权重。

作为第二方面的一种可能的实现方式，博弈对象包括两个或两个以上时，自车行驶的决策结果根据自车与各博弈对象的各策略可行域确定。

作为第二方面的一种可能的实现方式，获取模块还用于获取自车的非博弈对象；处理模块还用于确定出自车与非博弈对象的策略可行域；自车与非博弈对象的策略可行域包括自车相对于非博弈对象可执行的行为动作；至少根据自车与非博弈对象的策略可行域确定自车行驶的决策结果。

作为第二方面的一种可能的实现方式，处理模块还用于根据自车与各博弈对象的各策略可行域的交集确定自车行驶的决策结果的策略可行域，或根据自车与各博弈对象的各策略可行域以及自车与各非博弈对象的各策略可行域的交集确定自车行驶的决策结果的策略可行域。

作为第二方面的一种可能的实现方式，获取模块还用于获取自车的非博弈对象；处理模块还用于根据非博弈对象的运动状态，约束与自车对应的纵向采样策略空间，或约束与自车对应的横向采样策略空间。

作为第二方面的一种可能的实现方式，获取模块还用于获取自车的博弈对象的非博弈对象；处理模块还用于根据非博弈对象的运动状态，约束与自车的博弈对象对应的纵向采样策略空间，或约束与自车的博弈对象对应的横向采样策略空间。

作为第二方面的一种可能的实现方式，交集为空集时，执行自车行驶的保守决策，保守决策包括使自车安全停车的动作，或，使自车安全减速行驶的动作。

作为第二方面的一种可能的实现方式，博弈对象或非博弈对象，根据注意力方式进行确定。

作为第二方面的一种可能的实现方式，处理模块还用于通过人机交互界面显示至少以下之一：自车行驶的决策结果、决策结果的策略可行域、自车行驶的决策结果对应的自车行驶轨迹、或自车行驶的决策结果对应的博弈对象的行驶轨迹。

本申请第三方面提供了一种车辆行驶控制方法，包括：获取车外障碍物；针对障碍物，根据第一方面任一方法确定车辆行驶的决策结果；根据决策结果控制车辆的行驶。

本申请第四方面提供了一种车辆行驶控制装置，包括：获取模块，用于获取车外障碍物；处理模块，用于针对障碍物，根据第一方面任一方法确定车辆行驶的决策结果；处理模块还用于根据决策结果控制车辆的行驶。

本申请第五方面提供了一种车辆，包括：第四方面的车辆行驶控制装置，及行驶***；车辆行驶控制装置控制行驶***。

本申请第六方面提供了一种计算设备，包括：处理器，以及存储器，其上存储有程序指令，程序指令当被处理器执行时使得处理器实现第一方面任一智能驾驶决策方法，或程序指令当被处理器执行时使得处理器实现第三方面的车辆行驶控制方法。

本申请第七方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令当被处理器执行时使得处理器实现第一方面任一智能驾驶决策方法，或程序指令当被处理器执行时使得处理器实现第三方面的车辆行驶控制方法。

本申请的这些和其它方面在以下(多个)实施例的描述中会更加简明易懂。

附图说明

以下参照附图来进一步说明本申请的各个特征和各个特征之间的联系。附图均为示例性的，一些特征并不以实际比例示出，并且一些附图中可能省略了本申请所涉及领域的惯常的且对于本申请非必要的特征，或是额外示出了对于本申请非必要的特征，附图所示的各个特征的组合并不用以限制本申请。另外，在本说明书全文中，相同的附图标记所指代的内容也是相同的。具体地附图说明如下：

图1为本申请实施例提供的路面车辆行驶的一交通场景的示意图；

图2为本申请实施例应用于车辆的示意图；

图3A-图3E为本申请实施例提供的博弈对象和非博弈对象在不同交通场景下的示意图；

图4为本申请实施例提供的智能驾驶决策方法的流程图；

图5为图4中获得博弈对象的流程图；

图6为图4中获得决策结果的流程图；

图7为本申请实施例中提供的多帧推演的示意图；

图8A-图8F为本申请实施例提供的代价函数的示意图；

图9为本申请另一实施例提供的行驶控制的流程图；

图10为本申请实施方式中的交通场景示意图；

图11为本申请具体实施方式提供的行驶控制的流程图；

图12为本申请实施例提供的智能驾驶决策装置的示意图；

图13为本申请实施例提供的车辆行驶控制方法的流程图；

图14为本申请实施例提供的车辆行驶控制装置的示意图；

图15为本申请实施例提供的车辆示意图；

图16为本申请计算设备的一实施例的示意图。

具体实施方式

下面结合附图并举实施例，对本申请提供的技术方案作进一步说明。应理解，本申请实施例中提供的***结构和业务场景主要是为了说明本申请的技术方案的可能的实施方式，不应被解读为对本申请的技术方案的唯一限定。本领域普通技术人员可知，随着***结构的演进和新业务场景的出现，本申请提供的技术方案对类似技术问题同样适用。

应理解，本申请实施例提供的智能驾驶决策方案，包括智能驾驶决策方法、装置、车辆行驶控制方法及装置、车辆、电子装置、计算设备、计算机可读存储介质及计算机程序产品。由于这些技术方案解决问题的原理相同或相似，在如下具体实施例的介绍中，某些重复之处可能不再赘述，但应视为这些具体实施例之间已有相互引用，可以相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。如有不一致，以本说明书中所说明的含义或者根据本说明书中记载的内容得出的含义为准。另外，本文中所使用的术语旨在描述本申请实施例的目的，而非限制本申请。

图1所示为路面车辆行驶的一个交通场景。如图1所示，该交通场景下，南北向道路与东西向道路形成交叉路口A，其中：第一车辆901位于路口A南侧、且由南向北行驶；第二车辆902位于路口A北侧、且由北向南行驶；第三车辆903位于路口A东侧、且由东向南行驶，即其将在路口A向左转汇入南北向道路；第一车辆901后方，具有第四车辆904，第四车辆904也由南向北行驶；靠近路口A的东南角、位于南北向道路路侧停放有第五车辆905，即第五车辆905位于第一车辆901前方道路路侧位置。假设第一车辆901此时开启了智能驾驶功能，则其可以检测到当前交通场景，并可对当前交通场景下的行驶策略进行决策，进而可以根据决策结果控制车辆的行驶，例如，根据决策出的抢行或让行或避让策略，控制车辆加速或减速或变道行驶等。一种智能驾驶决策方案，是基于博弈方式进行行驶策略的决策。例如第一车辆901通过博弈方式决策具有对向行驶的第二车辆902的交通场景下自车的行驶策略。基于博弈方式进行行驶策略的决策，难以处理复杂交通场景下的决策，例如对于图1示出的交通场景，对于第一车辆901而言，既有对向行驶的第二车辆902，又有旁侧横穿路口A的第三车辆903，且其前方路侧还停放有第五车辆905，当基于博弈方式进行行驶策略决策时，第一车辆901的博弈对象同时为第二车辆902、第三车辆903，因此需使用多维度的博弈空间进行博弈决策，例如由第一车辆901、第二车辆902、第三车辆903各自的横向行驶维度、纵向行驶维度共同张成的多维度博弈空间。使用多维度的博弈空间将导致博弈决策的解的数量呈***式增长，导致计算负担呈几何量级增加，这对现有的硬件算力提出了较大挑战。因此，目前受硬件算力制约，使用多维度的博弈空间进行博弈决策，难以在智能驾驶场景实现产品化。

本申请实施例提供了一种改进的智能驾驶决策方案，该方案应用于车辆的智能驾驶时，该方案的基本原理包括：针对自车，识别出当前交通场景中的障碍物，障碍物可包括自车的博弈对象、自车的非博弈对象。对于自车的单个博弈对象，从自车与该单个博弈对象的多维度博弈空间中，多次释放单个采样维度或多个采样维度张成的策略空间，并在每次释放策略空间后，搜索自车与其单个博弈对象在该策略空间内的解。当有解时，即具有博弈结果时，也即自车与其单个博弈对象在该策略空间内有策略可行域时，根据博弈结果确定自车行驶的决策结果，进而可以根据决策结果控制车辆的行驶。这时，可不再继续从多维度博弈空间中释放尚未释放的策略空间。而针对自车的多个博弈对象，则可如上分别确定自车针对各博弈对象的策略可行域，并以自车动作为索引，从自车与其各博弈对象的策略可行域的交集(交集指均包括该自车的同一个动作)获取自车的行驶策略。该方法在保证决策精度(决策精度可以例如为所决策的结果的执行概率)的前提下，可以以最少的搜索次数在多维度博弈空间内求得最优的行驶决策，且可以尽可能地减少策略空间的使用，因此降低了对硬件算力的要求，更易于在车辆上的产品化。

本申请实施例的智能驾驶决策方案的实施主体可以是具有动力、可自主移动的智能体，智能体可通过本申请实施例提供的智能驾驶决策方案与所在交通场景内的其他物体进行博弈决策，生成语义级的决策标签和智能体的期望行驶轨迹，进而智能体可以进行合理的横向、纵向的运动规划。智能体例如可以是具有自动驾驶功能的车辆、可以自主移动的机器人等。这里的车辆包括一般的机动车辆，例如包括轿车、运动型多用途汽车(Sport Utility Vehicle，SUV)、多用途汽车(Multi-purpose Vehicle，MPV)、自动导引运输车(Automated Guided Vehicle，AGV)、公交车、卡车和其它载货或者载客车辆在内的陆地运输装置，也包括各种船、艇在内的水面运输装置，以及航空器等。对于机动车辆，还包括混合动力车辆、电动车辆、燃油车辆、插电式混合动力车辆、燃料电池汽车以及其它代用燃料车辆。其中，混合动力车辆指的是具有两种或者多种动力源的车辆，电动车辆包括纯电动汽车、增程式电动汽车等。在一些实施例中，上述可以自主移动的机器人也可以归属于所述车辆的一种。

下面，以本申请实施例提供的智能驾驶决策方案应用于车辆为例进行介绍，如图2所示，应用于车辆时，该车辆10可以包括环境信息获取装置11、控制装置12、行驶***13，在一些实施例中还可以包括通信装置14、导航装置15、或显示装置16。

本实施例中，环境信息获取装置11可用于获取车辆外部环境信息。在一些实施例中，环境信息获取装置11可以包括摄像头、激光雷达、毫米波雷达、超声波雷达、或后述的全球导航卫星***(Global Navigation Satellite System，GNSS)等，数量可以是一个也可以是多个，其中，摄像头可以包括常规的RGB(Red Green Blue)三原色摄像头传感器、红外摄像头传感器等。所获取的车外环境包括路面信息、路面上的对象，路面上的对象包括周边车辆、行人等，具体可包括车辆的运动状态信息，运动状态信息可以包括车辆速度、加速度、航向角信息、轨迹信息等。在一些实施例中，周边车辆的运动状态信息也可以通过车辆10的通信装置14获取。环境信息获取装置11所获取的车外环境信息可以用来形成由道路(对应路面信息)和障碍物(对应路面上的对象)等构建的世界模型。

在其他一些实施例中，环境信息获取装置11也可以是接收摄像头传感器、红外夜视摄像头传感器、激光雷达、毫米波雷达、超声波雷达等所传输的车辆外部环境信息的电子设备，如数据传输芯片，数据传输芯片例如总线数据收发芯片、网络接口芯片等，数据传输芯片也可以是无线传输芯片，如蓝牙(Blue tooth)芯片或Wi-Fi芯片等。在另一些实施例中，环境信息获取装置11也可以集成于控制装置12中，成为集成到处理器中的接口电路或数据传输模块等。

本实施例中，控制装置12可用于根据获取的车辆外部环境信息(包括所构建的世界模型)进行智能行驶策略的决策，生成决策结果，示例的，决策结果可以包括加速、制动、转向(包括变道或转向)，也包括车辆短期(如几秒钟之内)的期望行驶轨迹。在一些实施例中，控制装置12还可以进一步根据决策结果生成相应的指令去控制行驶***13，以通过行驶***13执行对车辆的行驶控制，控制车辆根据决策结果实现期望的行驶轨迹。本申请实施例中，控制装置12可以为电子设备，例如可以为车机、域控制器、移动数据中心(Mobile Data Center,MDC)或车载电脑等车载处理装置的处理器，也可以为中央处理器(Central Processing Unit，CPU)、微处理器(Micro Control Unit，MCU)等常规的芯片。

本实施例中，行驶***13可包括动力***131、转向***132和制动***133，下面分别进行介绍：

其中，动力***131可包括驱动电控单元(Electrical Control Unit，ECU)和驱动源。驱动ECU通过控制驱动源来控制车辆10的驱动力(如扭矩)。作为驱动源的例子，可以是发动机、驱动电机等。驱动ECU能够根据驾驶员对加速踏板的操作来控制驱动源，或者能够根据从控制装置12发送来的指令来控制驱动源，从而能够控制驱动力。驱动源的驱动力经由变速器等传递给车轮，从而驱动车辆10行驶。

其中，转向***132可包括转向电控单元(ECU)和电动助力转向***(Electric Power Steering，EPS)。转向ECU能够根据驾驶员对方向盘的操作来控制EPS的电机，或者能够根据从控制装置12发送来的指令控制EPS的电机，从而控制车轮(具体而言是转向轮)的朝向。另外，也可以通过改变对左右车轮的扭矩分配或制动力分配来进行转向操纵。

其中，制动***133可包括制动电控单元(ECU)和制动机构。制动机构通过制动电机、液压机构等使制动部件进行工作。制动ECU能够根据驾驶员对制动踏板的操作来控制制动机构，或者能够根据从控制装置12发送来的指令控制制动机构，从而能够控制制动力。在车辆10是电动车辆或者混合动力车辆的情况下，制动***133还可以包括能量回收制动机构。

本实施例中，还可包括通信装置14，通信装置14能够通过无线通信方式与外部对象进行数据交互，获得车辆10进行智能驾驶决策所需的数据。在一些实施例中，可通信的外部对象可以包括云端服务器、移动终端(如手机、便携式电脑、平板等)、路侧设备、或周边车辆等。在一些实施例中，决策所需数据包括车辆10周边车辆(也即他车)的用户画像，该用户画像体现了他车驾驶员的驾驶习惯，还可包括他车的位置、他车的运动状态信息等。

本实施例中，还可包括导航装置15，导航装置15可包括全球导航卫星***(Global Navigation Satellite System，GNSS)接收机和地图数据库。导航装置15能够通过GNSS接收机接收到的卫星信号来确定车辆10的位置，且能够根据地图数据库中的地图信息生成到达目的地的路径，并将关于该路径的信息(包括车辆10的位置)提供给控制装置12。导航装置15还可以具有惯性测量装置(Inertial Measurement Unit，IMU)，通过融合GNSS接收机的信息和IMU的信息来进行车辆10更精确的定位。

本实施例中，还可包括显示装置16，例如可以是安装在车辆座舱中控位置的显示屏，也可以是抬头显示装置(Head Up Display，HUD)。在一些实施例中，控制装置12可以将决策结果以用户可理解的方式，例如期望行驶轨迹、箭头、文字等形式显示在车辆座舱内的显示装置16。在一些实施例中，当显示期望行驶轨迹时，还可以结合车辆的当前交通场景(如图形化的交通场景)，以局部放大视图的形式显示在车辆座舱内的显示装置中。控制装置12还可以显示导航装置15提供的到达目的地的路径的信息。

在一些实施例中，还可包括语音播放***，通过播放语音的方式提示用户就当前交通场景所决策出的决策结果。

下面，将对本申请实施例提供的智能驾驶决策方法进行介绍。为描述方便，在本申请实施例中，将处于交通场景中且执行本申请实施例提供的智能驾驶决策方法的智能驾驶车辆称为自车。在自车视角，将交通场景中影响或可能影响自车行驶的其他物体称为自车的障碍物。

本申请实施例中，自车具有一定的行为决策能力，可以生成行驶策略，以改变自身运动状态，行驶策略包括加速、制动、转向(包括变道或转向)，自车还具有行驶行为执行能力，包括执行所述行驶策略，按决策出的期望行驶轨迹行驶。

在一些实施例中，自车的障碍物也可以具有行为决策能力，以改变其自身运动状态，例如障碍物可以是可以自主移动的车辆、行人等。自车的障碍物也可以不具有行为决策能力，或不改变其运动状态，例如障碍物可以是停靠路侧的车辆(该车辆处于未启动状态)、路上的限宽墩等。综上，自车的障碍物可以包括：行人、自行车、机动车(如摩托车、小客车、货车、卡车、公交车等)等，其中，机动车可以包括可执行智能驾驶决策方法的智能驾驶车辆。

根据是否会与自车建立博弈交互关系，可将自车的各障碍物进一步分为自车的博弈对象、自车的非博弈对象或自车的无关障碍物。具体地，博弈对象、非博弈对象和无关障碍物这三者与自车的交互强度从强交互逐渐减弱到不交互。应该理解为，在与不同决策时刻对应的多个交通场景中，博弈对象、非博弈对象、无关障碍物这三者有可能相互转换。自车的无关障碍物的位置或运动状态使得其与自车未来的行为完全无关，自车与无关障碍物在未来不存在轨迹冲突或意图冲突，故若无特别说明，本申请实施例中的障碍物指自车的博弈对象、自车的非博弈对象。

自车的非博弈对象与自车在未来存在轨迹冲突或意图冲突，因此，自车的非博弈对象将对自车未来的行为产生约束，但自车的非博弈对象不响应在未来与自车之间可能存在的轨迹冲突或意图冲突，而需要自车单方面调整自车的运动状态来解除在未来与其非博弈对象之间可能存在的轨迹冲突或意图冲突，也即自车的非博弈对象与自车不建立博弈交互关系。也即，自车的非博弈对象不会受到自车的行驶行为影响，会保持其既定的运动状态，不会调整其运动状态来解除在未来与自车之间可能存在的轨迹冲突或意图冲突。

自车与自车的博弈对象建立有博弈交互关系，自车的博弈对象会响应在未来与自车之间可能存在的轨迹冲突或意图冲突。在博弈决策开始时刻，自车的博弈对象与自车存在轨迹冲突或意图冲突，在博弈过程中，自车与自车的博弈对象可调整各自的运动状态，以在安全性前提下，逐步解除两者可能的轨迹冲突或意图冲突。其中，作为自车的博弈对象的车辆调整其运动状态时，可包括通过其智能驾驶功能自动调整，也包括通过其驾驶员调整手动驾驶调整。

为了对博弈对象、非博弈对象进一步进行理解，下面，结合图3A-图3E的几种交通场景的示意图，对自车的博弈对象和非博弈对象进行举例说明。

如图3A所示，自车101直行通过无保护路口。对向来车102(在自车101的左前方)左转通过该无保护路口。这时，对向来车102与自车101存在轨迹冲突或意图冲突，该对向来车102为自车101的博弈对象。

如图3B，自车101直行。左侧来车102横穿自车101所在车道并通过。这时，左侧来车102与自车101存在轨迹冲突或意图冲突，该左侧来车102为自车101的博弈对象。

如图3C，自车101直行。同向来车102(在自车101的右前方)汇入自车车道或自车的相邻车道。这时，同向来车102与自车101存在轨迹冲突或意图冲突，会与自车101建立博弈交互关系，该同向来车102为自车101的博弈对象。

如图3D，自车101直行，对向来车103在自车101的左侧相邻车道直行，在自车101的右侧相邻车道上有一台静止车辆102(在自车101的右前方)。这时，对向来车103与自车101存在轨迹冲突或意图冲突，会与自车101建立博弈交互关系，该来车103为自车101的博弈对象。静止车辆102所在的位置与自车101的轨迹在未来存在冲突，但根据获取的外部环境信息可以确认在交互博弈决策过程中，静止车辆102不会切换为移动状态或即使切换为移动状态，但其具有较高路权，不会与自车101建立有博弈交互关系，所以静止车辆102为自车的非博弈对象，将由自车101单独调整其行驶行为及运动状态，以解除两者之间的轨迹冲突。

如图3E，自车101从当前车道向右变线以汇入右侧相邻车道。右侧相邻车道上有第一直行车辆103(在自车101的右前方)和第二直行车辆102(在自车101的右后方)。第一直行车辆103与自车101相比，具有较高路权，不会与自车101建立有博弈交互关系，为自车101的非博弈对象。在自车101右后方的第二直行车辆102与自车101在未来存在轨迹冲突，会与自车101建立博弈交互关系，该第二直行车辆102为自车101的博弈对象。

下面，参考图1和图2、并结合图4示出的流程图，对本申请实施例提供的智能驾驶决策方法进行介绍，包括以下步骤：

S10：由自车获取自车的博弈对象。

在一些实施例中，如图5所示的流程图，本步骤可以包括以下子步骤：

S11：自车获取车辆外部环境信息，所获取的该外部环境信息包括道路场景中的自车和障碍物的运动状态、相对位置信息等。

在本实施例中，自车对车辆外部环境信息的获取，可以是通过其环境信息获取装置，如摄像头传感器、红外夜视摄像头传感器、激光雷达、毫米波雷达、超声波雷达、GNSS等进行获取。在一些实施例中，自车对车辆外部环境信息的获取，可以是通过其通信装置与路侧装置通信，或与云服务器通信，来获得其车辆外部环境信息。其中，路侧装置可以具有摄像头或通信装置，其可以获取其周边的车辆信息，云服务器可以接收存储各个路侧装置上报的信息。在一些实施例中，也可以是上述两种方式结合进行车辆外部环境信息的获取。

S12：自车根据所获得的障碍物的运动状态，或一段时间内的障碍物的运动状态，或形成的障碍物的行驶轨迹，以及与障碍物的相对位置信息，从所述障碍物中识别出自车的博弈对象。

在本实施例中，在步骤S12中，也可以同时从所述障碍物中识别出自车的非博弈对象，或者从所述障碍物中识别出自车的博弈对象的非博弈对象。

在一些实施例中，可以根据预先设置的判断规则来识别上述博弈对象或非博弈对象。该判断规则例如：如果一障碍物的行驶轨迹或行驶意图与自车的行驶轨迹或行驶意图有冲突，且该障碍物具有行为决策能力，可以改变其自身运动状态，则为自车的博弈对象。如果一障碍物的行驶轨迹或行驶意图与自车的行驶轨迹或行驶意图有冲突，但不会主动改变其自身运动状态来主动避让冲突，则为与自车的非博弈对象。在一些实施例中，障碍物的行驶轨迹或行驶意图，可以根据其行驶所在车道(直行或转弯车道)、是否开启转向灯、车头朝向等进行判断。

例如图3A-图3C中，横穿的障碍物、车道汇入的障碍物，均属于与自车轨迹存在大角度相交因而具有行驶轨迹冲突，进而分类为博弈车。图3D窄道通行的对向来车103和图3E自车汇入旁边车道车流的后车104属于意图上存在冲突的，进而被分类为博弈车。图3D窄道通行右前方静止车辆102和图3E自车汇入旁边车道车流的前方车103，尽管轨迹或意图具有冲突，但因为自车相对于他车具有较低的路权，他车不会采取行为来解除冲突，且自车的行为也不能改变他车的行为，则他车属于非博弈车。

在一些实施例中，自车是基于一些已知的算法从其感知或获取的车辆外部环境信息中获取到障碍物信息，并从障碍物中识别自车的博弈对象、非博弈对象或博弈对象的非博弈对象。

在一些实施例中，上述算法可以是例如基于深度学习的分类神经网络，由于是识别障碍物的类型，相当于分类，因此可以采用分类模型的神经网络进行推理后确定。该分类神经网络可以采用卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、基于转换器的双向编码表示(Bidirectional Encoder Representations from Transformers，BERT)等。其中，所述分类神经网络进行训练时，可以使用样本数据对神经网络进行训练，样本数据可以是标记有分类标签的车辆行驶场景的图片或视频片段，分类标签可以包括博弈对象、非博弈对象、博弈对象的非博弈对象。

在一些实施例中，上述算法也可以利用注意力相关的算法，如建模的注意力模型。其中，注意力模型用于输出各个障碍物对自车分配的注意力值，该注意力值与障碍物与自车存在的意图冲突或轨迹冲突的程度相关。例如，与自车存在意图冲突或轨迹冲突的障碍物向自车会分配更多的注意力；而与自车不存在意图冲突或轨迹冲突的障碍物向自车会分配较少注意力或零注意力；具有比自车更高路权的障碍物，也可向自车分配较少注意力或零注意力。若障碍物向自车分配足够多(如高于某阈值)的注意力，则可以识别该障碍物为自车的博弈对象。若障碍物向自车分配足够少的注意力(如低于某阈值)，则可以识别该障碍物为自车的非博弈对象。

在一些实施例中，注意力模型可以采用例如y＝softmax(a1x1+a2x2+a3x3…)等数学模型构建，其中softmax表示归一化，a1、a2、a3…为权重系数，x1、x2、x3…为障碍物与自车的相关参数，例如纵向车距、横向车距、车速差、车加速度差、车位置关系(前方、后方、左方、右侧等)等，其中，x1、x2、x3…也可以是归一化后的值，即0-1之间的值。在一些实施例中，注意力模型也可以通过神经网络来实现，此时神经网络的输出是对应所识别的障碍物向自车分配的注意力值。

步骤S20：自车针对与博弈对象之间的交互博弈任务，从自车与所述博弈对象的多个策略空间中执行所述多个策略空间的多次释放，当所述多次释放中的一次释放执行后，根据已经释放的各所述策略空间确定自车与所述博弈对象的策略可行域，根据所述策略可行域确定所述自车行驶的决策结果。

在一些实施例中，所述决策结果指策略可行域中自车与博弈对象的可执行的行为动作对。这时，步骤S20完成自车与任一个博弈对象的单车交互博弈决策过程，并确定自车与该博弈对象的策略可行域。在一些实施例中，所述执行所述多个策略空间的多次释放，包括执行各所述策略空间的逐次释放，也即，执行每次释放时，只释放一个策略空间，以及执行逐次释放后，累计释放多个策略空间。这时，每一个策略空间是由至少一个采样维度张成的。

在一些实施例中，根据通常的车辆控制的安全性，或行驶习惯，通常是自车在当前车道先进行加减速的方式优先于更换车道，因此，上述多个策略空间释放时，可选的，在多个策略空间释放过程中，可以按照下述维度顺序逐次释放：纵向采样维度、横向采样维度、时间采样维度维度。由不同的维度可以张成不同的策略空间，例如，释放纵向采样维度时可以张成纵向采样策略空间，释放横向采样维度时可以张成横向采样策略空间，或者与所述纵向采样维度共同张成纵向采样策略空间与横向采样策略空间组合后的策略空间，释放时间采样维度时可以形成多帧推演构成的多个策略空间。

在一些实施例中，也可以是不同策略空间的各部分空间组合的依次释放，例如首次释放时，先依次释放纵向采样策略空间的局部空间和横向采用策略空间的局部空间，第二次释放时，再依次释放纵向采样策略空间剩下的空间和横向采样策略空间剩下的局部空间。

在一些实施例中，累计释放的多个策略空间可以包括：纵向采样策略空间，横向采样策略空间，纵向采样策略空间与横向采样策略空间组合后张成的策略空间，纵向采样策略空间与横向采样策略空间分别与时间采样维度组合后张成的策略空间，纵向采样维度、横向采样维度、时间采样维度这三者组合后张成的策略空间。

在一些实施例中，如上所述，构成策略空间的维度可以包括纵向采样维度、横向采样维度、或时间采样维度。结合到车辆行驶场景，也即纵向加速度维度、横向偏移维度、在一步决策中包括的多个单帧推演分别对应的推演深度。对应的，所述纵向采样策略空间张成时所使用的纵向采样维度包括至少以下之一：自车的纵向加速度、博弈对象的纵向加速度；所述横向采样策略空间张成时所使用的横向采样维度包括至少以下之一：自车的横向偏移、博弈对象的横向偏移；所述时间采样维度包括由对应连续时间点(也即依次增加推演深度)的连续多帧推演构成的多个策略空间。该三个维度的组合可构成上述的多个策略空间。

这时，各所述策略空间张成时在各横向或纵向采样维度上的取值对应自车或博弈对象的采样动作，也即行为动作。

在一些实施例中，如图6所示的流程图，本步骤S20可以包括以下子步骤S21-S26：

S21：执行策略空间的第一次释放，释放自车与所述博弈对象的策略空间，根据所释放的策略空间，逐一取出由自车的至少一个采样维度上的多个取值和博弈对象的至少一个采样维度上的多个取值形成的行为动作对。

在一些实施例中，执行第一次策略空间的释放时，释放的为纵向采样维度，包括自车的纵向加速度、博弈对象的纵向加速度，释放的纵向采样维度张成的策略空间为纵向采样策略空间，为简化描述，后文简称为第一次释放的纵向采样策略空间。这时，策略空间内为待评价的自车纵向加速度与其博弈对象(即他车)的纵向加速度构成的行为动作对。这时，在各采样维度上可以设置多个采样值。这些采样值中，可以由均匀且连续的采样间隔的多个采样值构成采样区间。这些采样值中，分散在采样维度上的多个采样值，则为离散的采样点。示例的，在自车的纵向加速度维度上，以预先确定的采样间隔进行均匀采样，可以得到自车在纵向加速度维度上的多个采样值，记为M1个，也即自车的M1个纵向加速度采样动作。在博弈对象的纵向加速度维度上，以预先确定的采样间隔进行均匀采样，可以得到博弈对象在纵向加速度维度上的多个采样值，记为N1个，也即博弈对象的N1个纵向加速度采样动作。则该第一次释放的纵向采样策略空间中包括M1*N1个由自车的纵向加速度采样动作与博弈对象的纵向加速度采样动作组合得到的自车与博弈对象的行为动作对。该策略空间的一具体例子可参见后文表1或表2所示，表1或表2的第一行和第一列分别为自车和博弈对象(也即表格中的他车O)的纵向加速度采样值，表1中，博弈对象为横穿博弈车，表2中，博弈对象为对向博弈车。

S22：将所释放的策略空间中的各行为动作对推演到自车与所述博弈对象当前构建的子交通场景中，确定各行为动作对对应的代价值。

这时，自车与各博弈对象还可以分别构建各子交通场景，各子交通场景为自车所在道路场景的子集。

在一些实施例中，所述策略空间中各行为动作对对应的代价值，根据至少以下之一所确定：自车和博弈对象执行所述行为动作对相应的安全性代价值、舒适性代价值、横向偏移代价值、通过性代价值、路权代价值、风险区域代价值、帧间关联性代价值。

在一些实施例中，可以采用上述各代价值的加权和，此时为了区分各个代价值，计算的加权和可以称为总代价值，总代价值的数值越小，则自车与所述博弈对象执行所述行为动作对相应的决策收益越大，则所述行为动作对作为决策结果的可能性越大。关于上述各代价值，将在后文进一步进行描述。

S23：将代价值不大于代价阈值的行为动作对加入到自车与所述博弈对象的策略可行域内，该策略可行域即为第一次释放策略空间时自车与所述博弈对象的博弈结果。

其中，策略可行域指的是可执行的行为动作对的集合。例如，后文表1中表格内容为Cy或Cg的表格项即构成策略可行域。

S24：在当前策略空间中的策略可行域(即博弈结果)不为空时，可以将策略可行域中至少一个自车与博弈对象的可执行的行为动作对作为自车与所述博弈对象的决策结果，并结束本次策略空间的释放。

在所述策略可行域为空时，表示当前策略空间无解，此时执行策略空间的第二次释放，也即，释放多个策略空间中的下一个策略空间，在本实施例中，第二次释放的为横向采样维度，以由横向偏移张成横向采样策略空间，将本次释放的横向采样策略空间与第一次释放的纵向采样策略空间共同作为当前的策略空间，此时，当前用于自车与博弈对象交互博弈的策略空间为纵向采样策略空间与横向采样策略空间组合后张成的策略空间。

其中横向采样策略空间在自车的横向偏移维度上及在博弈对象的横向偏移维度上张成。示例的，在自车的横向偏移维度上，以预先确定的采样间隔进行均匀采样，可以得到自车在横向偏移维度上的多个采样值，记为Q个，也即自车的Q个横向偏移采样动作。在博弈对象的横向偏移维度上，以预先确定的采样间隔进行均匀采样，可以得到博弈对象在横向偏移维度上的多个采样值，记为R个，也即博弈对象的R个横向偏移采样动作。

这时，当前用于自车与博弈对象交互博弈的策略空间中，每一个自车与博弈对象的行为动作对由自车横向偏移采样动作、博弈对象横向偏移采样动作、自车纵向加速度采样动作、博弈对象纵向加速度采样动作共同构成。

假设当前的策略空间是由自车横向偏移的Q个取值、博弈对象横向偏移的R个取值、自车纵向加速度的M2个取值、博弈对象纵向加速度的N2个取值构成时，该第二次释放的自车与博弈对象的策略空间中包括M2*N2*Q*R个行为动作对。其具体一个例子可参见后文表3所示，其中，表3中上部横向采样策略空间的每个表格项都关联一个表3中下部纵向采样策略空间的表格项。表3中上部横向采样策略空间的表格中，博弈对象(也即表格中的他车O)为对向博弈车。

S25：在执行策略空间第二次释放后，基于当前的策略空间，将所释放的各行为动作对推演到自车与所述博弈对象当前构建的子交通场景中，确定各行为动作对对应的代价值，进而确定策略可行域，以确定出博弈结果，该步骤可参见步骤S22-S23。

S26：在步骤S25的策略可行域(即博弈结果)不为空时，则可从中选择一行为动作对作为决策结果，并结束本次策略空间的释放。

在所述策略可行域为空时，表示当前策略空间无解，此时执行策略空间的第三次释放，也即，释放多个策略空间中的下一个策略空间。如此，按照上述方式可以继续依次释放其他策略空间，以继续执行博弈结果及决策结果的确定。

在一些实施例中，以上多次释放的策略空间，可以是先释放由自车和/或博弈对象在纵向加速度维度上的第i组取值与自车和/或博弈对象在横向偏移维度上的第i组取值张成的策略空间，并在该策略空间内不存在策略可行域时，再释放由自车和/或博弈对象在纵向加速度维度上的第i+1组取值与自车和/或博弈对象在横向偏移维度上的第i+1组取值张成的策略空间。也即多次释放的策略空间，分别在自车和/或博弈对象在纵向加速度维度上的全部取值及自车和/或博弈对象在横向偏移维度上的全部取值张成的博弈空间内移动其所在的局部位置，其中，i为正整数。以上以第i组取值为例，展示了依次释放在各采样维度上的部分取值，以依次在博弈空间不同的局部策略空间内寻找策略可行域及确定决策结果。这样依次释放不同局部对应的策略空间，可以以最少的搜索次数在多维度博弈空间内求得最优的决策结果，且可以尽可能地减少策略空间的使用，降低对硬件算力的要求。

如，先释放下表3中由对向博弈车的横向偏移值0、自车的横向偏移值1、自车及对向博弈车的全部的纵向加速度值张成的策略空间；并在该策略空间内不存在策略可行域时，再释放由对向博弈车的横向偏移值0、自车的横向偏移值为2或3、自车及对向博弈车的全部的纵向加速度取值张成的策略空间。

在一些实施例中，如果经过上述步骤多次执行释放策略空间后，自车与博弈对象的策略可行域仍为空，即表示仍无解，此时，可以执行自车行驶的保守决策，所述保守决策包括使得自车安全刹停的行为动作，使得自车安全减速行驶的行为动作，或给出提示或警告，以由驾驶员接手对车辆的控制。

以上，执行完步骤S10-S20，即完成了一次单帧推演。在一些实施例中，当执行完步骤S10-S20，若策略可行域不为空时，则还可以包括：按照推演的时间的发展(也即依次增加推演深度，为连续的多个时刻)，执行时间采样维度的多次释放，执行多帧推演。这时，当所述多次释放中在推演的一时刻(或称时间点)执行了一次释放后，完成一次单帧推演，以确定自车与所述博弈对象的策略可行域，并在该单帧推演确定出的自车与所述博弈对象的策略可行域非空时，执行所推演的下一时刻的释放，以执行下一次单帧推演，直到时间采样维度的多次释放结束或连续多帧推演结束。

这时，实现了一步决策中的多个单帧推演。如图7所示，T1用于指示自车及博弈对象的初始的运动状态，T2用于指示第一帧推演后自车及博弈对象的运动状态，也即第一帧推演结果，Tn用于指示第n-1帧推演后自车及博弈对象的运动状态。

在一些实施例中，在每次执行释放时间采样维度时，将推演时间向后移动预定时间间隔(如，2秒或5秒)，即移到下一时刻(或称为时间点)。相应地，将当前帧的推演结果，作为下一帧的推演初始条件，来推演下一时刻自车与所述博弈对象的运动状态；如此，按照该方式，时间采样维度可以继续在后续时刻继续释放，以继续执行后续的连续多帧的推演，以继续执行博弈结果及决策结果的确定。

以上，释放时间采样维度中，需要就相邻两个单帧推演确定出的自车与所述博弈对象的行为决策进行决策结果评价，并确定帧间关联性代价值，将在后文详细说明。释放时间采样维度有助于提高车辆的行为一致性，例如，当连续多帧推演的自车与所述博弈对象的运动状态或决策结果对应的意图决策是相同或相似的，则智能行驶车辆执行该智能驾驶决策方法的行驶行为从时域上看更稳定，行驶轨迹的波动性更小，车辆行驶的舒适性就更好。

上述释放时间采样维度，也即在连续的多个决策时刻，分别利用释放的多个策略空间，获取自车与所述博弈对象对应的策略可行域，并推演自车和博弈对象按照时间顺序依次执行这些策略可行域对应的可执行的行为动作对后的运动状态。通过对自车和博弈对象的运动状态和/或期望行驶轨迹进行长期推演，可以实现决策结果在时间上的一致性。

以上多帧推演结束后，若多帧推演的整体收益满足决策要求，这时，可以确定各帧博弈结果逐渐收敛至纳什均衡状态(Nash equilibrium)。这时，可将多帧推演中第一帧的决策结果作为所述自车行驶的决策结果。

在一些实施例中，若多帧推演的整体收益不满足决策要求，可以重新选择第一帧的决策结果。其中第一帧的决策结果对应单帧推演的决策结果，重新选择第一帧的决策结果，也就是从第一帧的决策结果的策略可行域中，选择另一行为动作对作为决策结果。针对再次选择的决策结果可以再次执行多帧推演，以判断其是否可以作为最终的决策结果。

在一些实施例中，在上述第一次以及重新选择，或多次重新选择第一帧的决策结果时，可以按照各行为动作对对应的代价值的排序结果进行选择，优先选择总代价值小的动作行为对对应的决策结果。

在一些实施例中，上述各个不同的代价值可以具有不同的权重，对应的可分别称为安全性权重、舒适性权重、横向偏移权重、通过性权重、路权权重、风险区域权重、帧间关联权重。并且，在一些实施例中，所述权重分配的大小可以按照如下分配：安全性权重>路权权重>横向偏移权重>通过性权重>舒适性权重>风险区域权重>帧间关联权重。在一些实施例中，上述代价值可分别经过归一化处理，取值区间为[0,1]。

在一些实施例中，上述各个代价值可以根据不同的代价函数计算得到，对应的可分别称为安全性代价函数、舒适性代价函数、通过性代价函数、横向偏移代价函数、路权代价函数。

在一些实施例中，安全性代价值可以根据以自车与他车(也即博弈对象)交互时的相对距离为自变量的安全性代价函数计算得到，并且安全性代价值与相对距离为负相关。如，两车相对距离越大，则安全性代价值越小。如图8A所示，一个均一化处理后的安全性代价函数为如下的分段函数，其中，C _dist为安全性代价值，dist为自车和博弈对象之间的相对距离，如，该最小距离定义为自车和博弈对象之间的polygon最小距离：

其中，threLow为距离下限阈值，如图8A中为0.2，threHigh为距离上限阈值，如图8A中为1.2。可选的，距离下限阈值threLow和距离上限阈值threHigh可以随自车和他车交互情况而动态调整，如随自车和他车的相对速度、相对距离、相对角度等动态调整。

在一些实施例中，安全性代价函数定义的安全性代价值与相对速度或相对角度正相关。如，对向或横向(横向指他车相对自车为交叉)会车时，两车交互的相对速度或相对角度越大，则对应的安全性代价值就越大。

在一些实施例中，车辆(自车或博弈对象)的舒适性代价值可以根据以加速度变化量(也即加加速度，jerk)的绝对值为自变量的舒适性代价函数计算得到。如图8B所示，一个均一化处理后的舒适性代价函数为如下的分段函数，其中，C _comf为舒适性代价值，jerk为自车或博弈对象的加速度变化量：

其中，threMiddle为jerk中间点阈值，如图8B中示例为2，threHigh为jerk上限阈值，如图8B中为4。C _middle为jerk代价斜率。也即，车辆的加速度变化量越大，则舒适性越差，舒适性代价值越大，并且，车辆的加速度变化量大于中间点阈值之后，舒适性代价值增加得更快。

在一些实施例中，车辆的加速度变化量可以是纵向加速度变化量、横向加速度变化量，或二者的加权和。在一些实施例中，舒适性代价值可以为自车的舒适性代价值，或博弈对象的舒适性代价值，或二者舒适性代价值的加权和。

在一些实施例中，通过性代价值可以根据以自车或博弈对象的速度变化量为自变量的通过性代价函数计算得到。如，车辆以较大减速度让行将导致速度损失(当前速度与未来速度之间的差值，也即加速度)较大或等待时间较长，则车辆的通过性代价值增加。如，车辆以较大加速度抢行将导致速度增加较大(当前速度与未来速度之间的差值，也即加速度)或等待时间较短，则车辆的通过性代价值减少。

在一些实施例中，通过性代价值还可以根据以自车与博弈对象的相对速度占比为自变量的通过性代价函数计算得到。如，在执行该动作对前，自车的速度绝对值在自车与博弈对象的速度绝对值之和的占比较大，博弈对象的速度绝对值在自车与博弈对象的速度绝对值之和中的占比较小。在执行该行为动作对后，自车以较大减速度让行，则其速度损失增加，速度占比减小，则自车执行该行为动作对应的通过性代价值较大。而若在执行该行为动作对后，博弈对象以较大加速度抢行，则其速度增加，速度占比增大，则博弈对象执行该行为动作对应的通过性代价值较小。

在一些实施例中，通过性代价值为自车执行所述行为动作对相应的自车通过性代价值，或博弈对象执行所述行为动作对相应的博弈对象通过性代价值，或二者通过性代价值的加权和。

在一些实施例中，如图8C所示，均一化处理后的通过性代价函数为如下的分段函数，其中C _pass为通过性代价值，speed为车辆的速度绝对值：

其中，车辆的中间点速度绝对值为speed0，车辆的速度绝对值的最大值为speed1，C _middle为速度代价斜率。也即，车辆的速度绝对值越大，则通过性越好，通过性代价值越小，并且，车辆的速度绝对值大于中间点阈值之后，通过性代价值减少得更快。

在一些实施例中，可以根据获得的自车或博弈对象的用户画像来确定车辆对应的路权信息，如，若博弈对象的驾驶行为属于激进风格，更倾向采用抢行决策，则为高路权，若博弈对象的驾驶行为属于保守风格，更倾向采用让行策略，则为低路权。其中，高路权倾向保持既定运动状态或既定行驶行为，低路权更倾向改变既定运动状态或既定行驶行为。

在一些实施例中，用户画像可以根据用户的性别、年龄或历史行为动作的完成情况确定。在一些实施例中，可以由云服务器获取确定用户画像所需数据并确定用户画像。若自车和/或博弈对象执行所述行为动作对使得高路权的车辆改变运动状态，则所述行为动作对相应的路权代价值较大，收益越小。

在一些实施例中，通过为导致高路权车辆运动状态改变的行为决策确定一个较高的路权代价值以增加惩罚。也即，通过这个反馈机制，使得高路权车保持当前运动状态的行为动作对具有较大的路权收益，也即较小的路权代价值。

在一些实施例中，如图8D所示，均一化处理后的路权代价函数为如下的分段函数，其中C _roadRight为路权代价值，acc为车辆的加速度绝对值：

其中，threHigh为加速度上限阈值，如图8D中为1。也即，车辆的加速度越大，则路权代价值越大。

也即，路权代价函数使得高路权车保持当前运动状态的行为动作具有较小的路权代价值，从而可以避免高路权车改变当前运动状态的行为动作对成为决策结果。

在一些实施例中，车辆的加速度可以是纵向加速度或横向加速度。也即，在横向偏移维度上，横向变化大也将使得路权代价值较大。在一些实施例中，路权代价值可以为自车执行所述行为动作对相应的路权代价值，或博弈对象执行所述行为动作对相应的路权代价值，或二者路权代价值的加权和。

在一些实施例中，如，车辆处于道路内风险区域(该区域内，车辆有较大的行车风险，需要尽快离开该风险区域)，则需要对车辆让行策略施以较高的风险区域代价值以增加惩罚，通过不选择车辆让行行为而选择车辆抢行行为作为决策结果，以使得车辆尽快驶离风险区域，也即进行车辆尽快驶离风险区域的决策，以保证车辆尽快驶离风险区域，不会对交通产生严重影响。

也即，通过风险区域代价值越大则策略收益越小这个反馈机制，使得处于道路内风险区域的车辆不发生让行行为，也即放弃导致处于道路内风险区域的车辆发生让行行为的行为决策(该行为决策具有较大风险区域代价值)，而选择处于道路内风险区域的车辆发生抢行行为以尽快驶离风险区域的决策结果(具有较小风险区域代价值)，从而避免处于道路内风险区域的车辆滞留并对交通产生严重影响。

在一些实施例中，风险区域代价值可以为处于道路内风险区域的自车执行所述行为动作对相应的风险区域代价值，或处于道路内风险区域的博弈对象执行所述行为动作对相应的风险区域代价值，或二者风险区域代价值的加权和。在一些实施例中，横向偏移代价值可以根据自车或博弈对象的横向偏移量计算得到。如图8E所示，均一化处理后的横向偏移代价函数在右半空间为如下的分段函数，其中C _offset为横向偏移代价值，offset为车辆的横向偏移量，单位为米，这时，左半空间的方程表达可以对坐标平面右半空间的方程表达取反得到：

其中，threMiddle为横向偏移中间值，如，为道路软边界；C _middle为第一横向偏移代价斜率；threHigh为横向偏移上限阈值，如，为道路硬边界。也即，车辆的横向偏移越大，则横向偏移收益越小，横向偏移代价值越大，并且，车辆的横向偏移量大于横向偏移中间值之后，横向偏移代价值增加得更快，以增加惩罚。车辆的横向偏移量大于横向偏移上限阈值之后，示例的，横向偏移代价值为固定值1.2，以增加惩罚。

在一些实施例中，横向偏移代价值可以为自车执行所述行为动作对相应的横向偏移代价值，或博弈对象执行所述行为动作对相应的横向偏移代价值，或二者横向偏移代价值的加权和。

在前述的多帧推演步骤中，需要就相邻两个单帧推演确定出的自车与所述博弈对象的行为决策进行决策结果评价，并确定帧间关联性代价值。

在一些实施例中，如图8F所示，自车上一帧K的意图决策为抢行博弈对象，则若自车当前帧K+1的意图决策为抢行博弈对象时，对应的帧间关联性代价值会较小，如0.3，而默认值为0.5，因此为奖励。而若自车当前帧K+1的意图决策为让行博弈对象时，对应的帧间关联性代价值会较大，如0.8，而默认值为0.5，因此为惩罚。这时，选择使自车当前帧的意图决策为抢行博弈对象的策略成为当前帧的可行解。经过如上针对帧间关联性代价值的惩罚或奖励，可以保证自车在当前帧的意图决策与上一帧的意图决策保持一致，从而使得自车在当前帧的运动状态与前一帧的运动状态保持一致，从时域上稳定自车的行为决策。

帧间关联性代价值帧间关联性代价值帧间关联性代价值在一些实施例中，帧间关联性代价值可以根据上一帧自车的意图决策和当前帧自车的意图决策计算得到，也可以根据上一帧博弈对象的意图决策和当前帧博弈对象的意图决策计算得到，或根据自车和博弈对象加权后得到。

在一些实施例中，如图4所示，在步骤S20确定决策结果之后，还可包括下述步骤S30和/或S40：

步骤S30：自车根据所述决策结果，生成纵向/横向控制量，以由自车的行驶***执行所述纵向/横向控制量实现自车期望行驶轨迹。

在一些实施例中，由自车的控制装置根据决策结果生成纵向/横向控制量，并将纵向/横向控制量发送给行驶***13，以通过行驶***13执行对车辆的行驶控制，包括动力控制、转向控制、制动控制，实现车辆根据所述决策结果执行自车的期望行驶轨迹。

步骤S40：将所述决策结果以用户可理解的方式显示在显示装置中。

其中，自车行驶的决策结果包括自车的行为动作。根据自车的行为动作，和当前帧推演中决策开始时刻获取的自车的运动状态，可以预测自车的意图决策，如抢行、让行或避让，还可以预测自车的期望行驶轨迹。在一些实施例中，以用户可理解的方式，例如期望行驶轨迹、指示意图决策的箭头、指示意图决策的文字等形式将决策结果显示在车辆座舱内的显示装置。在一些实施例中，当显示期望行驶轨迹时，可以结合车辆的当前交通场景(如图形化的交通场景)，以局部放大视图的形式显示在车辆座舱内的显示装置中。在一些实施例中，还可包括语音播放***，可以通过播放语音方式提示用户所决策出的意图决策或策略标签。

在一些实施例中，考虑到自车与自车的非博弈对象之间的单向交互决策，或自车的博弈对象与自车的博弈对象的非博弈对象之间的单向交互决策，如图9所示的另一实施例，上述步骤S10与步骤S20之间，还包括下述步骤：

S15：对自车或博弈对象的策略空间，通过非博弈对象的运动状态进行约束。

在一些实施例中，可以就自车的非博弈对象的运动状态，对自车在各采样维度上的取值范围进行约束；

在一些实施例中，可以就自车的博弈对象的非博弈对象的运动状态，对自车的博弈对象在各采样维度上的取值范围进行约束。

在一些实施例中，取值范围可以是在采样维度上的一个或多个采样区间，也可以是离散的多个采样点。约束之后的取值范围可以为部分取值范围。

在一些实施例中，步骤S15包括：就自车与其非博弈对象的单向交互过程，确定在非博弈对象的运动状态的约束下，自车在各采样维度上的取值范围；或就自车的博弈对象与自车的博弈对象的非博弈对象的单向交互过程，确定在自车的博弈对象的非博弈对象的运动状态的约束下，自车的博弈对象在各采样维度上的取值范围。

由于非博弈对象不参与交互博弈，其运动状态保持不变，因此，将自车在各采样维度上的取值范围通过自车的博弈对象的运动状态进行约束后，以及将自车的博弈对象在各采样维度上的取值范围通过自车的博弈对象的非博弈对象的运动状态进行约束后，再进行步骤S20，有利于缩小自车与自车的博弈对象进行单车交互博弈决策过程中的博弈空间及策略空间，减少交互博弈决策过程使用的算力。

在一些实施例中，针对自车进行约束，步骤S15可以包括：首先，接收自车的非博弈对象的运动状态，并观测该非博弈对象的特征量，如；然后，计算自车与该非博弈对象的冲突区域，确定自车的特征量，也即临界动作。如上，基于非博弈对象的位置、速度、加速度和/或行驶轨迹，计算自车做出避让、抢行或让行等意图决策的对应的临界动作，生成自车在各采样维度上针对该非博弈对象的可行区间，也即自车在各采样维度上经过非博弈对象约束后的取值范围。

在一些实施例中，同样可以针对自车的博弈对象进行约束，相对于上述针对自车进行约束，将自车更改为自车的博弈对象即可，来生成自车的博弈对象在各采样维度上经过非博弈对象约束后的取值范围。

在一些实施例中，当自车存在非博弈对象C时，也可以为：先处理自车A与自车的博弈对象B之间的交互博弈决策，确定对应的策略可行域AB，之后再引入自车与非博弈对象C的非博弈可行域AC，然后将策略可行域AB与非博弈可行域AC这两者取交集，获得最终的策略可行域ABC，基于该最终的策略可行域来确定针对自车行驶的决策结果。

在一些实施例中，当自车的博弈对象B存在非博弈对象D时，也可以先处理自车A与自车的博弈对象B之间的交互博弈决策，确定对应的策略可行域AB，之后再引入自车的博弈对象B与其非博弈对象D的非博弈可行域BD，然后将策略可行域AB与非博弈可行域BD两者取交集，获得最终的可行域ABD，基于该最终的策略可行域来确定针对自车行驶的决策结果。

在一些实施例中，当自车存在非博弈对象C，且自车的博弈对象B存在非博弈对象D时，也可以先处理自车A与自车的博弈对象B之间的交互博弈决策，确定对应的策略可行域AB，之后再引入自车A与非博弈对象C的非博弈可行域AC、及自车的博弈对象B与其非博弈对象D的非博弈可行域BD，然后将策略可行域AB、非博弈可行域AC、与非博弈可行域BD这三者取交集，获得最终的可行域ABCD，并基于该最终的策略可行域来确定针对自车行驶的决策结果。

以上具体示例了通过逐次释放自车与单个博弈对象的多个策略空间，确定自车与博弈对象的可执行的行为动作对的步骤。在一些实施例中，当自车有两个以上的博弈对象时，例如以两个博弈对象，包括第一博弈对象、及第二博弈对象为例，此时，本申请实施例提供的智能驾驶决策方法，包括：

第一步：从自车与第一个博弈对象的多个策略空间中，执行各所述策略空间的逐次释放，确定针对第一个博弈对象的所述自车行驶的策略可行域。其中，确定针对第一个博弈对象的所述自车行驶的策略可行域，与前述的步骤S20相似。这里不再赘述。

第二步：从自车与第二个博弈对象的多个策略空间中，执行各所述策略空间的逐次释放，确定针对第二个博弈对象的所述自车行驶的策略可行域。其中，确定针对第二个博弈对象的所述自车行驶的策略可行域，与前述的步骤S20相似。这里不再赘述。

第三步：根据自车与各个所述博弈对象的各个策略可行域，确定所述自车行驶的决策结果。在一些实施例中，通过对各个策略可行域取交集，来获得最终的策略可行域，进而从该策略可行域中确定决策结果。在一些实施例中，决策结果可以是该策略可行域中代价值最小的行为动作对。

下面，对本申请实施例提供的智能驾驶决策方法的一具体实施方式进行介绍。本具体实施方式仍以应用于路面车辆行驶的一个交通场景为例进行说明，如图10示出了本具体实施方式的场景为，自车101行驶在一公路上，公路为双向单车道，对向行驶来车辆103，即对向博弈车。自车前方具有一将要横穿公路的车辆102，即横穿博弈车。下面参见图11所示的流程图，对本申请具体实施方式提供的行驶控制方法进行详细描述，包括以下步骤：

S110：自车通过环境信息获取装置11获取车外环境信息。

该步骤可参见前述步骤S11，不再赘述。

S120：自车确定出博弈对象、非博弈对象。

该步骤可参见前述步骤S12，不再赘述，本步骤中，确定出自车的一博弈对象为横穿博弈车，一博弈对象为对向博弈车。

S130：从自车与横穿博弈车的多个策略空间中，执行各所述策略空间的逐次释放，并确定自车与横穿博弈车的博弈结果。具体可包括下述步骤S131-S132：

S131：按照先纵向采样维度再横向采样维度的释放原则，释放自车及横穿博弈车的纵向加速度维度。

从自车与横穿博弈车的多维博弈空间内，释放自车及横穿博弈车纵向加速度维度，张成第一个自车及横穿博弈车的纵向采样策略空间。考虑自车及横穿博弈车的车辆纵向/横向动力学、运动学约束、自车及横穿博弈车的相对位置关系和相对速度关系，并认为两车具有相同的机动能力，确定自车及横穿博弈车的纵向加速度取值区间均为[-4,3]，单位为m/s ²，其中m表示米，s表示秒。根据自车的计算能力和预先设定的决策精度，确定自车及横穿博弈车的采样间隔均为1m/s ²。

表1.第一次释放的自车及横穿博弈车的纵向采样策略空间

张成的该策略空间以二维表格展示时如表1所示。表1的第一行罗列了自车的纵向加速度的全部取值Ae，第一列罗列了横穿博弈车的纵向加速度值的全部取值Ao1。也即，本次释放的自车及横穿博弈车的纵向采样策略空间中包括8乘以8也即64个自车及横穿博弈车的纵向加速度行为动作对。

S132：根据预先定义的各代价值确定方法，如各代价函数，分别计算自车及横穿博弈车的纵向采样策略空间中各行为动作对对应的代价值，并确定策略可行域。

在释放的表1中的64个行为动作对中，自车及横穿博弈车执行其中9个采样动作后，在自车及横穿博弈车构建的子交通场景中，通过性太差(如刹停)，为不可行解，在表1中，这些动作对用标签“0”来标识。

在释放的64个行为动作对中，自车及横穿博弈车执行其中39个采样动作后，在自车及横穿博弈车构建的子交通场景中，安全性太差(如碰撞)，为不可行解，在表1中，这些动作对用标签“-1”来标识。

在释放的64个行为动作对中，自车及横穿博弈车执行其中3加13，也即16个采样动作后，在自车及横穿博弈车构建的子交通场景中，安全性代价值、舒适性代价值、通过性代价值、横向偏移代价值、路权代价值、风险区域代价值、帧间关联性代价值的加权和大于预先设定的代价阈值，为该策略空间内的可行解，构成了自车及横穿博弈车的策略可行域。

其中，因为释放的是纵向采样策略空间，不涉及横向偏移，因此横向偏移代价值为零。因为是当前帧决策，不涉及前一帧的决策结果，因此帧间关联性代价值为零。

这时，自车与横穿博弈车的交互博弈在纵向采样策略空间找到充分多的可行解，不再需要在横向采样维度继续寻找解决方案。这时，搜索的行为动作对数为64，本轮博弈消耗了较少的算力和较少的计算时间。

另外，还可以根据策略可行域内的各行为动作对对应的代价值，为各行为动作对添加决策标签。

自车及横穿博弈车执行其中3个采样动作后，自车及横穿博弈车的行为决策是：自车加速行进，且横穿博弈车减速行进。根据当前帧推演中决策开始时刻获取的自车及横穿博弈的运动状态，可以推演出自车及横穿博弈车执行这3个采样动作中的任一个之后，自车先于横穿博弈车通过冲突区域，因此确定这些行为动作对对应的意图决策为自车抢行横穿博弈车。相应地，为这3个行为动作对设置自车抢行决策标签，也即表1中的“Cg”。

自车及横穿博弈车执行其中13个采样动作后，自车及横穿博弈车的行为决策是：横穿博弈车加速行进，且自车减速行进。根据当前帧推演中决策开始时刻获取的自车及横穿博弈的运动状态，可以推演出自车及横穿博弈车执行这13个采样动作中的任一个之后，横穿博弈车先于自车通过冲突区域，因此确定这些行为动作对对应的意图决策为横穿博弈车抢行自车。相应地，为这13个行为动作对设置横穿博弈车抢行决策标签，也即表1中的“Cy”。

S140：从自车与对向博弈车的多个策略空间中，执行各所述策略空间的逐次释放，并确定自车与对向博弈车的博弈结果。具体可包括下述步骤S141-S144：

S141：按照先纵向采样维度再横向采样维度的释放原则，释放自车及对向博弈车的纵向采样维度，张成第一个自车及对向博弈车的纵向采样策略空间。

从自车与对向博弈车的多维博弈空间内，释放自车及对向博弈车的纵向加速度维度，张成第一个自车及对向博弈车的纵向采样策略空间。考虑自车及对向博弈车的车辆纵向/横向动力学、运动学约束、自车及对向博弈车的相对位置关系和相对速度关系，确定自车及对向博弈车的纵向加速度取值区间均为[-4,3]，单位为m/s ²，确定自车及对向博弈车的采样间隔均为1m/s ²。

张成的该策略空间以二维表格展示如表2所示。表2的第一行罗列了自车的纵向加速度值的全部取值，Ae；第一列罗列了对向博弈车的纵向加速度值的全部取值，Ao2。也即，本次释放的自车及对向博弈车的纵向采样策略空间中包括8乘以8，共64个自车及对向博弈车的纵向加速度行为动作对。

表2.释放的自车及对向博弈车的纵向采样策略空间

S142：根据预先定义的各代价值确定方法，如各代价函数，分别计算自车及向博弈车的纵向采样策略空间中各行为动作对对应的代价值，并确定策略可行域。

在释放的64个行为动作对中，自车及对向博弈车执行其中9个采样动作后，在自车及对向博弈车构建的子交通场景中，通过性太差(如刹停)，为不可行解，在表2中，这些动作对用标签“0”来标识。

在释放的64个行为动作对中，自车及对向博弈车执行其中55个采样动作后，在自车及对向博弈车构建的子交通场景中，安全性太差(如碰撞)，为不可行解，在表2中，这些动作对用标签“-1”来标识。

也即，自车及对向博弈车执行释放的64个行为动作对后，在自车及对向博弈车构建的子交通场景中，安全性代价值或通过性代价值均大于预先设定的代价阈值，第一次释放的策略空间内没有可行解，自车及对向博弈车的策略可行域为空。

S143：释放自车的横向偏移维度，与所述自车及对向博弈车的纵向加速度维度张成第二个自车及对向博弈车的策略空间。

具体的，释放自车在横向偏移维度上的部分取值与自车及对向博弈车在纵向加速度维度上的部分取值，张成第二个自车及对向博弈车的策略空间。

首先，从自车与对向博弈车的多维博弈空间内，确定自车及对向博弈车在横向偏移维度上张成的最大横向采样策略空间。图10示出了针对这2个车辆分别针对横向偏移采样而确定的横向采样动作的示意图。也即，多个横向偏移行为动作对应于车辆可以执行的多条相互平行的横向偏移轨迹。

考虑自车及对向博弈车的车辆纵向/横向动力学、运动学约束、自车及对向博弈车的相对位置关系和相对速度关系，确定自车及对向博弈车的横向偏移取值区间均为[-3,3]，单位为m，m表示米。在采样时，根据自车的计算能力和预先设定的决策精度，确定自车及对向博弈车的采样间隔均为1m，这时释放的自车及对向博弈车的横向采样策略空间以二维表格展示如表3的上子表所示。表3的上子表的第一行罗列了自车的横向偏移值的全部取值Oe，第一列罗列了对向博弈车的横向偏移值的全部取值Oo2。故自车及对向博弈车在横向偏移维度上张成的横向采样策略空间中最多包括7乘以7，也即49个自车及对向博弈车的横向偏移行为动作对。

车辆行驶时，不能独立发生横向偏移而不发生纵向行为动作。因此，在释放自车及对向博弈车的横向采样策略空间的同时，需释放自车及对向博弈车在纵向加速度维度上的多个行为动作对。

为了减少算力、节约计算资源，在本次释放时，只释放自车在横向偏移维度上的部分取值，并与自车及对向博弈车在纵向采样维度纵向加速度维度上的部分取值张成第二次释放的策略空间。这时，对向博弈车的横向偏移值为零。如表3的上子表所示，从横向采样策略空间中，选择对向博弈车的横向偏移值为0及自车的横向偏移值分别为-3，-2，-1,0,1，2或3组成7个横向偏移行为动作对。用这7个横向偏移行为动作对分别与前一次释放的64个自车及对向博弈车的纵向加速度行为动作对(如表2所示)进行组合，可以得到7乘以64，也即448个由行为动作对，这时，每一个行为动作对中，对向博弈车的横向偏移值为0。与自车及对向博弈车的纵向加速度采样对应的策略空间最多可以释放64个行为动作对相比，这时释放的行为动作对的数量增加了6倍，为第一次释放的7倍。

S144：根据各代价值确定方法，如各代价函数，分别计算自车在横向偏移维度上的部分取值与自车及对向博弈车在纵向加速度维度上的部分取值张成第二次释放的策略空间中各行为动作对对应的代价值，并确定策略可行域。

如表3的下子表所示，在自车横向偏移值为1时，在释放的64个自车与对向博弈车的纵向加速度行为动作对中，自车及对向博弈车执行其中16个采样动作后，在自车及对向博弈车构建的子交通场景中，通过性太差(如刹停)，为不可行解，在表3中，这些动作对用标签“0”来标识。

在自车横向偏移值为1时，在释放的64个自车与对向博弈车纵向加速度行为动作对中，自车及对向博弈车执行其中48个采样动作后，在自车及对向博弈车构建的子交通场景中，安全性、舒适性、通过性、横向偏移代价值、路权代价值、风险区域代价值、帧间关联性代价值的加权和大于预先设定的代价阈值，为该策略空间内的可行解，构成了自车及对向博弈车的策略可行域。在表3中，这48个动作对用标签“1”来标识。这时，因为是在当前帧交互博弈，不涉及前一帧的决策结果，因此帧间关联性代价值为零。

这时，自车与对向博弈车的交互博弈已经找到48个可行解，不再需要继续在自车与对向博弈车的博弈空间内寻找解决方案。这时，搜索的行为动作对总数为64，本轮博弈消耗了较少的算力和较少的计算时间。

也即，用对向博弈车的横向偏移值为0及自车的横向偏移值为1的横向偏移行为动作对分别与前一次释放的64个自车及对向博弈车的纵向加速度行为动作对进行组合，得到的64个行为动作对中，有48个可行解(表3中用阴影底纹示出了可行解)，这些可行解可以加入到自车及对向博弈车的策略可行域内。

这是因为，自车向右横向偏移1m(以自车为参考，向右横向偏移为正，向左横向偏移为负)后，由于自车及对向博弈车已在横向错开，在自车及对向博弈车的纵向采样策略空间内，其策略可行域覆盖了除两车都刹停外的所有情况(表3中用底纹示出了该动作对)。

并且，相对于表2，表3的下子表中自车及对向博弈车的纵向加速度分别为-1时对应的行为动作对的标签从“-1”调整到了“0”。这是因为，在自车向右横向偏移1m时，已经可以使得自车及对向博弈车不再具有碰撞风险，这些行为动作对映射到自车及对向博弈车构建的交通场景中的通过性太差(为刹停)，仍旧为不可行解，但是标签从“-1”调整为了“0”。

并且，这时，针对自车及对向博弈车也可以确定意图决策，并设置策略标签，可以参考步骤S132，这里不再赘述。

表3.自车及对向博弈车的横向采样策略空间、自车及对向博弈车的纵向采样策略空间共同张成的策略空间

以上就自车与对向博弈车的策略空间的释放,还可以在自车的横向偏移维度上选择多个采样值，如，自车的横向偏移值分别为2或3，并与自车与对向博弈车的纵向加速度采样策略空间共同张成更多的策略空间。

本实施例中，用对向博弈车的横向偏移值为0及自车的横向偏移值为1的横向偏移行为动作对及前一次释放的64个自车及对向博弈车的纵向加速度行为动作对张成第二次释放的策略空间，并从该策略空间中搜索到48个可行解，因此，不再需要释放其他的策略空间这时，交互博弈消耗了较少的算力和较少的计算时间。

表4.自车及对向博弈车、与自车及横穿博弈车的可行解

S150：就自车及对向博弈车的策略可行域与自车及横穿博弈车的策略可行域求交集，确定自车的博弈结果。

针对确定的自车及横穿博弈车的策略可行域和自车及对向博弈车的策略可行域取交集，找到两者的公共可行域，并从公共可行域中找到代价值最小(也即收益最好)的可行解。

表4展示了表3中自车及对向博弈车的策略可行域与表1中自车及横穿博弈车的策略可行域的公共可行域中找到的代价值最小(也即收益最好)的可行解。该可行解为自车、对向博弈车及横穿博弈车的博弈决策动作对，是由自车的纵向加速度、对向博弈车的纵向加速度、自车的横向偏移、横穿博弈车的纵向加速度组合而成的多元行为动作对。

也即，即自车以-2m/s ²纵向加速度减速让行，并向右横向偏移1m避让对向博弈车；为保证通行性，横穿博弈车以1m/s ²纵向加速度加速通过冲突区域；对向博弈车以1m/s ²纵向加速度加速通过冲突区域。

自车、对向博弈车及横穿博弈车执行其中该行为动作后，意图决策分别是：横穿博弈车抢行自车，对向博弈车抢行自车，及自车横向向右避让对向博弈车，自车让行横穿博弈车。

S160：从自车的博弈结果中，选择决策结果，可以选择代价值最小的对应的动作对，据此确定出自车的可执行动作，可用于控制自车执行该动作。

在一些实施例中，对于博弈结果中的多个策略可行域，可以根据代价值来选择出一动作对作为决策结果。

在一些实施例中，对于博弈结果中的策略可行域中的多个解(即行为动作对)，还可以进一步针对各个解进行连续多帧推演，也即，释放时间采样维度，以选择出在时间维度上一致性较好的行为动作对，作为自车行驶的决策结果。具体可以参照前述对图7的描述。

如图12所示，本申请还提供了相应的一种智能驾驶决策装置的实施例，关于该装置的有益效果或解决的技术问题，可以参见与各装置分别对应的方法中的描述，或者参见发明内容中的描述，此处不再一一赘述。

在该智能驾驶决策装置的实施例中，该智能驾驶决策装置100包括：

获取模块110，用于获取与自车的博弈对象。具体的，用于执行上述步骤S10或步骤S110-S120，或该步骤对应的各个可选的实施例。

处理模块120，用于从自车与博弈对象的多个策略空间中，执行多个策略空间的多次释放，当多次释放中的一次释放执行后，根据已经释放的各策略空间确定自车与博弈对象的策略可行域，根据策略可行域确定自车行驶的决策结果。具体的，用于执行上述步骤S20-S40，或该步骤对应的各个可选的实施例。

在一些实施例中，多个策略空间的维度包括至少以下之一：纵向采样维度、横向采样维度、或时间采样维度。

在一些实施例中，执行多个策略空间的多次释放包括按照以下维度的顺序执行所述释放：纵向采样维度、横向采样维度、时间采样维度。

在一些实施例中，确定自车与博弈对象的策略可行域时，策略可行域中的行为动作对的总代价值，根据以下之一或多个确定：自车或博弈对象的安全性代价值、路权代价值、横向偏移代价值、通过性代价值、舒适性代价值、帧间关联性代价值、风险区域代价值。

在一些实施例中，行为动作对的总代价值根据两个或两个以上的代价值进行确定时，各代价值具有不同的权重。

在一些实施例中，博弈对象包括两个或两个以上时，自车行驶的决策结果根据自车与各博弈对象的各策略可行域确定。

在一些实施例中，获取模块110，还用于获取自车的非博弈对象；处理模块120，还用于确定出自车与非博弈对象的策略可行域；自车与非博弈对象的策略可行域包括自车相对于非博弈对象可执行的行为动作；至少根据自车与非博弈对象的策略可行域确定自车行驶的决策结果。

在一些实施例中，处理模块120，还用于根据自车与各博弈对象的各策略可行域的交集确定自车行驶的决策结果的策略可行域，或根据自车与各博弈对象的各策略可行域以及自车与各非博弈对象的各策略可行域的交集确定自车行驶的决策结果的策略可行域。

在一些实施例中，获取模块110，还用于获取自车的非博弈对象；处理模块120，还用于根据非博弈对象的运动状态，约束与自车对应的纵向采样策略空间，或约束与自车对应的横向采样策略空间。

在一些实施例中，获取模块110，还用于获取自车的博弈对象的非博弈对象；处理模块120，还用于根据非博弈对象的运动状态，约束与自车的博弈对象对应的纵向采样策略空间，或约束与自车的博弈对象对应的横向采样策略空间。

在一些实施例中，交集为空集时，执行自车行驶的保守决策，保守决策包括使自车安全停车的动作，或，使自车安全减速行驶的动作。

在一些实施例中，博弈对象或非博弈对象，根据注意力方式进行确定。

在一些实施例中，处理模块120，还用于通过人机交互界面显示至少以下之一：自车行驶的决策结果、决策结果的策略可行域、自车行驶的决策结果对应的自车行驶轨迹、或自车行驶的决策结果对应的博弈对象的行驶轨迹。

以上，自车行驶的决策结果可以是当前单帧推演的决策结果，还可以是已经执行的多个单帧推演分别对应的决策结果，决策结果可以是自车可执行的行为动作，还可以是博弈对象可执行的行为动作，还可以是自车执行该行为动作对应的意图决策如表1中的Cg或Cy，如抢行、让行或避让。

以上，决策结果的策略可行域可以是当前单帧推演的策略可行域，还可以是已经执行的多个单帧推演分别对应的策略可行域。

以上，自车行驶的决策结果对应的自车行驶轨迹可以是在一步决策中第一个单帧推演对应的自车行驶轨迹，如图7中的T1，还可以是在一步决策中已经执行的多个单帧推演依次连接而成的自车行驶轨迹，如图7中的T1、T2、及Tn。

以上，自车行驶的决策结果对应的博弈对象的行驶轨迹可以是在一步决策中第一个单帧推演对应的博弈对象的行驶轨迹，如图7中的T1，还可以是在一步决策中已经执行的多个单帧推演依次连接而成的博弈对象的行驶轨迹，如图7中的T1、T2、及 Tn。

如图13所示，本申请实施例还提供了一种车辆行驶控制方法，包括：

S210：获取车外障碍物信息；

S220：针对所述障碍物信息，根据以上任一智能驾驶决策方法确定车辆行驶的决策结果；

S230：根据所述决策结果控制车辆的行驶。

如图14所示，本申请实施例还提供了一种车辆行驶控制装置200，包括：获取模块210，用于获取车外障碍物；处理模块220，用于针对所述障碍物，根据以上任一智能驾驶决策方法确定车辆行驶的决策结果；处理模块还用于根据所述决策结果控制车辆的行驶。

如图15所示，本申请实施例还提供了一种车辆300，包括：上述车辆行驶控制装置200，及行驶***250；所述车辆行驶控制装置200控制所述行驶***250。在一些实施例中，行驶***250可以包括前述图2中的行驶***13。

图16是本申请实施例提供的一种计算设备400的结构性示意性图。该计算设备400包括：处理器410、存储器420，还可以包括通信接口430。

应理解，该图16中所示的计算设备400中的通信接口430可以用于与其他设备之间进行通信。

其中，该处理器410可以与存储器420连接。该存储器420可以用于存储该程序代码和数据。因此，该存储器420可以是处理器410内部的存储单元，也可以是与处理器410独立的外部存储单元，还可以是包括处理器410内部的存储单元和与处理器410独立的外部存储单元的部件。

可选的，计算设备400还可以包括总线。其中，存储器420、通信接口430可以通过总线与处理器410连接。总线可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。

应理解，在本申请实施例中，该处理器410可以采用中央处理单元(central processing unit，CPU)。该处理器还可以是其它通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(Application specific integrated circuit，ASIC)、现成可编程门矩阵(field programmable gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。或者该处理器410采用一个或多个集成电路，用于执行相关程序，以实现本申请实施例所提供的技术方案。

该存储器420可以包括只读存储器和随机存取存储器，并向处理器410提供指令和数据。处理器410的一部分还可以包括非易失性随机存取存储器。例如，处理器410还可以存储设备类型的信息。

在计算设备400运行时，所述处理器410执行所述存储器420中的计算机执行指令执行上述方法的操作步骤。

应理解，根据本申请实施例的计算设备400可以对应于执行根据本申请各实施例的方法中的相应主体，并且计算设备400中的各个模块的上述和其它操作和/或功能分别为了实现本实施例各方法的相应流程，为了简洁，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行上述方法，该方法包括上述各个实施例所描述的方案中的至少之一。

本申请实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括、但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

其中，说明书和权利要求书中的词语“第一、第二、第三等”或模块A、模块B、模块C等类似用语，仅用于区别类似的对象，不代表针对对象的特定排序，可以理解地，在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在以上的描述中，所涉及的表示步骤的标号，如S116、S124……等，并不表示一定会按此步骤执行，在允许的情况下可以互换前后步骤的顺序，或同时执行。

说明书和权利要求书中使用的术语“包括”不应解释为限制于其后列出的内容；它不排除其它的元件或步骤。因此，其应当诠释为指定所提到的所述特征、整体、步骤或部件的存在，但并不排除存在或添加一个或更多其它特征、整体、步骤或部件及其组群。因此，表述“包括装置A和B的设备”不应局限为仅由部件A和B组成的设备。

本说明书中提到的“一个实施例”或“实施例”意味着与该实施例结合描述的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在本说明书各处出现的用语“在一个实施例中”或“在实施例中”并不一定都指同一实施例，但可以指同一实施例。此外，在一个或多个实施例中，能够以任何适当的方式组合各特定特征、结构或特性，如从本公开对本领域的普通技术人员显而易见的那样。注意，上述仅为本申请的较佳实施例及所运用的技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请的构思的情况下，还可以包括更多其他等效实施例，均属于本申请的保护范畴。

Claims

一种智能驾驶决策方法，其特征在于，包括：

获取自车的博弈对象；

从自车与所述博弈对象的多个策略空间中，执行所述多个策略空间的多次释放，当所述多次释放中的一次释放执行后，根据已经释放的各所述策略空间确定自车与所述博弈对象的策略可行域，根据所述策略可行域确定所述自车行驶的决策结果。
根据权利要求1所述的方法，其特征在于，

所述多个策略空间的维度包括至少以下之一：纵向采样维度、横向采样维度、或时间采样维度。
根据权利要求2所述的方法，其特征在于，所述执行所述多个策略空间的多次释放包括按照以下维度的顺序执行所述释放：纵向采样维度、横向采样维度、时间采样维度。
根据权利要求1-3任一所述的方法，其特征在于，所述确定自车与所述博弈对象的策略可行域时，所述策略可行域中的行为动作对的总代价值，根据以下之一或多个确定：

自车或博弈对象的安全性代价值、路权代价值、横向偏移代价值、通过性代价值、舒适性代价值、帧间关联性代价值、风险区域代价值。
根据权利要求4所述的方法，其特征在于，所述行为动作对的总代价值根据两个或两个以上的代价值进行确定时，各所述代价值具有不同的权重。
根据权利要求1所述的方法，其特征在于，所述博弈对象包括两个或两个以上时，所述自车行驶的决策结果根据自车与各所述博弈对象的各策略可行域确定。
根据权利要求1-6任一所述的方法，其特征在于，还包括：

获取自车的非博弈对象；

确定出自车与所述非博弈对象的策略可行域；

至少根据自车与所述非博弈对象的策略可行域确定所述自车行驶的决策结果。
根据权利要求6或7所述的方法，其特征在于，根据自车与各所述博弈对象的各策略可行域的交集确定所述自车行驶的决策结果的策略可行域，或

根据自车与各所述博弈对象的各策略可行域以及自车与各所述非博弈对象的各策略可行域的交集确定所述自车行驶的决策结果的策略可行域。
根据权利要求2-8任一所述的方法，其特征在于，还包括：

获取自车的非博弈对象；

根据所述非博弈对象的运动状态，约束与自车对应的纵向采样策略空间，或约束与自车对应的横向采样策略空间。
根据权利要求2-8任一所述的方法，其特征在于，还包括：

获取自车的博弈对象的非博弈对象；

根据所述非博弈对象的运动状态，约束与自车的博弈对象对应的纵向采样策略空间，或约束与自车的博弈对象对应的横向采样策略空间。
根据权利要求8所述的方法，其特征在于，所述交集为空集时，执行自车行驶的保守决策，所述保守决策包括使所述自车安全停车的动作，或，使所述自车安全减速行驶的动作。
根据权利要求1所述的方法，其特征在于，所述博弈对象或非博弈对象，根据注意力方式进行确定。
根据权利要求1-12任一所述的方法，其特征在于，还包括：通过人机交互界面显示至少以下之一：

所述自车行驶的决策结果、所述决策结果的策略可行域、所述自车行驶的决策结果对应的自车行驶轨迹、或所述自车行驶的决策结果对应的博弈对象的行驶轨迹。
一种智能驾驶决策装置，其特征在于，包括：

获取模块，用于获取自车的博弈对象；

处理模块，用于从自车与所述博弈对象的多个策略空间中，执行所述多个策略空间的多次释放，当所述多次释放中的一次释放执行后，根据已经释放的各所述策略空间确定自车与所述博弈对象的策略可行域，根据所述策略可行域确定所述自车行驶的决策结果。
根据权利要求14所述的装置，其特征在于，

所述多个策略空间的维度包括至少以下之一：纵向采样维度、横向采样维度、或时间采样维度。
根据权利要求15所述的装置，其特征在于，所述执行所述多个策略空间的多次释放包括按照以下维度的顺序执行所述释放：纵向采样维度、横向采样维度、时间采样维度。
根据权利要求14-16任一所述的装置，其特征在于，所述确定自车与所述博弈对象的策略可行域时，所述策略可行域中的行为动作对的总代价值，根据以下之一或多个确定：

自车或博弈对象的安全性代价值、路权代价值、横向偏移代价值、通过性代价值、舒适性代价值、帧间关联性代价值、风险区域代价值。
根据权利要求17所述的装置，其特征在于，所述行为动作对的总代价值根据两个或两个以上的代价值进行确定时，各所述代价值具有不同的权重。
根据权利要求14所述的装置，其特征在于，所述博弈对象包括两个或两个以上时，所述自车行驶的决策结果根据自车与各所述博弈对象的各策略可行域确定。
根据权利要求14-19任一所述的装置，其特征在于，所述获取模块还用于获取自车的非博弈对象；

所述处理模块还用于确定出自车与所述非博弈对象的策略可行域；以及用于至少根据自车与所述非博弈对象的策略可行域确定所述自车行驶的决策结果。
根据权利要求19或20所述的装置，其特征在于，所述处理模块还用于：

根据自车与各所述博弈对象的各策略可行域的交集确定所述自车行驶的决策结果的策略可行域，或

根据自车与各所述博弈对象的各策略可行域以及自车与各所述非博弈对象的各策略可行域的交集确定所述自车行驶的决策结果的策略可行域。
根据权利要求15-21任一所述的装置，其特征在于，

所述获取模块还用于获取自车的非博弈对象；

所述处理模块还用于根据所述非博弈对象的运动状态，约束与自车对应的纵向采样策略空间，或约束与自车对应的横向采样策略空间。
根据权利要求15-21任一所述的装置，其特征在于，

所述获取模块还用于获取自车的博弈对象的非博弈对象；

所述处理模块还用于根据所述非博弈对象的运动状态，约束与自车的博弈对象对应的纵向采样策略空间，或约束与自车的博弈对象对应的横向采样策略空间。
根据权利要求21所述的装置，其特征在于，所述交集为空集时，执行自车行驶的保守决策，所述保守决策包括使所述自车安全停车的动作，或，使所述自车安全减速行驶的动作。
根据权利要求14所述的装置，其特征在于，所述博弈对象或非博弈对象，根据注意力方式进行确定。
根据权利要求14所述的装置，其特征在于，所述处理模块还用于通过人机交互界面显示至少以下之一：

所述自车行驶的决策结果、所述决策结果的策略可行域、所述自车行驶的决策结果对应的自车行驶轨迹、或所述自车行驶的决策结果对应的博弈对象的行驶轨迹。
一种车辆行驶控制方法，其特征在于，包括：

获取车外障碍物；

针对所述障碍物，根据权利要求1-13任一所述方法确定车辆行驶的决策结果；

根据所述决策结果控制车辆的行驶。
一种车辆行驶控制装置，其特征在于，包括：

获取模块，用于获取车外障碍物；

处理模块，用于针对所述障碍物，根据权利要求1-13任一所述方法确定车辆行驶的决策结果；

所述处理模块还用于根据所述决策结果控制车辆的行驶。
一种车辆，其特征在于，包括：

如权利要求28所述的车辆行驶控制装置，及行驶***；

所述车辆行驶控制装置控制所述行驶***。
一种计算设备，其特征在于，包括：

处理器，以及

存储器，其上存储有程序指令，所述程序指令当被所述处理器执行时使得所述处理器实现权利要求1-13任一所述的智能驾驶决策方法，或所述程序指令当被所述处理器执行时使得所述处理器实现权利要求27所述的车辆行驶控制方法。
一种计算机可读存储介质，其特征在于，其上存储有程序指令，所述程序指令当被处理器执行时使得所述处理器实现权利要求1-13任一所述的智能驾驶决策方法，或所述程序指令当被所述处理器执行时使得所述处理器实现权利要求27所述的车辆行驶控制方法。