CN117227763B

CN117227763B - 基于博弈论和强化学习的自动驾驶行为决策方法和装置

Info

Publication number: CN117227763B
Application number: CN202311490770.4A
Authority: CN
Inventors: 吕杨; 吕强; 苗乾坤
Original assignee: Neolix Technologies Co Ltd
Current assignee: Neolix Technologies Co Ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-02-20
Anticipated expiration: 2043-11-10
Also published as: CN117227763A

Abstract

本发明公开了一种基于博弈论和强化学***均概率，标定博弈模型的参数；基于标定的博弈模型，计算历史时刻各个其他智能体选择抢行的概率；基于历史时刻自车的状态信息、多个其他智能体的状态信息、自车纵向动作集合和历史时刻各个其他智能体选择抢行的概率、预设的状态转移模型和预设的奖励函数训练强化学习模型；将当前时刻自车的状态信息、其他智能体的状态信息和其他智能体选择抢行的概率，输入训练好的强化学习模型，得到下一时刻自车的纵向动作。该实施方式适用于不同场景中。

Description

基于博弈论和强化学习的自动驾驶行为决策方法和装置

技术领域

本发明涉及自动驾驶技术领域，尤其涉及一种基于博弈论和强化学习的自动驾驶行为决策方法和装置。

背景技术

为了提高自动驾驶车辆对动态复杂环境的自适应能力，通常需要基于其他智能体的状态信息，预测其他智能体未来的交互意图，以便于自动驾驶车辆根据该交互意图做出合理的应对动作。

现有技术通常使用数学模型描述行车环境，然后使用优化算法求解最优解。该方法不仅需要通过数学模型描述行车环境，而且需要假设行车环境是静态的，针对一些非静态、非线性的场景，该方法难以适用。

发明内容

有鉴于此，本发明实施例提供一种基于博弈论和强化学习的自动驾驶行为决策方法和装置，无需通过数学模型描述行车环境，能够适用于不同场景中。

第一方面，本发明实施例提供了一种基于博弈论和强化学习的自动驾驶行为决策方法，包括：

获取历史时刻自车的状态信息和历史时刻与自车关联的多个其他智能体的状态信息；

基于所述历史时刻自车的状态信息和所述多个其他智能体的状态信息，计算历史时刻多个其他智能体选择抢行的平均概率；

基于所述历史时刻多个其他智能体选择抢行的平均概率、所述历史时刻自车的状态信息和所述多个其他智能体的状态信息，标定博弈模型的参数；

基于所述历史时刻自车的状态信息、所述多个其他智能体的状态信息和经过标定的博弈模型，计算历史时刻各个其他智能体选择抢行的概率；

基于所述历史时刻自车的状态信息、所述多个其他智能体的状态信息、预设的自车纵向动作集合和所述历史时刻各个其他智能体选择抢行的概率、预设的状态转移模型和预设的奖励函数训练强化学习模型；

基于当前时刻自车的位置，确定当前时刻与自车关联的其他智能体；

采集当前时刻自车的状态信息和当前时刻其他智能体的状态信息；

基于所述当前时刻自车的状态信息、所述当前时刻其他智能体的状态信息和经过标定的博弈模型，计算当前时刻其他智能体选择抢行的概率；

将所述当前时刻自车的状态信息、所述当前时刻其他智能体的状态信息和所述当前时刻其他智能体选择抢行的概率，输入训练好的强化学习模型，得到下一时刻自车的纵向动作。

第二方面，本发明实施例提供了一种基于博弈论和强化学习的自动驾驶行为决策装置，包括：

获取模块，配置为获取历史时刻自车的状态信息和历史时刻与自车关联的多个其他智能体的状态信息；

标定模块，配置为基于所述历史时刻自车的状态信息和所述多个其他智能体的状态信息，计算历史时刻多个其他智能体选择抢行的平均概率；基于所述历史时刻多个其他智能体选择抢行的平均概率、所述历史时刻自车的状态信息和所述多个其他智能体的状态信息，标定博弈模型的参数；

训练模块，配置为基于所述历史时刻自车的状态信息、所述多个其他智能体的状态信息和经过标定的博弈模型，计算历史时刻各个其他智能体选择抢行的概率；基于所述历史时刻自车的状态信息、所述多个其他智能体的状态信息、预设的自车纵向动作集合和所述历史时刻各个其他智能体选择抢行的概率、预设的状态转移模型和预设的奖励函数训练强化学习模型；

预测模块，配置为基于当前时刻自车的位置，确定当前时刻与自车关联的其他智能体；采集当前时刻自车的状态信息和当前时刻其他智能体的状态信息；基于所述当前时刻自车的状态信息、所述当前时刻其他智能体的状态信息和经过标定的博弈模型，计算当前时刻其他智能体选择抢行的概率；将所述当前时刻自车的状态信息、所述当前时刻其他智能体的状态信息和所述当前时刻其他智能体选择抢行的概率，输入训练好的强化学习模型，得到下一时刻自车的纵向动作。

第三方面，本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述任一实施例所述的方法。

第四方面，本发明实施例提供了一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如上述任一实施例所述的方法。

上述发明中的一个实施例具有如下优点或有益效果：博弈模型基于博弈论确定其他智能体的交互意图，即其他智能体选择抢行的概率，考虑了不同策略的收益，能够提高交互意图识别的准确度。强化学习模型通过与环境的交互学习智能体的行为特征，不需要事先通过数学模型描述行车环境。强化学习模型可以应用于非线性、非静态等多种交互环境中，满足不同场景的需求。强化学习模型能够考虑决策行为的长期回报，能够在不断与环境的交互过程中改进自身的决策策略，逐渐逼近最优策略，具有较强的自适应性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是本发明的一个实施例提供的一种基于博弈论和强化学习的自动驾驶行为决策方法的流程图；

图2是本发明的一个实施例提供的一种冲突区域的示意图；

图3是本发明的一个实施例提供的一种行人过街概率随时间变化的示意图；

图4是本发明的一个实施例提供的一种行人速度随时间变化的示意图；

图5是本发明的一个实施例提供的一种行人纵向位置随时间变化的示意图；

图6是本发明的一个实施例提供的一种车辆加速度随时间变化的示意图；

图7是本发明的一个实施例提供的一种车辆速度随时间变化的示意图；

图8是本发明的一个实施例提供的一种自车与冲突区域的纵向距离的示意图；

图9是本发明的一个实施例提供的一种基于博弈论和强化学习的自动驾驶行为决策装置的示意图；

图10是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本发明实施例一种基于博弈论和强化学习的自动驾驶行为决策方法，包括：

步骤101：获取历史时刻自车的状态信息和历史时刻与自车关联的多个其他智能体的状态信息。

具体地，可以从数据池中获取历史时刻自车的状态信息和其他智能体的状态信息，这数据池中存储决策时自车与其他智能体的状态信息，还可以存储实际决策行为，例如，自车的纵向动作。与自车关联的其他智能体，可以通过自车的位置以及自车的感知范围确定。状态信息可以包括位置和速度等。

步骤102：基于历史时刻自车的状态信息和多个其他智能体的状态信息，计算历史时刻多个其他智能体选择抢行的平均概率。

平均概率，通过对多个其他智能体的行为结果进行统计获得，例如，10个其他智能体中有6个选择抢行，4个选择让行，则平均概率为60%。

步骤103：基于历史时刻多个其他智能体选择抢行的平均概率、历史时刻自车的状态信息和多个其他智能体的状态信息，标定博弈模型的参数。

博弈模型可以有多种实现形式，将在后续实施例进行详细说明。

步骤104：基于历史时刻自车的状态信息、多个其他智能体的状态信息和经过标定的博弈模型，计算历史时刻各个其他智能体选择抢行的概率。

步骤105：基于历史时刻自车的状态信息、多个其他智能体的状态信息、预设的自车纵向动作集合和历史时刻各个其他智能体选择抢行的概率、预设的状态转移模型和预设的奖励函数训练强化学习模型。

强化学习模型可以为MDP（Markov Decision Process, 马尔可夫决策过程），求解马尔可夫决策过程可以采用A3C（Asynchronous Advantage Actor-Critic, 异步优势动作评价）算法。本发明实施例考虑自车的动向动作，自车纵向动作集合中可以包括多种动作，如加速、减速和匀速。优选地，加速度取值范围为[-5,3]。例如，在一种场景中，自车纵向动作为加速度2m/s²。

A3C算法求解计算过程参数包括worker数量、折减系数、探索度、最大回合数、单回合最大运行步数、actor网络学习率和critic网络学习率。

强化学习模型还可以为DQN（Deep Q-Network, 深度Q网络）、DDPG （DeepDeterministic Policy Gradient，深度确定性策略梯度）算法。

步骤106：基于当前时刻自车的位置，确定当前时刻与自车关联的其他智能体。

步骤107：采集当前时刻自车的状态信息和当前时刻其他智能体的状态信息。

通过自车上安装的感知模块采集当前时刻自车及其他智能体的状态信息，这些信息将被存储至数据池中，以用于在线标定博弈模型和离线训练强化学习模型。在实际应用场景中，可以间隔预设的时间在线标定博弈模型和离线训练强化学习模型，具体时间间隔可以根据业务需求进行调整。

步骤108：基于当前时刻自车的状态信息、当前时刻其他智能体的状态信息和经过标定的博弈模型，计算当前时刻其他智能体选择抢行的概率。

步骤109：将当前时刻自车的状态信息、当前时刻其他智能体的状态信息和当前时刻其他智能体选择抢行的概率，输入训练好的强化学习模型，得到下一时刻自车的纵向动作。

在本发明实施例中，博弈模型基于博弈论确定其他智能体的交互意图，即其他智能体选择抢行的概率，考虑了不同策略的收益，能够提高交互意图识别的准确度。强化学习模型通过与环境的交互学习智能体的行为特征，不需要事先通过数学模型描述行车环境。强化学习模型可以应用于非线性、非静态等多种交互环境中，满足不同场景的需求。强化学习模型能够考虑决策行为的长期回报，能够在不断与环境的交互过程中改进自身的决策策略，逐渐逼近最优策略，具有较强的自适应性。

在本发明的一个实施例中，基于当前时刻自车的位置，确定当前时刻与自车关联的其他智能体，包括：

当前时刻自车的位置、与自车关联的其他智能体的位置，满足式（1）：

（1）

其中，和为当前时刻自车i的位置坐标，和为当前时刻其他智能体j的位置坐标，为自车的感知范围。

自车与其他智能体是否关联，可以通过自车与其他智能体的绝对值距离确定，如果两者的绝对值距离不大于自车的感知范围，则两者关联，否则，不关联。在实际应用场景中，还可以通过其他距离衡量，如欧式距离等。

本发明实施例能够准确地确定与自车关联的其他智能体，提高决策准确性和安全性。

在本发明的一个实施例中，基于当前时刻自车的状态信息、当前时刻其他智能体的状态信息和经过标定的博弈模型，计算当前时刻其他智能体选择抢行的概率，包括：

基于当前时刻自车的状态信息、当前时刻其他智能体的状态信息、经过标定的博弈模型的参数和预设的支付矩阵，计算其他智能体选择抢行自车选择让行时自车的收益、其他智能体和自车同时选择让行时自车的收益、其他智能体选择让行自车选择抢行时自车的收益、以及其他智能体和自车同时选择抢行时自车的收益；

根据其他智能体选择抢行自车选择让行时自车的收益、其他智能体和自车同时选择让行时自车的收益、其他智能体选择让行自车选择抢行时自车的收益、其他智能体和自车同时选择抢行时自车的收益以及经过标定的博弈模型，计算当前时刻其他智能体选择抢行的概率。

本发明实施例提出的博弈模型，可用于模拟其他智能体和自车交互时双方的决策过程，其他智能体和自车都可以先于对方通过冲突区域，或者选择等待并让对方先通过冲突区域。

冲突区域由自车和其他智能体的形状以及路径确定。如图2所示，CD为他车的路径，AB为自车的路径，矩形虚线框表示他车的形状，边界线1-4围成的区域即为冲突区域。

博弈模型涉及智能体、策略和收益，其中，两个智能体分别为自车和其他智能体，策略包括抢行和让行。

博弈模型将收益解耦为以下两种效用的总和：

（1）风险感知效用，用于表征两个智能体发生碰撞时产生的不愉快体验，建模为1/TTC（Time to Collision）；

（2）时间延误效用，用于表征一个智能体选择让行所产生的时间损失，等于另一智能体以当前状态通过冲突区域所需时间。

自车和其他智能体的博弈收益应满足以下原则：

（1）如果自车和其他智能体同时选择抢行，自车和其他智能体都将损失风险感知效用和部分的时间延误效用；

（2）当其他智能体选择抢行而自车选择让行时，其他智能体将获得时间延误效用和风险感知效用，自车获得风险感知效用，自车由于选择等待而损失时间延误效用；

（3）当其他智能体选择让行而自车选择抢行时，自车将获得时间延误效用和风险感知效用，其他智能体获得风险感知效用，其他智能体由于选择等待而损失时间延误效用；

（4）当自车和其他智能体都选择让行时，它们都将获得风险感知效用，但由于选择等待而同时损失时间延误效用。

具体地，支付矩阵如表1所示。从表1可以看出，博弈的纳什均衡解不唯一，存在“其他智能体抢行、自车让行”和“其他智能体让行、自车抢行”两种策略。从稳定性的角度来看，这两种策略的组合各有优势，因此在演化过程中是不稳定的。基于纳什均衡原理，不存在纯策略纳什均衡解，博弈模型的解存在混合优势策略组合。因此，本发明实施例以其他智能体行为决策为目标，使用混合策略算法求解博弈模型。需要说明的是，支付矩阵的具体形式可以根据业务场景的需求进行调整。

由表1可知，其他智能体抢行、自车抢行时，自车的收益为-k₁-act₁，其他智能体的收益为-k₂-act₂；其他智能体让行、自车抢行时，自车的收益为k₁+at₁，其他智能体的收益为k₂-at₂；其他智能体抢行、自车让行时，自车的收益为k₁-at₁，其他智能体的收益为k₂+at₂；其他智能体让行、自车让行时，自车的收益为k₁-at₁，其他智能体的收益为k₂-at₂。

表1

a为博弈模型的参数，随着其他智能体的累计等待时间而变化；c为博弈模型的参数，用于表征当自车和其他智能体同时选择抢行时，时间延误效用的系数；t₁为自车通过冲突区域所需的时间，即自车的时间延误效用；t₂为其他智能体通过冲突区域所需的时间，即其他智能体的时间延误效用；，，k₁用于表征自车的风险感知效用，k₂用于表征其他智能体的风险感知效用，用于表征自车的速度，用于表征自车与冲突区域之间的距离。

混合策略求解算法中，假定其他智能体采用混合策略，自车采用混合策略，根据支付最大化原则，车辆的期望效用函数为式（2）：

（2）

令，得到式（3）。

（3）

进一步整理，得到式（4），即博弈模型。

（4）

其中，用于表征其他智能体选择抢行的概率，用于表征其他智能体选择抢行自车选择让行时自车的收益，用于表征其他智能体和自车同时选择让行时自车的收益，用于表征其他智能体选择让行自车选择抢行时自车的收益，用于表征其他智能体和自车同时选择抢行时自车的收益，用于表征自车选择抢行的概率。

本发明实施例基于博弈论，考虑了不同策略的效益，能够更加准确地计算其他智能体选择抢行的概率。

式（4）只是较优的一种实现形式，博弈模型还可以为式（5）。

（5）

在本发明的一个实施例，基于梯度下降法标定博弈模型的参数，其中，通过Adam算法进行选择步长。

在本发明的一个实施例中，如果状态转移得到的下一历史时刻自车的速度不小于0，则状态转移模型包括式（6）和式（7）：

（6）

（7）

否则，状态转移模型包括式（8）和式（9）：

（8）

（9）

其中，用于表征下一历史时刻自车与冲突区域的距离，冲突区域由自车的形状和行驶路径、其他智能体的形状和行驶路径确定，用于表征当前历史时刻自车与冲突区域的距离，用于表征当前历史时刻自车的速度，用于表征当前历史时刻与下一历史时刻的时间差，用于表征当前历史时刻自车的加速度，用于表征下一历史时刻自车的速度。

本发明实施例考虑到正常行驶过程中，车辆减速后的最小速度为0，如果通过式（7）计算得到的数值小于0，则选用式（8）和式（9）作为状态转移模型。

通过本发明实施例，可以准确地表征下一历史时刻自车的速度和自车与冲突区域的距离。

自车与其他智能体交互过程的目标包括：

（1）保持安全，不与其他智能体发生碰撞；

（2）与其他智能体保持合适的距离，以提高安全性和舒适性；

（3）及时通过冲突区域，提高效率；

（4）尽量避免急加速或急减速，保证车辆平稳运行。

基于上述目标，在本发明的一个实施例中，奖励函数包括：

（10）

其中，为当前历史时刻，为下一历史时刻，为下一历史时刻的奖励值，为安全值、用于衡量自车与其他智能体交互过程的安全性，为分离度、用于衡量自车与其他智能体交互过程的安全性和舒适性，为效率值、用于衡量自车与其他智能体交互过程的交互效率，为平稳值、用于衡量自车行驶过程中的速度变化，为预设的目标奖励、用于表征自车穿过并驶离冲突区域后获得的奖励，冲突区域由自车的形状和行驶路径、其他智能体的形状和行驶路径确定，、、、和分别为安全值、分离度、效率值、平稳值和目标奖励的权重。

本发明实施例从多个维度衡量交互过程，能够使交互过程同时考虑安全性、舒适性、交互效率等，提高决策结果的质量。需要说明的是，奖励函数还可以仅包括安全值、分离度、效率值、平稳值和目标奖励中的部分项，例如，安全值、效率值和平稳值，各项的计算方式也可以根据实际应用场景进行调整。

在本发明的一个实施例中，如式（11）所示。

（11）

其中，用于表征下一历史时刻自车的碰撞区和其他智能体的碰撞区的重叠面积，用于表征下一历史时刻自车的速度，用于表征下一历史时刻其他智能体的速度，为的权重，当时，为1，否则为0；智能体的碰撞区，为智能体的形状分别向纵向行驶方向和横向行驶方向膨胀1倍得到的区域，智能体包括自车和其他智能体。

本发明实施例通过自车的碰撞区与其他智能体的碰撞区的重叠面积，能够准确衡量自车与其他智能体交互的安全性，从而保证自车安全行驶。

在本发明的一个实施例中，如式（12）所示。

（12）

其中，用于表征下一历史时刻自车的分离区和其他智能体的分离区的重叠面积，用于表征下一历史时刻自车的速度，用于表征下一历史时刻其他智能体的速度，为的权重，当时，为1，否则为0；智能体的分离区，为智能体的形状分别向纵向行驶方向和横向行驶方向膨胀2倍得到的区域。

分离区与碰撞区的区别在于，分离区的安全裕度更大，分离区的膨胀系数为2，分离区主要是为了鼓励自车与其他智能体之间保持合理的距离，避免激进的行为。

通过本发明实施例，能够使自车与其他智能体保持合理的距离，提高行驶舒适性。

由于速度越快，通过交互区域的时间越短，因此，在本发明的一个实施例中，如式（13）所示。

（13）

其中，用于表征下一历史时刻自车的速度。

本发明实施例能够准确衡量自车与其他智能体的交互效率。

在本发明的一个实施例中，如式（14）所示。

（14）

其中，用于表征下一历史时刻自车的加速度。

为了鼓励车辆平稳驾驶，避免速度变化过大，本发明实施例针对加速和减速动作设置一个小的惩罚，如式（14）所示，进而提高车辆行驶的稳定性。

在本发明的一个实施例中，以其他智能体为行人为例，强化学习模型的输入为车辆纵向位置、车辆速度、行人纵向位置、行人过街速度和行人过街概率的离散值组成的向量。

图3-图8演示了自车与过马路行人的整个交互过程，初始自车与冲突区域的距离为30m。图3为基于博弈论推导的行人过街概率随时间变化的示意图，图4为行人速度随时间变化的示意图，图5为行人纵向位置随时间变化的示意图，图6为车辆加速度随时间变化的示意图，图7为车辆速度随时间变化的示意图，图8为自车与冲突区域的纵向距离的示意图：

从图3-图8中可以看出，当自车与冲突区域的距离为30m时，行人穿越概率较大，行人具有较大概率执行实际的穿越动作。自车观察到行人开始穿越后，选择较小的纵向加速度加速行驶，在行人刚刚完成穿越后快速提速通过冲突区域，从而获得较大的收益。

如图9所示，本发明实施例提供了一种基于博弈论和强化学习的自动驾驶行为决策装置，包括：

获取模块901，配置为获取历史时刻自车的状态信息和历史时刻与自车关联的多个其他智能体的状态信息；

标定模块902，配置为基于历史时刻自车的状态信息和多个其他智能体的状态信息，计算历史时刻多个其他智能体选择抢行的平均概率；基于历史时刻多个其他智能体选择抢行的平均概率、历史时刻自车的状态信息和多个其他智能体的状态信息，标定博弈模型的参数；

训练模块903，配置为基于历史时刻自车的状态信息、多个其他智能体的状态信息和经过标定的博弈模型，计算历史时刻各个其他智能体选择抢行的概率；基于历史时刻自车的状态信息、多个其他智能体的状态信息、预设的自车纵向动作集合和历史时刻各个其他智能体选择抢行的概率、预设的状态转移模型和预设的奖励函数训练强化学习模型；

预测模块904，配置为基于当前时刻自车的位置，确定当前时刻与自车关联的其他智能体；采集当前时刻自车的状态信息和当前时刻其他智能体的状态信息；基于当前时刻自车的状态信息、当前时刻其他智能体的状态信息和经过标定的博弈模型，计算当前时刻其他智能体选择抢行的概率；将当前时刻自车的状态信息、当前时刻其他智能体的状态信息和当前时刻其他智能体选择抢行的概率，输入训练好的强化学习模型，得到下一时刻自车的纵向动作。

在本发明的一个实施例中，预测模块904，配置为当前时刻自车的位置、与自车关联的其他智能体的位置，满足：

在本发明的一个实施例中，预测模块904，配置为基于当前时刻自车的状态信息、当前时刻其他智能体的状态信息、经过标定的博弈模型的参数和预设的支付矩阵，计算其他智能体选择抢行自车选择让行时自车的收益、其他智能体和自车同时选择让行时自车的收益、其他智能体选择让行自车选择抢行时自车的收益、以及其他智能体和自车同时选择抢行时自车的收益；根据其他智能体选择抢行自车选择让行时自车的收益、其他智能体和自车同时选择让行时自车的收益、其他智能体选择让行自车选择抢行时自车的收益、其他智能体和自车同时选择抢行时自车的收益以及经过标定的博弈模型，计算当前时刻其他智能体选择抢行的概率。

本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上述任一实施例的方法。

本发明实施例提供了一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现如上述任一实施例的方法。

下面参考图10，其示出了适于用来实现本发明实施例的终端设备的计算机***1000的结构示意图。图10示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算机***1000包括中央处理单元（CPU）1001，其可以根据存储在只读存储器（ROM）1002中的程序或者从存储部分1008加载到随机访问存储器（RAM）1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有***1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出（I/O）接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元（CPU）1001执行时，执行本发明的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括发送模块、获取模块、确定模块和第一处理模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，发送模块还可以被描述为“向所连接的服务端发送图片获取请求的模块”。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于博弈论和强化学习的自动驾驶行为决策方法，其特征在于，包括：

将所述当前时刻自车的状态信息、所述当前时刻其他智能体的状态信息和所述当前时刻其他智能体选择抢行的概率，输入训练好的强化学习模型，得到下一时刻自车的纵向动作；

基于所述当前时刻自车的状态信息、所述当前时刻其他智能体的状态信息和经过标定的博弈模型，计算当前时刻其他智能体选择抢行的概率，包括：

基于所述当前时刻自车的状态信息、所述当前时刻其他智能体的状态信息、经过标定的博弈模型的参数和预设的支付矩阵，计算其他智能体选择抢行自车选择让行时自车的收益、其他智能体和自车同时选择让行时自车的收益、其他智能体选择让行自车选择抢行时自车的收益、以及其他智能体和自车同时选择抢行时自车的收益；

根据所述其他智能体选择抢行自车选择让行时自车的收益、所述其他智能体和自车同时选择让行时自车的收益、所述其他智能体选择让行自车选择抢行时自车的收益、所述其他智能体和自车同时选择抢行时自车的收益以及经过标定的博弈模型，计算所述当前时刻其他智能体选择抢行的概率。

2.如权利要求1所述的方法，其特征在于，

博弈模型包括：

其中，/>用于表征其他智能体选择抢行的概率，/>用于表征所述其他智能体选择抢行自车选择让行时自车的收益，/>用于表征所述其他智能体和自车同时选择让行时自车的收益，/>用于表征所述其他智能体选择让行自车选择抢行时自车的收益，/>用于表征所述其他智能体和自车同时选择抢行时自车的收益。

3.如权利要求1所述的方法，其特征在于，

所述奖励函数包括：

其中，/>为当前历史时刻，/>为下一历史时刻，/>为所述下一历史时刻的奖励值，/>为安全值、用于衡量自车与其他智能体交互过程的安全性，/>为分离度、用于衡量自车与其他智能体交互过程的安全性和舒适性，/>为效率值、用于衡量自车与其他智能体交互过程的交互效率，/>为平稳值、用于衡量自车行驶过程中的速度变化，/>为预设的目标奖励、用于表征自车穿过并驶离冲突区域后获得的奖励，所述冲突区域由自车的形状和行驶路径、其他智能体的形状和行驶路径确定，/>、/>、/>、/>和/>分别为安全值、分离度、效率值、平稳值和目标奖励的权重。

4.如权利要求3所述的方法，其特征在于，

其中，用于表征所述下一历史时刻自车的碰撞区和其他智能体的碰撞区的重叠面积，用于表征所述下一历史时刻自车的速度，/>用于表征所述下一历史时刻其他智能体的速度，/>为/>的权重，当/>时，为1，否则/>为0；智能体的碰撞区，为智能体的形状分别向纵向行驶方向和横向行驶方向膨胀1倍得到的区域。

5.如权利要求3所述的方法，其特征在于，

其中，用于表征所述下一历史时刻自车的分离区和其他智能体的分离区的重叠面积，用于表征所述下一历史时刻自车的速度，/>用于表征所述下一历史时刻其他智能体的速度，/>为/>的权重，当/>时，为1，否则/>为0；智能体的分离区，为智能体的形状分别向纵向行驶方向和横向行驶方向膨胀2倍得到的区域。

6.如权利要求3所述的方法，其特征在于，

；/>其中，/>用于表征所述下一历史时刻自车的速度，/>用于表征所述下一历史时刻自车的加速度。

7.如权利要求1所述的方法，其特征在于，

如果状态转移得到的下一历史时刻自车的速度不小于0，则所述状态转移模型包括：

；/>否则，所述状态转移模型包括：

；/>其中， />用于表征所述下一历史时刻自车距离冲突区域的距离，所述冲突区域由自车的形状和行驶路径、其他智能体的形状和行驶路径确定，/>用于表征当前历史时刻自车距离冲突区域的距离，/>用于表征所述当前历史时刻自车的速度，/>用于表征所述当前历史时刻与所述下一历史时刻的时间差，/>用于表征所述当前历史时刻自车的加速度，/>用于表征所述下一历史时刻自车的速度。

8.一种基于博弈论和强化学习的自动驾驶行为决策装置，其特征在于，包括：

预测模块，配置为基于当前时刻自车的位置，确定当前时刻与自车关联的其他智能体；采集当前时刻自车的状态信息和当前时刻其他智能体的状态信息；基于所述当前时刻自车的状态信息、所述当前时刻其他智能体的状态信息和经过标定的博弈模型，计算当前时刻其他智能体选择抢行的概率；将所述当前时刻自车的状态信息、所述当前时刻其他智能体的状态信息和所述当前时刻其他智能体选择抢行的概率，输入训练好的强化学习模型，得到下一时刻自车的纵向动作；

所述预测模块，配置为基于当前时刻自车的状态信息、当前时刻其他智能体的状态信息、经过标定的博弈模型的参数和预设的支付矩阵，计算其他智能体选择抢行自车选择让行时自车的收益、其他智能体和自车同时选择让行时自车的收益、其他智能体选择让行自车选择抢行时自车的收益、以及其他智能体和自车同时选择抢行时自车的收益；根据其他智能体选择抢行自车选择让行时自车的收益、其他智能体和自车同时选择让行时自车的收益、其他智能体选择让行自车选择抢行时自车的收益、其他智能体和自车同时选择抢行时自车的收益以及经过标定的博弈模型，计算当前时刻其他智能体选择抢行的概率。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。