CN115973179A

CN115973179A - 模型训练方法、车辆控制方法、装置、电子设备及车辆

Info

Publication number: CN115973179A
Application number: CN202310269548.5A
Authority: CN
Inventors: 熊方舟; 请求不公布姓名
Original assignee: Beijing Jidu Technology Co Ltd
Current assignee: Beijing Jidu Technology Co Ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-04-18

Abstract

本申请提供了一种模型训练方法、车辆控制方法、装置、电子设备及车辆，涉及计算机技术领域。其中，方法包括：确定车辆汇入场景或车辆汇出场景下的第一车辆，以及第一车辆周围位于指定车道的目标障碍物；根据第一车辆的行驶数据和目标障碍物的行驶数据确定第一车辆的第一状态信息；将第一状态信息输入待训练的强化学习模型，得到强化学习模型输出的运动决策；根据以运动决策对第一车辆进行控制后第一车辆的第二状态信息，预测运动决策对应的评价奖励值，并以评价奖励值最大为目标训练强化学习模型。本申请能够提高车辆汇入场景或车辆汇出场景下智能驾驶车辆进行汇入或汇出决策的灵活性。

Description

模型训练方法、车辆控制方法、装置、电子设备及车辆

技术领域

本申请涉及计算机技术领域，尤其涉及一种模型训练方法、车辆控制方法、装置、电子设备及车辆。

背景技术

智能驾驶车辆在进行决策规划时，基于道路拓扑信息和交通参与者信息对交通参与者未来可能的轨迹做出合理的决策行为。目前，在车辆汇入场景或车辆汇出场景下，通常也直接采用通用场景下的控制策略决策规划车辆的驾驶行为，而通用场景下的控制策略无法较好地适应车辆汇入场景或车辆汇出场景下复杂多变的交通环境，导致车辆控制效果较差。

发明内容

本申请提供了一种模型训练方法、车辆控制方法、装置、电子设备及车辆。

根据本申请的第一方面，提供了一种模型训练方法，所述方法包括：

确定车辆汇入场景或车辆汇出场景下的第一车辆，以及所述第一车辆周围位于指定车道的目标障碍物，其中，所述指定车道包括第一车辆所在的第一车道，以及与所述第一车道存在交汇处的第二车道；

根据所述第一车辆的行驶数据和所述目标障碍物的行驶数据确定所述第一车辆的第一状态信息；

将所述第一状态信息输入待训练的强化学习模型，得到所述强化学习模型输出的运动决策；

根据以所述运动决策对所述第一车辆进行控制后所述第一车辆的第二状态信息，预测所述运动决策对应的评价奖励值，并以所述评价奖励值最大为目标训练所述强化学习模型，训练后的强化学习模型用于输出自动驾驶设备的控制策略。

根据本申请的第二方面，提供了一种车辆控制方法，所述方法包括：

确定车辆汇入场景或车辆汇出场景下的第二车辆，以及所述第二车辆周围位于指定车道的目标障碍物，其中，所述指定车道包括第二车辆所在的第三车道，以及与所述第三车道存在交汇处的第四车道；

根据所述第二车辆的行驶数据和所述目标障碍物的行驶数据确定所述第二车辆的第三状态信息；

将所述第三状态信息输入预先训练的强化学习模型，得到所述强化学习模型输出的运动决策，其中，所述预先训练的强化学习模型基于第一方面所述的模型训练方法对强化学习模型训练得到；

基于所述强化学习模型输出的运动决策控制所述第二车辆行驶。

根据本申请的第三方面，提供了一种模型训练装置，所述装置包括：

第一确定模块，用于确定车辆汇入场景或车辆汇出场景下的第一车辆，以及所述第一车辆周围位于指定车道的目标障碍物，其中，所述指定车道包括第一车辆所在的第一车道，以及与所述第一车道存在交汇处的第二车道；

第二确定模块，用于根据所述第一车辆的行驶数据和所述目标障碍物的行驶数据确定所述第一车辆的第一状态信息；

输入模块，用于将所述第一状态信息输入待训练的强化学习模型，得到所述强化学习模型输出的运动决策；

训练模块，用于根据以所述运动决策对所述第一车辆进行控制后所述第一车辆的第二状态信息，预测所述运动决策对应的评价奖励值，并以所述评价奖励值最大为目标训练所述强化学习模型，训练后的强化学习模型用于输出自动驾驶设备的控制策略。

根据本申请的第四方面，提供了一种车辆控制装置，所述装置包括：

第一确定模块，用于确定车辆汇入场景或车辆汇出场景下的第二车辆，以及所述第二车辆周围位于指定车道的目标障碍物，其中，所述指定车道包括第二车辆所在的第三车道，以及与所述第三车道存在交汇处的第四车道；

第二确定模块，用于根据所述第二车辆的行驶数据和所述目标障碍物的行驶数据确定所述第二车辆的第三状态信息；

输入模块，用于将所述第三状态信息输入预先训练的强化学习模型，得到所述强化学习模型输出的运动决策，其中，所述预先训练的强化学习模型基于第一方面所述的模型训练方法对强化学习模型训练得到；

控制模块，用于基于所述强化学习模型输出的运动决策控制所述第二车辆行驶。

根据本申请的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请的第一方面或第二方面所述的方法。

根据本申请的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本申请的第一方面或第二方面所述的方法。

根据本申请的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本申请的第一方面或第二方面所述的方法。

根据本申请的第八方面，提供了一种车辆，被配置为执行本申请的第一方面或第二方面所述的方法。

在本申请实施例中，确定车辆汇入场景或车辆汇出场景下的第一车辆，以及所述第一车辆周围位于指定车道的目标障碍物；根据所述第一车辆的行驶数据和所述目标障碍物的行驶数据确定所述第一车辆的第一状态信息；将所述第一状态信息输入待训练的强化学习模型，得到所述强化学习模型输出的运动决策；根据以所述运动决策对所述第一车辆进行控制后所述第一车辆的第二状态信息，预测所述运动决策对应的评价奖励值，并以所述评价奖励值最大为目标训练所述强化学习模型。这样，基于深度强化学习算法训练用于车辆汇入场景或车辆汇出场景下的强化学习模型，可用于智能驾驶车辆进行汇入或汇出决策，灵活性较高，便于应对车辆汇入场景或车辆汇出场景下复杂多变的交通环境，能够提高车辆控制效果。

附图说明

图1是本申请实施例提供的一种模型训练方法的流程示意图；

图2是本申请实施例提供的一种路口汇入场景示意图之一；

图3是本申请实施例提供的一种路口汇入场景示意图之二；

图4是本申请实施例提供的一种路口汇出场景示意图之一；

图5是本申请实施例提供的一种路口汇出场景示意图之二；

图6是本申请实施例提供的一种路口汇入决策的流程示意图；

图7是本申请实施例提供的一种路口汇入场景示意图之三；

图8是本申请实施例提供的一种路口汇入场景示意图之四；

图9是本申请实施例提供的一种车辆控制方法的流程示意图；

图10是本申请实施例提供的一种模型训练装置的结构示意图；

图11是本申请实施例提供的一种车辆控制装置的结构示意图；

图12是本申请实施例提供的一种电子设备的结构示意图；

图13是本申请实施例提供的一种车辆的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，在车辆汇入场景或车辆汇出场景下，智能驾驶车辆通过将自车与障碍物的相对距离及相对速度与预设阈值进行比较，根据阈值比较结果直接执行与阈值比较结果对应的预设策略，灵活性较差，难以应对复杂多变的交通环境。

请参见图1，图1是本申请实施例提供的一种模型训练方法的流程图。本申请实施例的模型训练方法可以由车辆执行，具体可以由车辆的车机执行，也可以由车辆的相关控制器执行，例如专用于模型训练的控制器执行，具体可根据实际情况确定。为方便理解，本申请实施例中以车机执行为例，对该模型训练方法进行说明，并不作具体限定。

如图1所示，模型训练方法包括以下步骤：

步骤101、确定车辆汇入场景或车辆汇出场景下的第一车辆，以及所述第一车辆周围位于指定车道的目标障碍物，其中，所述指定车道包括第一车辆所在的第一车道，以及与所述第一车道存在交汇处的第二车道。

其中，车辆汇入场景可以是指位于不同行驶方向的车道上的车辆行驶汇入一个车道的场景，示例地，如图3所示，车辆汇入场景下在第一车道的第一车辆汇入第二车道，或者如图2所示，在第二车道上的车辆行驶汇入第一车辆所在的第一车道。车辆汇出场景可以是指位于不同行驶方向的车道上的车辆行驶汇出至一个车道的场景，示例地，如图4所示，车辆汇出场景下在第一车道的第一车辆汇出至第二车道，或者如图5所示，在第二车道上的车辆行驶汇出至第一车辆所在的第一车道。

当然，在车辆汇出场景下，如图5中所示出的车辆e预期的行驶路线前方无与第二车道之间的交汇处时，与第二车道上的目标障碍物之间的碰撞风险较小，此时，可以不将所述车辆e作为本说明书示例中的第一车辆对强化学习模型进行训练。类似的，在实际对车辆e进行控制时，也可以不采用本说明书实施例中的车辆控制方法控制如图5中所示出的场景下的车辆e。

交汇处是指两车道交汇并入一车道时该两车道的交点。示例地，如图5所示，第一车道与第二车道的交汇处可以为第一车道的中心线与第二车道的中心线的交点。第一车辆周围可以是指距离第一车辆小于预设距离的区域范围，该预设距离可以为500米，或者1000米，或者1500米等等，本实施例对预设距离不进行限定。

其中，目标障碍物可以包括动物、行人或者车辆等等。以下实施例中均以目标障碍物为车辆为例进行说明。所述目标障碍物可以包括所述第二车道上距离所述第一车辆最近的第三车辆；所述目标障碍物还可以包括在所述第一车道上所述第一车辆的前方的车辆，示例地，所述目标障碍物还可以包括在所述第一车道上所述第一车辆的前方距离所述第一车辆最近的第四车辆。

其中，所述第一车辆与所述第三车辆可以为位于不同车道的待交汇车辆，第三车辆的数量可以为一个或多个。所述第三车辆可以为行驶在第二车道上，且预期的行驶轨迹与所述第一车辆预期的行驶轨迹存在交汇处的车辆。示例地，第三车辆可以为行驶在第二车道上距离所述第一车辆最近，预期的行驶轨迹与所述第一车辆预期的行驶轨迹存在交汇处的车辆。

示例地，如图2至图5所示，在车辆汇入场景或车辆汇出场景下，第一车辆作为主车，在主车（记为）当前所在的车道前方，找到距离主车最近的障碍物（即第四车辆）记为，并将第二车道上距离主车最近的障碍物（即第三车辆）记为。如图2所示，在第二车道20上的第三车辆汇入第一车辆所在的第一车道10；如图3所示，在第一车道10上的第一车辆汇入第三车辆所在的第二车道20。如图4所示，在第一车道10的第一车辆汇出至第三车辆所在的第二车道20；如图5所示，在第二车道20上的第三车辆行驶汇出至第一车辆所在的第一车道10。

步骤102、根据所述第一车辆的行驶数据和所述目标障碍物的行驶数据确定所述第一车辆的第一状态信息。

其中，可以分别获取第一车辆的行驶数据和目标障碍物的行驶数据。

行驶数据可以用于表征车辆的行驶状态，行驶数据可以包括车辆所在车道，和/或位置，和/或速度，和/或加速度等等。第一车辆的行驶数据的数据类型与目标障碍物的行驶数据的数据类型可以相同，或者可以不同。

一种实施方式中，行驶数据可以包括车辆所在车道，位置，速度，及加速度。示例地，目标障碍物包括第三车辆和第四车辆，第一车辆的行驶数据可以包括第一车辆所在车道，第一车辆的位置，第一车辆的速度，及第一车辆的加速度。第三车辆的行驶数据可以包括第三车辆所在车道，第三车辆的位置，第三车辆的速度，及第三车辆的加速度。第四车辆的行驶数据可以包括第四车辆所在车道，第四车辆的位置，第四车辆的速度，及第四车辆的加速度。

需要说明的是，在进行模型训练时，目标障碍物的行驶数据可以是以仿真的方式获取；在将训练好的模型进行实际应用时，目标障碍物的行驶数据可以是通过第一车辆的摄像头或雷达采集获得，或者可以是通过车联网***获得。

一种实施方式中，第一车辆的行驶数据可以表示为，第三车辆的行驶数据可以表示为，第四车辆的行驶数据可以表示为，第一状态信息可以表示为，=[,,]。

步骤103、将所述第一状态信息输入待训练的强化学习模型，得到所述强化学习模型输出的运动决策。

其中，第一状态信息可以包括某个时刻下第一车辆、第三车辆和第四车辆的行驶数据。待训练的强化学习模型可以包括目标动作策略神经网络和目标价值神经网络。示例地，目标动作策略神经网络和目标价值神经网络的网络结构可以均为深度Q学习（Deep Q-learning，DQN）结构。此时可以基于所述目标价值神经网络所输出的评价奖励值对所述目标动作策略神经网络进行训练，在此情形下，在应用阶段则基于所述目标动作策略神经网络所输出的运动决策对车辆进行控制。为了方便描述，本说明书以下部分以强化学习模型包括目标动作策略神经网络和目标价值神经网络为例进行说明。

另外，该第一动作可以是由目标动作策略神经网络对所述第一状态信息进行预测得到的动作，该第一动作可以是目标动作策略神经网络认为第一车辆在第一状态信息对应的状态下的最优动作，该第一动作用于对第一车辆进行控制。该第一动作可以是从动作集合（例如，加速、匀速、减速、方向盘转角、油门开度、刹车开度等）中选择的策略动作。需要说明的是，策略动作的表征形式可以是控制量，例如，方向盘转角、油门开度或刹车开度；或者，也可以是状态量，例如，加速度或速度；或者还可以是控制量与状态量的组合；等等。目标动作策略神经网络输出的可以是最优的一个策略动作，该最优的策略动作是最终选择的策略动作；或者可以是多个策略动作的概率分布，其中，概率最大的策略动作是最终选择的策略动作。

而另一种实施方式中，待训练的强化学习模型可以包括动作策略神经网络、价值神经网络、目标动作策略神经网络及目标价值神经网络，例如，所述强化学习模型的结构为诸如深度确定策略梯度（Deep Deterministic Policy Gradient，DDPG）结构及双延迟深度确定策略梯度（Twin Delay DDPG，TD3）结构等等，在此情形下，在应用阶段同样基于所述目标动作策略神经网络所输出的运动决策对车辆进行控制。

需要说明的是，该待训练的强化学习模型可以是初始化的强化学习模型；或者可以是已投入使用但由于决策效果不佳需要重新进行训练的强化学习模型；等等，本实施例对训练强化学习模型的时机不进行限定。

步骤104、根据以所述运动决策对所述第一车辆进行控制后所述第一车辆的第二状态信息，预测所述运动决策对应的评价奖励值，并以所述评价奖励值最大为目标训练所述强化学习模型，训练后的强化学习模型用于输出自动驾驶设备的控制策略。

其中，以所述运动决策对所述第一车辆进行控制后，第一车辆会行驶到一个新的位置，对应于一个新状态，获得该新状态下的第二状态信息，并可以获得该运动决策对应的评价奖励值。

其中，目标障碍物可以包括第三车辆和第四车辆，第二状态信息可以包括所述第一车辆在执行所述第一动作后，所述第一车辆、所述第三车辆和所述第四车辆的行驶数据。示例地，可以在所述第一车辆执行所述第一动作预设时长后，获取所述第一车辆、所述第三车辆和所述第四车辆的行驶数据，并通过所述第一车辆、所述第三车辆和所述第四车辆的行驶数据确定第二状态信息。该预设时长可以为30s，或者1min，或者5min等等，本实施例对此不进行限定。通过间隔该预设时长，第一车辆的行驶数据在第一车辆执行第一动作后会发生相应的变化。

另外，可以采用强化学习模型中的目标价值神经网络对第二状态信息进行预测，得到所述运动决策对应的评价奖励值。

需要说明的是，奖励是用来确定决策的优劣的，一个运动决策对应的评价奖励值可以表示出该运动决策的好坏，若该运动决策能够使得自动驾驶设备后续的行驶状况较好，则该运动决策的评价奖励值较高，反之，则该运动决策的评价奖励值可能会较低。

作为一种具体的实施例，如图2所示，以他车汇入主车道为例进行说明。第一车辆作为主车，在主车（记为）当前所在的车道前方，找到距离主车最近的障碍物（即第四车辆）记为，并将汇入主车车道的第二车道上距离主车最近的障碍物（即第三车辆）记为，利用上游感知、定位和地图模块获取主车和两个障碍物的特征信息：所在车道、位置、速度、加速度，并分别记为状态、和。

在时刻t下，基于主车的自身状态及周围障碍物的状态和，从可选动作集合（加速、匀速、减速、方向盘转角、油门开度、刹车开度等）中选择一个策略动作，通过执行该动作，主车会行驶到一个新的位置，并对应于一个新状态，同时获得一个与策略动作对应的奖励，以对该次动作利用奖励函数进行评价。

需要说明的是，由于主车通过当前时刻t下的状态信息（=[,,]）不一定能够对环境信息进行完全理解，可以考虑对多个时刻下的状态动作序列进行建模，即从整个轨迹对策略动作进行优化。

另外，在训练好强化学习模型后，在每个时刻下，获取主车和障碍物的状态信息，利用已经训练好的强化学习模型中的目标动作策略神经网络，可以输出得到策略动作，送到下游模块进行规划控制，使得主车合理前行。然后再到下一个时刻，重复此步骤，实现车辆的汇入。

图3表示了主车汇入主路的场景，第一车辆为第一车道上的主车，在主车（记为）当前所在的车道前方，找到距离主车最近的障碍物（即第四车辆）记为，并将主车汇入的车道上距离主车最近的障碍物（即第三车辆）记为，利用上游感知、定位和地图模块获取主车和两个障碍物的特征信息：所在车道、位置、速度、加速度，并分别记为状态、和。主车汇入主路的场景与他车汇入主车道的情况类似，在此不再赘述。

本实施例基于深度强化学习算法训练用于车辆汇入场景或车辆汇出场景下的强化学习模型，可用于智能驾驶车辆进行汇入或汇出决策，相对于将车辆与障碍物的相对距离及相对速度与预设阈值进行比较，根据阈值比较结果直接执行与阈值比较结果对应的预设策略，能够提高灵活性，便于应对车辆汇入场景或车辆汇出场景下复杂多变的交通环境。

随着人工智能、大数据、5G网络等新一代技术的发展，其与汽车产业的融合愈发深度，而自动驾驶汽车的重要性也日益显现，正逐渐成为全球汽车产业发展的战略制高点。在自动驾驶中，其主要包含了地图、定位、感知、预测、决策、规划、控制等核心技术。如果将对外部环境的感知比作人的眼睛和耳朵，那么决策和规划模块就相当于自动驾驶汽车的大脑。

自动驾驶汽车在进行决策规划时，会从感知模块获取道路拓扑信息和交通参与者信息，结合预测模块对交通参与者未来可能的轨迹做出合理的决策行为。当自动驾驶汽车在路口汇入汇出的场景下，需要和目标车道的来车进行高度动态的交互。此时需要主车（即自动驾驶汽车）根据周围的环境和交通参与者的状态，做出合理的决策，动态调整自车车速，并在恰当的时间和速度下，完成该汇入路口的通行。

相关技术中，主要基于规则的方式，通过判断主车和障碍物（即交通参与者）的相对位置和速度，完成汇入决策。此时的灵活性将极大地受限于事先设定的阈值参数，难以应对现实中复杂多变的交通流环境。相关技术中存在主车在汇入路口时难以和目标车道来车进行合理交互，汇入策略受限于事先设定的阈值，缺乏智能性的技术问题。

本实施例中，如图6所示，可以通过场景建模对路口汇入场景进行建模，结合地图、定位、感知、预测信息，将主车和汇入车道的其他车的交互过程建模为一个马尔可夫决策过程。汇入策略则利用深度强化学习对此过程进行决策，最终生成规划轨迹并引导主车合理前行。

可选地，预测所述运动决策对应的评价奖励值，包括：

通过预先根据奖励函数训练的所述强化学习模型预测所述运动决策对应的评价奖励值；

其中，预先根据奖励函数训练所述强化学习模型，包括：

基于预设的奖励函数确定期望奖励值，其中，所述奖励函数包括第一奖励项，所述第一奖励项与所述第一车辆和位于第二车道上的目标障碍物之间的碰撞风险负相关；

以所述强化学习模型预测出的评价奖励值与所述期望奖励值之间的差异最小为目标，训练所述强化学习模型。

其中，用于训练所述强化学习模型的损失函数可以为：

；

其中，N为训练样本的个数，为期望奖励值，为第一状态信息，为第一动作，为价值神经网络，为将第一状态信息及第一动作输入价值神经网络进行预测得到的输出。

一种实施方式中，期望奖励值基于预设的奖励函数计算的状态奖励值确定，期望奖励值可以为：

；

其中，为第二状态信息；表示目标动作策略神经网络，为将第二状态信息输入目标动作策略神经网络进行预测得到的输出；表示目标价值神经网络，为将第二状态信息及目标动作策略神经网络的输出输入目标价值神经网络进行预测得到的输出；为通过预设的奖励函数计算的状态奖励值；为超参数，可以取值0.99，或者0.98，或者0.97等等。超参数的取值可以根据经验确定；或者可以根据强化学习模型的实际训练情况确定，例如，在训练强化学习模型时多次迭代未成功收敛时可以按照一定间隔调整超参数使得训练强化学习模型能够快速收敛；本实施例对超参数的具体取值不进行限定。

该实施方式中，基于预设的奖励函数确定期望奖励值，其中，所述奖励函数包括第一奖励项，所述第一奖励项与所述第一车辆和位于第二车道上的目标障碍物之间的碰撞风险负相关；以所述强化学习模型预测出的评价奖励值与所述期望奖励值之间的差异最小为目标，训练所述强化学习模型。这样，训练得到的强化学习模型能够使得车辆与障碍物之间的碰撞风险较低，有利于提高车辆汇入场景或车辆汇出场景下车辆行驶的安全性。

可选地，在第一距离及第二距离均大于预设阈值的情况下，所述第一奖励项与距离差值正相关，其中，所述距离差值为第一距离和第二距离之间的差值，所述第一距离为以所述运动决策对所述第一车辆进行控制后所述第一车辆与所述交汇处之间的距离，所述第二距离为以所述运动决策对所述第一车辆进行控制后位于第二车道上的目标障碍物与所述交汇处之间的距离；

在所述第一距离小于所述预设阈值，或所述第二距离小于所述预设阈值的情况下，所述第一奖励项取第一预设值。

其中，第一奖励项可以是与路权相关的乘车奖励。预设阈值可以设置为200米，或者300米，或者400米等等，预设阈值可以按照实际需求设置，本实施例对预设阈值不进行限定。一种实施方式中，预设阈值可以根据汇入道路的车流量和/或汇入道路的道路限速确定。示例地，预设阈值可以设置为与汇入道路的车流量成反比，当车流量较大时，道路拥堵的可能性较大，可以将预设阈值设置得较小，更能体现车辆对汇入车道的路权。示例地，预设阈值可以设置为与汇入道路的道路限速成正比，当汇入道路的道路限速较大时，车辆在汇入道路上行驶的速度较快，可以将预设阈值设置得较大，更能体现车辆对汇入车道的路权。

另外，交汇处为第一车辆与不同车道上的第三车辆最可能发生碰撞的点，在实际应用中，如图7所示，交汇处T可以设置为第一车道的中心线与第二车道的中心线的交点。交汇处还可以描述为冲突点。

一种实施方式中，在第一距离及第二距离均大于预设阈值的情况下，所述第一奖励项可以为所述第一距离与所述第二距离的差值与预设比例系数的乘积。

需要说明的是，第一奖励项可以体现路权优先特性。所述第一车辆与交汇处之间的第一距离，及所述位于第二车道上的目标障碍物与所述交汇处之间的第二距离均大于预设阈值，可以认为第一车辆与位于第二车道上的目标障碍物不是处于强交互状态。此时，位于汇入车道的车辆占有主要行驶路权。所述第一距离与所述第二距离的差值越大，则第一车辆和位于第二车道上的目标障碍物同时到达交汇处的概率越小，发生碰撞的概率越低，通过第一奖励项计算的奖励值越高；所述第一距离与所述第二距离的差值越小，则第一车辆和位于第二车道上的目标障碍物同时到达交汇处的概率越大，发生碰撞的概率越高，通过第一奖励项计算的奖励值越小。如图8所示，第一车辆在P1点时的第一距离与第二距离的差值大于第一车辆在P2点时的第一距离与第二距离的差值，位于P1点的车辆与位于第二车道上的目标障碍物发生碰撞的概率较小。

一种实施方式中，第一预设值可以为0，或者0.1，或者0.01等等，第一预设值可以设置为一个较小的值，从而在第一车辆与位于第二车道上的目标障碍物处于强交互状态时，基本不考虑路权奖励。

一种实施方式中，第一奖励项定义了路权相关的乘车奖励，这和主车（即第一车辆）、障碍物两者距离冲突点的实际情况紧密相关。下面以图2中他车汇入主车道的场景为例进行说明。当主车（即第一车辆）到交汇处的距离和障碍物（即位于第二车道上的目标障碍物）到交汇处的距离均大于预设阈值时，认为主车占据主要行驶路权，并定义第一奖励项为：;其中，为预设比例系数。

另外，当主车（即第一车辆）到交汇处的距离小于预设阈值，或者障碍物（即位于第二车道上的目标障碍物）到交汇处的距离小于预设阈值时，可以认为主车与障碍物处于强交互状态，其路权优先级应该以对应的车辆状态信息为主，即不显性考虑路权优先特性。示例地，在强交互状态下，可以定义第一奖励项为：。

该实施方式中，在第一距离及第二距离均大于预设阈值的情况下，所述第一奖励项与距离差值正相关，其中，所述距离差值为第一距离和第二距离之间的差值，所述第一距离为以所述运动决策对所述第一车辆进行控制后所述第一车辆与所述交汇处之间的距离，所述第二距离为以所述运动决策对所述第一车辆进行控制后位于第二车道上的目标障碍物与所述交汇处之间的距离；在所述第一距离小于所述预设阈值，或所述第二距离小于所述预设阈值的情况下，所述第一奖励项取第一预设值，这样，在对智能驾驶车辆和其他交通参与者的交互关系进行显性建模的过程中，引入第一车辆和位于第二车道上的目标障碍物之间的碰撞风险对汇入策略好坏进行评价，能够提高汇入决策的准确性。

可选地，所述奖励函数还包括第二奖励项、第三奖励项及第四奖励项中的至少一项；

其中，所述第二奖励项基于以所述运动决策对所述第一车辆进行控制后所述第一车辆是否发生碰撞确定；

所述第三奖励项基于以所述运动决策对所述第一车辆进行控制后所述第一车辆的车速与所述第一车道的最大限速的差值确定；

所述第四奖励项基于以所述运动决策对所述第一车辆进行控制后所述第一车辆的加速度确定。

其中，在所述第一车辆发生碰撞的情况下，所述第二奖励项取第二预设值。第二奖励项可以定义和安全相关的奖励值。第二预设值可以为-100，或者-200，或者-300等等，第二预设值可以根据实际需求设置，本实施例对第二预设值不进行限定。在所述第一车辆未发生碰撞的情况下，所述第二奖励项可以取值0。

另外，第三奖励项可以定义和行驶效率相关的奖励值，期望主车尽可能地以道路最大限速行驶以此提高通行效率。示例地，第三奖励项可以为：，其中，为所述第一车辆的车速，为所述第一车辆所在的车道的最大限速。

另外，第四奖励项可以定义和乘车时的体感相关的奖励值。

作为一种具体的实施例，奖励函数可以定义如下：；

其中，第一奖励项定义了路权相关的乘车奖励，这和主车、障碍物两者距离冲突点的实际情况紧密相关。以图2中他车汇入主车道的场景为例进行说明。当主车到冲突点的距离和障碍物到冲突点的距离均大于一定阈值时，认为主车占据主要行驶路权，并定义第一奖励项为：；

否则认为主车与障碍物处于强交互状态，其路权优先级以车辆状态信息为主，即不显性考虑路权优先特性。示例地，在强交互状态下，定义第一奖励项为：。

其中，第二奖励项定义了和安全相关的奖励值，当主车与马路牙子或障碍物（机动车和/或非机动车）发生碰撞时，会对其进行惩罚。示例地，；

其中，第三奖励项定义了和行驶效率相关的奖励值，期望主车尽可能地以道路最大限速行驶以此提高通行效率。示例地，；

其中，第四奖励项定义了和乘车时的体感相关的奖励值，以主车的加（减）速度绝对值进行衡量，绝对值越大，惩罚越高。示例地，；

其中，为第一车辆的加速度。

该实施方式中，所述奖励函数还包括第二奖励项、第三奖励项及第四奖励项中的至少一项；其中，所述第二奖励项基于以所述运动决策对所述第一车辆进行控制后所述第一车辆是否发生碰撞确定；所述第三奖励项基于以所述运动决策对所述第一车辆进行控制后所述第一车辆的车速与所述第一车道的最大限速的差值确定；所述第四奖励项基于以所述运动决策对所述第一车辆进行控制后所述第一车辆的加速度确定。这样，能够在对智能驾驶车辆和其他交通参与者的交互关系进行显性建模的过程中，引入安全因素、行驶效率因素及乘车体验因素中至少一项对汇入策略好坏进行评价，能够提高汇入决策的准确性。

作为一种具体的实施例，为了实现安全高效舒适的路口汇入，本实施例实现基于深度强化学习的汇入策略。通过与其他障碍物进行合理交互，选择一系列合适的策略动作完成该场景的主路汇入任务。其中，强化学习模型包括动作策略神经网络、价值神经网络、目标动作策略神经网络及目标价值神经网络。执行主路汇入任务的流程如下：

（1）在状态下，从动作策略神经网络中采样并施加探索噪声得到待执行动作；

（2）执行动作，基于场景建模中预先定义好的奖励函数计算当前奖励值，并得到新的状态（对应于第一车辆和障碍物在时刻下的特征信息）；

（3）将上述获取的状态、动作、奖励、下一个状态表示为片段，并存入经验回放池R中；

（4）当R中的片段数量足够训练强化学习模型时，从中随机采样N个样本作为待训练样本，其中每个样本可表示为；

（5）计算训练价值神经网络的目标值；

（6）定义训练价值神经网络的损失函数，并利用随机梯度下降法利用该损失函数训练价值神经网络；

（7）利用下式对动作策略神经网络进行更新：

；

其中，表示当前状态s和动作a下的价值神经网络Q对动作a的偏导数。表示函数对变量求导，表示动作策略神经网络对变量求导。变量表征动作策略神经网络的权重系数。

（8）此外，为了得到平稳的策略，可以通过下式对目标动作策略神经网络和目标价值神经网络进行软更新：

；

其中，为超参数，可以取值0.99，或者0.98，或者0.97等等。超参数的取值可以根据经验确定；或者可以根据强化学习模型的实际训练情况确定，例如，在训练强化学习模型时多次迭代未成功收敛时可以按照一定间隔调整超参数使得训练强化学习模型能够快速收敛；本实施例对超参数的具体取值不进行限定。变量表征目标价值神经网络的权重系数。变量表征价值神经网络的权重系数。变量表征目标动作策略神经网络的权重系数。

基于以上八个步骤可对动作策略神经网络、价值神经网络、目标动作策略神经网络、目标价值神经网络利用随机梯度下降法进行训练。

本申请实施例中，在高度交互的汇入场景下，对自动驾驶汽车和其他交通参与者的交互关系进行显性建模，引入路权相关因子对策略好坏进行评价。并且，基于深度强化学习算法，在车辆与其他交通参与者的交互过程中，自适应学习复杂交通流下的路口汇入策略，灵活性较高，能够应对现实中复杂多变的交通流环境。

请参见图9，图9是本申请实施例提供的一种车辆控制方法的流程图。本申请实施例的车辆控制方法可以由车辆执行，具体可以由车辆的车机执行，也可以由车辆的相关控制器执行，例如专用于车辆控制的控制器执行，具体可根据实际情况确定。为方便理解，本申请实施例中以车机执行为例，对该车辆控制方法进行说明，并不作具体限定。

如图9所示，车辆控制方法包括以下步骤：

步骤201、确定车辆汇入场景或车辆汇出场景下的第二车辆，以及所述第二车辆周围位于指定车道的目标障碍物，其中，所述指定车道包括第二车辆所在的第三车道，以及与所述第三车道存在交汇处的第四车道；

步骤202、根据所述第二车辆的行驶数据和所述目标障碍物的行驶数据确定所述第二车辆的第三状态信息；

步骤203、将所述第三状态信息输入预先训练的强化学习模型，得到所述强化学习模型输出的运动决策，其中，所述预先训练的强化学习模型基于本申请实施例所述的模型训练方法对强化学习模型训练得到；

步骤204、基于所述强化学习模型输出的运动决策控制所述第二车辆行驶。

参见图10，图10是本申请实施例提供的模型训练装置的结构图。

如图10所示，模型训练装置300包括：

第一确定模块301，用于确定车辆汇入场景或车辆汇出场景下的第一车辆，以及所述第一车辆周围位于指定车道的目标障碍物，其中，所述指定车道包括第一车辆所在的第一车道，以及与所述第一车道存在交汇处的第二车道；

第二确定模块302，用于根据所述第一车辆的行驶数据和所述目标障碍物的行驶数据确定所述第一车辆的第一状态信息；

输入模块303，用于将所述第一状态信息输入待训练的强化学习模型，得到所述强化学习模型输出的运动决策；

训练模块304，用于根据以所述运动决策对所述第一车辆进行控制后所述第一车辆的第二状态信息，预测所述运动决策对应的评价奖励值，并以所述评价奖励值最大为目标训练所述强化学习模型，训练后的强化学习模型用于输出自动驾驶设备的控制策略。

可选地，所述训练模块还用于：

其中，预先根据奖励函数训练所述强化学习模型，包括：

模型训练装置300能够实现图1所述方法实施例的各个过程，以及达到相同的有益效果，为避免重复，这里不再赘述。

参见图11，图11是本申请实施例提供的车辆控制装置的结构图。

如图11所示，车辆控制装置400包括：

第一确定模块401，用于确定车辆汇入场景或车辆汇出场景下的第二车辆，以及所述第二车辆周围位于指定车道的目标障碍物，其中，所述指定车道包括第二车辆所在的第三车道，以及与所述第三车道存在交汇处的第四车道；

第二确定模块402，用于根据所述第二车辆的行驶数据和所述目标障碍物的行驶数据确定所述第二车辆的第三状态信息；

输入模块403，用于将所述第三状态信息输入预先训练的强化学习模型，得到所述强化学习模型输出的运动决策，其中，所述预先训练的强化学习模型基于本申请实施例所述的模型训练方法对强化学习模型训练得到；

控制模块404，用于基于所述强化学习模型输出的运动决策控制所述第二车辆行驶。

车辆控制装置400能够实现图1所述方法实施例的各个过程，以及达到相同的有益效果，为避免重复，这里不再赘述。

本申请的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本申请的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图12所示，电子设备500包括计算单元501，其可以根据存储在只读存储器（ROM）502中的计算机程序或者从存储单元508加载到随机访问存储器（RAM）503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

电子设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如模型训练方法或车辆控制方法。例如，在一些实施例中，车辆控制方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的车辆控制方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行车辆控制方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上***的***（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***（例如，作为数据服务器）、或者包括中间件部件的计算***（例如，应用服务器）、或者包括前端部件的计算***（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将***的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

根据本申请的实施例，本申请还提供了一种车辆，其被配置为执行本申请实施例提供的模型训练方法或车辆控制方法，可选地，如图13所示，该车辆600可以包括计算单元601、ROM602、RAM603、总线604、I/O接口605、输入单元606、输出单元607、存储单元608和通信单元609。上述各部分的具体实施方式可以参照上述实施例中对电子设备的各部分的说明，为避免重复，在此不再赘述。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，预测所述运动决策对应的评价奖励值，包括：

通过预先根据奖励函数训练后的所述强化学习模型预测所述运动决策对应的评价奖励值；

其中，预先根据奖励函数训练所述强化学习模型，包括：

3.根据权利要求2所述的方法，其特征在于，在第一距离及第二距离均大于预设阈值的情况下，所述第一奖励项与距离差值正相关，其中，所述距离差值为第一距离和第二距离之间的差值，所述第一距离为以所述运动决策对所述第一车辆进行控制后所述第一车辆与所述交汇处之间的距离，所述第二距离为以所述运动决策对所述第一车辆进行控制后位于第二车道上的目标障碍物与所述交汇处之间的距离；

4.根据权利要求2或3所述的方法，其特征在于，所述奖励函数还包括第二奖励项、第三奖励项及第四奖励项中的至少一项；

5.一种车辆控制方法，其特征在于，所述方法包括：

将所述第三状态信息输入预先训练的强化学习模型，得到所述强化学习模型输出的运动决策，其中，所述预先训练的强化学习模型基于权利要求1-4中任一项所述的模型训练方法对强化学习模型训练得到；

6.一种模型训练装置，其特征在于，所述装置包括：

7.一种车辆控制装置，其特征在于，所述装置包括：

输入模块，用于将所述第三状态信息输入预先训练的强化学习模型，得到所述强化学习模型输出的运动决策，其中，所述预先训练的强化学习模型基于权利要求1-4中任一项所述的模型训练方法对强化学习模型训练得到；

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-4中任一项所述的方法，或者执行如权利要求5所述的方法。

9.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如权利要求1-4中任一项所述的方法，或者执行如权利要求5所述的方法。

10.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现如权利要求1-4中任一项所述的方法，或者实现如权利要求5所述的方法。

11.一种车辆，其特征在于，被配置为执行如权利要求1-4中任一项所述的方法，或者执行如权利要求5所述的方法。