WO2024109763A1

WO2024109763A1 - 一种基于场景自适应识别的自动驾驶方法及***

Info

Publication number: WO2024109763A1
Application number: PCT/CN2023/133059
Authority: WO
Inventors: 黄乐雄; 王帅; 韩瑞华; 王洋; 叶可江; 须成忠
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2022-11-25
Filing date: 2023-11-21
Publication date: 2024-05-30
Also published as: CN115743178A

Abstract

本申请提供一种基于场景自适应识别的自动驾驶方法及***，该方法包括：获取驾驶场景下的环境信息及上一时刻操作信息；路径规划模块基于上一时刻操作信息，确定一条当前驾驶场景下的路径规划轨迹；根据路径规划轨迹的参数空间确定场景复杂度；模仿学习模块根据环境信息由神经网络得出决策的不确定性分布；根据不确定性分布确定场景异常度；决策模块根据场景复杂度及场景异常度，确定自动驾驶方法。该方案提高了自动驾驶对实时性能与准确性能。

Description

一种基于场景自适应识别的自动驾驶方法及***

技术领域

本发明属于信息技术领域，特别涉及一种基于场景自适应识别的自动驾驶方法及***。

背景技术

随着汽车智能化与电动化的不断升级，自动驾驶汽车成为汽车产业变革的一大趋势。自动驾驶汽车发展潜力巨大，自动驾驶技术已成为战略性新兴产业的重要组成部分，其快速发展将深刻影响人、资源和产品的流动方式，颠覆性地改变人类的生活方式。

目前常用的模仿学习算法会通过神经网络去学习数据集中的输入-输出对，不断优化神经元参数以逼近数据集的特征与逻辑，最终神经网络可以根据输入得到符合逻辑的输出。但模仿学习严重依赖数据集，对于数据集中未出现的场景决策置信度不够，因此模仿学习适合用于拥有相似特征的单一场景。而传统的路径规划方法是根据起始位置与目标位置以及环境信息，通过数学推理计算得出一条无碰撞的最优轨迹，再根据轨迹与当前位置近似得出下一个时刻的位置，以此为根据计算动力学参数。但路径规划在一些场景下计算耗时，可能难以求解，无法满足自动驾驶实时性的要求。

发明内容

本说明书实施例的目的是提供一种基于场景自适应识别的自动驾驶方法及***。

为解决上述技术问题，本申请实施例通过以下方式实现的：

第一方面，本申请提供一种基于场景自适应识别的自动驾驶方法，该方法包括：

获取驾驶场景下的环境信息及上一时刻操作信息；

路径规划模块基于上一时刻操作信息，确定一条当前驾驶场景下的路径规划轨迹；

根据路径规划轨迹的参数空间确定场景复杂度；

模仿学习模块根据环境信息由神经网络得出决策的不确定性分布；

根据不确定性分布确定场景异常度；

决策模块根据场景复杂度及场景异常度，确定自动驾驶方法。

在其中一个实施例中，路径规划模块采用模型预测控制方法，包括：

根据当前时刻的动力学模型预测预设时段内车辆的运动状态及轨迹，在考虑约束的条件下，优化每一具体时刻的控制轨迹以保证每一具体时刻的最优解。

在其中一个实施例中，优化每一具体时刻的控制轨迹基于代价函数、加速度限制约束、速度限制约束、避障约束、动力学约束。

在其中一个实施例中，根据路径规划轨迹的参数空间确定场景复杂度为：路径规划轨迹的参数空间中约束方程的数量与场景复杂度成正比。

在其中一个实施例中，训练神经网络的数据集包括历史俯瞰图及对应的历史时刻驾驶员的操作信息；

历史俯瞰图由对应的历史时刻驾驶的周围环境信息融合而成，其中俯瞰图为多个视角的RGB摄像头图片构成的以车辆为中心的视图。

在其中一个实施例中，神经网络的结构为：三层全连接网络，卷积核分别为32、64、64，四层全连接网络，结点数依次为1024、512、128、21。

在其中一个实施例中，模仿学习模块根据环境信息由神经网络得出决策的不确定性分布，包括：

神经网络输出的感知结果为：
y^*＝argmax_yP(y|s,w)

其中，P(y|s,w)表示神经网络的感知模型w在观测到场景s后产生结果y的概率；

场景的不确定性分布U(s)：
U(s)＝1-P(y^*|s,w)。

在其中一个实施例中，根据不确定性分布确定场景异常度为：不确定性分布与场景异常度成正比。

在其中一个实施例中，根据场景复杂度及场景异常度，确定自动驾驶方法，包括：

若场景复杂度大于第一阈值且场景异常度小于或等于第二阈值，则采取模仿学习模块确定的操作信息控制执行模块；

若场景复杂度小于或等于第一阈值且场景异常度大于第二阈值，则采取路径规划模块确定的操作信息控制执行模块；

若场景复杂度大于第一阈值且场景异常度大于第二阈值，则若场景复杂度与第一阈值的第一差值小于场景异常度与第二阈值的第二差值，则采取路径规划模块确定的操作信息控制执行模块，若第一差值大于第二差值，则采取模仿学习模块确定的操作信息控制执行模块；

若场景复杂度小于第一阈值且场景异常度小于第二阈值，则若第一差值小于第二差值，则采取路径规划模块确定的操作信息控制执行模块，若第一差值大于第二差值，则采取模仿学习模块确定的操作信息控制执行模块。

第二方面，本申请提供一种基于场景自适应识别的自动驾驶***，该***包括：

获取模块，用于获取驾驶场景下的环境信息及上一时刻操作信息；

路径规划模块，用于基于上一时刻操作信息，确定一条当前驾驶场景下的路径规划轨迹；

第一确定模块，用于根据路径规划轨迹的参数空间确定场景复杂度；

模仿学习模块，用于根据环境信息由神经网络得出决策的不确定性分布；

第二确定模块，用于根据不确定性分布确定场景异常度；

决策模块，用于根据场景复杂度及场景异常度，确定自动驾驶方法。

由以上本说明书实施例提供的技术方案可见，该方案：结合了路径规划与模仿学习方法各自的优点，该方法能够根据不同的场景自适应地识别分析场景复杂度与场景异常度，智能地选择采用路径规划方法对约束求解，或是采用模仿学习方法由神经网络进行计算。综合考虑了这两种方法在自动驾驶的优劣，提高了自动驾驶对实时性能与准确性能。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的基于场景自适应识别的自动驾驶的***总体框图；

图2为本申请提供的基于场景自适应识别的自动驾驶方法的流程示意图；

图3为本申请提供的俯瞰图的示意图；

图4为本申请提供的基于场景自适应识别的自动驾驶***的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、***、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

在不背离本申请的范围或精神的情况下，可对本申请说明书的具体实施方式做多种改进和变化，这对本领域技术人员而言是显而易见的。由本申请的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

本申请中的“份”如无特别说明，均按质量份计。

目前在自动驾驶领域已商用的驾驶方法，多数是采用路径规划的方法，这些路径规划法大致可分为四类，分别为基于图搜索、采样、插值和优化的方法。图搜索是通过构造环境地图来搜索最佳路径，采样法是通过采样的方式来代表环境地图，插值法是根据已有的参考点来插值生成轨迹，优化法是将规划问题构造为优化问题求解。基于优化的路径规划法可以求解出车辆导航的控制参数与轨迹，同时考虑到避障的约束。

目前自动驾驶中比较常用的模仿学习方法则是通过收集环境信息(比如摄像头与激光雷达)与驾驶员行为动作(比如油门、转向、刹车)组成数据集，将大量数据集交给神经网络训练，神经网络会通过梯度下降及反向传播等去更新神经元参数，让网络不断去拟合输入输出对，最终能够根据输入给出符合驾驶员逻辑的输出。

目前现有的基于优化的方法主要有两个缺点，第一个是最终求解问题大多是非凸的，非凸问题一方面导致求解困难，遇到一些复杂的场景很难求出最优解，同时计算耗时也会更高，导致实时性无法满足应用需求。有些方法通过线性化来解决非凸的约束，然而这种转换无法保证收敛。第二个是目前多数方法将汽车或者障碍物当作质点模型或者圆形来处理，并没有考虑到多维度的形状，例如比较常见的是将车辆建模为椭圆形和将障碍物建模为多边形。这样限制了该方法在一些特殊场景中的应用。例如车辆在两辆车中间进行倒车时，将轿车当作椭圆形处理是不合理的。

目前现有的基于模仿学习方法的主要缺点是模仿学习对于场景的限制性高，模型只能对数据集中出现过的场景进行良好应对，数据集以外的场景模型便会失去判断，这也决定了模仿学习严重依赖于数据集的多样性，难以推广到全场景下的驾驶行为。

基于上述缺陷，本申请提供一种基于场景自适应模式识别的自动驾驶方法。该方法在导航时基于路径规划方法导航一条从起始点到目标位置的最优无碰撞路径，再使用模仿学习方法计算当前场景下的决策，之后场景分析综合考虑路径规划的输出与模仿学习的输出，选择合适的方案。这种决策方案充分考虑了两种方法各自的优点。

下面结合附图和实施例对本发明进一步详细说明。

参照图1，其示出了适用于本申请实施例提供的基于场景自适应识别的自动驾驶方法的***总体框图。如图1所示，该***主要包括：感知模块、路径规划模块、模仿学习模块、决策模块。

其中，感知模块的作用是搜集传感器的数据，并从中提取出后续模块需要的环境信息。常用的传感器包括相机(即图1中摄像头)、雷达、uwb定位***(即图1中定位)等。相机可以捕捉到环境的色彩、亮度、物体等视觉信息；雷达发射的射线打在物体上会返回，通过返回的时间可以计算出物体离雷达的距离，以此获得深度距离信息；定位***可以获得自身位置的坐标信息。通过这些传感器及相应算法结合，可以构造出周围环境的地图以及障碍物的坐标等，交给后续模块处理。

路径规划模块的作用是根据上一时刻驾驶员的操作信息(包括油门、刹车及转向等)，然后采用优化路径规划方法确定一条当前行驶场景的最优轨迹。

模仿学习模块根据从感知模块获取的环境信息，有神经网络计算得出决策的不确定性分布。

决策模块智能地评估不确定性分布带来的场景异常度以及路径规划轨迹的参数空间得出的场景复杂度，决定选择哪一种决策方案。

参照图2，其示出了适用于本申请实施例提供的基于场景自适应识别的自动驾驶方法的流程示意图。

如图2所示，基于场景自适应识别的自动驾驶方法，可以包括：

S210、获取驾驶场景下的环境信息及上一时刻操作信息。

具体的，环境信息包括相机捕捉的视觉信息，雷达测算得到的深度距离信息，定位***获得的自身位置坐标信息等信息。

上一时刻操作信息包括油门、刹车、方向盘等涉及到的线速度、朝向角、车辆转向角等信息。

S220、路径规划模块基于上一时刻操作信息，确定一条当前驾驶场景下的路径规划轨迹。

在路径规划模块中，将障碍物和车辆都建模为凸集合，构造为凸集合能够在优化方程中考虑机器人与环境模型并加快求解速度，后续路径规划部分都是基于凸集规划。凸集可以将障碍物和车辆的形状和位置构造为一个广义线性不等式：O＝{x|Ax≤kB}，其中矩阵A和B由障碍物或者机器人的形状尺寸决定，满足该不等式的点即构成代表障碍物或车辆的凸集。与障碍物不同的是，车辆是时刻在移动的，所以每一时刻的车辆凸集都要根据当前位置去进行计算。常用的方法是先计算出车辆初始的凸集(将构造的广义线性不等式作为车辆的初始凸集)，然后根据车辆当前位置对凸集通过旋转矩阵和平移矩阵进行转换，这两个矩阵则是由当前车辆的朝向和位置决定。例如，假设平移矩阵为：

平移转换为：[x,y,1]_new＝[x,y,1]_old*Translation_x,y

同理，旋转转换为：[x,y,1]_new＝[x,y,1]_old*Rotation_x,y，具体的Rotation_x,y根据按照x轴转换或是按照y轴转换有不同的形式。

可选的，路径规划模块采用模型预测控制方法，包括：

具体的，模型预测控制(model predictive control)方法较常用于自动驾驶的控制算法中，它的优点是能够使得控制程序满足一定的约束条件，例如将各种动力学和运动学作为约束考虑进去。模型预测控制的主要思路在于根据当前的动力学模型预测未来一段时间窗口的车辆的运动状态和轨迹。然后在考虑约束的条件下，优化每一具体时刻的控制轨迹以保证这一时刻的最优解。其中，优化问题分为了五部分：代价函数、加速度限制约束、速度限制约束、避障约束、动力学约束。最终希望求解的结果是这段时间内的最优控制命令以及预测的最优轨迹。并将预测的控制命令传递给车辆执行。并且本申请采用了热启动的方式以节约计算时间，即每次求解问题的解都会作为下一时刻的问题的初始值，因为在很小的时间单位内车辆的移动不会太大，所以每次的求解相差不大。

其中，代价函数是优化问题的核心部分，代价函数的设置决定了优化方程的求解方向，优化的最终目的是求解出使代价函数最小的值。代价函数为：

其中，s是车辆的状态变量，包括坐标与方向；u是车辆的控制变量(也称为操作信息)，包括线速度与转向角等，s、和v、是参考轨迹以及参考速度，P和Q是权重矩阵，可以调整车辆沿着参考轨迹s、和参考速度v、运行的权重，这两个值越大，车辆就会越依据参考值运行，可以理解的，不同的导航任务对应的P和Q是不同的，N是预测时长，下标t是指第t时刻。这个代价函数代表了机器人的状态和控制变量与参考值之间的差，优化的方向就是尽量使差异变小。

其中，避障约束是规划优化问题的核心约束，这个约束保证了车辆的轨迹不会遇到障碍物发生碰撞，这里约束的建立基于感知模块的环境信息给定的凸集。判断是否碰撞的依据是车辆和周围障碍物间的最小距离，记为为了保证避障，最小距离需控制在安全范围内，数学形式为：

这个就是优化方程的避障约束，保证避障约束即可避免碰撞。

不同的机器人有不同的动力学模型。车辆比较常用的是阿克曼模型，它的特点是不能横向移动，轨迹只有直线和弧线的组合，弧线的半径取决于车辆的最小转弯半径r_min，而转弯半径是由车辆的前后轮中心距离以及最大转向角决定的。阿克曼车辆的控制命令主要有线性速度和转向角，它的动力学模型为：

其中，e和分别为线速度和朝向角，α为车辆转向角，L为车辆的前后轮距，而S_t和S_t+1是车辆不同时刻的状态。动力学模型的约束可以保证所求轨迹的平滑与可行性。

受限于实际的物理模型，车辆的速度u与加速度a均有最大值和最小值约束，即它们会受限在一定的范围里优化，同时这也缩小了定义域方便优化方程求解。

综上，路径规划模块的规划问题是要求车辆能够在避免碰撞的同时，尽可能地靠近理想轨迹。问题可抽象成：

针对这个问题，设计以下求解器进行迭代优化，每次迭代分为四步骤，循环执行优化，得到最优线速度和朝向角、车辆转向角：

步骤一：利用上一时刻求解器输出的控制命令以及车辆执行动作后的状态作为初始点；便于后续步骤的快速求解。

步骤二：利用L1范式稀疏性动态调整安全距离d_safe；对于稀疏的环境d_safe会倾向于更大值，反之亦然。

步骤三：用惩罚函数将约束群转为求和形式的约束条件，消除非凸约束条件使得问题所有约束均为线性；线性约束更容易求解，同时便于后续计算。

步骤四：对于非凸的代价函数，用不等式法计算代价函数上界，并将上界作为代理函数输入到内点法求解器中。这样原始的非凸问题就转换为了凸的问题，更易于求解。代理函数的作用即是用另一种函数形式代替原函数的作用方便求解。在本步骤中，对于不易求解的a≤b问题，可以先求得a的上界为c，原不等式就可转化为c≤b。这就是原不等式的代理函数。

S230、根据路径规划轨迹的参数空间确定场景复杂度，具体为路径规划轨迹的参数空间中约束方程的数量与场景复杂度成正比。

具体的，本申请采用研究路径规划的参数空间的方法判断场景复杂度。路径规划的求解取决于所建立的约束方程的依赖关系，所以约束方程(参数量)越多代表场景复杂度越高，也就是计算求解难度越高。

S240、模仿学习模块根据环境信息由神经网络得出决策的不确定性分布。

具体的，模仿学习模块采用预训练好的神经网络进行控制。

一个实施例中，训练神经网络的数据集包括历史俯瞰图及对应的历史时刻驾驶员的操作信息；

具体的，采集数据模块主要是应用感知模块中各类传感器获取到环境信息以制作数据集。常用的传感器数据有RGB摄像头、深度摄像头、雷达、激光雷达等。使用RGB摄像头可以获取到车身周围的物体的视觉信息，从中可以提取出语义信息、物体交互信息等等。深度摄像头可以获取到视野内所有点的深度数据构成的矩阵，以此建构深度图，可以查询到其他物体的距离信息。激光雷达通过测定传感器发射器与目标物体之间的传播距离，分析目标物体表面的反射能量大小、反射波谱的幅度、频率和相位等信息，从而呈现出目标物精确的三维结构信息。更多的传感器能够带给***更丰富的信息，使***对周围环境的判断更为准确，但是多传感器间的数据处理与融合相对地也会变得更为复杂，让智能模型难以训练。我们考虑采用多个视角的RGB摄像头图片，以构成一张以车辆为中心点的俯瞰(bird-view)视图的输入，如图3所示。之后安排一位富有经验的人类驾驶员进行道路驾驶操作，选取不同街道的不同交通环境进行驾驶，期间要避免碰撞以及符合交通规则。中间过程保持15Hz的频率，即每秒记录下15次数据，每一次数据包括俯瞰图以及对应的驾驶员的操作(油门、刹车、转向值)。完整的一次驾驶收集到的视为一组数据。数据量越大，数据集包含的多样性就越充足，训练出的模型效果就更好。采集完成之后，需要对数据进行一遍预处理。收集到的俯瞰图，将其裁剪和缩放，使得每张图片的尺寸都在160*80，便于网络计算。对于油门、刹车、转向值，超出物理范围限制的值我们将其修改为物理范围限制的最大值/最小值，之后对所有数据值进行归一化(normalization)，让它们的值在[-1,1]之间。然后对动作值(即操作值)进行处理，以每0.1的值为一个间隔，将[-1,1]分为0～20共21类，具体计算公式为：
pred＝value*10.0+10

然后应用收集好的数据集，对神经网络进行训练。本申请采用卷积加全连接的结构，构造一个分类网络，该网络的任务是，通过输入的俯瞰图，经过网络计算，得出各个动作对应的分类值，再将分类值转换为控制值应用。具体的网络结构为，三层全连接网络，卷积核分别是32，64，64，四层全连接网络，结点数依次为1024，512，128，21。最后一层全连接网络共有二十一个结点，依次输出每个动作对应的概率值，从这些结点中取概率最大的作为选定分类，再通过下列公式将分类值转为控制值，控制值交给车辆的制动***去执行。
value＝(pred-10)/10.0

可以理解的，模仿学习的训练目标是，使得策略最逼近驾驶员的驾驶策略，让不同输入下的输出能够与数据集中的对应数值最为接近。优化方程为：

此处的θ^*为最逼近驾驶员的驾驶策略参数，s,a～D为从数据集D中采样的状态与动作(输入与标签)，loss为误差函数，π(s|θ)为在参数θ下的策略π在给定输入s时得到的输出，参数优化的目的是最小化当前参数的策略与数据集中的策略的差异。

使用训练好的神经网络时，将当前驾驶的周围环境信息融合成的俯瞰图，同样裁剪缩放至网络需要的输入尺寸，然后输入至训练好的神经网络计算就能得出对应的控制结果。

一个实施例中，模仿学习模块根据环境信息由神经网络得出决策的不确定性分布，包括：

神经网络输出的感知结果为：
y^*＝argmax_yP(y|s,w)

场景的不确定性分布U(s)：
U(s)＝1-P(y^*|s,w)。

具体的，用P(y|s,w)来表示感知模型w在观测到场景s后产生结果y的概率。由于感知模型会从所有结果中选取可能性最大的结果，因此模型最终输出的感知结果为y^*＝argmax_yP(y|s,w)；该输出所对应的概率表示感知模型w对所观测场景是否熟悉。因此场景不确定性可以用如下公式计算：
U(s)＝1-P(y^*|s,w)。

S250、根据不确定性分布确定场景异常度为：不确定性分布与场景异常度成正比。

具体的，不确定性分布U越大代表场景越复杂。

另外，还可以通过场景理解偏差确定场景复杂度，具体为：

将一般性的感知复杂度分析应用于智能驾驶场景理解，初步得到场景理解偏差(包括了分类错误率、检测错误率、与追踪丢失概率)与场景理解模型的参数量呈如下函数关系式：

其中，A表示智能汽车对某特定场景的理解偏差，(b,c)表示需要拟合的参数，T表示Gibbs分布的温度常数，(U,V)表示泛化误差关于场景理解模型的二阶与一阶导数矩阵，W表示场景理解模型的参数量。A越大代表场景越复杂。

可以理解的，还可以综合考虑不确定性分布U和场景理解偏差A确定场景异常度，例如可以将二者求平均，也可以进行加权平均等得到的值确定场景异常度，在此不做限制。

S260、决策模块根据场景复杂度及场景异常度，确定自动驾驶方法。

具体的，若场景复杂度大于第一阈值且场景异常度小于或等于第二阈值，则采取模仿学习模块确定的操作信息控制执行模块；

具体的，其中，第一阈值和第二阈值均可以根据实际需求进行设定。

综合考虑场景复杂度和场景异常度两个指标，当场景复杂度较高(即场景复杂度大于第一阈值)、场景异常度较低(即场景异常度小于或等于第二阈值)时，采取模仿学习的模型计算结果可以更快速有效地进行控制，符合自动驾驶实时性的需求。当场景异常度较高(即场景异常度大于第二阈值)、场景复杂度较低(即场景复杂度小于或等于第一阈值)时，当前场景是模仿学习的数据集中较少出现过的场景，模型对于这种场景的判断置信度较低，采取路径规划的方法可以提高决策的准确性，更好地避免可能发生的碰撞等异常情况。

本申请实施例提供的基于场景自适应识别的自动驾驶方法，结合了路径规划与模仿学习方法各自的优点，该方法能够根据不同的场景自适应地识别分析场景复杂度与场景异常度，智能地选择采用路径规划方法对约束求解，或是采用模仿学习方法由神经网络进行计算。综合考虑了这两种方法在自动驾驶的优劣，提高了自动驾驶对实时性能与准确性能。

本申请实施例结合了两种方法的优势，能够稳定可靠无碰撞地完成交通道路的自动驾驶操作，相比单纯的路径规划方法，本申请在计算上用时更短；相比单纯的模仿学习方法，本申请对于出现频率较低的训练场景有更好的应对性能。

参照图4，其示出了根据本申请一个实施例描述的基于场景自适应识别的自动驾驶***的结构示意图。

如图4所示，基于场景自适应识别的自动驾驶***400，可以包括：

获取模块410，用于获取驾驶场景下的环境信息及上一时刻操作信息；

路径规划模块420，用于基于上一时刻操作信息，确定一条当前驾驶场景下的路径规划轨迹；

第一确定模块430，用于根据路径规划轨迹的参数空间确定场景复杂度；

模仿学习模块440，用于根据环境信息由神经网络得出决策的不确定性分布；

第二确定模块450，用于根据不确定性分布确定场景异常度；

决策模块460，用于根据场景复杂度及场景异常度，确定自动驾驶方法。

可选的，路径规划模块采用模型预测控制方法，包括：

可选的，优化每一具体时刻的控制轨迹基于代价函数、加速度限制约束、速度限制约束、避障约束、动力学约束。

可选的，路径规划轨迹的参数空间中约束方程的数量场景复杂度成正比。

可选的，训练神经网络的数据集包括历史俯瞰图及对应的历史时刻驾驶员的操作信息；

可选的，神经网络的结构为：三层全连接网络，卷积核分别为32、64、64，四层全连接网络，结点数依次为1024、512、128、21。

可选的，模仿学习模块440还用于：

神经网络输出的感知结果为：
y^*＝argmax_yP(y|s,w)

场景的不确定性分布U(s)：
U(s)＝1-P(y^*|s,w)。

可选的，不确定性分布与场景异常度成正比。

可选的，决策模块460还用于：

本实施例提供的一种基于场景自适应识别的自动驾驶***，可以执行上述方法的实施例，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

一种基于场景自适应识别的自动驾驶方法，其特征在于，所述方法包括：

获取驾驶场景下的环境信息及上一时刻操作信息；

路径规划模块基于所述上一时刻操作信息，确定一条当前驾驶场景下的路径规划轨迹；

根据所述路径规划轨迹的参数空间确定场景复杂度；

模仿学习模块根据所述环境信息由神经网络得出决策的不确定性分布；

根据所述不确定性分布确定场景异常度；

决策模块根据所述场景复杂度及所述场景异常度，确定自动驾驶方法。
根据权利要求1所述的方法，其特征在于，所述路径规划模块采用模型预测控制方法，包括：

根据当前时刻的动力学模型预测预设时段内车辆的运动状态及轨迹，在考虑约束的条件下，优化每一具体时刻的控制轨迹以保证每一具体时刻的最优解。
根据权利要求2所述的方法，其特征在于，所述优化每一具体时刻的控制轨迹基于代价函数、加速度限制约束、速度限制约束、避障约束、动力学约束。
根据权利要求1所述的方法，其特征在于，所述根据所述路径规划轨迹的参数空间确定场景复杂度为：所述路径规划轨迹的参数空间中约束方程的数量与所述场景复杂度成正比。
根据权利要求1所述的方法，其特征在于，训练所述神经网络的数据集包括历史俯瞰图及对应的历史时刻驾驶员的操作信息；

所述历史俯瞰图由对应的历史时刻驾驶的周围环境信息融合而成，其中俯瞰图为多个视角的RGB摄像头图片构成的以车辆为中心的视图。
根据权利要求1所述的方法，其特征在于，所述神经网络的结构为：三层全连接网络，卷积核分别为32、64、64，四层全连接网络，结点数依次为1024、512、128、21。
根据权利要求1所述的方法，其特征在于，所述模仿学习模块根据所述环境信息由神经网络得出决策的不确定性分布，包括：

所述神经网络输出的感知结果为：
y^*＝argmax_yP(y|s,w)

其中，P(y|s,w)表示神经网络的感知模型w在观测到场景s后产生结果y的概率；

场景的不确定性分布U(s)：
U(s)＝1-P(y^*|s,w)。
根据权利要求1所述的方法，其特征在于，所述根据所述不确定性分布确定场景异常度为：所述不确定性分布与所述场景异常度成正比。
根据权利要求1所述的方法，其特征在于，所述根据所述场景复杂度及所述场景异常度，确定自动驾驶方法，包括：

若所述场景复杂度大于第一阈值且所述场景异常度小于或等于第二阈值，则采取所述模仿学习模块确定的操作信息控制执行模块；

若所述场景复杂度小于或等于所述第一阈值且所述场景异常度大于所述第二阈值，则采取所述路径规划模块确定的操作信息控制所述执行模块；

若所述场景复杂度大于所述第一阈值且所述场景异常度大于所述第二阈值，则若所述场景复杂度与所述第一阈值的第一差值小于所述场景异常度与所述第二阈值的第二差值，则采取所述路径规划模块确定的操作信息控制所述执行模块，若所述第一差值大于所述第二差值，则采取所述模仿学习模块确定的操作信息控制所述执行模块；

若所述场景复杂度小于所述第一阈值且所述场景异常度小于所述第二阈值，则若所述第一差值小于所述第二差值，则采取所述路径规划模块确定的操作信息控制所述执行模块，若所述第一差值大于所述第二差值，则采取所述模仿学习模块确定的操作信息控制所述执行模块。
一种基于场景自适应识别的自动驾驶***，其特征在于，所述***包括：

获取模块，用于获取驾驶场景下的环境信息及上一时刻操作信息；

路径规划模块，用于基于所述上一时刻操作信息，确定一条当前驾驶场景下的路径规划轨迹；

第一确定模块，用于根据所述路径规划轨迹的参数空间确定场景复杂度；

模仿学习模块，用于根据所述环境信息由神经网络得出决策的不确定性分布；

第二确定模块，用于根据所述不确定性分布确定场景异常度；

决策模块，用于根据所述场景复杂度及所述场景异常度，确定自动驾驶方法。