CN115223143A

CN115223143A - 用于自动驾驶车辆的图像处理方法、装置、设备及介质

Info

Publication number: CN115223143A
Application number: CN202210809590.7A
Authority: CN
Inventors: 牛宝龙
Original assignee: Xiaomi Automobile Technology Co Ltd
Current assignee: Xiaomi Automobile Technology Co Ltd
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-10-21

Abstract

本公开提供了一种用于自动驾驶车辆的图像处理方法、装置、设备及介质，图像处理方法包括：确定初始样本集，初始样本集中的至少部分车辆周围场景初始样本图像包括第一目标障碍物，第一目标障碍物的尺寸小于预设尺寸；对初始样本集进行预处理，得到训练样本集，训练样本集包括多个车辆周围场景训练样本图像及对应的训练样本标签，预处理用于增加包括第一目标障碍物的车辆周围场景训练样本图像的数量和/或增加车辆周围场景训练样本图像中第一目标障碍物的数量；基于训练样本集，对初始自动驾驶障碍物识别模型进行训练，得到自动驾驶障碍物识别模型；将周围场景图像输入自动驾驶障碍物识别模型，得到障碍物识别结果，以提高识别准确率。

Description

用于自动驾驶车辆的图像处理方法、装置、设备及介质

技术领域

本公开涉及自动驾驶技术领域，尤其涉及一种用于自动驾驶车辆的图像处理方法、装置、设备及介质。

背景技术

在自动驾驶领域中，自车可以采集周围环境和状态，以作为后续决策的依据。

目前，自动驾驶技术可以对车辆周围的障碍物的位置和大小进行感知和识别，其中，可以较为准确地识别图像中的大型目标，如轿车、卡车等，但对于小型目标，如人、自行车、锥桶等的识别准确率较低。

发明内容

为克服相关技术中存在的问题，本公开提供了一种用于自动驾驶车辆的图像处理方法、装置、设备及介质。

根据本公开的第一方面，提供一种用于自动驾驶车辆的图像处理的方法，所述图像处理方法包括：

确定初始样本集，所述初始样本集包括多个车辆周围场景初始样本图像及对应的初始样本标签，至少部分所述车辆周围场景初始样本图像中包括第一目标障碍物，所述第一目标障碍物的尺寸小于预设尺寸；

对所述初始样本集进行预处理，得到训练样本集，所述训练样本集包括多个车辆周围场景训练样本图像及对应的训练样本标签，所述预处理用于使得包括所述第一目标障碍物的车辆周围场景训练样本图像的数量大于包括所述第一目标障碍物的所述车辆周围场景初始样本图像的数量，和/或使得所述车辆周围场景训练样本图像中的所述第一目标障碍物的数量大于对应的所述车辆周围场景初始样本图像中的所述第一目标障碍物的数量；

基于所述训练样本集，对初始自动驾驶障碍物识别模型进行训练，得到自动驾驶障碍物识别模型；

获取自动驾驶车辆的周围场景图像；

将所述周围场景图像待识别图像输入所述自动驾驶障碍物识别模型，得到障碍物识别结果。

本公开的一些实施例中，所述对所述初始样本集进行预处理，包括：

对包括第一目标障碍物的至少部分所述车辆周围场景初始样本图像进行过采样，得到新增样本图像；

对所述新增样本图像进行标记，得到所述新增样本图像对应的样本标签，将每一个所述新增样本图像确定为一个所述车辆周围场景训练样本图像，将所述新增样本图像对应的样本标签确定为所述训练样本标签。

本公开的一些实施例中，所述车辆周围场景初始样本图像中，每一个所述车辆周围场景初始样本图像均对应一个不同的时间信息，所述对包括第一目标障碍物的至少部分所述车辆周围场景初始样本图像进行过采样，包括：

对相邻两个时间信息分别对应的两个所述车辆周围场景初始样本图像之间进行插帧处理，以在两个所述车辆周围场景初始样本图像之间增加至少一个所述新增样本图像；

对所述新增样本图像进行标记，包括：

获取所述新增样本图像的前后两个所述车辆周围场景初始样本图像所对应的第一位姿信息和第一时间信息；

确定所述新增样本图像对应的第二位姿信息和第二时间信息；

根据前后两个所述初车辆周围场景始样本图像所对应的初始样本标签、所述第二位姿信息、所述第二时间信息，确定所述新增样本图像对应的样本标签。

提取所述车辆周围场景初始样本图像中的第一目标障碍物对应的第一目标障碍物图像；

将所述第一目标障碍物图像与所述初始样本集中的其他车辆周围场景初始样本图像中的至少一个进行图像合并，得到合并样本图像；

对所述合并样本图像进行第一目标障碍物识别，确定出所述合并样本图像对应的样本标签，将所述合并样本图像确定为所述车辆周围场景训练样本图像，将所述合并样本图像对应的样本标签确定为所述训练样本标签。

本公开的一些实施例中，将所述第一目标障碍物图像与所述初始样本集中的其他车辆周围场景初始样本图像中的至少一个进行图像合并，得到合并样本图像，包括：

获取所述车辆周围场景初始样本图像中的第一目标障碍物对应的第一点云，所述第一点云位于第一位置；

将所述第一点云复制至第二位置，得到第二点云；

将所述第二点云投影至所述车辆周围场景初始样本图像，得到投影图像；

根据所述投影图像以及所述第一目标障碍物对应的第一目标障碍物图像，确定目标位置；

将所述投影图像在所述目标位置与所述车辆周围场景初始样本图像合并，得到所述合并样本图像。

本公开的一些实施例中，至少部分所述车辆周围场景初始样本图像中包括第二目标障碍物，所述第二目标障碍物的尺寸大于所述第一目标障碍物的尺寸，所述对所述初始样本集进行预处理，包括：

调节包括第二目标障碍物的至少部分所述车辆周围场景初始样本图像对应的相机参数，以将所述第二目标障碍物缩小为所述第一目标障碍物。

本公开的一些实施例中，所述相机参数包括焦距和/或畸变参数。

本公开的一些实施例中，所述自动驾驶障碍物识别模型包括：

骨干网络，用于对所述周围场景图像进行特征提取得到第一特征图；

多尺度特征提取模块，用于对所述第一特征图进行多尺度特征提取，得到第二特征图；

编码网络，用于对所述第二特征图进行特征提取得到第三特征图；

输出网络，用于基于所述第三特征图生成所述障碍物识别结果。

本公开的一些实施例中，所述骨干网络包括至少一个第一卷积层和至少一个空间深度转换模块，所述空间深度转换模块包括空间-深度转换层和第二卷积层。

本公开的一些实施例中，至少一个所述第一卷积层和/或所述第二卷积层为可变形卷积层。

本公开的一些实施例中，所述多尺度特征提取模块包括密集连接的特征金字塔网络。

根据本公开的第二方面，提供一种用于自动驾驶车辆的图像处理装置，所述图像处理装置包括：

确定模块，被配置为确定初始样本集，所述初始样本集包括多个车辆周围场景初始样本图像及对应的初始样本标签，至少部分所述车辆周围场景初始样本图像中包括第一目标障碍物，所述第一目标障碍物的尺寸小于预设尺寸；

预处理模块，被配置为对所述初始样本集进行预处理，得到训练样本集，所述训练样本集包括多个车辆周围场景训练样本图像及对应的训练样本标签，所述预处理用于使得包括所述第一目标障碍物的车辆周围场景训练样本图像的数量大于包括所述第一目标障碍物的所述车辆周围场景初始样本图像的数量，和/或使得所述车辆周围场景训练样本图像中的所述第一目标障碍物的数量大于对应的所述车辆周围场景初始样本图像中的所述第一目标障碍物的数量；

训练模块，被配置为基于所述训练样本集，对初始自动驾驶障碍物识别模型进行训练，得到自动驾驶障碍物识别模型；

获取模块，被配置为获取自动驾驶车辆的周围场景图像；

识别模块，被配置为将所述周围场景图像输入所述自动驾驶障碍物识别模型，得到障碍物识别结果。

根据本公开的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器的可执行指令的存储器；

其中，所述处理器被配置为执行本公开第一方面所述的用于自动驾驶车辆的图像处理方法。

根据本公开的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开第一方面所述的用于自动驾驶车辆的图像处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果：通过对初始样本集进行预处理，将小于预设尺寸的第一目标障碍物的数量增加，从而提高训练后的自动驾驶障碍物识别模型对第一目标障碍物的识别能力，提升自动驾驶障碍物识别模型识别第一目标障碍物的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种用于自动驾驶车辆的图像处理方法的流程示意图。

图2是根据一示例性实施例示出的一种用于自动驾驶车辆的图像处理方法的流程示意图。

图3是根据一示例性实施例示出的一种用于自动驾驶车辆的图像处理方法的流程示意图。

图4是根据一示例性实施例示出的一种用于自动驾驶车辆的图像处理方法的流程示意图。

图5是根据一示例性实施例示出的一种用于自动驾驶车辆的图像处理装置的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在自动驾驶领域中，自车可以采集周围环境和状态，以作为后续决策的依据。目前，自动驾驶技术可以对车辆周围的障碍物的位置和大小进行感知和识别，其中，可以较为准确地识别图像中的大型目标，如轿车、卡车等，但对于小型目标，如人、自行车、锥桶等的识别准确率较低。

为了解决以上技术问题，本公开提供了一种图像处理方法，通过对初始样本集进行预处理，将小于预设尺寸的第一目标障碍物的数量增加，从而提高训练后的自动驾驶障碍物识别模型对第一目标障碍物的识别能力，提升自动驾驶障碍物识别模型识别第一目标障碍物的准确率。

为便于理解，首先对本公开提供的图像处理方法的应用场景进行说明。本公开可以应用于人工智能领域的各种领域中，具体可以应用于各种需要对周围环境中的刚体进行定位和识别的场景中。其中，刚体是指在运动中和受力作用后，形状和大小不变，且内部各点的相对位置不变的物体，刚体例如可以包括道路中的车辆、路障或行人或其他类型的刚体等。本公开实施例可以应用于对自车(也即用户所在的驾驶车辆)周围的路障或行人等目标的位置和类型进行估计的场景中。可以理解的是，此处介绍仅为方便理解本公开实施例的应用场景，不对本公开实施例的应用场景进行穷举。以下均以本公开实施例应用于自动驾驶领域为例进行说明。

本公开一示例性实施例提供了一种用于自动驾驶车辆的图像处理方法，如图1所示，用于自动驾驶车辆的图像处理方法包括：

S100、确定初始样本集，初始样本集包括多个车辆周围场景初始样本图像及对应的初始样本标签，至少部分车辆周围场景初始样本图像中包括第一目标障碍物，第一目标障碍物的尺寸小于预设尺寸；

S200、对初始样本集进行预处理，得到训练样本集，训练样本集包括多个车辆周围场景训练样本图像及对应的训练样本标签，预处理用于使得包括第一目标障碍物的车辆周围场景训练样本图像的数量大于包括第一目标障碍物的车辆周围场景初始样本图像的数量，和/或使得车辆周围场景训练样本图像中的第一目标障碍物的数量大于对应的车辆周围场景初始样本图像中的第一目标障碍物的数量；

S300、基于训练样本集，对初始自动驾驶障碍物识别模型进行训练，得到自动驾驶障碍物识别模型；

S400、获取自动驾驶车辆的周围场景图像；

S500、将周围场景图像输入自动驾驶障碍物识别模型，得到障碍物识别结果。

在步骤S100中，车辆周围场景初始样本图像可以是通过汽车上配置的摄像设备进行图像采集获取的图像，摄像设备包括但不限于相机、采集卡、雷达或其他类型的摄像设备等，摄像设备可以是单目摄像***、双目摄像***或多目摄像***。车辆周围场景初始样本图像也可以是从互联网等数据库中获取的车辆周围场景的图像，车辆周围场景初始样本图像可以为一张独立的图像，也可以为视频中的一帧视频帧。通过对车辆周围场景初始样本图像进行识别，将车辆周围场景初始样本图像中的2D包络框或3D包络框，以及每个包络框对应的类别作为车辆周围场景初始样本图像对应的初始样本标签，类别包括但不限于车辆、路灯、路障、路标、护栏和行人等。初始样本标签以标识车辆周围场景初始样本图像中的目标障碍物。

由于距离摄像设备较近的目标在图像上的占比和尺寸较大，距离摄像设备较远的目标在图像上的占比和尺寸较小。第一目标障碍物为车辆周围场景初始样本图像中大于或等于预设尺寸的障碍物，预设尺寸可以是根据需求进行虚设，例如可以预设障碍物在车辆周围场景初始样本图像中的面积占比值，或者是障碍物的轮廓周长值，等等。第一目标障碍物例如为与摄像设备距离较远的，在车辆周围场景初始样本图像中的面积占比值小于预设占比值的物体，例如非常远的车辆、较远的路障、路标、护栏、行人等等。部分车辆周围场景初始样本图像中可以包括一个或多个第一目标障碍物，部分车辆周围场景初始样本图像中也可以包括第一目标障碍物和其它目标障碍物，部分车辆周围场景初始样本图像中还可以不包括任何目标障碍物，等等。

在步骤S200中，对初始样本集进行预处理，以得到训练样本集，训练样本集可以包括多个车辆周围场景训练样本图像以及对应的训练样本标签。车辆周围场景训练样本图像中生成的每个2D包络框或3D包络框对应的类别作为车辆周围场景训练样本图像对应的训练样本标签，以标识车辆周围场景训练样本图像中的目标障碍物。预处理可以是增加初始样本集中的第一目标障碍物的数量的处理方法。

经过对初始样本集进行预处理，训练样本集中的车辆周围场景训练样本图像的数量可以大于初始样本集中的车辆周围场景初始样本图像的数量，即，通过增加包括第一目标障碍物的样本图像，使得包括第一目标障碍物的车辆周围场景训练样本图像的数量大于包括第一目标障碍物的车辆周围场景初始样本图像的数量。训练样本集中的车辆周围场景训练样本图像的数量也可以等于初始样本集中的车辆周围场景初始样本图像的数量，通过增加第一目标障碍物的数量，使得车辆周围场景训练样本图像中的第一目标障碍物的数量大于对应的车辆周围场景初始样本图像中的第一目标障碍物的数量。经过预处理，由于训练样本集中的第一目标障碍物的数量大于初始样本集中的第一目标障碍物的数量，使得训练样本标签的数量大于初始样本标签的数量。通过对初始样本集进行预处理，将小于预设尺寸的第一目标障碍物的数量增加，从而提高训练后的自动驾驶障碍物识别模型对第一目标障碍物的识别能力，提升自动驾驶障碍物识别模型识别第一目标障碍物的准确率。

在步骤S300中，将训练样本集输入初始自动驾驶障碍物识别模型中，根据车辆周围场景训练样本图像以及训练样本标签，可以利用损失函数对初始自动驾驶障碍物识别模型进行训练。训练设置利用训练样本集中的多个车辆周围场景训练样本图像和每个车辆周围场景训练样本图像的训练样本标签对初始自动驾驶障碍物识别模型进行迭代训练，直至满足损失函数的收敛条件，得到自动驾驶障碍物识别模型。其中，损失函数具体可以为L1损失函数、交叉熵损失函数和/或其他类型的损失函数等。由于尺寸小于预设尺寸的第一目标障碍物在所有车辆周围场景训练样本标签中的数量增加，从而提高训练后的自动驾驶障碍物识别模型对第一目标障碍物的识别能力，提升自动驾驶障碍物识别模型识别第一目标障碍物的准确率。

在步骤S400中，自动驾驶车辆的周围场景图像可以是通过自车上配置的摄像设备进行图像采集获取的图像，摄像设备包括但不限于相机、采集卡、雷达或其他类型的摄像设备等，摄像设备可以是单目摄像***、双目摄像***或多目摄像***。周围场景图像可以是一张独立的图像，也可以是视频中的一帧视频帧。

在步骤S500中，自车上可以预先配置有训练得到的自动驾驶障碍物识别模型。在获取到自动驾驶车辆的周围场景图像之后，将周围场景图像输入到自动驾驶障碍物识别模型中，自动驾驶障碍物识别模型可以依据推理控制策略，利用形式化的信息进行推理，例如通过搜索和匹配，得到自动驾驶障碍物识别模型输出的障碍物识别结果，障碍物识别结果用于指示周围场景图像中是否包含第一目标障碍物或其它目标障碍物，以作为后续决策的依据。

在一个示例性实施例中，如图2所示，步骤S200中，对初始样本集进行预处理，包括：

S201、对包括第一目标障碍物的至少部分车辆周围场景初始样本图像进行过采样，得到新增样本图像；

S202、对新增样本图像进行标记，得到新增样本图像对应的样本标签，将每一个新增样本图像确定为一个车辆周围场景训练样本图像，将新增样本图像对应的样本标签确定为训练样本标签。

在步骤S201中，可以对包括第一目标障碍物的部分车辆周围场景初始样本图像进行过采样，也可以对包括第一目标障碍物的全部车辆周围场景初始样本图像进行过采样。过采样指的是，产生比包括第一目标障碍物的车辆周围场景初始样本图像更多的图像样本的任何技术，进而得到新增样本图像。新增样本图像中包括第一目标障碍物。

在步骤S202中，对新增样本图像进行特征提取，例如生成新增样本图像中第一目标障碍物的2D包络框或3D包络框，并生成与每个包络框对应的类别，以得到新增样本图像对应的样本标签。将每一个新增样本图像确定为一个车辆周围场景训练样本图像，将新增样本图像对应的样本标签确定为训练样本标签，以增加包括第一目标障碍物的车辆周围场景训练样本图像的数量，使得包括第一目标障碍物的车辆周围场景训练样本图像的数量大于包括第一目标障碍物的车辆周围场景初始样本图像的数量，从而提高训练后的自动驾驶障碍物识别模型对第一目标障碍物的识别能力，提升自动驾驶障碍物识别模型识别第一目标障碍物的准确率。

在一些可能的实施方式中，车辆周围场景初始样本图像中，每一个车辆周围场景初始样本图像均对应一个不同的时间信息，步骤S201中，对包括第一目标障碍物的至少部分车辆周围场景初始样本图像进行过采样，包括：

S201-1、对相邻两个时间信息分别对应的两个车辆周围场景初始样本图像之间进行插帧处理，以在两个车辆周围场景初始样本图像之间增加至少一个新增样本图像。

本实施例中，每一个车辆周围场景初始样本图像为视频中的一帧视频帧，或者连续快门拍摄得到的图像，使得每一个车辆周围场景初始样本图像均对应一个不同的时间信息，以表征不同的车辆周围场景初始样本图像，以及两个车辆周围场景初始样本图像之间的时间关系。

步骤S201-1中，相邻两个时间信息分别对应的两个车辆周围场景初始样本图像，其中的第一目标障碍物在图像中的位置和像素可能不同，例如对于一个正在运动的行人，前一秒和后一秒在图像中的位置和姿势不同。对相邻两个时间信息分别对应的两个车辆周围场景初始样本图像之间进行插帧处理，即，利用相邻两个时间信息分别对应的两个车辆周围场景初始样本图像中的第一目标障碍物的信息，例如是2D包络框或3D包络框对应的位置信息，通过运动预估和运动补偿，以生成新的视频帧或图像，以在两个车辆周围场景初始样本图像之间增加至少一个新增样本图像，以增加包括第一目标障碍物的样本图像的数量。

步骤S202中，对新增样本图像进行标记，包括：

S202-1、获取新增样本图像的前后两个车辆周围场景初始样本图像所对应的第一位姿信息和第一时间信息；

S202-2、确定新增样本图像对应的第二位姿信息和第二时间信息

S202-3、根据前后两个车辆周围场景初始样本图像所对应的初始样本标签、第二位姿信息、第二时间信息，确定新增样本图像对应的样本标签。

在步骤S202-1中，由于新增样本图像是通过在相邻两个时间信息对应的车辆周围场景初始样本图像中插帧处理得到的，因此，分别获取新增样本图像前后的两个车辆周围场景初始样本图像所对应的时间信息，作为第一时间信息。第一位姿信息是指采集两个车辆周围场景初始样本图像的摄像设备的位置信息和姿态信息，姿态信息是指拍摄采集车辆周围场景初始图像时，摄像设备的倾斜角度。车辆周围场景初始样本图像是由自车上的摄像设备采集的，在采集车辆周围场景初始样本图像时，摄像设备的位置可能不同，姿态也有可能不同，例如一个车辆周围场景初始样本图像是单目摄像***采集的，另一个车辆周围场景初始样本图像是双目摄像***采集的等等。

在步骤S202-2中，由于新增样本图像是通过在相邻两个时间信息对应的车辆周围场景初始样本图像中插帧处理，通过运动预估和运动补偿生成的。通过两个车辆周围场景初始样本图像所对应的第一时间信息和第一位姿信息，可以通过插帧模型，计算一个车辆周围场景初始样本图像中的第一目标障碍物的像素点移动到另一个车辆周围场景初始样本图像的移动量，或者两个车辆周围场景初始样本图像中的第一目标障碍物的2D包络框或3D包络框对应的位置信息的变化值，以确定新增样本图像中的第一目标障碍物的位置，进而确定新增样本图像对应的第二位姿信息和第二时间信息。

在步骤S202-3中，根据前后两个车辆周围场景初始样本图像所对应的初始样本标签、第二位姿信息和第二时间信息，可以确定新增样本图像中的第一目标障碍物的2D包络框或3D包络框，并生成与每个包络框对应的类别，以得到新增样本图像对应的样本标签。

在一个示例性实施例中，如图3所示，步骤S200中，对初始样本集进行预处理，包括：

S210、提取车辆周围场景初始样本图像中的第一目标障碍物对应的第一目标障碍物图像；

S220、将第一目标障碍物图像与初始样本集中的其他车辆周围场景初始样本图像中的至少一个进行图像合并，得到合并样本图像；

S230、对合并样本图像进行第一目标障碍物识别，确定出合并样本图像对应的样本标签，将合并样本图像确定为车辆周围场景训练样本图像，将合并样本图像对应的样本标签确定为训练样本标签。

在步骤S210中，可以采用特征提取网络根据区域生成网络(region proposalnetwork，RPN)输出的2D包络框或3D包络框的位置信息和尺寸信息，从车辆周围场景初始样本图像的特征图中扣出尺寸小于预设尺寸的2D包络框或3D包络框内的特征图，将该特征图对应的图像作为第一目标障碍物图像，并进行提取。

在步骤S220中，将第一目标障碍物图像与初始样本集中的其它车辆周围场景初始样本图像中的一个或多个进行图像合并。其它车辆周围场景初始样本图像中可以包括第一目标障碍物，也可以不包括第一目标障碍物；其它车辆周围场景初始样本图像的视角可以与第一目标障碍物图像所在的车辆周围场景初始样本图像的视角相同，也可以不同。图像合并的方式例如可以是将第一目标障碍物图像复制粘贴至其它车辆周围场景初始样本图像中，也可以是通过点云或者像素点复制至其它车辆周围场景初始样本图像中，等等，以得到合并样本图像。

在步骤S230中，对合并样本图像进行第一目标障碍物识别，例如可以通过特征提取网络对合并样本图像进行识别，特征提取网络例如可以是计算量和参数量较大的3D障碍物检测模型，特征提取网络通过对合并样本图像执行卷积操作，以得到合并样本图像的特征图，将合并样本图像的特征图输入到RPN中。RPN根据合并样本图像的特征图，输出一个或多个2D包络框或3D包络框的位置信息和尺寸信息。将合并样本图像中的多个2D包络框或3D包络框与被执行图像合并的车辆周围场景初始样本图像中的2D包络框或3D包络框进行对比和匹配，可以确定增加的2D包络框或3D包络框，即识别出了合并样本图像中的第一目标障碍物。特征提取网络还用于生成每个增加的2D包络框或3D包络框对应的类别，以确定合并样本图像对应的样本标签。将合并样本图像确定为车辆周围场景训练样本图像，将合并样本图像对应的样本标签确定为训练样本标签，从而使得车辆周围场景训练样本图像中的第一目标障碍物的数量大于对应的车辆周围场景初始样本图像中的第一目标障碍物的数量，将小于预设尺寸的第一目标障碍物的数量增加，从而提高训练后的自动驾驶障碍物识别模型对第一目标障碍物的识别能力，提升自动驾驶障碍物识别模型识别第一目标障碍物的准确率。

在一些可能的实施方式中，步骤S220中，将第一目标障碍物图像与初始样本集中的其他车辆周围场景初始样本图像中的至少一个进行图像合并，得到合并样本图像，包括：

S221、获取车辆周围场景初始样本图像中的第一目标障碍物对应的第一点云，第一点云位于第一位置；

S222、将第一点云复制至第二位置，得到第二点云；

S223、将第二点云投影至所述车辆周围场景初始样本图像，得到投影图像

S224、根据投影图像以及第一目标障碍物对应的第一目标障碍物图像，确定目标位置；

S225、将投影图像在目标位置与车辆周围场景初始样本图像合并，得到所述合并样本图像。

在步骤S221中，可以采用点云采集设备对车辆周围场景初始样本图像中的第一目标障碍物对应的第一点云进行提取，点云采集设备可以是激光雷达，具体的，第一点云可以是在同一空间参考系下表达第一目标障碍物的空间分布和第一目标障碍物的表面特性的海量点集合，在获取第一目标障碍物表面每个采样点的空间坐标后，得到的是点的集合，称之为“点云”(Point Cloud)。也可以根据摄像设备具备的点云图像功能获取车辆周围场景初始样本图像的点云图像，从而获取第一目标障碍物对应的第一点云。点云可以包括三维坐标(X，Y，Z)，例如可以将车辆周围场景初始样本图像中的第一目标障碍物的像素点坐标转换为第一点云坐标，将第一点云坐标定义为第一位置。

在步骤S222中，将第一点云复制至第二位置，第二位置可以是车辆周围场景初始样本图像中，除第一位置的任意一个位置或多个位置，也可以是在车辆周围场景初始样本图像之外的三维位置，以使得第二点云可以在后续步骤中投影至车辆周围场景初始样本图像上。

在步骤S223中，将第二点云投影至车辆周围场景初始样本图像，以得到投影图像。此处的车辆周围场景初始样本图像可以是包含第一目标障碍物的图像，也可以是不包含第一目标障碍物的图像。投影图像即为第二点云对应的图像，示例性地，投影图像可以是与第一目标障碍物图像特征相同，空间位置不同的图像。

在步骤S224中，根据投影图像以及第一目标障碍物对应的第一目标障碍物图像，以确定目标位置，目标位置即为投影图像在车辆周围场景初始样本图像中的位置，目标位置可以是车辆周围场景初始样本图像中，除第一位置的任意一个位置或多个位置。

在步骤S225中，将投影图像在车辆周围场景初始样本图像的目标位置与车辆周围场景初始样本图像进行合并，例如是通过覆盖后插值的方式进行合并，以得到合并样本图像。从而使得车辆周围场景训练样本图像中的第一目标障碍物的数量大于对应的车辆周围场景初始样本图像中的第一目标障碍物的数量，将小于预设尺寸的第一目标障碍物的数量增加，从而提高训练后的自动驾驶障碍物识别模型对第一目标障碍物的识别能力，提升自动驾驶障碍物识别模型识别第一目标障碍物的准确率。

在一个示例性实施例中，至少部分车辆周围场景初始样本图像中包括第二目标障碍物，第二目标障碍物的尺寸大于第一目标障碍物的尺寸，如图4所示，在步骤S200中，对初始样本集进行预处理，包括：

S200-1、调节包括第二目标障碍物的至少部分车辆周围场景初始样本图像对应的相机参数，以将第二目标障碍物缩小为第一目标障碍物。

本实施例中，第二目标障碍物为大于或等于预设尺寸的障碍物，例如为与摄像设备距离较近的，在车辆周围场景初始样本图像中的面积占比值大于预设占比值的物体，例如较近的车辆、非常近的路障、路标、护栏、行人等等。部分车辆周围场景初始样本图像中可以包括一个或多个第二目标障碍物，部分车辆周围场景初始样本图像中也可以包括第二目标障碍物和第一目标障碍物，等等。

本实施例中，可以构建虚拟相机，虚拟相机是通过多个包括第二目标障碍物的车辆周围场景初始样本图像布置在三维空间内的，实际上不存在的相机，虚拟相机可以通过虚拟视点以再现车辆周围场景初始样本图像。由于捕获图像时，摄像设备离物体越近，所获得的图像分辨率就越高，目标的尺寸越大。通过调节包括第二目标障碍物的车辆周围场景初始样本图像对应的虚拟相机的参数，以改变第二目标障碍物对应的尺寸，此时会导致第二目标障碍物对应的第二目标障碍物图像产生畸变，从而将第二目标障碍物缩小为第一目标障碍物。示例性地，相机参数可以包括虚拟相机的焦距和/或畸变参数，例如，焦距小，畸变大的虚拟相机，其边缘物体在图像中的尺寸会明显减小，从而使得车辆周围场景训练样本图像中的第一目标障碍物的数量大于对应的车辆周围场景初始样本图像中的第一目标障碍物的数量，将小于预设尺寸的第一目标障碍物的数量增加，从而提高训练后的自动驾驶障碍物识别模型对第一目标障碍物的识别能力，提升自动驾驶障碍物识别模型识别第一目标障碍物的准确率。

在一个示例性实施例中，自动驾驶障碍物识别模型包括：

骨干网络，用于对周围场景图像进行特征提取得到第一特征图；

多尺度特征提取模块，用于对第一特征图进行多尺度特征提取，得到第二特征图；

编码网络，用于对第二特征图进行特征提取得到第三特征图；

输出网络，用于基于第三特征图生成所述障碍物识别结果。

本实施例中，骨干网络例如可以包括backbone、regnet、resnet等神经网络模型，主要用于对自动驾驶车辆的周围场景图像进行特征提取以得到第一特征图，以供后面的网络使用。

示例性地，骨干网络可以使用空间深度转换模块构建，骨干网络包括至少一个第一卷积层和至少一个空间深度转换模块，空间深度转换模块包括空间-深度转换层和第二卷积层。

每个卷积层由若干个卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积层用于提取输入的不同特征，经过不同的卷积层的迭代，可以从低级特征中迭代提取更复杂的特征。空间深度转换模块用于对周围场景图像进行空间转换和深度转换，以使得每经过一次空间深度转换模块，周围场景图像的第一特征图的像素点减半，以提升骨干网络的运算速度。空间-深度转换层用于对周围场景图像进行放大、缩小或翻转。

在一些可能的实施方式中，至少一个第一卷积层和/或第二卷积层为可变形卷积层。可变形卷积层是指卷积核在每一个元素上额外增加了一个参数方向参数，使得卷积核可以变为任意形状，以使得在采集特征的过程中扩展到很大的范围。本实施例中，通过将至少一个第一卷积层或者至少一个第二卷积层设置为可变形卷积层，以使得卷积核可以根据周围场景图像中的实际目标障碍物调整本身的形状，更好的提取输入的特征，以提高卷积层的变化适应性和泛化能力。

多尺度特征提取模块用于对第一特征图进行多尺度特征提取，本实施例中，低网络层具有更小的感受域，其获取的是低层特征信息，对第一目标障碍物的提取能力更好；高网络层获取的是深层特征信息，对于第二目标障碍物的检测更加准确。利用不同扩张率的空洞卷积可以获取多尺度的全局上下文特征信息，以弥补单一特征检测带来的不足。对于不同的输出层设计不同尺度的目标检测器，以完成多尺度下的特征提取。多尺度特征提取模块还包括多级别特征融合模块，多级别特征融合模块可以利用浅层特征信息、深层特征信息和全局上下文特征信息之间的分布特性进行融合，得到第二特征图。

在一些可能的实施方式中，多尺度特征提取模块包括密集连接的特征金字塔网络。本实施例中，特征金字塔网络将第一特征图进行不同尺度的缩放，得到多层图片形成的图像金字塔，然后对每层图片提取不同尺度的特征，得到第二特征图。第一特征图的金字塔是一系列以金字塔形状排列的分辨率逐步降低，且来源于同一张原始图的图像集合，原始图即为第一特征图。图像金字塔通过梯次向下采样获得，直到达到某个终止条件才停止采样。图片的层级越高，则图像越小，分辨率越低，如此，使得不同尺度的特征都可以包含丰富的特征信息，且精度高，以获得精度高的第二特征图。密集连接的特征金字塔网络中的连接为密集连接，以增强不同尺度特征的交互和融合。

编码网络用于对第二特征图进行特征提取以得到第三特征图，编码网络例如可以是Transformer模型，编码网络可以对第二特征图中的特征信息进行权重计算和加权求和，还可以使用局部稀疏注意力以降低图像识别模型的复杂度，提高运算速度。

输出网络用于基于第三特征图生成图像识别结果，输出网络例如可以是head网络，基于第三特征图做出预测，例如可以依据推理控制策略，利用形式化的信息进行推理，例如通过搜索和匹配，得到自动驾驶障碍物识别模型输出的障碍物识别结果，障碍物识别结果用于指示自动驾驶车辆的周围场景图像中是否包含第一目标障碍物或第二目标障碍物，以作为后续决策的依据。

在一个实例性实施例中，如图5所示，本公开一示例性实施例提供了一种用于自动驾驶车辆的图像处理装置，该图像处理装置被配置为执行上述的用于自动驾驶车辆的图像处理方法，该图像处理装置包括：

确定模块100，被配置为确定初始样本集，初始样本集包括多个车辆周围场景初始样本图像及对应的初始样本标签，至少部分车辆周围场景初始样本图像中包括第一目标障碍物，第一目标障碍物的尺寸小于预设尺寸；

预处理模块200，被配置为对初始样本集进行预处理，得到训练样本集，训练样本集包括多个车辆周围场景训练样本图像及对应的训练样本标签，预处理用于使得包括第一目标障碍物的车辆周围场景训练样本图像的数量大于包括第一目标障碍物的车辆周围场景初始样本图像的数量，和/或使得车辆周围场景训练样本图像中的第一目标障碍物的数量大于对应的车辆周围场景初始样本图像中的第一目标障碍物的数量；

训练模块300，被配置为基于训练样本集，对初始自动驾驶障碍物识别模型进行训练，得到自动驾驶障碍物识别模型；

获取模块400，被配置为获取自动驾驶车辆的周围场景图像；

识别模块500，被配置为将周围场景图像输入自动驾驶障碍物识别模型，得到障碍物识别结果。

如图6所示，本公开一示例性实施例提供了一种电子设备，电子设备例如为手机、笔记本电脑、平板电脑、自动驾驶汽车以及可穿戴设备等。

参考图6所示，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储终端或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理***，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置相机模组和/或后置相机模组。当电子设备600处于操作模式，如拍摄模式或视频模式时，前置相机模组和/或后置相机模组可以接收外部的多媒体数据。每个前置相机模组和后置相机模组可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备600的打开/关闭状态，组件的相对定位，例如组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于电子设备600和其他终端之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi、2G、3G、4G、6G或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

示例性地，电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理终端(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的方法。

在一个示例性实施例中，本公开还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储终端等。当存储介质中的指令由终端的处理器执行时，使得终端能够执行上述实施例中示出的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种用于自动驾驶车辆的图像处理方法，其特征在于，所述图像处理方法包括：

获取自动驾驶车辆的周围场景图像；

将所述周围场景图像输入所述自动驾驶障碍物识别模型，得到障碍物识别结果。

2.根据权利要求1所述的用于自动驾驶车辆的图像处理方法，其特征在于，所述对所述初始样本集进行预处理，包括：

3.根据权利要求2所述的用于自动驾驶车辆的图像处理方法，其特征在于，所述车辆周围场景初始样本图像中，每一个所述车辆周围场景初始样本图像均对应一个不同的时间信息，所述对包括第一目标障碍物的至少部分所述车辆周围场景初始样本图像进行过采样，包括：

对所述新增样本图像进行标记，包括：

根据前后两个所述车辆周围场景初始样本图像所对应的初始样本标签、所述第二位姿信息、所述第二时间信息，确定所述新增样本图像对应的样本标签。

4.根据权利要求1所述的用于自动驾驶车辆的图像处理方法，其特征在于，所述对所述初始样本集进行预处理，包括：

5.根据权利要求4所述的用于自动驾驶车辆的图像处理方法，其特征在于，将所述第一目标障碍物图像与所述初始样本集中的其他车辆周围场景初始样本图像中的至少一个进行图像合并，得到合并样本图像，包括：

将所述第一点云复制至第二位置，得到第二点云；

6.根据权利要求1所述的用于自动驾驶车辆的图像处理方法，其特征在于，至少部分所述车辆周围场景初始样本图像中包括第二目标障碍物，所述第二目标障碍物的尺寸大于所述第一目标障碍物的尺寸，所述对所述初始样本集进行预处理，包括：

7.根据权利要求6所述的用于自动驾驶车辆的图像处理方法，其特征在于，所述相机参数包括焦距和/或畸变参数。

8.根据权利要求1至7任一项所述的用于自动驾驶车辆的图像处理方法，其特征在于，所述自动驾驶障碍物识别模型包括：

9.根据权利要求8所述的用于自动驾驶车辆的图像处理方法，其特征在于，所述骨干网络包括至少一个第一卷积层和至少一个空间深度转换模块，所述空间深度转换模块包括空间-深度转换层和第二卷积层。

10.根据权利要求9所述的用于自动驾驶车辆的图像处理方法，其特征在于，至少一个所述第一卷积层和/或所述第二卷积层为可变形卷积层。

11.根据权利要求8所述的用于自动驾驶车辆的图像处理方法，其特征在于，所述多尺度特征提取模块包括密集连接的特征金字塔网络。

12.一种用于自动驾驶车辆的图像处理装置，其特征在于，所述图像处理装置包括：

获取模块，被配置为获取自动驾驶车辆的周围场景图像；

13.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器的可执行指令的存储器；

其中，所述处理器被配置为执行如权利要求1至11任一项所述的用于自动驾驶车辆的图像处理方法。

14.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至11任一项所述的用于自动驾驶车辆的图像处理方法。