CN112733672B

CN112733672B - 基于单目相机的三维目标检测方法、装置和计算机设备

Info

Publication number: CN112733672B
Application number: CN202011631597.1A
Authority: CN
Inventors: 刘明; 廖毅雄; 马福龙
Original assignee: Shenzhen Yiqing Innovation Technology Co ltd
Current assignee: Shenzhen Yiqing Innovation Technology Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-06-18
Anticipated expiration: 2040-12-31
Also published as: CN112733672A

Abstract

本申请涉及一种基于单目相机的三维目标检测方法、装置、计算机设备和存储介质。所述方法包括：获取单目相机采集的自动驾驶场景下的图像；将所述图像输入至训练好的目标对象检测模型中的分散注意力残差网络，利用可变形卷积对所述图像进行上采样，并将上采样后得到的各特征图与前低层的特征图进行融合；将融合后的特征图进行特征增强；基于增强后的特征图回归出用于标识目标对象的三维框、所述目标对象的朝向和所述目标对象的中心点的偏移量；根据所述偏移量调整所述三维框的位置，并得到所述目标对象的目标检测结果。采用本方法能够提高三维目标检测的准确性。

Description

基于单目相机的三维目标检测方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于单目相机的三维目标检测方法、装置和计算机设备。

背景技术

随着计算机技术的发展，自动驾驶成为研究的热点。在自动驾驶场景中，准确地检测出周边的物体至关重要。为了节约成本，量产的方式主要是利用相机来获取周边障碍物的图像，并根据拍摄的图像检测出周边的物体。

然而，传统方法中，是从拍摄的图像中提取特征，基于输出的特征图来检测物体，由于直接提取特征后得到的特征图的感受野不高，而相机拍摄的图像与真实物体对比存在畸变，所以，直接在感受野不高的特征图进行检测，无法准确地检测出自动驾驶场景中周边的物体。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高准确性的基于单目相机的三维目标检测方法、装置、计算机设备和存储介质。

一种基于单目相机的三维目标检测方法，所述方法包括：

获取单目相机采集的自动驾驶场景下的图像；

将所述图像输入至训练好的目标对象检测模型中的分散注意力残差网络，利用可变形卷积对所述图像进行上采样，并将上采样后得到的各特征图与前低层的特征图进行融合；

将融合后的特征图进行特征增强；

基于增强后的特征图回归出用于标识目标对象的三维框、所述目标对象的朝向和所述目标对象的中心点的偏移量；

根据所述偏移量调整所述三维框的位置，并得到所述目标对象的目标检测结果。

在其中一个实施例中，所述将所述图像输入至训练好的目标对象检测模型中的分散注意力残差网络，利用可变形卷积对所述图像进行上采样的步骤，进一步包括：

将所述图像输入至训练好的目标对象检测模型中的分散注意力残差网络；

在利用可变形卷积对所述图像进行多次上采样的过程中，针对每次上采样，根据所述图像中的目标对象的几何形状对卷积核变形，得到与所述几何形状相适应的卷积核；

基于与所述几何形状相适应的卷积核对所述图像进行上采样，得到感受野与目标对象的大小相符合的特征图。

在其中一个实施例中，所述利用可变形卷积对所述图像进行上采样，并将上采样后得到的各特征图与前低层的特征图进行融合的步骤，进一步包括：

利用可变形卷积对所述图像进行多次上采样，并将每次上采样后得到的各特征图与前低层的特征图进行融合；

其中，所述前低层的特征图，是本次上采样前对应的上一层采样后输出的且未融合的特征图。

在其中一个实施例中，所述基于增强后的特征图回归出用于标识目标对象的三维框、所述目标对象的朝向和所述目标对象的中心点的偏移量的步骤，进一步包括：

基于增强后的特征图在所述图像中添加先验框，并根据所述先验框，回归出所述三维框的长度和宽度；

依据所述目标对象的中心点距离单目相机的距离，回归出所述目标对象的朝向、所述目标对象的中心点的偏移量、以及所述三维框的高度；

根据所述三维框的长度和宽度、以及所述三维框的高度，得到用于标识所述图像中的目标对象的三维框。

在其中一个实施例中，所述方法还包括：

根据所述点云坐标对样本图像标注标签信息；所述点云坐标，是通过激光雷达采集的样本图像形成的；

通过所述标签信息的相机外参将所述点云坐标转化为相机坐标系下的坐标；

通过所述标签信息的相机内参将所述相机坐标系下的坐标转换至像素坐标系；

根据转换至所述像素坐标系的样本图像，训练目标对象检测模型。

在其中一个实施例中，其特征在于，所述方法还包括：

在使用训练好的所述目标对象检测模型的过程中，通过最小化KL散度的方式，使用所述目标对象检测模型中的推理优化器将所述目标对象检测模型中待计算的32位或16位数据量化为8位整数形式的数据；

根据所述目标对象检测模型对量化为8位整数形式的数据进行计算。

一种基于单目相机的三维目标检测装置，所述装置包括：

图像获取模块，用于获取单目相机采集的自动驾驶场景下的图像；

特征提取模块，用于将所述图像输入至训练好的目标对象检测模型中的分散注意力残差网络，利用可变形卷积对所述图像进行上采样，并将上采样后得到的各特征图与前低层的特征图进行融合；

增强模块，用于将融合后的特征图进行特征增强；

回归模块，用于基于增强后的特征图回归出用于标识目标对象的三维框、所述目标对象的朝向和所述目标对象的中心点的偏移量；

检测模块，用于根据所述偏移量调整所述三维框的位置，并得到所述目标对象的目标检测结果。

在其中一个实施例中，所述特征提取模块，还用于将所述图像输入至训练好的目标对象检测模型中的分散注意力残差网络；在利用可变形卷积对所述图像进行多次上采样的过程中，针对每次上采样，根据所述图像中的目标对象的几何形状对卷积核变形，得到与所述几何形状相适应的卷积核；基于与所述几何形状相适应的卷积核对所述图像进行上采样，得到感受野与目标对象的大小相符合的特征图。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取单目相机采集的自动驾驶场景下的图像；

将所述图像输入至训练好的目标对象检测模型中的分散注意力残差网络，利用可变形卷积对所述图像进行上采样，并将上采样后得到的各特征图与前低层的特征图进行融合

将融合后的特征图进行特征增强；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取单目相机采集的自动驾驶场景下的图像；

将融合后的特征图进行特征增强；

上述基于单目相机的三维目标检测方法、装置、计算机设备和存储介质，获取单目相机采集的自动驾驶场景下的图像，相较于双目相机能节约一半成本。将采集的图像输入训练好的目标对象检测模型，以分散注意力残差网络作为主干特征提取网络，相较于残差网络，增加了分散注意力模块，可以更加关注重要的特征。在分散注意力残差网络中，利用可变形卷积对所述图像进行多次上采样，并将多次上采样后得到的各特征图与前低层的特征图进行融合，再进一步增强，输出特征图的感受野相对较高。对感受野较高的特征图回归出三维框和所述目标对象的中心点的偏移量，并依据偏移量调整所述三维框，可以避免三维框被截断而导致框取的目标对象不准确。综上，从使用结合分散注意力模块的残差网络提取特征，到对多次上采样融合得到的特征图的增强后再使用调整后的三维框检测目标对象，整体提高了目标对象检测的准确性。

附图说明

图1为一个实施例中基于单目相机的三维目标检测方法的应用环境图；

图2为一个实施例中基于单目相机的三维目标检测方法的流程示意图；

图3为一个实施例中基于单目相机的三维目标检测方法的结果示意图；

图4为一个实施例中基于单目相机的三维目标检测装置的结构框图；

图5为另一个实施例中基于单目相机的三维目标检测装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于单目相机的三维目标检测方法，可以应用于如图1所示的应用环境中。其中，单目相机102通过网络与车辆104进行连接。车辆104上配置有目标检测设备。单目相机102通过将采集的自动驾驶场景中的图像传入到车辆104的目标检测设备进行检测。

在一个实施例中，如图2所示，提供了一种基于单目相机的三维目标检测方法，以该方法应用于图1中的目标检测设备为例进行说明，包括以下步骤：

步骤202，获取单目相机采集的自动驾驶场景下的图像。

其中，单目相机，是指使用一个摄像头。可以理解，双目相机或者多目相机就是使用两个或者多个摄像头。自动驾驶场景，是车辆自动行驶的场景。

在一个实施例中，自动驾驶场景的车辆中可以有驾驶员也可以无驾驶员。

在一个实施例中，可以通过单目相机采集不同自动驾驶场景下的图片，包括白天、逆光照射下、晚上、下雨天和雾天等多种自动驾驶场景的图片。

具体地，车辆自动驾驶场景中，车辆上设置有单目相机，单目相机可以对自动驾驶场景进行拍摄，以采集到自动驾驶场景下的图像。

步骤204，将图像输入至训练好的目标对象检测模型中的分散注意力残差网络，利用可变形卷积对图像进行上采样，并将上采样后得到的各特征图与前低层的特征图进行融合。

其中，目标对象检测模型，是对图像中的目标对象进行检测的模型。目标对象检测模型，包括分散注意力残差网络、检测头和任务头。分散注意力残差网络，是增加了分散注意力模块的残差网络，用于提取图像的目标对象的特征，也可以称为特征提取器。可变形卷积，是使用了可以改变形状的卷积核的卷积。特征图，是具有目标对象的特征的图。目标对象，是要进行检测的对象。

具体地，目标检测设备将单目相机采集到的图像放入训练好的目标对象检测模型中。目标检测设备通过在训练好的目标对象检测模型的分散注意力残差网络中，对图像按照预设步长进行下采样，输出特征图。目标检测设备在分散注意力残差网络中，利用可变形卷积对下采样后的特征图进行上采样，并将上采样后得到的各特征图通过不同的通道数输出后叠加成上采样后的特征图。目标检测设备在分散注意力残差网络中，再将上采样后的特征图与前低层的特征图进行融合。

在一个实施例中，下采样的步长可以是32。

步骤206，将融合后的特征图进行特征增强。

其中，检测头，是对目标对象进行增强的代码块。

具体地，目标检测设备通过目标对象检测模型中的检测头将融合后的特征图进行卷积，以增加融合后的特征图的特征。

步骤208，基于增强后的特征图回归出用于标识目标对象的三维框、目标对象的朝向和目标对象的中心点的偏移量。

其中，三维框，是含有三维信息的立体几何框。

具体地，目标检测设备通过目标对象检测模型中的任务头，基于增强后的特征图，回归出用于标识图像中的目标对象的三维框的长、宽和高，目标对象的朝向以及回归出所标识的目标对象的中心点的偏移量。其中，任务头，是回归目标对象的三维框和中心点的偏移量的代码块。

步骤210，根据偏移量调整三维框的位置，并得到目标对象的目标检测结果。

其中，目标检测结果，包括目标对象的类型、朝向、位置及长宽高。

具体地，模型训练时，用户可以手动调整相机参数，通过调整相机参数调整相机坐标相对于世界坐标的偏移量，并将偏移量作为训练好的目标对象检测模型的参数进行存储。目标检测设备通过目标对象检测模型中的任务头，根据存储的偏移量调整三维框的位置，以检测出三维的目标对象的类型、朝向、位置及长宽高。

上述基于单目相机的三维目标检测方法，获取单目相机采集的自动驾驶场景下的图像，相较于双目相机能都节约一半成本。将采集的图像输入训练好的目标对象检测模型，以分散注意力残差网络作为主干特征提取网络，相较于残差网络，增加了分散注意力模块，可以更加关注重要的特征。在分散注意力残差网络中，利用可变形卷积对图像进行多次上采样，并将多次上采样后得到的各特征图与前低层的特征图进行融合，再进一步增强，输出特征图的感受野相对较高。对感受野较高的特征图回归出三维框和目标对象的中心点的偏移量，并依据偏移量调整三维框，可以避免三维框被截断而导致框取的目标对象不准确。综上，从使用结合分散注意力模块的残差网络提取特征到对多次上采样融合得到的特征图的增强后再使用调整后的三维框检测目标对象，整体提高了目标对象检测的准确性。

在一个实施例中，将图像输入至训练好的目标对象检测模型中的分散注意力残差网络，利用可变形卷积对图像进行上采样的步骤，进一步包括：将图像输入至训练好的目标对象检测模型中的分散注意力残差网络；在利用可变形卷积对图像进行多次上采样的过程中，针对每次上采样，根据图像中的目标对象的几何形状对卷积核变形，得到与几何形状相适应的卷积核；基于与几何形状相适应的卷积核对图像进行上采样，得到感受野与目标对象的大小相符合的特征图。

其中，卷积核，是一个矩阵，用于与图像对应的像素矩阵进行卷积。感受野，是通过特征图识别出目标对象的视野感受。比如，通过特征图能够容易识别出目标对象，则称之为感受野较高，反之，则较低。

具体地，目标检测设备通过在训练好的目标对象检测模型的分散注意力残差网络中，利用可变形卷积，对下采样后的图像的特征图进行多次上采样。在每一次上采样中，均是利用根据目标对象的几何形状进行变形的卷积核，与特征图对应的像素矩阵进行卷积，以采样得到感受野与目标对象的大小相符合的特征图。

本实施例中，利用可变形的卷积进行上采样，能够增强目标对象检测模型对图像中的目标对象的几何形状变化的适应性。

在一个实施例中，利用可变形卷积对图像进行上采样，并将上采样后得到的各特征图与前低层的特征图进行融合的步骤，进一步包括：将每次上采样后得到的特征图与前低层的特征图进行融合；其中，前低层的特征图，是本次上采样前对应的上一层采样后输出的且未融合的特征图。

其中，卷积神经网络，是分散注意力残差网络中单个神经元所对应的网络。可以理解的是，一个神经元对应着一层网络，每一层网络，均可以对输入到该层的图像进行卷积。输入到该层的图像，可以是原始的图像，可以是进行过上层卷积神经网络卷积输出的特征图像。

具体地，目标检测设备通过分散注意力残差网络，将在每一层卷积神经网络中上采样得到的各特征图，与每一次上采样所对应的卷积神经网络的前低层卷积神经网络进行上采样所得到的且未融合的特征图进行融合。

在一个实施例中，上采样的次数可以是三次。目标检测设备通过在训练好的目标对象检测模型的分散注意力残差网络中，对下采样后输出的特征图，利用可变形卷积进行第一次上采样，通过256个通道输出特征图并叠加，得到第一次上采样且未融合的特征图。将第一次上采样且未融合的特征图与下采样后输出的特征图进行融合，得到第一次上采样且融合的特征图。目标检测设备通过分散注意力残差网络对第一次上采样且融合的特征图，利用可变形卷积进行第二次上采样，通过128个通道输出特征图并叠加，得到第二次上采样且未融合的特征图。将第二次上采样且未融合的特征图与第一次上采样且融合的特征图进行融合，得到第二次上采样且融合的特征图。目标检测设备通过分散注意力残差网络对第二次上采样且融合的特征图，利用可变形卷积进行第三次上采样，通过64个通道输出特征图并叠加，得到第三次上采样且未融合的特征图。将第三次上采样且未融合的特征图与第二次上采样且融合的特征图进行融合，得到第三次上采样且融合的特征图。

本实施例中，下采样后的特征图的感受野比较小，不利于目标检测，对输出的特征图进行上采样可以提高特征表达能力。而通过可变形卷积可以自适应目标的几何形状的变化，提高卷积神经网络的泛化性。

在一个实施例中，基于增强后的特征图回归出用于标识目标对象的三维框、目标对象的朝向和目标对象的中心点的偏移量的步骤，进一步包括：基于增强后的特征图在图像中添加先验框，并根据先验框，回归出三维框的长度和宽度；依据目标对象的中心点距离单目相机的距离，回归出目标对象的朝向、目标对象的中心点的偏移量、以及三维框的高度；根据三维框的长度和宽度、以及三维框的高度，得到用于标识图像中的目标对象的三维框。

其中，先验框，是初始的二维几何框。可以理解，二维几何框只有长度和宽度。可以理解，先验框可以是多个，通过不断地回归，最终得出一个准确的检测框。

具体地，目标检测设备通过目标对象检测模型中的任务头，基于检测头增强后的特征图，在图像中添加多个先验框，通过不断地将多个先验框计算的阈值与训练好的目标对象检测模型中的参考阈值对比，得出最佳先验框，即回归出回归三维框的长度和宽度。依据目标对象的中心点距离单目相机的距离，目标检测设备再通过目标对象检测模型中的任务头，回归出目标对象的朝向、目标对象的中心点的偏移量、以及三维框的高度，根据三维框的长度和宽度、以及三维框的高度，得到用于标识图像中的目标对象的三维框。

在一个实施例中，如图3所示，根据单目相机采集的图像，车辆上的基于单目相机的三维目标检测设备，可以将图像上的目标对象用三维框进行标识。

本实施例中，基于增强的特征图像，通过目标对象检测模型中的任务头回归出目标对象的中心点的偏移量，以调整用于标识图像中的目标对象的三维框，减少三维框超出图像范围，即减少三维框发生截断的情况，从而避免识别的目标对象发生截断，提高了三维框的准确性。

在一个实施例中，方法还包括：根据点云坐标对样本图像标注标签信息；点云坐标，是通过激光雷达采集的样本图像形成的；通过标签信息的相机外参将点云坐标转化为相机坐标系下的坐标；通过标签信息的相机内参将相机坐标系下的坐标转换至像素坐标系；根据转换至像素坐标系的样本图像，训练目标对象检测模型。

其中，样本图像，是作为样本非正常检测的图像。点云坐标，是云状的许多点标注的坐标。相机坐标系，是以相机拍出的图像的角度设定的坐标系。相机外参，包括相机坐标轴的三个轴的旋转参数和三个轴的平移参数。相机内参，包括相机的径向畸变系数和切向畸变系数。转换至像素坐标系的样本图像，是一个像素矩阵。

具体地，用户将单目相机采集的样本图像进行标注。用户可以在一个标注软件上，将单目相机采集的样本图像输入到标注软件上，对标注软件添加到目标对象上的点云坐标进行调整，并添加坐标对应的值，以及对标注的目标对象添加标签信息。标签信息包括：图片标识、图像类别、相机内参、二维框、是否截断、遮挡程度、朝向和三维的维度。其中，截断可以用“0”表示没有截断，用“1”表示有截断。通过单目相机采集自动驾驶场景中的样本图像。用户对样本图像中的样本目标对象添加点云坐标并标注标签信息。目标检测设备通过标签信息中的相机外参将点云坐标转化为相机坐标系下的坐标，再通过标签信息中相机内参将相机坐标系下的坐标转换至像素坐标系。用户以转换至像素坐标系的样本图像，训练目标对象检测模型。

在一个实施例中，微调相机的相机外参可以相应调整相机坐标的三个自由度，即pitch(俯仰角)、yaw(偏航角)和roll(翻滚角)，以及平移相机坐标的坐标轴，即x轴、y轴和z轴。目标检测设备可以通过标签信息中微调所得的偏移量，将点云坐标转化为相机坐标系下的坐标。目标检测设备再通过相机的径向畸变系数和切向畸变系数以及像素比例，将相机坐标系下的坐标转换至像素坐标系。

本实施例中，通过标注不同自动驾驶的场景下的样本图像后，将这些样本图像投入到目标对象模型中进行训练，可以提高目标对象模型检测的准确性。

在一个实施例中，方法还包括：在使用训练好的目标对象检测模型的过程中，通过最小化KL散度(Kullback–Leibler divergence)的方式，使用目标对象检测模型中的推理优化器将目标对象检测模型中待计算的32位或16位数据量化为8位整数形式的数据；根据目标对象检测模型对量化为8位整数形式的数据进行计算。

具体地，目标检测设备通过最小化KL散度的方式，使用目标对象检测模型中的推理优化器，将目标对象检测模型中待计算的32位或16位数据量化为8位整数形式的数据后，再进行计算。

在一个实施例中，比如，可以在上采样前，将待可变形卷积的特征图对应的2位或16位数据量化为8位整数形式的数据，再进行可变形卷积。

在一个实施例中，可以取训练数据的1/10的数据作为校准数据集，在目标对象检测模型中，以32位数据的形式，对图像中的目标对象进行推理，然后收集每层激活值的直方图，并统计不同阈值的饱和量化分布，最后找出能使KL散度最小的阈值。

在一个实施例中，推理优化器可以是“TensorRT”，即只有前向传播的深度学习框架。

本实施例中，通过将待计算的32位或16位数据量化为8位整数形式的数据，能够提高目标检测设备的CPU或者GPU的运算速度，从未提高目标对象检测模型检测目标对象的速度，具体可以相比于未加速之前提高至少1.5倍的速度。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于单目相机的三维目标检测装置400，包括：图像获取模块402、特征提取模块404、增强模块406、回归模块408和检测模块410，其中：

图像获取模块402，用于获取单目相机采集的自动驾驶场景下的图像。

特征提取模块404，用于将图像输入至训练好的目标对象检测模型中的分散注意力残差网络，利用可变形卷积对图像进行上采样，并将上采样后得到的各特征图与前低层的特征图进行融合。

增强模块406，用于将融合后的特征图进行特征增强。

回归模块408，用于基于增强后的特征图回归出用于标识目标对象的三维框、目标对象的朝向和目标对象的中心点的偏移量。

检测模块410，用于根据偏移量调整三维框的位置，并得到目标对象的目标检测结果。

在一个实施例中，特征提取模块404，还用于将图像输入至训练好的目标对象检测模型中的分散注意力残差网络；在利用可变形卷积对图像进行多次上采样的过程中，针对每次上采样，根据图像中的目标对象的几何形状对卷积核变形，得到与几何形状相适应的卷积核；基于与几何形状相适应的卷积核对图像进行上采样，得到感受野与目标对象的大小相符合的特征图。

在一个实施例中，特征提取模块404，还用于利用可变形卷积对图像进行多次上采样，将每次上采样后得到的各特征图与前低层的特征图进行融合；其中，前低层的特征图，是本次上采样前对应的上一层采样后输出的且未融合的特征图。

在一个实施例中，回归模块408，还用于基于增强后的特征图在图像中添加先验框，并根据先验框，回归出三维框的长度和宽度；依据目标对象的中心点距离单目相机的距离，回归出目标对象的朝向、目标对象的中心点的偏移量、以及三维框的高度；根据三维框的长度和宽度、以及三维框的高度，得到用于标识图像中的目标对象的三维框。

在一个实施例中，装置还包括：

训练模块401，用于根据点云坐标对样本图像标注标签信息；点云坐标，是通过激光雷达采集的样本图像形成的；通过标签信息的相机外参将点云坐标转化为相机坐标系下的坐标；通过标签信息的相机内参将相机坐标系下的坐标转换至像素坐标系；根据转换至像素坐标系的样本图像，训练目标对象检测模型。

如图5所示，在一个实施例中，装置还包括：训练模块401和加速模块412；

加速模块412，用于在使用训练好的目标对象检测模型的过程中，通过最小化KL散度的方式，使用目标对象检测模型中的推理优化器将目标对象检测模型中待计算的32位或16位数据量化为8位整数形式的数据；根据目标对象检测模型对量化为8位整数形式的数据进行计算。

关于基于单目相机的三维目标检测装置的具体限定可以参见上文中对于基于单目相机的三维目标检测方法的限定，在此不再赘述。上述基于单目相机的三维目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是自动驾驶场景中的车辆上的目标检测设备，其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的目标检测设备进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于单目相机的三维目标检测方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取单目相机采集的自动驾驶场景下的图像；将图像输入至训练好的目标对象检测模型中的分散注意力残差网络，利用可变形卷积对图像进行上采样，并将上采样后得到的各特征图与前低层的特征图进行融合；将融合后的特征图进行特征增强；基于增强后的特征图回归出用于标识目标对象的三维框、目标对象的朝向和目标对象的中心点的偏移量；根据偏移量调整三维框的位置，并得到目标对象的目标检测结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将图像输入至训练好的目标对象检测模型中的分散注意力残差网络；在利用可变形卷积对图像进行多次上采样的过程中，针对每次上采样，根据图像中的目标对象的几何形状对卷积核变形，得到与几何形状相适应的卷积核；基于与几何形状相适应的卷积核对图像进行上采样，得到感受野与目标对象的大小相符合的特征图。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：利用可变形卷积对图像进行多次上采样，并将多次上采样后得到的各特征图与前低层的特征图进行融合；其中，前低层的特征图，是本次上采样前对应的上一层采样后输出的且未融合的特征图。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于增强后的特征图在图像中添加先验框，并根据先验框，回归出三维框的长度和宽度；依据目标对象的中心点距离单目相机的距离，回归出目标对象的朝向、目标对象的中心点的偏移量、以及三维框的高度；根据三维框的长度和宽度、以及三维框的高度，得到用于标识图像中的目标对象的三维框。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据点云坐标对样本图像标注标签信息；点云坐标，是通过激光雷达采集的样本图像形成的；通过标签信息的相机外参将点云坐标转化为相机坐标系下的坐标；通过标签信息的相机内参将相机坐标系下的坐标转换至像素坐标系；根据转换至像素坐标系的样本图像，训练目标对象检测模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在使用训练好的目标对象检测模型的过程中，通过最小化KL散度的方式，使用目标对象检测模型中的推理优化器将目标对象检测模型中待计算的32位或16位数据量化为8位整数形式的数据；根据目标对象检测模型对量化为8位整数形式的数据进行计算。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取单目相机采集的自动驾驶场景下的图像；将图像输入至训练好的目标对象检测模型中的分散注意力残差网络，利用可变形卷积对图像进行上采样，并将上采样后得到的各特征图与前低层的特征图进行融合；将融合后的特征图进行特征增强；基于增强后的特征图回归出用于标识目标对象的三维框、目标对象的朝向和目标对象的中心点的偏移量；根据偏移量调整三维框的位置，并得到目标对象的目标检测结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将图像输入至训练好的目标对象检测模型中的分散注意力残差网络；在利用可变形卷积对图像进行多次上采样的过程中，针对每次上采样，根据图像中的目标对象的几何形状对卷积核变形，得到与几何形状相适应的卷积核；基于与几何形状相适应的卷积核对图像进行上采样，得到感受野与目标对象的大小相符合的特征图。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：利用可变形卷积对图像进行多次上采样，并将每次上采样后得到的特征图与与前低层的特征图进行融合；其中，前低层的特征图，是本次上采样前对应的上一层采样后输出的且未融合的特征图。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于增强后的特征图在图像中添加先验框，并根据先验框，回归出三维框的长度和宽度；依据目标对象的中心点距离单目相机的距离，回归出目标对象的朝向、目标对象的中心点的偏移量、以及三维框的高度；根据三维框的长度和宽度、以及三维框的高度，得到用于标识图像中的目标对象的三维框。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据点云坐标对样本图像标注标签信息；点云坐标，是通过激光雷达采集的样本图像形成的；通过标签信息的相机外参将点云坐标转化为相机坐标系下的坐标；通过标签信息的相机内参将相机坐标系下的坐标转换至像素坐标系；根据转换至像素坐标系的样本图像，训练目标对象检测模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在使用训练好的目标对象检测模型的过程中，通过最小化KL散度的方式，使用目标对象检测模型中的推理优化器将目标对象检测模型中待计算的32位或16位数据量化为8位整数形式的数据；根据目标对象检测模型对量化为8位整数形式的数据进行计算。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于单目相机的三维目标检测方法，其特征在于，所述方法包括：

获取单目相机采集的自动驾驶场景下的图像；

对所述图像按照预设步长进行下采样，输出下采样后的特征图；

利用可变形卷积对所述下采样后的特征图进行多次上采样；

将每次上采样后得到的特征图与前低层的特征图进行融合；所述前低层的特征图，是每次上采样前对应的上一层采样后输出的且未融合的特征图；

将融合后的特征图进行特征增强；

2.根据权利要求1所述的方法，其特征在于，所述利用可变形卷积对所述下采样后的特征图进行多次上采样的步骤，进一步包括：

3.根据权利要求1所述的方法，其特征在于，所述基于增强后的特征图回归出用于标识目标对象的三维框、所述目标对象的朝向和所述目标对象的中心点的偏移量的步骤，进一步包括：

4.根据权利要求1所述的方法，其特征在于，所述目标对象检测模型通过模型训练步骤得到，所述模型训练步骤包括：

根据点云坐标对样本图像标注标签信息；所述点云坐标，是通过激光雷达采集的样本图像形成的；

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述方法还包括：

6.一种基于单目相机的三维目标检测装置，其特征在于，所述装置包括：

特征提取模块，用于将所述图像输入至训练好的目标对象检测模型中的分散注意力残差网络；对所述图像按照预设步长进行下采样，输出下采样后的特征图；利用可变形卷积对所述下采样后的特征图进行多次上采样；将每次上采样后得到的特征图与前低层的特征图进行融合；所述前低层的特征图，是每次上采样前对应的上一层采样后输出的且未融合的特征图；

增强模块，用于将融合后的特征图进行特征增强；

7.根据权利要求6所述的装置，其特征在于，所述特征提取模块，还用于在利用可变形卷积对所述图像进行多次上采样的过程中，针对每次上采样，根据所述图像中的目标对象的几何形状对卷积核变形，得到与所述几何形状相适应的卷积核；基于与所述几何形状相适应的卷积核对所述图像进行上采样，得到感受野与目标对象的大小相符合的特征图。

8.根据权利要求6所述的装置，其特征在于，所述回归模块，还用于基于增强后的特征图在所述图像中添加先验框，并根据所述先验框，回归出所述三维框的长度和宽度；依据所述目标对象的中心点距离单目相机的距离，回归出所述目标对象的朝向、所述目标对象的中心点的偏移量、以及所述三维框的高度；根据所述三维框的长度和宽度、以及所述三维框的高度，得到用于标识所述图像中的目标对象的三维框。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。