CN116189150A

CN116189150A - 基于融合输出的单目3d目标检测方法、装置、设备和介质

Info

Publication number: CN116189150A
Application number: CN202310193012.XA
Authority: CN
Inventors: 安超; 韦松; 张兵
Original assignee: Jika Intelligent Robot Co ltd
Current assignee: Jika Intelligent Robot Co ltd
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-05-30
Anticipated expiration: 2043-03-02
Also published as: CN116189150B

Abstract

本公开涉及基于融合输出的单目3D目标检测方法、装置、设备和介质。该方法包括：对待检测图像进行特征提取，以获得与待检测图像中的待检测目标相关联的一组参数，一组参数中的至少部分参数包括针对待检测目标的二维检测框参数和三维检测框参数；至少基于一组参数中的第一组子参数，得到基于深度估计的第一类型三维预测结果；至少基于一组参数中的第二组子参数，得到基于几何约束的第二类型三维预测结果，其中第一组子参数与第二组子参数至少部分地重合；以及基于第一类型三维预测结果和第二类型三维预测结果，得到针对待检测目标的目标三维检测结果。以此方式，能够有效提升目标检测速度和精度，降低目标漏错检概率。

Description

基于融合输出的单目3D目标检测方法、装置、设备和介质

技术领域

本公开一般地涉及自动驾驶及计算机视觉领域，特别地涉及基于融合输出的单目3D目标检测方法、装置、电子设备和计算机可读存储介质。

背景技术

随着深度学习的发展，许多计算机视觉相关的任务都打破了传统方法的局限性并取得了突破性进展，相应成果已经成功应用在交通、安防和医疗等多个领域。

目标检测是计算机视觉的重要任务之一，从传统的特征工程到端到端的深度学习检测框架，目标检测已经取得了重大突破，其目的是通过检测框定位目标物***置，并且给出相对应的类别。二维目标检测只需要定位目标物体在图像中的像素位置，而三维目标检测则需要定位物体在真实世界中的位置，因此三维目标检测相对于二维目标检测任务而言更加困难且更具有挑战性。

自动驾驶能够从根本上改变人们的生活和出行方式，减少人为失误造成的交通事故，提高出行效率和驾驶安全性，因此近年来学术界和工业界对自动驾驶技术的研发都投入了巨大的努力，三维目标检测作为自动驾驶领域的关键技术之一，受到了广泛关注。特别是基于深度学习的3D目标检测已经成为研究热点。

现有技术中对单目3D目标检测的研究如下。中国专利申请CN112070659A提出一种利用深度卷积神经网络进行三维信息矫正的方法。在检测阶段对输入的图像数据进行检测，得到初步三维检测结果，在矫正阶段采用残差修正网络对所述检测结果进行修正，得到优化后的检测结果。该方法本身是一种两阶段模型，模型推理速度慢，难以满足自动驾驶的实际应用。

论文Single-Stage Monocular 3D Object Detection via KeypointEstimation提出了一种基于3D中心投影点的单目3D检测方法，该方法直接预测3D检测框中心点在2D图像上的投影位置、投影点对应的深度信息，三维检测框的尺寸和旋转角度，根据预测结果可以得到3D检测结果，但模型难以对遮挡、截断等目标进行有效的检测，检测精度不高。

因此，急需一种简单有效的单目3D目标检测方法，使其能够满足自动驾驶单目3D目标检测的实时性和高精度需要，同时对遮挡、截断等目标进行有效的检测，避免漏检错检。

发明内容

根据本公开的示例实施例，提供了一种基于融合输出的单目3D目标检测的方案，以至少部分地解决现有技术中存在的问题。

在本公开的第一方面中，提供了一种基于融合输出的单目3D目标检测方法。该方法包括：对待检测图像进行特征提取，以获得与待检测图像中的待检测目标相关联的一组参数，一组参数中的至少部分参数包括针对待检测目标的二维检测框参数和三维检测框参数；至少基于一组参数中的第一组子参数，得到基于深度估计的第一类型三维预测结果；至少基于一组参数中的第二组子参数，得到基于几何约束的第二类型三维预测结果，其中第一组子参数与第二组子参数至少部分地重合；以及基于第一类型三维预测结果和第二类型三维预测结果，得到针对待检测目标的目标三维检测结果。

在一些实施例中，所述一组参数至少包括以下中的一者或多者：二维检测框中心点位置；三维检测框中心点投影位置；三维检测框目标类别；二维检测框中心点到三维检测框角点投影点的偏移；三维检测框角点投影点位置；三维检测框的尺寸；三维检测框中心投影点的深度；三维检测框的方向；以及二维检测框中心点到三维检测框中心投影点的偏移。其中，投影可以是三维检测框上相应点到二维图像上的投影，相应地，投影位置可以是三维检测框上相应点到二维图像上的投影位置。

在一些实施例中，其中所述第一组子参数包括以下中的一者或多者：所述二维检测框中心点位置；所述二维检测框中心点到三维检测框中心投影点的偏移；所述三维检测框中心投影点的深度；所述三维检测框的尺寸；所述三维检测框的方向；以及所述三维检测框目标类别。其中所述第二组子参数包括以下中的一者或多者：所述二维检测框中心点位置；所述二维检测框中心点到三维检测框角点投影点的偏移；所述三维检测框角点投影点位置；所述三维检测框的尺寸；所述三维检测框目标类别以及所述三维检测框的方向。

在一些实施例中，至少基于所述一组参数中的第一组子参数，得到基于深度估计的第一类型三维预测结果优选地包括：基于所述第一组子参数中的所述二维检测框中心点位置、所述二维检测框中心点到三维检测框中心投影点的偏移、所述三维检测框中心投影点的深度并且结合标定相机参数，得到针对所述待检测目标的三维检测框的位置；以及基于所述三维检测框的位置、所述三维检测框目标类别、所述三维检测框的尺寸以及所述三维检测框的方向，得到所述第一类型三维预测结果。

在一些实施例中，至少基于所述一组参数中的第二组子参数，得到基于几何约束的第二类型三维预测结果优选地包括：基于几何约束对所述第二组子参数中的所述二维检测框中心点位置、所述二维检测框中心点到三维检测框角点投影点的偏移、所述三维检测框角点投影点位置进行关联，以得到关联结果；以及利用非线性最小二乘法基于所述关联结果结合所述三维检测框的尺寸、所述三维检测框目标类别和所述三维检测框的方向对三维检测框进行估计和修正，以得到所述第二类型三维预测结果。其中关联例如可以采用最邻近匹配的方式实现。在另一实施例中，也可以直接用二维检测框中心点和二维检测框中心点到三维检测框中心投影点的偏移得到三维检测框投影点位置，从而进一步提升模型推理速度。

在一些实施例中，基于所述第一类型三维预测结果和所述第二类型三维预测结果，得到针对所述待检测目标的目标三维检测结果包括：对所述第一类型三维预测结果和所述第二类型三维预测结果进行非极大值抑制。

在一些实施例中，所述方法还包括：确定标定相机参数并且对所述待检测图像的标注检测信息进行处理，得到用于模型训练的初始真值；对所述待检测图像、所述标定相机参数以及所述标注检测信息进行预处理；以及对所述第一类型三维预测结果和所述第二类型三维预测结果进行解码并且对相应的所述初始真值进行损失计算，从而完成所述模型训练。

在本公开的第二方面中，提供了一种基于融合输出的单目3D目标检测装置。该装置包括：图像特征提取模块，被配置为对待检测图像进行特征提取，以获得与所述待检测图像中的待检测目标相关联的一组参数，所述一组参数中的至少部分参数包括针对待检测目标的二维检测框参数和三维检测框参数；第一类型三维预测结果获取模块，被配置为至少基于所述一组参数中的第一组子参数，得到基于深度估计的第一类型三维预测结果；第二类型三维预测结果获取模块，被配置至少基于所述一组参数中的第二组子参数，得到基于几何约束的第二类型三维预测结果，其中所述第一组子参数与所述第二组子参数至少部分地重合；以及目标三维检测结果获取模块，被配置为基于所述第一类型三维预测结果和所述第二类型三维预测结果，得到针对所述待检测目标的目标三维检测结果。

在一些实施例中，所述一组参数至少包括以下中的一者或多者：二维检测框中心点位置；三维检测框中心点投影位置；三维检测框目标类别；二维检测框中心点到三维检测框角点投影点的偏移；三维检测框角点投影点位置；三维检测框的尺寸；三维检测框中心投影点的深度；三维检测框的方向；以及二维检测框中心点到三维检测框中心投影点的偏移。

在一些实施例中，第一类型三维预测结果获取模块还可以被配置为：基于所述第一组子参数中的所述二维检测框中心点位置、所述二维检测框中心点到三维检测框中心投影点的偏移、所述三维检测框中心投影点的深度并且结合标定相机参数，得到针对所述待检测目标的三维检测框的位置；以及基于所述三维检测框的位置、所述三维检测框目标类别、所述三维检测框的尺寸以及所述三维检测框的方向，得到所述第一类型三维预测结果。

在一些实施例中，第二类型三维预测结果获取模块还可以被配置为：基于几何约束对所述第二组子参数中的所述二维检测框中心点位置、所述二维检测框中心点到三维检测框角点投影点的偏移、所述三维检测框角点投影点位置进行关联，以得到关联结果；以及利用非线性最小二乘法基于所述关联结果结合三维检测框尺寸、方向和类别对三维检测框进行估计和修正，以得到所述第二类型三维预测结果。其中关联例如可以采用最邻近匹配的方式实现。在另一实施例中，也可以直接用二维检测框中心点和二维检测框中心点到三维检测框中心投影点的偏移得到三维检测框投影点位置，从而进一步提升模型推理速度。

在一些实施例中，目标三维检测结果获取模块还可以被配置为：对所述第一类型三维预测结果和所述第二类型三维预测结果进行非极大值抑制。

在一些实施例中，所述装置还可以被配置为：确定标定相机参数并且对所述待检测图像的标注检测信息进行处理，得到用于模型训练的初始真值；对所述待检测图像、所述标定相机参数以及所述标注检测信息进行预处理；以及对所述第一类型三维预测结果和所述第二类型三维预测结果进行解码并且对相应的所述初始真值进行损失计算，从而完成所述模型训练。

在本公开的第三方面中，提供了一种电子设备。该设备包括：一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质。该介质上存储有计算机程序，程序被处理器执行时实现根据本公开第一方面的方法。

在本公开的第五方面中，提供了一种计算机程序产品。该产品包括计算机程序/指令，计算机程序/指令被处理器执行时实现根据本公开第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素。附图用于更好地理解本方案，不构成对本公开的限定，其中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的基于融合输出的单目3D目标检测方法的示意流程图；

图3示出了根据本公开的一些实施例的目标检测模型的整体结构示意图；

图4示出了根据本公开的一些实施例的三维检测框对应投影点高斯示意图；

图5示出了根据本公开的一些实施例的目标预测可视化结果；

图6示出了根据本公开的一些实施例的基于融合输出的单目3D目标检测装置的示意性框图；以及

图7示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如前文所描述，目前的目标检测方法，如CenterNet3D和SMOKE等仅采用单一的二维检测框中心点或三维检测框中心点在二维图像上的投影点作为正样本点，这样单一的正样本点选择方式会导致模型的召回率低，造成漏检，而且当前的目标检测方法推理速度慢，难以满足自动驾驶的实际应用，难以对遮挡、截断等目标进行有效的检测，检测精度不高，严重时可能影响到自动驾驶安全。

至少针对以上问题，本公开的各个实施例提供了用于目标检测的方案，该方案可以基于稀疏深度估计的方法，采用二维检测框中心点和三维检测框中心点在二维图像上的投影点作为正样本点，在正样本点预测对应的位置、深度、三维检测框的尺寸和旋转角信息，并且基于几何约束的方法，预测三维检测框角点在图像上的投影位置，并采用非线性最小二乘法对三维检测框的位置信息进行估计。模型可以进一步结合两个方面得到的结果，通过非极大值抑制过滤冗余的三维检测框，最终得到准确的三维检测结果，从而能够有效避免漏检和错检，推理速度快并且精度高，同时满足自动驾驶时目标检测的精度和实时性的要求，具备良好的工程实用价值。

下文将结合图1至图7介绍本公开的示例性实施例。

图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。

如图1所示，在环境100的示例中，车辆110可以正在道路行驶，道路周边存在多个待检测目标或障碍物，例如正在路上行驶的博弈车辆、停在路边的车辆、路上行人等障碍物。在这样的环境下，为满足自动驾驶安全，车辆110需要准确探测周边障碍物，进而在行驶过程中准确快速地做出正确规划。需要说明，上述障碍物仅仅是示例性的，障碍物可以是车辆110周边任意动态或静态的障碍物，本公开对此不作限制。

应当理解，图1所示的环境100仅是车辆110正可能在其中行驶的一种示例环境。除了在室外道路上行驶之外，车辆110正还可能在隧道、室外停车场、建筑内部(例如，室内停车场)、小区、园区等各种环境中行驶，本公开对此不作限制。

在图1的示例中，车辆110可以是可以承载人和/或物并且通过发动机等动力***移动的任何类型的车辆，包括但不限于轿车、卡车、巴士、电动车、摩托车、房车、火车等等。在一些实施例中，环境100中的车辆110可以是具有一定自动驾驶能力的车辆，这样的车辆也被称为无人驾驶车辆或自动驾驶车辆。在一些实施例中，车辆110也可以是具有半自动驾驶能力的车辆。

如图1所示，车辆110还可以包括计算设备120。在一些实施例中，计算设备120可以通信地耦合到车辆110。虽然被示出为单独的实体，但计算设备120可以被嵌入在车辆110中。计算设备120也可以车辆110外部的实体，并且可以经由无线网络与车辆110通信。计算设备120可以是任何具有计算能力的设备。

如图1所示，作为非限制性示例，计算设备120可以是任意类型的固定计算设备、移动计算设备或便携式计算设备，包括但不限于台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、多媒体计算机、移动电话等；计算设备120的全部组件或一部分组件可以分布在云端。计算设备120至少包含处理器、存储器以及其他通常存在于通用计算机中的组件，以便实现计算、存储、通信、控制等功能。

在一些实施例中，计算设备120可以包括自动驾驶车辆速度规划的***。***结构例如可以包括***输入、信息处理、***执行等模块。其中，***输入模块可以至少包括感知单元和车身单元。感知单元可以包括雷达、摄像头等，用于获取前方车辆运动信息。车身单元可以用于获取自车运动学参数。信息处理模块可以用于前方车辆的运动信息处理，获得前方车辆在自车坐标系下的位置点灯信息，并且可以用于对自车的运动状态进行计算处理。信息处理模块还可以包括ADAS域控制器，用以实现车辆辅助驾驶算法，输出车辆控制命令。***执行模块用于执行上述的请求指令。各个单元之间参数传输包括但不限于CAN总线、以太网的传输。根据本公开的用于确定车辆行驶轨迹的各个实施例例如可以包含在感知单元以及信息处理模块至少一者中。

图2示出了根据本公开的一些实施例的基于融合输出的单目3D目标检测方法200的示意流程图。方法200例如可以由图1所示的计算设备120实现。

在框201，对待检测图像进行特征提取，以获得与待检测图像中的待检测目标相关联的一组参数，一组参数中的至少部分参数包括针对待检测目标的二维检测框参数和三维检测框参数。

在一些实施例中，可以首先确定标定相机参数并且对所述待检测图像的标注检测信息进行处理。标注检测信息可以包括二维检测框标注信息和三维检测框标注信息。在一些实施例中，二维检测框的标注信息和目标的类别信息可以采用本领域内任意合适的方式实现，三维标注信息中三维检测框可以表示为中心点位置(x,y,z)，三维检测框高度、宽度和长度(h,w,l)以及旋转角θ，则3D标注信息的旋转矩阵R_θ可以表示为：

在一些实施例中，包含相机的焦距、光轴与图像平面的焦点位置等内部参数相机内参矩阵K可以为：

在一些实施例中，相机外参矩阵可以是：

其中R_3x3为旋转矩阵，T_3x1为平移矩阵。

在一些实施例中，三维检测框的角点Cor可以通过如下方式计算：

其中R_θ为三维检测框的旋转矩阵，h、w和l分别为三维检测框的高度、宽度和长度，并且x、y和z分别为中心点位置坐标。

这样一来，三维检测框的8个角点Cor到图像的投影点可以为：

其中

表示矩阵运算。

在一些实施例中，进一步，如图4所示，可以在对应投影点生成高斯图，用于位置和类别的监督真值信息。图4示出了根据本公开的一些实施例的三维检测框对应投影点高斯示意图，其中图4中的浅白色位置即为高斯示意图。在一些实施例中，可以通过如下等式得到用于模型训练的真值信息：

其中(x_b',y_b')为原图坐标，(x_b,y_b)为特征图对应位置，s为下采样倍率，σ为自适应方差。

应当理解，上述公式仅仅是示例性的，还可以采用其他任意合适的方式来进行标定相机参数的确定以及对待检测图像的标注检测信息的处理，本公开对此不作限制。

在一些实施例中，还可以对待检测图像、标定相机参数以及标注检测信息进行预处理。具体地，可以对待检测图像进行图像尺寸(resize)、图像填充(padding)、翻转(flip)等操作，用于实现数据增广和规划范图像数据。在对图像进行预处理的同时，也需要同步对标注信息和相机参数进行相应处理。

在一些实施例中，如图3所示，可以将预处理后的图像进入特征提取网络(backbone)进行图像特征提取，以获得与待检测图像中的待检测目标相关联的一组参数。图3中的特征提取网络例如可以至少部分地部署在图1所示的计算装置120中。

图3示出了根据本公开的一些实施例的目标检测模型的整体结构示意图。参考图3，选用的特征提取网络例如可以是DLA34，图像经过特征提取网络后可以输出多尺度(例如4倍、8倍、16倍、32倍下采样)的特征图。多尺度特征图例如通过特征金字塔网络(FeaturePyramid Network,FPN)进行特征融合，使得特征图包含更为丰富的上下文信息和语义信息。特征金字塔网络最终可以输出经过特征融合后的4倍下采样特征图。

继续参考图3，在该实施例中，特征图输入模型任务头(head)对应不同任务的预测图输出以下一组参数信息中的一个或多个：二维检测框中心点位置；三维检测框中心点投影位置；三维检测框目标类别；二维检测框中心点到三维检测框角点投影点的偏移；三维检测框角点投影点位置；三维检测框的尺寸；三维检测框中心投影点的深度；三维检测框的方向；以及二维检测框中心点到三维检测框中心投影点的偏移。其中，投影可以是三维检测框上相应点到二维图像上的投影，相应地，投影位置可以是三维检测框上相应点到二维图像上的投影位置。

在该实施例中，不同模型任务头可以将上述参数信息中的多个参数合并输出或单独输出。如图3所示，heatmap头可以输出二维中心点位置以及三维检测框中心点投影位置及目标类别，而center2kpt offset头、kpt headmap头、dim头、depth头、dir头以及center2pcenter oifset头则分别输出二维检测框中心点位置到三维检测框的8个角点投影点的偏移、三维检测框的8个投影点的位置、三维检测框的尺寸、三维检测框的深度、三维检测框的方向、二维中心点位置到三维中心投影点的偏移。因此，应当理解，取决于检测模型的整体结构的不同，可以采用其他的方式实现上述参数的输出。还应当理解，上述各个任务头的输出参数根据实际需要是可选的。例如，在只考虑三维检测框的8个投影点作为约束的情况下，可以不输出二维中心点位置到三维中心投影点的偏移、三维检测框中心点投影位置等参数，这将在下文进行更详细介绍。

在一些实施例中，在得到上述一组参数的预测结果输出之后，可以对上述一组参数进行解码和真值进行损失计算，并且根据计算得到的损失值采用随机梯度下降法对网络模型参数进行更新，最终完成模型训练。

在一个实施例中，分类损失函数例如可以选用Gaussian Focal Loss函数，并通过如下等式计算得到分类损失：

L_pos(h，h^*)＝-(1-h)^γlog(h)

L_neg(h，h^*)＝-(1-h^*)β(h)^γlog(1-h)

L_cls＝L_pos+L_wg；

其中，h表示类别预测值，h^*表示类别真值，β为4.0，γ为2.0。

在一个实施例中，深度估计损失函数例如可以选用Laplacian AleatoricUncertainty Loss函数，并通过如下等式计算得到深度估计损失：

其中，d_u为深度不确信度预测值，d为反sigmoid深度预测值，d^*为深度真值。

在其他实施例中，偏移和尺寸的损失函数可以采用L2 Loss函数。在L2 Loss函数中各点连续光滑，方便求导，具有较为稳定的解，本公开对此不做赘述。

在框203，至少基于一组参数中的第一组子参数，得到基于深度估计的第一类型三维预测结果。第一类型三维预测结果可是基于深度估计的三维预测结果。

在一个实施例中，第一组子参数可以包括以下中的一个或多个：二维检测框中心点位置；二维检测框中心点到三维检测框中心投影点的偏移；三维检测框中心投影点的深度；三维检测框的尺寸；三维检测框的方向；以及三维检测框目标类别。

在一个实施例中，可以基于第一组子参数中的二维检测框中心点位置、二维检测框中心点到三维检测框中心投影点的偏移、三维检测框中心投影点的深度并且结合标定相机参数，得到针对待检测目标的三维检测框的位置，并且基于三维检测框的位置、三维检测框目标类别、三维检测框的尺寸以及三维检测框的方向，得到第一类型三维预测结果。

具体地，基于深度估计的三维检测预测可以根据得到的二维检测框中心点位置预测结果output_2dcenter、二维检测框中心点到三维检测框中心投影点的偏移output_2doffset、三维检测框中心投影点深度output_deep和标定参数calib得到三维检测框的位置det3d_pos，最后结合三维检测框的尺寸、类别和方向得到基于深度估计的三维检测预测结果，即第一类型三维预测结果。其中三维检测框的位置det3d_pos可以通过如下等式实现：

在框205，至少基于一组参数中的第二组子参数，得到基于几何约束的第二类型三维预测结果，其中第一组子参数与第二组子参数至少部分地重合。第二类型三维预测结果可是基于几何约束的三维预测结果。

在一个实施例中，第二组子参数可以包括以下中的一个或多个：二维检测框中心点位置；二维检测框中心点到三维检测框角点投影点的偏移；三维检测框角点投影点位置；三维检测框的尺寸；三维检测框目标类别以及三维检测框的方向。

在一个实施例中，可以基于几何约束对第二组子参数中的二维检测框中心点位置、二维检测框中心点到三维检测框角点投影点的偏移、三维检测框角点投影点位置进行关联，以得到关联结果，并且利用非线性最小二乘法基于关联结果结合三维检测框的尺寸、三维检测框的方向和三维检测框目标类别得到第二类型三维预测结果。其中，关联例如可以采用最邻近匹配的方式实现。在另一实施例中，也可以直接用二维检测框中心点和二维检测框中心点到三维检测框中心投影点的偏移得到三维检测框投影点位置，从而进一步提升模型推理速度。

在又一实施例中，第二组子参数还可以包括二维检测框中心点到三维检测框中心投影点的偏移和三维检测框中心点投影位置。在计算基于几何约束的三维检测框预测结果时，可以增加中心点的约束计算，进一步确保预测结果的准确性。

在这样的实施例中，第一组子参数与第二组子参数中均包括二维检测框中心点位置、二维检测框中心点到三维检测框中心投影点的偏移、三维检测框的尺寸、三维检测框的方向、三维检测框目标类别等重合的参数，由此能够结合二维检测框中心点和三维检测框中心点在二维图像上的投影点作为正样本点，从而有效的改善模型漏检问题。

在一个实施例中，具体地，基于几何约束的三维检测预测根据得到的二维框中心点位置、二维检测框中心点到三维检测框8个角点偏移offset和三维检测框8个角点位置进行关联而得到关联结果group。进一步，可以采用非线性最小二乘法(NLS)根据8个角点投影点约束对三维检测框位置进行估计，对估计结果进行修正后得到基于几何约束的3D检测预测结果。在一个实施例中，如前文所述，针对修正过程，可以利用非线性最小二乘法得到三维检测框的中心点位置，再结合三维检测框的尺寸、方向和类别得到完整的三维检测框。

在一个实施例中，具体地，可以根据三维检测框8个角点投影点位置再结合相机内参可以估计出三维检测框中心点位置X、Y、Z。三维检测框中心点位置X、Y、Z最后结合三维检测框的尺寸、三维检测框的方向即可以得到修正后的三维检测框。具体地，可以通过如下的等式得到基于几何约束的三维检测框中心点位置：

其中X、Y、Z表示中心点投影位置坐标，kp表示关联后的投影点位置，w、l和h分别表示三维检测框宽、长、高，θ表示方向角，x和y下标分别表示横坐标和纵坐标。

进一步，关联结果group和三维检测框的位置det3d_pos可以通过如下等式实现：

group＝min(L2(center2d+offset，kpts))

det 3d_pos＝NLS(kpts，dims，rots)；

其中center2d表示二维框中心点位置、offset表示二维检测框中心点到三维检测框投影点偏移，kpts指的是预测的8个角点投影点位置，dims指的是预测的尺寸，rots指的是预测的方向。

需要说明，上述实施方式仅仅是示例性的，例如还可以如前文所提及采用8个角点投影点位置以及三维检测框中心点在二维图像上的投影点共9个投影点得到基于几何约束的三维检测框，从而得到更精确的计算结果。在一些实施例中，还可以采用非角点的投影点实现基于几何约束的三维检测框的计算，本公开对此不作限制。

在框207，基于第一类型三维预测结果和第二类型三维预测结果，得到针对待检测目标的目标三维检测结果。

在一个实施例中，可以对基于深度估计的第一类型三维检测预测结果和基于几何约束的三维检测预测结果进行结合，经过非极大值抑制过滤重叠度高的检测冗余框，进行边缘细化，得到目标三维检测结果。对于非极大值抑制过滤算法，可以首先计算三维检测框的IoU(Intersection over Union)，IoU表示交互比，能够测量在特定数据集中检测相应物体准确度的标准。IoU越高，重叠程度就越高。在本公开的实施例中，可以首先根据需要按类别设定IoU阈值，过滤掉重叠度高框中的置信度低的框，最终得到的检测框即为目标三维检测框。

在这样的实施例中，基于稀疏深度估计的检测结果和基于几何约束的检测结果融合，能够有效提升模型精度，而且具有推理速度快和精度高的特点，能够较好地应用于实际自动驾驶的部署实施。

在一个实施例中，图5示出了根据本公开的一些实施例的目标预测可视化结果。参照图5，道路两侧的车辆和障碍物都被二维框和三维框标注，障碍物被完整、准确地识别，从而能够更好地辅助自动驾驶的决策。

图6示出了根据本公开的一些实施例的基于融合输出的单目3D目标检测装置600的示意性框图，

如图6所示，装置600包括图像特征提取模块601、第一类型三维预测结果获取模块603、第二类型三维预测结果获取模块605以及目标三维检测结果获取模块607。

在装置600中，图像特征提取模块601被配置为对待检测图像进行特征提取，以获得与所述待检测图像中的待检测目标相关联的一组参数，所述一组参数中的至少部分参数包括针对待检测目标的二维检测框参数和三维检测框参数。

在装置600中，第一类型三维预测结果获取模块603被配置为至少基于所述一组参数中的第一组子参数，得到基于深度估计的第一类型三维预测结果。

在装置600中，第二类型三维预测结果获取模块605被配置为至少基于所述一组参数中的第二组子参数，得到基于几何约束的第二类型三维预测结果，其中所述第一组子参数与所述第二组子参数至少部分地重合。

在装置600中，目标三维检测结果获取模块607被配置基于所述第一类型三维预测结果和所述第二类型三维预测结果，得到针对所述待检测目标的目标三维检测结果。

在一些实施例中，第一类型三维预测结果获取模块603还可以被配置为基于第一组子参数中的二维检测框中心点位置、二维检测框中心点到三维检测框中心投影点的偏移、三维检测框中心投影点的深度并且结合标定相机参数，得到针对待检测目标的三维检测框的位置；以及基于三维检测框的位置、三维检测框目标类别、三维检测框的尺寸以及三维检测框的方向，得到第一类型三维预测结果。

在一些实施例中，第二类型三维预测结果获取模块605还可以被配置为基于几何约束对第二组子参数中的二维检测框中心点位置、二维检测框中心点到三维检测框角点投影点的偏移、三维检测框角点投影点位置进行关联，以得到关联结果；以及利用非线性最小二乘法基于关联结果结合三维检测框的尺寸、三维检测框的方向和三维检测框目标类别对三维检测框进行估计和修正，以得到第二类型三维预测结果。其中关联例如可以采用最邻近匹配的方式实现。在另一实施例中，也可以直接用二维检测框中心点和二维检测框中心点到三维检测框中心投影点的偏移得到三维检测框投影点位置，从而进一步提升模型推理速度。

在一些实施例中，目标三维检测结果获取模块607还可以被配置为对第一类型三维预测结果和第二类型三维预测结果进行非极大值抑制。

在一些实施例中，装置600还可以被配置为确定标定相机参数并且对待检测图像的标注检测信息进行处理，得到用于模型训练的初始真值；对待检测图像、标定相机参数以及标注检测信息进行预处理；以及对第一类型三维预测结果和第二类型三维预测结果进行解码并且对相应的初始真值进行损失计算，从而完成模型训练。

综上，根据本公开的实施例的基于稀疏深度估计的方法结合二维检测框中心点和三维检测框中心点在二维图像上的投影点作为正样本点，能够有效的改善模型漏检问题。基于几何约束的方法，模型直接预测三维检测框8个角点在二维图像上的投影位置，以及二维检测框中心点到8个角点投影点的偏移量，三维检测框共有7个自由度(不考虑两个旋转自由度)，得到的8个角点投影点的位置可以通过非线性最小二乘法对三维位置进行估计，并对估计结果进行修正后可以得到三维检测检测结果。最后，根据本公开的实施例融合检测输出结果，通过非极大值抑制过滤冗余的三维检测框，得到最终的三维检测结果，显著提升模型精度。

图7示出了能够实施本公开的多个实施例的计算设备700的框图。设备700例如可以用于实现图1的计算设备120。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如方法200。例如，在一些实施例中，方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元701执行时，可以执行上文描述的方法200的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种基于融合输出的单目3D目标检测方法，其特征在于，包括：

对待检测图像进行特征提取，以获得与所述待检测图像中的待检测目标相关联的一组参数，所述一组参数中的至少部分参数包括针对待检测目标的二维检测框参数和三维检测框参数；

至少基于所述一组参数中的第一组子参数，得到基于深度估计的第一类型三维预测结果；

至少基于所述一组参数中的第二组子参数，得到基于几何约束的第二类型三维预测结果，其中所述第一组子参数与所述第二组子参数至少部分地重合；以及

基于所述第一类型三维预测结果和所述第二类型三维预测结果，得到针对所述待检测目标的目标三维检测结果。

2.根据权利要求1所述的方法，其特征在于，所述一组参数至少包括以下中的一者或多者：

二维检测框中心点位置；

三维检测框中心点投影位置；

三维检测框目标类别；

二维检测框中心点到三维检测框角点投影点的偏移；

三维检测框角点投影点位置；

三维检测框的尺寸；

三维检测框中心投影点的深度；

三维检测框的方向；以及

二维检测框中心点到三维检测框中心投影点的偏移。

3.根据权利要求2所述的方法，其特征在于，

其中所述第一组子参数包括以下中的一者或多者：

所述二维检测框中心点位置；

所述二维检测框中心点到三维检测框中心投影点的偏移；

所述三维检测框中心投影点的深度；

所述三维检测框的尺寸；

所述三维检测框的方向；以及

所述三维检测框目标类别；

其中所述第二组子参数包括以下中的一者或多者：

所述二维检测框中心点位置；

所述二维检测框中心点到三维检测框角点投影点的偏移；

所述三维检测框角点投影点位置；

所述三维检测框的尺寸；

所述三维检测框目标类别；以及

所述三维检测框的方向。

4.根据权利要求3所述的方法，其特征在于，至少基于所述一组参数中的第一组子参数，得到基于深度估计的第一类型三维预测结果优选地包括：

基于所述第一组子参数中的所述二维检测框中心点位置、所述二维检测框中心点到三维检测框中心投影点的偏移、所述三维检测框中心投影点的深度并且结合标定相机参数，得到针对所述待检测目标的三维检测框的位置；以及

基于所述三维检测框的位置、所述三维检测框目标类别、所述三维检测框的尺寸以及所述三维检测框的方向，得到所述第一类型三维预测结果。

5.根据权利要求3所述的方法，其特征在于，至少基于所述一组参数中的第二组子参数，得到基于几何约束的第二类型三维预测结果优选地包括：

基于几何约束对所述第二组子参数中的所述二维检测框中心点位置、所述二维检测框中心点到三维检测框角点投影点的偏移、所述三维检测框角点投影点位置进行关联，以得到关联结果；以及

利用非线性最小二乘法基于所述关联结果结合所述三维检测框的尺寸、所述三维检测框的方向和所述三维检测框目标类别对三维检测框进行估计和修正，以得到所述第二类型三维预测结果。

6.根据权利要求1所述的方法，其特征在于，基于所述第一类型三维预测结果和所述第二类型三维预测结果，得到针对所述待检测目标的目标三维检测结果包括：

对所述第一类型三维预测结果和所述第二类型三维预测结果进行非极大值抑制。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定标定相机参数并且对所述待检测图像的标注检测信息进行处理，得到用于模型训练的初始真值；

对所述待检测图像、所述标定相机参数以及所述标注检测信息进行预处理；以及

对所述第一类型三维预测结果和所述第二类型三维预测结果进行解码并且对相应的所述初始真值进行损失计算，从而完成所述模型训练。

8.一种基于融合输出的单目3D目标检测装置，其特征在于，包括：

图像特征提取模块，被配置为对待检测图像进行特征提取，以获得与所述待检测图像中的待检测目标相关联的一组参数，所述一组参数中的至少部分参数包括针对待检测目标的二维检测框参数和三维检测框参数；

第一类型三维预测结果获取模块，被配置为至少基于所述一组参数中的第一组子参数，得到基于深度估计的第一类型三维预测结果；

第二类型三维预测结果获取模块，被配置至少基于所述一组参数中的第二组子参数，得到基于几何约束的第二类型三维预测结果，其中所述第一组子参数与所述第二组子参数至少部分地重合；以及

目标三维检测结果获取模块，被配置为基于所述第一类型三维预测结果和所述第二类型三维预测结果，得到针对所述待检测目标的目标三维检测结果。

9.一种电子设备，所述设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至7中任一项所述的方法。