CN117576665B - 一种面向自动驾驶的单摄像头三维目标检测方法及*** - Google Patents

一种面向自动驾驶的单摄像头三维目标检测方法及*** Download PDF

Info

Publication number
CN117576665B
CN117576665B CN202410077692.3A CN202410077692A CN117576665B CN 117576665 B CN117576665 B CN 117576665B CN 202410077692 A CN202410077692 A CN 202410077692A CN 117576665 B CN117576665 B CN 117576665B
Authority
CN
China
Prior art keywords
depth
dimensional
uncertainty
target
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410077692.3A
Other languages
English (en)
Other versions
CN117576665A (zh
Inventor
徐小龙
周鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202410077692.3A priority Critical patent/CN117576665B/zh
Publication of CN117576665A publication Critical patent/CN117576665A/zh
Application granted granted Critical
Publication of CN117576665B publication Critical patent/CN117576665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种面向自动驾驶的单摄像头三维目标检测方法及***,所述方法包括:将获取的单目图像输入特征提取网络中,输出二维检测结果;对二维检测结果采用RoIAlign方法裁剪出RoI特征;将单目图像归一化后的坐标图以通道方式与裁剪出的每个RoI特征的地图连接,形成最终的RoI特征;根据最终的RoI特征预测三维检测信息;将二维检测结果中预测的二维框高度与三维检测信息中预测的三维框高度采用几何投影公式计算出目标深度;将所述三维检测信息中直接求出的深度以及几何投影公式计算出目标深度,通过不确定性加权融合得到最终的深度;将预测的三维检测信息与加权融合得到最终的深度进行融合,输出目标的预测信息。

Description

一种面向自动驾驶的单摄像头三维目标检测方法及***
技术领域
本发明涉及一种面向自动驾驶的单摄像头三维目标检测方法及***,属于三维目标检测技术领域。
背景技术
三维目标检测一直是自动驾驶中的一个重要问题,它的主要任务是通过计算,识别出车辆的三维位置、车辆尺寸信息和偏航角。
在面向自动驾驶的计算机视觉应用场景中,识别车辆三维空间信息的三维目标检测算法至关重要。在三维空间信息中,深度估计是最重要的分支。然而从单摄像头中精确获取目标的深度信息从理论上具有极大的困难,深度预测的不准确是引起性能下降的主要原因。目前的面向自动驾驶的单摄像头三维目标检测方法主要有基于雷达、基于预训练深度和直接回归方法,前两者方法严重依赖额外信息,计算和人工成本较高。近年来,计算机视觉的研究者们提出了许多基于直接回归的方法,大大减少研究成本,提高检测速度。
但是,这些方法大多数都是单一深度估计方法,在模型训练时,利用车辆的纹理信息使用神经网络直接估计深度或者利用高度信息通过几何投影公式估计深度,并不能综合利用图像信息。
发明内容
本发明的目的在于提供一种面向自动驾驶的单摄像头三维目标检测方法及***,以解决现有方法大多数都是单一深度估计方法并不能综合利用图像信息,预测的不准确的缺陷。
一种面向自动驾驶的单摄像头三维目标检测方法,所述方法包括:
将获取的单目图像输入特征提取网络中,输出二维检测结果;
对二维检测结果采用RoIAlign方法裁剪出RoI特征;
将单目图像归一化后的坐标图以通道方式与裁剪出的每个RoI特征的地图连接,形成最终的RoI特征;
根据最终的RoI特征预测三维检测信息;
将二维检测结果中预测的二维框高度与三维检测信息中预测的三维框高度采用几何投影公式计算出目标深度;
将三维检测信息中直接求出的深度以及几何投影公式计算出目标深度,通过不确定性加权融合得到最终的深度;
将预测的三维检测信息与加权融合得到最终的深度进行融合,输出目标的预测信息。
进一步地,所述二维检测结果包括四个部分:
Heatmap:预测目标的类别分数和2D框中心的粗坐标;
Offset_2D:预测3Dbounding box中心点投影和2Dbounding box中心坐标在降采样后的偏移;
Size_2D:2D框的高和宽,单位像素;
Residual_2D:2Dbounding box中心坐标降采样以后的残差。
进一步地,所述三维检测信息包括:
Angle:角度预测输出,采用multi-bin策略,分成24个区间,前12个用于分类预测输出,后12个回归预测输出;
Direct_depth:使用特征提取网络直接预测目标的深度信息,输出两列信息,第一列为深度值,第二列为不确定;
Offset_3D:3Dbounding box中心点投影在下采样后的残差;
Size_3D:3Dbounding box的尺寸信息,实际预测的是尺寸的偏差,将预测的偏差加上数据集中目标的平均尺寸得到预测尺寸;
Depth_bias:预测深度的偏差值,弥补对截断目标深度预测的偏差。
进一步地,所述特征提取网络的损失函数为:
初始设置二维检测部分的权重,三维检测部分/>;/>表示为整体损失;/>表示为各个预测分支的损失。
进一步地,将所述三维检测信息中直接求出的深度以及几何投影公式计算出目标深度,通过不确定性加权融合得到最终的深度的方法如下:
在最终的RoI特征进行直接深度估计:
其中,是三维信息中的预测分支,用于估计深度以及不确定性;/>表示直接深度估计结果,/>是设定参数,/>表示建模深度估计中的异方差随机不确定性;
将服从拉普拉斯分布的三维框高度带入几何投影公式,根据几何投影预测的深度为:
其中,表示焦距,/>表示二维框高度,/>服从标准拉普拉斯分布/>,/>表示三维框高度,/>表示尺度参数,/>表示三维框高度的均值;
同时三维检测信息中还预测出服从拉普拉斯分布,/>的深度偏差,利用拉普拉斯分布的可相加性,得到最终的几何投影预测的深度和不确定性为:
,/>
其中,,/>,/>表示深度偏差的方差,/>表示深度偏差的均值,/>是基于几何投影的不确定性;/>表示为基于几何投影的深度;/>表示为/>
将RoI特征上求出的直接深度和基于几何投影的深度/>,使用不确定性引导融合起来;权重/>计算公式:
其中,表示直接深度估计,/>表示基于几何投影深度估计,/>表示直接深度估计和基于几何投影的深度估计的不确定性;/>表示直接深度估计和基于几何投影的深度估计的不确定性的平方和;/>表示为直接深度估计的不确定性或者基于几何投影深度的不确定性;
最终的目标深度和不确定性/>计算公式:
,/>
因为目标深度也服从拉普拉斯分布,所以目标深度信息的损失函数表达式为:
其中,表示标签真值,/>表示目标深度,/>表示不确定性,/>表示两种深度估计,表示深度估计对应的不确定性。
进一步地,所述根据最终的RoI特征预测三维检测信息包括:
在所述RoI特征上进行,经过卷积、组归一化、激活、可适应性平均池化和卷积操作,输出预测的三维检测信息。
进一步地,所述特征提取网络包括DLA-34主干网络和Neck网络,所述DLA-34主干网络采用Centernet框架,所述DLA-34主干网络用于将输出的6层特征图的最后4层特征图输入Neck网络,所述Neck网络将输入的4层特征图输出一层特征图作为二维检测结果。
进一步地,所述目标的预测信息包括三维中心点坐标、尺寸和偏航角。
进一步地,所述RoI特征只包含对象级特征,不包含背景噪声。
本发明第二方面提供了一种面向自动驾驶的单摄像头三维目标检测***,所述***包括:
特征提取模块,用于获取单目图像输入特征提取网络中,输出二维检测结果;
特征裁剪模块,用于对二维检测结果采用RoIAlign方法裁剪出RoI特征;
归一化模块,用于将单目图像归一化后的坐标图以通道方式与裁剪出的每个RoI特征的地图连接,形成最终的RoI特征;
三维检测模块,用于根据最终的RoI特征预测三维检测信息;
算法模块,用于将二维检测结果中预测的二维框高度与三维检测信息中预测的三维框高度采用几何投影公式计算出目标深度;
不确定性融合模块,用于将所述三维检测信息中直接求出的深度以及几何投影公式计算出目标深度,通过不确定性加权融合得到最终的深度;
融合模块,用于将预测的三维检测信息与加权融合得到最终的深度进行融合,输出目标的预测信息。
与现有技术相比,本发明所达到的有益效果:
1、本发明在通过不确定性引导融合了直接深度估计和基于几何投影深度估计的方法,综合利用了图像的纹理和几何特征,提供更精准的深度估计,具有较好的鲁棒性;
2、本发明通过深度融合将更高的权重值分配给深度预测不稳定的分支,这有助于提高整体深度估计的稳定性;
3、本发明为了更好的辅助三维检测任务,增加了二维检测任务分支,在每一个通道内进行组归一化,能够保留通道之间的位置信息,有助于在三维目标检测更好地学习空间信息,使用组归一化加速网路训练过程;
4、本发明采用两阶段检测,在RoI特征上进行进一步检测,比多数单阶段的方法更快,保证了面向自动驾驶单摄像头三维目标检测的实时要求的前提下,检测精度也优于目前各分类的检测方法。
附图说明
图1为本发明方法的检测目标三维空间信息图;
图2为本发明方法的网络结构示意图;
图3为本发明方法的网络预测分支示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
实施例1
本发明公开一种面向自动驾驶的单摄像头三维目标检测方法,其中三维空间信息如图1所示,所述方法包括步骤:
将获取的单目图像输入特征提取网络中,输出二维检测结果;
对二维检测结果采用RoIAlign方法裁剪出RoI特征;
将单目图像归一化后的坐标图以通道方式与裁剪出的每个RoI特征的地图连接,形成最终的RoI特征;
根据最终的RoI特征预测三维检测信息;
将二维检测结果中预测的二维框高度与三维检测信息中预测的三维框高度采用几何投影公式计算出目标深度;
将所述三维检测信息中直接求出的深度以及几何投影公式计算出目标深度,通过不确定性加权融合得到最终的深度;
将预测的三维检测信息与加权融合得到最终的深度进行融合,输出目标的预测信息,所述目标的预测信息包括三维中心点坐标,尺寸/>和偏航角/>
其中,所述特征提取网络包括DLA-34主干网络和Neck网络,所述DLA-34主干网络采用Centernet框架,所述DLA-34主干网络用于将输出的6层特征图的最后4层特征图输入Neck网络,所述Neck网络将输入的4层特征图输出一层特征图作为二维检测结果。
这里解耦一下三维目标检测的任务。对于单目图像,三维目标检测的任务是找到图片中的每一个感兴趣目标,估计出目标的类别和三维框,KITTI数据集里面主要的目标是汽车。三维框信息分为目标的三维中心点坐标,尺寸/>和偏航角/>,如图1所示。求得目标深度/>以后,利用三维框中心的投影点/>,用下面公式求出/>和/>
,/>
式中,为主点,/>为焦距,由此就可以完成3D中心点的预测。尺寸和偏航角由其他相关的预测分支输出。
本发明主要的预测分支如图2所示。
1)预测分支分为二维检测部分和三维检测部分,三维检测是在RoI特征的基础上实现的,最后根据二维检测和三维检测信息构成最终的三维框。其中的组归一化模块设置num_groups=32,num_channels=256,eps默认值1e-5。二维中心可以引导三维投影中心点的回归,而且将二维与三维任务联系起来,这种关联得到不同任务的学习相互促进。二维检测模块的二维包围框宽高预测分支,可以让模型学习一些对于深度估计有帮助的特征,因为基于成像原理在图上一般物体一般表现为近大远小,所以二维检测模块对于三维检测任务来说是需要的。二维检测输出在CenterNet基础上进行改进,将Backbone输出的后4层特征图喂入Neck,最终输出最后一层特征图作为整个网络的输出,包括四个部分。
Heatmap:预测目标的类别分数和2D框中心的粗坐标,用3Dbounding box中心投影来监督粗坐标,这有助于感知3D几何信息并且与估计3D对象中心的任务相关联。
Offset_2D:预测3Dbounding box中心点投影和2Dbounding box中心坐标在降采样(s=4)后的偏移(/>,/>)。
Size_2D:2D框的高和宽(,单位像素。
Residual_2D:2Dbounding box中心坐标降采样以后的残差(,/>)。
2)为了更好聚焦每一个对象,使用RoIAlign裁剪提取RoI特征,将计算归一化后的坐标图以通道的方式与每个RoI特征图连接在一起从而获得最终的RoI特征,利用提取出来的最终RoI特征来预测三维框的一些信息。
Angle:角度预测输出,采用multi-bin策略,分成24个区间,前 12个用于分类预测输出,后12个回归预测输出。
Direct_depth:使用主干神经网络模型直接预测目标的深度信息,即相机坐标系下的目标距离z(深度depth)。输出两列信息,第一列为深度值,第二列为不确定(对数方差形式)。
Offset_3D:3Dbounding box中心点投影在下采样后的残差(/>,)。
Size_3D:3Dbounding box的尺寸信息,实际预测的是尺寸的偏差,将预测的偏差加上数据集中目标的平均尺寸/>得到预测尺寸。
Depth_bias:预测深度的偏差值,可以弥补对截断目标深度预测的偏差。
本发明是两阶段检测,二维检测阶段的任务是3D检测的前置任务,最后的深度推测任务依赖于前置二维检测和三维检测任务。总的损失函数为:
初始设置二维检测部分的权重,三维检测部分/>;/>表示为整体损失;/>表示为各个预测分支的损失。使用分层任务学习策略观察每个任务的学习状况以及前置任务的损失函数的局部变化趋势。如果前置任务趋于收敛,那么该任务的权重也会提升。随着任务的进行,3D检测分支的权重从0逐渐增加到1。每个项的损失权重可以动态地反映其前置任务的学习情况,使训练更加稳定。
本发明方法中,其中最主要的过程是求解深度,具体过程如图3所示,步骤如下:
1)基于不确定性理论的直接深度估计依赖于目标的外观以及周围像素,RoI特征只包含对象特征,不包含背景噪声。本文在RoI特征上进行直接深度估计:
分支用于估计深度以及不确定性。估计深度对第一个通道使用逆Sigmoid变换,将连续的范围映射到正值范围;/>表示设定参数,所述设定参数/>为一个很小的数保证数值的稳定,本实施例取e-6。/>表示建模深度估计中的异方差随机不确定性。
2)在几何投影中,本文假设目标的三维框高度服从拉普拉斯分布,参数由Size_3D分支实现端到端预测:
,/>
为标准拉普拉斯分布/>。因此,3D高度的损失函数可以表示为:
损失函数使得预测目标/>尽可能接近真是高度/>,可以使得网络学习更加精确的高度预测值。加上正则化项/>有利于高度和不确定性预测的联合优化。
3)将服从拉普拉斯分布的3D高度带入几何投影公式:
其中,表示焦距,/>表示二维框高度,/>服从标准拉普拉斯分布/>,/>表示三维框高度,/>表示尺度参数,/>表示三维框高度的均值;
因此投影深度也服从拉普拉斯分布,深度的均值为,标准差/>。网络又预测了一个深度偏差帮助获得更精确的深度结果。
同理深度偏差依然是服从拉普拉斯分布,/>。利用拉普拉斯分布的可相加性,所以最终的几何投影预测的深度和不确定性为:
,/>
其中,表示深度偏差的方差,/>表示深度偏差的均值,/>是基于几何投影的不确定性,/>表示为基于几何投影的深度;/>表示为/>
4)将RoI特征上求出的直接深度和基于几何投影的深度/>,使用不确定性引导融合起来。权重/>计算公式:
其中,表示直接深度估计,/>表示基于几何投影深度估计;/>表示为直接深度估计的不确定性或者基于几何投影深度的不确定性;
5)最终的目标深度和不确定性/>计算公式:
,/>
因为这里深度也服从拉普拉斯分布,所以深度的损失函数:
整体损失会让预测深度结果更加接近真实深度值,优化过程中还训练了三维框高度和深度偏差的不确定性。深度融合公式通过观察的变化,动态分配权重,更加偏向于训练不稳定的深度预测分支,具有较高不确定性度的深度估计获得较高权重,这意味着即使一个估计具有较高的不确定性,它仍然可以对最终深度估计产生一定的影响,这有助于提高整体深度估计的稳定性,因为不确定性较高的估计对最终结果的影响更大。例如:当基于高度计算的出的不确定性大于直接估计深度的不确定性时,网络会更加偏向于基于高度的深度预测,提高相应权重,从而综合优化深度的预测,增强容错性。
在后续的推理过程中,深度预测十分重要。我们的深度融合模型可以很好的表示深度的不确定性,为了获得最后的三维框置信度,进一步将融合后深度的不确定性映射为0~1之间的值,通过指数函数表示深度的置信度,深度置信度可以为每一个投影深度提供更精确的置信度:
假设为目标被正确检测到的概率(三维框置信度),其中/>表示分类Heatmap得分,/>表示条件三维框置信度。以往的方法通常使用二维置信度/>作为最终的评分,并没有考虑三维空间的特征。或者使用三维框 IOU建模/>,但是由于训练阶段模型的平均三维框 IOU要大于验证阶段的,所以导致在验证阶段效果不好。所以本文将条件三维框置信度用深度置信度表示,用概率链式法则得到最终的置信度为:
最终的评分既表示了2D检测置信度,也代表了融合深度置信度,可以指导更好的可靠性。其计算过程既引入了直接深度估计的不确定性又引入了投影模型的先验信息,由三维框高度误差引起的深度误差也被很好的反应到置信度计算中。
本实施例中将上述方法和模型在KITTI数据集上进行测试,并与主流的单摄像头三维目标检测方法进行对比。其整体性能对比结果如表1所示,我们的模型是MonoCoDe。其中最好的结果加粗表示,次好的结果倾斜表示;E表示直接深度估计,H表示从高度估计深度;AP为目标检测算法中最重要的的衡量算法精度的指标meanAveragePrecision,实验评价指标是汽车分类下中等难度样本在IoU(预测与真值的交并比)大于等于0.7情况下的40点插值AP。
表1:目标检测整体性能对比结果
由表1可以看出,本发明在汽车分类上比其他方法表现更好(各种方法数据均来自各自的论文公布数据),包括使用额外信息的方法。汽车分类是KITTI 三维目标检测基准评估中最感兴趣的对象,中等级别是排序的主要依据。在除困难等级外,本文的方法均超过了Monocon(一种利用辅助学***上,本文的方法比MonoFlex高出2.67%(优于该方法约20%)。此外,本文的方法运行速度为38fps,满足了实时检测的要求,比借助额外信息的方法速度快很多,也体现了不依赖任何辅助信息的单摄像头三维目标检测方法的优势。
实施例2
本发明还公开了一种面向自动驾驶的单摄像头三维目标检测***,所述***包括:
特征提取模块,用于将获取的单目图像输入特征提取网络中,输出二维检测结果;
特征裁剪模块,用于对二维检测结果采用RoIAlign方法裁剪出RoI特征;
归一化模块,用于将单目图像归一化后的坐标图以通道方式与裁剪出的每个RoI特征的地图连接,形成最终的RoI特征;
三维检测模块,用于根据最终的RoI特征预测三维检测信息;
算法模块,用于将二维检测结果中预测的二维框高度与三维检测信息中预测的三维框高度采用几何投影公式计算出目标深度;
不确定性融合模块,用于将所述三维检测信息中直接求出的深度以及几何投影公式计算出目标深度,通过不确定性加权融合得到最终的深度;
融合模块,用于将预测的三维检测信息与加权融合得到最终的深度进行融合,输出目标的预测信息。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种面向自动驾驶的单摄像头三维目标检测方法,其特征在于,所述方法包括:
将获取的单目图像输入特征提取网络中,输出二维检测结果;
对二维检测结果采用RoIAlign方法裁剪出RoI特征;
将单目图像归一化后的坐标图以通道方式与裁剪出的每个RoI特征的地图连接,形成最终的RoI特征;
根据最终的RoI特征预测三维检测信息;
将二维检测结果中预测的二维框高度与三维检测信息中预测的三维框高度采用几何投影公式计算出目标深度;
将三维检测信息中直接求出的深度以及几何投影公式计算出目标深度,通过不确定性加权融合得到最终的深度;
将预测的三维检测信息与加权融合得到最终的深度进行融合,输出目标的预测信息;
所述特征提取网络的损失函数为:
Lossall=∑wi·Lossi
初始设置二维检测部分的权重wi=1,三维检测部分wi=0;Lossall表示为整体损失;Lossi表示为各个预测分支的损失;
将所述三维检测信息中直接求出的深度以及几何投影公式计算出目标深度,通过不确定性加权融合得到最终的深度的方法如下:
在最终的RoI特征进行直接深度估计:
σd=Head(Direct_Depth(RoI)) [1]
其中,Head(Direct_Depth)是三维信息中的预测分支,用于估计深度以及不确定性,zd表示直接深度估计结果,ε为设定参数,σd表示建模深度估计中的异方差随机不确定性;
将服从拉普拉斯分布La(μH,λH)的三维框高度带入几何投影公式,根据几何投影预测的深度为:
其中,f表示焦距,H2D表示二维框高度,X服从标准拉普拉斯分布La(0,1),H3D表示三维框高度,λH表示尺度参数,μH表示三维框高度的均值;
同时三维检测信息中还预测出服从拉普拉斯分布La(μb,λb),的深度偏差,利用拉普拉斯分布的可相加性,得到最终的几何投影预测的深度和不确定性为:
zp=μzb,σp 2=σz 2b 2
其中,σb表示深度偏差的方差,μb表示深度偏差的均值,σp是基于几何投影的不确定性,zp表示为基于几何投影的深度;σH表示为/>
将RoI特征上求出的直接深度zd和基于几何投影的深度zp,使用不确定性引导融合起来;权重ωi(i=d,p)计算公式:
ωi=σi 2/∑σj 2(j=d,p),
其中,d表示直接深度估计,p表示基于几何投影深度估计,∑σj 2表示直接深度估计和基于几何投影的深度估计的不确定性的平方和;σi表示为直接深度估计的不确定性或者基于几何投影深度的不确定性;
最终的目标深度zc和不确定性σc计算公式:
zc=∑ωizi,σc 2=∑ωiσi 2
因为目标深度也服从拉普拉斯分布,所以目标深度信息的损失函数表达式为:
其中,z*表示标签真值,zc表示目标深度,σc表示不确定性,zi表示两种深度估计,σi表示深度估计对应的不确定性。
2.根据权利要求1所述的面向自动驾驶的单摄像头三维目标检测方法,其特征在于,所述二维检测结果包括四个部分:
Heatmap:预测目标的类别分数和2D框中心的粗坐标;
Offset_2D:预测3Dbounding box中心点投影和2Dbounding box中心坐标在降采样后的偏移;
Size_2D:2D框的高和宽,单位像素;
Residual_2D:2Dbounding box中心坐标降采样以后的残差。
3.根据权利要求1所述的面向自动驾驶的单摄像头三维目标检测方法,其特征在于,所述三维检测信息包括:
Angle:角度预测输出,采用multi-bin策略,分成24个区间,前12个用于分类预测输出,后12个回归预测输出;
Direct_depth:使用特征提取网络直接预测目标的深度信息,输出两列信息,第一列为深度值,第二列为不确定;
Offset_3D:3Dbounding box中心点投影在下采样后的残差;
Size_3D:3Dbounding box的尺寸信息,实际预测的是尺寸的偏差,将预测的偏差加上数据集中目标的平均尺寸得到预测尺寸;
Depth_bias:预测深度的偏差值,弥补对截断目标深度预测的偏差。
4.根据权利要求1所述的面向自动驾驶的单摄像头三维目标检测方法,其特征在于,所述根据最终的RoI特征预测三维检测信息包括:
在所述RoI特征上进行,经过卷积、组归一化、激活、可适应性平均池化和卷积操作,输出预测的三维检测信息。
5.根据权利要求1所述的面向自动驾驶的单摄像头三维目标检测方法,其特征在于,所述特征提取网络包括DLA-34主干网络和Neck网络,所述DLA-34主干网络采用Centernet框架,所述DLA-34主干网络用于将输出的6层特征图的最后4层特征图输入Neck网络,所述Neck网络将输入的4层特征图输出一层特征图作为二维检测结果。
6.根据权利要求1所述的面向自动驾驶的单摄像头三维目标检测方法,其特征在于,所述目标的预测信息包括三维中心点坐标、尺寸和偏航角。
7.根据权利要求1所述的面向自动驾驶的单摄像头三维目标检测方法,其特征在于,所述RoI特征只包含对象级特征。
8.一种面向自动驾驶的单摄像头三维目标检测***,其特征在于,所述***包括:
特征提取模块,用于获取单目图像输入特征提取网络中,输出二维检测结果;
特征裁剪模块,用于对二维检测结果采用RoIAlign方法裁剪出RoI特征;
归一化模块,用于将单目图像归一化后的坐标图以通道方式与裁剪出的每个RoI特征的地图连接,形成最终的RoI特征;
三维检测模块,用于根据最终的RoI特征预测三维检测信息;
算法模块,用于将二维检测结果中预测的二维框高度与三维检测信息中预测的三维框高度采用几何投影公式计算出目标深度;
不确定性融合模块,用于将所述三维检测信息中直接求出的深度以及几何投影公式计算出目标深度,通过不确定性加权融合得到最终的深度;
融合模块,用于将预测的三维检测信息与加权融合得到最终的深度进行融合,输出目标的预测信息;
所述特征提取网络的损失函数为:
Lossall=∑wi·Lossi
初始设置二维检测部分的权重wi=1,三维检测部分wi=0;Lossall表示为整体损失;Lossi表示为各个预测分支的损失;
将所述三维检测信息中直接求出的深度以及几何投影公式计算出目标深度,通过不确定性加权融合得到最终的深度包括:
在最终的RoI特征进行直接深度估计:
σd=Head(Direct_Depth(RoI)) [1]
其中,Head(Direct_Depth)是三维信息中的预测分支,用于估计深度以及不确定性,zd表示直接深度估计结果,ε为设定参数,σd表示建模深度估计中的异方差随机不确定性;
将服从拉普拉斯分布La(μH,λH)的三维框高度带入几何投影公式,根据几何投影预测的深度为:
其中,f表示焦距,H2D表示二维框高度,X服从标准拉普拉斯分布La(0,1),H3D表示三维框高度,λH表示尺度参数,μH表示三维框高度的均值;
同时三维检测信息中还预测出服从拉普拉斯分布La(μb,λb),的深度偏差,利用拉普拉斯分布的可相加性,得到最终的几何投影预测的深度和不确定性为:
zp=μzb,σp 2=σz 2b 2
其中,σb表示深度偏差的方差,μb表示深度偏差的均值,σp是基于几何投影的不确定性,zp表示为基于几何投影的深度;σH表示为/>
将RoI特征上求出的直接深度zd和基于几何投影的深度zp,使用不确定性引导融合起来;权重ωi(i=d,p)计算公式:
ωi=σi 2/∑σj 2(j=d,p),
其中,d表示直接深度估计,p表示基于几何投影深度估计,∑σj 2表示直接深度估计和基于几何投影的深度估计的不确定性的平方和;σi表示为直接深度估计的不确定性或者基于几何投影深度的不确定性;
最终的目标深度zc和不确定性σc计算公式:
zc=∑ωizi,σc 2=∑ωiσi 2
因为目标深度也服从拉普拉斯分布,所以目标深度信息的损失函数表达式为:
其中,z*表示标签真值,zc表示目标深度,σc表示不确定性,zi表示两种深度估计,σi表示深度估计对应的不确定性。
CN202410077692.3A 2024-01-19 2024-01-19 一种面向自动驾驶的单摄像头三维目标检测方法及*** Active CN117576665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410077692.3A CN117576665B (zh) 2024-01-19 2024-01-19 一种面向自动驾驶的单摄像头三维目标检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410077692.3A CN117576665B (zh) 2024-01-19 2024-01-19 一种面向自动驾驶的单摄像头三维目标检测方法及***

Publications (2)

Publication Number Publication Date
CN117576665A CN117576665A (zh) 2024-02-20
CN117576665B true CN117576665B (zh) 2024-04-16

Family

ID=89890470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410077692.3A Active CN117576665B (zh) 2024-01-19 2024-01-19 一种面向自动驾驶的单摄像头三维目标检测方法及***

Country Status (1)

Country Link
CN (1) CN117576665B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325794A (zh) * 2020-02-23 2020-06-23 哈尔滨工业大学 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
US11004233B1 (en) * 2020-05-01 2021-05-11 Ynjiun Paul Wang Intelligent vision-based detection and ranging system and method
CN113159151A (zh) * 2021-04-12 2021-07-23 中国科学技术大学 面向自动驾驶的多传感器深度融合3d目标检测方法
CN115222789A (zh) * 2022-07-15 2022-10-21 杭州飞步科技有限公司 实例深度估计模型的训练方法、装置及设备
CN116580085A (zh) * 2023-03-13 2023-08-11 联通(上海)产业互联网有限公司 一种基于注意力机制的6d位姿估计的深度学习算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325794A (zh) * 2020-02-23 2020-06-23 哈尔滨工业大学 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
US11004233B1 (en) * 2020-05-01 2021-05-11 Ynjiun Paul Wang Intelligent vision-based detection and ranging system and method
CN113159151A (zh) * 2021-04-12 2021-07-23 中国科学技术大学 面向自动驾驶的多传感器深度融合3d目标检测方法
CN115222789A (zh) * 2022-07-15 2022-10-21 杭州飞步科技有限公司 实例深度估计模型的训练方法、装置及设备
CN116580085A (zh) * 2023-03-13 2023-08-11 联通(上海)产业互联网有限公司 一种基于注意力机制的6d位姿估计的深度学习算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于单目图像的自动驾驶三维目标检测算法研究;乔德文;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20240115;C035-406 *

Also Published As

Publication number Publication date
CN117576665A (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
Simon et al. Complexer-yolo: Real-time 3d object detection and tracking on semantic point clouds
US9990736B2 (en) Robust anytime tracking combining 3D shape, color, and motion with annealed dynamic histograms
CN114565900A (zh) 基于改进YOLOv5和双目立体视觉的目标检测方法
CN111201451A (zh) 基于场景的激光数据和雷达数据进行场景中的对象检测的方法及装置
CN110197106A (zh) 物件标示***及方法
CN110992424B (zh) 基于双目视觉的定位方法和***
CN113092807B (zh) 基于多目标跟踪算法的城市高架道路车辆测速方法
US20220129685A1 (en) System and Method for Determining Object Characteristics in Real-time
CN114495064A (zh) 一种基于单目深度估计的车辆周围障碍物预警方法
KR20210090384A (ko) 카메라 및 라이다 센서를 이용한 3d 객체 검출방법 및 장치
CN114372523A (zh) 一种基于证据深度学习的双目匹配不确定性估计方法
CN115909268A (zh) 一种动态障碍物检测方法及装置
CN113281718B (zh) 一种基于激光雷达场景流估计的3d多目标跟踪***及方法
CN112699748B (zh) 基于yolo及rgb图像的人车距离估计方法
CN111862147B (zh) 视频中多车辆和多行人目标的跟踪方法
CN111709269B (zh) 一种深度图像中基于二维关节信息的人手分割方法和装置
CN113112547A (zh) 机器人及其重定位方法、定位装置及存储介质
CN116740519A (zh) 一种近景远景多维度融合的三维目标检测方法、***及存储介质
CN117576665B (zh) 一种面向自动驾驶的单摄像头三维目标检测方法及***
CN114608522B (zh) 一种基于视觉的障碍物识别与测距方法
CN115937520A (zh) 基于语义信息引导的点云运动目标分割方法
CN114140497A (zh) 目标车辆3d实时追踪方法及***
CN113569803A (zh) 一种基于多尺度卷积的多模态数据融合车道目标检测的方法及***
CN112712062A (zh) 基于解耦截断物体的单目三维物体检测方法和装置
CN117523428B (zh) 基于飞行器平台的地面目标检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant