CN111369617B - 一种基于卷积神经网络的单目视图的3d目标检测方法 - Google Patents
一种基于卷积神经网络的单目视图的3d目标检测方法 Download PDFInfo
- Publication number
- CN111369617B CN111369617B CN201911424210.2A CN201911424210A CN111369617B CN 111369617 B CN111369617 B CN 111369617B CN 201911424210 A CN201911424210 A CN 201911424210A CN 111369617 B CN111369617 B CN 111369617B
- Authority
- CN
- China
- Prior art keywords
- convolution
- neural network
- camera
- target
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 6
- 230000008447 perception Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络的单目视图的3D目标检测方法。在自动驾驶场景中主要检测的3D目标包括但不局限于汽车,行人,以及自行车等类别。本发明主要包括如下步骤:首先利用事先准备好的训练集训练好网络参数;然后在预测阶段,将车载摄像头采集的单目图像经过预处理后,输入至训练好的卷积神经网络当中,预测出目标的2D边框、实际尺寸大小、和深度;最后通过射影几何相机模型求解出3D目标的3D空间中的位置。基于本发明所提出方法的基于单目视图的3D目标检测方法在测试数据集中具有较高的精度,具有良好的准确性和鲁棒性。
Description
技术领域
本发明属于计算机视觉领域,尤其涉及一种基于卷积神经网络的单目视图的3D目标检测方法。
背景技术
视觉是人们在驾驶车辆过程感知周围环境时主要依赖的信息来源。人类的视觉经过漫长时间的进化,对周围的环境具有很好的感知能力,可以轻松识别出周围的目标对象和对周围目标对象进行定位感知。而计算机视觉技术正是想要赋予计算机人类的视觉识别和定位的功能。通过复杂的图像计算,计算机能够识别和定位出目标对象。
近年来自动驾驶无论在工业界还是学术界均受到了很大的关注,自动驾驶的目的是一定程度上或者完全代替人类的驾驶行为。随着近年来自动驾驶领域技术的向前推进,越来越多的自动驾驶功能逐步进入到人们的日常出行当中。为了在自动驾驶的过程中,保证车内人员和周围环境的车辆和行人的安全,自动驾驶对感知环境有极高的要求。在自动驾驶技术领域中,感知是进行人机交互的前提,感知直接影响到对车辆主体周围环境的认知情况。车辆主体对周围环境的准确感知,是车辆进行决策规划的前提,是保障车辆安全驾驶,保障车内乘客的人身安全的前提条件。在感知领域有众多的技术路线,按照传感器类型可以分为基于激光雷达、基于毫米波雷达和基于摄像头的。基于摄像头的方案又可以分为单目和双目,而本发明提出的是一种基于单目摄像头的3D目标检测方法。
3D目标检测是自动驾驶领域一个非常重要的基本任务,三维空间中的物体一般用一个3D Box进行表示,其参数包括空间坐标(x,y,z)、尺寸大小(l,w,h)和偏航角(θ)。相比较于激光雷达,单目摄像头有着低成本,高分辨率,成像稳定的优势,在自动驾驶领域被广泛应用。但是单目摄像头由于透视投影的关系,缺失了深度信息,3D目标的定位具有较大的挑战。近年来,深度卷积神经网络(CNN)已经极大地改善了2D目标检测的性能。卷积神经网络的性能不断提高,通用性也在不断增强,为单目3D目标检测提供了强有力的技术手段。本发明则是提出了一种基于卷积神经网络的单目视图的3D目标检测方法。
发明内容
本发明的目的是针对现有的应用于自动驾驶场景的3D目标检测的不足,提供一种基于卷积神经网络的单目视图的3D目标检测方法。
本发明采取的技术方案是:
首先,从通过车载单目摄像头采集RGB图像和摄像头的标定参数;然后将图像进行预处理,输入至卷积神经网络当中,得到预测的参数,最后根据这些参数,利用相机模型计算出最终目标对象的3D边框,包括空间坐标和偏航角。
本发明解决其技术问题所采用的技术方案如下:
一种基于卷积神经网络的单目视图的3D目标检测方法,包括如下步骤:
步骤(1).获取车载摄像头采集的单目视图作为训练样本图像,并对训练样本图像中的目标对象进行标注,标注信息包括:相机的标定矩阵P、目标对象在图像上2D边框的中心位置(x2d,y2d)和宽高(w2d,h2d)、以及3D边框的中心位置(x3d,y3d,z3d)、长宽高(l3d,w3d,h3d)和偏航角(θ);
步骤(2).图像预处理:对训练样本图像的R、G、B通道分别进行中心化和标准化处理,公式如下:
X'=X-Xmean (1)
Xs=X'/Xstd (2)
其中X是待预处理的图像,Xmean是所有训练样本图像的均值,Xstd是所有训练样本图像的标准差;
步骤(3).构建卷积神经网络,使用预处理后的训练样本图像对卷积神经网络进行训练;所述卷积神经网络包括主干网络和网络输出分支;
所述主干网络一共采用18个卷积块,每个卷积块内部均为残差结构;卷积块的内部结构包含两个分支,其中第一分支依次经过3*3的卷积层、归一化层、ReLU激活函数、3*3的卷积层、归一化层,第二分支用于将该卷积块的输入变换为与第一分支的输出具有同样的尺寸;将第一分支和第二分支的输出的特征图相加作为所述卷积块的输出;
将卷积块i定义为神经网络中按次序的第i个卷积块,卷积块3和卷积块4构成第一卷积组,卷积块5、6、7、8构成第二卷积组,卷积块9至16构成第三卷积组,卷积块17和18构成第四卷积组;卷积块1、卷积块2、第一卷积组、第二卷积组、第三卷积组、第四卷积组中卷积的通道数分别为16、32、64、128、256、512,整个主干网络中采用的卷积核尺寸为3*3或1*1;在各个卷积组内部,不同层级的卷积层得到的特征图通过树状的结构依次进行融合,所述的树状结构具体为:每一个卷积组内部的前两个卷积块进行组内特征融合,并将融合结果输入到下一个卷积块,依次类推,得到包含浅层信息和深层信息的特征图;在不同的卷积组之间进行组间特征融合,组间特征融合的过程具体为:首先将前一组卷积组得到的特征图经过行卷积,然后再和后一个卷积组得到的特征进行融合;
所述的网络输出分支设置在主干网络后面,对于所需的每个输出设置1个分支,一共12个分支;每个分支内部依次为卷积核尺寸为3*3的卷积层、ReLU激活函数、卷积核尺寸为3*3的卷积层;所述的12个分支相对应的输出为:目标对象的置信度(score),2D边框的中心位置(x2d,y2d)和宽高(w2d,h2d)以及3D边框的长宽高(l3d,w3d,h3d)、观察角(θl)、中心位置的z坐标(z3d)、中心位置在平面图像上的投影与2D边框中心的偏移量(xoffset,yoffset);
利用训练集上标注的信息,计算出每张图像所对应的神经网络输出的真值,并以此监督卷积神经网络的学习;其中目标对象的置信度的设置方式为:当输出特征图上该处对应的原输入图像出现了目标对象,则设为1,否则为0;偏移量(xoffset,yoffset)的真值的计算方法如下:
xoffset=u-x2d (4)
yoffset=v-y2d (5)
其中P,即(x3d,y3d,z3d)表示3D目标的中心点坐标,(u,v)表示3D目标的中心点在2D图像上的投影坐标,K矩阵表示相机的内参矩阵,通过相机厂商或者标定确定相机的内参矩阵;
所述观察角(θl)的真值的计算方式如下:
θl=θ-θray (6)
步骤(4).在使用阶段,将图片输入至步骤(3)训练好的卷积神经网络模型,输出相应的目标对象;使用非极大值抑制算法对神经网络输出的目标对象进行去重叠处理;
步骤(5).从步骤(4)得到的结果中,保留置信度前靠前的K’个目标对象,然后再选出置信度大于设定阈值(t)的目标对象;
步骤(6).根据步骤(5)筛选后的目标对象参数,利用摄像头标定矩阵计算每一个目标对象在3D空间中的具***置:
根据相机模型:
其中P表示3D目标的中心点坐标,(u,v)表示3D目标的中心点在2D图像上的投影坐标,K矩阵表示相机的内参矩阵,通过相机厂商或者标定确定相机的内参矩阵;
所以:
而
u=x2d+xoffset (11)
v=y2d+yoffset (12)
步骤(7).根据步骤(5)筛选后的目标对象参数(θl),和步骤(6)中计算得出空间坐标(x3d,y3d,z3d),计算得到3D目标的偏航角(θ):
θ=θl+θray (13)
其中θl表示观察角,θray表示相机到3D目标中心的射线与相机坐标系x轴的夹角。
作为本发明的优选,所述的步骤(3)卷积神经网络的主干网络的特征融合过程中使用行卷积,行卷积与普通卷积的不同之处在于普通卷积在整个特征图上的滑动卷积操作中均共享权重,而行卷积只在特征图进行一次行滑动卷积操作内共享卷积核的权重,不同行的卷积操作则不共享卷积核的权重。
本发明的有益效果:
本发明通过仅通过单目摄像头的图像检测出3D立体空间中的目标对象,应用于自动驾驶领域,有助于自动驾驶车辆对周围环境的准确感知。单目摄像头成本较低,但有分辨率高,成像稳定的有点。本发明提出的一种基于单目视图的3D目标检测方法,利用成本低的传感器,达到较高的准确度,在自动驾驶领域具有较大的应用前景。通过在训练集对卷积神经网路的权重参数进行优化,在测试集上与真实值具有较高的一致性。不仅能够正确识别不同类别的3D目标,而且对目标的定位和姿态估计等也具有很高的准确性。证明本发明具有较高的准确度和鲁棒性。
附图说明
图1为目标对象的偏航角和观察角的关系示意图;
图2为本发明的一种基于卷积神经网络的单目视图的3D目标检测方法结构框图;
图3为主干网络的结构示意图。
具体实施方式
下面结合附图对本发明方法作进一步说明。
如图2所示,一种基于卷积神经网络的单目视图的3D目标检测方法,其具体实施步骤如下:
步骤(1).输入图像为车载摄像头采集的单目视图;
步骤(2).将训练样本分为训练集和测试集,将训练集样本放进卷积神经网络中利用反向传播法进行训练。测试集样本则用于测试模型的泛化能力。
步骤(3).对输入图像的R、G、B通道分别进行中心化和标准化处理,即减去训练集上统计得到的均值,再除以标准差:
X'=X-Xmean
Xs=X'/Xstd
其中,X是待预处理的图像,Xmean是所有训练样本图像的均值,Xstd是所有训练样本图像的标准差;
步骤(4).将经过步骤(3)处理得到的图像送入到所设计卷积神经网络当中,得到卷积神经网络的输出:2D边框的中心位置(x2d,y2d)和宽高(w2d,h2d)以及3D边框的长宽高(l3d,w3d,h3d)、观察角(θl)、中心位置的深度(z3d)、中心位置在平面图像上的投影与2D边框中心的偏移量(xoffset,yoffset)。网络的输出均为中心化和标准化后的结果,均值和标准差计算出真实场景下的结果:
Ydn=Y×Ystd+Ymean
步骤(5).从步骤(4)中得到的这些目标对象中进行筛选,首先使用非极大值抑制算法,剔除掉重叠过大的目标对象。
步骤(6).保留置信度靠前的K’个目标对象,K取100;然后再选出置信度大于设定阈值的目标对象,这里的阈值t取0.7。
步骤(7).根据步骤(6)筛选后的目标对象参数,结合摄像头的标定矩阵,计算目标对象在3D空间中的具***置:
根据相机模型:
所以:
而
u=x2d+xoffset
v=y2d+yoffset
其中,(x3d,y3d,z3d)表示3D目标的中心点坐标,(u,v)表示3D目标的中心点在2D图像上的投影坐标,K矩阵表示相机的内参矩阵,通过相机厂商或者标定确定相机的内参矩阵;
步骤(8).目标对象的偏航角θ和观察角的关系如图1所示;根据步骤(6)筛选后的目标对象参数(θl),和步骤(7)中计算得出空间坐标(x3d,y3d,z3d),计算得到3D目标的偏航角(θ):
θ=θl+θray
如图3所示为本发明的主干网络的结构示意图,所述主干网络一共采用18个卷积块,每个卷积块内部均为残差结构;卷积块的内部结构包含两个分支,其中第一分支依次经过3*3的卷积层、归一化层、ReLU激活函数、3*3的卷积层、归一化层,第二分支用于将该卷积块的输入变换为与第一分支的输出具有同样的尺寸;将第一分支和第二分支的输出的特征图相加作为所述卷积块的输出;
将卷积块i定义为神经网络中按次序的第i个卷积块,卷积块3和卷积块4构成第一卷积组,卷积块5、6、7、8构成第二卷积组,卷积块9至16构成第三卷积组,卷积块17和18构成第四卷积组;卷积块1、卷积块2、第一卷积组、第二卷积组、第三卷积组、第四卷积组中卷积的通道数分别为16、32、64、128、256、512,整个主干网络中采用的卷积核尺寸为3*3或1*1;
在各个卷积组内部,不同层级的卷积层得到的特征图通过树状的结构依次进行融合,每一个卷积组内部的前两个卷积块进行组内特征融合,并将融合结果输入到下一个卷积块,依次类推,得到包含浅层信息和深层信息的特征图;
在不同的卷积组之间进行组间特征融合,组间特征融合的过程具体为:首先将前一组卷积组得到的特征图经过行卷积,然后再和后一个卷积组得到的特征进行融合;
所述的网络输出分支设置在主干网络后面,对于所需的每个输出设置1个分支,一共12个分支;每个分支内部依次为卷积核尺寸为3*3的卷积层、ReLU激活函数、卷积核尺寸为3*3的卷积层;所述的12个分支相对应的输出为:目标对象的置信度(score),2D边框的中心位置(x2d,y2d)和宽高(w2d,h2d)以及3D边框的长宽高(l3d,w3d,h3d)、观察角(θl)、中心位置的z坐标(z3d)、中心位置在平面图像上的投影与2D边框中心的偏移量(xoffset,yoffset)。所述目标对象的置信度的设置方式为:当输出特征图上该处对应的原输入图像出现了目标对象,则设为1,否则为0。
偏移量(xoffset,yoffset)的真值的计算方法如下:
xoffset=u-x2d
yoffset=v-y2d
其中,(u,v)表示3D目标的中心点在2D图像上的投影坐标。
为了验证本发明所述的基于单目的3D目标检测方法的优越性,我们在卡尔斯鲁厄技术学院和芝加哥丰田技术学院共同发布的KITTI项目中的3D目标检测数据集(http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d)上进行了实验。
KITTI项目中的3D目标检测数据集提供了一共7481张单目视图数据,以及与之相对应的标签。实验中将图像分成了测试集和验证集,其中测试集3712张单目图像,验证集3769张单目图像。每张图像提供了相机的标定矩阵,以及图像中3D目标的真值。表1给出了本发明所述方法在验证集中的性能。表中的mAP(mean Average Precision)是验证3D目标检测算法性能的重要指标。表1罗列的是Car类目标IoU3d≥0.7,Pedestrian类目标IoU3d≥0.5,Cyclist类目标IoU3d≥0.5的性能情况。IoU的计算公式如下:
根据遮挡情况的多少,KITTI数据集将每一类目标对象分为了容易(Easy),中等难度(Moderate)和困难(Hard)三个难度,本发明在KITTI数据集上的性能结果如表1所示。
表1本发明所述算法在KITTI 3D目标检测数据集上的实验结果(单位:%)
Claims (2)
1.一种基于卷积神经网络的单目视图的3D目标检测方法,其特征在于包括如下步骤:
步骤(1).获取车载摄像头采集的单目视图作为训练样本图像,并对训练样本图像中的目标对象进行标注,标注信息包括:相机的标定矩阵P、目标对象在图像上2D边框的中心位置x2d,y2d和宽高w2d,h2d、以及3D边框的中心位置x3d,y3d,z3d、长宽高l3d,w3d,h3d和偏航角θ;
步骤(2).图像预处理:对训练样本图像的R、G、B通道分别进行中心化和标准化处理,公式如下:
X'=X-Xmean (1)
Xs=X'/Xstd (2)
其中X是待预处理的图像,Xmean是所有训练样本图像的均值,Xstd是所有训练样本图像的标准差;
步骤(3).构建卷积神经网络,使用预处理后的训练样本图像对卷积神经网络进行训练;所述卷积神经网络包括主干网络和网络输出分支;
所述主干网络一共采用18个卷积块,每个卷积块内部均为残差结构;卷积块的内部结构包含两个分支,其中第一分支依次经过3*3的卷积层、归一化层、ReLU激活函数、3*3的卷积层、归一化层,第二分支用于将该卷积块的输入变换为与第一分支的输出具有同样的尺寸;将第一分支和第二分支的输出的特征图相加作为所述卷积块的输出;
将卷积块i定义为神经网络中按次序的第i个卷积块,卷积块3和卷积块4构成第一卷积组,卷积块5、6、7、8构成第二卷积组,卷积块9至16构成第三卷积组,卷积块17和18构成第四卷积组;卷积块1、卷积块2、第一卷积组、第二卷积组、第三卷积组、第四卷积组中卷积的通道数分别为16、32、64、128、256、512,整个主干网络中采用的卷积核尺寸为3*3或1*1;在各个卷积组内部,不同层级的卷积层得到的特征图通过树状的结构依次进行融合,所述的树状结构具体为:每一个卷积组内部的前两个卷积块进行组内特征融合,并将融合结果输入到下一个卷积块,依次类推,得到包含浅层信息和深层信息的特征图;在不同的卷积组之间进行组间特征融合,组间特征融合的过程具体为:首先将前一组卷积组得到的特征图经过行卷积,然后再和后一个卷积组得到的特征进行融合;
所述的网络输出分支设置在主干网络后面,对于所需的每个输出设置1个分支,一共12个分支;每个分支内部依次为卷积核尺寸为3*3的卷积层、ReLU激活函数、卷积核尺寸为3*3的卷积层;所述的12个分支相对应的输出为:目标对象的置信度score,2D边框的中心位置x2d,y2d和宽高w2d,h2d以及3D边框的长宽高l3d,w3d,h3d、观察角θl、中心位置的z坐标z3d、中心位置在平面图像上的投影与2D边框中心的偏移量xoffset,yoffset;
利用训练集上标注的信息,计算出每张图像所对应的神经网络输出的真值,并以此监督卷积神经网络的学习;其中目标对象的置信度的设置方式为:当输出特征图上该处对应的原输入图像出现了目标对象,则设为1,否则为0;偏移量xoffset,yoffset的真值的计算方法如下:
xoffset=u-x2d (4)
yoffset=v-y2d (5)
其中P,即x3d,y3d,z3d表示3D目标的中心点坐标,u,v表示3D目标的中心点在2D图像上的投影坐标,K矩阵表示相机的内参矩阵,通过相机厂商或者标定确定相机的内参矩阵;
所述观察角θl的真值的计算方式如下:
θl=θ-θray (6)
步骤(4).在使用阶段,将图片输入至步骤(3)训练好的卷积神经网络模型,输出相应的目标对象;使用非极大值抑制算法对神经网络输出的目标对象进行去重叠处理;
步骤(5).从步骤(4)得到的结果中,保留置信度前靠前的K’个目标对象,然后再选出置信度大于设定阈值t的目标对象;
步骤(6).根据步骤(5)筛选后的目标对象参数,利用摄像头标定矩阵计算每一个目标对象在3D空间中的具***置:
根据相机模型:
其中P表示3D目标的中心点坐标,u,v表示3D目标的中心点在2D图像上的投影坐标,K矩阵表示相机的内参矩阵,通过相机厂商或者标定确定相机的内参矩阵;
所以:
而
u=x2d+xoffset (11)
v=y2d+yoffset (12)
步骤(7).根据步骤(5)筛选后的目标对象参数θl,和步骤(6)中计算得出空间坐标x3d,y3d,z3d,计算得到3D目标的偏航角θ:
θ=θl+θray (13)
其中θl表示观察角,θray表示相机到3D目标中心的射线与相机坐标系x轴的夹角。
2.根据权利要求1所述的一种基于卷积神经网络的单目视图的3D目标检测方法,其特征在于所述的步骤(3)卷积神经网络的主干网络的特征融合过程中使用行卷积,所述行卷积只在特征图进行一次行滑动卷积操作内共享卷积核的权重,不同行的卷积操作则不共享卷积核的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911424210.2A CN111369617B (zh) | 2019-12-31 | 2019-12-31 | 一种基于卷积神经网络的单目视图的3d目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911424210.2A CN111369617B (zh) | 2019-12-31 | 2019-12-31 | 一种基于卷积神经网络的单目视图的3d目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111369617A CN111369617A (zh) | 2020-07-03 |
CN111369617B true CN111369617B (zh) | 2022-06-21 |
Family
ID=71209964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911424210.2A Active CN111369617B (zh) | 2019-12-31 | 2019-12-31 | 一种基于卷积神经网络的单目视图的3d目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111369617B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733672B (zh) * | 2020-12-31 | 2024-06-18 | 深圳一清创新科技有限公司 | 基于单目相机的三维目标检测方法、装置和计算机设备 |
CN112990050B (zh) * | 2021-03-26 | 2021-10-08 | 清华大学 | 一种基于轻量级特征金字塔结构的单目3d目标检测方法 |
WO2022205329A1 (zh) * | 2021-04-01 | 2022-10-06 | 京东方科技集团股份有限公司 | 对象检测方法、对象检测装置及对象检测*** |
CN113128434B (zh) * | 2021-04-27 | 2023-11-21 | 南京大学 | 一种对单目rgb图像进行3d目标检测的方法 |
CN114663715B (zh) * | 2022-05-26 | 2022-08-26 | 浙江太美医疗科技股份有限公司 | 医学图像质控、分类模型训练方法、装置及计算机设备 |
CN115393423A (zh) * | 2022-09-19 | 2022-11-25 | 北京京东尚科信息技术有限公司 | 目标检测方法和装置 |
CN116214524B (zh) * | 2023-05-08 | 2023-10-03 | 国网浙江省电力有限公司宁波供电公司 | 用于油样回收的无人机抓载方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018093796A1 (en) * | 2016-11-15 | 2018-05-24 | Magic Leap, Inc. | Deep learning system for cuboid detection |
CN108898628A (zh) * | 2018-06-21 | 2018-11-27 | 北京纵目安驰智能科技有限公司 | 基于单目的车辆三维目标姿态估计方法、***、终端和存储介质 |
CN109308693A (zh) * | 2018-08-29 | 2019-02-05 | 北京航空航天大学 | 由一台ptz相机构建的目标检测和位姿测量单双目视觉*** |
CN110517349A (zh) * | 2019-07-26 | 2019-11-29 | 电子科技大学 | 一种基于单目视觉和几何约束的3d车辆目标检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11048257B2 (en) * | 2018-01-23 | 2021-06-29 | Gopro, Inc. | Relative image capture device orientation calibration |
CN110032949B (zh) * | 2019-03-22 | 2021-09-28 | 北京理工大学 | 一种基于轻量化卷积神经网络的目标检测与定位方法 |
CN110443827B (zh) * | 2019-07-22 | 2022-12-20 | 浙江大学 | 一种基于改进孪生网络的无人机视频单目标长期跟踪方法 |
-
2019
- 2019-12-31 CN CN201911424210.2A patent/CN111369617B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018093796A1 (en) * | 2016-11-15 | 2018-05-24 | Magic Leap, Inc. | Deep learning system for cuboid detection |
CN108898628A (zh) * | 2018-06-21 | 2018-11-27 | 北京纵目安驰智能科技有限公司 | 基于单目的车辆三维目标姿态估计方法、***、终端和存储介质 |
CN109308693A (zh) * | 2018-08-29 | 2019-02-05 | 北京航空航天大学 | 由一台ptz相机构建的目标检测和位姿测量单双目视觉*** |
CN110517349A (zh) * | 2019-07-26 | 2019-11-29 | 电子科技大学 | 一种基于单目视觉和几何约束的3d车辆目标检测方法 |
Non-Patent Citations (3)
Title |
---|
Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite;Andreas Geiger等;《2012IEEE 》;20120726;第3354-3361页 * |
Orthographic Feature Transform for Monocular 3D Object Detection;Thomas Roddick等;《arXiv》;20181120;第1-10页 * |
基于卷积神经网络的道路车辆检测方法;李琳辉 等;《吉林大学学报(工学版)》;20170331;第47卷(第2期);第384-391页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111369617A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111369617B (zh) | 一种基于卷积神经网络的单目视图的3d目标检测方法 | |
CN110942449B (zh) | 一种基于激光与视觉融合的车辆检测方法 | |
CN110988912B (zh) | 自动驾驶车辆的道路目标与距离检测方法、***、装置 | |
CN112292711B (zh) | 关联lidar数据和图像数据 | |
CN109271944B (zh) | 障碍物检测方法、装置、电子设备、车辆及存储介质 | |
US10949684B2 (en) | Vehicle image verification | |
US10915793B2 (en) | Method and system for converting point cloud data for use with 2D convolutional neural networks | |
EP4354403A2 (en) | Vehicle localization | |
CN105335955B (zh) | 对象检测方法和对象检测装置 | |
CN109334563B (zh) | 一种基于道路前方行人和骑行者的防碰撞预警方法 | |
GB2555214A (en) | Depth map estimation with stereo images | |
CN114254696A (zh) | 基于深度学习的可见光、红外和雷达融合目标检测方法 | |
CN108645375B (zh) | 一种用于车载双目***快速车辆测距优化方法 | |
CN115861601B (zh) | 一种多传感器融合感知方法及装置 | |
CN112883790A (zh) | 一种基于单目摄像头的3d物体检测方法 | |
CN111209840B (zh) | 一种基于多传感器数据融合的3d目标检测方法 | |
CN110969064A (zh) | 一种基于单目视觉的图像检测方法、装置及存储设备 | |
CN114495064A (zh) | 一种基于单目深度估计的车辆周围障碍物预警方法 | |
CN115909268A (zh) | 一种动态障碍物检测方法及装置 | |
CN116310673A (zh) | 一种基于点云与图像特征融合的三维目标检测方法 | |
Kühnl et al. | Visual ego-vehicle lane assignment using spatial ray features | |
CN116895059A (zh) | 一种多目透视图像的bev空间目标检测方法及装置 | |
CN113706599B (zh) | 一种基于伪标签融合的双目深度估计方法 | |
WO2023149990A1 (en) | Depth map completion in visual content using semantic and three-dimensional information | |
Du et al. | Validation of vehicle detection and distance measurement method using virtual vehicle approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |