CN115546594A - 一种基于激光雷达和相机数据融合的实时目标检测方法 - Google Patents

一种基于激光雷达和相机数据融合的实时目标检测方法 Download PDF

Info

Publication number
CN115546594A
CN115546594A CN202211177288.0A CN202211177288A CN115546594A CN 115546594 A CN115546594 A CN 115546594A CN 202211177288 A CN202211177288 A CN 202211177288A CN 115546594 A CN115546594 A CN 115546594A
Authority
CN
China
Prior art keywords
size
residual
convolution
fusion
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211177288.0A
Other languages
English (en)
Inventor
刘海滨
武超
王涣杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202211177288.0A priority Critical patent/CN115546594A/zh
Publication of CN115546594A publication Critical patent/CN115546594A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于激光雷达和相机数据融合的实时目标检测方法,该方法采用卷积神经网络模型实现,具体包括:构建传感器联合标定矩阵,将3D激光雷达点云图映射到2D平面转成深度图;搭建包括两个相同并行分支的孪生卷积网络模型,分别提取深度图和彩色图中的特征张量;在此基础上,提出一种基于特征层融合的数据融合方法,将所提取的多尺度特征张量通过叠加运算进行多模态数据融合,并将融合数据输入检测头部实现目标检测分类和位置回归。本发明提出的基于融合数据的目标检测方法在提高检测准确率的同时保证了良好的实时性,综合性能优于现有目标检测方法。

Description

一种基于激光雷达和相机数据融合的实时目标检测方法
技术领域
本发明属于计算机视觉和智能信息处理领域,具体涉及一种基于激光雷达和相机数据融合的实时目标检测方法。
背景技术
目标检测是智能机器人环境感知***的重要组成部分之一,在自动驾驶、家用机器人、无人机和AGV等领域均有广泛应用。但由于现实环境复杂且空间广大等问题,大部分目标检测算法的检测效率较低,难以满足实时性和识别准确率的要求。因此,开发具有高精度和高实时性的目标检测算法是现阶段亟需解决的问题。
目前,目标检测模块的常用传感器包括RGB相机和激光雷达。其中,相机检测速度快,可以捕捉待检测目标的丰富纹理信息,但难以直接测量物体的形状和位置,同时作为一种无源传感器,容易受环境光线强度变化的影响。与RGB相机相比,激光雷达通过激光检测周围环境,可以准确测量物体的距离和形状且对光线变化具有较强的鲁棒性,但即使是高分辨率的激光雷达,其采集的点云数据也较为稀疏。因此,将RGB图像和点云图像进行融合得到语义信息丰富、距离信息准确、且不易受光线变化影响的数据,可为检测算法提供可靠的源数据进而提高检测的准确率。
多模态数据的融合策略包括数据层融合、特征层融合和决策层融合等方法。数据层融合将RGB图像和深度图像转成多维张量图,在张量深度维度拼接融合。但该方法融合后的张量数据量较大,卷积处理耗费时间长,难以满足实时性要求。数据层融合作为一种浅层融合方法,仅实现简单拼接,未构建多模态数据之间的联系,会降低融合性能。决策层融合采用两个独立的卷积神经网络处理RGB图像和深度图像得到检测结果,最终决策取决于两个结果的整合,但受到两个网络检测结果可能互斥的影响,易导致其最终的检测性能不佳。相比之下,特征层融合从多传感器采集的源数据中提取抽象特征图并将其融合成单一特征向量,并通过卷积处理检测识别。抽象特征图比未经处理原始图像数据量小故处理耗时短,且特征层融合可在两卷积神经网络结构间进行多次融合加强了多模态数据的关联性。
发明内容
本发明针对技术背景中提到的问题,提出了一种基于激光雷达和相机数据融合的实时目标检测方法。该方法采用特征层融合方法,可有效减少数据计算量、提高算法实时性,同时融合加强了多模态数据的关联性,提高了所包含信息的丰富性以及检测的准确率。具体包括以下步骤:
1)准备待处理的彩色相机图像数据和对应的激光雷达点云数据;
2)将步骤1)中原始点云数据通过多传感器联合标定,将点云中每个数据点投影到RGB图像平面上转成深度图像,使得RGB图像和深度图像有相同视场范围;
3)构建基于孪生神经网络的目标检测模型,模型由两个分支组成,分别卷积处理RGB图像和深度图像;
4)构建基于特征层融合的交叉融合模块,孪生网络模型两并行分支由多个卷积层组成,模型通过多层卷积提取不同尺寸特征图,在并行分支的多个卷积层后添加融合层将非同质数据的特征图通过叠加运算完成多模态数据融合;
5)将RGB图像和对应的深度图像输入到神经网络进行训练,并在模型收敛后进行检测,得到最终检测结果。
进一步,所述步骤2)中的点云转深度图方法。首先根据公式1,将点云数据从激光雷达坐标系旋转平移到相机坐标系下;之后根据公式2将转置后的数据从相机坐标系透射投影到图像坐标系下;最后根据公式3将投影后的数据从图像坐标系缩放到像素坐标系下。
Figure BDA0003865271510000021
其中[XC,YC,ZC]为激光雷达坐标系下的坐标,[XL,YL,ZL]为相机坐标系下的坐标,R为旋转矩阵,T为平移矩阵。
Figure BDA0003865271510000031
其中,f是相机的焦距,[x,y]是图像坐标系下的坐标。
Figure BDA0003865271510000032
其中,[u,v]是像素坐标系下的坐标,[u0,v0]是像素坐标系的原点。
进一步,所述步骤3)中的孪生神经网络目标检测模型由两个相同的并行分支构成,其中,分支1用来卷积处理RGB图像,分支2用来卷积处理深度图像,两输入图像尺寸均为(W,H)。
进一步,所述的孪生神经网络模型的两分支,每个分支的特征提取网络为Darknet53,包括6个卷积层和5组残差模块,依次为:第1个卷积层,卷积核大小为3×3,步长为1,通道数为32,输出尺寸为
Figure BDA0003865271510000033
第2个卷积层,卷积核大小为3×3,步长为2,通道数为64,输出尺寸为
Figure BDA0003865271510000034
第1组残差模块,由1个残差模块组成,输出尺寸为
Figure BDA0003865271510000035
第3个卷积层,卷积核大小为3×3,步长为2,通道数为128,输出尺寸为
Figure BDA0003865271510000036
第2组残差模块,由2个残差模块组成,输出尺寸为
Figure BDA0003865271510000037
第4个卷积层,卷积核大小为3×3,步长为2,通道数为256,输出尺寸为
Figure BDA0003865271510000038
第3组残差模块,由8个残差模块组成,输出尺寸为
Figure BDA0003865271510000039
第5个卷积层,卷积核大小为3×3,步长为2,通道数为512,输出尺寸为
Figure BDA00038652715100000310
第4组残差模块,由8个残差模块组成,通道数为512,输出尺寸为
Figure BDA00038652715100000311
第6个卷积层,卷积核大小为3×3,步长为2,通道数为1024,输出尺寸为
Figure BDA00038652715100000312
第5组残差模块,由4个残差模块组成,输出尺寸为
Figure BDA00038652715100000313
进一步,所述的5组残差模块,第1组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为32;第2个卷积层卷积核大小为3×3,步长为1,通道数为64。第2组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为64;第2个卷积层卷积核大小为3×3,步长为1,通道数为128。第3组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为128;第2个卷积层卷积核大小为3×3,步长为1,通道数为256。第4组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为256;第2个卷积层卷积核大小为3×3,步长为1,通道数为512。第5组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为512;第2个卷积层卷积核大小为3×3,步长为1,通道数为1024。
进一步,所述的基于特征层融合的交叉融合模块,由3个加法层组成。加法层通过对两分支卷积得到的多维特征向量图中特征值进行加运算,在不改变特征图维度情况下将深度图像和RGB图像的特征图信息融合,多次融合可加深融合程度使两非同质数据充分融合。其中,第1个加法层放在两分支的第3组残差模块后,将两分支尺寸为
Figure BDA0003865271510000041
特征图C13和C23通过加运算生成尺寸为
Figure BDA0003865271510000042
的特征图C1,;第2个加法层放在两分支的第4组残差模块后,将两分支尺寸为
Figure BDA0003865271510000043
的特征图C14和C24通过加运算生成尺寸为
Figure BDA0003865271510000044
的特征图C1,;第3个加法层放在两分支的第5组残差模块后,将两分支尺寸为
Figure BDA0003865271510000045
的特征图C15和C25通过加运算生成尺寸为
Figure BDA0003865271510000046
的特征图C1,
进一步,所述的目标检测算法头部,采用yolo系列的One-stage结构,同时预测待检测目标的类别和位置。输出通道数为3(K+5),3表示每个预测位置有3个不同大小尺寸的预测框,K为预测类别数,5表示预测框的4个坐标和1个置信度。
和现有技术相比,本发明具有下列优点:
1、本发明对激光雷达点云数据进行预处理,通过构建联合标定矩阵将点云映射到2D平面构造深度图,在保留深度信息的同时降低了数据的运算量。
2、本发明构建的孪生神经网络模型,由两个相同的并行分支构成,分别用来卷积处理RGB图像和深度图像,可有效捕捉多模态数据中更多待检测物体的共同抽象特征。
3、本发明构建的基于特征层融合的交叉融合模块,将两神经网络分支卷积得到的多尺寸特征图输入加法层进行多模态数据融合。在训练时,网络模型可根据融合数据调整权重,加强了非同质数据的关联性。采用该融合方法降低了特征图尺寸和数据运算量,同时提高了处理实时性。
附图说明
图1为本发明实施例的总体流程图。
图2为本发明实施例的孪生神经网络模型。
图3为本发明实施例的检测结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明进行详细描述:
第一步:准备待处理的彩色相机图像数据和对应的激光雷达点云数据。将KITTI官方公布的7481张RGB图像和点云图及对应标签按8:1:1的比例划分成训练集、验证集和测试集。并对数据标签进行处理,转成标准的VOC格式。
第二步:将原始点云数据转成深度图像。根据激光雷达和相机的内外参构建联合标定矩阵。首先根据公式1通过空间旋转和平移将原始点云数据从激光雷达坐标系转到相机坐标系,之后根据公式2通过透射投影将旋转平移后的数据从相机坐标系转到图像坐标系,最后根据公式2通过伸缩和平移变换将投影后的数据从图像坐标系转到像素坐标系得到深度图像。
Figure BDA0003865271510000051
其中[XC,YC,ZC]为激光雷达坐标系下的坐标,[XL,YL,ZL]为相机坐标系下的坐标,R为旋转矩阵,T为平移矩阵。
Figure BDA0003865271510000061
其中,f是相机的焦距,[x,y]是图像坐标系下的坐标。
Figure BDA0003865271510000062
其中,[u,v]是像素坐标系下的坐标,[u0,v0]是像素坐标系的原点。
第三步:构建基于孪生神经网络的目标检测模型,模型由两个相同的并行分支组成,分别卷积处理RGB图像和深度图像。每个分支的特征提取网络为Darknet53,包括6个卷积层和5组残差模块,依次为:第1个卷积层,卷积核大小为3×3,步长为1,通道数为32,输出尺寸为
Figure BDA0003865271510000063
第2个卷积层,卷积核大小为3×3,步长为2,通道数为64,输出尺寸为
Figure BDA0003865271510000064
第1组残差模块,由1个残差模块组成,输出尺寸为
Figure BDA0003865271510000065
第3个卷积层,卷积核大小为3×3,步长为2,通道数为128,输出尺寸为
Figure BDA0003865271510000066
第2组残差模块,由2个残差模块组成,输出尺寸为
Figure BDA0003865271510000067
第4个卷积层,卷积核大小为3×3,步长为2,通道数为256,输出尺寸为
Figure BDA0003865271510000068
第3组残差模块,由8个残差模块组成,输出尺寸为
Figure BDA0003865271510000069
第5个卷积层,卷积核大小为3×3,步长为2,通道数为512,输出尺寸为
Figure BDA00038652715100000610
第4组残差模块,由8个残差模块组成,通道数为512,输出尺寸为
Figure BDA00038652715100000611
第6个卷积层,卷积核大小为3×3,步长为2,通道数为1024,输出尺寸为
Figure BDA00038652715100000612
第5组残差模块,由4个残差模块组成,输出尺寸为
Figure BDA00038652715100000613
其中,第1组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为32;第2个卷积层卷积核大小为3×3,步长为1,通道数为64。第2组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为64;第2个卷积层卷积核大小为3×3,步长为1,通道数为128。第3组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为128;第2个卷积层卷积核大小为3×3,步长为1,通道数为256。第4组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为256;第2个卷积层卷积核大小为3×3,步长为1,通道数为512。第5组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为512;第2个卷积层卷积核大小为3×3,步长为1,通道数为1024。
第四步:构建基于特征层融合的交叉融合模块。融合方法为在神经网络的卷积层间构建多层连接并融合多模态数据的特征图。通过融合数据量较少的特征图替代原始数据的简单叠加,可有效降低数据运算量,提高算法的实时性。多层连接使网络根据非同质数据更新网络权重,加强了数据的关联性。交叉融合模块由3个加法层组成:第1个加法层放在两分支的第3组残差模块后,将两分支尺寸为
Figure BDA0003865271510000071
的特征图C13和C23通过加运算生成尺寸为
Figure BDA0003865271510000072
的特征图C1,;第2个加法层放在两分支的第4组残差模块后,将两分支尺寸为
Figure BDA0003865271510000073
的特征图C14和C24通过加运算生成尺寸为
Figure BDA0003865271510000074
的特征图C1,;第3个加法层放在两分支的第5组残差模块后,将两分支尺寸为
Figure BDA0003865271510000075
的特征图C15和C25通过加运算生成尺寸为
Figure BDA0003865271510000076
的特征图C1,
第五步:构建基于yolo系列的One-stage检测头部,同时输出待检测目标的类别和位置。头部结构输出通道数为3(K+5),3表示每个预测位置有3个不同大小尺寸的预测框,K为预测类别数,5表示预测框的4个坐标和1个置信度。将训练集中的RGB图像和对应的深度图像输入到构建好的网络模型中进行训练和验证,在模型收敛后用测试集进行测试并与其他算法对比,对比算法包括:
F-PointNet,可参考Qi C R,Liu W,Wu C,et al.Frustum pointnets for 3dobject detection from rgb-d data[C].IEEE conference on computer vision andpattern recognition,2018:918-927.
3D-CVF atSPA,可参考Yoo J H,Kim Y,Kim J,Choi J W.3d-cvf:Generatingjoint camera and lidar features using cross-view spatial feature fusion for3d object detection[C].In European Conference on Computer Vision,2020:720-736.
CLCOs,可参考Pang S,Morris D,Radha H.CLOCs:Camera-LiDAR objectcandidates fusion for 3D object detection[C].IEEE International Conference onIntelligent Robots and Systems,2020:10386-10393.
ImvoxelNet,可参考Rukhovich D,Vorontsova A,Konushin A.Imvoxelnet:Imageto voxels projection for monocular and multi-view general-purpose 3d objectdetection[C].Proceedings of the IEEE/CVF Winter Conference on Applications ofComputer Vision,2020:2397-2406.
Pointpillars,可参考Lang A H,Vora S,Caesar H,Zhou L,Yang J,BeijbomO.Pointpillars:Fast encoders for object detection from point clouds[C].Proceedings of the IEEE/CVF conference on computer vision and patternrecognition,2019:12697-12705.
PointRCNN,可参考Shi S,Wang X,Li H.Pointrcnn:3d object proposalgeneration and detection from point cloud[C].Proceedings of the IEEE/CVFconference on computer vision and pattern recognition,2019:770-779.
PointRCNN,可参考Yang Z,Sun Y,Liu S,Jia J.3dssd:Point-based 3d singlestage object detector[C].Proceedings of the IEEE/CVF conference on computervision and pattern recognition,2020:11040-11048.
最终检测结果如表1所示。
表1本发明所述方法在KITTI测试集上与其他方法的对比实验结果
Figure BDA0003865271510000081
Figure BDA0003865271510000091
注:L表示激光雷达,R表示彩色相机
表1给出了本发明所述方法在KITTI测试集上与其他方法的对比实验结果。相比基于点云图像融合及单点云的目标检测方法,本发明方法实现了较好的检测性能,在KITTI官方提供的简单、中等、困难三个基线上检测准确率均高于其他方法。此外,本方法运行时间仅为0.05秒,远低于其他算法,说明其在提高检测性能的同时兼顾了实时性。
以上所述仅是本发明的实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于激光雷达和相机数据融合的实时目标检测方法,其特征在于,包括以下步骤:
1)准备待处理的彩色相机图像数据和对应的激光雷达点云数据;
2)将步骤1)中原始点云数据通过多传感器联合标定,将点云中每个数据点投影到RGB图像平面上转成深度图像,使得RGB图像和深度图像有相同视场范围;
3)构建基于孪生神经网络的目标检测模型,模型由两个分支组成,分别卷积处理RGB图像和深度图像;
4)构建基于特征层融合的交叉融合模块,孪生网络模型两并行分支由多个卷积层组成,模型通过多层卷积提取不同尺寸特征图,在并行分支的多个卷积层后添加融合层将非同质数据的特征图通过叠加运算完成多模态数据融合;
5)将RGB图像和对应的深度图像输入到神经网络进行训练,并在模型收敛后进行检测,得到最终检测结果。
2.根据权利要求1所述的一种基于激光雷达和相机数据融合的实时目标检测方法,其特征在于,步骤2)中通过多传感器联合标定将点云数据转成深度图;首先根据公式1,将点云数据从激光雷达坐标系旋转平移到相机坐标系下;之后根据公式2将转置后的数据从相机坐标系透射投影到图像坐标系下;最后根据公式3将投影后的数据从图像坐标系缩放到像素坐标系下;
Figure FDA0003865271500000011
其中[XC,YC,ZC]为激光雷达坐标系下的坐标,[XL,YL,ZL]为相机坐标系下的坐标,R为旋转矩阵,T为平移矩阵;
Figure FDA0003865271500000012
其中,f是相机的焦距,[x,y]是图像坐标系下的坐标;
Figure FDA0003865271500000021
其中,[u,v]是像素坐标系下的坐标,[u0,v0]是像素坐标系的原点。
3.根据权利要求1所述的一种基于激光雷达和相机数据融合的实时目标检测方法,其特征在于,步骤3)中的孪生神经网络目标检测模型由两个相同的并行分支构成,其中,分支1用来卷积处理RGB图像,分支2用来卷积处理深度图像,两输入图像尺寸均为(W,H)。
4.根据权利要求3所述的一种基于激光雷达和相机数据融合的实时目标检测方法,其特征在于,每个分支的特征提取网络为Darknet53,包括6个卷积层和5组残差模块,依次为:第1个卷积层,卷积核大小为3×3,步长为1,通道数为32,输出尺寸为
Figure FDA0003865271500000022
第2个卷积层,卷积核大小为3×3,步长为2,通道数为64,输出尺寸为
Figure FDA0003865271500000023
第1组残差模块,由1个残差模块组成,输出尺寸为
Figure FDA0003865271500000024
第3个卷积层,卷积核大小为3×3,步长为2,通道数为128,输出尺寸为
Figure FDA0003865271500000025
第2组残差模块,由2个残差模块组成,输出尺寸为
Figure FDA0003865271500000026
第4个卷积层,卷积核大小为3×3,步长为2,通道数为256,输出尺寸为
Figure FDA0003865271500000027
第3组残差模块,由8个残差模块组成,输出尺寸为
Figure FDA0003865271500000028
第5个卷积层,卷积核大小为3×3,步长为2,通道数为512,输出尺寸为
Figure FDA0003865271500000029
第4组残差模块,由8个残差模块组成,通道数为512,输出尺寸为
Figure FDA00038652715000000210
第6个卷积层,卷积核大小为3×3,步长为2,通道数为1024,输出尺寸为
Figure FDA00038652715000000211
第5组残差模块,由4个残差模块组成,输出尺寸为
Figure FDA00038652715000000212
5.根据权利要求4所述的一种基于激光雷达和相机数据融合的实时目标检测方法,其特征在于,第1组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为32;第2个卷积层卷积核大小为3×3,步长为1,通道数为64;第2组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为64;第2个卷积层卷积核大小为3×3,步长为1,通道数为128;第3组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为128;第2个卷积层卷积核大小为3×3,步长为1,通道数为256;第4组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为256;第2个卷积层卷积核大小为3×3,步长为1,通道数为512;第5组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1×1,步长为1,通道数为512;第2个卷积层卷积核大小为3×3,步长为1,通道数为1024。
6.根据权利要求1所述的一种基于激光雷达和相机数据融合的实时目标检测方法,其特征在于,步骤4)中的基于特征层融合的交叉融合模块,由3个加法层组成;加法层通过对两分支卷积得到的多维特征向量图中特征值进行加运算,在不改变特征图维度情况下将深度图像和RGB图像的特征图信息融合,多次融合可加深融合程度使两非同质数据充分融合;其中,第1个加法层放在两分支的第3组残差模块后,将两分支尺寸为
Figure FDA0003865271500000031
的特征图C13和C23通过加运算生成尺寸为
Figure FDA0003865271500000032
的特征图C1,23;第2个加法层放在两分支的第4组残差模块后,将两分支尺寸为
Figure FDA0003865271500000033
的特征图C14和C24通过加运算生成尺寸为
Figure FDA0003865271500000034
的特征图C1,24;第3个加法层放在两分支的第5组残差模块后,将两分支尺寸为
Figure FDA0003865271500000035
的特征图C15和C25通过加运算生成尺寸为
Figure FDA0003865271500000036
的特征图C1,25
7.根据权利要求1所述的一种基于激光雷达和相机数据融合的实时目标检测方法,其特征在于,步骤5)中采用yolo系列的One-stage头部结构,同时预测待检测目标的类别和位置;输出通道数为3(K+5),3表示每个预测位置有3个不同大小尺寸的预测框,K为预测类别数,5表示预测框的4个坐标和1个置信度。
CN202211177288.0A 2022-09-27 2022-09-27 一种基于激光雷达和相机数据融合的实时目标检测方法 Pending CN115546594A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211177288.0A CN115546594A (zh) 2022-09-27 2022-09-27 一种基于激光雷达和相机数据融合的实时目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211177288.0A CN115546594A (zh) 2022-09-27 2022-09-27 一种基于激光雷达和相机数据融合的实时目标检测方法

Publications (1)

Publication Number Publication Date
CN115546594A true CN115546594A (zh) 2022-12-30

Family

ID=84730261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211177288.0A Pending CN115546594A (zh) 2022-09-27 2022-09-27 一种基于激光雷达和相机数据融合的实时目标检测方法

Country Status (1)

Country Link
CN (1) CN115546594A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953589A (zh) * 2023-03-13 2023-04-11 南京航空航天大学 一种基于深度相机的发动机缸体孔径尺寸测量方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953589A (zh) * 2023-03-13 2023-04-11 南京航空航天大学 一种基于深度相机的发动机缸体孔径尺寸测量方法

Similar Documents

Publication Publication Date Title
Lu et al. Monocular semantic occupancy grid mapping with convolutional variational encoder–decoder networks
CN113673425B (zh) 一种基于Transformer的多视角目标检测方法及***
CN110689008A (zh) 一种面向单目图像的基于三维重建的三维物体检测方法
CN113111887A (zh) 一种基于相机和激光雷达信息融合的语义分割方法及***
Yan et al. Cross modal transformer: Towards fast and robust 3d object detection
CN114092780A (zh) 基于点云与图像数据融合的三维目标检测方法
Liang et al. A survey of 3D object detection
CN115082674A (zh) 基于注意力机制的多模态数据融合三维目标检测方法
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN116486368A (zh) 基于自动驾驶场景下的多模态融合三维目标鲁棒检测方法
CN114494248B (zh) 基于点云和不同视角下的图像的三维目标检测***及方法
CN116994135A (zh) 一种基于视觉与雷达融合的船舶目标检测方法
CN115546594A (zh) 一种基于激光雷达和相机数据融合的实时目标检测方法
CN116704304A (zh) 一种混合注意力机制的多模态融合目标检测方法
CN110176041B (zh) 一种基于双目视觉算法的新型列车辅助装配方法
CN115115917A (zh) 基于注意力机制和图像特征融合的3d点云目标检测方法
Wael A comprehensive vehicle-detection-and-tracking technique for autonomous driving
CN116704307A (zh) 基于图像虚拟点云与激光点云融合的目标检测方法及***
CN117011380A (zh) 一种目标物体的6d位姿估计方法
CN116403186A (zh) 基于FPN Swin Transformer与Pointnet++ 的自动驾驶三维目标检测方法
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置
Liangjun et al. MSFA-YOLO: A Multi-Scale SAR Ship Detection Algorithm Based on Fused Attention
Ling et al. Research and application of semantic point cloud on indoor robots
Vismaya et al. Fuzzy c-means algorithm based depth estimation in single image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination