CN114118247A - 一种基于多传感器融合的无锚框3d目标检测方法 - Google Patents

一种基于多传感器融合的无锚框3d目标检测方法 Download PDF

Info

Publication number
CN114118247A
CN114118247A CN202111384455.4A CN202111384455A CN114118247A CN 114118247 A CN114118247 A CN 114118247A CN 202111384455 A CN202111384455 A CN 202111384455A CN 114118247 A CN114118247 A CN 114118247A
Authority
CN
China
Prior art keywords
point cloud
feature
features
laser point
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111384455.4A
Other languages
English (en)
Inventor
田炜
殷凌眉
邓振文
黄禹尧
谭大艺
韩帅
余卓平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202111384455.4A priority Critical patent/CN114118247A/zh
Publication of CN114118247A publication Critical patent/CN114118247A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于多传感器融合的无锚框3D目标检测方法,包括:获取彩色RGB图像和激光点云;对彩色RGB图像进行语义分割,得到各像素的类别信息;利用类别信息对激光点云的特征进行增强,得到增强激光点云;对增强激光点云分别进行点云几何特征编码、点云可见性特征编码,得到几何特征和可见性特征;将几何特征与可见性特征进行堆叠,得到堆叠特征;将堆叠特征输入多层特征提取网络,提取不同层级的特征信息,再将各层级的特征信息进行堆叠,得到融合特征;将融合特征输出给无锚框目标检测器,以得到3D目标检测结果。与现有技术相比,本发明通过多模态数据的融合,利用传感器之间的优势互补来增强3D目标检测性能,从而实现准确快速检测的目的。

Description

一种基于多传感器融合的无锚框3D目标检测方法
技术领域
本发明涉及机器视觉技术领域,尤其是涉及一种基于多传感器融合的无锚框3D目标检测方法。
背景技术
3D目标检测在无人驾驶、机器人、增强现实等场景中具有广泛应用,相比普通的2D检测,3D检测额外提供了目标物体的长宽高和偏转角信息,是三维场景理解、自主决策规划的重要感知基础。
激光雷达和摄像头是三维目标检测领域最常用的车载传感器,其中,摄像头采集的图像具有丰富的语义和上下文信息,而激光雷达能够获取准确的空间信息,二者均属于自动驾驶的主流传感器。此外,目前很多自动驾驶算法都采用了传感器融合的方式,能够结合不同传感器的优点,从而应对光照不良、出现遮挡等方面的问题。
另外,目标检测算法主要包括one-stage和two-stage两种,其中,two-stage指的是检测算法需要分两步完成:首先需要获取候选区域,然后进行分类,比如R-CNN系列;与之相对的是one-stage检测,可以理解为一步到位,不需要单独寻找候选区域,典型的有SSD等。在two-stage检测算法中,比如Faster R-CNN算法,首先生成候选框,然后再对每个候选框进行分类(也会修正位置),这类算法的检测速度较慢,因为它需要多次运行检测和分类流程;而one-stage检测方法,仅仅需要送入网络一次就可以预测出所有的边界框,因而速度较快,非常适合移动端。以上算法都需要设置精心制定的锚框用于负责不同区域、不同大小的目标检测,研究人员普遍认为预制定的参数是目标检测模型成功与否的关键,在过去的相关实验中,研究人员也证明了锚点的超参数对于模型的预测能力有着相当重要的影响。
但是,上述基于锚框的目标检测方法存在的缺点主要体现在:
(1)锚点框的尺寸、比例、个数等超参数比较难以调解,不同的超参数得到的准确率波动能够达到4%左右;预设锚框的超参数降低了网络模型的鲁棒性,若应用至一个全新的数据集,需要重新设计锚点框的超参数,从而增加了模型参数调试的复杂度。
(2)即使经过了仔细的设计,由于锚点框的比例与尺寸在模型建立时必须固定,会产生一个严重的问题,即检测模型对形状变化较大的目标集尤其是小目标的时候,对于模型的检测难度显著提升。
(3)为了进一步获得更好的召回率,通常模型会在每一层特征层上铺设密集的锚点框,但是绝大多数的锚点框在训练的过程中会被标注为负样本,过多的负样本加剧了模型正负样本数量的不均衡,导致模型无法对背景敏感。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多传感器融合的无锚框3D目标检测方法,以能够准确快速地进行3D目标检测。
本发明的目的可以通过以下技术方案来实现:一种基于多传感器融合的无锚框3D目标检测方法,包括以下步骤:
S1、获取彩色RGB图像和激光点云;
S2、对彩色RGB图像进行语义分割,得到各像素的类别信息;
S3、利用各像素的类别信息,对激光点云的特征进行增强,得到增强激光点云;
S4、根据增强激光点云,分别进行点云几何特征编码、点云可见性特征编码,以分别得到几何特征和可见性特征;
S5、将几何特征与可见性特征进行堆叠,得到堆叠特征;
S6、将堆叠特征输入多层特征提取网络,提取不同层级的特征信息,再将各层级的特征信息进行堆叠,得到融合特征;
S7、将融合特征输出给无锚框目标检测器,得到3D目标检测结果。
进一步地,所述步骤S2具体采用语义分割网络对彩色RGB图像进行语义分割,所述语义分割网络包括U-Net、SegNet、DeepLab或BiSeNet;
所述步骤S2中各像素的类别信息包括车辆、行人、非机动车和背景共4个类别。
进一步地,所述步骤S3的具体过程为:通过从激光雷达坐标系到相机坐标系、再从相机坐标系到图像坐标系的投影变换,以将空间点云与相应彩色RGB图像的像素位置关联起来,将彩色RGB图像像素表征的语义信息补充给每一个从激光雷达坐标系投影到图像坐标系的点云,等同于为原始输入的激光点云添加新的数据维度、对激光点云赋予类别属性,从而实现点云语义的增强。
进一步地,所述步骤S4中进行点云几何特征编码的具体过程为:
首先在自车感知范围内的水平面设定立体网格,所述立体网格沿X和Y轴数量分别为W和H,Z轴数量为1,从而形成体柱,并将激光点云映射至对应的体柱;
体柱中每个激光点包含的特征包括(x,y,z,i,t,c,ox,oy,dx,dy,dz),其中,(x,y,z,i,t)为激光点原始特征,分别对应为空间直角坐标系坐标值、反射率、时间戳,c为图像语义分割赋予的类别特征,(ox,oy)为激光点与体柱中心轴x,y的偏差,(dx,dy,dz)为激光点与所有激光点位置均值
Figure BDA0003362294870000031
的偏差;
将体柱内所有增强的激光点分别通过多层感知机进行特征编码,以生成固定特征数量D的点云几何特征,并在数量方向进行最大池化操作,从而编码生成几何特征尺寸为(W,H,D)。
进一步地,所述步骤S4中进行点云可见性特征编码的具体过程为:
首先在自车感知范围内的水平面设定立体网格,所述立体网格沿X和Y轴数量分别为W和H,Z轴数量为O,从而形成体素;
激光点云中的每个激光点与激光雷达中心形成线段,所述线段经过的体素均标记状态为自由,激光点所在的体素标记状态为占用,其余体素标记状态为未知;
所有体素沿Z轴方向形成特征向量,并通过卷积层转换成长度为K的可见性特征,从而编码生成可见性特征尺寸为(W,H,K)。
进一步地,所述步骤S5具体是将几何特征与可见性特征沿深度方向进行堆叠:将几何特征和可见性特征分别对应到由立体网格的鸟瞰图生成的格栅图中,并沿深度方向进行堆叠,从而得到尺寸为(B,(D+K),H,W)的堆叠特征,其中B、(D+K)、H、W分别对应为批次、深度、高度和宽度。
进一步地,所述步骤S6中多层特征提取网络具体是通过不同步长卷积层,提取三个不同尺度的特征图,每个尺度的特征图再分别经过对应步长的反卷积层,将尺寸扩大至相同尺寸,最后沿深度方向堆叠,得到融合特征。
进一步地,所述步骤S7中无锚框目标检测器包括五个检测头,具体为关键点热图检测头、局部偏移检测头、z轴定位检测头、3D目标尺寸检测头和方向检测头。
进一步地,所述五个检测头用于将融合特征分别通过卷积层回归,以得到融合特征各像素点为类别中心点概率、与真值中心点X,Y方向的偏移量、与真值中心点Z方向的偏移量、三维检测框的几何尺寸和朝向。
进一步地,所述步骤S7具体是利用五个检测头来预测鸟瞰图平面上的物体中心,并回归3D边界框的不同属性,最后,将五个检测头的输出结果合并在一起,以生成3D目标检测结果。
与现有技术相比,本发明提出了一种无锚框和简单后处理的一阶段端到端3D点云目标检测方法,主要将骨干网络提取的融合特征图,连接到五个不同的检测头来预测鸟瞰图平面上的物体中心,并回归3D边界框的不同属性,在骨干网络中,彩色RGB图像经过语义分割网络得到各像素点的类别,该类别信息可以扩展激光点云的特征;另外,根据激光束传播原理,传感器至激光点之间的空间没有障碍物遮挡,可认为是自由区域,从而3D目标检测任务可以利用图像语义特征和空间可见性特征提升3D目标的检测精度,最后使用多层特征提取网络得到融合特征,因而在数据前处理阶段实现了图像语义信息对原始点云数据的增强;并使用一种光线投射算法成功重建了点云空间可见性状态;利用卷积神经网络分别聚合了点集几何和语义特征、点集可见性特征,由此保证了3D目标检测的准确性。
本发明将聚合的点集几何特征、点集可见性特征和点集语义特征合并于端到端的三维目标检测框架,不但实现了点云和图像的数据融合,还创新提出了点云的空间“可见性”的概念,有效地重建了点云空间占用状态,帮助准确感知三维空间的真实情况。另外,在推理阶段,每一个热峰都会通过最大池化操作被挑出来,之后,不再有多个回归的锚点被平铺到一个位置,因此不需要使用传统的NMS,这使得整个检测器可以在典型的CNN加速器或GPU上运行,节省了CPU资源用于自动驾驶的其他关键任务。
附图说明
图1为本发明的方法流程示意图;
图2为实施例中3D目标检测数据处理流程图;
图3为语义特征和可见性特征提取示意图;
图4为目标检测总体网络结构图;
图5为体素状态标记示意图;
图6为五个检测头模块结构图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于多传感器融合的无锚框3D目标检测方法,包括以下步骤:
S1、获取彩色RGB图像和激光点云;
S2、对彩色RGB图像进行语义分割,得到各像素的类别信息,在实际应用中,可采用主流框架的语义分割网络对彩色RGB图像进行语义分割,主要包括U-Net、SegNet、DeepLab或BiSeNet等网络架构;
彩色RGB图像输入至主流的语义分割网络,得到彩色图像各像素的类别,交通场景主要类别包括车辆、行人、非机动车、背景等;
S3、利用各像素的类别信息,对激光点云的特征进行增强,得到增强激光点云,各像素的类别信息通过传感器之间的外参赋予至激光点云,促使激光点云的特征进行增强,即激光点云通过传感器外参与彩色图像各像素形成数据对准,从而对激光点云赋予类别属性;
具体过程为:通过从激光雷达坐标系到相机坐标系、再从相机坐标系到图像坐标系的投影变换,以将空间点云与相应彩色RGB图像的像素位置关联起来,将彩色RGB图像像素表征的语义信息补充给每一个从激光雷达坐标系投影到图像坐标系的点云,等同于为原始输入的激光点云添加新的数据维度、对激光点云赋予类别属性,从而实现点云语义的增强;
S4、根据增强激光点云,分别进行点云几何特征编码、点云可见性特征编码,以分别得到几何特征和可见性特征,其中,进行点云几何特征编码的具体过程为:
首先在自车感知范围内的水平面设定立体网格,立体网格沿X和Y轴数量分别为W和H,Z轴数量为1,从而形成体柱,并将激光点云映射至对应的体柱;
体柱中每个激光点包含的特征包括(x,y,z,i,t,c,ox,oy,dx,dy,dz),其中,(x,y,z,i,t)为激光点原始特征,分别对应为空间直角坐标系坐标值、反射率、时间戳,c为图像语义分割赋予的类别特征,(ox,oy)为激光点与体柱中心轴x,y的偏差,(dx,dy,dz)为激光点与所有激光点位置均值
Figure BDA0003362294870000061
的偏差;
将体柱内所有增强的激光点分别通过多层感知机进行特征编码,以生成固定特征数量D的点云几何特征,并在数量方向进行最大池化操作,从而编码生成几何特征尺寸为(W,H,D);
进行点云可见性特征编码的具体过程为:
首先在自车感知范围内的水平面设定立体网格,立体网格沿X和Y轴数量分别为W和H,Z轴数量为O,从而形成体素;
激光点云中的每个激光点与激光雷达中心形成线段,线段经过的体素均标记状态为自由,激光点所在的体素标记状态为占用,其余体素标记状态为未知;
所有体素沿Z轴方向形成特征向量,并通过卷积层转换成长度为K的可见性特征,从而编码生成可见性特征尺寸为(W,H,K);
S5、将几何特征与可见性特征进行堆叠,得到堆叠特征,具体是将几何特征与可见性特征沿深度方向进行堆叠:将几何特征和可见性特征分别对应到由立体网格的鸟瞰图生成的格栅图中,并沿深度方向进行堆叠,从而得到尺寸为(B,(D+K),H,W)的堆叠特征,其中B、(D+K)、H、W分别对应为批次、深度、高度和宽度;
S6、将堆叠特征输入多层特征提取网络,提取不同层级的特征信息,再将各层级的特征信息进行堆叠,得到融合特征,本实施例中,多层特征提取网络具体是通过不同步长卷积层,提取三个不同尺度的特征图,每个尺度的特征图再分别经过对应步长的反卷积层,将尺寸扩大至相同尺寸,最后沿深度方向堆叠,得到融合特征;
S7、将融合特征输出给无锚框目标检测器,得到3D目标检测结果,本实施例中,无锚框目标检测器包括五个检测头,具体为关键点热图检测头、局部偏移检测头、z轴定位检测头、3D目标尺寸检测头和方向检测头;
五个检测头用于将融合特征分别通过卷积层回归,以得到融合特征各像素点为类别中心点概率、与真值中心点X,Y方向的偏移量、与真值中心点Z方向的偏移量、三维检测框的几何尺寸和朝向;
利用五个检测头来预测鸟瞰图平面上的物体中心,并回归3D边界框的不同属性,最后,将五个检测头的输出结果合并在一起,以生成3D目标检测结果。
综上可知,本发明基于神经网络进行3D目标检测,其输入数据包括彩色图像和激光点云,主要数据处理流程如图2所示:
1、彩色图像通过语义分割网络得到各像素的类别,类别信息通过传感器之间的外参赋予至激光点云,促使激光点云的特征进行增强,得到增强激光点云;
2、增强激光点云分别进行几何特征编码和可见性特征编码(如图3所示),将各模块得到的鸟瞰图特征进行堆叠,得到堆叠特征;
3、堆叠特征输入至多层特征提取网络,提取不同层级的特征信息,再将各层特征信息进行堆叠,得到融合特征;
4、融合特征分别通过不同的检测头,得到3D目标的类别、偏移、Z值、外形、朝向。
在进行神经网络训练的过程中,本发明使用图像和点云联合的数据增广方法,以缓解数据类别不平衡问题,从而提高3D目标检测的准确率,数据增广方法主要包括沿X轴随机翻转和随机***真值目标。其中,随机***真值目标是指将数据集中所有的真值目标的图像2D框、图像语义分割像素点、真值目标点云和3D框进行保存,并随机选取部分真值目标***至当前检索的数据组;随机选取的真值目标的图像2D框与当前检索的数据组的2D框无重叠,且根据随机选取的真值目标点云形成的轮廓区域,删除轮廓区域中当前检索的数据组的所有激光点。
本实施例应用上述技术方案,主要输入传感器数据包括彩色图像和激光点云,其中彩色图像经过语义分割网络得到各像素点的类别,该类别信息可以扩展激光点云的特征。另外,根据激光束传播原理,传感器至激光点之间的空间没有障碍物遮挡,可认为是自由区域。从而3D目标检测任务可以利用图像语义特征和空间可见性特征提升3D目标的检测精度。最后,使用多层特征提取网络得到融合特征,并通过检测头完成3D目标检测任务,目标检测总体网络结构如图4所示。
具体的:
步骤1:使用主流的语义分割方法(如DeeplabV3+)分类出彩色图像各像素的类别,并将激光点云投射到图像上,得到每个激光点的图像语义信息,对激光点云的特征进行增强;
步骤2:在感知区域空间划分体柱(W,H,1),将特征增强的激光点云映射至每个体柱,并利用体柱内所有点的几何信息和体柱位置信息对体柱内的激光点进一步特征增强,再通过多层感知机提取体柱中的特征,得到几何特征(W,H,D);
步骤3:在感知区域空间划分体素(W,H,O),利用光线投射算法,如图5所示,得到各体素的空间可见性状态,并通过卷积层进一步提取高维特征,得到可见性特征(W,H,K);
步骤4:将几何特征和可见性特征沿深度方向堆叠,输入至多层特征提取网络,提取不同层级的特征信息,再将各层特征信息进行堆叠,得到融合特征,多层特征提取网络结构如图4所示;
步骤5:将多层特征提取网络输出的特征图连接到五个不同的检测头(如图6所示),来预测鸟瞰图平面上的物体中心,并回归3D边界框的不同属性。
针对以上几个步骤,进一步进行详细说明:
一、图像语义特征对点云特征增强
预训练语义分割模型(如使用Cityscapes数据集),语义分割结果包含车(Car),行人(Pedestrian),骑自行车者(Cyclist)和背景(Background)的4个类别(class_id)。
通过从激光雷达坐标系到相机坐标系,再从相机坐标系到图像坐标系的投影变换,可以将空间点云与相应图像的像素位置关联起来。用此种方法将图像像素表征的语义信息补充给每一个从激光雷达坐标系投影到图像坐标系的点云,等同于为原始输入的点云添加了新的数据维度,从而实现点云语义的增强。最终,原始点集从4维(x,y,z,r)被扩展到5维(x,y,z,r,class_id)。
二、动态体素化
对硬体素化而言,非空体柱的数量以及体柱中点数都会受到限制。例如对于每个输入的样本,需要设置非空体柱的最大数量。一般来说H×W个体柱中非空体柱数量不会超过设定的最大值,反之则会进行体柱随机采样。同时,若设置每个体柱中点的数量为N,则会对每个超出设置点数量的体柱进行点随机采样;若体柱内的点数量少于N则会进行补零。修饰后的每个点都具有D=9维特征,则一个体柱内形成一个维度为(N,D)的点云集合。若选择的体柱数量为P,则最终转化成一个维度为(P,N,D)的点云集合。
然而,对动态体素化而言,每个体柱内所有的点都被保留下来,用于学习体柱级别特征。对于每个输入样本,我们得到一个维数为(N’,D)的点集。其中N'是每个输入样本的总点数。动态体素化并没有固定每个体柱中点云的数量,而是存储每个点所在体柱的坐标,以对应计算体柱级别特征。
三、点集可见性特征编码
输入点集的数量为N,每个点包含x,y,z空间坐标。首先,本发明将所有体素初始化为未知状态,然后对每条射线执行光线投射算法。如果该体素已经被占用,则继续执行。如果到达射线遍历的最终体素,则将该体素标记为占用状态。否则,所有遍历的体素都被标记为自由状态。最终,整个三维点云空间由未知、占用和自由三种状态表示。
此环节主要包括重建空间可见性状态,计算体素级别的可见性特征,最后将其集成到三维目标检测框架中。这里首先介绍二维平面的情况,随后扩展到三维空间更方便理解。
得到射线遍历的体素坐标后,就可以确定整个三维空间中每个体素的可见性状态。这里将三维空间的可见性定义为三种不用的状态,即未知(Unknown)空间、占用(Occupied)空间和自由(Free)空间,并用具体的数值来表征。我们将这些体素级别的可见性特征沿z轴堆叠,然后应用1×1卷积层对其进行聚合,从而得到维度尺寸为(H,W,K)的可见性特征。
四、无锚框检测头
本发明的无锚框目标检测器由五个检测头组成。它们是关键点热图检测头,局部偏移检测头,z轴定位检测头,3D目标尺寸检测头和方向检测头。图5显示了无锚框目标检测器的一些细节。
对于热图检测头和偏移检测头,预测关键点热图和局部偏移回归图。关键点热图用于查找目标对象中心在鸟瞰图中的位置。偏移回归图不仅可以帮助热图在鸟瞰图中找到更准确的对目标象中心,而且还可以弥补因柱化过程引起的离散化误差。
对于偏移回归检测头,有两个主要功能:首先,它被用来消除由柱化过程引起的错误,在该过程中,将浮点的目标对象中心分配给鸟瞰图中的整型的体柱位置。其次,它在完善热图目标对象中心的预测方面起着重要作用,尤其是当热图预测错误的中心时。具体来说,一旦热图预测到一个错误的中心,该错误的中心距离真值中心有若干像素偏差,则偏移检测头就具有减轻甚至消除相对于真值目标对象中心像素误差的能力。在偏移回归热图中选择一个具有半径r围绕目标对象中心像素的正方形区域。距物体中心的距离越远,偏移值就越大,并使用L1 loss来训练偏移量。
在鸟瞰图中进行目标对象定位之后,便只有目标对象x-y location。因此需要z轴定位检测头来回归z轴值。使用L1损失函数回归z值。
本发明首先在数据前处理阶段实现了图像语义信息对原始点云数据的增强;其次,使用一种光线投射算法成功重建了点云空间可见性状态;然后,利用卷积神经网络分别聚合了点集几何和语义特征,点集可见性特征。
之后应用上采样网络输出特征图,连接到五个不同的检测头来预测鸟瞰图平面上的物体中心,并回归3D边界框的不同属性。最后,将五个检测头的输出结果合并在一起,生成检测结果。其中,关键点热图预测检测头用于预测鸟瞰图平面内的物体中心,每一个物体都将被编码成一个以热峰为中心的小区域。
本发明将聚合的点集几何特征、点集可见性特征和点集语义特征合并于端到端的三维目标检测框架,不但实现了点云和图像的数据融合,还创新提出了点云的空间“可见性”的概念,有效地重建了点云空间占用状态,帮助准确感知三维空间的真实情况。另外,在推理阶段,每一个热峰都会通过最大池化操作被挑出来,之后,不再有多个回归的锚点被平铺到一个位置,因此不需要使用传统的NMS。这使得整个检测器可以在典型的CNN加速器或GPU上运行,节省了CPU资源用于自动驾驶的其他关键任务。

Claims (10)

1.一种基于多传感器融合的无锚框3D目标检测方法,其特征在于,包括以下步骤:
S1、获取彩色RGB图像和激光点云;
S2、对彩色RGB图像进行语义分割,得到各像素的类别信息;
S3、利用各像素的类别信息,对激光点云的特征进行增强,得到增强激光点云;
S4、根据增强激光点云,分别进行点云几何特征编码、点云可见性特征编码,以分别得到几何特征和可见性特征;
S5、将几何特征与可见性特征进行堆叠,得到堆叠特征;
S6、将堆叠特征输入多层特征提取网络,提取不同层级的特征信息,再将各层级的特征信息进行堆叠,得到融合特征;
S7、将融合特征输出给无锚框目标检测器,得到3D目标检测结果。
2.根据权利要求1所述的一种基于多传感器融合的无锚框3D目标检测方法,其特征在于,所述步骤S2具体采用语义分割网络对彩色RGB图像进行语义分割,所述语义分割网络包括U-Net、SegNet、DeepLab或BiSeNet;
所述步骤S2中各像素的类别信息包括车辆、行人、非机动车和背景共4个类别。
3.根据权利要求1所述的一种基于多传感器融合的无锚框3D目标检测方法,其特征在于,所述步骤S3的具体过程为:通过从激光雷达坐标系到相机坐标系、再从相机坐标系到图像坐标系的投影变换,以将空间点云与相应彩色RGB图像的像素位置关联起来,将彩色RGB图像像素表征的语义信息补充给每一个从激光雷达坐标系投影到图像坐标系的点云,等同于为原始输入的激光点云添加新的数据维度、对激光点云赋予类别属性,从而实现点云语义的增强。
4.根据权利要求1所述的一种基于多传感器融合的无锚框3D目标检测方法,其特征在于,所述步骤S4中进行点云几何特征编码的具体过程为:
首先在自车感知范围内的水平面设定立体网格,所述立体网格沿X和Y轴数量分别为W和H,Z轴数量为1,从而形成体柱,并将激光点云映射至对应的体柱;
体柱中每个激光点包含的特征包括(x,y,z,i,t,c,ox,oy,dx,dy,dz),其中,(x,y,z,i,t)为激光点原始特征,分别对应为空间直角坐标系坐标值、反射率、时间戳,c为图像语义分割赋予的类别特征,(ox,oy)为激光点与体柱中心轴x,y的偏差,(dx,dy,dz)为激光点与所有激光点位置均值
Figure FDA0003362294860000021
的偏差;
将体柱内所有增强的激光点分别通过多层感知机进行特征编码,以生成固定特征数量D的点云几何特征,并在数量方向进行最大池化操作,从而编码生成几何特征尺寸为(W,H,D)。
5.根据权利要求4所述的一种基于多传感器融合的无锚框3D目标检测方法,其特征在于,所述步骤S4中进行点云可见性特征编码的具体过程为:
首先在自车感知范围内的水平面设定立体网格,所述立体网格沿X和Y轴数量分别为W和H,Z轴数量为O,从而形成体素;
激光点云中的每个激光点与激光雷达中心形成线段,所述线段经过的体素均标记状态为自由,激光点所在的体素标记状态为占用,其余体素标记状态为未知;
所有体素沿Z轴方向形成特征向量,并通过卷积层转换成长度为K的可见性特征,从而编码生成可见性特征尺寸为(W,H,K)。
6.根据权利要求5所述的一种基于多传感器融合的无锚框3D目标检测方法,其特征在于,所述步骤S5具体是将几何特征与可见性特征沿深度方向进行堆叠:将几何特征和可见性特征分别对应到由立体网格的鸟瞰图生成的格栅图中,并沿深度方向进行堆叠,从而得到尺寸为(B,(D+K),H,W)的堆叠特征,其中B、(D+K)、H、W分别对应为批次、深度、高度和宽度。
7.根据权利要求1所述的一种基于多传感器融合的无锚框3D目标检测方法,其特征在于,所述步骤S6中多层特征提取网络具体是通过不同步长卷积层,提取三个不同尺度的特征图,每个尺度的特征图再分别经过对应步长的反卷积层,将尺寸扩大至相同尺寸,最后沿深度方向堆叠,得到融合特征。
8.根据权利要求1所述的一种基于多传感器融合的无锚框3D目标检测方法,其特征在于,所述步骤S7中无锚框目标检测器包括五个检测头,具体为关键点热图检测头、局部偏移检测头、z轴定位检测头、3D目标尺寸检测头和方向检测头。
9.根据权利要求8所述的一种基于多传感器融合的无锚框3D目标检测方法,其特征在于,所述五个检测头用于将融合特征分别通过卷积层回归,以得到融合特征各像素点为类别中心点概率、与真值中心点X,Y方向的偏移量、与真值中心点Z方向的偏移量、三维检测框的几何尺寸和朝向。
10.根据权利要求9所述的一种基于多传感器融合的无锚框3D目标检测方法,其特征在于,所述步骤S7具体是利用五个检测头来预测鸟瞰图平面上的物体中心,并回归3D边界框的不同属性,最后,将五个检测头的输出结果合并在一起,以生成3D目标检测结果。
CN202111384455.4A 2021-11-18 2021-11-18 一种基于多传感器融合的无锚框3d目标检测方法 Pending CN114118247A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111384455.4A CN114118247A (zh) 2021-11-18 2021-11-18 一种基于多传感器融合的无锚框3d目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111384455.4A CN114118247A (zh) 2021-11-18 2021-11-18 一种基于多传感器融合的无锚框3d目标检测方法

Publications (1)

Publication Number Publication Date
CN114118247A true CN114118247A (zh) 2022-03-01

Family

ID=80439224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111384455.4A Pending CN114118247A (zh) 2021-11-18 2021-11-18 一种基于多传感器融合的无锚框3d目标检测方法

Country Status (1)

Country Link
CN (1) CN114118247A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424022A (zh) * 2022-11-03 2022-12-02 南方电网数字电网研究院有限公司 输电走廊地面点云分割方法、装置和计算机设备
CN117152422A (zh) * 2023-10-31 2023-12-01 国网湖北省电力有限公司超高压公司 一种紫外图像无锚框目标检测方法及存储介质、电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424022A (zh) * 2022-11-03 2022-12-02 南方电网数字电网研究院有限公司 输电走廊地面点云分割方法、装置和计算机设备
CN115424022B (zh) * 2022-11-03 2023-03-03 南方电网数字电网研究院有限公司 输电走廊地面点云分割方法、装置和计算机设备
CN117152422A (zh) * 2023-10-31 2023-12-01 国网湖北省电力有限公司超高压公司 一种紫外图像无锚框目标检测方法及存储介质、电子设备
CN117152422B (zh) * 2023-10-31 2024-02-13 国网湖北省电力有限公司超高压公司 一种紫外图像无锚框目标检测方法及存储介质、电子设备

Similar Documents

Publication Publication Date Title
US10915793B2 (en) Method and system for converting point cloud data for use with 2D convolutional neural networks
CN113819890B (zh) 测距方法、装置、电子设备及存储介质
CN112613378B (zh) 3d目标检测方法、***、介质及终端
CN118115557A (zh) 关联lidar数据和图像数据
WO2020053611A1 (en) Electronic device, system and method for determining a semantic grid of an environment of a vehicle
Paz et al. Probabilistic semantic mapping for urban autonomous driving applications
US20230035475A1 (en) Methods and systems for semantic segmentation of a point cloud
JP7224682B1 (ja) 自律走行のための3次元多重客体検出装置及び方法
CN114118247A (zh) 一种基于多传感器融合的无锚框3d目标检测方法
CN113658257B (zh) 一种无人设备定位方法、装置、设备及存储介质
CN114821507A (zh) 一种用于自动驾驶的多传感器融合车路协同感知方法
CN112257668A (zh) 主辅路判断方法、装置、电子设备及存储介质
CN114792416A (zh) 一种目标检测方法及装置
CN113408324A (zh) 目标检测方法、装置及***、高级驾驶辅助***
Doval et al. Traffic sign detection and 3D localization via deep convolutional neural networks and stereo vision
CN114463713A (zh) 一种车辆在3d空间的信息检测方法、装置及电子设备
CN117746359A (zh) 目标检测方法、装置、电子设备及可读存储介质
CN117173399A (zh) 一种跨模态交叉注意力机制的交通目标检测方法及***
CN116246033A (zh) 一种面向非结构化道路的快速语义地图构建方法
US20240151855A1 (en) Lidar-based object tracking
CN115880659A (zh) 用于路侧***的3d目标检测方法、装置及电子设备
Aboah et al. Ai-based framework for understanding car following behaviors of drivers in a naturalistic driving environment
Yang et al. Analysis of Model Optimization Strategies for a Low-Resolution Camera-Lidar Fusion Based Road Detection Network
CN116778262B (zh) 一种基于虚拟点云的三维目标检测方法和***
KR102681992B1 (ko) 자율 주행을 위한 단일 계층 3차원 다중 객체 검출 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination