CN111429514B

CN111429514B - 一种融合多帧时序点云的激光雷达3d实时目标检测方法

Info

Publication number: CN111429514B
Application number: CN202010165899.8A
Authority: CN
Inventors: 叶育文; 张易; 项志宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2023-05-09
Anticipated expiration: 2040-03-11
Also published as: CN111429514A

Abstract

本发明公开了一种融合多帧时序点云的激光雷达3D实时目标检测方法。对较大遮挡目标标注不全的含连续帧点云的已知数据集，利用投影标注补全法补全；构建MADet网络结构；对多帧时序点云配准和体素化生成多帧鸟瞰图；将多帧鸟瞰图输入特征提取模块生成多帧初始特征图；对多帧初始特征图生成对应的特征描述，计算特征权重图并加权融合获得融合特征图；使用特征金字塔对融合特征图多尺度特征融合，在最终特征图上回归目标的位置、尺寸和朝向。本发明能有效克服单帧点云的数据稀疏问题，在遮挡严重和远距离下的目标检测中获得高准确率，达到比单帧检测更高的精度，网络结构精简，计算代价小，实时性强。

Description

一种融合多帧时序点云的激光雷达3D实时目标检测方法

技术领域

本发明涉及目标检测技术领域的一种激光雷达目标检测方法，特别是涉及了一种融合多帧时序点云的激光雷达3D实时目标检测方法。

背景技术

目标检测是指在可感知环境中找到所有存在的物体并回归出其尺寸和位置信息，是无人驾驶、自主机器人等复杂***能安全运行的至关重要的一环。卷积神经网络在基于图像的2D目标检测领域中取得了很大的进步。这些深度网络使用2D卷积，池化，全连接等操作，提取图片中更高层的语义信息，更好的理解图片内容，相对于传统方法效果显著，迅速成为目标检测领域的主流方法。但基于图像的2D目标检测缺乏深度信息，无法用于3D导航。为了给机器人提供精确的路径规划和运动控制，仅使用相机图像下的2D目标检测信息是不够的，因此3D场景中的带有空间信息的目标检测更为重要。激光雷达作为常见的距离传感器，采集的点云提供了精确的3D信息，为精确的3D目标检测提供了基础。

基于单帧点云的双阶段3D目标检测方法包括使用栅格和滑动窗口提取特征的Vote3Deep，使用图像检测结果为指导的点云3D检测F-PointNets，体素化后使用特征编码网络和3D卷积的VoxelNet与SECOND，融合多视角多传感器的检测方法MV3D和AVOD，这些双阶段方法计算量较大，在应用中难以保证实时性。基于单帧点云的单阶段3D目标检测方法包括Complex-YOLO、YOLO3D、PIXOR和PIXOR++，这些方法虽然具有较快的速度，但相比于双阶段方法，精度大大下降，其主要原因为网络结构简单，网络的拟合性能较弱，对强遮挡和远距离点云稀疏处的目标检测能力骤降。

点云具有较强的稀疏性，且不具有物体的纹理和颜色特征，因此较难进行对于点云稀疏或强遮挡的目标的精确检测。而引入连续多帧的点云，则可以增加时序上的约束，改善遮挡和稀疏状况，提高3D目标检测的精度和鲁棒性。YOLO4D在YOLO3D的基础上使用LSTM结构提取多帧特征，Complexer-YOLO在Complex-YOLO基础上使用语义分割结果辅助检测，FaF将多帧点云对齐后直接输入网络。以上方法需要使用分割方法或点云层对齐，引入大量额外计算需求，实时性弱且检测精度不高。本发明使用简单骨架、实时性强的网络结构，对配准后的多帧时序点云在初始特征图层面进一步自适应加权对齐融合，达到高速、高精度检测的效果。

发明内容

为了解决背景技术中存在的问题，本发明的目的在于提供了一种融合多帧时序点云的激光雷达3D实时目标检测方法，适用于实时采集实时处理的高效检测***。

本发明能有效克服单帧点云的数据稀疏问题，在遮挡严重和远距离下的目标检测中获得高准确率，达到比单帧点云检测更高的精度。使用的网络结构精简，计算代价小，实时性强。

本发明采用的技术方案的步骤如下：

1)使用投影标注补全法对具有激光雷达所采集的连续帧点云的已知数据集中漏标注的目标检测真值进行补全；

已知数据集是由多个不同场景的序列构成，每个序列是由连续帧点云和对应的目标检测真值构成，目标检测真值是指点云所包含目标的标注的集合。连续帧点云是指利用同一激光雷达连续采集的点云序列；

2)配准多帧时序点云，将多帧时序点云配准到当前帧点云的点云坐标系中；

时序点云是指随着时间推移而依次利用同一激光雷达采集的一系列不同帧的点云。

3)对配准后的多帧时序点云作体素化处理，生成多帧鸟瞰图，鸟瞰图是由体素化处理后获得的体素构成；具体是由步骤3)获得的多帧时序点云的每帧点云分别作体素化处理生成的多帧鸟瞰图。

4)建立MADet网络结构，MADet网络结构是以单帧点云目标检测的MODet-tiny网络结构为基础构建的，通过MADet网络结构实现融合多帧时序点云的目标检测，在最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向；

具体是将多帧鸟瞰图并行输入MADet网络结构中的特征提取模块，生成多帧初始特征图；将多帧初始特征图并行输入MADet网络结构中的特征描述模块，使用全卷积网络对各帧初始特征图生成对应的特征描述，并以该特征描述计算自适应权重获得特征权重图；通过加权模块对特征权重图和初始特征图加权，然后对加权后的各帧初始特征图进行多帧特征融合，生成融合特征图；将多帧特征融合生成的融合特征图输入MADet网络结构中目标检测模块，使用特征金字塔对融合特征图进行多尺度特征融合，在最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向。

5)将已知数据集输入MADet网络结构进行训练，同时设置总损失函数对已知数据集的全部帧点云中通过MADet网络结构回归出的所有目标的位置、尺寸和朝向进行优化监督，获得MADet网络结构中所有参数的参数值，获得训练后的MADet网络结构；

6)将训练完成的所有参数的参数值载入MADet网络结构中，针对激光雷达实时采集的待测点云输入到MADet网络结构中，输出获得最终特征图，从中提取出目标的位置、尺寸和朝向。

所述步骤1)中，是针对已知数据集中的每个序列，从每个序列最后一帧点云开始更新漏标注的目标，依次利用后一帧点云包含的每个目标的标注框向前一帧投影补全当前序列的目标检测真值，目标检测真值是指一帧点云所包含目标的标注的集合；具体为：

1.1)预处理点云和已知数据集的标注

针对每帧点云建立点云坐标系：每帧点云均由数个3D激光雷达点构成，每个3D激光雷达点p的坐标由三个坐标轴表示，记为p＝[x，y，z]，其中水平向前为y轴的正方向，竖直向上为z轴的正方向，水平向前的右方向为x轴的正方向，该帧点云的坐标原点O＝[0，0，0]为激光雷达的发射点；

已知数据集里面对每个目标的标注为groundTruth_box＝[obj，x_center，y_center，z_center，L，W，H，θ_yaw]，其中各个参数均是在该目标对应帧点云的点云坐标系下的标注参数，obj为被标注的目标的类别，以下简称其为标注类别，[x_center，y_center，z_center]为被标注的目标的中心坐标，[L，W，H]为被标注的目标的长、宽和高，θ_yaw为被标注的目标的朝向角；

在获得第n帧点云坐标系下所有被标注的目标的情况下，以目标的3D包围框作为标注框，为长方体框，通过坐标变换，计算出第n帧点云坐标系下所有被标注的目标的标注框的8个角点的坐标P_n并作为角点坐标；

1.2)同一标注框在前后帧点云的点云坐标系下的角点坐标变换

通过下式计算第n帧点云的点云坐标系下的所有标注框的角点坐标P_n在第(n-1)帧点云的点云坐标系下的角点坐标P_n-1：

P_n-1＝R_n-1，nP_n+t_n-1，n

其中，R_n-1，n和t_n-1，n分别表示第(n-1)帧点云的点云坐标系向第n帧点云的点云坐标系转换的旋转矩阵和平移矩阵；

1.3)标注框的补全与筛选

交并比(Intersection over Union,IoU)的计算方法是预测框和真值框的交集和并集的面积或体积的比值。

利用步骤1.2)的同一标注框在前后帧点云的点云坐标系下的角点坐标变换的计算方式，从已知数据集中每个序列的最后一帧点云开始，依次用后一帧点云中的所有标注框向前一帧点云投影：

如果后一帧点云中的一个标注框向前一帧点云投影后，标注框内的3D激光雷达点个数小于预设的阈值个数thres_num，或该标注框超出预设的横向检测范围(-thres_Xrange，thres_Xrange)，thres_Xrange表示横向检测范围的范围参数，或该标注框超出预设的纵向检测范围(0，thres_Yrange)，thres_Yrange表示纵向检测范围的范围参数，则忽略该标注框；

然后以未被忽略的投影后的标注框作为预测框，以已知数据集中前一帧点云本身具有的标注框作为真值框，通过计算每一个预测框和每一个真值框的交并比IoU和标注类别来判断是否是同一目标，如果交并比IoU大于预设的交并比阈值thresis_Obj，且预测框和真值框的标注类别相同，则由后一帧点云投影到前一帧点云的该预测框对应的目标和前一帧点云的该真值框对应的目标是同一目标，此时由于该目标已在前一帧点云的目标检测真值中，因此不利用该目标补全前一帧点云的目标检测真值；

若交并比IoU小于预设的交并比阈值thresis_Obj，则认为发现漏标注的目标，将预测框对应的目标的标注作为前一帧点云该新加入的目标的标注，并加入到前一帧点云的目标检测真值中，从而对目标检测真值进行补全。

本发明方法上述处理可以精确地对静态目标进行目标检测真值补全，但对于少量的移动较快且没有标注的目标会出现定位偏移，因此最后为保证补全的目标检测真值正确，对增加的目标检测真值进行人工确认和调整。

所述步骤2)中，具体为：

前后帧点云之间打到地面的3D激光雷达点容易误匹配，需要筛除所有帧点云中的打到地面的3D激光雷达点。对于前后帧点云，通过最小化如下误差函数来获得第k帧点云和第(k-1)帧点云之间的刚性位姿变换，包括第k帧点云相对于第(k-1)帧点云的预测旋转矩阵

和预测平移矩阵

从而实现配准的目的：

式中，N为前后帧点云之间的3D激光雷达点匹配对数，

和

分别代表前后帧点云中对应的最近邻匹配3D激光雷达点的坐标；

然后利用刚性位姿变换将前Q帧点云依次配准至当前帧点云的点云坐标系中，完成对于连续(Q+1)帧的多帧时序点云精确配准到当前帧点云的点云坐标系中。

所述步骤3)鸟瞰图的具体生成方法是：

针对多帧时序点云的每帧点云，将每帧点云所在空间分割成大小相等的体素，并对每个体素进行二进制表示，每个体素的尺寸为grid_x×grid_y×grid_z其中grid_x为体素的预设横向长度，grid_y为体素的预设纵向长度，grid_z为体素的预设高向长度，完成体素化处理；

然后将单帧点云包含的所有3D激光雷达点投影到构成鸟瞰图的各个体素中，对于坐标为p＝[x，y，z]的3D激光雷达点投影到的体素的坐标为(row，col，high)：

其中，row、col和high分别表示该3D激光雷达点投影到体素的坐标的行号、列号和高号，Xoffset、Yoffset和Zoffset分别表示预设的行、列和高偏移量；

在每帧点云的点云坐标系下建立左右预设范围[-thres_Xsearch，thres_Xsearch]，thres_xsearch表示左右预设范围的范围参数，前后预设范围[0，thres_Ysearch]，thres_Ysearch表示前后预设范围的范围参数，上下预设范围[-thres_Zsearch1，thres_Zsearch2]的目标检测范围，-thres_Zsearch1，thres_Zsearch2分别表示上下预设范围的第一、第二范围参数，将位于目标检测范围内的该帧点云的3D激光雷达点进行体素化处理，由所有体素化处理后的体素构成鸟瞰图，当体素内有3D激光雷达点存在时，体素的数值为1，体素内没有3D激光雷达点时，体素的数值为0。

所述步骤4)中，MODet-tiny网络结构是由一个五个连续的卷积池化模块、一个卷积模块、两个连续的反卷积模块和两个连续的卷积模块构成，每个卷积池化模块均是由一层卷积层和一层最大池化层依次连接构成，每个卷积模块是由一层卷积层构成，每个反卷积模块是由一层反卷积层构成；

将由单帧点云作体素化处理生成的单帧鸟瞰图输入到MODet-tiny网络结构，依次通过特征提取模块获得8倍降采样的单帧初始特征图，然后通过目标检测模块，利用特征金字塔融合多尺度特征，输出最终特征图，其中特征提取模块是由三个连续的卷积池化结构依次连接构成，目标检测模块是由一个特征金字塔和一个卷积层依次连接构成，特征金字塔是由两个连续的卷积池化结构、一个卷积层、两个连续的反卷积层和一个卷积层依次连接构成。

具体的MODet-tiny网络结构如下表1所示：

表1 MODet-tiny网络结构

上表中，m为初始卷积核个数，row×col×high为输入的鸟瞰图的大小，d为待预测量的个数。

本发明自行建立的上述基础网络结构中，卷积层个数加反卷积层的个数仅10个。

所述步骤4)中，MADet网络结构包括特征提取模块、特征描述模块、目标检测模块和加权模块；特征提取模块和特征描述模块依次连接，特征提取模块和特征描述模块的输出经加权模块连接输入到目标检测模块；

特征提取模块是由三个连续的卷积池化模块构成，每个卷积池化模块均是由一层卷积层和一层最大池化层依次连接构成；将步骤3)获得的多帧鸟瞰图的各帧并行输入特征提取模块获得8倍降采样的多帧初始特征图；

特征描述模块是使用由全卷积网络对特征提取模块输出的各帧初始特征图生成特征描述，并以特征描述计算自适应权重获得特征权重图；

加权模块是对特征权重图和初始特征图加权，然后对加权后的各帧初始特征图进行多帧特征融合生成融合特征图；

所述的目标检测模块是由一个特征金字塔和一个卷积层依次连接构成，特征金字塔是由两个连续的卷积池化模块、一个卷积层、两个连续的反卷积层和一个卷积层依次连接构成，每个卷积池化模块均是由一层卷积层和一层最大池化层依次连接构成；通过目标检测模块对融合特征图利用特征金字塔融合多尺度特征生成最终特征图。

所述的特征描述模块和加权模块具体处理过程为：

S1、特征描述模块处理为：

S1.1、生成各帧初始特征图的特征描述

仅使用共享参数的三层卷积层作为全卷积网络，对特征提取模块输出的多帧初始特征图的每个像素提取16m维的特征向量作为特征描述；

共享参数是指每帧初始特征图通过的卷积层的卷积参数相同。

具体实施中，这3层卷积层使用的卷积核个数依次为4m，8m，16m，输入的各帧初始特征图大小为

输出的对应各帧特征图的各帧特征描述的大小为

S1.2、各帧初始特征图间的相似度计算

将多帧初始特征图各自的特征描述的余弦相似度对比，用于衡量其对应的初始特征图之间的相似度，采用如下公式获得相似度：

其中，

表示第t帧初始特征图的特征描述在像素坐标p上的特征向量，

表示第t-n帧初始特征图的特征描述在像素坐标p上的特征向量，且0≤n≤Q，n表示当前帧点云对应的前第n帧点云的序号，Q表示融合除当前帧外的总点云帧数，s^t-n(p)表示第t-n帧初始特征图和第t帧初始特征图在像素坐标p上的相似度；

S1.3、由各帧初始特征图间的相似度计算特征权重图

使用各帧初始特征图间的相似度s^t-n(p)和自然指数e，然后进行归一化处理，得到各帧初始特征图上每个像素的特征权重，计算公式为：

式中，0≤j≤Q，w^t-n(p)表示第t-n帧初始特征图在像素坐标p下的特征权重；

最后将每帧初始特征图的所有特征权重按初始特征图的像素坐标连接构成特征权重图，即每帧初始特征图都生成大小为

的特征权重图。

S2、再通过加权模块使用下式对各帧初始特征图加权融合，实现了加权融合各帧初始特征图及其对应的特征权重图生成融合特征图：

式中，

为融合特征图，F^t-n为第t-n帧初始特征图。

MADet网络结构以MODet-tiny网络结构为基础，并融合了对输入的多帧鸟瞰图并行处理和多帧初始特征图融合的操作。

所述MADet网络结构的特征提取模块中的三个连续的卷积池化结构中的卷积层使用的卷积核个数依次为m，2m，2m，最终每帧输入的鸟瞰图都可得到8倍降采样的初始特征图。输入的每帧鸟瞰图大小为row×col×high，输出的每帧初始特征图大小为

所述的目标检测模块是使用特征金字塔对融合特征图进行多尺度特征融合，在最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向，采用以下方式进行处理：

对融合特征图通过两个卷积池化模块进行两次降采样和升采样，然后在

和

这三种分辨率上进行多尺度特征融合，在分辨率为

的最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向，其中最终特征图相对于当前帧点云的视角为鸟瞰视角。

对于目标检测，最终特征图上的每个像素预测目标的中心落在该像素内时的各个参数。参数个数为7，即最终特征图大小为

所述的目标检测模块输出的最终特征图中的每个像素具有参数向量，参数向量为(c_obj，t_x，t_y，l，w，sinθ，cosθ)，分别表示该像素对应的空间位置中存在目标的置信度c_obj、目标的中心相对于该像素的横向和纵向偏移t_x，t_y、目标的长宽l，w、以及目标的朝向角θ，

其中atan2为反正切函数，sinθ为目标朝向角的正弦值，cosθ为目标朝向角的余弦值。

本发明上述整个网络模型简单，参数较少，计算量少且运行速度快。

所述的步骤5)中，总损失函数包括分类损失函数和回归损失函数；

A)分类损失L_cls，计算为：

其中，平衡因子α和调节因子γ为第一、第二可调参数，c_obj为像素对应的空间位置中存在目标的置信度，y为置信度对应的监督信号；若目标中心落在该像素时y＝1，为正样本，否则y＝0，为负样本；

通过以上分类损失函数实现有效的监督学习判断最终特征图上的每个像素对应的空间位置中是否存在目标。

B)回归损失

回归损失由角度回归损失函数、目标相对于当前正样本像素的横向和纵向偏移的回归损失函数和目标尺寸回归损失函数相加而成。

对于角度回归损失函数L_θ，通过添加惩罚项来限制回归量：

式中，sin

为当前正样本预测的航向角正弦值，sinθ为sin

对应的真值，cos

为当前正样本预测的航向角余弦值，cosθ为cos

对应的真值；

目标相对于当前正样本像素的横向和纵向偏移的回归损失函数L_t如下：

式中

为目标相对于当前正样本像素的预测横向偏移量，t_x为

对应的真值，

为目标相对于当前正样本像素的预测纵向偏移量，t_y为

对应的真值，L_t为相对像素偏移回归损失函数；

对于目标尺寸回归损失函数L_size，有如下表达形式：

式中

为当前正样本对应的目标的长度预测值，l为

对应的真值，

为当前正样本对应的目标的宽度预测值，w为

对应的真值；

上述Lreg()表示回归损失函数，具体采用以下公式计算：

式中，a为被代入回归损失函数的自变量；

最终的回归损失L_reg计算为：

L_reg＝λ₁L_θ+λ₂L_t+λ₃L_size

式中，λ₁为角度回归损失函数的可调因子，λ₂为相对像素偏移回归损失函数的可调因子，λ₃为目标尺寸回归损失函数的可调因子；

通过以上回归损失函数实现了有效的监督对目标的尺寸、角度和定位参数的估计。

C)总损失

总损失L包含分类损失和回归损失，如下表达式：

式中，M为最终特征图中像素的个数，L_cls，m为第m个像素对应的分类损失，N为正样本的像素个数，L_reg，n为第n个正样本对应的回归损失，λ₀为分类损失的可调因子，m为M的遍历序号，n为N的遍历序号。

所述步骤6)中，从最终特征图提取出目标的位置、尺寸和朝向是指：

对于最终特征图上的每个像素具有的参数向量(c_obj，t_x，t_y，l，w，sinθ，cosθ)，对最终特征图上的每个像素进行如下操作：

若像素的目标置信度c_obj大于目标判别阈值thres_Cobj，则最终特征图的当前像素对应的空间位置存在目标，计算目标的中心位置[centerX_obj，centerY_obj]：

其中，centerX_p和centerY_p分别表示当前像素的中心对应的空间位置在当前帧点云的点云坐标系下的x轴和y轴的坐标，t_x，t_y分别表示目标的中心相对于该像素的横向和纵向偏移；l，w为目标的长宽，θ为目标的朝向角，

其中atan2为反正切函数，sinθ为目标朝向角的正弦值，cosθ为目标朝向角的余弦值；

若像素的目标置信度c_obj小于目标判别阈值thres_Cobj，则最终特征图的当前像素对应的空间位置不存在目标；提取所有目标置信度c_obj大于目标判别阈值thres_Cobj的像素回归出的目标的位置、尺寸和朝向，最终提取当前帧点云所包含的目标的位置、尺寸和朝向。

本发明在图像及其对应的点云和标注的支持下，可以获得点云中目标的初始标注。将获得的初始标注利用投影标注补全法补全图像中看不到但点云中能够扫描到的目标的标注，最终获得补全的目标检测真值。这样能针对对较大遮挡目标标注不全的含连续帧点云的已知数据集，利用投影标注补全法补全目标检测真值。

本发明同时构建轻量级网络结构MADet；将多帧时序点云通过配准匹配到当前帧点云的点云坐标系中，对配准后的多帧时序点云做体素化处理生成多帧鸟瞰图；将多帧鸟瞰图输入网络结构MADet中的特征提取模块，对各帧鸟瞰图分别提取特征生成多帧初始特征图；将多帧初始特征图输入到网络结构MADet中的特征描述模块，对各帧初始特征图生成对应的特征描述，再对各帧特征描述分别生成对应的特征权重图；将多帧初始特征图和特征权重图输入网络结构MADet中的加权模块，利用特征权重图对多帧初始特征图加权并融合，获得融合特征图；将融合特征图输入到网络结构MADet中的目标检测模块，使用特征金字塔对融合特征图多尺度特征融合，在最终特征图上回归目标的位置、尺寸和朝向。针对网络结构中参数的参数学习，设置总损失函数对各个输出进行监督训练。

与背景技术相比，本发明具有的有益效果是：

1)本发明能有效融合多帧时序点云，达到致密化点云和减弱遮挡的效果，大大提升检测性能；

2)本发明能有效在多帧的初始特征层自适应对齐和加权，大大减小动态目标在帧间运动时产生的拖影所带来的影响，同时也可以减小配准误差的影响；

3)本发明通过补全不全的标注，改善了相机和激光雷达视野存在一定差异的问题，防止检测正确的正样本被错判，同时扩充了已知数据集中的训练样本，避免了人工在激光雷达上直接标注的繁琐工作；

4)本发明不依赖彩色相机、红外相机等二维传感器，因此检测结果不受光照条件的影响，同时也不需要多传感器数据融合，为单阶段任务；

5)本发明网络结构精简，相比其他深度学习算法运算量小，运行效率高，实时性强；

综合来说，本发明补全了标注，纠正了误判误检的问题，同时扩大了训练样本，是单阶段任务，网络结构精简，运算量小，运行效率高，实时性强，有效融合多帧时序点云，达到致密化点云和减弱遮挡的效果，有效在多帧的初始特征图自适应对齐和加权，大大减小动态目标在帧间运动时产生的拖影和配准误差所带来的影响，提高了3D目标实时检测的效率和精度。

附图说明

图1是本发明方法的流程图。

图2是针对KITTI RAW数据集，以车辆类别为例，使用投影标注补全法补全标注后，在鸟瞰视角下显示点云和补全的标注的结果示意图，其中白色框为补全标注前所有标注对应的标注框，黑色框为补全后新增的标注对应的标注框，标注框的序号为当前目标的追踪序号，英文为对应的类别；

图3是MADet网络结构示意图；

图4是对KITTI RAW数据集中连续5帧时序点云配准前后的示意图，左图为配准前的示意图，右图为配准后的示意图；

图5是对KITTI RAW数据集中连续5帧点云做体素化处理后生成5帧鸟瞰图的示意图；

图6是MADet网络结构中特征描述模块的示意图；

图7是在KITTI RAW数据集下以检测车辆为例的目标检测结果示意图，其中黑色框表示目标检测真值，白色框为使用训练好的MADet网络结构预测的目标检测结果。

具体实施方式

下面结合附图和实施例对本发明做进一步说明。

如图1的流程图所示，本发明方法的实施例及其实施过程如下：

以KITTI RAW公开数据集作为已知数据集和检测车辆目标为例，来表述融合多帧时序点云的激光雷达3D实时目标检测的思想与具体实施步骤。

实施例的点云及其未补全的标注均来自KITTI RAW公开数据集。

步骤一：对KITTI RAW公开数据集的所有序列实施发明之(1.1)～(1.3)，针对车辆目标，车辆目标具体包括小轿车(Car)和大卡车(Van)这两类，对KITTI RAW公开数据集的每个序列做如下处理：由标注获得每帧点云内所有车辆的标注框的角点坐标，然后根据差分GPS真值获得当前序列所有前一帧点云的点云坐标系向后一帧点云的点云坐标系转换的旋转矩阵R_n-1，n和平移矩阵t_n-1，n，从最后一帧点云开始，将后一帧点云包含的所有标注框依次利用旋转矩阵和平移矩阵从后一帧点云向前一帧点云投影。取预设的阈值个数thres_num＝3，横向检测范围的范围参数thres_Xrange＝30m，纵向检测范围的范围参数thres_Yrange＝60m，如果后一帧点云中的一个标注框向前一帧点云投影后，标注框内的3D激光雷达点个数小于预设的阈值个数thres_num，或该标注框超出预设的横向检测范围(-thres_Xrange，thres_Xrange)，或该标注框超出预设的纵向检测范围(0，thres_Yrange)，则忽略该标注框。取预设的交并比阈值thres_isObj＝0.1，然后以未被忽略的标注框作为预测框，以前一帧点云本身具有的标注框作为真值框，通过计算每一个预测框和每一个真值框的交并比IoU和标注类别来判断是否是同一目标，如果交并比IoU大于预设的交并比阈值thres_isObj，且预测框和真值框的标注类别相同，则由后一帧点云投影到前一帧点云的该预测框对应的目标和前一帧点云的该真值框对应的目标是同一目标，此时由于该目标已在前一帧点云的目标检测真值中，因此不利用该目标补全前一帧点云的目标检测真值；若交并比IoU小于预设的交并比阈值thres_isObj，则认为发现了漏标注的目标，将预测框对应的目标的标注加入到前一帧点云的目标检测真值中，目标检测真值是指点云所包含目标的标注的集合，从而对目标检测真值进行补全。针对KITTI RAW数据集，以车辆类别为例，使用投影标注补全法补全标注后的结果如图2所示，其中白色框为补全标注前所有标注对应的标注框，黑色框为补全后新增的标注对应的标注框，标注框的序号为当前目标的追踪序号，英文为对应的类别；

步骤二：将KITTI RAW公开数据集人为划分成训练集和测试集。训练集包括24个序列，测试集包括13个序列，训练集和测试集之间没有交集。对训练集中的每帧点云，执行步骤三到步骤五。

步骤三：对当前帧点云实施发明之(2)。将当前帧点云和前4帧点云筛除打到地面的3D激光雷达点后，利用(2)中的最小化误差函数方法获得当前帧点云相对于前4帧点云中的每一帧点云的预测旋转矩阵

和预测平移矩阵

将前4帧点云中的所有3D激光雷达点通过相应的预测旋转矩阵和预测平移矩阵配准到当前帧点云的点云坐标系下，完成对于连续5帧点云配准到当前帧点云的点云坐标系中，配准前的结果如图4左图所示，配准后的结果如图4右图所示。

步骤四：对步骤三所述配准后的连续5帧点云分别实施发明之(3)。将当前帧点云和前4帧点云分别做体素化处理，共生成5帧鸟瞰图，取：

grid_x＝0.1m，grid_y＝0.1m，grid_z＝0.2m

Xoffset＝-28.8m，Yoffset＝0，Zoffset＝-2m

thres_Xsearch＝28.8m，thres_Ysearch＝51.2m

thres_Zsearch1＝2m，thres_Zsearch2＝1m

由上述参数可计算出每帧点云经过体素化处理生成的鸟瞰图为512×576×15的二进制张量，连续5帧点云共生成512×576×(15×5)的5帧鸟瞰图，生成的鸟瞰图如图5所示。

步骤五：对步骤四所述的由连续5帧点云体素化生成的5帧鸟瞰图实施发明之(4)。将5帧鸟瞰图输入到MADet网络结构的特征提取模块，使用三个连续的卷积池化结构对每帧鸟瞰图分别提取特征，取m＝64，对每帧鸟瞰图可得到8倍降采样的初始特征图。输入的每帧鸟瞰图大小为512×576×15，输出的每帧初始特征图的大小为64×72×128。然后将5帧初始特征图输入到MADet网络结构的特征描述模块，生成对应各帧初始特征图的特征描述，使用共享参数的3层卷积层对各帧初始特征图的每个像素提取1028维的特征描述向量。输入的各帧初始特征图大小为64×72×128，输出的各帧特征描述的大小为64×72×1028。利用各帧特征描述间的余弦相似度衡量其对应的初始特征图之间的相似度，并由该相似度计算特征权重图，每帧特征描述对应生成64×72×1的特征权重图，如图6所示。将5帧初始特征图及其对应的5帧特征权重图输入到MADet网络结构的加权模块，使用特征权重图对对应的初始特征图加权融合，生成融合特征图，融合特征图的大小为64×72×128。然后将融合特征图输入到MADet网络结构的目标检测模块。目标检测模块对融合特征图依次进行两次降采样和升采样，在64×72，32×36和16×18这3种分辨率上进行多尺度特征融合，在分辨率为64×72的最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向，其中最终特征图相对于当前帧点云的视角为鸟瞰视角。对于目标检测问题，最终特征图上的每个像素预测目标的中心落在该像素内时的各个参数，参数个数为7，即最终特征图的大小为64×72×7。目标检测模块输出的最终特征图中的每个像素具有参数向量，参数向量为(c_obj，t_x，t_y，l，w，sinθ，cosθ)，分别表示该像素对应的空间位置中存在目标的置信度c_obj，目标的中心相对于该像素的横向和纵向偏移t_x，t_y，目标长宽l，w，以及目标的朝向角

其中atan2为反正切函数。

步骤六：利用训练集中的所有序列包含的所有点云及其对应的补全后的标注，实施发明之(5)。设置总损失函数，取：

α＝0.25，γ＝2，λ₀＝0.1，λ₁＝2，λ₂＝2，λ₃＝3

进行数据增强：先对随机选取的2帧点云进行[-5m,-5m]范围的随机水平偏移，[0.8,1.2]比例的随机尺度变换和[-45°,45°]的随机水平旋转，以及[-1°,1°]随机小角度的点云俯仰侧倾变换，然后混合两帧点云。利用总损失函数对每帧点云检测获得的最终特征图计算总损失，训练MADet网络结构中的各个参数以最小化该总损失达到监督学习的效果。训练过程具体为：用NVIDIA GTX1080Ti GPU和Intel i7 CPU进行训练。使用Adam优化器，动量为0.9，批大小设置为4。设定初始学习率为0.001，衰减步长为150k，衰减系数为0.5。共迭代训练40个轮次，此时在训练集上损失函数基本保持不变，已经收敛。

步骤七：利用测试集中的所有序列包含的所有点云、步骤六中已完成训练的所有参数和MADet网络结构，实施发明之(6)。将训练完成的所有参数的参数值载入MADet网络结构中，以测试集中的所有序列包含的每帧点云模拟激光雷达实时采集的待测点云，按时序依次输入到完成载入的MADet网络结构中，对于输入的每帧点云都会输出最终特征图。取目标判别阈值thres_Cobj＝0.5，对最终特征图上的每个像素进行如下操作：若像素的目标置信度c_obj大于目标判别阈值thres_Cobj，则认为最终特征图的当前像素对应的空间位置存在目标，目标的中心位置[centerX_obj，centerY_obj]计算方式是：

其中centerX_p和centerY_p分别表示当前像素的中心对应的空间位置在当前帧点云的点云坐标系下的x轴和y轴的坐标，t_x，t_y分别表示目标的中心相对于该像素的横向和纵向偏移；目标的长宽为l，w、以及目标的朝向角为θ，

其中atan2为反正切函数，sinθ为目标朝向角的正弦值，cosθ为目标朝向角的余弦值。若像素的目标置信度c_obj小于目标判别阈值thres_Cobj，则认为最终特征图的当前像素对应的空间位置不存在目标。提取所有目标置信度c_obj大于目标判别阈值thres_Cobj的像素回归出的目标的位置、尺寸和朝向，即可提取当前帧点云所包含的目标的位置、尺寸和朝向。部分目标检测结果如图7所示，其中黑色框表示目标检测真值，白色框为使用训练好的MADet网络结构预测的目标检测结果。

利用KITTI RAW公开数据集中人为划分出的测试集来评估本方法的效果。比较单帧点云检测使用MODet-tiny网络结构方法、融合多帧时序点云但未使用特征描述模块和加权模块的方法和融合多帧时序点云且使用特征描述模块和加权模块的使用MADet网络结构方法(MADet网络结构示意图如图3所示)在不同难度下的平均精度。

表2 测试集中不同算法的平均精度比较

由上表2可以看出，使用融合了5帧时序点云的方法在不同难度下的平均精度都高于单帧点云检测的精度。其中使用特征描述模块和加权模块的方法可以很好地减轻运动目标特征不对齐的影响，相对于其他方法都具有较高的精度。

实验采用一块NVIDIA GTX1080Ti GPU和一块Intel i7 CPU进行训练和测试，采用MODet-tiny网络结构平均每帧点云检测仅耗时12ms，采用的融合多帧时序点云的MADet网络结构融合了5帧点云，每次检测仅耗时59ms，所以本发明方法的计算代价很小，且实时性高。

可以看出，采用本发明方法能有效地融合多帧时序点云、克服单帧点云的稀疏问题，相比单帧点云检测在各个难度上精度都有显著提升，减小目标遮挡严重和远距离检测问题的影响，具有检测结果不受光照条件影响、检测结果位置精度高的特点，同时，本发明方法计算代价小，可以实时运行。

Claims

1.一种融合多帧时序点云的激光雷达3D实时目标检测方法，其特征在于，包括如下步骤：

3)对配准后的多帧时序点云作体素化处理，生成多帧鸟瞰图，鸟瞰图是由体素化处理后获得的体素构成；

4)建立MADet网络结构，通过MADet网络结构实现融合多帧时序点云的目标检测，在最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向；

5)将已知数据集输入MADet网络结构进行训练，同时设置总损失函数对已知数据集的全部帧点云中通过MADet网络结构回归出的所有目标的位置、尺寸和朝向进行优化监督，获得MADet网络结构中所有参数的参数值；

6)将训练完成的所有参数的参数值载入MADet网络结构中，针对激光雷达实时采集的待测点云输入到MADet网络结构中，输出获得最终特征图，从中提取出目标的位置、尺寸和朝向；

所述步骤4)中，MADet网络结构包括特征提取模块、特征描述模块、目标检测模块和加权模块；特征提取模块和特征描述模块依次连接，特征提取模块和特征描述模块的输出经加权模块连接输入到目标检测模块；特征提取模块是由三个连续的卷积池化模块构成，每个卷积池化模块均是由一层卷积层和一层最大池化层依次连接构成；将步骤3)获得的多帧鸟瞰图的各帧并行输入特征提取模块获得8倍降采样的多帧初始特征图；

所述的目标检测模块是由一个特征金字塔和一个卷积层依次连接构成，特征金字塔是由两个连续的卷积池化模块、一个卷积层、两个连续的反卷积层和一个卷积层依次连接构成，每个卷积池化模块均是由一层卷积层和一层最大池化层依次连接构成；通过目标检测模块对融合特征图利用特征金字塔融合多尺度特征生成最终特征图；

所述的特征描述模块和加权模块具体处理过程为：

S1、特征描述模块处理为：

S1.1、生成各帧初始特征图的特征描述

仅使用共享参数的三层卷积层作为全卷积网络，对特征提取模块输出的多帧初始特征图的每个像素提取16m维的特征向量作为特征描述；m为初始卷积核个数；

S1.2、各帧初始特征图间的相似度计算

将多帧初始特征图各自的特征描述的余弦相似度对比，采用如下公式获得相似度：

其中，

S1.3、由各帧初始特征图间的相似度计算特征权重图

最后将每帧初始特征图的所有特征权重按初始特征图的像素坐标连接构成特征权重图；

式中，

为融合特征图，F^t-n为第t-n帧初始特征图。

2.根据权利要求1所述的一种融合多帧时序点云的激光雷达3D实时目标检测方法，其特征在于：所述步骤1)中，是针对已知数据集中的每个序列，从每个序列最后一帧点云开始更新漏标注的目标，依次利用后一帧点云包含的每个目标的标注框向前一帧投影补全当前序列的目标检测真值，目标检测真值是指一帧点云所包含目标的标注的集合；具体为：

1.1)预处理点云和已知数据集的标注

针对每帧点云建立点云坐标系：每帧点云均由3D激光雷达点构成，每个3D激光雷达点p的坐标由三个坐标轴表示，记为p＝[x，y，z]，其中水平向前为y轴的正方向，竖直向上为z轴的正方向，水平向前的右方向为x轴的正方向，该帧点云的坐标原点O＝[0，0，0]为激光雷达的发射点；

在获得第n帧点云坐标系下所有被标注的目标的情况下，以目标的3D包围框作为标注框，通过坐标变换，计算出第n帧点云坐标系下所有被标注的目标的标注框的8个角点的坐标P_n并作为角点坐标；

1.2)同一标注框在前后帧点云的点云坐标系下的角点坐标变换

P_n-1＝R_n-1，nP_n+t_n-1，n

1.3)标注框的补全与筛选

如果后一帧点云中的一个标注框向前一帧点云投影后，标注框内的3D激光雷达点个数小于预设的阈值个数thres_num，或该标注框超出预设的横向检测范围(-thres_Xrange，thres_Xrange)，或该标注框超出预设的纵向检测范围(0，thres_Yrange)，则忽略该标注框；

然后以未被忽略的投影后的标注框作为预测框，以已知数据集中前一帧点云本身具有的标注框作为真值框，通过计算每一个预测框和每一个真值框的交并比IoU和标注类别来判断是否是同一目标，如果交并比IoU大于预设的交并比阈值thres_isobj，且预测框和真值框的标注类别相同，则由后一帧点云投影到前一帧点云的该预测框对应的目标和前一帧点云的该真值框对应的目标是同一目标；

若交并比IoU小于预设的交并比阈值thres_isObj，则认为发现漏标注的目标，将所述漏标注的目标加入目标集，将预测框对应的目标的标注作为前一帧点云该新加入的目标的标注，并加入到前一帧点云的目标检测真值中，从而对目标检测真值进行补全。

3.根据权利要求1所述的一种融合多帧时序点云的激光雷达3D实时目标检测方法，其特征在于：所述步骤2)中，具体为：对于前后帧点云，通过最小化如下误差函数来获得第k帧点云和第(k-1)帧点云之间的刚性位姿变换，包括第k帧点云相对于第(k-1)帧点云的预测旋转矩阵

和预测平移矩阵：

式中，N为前后帧点云之间的3D激光雷达点匹配对数，

和

4.根据权利要求1所述的一种融合多帧时序点云的激光雷达3D实时目标检测方法，其特征在于：所述步骤3)鸟瞰图的具体生成方法是：

然后将单帧点云包含的所有3D激光雷达点投影到各个体素中，对于坐标为p＝[x，y，z]的3D激光雷达点投影到的体素的坐标为(row，col，high)：

在每帧点云的点云坐标系下建立左右预设范围[-thres_Xsearch，thres_Xsearch]，前后预设范围[0，thres_Ysearch]，上下预设范围[-thres_Zsearch1，thres_Zsearch2]的目标检测范围，将位于目标检测范围内的该帧点云的3D激光雷达点进行体素化处理，由所有体素化处理后的体素构成鸟瞰图，当体素内有3D激光雷达点存在时，体素的数值为1，体素内没有3D激光雷达点时，体素的数值为0。

5.根据权利要求1所述的一种融合多帧时序点云的激光雷达3D实时目标检测方法，其特征在于：

所述的目标检测模块是使用特征金字塔对融合特征图进行多尺度特征融合，在最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向，采用以下方式进行处理：对融合特征图通过两个卷积池化模块进行两次降采样和升采样，然后在三种分辨率上进行多尺度特征融合，在最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向，其中最终特征图相对于当前帧点云的视角为鸟瞰视角；所述的目标检测模块输出的最终特征图中的每个像素具有参数向量，参数向量为(c_obj，t_x，t_y，l，w，sinθ，cosθ)，分别表示该像素对应的空间位置中存在目标的置信度c_obj、目标的中心相对于该像素的横向和纵向偏移t_x，t_y、目标的长宽l，w、以及目标的朝向角θ，