CN111476822A

CN111476822A - 一种基于场景流的激光雷达目标检测与运动跟踪方法

Info

Publication number: CN111476822A
Application number: CN202010269236.0A
Authority: CN
Inventors: 张易; 项志宇; 叶育文
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2020-07-31
Anticipated expiration: 2040-04-08
Also published as: CN111476822B

Abstract

本发明公开了一种基于场景流的激光雷达目标检测与运动跟踪方法。自身车辆平台上的激光雷达采集获得多帧时序点云，体素化处理生成多帧鸟瞰图；建立SDP‑Net网络结构，通过SDP‑Net网络结构实现自身车辆平台的位姿估计、点云中的3D目标的检测、预测和追踪；输入训练设置总损失函数进行优化监督，获得网络参数值；待测点云输入到SDP‑Net网络结构中，由SDP‑Net网络结构输出自身车辆平台的相对位姿变化以及目标的检测、预测和追踪结果。本发明无需对多帧点云数据进行复杂的预先配准操作，能有效提取多帧之间的运动信息，在复杂场景中同时完成自身位姿估计、3D目标检测、预测和追踪的任务获得高准确率，计算代价小，实时性强。

Description

一种基于场景流的激光雷达目标检测与运动跟踪方法

技术领域

本发明涉及无人车和机器人视觉导航技术领域的一种基于激光雷达的目标检测与运动跟踪方法，特别是涉及了一种融合激光雷达多帧时序点云的自身位姿估计、3D目标检测、预测和追踪方法。

背景技术

目标检测是指在可感知环境中找到所有存在的物体并回归出其尺寸和位置信息，是保障无人驾驶、自主机器人等复杂***能安全运行的关键技术。卷积神经网络在基于图像的2D目标检测领域中取得了很大的进步。这些深度网络使用2D卷积，池化，全连接等操作，提取图片中更高层的语义信息，更好的理解图片内容，相对于传统方法效果显著，迅速成为目标检测领域的主流方法。但基于图像的2D目标检测缺乏深度信息，无法直接用于3D导航。为了给机器人提供精确的路径规划和运动控制，仅使用相机图像下的2D目标检测信息是不够的，因此3D场景中的带有空间信息的目标检测更为重要。激光雷达作为常见的距离传感器，采集的点云提供了精确的3D信息，为精确的3D目标检测提供了基础。

基于单帧点云的双阶段3D目标检测方法包括使用栅格和滑动窗口提取特征的Vote3Deep，使用图像检测结果为指导的点云3D检测F-PointNets，体素化后使用特征编码网络和3D卷积的VoxelNet与SECOND，融合多视角多传感器的检测方法MV3D和AVOD，这些双阶段方法计算量较大，在应用中难以保证实时性。基于单帧点云的单阶段3D目标检测方法包括Complex-YOLO、YOLO3D、PIXOR和PIXOR++，这些方法虽然具有较快的速度，但相比于双阶段方法，精度大大下降，其主要原因为网络结构简单，网络的拟合性能较弱，对强遮挡和远距离点云稀疏处的目标检测能力骤降。

但在自动驾驶等实际应用中，单帧的3D点云在远距离较为稀疏，且容易受遮挡的影响，较难对远距离或大量遮挡的目标进行精确检测。为了更好的进行运动控制，除了3D目标检测任务，目标预测和追踪，自身定位等功能也发挥着重要作用。因此在多帧时序点云数据中提取多帧物体间的运动信息，增加时序上的约束，不仅可以提高3D目标检测的精度和鲁棒性，也可以在单个网络中高效精确的完成更复杂的任务。YOLO4D在YOLO3D的基础上使用LSTM结构来提取多帧时序特征，Complexer-YOLO在目标检测结果上使用目标追踪来提升性能，FAF对多帧点云进行预先配准，使用3D卷积提取特征。以上方法需要使用额外的后处理算法或点云层对齐，引入大量额外计算需求，且检测精度不高。本发明使用结构简单、实时性强的网络结构，无需点云预先配准，直接通过估计目标的鸟瞰图场景流图来指导特征融合，并同时完成自身位姿估计、3D目标检测、预测和追踪的任务，且达到高速、高精度的效果。

发明内容

为了解决背景技术中存在的问题，本发明的目的在于提供了使用场景流估计来融合多帧时序激光雷达点云的实时自身位姿估计、3D目标检测、预测和追踪的方法，适用于实时采集实时处理的高效感知***。

本发明能有效克服单帧点云的数据稀疏问题，同时完成自身位姿估计、3D目标检测、预测和追踪的任务，并且在遮挡严重和远距离下的目标检测中获得高准确率，达到比单帧点云检测更高的精度。使用的网络结构精简，计算代价小，实时性强。

本发明采用的技术方案的步骤如下：

1)自身车辆平台上安装有激光雷达，激光雷达采集获得多帧时序点云，点云是由3D激光雷达点构成，对多帧时序点云体素化处理，生成多帧鸟瞰图，鸟瞰图是由体素化处理后获得的体素构成；

2)建立SDP-Net网络结构，通过SDP-Net网络结构实现自身车辆平台的位姿估计、点云中的3D目标的检测、预测和追踪；

3)将已知数据集输入SDP-Net网络结构进行训练，同时设置总损失函数对已知数据集的全部帧点云中通过SDP-Net网络结构的所有回归项进行优化监督，获得SDP-Net网络结构中所有参数的参数值；

4)将训练完成的所有参数的参数值载入SDP-Net网络结构中，针对激光雷达实时采集的待测点云输入到SDP-Net网络结构中，由SDP-Net网络结构输出自身车辆平台的相对位姿变化以及目标的检测、预测和追踪结果。

SDP-Net网络结构输出的信息如下：自身车辆平台的相对位姿变化包括当前帧相对于上一帧的位置和朝向角度变化，目标的检测结果包括所有目标在当前帧点云中的位置、尺寸和朝向角度，预测结果包括每个目标在下一帧点云中的相对位置、朝向角度变化，追踪结果包括比较上一帧和当前帧之间的两帧目标是否为同一目标的结果。

所述步骤1)鸟瞰图的具体生成方法是：

针对多帧时序点云的每帧点云，将每帧点云所在空间分割成大小相等的体素，并对每个体素进行二进制表示，每个体素的尺寸为grid_x×grid_y×grid_z其中grid_x为体素的预设横向长度，grid_y为体素的预设纵向长度，grid_z为体素的预设高向长度，完成体素化处理；

然后将每帧点云包含的所有3D激光雷达点投影到各个体素中，对于坐标为p＝[x，y，z]的3D激光雷达点投影到的体素的坐标为(row，col，high)：

其中，row、col和high分别表示该3D激光雷达点投影到体素的坐标的行号、列号和高号，Xoffset、Yoffset和Zoffset分别表示预设的行、列和高偏移量；x，y，z分别表示3D激光雷达点的横向、纵向和高向坐标；

在每帧点云的点云坐标系下建立左右预设范围[-thres_Xsearch，thres_Xsearch]、前后预设范围[0，thres_Ysearch]和上下预设范围[－thres_Zsearch1，thres_Zsearch2]的三个目标检测范围，将位于目标检测范围内的该帧点云的3D激光雷达点进行体素化处理，由所有体素化处理后的体素构成鸟瞰图，当体素内有3D激光雷达点存在时，体素的数值为1，体素内没有3D激光雷达点时，体素的数值为0。

所述步骤2)中，SDP-Net网络结构包括特征提取模块、场景流估计模块、特征融合模块和目标检测预测模块；特征提取模块和场景流估计模块并行进行，多帧时序点云均输入到特征提取模块和场景流估计模块，特征提取模块和场景流估计模块的输出经特征融合模块输入到目标检测预测模块；

特征提取模块是由四个卷积层和三个池化层交替构成，每相邻两个卷积层之间具有一个池化层，将步骤1)获得的多帧鸟瞰图的各帧并行输入特征提取模块获得8倍降采样的多帧初始特征图；

场景流估计模块包括第一全卷积网络、场景流估计分支和位姿估计分支，第一全卷积网络具体是由六个卷积池化模块构成，每个卷积池化模块均是由一层卷积层和一层最大池化层依次连接构成；将步骤1)获得的多帧鸟瞰图级联输入到第一全卷积网络提取多帧的运动特征，在场景流估计分支输出8倍降采样的鸟瞰图场景流图和运动特征图，在位姿估计分支输出自身车辆平台的相对位置和朝向角度变化；

特征融合模块是根据鸟瞰图场景流图对初始特征图进行重映射，得到重映射特征图，并由第二全卷积网络对重映射特征图处理生成特征描述，并以特征描述计算自适应权重获得特征权重图，利用特征权重图对重映射特征图进行加权，然后对加权后的每帧重映射特征图进行多帧特征融合生成融合特征图。所述的第二全卷积网络由共享参数的三个卷积层构成；

目标检测预测模块以特征融合模块输出的融合特征图和场景流估计模块输出的运动特征图作为输入。对融合特征图使用特征金字塔结构提取特征，回归当前帧所有目标的参数，然后将运动特征图和融合特征图提取的特征级联，通过四个卷积层预测目标在下一帧的相对位置和角度变化，记录上一帧的目标预测结果和当前帧的目标检测结果，进行目标追踪。

所述的特征融合模块具体处理过程为：

Sp1、各帧初始特征图重映射

根据下式使用鸟瞰图场景流图对每帧初始特征图进行重映射，得到重映射特征图：

式中，

为第t-n帧的初始特征图，F^t-n为第t-n帧转换到当前帧t上的重映射特征图，p表示像素坐标，F^t-n(p)表示第t-n帧的重映射特征图在像素坐标p的像素值，flow(p)表示当前第t帧中坐标p到第t-n帧对应坐标之间的鸟瞰图场景流，对于非整数坐标，使用双线性差值进行估计；

Sp2、生成各帧重映射特征图的特征描述

使用共享参数的三个卷积层作为第二全卷积网络，对Sp1输出的多帧重映射特征图的每个像素提取32m维的特征向量，并作为特征描述；

Sp3、各帧重映射特征图间的相似度计算

将多帧重映射特征图各自的特征描述的余弦相似度对比，采用如下公式获得相似度：

其中，

表示第t帧重映射特征图的特征描述在像素坐标p上的特征向量，

表示第t-n帧重映射特征图的特征描述在像素坐标p上的特征向量，且0≤n≤Q，n表示当前帧点云对应的前第n帧点云的序号，Q表示融合除当前帧外的总点云帧数，s^t-n(p)表示第t-n帧重映射特征图和第t帧重映射特征图在像素坐标p上的相似度；

Sp4、由各帧重映射特征图间的相似度计算特征权重图

使用各帧重映射特征图间的相似度s^t-n(p)和自然指数e，然后进行归一化处理，得到各帧重映射特征图上每个像素的特征权重，计算公式为：

式中，0≤j≤Q，w^t-n(p)表示第t-n帧重映射特征图在像素坐标p下的特征权重；

最后将每帧重映射特征图的所有特征权重按重映射特征图的像素坐标连接构成特征权重图；

Sp5、特征图加权融合

使用下式对各帧重映射特征图加权融合，实现了加权融合各帧重映射特征图及其对应的特征权重图生成融合特征图：

式中，

为融合特征图，F^t-n为第t-n帧重映射特征图。

所述的目标检测预测模块具体处理过程为：

STEP1、融合特征图多尺度特征提取

使用特征金字塔对融合特征图通过三个稠密模块和两个池化层交替的处理进行两次降采样和升采样获得三种分辨率的参考特征图，每两个稠密模块之间连接有一个池化层，每个稠密模块主要由连续四个卷积层连接并经过两次级联构成，其中第一个卷积层的输出和第二个卷积层的输出连接输入到第三个卷积层，第二个卷积层的输出和第三个卷积层的输出连接输入到第四个卷积层，然后将三种分辨率的参考特征图进行多尺度特征融合得到多尺度融合的特征图；

STEP2、目标检测分支

在目标检测分支上对STEP1获得的多尺度融合的特征图进一步使用连续三次卷积，得到目标检测特征图，其中包括了当前帧点云中所有目标的位置、尺寸和朝向角度；目标检测特征图相对于当前帧点云的视角为鸟瞰视角。

目标检测特征图中的每个像素具有参数向量，参数向量为(c_obj，t_x，t_y，l，w，sinθ，cosθ)，分别表示该像素对应的空间位置中存在目标的置信度c_obj、目标的中心相对于该像素的横向和纵向偏移t_x，t_y、目标的长宽l，w、以及目标的朝向角度θ，

其中atan2为反正切函数，sinθ为目标朝向角度的正弦值，cosθ为目标朝向角度的余弦值；

STEP3、目标预测分支

在目标预测分支上把STEP1中多尺度融合的特征图和场景流估计模块输出的运动特征图级联，通过连续四次卷积得到目标预测特征图，其中包括了当前帧点云中所有目标在下一帧的相对位置和朝向角度变化；目标预测特征图相对于当前帧点云的视角为鸟瞰视角；

目标预测特征图中的每个像素具有参数向量，参数向量为(d_tx，d_ty，d_θ)，分别表示该像素对应的空间位置中存在的目标在下一帧相对于当前帧的横向和纵向运动偏移d_tx，d_ty以及朝向角度的变化d_θ；

STEP4、目标追踪处理

对每一帧的点云数据，将STEP3获得的当前帧目标的检测结果和STEP4获得的下一帧目标的预测结果进行比较，比较两种所有结果的交并比，当两种结果的任意目标间最大交并比大于阈值Thres，则认为两个目标为不同帧的同一物体作为目标实现目标追踪。

所述的步骤3)中，总损失函数包括运动估计损失函数，目标检测损失函数和目标预测损失函数；

A)运动估计损失函数L_flow，计算为：

其中，K为鸟瞰图场景流图的所有像素个数，k为K的遍历序号，

和flow_k分别表示鸟瞰图场景流图在第k个像素上的估计值和真值，

和(dx，dy，dθ)为自身车辆平台位姿变化的估计值和真值，γ₁和γ₂为第一、第二可调参数，上述L_reg()表示回归损失函数，具体采用以下公式计算：

式中，a为被代入回归损失函数的自变量；

B)目标检测损失函数L_det计算为：

上述K为目标检测特征图的所有像素个数，和鸟瞰图场景流图相同，L_cls是分类损失，L_cls，k为第k个像素对应的分类损失，M为正样本的像素个数，L_reg是回归损失，L_reg，m为第m个正样本对应的回归损失，λ₀为分类损失的可调因子，k为K的遍历序号，m为M的遍历序号；

分类损失L_cls计算为：

其中，平衡因子α和调节因子γ为第一、第二可调参数，c_obj为像素对应的空间位置中存在目标的置信度，y为置信度对应的监督信号；若目标中心落在该像素时y＝1，为正样本，否则y＝0，为负样本；

回归损失L_reg计算为：

式中，

为当前正样本预测的朝向角度正弦值，sinθ为

对应的真值，

为当前正样本预测的朝向角度余弦值，cosθ为

对应的真值，

为目标相对于当前正样本像素的预测横向偏移量，t_x为

对应的真值，

为目标相对于当前正样本像素的预测纵向偏移量，t_y为

对应的真值，

为当前正样本对应的目标的长度预测值，l为

对应的真值，

为当前正样本对应的目标的宽度预测值，w为

对应的真值，λ₁、λ₂和λ₃为第三、第四、四五可调因子；

C)目标预测损失函数L_pred，计算为：

式中M为正样本的像素个数，m为M的遍历序号，

和

为第m个正样本的估计值和真值，λ₄为正样本可调因子；

D)总损失函数L，计算为：

L＝α₁L_flow+α₂L_det+α₃L_pred

式中，α₁、α₂和α₃为第六、第七、第八可调因子。

所述步骤4)中，从网络输出中提取出自身车辆平台的相对位姿变化，目标检测、预测和追踪结果包括：

S1、自身车辆平台的相对位姿变化

对场景流估计模块的位姿估计分支，记录输出的长度为3的向量(dx，dy，dθ)，分别表示自身车辆平台在当前帧相对于上一帧在横向、纵向的位置变化和朝向角度的变化；

S2、目标检测结果

对于目标检测预测模块的目标检测分支，输出目标检测特征图上的每个像素具有参数向量(c_obj，t_x，t_y，l，w，sinθ，cosθ)，对目标检测特征图上的每个像素进行如下操作：若像素的目标置信度c_obj大于目标判别阈值thres_Cobj，则目标检测特征图的当前像素对应的空间位置存在目标，计算目标的中心位置[centerX_obj，centerY_obj]：

其中，centerX_p和centerY_p分别表示当前像素的中心对应的空间位置在当前帧点云的点云坐标系下的x轴和y轴的坐标，t_x，t_y分别表示目标的中心相对于该像素的横向和纵向偏移；l，w为目标的长宽，θ为目标的朝向角度，

提取所有目标置信度c_obj大于目标判别阈值thres_cobj的像素回归出的目标的位置、尺寸和朝向角度，最终提取当前帧点云所包含的目标的位置、尺寸和朝向角度；

S3、目标预测结果

对于目标检测预测模块的目标预测分支，输出目标预测特征图上的每个像素具有参数向量(d_tx，d_ty，d_θ)，对目标预测特征图上的每个像素进行如下操作：

若该像素在上述S2中目标检测特征图上对应提取出目标参数(centetX_p，centerY_p，l，w，θ)，则提取目标预测特征图上该像素的回归值，预测该目标在下一帧点云中的中心位置nextX_p，nextY_p和角度nextθ：

目标的长宽l，w在下一帧的预测和当前帧的检测保持不变；

S4、目标追踪结果

对于每一帧点云数据，从网络输出中提取当前帧t的目标检测结果，提取上一帧t-1对当前帧t的目标预测结果，对每一个检测结果，分别和每一个预测结果计算目标包围框的交并比，记录具有最大的交并比的匹配对，当该交并比大于阈值Thres，则两个目标为不同帧的同一物体，实现目标追踪。

本发明能够融合多帧时序激光雷达点云，实现实时自身位姿估计、3D目标检测、预测和追踪等多任务。对当前帧和之前连续N-1帧的未配准的点云分别构建鸟瞰图；使用2D卷积对每帧鸟瞰图分别进行特征提取；同时在鸟瞰图视角下对之前连续N帧的鸟瞰图进行场景流预测，输出运动特征图、之前每一帧相对于当前帧的鸟瞰图场景流图，并同时回归自身车辆平台在当前帧对上一帧的位姿变换；使用场景流对每帧的特征图进行特征对齐，并通过自适应权重模块得到融合特征图；把融合特征图和运动特征图输入到目标检测预测模块，检测当前帧的所有目标和预测这些目标在下一帧的位置和朝向角度变化，并进行目标追踪。

本发明无需对多帧点云数据进行复杂的预先配准操作，能有效提取多帧之间的运动信息，在复杂场景中同时完成自身位姿估计、3D目标检测、预测和追踪的任务，获得高准确率。在3D目标检测任务中，达到比单帧检测更高的精度，计算代价小，实时性强。

与背景技术相比，本发明具有的有益效果是：

1)本发明能有效通过鸟瞰图场景流融合多帧目标的特征，大大减小了目标在帧间运动时产生的特征对齐误差，特征融合模块中的自适应权重可以进一步减小特征对齐误差的影响，大大提升了目标检测精度；

2)本发明不需要对多帧时序点云做点云配准处理，大大减小了数据预处理的计算量，显著提高了运行效率；

3)本发明不依赖彩色相机、红外相机等二维传感器，因此检测结果不受光照条件的影响，同时也不需要多传感器数据融合；

4)本发明网络结构可以同时完成自身位姿估计，3D目标检测，预测和追踪的任务，且相比其他深度学习方法实时性强，精度高；

综合来说，本发明网络结构实时性强，精度高，不需要对多帧时序点云进行配准等耗时的预处理，有效通过鸟瞰图场景流对齐多帧点云中目标的特征，大大减小了目标在帧间运动时产生的特征对齐误差，特征融合模块中的自适应权重可以进一步减小特征对齐误差的影响，同时完成自身位姿估计，3D目标检测，预测和追踪的任务，且大大提升了3D目标实时检测的精度。

附图说明

图1是本发明方法的流程图；

图2是针对KITTI RAW数据集，以车辆类别为例，在鸟瞰视角下显示点云和标注结果示意图。

图3是对KITTI RAW数据集中连续5帧点云做体素化处理后生成5帧鸟瞰图的示意图；

图4是SDP-Net网络结构示意图；

图5是SDP-Net网络结构中场景流估计模块的示意图；

图6是KITTI RAW数据集中连续5帧鸟瞰图场景流图示意图；

图7是SDP-Net网络结构中目标检测预测模块的示意图；

图8是在KITTI RAW数据集下自身位姿估计结果示意图，分别显示了GPS真值、训练好的SDP-Net网络结构的估计和ICP算法输出的轨迹；

图9是在KITTI RAW数据集下以检测车辆为例的目标检测结果示意图，其中黑色框表示目标检测真值，白色框为使用训练好的SDP-Net网络结构预测的目标检测结果。

具体实施方式

下面结合附图和实施例对本发明做进一步说明。

如图1的流程图所示，本发明方法的实施例及其实施过程如下：

以KITTI RAW公开数据集作为已知数据集和检测车辆目标为例，来表述基于场景流的激光雷达目标检测与运动跟踪的思想与具体实施步骤。

实施例的点云及标注均来自KITTI RAW公开数据集，并人工对KITTI RAW公开数据集的标注进行补充完善。

步骤一：针对车辆目标，如图2所示，车辆目标具体包括小轿车(Car)和面包车(Van)这两类，将KITTI RAW公开数据集人为划分成训练集和测试集。训练集包括24个序列，测试集包括13个序列，训练集和测试集之间没有交集。对训练集中的点云，执行步骤二到步骤四。

步骤二：取N＝5，对步骤一所述的连续5帧点云分别实施发明之(1)。将当前帧点云和前4帧点云分别做体素化处理，共生成5帧鸟瞰图，取：

grid_x＝0.1m，grid_y＝0.1m，grid_z＝0.2m

Xoffset＝-28.8m，Yoffset＝0，Zoffset＝-2m

thres_Xsearch＝28.8m，thres_Ysearch＝51.2m

thres_Zsearch1＝2m，thres_Zsearch2＝1m

由上述参数可计算出每帧点云经过体素化处理生成的鸟瞰图为512×576×15的二进制张量，连续5帧点云共生成512×576×(15×5)的5帧鸟瞰图，如图3所示。

步骤三：对步骤二所述的由连续5帧点云体素化生成的5帧鸟瞰图实施发明之(2)。将5帧鸟瞰图输入到SDP-Net网络结构的特征提取模块，使用四个卷积层和三个池化层对每帧鸟瞰图分别提取特征。所述SDP-Net网络结构的特征提取模块中的四个卷积层使用的卷积核个数依次为32，32，64，128，最终每帧输入的鸟瞰图都可得到8倍降采样的初始特征图。输入的每帧鸟瞰图大小为512×576×15，输出的每帧初始特征图大小为64×72×128。

如图5所示，同时将5帧鸟瞰图级联输入场景流估计模块，通过具有六个卷积池化模块的第一全卷积网络，每个模块由一个卷积层和一个池化层构成，生成多个倍数的降采样特征图。具体实施中，这六个卷积层的卷积核个数依次为64，64，128，256，256，256，生成的特征图分辨率分别为256×288，128×144，64×72，32×36，16×18，8×9。在场景流估计分支，分别对64×72，32×36，16×18三种分辨率的特征图进行上采样和级联，输出分辨率为64×72的运动特征图，通过三个卷积核为64，32，8的卷积层输出鸟瞰图场景流图。所述的鸟瞰图场景流图具体为鸟瞰图视角下只考虑目标相对运动的分辨率为64×72的场景流图，当鸟瞰图场景流图的像素对应的空间位置有目标存在时，该像素的数值向量为目标的相对横向运动和相对纵向运动的像素偏移总和，当鸟瞰图场景流图的像素对应的空间位置没有目标存在，该像素的数值向量为0。在位姿估计分支，对分辨率为8×9的特征图进行三次卷积和三次全连接，输出长度为3的向量，为自身车辆平台在当前帧相对于上一帧的横向、纵向变化dx，dy和朝向角度变化dθ。输入的级联的5帧鸟瞰图大小为512×576×75，输出的8倍降采样的鸟瞰图场景流图大小为64×72×8，如图6所示。输出的8倍降采样的运动特征图大小为64×72×256，输出的自身车辆平台的相对位置变化和角度变化是长度为3的向量。

然后将5帧初始特征图和鸟瞰图场景流图输入到SDP-Net网络结构的特征融合模块。根据鸟瞰图场景流图对初始特征图进行重映射，得到重映射特征图，并取m＝32，使用第二全卷积网络对各帧重映射特征图的每个像素提取1024维的特征描述向量。第二全卷积网络由共享参数的三个卷积层构成，共享参数是指每帧重映射特征图通过的卷积层的卷积参数相同。具体实施中，这三个卷积层使用的卷积核个数依次为256，512，1024。然后对每帧重映射特征图的特征描述计算自适应权重获得特征权重图，对特征权重图和重映射特征图加权，然后对加权后的每帧重映射特征图进行多帧特征融合生成融合特征图。输入的每帧初始特征图大小为64×72×128，鸟瞰图场景流图大小为64×72×8，输出的融合特征图大小为64×72×128。

然后将融合特征图和场景流估计模块输出的运动特征图输入到SDP-Net网络结构的目标检测预测模块，如图7所示。使用特征金字塔对融合特征图通过三个稠密模块和两个池化层交替的处理进行两次降采样和升采样获得64×72，32×36和16×18这三种分辨率的参考特征图，每两个稠密模块之间连接有一个池化层，每个稠密模块主要由连续四个卷积层连接并经过两次级联构成，其中第一个卷积层的输出和第二个卷积层的输出连接输入到第三个卷积层，第二个卷积层的输出和第三个卷积层的输出连接输入到第四个卷积层。然后将三种分辨率的参考特征图进行多尺度特征融合得到分辨率为64×72的特征图。在目标检测分支对多尺度融合的特征图进一步使用卷积核个数为64，32，7的三个卷积层，得到大小为64×72×7的目标检测特征图，回归当前帧点云中所有目标的位置、尺寸和朝向角度。其中目标检测特征图相对于当前帧点云的视角为鸟瞰视角。目标检测特征图上的每个像素具有参数向量，参数向量为(c_obj，t_x，t_y，l，w，sinθ，cosθ)，分别表示该像素对应的空间位置中存在目标的置信度c_obj，目标的中心相对于该像素的横向和纵向偏移t_x，t_y，目标长宽l，w，以及目标的朝向角度

其中atan2为反正切函数。在目标预测分支把多尺度融合的特征图和场景流估计模块输出的运动特征图级联，通过卷积核个数为128，64，32，3的四次卷积得到大小为64×72×3的目标预测特征图，回归当前帧点云中所有目标在下一帧的相对位置和朝向角度变化。其中目标预测特征图相对于当前帧点云的视角为鸟瞰视角，目标预测特征图上的每个像素和目标检测特征图的每个像素一一对应，预测对应目标在下一帧的各个参数。所述的目标预测特征图中的每个像素具有参数向量，参数向量为(d_tx，d_ty，d_θ)，分别表示目标检测特征图上该像素对应的空间位置中存在的目标在下一帧相对于当前帧的横向和纵向运动偏移d_tx，d_ty，以及朝向角度的变化d_θ。对每一帧的点云数据，记录上一帧中对当前帧目标的预测和当前帧中对当前帧目标的检测结果，比较两种所有结果的交并比，当两种结果的任意目标间最大交并比大于阈值Thres＝0.1，则认为两个目标为不同帧的同一物体作为目标实现目标追踪。

步骤四：利用训练集中的所有序列包含的所有点云及其对应的标注，实施发明之(3)。设置总损失函数，对鸟瞰图场景流图的每个像素，当该像素对应的空间位置有目标存在时，取γ₁＝3，否则，取γ₁＝0.01。然后取γ₂＝100，α＝0.25，γ＝2，λ₀＝0.1，λ₁＝2，λ₂＝2，λ₃＝3，λ₄＝100，α₁＝1，α₂＝1，α₃＝0.5。并进行数据增强：先对随机选取的2帧点云进行[-5m，-5m]范围的随机水平偏移，[0.8，1.2]比例的随机尺度变换和[-45°，45°]的随机水平旋转，以及[-1°，1°]随机小角度的点云俯仰侧倾变换，进行单帧数据增强，然后混合两帧点云进一步增强数据的多样性。

利用总损失函数对每帧点云检测输出的参数计算总损失，训练SDP-Net网络结构中的各个参数以最小化该总损失达到监督学习的效果。训练过程具体为：用NVIDIAGTX1080Ti GPU和Intel i7 CPU进行训练。使用Adam优化器，动量为0.9，批大小设置为4。设定初始学习率为0.001，衰减步长为150k，衰减系数为0.5。首先使用单帧数据增强的方式，固定其他模块的参数，单独训练场景流估计模块，在30个轮次后，场景流估计模块的输出已经收敛。然后固定场景流估计模块的参数，使用多帧点云混合的数据增强方式训练其他模块，60个轮次后，整个网络已经收敛。

步骤五：利用测试集中的所有序列包含的所有点云、步骤四中已完成训练的所有参数和SDP-Net网络结构，实施发明之(4)。将训练完成的所有参数的参数值载入SDP-Net网络结构中，以测试集中的所有序列包含的每帧点云模拟激光雷达实时采集的待测点云，按时序依次输入到完成载入的SDP-Net网络结构中。

对场景流估计模块的位姿估计分支，记录输出的三个参数向量(dx，dy，dθ)，分别表示自身车辆平台在当前帧相对于上一帧在横向、纵向的位置变化和朝向角度的变化。部分自身位姿估计结果如图8，显示了GPS真值、训练好的SDP-Net网络结构的估计和ICP算法输出的轨迹。统计测试集中所有13个序列上的相对平移误差和相对旋转误差如表1，本发明相对于ICP算法可以更精确的进行自身车辆平台的相对位姿估计。

表1所有测试集序列平均定位误差统计

算法	平均平移误差(m)	平均旋转误差(rad)
			ICP	0.26	0.003
SDP-Net网络结构	0.13	0.003

对于目标检测预测模块的目标检测分支，输出目标检测特征图，取目标判别阈值thres_Cobj＝0.5，对最终特征图上的每个像素进行如下操作：若像素的目标置信度c_obj大于目标判别阈值thres_Cobj，则认为最终特征图的当前像素对应的空间位置存在目标，目标的中心位置[centerX_obj，centerY_obj]计算方式是：

其中atan2为反正切函数，sinθ为目标朝向角度的正弦值，cosθ为目标朝向角度的余弦值。若像素的目标置信度c_obj小于目标判别阈值thres_Cobj，则认为最终特征图的当前像素对应的空间位置不存在目标。提取所有目标置信度c_obj大于目标判别阈值thres_Cobj的像素回归出的目标的位置、尺寸和朝向角度，即可提取当前帧点云所包含的目标的位置、尺寸和朝向角度。部分目标检测结果如图9所示，其中黑色框表示目标检测真值，白色框为使用训练好的SDP-Net网络结构预测的目标检测结果。

对于目标检测预测模块的目标预测分支，输出目标预测特征图。对目标预测特征图上的每个像素，若该像素在目标检测特征图上对应提取出目标参数(centerX_p，centerY_p，l，w，θ)，则提取目标预测特征图上该像素的回归值，预测该目标在下一帧点云中的中心位置hextX_p，nextY_p和角度nextθ：

目标的长宽l，w在下一帧的预测和当前帧的检测保持不变。对目标检测特征图的所有目标置信度c_obj大于目标判别阈值thres_Cobj的像素，在目标预测特征图的相同像素上最终提取当前帧点云所包含的目标的在下一帧的相对横向、纵向位置变化和相对朝向角度变化。

对于每一帧点云数据，可以从网络输出中提取当前帧t的目标检测结果，记录到上一帧t-1对当前帧t的目标预测结果，对每一个检测结果，分别和每一个预测结果计算目标包围框的交并比，记录具有最大的交并比的匹配对，当该交并比大于阈值Thres＝0.1，设定这两个目标为不同帧的同一物体，实现目标追踪。

利用KITTI RAW公开数据集中人为划分出的测试集来评估本方法的效果。比较使用单帧点云的不使用场景流估计模块和自适应权重的方法；融合多帧时序点云的不使用场景流估计模块，但使用自适应权重的方法；融合多帧时序点云的使用场景流估计模块，不使用自适应权重的方法；和融合多帧时序点云的使用场景流估计模块，使用自适应权重的使用SDP-Net网络结构方法(SDP-Net网络结构示意图如图4所示)在不同难度下的平均精度。

表2测试集中不同算法的平均精度比较

由上表2可以看出，融合了5帧时序点云的使用场景流估计模块的方法在不同难度下的平均精度都高于单帧点云检测的精度。使用自适应权重可以在此基础上进一步提升目标检测精度。其中使用5帧时序点云作为输入的使用场景流估计模块和自适应权重的方法相对于其他方法都具有较高的精度。

统计在测试集中所有正确检测的车辆的运动预测结果，计算得到平均预测误差距离为18.02cm，可以有效的进行目标物体的相对运动的预测。对网络正确检测的目标，统计网络在测试集中对不同间隔帧数的目标的正确追踪率如表3所示。本章使用的算法通过网络进行目标位置的预测，可以有效进行帧间的目标追踪，具有较好的追踪性能。

表3不同帧距追踪正确率统计

相距帧数	真值数	正确追踪数	正确率(％)
				1	10809	10806	99.97
4	9856	9065	91.97
				9	8493	7288	85.81

实验采用一块NVIDIA GTX1080Ti GPU和一块Intel i7 CPU进行训练和测试，采用SDP-Net网络结构融合了5帧点云，每次检测仅耗时82ms，所以本发明方法的计算代价很小，且实时性高。

由此可看出，采用本发明方法能有效地融合多帧时序点云信息、克服单帧点云的稀疏问题，且能同时完成自身位姿估计，3D目标检测，预测和追踪的任务，具有精度高、计算代价小，实时强的特点。本发明不受光照条件影响，相比单帧点云的目标检测在各个难度上精度都有显著提升，减小目标遮挡严重和远距离检测问题的影响。

Claims

1.一种基于场景流的激光雷达目标检测与运动跟踪方法，其特征在于：包括如下步骤：

1)自身车辆平台上安装有激光雷达，激光雷达采集获得多帧时序点云，对多帧时序点云体素化处理，生成多帧鸟瞰图，鸟瞰图是由体素化处理后获得的体素构成；

2.根据权利要求1所述的一种基于场景流的激光雷达目标检测与运动跟踪方法，其特征在于：所述步骤1)鸟瞰图的具体生成方法是：

在每帧点云的点云坐标系下建立左右预设范围[-thres_Xsearch，thres_xsearch]、前后预设范围[0，thres_Ysearch]和上下预设范围[-thres_Zsearch1，thres_Zsearch2]的三个目标检测范围，将位于目标检测范围内的该帧点云的3D激光雷达点进行体素化处理，由所有体素化处理后的体素构成鸟瞰图，当体素内有3D激光雷达点存在时，体素的数值为1，体素内没有3D激光雷达点时，体素的数值为0。

3.根据权利要求1所述的一种基于场景流的激光雷达目标检测与运动跟踪方法，其特征在于：所述步骤2)中，SDP-Net网络结构包括特征提取模块、场景流估计模块、特征融合模块和目标检测预测模块；特征提取模块和场景流估计模块并行进行，多帧时序点云均输入到特征提取模块和场景流估计模块，特征提取模块和场景流估计模块的输出经特征融合模块输入到目标检测预测模块；

4.根据权利要求3所述的一种基于场景流的激光雷达目标检测与运动跟踪方法，其特征在于：所述的场景流估计模块具体处理过程为：

S1、运动特征提取

级联步骤1)获得的多帧鸟瞰图，依次通过六个卷积池化模块构成的第一全卷积网络，生成多个倍数的降采样特征图，每个卷积池化模块由一个卷积层和一个池化层构成，获得六种分辨率的特征图；

S2、场景流估计分支

分别对S1获得的除了最大降采样倍数以外的三种最大降采样倍数的特征图进行上采样和级联，输出8倍降采样的运动特征图，再通过连续三次卷积输出鸟瞰图场景流图；

所述的鸟瞰图场景流图具体为鸟瞰图视角下只考虑目标相对运动的8倍降采样场景流图，当鸟瞰图场景流图的像素对应的空间位置有目标存在时，该像素的数值向量为目标的相对横向运动和相对纵向运动的像素偏移总和，当鸟瞰图场景流图的像素对应的空间位置没有目标存在，该像素的数值向量为0；

S3、位姿估计分支

对S1获得的最大倍分辨率的特征图依次进行连续三次卷积和连续三次全连接，输出长度为3的向量，为自身车辆平台在当前帧相对于上一帧的横向位置变化dx、纵向位置变化dy和朝向角度变化dθ。

5.根据权利要求3所述的一种基于场景流的激光雷达目标检测与运动跟踪方法，其特征在于：所述的特征融合模块具体处理过程为：

Sp1、各帧初始特征图重映射