CN111626217A

CN111626217A - 一种基于二维图片和三维点云融合的目标检测和追踪方法

Info

Publication number: CN111626217A
Application number: CN202010466491.4A
Authority: CN
Inventors: 邬松渊; 赵捷
Original assignee: Ningbo Boden Intelligent Technology Co ltd
Current assignee: Ningbo Boden Intelligent Technology Co ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-09-04
Anticipated expiration: 2040-05-28
Also published as: CN111626217B

Abstract

本发明公开了一种基于二维图片和三维点云融合的目标检测和追踪方法，涉及领域自动驾驶的目标检测和追踪，包括以下步骤：S100、对DeepLabv3+模型进行预训练；S200、将三维点云数据转化为指定格式；S300、对指定格式的三维点云数据进行预处理；S400、对PointRCNN‑DeepLabv3+的模型进行训练；S500、实现目标状态更新和追踪。本发明使得每个激光数据点特征进行既包含空间信息同时也拥有图像语义分割结果，提升了PointRCNN的识别效果，提升了对目标较小且和环境相似度较高的行人目标识别准确率。

Description

一种基于二维图片和三维点云融合的目标检测和追踪方法

技术领域

本发明涉及自动驾驶的目标检测和追踪领域，尤其涉及一种基于二维图片和三维点云融合的目标检测和追踪方法。

背景技术

目前无人驾驶已经到了L3级落地的阶段，各个汽车主机厂，自动驾驶初创公司，以及汽车***供应商和各大院校研发机构都已经将落地列为当前的工作重心。自动驾驶中最核心的功能模块是由感知层，决策层以及控制层组成。感知层主要组成部分有：激光雷达，毫米波雷达，视觉常感器等设备对于周边环境进行信息获取。无人驾驶上的检测***根据采集进来的图像，三维点云等数据进行目标检测，场景分割等识别方法获得无人驾驶车对于周边环境的理解，从而可以实现诸如自主巡航、自动换道、交通标志识别、堵车自动驾驶、高速代驾等具体功能。不同于视觉传感器，激光雷达可以有效提升车辆对于外部环境感知建模的精准度。综合各种研究和实践操作，激光雷达在自动驾驶的关键技术主要分为三维点云分割、道路提取、环境建模、障碍物探测与追踪以及多种传感器的信息融合。由激光雷达生产的三维点云数据量每秒可达上百万个，普通的聚类算法无法满足数据实时性计算的要求。三维点云分割，是指为了快速提取有用的物体信息，根据三维点云分布的整体特征和局部特征，将三维点云进行分割，从而形成多个独立的子集。每个子集的期望是每个子集均对应将拥有物理意义的感知目标，并反映出目标物体的几何及位姿特征。三维点云分割，是保证激光雷达后续目标分类和跟踪性能的重要基础。目前基于深度学习的三维点云分割和物体检测的方法正在盛行。

一般情况下，深度神经网络要求输入信息具有规范化的格式，比如二维的图像，时序性的语音等。而原始的三维点云数据往往是空间中的一些无序点集，假设某一个三维点云中包含N个三维点，每一个点用(x,y,z)三维坐标表示，即使不考虑遮挡，视角等变化，单就这些点的先后顺序排列组合，就有N！种可能。因此，我们需要设计一个函数，使得函数值与输入数据的顺序无关。

而在实际的数据标注中，对于深度神经网络的训练需要大量标注过的数据。而目前市面上针对三维点云数据的标注大部分都是手动进行的。标注员工在操作时候会出现大量的错检、漏检、以及精度无法保证的情况。为了解决目前市面上的这个“痛点”，一种结合深度学习算法的自动标注工具就成了必须。

目前提出的三维点云目标识别方法总体可以被划分为基于网格识别方法和基于激光点识别方法两大类。基于网格识别方法将无序三维点转换为如3D体素或者2D鸟瞰特征等有序特征后，利用3D或者2D卷积神经网络进行3D目标识别。而针对基于网格识别方法在三维点云数据转换过程中信息损失的问题，目前主流的方式是利用多传感器相互融合，使得信息得以补充和纠正。例如正在被产业化的MV3D-Net，该模型融合了视觉和激光点云信息，和以往基于体素的方法不同，它仅仅通过三维点云的俯视图和前视图寻找目标感兴趣区域，并结合图像特征用于目标识别，该方法兼顾了计算复杂度和数据特征转换过程信息的损失。AVOD模型则是将三维点云鸟瞰视角和对应图像作为输入，并利用3D锚点网格图对于图像进行裁剪和缩放，对于模型输出的兴趣域进行特征融合，最终通过全连接网络获得目标识别结果。MMF则是利用激光雷达数据进行了两阶段处理，一方面是将原有的RGB图像信息引入深度特征，相互拼接后得到RGBD图像作为图像补充信息用于特征提取，另一方面则是将激光雷达数据转换为鸟瞰视角，通过深度网络提出粗略的兴趣区域，并将该区域内的激光点云特征和图像特征相互拼接融合用于边界框微调，获得更加准确的目标识别结果。ContFuse则是通过双流网络结构在多尺度、多传感器下对三维点云和图像进行深度连续融合，实现了高精度的三维空间目标检测定位。

而另一类是基于激光点识别方法，直接通过激光点云数据提取有效特征的目标识别方法，在PointNet和PointNet++被提出后也逐渐流行起来。由于PointNet类方法不需要数据点预处理过程，利用池化操作解决了三维点云无序性造成的特征提取困难，从而有效避免三维点云信息损失，使得最终的目标识别结果相对较为精确。F-PointNet作为第一个应用PointNet进行目标识别的网络模型，利用了MaskRCNN搜寻2D兴趣区域，并结合深度信息获得兴趣域内的激光点云数据，通过两次PointNet进行特征提取和回归目标边界框参数。PointRCNN则仅仅依赖激光点云数据，通过第一阶段PointNet进行特征提取和提出兴趣区域以及第二阶段的目标识别和微调从而获得更优异的目标识别结果，无需图像信息补充。

由于激光点云的3D空间特性，任意目标都不会出现如2D空间那样的叠加和重合，因此多目标追踪过程中干扰因素相对较少、难度较低，因此目前3D目标追踪方案大多为基于检测的目标追踪，即通过识别模型对三维空间中的目标进行识别，并将该帧的目标识别结果和之前的若干帧追踪结果相互比较和匹配，最终对追踪模型进行更新。目前三维点云空间中处理帧率最高的追踪模型AB3DMOT，仅仅利用PointRCNN模型对三维点云目标进行识别以及3D卡尔曼滤波器，即可实现对目标进行追踪。

目前市面上常见的标注软件目前存在以下几个问题：

1、行人识别难度大：随着深度学习在图像、激光雷达等领域的出色表现，越来越多优秀的目标检测和追踪算法被提出。由于激光雷达自身物理特性，引入了普通相机所不具有的精确距离信息和有效避免目标之间相互遮挡能力，在自动驾驶发展阶段愈发被研究人员所重视。以KITTI测试数据集(KITTI是面向自动驾驶的标准测试数据集)的汽车类的追踪基准为例，利用激光点云的多目标追踪准确率最高可以达到88.89％。但是相比之下，对于行人的追踪效果表现则稍逊一筹。分析两类三维点云数据结构可以发现，汽车类目标的激光点数量一般较多、所占空间体积较大，且在三维点云空间中有明显“L”型、“I”型等结构，对于模型而言识别相对较为简单；而行人类三维点云结果所包含激光点数量较少、相应体积也较小，有明显的距离限制，即随着距离增加，行人类三维点云数据点数量将直线下降，激光点也更加稀疏，不利于目标识别，且行人可以出现在任何场景中的任何位置，而这些场景可能包含路障、树丛、路灯等一系列背景目标，这些目标与行人可能存在一定相似程度，进一步增加了通过激光点云数据实现对行人类的目标识别的难度。

2、追踪模型复杂度高：对比KITTI榜单中的各类追踪算法可以发现，这些模型对追踪精度的提升大多以增加***复杂性和计算成本为代价，这将使得研究人员对于模块的分析具有较大的挑战，例如对于追踪精度的提升，研究者们无法有效区分***中的哪些部分对于结果具有最大贡献，从而造成混淆。例如一些优秀的算法模型如FANTrack、DSM、extraCK，它们的模型之间从网络结构和数据处理过程可能存在相当大的差异，然而其追踪表现却十分接近。同样在JCSTD、MOTBeyondPixels中，计算成本增加而造成的不利影响也十分明显，尽管具有出色的准确性，但其需要的高计算性能和高时耗，使得实时追踪仍遥不可及，这也进一步造成依赖成本偏高。

3、追踪目标编号变化多：在多目标追踪过程中，ID交换是最为常见的问题之一，即多个被追踪目标相互贴合或者靠近时，追踪模型无法有效区别追踪目标从而出现ID交换现象。激光雷达数据由于物体遮挡率较小，且不存在贴合或者叠加的现象，因此空间中目标数量相较于同一时刻下对应方向的图像所包含的目标物体都要多，这也造成了激光点云空间中目标编号更加繁多、追踪的稳定性要求也更加严格。而目前3D空间中的目标追踪方法，主要时通过滤波器进行实现，该方法对于目标匹配策略较为依赖，因此模型的效果同样也参差不齐。

因此，本领域的技术人员致力于开发一种目标检测和追踪方法，达到高效率和高准确率的目的。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是目前三维点云数据集中的行人类目标识别能力较低、追踪模型复杂和传统交并比匹配标准不适用的问题。

发明人设计了一种基于二维图片和三维点云融合的目标检测和追踪方法，将由AB3DMOT中的PointRCNN为主导的特征提取过程和DeepLabv3+对图片实例分割结果进行相互结合和，使得每个激光数据点特征进行既包含空间信息同时也拥有图像语义分割结果，同时针对AB3DMOT的关联度匹配算法的缺陷，提出一种新的适用于行人轨迹的多条件联合判定方式。

本发明的一个实施例中，提供了一种基于二维图片和三维点云融合的目标检测和追踪方法，包括以下步骤：

S100、对DeepLabv3+模型进行预训练；

S200、将三维点云数据转化为指定格式；

S300、对指定格式的三维点云数据进行预处理；

S400、对PointRCNN-DeepLabv3+的模型进行训练；

S500、实现目标状态更新和追踪。

可选地，在上述实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S100包括读取Cityscapes中的图像文件，基于图像文件数据集中的真值文件结合对应的图像文件对DeepLabv3+的模型进行预训练，采用特定的损失函数作为目标，直到精度不再显著提升时，结束整个深度学习框架的训练，保存对应的神经网络参数。

进一步地，在上述实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述特定的损失函数为公式(1)，促使模型能够实现对图像的精准语义分割：

L_deeplabv3+(x)＝∑w(x)log(p_k(x)), (1)

其中

x为二维平面上的像素位置，a_k(x)表示神经网络最后输出层中x对应的第k个通道的值。p_k(x)表示像素属于k类的概率。w(x)表示像素x位置的真实标签的分类结果向量，L_deeplabv3+(x)表示x在正确标签所属分类的概率总和。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S100还包括：

S110、在训练中输入Cityscapes图像数据，包括batch大小，图像数量和通道数；

S120、编码网络通过空洞卷积获得不同空洞尺寸大小的特征图，叠加拼接后输入至后续卷积网络进行特征提取，最终得到有效的编码特征结果；

S130、解码网络通过全卷积以及编码网络中对应层的特征进行信息补充，逐层向上采样，最终还原至原始输入图像大小，并输出每个像素点的分类信息。

进一步地，在上述实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述空洞卷积为1×1、3×3不同尺寸以及不同采样率。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S100的预训练还包括图语义分割和图像物体分类：

S140、提取Cityscapes数据集中的图像语义分割信息，提取目标像素的分类信息；

S150、读取所有的图像数据，将符合要求的图像像素分类进行配置；

S160、将DeepLabv3+部署到GPU服务器中的一个微服务(docker)当中。

进一步地，在上述实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，图像物体分类包括小汽车、卡车、行人、骑车的人以及地面。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S100还包括检验预训练的效果。

进一步地，在上述实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，检验预训练的效果的方法包括使用matplotlib库对于可视化在python中进行开发，然后结合真值进行结果比对，通过统计图像像素中的真实值和预测值两个集合的交集和并集之比(即MIoU)作为最终的评判依据，且数值越大则表现越优秀。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S200中的三维点云来自于3D激光雷达的多线束，其中它的水平和垂直视野范围分别为360°和40°，水平射程达到300米。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S200的指定格式为便于三维点云算法读入的格式。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S200的指定格式为pcd格式。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S300中的预处理包括当点过于稀疏时采用上采样的方法增加点数，当点数过于稠密时可以用下采样的方式减少相应的三维点云数，使三维点云均匀分布在整个平面。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S300中的预处理还包括前后景提取，其中的损失函数为公式(3)：

L_fore(p_u)＝-α_u(1-p_u)^βlog(p_u), (3)

其中

p_u表示前后景点的不同概率处理结果，α_u和β是人为定义的常量，用于控制前后景点的权重，L_fore(p_u)用于在前景点与背景点数量比例为1:3或者更加悬殊的情况之下，通过Focal Loss损失函数的方式，缓解类别分布不平衡问题。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S400包括：

S410、读取KITTI中的指定格式文件；

S420、输入基于KITTI数据集中的真值文件结合对应的三维点云数据文件以及图像文件；

S430、固定DeepLabv3+模型权重；

S440、训练PointRCNN-DeepLabv3+的模型；

S450、采用特定的损失函数作为目标，直到精度不再显著提升时，结束整个深度学习框架的训练；

S460、保存其相对应的神经网络参数。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S410中的指定格式为pdc格式。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S440还包括语义分割和三维点云物体分类：

S441、提取KITTI数据集中的三维拉框坐标信息和其对应的左视和右视二维视图的二维框的信息，提取相关分类信息；

S442、读取所有的三维点云数据，将符合要求的目标三维框信息和分类进行配置；

S443、将PointRCNN-DeepLabv3+模型部署到GPU服务器中的一个微服务(docker)当中。

进一步地，在上述实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，三维点云物体分类包括小汽车、卡车、行人、骑车的人以及地面。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S440还包括检验预训练的效果。

进一步地，在上述实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，检验预训练的效果的方法包括使用PCL(point cloud library)库对于可视化在python中进行开发，然后结合真值进行结果的比对，统计三维空间中的真实值3D边界框和预测边界框两个集合的交集和并集之比(即IoU)作为最终的评判依据，且数值越大则表现越优秀。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S500包括在追踪过程中，算法模型利用PointRCNN-DeepLabv3+对目标进行识别，将交并比和距离比作为联合匹配条件，利用匈牙利算法对识别结果进行匹配，通过滤波器实现目标状态更新和追踪。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述滤波器为3D卡尔曼滤波器。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S500包括：

S510、AB3DMOT-MCM-DeepLabv3+模型训练，输入Cityscapes图像数据以及KITTI三维点云图像数据，包括了batch大小，图像数量和对应通道数，三维点云数据数量和对应通道数；

S520、识别网络通过PointRCNN寻找目标兴趣区域，利用DeepLabv3+对于图像进行语义分割，并将感兴趣区域的三维点云特征以及对应的图像语义分割结果作为补充信息，输入至PointRCNN第二阶段获得精准的目标识别结果；

S530、数据匹配模块通过比较识别目标参数以及轨迹预测参数，利用距离比和交并比进行匹配计算：对匹配轨迹进行更新，对不匹配轨迹进行检查，对于超过最大记忆时间限制的，则进行删除，否则保持原有状态不改变；对不匹配识别目标进行轨迹创建；

S540、3D卡尔曼滤波器利用传统卡尔曼滤波器的创建以及更新方式，对于目标轨迹的坐标x、y、z、尺寸参数、偏航角、相对速度进行预测和更新。

进一步地，在上述实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S510还包括结合PointRCNN-DeepLabv3+和AB3DMOT的多匹配条件追踪模型，利用PointRCNN-DeepLabv3+进行目标识别，通过AB3DMOT中的追踪模型进行目标追踪。

可选地，在上述任一实施例中的基于二维图片和三维点云融合的目标检测和追踪方法中，上述步骤S530中的匹配条件交并比和距离比计算函数分别为(5)、(6)：

其中，S_a表示轨迹预测结果的3D包围区域体积，S_b表示检测识别结果的3D包围区域体积，S_a∩S_b表示两者体积的交集区域，S_a∪S_b表示两者体积的并集区域，IoU则表示两个3D包围区域的交集和并集的比值计算结果，根据设定的阈值作为匹配判断依据之一；

其中，t₁和t₂分别表示轨迹预测结果的中心点坐标和检测识别结果的中心点坐标，dis(t₁,t₂)表示两个中心点坐标之间的欧式距离，w为轨迹预测结果的目标宽，PosR表示两个3D包围框的中心之间的欧式距离和追踪器预测的宽度比值计算结果，根据设定的阈值作为匹配判断依据之一。

本发明提出了将由AB3DMOT中的PointRCNN为主导的特征提取过程和DeepLabv3+对图片实例分割结果进行相互结合和，使得每个激光数据点特征进行既包含空间信息同时也拥有图像语义分割结果，从而提升PointRCNN的识别效果，有效提升了对目标较小且和环境相似度较高的行人目标识别准确率。针对AB3DMOT的关联度匹配算法的缺陷，提出一种新的适用于行人轨迹的多条件联合判定方式，使得目标匹配能力提升，继而完成使得模型对于行人追踪表现更加出色，达到了高效率和高准确率的目的。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是图示根据示例性实施例的流程图；

图2是图示根据示例性实施例的DeepLabv3+流程示意图；

图3是图示根据示例性实施例的AB3DMOT-MCM-DeepLabv3+结构图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方示意性地适当夸大了部件的厚度。

发明人将由AB3DMOT中的PointRCNN为主导的特征提取过程和DeepLabv3+对图片实例分割结果进行相互结合和，使得每个激光数据点特征进行既包含空间信息同时也拥有图像语义分割结果，同时针对AB3DMOT的关联度匹配算法的缺陷，提出一种新的适用于行人轨迹的多条件联合判定方式。发明人设计了一种基于二维图片和三维点云融合的目标检测和追踪方法，如图1所示，包括以下步骤：

S100、对DeepLabv3+模型进行预训练，包括读取Cityscapes中的图像文件，基于图像文件数据集中的真值文件结合对应的图像文件对DeepLabv3+的模型进行预训练，采用特定的损失函数作为目标，直到精度不再显著提升时，结束整个深度学习框架的训练，保存对应的神经网络参数；发明人为了促使模型能够实现对图像的精准语义分割，定义上述特定的损失函数如下：

L_deeplabv3+(x)＝∑w(x)log(p_k(x)), (1)

其中

对步骤S100进行细化，如图2所示：

S110、在预训练中输入Cityscapes图像数据，包括batch大小，图像数量和通道数；

S120、编码网络Encoder，首先利用深度卷积网络(DCNN)提取图像Image基本特征。为了增加滤波器的感受域，使其能够更加精确地学习全局和局部信息，编码网络利用空洞卷积(Atrous Conv)的方式进行特征提取，具体空洞卷积滤波器的类型包括1X1Conv、3X3Conv rate 6、3X3Conv rate 12、3X3Conv rate 18以及图像池化层(Image Pooling)，通过上述操作获得不同的特征图，叠加拼接后输入至后续卷积网络，利用1X1Conv进行卷积提取特征，最终得到有效的编码特征结果；

S130、解码网络Decoder，利用上述编码网络中的DCNN层输出的初级特征(Low-Level Features)，通过的1X1Conv进行卷积特征提取得到特征图，通过将Encoder层最终输出的特征图进行4倍上采样(即Upsamples by 4)放大，使其与之前得到的特征图尺寸一致并相互拼接(Concat)得到新的特征图。为了获得更加有效特征，需再次对新的特征图进行3X3Conv以及4倍上采样(即Upsamples by 4)放大，逐层向上采样，最终还原至原始输入图像大小，并输出每个像素点的分类结果Prediction；

步骤S100还包括图像物体分类和语义分割，图像物体分类包括小汽车、卡车、行人、骑车的人以及地面，具体包括：

S160、将模型部署到GPU服务器中的一个微服务当中(docker)。

另外，步骤S100还包括检验预训练的效果，具体使用matplotlib库对于可视化在python中进行开发，然后结合真值进行结果的可视化比对。

S200、将三维点云数据转化为指定格式，三维点云数据来自于3D激光雷达的多线束，水平和垂直视野范围分别为360°和40°，水平射程达到300米；指定格式为便于三维点云算法读入的格式，如pcd格式。

S300、对指定格式的三维点云数据进行预处理，预处理包括当点过于稀疏时采用上采样的方法增加点数，当点数过于稠密时可以用下采样的方式减少相应的三维点云数，使三维点云均匀分布在整个平面；预处理还包括前后景提取，其中的损失函数如下：

L_fore(p_u)＝-α_u(1-p_u)^βlog(p_u), (3)

其中

p_u表示前后景点的不同概率处理结果，α_u和β是人为定义的常量，用于控制前后景点的权重，L_fore(p_u)为Focal Loss损失函数，用于在前后景点数量差距很大时缓解类别分布不平衡问题。

S400、对PointRCNN-DeepLabv3+的模型进行训练，包括：

S410、读取KITTI中的指定格式文件，一般为pcd格式；

S420、输入基于KITTI数据集中(上一步)的真值文件结合对应的三维点云数据文件以及图像文件；

S430、固定DeepLabv3+模型权重；

S440、训练PointRCNN-DeepLabv3+的模型，包括语义分割和三维点云物体分类，三维点云物体分类包括小汽车、卡车、行人、骑车的人以及地面，具体包括：

S443、将模型部署到GPU服务器中的一个微服务当中(docker)；

S460、保存其相对应的神经网络参数。

步骤S400还包括检验预训练的效果，具体包括使用PCL(point cloud library)库对于可视化在python中进行开发，然后结合真值进行结果的可视化比对。

S500、实现目标状态更新和追踪，算法模型利用PointRCNN-DeepLabv3+对目标进行识别，将交并比和距离比作为联合匹配条件，利用匈牙利算法对识别结果进行匹配，通过滤波器实现目标状态更新和追踪，滤波器选择3D卡尔曼滤波器。如图3所述，具体包括：

S510、AB3DMOT-MCM-DeepLabv3+模型训练，该网络结构结合了PointRCNN-DeepLabv3+和AB3DMOT的多匹配条件追踪模型，即利用PointRCNN-DeepLabv3+进行3D目标检测识别后，通过AB3DMOT中的追踪模型进行目标追踪。分别输入Cityscapes图像数据以及KITTI三维点云图像数据到PointRCNN和DeepLabv3+，包括了batch大小，图像数量和对应通道数，三维点云数据数量和对应通道数；

S520、3D目标检测网络通过PointRCNN寻找目标兴趣区域，利用DeepLabv3+对于图像进行语义分割，并将感兴趣区域的三维点云特征以及对应的图像语义分割结果作为补充信息，输入至PointRCNN第二阶段(即数据匹配)获得精准的目标识别结果；

S530、数据匹配模块通过比较识别目标参数以及轨迹预测参数，利用距离比PosR和交并比IoU进行匹配计算，具体过程为：对于每一个预测轨迹以及识别目标的边界框，先计算距离比PosR和交并比IoU的结果，并按照各自0.5的权重进行相加，当和超过设定阈值0.3则表示匹配，对于小于0.3的目标轨迹，将单独计算交并比IoU的值并匹配，若超过设定阈值0.3，则也将其归为轨迹匹配。对上述所有匹配结果进行更新，对追踪不匹配，若超过最大记忆时间限制，则进行轨迹删除，否则保持原有状态不改变；对检测不匹配，进行轨迹生成。在所有结果处理完成后，对于3D卡尔曼滤波器进行更新预测，用于后续轨迹匹配计算。其中发明人设计匹配条件交并比IoU和距离比PosR计算函数分别为(5)、(6)：

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于二维图片和三维点云融合的目标检测和追踪方法，其特征在于，包括以下步骤：

S100、对DeepLabv3+模型进行预训练；

S200、将三维点云数据转化为指定格式；

S300、对指定格式的三维点云数据进行预处理；

S400、对PointRCNN-DeepLabv3+的模型进行训练；

S500、实现目标状态更新和追踪。

2.如权利要求1所述的基于二维图片和三维点云融合的目标检测和追踪方法，其特征在于，所述步骤S100包括读取Cityscapes中的图像文件，基于图像文件数据集中的真值文件结合对应的图像文件对DeepLabv3+的模型进行预训练，采用特定的损失函数作为目标，直到精度不再显著提升时，结束整个深度学习框架的训练，保存对应的神经网络参数。

3.如权利要求2所述的基于二维图片和三维点云融合的目标检测和追踪方法，其特征在于，所述步骤S100的预训练还包括语义分割和图像物体分类：

S160、将DeepLabv3+部署到GPU服务器中的一个微服务(docker)当中。

4.如权利要求1至3任一所述的基于二维图片和三维点云融合的目标检测和追踪方法，其特征在于，所述步骤S100还包括检验预训练的效果。

5.如权利要求4所述的基于二维图片和三维点云融合的目标检测和追踪方法，其特征在于，所述检验预训练的效果的方法包括使用matplotlib库对于可视化在python中进行开发，然后结合真值进行结果比对，通过统计图像像素中的真实值和预测值两个集合的交集和并集之比作为最终的评判依据，数值越大则表现越优秀。

6.如权利要求1所述的基于二维图片和三维点云融合的目标检测和追踪方法，其特征在于，所述步骤S300中的预处理包括当点过于稀疏时采用上采样的方法增加点数，当点数过于稠密时可以用下采样的方式减少相应的三维点云数，使三维点云均匀分布在整个平面。

7.如权利要求1所述的基于二维图片和三维点云融合的目标检测和追踪方法，其特征在于，所述步骤S400包括：

S410、读取KITTI中的指定格式文件；

S430、固定DeepLabv3+模型权重；

S440、训练PointRCNN-DeepLabv3+的模型；

S460、保存其相对应的神经网络参数。

8.如权利要求7所述的基于二维图片和三维点云融合的目标检测和追踪方法，其特征在于，所述步骤S440还包括语义分割和三维点云物体分类：

S443、将PointRCNN-DeepLabv3+模型部署到GPU服务器中的一个微服务当中。

9.如权利要求1任一所述的基于二维图片和三维点云融合的目标检测和追踪方法，其特征在于，所述步骤S500包括：

10.一种使用如权利要求9任一所述基于二维图片和三维点云融合的目标检测和追踪方法，其特征在于，所述步骤S510还包括结合PointRCNN-DeepLabv3+和AB3DMOT的多匹配条件追踪模型，利用PointRCNN-DeepLabv3+进行目标识别，通过AB3DMOT中的追踪模型进行目标追踪。