CN114648549A

CN114648549A - 一种融合视觉和激光雷达的交通场景目标检测及定位方法

Info

Publication number: CN114648549A
Application number: CN202210207116.7A
Authority: CN
Inventors: 赵祥模; 周经美; 李绍骞
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-06-21

Abstract

本发明提供了一种融合视觉和激光雷达的交通场景目标检测及定位方法，采用激光雷达点云的方式对交通场景中的车辆进行检测，采用点云和视觉融合的方式对交通场景中交通标志进行检测并定位。即本发明给出了一种通过视觉与激光雷达点云结合，利用车辆偏航角计算目标真实交通场景定位信息的方法。本发明对不同点云分割方式的实验结果对比，发现传统方式的局限性无法满足当下的应用场景，同时PointNet网络忽略了局部特征的重要性，所以选择同时兼顾全局特征和局部特征的PointNet++网络。此网络通过sampling和grouping整合局部邻域，利用先降采样再上采样的结构，使用skip connection将对应层的全局特征和局部特征拼接，并且该方法0.51％的错误率和91.9％的准确率也都优于其他方式。

Description

一种融合视觉和激光雷达的交通场景目标检测及定位方法

技术领域

本发明属于交通计算机视觉技术领域，涉及交通场景目标检测及定位，具体涉及一种融合视觉和激光雷达的交通场景目标检测及定位方法。

背景技术

交通拥堵是目前一个城市面临的核心问题，据估算，城市交通拥堵有近一半都发生在道路交叉处，传统利用交通灯和停车标志控制车流的方法目前已不能够满足城市中庞大的车流。相较于传统的驾驶方式，自动驾驶凭借着车道线偏离预警检测、疲劳驾驶预警检测、盲区视野检测等技术能够大幅减少事故发生的频率。同时随着/科技的兴起，激光雷达等一系列三维设备为自动驾驶汽车在行驶过程中不同场景的目标检测提供了保障，相较于传统的二维检测而言，基于三维设备的三维目标检测此前已经成为了自动驾驶应用中的关键技术之一。

自动驾驶汽车在行驶的过程中，随着位置的移动导致周围场景不断的变化，而不同场景中存在各种各样的物体，因此对自动驾驶的安全性提出了很大的挑战。通过机器人领域中关于三维物体的实时检测和位姿估计的先验知识，自动驾驶中也通过三维目标检测在获取到周围物体的深度信息、尺寸信息后，能够对其位姿信息做出判断，进而有效的避免碰撞等事件的发生，并且基于激光雷达的检测过程会大大减小由于天气导致能见度降低的精度影响。

目前针对三维信息的处理方式主要有基于投影的方式、基于体素化的方式、基于原生点云的方式、基于混合表示的方法，四种方式各有利弊，通过对比选择基于原生点云的方式对三维点云进行处理。通过传感器采集的点云需要通过点云分割作为预处理，进而提升后续检测的准确性，传统的点云分割方式需要设置某些分割参数，不利于多种场景下使用。

发明内容

针对现有技术存在的不足，本发明的目的在于，提供一种融合视觉和激光雷达的交通场景目标检测及定位方法，以解决现有技术中的方法的错误率有待进一步降低，准确率有待进一步提升的技术问题。

为了解决上述技术问题，本发明采用如下技术方案予以实现：

一种融合视觉和激光雷达的交通场景目标检测及定位方法，该方法包括以下步骤：

步骤1，利用基于深度学习的PointNet++网络对激光雷达采集到的原始点云进行分割，PointNet++网络逐层提取特征，得到部分特征和全局特征，将部分特征和全局特征完整结合，得到点云特征向量；

步骤2，根据点云特征向量使用foscal loss分割原始点云的前景点和背景点，然后采用候选框箱模型的方法对前景点中与车辆相关的前景点初步生成的预测候选框；

步骤3，对于预测候选框依次进行设置距离的阈值处理、NMS算法处理、区域池化处理、坐标转化处理、特征编码处理和微调预测框处理，最终回归得到局部坐标系下车辆的3D预测框；

步骤4，通过视觉相机获取交通场景的视觉图像，通过二维图像的方式对交通场景中的交通标志进行检测，进而获取检测标志的关键信息，并将每一时刻对应的原始点云和视觉图像进行融合，获取融合的信息，通过融合的信息结合偏航角计算得到交通标志在真实交通场景中的定位信息；

本发明还具有如下技术特征：

步骤1中，具体包括如下子步骤：

步骤101，PointNet++网络中的采样层从输入的原始点云中通过FPS的采样方式选取一部分中心点；

步骤102，PointNet++网络中的分组层根据采样层所得到的中心点构建局部区域，进而提取特征；

步骤103，PointNet++网络中PointNet层对分组层处理后得到的局部区域进行局部特征提取，最后通过MAX POOLOING对全局特征提取，从而获得了局部特征和全局特征的完整结合，得到点云特征向量。

步骤2中，候选框箱模型的方法用于预测3D边界框信息进而生成预测候选框。

步骤3中，所述的设置距离的阈值处理中，通过阈值将原始点云分成两类，分别是近处点和远处点。

步骤3中，所述的NMS算法处理中，用NMS来去除冗余的3D边界框。

步骤3中，所述的坐标转化处理中，将每个3D proposal的坐标进行转换，转换到以3D center为原点的局部坐标系。

步骤4中，具体包括如下子步骤：

步骤401，选择YOLO系列目标检测算法对交通标志进行检测；

步骤402，根据激光雷达和视觉相机标定的参数，将激光雷达原始点云投影到视觉图像中，达到原始点云与视觉图像融合的效果，获取融合的信息，使得视觉图像中的像素点增加了三维空间信息；

步骤403，通过GPS\IMU能够得到当前车辆的定位信息和位姿信息，使用定位信息和位姿信息，并结合步骤402中融合的信息计算得到交通标志在真实交通场景中的定位信息。

步骤四中，所述的检测标志的关键信息为标志类型编号、检测框的左上角坐标和检测框的长宽。

本发明与现有技术相比，具有如下技术效果：

(Ⅰ)本发明对不同点云分割方式的实验结果对比，发现传统方式的局限性无法满足当下的应用场景，同时PointNet网络忽略了局部特征的重要性，所以选择同时兼顾全局特征和局部特征的PointNet++网络。此网络通过sampling和grouping整合局部邻域，利用先降采样再上采样的结构，使用skip connection将对应层的全局特征和局部特征拼接，并且该方法0.51％的错误率和91.9％的准确率也都优于其他方式。

(Ⅱ)本发明为解决传统的loss无法平衡前景点和背景点比例的问题，引入了focal loss，使用focal loss根据PointNet++网络提取到的点云特征分割前景点和背景点，从而达到更准确的分类效果。本文提出自下而上的检测框生成方法，采用基于bin的方法对前景点直接生成预测候选框，结合IOU对候选预测框使用NMS进行筛选得到最终预测候选框，之后在规范坐标中微调候选预测框，获得最终的检测结果。

附图说明

图1是发明中使用的PointNet++网络的详细结构图。

图2是最远点采样的过程图。

图3是候选框生成过程中中心点预测过程示意图。

图4是筛选最终3D边界框的回归过程。

图5是YOLOv5目标检测算法检测交通标志的流程的整体框图。

图6是图像与点云融合结果的效果图。

图7是选取相似点的过程。

图8是算法对于车辆检测在2D下的可视化效果图。

图9是算法对于车辆检测在3D下的可视化效果图。

图10是是算法对于车辆检测在三维点云下的可视化效果图。

图11是数据集中真实值对应的地图信息。

图12是交通标志定位信息效果图。

图13是数据集中某帧效果图。

以下结合实施例对本发明的具体内容作进一步详细解释说明。

具体实施方式

需要说明的是，本发明中的所有算法，如无特殊说明，全部均采用现有技术中已知的算法。

需要说明的是，本发明中：

PointNet++网络指的是改进的基于深度学习直接提取原始点云特征的网络。

bin指的是候选框箱模型。

NMS算法指的是非极大抑制算法。

Sampling Layer指的是采样层。

Grouping Layer指的是分组层。

PointNet层指的是基于深度学习的原始点云特征提取网络层。

FPS指的是最远点采样算法。

MAX POOLOING指的是最大池化。

Focal loss函数指的是基于标准交叉熵损失基础上修改的平衡正负样本的函数。

Region Pooling模块指的是区域池化模块。

3D proposal指的是三维检测框。

3D center指的是三维检测框的中心。

KITTI数据集指的是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。

3D bounding box指的是三维检测框。

YOLO系列目标检测算法指的是YOLO(You Only Look Once)，用于目标检测的一系列算法。

YOLOv5指的是YOLO系列目标检测算法第五个版本。

GPS\IMU指的是全球定位***(GPS)和惯性传感器(IMU)。

IOU指的是交并比(Intersection over Union)。

MLP指的是多层感知机(MLP，Multilayer Perceptron)，也叫人工神经网络(ANN，Artificial Neural Network)。

本发明给出了一种融合视觉和激光雷达的交通场景目标检测及定位方法，采用激光雷达点云的方式对交通场景中的车辆进行检测，采用点云和视觉融合的方式对交通场景中交通标志进行检测并定位。即本发明给出了一种通过视觉与激光雷达点云结合，利用车辆偏航角计算目标真实交通场景定位信息的方法。

遵从上述技术方案，以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

实施例：

本实施例给出一种融合视觉和激光雷达的交通场景目标检测及定位方法，该方法包括以下步骤：

步骤1，利用基于深度学习的PointNet++网络对激光雷达采集到的原始点云进行分割，PointNet++网络逐层提取特征，得到部分特征和全局特征，将部分特征和全局特征完整结合，得到点云特征向量。

如图1所示，为PointNet++网络的结构，网络结构中的三层分别为采样层、分组层、PointNet层。

步骤1中，具体包括如下子步骤：

步骤101，PointNet++网络中的采样层(Sampling Layer)从输入的原始点云中通过FPS的采样方式选取一部分中心点；方便后续分组层中区域的选择，此方法能够尽可能均匀的选取到空间中的点。

具体的，FPS算法的流程为：

(1)从输入的点云中任意选点P0，将此点放入集合N中，此时集合N＝{P0}，如图2中的(a)所示。

(2)计算剩余N-1个点到点P0的欧式距离，记录这N-1个距离并进行比较，选取间隔最大所对应的点P1，放入到集合N，此时更新之后的集合N＝{P0,P1},如图2中的(b)所示，其中dist01为P0、P1两点间的距离。

(3)计算除当前集合中外所有的点到集合N中每个点的距离，此时集合外点的数量为N-2。对于这N-2个点，每个点到集合的距离有两个，选择最短的作为当前点到集合N的距离，以此类推可以得到N-2个距离，最终将这些距离进行比较选择最长的距离，这个最长距离对应的点即为除集合中点，距离两点最远的点，记为P2。将P2放入集合N中，更新后的集合N＝{P0,P1,P2}。如图2中的(c)所示，dist12为P1、P2间的最短距离，dist02为P0、P2间的最短距离。

(4)重复以上操作，直到集合N中点的数量满足规定的数量即可，此数量根据不同规模的点云来设定。

步骤102，PointNet++网络中的分组层(Grouping Layer)根据采样层所得到的中心点构建局部区域，进而提取特征；

具体的，分组层根据采样层所得到的中心点以某种方式构建局部区域，进而提取特征，构建局部区域采用的算法为query ball point算法，该算法是以选择的中心点为球心，选取某个固定的值作为球的半径，将球形范围内的点划分为一个局部区域，与此同时，为了保证每个query ball中点的规模相同，规定如果query ball的点的数量大于规模K，那么直接取前K个作为局部领域；如果小于，直接对点重采样，凑够规模K。

步骤2，根据点云特征向量使用foscal loss分割原始点云的前景点和背景点，然后采用候选框箱模型(bin)的方法对前景点中与车辆相关的前景点初步生成的预测候选框。

foscal loss为基于交叉熵损失函数改进的Focal loss函数，基于交叉熵损失函数改进的Focal loss函数削减了消极样本的比重，通过修改函数中的参数解决了样本比例不平衡的问题。

具体的，基于交叉熵损失函数改进的Focal loss函数在函数方面大大削减了消极样本的比重，通过修改函数中的参数解决了样本比例大大不平衡的问题。Focal loss比loss多了两个超参数α和γ，α主要是调整两类样本比例的失衡问题，γ用于降低由于削减了消极样本从而带来的损失值，使得算法更加稳定。Focal loss的公式如下所示：

L_fl＝-α(1-y)^γlogy',y＝1

L_fl＝-(1-α)y'^γlog(1-y'),y＝0

其中，α和γ是可以调整的超参数，y为分类的值，y’为模型的预测值，值域为(0，1)。根据公式可以看出，当y为1时，y’趋近于1，表示预测值为积极样本，权重大小趋近于0；当y为0时，y’趋近于0，表示预测值为消极样本，权重大小趋近于0。

步骤2中，候选框箱模型的方法用于预测3D边界框信息进而生成预测候选框。该方法并不是直接采用某种方式得出中心点的坐标，而是计算出当前点相对于真实中心的偏差值。

具体的，不直接采用某种方式得出中心点的坐标，而是计算出当前点相对于真实中心的偏差值，这里的偏差值采用bin来代替，bin可以理解为区间，即偏差值采用这种区间的个数来表示，与此同时，为了细化中心坐标还需要在bin中也计算一个偏移量res。在利用这种方式对中心点进行预测的过程中，只需要预测X轴和Z轴的bin，因为X轴和Z轴平行于地面，Y轴垂直于地面，考虑到3D目标一般在地面上运动，并且同类别的物体在垂直方向上的差距并不会太大，因此不需要预测Y轴方向的bin，此时将分割网络得到的前景点投影到由X和Z组成的平面，如图3所示，黄色三角形表示物体的真实中心，蓝色点表示前景点，红色点表示从前景点中选取的兴趣点，以兴趣点为坐标中心，将坐标轴区间按照bin进行划分，预测此时兴趣点到真实中心的偏移值以及在bin中偏移量res，根据以上所得的参数即可得出中心点的坐标，选取前景点中预测最准确的点，从而得到3D边界框的参数。

步骤3，对于预测候选框依次进行设置距离的阈值处理、NMS算法处理、区域池化处理、坐标转化处理、特征编码处理和微调预测框处理，最终回归得到局部坐标系下车辆的3D预测框。

步骤3中，所述的设置距离的阈值处理中，通过阈值将原始点云分成两类，分别是近处点和远处点。近处目标的密度大，对于目标的表示相对能够减少前景点的数量，但是在远处的目标则需要增加采样的点，从而避免检测结果不准确的情况，从采样点中选取较高质量的前景点从而减少处理的数据量，增加算法的执行速度。

具体的，通过设定这个阈值简单地对原始点云进行分类，一般通过阈值将原始点云分成两类，分别是近处点和远处点。近处目标的密度大，对于目标的表示相对可以减少前景点的数量，但是在远处的目标则需要增加采样的点，从而避免检测结果不准确的情况。目前的应用场景中，将近处点定义为半径为40m的范围，40m到80m则定义为远处点，在这两个范围内通过FPS采样方式进行采样，从采样点中选取较高质量的前景点从而减少处理的数据量，增加算法的执行速度，获取到的前景点经过多层感知器进行卷积计算，对每个前景点都生成一个3D边界框。一个目标产生的3D边界框的数量并不唯一，所代表目标的前景点都会生成一个3D边界框，因此一个目标会产生很多冗余重叠的3D边界框，此时就需要对冗余的3D边界框进行过滤筛选，按照3D边界框的分数进行打分，根据分数初步选取一定数量的3D边界框，过程如图4所示。

通常情况下，为了目标检测的准确性并且提升在不同场景下算法的鲁棒性，在此类任务中会产生远高于实际需要3D边界框的数量，这也正是多数3D边界框重叠在一起的原因，为了减少3D边界框的数量，选择出最准确的3D边界框作为输出，需要利用NMS来去除冗余3D边界框。

步骤3中，所述的NMS算法处理中，用NMS来去除冗余的3D边界框。生成的3D边界框数量远高于实际需要3D边界框的数量，为了减少3D边界框的数量，选择出最准确的3D边界框作为输出，需要利用NMS来去除冗余3D边界框。

具体的，NMS算法的流程如下：

(1)在对所有的3D边界框打分后，将这些分数放入一个列表中进行保存，这个列表定义为输入列表，并且按照降序对3D边界框的得分排列。

(2)在输入列表中，选择得分最高的3D边界框B1,将其在输入列表中剔除，并加入到另一个列表中，这个列表称为输出列表。

(3)计算B1与输入列表中剩下的所有3D边界框的IOU，如若输入列表中的某个3D边界框与B1的比值并未超过某一特定的阈值，那么将该3D边界框在输入列表中剔除。

(4)从输入列表中再次选取分数最高的B2，依次判断B2与输入列表中其余3D边界框的IOU，如果IOU大于某一阈值，那么就需要删除掉输入列表中的3D边界框，进而将保留的B2存入输出列表。

(5)重复以上操作，直到找到所有的3D边界框。

步骤3中，所述的区域池化处理中，增加了一个区域池化(Region Pooling)模块，通过扩大3D边界框加入了更多的点，通过分割掩膜将扩大后的3D边界框中前景点和背景点区分，没有内部点的3D边界框消除。

具体的，增加了一个Region Pooling模块，这个模块有些类似于2D检测的RoiPooling模块。与前文所讲到的Pooling操作虽然是同等的概念，但是在这个RegionPooling模块中实际并没有做任何Pooling相关的操作，没有减少任何信息，相反地，这个操作通过扩大3D边界框加入了更多的点，并且每个点都包含了坐标、激光强度、还有分割过程中通过PointNet++所获得的语义特征等等不同的特征。在上一步获得到三维3D边界框之后，根据之前的提案来优化框的位置和方向，根据提案的位置，对每个点的特征池化，通过分割掩膜将扩大后的3D边界框中前景点和背景点区分，没有内部点的提案被消除。

具体的，这样转化到局部信息之后就会丢失深度信息，因此为了避免这样的问题，加入了特征编码模块，这个模块由两部分组成，第一个部分是Spatial Feature，顾名思义，就是空间的结构信息，包括坐标，激光反射值r，0/1背景分类值，还有深度信息，把这些信息concate在一起进行MLP之后，再和语义特征concate在一起，得到最后每个点的特征。第二部分是Box Refine模块，送入pointnet++之后，回归得到局部坐标系下参数，在计算loss项时只考虑IOU>0.55的proposal，loss项的计算依然沿用一阶段里的corse-to-fine的方法。

步骤4，通过视觉相机获取交通场景的视觉图像，通过二维图像的方式对交通场景中的交通标志进行检测，进而获取检测标志的关键信息，并将每一时刻对应的原始点云和视觉图像进行融合，获取融合的信息，通过融合的信息结合偏航角计算得到交通标志在真实交通场景中的定位信息。

步骤4中，具体包括如下子步骤：

步骤401，选择YOLO系列目标检测算法对交通标志进行检测。

具体的，对于道路上的各种设施，需要一种检测精度高、检测速度快的解决方案，YOLO系列的目标检测算法在各种应用场景皆取得了较好的检测效果。YOLOv5在YOLOv4算法的基础上做了进一步的改进，检测性能得到进一步的提升，因此选择YOLOv5作为项目中的道路基础设施检测方案。

YOLOv5是一种单阶段目标检测算法，该算法在YOLOv4的基础上添加了一些新的改进思路，使其速度与精度都得到了极大的性能提升。主要的改进思路如下所示：

输入端：在模型训练阶段，提出了一些改进思路，主要包括Mosaic数据增强、自适应锚框计算、自适应图片缩放；

基准网络：融合其它检测算法中的一些新思路，主要包括：Focus结构与CSP结构；

Neck网络：目标检测网络在BackBone与最后的Head输出层之间往往会***一些层，Yolov5中添加了FPN+PAN结构；

Head输出层：输出层的锚框机制与YOLOv4相同，主要改进的是训练时的损失函数GIOU_Loss，以及预测框筛选的DIOU_nms。

图5展示了YOLOv5目标检测算法的整体框图。对于一个目标检测算法而言，我们通常可以将其划分为4个通用的模块，具体包括：输入端、基准网络、Neck网络与Head输出端，对应于上图中的4个红色模块。YOLOv5算法具有4个版本，具体包括：YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四种，本文重点讲解YOLOv5s，其它的版本都在该版本的基础上对网络进行加深与加宽。

输入端：输入端表示输入的图片。该网络的输入图像大小为608*608，该阶段通常包含一个图像预处理阶段，即将输入图像缩放到网络的输入大小，并进行归一化等操作。在网络训练阶段，YOLOv5使用Mosaic数据增强操作提升模型的训练速度和网络的精度；并提出了一种自适应锚框计算与自适应图片缩放方法。

基准网络：基准网络通常是一些性能优异的分类器种的网络，该模块用来提取一些通用的特征表示。YOLOv5中不仅使用了CSPDarknet53结构，而且使用了Focus结构作为基准网络。

Neck网络：Neck网络通常位于基准网络和头网络的中间位置，利用它可以进一步提升特征的多样性及鲁棒性。虽然YOLOv5同样用到了SPP模块、FPN+PAN模块，但是实现的细节有些不同。

Head输出端：Head用来完成目标检测结果的输出。针对不同的检测算法，输出端的分支个数不尽相同，通常包含一个分类分支和一个回归分支。YOLOv5利用GIOU_Loss来代替Smooth L1 Loss函数，从而进一步提升算法的检测精度。

通过收集不同道路设施的数据集对该网络训练，并对不同参数情况下的网络的mAP(mean Average Precision)进行比较，选择效果最好的模型用于后续目标的检测，检测完实时将目标对应的类别、检测框的中心点坐标、检测框的宽高输出方便后续的使用。

步骤402，根据激光雷达和视觉相机标定的参数，将激光雷达原始点云投影到视觉图像中，达到原始点云与视觉图像融合的效果，获取融合的信息，使得视觉图像中的像素点增加了三维空间信息。

本实施例中，激光雷达和视觉相机标定的参数根据激光雷达和视觉相机的安装位置来确定。

具体的，获取到激光雷达和相机之间的旋转平移矩阵R和T是标定的主要目的，激光雷达与相机标定具体操作步骤如下：

(1)首先选取一块不带白边的且小方格大小一样的长方形棋盘格标定板；

(2)同时启动相机和激光雷达，然后两传感器分别捕捉标定板的二维图像和三维点云；

(3)利用matlab完成标定，获取激光雷达与相机之间的旋转平移矩阵。根据标定板的不同姿态获取多组图像和三维点云数据；在图像中检测出标定板，并获取标定板的大小，紧接着在三维点云数据中寻找相同大小的点云区域，将点拟合成线构成矩形；并将多组标定板的顶点二维坐标和三维坐标代入下列公式。

其中Q是一个3×4的转换矩阵，为相机的内参系数，从方程的计算过程可以看出，矩阵中的每个参数都是多个标定内、外参数的符合计算值。只要得到足够数量特征点的对应坐标后，即可计算出变换矩阵Q。利用获取的标定参数通过矩阵运算即可实现激光雷达坐标系和相机坐标系的转换。

点云通过标定得到的转换矩阵投影到图像上，每一时刻都有唯一的点云图与图像对应，从而得到融合图像与三维激光点云结果，如图6所示。从图可以看出，程序将一帧完整的在相机视野范围内的点云通过标定矩阵，投影到相机图像上，从而为某些图像像素赋予了点云深度信息。投影结果中不同颜色表示点云的不同距离，颜色越红，表示目标离雷达坐标系原点越近。

根据上述思路可以得到某些图像像素的空间特征信息，实际应用过程中，需进一步确保每一时刻检测到的中心点都有与之对应的点云深度信息用于计算精准的定位信息。实验采用以检测框中心坐标为准的欧式距离判别法选取中心点的最优近似点。投影的过程中点云与图像像素并非一一对应，即融合后的每一个像素并非都被赋予了点云深度信息，因此在近似过程中不能简单使用检测框中心点的像素坐标来提取深度信息，如图7中的(a)所示，近似点的选取非常关键，选取近似点的步骤如下。

1)选取检测框的中心点p(X₀,Y₀,Z₀)，定义一个正方形框，设定三个像素大小为阈值。如图7中的(b)所示。

2)在点云与图像融合的过程中，筛选出满足正方形框的点q(X_i,Y_i,Z_i)，计算每个点与检测框中心点的欧几里得距离，选取距离最小的点，如图7中的(c)所示。

3)距离最小对应的点定义为最优近似点，最优近似点的点云深度信息近似为检测框中心点的点云深度信息，该点同时具有颜色特征(R，G，B)和空间距离特征(X，Y，Z)。

应用例1：

本应用例给出了一种基于上述实施例的融合视觉和激光雷达的交通场景目标检测及定位方法。本应用例采用的数据集是由德国著名大学和丰田汽车公司两者合作所构建的目前自动驾驶领域中最大的KITTI数据集，该数据集大量用于自动驾驶应用场景下的计算机视觉检测问题。KITTI数据集涵盖的数据全面，覆盖了整个城市中可能出现的各种场景并且包括了场景中多种物体的类别，在喧闹的市区、僻静的农村、车流量大的高速公路均采集到了真实的数据，采集到的图像中行人和车辆的数量能够很好的满足检测的需求，另外，不同的场景中还包括不同程度的遮挡，为后续检测的基准划分了难度区间。数据集中对每个场景都有不同的数据标注格式，并且KITTI数据集对场景中的目标利用3Dbounding box进行了标注。

采用KITTI数据集上7481个训练集训练了一个模型，之后在7518个测试集上进行测试，并通过可视化的形式，展现出了算法在测试集上的部分可视化结果。分别展示了五个不同场景中的检测情况，其中每个场景分别通过2D、3D、点云图三个方面为一组来展示，能够看出对于测试集上的目标，能够大体上通过3D边界框对目标进行标识，红色的预测框与绿色的真值框大体上能够保持重叠。

表1对参考的目标检测模型进行了评估，计算出了不同检测指标下的平均准确率。其中，bbox代表的是2D检测框的准确率，bev代表的是BEV视图下检测框的准确率，3d代表的是3D检测框的准确率，aos代表的是检测目标旋转角度的准确率，对于车辆这个类别来说，分别表示了在IOU最小为0.7时，三种不同难度四个方面的准确率AP，其中难度根据遮挡的程度等有所不同。

表1算法检测结果

如图8、图9和图10所示，是本应用例的算法对于车辆检测在2D、3D和三维点云下的可视化效果图。从图8、图9和图10可以看出，无论是在2D、3D或者是三维点云情况下对车辆能够准确的通过检测框将目标框选出来。

应用例2：

本应用例给出了一种基于上述实施例的融合视觉和激光雷达的交通场景目标检测及定位方法。本应用例中，交通标志的定位信息没有真值，因此本应用例中根据数据集中车辆的定位信息真值定位到真实地图中的位置，根据检测到的交通标志定位信息显示在地图中的逻辑关系与真实交通场景的道路、标志标牌的逻辑关系对比，如图11，图12、图13所示，得出定位算法的准确率较高。

Claims

1.一种融合视觉和激光雷达的交通场景目标检测及定位方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的融合视觉和激光雷达的交通场景目标检测及定位方法，其特征在于，步骤1中，具体包括如下子步骤：

3.如权利要求1所述的融合视觉和激光雷达的交通场景目标检测及定位方法，其特征在于，步骤2中，候选框箱模型的方法用于预测3D边界框信息进而生成预测候选框。

4.如权利要求1所述的融合视觉和激光雷达的交通场景目标检测及定位方法，其特征在于，步骤3中，所述的设置距离的阈值处理中，通过阈值将原始点云分成两类，分别是近处点和远处点。

5.如权利要求3所述的融合视觉和激光雷达的交通场景目标检测及定位方法，其特征在于，步骤3中，所述的NMS算法处理中，用NMS来去除冗余的3D边界框。

6.如权利要求1所述的融合视觉和激光雷达的交通场景目标检测及定位方法，其特征在于，步骤3中，所述的坐标转化处理中，将每个3D proposal的坐标进行转换，转换到以3Dcenter为原点的局部坐标系。

7.如权利要求1所述的融合视觉和激光雷达的交通场景目标检测及定位方法，其特征在于，步骤4中，具体包括如下子步骤：

步骤401，选择YOLO系列目标检测算法对交通标志进行检测；

8.如权利要求1所述的融合视觉和激光雷达的交通场景目标检测及定位方法，其特征在于，步骤四中，所述的检测标志的关键信息为标志类型编号、检测框的左上角坐标和检测框的长宽。