CN111104903B

CN111104903B - 一种深度感知交通场景多目标检测方法和***

Info

Publication number: CN111104903B
Application number: CN201911317498.3A
Authority: CN
Inventors: 张登银; 彭巧; 孙誉焯; 周超; 刘子捷
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: China Austria Internet Of Things Technology Nanjing Co ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2022-07-26
Anticipated expiration: 2039-12-19
Also published as: CN111104903A

Abstract

本发明公开了一种深度感知交通场景多目标检测方法和***，包括将待检测图片输入至预先训练完成的Mask R‑CNN模型识别出第一类目标的类别以及目标位置；将识别完成的图片输入至预先训练完成的优化的CNN模型，检测出该图片中第二类目标的类别、置信度以及目标位置。本发明能够充分考虑交通场景复杂以及现有的目标跟踪算法存在严重的小目标漏检的问题，提出一种优化的CNN模型，在原始CNN网络的优点上，将特征提取网络和检测网络进行优化，训练生成新的模型以进行小目标检测。这种在大目标检测结果上进行小目标检测的方法，可以增强交通场景下多目标的检测效果，并提高小目标识别的准确性。

Description

一种深度感知交通场景多目标检测方法和***

技术领域

本发明涉及一种深度感知交通场景多目标检测方法和***，属于视频图像处理技术领域。

背景技术

基于视觉的交通场景感知（TSP）是智能交通***中众多新兴领域之一，在过去的十年中，这一研究领域得到了广泛研究。TSP旨在提取准确的实时道路信息，对于图像中包含的各种研究对象通常涉及到三个阶段：检测，识别和跟踪。由于跟踪通常依赖于检测和识别的结果，因此有效检测识别研究对象的能力在TSP中起着至关重要的作用，它也一直是识别图像或视频中多目标对象的经典问题。

除了传统的图像处理技术，CNN是用于常见的图像分类识别检测任务的强大而有效的方法，延伸出许多优秀的模型和思想。早期的Overfeat在ConvNet中采用滑动窗口选择搜索以进行分类、本地化和检测，Ross Girshick通过使用深层的ConvNet对对象进行分类，提出了Region-CNN（R-CNN）。由于计算时间和空间上的缺陷，他在基于快速区域的卷积网络（Fast-RCNN）上采用了池化层，以提高速度和检测精度。后来，更高效的Faster R-CNN基于上述被提出，它直接引入了一个新的区域提议网络以获取候选区域。Mask R-CNN以FasterR-CNN原型，增加了一个分支用于分割任务。这一系列模型在架构上有几个相似之处，一个是它们都是CNN的骨干网，起源于基本的CNN；另一个是增加了一些额外的提议层，例如ROI池和RPN层，它们可以有效地处理主干CNN的特征图。

作为一种典型的深度学习模型，CNN由于其强大的特征提取能力而在对象检测方面可以取得出色的性能，但对于一些重要的小视觉对象，如车牌、车内乘客等，它们的标签和信息不足，增加了交通场景信息采集以及深度学习开发的难度。

发明内容

本发明旨在解决上述现有技术存在的对于一些重要的小视觉对象，如车牌、车内乘客等，它们的标签和信息不足的问题，提供一种深度感知交通场景多目标检测方法和***。

本发明采用以下技术方案：

一种交通场景感知的多目标检测方法，包括以下步骤：

将待检测图片输入至预先训练完成的Mask R-CNN模型提取出第一类目标的类别以及目标位置；

将识别完成的图片输入值预先训练完成的优化的CNN模型，检测出该图片中第二类目标的类别、置信度以及目标位置。

进一步地，所述优化的CNN模型包括特征提取网络和物体检测网络，所述特征提取网络，用于检测图片的输入特征获得特征图；所述物体检测网络，对待检测图片进行检测，输出该图片中第二类目标的类别、置信度以及目标位置。

进一步优选地，所述优化的CNN模型包括特征提取网络和物体检测网络，所述特征提取网络结构包括8层，从第1层到第8层分别为第一卷积神经网络层、第一最大池化层、第二卷积神经网络层、第三卷积神经网络层、第二最大池化层、第四卷积神经网络层、第五卷积神经网络层和第三最大池化层；

所述物体检测网络包括三层，第一层是第六卷积神经网络层，第二层是并列的两个卷积神经网络层第七神经网络层和第八神经网络，并同时连接第六神经网络层，第三层是分别连接层第七神经网络层和第八层神经网络层的第九神经网络层和第十神经网络层，所述第九神经网络层输出目标的置信度和目标位置，所述第十神经网络层输出目标的类别。优选的，第一卷积神经网络层为归一化层。

在以上技术方案的基础上，进一步优选地，第一卷积神经网络层内核采用11×11，第一卷积神经网络层首先在输入图像中起作用，以保留低级但丰富的细节。第二卷积神经网络层和第三卷积神经网络层以及第四卷积神经网络层和第五卷积神经网络层均为3×3卷积层，使用两个3×3卷积层这种分解卷积的方法，可以引入较少的参数，较少的参数可以实现简化过拟合并且表达更强大的功能，然后进行批归一化。最大池化层的作用是计算每个标识的n×n区域中的最大值，以实现图像下采样。它有助于简化网络计算复杂性，压缩输入特征图并提取主要特征。

所述物体检测网络包括三层，第一层是第六卷积神经网络层，第二层是并列的两个卷积神经网络层第七神经网络层和第八神经网络，并同时连接第六神经网络层，第三层是分别连接层第七神经网络层和第八层神经网络层的第九神经网络层和第十神经网络层，所述第九神经网络层输出目标的置信度和目标位置，所述第十神经网络层输出目标的类别。优选的，第一卷积神经网络层为归一化层。其中第七神经网络层和第九神经网络层为内核为1×1的卷积层。

以上技术方案中特征提取网络设计一种集成了不同卷积层，局部归一化层和最大池化层的网络，尽可能多地获取目标的详细特征，得到待检测图像的特征图；将特征图输入检测网络，实现从特征图像当中获取到的像素级的目标特征输入进去，可以实现对图像当中目标逐元素进行分类和定位，生成预测对象边界，并且输出预测边界框和地面实况之间的差值。

另一方面，本发明提供了一种深度感知交通场景多目标检测***，其特征在于，

Mask R-CNN模型，用于将待检测图片输入识别出第一类目标的类别以及目标位置；

优化的CNN模型，用于将输入Mask R-CNN模型识别完成的图片，检测出该图片中第二类目标的类别、置信度以及目标位置。

本发明所达到的有益技术效果：

第一，本发明采用Mask R-CNN进行大目标对象检测，得到每张图片中可以清晰检测出来的大目标对象。本发明选用Mask R-CNN这种网络，不仅可以检测对象,而且能从输入图像中对它们进行分割，但是本发明只保留由MASK R-CNN分割出来的尺寸较“大”且清晰的目标对象，因为尺寸较“小”且不清晰的目标对象会导致目标对象识别出现错误；

第二，本发明采用优化的特征提取器和检测器来进行小目标检测。特征提取器的核心是集成了不同卷积层，局部归一化层和最大池化层的网络，旨在尽可能多地获取小目标的详细特征；检测器的核心是采用1×1卷积核代替普通的全连接层。由于这种1×1卷积核含有局部接收域，因此它们可以在较大的输入图像上滑动以获取多个输出，而不管大小不同的输入图像如何。因此，这种转换提高了中性网络前向传播的效率，并增强了CNN的学习能力，节省了大量时间开销。

附图说明

图1为本发明具体实施例方法的流程示意图。

图2 为本发明具体实施例采用的MASK R-CNN模型结构图；

图3 为本发明具体实施例中用于小目标检测的优化的CNN算法的训练流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明结合Mask R-CNN和一种改进的基于CNN的优化模型，适用于多目标检测。优化之后的小目标检测网络部分的特征提取网络从较低层的细粒度细节中学习大量信息，并通过合理增加特征图的尺寸和下采样来丰富小目标的表示。通过充分利用卷积层，对检测部分进行了训练，可以很好地分类和检测各类目标的输入特征。本发明以全卷积的方式进一步优化专用检测器，并将这种深度学习应用于交通场景。优化的CNN检测器总体架构由特征提取器和检测器组成，特征提取器由不同的卷积层、最大池化层和局部归一化层组成，检测器主要用于“带有损失的Softmax”和边界框回归的分类和定位任务。标准的全连接层通常会引入大量参数。因此，用1×1卷积核代替全连接层是有效的，有利于减少计算量。

如图1所示为本发明具体实施例的方法流程图，本实施例采用PASCAL VOC数据集的格式及评价算法工具，选取其中四类目标对象：车辆、人、交通标志、车牌，并进行格式转换，生成训练集。采集实际生活当中需要测试的图片，依据上述生成数据集的方法制作我们的测试集。

以下结合图1和实例对本发明的实施作进一步说明。图1示出了本实施例提供的一种深度感知交通场景多目标检测方法，包括：

S1、采用PASCAL VOC数据集的格式及评价算法工具。首先，转换KITTI的类别：PASCAL VOC总共有20个类别，在城市交通场景中，重点检测对象为车辆、人、交通标志、车牌这四种，因此将数据集分为上述4种类别；其次，转换标注信息：将标注文件从txt转化为xml，去掉标注中的其他信息，只留下车辆、人、交通标志、车牌这四类；最后，生成需要训练集。同理，采集实际生活当中需要测试的图片，依据上述方法生成本实施例的测试集。

S2、针对图像当中包含的大目标，本实施例将训练集输入到原始的Mask R-CNN网络当中进行训练，生成网络模型，如图2所示。本实施例选用Mask R-CNN这种网络，不仅可以检测对象，而且能从输入图像中对它们进行分割，但是本实施例只保留由MASK R-CNN分割出来的尺寸较“大”且清晰的目标对象，也就是第一类目标，因为尺寸较“小”且不清晰的目标对象会导致目标对象识别错误。需要说明的是，Mask R-CNN网络是现有技术，其构建和训练方法为本领域的公知常识，在此不赘述。

S3、其次，对于标签和信息不足的小尺寸对象，本实施例将PASCAL VOC数据集中的训练集输入进本实施例设计的优化CNN检测器的网络架构来进行训练，并生成网络模型。这个网络结构分为两部分，特征提取网络和检测网络。

（1）特征提取网络部分，本实施例使用集成了不同卷积层，局部归一化层和最大池化层的网络，如图3所示。

图3示出了特征提取网络结构包括8层，从第1层到第8层分别为第一卷积神经网络层、第一最大池化层、第二卷积神经网络层、第三卷积神经网络层、第二最大池化层、第四卷积神经网络层、第五卷积神经网络层和第三最大池化层；

优选的，第一卷积神经网络层为归一化层。

多个具有非线性激活功能的卷积层，有助于增强非线性扩展的能力，相比单个卷积层而言，对于图像中多目标能正确处理，并尽可能多地获取目标的详细特征。网络从Conv1开始逐渐加深，并以较小的维度论证图像当中小目标也就是第二类目标（例如：车牌、车内乘客等）的表示，输出结果是本实施例下一步检测部分需要输入的特征图。Conv1中的一个大内核（11×11）首先在输入图像中起作用，以保留低级但丰富的细节。然后，将生成的特征传递到两个3×3卷积层中，如图2所示两个5x5卷积层分解成conv2和conv3两个3x3卷积层，和conv4和conv5两个3x3卷积层。这里，本实施例将VGG Net中的5×5内核替换两个较小的连续3×3卷积层的优点在于：第一，这种多个卷积层的结构具有非线性功能，有助于增强非线性扩展的能力，比单个5×5卷积层能提取到更深层次的特征；第二，使用两个3×3卷积层这种分解卷积的方法，可以引入较少的参数，因为本实施例假设卷积层的输入通道和输出通道分别为C和D，则将单个5×5内核的参数实现为5×5×C×D = 25×C×D，而两个3的组合×3卷积层只有2×（3×3×C×D）= 18×C×D，这使参数减少了25/18 = 1.4倍。较少的参数可以实现简化过拟合并且表达更强大的功能。

最大池化层的作用是计算每个标识的n×n区域中的最大值，以实现图像下采样。它有助于简化网络计算复杂性，压缩输入特征图并提取主要特征。

（2）检测网络部分，是用于完成分类和定位的任务。它分为两个分支，分别表示为“Output_type”和“Output_bbox”。

“Output_type”分支实际上起着将像素级的对象进行分类的作用。这里将传统网络（如VGG Net ）中的完全连接层替换为Conv7和Conv9两个卷积层。这样，经过转换后的网络得到的输出结果（不包括softmax层）就不再是类别，而是热图。下一步是进行逐元素分类预测：逐像素计算1000个图像中相同像素的最大数值概率，并将其视为像素类别。最后，利用“ Softmax有损失”层来计算此任务中的损失函数。

“Output_bbox”分支实现了对目标的定位，它是由相似的全卷积层组成。它可以预测对象边界，并输出预测的边界框（ x _min ， y _min ， w ， h ）和地面实况之间的差值。

S4、将测试集（待检测图片）输入到训练好的Mask R-CNN模型检测图像当中大目标的类别、置信度以及目标位置，识别大目标完成的图片保存为新的测试集；再将新的测试集输入已经训练好的优化的CNN模型中，检测出该图像中小目标的类别、置信度以及目标位置。

本实施例中优化的CNN模型结构参数见表1。

表1 优化的CNN模型结构参数

另一实施例提供了一种深度感知交通场景多目标检测***，包括：

在以上实施例基础上，进一步地，所述优化的CNN模型包括特征提取网络和物体检测网络，所述特征提取网络，用于检测图片的输入特征获得特征图；所述物体检测网络，对待检测图片进行检测，输出该图片中第二类目标的类别、置信度以及目标位置。

本实施例中Mask R-CNN模型和优化的CNN模型的具体实现方式如上述方法实施例相同，不再叙述。

本发明将交通场景多目标的检测分为：大目标检测和小目标检测两部分。第一部分针对大目标，包括：车辆、交通标志、行人，采用Mask R-CNN模型对输入图像中目标对象进行识别并分割；第二部分针对小目标，包括：车牌、车内乘客，提出一种优化的CNN模型，在原始CNN网络的优点上，将特征提取网络和检测网络进行优化，训练生成新的模型以进行小目标检测。这种在大目标检测结果上进行小目标检测的方法可以增强交通场景下多目标的检测，并提高小目标识别的准确性，为实际交通场景中多目标的检测提供了性能良好的模型。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种深度感知交通场景多目标检测方法，其特征在于，包括：

将待检测图片输入至预先训练完成的Mask R-CNN模型识别出第一类目标的类别以及目标位置；

将识别完成的图片输入至预先训练完成的优化的CNN模型，检测出该图片中第二类目标的类别、置信度以及目标位置；

所述优化的CNN模型包括特征提取网络和物体检测网络，所述特征提取网络，用于检测图片的输入特征获得特征图；所述物体检测网络，对待检测图片进行检测，输出该图片中第二类目标的类别、置信度以及目标位置；

所述物体检测网络包括三层，第一层是第六卷积神经网络层，第二层是并列的两个卷积神经网络层第七神经网络层和第八神经网络，并同时连接第六神经网络层，第三层是分别连接层第七神经网络层和第八层神经网络层的第九神经网络层和第十神经网络层，所述第九神经网络层输出目标的置信度和目标位置，所述第十神经网络层输出目标的类别。

2.根据权利要求1所述的一种深度感知交通场景多目标检测方法，其特征在于，所述特征提取网络结构包括8层，从第1层到第8层分别为第一卷积神经网络层、第一最大池化层、第二卷积神经网络层、第三卷积神经网络层、第二最大池化层、第四卷积神经网络层、第五卷积神经网络层和第三最大池化层。

3.根据权利要求2所述的一种深度感知交通场景多目标检测方法，其特征在于，第一卷积神经网络层为归一化层。

4.一种深度感知交通场景多目标检测***，其特征在于，

优化的CNN模型，用于将输入Mask R-CNN模型识别完成的图片，检测出该图片中第二类目标的类别、置信度以及目标位置；

5.根据权利要求4所述的一种深度感知交通场景多目标检测***，其特征在于，所述优化的CNN模型包括特征提取网络和物体检测网络，所述特征提取网络，用于检测图片的输入特征获得特征图；所述物体检测网络，对待检测图片进行检测，输出该图片中第二类目标的类别、置信度以及目标位置。