CN110472542A

CN110472542A - 一种基于深度学习的红外图像行人检测方法及检测***

Info

Publication number: CN110472542A
Application number: CN201910716970.4A
Authority: CN
Inventors: 孙立坤; 林保均; 王忠荣; 焦玉海; 吕建峰; 时文忠
Original assignee: Shenzhen Beidou Communications Technology Co Ltd
Current assignee: Shenzhen Beidou Communications Technology Co Ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-11-19

Abstract

本发明提供一种基于深度学习的红外图像行人检测方法及检测***，属于计算机视觉技术领域。本发明红外图像行人检测方法包括如下步骤：获取数据和数据预处理；基于卷积神经网络构建目标检测FIDN网络；基于卷积神经网络构建目标检测FIDN网络；基于最优模型预测，本发明还提供一种实现所述红外图像行人检测方法的检测***。本发明的有益效果为：确保高精度的同时能满足实时性要求，鲁棒性强。

Description

一种基于深度学习的红外图像行人检测方法及检测***

技术领域

本发明涉及一种图像检测方法，尤其涉及一种基于深度学习的红外图像行人检测方法及检测***。

背景技术

目标检测是计算机视觉领域中一个重要的课题，主要任务是从图像中定位感兴趣的目标，需要准确地判断每个目标的具体类别，并给出每个目标的边界框。由于视角、遮挡、姿态等因素引起目标发生形变，导致目标检测成为一个具有挑战性的任务。

传统目标检测方法主要分为预处理、窗口滑动、特征提取、特征选择、特征分类和后处理六个步骤。传统目标检测一般是通过设计一些较好的人工特征，然后使用分类器进行分类。随着目标检测精度和速度要求越来越高，传统方法已经不能满足需求了。近年来，深度学***均精度均值)度量)，会设计出很复杂的网络加一些很复杂的方法和一些训练技巧，然后在公开数据集上得到一个较好的成绩，但是这很难直接应用到实际中去。红外成像是依靠红外传感器的热成像性能来获取图像的，只取决于物体的温度和其所辐射的热量。因此在夜晚、雨天或雾霾等光线强度不足的情况下，红外图像相较于可见光图像有明显的优势。人体目标作为环境中最主要、最活跃的因素，一直以来都是目标跟踪和检测领域的研究热点，而人体目标的非刚性，加之红外图像自身的缺点，使得基于红外图像的行人检测充满了困难与挑战。

发明内容

为解决现有技术中的问题，本发明提供一种基于深度学习的红外图像行人检测方法及检测***，确保高精度的同时能满足实时性要求。

本发明基于深度学习的红外图像行人检测方法包括如下步骤：

步骤S1：获取数据和数据预处理：获取包含行人的红外图像，对红外图像进行预处理，并对预处理后的红外图像进行人工标注，然后按照设定比例划分为检测模型的训练集和验证集；

步骤S2：基于卷积神经网络构建目标检测FIDN网络：所述目标检测FIDN网络包括若干层卷积层和最大池化层，及设置在卷积层和最大池化层后面的扩张卷积层，卷积层的堆叠中，当通道数达到设定值时，扩张卷积层的通道数不再增加；

步骤S3：模型训练：使用训练集对目标检测FIDN网络进行模型训练，并选出在验证集表现最优的最优模型；

步骤S4：最优模型预测：基于最优模型，在GPU服务器上进行预测，实现对视频流进行目标检测。

本发明作进一步改进，步骤S2中，所述目标检测FIDN网络还包括自适应特征图通道加权模块，设置在扩张卷积层输出端，用于对扩张卷积层输出的特征图的通道加权。

本发明作进一步改进，所述自适应特征图通道加权模块的处理方法为：

A1：使用一个全局池化层把特征图压缩为1*1*C，其中，C表示特征图的通道数；

A2：使用全连接层把通道数压缩为C/16；

A3：通过Relu激活函数，使用全连接层把通道数还原为C；

A4：输出结果接sigmoid激活层，得到一个1*1*C的权重向量，经过sigmoid函数处理，所述权重向量内的权重取值在0-1之间；

A5：采用权重对特征图通道维度进行加权。

本发明作进一步改进，步骤S1中，所述预处理包括中值滤波处理，中值滤波公式如下：

g(x,y)＝median{f(x-k,y-l),(k,l)∈W}

其中，f(x,y)和g(x,y)分别为原始图像和处理后图像，W为二维模板。

本发明作进一步改进，人工标注是使用标注工具将每一张图片中的行人都用矩形框框出，矩形框为目标行人的最小外接矩形，对应产生的XML文件，在XML文件中，记录图中每个目标的坐标，包含左上角坐标x，左上角坐标_y，宽度w和高度h，同时删掉图片模糊或者难以标注的图片，将上述数据混合，按照9:1的比例划分为检测模型的训练集和验证集。

本发明作进一步改进，步骤S2中，所述目标检测FIDN网络由7层1*1卷积或者3*3卷积网络构成的全卷积网络，图像上的候选框是在直接在原图像上产生，生成方法如下：

B1：直接把原图像分为S*S个区域，其中S为最后一个卷积的特征图的大小；

B2：在每个区域生成若干个长宽比不同的候选框，具体长宽比根据数据集标记的矩形框使用k-means算法得到；

B3：根据实际数据集计算先验候选框的尺寸分布，使用(1-IoU)作为距离度量，其中IoU表示先验候选框与标记的矩形框之间面积的交并比，计算公式如下：

其中，A表示先验候选框，B表示标记的矩形框，∩表示A与B的交集，∪表示A与B的并集。

本发明作进一步改进，所述目标检测FIDN网络以轻量级卷积神经网络作为骨干网络，根据目标检测算法，使用一个1*1的卷积进行预测，所述目标检测算法的定位损失函数为：

其中，λ是一个控制定位损失在总的损失占比的系数，S表示最后卷积的特征图的大小，A表示每个区域生成锚框的个数，是一个0-1函数，如果第i行j列的区域有目标，取值为1，否则取值0，x,y,h,w分别表示中心点的坐标、预测框的高和宽，其中下标带^表示是真实值，没带^的表示预测值。

本发明作进一步改进，步骤S3中，所述模型训练是指从零开始训练，权重参数使用随机初始化的方法，通过左右翻转、随机裁剪、色彩抖动对数据进行数据增强操作，通过不断调整学习率、批量大小、优化方法的超参数来训练目标检测FIDN网络。

本发明作进一步改进，步骤S4中，所述预测方法为：构建网络的前向推断过程，输入参数为图像数据、返回为预测结果，在对视频进行目标检测时，加入卡尔曼滤波器进行跟踪。

本发明还提供一种实现所述红外图像行人检测方法的检测***，包括：

获取数据模块：用于获取包含行人的红外图像；

数据预处理模块：用于对红外图像进行预处理，并对预处理后的红外图像进行人工标注，然后按照设定比例划分为检测模型的训练集和验证集；

构建目标检测FIDN网络模块：用于基于卷积神经网络构建目标检测FIDN网络，所述目标检测FIDN网络包括若干层卷积层和最大池化层，及设置在卷积层和最大池化层后面的扩张卷积层，卷积层的堆叠中，当通道数达到设定值时，扩张卷积层的通道数不再增加；

模型训练模块：用于使用训练集对目标检测FIDN网络进行模型训练，并选出在验证集表现最优的最优模型；

最优模型预测模块：基于最优模型，在GPU服务器上进行预测，实现对视频流进行目标检测。

与现有技术相比，本发明的有益效果是：充分利用了深度学习准确度高的性质，鲁棒性好，能够适应外界环境的各种变化。通过设计构建FIDN网络，具有较高的精度和极低的计算量，在GPU上可以达到180fps，即使在CPU上也有18fps左右，保证了实时性的要求，具有很高的实用性。

附图说明

图1为本发明方法流程图；

图2为目标检测FIDN网络结构示意图；

图3为特征图通道加权模块处理方法流程图；

图4为原红外图像；

图5为检测后的图像。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

如图1所示，本发明方法构建了FIDN(Fast-Infared-Detect-Network，快速红外目标检测)深度神经网络，包括如下步骤：

步骤S1：获取数据和数据预处理：获取包含行人的红外图像，对红外图像进行预处理，并对预处理后的红外图像进行人工标注，然后按照设定比例划分为检测模型的训练集和验证集。

获取大量包含行人的图片后，因为红外图像通常成像质量不好，需要做一些预处理，然后对于处理之后的红外图像做好人工标注，标注包含两个部分，目标类别和目标包围框。

步骤S2：基于卷积神经网络构建目标检测FIDN网络(简称FIDN网络)：所述目标检测FIDN网络包括若干层卷积层和最大池化层，及设置在卷积层和最大池化层后面的扩张卷积层，卷积层的堆叠中，当通道数达到设定值时，扩张卷积层的通道数不再增加；

步骤S4：最优模型预测：基于最优模型，在GPU服务器上进行预测，实现对视频流进行目标检测，在GPU上可以达到180fps(视频实时检测速度，每秒检测的帧数)以上，具体的预测流程见图3。

在步骤S1中，所述预处理包括中值滤波处理。由于受到外界环境和红外相机成像原理影响，红外图像成像过程会产生较多的噪声，导致图片成像质量不佳，清晰度不够，增加对行人检测和识别的难度，所以在开始要对图像进行预处理和滤除噪声。中值滤波公式如下：

g(x,y)＝median{f(x-k,y-l),(k,l)∈W}

其中，f(x,y)和g(x,y)分别为原始图像和处理后图像，W为二维模板，k,l分别为W中的二维值。

本例的人工标注是指：使用标注工具将每一张图片中的行人都用矩形框框出，矩形框为目标行人的最小外接矩形，对应产生的XML文件。在XML文件中，记录图中每个目标的坐标，包含左上角坐标x，左上角坐标y，宽度w和高度h，同时删掉图片模糊或者难以标注的图片。将上述数据混合，按照9:1的比例划分为检测模型的训练集和验证集，训练集用于模型训练，验证集不参与模型训练，用于验证模型的训练效果。

步骤S2中，所述的FIDN网络是由7层1*1卷积或者3*3卷积网络构成的全卷积网络。本方法的整个流程是一个单阶段检测器，没有在网络中专门产生候选框，本方法的候选框是在直接在原图上产生的，生成方法如下，直接把原图分为S*S个部分(其中S为最后一个卷积的特征图的大小，通常为13*13，原图是416*416)，然后在每个区域生成5个长宽比不同的候选框，具体长宽比是根据数据集标记框使用k-means算法得到的。根据实际数据集计算anchors(先验候选框)的尺寸分布，该分布由K-means算法得到，使用(1-IoU)作为距离度量，其中IoU表示先验候选框与标记框之间面积的交并比。计算公式如下：

如图2所示，其中conv表示卷积层，Dilated conv表示扩张卷积，maxpool是最大值池化，预测部分是一个1*1的卷积，本例的目标检测FIDN网络所述目标检测FIDN网络包括5层卷积层和最大池化层，及设置在卷积层和最大池化层后面的2个扩张卷积层，卷积层的堆叠中，当通道数达到设定值256时，扩张卷积层的通道数256不再增加。

最后两个卷积层使用Dilated Convolution(扩张卷积)，扩张卷积的最大优点在于不做池化或者下采样的操作，可以增大感受野，让每个卷积输出都包含较大范围的信息，同时尽可能保留较大的特征图和图像的空间信息，这对于小目标检测非常关键。对于目标检测问题，使用扩张卷积可以极大的保留空间信息。使用扩张卷积时，由于特征图不减小，这会极大增加计算量，与一般的网络结构不同，FIDN网络在最后一个模块里，所有卷积的通道数都设置为256，由于压缩了层数，我们在该层卷积之后附加了一个自适应特征图通道加权模块，自适应特征图通道加权模块，设置在扩张卷积层输出端，用于对扩张卷积层输出的特征图的通道加权。

如图3所示，所述自适应特征图通道加权模块的处理方法为：

A1：使用一个全局池化层把特征图压缩为1*1*C，其中，C表示特征图的通道数，此处为256；

A2：使用全连接层把通道数压缩为C/16；

A3：再接Relu激活函数，通过Relu激活函数，使用全连接层把通道数还原为C；

A4：输出结果接sigmoid激活层，相当于得到了一个1*1*C的权重向量，经过sigmoid函数处理，所述权重向量内的权重取值在0-1之间，作为之前卷积层输出特征图的通道加权，让网络自己学习通道的权重，因为特征图这么多通道中不同的通道有不同作用和不同的重要程度；

A5：采用权重对特征图通道维度进行加权，

图3中，conv表示卷积层，avgpool表示平均池化层，fc表示全连接层，ReLU表示使用relu函数作为激活函数，Sigmoid表示使用sigmoid函数作为激活层。ReWeight表示根据右边支路得到的权重对特征图通道维度进行加权。

实验证明，该卷积层通道数是256(记为FIDN-256网络)和通道数是1024(记为FIDN-1024网络)相比，在自建数据集上，检测精度分别为80.1％(FIDN-256网络)和80.6％(FIND-1024网络)。整个FIDN网络结构见图2所示，整个网络以轻量级卷积神经网络作为骨干网络，检测部分与大部分常见的一步目标检测算法类似，使用一个全连接层进行预测，FIDN使用一个1*1的卷积进行预测。本例在网络的损失函数部分做了改进，在目标检测算法中，损失函数通常包含两个部分，分别为定位损失和分类识别损失。对于定位损失，考虑到不同大小的目标检测框对损失的影响是不一样的，因此，本例设置了如下的定位损失函数：

其中，λ是一个控制定位损失在总的损失占比的系数，默认是5，因为定位损失相对分类损失更重要，所以占比更重。S表示最后卷积的特征图的大小，A表示每个区域生成锚框的个数，默认是5，是一个0-1函数，如果第i行j列的区域有目标，取值为1，否则取值0.x,y,h,w分别表示中心点的坐标，和预测框的高和宽，其中下标带了^表示是真实值，没带的表示预测值。

步骤S3中，所述模型训练是指从零开始训练，因为网络比较小，直接从零开始训练也很快，也没有过拟合风险，直接在步骤S1中的数据集上进行训练，权重参数全部使用随机初始化的方法，对数据进行水平翻转、随机裁剪、色彩抖动等数据增强操作，不断调整学习率、批量大小(batch_size)、优化方法等超参数来训练FIDN网络。

所述最优模型是：在训练过程，每经过1轮(1轮是指数据集中所有图片都被训练一次)存储一次模型，一般情况，训练60轮即可。并将该模型在验证集测试，根据行人检测的精度mAP选择最优模型。

步骤S4中，所述的预测方法是：构建网络的前向推断过程，前向推断过程的网络结构与训练时的结构是相同的，只是没有计算损失和回传损失的过程。输入参数为图像数据、返回为预测结果，输入图片做一个简单的预处理，然后传给网络的输入，该网络可以自适应任何尺寸的图片，网络内部会自动做缩放。并可以进行一定后处理，在对视频进行目标检测时，通过加入卡尔曼滤波器进行跟踪，使得检测过程更加平滑和稳定。对图4经过本发明的目标检测方法检测的结果如图5所示。

本发明的基于深度学习红外行人检测方法充分利用了深度学习准确度高的性质，鲁棒性好，能够适应外界环境的各种变化。通过设计构建FIDN网络，该网络有较高的精度和极低的计算量，在GPU上可以达到180fps，即使在CPU上也有18fps左右，保证了实时性的要求，具有很高的实用性。

本发明具有以下两点主要创新点：

(1)设计新的目标检测网络FIDN。本方法提出了一种新的高效目标检测网络，用于红外图像行人检测，是一种单阶段目标检测方法，通过k-means方法得到数据集的先验候选框的分布，然后使用回归的方法进行目标框的定位。整个网络只有7个卷积层(不包括通道加权的部分)，包含一些卷积层和最大池化层，然后最后使用扩张卷积不减小特征图的尺寸和足够的感受野，对行人检测的精度提升有帮助。在卷积层的堆叠中，并没有像常规网络那样一直把通道数进行翻倍，当通道数为256时，通道数就不再增加，这样可以极大减少计算量。

(2)设计自适应特征图通道加权方法。由于在设计网络时，没有像常规做法对通道数进行翻倍，这样做减少了特征图通道数，会对效果有一定影响，本发明设计了一个自适应特征图通道加权的方法，因为特征图的通道数通常很多，几百甚至上千，但是他们提供的信息和重要程度是不一样的，而本发明设计的自适应特征图通道加权方法可以通过网络自己学习出一套加权参数，然后融入到特征图中，并且这个方法有一定的通用性，可以加到很多网络中，可以自由选择加到部分卷积层后面进行特征图通道加权。

以上所述之具体实施方式为本发明的较佳实施方式，并非以此限定本发明的具体实施范围，本发明的范围包括并不限于本具体实施方式，凡依照本发明所作的等效变化均在本发明的保护范围内。

Claims

1.一种基于深度学习的红外图像行人检测方法，其特征在于，所述红外图像行人检测方法包括如下步骤：

2.根据权利要求1所述的红外图像行人检测方法，其特征在于：步骤S2中，所述目标检测FIDN网络还包括自适应特征图通道加权模块，设置在扩张卷积层输出端，用于对扩张卷积层输出的特征图的通道加权。

3.根据权利要求2所述的红外图像行人检测方法，其特征在于：所述自适应特征图通道加权模块的处理方法为：

A2：使用全连接层把通道数压缩为C/16；

A3：通过Relu激活函数，使用全连接层把通道数还原为C；

A5：采用权重对特征图通道维度进行加权。

4.根据权利要求1-3任一项所述的红外图像行人检测方法，其特征在于：步骤S1中，所述预处理包括中值滤波处理，中值滤波公式如下：

g(x,y)＝median{fx-k,y-l),(k,l)∈W}

5.根据权利要求4所述的红外图像行人检测方法，其特征在于：人工标注是使用标注工具将每一张图片中的行人都用矩形框框出，矩形框为目标行人的最小外接矩形，对应产生的XML文件，在XML文件中，记录图中每个目标的坐标，包含左上角坐标x，左上角坐标y，宽度w和高度h，同时删掉图片模糊或者难以标注的图片，将上述数据混合，按照9:1的比例划分为检测模型的训练集和验证集。

6.根据权利要求5所述的红外图像行人检测方法，其特征在于：步骤S2中，所述目标检测FIDN网络由7层1*1卷积或者3*3卷积网络构成的全卷积网络，图像上的候选框是在直接在原图像上产生，生成方法如下：

7.根据权利要求6所述的红外图像行人检测方法，其特征在于：所述目标检测FIDN网络以轻量级卷积神经网络作为骨干网络，根据目标检测算法，使用一个1*1的卷积进行预测，所述目标检测算法的定位损失函数为：

8.根据权利要求1-3任一项所述的红外图像行人检测方法，其特征在于：步骤S3中，所述模型训练是指从零开始训练，权重参数使用随机初始化的方法，通过左右翻转、随机裁剪、色彩抖动对数据进行数据增强操作，通过不断调整学习率、批量大小、优化方法的超参数来训练目标检测FIDN网络。

9.根据权利要求8所述的红外图像行人检测方法，其特征在于：步骤S4中，所述预测方法为：构建网络的前向推断过程，输入参数为图像数据、返回为预测结果，在对视频进行目标检测时，加入卡尔曼滤波器进行跟踪。

10.一种实现权利要求1-9任一项所述的红外图像行人检测方法的检测***，其特征在于，包括：

获取数据模块：用于获取包含行人的红外图像；