CN109522855B

CN109522855B - 结合ResNet和SENet的低分辨率行人检测方法、***及存储介质

Info

Publication number: CN109522855B
Application number: CN201811403739.1A
Authority: CN
Inventors: 赵清利; 梁添才; 金晓峰; 徐天适
Original assignee: Shenzhen Grg Banking Financial Electronic Technology Co ltd; GRG Banking Equipment Co Ltd
Current assignee: Shenzhen Grg Banking Financial Electronic Technology Co ltd; GRG Banking Equipment Co Ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2020-07-14
Anticipated expiration: 2038-11-23
Also published as: CN109522855A

Abstract

本发明涉及图像处理技术，具体为低分辨率行人检测方法、***及存储介质。本发明方法包括训练过程和测试过程，训练过程首先确定训练集、训练过程的参数；然后按批处理大小依次输入图片，提取训练图片的多尺度特征，并对浅层特征进行重构和增强，形成新的多尺度检测框架；最后进行框的分类和位置的回归，计算训练损失并反向传播，更新权重参数。测试过程首先是确定测试集，将训练过程得到的模型作为算法的测试模型，依次小批量输入测试图片、提取多尺度特征、对浅层特征进行重构和增强，然后进行框的分类和位置的回归。本发明采用深度学习网络，对浅层特征进行重构，同时提高浅层特征的有效性，以增强对低分辨率行人的检测能力。

Description

结合ResNet和SENet的低分辨率行人检测方法、***及存储介质

技术领域

本发明涉及图像处理技术，具体为一种低分辨率行人检测方法、***及存储介质。

背景技术

行人检测是判断目标图像或者视频中是否存在行人，如果有则需要对检测出的行人进行精确定位。行人检测作为计算机视觉中一个极具挑战性的研究热点，它在智能交通、视频监控、机器人开发等领域具有重要的应用。因此，研究高性能的行人检测***具有重要的研究意义与重大的应用价值。

近几年深度学习的火热带动了行人检测技术的发展，行人检测逐渐由传统方法转向使用深度学习方法来进行，深度学习方法在检测速度与实时性方面都有一个很大的突破。

深度学习方法主要分为一步检测法与两步检测法，相比于两步检测法，一步检测能够将特征提取与特征分类进行统一，实现端到端的检测。2016年Wei Liu等人在ECCV会议上发表论文《SSD:Single Shot MultiBox Detector》，所提出的SSD算法作为一步检测法的代表，使用多尺度检测框架提取行人不同层次的特征，实现多尺度检测，在提高检测精度的同时满足算法检测的实时性。行人检测算法的优化得益于深度学习网络的发展和完善，如2015年Kaiming He等人提出的ResNet(Residual Network)通过增加网络的层数并使用残差结构来提升网络特征提取的能力，2017年Jie Hu等人提出的SENet(Squeeze andExcitation Network)通过显式地建模通道之间的相互依赖关系，自适应地重新校准通道的特征响应，能够增强网络特征的有效性。

由于人距离拍摄的相机有远近之分，人的身材也有高矮之别，因此，即使在同一张图像里，行人的分辨率大小往往也会相差很大。当摄像头的视角很大时，远处行人的分辨率变得很低，行人本身变得十分模糊。低分辨率行人不好检测主要是因为行人包含的有效信息十分有限，再加上各种噪声的干扰，使得低分辨率行人的检测变得十分困难。

现阶段的低分辨率行人检测方法大部分是在现有算法的基础上进行修改，使其针对低分辨率行人进行检测。目前国内外没有专门针对低分辨率行人的数据库，针对低分辨率行人检测的研究较少，低分辨率行人的检测效果并不理想，限制了行人检测的应用。

现有SSD算法对低分辨率行人检测不够鲁棒，主要存在以下三个方面的问题：

(1)内置网络的特征提取能力

SSD算法内置网络采用VGG16(Visual Geometry Group 16)，VGG网络于2014年提出，通过加深网络层数及减小卷积核的大小来提升网络特征提取的能力。VGG16网络虽然包含了16层，但是其网络的深度还是不够，提取信息的能力有限。

(2)浅层网络的检测能力

SSD算法采用多尺度框架来进行行人检测，使用浅层网络来提取低分辨率行人的特征，使用深层网络来提取高分辨率行人的特征，从而实现多个分辨率尺度的行人检测。然而浅层网络提取的是一些低层次的特征，语义区分性比较差，不能较好地表示行人。

(3)浅层网络特征的有效性

SSD算法直接采用浅层网络提取的特征进行分类和回归来检测低分辨率行人，由于低分辨率行人包含的有效特征是十分有限的，浅层网络提取的特征有可能受到各类噪声的干扰，从而影响低分辨率行人的检测，因此SSD算法浅层网络所提取特征的有效性不能保证。

发明内容

本发明的目的在于改进现有技术对低分辨率行人的检测性能，提出结合ResNet和SENet的低分辨率行人检测方法。该方法将SSD算法的内置网络替换为更深层的深度学习网络，对浅层特征进行重构，同时提高浅层特征的有效性，以增强对低分辨率行人的检测能力。

本发明的另一目的是提出结合ResNet和SENet的低分辨率行人检测***。

本发明的再一目的是提出一种存储介质。

本发明的目的通过以下技术方案来实现：结合ResNet和SENet的低分辨率行人检测方法，包括训练过程和测试过程，所述训练过程包含以下步骤：

步骤11、确定所需的行人数据集，把数据集按照一定的比例划分为训练集和测试集，将训练集转化为合适的输入格式用于模型训练；

步骤12、确定模型训练过程所需的预训练模型，在预训练模型的基础上进行训练，确定训练过程的训练参数；训练参数包括训练的总迭代次数、模型迭代的批处理大小、学习率；

步骤13、按照设定的批处理大小将小批量训练数据送入已训练的基础网络，经过基础网络逐层的语义信息抽取后，由基础网络的多尺度检测框架进行特征提取，通过基础网络的浅层网络提取低分辨率行人的特征，通过基础网络的深层网络提取高分辨率行人的特征；

步骤14、通过浅层特征重构层将多尺度检测框架中深层网络的特征信息叠加到浅层网络的特征中，对多尺度检测框架中浅层网络的特征层进行重构；

步骤15、对浅层特征重构层进行特征增强操作，将增强后的重构层代替原始多尺度检测框架中最浅层网络的特征提取层，与其他的特征提取层重新组合形成新的多尺度检测框架；

步骤16、对新的多尺度检测框架进行分类和回归，求得行人的类别和位置；

步骤17、计算训练损失，并将训练损失进行反向传播，更新权重参数；

步骤18、判断是否完成训练的总迭代次数，若完成总迭代次数，则终止模型的训练；否则返回步骤13继续训练；

所述测试过程包含以下步骤：

步骤21、确定测试集并转化为合适的输入格式用于模型测试；

步骤22、将训练过程训练得到的模型作为测试模型，确定测试过程的批处理大小；

步骤23、按照设定的批处理大小将小批量测试数据送入测试基础网络，经过基础网络逐层的语义信息抽取后，由基础网络的多尺度检测框架进行特征提取，通过基础网络的浅层网络提取低分辨率行人的特征，通过基础网络的深层网络提取高分辨率行人的特征；

步骤24、通过浅层特征重构层将多尺度检测框架中深层网络的特征信息叠加到浅层网络的特征中，对多尺度检测框架中浅层网络的特征层进行重构；

步骤25、对浅层特征重构层进行特征增强操作，将增强后的重构层代替原始多尺度检测框架中最浅层网络的特征提取层，与其他特征提取层重新组合形成新的多尺度检测框架；

步骤26、对新的多尺度检测框架进行分类和回归，求得行人的类别和位置；

步骤27、若测试图片取完，则完成模型的测试；否则返回步骤23继续测试。

本发明的另一目的采用如下技术方案来实现：结合ResNet和SENet的低分辨率行人检测***，包括训练网络和测试网络，其中训练网络用于实现以下过程：

确定所需的行人数据集，把数据集按照一定的比例划分为训练集和测试集，将训练集转化为合适的输入格式用于模型训练；

确定模型训练过程所需的预训练模型，在预训练模型的基础上进行训练，确定训练过程的训练参数；训练参数包括训练的总迭代次数、模型迭代的批处理大小、学习率；

按照设定的批处理大小将小批量训练数据送入已训练的基础网络，经过基础网络逐层的语义信息抽取后，由基础网络的多尺度检测框架进行特征提取，通过基础网络的浅层网络提取低分辨率行人的特征，通过基础网络的深层网络提取高分辨率行人的特征；

通过浅层特征重构层将多尺度检测框架中深层网络的特征信息叠加到浅层网络的特征中，对多尺度检测框架中浅层网络的特征层进行重构；

对浅层特征重构层进行特征增强操作，将增强后的重构层代替原始多尺度检测框架中最浅层网络的特征提取层，与其他的特征提取层重新组合形成新的多尺度检测框架；

对新的多尺度检测框架进行分类和回归，求得行人的类别和位置；

计算训练损失，并将训练损失进行反向传播，更新权重参数；

判断是否完成训练的总迭代次数，若完成总迭代次数，则终止模型的训练；否则继续训练；

测试网络用于实现以下过程：

确定测试集并转化为合适的输入格式用于模型测试；

将训练过程训练得到的模型作为测试模型，确定测试过程的批处理大小；

按照设定的批处理大小将小批量测试数据送入测试基础网络，经过基础网络逐层的语义信息抽取后，由基础网络的多尺度检测框架进行特征提取，通过基础网络的浅层网络提取低分辨率行人的特征，通过基础网络的深层网络提取高分辨率行人的特征；

对浅层特征重构层进行特征增强操作，将增强后的重构层代替原始多尺度检测框架中最浅层网络的特征提取层，与其他特征提取层重新组合形成新的多尺度检测框架；

若测试图片取完，则完成模型的测试；否则继续测试。

本发明的再一目的采用如下技术方案来实现：一种存储介质，存储有程序，所述程序被处理器执行时，实现上述低分辨率行人检测方法。

本发明所提出的结合ResNet和SENet的低分辨率行人检测方法、***及存储介质，是在SSD算法的基础上进行改进，通过替换内置网络、重构浅层特征和增强浅层特征来改善低分辨率行人的特征表示，提高了算法对低分辨率行人的检测性能。与现有技术相比，所取得的有益效果具体包括：

(1)增强了内置网络的特征提取能力

本发明方法将SSD算法的内置网络由VGG16替换成ResNet101，通过将内置的基础网络层数增加到101层来提取更为丰富的语义特征，同时使用残差结构避免了网络加深带来的梯度消失问题，使得内置网络的特征提取能力得以增强。

(2)增强了浅层网络的检测能力

本发明方法将对SSD算法浅层网络的特征进行重构，将深层网络的高级语义信息叠加到浅层网络的特征中，通过上下文信息的流动使得重构的浅层特征能够增强特征的语义区分性，能更好地表示低分辨率行人，从而增强浅层网络的检测能力。

(3)增强了浅层网络特征的有效性

本发明方法使用SENet网络对浅层网络重构的特征进行增强，通过SENet的挤压和激励操作来抑制浅层特征中的无效的噪声信息，增强有效特征，使得浅层特征能更为有效准确地被提取出来。

附图说明

图1是本发明方法的网络结构图；

图2是本发明方法浅层特征重构的结构图；

图3是本发明方法浅层特征增强的结构图；

图4是本发明方法训练过程的流程框图；

图5是本发明方法测试过程的流程框图；

图6是本发明方法与SSD算法在Caltech测试数据集上30-50像素高度行人检测结果的FPPI-Miss rate曲线图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本发明方法在SSD算法的基础上将内置基础网络由VGG16换成了ResNet101，同时增加了浅层特征重构层和浅层特征增强层，使得本发明方法对低分辨率行人的检测能力得以提高。

如图2，本发明在进行浅层网络的特征重构时，将深层网络的特征进行反卷积操作，使其与浅层网络的特征图大小相同，再把两个特征图进行叠加得到重构的特征图。本发明首先是将res5c_relu/conv1_2进行反卷积操作使其与res5c大小相同，然后与res5c分别进行卷积并激活之后叠加到一起，最后将叠加得到的层与res3b3进行同样的操作，把最终重构的层作为浅层特征，这样就可以把res5c_relu/conv1_2、res5c的信息有效的引入到res3b3，提升浅层特征的表示能力。

如图3，本发明方法采用SENet对浅层特征重构层进行增强，首先是Squeeze操作，顺着空间维度来进行特征压缩，将每个二维的特征通道变成一个实数，这个实数某种程度上具有全局的感受野，并且输出的维度和输入的特征通道数相匹配，它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野。其次是Excitation操作，它是一个类似于循环神经网络中门的机制，通过参数来为每个特征通道生成权重，显式地建模特征通道间的相关性。最后是一个Reweight的操作，将Excitation输出的权重看做是经过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。

本发明一种结合ResNet和SENet的低分辨率行人检测方法，包括训练过程和测试过程，训练部分和测试部分的网络结构相同。下面以本发明方法在Caltech行人数据集进行训练和测试作为实施例来详细介绍本发明的实施过程，实施例主要基于深度学习框架Caffe来实现，实验所用显卡为Ti1080。

如图4，本发明方法训练过程首先确定训练集并转化为合适的输入格式，确定训练过程的参数；然后按批处理大小依次输入图片，提取训练图片的多尺度特征，并对浅层特征进行重构和增强，形成新的多尺度检测框架；最后进行框的分类和位置的回归，计算训练损失，并将训练损失反向传播，更新权重参数。若完成训练的总迭代次数，则保存训练好的模型，结束训练；否则继续小批量输入训练图片。本实施例的模型训练部分具体步骤如下：

第一步，将Caltech行人数据集中的前六个子数据集Set00-Set05作为训练数据集，去除数据集中没有行人的图片，最终训练集共包含61439张图片，将训练集转化为LMDB格式用于模型的训练。

第二步，将SSD算法在Caltech数据集上训练120000次的模型当做本发明方法的预训练模型。设置本发明方法的总迭代次数为40000，0-20000的学习率为0.0005，20001-30000的学习率为0.00005，30001-40000的学习率为0.000005，设置模型训练的batch_size为8，iter_size为4。

第三步，首先，将小批量训练数据送入已训练的基础网络，经过基础网络逐层的语义信息抽取后，由基础网络的多尺度检测框架进行特征提取，通过基础网络的浅层网络提取低分辨率行人的特征，通过基础网络的深层网络提取高分辨率行人的特征；其次，通过浅层特征重构层将多尺度检测框架中深层网络的特征信息叠加到浅层网络的特征中，对多尺度检测框架中浅层网络的特征层进行重构；然后，对浅层特征重构层进行特征增强操作，将增强后的重构层代替原始多尺度检测框架中最浅层网络的特征提取层，与其他的特征提取层重新组合形成新的多尺度检测框架。

第四步、对新的多尺度检测框架进行分类和行人框的回归，计算训练损失，训练损失包括分类损失和回归损失，其中分类损失采用Softmax Loss函数，回归损失采用SmoothL1Loss函数。将训练损失进行反向传播，并采用SGD(stochastic gradient descent)方法对网络的权重参数进行更新。

第五步、若总迭代次数达到40000次，则终止模型的训练；否则返回第三步继续训练。

如图5，本发明方法测试过程首先是确定测试集并转化为合适的输入格式，将训练过程得到的模型作为算法的测试模型，同训练过程一样，依次小批量输入测试图片、提取多尺度特征、对浅层特征进行重构和增强，然后进行框的分类和位置的回归。若取完所有测试图片，则保存测试结果，完成测试；否则继续小批量输入测试图片。本实施例的模型测试部分具体步骤如下：

第一步，将Caltech行人数据集中的后六个子数据集Set06-Set10作为测试数据集，去除数据集中没有行人的图片，最终测试集共包含60748张图片，将测试集转化为LMDB格式用于模型的测试。

第二步，将本实施例训练过程得到的模型作为测试模型，设置测试的batch_size为4。

第三步，按照设定的批处理大小将小批量测试数据送入测试基础网络，分别经过基础网络、附加特征提取网络、浅层特征重构层和浅层特征增强层，形成用于测试的多尺度检测框架。

第四步，对新的多尺度检测框架进行分类和回归，求得行人的类别和位置。

第五步，若60748张测试图片取完，则完成测试；否则返回步骤第三步继续测试。

本发明方法将低分辨率行人定义为30-50像素高度的行人，因此算法最终的性能是由测试图片中30-50像素高度行人的检测结果来决定的。本发明采用FPPI-Miss rate曲线(False Positive Per Image vs Missing Rate)来评价行人检测算法的好坏，曲线的横坐标是平均每幅图像的误检率，纵坐标是算法的漏检率，曲线越低检测性能越好。FPPI-Miss rate曲线一般采用FPPI值为0.01-1对应Miss rate的平均值作为检测的平均漏检率。因此，本实施例采用Caltech测试集中30-50像素高度行人的检测平均漏检率作为衡量算法性能好坏的最终指标。

图6是本发明方法与SSD算法在Caltech测试集上所有30-50像素高度行人检测结果的FPPI-Miss rate曲线，由曲线可知，本发明方法在平均每幅图像的误检率为0.01到1之间对应的漏检率都比SSD算法要低，本发明方法的平均漏检率为79.18％，相比于SSD的80.78％降低了1.6个百分点，证明了本发明方法对低分辨率行人检测的有效性。

本发明结合ResNet和SENet的低分辨率行人检测***，包括训练网络和测试网络，其中训练网络用于实现上述模型训练部分的过程，测试网络用于实现上述模型测试部分的过程。

本发明中，存储介质内部存有计算机程序，计算机程序被处理器执行时，能实现本发明的低分辨率行人检测方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.结合ResNet和SENet的低分辨率行人检测方法，其特征在于，包括训练过程和测试过程，所述训练过程包含以下步骤：

所述测试过程包含以下步骤：

步骤27、若测试图片取完，则完成模型的测试；否则返回步骤23继续测试；

步骤15或步骤25中，采用SENet对浅层特征重构层进行增强，增强过程的步骤为：

首先进行Squeeze操作，顺着空间维度来进行特征压缩，将每个二维的特征通道变成一个实数，这个实数具有全局的感受野，并且输出的维度和输入的特征通道数相匹配；其次进行Excitation操作，通过参数来为每个特征通道生成权重，显式地建模特征通道间的相关性；最后进行Reweight的操作，将Excitation输出的权重看做是经过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。

2.根据权利要求1所述的低分辨率行人检测方法，其特征在于，训练过程所使用的网络和测试过程所使用的网络结构相同。

3.根据权利要求1所述的低分辨率行人检测方法，其特征在于，步骤14或步骤24中，在进行浅层网络的特征重构时，将深层网络的特征进行反卷积操作，使其与浅层网络的特征图大小相同，再把两个特征图进行叠加得到重构的特征图。

4.根据权利要求1所述的低分辨率行人检测方法，其特征在于，步骤17所述的训练损失包括分类损失和回归损失，其中分类损失采用Softmax Loss函数，回归损失采用Smooth L1Loss函数。

5.根据权利要求1所述的低分辨率行人检测方法，其特征在于，步骤17采用SGD方法对网络的权重参数进行更新。

6.结合ResNet和SENet的低分辨率行人检测***，其特征在于，包括训练网络和测试网络，其中训练网络用于实现以下过程：

测试网络用于实现以下过程：

确定测试集并转化为合适的输入格式用于模型测试；

若测试图片取完，则完成模型的测试；否则继续测试；

训练网络或测试网络采用SENet对浅层特征重构层进行增强，增强过程的步骤为：

7.根据权利要求6所述的低分辨率行人检测***，其特征在于，训练网络或测试网络在进行浅层网络的特征重构时，将深层网络的特征进行反卷积操作，使其与浅层网络的特征图大小相同，再把两个特征图进行叠加得到重构的特征图。

8.一种存储介质，存储有程序，其特征在于：所述程序被处理器执行时，实现权利要求1-5中任一项所述的低分辨率行人检测方法。