CN111144203B

CN111144203B - 一种基于深度学习的行人遮挡检测方法

Info

Publication number: CN111144203B
Application number: CN201911131589.8A
Authority: CN
Inventors: 王慧燕; 徐扬
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2023-06-16
Anticipated expiration: 2039-11-19
Also published as: CN111144203A

Abstract

本发明提供一种基于深度学***翻转、随机尺寸变换等数据增强方式；其次是一种新的特征融合方式，对于精炼神经网络(Refinement Neural Network,RefineDet)的特征融合模块（Transfer Connection Block，TCB）进行改进，减少其下采样次数，对于ResNet的不同阶段进行了更为充分的特征融合；最终传入到检测头网络中，得到效果更好的行人遮挡检测算法RefinePedDet。本发明通过实际测试得到漏检率更低的行人遮挡检测算法。

Description

一种基于深度学习的行人遮挡检测方法

技术领域

本发明涉及计算机视觉中图像处理和模式识别技术领域，具体涉及一种基于深度学习的行人遮挡检测方法。

背景技术

行人检测具有较为广泛的应用领域，可以应用在无人驾驶、视频监控与安防、搜索营救等领域，主要是指对于视频或者图片中的行人目标进行类别判断以及定位的过程。

然而，在实际场景中，行人被遮挡在所难免，主要表现在行人与行人之间的遮挡以及行人被物体的遮挡，从而导致目前已有的行人检测算法在检测行人的时候出现很多漏检，因此，行人遮挡检测是行人检测领域中较为复杂的领域。

发明内容

本发明的目的是提供一种漏检率更低、效果更好的基于深度学习的行人遮挡检测方法。

为了达到上述目的，本发明通过以下技术方案来实现：

一种基于深度学习的行人遮挡检测方法，包括如下步骤：

S1）获取行人坐标

获取带有行人坐标标签的数据集，数据集包括行人的全身部分及可见部分的坐标位置；

S2）数据预处理

S2-1）对于采集的行人数据的全身部分进行无锚点数据预处理；具体地，将行人标注的左上角、右下角坐标进行格式转化，转化为行人的中心点及行人的高度信息，其中，行人的宽度信息可根据高度：宽度=2.44:1来获取；

采用二维高斯掩码的方式对正样本提取中心点，如果中心点有重叠部分，选择重叠部分的最大值，公式为：

（1）；

其中，G表示高斯函数，

表示高斯掩码的最大值，

表示行人的中心点坐标，

表示行人宽和高的方差，

表示行人的像素坐标；G的公式为：

（2）；

S2-2）对于采集的行人数据的可见部分进行遮挡扩充处理；具体地，将行人的身体部位拆分为四个部分：左上半身、右下半身、左腿和右腿，并对这四个部分中的某一个部分以0.5为阈值随机遮挡；

S2-3）数据增强，包括随机色彩变换、水平翻转、随机尺寸变换等处理；

S3）对图像进行特征提取

S3-1）对深度残差网络类中的ResNet50基础网络进行改进；具体地，将原ResNet50的第一到第四阶段每个阶段的特征图都下采样2倍，共下采样16倍，在第五阶段卷积层添加空洞卷积模块，对第五阶段的特征图下采样16倍；

S3-2）对改进的精炼神经网络RefineNet的特征融合模块TCB进一步改进，减少特征融合模块TCB的下采样次数；

对于ResNet50的每个阶段的特征图进行反向相邻阶段的特征融合；具体地，从最深层第五阶段的特征图开始与前一个阶段的特征图进行前向相加融合得到c4特征图，c4特征图进行上采样之后与第三阶段的特征图进行前向相加融合得到c3特征图，c3特征图进行上采样之后与第二阶段的特征图进行前向相加融合得到c2特征图；然后分别将c3上采样2倍，c4上采样4倍，使得c2、c3、c4这三个特征融合之后的特征图相比于原始图像都下采样4倍；完成特征融合的c2、c3、c4这三个特征图传入到检测头中；

S4）检测头网络结构的设计

采用双卷积检测头的方式，在RefineNet的连接特征融合之后引入两个卷积检测头，分别做分类和回归任务；

获取步骤S3）经过特征融合之后的特征图，用来做行人的全身部分的预测；将步骤S3）经过特征融合之后的特征图，经过3*3卷积，再分别采用1*1卷积来预测分类和回归结果；

S5）构造损失函数

总的损失函数由分类损失函数和回归损失函数组成，公式为：

（3）；

其中，

表示中心点的分类损失函数，

表示尺度的回归损失函数；

对于分类损失函数，由于正负样本严重不均衡，采用FocalLoss的损失函数，公式为：

（4）；

其中，K表示所有图片数量，W和H分别表示图片的宽度和高度，r表示下采样的倍数，这里r=4，

表示是否是物体中心的概率值，其取值范围是[0,1]，

表示正负样本的权重，

如公式（1），表示高斯掩码的最大值，将

设置为4；正负样本的权重

的公式为：

（5）；

对于回归损失函数，采用Smooth L1 Loss，公式为：

（6）；

（7）；

其中，

表示第k个预测框，

表示第k个groud truth，

为预测框与groud truth之间各元素绝对值；

S6）验证结果。

本发明与现有技术相比，具有以下优点：

本发明一种基于深度学习的行人遮挡检测方法，漏检率更低，效果更好。首先，本发明对于行人的全身部分采用无锚点目标检测处理，并对行人全身部分的遮挡数据进行扩充，更有利于遮挡场景下的行人检测；其次，对于ResNet50基础网络进行改进，在最后阶段添加空洞卷积使得该阶段特征图分辨率不再下采样2倍，与此同时，从第五阶段开始进行反向相邻阶段的特征融合，得到c2、c3、c4这三个特征图，将这三个特征图进行concatenate特征融合，传入到检测头中，将传入到检测头的特征图进行全身部分预测，得到最终的行人预测结果。

附图说明

图1是本发明一种基于深度学习的行人遮挡检测方法的多级融合精炼神经网络MFR-NET架构图。

具体实施方式

下面结合附图，对本发明的实施例作进一步详细的描述。