CN111079516B

CN111079516B - 基于深度神经网络的行人步态分割方法

Info

Publication number: CN111079516B
Application number: CN201911050215.3A
Authority: CN
Inventors: 王慧燕; ***
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2022-12-20
Anticipated expiration: 2039-10-31
Also published as: CN111079516A

Abstract

本发明针对行人步态分割时对双腿间的“O型”形状难以分割以及腿型分割不够精细的问题，提出一种基于深度神经网络的行人步态分割方法。本发明通过设计空洞卷积残差卷积网络和添加边缘检测器分支两步实现对行人步态的精细分割；利用空洞卷积替换resnet最后阶段的普通卷积来提高浅层网络的感受野，得到更多信息的特征传入到下个阶段，最后得到的mask再输入至由边缘检测算子组成的边缘检测器中，很好地解决了行人步态中步态边缘不拟合的问题，从而得到更加精确的行人步态边缘，提高了腿部分割的精细度。

Description

基于深度神经网络的行人步态分割方法

技术领域

本发明涉及计算机视觉中图像处理和模式识别技术领域，具体涉及一种基于深度神经网络的行人步态分割方法。

背景技术

近年来，视频监控广泛地运用在交通、军事、城市建设、安全等领域，其重要性越来越不可忽视。

行人的步态分割是视频监控技术中不可或缺的一部分。从行人步态的图像视频中提取行人区域是行人步态识别的一个重要环节，也是最苛刻的计算机视觉任务之一。

目前，针对行人步态分割的研究较少，而对实例分割的研究相对更加成熟。实例分割是一种基本的计算机视觉技术，是从图像处理到图像分析的关键步骤，是进行图像分析的第一步工作，也是最苛刻的计算机视觉任务之一，它涉及了目标定位和分割对象实例。近年来大量的实例分割论文的发表，提供了大量的实例分割的方法，这为行人步态分割提供了良好的技术基础。

发明内容

本发明的目的是提供一种基于深度神经网络的行人步态分割方法。

为了达到上述目的，本发明通过以下技术方案来实现：

基于深度神经网络的行人步态分割方法，其特征在于包括如下步骤：

S1）预测行人的步态边界

在给定一个图片或视频的情况下，预测图片或视频中1个或多个行人的步态边界；

对于图片，检测单一图片中所有行人的目标，对目标进行步态分割；

对于视频，输入每一帧，检测视频每一帧中所有行人的目标，对目标进行步态分割，输出处理后的每一帧并组合成为一个分割好的行人步态视频；

S2）图像预处理和制作标签

将分割好的行人步态图像的大小统一调整为h*w，其中，h为图像的高，w为图像的宽；

制作标签，对图像相同位置的目标进行像素值处理，将行人的位置采用像素值为14的像素描边，非行人位置统一设置像素值为0，表示背景；

S3）构建步态分割深度卷积神经网络

S3-1）采用基础网络进行特征提取

采用resnet50网络作为基础网络，在resnet50网络结构上，利用空洞率为2的空洞卷积替换resnet50最后一个阶段的普通卷积；

S3-2）将步骤S2）预处理的图像输入至步骤S3-1）的基础网络中，图像经过基础网络后输入至FPN进一步提取各维度的特征，利用FPN从下至上各个层对同一scale图片不同维度的特征表达结构，有效生成对图片的多维度特征表达的方法；

S3-3）将步骤S3-2）中提取到的特征再通过ROIAlign生成14*14*256大小的ROIfeatures，通过ROIAlign生成候选框region proposal映射产生固定大小的feature map，通过采用双线性插值法获得更加准确的行人候选框；

S3-4）将步骤S3-3）中14*14*256大小的feature map经过5个卷积后再经过反卷积变换为28*28*1大小的行人P_mask；

S3-5）将步骤S3-4）得到的28*28*1大小的P_mask进行kernel size为2、stride为2的max pooling layer，使得预测的mask具有与步骤S3-3）的输出相同的空间尺寸，再和步骤S3-3）的输出进行组合，得到14*14*257大小的特征图；

该特征图经过4个卷积层，这4个卷积层的核大小和滤波器个数分别设置为3和256；再添加3个全卷积层，前面两个全卷积设置为1024，后一个全卷积设置为类别数量，数量为1，即行人一类；该输出的值为mask的评分，设置阈值为0.5，采用阈值大于0.5的mask，定义为GT_mask；

S4）使用二分类交叉熵损失函数Binary_Cross_Entropy来构造损失函数，将真实的概率表达为

，预测概率表达为

，其中，y表示样本属于行人的概率，1-y表示样本属于背景的概率，

表示预测行人的概率，

表示预测背景的概率，通过交叉熵来测量p和q之间的相似度，公式如下：

（1）；

S5）使用二分类交叉熵损失函数Binary_Cross_Entropy比较GT_mask和P_mask中每个像素点的信息；

S6）将步骤S3）得到的P_mask和GT_mask输入至边缘检测器，该边缘检测器由3*3*1 大小的一个边缘检测算子构成，两个mask会和边缘检测算子进行卷积得到两个mask的边缘，对于P_mask输入后得到的边缘结果将其定义为

，对于GT_mask输入后得到的边缘结果将其定义为

；

S7）将步骤S6）得到的

和

构造损失函数loss，公式如下：

（2）；

本发明与现有技术相比，具有以下优点：

本发明针对行人步态存在O型腿和难以勾勒腿型的情况，提出一种基于深度神经网络的行人步态分割方法。本发明通过设计空洞卷积残差卷积网络和添加边缘检测器分支两步实现对行人步态的精细分割；利用空洞卷积替换resnet最后阶段的普通卷积来提高浅层网络的感受野，得到更多信息的特征传入到下个阶段，最后得到的mask再输入至由边缘检测算子组成的边缘检测器中，很好地解决了行人步态中步态边缘不拟合的问题，从而得到更加精确的行人步态边缘。

具体实施方式

S1）预测行人的步态边界

对于视频，输入每一帧，检测视频每一帧中所有行人的目标，对目标进行步态分割，输出处理后的每一帧并组合成为一个分割好的行人步态视频。

S2）图像预处理和制作标签

制作标签，对图像相同位置的目标进行像素值处理，将行人的位置采用像素值为14的像素描边，非行人位置统一设置像素值为0，表示背景。

S3）构建步态分割深度卷积神经网络

S3-1）采用基础网络进行特征提取

采用resnet50网络作为基础网络，在resnet50网络结构上，利用空洞率为2的空洞卷积替换resnet50最后一个阶段的普通卷积；这扩大了网络的感受野，有利于后续深层网络的特征提取；其中，resnet，即deep residual network，resnet50网络为50层残差卷积网络；

S3-2）将步骤S2）预处理的图像输入至步骤S3-1）的基础网络中，图像经过基础网络后输入至FPN进一步提取各维度的特征，FPN是一种高效的CNN特征提取方法，利用FPN从下至上各个层对同一scale图片不同维度的特征表达结构，有效生成对图片的多维度特征表达的方法，从而生成表达力更强的feature map以供下一阶段的计算机视觉任务；

S3-3）将步骤S3-2）中提取到的特征再通过ROIAlign生成14*14*256大小的ROIfeatures，通过ROIAlign生成候选框region proposal映射产生固定大小的feature map，通过采用双线性插值法获得更加准确的行人候选框；ROIAlign是在Kaiming He,et al.,Mask R-CNN,ICCV2017这篇论文里提出的一种区域特征聚集方式；

该特征图经过4个卷积层，这4个卷积层的核大小和滤波器个数分别设置为3和256；再添加3个全卷积层，前面两个全卷积设置为1024，后一个全卷积设置为类别数量，数量为1，即行人一类；该输出的值为mask的评分，设置阈值为0.5，采用阈值大于0.5的mask，定义为GT_mask。

，预测概率表达为

，其中，y表示样本属于行人的概率，1- y表示样本属于背景的概率，

表示预测行人的概率，

（1）。

S5）使用二分类交叉熵损失函数Binary_Cross_Entropy比较GT_mask和P_mask中每个像素点的信息。

，对于GT_mask输入后得到的边缘结果将其定义为

。

S7）将步骤S6）得到的

和

构造损失函数loss，公式如下：

（2）；

经过边缘检测器后的行人步态边缘拟合度大大提高，可以检测出双腿之间的空隙轮廓。

以上所述仅是本发明优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。