CN108198192A

CN108198192A - 一种基于深度学习的高精度快速人体分割方法

Info

Publication number: CN108198192A
Application number: CN201810035086.XA
Authority: CN
Inventors: 任俊芬
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2018-06-22

Abstract

一种基于深度学习的高精度快速人体分割方法，根据人体的统计比例确定输入图像尺寸，采用了定制化的对称神经网络结构‑‑‑‑卷积网络和反卷积网络，并且将尺寸一致的卷积网络层添加至反卷积网络中，以此来极大丰富网络对细节的学习能力。最后，使用大量包含人体的图像进行训练，训练完毕后，即可使用该网络对人体图像进行分割。该方法具有精度高，速度快的优点。

Description

一种基于深度学习的高精度快速人体分割方法

技术领域

本发明涉及人工神经网络、计算机视觉等技术领域，具体涉及一种基于深度学习的高精度快速人体分割方法。

背景技术

人体分割是计算机视觉应用中一个经典的问题，其需要完成的任务是在静态图像中区分属于人体的像素和非人体的像素。从另外一个方面来看，可视为像素级的分类问题。

高精度的人体分割需要分辨很多人形细节，例如手指的缝隙、双腿的间隙、手臂与身体的间隙等。由于穿着、光照、配饰和姿态的多种变化，使得像素级的人体分割变得极具挑战。

在非深度学习的方法范畴中，解决人体分割问题的经典框架是人工像素特征配合图割算法。人工的像素特征可以有颜色特征、SIFT（Scale-invariant Feature Transform）特征、LBP（Local Binary Pattern）特征以及HOG（Histogram of Oriented Gradient）特征等。在图割算法中，图像中的每一个像素被视为图的顶点，相邻两个像素的连接视为图的边。使用像素的人工特征定义像素间的相似度，然后求解图的最小割问题得到分割结果。这类方案的缺陷在于像素的人工特征仅能描述该像素附近有限范围内的区域特征，并且图的最小割算法也只是考虑邻域像素之间的关系。然而，人体分割的语义关联性很强，因此这类方法难以完成高精度的人体分割，甚至在有些情况下会丢失部分肢体。从运行速度上来看，为每个像素提取各种人工特征耗时严重，并且求解最小割问题同样时间开销很大，因此要做到实时分割极为困难。

深度学习极大改善了人体分割的精度。具体来说，全卷积神经网络（FCN，FullyConvolutional Neural Networks）首先实现了使用深度神经网络的端到端分割算法。FCN将经典分类网络中的全连接层进行等价改造，使用卷积操作替代矩阵乘法。这样的改进使得传统的卷积网络能够接受任意大小的图像输入，为分割网络做铺垫。FCN选取分类网络中抽象程度比较高的若干层作为输出，并且使用反卷积操作将这些输出恢复至输入大小，从而可以进行逐像素分类训练。FCN可以为每个像素关联更大范围内的语义信息，同时提供了端到端的学习方式，比传统的分割方法精度更高，速度更快。然而，它利用了高层的语义信息，但是忽略了局部的细节信息，致使上文提到的细节分割效果不理想。后续基于FCN的若干改进方法在一定程度上弥补了局部信息使用的不足，采用了对称的网络结构，同时使用了Pooling和Unpooling操作来丰富局部信息。然而，这些方法使用的对称型网络过于庞大，虽然分割精度进一步提升，但是速度上并不能达到实时。

发明内容

为了进一步提升现有人体分割算法的精度和速度，本发明提出了一种基于深度学习的高精度人体分割方法。

本发明是通过如下技术方案实现的：

一种基于深度学习的高精度快速人体分割方法，包括如下步骤：

步骤一）设计神经网络：根据人体的平均高宽比，确定输入图像的尺寸；神经网络采用对称漏斗结构，漏斗前半段使用卷积层，每个卷积层的步长均为2，后半段使用反卷积层，每个反卷积层的步长均为2；将漏斗前半段的特征图串联到后半段与其分辨率一样的特征图上，反卷积操作将作用于串联后的特征图，神经网络最后输出通道数为一的特征图；

步骤二）训练神经网络：搜集足够多的含有人体的图像，人工标注每个图像的每个像素，标为“人体”或“非人体”两类，将一些和人体紧密连接的附属物一同标注为“人体”，标注后的图像为分割图；使用搜集到的含有人体的图像的原图和分割图，通过随机梯度下降的算法训练神经网络；训练期间周期性地使用验证集对神经网络的性能进行测试，测试满足要求，即可停止训练；

步骤三）使用神经网络进行人体分割：使用人体检测设备采集包含人体的图像，经处理后再输入到训练好的神经网络中，神经网络输出图像中每个像素属于人体的概率，根据应用的情况选取概率阈值，概率高于阈值的像素为人体像素，即得到人体的分割图。

进一步的改进，所述输入图像的尺寸为高150像素，宽70像素的矩形框。

进一步的改进，所述步骤二）中，对含有人体的图像的原图和分割图进行加工处理，处理的步骤为：

根据分割图划出紧包人体的矩形框，将所述矩形框的四边向外随机扩展一个幅度，新得到的矩形框不超过原始图像的大小;

从原图中提取扩大后的新矩形框对应的区域，分割图也做同样的提取操作；

保持上一步提取的区域高宽比不变，将其缩放至网络的输入大小；使用纯黑色补充不足的部分。

进一步的改进，所述用于训练的图像数据分为训练集和验证集两个部分，训练集用于训练神经网络，验证集用于确认网络是否训练完成

与现有技术相比，本发明具有以下优点：

本发明涉及了一种基于深度学习的高精度快速人体分割方法，与现有方法相比较，其使用了卷积层和反卷积层构建了对称的漏斗结构，并且所有层的步长均为2，由此尽可能减少神经网络的层数。特别地，方法中将漏斗前半部分的卷积层特征图与反卷积层的特征图进行串联，使得网络既能够学习全局的特征，又可以抓住细节特征，大大提升了分割的性能。综上描述，本方法具有速度快，精度高的优点。

附图说明

图1为实施例1流程示意图。

具体实施方式

实施例1

如图1所示的一种基于深度学习的高精度快速人体分割方法，根据人体的统计比例确定输入图像尺寸，采用了定制化的对称神经网络结构----卷积网络和反卷积网络，并且将尺寸一致的卷积网络层添加至反卷积网络中，以此来极大丰富网络对细节的学习能力。最后，使用大量包含人体的图像进行训练，训练完毕后，即可使用该网络对人体图像进行分割。该方法具有精度高，速度快的优点。

该方法包括的步骤具体如下：

神经网络的设计过程S1为：使用搜集的人体数据统计人体的平均高宽比，用统计的结果指导输入图像尺寸的确定。网络的设计采用对称漏斗结构，即漏斗前半段使用卷积层，后半段使用反卷积层。同时将卷基层和反卷积层中尺寸一致的输出相连接，以此来补充细节信息。

神经网络的训练过程S2为：搜集足够多的含有人体的图像，标注所有像素的标签----人体或者非人体。使用标注的数据训练定制完成的神经网络。

神经网络的使用过程S3为：将训练好的人体分割网络用于新的图像，得到图像中每个像素属于人体的概率，通过选取一个概率阈值，并将高于阈值的像素最终定位人体像素，得到人体的分割图。

具体的，过程S1包括以下步骤：

S101. 首先确定神经网络输入图像的大小。站立的人体高要大于宽，根据搜集的数据进行统计，发现其平均比例为2.8:1。据此，网络输出的图像大小定义为高150像素，宽70像素。

S102. 漏斗网络结构前半段的设计。漏斗的前半段使用卷积层，这里不使用pooling层对特征图进行降采样，而直接使用步长为2的卷积层替代。同时，为了减少网络深度，提升网络速度，每个卷积层的步长均为2，迅速降低特征图的分辨率，直到其分辨率为1x1。

S103. 漏斗网络结构后半段的设计。后半段使用步长为2的反卷积层，逐渐恢复特征图的分辨率，直至恢复到和输入尺寸一致。同样的，所有的反卷积层的步长均为2，快速提升各层输出的分辨率，减少层数。

S104. 为了提升网络对细节的学习能力，将漏斗前半段的特征图串联到后半段与其分辨率一样的特征图上，反卷积操作将作用于串联后的特征图。

S105. 网络最后输出通道数为一的特征图，使其与标注的分割图一致。

具体的，过程S2包括以下步骤：

S201. 搜集包含人体的图像。人体的面积尽可能占据图像面积的一半以上，保证人体相对清晰和足够大。

S202. 人工标注每个像素的标签，标为“人体”或“非人体”两类。这里需要将一些和人体紧密连接的附属物一同标注为人体部分，比如帽子、背包等。

S203. 为训练网络准备输入数据。根据分割图找到紧包人体的矩形框，根据矩形框的四边向外随机扩展一个幅度，这个幅度的选取可以是矩形框高或者宽的百分之十。确保新得到的矩形框不会超过原始图像的大小即可。从原图中提取出新矩形框对应的区域，其分割图做同样的操作。随后保证抠出图像的高宽比不变，将其缩放至网络的输入大小：150像素高x70像素宽。使用纯黑色补充不足的部分。

S204. 将训练数据分为两个部分：训练集和验证集。验证集不参与实际训练，用于确认网络是否训练完成。

S205. 使用随机梯度下降的算法对所设计的网络进行训练。期间，周期性地使用验证集对网络性能进行测试，直到满足要求，即可停止训练。

具体的，过程S3包括以下步骤：

S301. 根据检测到的人体区域（通常来说可以通过人体检测获得），保持网络输入的高宽比裁剪得到新的图像。将新图像缩放至网络的输入大小，让网络得到输出结果。

S302. 网络输出的是每个像素属于人体的概率，使用一个合适的概率阈值，将超过这个阈值的像素定义为人体区域，由此可以得到人体的分割图。

以上实施例仅用于说明本发明，但不用来限制本发明的范围，凡是依据本发明的技术实质对以下实例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于深度学习的高精度快速人体分割方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于深度学习的高精度快速人体分割方法，其特征在于，所述输入图像的尺寸为高150像素，宽70像素的矩形框。

3.如权利要求1所述的一种基于深度学习的高精度快速人体分割方法，其特征在于，所述步骤二）中，对含有人体的图像的原图和分割图进行加工处理，处理的步骤为：

保持提取的区域高宽比不变，将其缩放至网络的输入大小；使用纯黑色补充不足的部分。

4.如权利要求1所述的一种基于深度学习的高精度快速人体分割方法，其特征在于，所述用于训练的图像数据分为训练集和验证集两个部分，训练集用于训练神经网络，验证集用于确认网络是否训练完成。