CN111899169B

CN111899169B - 一种基于语义分割的人脸图像的分割网络的方法

Info

Publication number: CN111899169B
Application number: CN202010628571.5A
Authority: CN
Inventors: 杨海东; 李泽辉; 陈俊杰; 黄坤山
Original assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute; Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Current assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute; Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2024-01-26
Anticipated expiration: 2040-07-02
Also published as: CN111899169A

Abstract

本发明公开了一种基于语义分割的人脸图像的分割网络的方法，包括：获得图像数据集；构建分割的深度卷积网络结构；用网络结构去训练数据得到训练模型；用验证集进行验证、调参，并选出最优模型；用测试集对选出的最优模型进行测试。本发明通过采用轻量级的模型，采取空间通道和上下文信息通道结合，在原来的空间网络结构上，逐步增加高分辨率到低分辨率的子网，形成更多的阶段，并将多分辨率子网并行连接得到本发明的信息交互模块。再进行了多次多尺度融合，使得每一个高分辨率到低分辨率的表征都从其他并行表示中反复接收信息，从而得到丰富的高分辨率表征。由于采用的是并行连接，能够保持高分辨率的表示，因此，预测在空间上更精确。

Description

一种基于语义分割的人脸图像的分割网络的方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于语义分割的人脸图像的分割网络的方法。

背景技术

由于卷积神经网络(简称CNN)的发展和应用，许多计算机视觉领域的任务得到了较大的发展，其中图像分割是计算机视觉中的一项任务，其目的在于对图像依照不同的目标存在的区域来进行划分和标注。进一步，语义分割就是对图像进行像素级别的标注，将图像的每个像素都标注上其对应的类别，因为要考虑到每一个像素，因而语义分割是一种密度型的预测。语义分割的思路有很多种，比如patch分类，全卷积的方法，encoder-decoder的架构等，目前比较流行的是encoder-decoder的架构，本文也是采取这种架构来设计深度卷积网络。

然而，目前在设计语义分割的模型上，由于人们过于追求模型的准确性，引入繁琐的主干，这会带来沉重的计算负担和内存的占用。而且由于主干网络的复杂性，模型在实际应用上面很难部署。所以，解决这个问题是当前语义分割领域的一个重要任务，本来致力于平衡分割网络的效率以及速度的之间的关系，并且为多任务的分割提供更简单的方案。

目前市面上存在多种多样的美颜、上妆软件。如果要对人脸的某个部分进行处理，必须对人脸的各个部分进行分割，然后再针对不同部分进行美颜、上妆。本发明处理的是人脸图像的分割任务，主要针对于将人脸部分和头发分割开来，对脸部和头发之间的边缘进行保留并且适当的去噪，使得处理后的图像更加的自然和柔和。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于语义分割的人脸图像的分割网络的方法。

本发明的目的通过下述技术方案实现：

一种基于语义分割的人脸图像的分割网络的方法，该方法主要包括如下具体步骤：

步骤S1：通过一系列操作后获得相应的用于人脸分割的图像数据集。

进一步的，所述步骤S1还包括如下步骤：

步骤S11:采用人脸识别数据集Labeled Faces in the wild(LFW)，将训练集、验证集和测试集分别按比例进行划分。

进一步的，所述步骤S1中的一系列操作包括均值化、去雾、裁剪操作。

步骤S2：构建分割的深度卷积网络结构。

进一步的，所述步骤S2还包括如下步骤：

步骤S21：所述深度卷积网络采用encoder-decoder架构作为网络结构，该网络结构包括编码器模块和解码器模块。

步骤S22：所述编码器模块包括三个部分，分别是快速下采样模块、信息交互模块、以及扩张组。

进一步的，所述步骤S22还包括如下步骤：

步骤S221：所述快速下采样模块由三个卷积层组成，而采用的卷积层有两种形式，一种是标准的卷积层，另一种是深度可分离的卷积层；深度可分离的卷积层可以有效的减少模型的参数量，进而减少计算的负担；每个卷积层后都皆有BN层以及使用RELU激活函数。

步骤S222：所述信息交互模块的结构采用MobileNet V2的反转残差瓶颈块(Inverted bottleneck residual block)，通过不同维度的特征图的信息交互和结合，去获得美观的输出。

步骤S223：所述扩张组是对通过信息交互模块进行特征融合后的模块进行空间上的扩张卷积，通过扩张卷积，能够增大卷积核的感受野，捕捉到更多层次的上下文信息。

步骤S23：所述解码器模块，主要由双线性的上采样层和一个卷积层构成，卷积层后接一个softmax层进行像素级的分类。

步骤S24：对解码器模块的输出进行后处理，通过采用引导滤波器来保留脸部与头发边缘的细节，以及降低噪声。

步骤S3：用步骤S2的网络结构去训练数据得到相应的训练模型；

步骤S4：用验证集进行验证、调参，并选出最优模型；

步骤S5：用测试集对选出的最优模型进行测试，评估模型性能。

本发明的工作过程和原理是：本发明提供的一种基于语义分割的人脸图像的分割网络的方法，通过采用轻量级的模型，采取空间通道和上下文信息通道结合，在原来的空间网络结构上，逐步增加高分辨率到低分辨率的子网，形成更多的阶段，并将多分辨率子网并行连接得到本发明的信息交互模块。再进行了多次多尺度融合，使得每一个高分辨率到低分辨率的表征都从其他并行表示中反复接收信息，从而得到丰富的高分辨率表征。由于采用的是并行连接，能够保持高分辨率的表示，因此，预测在空间上更精确。

与现有技术相比，本发明还具有以下优点：

(1)本发明所提供的基于语义分割的人脸图像的分割网络的方法在提高速度的同时，不会降低网络的性能，效率相比现有技术显著提高。

(2)本发明所提供的基于语义分割的人脸图像的分割网络的方法利用该网络处理后的图片，能够获得人脸部分的头发区域，然后可以根据使用者的需求来对其进行相应的染色操作等，操作简单、方便、快捷。

附图说明

图1是本发明所提供的图像分割方法的流程图。

图2是本发明所提供的整个人脸图像分割网络组成的结构示意图。

图3是本发明所提供的MobileNet V2网络结构的反转残差块的结构示意图。

图4是本发明所提供的网络结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明作进一步说明。

实施例1：

如图1至图4所示，本实施例公开了一种基于语义分割的人脸图像的分割网络的方法，该方法主要包括如下具体步骤：

进一步的，所述步骤S1还包括如下步骤：

步骤S2：构建分割的深度卷积网络结构。

进一步的，所述步骤S2还包括如下步骤：

进一步的，所述步骤S22还包括如下步骤：

步骤S4：用验证集进行验证、调参，并选出最优模型；

实施例2：

参照图1到图4，本实施例公开了一种基于语义分割的人脸图像的分割网络的方法，包括以下步骤：

步骤S1，获得相应的用于人脸分割的图像数据集。

进一步，所述的S1步骤包括：

步骤S11:采用知名的人脸识别数据集Labeled Faces in the wild(LFW)进行训练LFW是一个在网络上流行的人脸识别数据集，它包含超过13000张人脸图片，我们使用它的延伸版本Part Labels进行训练，该数据集的标签会用其自身包含的超像素分割算法进行标注，所以得到的数据集是已经标注好的。然后该数据集分别按1500、500、1000的数量来划分训练集、验证集和测试集。

再经过一系列操作包括均值化、去雾、裁剪操作。得到的图片是224*224的RGB输入图，等待模型的训练。

步骤S2，构建分割的深度卷积网络的结构。

进一步，所述的S2步骤包括：

步骤S21，本发明采取的网络结构是目前语义分割领域较为流行的encoder-decoder架构，所以可以把网络的结构大体上分成这两部分。

步骤S22，对于编码器部分，这部分是这个网络的主体。它又包含三个小部分分别是快速下采样模块，信息交互模块以及扩张组。其中主要参考的网络架构有Fast-SCNN的下采样学习部分，MobileNetV2的Inverted bottleneck residual block模块，以及目前在语义分割领域比较流行的轻量级BiSeNet的FFM(Feature Fusion Module)Attention机制，采用空间通道和上下文通道并行的方式，将空间通道的保留了语义信息的高分辨率特征图和上下文通道的采取了快速下采样来增大感受野得到的低分辨率的特征图融合在一起，能够很好的增加网络的性能表现。

步骤S221，对于每小部分，快速下采样模块由三个卷积层组成，而采用的卷积层有两种形式，一种是标准的卷积层，另一种是深度可分离的卷积层。深度可分离的卷积层可以有效的减少模型的参数量，进而减少计算的负担。其中，这三个卷积层采用的卷积核都是(3*3)，步长为2的，每个卷积层后都皆有BN层以及使用RELU激活函数。224*224*3的图片经过第一个卷积层conv2D(3,3),stride＝2之后，得到112*112*32的特征图，然后再输入到第二个卷积层Dwconv2D(3,3),stride＝2之后，得到56*56*64的特征图，然后再输入到第三个卷积层Dwconv2D(3,3),stride＝2之后得到28*28*64的特征图。

步骤S222，信息交互模块的结构参考是的MobileNet V2的反转残差瓶颈块(Inverted bottleneck residual block)，采用的是图3的结构去设计。通过不同维度的特征图的信息交互和结合，去获得较为美观的输出。再有，因为采用的上采样层是双线性插值的方法，不需要学习参数，因为这能够大大减少转置卷积带来的巨大计算量。在经过步骤S221之后得到的28*28*64的特征图分别采取三个不同倍数的下采样，卷积层都是选取conv2D(3,3)，同理后面的下采样层都是选取这个卷积核。上采样层选取的是双线性上采样模块。步长的选择根据分辨率要缩小的规模选取，分别选择1,2,4，得到三个不同分辨率大小的特征图(1)(2)(3)。然后再对图(1)按照不同规模的步长进行下采样卷积得到不同分辨率的三个特征图(4)(5)(6)。图(2)进行上采样两倍后和高分辨率的图(1)融合到图(4)中去，图(3)进行上采样四倍后也融合到图(4)中去。然后图(3)上采样两倍融合到图(5)中去。图(3)直接通过卷积块和图(6)融合。再把图(5)和图(6)相加，结果再和图(4)相加，经过一个特征融合模块后得到的输出是28*28*64的特征图。

步骤S223，扩张组是对通过信息交互模块进行特征融合后的模块进行空间上的扩张卷积，通过扩张卷积，能够增大卷积核的感受野，捕捉到更多层次的上下文信息。在步骤S222后得到的特征图，分别进行扩张系数为2，4，8的扩张卷积，增大了特征图的感受野，得到三个不同感受野的特征图，然后对其进行相加，得到的特征图尺寸是28*28*32。

步骤S23，对于解码器模块，由双线性的上采样层以及一个卷积层接有一个softmax层进行像素级的分类。步骤223得到的特征图经过双线性上采样模块得到的特征图尺寸为224*224*32，然后用conv2D的卷积层加上一个softmax层分类得到输出特征图，尺寸为224*224*3。

步骤S24，对输出图像进行后处理。后处理机制通常能够改善图像边缘细节和纹理保真度，同时保持与全局信息的高度一致性。对解码器的输出进行后处理，通过采用引导滤波器来保留脸部与头发边缘的细节，以及降低噪声。引导滤波器能够有效的抑制失真，并且能柔滑边缘的轮廓，产生让人看起来舒服的边缘。

步骤S3，用S2的网络去训练数据得到相应的训练模型。

步骤S4，用验证集进行验证，调参，并选出最优模型。

步骤S5，用测试集对选出的模型进行测试，评估模型性能。在测试阶段，我们先使用了MTCNN这个具有很高召回率的模型去提取面部的ROI曲线，然后由于多余的环境信息对分割背景有某种促进作用，使得ROI区域在水平和垂直方向都放大了0.8倍。我们用全卷积神经网络的四个指标(mIoU、fwIoU、pixelAcc、mPixelAcc)来评估模型的性能。将本模型的实验结果和SOTA的一些模型如VGG、U-Net进行比较，权衡下来得到本发明的网络结构能够在速度和性能上完成很好的平衡，有很不错的效果。虽说在某些方面准确率还不如SOTA的一些网络，但是在速度方面占有很大的优势，是一个兼顾速度与性能的轻量型网络架构。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于语义分割的人脸图像的分割网络的方法，其特征在于，包括如下步骤：

步骤S1：通过一系列操作后获得相应的用于人脸分割的图像数据集；

步骤S2：构建分割的深度卷积网络结构；

步骤S4：用验证集进行验证、调参，并选出最优模型；

步骤S5：用测试集对选出的最优模型进行测试，评估模型性能；

所述步骤S2还包括如下步骤：

步骤S21：所述深度卷积网络采用encoder-decoder架构作为网络结构，该网络结构包括编码器模块和解码器模块；

步骤S22：所述编码器模块包括三个部分，分别是快速下采样模块、信息交互模块、以及扩张组；

步骤S23：所述解码器模块，主要由双线性的上采样层和一个卷积层构成，卷积层后接一个softmax层进行像素级的分类；

步骤S24：对解码器模块的输出进行后处理，通过采用引导滤波器来保留脸部与头发边缘的细节，以及降低噪声；

所述步骤S22还包括如下步骤：

步骤S221：所述快速下采样模块由三个卷积层组成，而采用的卷积层有两种形式，一种是标准的卷积层，另一种是深度可分离的卷积层；深度可分离的卷积层可以有效的减少模型的参数量，进而减少计算的负担；每个卷积层后都皆有BN层以及使用RELU激活函数；

步骤S222：所述信息交互模块的结构采用MobileNet V2的反转残差瓶颈块(Invertedbottleneck residual block)，通过不同维度的特征图的信息交互和结合，去获得美观的输出；

2.根据权利要求1所述的基于语义分割的人脸图像的分割网络的方法，其特征在于，所述步骤S1还包括如下步骤：

步骤S11：采用人脸识别数据集Labeled Faces in the wild(LFW)，将训练集、验证集和测试集分别按比例进行划分。

3.根据权利要求1所述的基于语义分割的人脸图像的分割网络的方法，其特征在于，所述步骤S1中的一系列操作包括均值化、去雾、裁剪操作。