CN109993100B

CN109993100B - 基于深层特征聚类的人脸表情识别的实现方法

Info

Publication number: CN109993100B
Application number: CN201910240401.7A
Authority: CN
Inventors: 吴晨; 李雷; 吴婧漪
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2022-09-20
Anticipated expiration: 2039-03-27
Also published as: CN109993100A

Abstract

本发明揭示了一种基于深层特征聚类的人脸表情识别的实现方法，该方法包括以下步骤：S1：采集各种人脸表情图片，并根据人脸表情逐一分类；S2：图片预处理，去除模糊照片，再用基于卷积神经网络的级联多任务人脸检测算法得到人脸关键点，并根据关键点统一裁剪人脸图片；S3：构建基于卷积神经网络的人脸表情识别网络，并将预处理后的人脸表情图片分别输入网络当中计算损失函数并进行训练；S4：获取训练好的人脸表情识别网络，并应用于实测。该方法解决了人脸表情识别精确率较低和过拟合等问题。

Description

基于深层特征聚类的人脸表情识别的实现方法

技术领域

本发明涉及一种基于深层特征聚类的人脸表情识别的实现方法，可用于计算机视觉图片处技术领域。

背景技术

近年来，随着人工智能的高速发展，深度学习也成为了热门研究领域。深度学习在解决诸如图像目标识别、语音识别和自然语言处理等很多问题方面都表现出色。在各种类型的神经网络当中，卷积神经网络是得到最深入研究的。早期由于缺乏训练数据和计算能力，要在不产生过拟合的情况下训练出高性能卷积神经网络是很困难的。ImageNet这样的大规模标记数据的出现和GPU计算性能的快速提高，使得对卷积神经网络的研究迅速井喷。

随着卷积神经网络的不断地发展，模型对现实数据的拟合分析能力越来越强，同时为了兼顾速度和精度，研究人员提出了许多轻量级的卷积神经网络。轻量级的卷积神经网络能够在实现较高的推理速度的同时，达到较好的精确率，充分利用网络的参数。Mobilenet-V2网络是谷歌公司研发的一种轻量级的卷积神经网络，其特点是具有较少的参数能够实现在手机上实现实时的运行。

人脸表情识别是属于细粒度特征的识别，直接将Mobilenet-V2应用在人脸表情的识别上，容易造成识别精确率较低或者过拟合的现象。对于细粒度的人脸表情特征，如何使得网络容易实现表情的准确划分成为迫切解决的技术问题。

发明内容

本发明的目的就是为了解决现有技术中存在的上述问题，提出一种基于深层特征聚类的人脸表情识别的实现方法。

本发明的目的将通过以下技术方案得以实现：基于深层特征聚类的人脸表情识别的实现方法，该方法包括以下步骤：

S1：采集各种人脸表情图片，并根据人脸表情逐一分类，得到分类的人脸表情数据集；

S2：将S1步骤得到的分类的人脸表情数据集图片预处理，去除模糊照片，再用基于卷积神经网络的级联多任务人脸检测算法得到人脸关键点，并根据关键点统一裁剪人脸图片，得到预处理的人脸表情数据集；

S3：构建基于卷积神经网络的人脸表情识别网络，并将所述S2步骤得到的预处理的人脸表情数据集图片分别输入网络当中计算损失函数并进行训练，得到训练好的人脸表情识别网络；

S4：将所述S3步骤获取的训练好的人脸表情识别网络，并应用于实测。

优选地，在所述S1步骤中，采集人脸表情图片需要类别均衡，各类人脸表情图片需要至少两千张以上，并且需要人脸清晰、姿态端正。

优选地，在所述S2步骤中，图片预处理，去除模糊照片，再用基于卷积神经网络的级联多任务人脸检测算法得到人脸关键点，根据关键点统一裁剪人脸图片，再根据人脸表情分别保存，如存在某类人脸表情图片较少，则对这一类图片进行数据增强。

优选地，在所述S3步骤中，卷积神经网络结构为Mobilenet-V2，输入层为剪裁后的人脸图片，输出为各类人脸表情的概率值。

优选地，在所述S3步骤中，在卷积神经网络的损失函数中加入深层特征聚类损失，使得各种类别的人脸表情图片经过卷积神经网络得到的深层特征差异更大。

优选地，在所述S3步骤中对基于深层特征聚类的人脸表情识别算法进行训练，包括步骤：

S31：将所述S2步骤中预处理好的人脸表情数据根据表情类别依次输入预训练的Mobilenet-V2网络，依次提取网络中倒数第二层1280*1的高纬特征，再采用K-means聚类算法对每一类表情的高纬特征进行聚类，得到各个人脸表情的K个聚类中心，且每个循环迭代更新一次聚类中心；

S32：将所述S31步骤中各个人脸表情的K个聚类中心与每次训练样本的同一层的高纬特征进行比较，得到聚类损失函数；

S33：对卷积神经网络模型进行训练，以使得网络的损失函数最小化

优选地，所述S3步骤中损失函数设计为

其中，

L_k-means(f，a，c)＝||max(f，c_a)-min(f，c_-a)||

其中，公式中L为总的损失函数，

为分类交叉熵损失函数，L_k-means(f，a，c)为聚类损失函数，x为输入的人脸表情训练图像，a为输入图像x对应的人脸表情标签，

为输入图像x经过Mobilenet-V2网络得到的预测的标签，f为输入图像x经过Mobilenet-V2网络得到的倒数第二层1280*1的高纬特征，c为训练图片经过预训练的Mobilenet-V2网络得到的所有的高纬特征聚类之后的N类表情的K个聚类中心，共有N*K个聚类中心，c_a为表情为a的K个聚类中心，c_-a为除去表情a之外所有表情的K个聚类中心，共有(N-1)*K个聚类中心。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明采用了拉大深层图像特征之间间距的方法，从而使得网络容易实现表情的准确划分。基于深层特征聚类的人脸表情识别算法能够拉大人脸表情图片在Mobilenet-V2网络中的深层特征之间的距离，从而使得细粒度的人脸表情分类更加准确。该方法解决了人脸表情识别精确率较低和过拟合等问题。

附图说明

图1是本发明基于深层特征聚类的人脸表情识别算法中的Mobilenet-V2结构图。

图2是本发明基于深层特征聚类的人脸表情识别算法中残差网络块的结构图。

具体实施方式

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。

本发明揭示了一种基于深层特征聚类的人脸表情识别的实现方法，该方法包括以下步骤：

S1：采集各种人脸表情图片，并根据人脸表情逐一分类。

具体如下：找到图片网站，找到人脸表情图片并保证图片较为清晰。利用爬虫技术，分别从网站爬取各类的人脸表情图片，并保证每一类的人脸表情图片大于二千。

S2：图片预处理，去除模糊照片，再用基于卷积神经网络的级联多任务人脸检测算法(MTCNN)得到人脸五个关键点，并根据关键点统一裁剪人脸图片。

逐一地筛选图片，去除模糊以及图片内容不符的图片。将筛选完的图片统一裁剪为128*128尺寸，根据人脸图像的各类表情分别保存。

S3：构建基于卷积神经网络的人脸表情识别网络，并将预处理后的人脸表情图片分别输入网络当中计算损失函数并进行训练。

Mobilenet-V2的网络结构如附图1所示。Mobilenet-V2由四个部分组成：卷积层、全局平均池化层、残差网络块。卷积层通过卷积操作提取图片的特征信息，并且随着卷积操作的多层叠加，提取的信息越来越抽象。网络结构中的残差网络块如附图2，残差网络块是为了将底层特征传递进入高层，并且抑制梯度消失的情况。Mobilenet-V2的输入是人脸表情图片，输出预测的人脸表情标签。

损失函数是由分类交叉熵损失函数和聚类损失函数组合成的。分类交叉熵损失函数是为了提升网络的分类准确率，聚类损失函数是为了拉大不同类人脸表情图像经过网络生成的高纬特征差异。

所述S3步骤中卷积神经网络的损失函数中加入深层特征聚类损失，使得各种类别的人脸表情图片经过卷积神经网络得到的深层特征差异更大，有利于区分细粒度的人脸特征，有利于区分细粒度的人脸特征。

所述训练过程，具体为：

S31：将S2步骤所述的预处理好的人脸表情数据根据表情类别依次输入预训练的Mobilenet-V2网络，依次提取网络中倒数第二层1*1*1280的高纬特征，再采用K-means聚类算法对N类表情的高纬特征进行聚类，得到各个人脸表情的K个聚类中心(簇)，共N*K个簇。

S32：将S31步骤所述的N*K个聚类中心与每次训练样本的同一层的高纬特征进行比较，得到聚类损失函数。训练时计算输入人脸表情图片的1*1*1280纬特征，找出距离此特征最远的同类表情簇距离和最近的非同类表情簇，然后分别计算此特征与两个簇之间的距离。最大化两个距离的差即聚类损失函数。所有训练图片训练一轮之后保存网络模型并重新计算N*K个簇，再次迭代训练。

S33：对所述卷积神经网络模型进行训练，以使得网络的损失函数最小化。

损失函数为：

其中，

L_k-means(f，a，c)＝||max(f，c_a)-min(f，c_-a)||

所述公式中L为总的损失函数，

为输入图像x经过Mobilenet-V2网络得到的预测的标签，f为输入图像x经过Mobilenet-V2网络得到的倒数第二层1*1*1280的高纬特征，c为训练图片经过预训练的Mobilenet-V2网络得到的所有的高纬特征聚类之后的N类表情的K个聚类中心(共有N*K个聚类中心)，c_a为表情为a的K个聚类中心，c_-a为除去表情a之外所有表情的K个聚类中心(共有(N-1)*K个聚类中心)。

S4：获取训练好的人脸表情识别网络，并应用于实测。

综上，本发明能够得到一个兼顾精度和速度的人脸识别网络模型，并且网络的泛化能力较强。本发明通过将人脸表情图片输入到Mobilenet-V2网络中并通过基于深层特征聚类的人脸表情识别算法训练模型，得到训练好的人脸表情识别网络。此时网络能够较好的识别细粒度的人脸表情。将基于深层特征聚类的人脸表情识别算法作用在人脸表情识别的应用中，拉大了人脸表情类间差，优化了细粒度图像难以识别的问题。

本发明尚有多种实施方式，凡采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。

Claims

1.基于深层特征聚类的人脸表情识别的实现方法，其特征在于：该方法包括以下步骤：

所述损失函数设计为

其中，

L_k-means(f,a,c)＝||max(f,c_a)-min(f,c_-a)||

其中，公式中L为总的损失函数，

为分类交叉熵损失函数，L_k-means(f,a,c)为聚类损失函数，x为输入的人脸表情训练图像，a为输入图像x对应的人脸表情标签，

为输入图像x经过Mobilenet-V2网络得到的预测的标签，f为输入图像x经过Mobilenet-V2网络得到的倒数第二层1280*1的高维度特征，c为训练图片经过预训练的Mobilenet-V2网络得到的所有的高维度特征聚类之后的N类表情的K个聚类中心，共有N*K个聚类中心，c_a为表情为a的K个聚类中心，c_-a为除去表情a之外所有表情的K个聚类中心，共有(N-1)*K个聚类中心；

2.根据权利要求1所述的基于深层特征聚类的人脸表情识别的实现方法，其特征在于：在所述S1步骤中，采集人脸表情图片需要类别均衡，各类人脸表情图片需要至少两千张以上，并且需要人脸清晰、姿态端正。

3.根据权利要求1所述的基于深层特征聚类的人脸表情识别的实现方法，其特征在于：在所述S2步骤中，图片预处理，去除模糊照片，再用基于卷积神经网络的级联多任务人脸检测算法得到人脸关键点，根据关键点统一裁剪人脸图片，再根据人脸表情分别保存，如存在某类人脸表情图片较少，则对这一类图片进行数据增强。

4.根据权利要求1所述的基于深层特征聚类的人脸表情识别的实现方法，其特征在于：在所述S3步骤中，卷积神经网络结构为Mobilenet-V2，输入层为剪裁后的人脸图片，输出为各类人脸表情的概率值。

5.根据权利要求1所述的基于深层特征聚类的人脸表情识别的实现方法，其特征在于：在所述S3步骤中，在卷积神经网络的损失函数中加入深层特征聚类损失，使得各种类别的人脸表情图片经过卷积神经网络得到的深层特征差异更大。

6.根据权利要求1所述的基于深层特征聚类的人脸表情识别的实现方法，其特征在于：在所述S3步骤中对基于深层特征聚类的人脸表情识别算法进行训练，包括步骤：

S31：将所述S2步骤中预处理好的人脸表情数据根据表情类别依次输入预训练的Mobilenet-V2网络，依次提取网络中倒数第二层1280*1的高维特征，再采用K-means聚类算法对每一类表情的高维特征进行聚类，得到各个人脸表情的K个聚类中心，且每个循环迭代更新一次聚类中心；

S32：将所述S31步骤中各个人脸表情的K个聚类中心与每次训练样本的同一层的高维特征进行比较，得到聚类损失函数；

S33：对卷积神经网络模型进行训练，以使得网络的损失函数最小化。