CN113705527B

CN113705527B - 一种基于损失函数集成和粗细分级卷积神经网络的表情识别方法

Info

Publication number: CN113705527B
Application number: CN202111049291.XA
Authority: CN
Inventors: 李云飞; 程吉祥; 李志丹; 刘家伟
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2023-09-22
Anticipated expiration: 2041-09-08
Also published as: CN113705527A

Abstract

本发明公开了一种基于损失函数集成和粗细分级卷积神经网络的表情识别方法，包括：针对卷积神经网络提取的表情特征存在类间距离过小、类内距离过大进而影响分类识别准确率的问题,从损失函数角度提出改进，引入其它四种损失函数来替代常用的Softmax损失函数，以扩大表情特征的类间距离，缩小类内距离；针对表情识别中存在的某几类表情分类混淆的问题,提出了一种基于粗细分级的卷积神经网络表情识别方法；为将表情识别任务功能统一,设计和开发了基于卷积神经网络的表情识别***。本发明能提升不同损失函数的表情识别准确率，提升集成网络的识别准确率，提升易混淆类别表情的识别准确率。

Description

一种基于损失函数集成和粗细分级卷积神经网络的表情识别方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于损失函数集成和粗细分级卷积神经网络的表情识别方法

背景技术

人类表达情感的方式多种多样,如姿态的变化、言语的轻重、人脸表情等,其中人脸表情在情感表达中占有重要的地位。随着科技的进步以及生活水平的不断改善,人们对智慧化的生活有了更高的期待和要求,其中对于人脸表情识别的研究持续升温。对计算机而言,根据人类的表情给出正确的情绪分类结果变得越发重要。早在二十世纪,Ekman和Friesen就开始了对人类表情的研究并定义了6种跨民族的基本表情,包括愤怒、厌恶、恐惧、高兴、悲伤和惊奇,如图1-1所示。1992年,轻蔑表情被加入到了基本的表情中,这些表情类别成为当前大多数表情识别分类所采用的类别。

随着近年来深度学习研究热度的兴起、计算机运算能力的提升以及丰富的表情数据集的提出,越来越多的学者对基于深度学习的表情识别方法展开研究。总的来说,人脸表情识别可分为基于图片的表情识别和基于视频流的表情识别,而基于视频流的表情识别以基于图片的识别为基础。基于图片的表情识别包括特征提取与特征分类两个主要步骤,这也是表情识别的研究重点。在现实生活中,表情识别扮演的角色也愈发重要,不同于人脸识别,表情识别应用场景大多具有一定的特殊性。

发明内容

传统基于为克服针对卷积神经网络提取的表情特征存在类间距离过小、类内距离过大进而影响分类识别准确率的问题，本发明提供了一种基于损失函数集成和粗细分级卷积神经网络的表情识别方法，能提升不同损失函数的表情识别准确率，提升集成网络的识别准确率，提升易混淆类别表情的识别准确率。本发明所采用的技术方案如下：

1.一种基于损失函数集成和粗细分级卷积神经网络的表情识别方法，包括以下步骤：

步骤1，引入人脸识别***领域的四种损失函数。

CenterLoss是一种辅助损失函数,通常与交叉熵损失函数Softmax结合使用,它能够进一步减小同一类表情特征的类内距离,同时保持不同类别特征的可区分性；SphereFace损失函数由交叉熵损失函数Softmax中w^Tx＝||w||||x||cosθ发而来,即特征向量与权重向量相乘包含有角度信息,SphereFace使学习到的特征具有角度上的分布特性,为让特征学习到更可分的角度特性,SphereFace在Softmax基础上进行了改进,即对权重进行归一化,对偏差置零；CosFace损失函数与SphereFace类似,都是在Softmax的基础上改进,将特征的分类空间转换到角度空间进行分类,CosFace相较于SphereFace进一步将特征x_i置为单位1进行归一化,其目的是最后分类结果只与权重向量和特征向量之间的角度有关,但是考虑到x_i归一化值太小会导致训练损失值过大,引入了缩放因子s和惩罚因子m,进而得到更可分的特征；Arcace损失函数与CosFace损失函数类似,只是将惩罚函数作用于角度上,直接在角度空间中对分类边界进行惩罚约束,类似地,ArcFace损失函数需要对特征和权重进行归一化,并引入缩放因子s。

步骤2，构建集成多种不同损失函数的表情识别网络ResNet-EnLoss。

单一网络往往存在提取特征不充分的问题,为此可采用多网络集成的方式解决；同时,分类问题中采用多个不同类型卷积神经网络的集成可进一步提高模型的准确率和泛化能力,为此在前述四种不同损失函数的表情识别网络基础上,采用集成学***均投票和多数投票作为集成策略对网络进行集成。

步骤3，设计基于卷积神经网络的粗细分级表情识别网络。

在粗细分级卷积神经网络结构方面,由于卷积神经网络前几层提取到的特征为浅层特征,所以借鉴了迁移学习的思想,网络结构中粗分类网络和细分类网络将共用卷积神经网络的前几层，总网络分为3个部分,分别是粗分类网络、不易混淆的细分类网络和易混淆的细分类网络，粗分类网络的主要作用是分类易混淆类别表情和不易混淆类别表情,起到粗分类的作用；两个细分类网络在粗分类网络分类结果的基础上进行精确化分类,分别对不易混淆类别和易混淆类别的表情实现精确化分类，设计该网络结构的目的主要是将易混淆类别的表情从整个类别中剥离出来,进行精确化分类,从而降低易混淆类别的混淆性。

步骤4，设计人脸表情识别***。

本***主要功能包括表情识别网络模型选择功能、人脸表情图片识别功能、人脸表情实时识别功能,除此之外,本***还包括识别所用时间显示、识别结果显示、各类表情概率显示以及图片或实时识别效果显示功能；

2.根据权利要求1所述一种基于损失函数集成和粗细分级卷积神经网络的表情识别方法，其特征在于：所述网络中引入CenterLoss、SphereFace、CosFace、ArcFace等四种损失函数来扩大表情特征类间距离并缩小类内距离，同时为解决单一网络提取特征单一的问题：

3.根据权利要求1所述一种基于损失函数集成和粗细分级卷积神经网络的表情识别方法，其特征在于，所述粗网络的主要作用是分类易混淆类和不易混淆类表情，为后续细分类网络提供前瞻性的分类，粗网络为二分类网络，网络选择ResNet-18；细网络分为不易混淆表情分类和易混淆表情分类两个网络,由于卷积神经网络前几层提取的特征为浅层特征,所以两个细分类网络结构采用迁移学习的思想,与粗网络共用网络的前几层,增强粗细网络之间的关联性,减少网络大小：

4.根据权利要求1所述一种基于损失函数集成和粗细分级卷积神经网络的表情识别方法，其特征在于，所述本***实现人脸表情图片识别以及视频实时识别,并提供网络模型切换功能。图片识别功能能够实现静态图片的人脸表情识别,视频实时识别功能能够实现基于摄像头的实时人脸表情识别：

本发明具有以下技术特点：

1.本发明基于改进四种损失函数，构建基于平均投票和多数投票两种两种集成表情识别网络，提升了表情识别准确率。

2.本发明设计了粗细分级卷积神经网络表情识别方法，提升了易混淆类别表情的识别准确率。

3.本发明设计了基于深度学习的人脸表情识别***，本***具有一定的实时性和适用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程示意图。

图2为本发明实施例的粗网络结构示意图。

图3为本发明实施例的细网络结构示意图。

图4为本发明实施例的***UI设计图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

本发明中的一种基于损失函数集成和粗细分级卷积神经网络的表情识别方法，包括以下步骤：

步骤1，引入人脸识别***领域的四种损失函数

CenterLoss是一种辅助损失函数,通常与交叉熵损失函数Softmax结合使用,它能够进一步减小同一类表情特征的类内距离,同时保持不同类别特征的可区分性,其公式如下所示

式中,m表示每批次训练数据的数量,x_i表示待分类的特征,表示第y_i个类别的特征中心。该辅助函数以L＝Lsoftmax+λLcenterloss的形式搭配Softmax损失函数作为网络的损失函数,其中λ为控制两个损失函数的平衡因子,当λ＝0时,损失函数变成Softmax交叉熵损失函数。

SphereFace损失函数由交叉熵损失函数Softmax中w^Tx＝||w||||x||cosθ启发而来,即特征向量与权重向量相乘包含有角度信息。SphereFace使学习到的特征具有角度上的分布特性。为让特征学习到更可分的角度特性,SphereFace在Softmax基础上进行了改进,即对权重进行归一化,对偏差置零。Sphereface损失函数形式为:

式中,x_i表示待分类的特征,为权重向量/>和特征向量x_i,之间的夹角,θ_j为权重向量w₁和特征向量x_i之间的夹角,m为惩罚因子,用于控制同一类特征聚集的程度,从而控不同类之间的距离。SphereFace不仅可以缩小表情特征之间的类内距离,也可以增大表情特征之间的类间距离。

CosFace损失函数与SphereFace类似,都是在Sofmax的基础上改进,将特征的分类空间转换到角度空间进行分类。CosFace相较于SphereFace进一步将特征x_i置为单位1进行归一化,其目的是最后分类结果只与权重向量和特征向量之间的角度有关。但是,考虑到x_i归一化值太小会导致训练损失值过大,引入了缩放因子s和惩罚因子m,进而得到更可分的特征。CosFace损失函数形式为:

式中,s为缩放因子,m为惩罚因子,为权重向量/>和特征向量x_i之间的夹角,θ_j是权重向量w_j和特征向量x_i之间的夹角。

ArcFace损失函数与CosFace损失函数类似,只是将惩罚函数作用于角度上,直接在角度空间中对分类边界进行惩罚约束。类似地,ArcFace损失函数需要对特征和权重进行归一化,并引入缩放因子s。ArcFace损失函数形式为:

式中,为输入特征ArcFace损失函数层权值向量之间的角度,s为特征归一化参数,m为角度惩罚参数。

步骤2，构建集成多种不同损失函数的表情识别网络ResNet-EnLoss

单一网络往往存在提取特征不充分的问题,为此可采用多网络集成的方式解决；同时,分类问题中采用多个不同类型卷积神经网络的集成可进一步提高模型的准确率和泛化能力,为此在前述四种不同损失函数的表情识别网络基础上,采用集成学***均投票和多数投票作为集成策略对网络进行集成；平均投票通过平均各个网络输出的后验概率来确定得分最高的类,其计算公式如下:

式中,N为集成的网络个数,h_i(x)为集成网络中每个网络输出的结果。多数投票基于少数服从多数的原则,由各个网络的预测标签得到最终网络的预测标签。针对每个样本,假设N个网络的预测类别为{C₁,C₂,…C_N},则采用数量最多的类别c_i作为网络的预测类别。

步骤3，设计基于卷积神经网络的粗细分级表情识别网络

将ResNet-18的输出调整为二分类输出,并且为了适配本章所使用的数据集,将第一层卷积核的大小缩小为3x3的大小,网络中间的卷积层的卷积核大小由3x3修改为2×2,并将全连接层大小修改为(512,64),同时增加一个大小为(64,2)的全连接层,除此之外,将在网络特定节点处留出接口,为细网络共用网络前几层提供接口,并且为后续最佳接口位置实验留出实验空间；细网络分为不易混淆表情分类和易混淆表情分类两个网络,由于卷积神经网络前几层提取的特征为浅层特征,所以两个细分类网络结构采用迁移学习的思想,与粗网络共用网络的前几层,增强粗细网络之间的关联性,减少网络大小。细分类网络由两个细网络与粗网络共用卷积神经网络的前几层组成,整个网络从结构看呈现并联结构。不易混淆的细分类网络将对不容易产生混淆的表情进行分类,从前面的分析来看,不易混淆表情数量比易混淆表情数量多,而易混淆的表情类别大多是两两容易产生混淆,所以不易混淆的细分类网络)设计为多分类网络,易混淆的细分类网络设计为二分类网络。

步骤4，设计人脸表情识别***

***主要模块大致可分为四类,分别为模型选择,人脸表情图片识别、人脸表情实时识别和辅助功能。将***主要的三个功能按键设计在界面的左上方,识别用时显示和识别结果显示功能设计在界面的右上方,识别效果显示功能设计在界面的左下方,各类表情识别概率显示功能设计在界面的右下方。根据各个模块功能,将***的三个主要功能模型选择,人脸表情图片识别人脸表情实时识别设计为工具按钮,其他功能模块使用QLabel标签控件。除此之外,本***还在三个主要功能按钮后面增加了状态说明信息栏,主要用于对三个主要功能的当前状态信息进行说明和提示。对于识别效果显示功能和各类表情识别概率显示功能设计了初始状态界面,对于识别效果显示功能,当***初始化以及结束实时识别和图片识别时将显示本实验室的图标；对于各类表情识别概率显示功能,当***初始化时以及识别结束时将所有表情类别的概率值置零。本***的UI界面在Qt Designer上进行设计和布局,然后使用pyuic5将UI文件转换为.py文件,用于后继***功能的编程和实现。

Claims

步骤1，引入人脸识别***领域的四种损失函数；

CenterLoss是一种辅助损失函数,通常与交叉熵损失函数Softmax结合使用,它能够进一步减小同一类表情特征的类内距离,同时保持不同类别特征的可区分性；SphereFace损失函数由交叉熵损失函数Softmax中w^Tx＝||w||||x||cosθ发而来,即特征向量与权重向量相乘包含有角度信息,SphereFace使学习到的特征具有角度上的分布特性,为让特征学习到更可分的角度特性,SphereFace在Softmax基础上进行了改进,即对权重进行归一化,对偏差置零；CosFace损失函数与SphereFace类似,都是在Softmax的基础上改进,将特征的分类空间转换到角度空间进行分类,CosFace相较于SphereFace进一步将特征x_i置为单位1进行归一化,其目的是最后分类结果只与权重向量和特征向量之间的角度有关,但是考虑到x_i归一化值太小会导致训练损失值过大,引入了缩放因子s和惩罚因子m,进而得到更可分的特征；Arcace损失函数与CosFace损失函数类似,只是将惩罚函数作用于角度上,直接在角度空间中对分类边界进行惩罚约束,类似地,ArcFace损失函数需要对特征和权重进行归一化,并引入缩放因子s；

步骤2，构建集成多种不同损失函数的表情识别网络ResNet-EnLoss；

单一网络往往存在提取特征不充分的问题,为此可采用多网络集成的方式解决；同时,分类问题中采用多个不同类型卷积神经网络的集成可进一步提高模型的准确率和泛化能力,为此在前述四种不同损失函数的表情识别网络基础上,采用集成学***均投票和多数投票作为集成策略对网络进行集成；

步骤3，设计基于卷积神经网络的粗细分级表情识别网络；

在粗细分级卷积神经网络结构方面,由于卷积神经网络前几层提取到的特征为浅层特征,所以借鉴了迁移学习的思想,网络结构中粗分类网络和细分类网络将共用卷积神经网络的前几层，总网络分为3个部分,分别是粗分类网络、不易混淆的细分类网络和易混淆的细分类网络，粗分类网络的主要作用是分类易混淆类别表情和不易混淆类别表情,起到粗分类的作用；两个细分类网络在粗分类网络分类结果的基础上进行精确化分类,分别对不易混淆类别和易混淆类别的表情实现精确化分类，设计该网络结构的目的主要是将易混淆类别的表情从整个类别中剥离出来,进行精确化分类,从而降低易混淆类别的混淆性；

步骤4，设计人脸表情识别***；

本***主要功能包括表情识别网络模型选择功能、人脸表情图片识别功能、人脸表情实时识别功能,除此之外,本***还包括识别所用时间显示、识别结果显示、各类表情概率显示以及图片或实时识别效果显示功能。

2.根据权利要求1所述一种基于损失函数集成和粗细分级卷积神经网络的表情识别方法，其特征在于：所述网络中引入CenterLoss、SphereFace、CosFace、ArcFace等四种损失函数来扩大表情特征类间距离并缩小类内距离，同时为解决单一网络提取特征单一的问题。

3.根据权利要求1所述一种基于损失函数集成和粗细分级卷积神经网络的表情识别方法，其特征在于，所述粗网络的主要作用是分类易混淆类和不易混淆类表情，为后续细分类网络提供前瞻性的分类，粗网络为二分类网络，网络选择ResNet-18；细网络分为不易混淆表情分类和易混淆表情分类两个网络,由于卷积神经网络前几层提取的特征为浅层特征,所以两个细分类网络结构采用迁移学习的思想,与粗网络共用网络的前几层,增强粗细网络之间的关联性,减少网络大小。

4.根据权利要求1所述一种基于损失函数集成和粗细分级卷积神经网络的表情识别方法，其特征在于，所述***实现人脸表情图片识别以及视频实时识别,并提供网络模型切换功能；图片识别功能能够实现静态图片的人脸表情识别,视频实时识别功能能够实现基于摄像头的实时人脸表情识别。