CN113435315A

CN113435315A - 一种基于双路神经网络特征聚合的表情识别方法

Info

Publication number: CN113435315A
Application number: CN202110710692.9A
Authority: CN
Inventors: 李靖宇; 林克正; 苗壮
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-24

Abstract

本申请涉及一种基于双路神经网络特征聚合的表情识别方法，目的是解决人脸表情识别率低的问题。本方法主要包括：人脸检测；图像直方图均衡化处理；CS‑LBP局部纹理特征提取；利用双路神经网络分别进行特征提取；特征降维；采用加权融合的方法融合特征；送入softmax层进行分类，输出人脸表情。本方法采用双路神经网络架构，CNN1采用改进的残差网络，通过快捷连接来组合每个残差单元的输出特征图，网络结构从全局残差变为全局局部残差，同时避免了模型训练中的过拟合，避免了梯度反向传播中梯度消失的现象。CNN2充分利用图像局部纹理特征，在卷积神经网络中嵌入注意力机制，自动聚焦网络感兴趣的特征区域。在训练过程中采用隔离损失函数，减小同一类的特征的差异，增大不同类之间特征的空间分布，增强神经网络所提取特征的判别性。

Description

一种基于双路神经网络特征聚合的表情识别方法

技术领域

本发明涉及一种人脸表情识别方法，属于图像识别领域。

背景技术

人脸表情识别是计算机视觉领域的研究热点，在通信工程，医疗卫生，安全驾驶，社会情感分析等多个领域都显示出了广泛的应用前景。当前的人脸表情识别算法主要是基于传统方法和基于深度学习方法。传统的人脸特征提取算法主要有主成分分析(PrincipalComponent Analysis,PCA)、尺度不变特征变换(Scale-Invariant FeatureTransformation,SIFT)、局部二值模式(Local Binary Patterns,LBP)、Gabor小波变换以及方向梯度直方图(Histogram Of Gradient,HOG)等，分类算法主要有支持向量机(Support Vector Machine,SVM)、K近邻等，随着人工智能技术越来越成熟，深度学习方法在图像识别领域大放异彩，深度神经网络(Deep neural network,DNN)被应用于表情识别并取得了较好的成绩。

然而目前的表情识别方法易受到图片噪声和人为干扰因素的影响造成识别正确率欠佳，而且单通道的神经网络从图像全局出发，容易忽略图像局部特征，造成特征损失的问题，稳定性较差。

发明内容

本发明要解决的技术问题是人脸表情识别过程中单一通道卷积神经网络特征损失的问题，提出了一种基于双路神经网络特征聚合的表情识别方法。

为了达到上述目的，本发明采用的技术方案是：

S1、对待识别的图像进行人脸检测，获取人脸区域；

S2、对获取的人脸图像做直方图均衡化处理；

S3、提取人脸图像的CS-LBP局部纹理特征；

S4、利用双路神经网络分别对步骤S2和步骤S3获取的图进行特征提取，加入网络注意力机制聚焦有用特征，剔除无效特征；

S5、将步骤S4获取的特征送入全连接层进行降维；

S6、将步骤S5中降维后的特征采用加权融合的方式融合成新的特征；

S7、将步骤S6中的新特征送入全连接层利用Softmax激活函数对其进行分类，输出表情。

进一步的，所述步骤S1中人脸检测获取人脸区域采用MTCNN网络模型，其具体方法包括：

S11、将图像进行“金字塔”变换，以解决目标多尺度问题。

S12、将步骤S11中获取的“图片金字塔”输入到卷积神经网络P-net中，得到大量的候选区域。

S13、将步骤S12中经过P-net筛选出来的照片送入较复杂的卷积神经网络R-net中进行精调，对P-net产生的多张人脸区域进行细化选择，并且舍去大部分的错误输入，提高人脸区域的可信度。

S14、将步骤S13中的候选区域输入到神经网路O-net中继续筛选，输出准确的bbox坐标和landmark坐标，获取准确的人脸区域。

进一步的，所述步骤S2中图像直方图均衡化处理的具体方法是：统计直方图每个灰度级出现的次数，累计归一化的直方图，利用映射关系计算新的像素值，处理后的图像灰度范围变大，图像对比度增强。

进一步的，所述步骤S3中CS-LBP的具体内容是：

CS-LBP是一种描述图像局部纹理特征的算子，该算子对光照变化与轮廓模糊具有一定的鲁棒性，还可以表达图像局部纹理的空间结构，计算复杂度低且抗噪声能力强，并且能够准确无误的描述图像中每一点与其相邻点在灰度值上的大小关系。CS-LBP局部纹理特征是通过使用图像对角位置像素对进行编码其计算过程如下：

式中：g(p_i,p_i+(N/2))计算公式是通过使用像素值做差值，对差值取绝对值后判断与阈值t的大小关系进行计算如下所示：

进一步的，所述步骤S4包括：

S41、将步骤S2中直方图均衡化后的人脸图像X＝(x₁,x₂,...,x_n)送入改进的残差网络CNN1中，经过若干层卷积运算和最大池化运算之后，获得相应的特征f_H＝(f_H ¹,f_H ²,...,f_H ^m)，其中卷积运算过程如下所示：

其中，CBAM为网络注意力机制；L为当前层；L-1为前一层；

表示当前层的第j个特征区域；

表示前一层第i个特征区域；K表示两个区域的卷积核；

当前层第j个特征区域的偏置；M_j为当前层特征区域的数量；f(.)为激活函数。

S42、将步骤S3获取的CS-LBP特征图X'＝(x'₁,x'₂,...,x'_n)送入自行设计的基于注意力机制卷积神经网络CNN2中，经过若干层卷积运算和最大池化运算之后获取到相应的局部特征f_L＝(f_L ¹,f_L ²,...,f_L ^k)；

S43、特征经过展平层之后获到特征向量

和

进一步的，步骤S5中降维的具体方法为：

S51、将步骤S4中提取到的特征向量

输入到两层全连接层f_c1-1和f_c1-2中进行降维，采用Relu激活函数，如下所示：

全连接层各层结构如下所示：

f_c1-1＝{s₁,s₂,...,s₅₀₀}

f_c1-2＝{s₁,s₂,...,s₆}

其中，s表示当前全连接层的神经元，f_c1-1中有500个神经元，f_c1-2中有6个神经元，全连接层最后输出维度为6的特征向量

S52、将步骤S4中提取到的特征向量f_L输入到两层全连接层f_c2-1和f_c2-2中进行降维，各层结构如下所示：

f_c2-1＝{l₁,l₂,...,l₅₀₀}

f_c2-2＝{l₁,l₂,...,l₆}

其中，l表示当前全连接层的神经元，f_c2-1中有500个神经元，f_c2-2中有6个神经元，全连接层最后输出维度为6的特征向量

进一步的，所述步骤S6具体为：

将步骤S5中的特征

和

加权融合后形成新的特征F_z，设置权重系数k来调节两个通道的特征比重，融合过程如下所示：

当k取0或1的时候表示只有一个单通道的网络。

进一步的，所述步骤S7中Softmax激活函数分类过程如下所示：

其中，Z是上一层的输出，Softmax的输入，维度为C，y_i为某一类别的概率值，i的取值代表了类别数。

本发明的先进点在于：

1、本发明采用双通道并行神经网络的方法提取特征，直方图均衡化后的图像用于提取全局特征，CS-LBP局部纹理特征图用于提取图像局部特征，然后采用加权融合的方式，将局部特征和全局特征有效融合，获取更有效的特征信息。

2、在卷积神经网络中引入注意力机制，在特征提取的过程中自动聚焦网络感兴趣的特征区域，抑制无用特征，提高了特征提取的效率。

3、采用新的损失函数—隔离损失，隔离损失不仅能减小同一类的特征的差异，而且能够增大不同类之间特征的空间分布，增强神经网络所提取特征的判别性。

附图说明

图1为基于双路神经网络特征聚合的表情识别方法流程图。

图2为改进的残差网络结构示意图。

图3为CS-LBP特征图特征提取网络结构示意图。

图4为双路神经网络整体结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1，

参见图1-图4，本实施例1提供了一种基于并行神经网络的人脸表情识别方法，

包括如下步骤：

S1、对待识别的图像进行人脸检测，获取人脸区域；

步骤S1中待识别的图像使用国际中一些人脸表情公开数据集，比如FER2013，CK+，和Jaffe等，或者采用摄像头获取图像，并将图片用于人脸检测和分割，具体步骤为：

S11、将图像进行“金字塔”变换，以解决目标多尺度问题。

具体的说，S1步骤是从人脸表情数据库，或者摄像头获取图像，然后使用MTCNN网络对图像进行人脸检测，筛选出可信度最高的人脸区域，去除图像中背景的干扰，最终获取大小为64*64的人脸灰度图。

S2、对获取的人脸图像做直方图均衡化处理；

具体的说，图像的直方图均衡化的方法是：统计直方图每个灰度级出现的次数，累计归一化的直方图，利用映射关系计算新的像素值，对在图像中像素个数多的灰度值(即对画面起主要作用的灰度值)进行展宽，而对像素个数少的灰度值(即对画面不起主要作用的灰度值)进行归并，从而增大对比度，达到使图像清晰的效果。

S3、提取人脸图像的CS-LBP局部纹理特征；

步骤S3中CS-LBP局部纹理特征是通过使用图像对角位置像素对其进行编码，其计算过程如下：

具体的说，步骤S3计算了图像的CS-LBP局部纹理特征，CS-LBP是一种描述图像局部纹理特征的算子，该算子对光照变化与轮廓模糊具有一定的鲁棒性，还可以表达图像局部纹理的空间结构，计算复杂度低且抗噪声能力强，并且能够准确无误的描述图像中每一点与其相邻点在灰度值上的大小关系。最终获得大小为64*64的CS-LBP的特征图。

S4、利用并行神经网络分别对步骤S2和步骤S3获取的图进行特征提取，加入网络注意力机制聚焦有用特征，剔除无效特征；

步骤S4具体包括：

S41、将步骤S2中直方图均衡化后的人脸图像X＝(x₁,x₂,...,x_n)送入基于网络注意力机制的卷积神经网络CNN1中，经过卷积运算和最大池化运算之后，获取相应的全局特征f_H＝(f_H ¹,f_H ²,...,f_H ^m)，其中卷积运算过程如下所示：

其中，CBAM为网络注意力机制；L为当前层；L-1为前一层；

表示当前层的第j个特征区域；

表示前一层第i个特征区域；K表示两个区域的卷积核；

参见图2，如图2(a)所示，原始的残差块由两个卷积层和两个BN层组成，每个模块都有一个快速的输入输出连接，CNN1对原始的残差块结构进了改进，如图2(b)所示，去除了原有结构中的两个BN层，并在第二个卷积层后添加了ReLU，以提高残差单元的非线性表达能力，避免了BN层对图像空间信息的破坏，为增强残差网络的性能，减轻网络得训练负担，提出一种跨层集成策略，如图2(c)所示，通过快捷连接来组合每个残差单元的输出特征图，网络结构从全局残差变为局部残差，同时避免了模型训练中的过拟合和反向传播中梯度消失的现象。在全局残差结构的基础上结合了每个残差单元的输出特性，从而充分利用了每个残差单元的输出特征，增强了网络浅层特征的表达能力。

S42、将步骤S3获取的CS-LBP特征图X'＝(x'₁,x'₂,...,x'_n)送入基于注意力机制的卷积神经网络CNN2中，采用较小卷积核提取局部特征，经过若干层卷积运算和最大池化运算之后获取到相应的局部特征f_L＝(f_L ¹,f_L ²,...,f_L ^k)；

参见图3，CNN2的网络的具体结构为：第一层是一个卷积核大小为5*5的卷积层，后接一个最大池化层；第二层是两个卷积核大小为3*3的卷积层，后接一个最大池化层；第3层是卷积核为3*3的卷积层，后接一个最大池化层；特征提取完毕后送入展平层，最后接入两层全连接层节点数分别是500和6，在全连接层加入Dropout预防过拟合，设置Dropout值为0.5。

S43、特征经过展平层之后获到特征向量

和

S5、将步骤S4获取的特征送入两层全连接层进行降维；

步骤S5具体包括：

S51、将步骤S4中提取到的特征向量

各层结构如下所示：

f_c1-1＝{s₁,s₂,...,s₅₀₀}

f_c1-2＝{s₁,s₂,...,s₆}

S52、将步骤S4中提取到的特征向量f_L输入到来两层全连接层f_c2-1和f_c2-2进行降维，各层结构如下所示：

f_c2-1＝{l₁,l₂,...,l₅₀₀}

f_c2-2＝{l₁,l₂,...,l₆}

其中，l表示当前全连接层的神经元，f_c2-1中有500个神经元，f_c2-2中有6个神经元全连接层最后输出维度为6的特征向量

具体的说，将CNN1和CNN2输出的特征分别降为和输出相同维度的特征，为特征融合做准备。

S6、将步骤S5中降维后的特征利用加权融合的方式融合成新的特征；

参见图4，将步骤S5中的特征

和

当k取0或1的时候表示只有一个单通道的网络。

加权融合的好处就是可以调节不同神经网络输出特征的比例，通过大量实验寻找k的最佳取值，为0.6。

S7、将步骤S6中的新特征送入全连接层利用Softmax激活函数对其进行分类，输出表情；

所述步骤S7中Softmax激活函数分类过程如下所示：

其中，Z是上一层的输出，Softmax的输入，维度为C，y_i为某一类别的概率值，i的取值代表了类别数，此处将表情分为6类，分别是生气(anger)、厌恶(disgust)、恐惧(fear)、开心(happy)、伤心(sad)、惊讶(surprised)，最后的分类结果为输出最大概率值的神经元节点所对应的类别。

本发明未详述之处，均为本领域技术人员的公知技术。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。