CN113989890A - 基于多通道融合和轻量级神经网络的人脸表情识别方法 - Google Patents
基于多通道融合和轻量级神经网络的人脸表情识别方法 Download PDFInfo
- Publication number
- CN113989890A CN113989890A CN202111273460.8A CN202111273460A CN113989890A CN 113989890 A CN113989890 A CN 113989890A CN 202111273460 A CN202111273460 A CN 202111273460A CN 113989890 A CN113989890 A CN 113989890A
- Authority
- CN
- China
- Prior art keywords
- image
- convolution
- neural network
- lightweight neural
- gradient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于多通道融合和轻量级神经网络的人脸表情识别方法,本发明针对传统人脸表情识别学习方法中特征提取过程复杂而且不能从原始图像中获取更加深入的高语义特征以及深度特征的问题,提出了一种基于多通道融合和轻量级神经网络的人脸表情识别方法,把多通道融合后的三通道特征图像作为构建的轻量级神经网络的输入,采用深度可分离卷积的设计思想来减少参数数量和计算量,同时采用残差连接机制来构建网络模型解决网络性能退化和梯度消失问题,从而在训练更深网络的同时,又能保证良好的性能。实验表明本发明所提模型可以有效提取人脸表情特征以及对表情进行分类,具有较好的准确率和鲁棒性。
Description
技术领域
本发明属于人脸表情识别技术领域,具体涉及基于多通道融合和轻量级神经网络的人脸表情识别方法。
背景技术
近几年,机器学习在人工智能领域迅速发展,如何实现计算机更好的理解人类情感,进一步改变人与计算机的关系受到越来越多研究者的关注。心理学专家A.Mehrabian的研究表明,在人与人的沟通交流中,人脸表情所传达的信息占有非常大的比重,高达55%,而仅有7%的比重取决于说话者的内容。由此可见,在人与人的交流中人脸表情起着至关重要的作用。表情识别是一个横跨生理学、神经学、计算机科学等领域的交叉学科,其在心理学、智能机器人、在线教育、智能监控等领域有很大的潜在应用价值。
表情是非语言交际的一种形式,多数指面部肌肉、眼部肌肉、口部肌肉及五官形成的状态,如笑容、怒目等,能及时反映人的情绪变化和心理状态。1971年,心理学家Ekman和Friesen将人脸表情划分为6种基本表情即高兴、悲伤、惊讶、恐惧、愤怒、厌恶,并***地建立了人脸表情图像库,细致的描述了每一种表情所对应的面部运动特征。目前,人脸表情识别大多分为两类。一类是基于传统的特征提取算法,包括基于几何特征的提取算法、基于纹理特征的提取算法等,主要是根据不同的特征需求,设计合适的特征提取算法,结合不同的分类器进行分类,如尺度不变特征转换、局部二值模式、Canny边缘检测等传统特征提取算法,然后通过稀疏表示分类法、隐马尔可夫模型等算法对人脸表情进行分类识别。但传统的特征提取算法非自主学习只能根据人为设定的特征提取一些浅层特征,容易因人为因素造成误差,从而影响表情分类的精确度。另一类是基于深度学习的特征提取算法,包括卷积神经网络、深度置信网络和受限玻尔兹曼机三种模型。深度神经网络自主学习能力强,能提取更深层的特征,提取的人脸表情特征更有利于可视化,然后通过分类器输出分类结果。Jain等人提出了包含深度残差块的单个深度卷积神经网络模型,发现了FCN和残差块云的组合大大提高了整体结果。Ko介绍了一种最新的混合深度学习方法,该方法结合了卷积神经网络(CNN)和长短期记忆(LSTM)。Alia等人提出了一种利用图挖掘技术减少提取特征的面部情感识别方法,其中gSpan频繁子图挖掘算法用于在图数据库中找到每种情绪的频繁子结构。Yong Li等人提出了一种具有注意力机制(ACNN)的卷积中性网络(CNN),它可以有效地感知人脸的遮挡区域,提高了非遮挡人脸和遮挡人脸的识别准确率。Tang将CNN与SVM相结合进行人脸表情识别,在Fer2013数据集取得了较好的识别效果。Fengyuan等结合SIFT和CNN特征融合的方法来进行人脸表情识别,提高了模型识别的准确率。
发明内容
为了解决传统方法提取特征困难以及特征提取不完整的问题,本发明的目的是提供一种基于多通道融合和轻量级神经网络的人脸表情识别方法,从而进一步提取了更加完整的图像特征,提高了人脸表情识别的准确率和鲁棒性。
为了达到上述目的,本发明所采用的技术方案是:基于多通道融合和轻量级神经网络的人脸表情识别方法,包括以下步骤:
S1、通过表情数据库或者摄像头获取图像数据,并使用基于Haar特征的Cascade级联分类器对人脸表情库图像进行人脸区域检测,获取人脸图像;
S2、采用局部二值模式提取人脸区域的局部纹理特征,并基于Canny边缘检测算法对人脸区域的边缘进行检测;
S3、构建并初始化轻量级神经网络;
S4、把获取到的人脸图像、LBP纹理特征图像、边缘检测Canny图像进行通道融合,并将融合后的图像进行数据归一化和数据增强后输入到构建的轻量级神经网络中进行训练和识别。
进一步的,步骤S4在对构建的轻量级神经网络进行训练时,使用数据增强的训练集进行模型训练,并按批次训练模型,逐批生成数据,然后执行反向传播,并更新模型中的权重,重复该过程直到达到期望的epoch数量。
进一步的,步骤S1中,在获取人脸图像后,还需要进行图像归一化处理,把不同维度的特征值尺度调整到相近的范围内。
进一步的,步骤S2中,采用局部二值模式提取人脸区域的局部纹理特征的过程如下:
给定一个像素(xc,yc),采样点数为P以及采样圆形领域半径为R,得到的LBP可以用十进制表示如下:
其中p表示圆形区域中总计P个采样点中的第p个采样点,ic表示圆邻域内中心像素的灰度值,ip表示圆形邻域内P个周围像素的灰度值,函数s(x)定义为:
原始LBP的数值转化为二进制编码,对它进行循环移位操作,用数学公式表示,取所有结果中最小的那个值:
其中ROR(x,i)指对P位数x执行循环位右移i次。
进一步的,步骤S2中基于Canny边缘检测算法对人脸区域的边缘进行检测的过程如下:
S21、采用高斯平滑滤波器进行卷积降噪,即对原始数据与高斯滤波器进行卷积操作,使图像更平滑,用数学公式表示,二维高斯函数为:
其中(x,y)为原图像h(x,y)像素点的纵横坐标点,σ为高斯函数标准差;把高斯函数和原图像h(x,y)进行卷积处理后得到H(x,y):
H(x,y)=G(x,y)×h(x,y) (5)
噪声滤除后,对H(x,y)计算梯度幅度和方向来估计每一点处的边缘强度与方向,利用一阶偏导数有限差分计算梯度,其x和y方向的一阶偏导数矩阵为P(i,j)和Q(i,j):
由下式计算得到梯度幅值M(i,j)和梯度方向θ(i,j):
梯度角度θ范围从弧度-π到π,并把它近似到四个方向,分别代表水平,垂直和两个对角线方向(0°,45°,90°,135°),沿着梯度方向对梯度幅值进行非极大值抑制,寻找像素点的局部最大值,在每一点上,领域中心像素点与沿着其对应的梯度方向的两个像素相比,若中心像素为最大值,则保留,否则中心置0,从而可以抑制非极大值,保留局部梯度最大的点,以得到细化的边缘。
进一步的,步骤S4中,经通道融合后得到的图像为48×48像素的三通道图像。
进一步的,步骤S4在对输入轻量级神经网络中的图像进行识别时:
首先依次通过两个2D卷积层进行卷积操作,卷积核大小均为3×3,卷积核个数分别为32、64,步长均为1;然后将输出依次经过残差模块一、残差模块一、残差模块二、残差模块一,卷积核个数分别为128、256、256、512,其中深度可分离卷积的卷积核大小为3×3,最大池化的卷积核大小为3×3,2D卷积层的卷积核大小为1×1;再然后将输出依次送入两个深度可分离卷积层,卷积核大小均为3×3,卷积核个数分别为1024、512,步长均为1;最后把输出依次送入全局平均池化层和Softmax分类器,所有的2D卷积、深度可分离卷积操作都要经过一个Batch Normalization层和ReLU6激活层来加速网络的收敛速度和增加提取非线性特征的能力。
与现有技术相比,本发明的有益效果是:本发明针对传统人脸表情识别学习方法中特征提取过程复杂而且不能从原始图像中获取更加深入的高语义特征以及深度特征的问题,提出了一种基于多通道融合和轻量级神经网络的人脸表情识别方法,把多通道融合后的三通道特征图像作为构建的轻量级神经网络的输入,采用深度可分离卷积的设计思想来减少参数数量和计算量,同时采用残差连接机制来构建网络模型解决网络性能退化和梯度消失问题,从而在训练更深网络的同时,又能保证良好的性能。实验表明本发明所提模型可以有效提取人脸表情特征以及对表情进行分类,具有较好的准确率和鲁棒性。
附图说明
图1是本发明基于多通道融合和轻量级神经网络的人脸表情识别方法的框架图;
图2是分别对不同人脸表情检测出的人脸区域的示意图;
图3是LBP提取纹理特征的原理图;
图4是采用局部二值模式提取到的旋转不变的的人脸表情LBP特征图;
图5是基于Canny边缘检测算法提取到的人脸区域的边缘检测图;
图6是神经网络示意图;
图7是跨通道相关性和空间相关性解耦示意图;
图8是残差模块一的网络框架图;
图9是残差模块二的网络框架图;
图10是改进的Xception网络模型示意图;
图11是Fer2013数据集部分图像的样例;
图12是CK+数据集部分图像的样例;
图13是Fer2013数据集上的混淆矩阵;
图14是CK+数据集上的混淆矩阵。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
1、本发明的原理如下:首先通过表情数据库或者摄像头获取图像数据,并使用基于Haar特征的Cascade级联分类器对人脸表情库图像进行人脸区域检测,需要确定图像中是否有人脸,并检测人脸的位置。其次,获取人脸表情图像后,通过将LBP提取人脸区域的局部纹理特征与边缘检测算法Canny相结合,并把检测到的人脸图像、LBP纹理特征图像、边缘检测Canny图像进行通道融合成三通道的形式。最后将融合后的图像进行数据归一化和数据增强后输入到构建的轻量级神经网络中进行训练、识别。完成网络模型构建后进行配置训练模型,然后使用数据增强的训练集进行训练模型,按批次训练模型,并逐批生成数据,执行反向传播,并更新模型中的权重,重复该过程直到达到期望的epoch数量。人脸表情识别基本流程图如图1所示。
2、图像预处理
本申请中的表情数据库优先采用Fer2013和CK+数据库图像。然而,Fer2013和CK+数据库图像是原始图像,往往包含一些与表情无关的信息如手势、太阳镜、帽子等,所以为了提高图像识别准确率,需要经过图像预处理去除冗余信息。本申请采用的预处理为:人脸检测和图像归一化。
2.1人脸检测
本申请采用基于Haar特征的Cascade级联分类器进行人脸区域检测。通过积分图对Haar-like进行特征求值,筛选出N个优秀的特征值(即最优弱分类器),然后把这N个最优弱分类器传给AdaBoost进行训练,使用AdaBoost算法把这些分类器训练成一个强分类器,用于区分人脸和非人脸,最后把多个强分类器级联到一起,提高准确率。该检测器具备高类间变异性、局部强度差、计算效率高等特性。
Haar的不同特征可以进行多种组合,生成更加复杂的级联特征,Haar特征值反映了图像的对比度与梯度变化。级联分类器相当于一个决策树,层级判断,更加准确,通过多尺度缩放和滑动窗口遍历搜索人脸区域,模型小而轻巧,即使在资源受限的设备上,检测速度也很快。如图2所示对不同人脸表情检测出的人脸区域。
2.2图像归一化
在深度学***均像素强度和对比度的波动,光照强度、图像反射率等会使图片不同区域的像素强度和对比度发生变化,而归一化就是通过尺度缩放弱化这种波动,使得较亮的部分变暗一些,较暗的部分变亮一些。在本申请预处理步骤中采用归一化把不同维度的特征值尺度调整到相近的范围内,即把图像的各个像素值除以255归一化到0~1区间,该方法不仅保留了图像原有的特征信息,而且消除了对比度以及像素强度的波动对特征提取的影响,使得轻量级神经网络可以提取稳定的图像特征。
2.3 LBP特征提取
LBP是一种用来描述图像局部纹理特征的算子,提取的特征是图像的局部的纹理特征,它反应的内容是每个像素与周围像素的关系。原始的LBP算子是领域半径固定且不是旋转不变的,为了满足不同尺寸和频率的纹理需要,本申请采用具有旋转不变性的LBP算子。它允许在半径为R的圆形邻域内有P个均匀间隔的一组像素点,该圆以待标记像素为中心,根据双线性插值算法计算P个采样点的灰度值,可由符号(P,R)表示该邻域。图像的旋转会得到不同的LBP值,经过旋转不变处理,取其最小值作为LBP值。LBP提取纹理特征原理图如3所示。图中黑色和白色分别代表比中心像素更弱和更强的像素。
用数学公式表示,给定一个像素(xc,yc),采样点数为P以及采样圆形领域半径为R,得到的LBP可以用十进制表示如下:
其中p表示圆形区域中总计P个采样点中的第p个采样点,ic表示圆邻域内中心像素的灰度值,ip表示圆形邻域内P个周围像素的灰度值,函数s(x)定义为:
原始LBP的数值转化为二进制编码,对它进行循环移位操作,用数学公式表示,取所有结果中最小的那个值:
其中ROR(x,i)指对P位数x执行循环位右移i次,本申请提取到的人脸表情LBP特征图如图4所示。
2.4 Canny边缘检测算法
Canny边缘检测算子是图像边缘检测算法中最经典、先进的算法之一,是1986年由John F.Canny开发出来的一个多级边缘检测算法,其主要思想是通过高斯函数求导并计算图像对应点的梯度大小和方向,然后由双阈值的设置来检测出图像的边缘。Canny算法包括四个基本步骤:
步骤1.对输入图像进行高斯滤波处理,目的是去除噪声;
步骤2.计算梯度幅值和方向来估计每一点处的边缘强度与方向;
步骤3.根据梯度方向,对梯度幅值进行非极大值抑制;
步骤4.用双阈值处理和连接边缘。
本发明中,在进行Canny算子边缘检测前,对原始图像首先去除噪声,因为出现噪声的地方是发生灰度值剧烈变化的地方,容易被识别为伪边缘。滤波是为了去除噪声,本申请采用高斯平滑滤波器进行卷积降噪,即对原始数据与高斯滤波器进行卷积操作,使图像更平滑。用数学公式表示,二维高斯函数为:
其中(x,y)为原图像h(x,y)像素点的纵横坐标点,σ为高斯函数标准差;把高斯函数和原图像h(x,y)进行卷积处理后得到H(x,y):
H(x,y)=G(x,y)×h(x,y) (5)
噪声滤除后,对H(x,y)计算梯度幅度和方向来估计每一点处的边缘强度与方向,利用一阶偏导数有限差分计算梯度,其x和y方向的一阶偏导数矩阵为P(i,j)和Q(i,j):
由下式(7)计算得到梯度幅值M(i,j)和梯度方向θ(i,j):
梯度角度θ范围从弧度-π到π,并把它近似到四个方向,分别代表水平,垂直和两个对角线方向(0°,45°,90°,135°),沿着梯度方向对梯度幅值进行非极大值抑制,寻找像素点的局部最大值,在每一点上,领域中心像素点与沿着其对应的梯度方向的两个像素相比,若中心像素为最大值,则保留,否则中心置0,从而可以抑制非极大值,保留局部梯度最大的点,以得到细化的边缘。本申请提取到的人脸表情边缘检测Canny图如图5所示。
2.5特征融合网络
通过融合不同尺度的特征是提升检测和分割性能的一个重要手段,按照融合与预测的先后顺序,分类为早融合(Early fusion)和晚融合(Late fusion)。根据图像表征层次的不同,图像融合可分为三个层次的融合:像素级融合、特征级融合和决策级融合。通过实验对比几种融合方式的效果,最终选择特征级融合结合像素级融合在训练预测器前进行早融合的方法如图1所示。我们设原始图像像素特征向量v1∈Rn,LBP提取的纹理特征向量v2∈Rm,边缘检测Canny提取的特征向量v3∈Rk,将其在同一个维数进行拼接,有融合特征向量:
v=[v1,v2,v3]∈Rn+m+K (8)
本申请采取图像融合的方法具有以下优点:
(1)图像增强,提高图像分辨率和清晰度;(2)增强图像的相关特征;(3)相互补充相关信息,去除噪声和冗余;(4)提高目标检测的额识别能力;(5)获得完整的三维重构数据。
3、构建神经网络模型
3.1轻量级卷积神经网络:
在深度学习中,大型网络往往存在着因权值参数多引起的存储问题、计算量大导致的处理任务速度慢的问题。因此,本申请采用轻量化模型解决以上存在的问题。轻量化模型设计思想在于设计更高效的网络卷积方式,从而使网络参数减少的同时不损失网络性能,并且具有局部连接、权值共享和层次化表达的特点。如图6所示。
在图像处理中,一般卷积就是一个卷积核在图像上滑动,并求取对应元素相乘求和的过程。卷积层是卷积网络中最为重要的部分,其主要作用是通过使原信号特征增强和降低噪音来进行图像特征提取,卷积操作计算过程如下所示:
池化也叫做下采样,池化过程中没有需要学***均值。本申请采用的是对空间数据的最大池化。
一般网络采用全连接层,但是全连接层参数多容易发生过拟合,因此,本申请采用全局平均池化来代替全连接层,这样不仅可以减少参数的数量防止过拟合的发生,而且它对空间信息进行了求和,因而对输入的空间变换更具有稳定性。
3.2深度可分离卷积:
为了减少网络的参数数量和提高模型性能,可以借鉴深度可分离卷积的思想把通道相关性与空间相关性分开处理。深度可分离卷积的核心思想是对于不同的输入通道采取不同的卷积核进行卷积,它将标准卷积操作分解为两个过程分别是深度卷积和逐点卷积。我们采用的深度可分离卷积是首先执行逐点卷积,然后执行深度卷积,为了保证数据不被破坏,两种卷积中间没有Relu引起的非线性,如图7所示。与标准卷积相比,我们采用的深度可分离卷积使用了更小的空间代价和更少的时间代价,实现了标准卷积层一样的效果,使得神经网络在保持精度的同时,极大的降低了计算量。
3.3激活函数:
在深度神经网络中,因为线性模型的表达能力不够,解决不了线性不可分问题,通过在隐藏层引入激活函数来加入非线性因素,来提高神经网络对模型的表达能力和非线性建模能力,解决线性模型所不能解决的问题。本申请采用MobileNetV2中提到的ReLU6作为非线性激活函数。ReLU6就是在ReLU函数中限制最大输出值为6,这样在低精度时不仅具有更强的鲁棒性而且有很好的数值分辨率。ReLU6函数定义如下:
ReLU6=min{max(0,x),6} (10)
其中,x为上一网络层的输出特征。
ReLU6函数具有以下优点:
(1)、解决了在深度神经网络中梯度反向传递时梯度消失和梯度***的问题;
(2)、运算量小,计算速度快;
(3)、加快了梯度下降的收敛速度;
(4)、提高了神经网络的稀疏表达能力。
3.4残差网络
为了克服由于网络深度加深而产生的学习效率变低与准确率无法有效提升的问题。本申请采用Resnet50中的残差连接机制构建网络模型,并且将其中的卷积层换成了本申请提出的深度可分离卷积。残差网络是将靠前若干层的某一层数据输出直接跳过多层引入到后面数据层的输入部分,它能够训练更深的神经网络,并且能解决因深度加深带来的网络性能退化和梯度消失问题。残差的引入在深度神经网络中不仅显著加快了网络的收敛过程而且获得了更高的准确率。残差模块一和残差模块二的网络结构分别见图8和图9。
3.5网络架构
本申请提出了一种基于多通道融合和轻量级神经网络的人脸表情识别方法,将经过多通道融合后的48×48像素的三通道图像输入到构建的轻量级神经网络中,网络的设计是采用以Xception为基础的结构识别特征,主要是依赖于对通道融合后的三通道特征的逐层处理来提高人脸表情识别准确率。所提网络结构如图10所示。首先依次通过两个2D卷积层进行卷积操作,卷积核大小均为3×3,卷积核个数分别为32、64,步长均为1;然后将输出依次经过残差模块一、残差模块一、残差模块二、残差模块一,卷积核个数分别为128、256、256、512,其中深度可分离卷积的卷积核大小为3×3,最大池化的卷积核大小为3×3,2D卷积层的卷积核大小为1×1;再然后将输出依次送入两个深度可分离卷积层,卷积核大小均为3×3,卷积核个数分别为1024、512,步长均为1;最后把输出依次送入全局平均池化层和Softmax分类器,所有的2D卷积、深度可分离卷积操作都要经过一个Batch Normalization层和ReLU6激活层来加速网络的收敛速度和增加提取非线性特征的能力。
4、实验结果及分析
4.1实验平台及数据集:
本实验软件平台为Linux下的Python3.7版本,采用的是以TensorFlow为后端的Keras框架。硬件平台为Dell Poweredge R940xa,GPU为16GB的NVIDIA Tesla T4。我们使用batch size为64,初始学习率为0.001以及Adam优化器优化训练过程。
在本申请中,我们分别采取Fer2013数据集和CK+数据集进行人脸表情识别实验。数据集采用交叉验证法随机客观的划分数据,减少人为因素。其中80%的表情图像为训练集、20%的表情图片为测试集,并设置随机数的种子为2019来控制随机状态。
1)Fer2013数据集
Fer2013是Kaggle人脸表情分析比赛提供的一个数据集,该数据集是使用谷歌图像搜索API创建的,利用OpenCV人脸识别采集图像中脸部区域。由于Fer2013数据集数据更加齐全,同时更加符合实际生活的场景,所以这里主要选取Fer2013训练和测试模型。该数据集包含35887张图片,其中“生气”图片4953张,“厌恶”图片547张,“恐惧”图片5121张,“高兴”图片8989张,“悲伤”图片6077张,“惊讶”图片4002张,“中性”图片6198张,共有7种表情。图11为Fer2013表情数据集中部分样例,包含了不同年龄、性别、肤色以及不同遮挡程度的人脸表情。
2)CK+数据集
CK+数据集包含123个对象的593段表情序列,对于每一个图片序列表现出从中性面部表情到高峰的转变表达,包括6种基本表情加上蔑视和中性,因为fer2013数据集不包含蔑视表情,因此本申请最终选择7种表情,分别为生气、中性、厌恶、恐惧、高兴、悲伤和惊讶。图12为CK+表情数据集中部分样例,包含了不同年龄、性别、肤色以及不同遮挡程度的人脸表情。
4.2实验结果分析:
通过多次优化训练模型得出实验结果,下图为Fer2013和CK+数据集上的混淆矩阵,如图13和图14所示。由Fer2013数据集的混淆矩阵我们可以看出识别率最高的是高兴和惊讶,恐惧和悲伤识别率相对较低,原因是Fer2013数据集有非脸部图片、各种遮挡等干扰,更接近现实生活的场景,从而增加了特征提取时的难度。由CK+数据集的混淆矩阵我们可以看出识别结果较好的是高兴、生气和惊讶,而恐惧和悲伤识别效果欠佳,可能原因是恐惧、悲伤表情特征具有一定的相似性,对区分不同表情造成干扰,从而导致了表情识别准确率不高。
4.2.1领域选择
为基于LBP的技术选择合适的邻域对最终性能有重大影响。它涉及采样点的数量、邻域的半径、采样点的分布和邻域的形状。在LBP旋转不变模式中,为了找出P和R取何值时才能得出最高的准确率,本申请通过对取不同值的P和R进行对比实验,实验结果如表1所示。
表1 Fer2013与CK+数据集实验准确率
Fer2013 | CK+ | |
原数据集图像 | 66.42% | 92.35% |
LBP(8,1) | 68.51% | 94.56% |
LBP(8,3) | 70.54% | 97.62% |
LBP(8,5) | 68.98% | 96.83% |
LBP(24,1) | 65.62% | 86.61% |
表1中第1列为不同的输入图像类型,第2列和第3列为使用本网络模型对Fer2013和CK+数据集上的图像进行识别的准确率。由实验数据可知将数据集图像所提取的旋转不变模式LBP(8,3)特征图进行通道融合后输入到构建的轻量级神经网络中,其识别率可达到最高。
4.2.2不同方法对比试验
为了验证本方法在人脸表情识别上的有效性,在Fer2013数据集上,本实验与Xception、CNN、FER-Net的表情识别算法进行比较。在CK+数据集上本实验与Xception、InceptionV4、LBP的表情识别算法进行比较,对比结果如表2、表3所示。本申请模型在CK+数据集上取得了97.62%的识别准确率,在Fer2013数据集上人类的识别准确率为65%±5%,本申请模型在Fer2013数据集上取得了70.54%的识别准确率,已经达到了人类识别的效果。与传统人脸表情识别算法相比,采用深度学习的人脸表情识别方法准确率高,与单一采用深度学习的方法相比,本申请采用的结合传统方法的深度学习人脸表情识别方法准确率更高,本申请方法在两个数据集上的识别率均高于其他几种方法,验证了本模型在表情识别上具有一定的可行性和泛化能力。
表2不同方法在Fer2013数据集上的识别结果
表3不同方法在CK+数据集上的识别结果
综上,针对传统人脸表情识别学习方法中特征提取过程复杂而且不能从原始图像中获取更加深入的高语义特征以及深度特征的问题,本申请提出了一种基于多通道融合和轻量级神经网络的人脸表情识别方法,把多通道融合后的三通道特征图像作为构建的轻量级神经网络的输入,采用深度可分离卷积的设计思想来减少参数数量和计算量,同时采用残差连接机制来构建网络模型解决网络性能退化和梯度消失问题,让我们在训练更深网络的同时,又能保证良好的性能。实验表明本申请所提模型可以有效提取人脸表情特征以及对表情进行分类,具有较好的准确率和鲁棒性。虽然所提模型取得了不错的识别效果,但是仍需要加强网络模型的泛化能力,进一步提高人脸表情的识别率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本申请所示的这些实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.基于多通道融合和轻量级神经网络的人脸表情识别方法,其特征在于,包括以下步骤:
S1、通过表情数据库或者摄像头获取图像数据,并使用基于Haar特征的Cascade级联分类器对人脸表情库图像进行人脸区域检测,获取人脸图像;
S2、采用局部二值模式提取人脸区域的局部纹理特征,并基于Canny边缘检测算法对人脸区域的边缘进行检测;
S3、构建并初始化轻量级神经网络;
S4、把获取到的人脸图像、LBP纹理特征图像、边缘检测Canny图像进行通道融合,并将融合后的图像进行数据归一化和数据增强后输入到构建的轻量级神经网络中进行训练和识别。
2.根据权利要求1所述的基于多通道融合和轻量级神经网络的人脸表情识别方法,其特征在于,步骤S4在对构建的轻量级神经网络进行训练时,使用数据增强的训练集进行模型训练,并按批次训练模型,逐批生成数据,然后执行反向传播,并更新模型中的权重,重复该过程直到达到期望的epoch数量。
3.根据权利要求1所述的基于多通道融合和轻量级神经网络的人脸表情识别方法,其特征在于,步骤S1中,在获取人脸图像后,还需要进行图像归一化处理,把不同维度的特征值尺度调整到相近的范围内。
5.根据权利要求1所述的基于多通道融合和轻量级神经网络的人脸表情识别方法,其特征在于,步骤S2中基于Canny边缘检测算法对人脸区域的边缘进行检测的过程如下:
S21、采用高斯平滑滤波器进行卷积降噪,即对原始数据与高斯滤波器进行卷积操作,使图像更平滑,用数学公式表示,二维高斯函数为:
其中(x,y)为原图像h(x,y)像素点的纵横坐标点,σ为高斯函数标准差;把高斯函数和原图像h(x,y)进行卷积处理后得到H(x,y):
H(x,y)=G(x,y)×h(x,y) (5)
S22、噪声滤除后,对H(x,y)计算梯度幅度和方向来估计每一点处的边缘强度与方向,利用一阶偏导数有限差分计算梯度,其x和y方向的一阶偏导数矩阵为P(i,j)和Q(i,j):
由下式计算得到梯度幅值M(i,j)和梯度方向θ(i,j):
梯度角度θ范围从弧度-π到π,并把它近似到四个方向,分别代表水平,垂直和两个对角线方向(0°,45°,90°,135°),沿着梯度方向对梯度幅值进行非极大值抑制,寻找像素点的局部最大值,在每一点上,领域中心像素点与沿着其对应的梯度方向的两个像素相比,若中心像素为最大值,则保留,否则中心置0,从而可以抑制非极大值,保留局部梯度最大的点,以得到细化的边缘。
6.根据权利要求1所述的基于多通道融合和轻量级神经网络的人脸表情识别方法,其特征在于,步骤S4中,经通道融合后得到的图像为48×48像素的三通道图像。
7.根据权利要求6所述的基于多通道融合和轻量级神经网络的人脸表情识别方法,其特征在于,步骤S4在对输入轻量级神经网络中的图像进行识别时:
首先依次通过两个2D卷积层进行卷积操作,卷积核大小均为3×3,卷积核个数分别为32、64,步长均为1;然后将输出依次经过残差模块一、残差模块一、残差模块二、残差模块一,卷积核个数分别为128、256、256、512,其中深度可分离卷积的卷积核大小为3×3,最大池化的卷积核大小为3×3,2D卷积层的卷积核大小为1×1;再然后将输出依次送入两个深度可分离卷积层,卷积核大小均为3×3,卷积核个数分别为1024、512,步长均为1;最后把输出依次送入全局平均池化层和Softmax分类器,所有的2D卷积、深度可分离卷积操作都要经过一个Batch Normalization层和ReLU6激活层来加速网络的收敛速度和增加提取非线性特征的能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111273460.8A CN113989890A (zh) | 2021-10-29 | 2021-10-29 | 基于多通道融合和轻量级神经网络的人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111273460.8A CN113989890A (zh) | 2021-10-29 | 2021-10-29 | 基于多通道融合和轻量级神经网络的人脸表情识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113989890A true CN113989890A (zh) | 2022-01-28 |
Family
ID=79744529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111273460.8A Withdrawn CN113989890A (zh) | 2021-10-29 | 2021-10-29 | 基于多通道融合和轻量级神经网络的人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113989890A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114639149A (zh) * | 2022-03-18 | 2022-06-17 | 杭州慧田科技有限公司 | 具有情绪识别功能的病床终端 |
CN114699080A (zh) * | 2022-04-28 | 2022-07-05 | 电子科技大学 | 一种基于融合特征的驾驶员精神紧张程度识别方法 |
CN114998958A (zh) * | 2022-05-11 | 2022-09-02 | 华南理工大学 | 一种基于轻量化卷积神经网络的人脸识别方法 |
CN115019363A (zh) * | 2022-05-19 | 2022-09-06 | 重庆邮电大学 | 一种基于mid-Xception网络的轻量级人脸表情识别方法 |
CN115348709A (zh) * | 2022-10-18 | 2022-11-15 | 良业科技集团股份有限公司 | 适用于文旅的智慧云服务照明展示方法及*** |
CN116403270A (zh) * | 2023-06-07 | 2023-07-07 | 南昌航空大学 | 一种基于多特征融合的人脸表情识别方法及*** |
CN116863323A (zh) * | 2023-09-04 | 2023-10-10 | 济宁鑫惠生水产养殖专业合作社 | 一种用于渔业养殖水源污染的视觉检测方法和*** |
CN116958783A (zh) * | 2023-07-24 | 2023-10-27 | 中国矿业大学 | 基于深度残差二维随机配置网络的轻量型图像识别方法 |
-
2021
- 2021-10-29 CN CN202111273460.8A patent/CN113989890A/zh not_active Withdrawn
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114639149A (zh) * | 2022-03-18 | 2022-06-17 | 杭州慧田科技有限公司 | 具有情绪识别功能的病床终端 |
CN114699080A (zh) * | 2022-04-28 | 2022-07-05 | 电子科技大学 | 一种基于融合特征的驾驶员精神紧张程度识别方法 |
CN114699080B (zh) * | 2022-04-28 | 2023-04-25 | 电子科技大学 | 一种基于融合特征的驾驶员精神紧张程度识别方法 |
CN114998958B (zh) * | 2022-05-11 | 2024-04-16 | 华南理工大学 | 一种基于轻量化卷积神经网络的人脸识别方法 |
CN114998958A (zh) * | 2022-05-11 | 2022-09-02 | 华南理工大学 | 一种基于轻量化卷积神经网络的人脸识别方法 |
CN115019363A (zh) * | 2022-05-19 | 2022-09-06 | 重庆邮电大学 | 一种基于mid-Xception网络的轻量级人脸表情识别方法 |
CN115348709A (zh) * | 2022-10-18 | 2022-11-15 | 良业科技集团股份有限公司 | 适用于文旅的智慧云服务照明展示方法及*** |
CN116403270A (zh) * | 2023-06-07 | 2023-07-07 | 南昌航空大学 | 一种基于多特征融合的人脸表情识别方法及*** |
CN116403270B (zh) * | 2023-06-07 | 2023-09-05 | 南昌航空大学 | 一种基于多特征融合的人脸表情识别方法及*** |
CN116958783A (zh) * | 2023-07-24 | 2023-10-27 | 中国矿业大学 | 基于深度残差二维随机配置网络的轻量型图像识别方法 |
CN116958783B (zh) * | 2023-07-24 | 2024-02-27 | 中国矿业大学 | 基于深度残差二维随机配置网络的轻量型图像识别方法 |
CN116863323A (zh) * | 2023-09-04 | 2023-10-10 | 济宁鑫惠生水产养殖专业合作社 | 一种用于渔业养殖水源污染的视觉检测方法和*** |
CN116863323B (zh) * | 2023-09-04 | 2023-11-24 | 济宁鑫惠生水产养殖专业合作社 | 一种用于渔业养殖水源污染的视觉检测方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113989890A (zh) | 基于多通道融合和轻量级神经网络的人脸表情识别方法 | |
CN110084173B (zh) | 人头检测方法及装置 | |
Pitaloka et al. | Enhancing CNN with preprocessing stage in automatic emotion recognition | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及*** | |
CN108921019B (zh) | 一种基于GEI和TripletLoss-DenseNet的步态识别方法 | |
US20210264144A1 (en) | Human pose analysis system and method | |
CN114758383A (zh) | 基于注意力调制上下文空间信息的表情识别方法 | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
Tian et al. | Ear recognition based on deep convolutional network | |
Kas et al. | New framework for person-independent facial expression recognition combining textural and shape analysis through new feature extraction approach | |
Prabhu et al. | Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism. | |
CN111353385B (zh) | 一种基于掩膜对齐与注意力机制的行人再识别方法和装置 | |
Mohammed et al. | Deep convolution neural network for facial expression recognition | |
CN111860056B (zh) | 基于眨眼的活体检测方法、装置、可读存储介质及设备 | |
Jabbooree et al. | A novel facial expression recognition algorithm using geometry β–skeleton in fusion based on deep CNN | |
CN114049531A (zh) | 一种基于弱监督人体协同分割的行人再识别方法 | |
CN116884067B (zh) | 一种基于改进的隐式语义数据增强的微表情识别方法 | |
Raj et al. | Object detection in live streaming video using deep learning approach | |
Chun-man et al. | Face expression recognition based on improved MobileNeXt | |
Vepuri | Improving facial emotion recognition with image processing and deep learning | |
Patil et al. | Gender recognition and age approximation using deep learning techniques | |
Li et al. | Face Recognition Model Optimization Research Based on Embedded Platform | |
CN113221698B (zh) | 一种基于深度学习和表情识别的面部关键点定位方法 | |
Martins et al. | Texture collinearity foreground segmentation for night videos | |
Gao et al. | A novel semantic segmentation model for Chinese characters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220128 |
|
WW01 | Invention patent application withdrawn after publication |