CN112766134A - 一种强化类间区分的表情识别方法 - Google Patents

一种强化类间区分的表情识别方法 Download PDF

Info

Publication number
CN112766134A
CN112766134A CN202110047932.1A CN202110047932A CN112766134A CN 112766134 A CN112766134 A CN 112766134A CN 202110047932 A CN202110047932 A CN 202110047932A CN 112766134 A CN112766134 A CN 112766134A
Authority
CN
China
Prior art keywords
network model
data set
class
strong
rmrnet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110047932.1A
Other languages
English (en)
Other versions
CN112766134B (zh
Inventor
葛洪伟
黄浩
杨金龙
江明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202110047932.1A priority Critical patent/CN112766134B/zh
Publication of CN112766134A publication Critical patent/CN112766134A/zh
Application granted granted Critical
Publication of CN112766134B publication Critical patent/CN112766134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种强化类间区分的表情识别方法,属于模式识别和智能信息处理领域。本发明的方法从各类表情的类间关系出发,通过观察分类之后的召回率矩阵(RM)结合筛选算法来构建分类支路。通过分析类间关系,可以获取各类表情之间的关联程度,相当于获取了表情识别问题理论情况下的客观规律。将这样的规律设计到网络模型之中,模型就获取到了特定的先验知识,而这样的先验知识在一般的深层神经网络中能否被学习到有着不确定性。本发明在神经网络的深层上固定了参数,在真实环境中保持了优越的识别精度,满足实际工程***的设计需求。

Description

一种强化类间区分的表情识别方法
技术领域
本发明涉及一种强化类间区分的表情识别方法,属于模式识别和智能信息处理领域。
背景技术
面部表情是人类情绪的最直接的外部表现之一,同样的语言信息配合不同的表情可能有完全不同的涵义。人与机器之间的交互要达到人与人之间交流的水准,机器准确理解人类表情至关重要。除了人机交互方面,表情识别还对研究人类情绪本身有重要意义,在例如疲劳驾驶检测、自闭症行为研究等现实问题上也有广泛的应用前景。
近年来的多数研究都集中在野外(in-the-wild)表情识别上,不同于邀请志愿者在受控环境(lab-controlled)下拍摄给定表情,收集野外的研究者普遍采取的方法是从网络上爬取图片,交由专业人士标注。毫无疑问,网络图片要比一般的实验室摆拍更贴近真实生活中的场景,人的表情更加自然,可以更加方便的获取不同国家、不同种族、不同肤色、不同信仰的人物表情图片。同时,网络上可以爬取到大量的数据,传统方法对这样大数据量基础上的表情研究在整体精度上表现不足,基于深度学习的表情识别已是现阶段表情识别研究的最热门也是最有效的方法。
深度人脸表情识别***一般由三个部分组成:图片预处理,深度特征学习,深度特征分类。其中,图片预处理包括人脸对齐,数据增强,数据清洗等等方面。深度特征学习与特征分类分别对应了神经网络的结构和损失函数的设计。受益于人脸识别的多年发展,数据预处理阶段的多数问题有了成熟的解决方案。一般而言,表情都被视为一个动态过程,人的情感的确也不是一个瞬间概念,研究某一段时间类的表情问题更贴切实际。人们在这一方面也确实投入了很多研究工作。然而,无论是图像序列还是视频数据库,都存在着计算量大、标签成本高等实际问题。静态的图片用于情感识别虽有不合理之处,但由于其数据较易获得、较易标记、便于研究等等特点,是现阶段表情识别的重点,同时,从静态图像中研究出来的成果也可以较为方便的移植到图片序列的识别中。
不同于其他的模式识别任务,人脸表情识别数据中的有用信息相对较少。具体而言,识别表情主要依靠分辨五官和整体面部的几何特性,人脸的毛发、纹理、装饰物往往起到的是负面作用。大量的冗余信息使得表情识别问题的精度严重受限,即使是深度学***论文,邓教授小组主要研究了野外(相对以前长期的实验室研究)表情识别问题(Li S,Deng W,Du J P.Reliable crowdsourcing and deep locality-preservinglearning for expression recognition in the wild[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2017:2852-2861..),更贴切现实世界的情况,对于表情识别技术走向成熟和实际应用有重要意义,提出了DLP-CNN模型,引入了深层特征的k近邻聚类损失,但是该方法在训练时有着额外的计算量;中国科学院计算技术研究所的山世光研究员所领导的小组在有遮盖的人脸表情识别方面取得了目前最好的结果(Li Y,Zeng J,Shan S,et al.Occlusion aware facial expressionrecognition using cnn with attention mechanism[J].IEEE Transactions on ImageProcessing,2018,28(5):2439-2450.),提供了有部分遮盖的人脸数据集,提出了pACNN方法,引入了人脸特征点局部信息,该方法网络模型巨大,硬件要求过高。
以上的方法整体精度均有较大的提升空间。2020年,王锴等人(Wang K,Peng X,Yang J,et al.Suppressing uncertainties for large-scale facial expressionrecognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2020:6897-6906)提出了一种SCN(SelfCure Network)模型来处理原始标签中的模糊分类问题,通过添加一个阈值函数的方式改进了损失函数,引入了模糊损失信息提高了表情识别的精度,但是该方法对预训练数据要求高,而且在无噪声的数据中提升并不明显。
发明内容
为了提高表情识别在真实环境下识别率且不引入上述现有方法带来的对硬件或者预训练数据要求较高的问题,本发明引入了类间关联信息,提出了一种强化类间区分的深度残差表情识别网络RMRnet(Recall Matrix Distinguished Residual Net),从其它思路解决真实环境下人脸表情识别精度不高的问题,能够在复杂的实际环境中,最大限度的减少光线、人种、不同信仰、不同国度等因素对表情识别性能的影响,满足实际工程***的设计需求。
实现本发明的关键技术是:首先,通过归一化召回矩阵的分析,得出类间联系,然后融合类间联系到残差网络的设计中,通过强化强联系类别的区分和适度平衡弱联系类别的区分为网络引入类间关联信息,最后,在真实数据上进行训练和测试,得到训练好的模型用于具体应用。
一种强化类间区分的表情识别方法,所述方法使用残差网络作为骨干网络模型,根据各类表情之间的关联强度在骨干网络模型上分别添加对应的分支网络,得到RMRnet网络模型,对所述RMRnet网络模型进行训练得到训练好的RMRnet网络模型,利用训练好的RMRnet网络模型进行表情识别。
可选的,所述方法包括:
S1:对训练数据集进行随机欠采样,得到平衡数据集,所述训练数据集中数据为设有标签的各种表情的图片;
S2:使用残差网络作为骨干网络模型,接受平衡数据集为数据输入,得到召回率矩阵R;
S3:通过召回率矩阵和选择算法,得到强弱关联集;选择算法具体为:
Figure BDA0002898092500000031
其中,其中,Rij表示召回率矩阵R中i行j列的数据,同理Rji表示矩阵R的j行i列的数据;α2∈(0,0.33]为强弱阈值;S(i,j)表示第i类和第j类之间的关联程度,为真时表示第i类和第j类为强相关,否则为弱相关;
S4:根据强弱关联集在骨干网络模型上分别添加对应的分支网络,得到RMRnet网络模型;
S5:利用公开的数据集ImageNet对骨干网络模型进行预训练,确定骨干网络模型的初始参数;
S6:在表情识别的公开数据集上对整体RMRnet网络模型做训练,得到训练好的网络模型;
S7:利用训练好的RMRnet网络模型进行表情识别。
可选的,所述S1对训练数据集进行随机欠采样,得到平衡数据集,包括:
假设训练数据集中第1到第n类的数量为N1,N2….Nn,其中的最小值记为minN,则每类数据均取minN个数据组成平衡数据集。
可选的,所述S2使用残差网络作为骨干网络模型,接受平衡数据集为数据输入,得到召回率矩阵R,包括:
对于此时的网络模型使用交叉熵损失函数,动量设定为0.5,学习率设定为0.01,迭代次数为40;采用权重衰减和学习率衰减策略,权重衰减系数为10-5,得到召回率矩阵R。
可选的,所述S3中,若第i类和第j类为强相关,则构建强相关集{i,j},若第i类同时属于多个强相关集,则只保留最大的强相关集;除强相关集职位的剩余类组成弱相关集。
可选的,所述S4根据强弱关联集在骨干网络模型上分别添加对应的分支网络,得到RMRnet网络模型,包括:
所述骨干网络模型由一个7×7的卷积层、一个3×3的池化层、四个规格不等的残差块、一个3×3的均值池化层和一个全连接层依次连接构成;
根据弱相关集设计一条支路,并将该支路紧接在骨干网络的第2个残差块后;根据强相关集设计两条支路并列紧接在骨干网络的第3个残差块后,得到RMRnet网络模型;每条支路为一个残差块和两层全连接层的组合。
可选的,所述方法对一个n类的表情分类任务,会得到一个n维向量作为输出,每个支路的输出都要乘以一个与关联集相关的掩码;
所述与关联集相关的掩码为:若关联集为{i,j},则与该关联集相关的掩码的第i,j维填充1,其余维度填充0。
可选的,所述RMRnet网络模型的损失函数为:
L=Lm+Lb+Lc
其中,Lm和Lb分别表示骨干网络损失和支路汇总损失,为交叉熵函数;
Lc表示为:
Lc:=max{0,δ-θ*mean(y-y′)}
其中,y为骨干网络输出的与类别数等量维度的向量Omain;y′为强弱分支网络通过向量加法汇总之后得到Obranch,δ表示约束参数,用于约束强弱相关集双方差异,θ为抑制参数,用于抑制梯度***。
可选的,若训练数据集为RAF-DB数据集,则α2取0.1,若训练数据集为Affectnet数据集,则α2取0.09,若训练数据集为Ferplus数据集,使用RAF-DB数据集上得到的强弱关联集。
可选的,δ取0.25,θ取10-4
本发明有益效果是:
(1)本发明引入了一种得到类间强弱集的方法,通过分析召回率矩阵,设定阈值来定量的划分类间强弱集。
(2)本发明引入了一种根据强弱集设计模型的方法,使用固定参数的形式将强弱集信息融合到网络当中。
(3)本发明设计了一种差值约束损失函数,使用均值深度特征代表每个小组的整体数据,减小计算量的同时保证一定的有效性,通过抑制参数保证辅助判断的支路汇总与骨干网络的数量级可控,通过约束参数控制支路汇总与骨干输出的差异。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中提供的强化类间区分的表情识别方法的整体流程图。
图2是深度表情识别的通用流程图。
图3为Resnet18的第一个残差块构成示意图。
图4为Resnet18在平衡集上实验得到的召回率矩阵仿真图。
图5为实施例一的整体网络结构图。
图6为实施例一的数据流图。
图7为实施例一在RAF-DB上的实验结果仿真图。
图8为Resnet18在RAF-DB上的实验结果仿真图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
基础理论介绍:
1.Resnet18网络
残差网络Resnet(Residual Net)由何凯明等人提出(可参考He K,Zhang X,RenS,et al.Deep residual learning for image recognition[C]//Proceedings of theIEEE conference on computer vision and pattern recognition.2016:770-778.),引入残差块概念来代替重复的卷积层,将一层卷积层的特征提取能力描述为H(x),那么对应的残差块为F(x)=H(x)-x。由于采用了下采样跳层,一个残差块在反向传播时梯度递减的幅度仅相当于一层卷积。残差网络用来处理网络退化问题,有着强大的特征提取能力,并且有相对较少的参数。图3展示了一个[[3×3,64],[3×3,64]]×2残差块的结构(即Resnet18中的第一个残差块)。整个Resnet18描述在图5虚线框内,数据在经过了一个7×7的卷积层之后再经过一个3×3的池化层处理,之后会陆续经过四个规格不等的残差块,此后深度的特征会经过一个3×3的均值池化层,最后多维的深度特征数据会被展开到一维,通过一个全连接层进行特征分类,网络模型的结构参数均已给出。图5中的立方体表示的是残差块,其余长方形各表示基础的网络层。
2.损失函数
损失函数用来评估模型的预测值与真实值之间的差异程度,也是神经网络中优化的目标函数。神经网络训练或者优化的过程就是最小化损失函数的过程,损失函数越小,说明模型的预测值就越接近真实值,模型的准确性也就越好。模型对样本的预测输出越接近真实样本标签0,损失值L越小;预测越接近1,L越大。
3.召回率矩阵
召回率矩阵是一种依附于混淆矩阵的概念。混淆矩阵是一种这样的矩阵:如下表1所示。
表1:混淆矩阵
第1类 第2类 第n类
第1类 A<sub>11</sub> A<sub>12</sub> A<sub>1n</sub>
第2类 A<sub>21</sub> A<sub>22</sub> A<sub>2n</sub>
A<sub>ij</sub>
第n类 A<sub>n1</sub> A<sub>n2</sub> A<sub>nn</sub>
Aij表示真实分类为第j类,却被划分为第i类的样本数量,即矩阵中i行j列的数据,通过以下方法可以得到归一化后的混淆矩阵C:
Figure BDA0002898092500000061
其中Cij,进一步可以求得对应的召回率矩阵R,其中的元素为:
Figure BDA0002898092500000062
实施例一:
本实施例提供一种强化类间区分的表情识别方法,参见图1,所述方法包括:
(1)对公开数据集做随机欠采样得到平衡数据集,若第1到第n类的数量为N1,N2….Nn,其中的最小值记为minN,则每类数据均随机取minN组成平衡数据集。
处理后的平衡数据集中各类别的数量为minN;所选取的是公开数据集RAF-DB(Real-world Affective Faces Database),Affectnet和Ferplus数据集,各数据集中数据为带标签的各种表情的图片;
(2)使用残差网络作为骨干网络模型,接受平衡数据集为数据输入,得到召回率矩阵R;
在对数据集进行平衡处理后,在Resnet18上做分类,使用交叉熵损失函数,动量设定为0.5,学习率设定为0.01,迭代次数为40。采用权重衰减和学习率衰减策略,权重衰减系数为10-5
(3)通过召回率矩阵和选择算法,得到强弱关联集;选择算法具体为:
Figure BDA0002898092500000071
其中,其中,Rij表示召回率矩阵R中i行j列的数据,同理Rji表示矩阵R的j行i列的数据;S(i,j)表示第i,j类之间的关联程度,为真时是强相关,否则为弱相关;
若i,j是强相关类,则构建强相关集{i,j},以此类推,剩余类别组成弱相关集。对于某类i,若i∈{i,j}且i∈{i,k,l}时,只考虑较大集{i,k,l},{i,k,l}为强相关类i,k,l组成的强相关集。α2∈(0,0.33]。对于RAF-DB数据集α2取0.1,对于Affectnet数据集α2取0.09,对于Ferplus数据集使用RAF-DB上得到的强弱关联集。
(4)利用强弱关联集设计骨干网络模型的分支结构,本申请设计的网络模型接受3通道RGB格式图片为输入图片,骨干网络输出一个与类别数等量维度的向量Omain,即n维的向量,设计出来的强弱网络分支通过向量加法汇总之后得到Obranch,训练时以Lm+Lb+Lc为损失函数,测试和部署时以Omain1*Obranch为最终输出,α1∈[0,1],一般取0.1。
整体网络模型结构如图5所示:每一个支路设计为一个残差块和两层全连接层的组合,强关联集设计而得到的支路紧接在骨干网络Resnet18(图5中虚线框内)的第3个残差块后,弱关联集设计出的支路紧接在骨干网络Resnet18的第2个残差块后。
整体网络模型中的数据流如图6所示:对于一个n类的表情分类任务,会得到一个n维向量做输出(图中的out和b_out的上一级数据),每个支路的输出都要乘以一个与关联集相关的掩码。该掩码有这样的形式,假设一个关联集为{i,j},则掩码的第i,j维填充1,其余维度填充0。各个支路中的残差块尺寸与分支处的骨干网络残差块尺寸相同,用于特征分类的两层支路fc层设计为:第一层输入所连接的残差块输出的一维拉伸数据,输出为一个过度尺寸,第二层输入过度尺寸的向量,输出为一类数量维度的向量。在补充支路中这一过度尺寸为512,在强化分支中这一过度尺寸为1024。
(4)所述的损失函数为:
L=Lm+Lb+Lc
其中的Lm和Lb分别表示骨干网络损失和支路汇总损失,使用的是常见的交叉熵函数。Lc表示为:
Lc:=max{0,δ-θ*mean(y-y′)}
其中,y表示步骤(4)中所述Omain,y′表示步骤(4)中所述Obranch。δ表示约束参数,用于约束双方差异;θ为抑制参数,用于抑制梯度***;δ本实施例中δ取0.25,θ取10-4
(5)在其它任务的公开数据集上对骨干网络做预训练;使用的是ImageNet分类任务做预训练,但由于该数据集过大,我们直接获取原作者给出的预训练好的参数,该预训练模型在https://download.pytorch.org/models/resnet18-5c106cde.pth上获取。
(6)在表情识别的公开数据集上对整体网络做训练,得到训练好的网络模型,这里的数据集必须与步骤(1)中的数据集相同;
为验证本申请方法能够有效解决表情识别在真实环境下识别率低的问题,特进行仿真实验如下:
1.仿真条件及参数
实验我们的实验设定如下的参数:网络模型接受224×224尺寸的RGB三通道图片作为输入,批处理大小设定为16,动量设定为0.5,学习率设定为0.01,迭代次数为40。采用权重衰减和学习率衰减策略,权重衰减系数为10-5,学习率衰减方法为指数衰减。
网络模型部署在单张Nvidia 2080ti显卡上,使用pytorch深度学习框架。模型的骨干网络Resnet18在ImageNet数据库上做预训练。
本申请用到的各类数据库有不同的制作标准,实际上,几乎所有的表情数据库制定标准都不尽相同。RAF-DB数据库为研究者提供了一个裁剪好的人脸图像,而AffectNet数据库提供的图片甚至尺寸、格式也不统一,Ferplus则仅仅提供了48×48的灰度值矩阵。我们使用dlib开源工具裁剪AffectNet数据库中的原始图像。对于所有图片采用最邻近插值法,将图像尺寸调整为224×224。对于单通道图片,我们通过复制法将其转化为三通道图片。
2.仿真内容及结果分析
与基准方法Resnet18做对比,如果本申请提出的方法有效,各类数据被错误分类的情况不会再出现在某些类上较多,其他较少,应当是均匀的,表示本申请提出的方法中类间联系信息起到了作用。
图7和图8展示了本申请提出的模型和基准模型在RAF-DB数据库上预测结果的混淆矩阵,可以看出,除Happiness类型以外的各类数据识别率,相较于基准模型,本申请提出的方法都取得了更好的效果。本申请提出的方法不仅仅在整体精度上超过了基准方法,类平均精度上也高于基准方法(图7对应的实验类平均精度为80.55%,图8对应的实验类平均精度为76.80%)。各类数据的误识别率相对均匀,被本申请提出的方法处理为强关联类的{fear,anger}和{disgust,sadness,neutral}没有再出现10%以上的误分类情况。
本发明结果与多个近年表现优异的网络模型在多个大型数据库上做了对比。相比较集准方法Resnet18,在平均精度上,本发明在RAF-DB上提高了3.26%,在AffectNet上领先了2.81%,在Ferplus上领先了4.07%。
如表1所示:在AffectNet数据集上,将本申请方法与DLP-CNN、EAU-Net、pACNN等方法做了对比;从表1可以看出本申请方法的识别整体效果仅次于EAU-Net,而对AffectNet数据库做随机欠采样平衡数据之后,本申请提供的方法的预测精度最高可达到59.29%,超过了EAU-Net;平均精度达到了58.43%。
其中,DLP-CNN可参考“Li S,Deng W,Du J P.Reliable crowdsourcing and deeplocality-preserving learning for expression recognition in the wild[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2017:2852-2861.”。
EAU-Net可参考“Deng J,Pang G,Zhang Z,et al.cGAN Based FacialExpression Recognition for Human-Robot Interaction[J].IEEE Access,2019,7:9848-9859.”。
pACNN可参考“Li Y,Zeng J,Shan S,et al.Occlusion aware facialexpression recognition using cnn with attention mechanism[J].IEEETransactions on Image Processing,2018,28(5):2439-2450.”。
IPA2LT可参考“Jiabei Zeng,Shiguang Shan,Xilin Chen,and XilinChen.Facial expression recognition with inconsistently annotated datasets.InECCV,pages 222–237,2018.2,8.”。
表1.在Affectnet上的对比实验
Figure BDA0002898092500000091
如表2所示:在RAF-DB数据集上,将本申请方法与DLP-CNN、EAU-Net、pACNN、DeepExp3D等方法做了对比;从表2可以看出,在一众先进方法中本申请方法的识别效果达到了最优,甚至最高精度达到了86.66%。
其中,DeepExp3D可参考“Koujan M R,Alharbawee L,Giannakakis G,etal.Real-time Facial Expression Recognition"In The Wild”by Disentangling 3DExpression from Identity[J].arXiv preprint arXiv:2005.05509,2020.”。
表2.在RAF-DB上的对比实验
Figure BDA0002898092500000101
如表3所示:在Ferplus数据集上,将本申请方法与SHCNN、TFE-JL、pACNN、VGG16-PLD、ESR-9等方法做了对比;从表2可以看出,本申请方法取得了最优效果,在Ferplus上的最高精度可达87.45%。
其中,SHCNN可参考“Miao S,Xu H,Han Z,et al.Recognizing facialexpressions using a shallow convolutional neural network[J].IEEE Access,2019,7:78000-78011”。
TFE-JL可参考“Li M,Xu H,Huang X,et al.Facial expression recognitionwith identity and emotion joint learning[J].IEEE Transactions on AffectiveComputing,2018.”。
VGG16-PLD可参考“Barsoum E,Zhang C,Ferrer C C,et al.Training deepnetworks for facial expression recognition with crowd-sourced labeldistribution[C]//Proceedings of the 18th ACM International Conference onMultimodal Interaction.2016:279-283.”。
ESR-9可参考“Siqueira H,Magg S,Wermter S.Efficient facial featurelearning with wide ensemble-based convolutional neural networks[J].TheThirty-Fourth AAAI Conference on Artificial Intelligence(AAAI-20).”。
表3.在Ferplus上的对比实验
Figure BDA0002898092500000102
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种强化类间区分的表情识别方法,其特征在于,所述方法使用残差网络作为骨干网络模型,根据各类表情之间的关联强度在骨干网络模型上分别添加对应的分支网络,得到RMRnet网络模型,对所述RMRnet网络模型进行训练得到训练好的RMRnet网络模型,利用训练好的RMRnet网络模型进行表情识别。
2.根据权利要求1所述的方法,其特征在于,所述方法包括:
S1:对训练数据集进行随机欠采样,得到平衡数据集,所述训练数据集中数据为设有标签的各种表情的图片;
S2:使用残差网络作为骨干网络模型,接受平衡数据集为数据输入,得到召回率矩阵R;
S3:通过召回率矩阵和选择算法,得到强弱关联集;选择算法具体为:
Figure FDA0002898092490000011
其中,其中,Rij表示召回率矩阵R中i行j列的数据,同理Rji表示矩阵R的j行i列的数据;α2∈(0,0.33]为强弱阈值;S(i,j)表示第i类和第j类之间的关联程度,为真时表示第i类和第j类为强相关,否则为弱相关;
S4:根据强弱关联集在骨干网络模型上分别添加对应的分支网络,得到RMRnet网络模型;
S5:利用公开的数据集ImageNet对骨干网络模型进行预训练,确定骨干网络模型的初始参数;
S6:在表情识别的公开数据集上对整体RMRnet网络模型做训练,得到训练好的网络模型;
S7:利用训练好的RMRnet网络模型进行表情识别。
3.根据权利要求2所述的方法,其特征在于,所述S1对训练数据集进行随机欠采样,得到平衡数据集,包括:
假设训练数据集中第1到第n类的数量为N1,N2….Nn,其中的最小值记为minN,则每类数据均取minN个数据组成平衡数据集。
4.根据权利要求3所述的方法,其特征在于,所述S2使用残差网络作为骨干网络模型,接受平衡数据集为数据输入,得到召回率矩阵R,包括:
对于此时的网络模型使用交叉熵损失函数,动量设定为0.5,学习率设定为0.01,迭代次数为40;采用权重衰减和学习率衰减策略,权重衰减系数为10-5,得到召回率矩阵R。
5.根据权利要求4所述的方法,其特征在于,所述S3中,若第i类和第j类为强相关,则构建强相关集{i,j},若第i类同时属于多个强相关集,则只保留最大的强相关集;除强相关集职位的剩余类组成弱相关集。
6.根据权利要求5所述的方法,其特征在于,所述S4根据强弱关联集在骨干网络模型上分别添加对应的分支网络,得到RMRnet网络模型,包括:
所述骨干网络模型由一个7×7的卷积层、一个3×3的池化层、四个规格不等的残差块、一个3×3的均值池化层和一个全连接层依次连接构成;
根据弱相关集设计一条支路,并将该支路紧接在骨干网络的第2个残差块后;根据强相关集设计两条支路并列紧接在骨干网络的第3个残差块后,得到RMRnet网络模型;每条支路为一个残差块和两层全连接层的组合。
7.根据权利要求6所述的方法,其特征在于,所述方法对一个n类的表情分类任务,会得到一个n维向量作为输出,每个支路的输出都要乘以一个与关联集相关的掩码;
所述与关联集相关的掩码为:若关联集为{i,j},则与该关联集相关的掩码的第i,j维填充1,其余维度填充0。
8.根据权利要求7所述的方法,其特征在于,所述RMRnet网络模型的损失函数为:
L=Lm+Lb+Lc
其中,Lm和Lb分别表示骨干网络损失和支路汇总损失,为交叉熵函数;
Lc表示为:
Lc:=max{0,δ-θ*mean(y-y′)}
其中,y为骨干网络输出的与类别数等量维度的向量Omain;y′为强弱分支网络通过向量加法汇总之后得到Obranch,δ表示约束参数,用于约束强弱相关集双方差异,θ为抑制参数,用于抑制梯度***。
9.根据权利要求8所述的方法,其特征在于,若训练数据集为RAF-DB数据集,则α2取0.1,若训练数据集为Affectnet数据集,则α2取0.09,若训练数据集为Ferplus数据集,使用RAF-DB数据集上得到的强弱关联集。
10.根据权利要求8所述的方法,其特征在于,δ取0.25,θ取10-4
CN202110047932.1A 2021-01-14 2021-01-14 一种强化类间区分的表情识别方法 Active CN112766134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110047932.1A CN112766134B (zh) 2021-01-14 2021-01-14 一种强化类间区分的表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110047932.1A CN112766134B (zh) 2021-01-14 2021-01-14 一种强化类间区分的表情识别方法

Publications (2)

Publication Number Publication Date
CN112766134A true CN112766134A (zh) 2021-05-07
CN112766134B CN112766134B (zh) 2024-05-31

Family

ID=75700541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110047932.1A Active CN112766134B (zh) 2021-01-14 2021-01-14 一种强化类间区分的表情识别方法

Country Status (1)

Country Link
CN (1) CN112766134B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239833A (zh) * 2021-05-20 2021-08-10 厦门大学 一种基于双分支干扰分离网络的人脸表情识别方法
CN115106615A (zh) * 2022-08-30 2022-09-27 苏芯物联技术(南京)有限公司 一种基于工况智能识别的焊偏实时检测方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764207A (zh) * 2018-06-07 2018-11-06 厦门大学 一种基于多任务卷积神经网络的人脸表情识别方法
KR20200000824A (ko) * 2018-06-25 2020-01-03 한국과학기술원 중심 분산 손실 함수를 활용한 딥 러닝 모델 기반의 얼굴 표정 인식 방법
CN111160189A (zh) * 2019-12-21 2020-05-15 华南理工大学 一种基于动态目标训练的深度神经网络人脸表情识别方法
CN111639544A (zh) * 2020-05-07 2020-09-08 齐齐哈尔大学 基于多分支跨连接卷积神经网络的表情识别方法
CN111881776A (zh) * 2020-07-07 2020-11-03 腾讯科技(深圳)有限公司 动态表情获取方法、装置、存储介质和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764207A (zh) * 2018-06-07 2018-11-06 厦门大学 一种基于多任务卷积神经网络的人脸表情识别方法
KR20200000824A (ko) * 2018-06-25 2020-01-03 한국과학기술원 중심 분산 손실 함수를 활용한 딥 러닝 모델 기반의 얼굴 표정 인식 방법
CN111160189A (zh) * 2019-12-21 2020-05-15 华南理工大学 一种基于动态目标训练的深度神经网络人脸表情识别方法
CN111639544A (zh) * 2020-05-07 2020-09-08 齐齐哈尔大学 基于多分支跨连接卷积神经网络的表情识别方法
CN111881776A (zh) * 2020-07-07 2020-11-03 腾讯科技(深圳)有限公司 动态表情获取方法、装置、存储介质和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
党宏社;王淼;张选德;: "基于深度学习的面部表情识别方法综述", 科学技术与工程, no. 24, 28 August 2020 (2020-08-28) *
叶继华;祝锦泰;江爱文;李汉曦;左家莉;: "人脸表情识别综述", 数据采集与处理, no. 01, 15 January 2020 (2020-01-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239833A (zh) * 2021-05-20 2021-08-10 厦门大学 一种基于双分支干扰分离网络的人脸表情识别方法
CN113239833B (zh) * 2021-05-20 2023-08-29 厦门大学 一种基于双分支干扰分离网络的人脸表情识别方法
CN115106615A (zh) * 2022-08-30 2022-09-27 苏芯物联技术(南京)有限公司 一种基于工况智能识别的焊偏实时检测方法及***

Also Published As

Publication number Publication date
CN112766134B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN107122809B (zh) 基于图像自编码的神经网络特征学习方法
CN110598029B (zh) 基于注意力转移机制的细粒度图像分类方法
CN113190699B (zh) 一种基于类别级语义哈希的遥感图像检索方法及装置
CN111696101A (zh) 一种基于SE-Inception的轻量级茄科病害识别方法
CN114038037B (zh) 基于可分离残差注意力网络的表情标签修正和识别方法
CN113642621B (zh) 基于生成对抗网络的零样本图像分类方法
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN109740681A (zh) 一种水果分拣方法、装置、***、终端及存储介质
CN112766134A (zh) 一种强化类间区分的表情识别方法
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定***及方法
CN113011243A (zh) 基于胶囊网络的面部表情分析方法
CN112784921A (zh) 任务注意力引导的小样本图像互补学习分类算法
CN112528845A (zh) 一种基于深度学习的物理电路图识别方法及其应用
Yang et al. Application of deep learning in wood classification
CN112232395A (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN114882278A (zh) 一种基于注意力机制和迁移学习的轮胎花纹分类方法和装置
CN113011091A (zh) 一种自动分组的多尺度轻量型深度卷积神经网络优化方法
CN111860601A (zh) 预测大型真菌种类的方法及装置
CN115100509B (zh) 基于多分支块级注意力增强网络的图像识别方法及***
CN110163256A (zh) 基于联合概率矩阵的试卷图像自动核分方法
CN114821632A (zh) 一种遮挡行人重识别方法
CN114495163A (zh) 基于类别激活映射的行人重识别生成学习方法
CN113283530A (zh) 基于级联特征块的图像分类***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant