CN113033310A - 一种基于视觉自注意力网络的表情识别方法 - Google Patents

一种基于视觉自注意力网络的表情识别方法 Download PDF

Info

Publication number
CN113033310A
CN113033310A CN202110210515.4A CN202110210515A CN113033310A CN 113033310 A CN113033310 A CN 113033310A CN 202110210515 A CN202110210515 A CN 202110210515A CN 113033310 A CN113033310 A CN 113033310A
Authority
CN
China
Prior art keywords
layer
visual
attention
self
generation module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110210515.4A
Other languages
English (en)
Inventor
于乃功
柏德国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110210515.4A priority Critical patent/CN113033310A/zh
Publication of CN113033310A publication Critical patent/CN113033310A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于视觉自注意力网络的表情识别方法属于图像识别领域,使机器能够做到类似于人类那样综合考虑表情的局部信息。本发明主要过程为:S1:数据准备,将训练数据集输入到局部图像生成模块得到局部图像;S2:把局部图像输入至设计的视觉自注意力网络进行训练,得到训练好的模型;S3:将待识别的图像经过预处理送入到训练好的视觉自注意力网络中进行识别,得到结果。本发明采用视觉自注意力网络能够关注到局部图像之间的相互影响,并能够融合不同局部图像的鲁棒性特征以综合考虑到局部图像的信息,使图像最终表达的特征更加鲁棒,经过实验验证本发明所设计的网络在多个数据集上都超越了当前最先进方法的识别准确率,验证了本发明的有效性。

Description

一种基于视觉自注意力网络的表情识别方法
技术领域
本发明涉及图像识别领域,尤其是涉及了一种基于深度学习和自注意力机制的表情识别方法。
背景技术
当今,机器始终无法精准理解和体会人类的情感,可以说现在的机器还处于“弱”人工智能阶段。如果机器能够精准的理解人类的情感进而做到人机交互,便可以推动其走向“强”人工智能阶段。在市场销售领域,如果机器能够精准的识别出顾客对某种产品的喜好程度,商家就可以据此做出一定的营销策略和市场决策,促进经济的发展;在公共安全领域,如果机器能够判断出某人的异常情绪,就可及时预防犯罪的发生;在校园教育领域,如果机器能够识别出学生对某个知识点的理解程度所做出的表情,教师即可及时调整授课策略,调整授课进度等;在安全驾驶领域,人机交互***如果能够根据司机的表情和言语表达,判断出司机的驾驶行为和状态,就可以及时避免危险事故的发生。因此研究具有情感识别特别是能精准的判别人脸表情的机器人在现实生活中显得尤为重要。
根据提取面部表情特征的方法可以将表情识别方法分为两类,一是传统的基于人工设计特征的表情识别方法,二是基于深度学习的表情识别方法。使用人工设计特征的表情识别方法比较成熟,但是只能提取人工设定好的特征,提取的特征比较单一化,特征表达能力不足,适应性差。基于深度学习的表情识别是一种端到端的学习方式,它能学习到图像中潜在的多样化特征,对光线变化和头部偏转比较鲁棒,近几年以深度学习为基础的表情识别方法成为了主流。虽然现如今大多数的方法在识别率方面获得了很大的提升,但是都只是从表情的全局图像提取特征,并没有考虑局部图像信息。由于人类的个体属性差异、光照、遮挡等外界环境的干扰,全局图像所受到的影响较大,会存在一些无用信息对模型的识别造成干扰,这是一点需要改进的地方。
深圳市点猫科技有限公司申请的专利“一种基于深度学习的人脸表情识别方法、装置及设备”(专利申请号202011345478.X,公布号CN112149651A)中公开了一种基于深度学习的人脸表情识别方法。该专利用生成对抗网络和原始图像生成了丰富的表情图像用于训练网络,缓解了模型过拟合问题,提升了识别准确率。该专利申请公开的方法存在的不足是:它是从全局图像提取表情特征,没有像人类那样综合人脸的一些局部信息识别表情,因为人类观察表情的时候都是先看人脸的几个局部信息,而后综合考虑到底是什么表情,本发明为了弥补现在识别方法的不足和模仿人眼识别表情机制,提出了一种基于视觉自注意力网络的表情识别方法。
发明内容
为了使模型综合考虑到不同局部图像的信息以提高特征的判别性表达,本发明提出了一种适用于视觉领域的自注意力网络。具体来说,本发明为了把局部图像的鲁棒性特征进行融合,通过对自然语言处理领域中的Transformer模型进行改造,构成了一种视觉自注意力网络,其能够考虑到局部图像之间的相互影响,把不同的局部图像特征进行相互融合,使提取出的图像特征有了更加判别性的表达。
为实现上述目的,本发明采用的技术方案为一种基于视觉自注意力网络的表情识别方法,该方法是按以下步骤实现的;
S1:数据准备,将训练数据输入到局部图像生成模块获得局部图像;
本步骤用于获得每个训练数据的三种局部表情图像。
S2:把局部图像输入至视觉自注意力网络进行训练,得到训练好的模型;
本步骤基于S1步骤获得的局部表情图像训练视觉自注意力网络,使其能够关注到局部图像之间的相互影响并进行相互融合。
S3:将待识别的图像经过预处理送入到训练好的视觉自注意力网络中进行识别,得到结果;
本步骤把待检测的图像送入到训练好的视觉自注意力网络中,获得识别出的表情。
所述S1的具体步骤包括:
S1.1数据集的准备
所使用数据集由流行的表情数据集CK+,Oulu-CASIA,RAF-DB组成,前两个数据集中用10折交叉验证的方法取8折作为训练数据,最后一个数据集用给出的训练集作为训练数据。
S1.2局部图像生成模块
所述的局部图像生成模块由人脸检测方法和数据增强技术组成,人脸检测方法使用的是Dlib库中基于深度学***翻转(模拟数字设备的镜像条件),随机旋转(模拟人脸角度的变化),调节亮度、对比度、饱和度和色度(模拟现实生活中的不同光照条件或者数字设备设置参数不同导致获取到的图像不同),最后对图像进行随机裁切(模拟局部图像)并进行标准化,由此生成了局部图像。
将上述局部图像生成模块中的流程运行三次,由此可以生成三个局部图像。
所述S2的具体步骤包括:
S2.1视觉自注意力网络的组成
视觉自注意力网络由4层所设计的视觉自注意力层、全局平均池化层和全连接层结构叠加组成,其中每层的视觉自注意力层由三组并列的视觉特征提取模块和自注意力特征融合机制构成,其连接关系是三组视觉特征提取模块的输出作为自注意力特征融合机制的输入。
S2.2视觉特征提取模块的组成
S2.1中所述的三组并列的视觉特征提取模块均由残差结构、询问向量(q)生成模块、关键向量(k)生成模块和值矩阵(V)生成模块构成。
残差结构由ResNet中的残差模块(Res Module),最大池化层(MP)组成,其连接关系为:Res Module、MP。
询问向量(q)生成模块由深度可分离卷积层(DSC1),全局平均池化层(GP1)构成,其连接关系依次为:DSC1、GP1。
关键向量(k)生成模块由深度可分离卷积层(DSC2),全局平均池化层(GP2)构成,其连接关系依次为:DSC2、GP2。
值矩阵(V)生成模块只由深度可分离卷积层(DSC3)组成。
视觉特征提取模块的具体结构组成包含三个并列的子结构,其具体连接关系分别是(1)残差结构、询问向量生成模块。(2)残差结构、关键向量生成模块。(3)残差结构、值矩阵生成模块。残差结构的输出同时是询问向量生成模块、关键向量生成模块和值矩阵生成模块的输入。因此数据经过视觉特征提取模块会有三个输出,对应的分别是询问向量、关键向量和值矩阵,由此可得到三组视觉特征提取模块一共输出了三个询问向量,三个关键向量和三个值矩阵。
S2.3自注意力特征融合机制
S2.1种所述的自注意力融合机制表达如下:
F=Softmax(QK)V
式中Q是由S2.2中提到的三组视觉特征提取模块输出的三个询问向量拼接而成;K是由三组视觉特征提取模块输出的三个关键向量拼接而成;V是由三组视觉特征提取模块输出的三个值矩阵拼接而成;Softmax指的是Softmax函数。
所述的视觉特征提取模块的各个子模块的详细参数如下:
残差结构中的残差模块由两个卷积层叠加组成,两个卷积层的卷积核大小均为3×3,步长和padding均设置为1,每个卷积层后面均用Batch Normalization函数进行规范化,激活函数设置为Relu激活函数。最大池化层的窗口尺寸为2×2,步长为1。
询问向量生成模块、关键向量生成模块和值矩阵生成模块中的深度可分离卷积层均由相同结构的深度卷积和逐点卷积构成,其中深度卷积的输出通道数均等于输入通道数,其卷积核大小设置为3×3,卷积步长设置为1,卷积的组数设置为输入通道数。逐点卷积中卷积核大小均设置为1×1,卷积步长设置为1。深度卷积后都用Batch Normalization函数进行规范化,激活函数为Relu6激活函数。
所述的4层视觉自注意力层每层的输入输出通道数设置如下:
第一层的输入通道数设置为3,输出通道数设置为64。
第二层的输入通道数设置为64,输出通道数设置为128。
第三层的输入通道数设置为128,输出通道数设置为256。
第四层的输入通道数设置为256,输出通道数设置为512。
所述的全连接层结构组成如下:
全连接层结构由两层全连接层构成,第一个全连接层的输出是第二个全连接层的输入,其中第一个全连接层的输入单元个数为512,输出单元个数为256。第二个全连接层的输入单元个数为256,输出单元个数为7。第一个全连接层后使用Dropout方法防止过拟合,参数设置为0.5。
所述的视觉自注意力网络中各个组成部分具体连接关系如下:
第一层视觉自注意力层、第二层视觉自注意力层、第三层视觉自注意力层、第四层视觉自注意力层、全局平均池化层、全连接层,以上各层按顺序连接。其中全局平均池化层的输入只取第四层视觉自注意力层的第一个输出。
所述S1.2中生成的三个局部图像是第一个视觉自注意力层的输入。
所述S3中的S3中的预处理方式是用Pytorch中的TenCrop方法把输入图片变为10张40×40像素大小的局部图片。
有益效果:
(1)采用视觉自注意力网络类似于人眼机制能够关注到局部图像之间的相互影响,并能够融合不同局部图像的鲁棒性特征以综合考虑到局部图像的信息,使图像最终表达的特征更加鲁棒,弥补了现有的表情识别方法的不足,达到了对图像的特征进行判别性的表示。
(2)本发明在多个流行的表情数据集CK+,Oulu-CASIA,RAF-DB上的识别准确率均能够超越当前最先进的方法,提升了表情识别的准确率,在实际的表情识别测试实验中也达到了实时性的要求,取得了较高的识别准确率。
附图说明
图1是基于视觉自注意力网络表情识方法的步骤流程示意图;
图2是局部图像生成模块的示意图;
图3是视觉自注意力特征提取模块示意图;
图4是视觉自注意力网络的整体架构;
具体实施方式
下面结合附图和具体实施对本发明作进一步详细说明。
如图1是基于视觉自注意力网络表情识方法的步骤流程示意图,具体实施方案是:
S1:数据准备,将训练数据输入到局部图像生成模块获得局部图像,具体步骤包括:
S1.1数据集的准备
本发明所用的数据集包括CK+,Oulu-CASIA,RAF-DB三个数据集,其中CK+数据集一共981张人脸表情图片,Oulu-CASIA一共1420张人脸表情图片,RAF-DB一共包含12271张表情图像作为训练数据,3068张表情图像作为测试数据。由于CK+、Oulu-CASIA数据集比较小,实验用10折交叉验证方法验证在这两个数据集上所提出方法的有效性,8折用于训练,2折用于测试。而对RAF-DB数据集,直接用给出的训练集和测试集分别进行训练、测试。
S1.2局部图像生成模块
如图2所示是局部图像生成模块的示意图,具体来说,生成局部图像的流程为:第一步,使用Dlib库中的基于深度学***翻转(模拟数字设备的镜像条件);第四步,对第三步操作后的图像进行随机旋转(模拟人脸角度的变化),旋转角度在-90度到90度之间;第五步,对第四步操作后的图像改变亮度、对比度、饱和度和色度,其变化参数设置为0.2(模拟现实生活中的不同光照条件或者数字设备设置参数不同导致获取到的图像不同);第六步,对第五步操作后的图像进行随机裁切(模拟局部图像),随机裁切的大小为40×40像素大小;第七步,对第六步生成的图像进行标准化,标准化的均值设置为[0.485,0.456,0.406],标准差设置为[0.229,0.224,0.225]。
将上述生成局部图像流程中从第四步到第七步运行三次,可获得三种局部图像,然后送入到接下来将要介绍的视觉自注意力网络中。
S2:把局部图像输入至视觉自注意力网络进行训练,得到训练好的模型,其具体实施方案如下:
S2.1视觉自注意力网络的组成
视觉自注意力网络由4层视觉自注意力层、全局平均池化和全连接层结构顺序叠加组成,其中视觉自注意力层由三组并列的视觉特征提取模块和自注意力特征融合机制构成,连接关系是三组视觉特征提取模块的输出作为自注意力特征融合机制的输入。
S2.2视觉特征提取模块的组成
图3是视觉自注意力特征提取模块示意图,其具体构造步骤如下:
视觉特征提取模块均由残差结构、询问向量(q)生成模块、关键向量(k)生成模块和值矩阵(V)生成模块构成。为了更好的提取特征和防止过拟合问题,残差结构中使用了ResNet中的残差模块,如图3中的Res Module所示,MP代表最大池化操作,残差模块和最大池化组成了残差结构。为了减少模型参数量,图3中的DSC1,DSC2,DSC3都是用了深度可分离卷积操作,使用全局平均池化计算得到图像的线性嵌入表达,DSC1和GP1构成了询问向量(q)生成模块,DSC2和GP2构成了关键向量(k)生成模块,输入数据经过DSC3的计算得到了值矩阵(V)。如图3所示残差结构的输出同时是询问向量生成模块、关键向量生成模块和值矩阵生成模块的输入。因此数据经过视觉特征提取模块会有三个输出,分别是询问向量、关键向量和值矩阵,由此可得三组视觉特征提取模块输出了三个询问向量q11,q12,q13,三个关键向量k11,k12,k13和三个值矩阵V11,V12,V13
在每个具体的独立结构中,残差结构中的残差模块由两个卷积层组成,两个卷积层的卷积核大小均为3×3,步长和padding均设置为1,两个卷积层后面均用BatchNormalization函数进行规范化,激活函数设置为Relu激活函数。最大池化层的窗口尺寸为2×2,步长为1。询问向量生成模块、关键向量生成模块和值矩阵生成模块中的深度可分离卷积层均由相同结构的深度卷积和逐点卷积构成,其中深度卷积的输出通道数均等于输入通道数,卷积核大小设置为3×3,卷积步长设置为1,卷积的组数设置为输入通道数。逐点卷积中卷积核大小均设置为1×1,卷积步长设置为1。深度卷积后都用Batch Normalization函数进行规范化,激活函数为Relu6激活函数。
S2.3自注意力特征融合机制表达如下:
F(Q,K,V)=Softmax(QK)V
式中Q是由S2.2中提到的三个询问向量拼接而成,即Q=(q11,q12,q13)T;K是由S2.2中提到的三个关键向量拼接而成,即K=(k11,k12,k13)T;V是由由S2.2中提到的三个值矩阵拼接而成,即V=(V11,V12,V13)T;Softmax指的是Softmax函数。Q与K代表三个局部图像的特征表达,先用Q与K的矩阵点积计算出各个局部图像之间的相互影响,然后再取Softmax计算,就能获得其余局部图像对自身局部图像的影响有多少,最后乘上V就能把其余局部图像的特征融合到自身图像的特征中去。
数据经过自注意力特征融合机制后,便可得到局部图像相互融合后的表达,其中第i个局部图像相互融合后的特征表达为:Outi=F(Q,K,V)[:,i,:,:,:],得到相互融合的特征表达之后,便可送入到下一层的视觉自注意力层提取更加深层的融合特征。
S2.4视觉自注意力网络的组成
如图4是视觉自注意力网络的结构组成,由上述的四层视觉自注意力层、全局平均池化层和全连接层顺序连接而成。视觉自注意力层每层的输入输出通道数设置如下:
第一层的输入通道数设置为3,输出通道数设置为64;
第二层的输入通道数设置为64,输出通道数设置为128;
第三层的输入通道数设置为128,输出通道数设置为256;
第四层的输入通道数设置为256,输出通道数设置为512。
全连接层结构由两层全连接层构成,第一个全连接层的输出是第二个全连接层的输入,其中第一个全连接层的输入单元个数为512,输出单元个数为256。第二个全连接层的输入单元个数为256,输出单元个数为7。第一个全连接层后使用Dropout方法防止过拟合,参数设置为0.5。
S2.5视觉自注意力网络的训练
在模型参数方面,批量大小设置为128,学习率初始设置为0.0001,使用交叉熵分类损失和Adam优化器对模型进行训练,训练次数设置为210次,模型每训练70次,学习率降低为原来的0.1倍。
S3:将待识别的图像经过预处理送入到训练好的视觉自注意力网络中进行识别,得到实验结果,其中预处理的方式是用Pytorch中的TenCrop方法把输入图片变为10张40×40像素大小的局部图片,然后把上述得到的图像送入到视觉自注意力网络中进行识别。实验结果显示本发明所设计的模型分别在CK+、Oulu-CASIA数据集上的10折交叉验证的平均准确率为99.7%、97.256%,在RAF-DB测试数据集上的准确率为86.28%,都超越了当前最先进的方法的准确率。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于视觉自注意力网络的表情识别方法,其特征在于,该方法是按以下步骤实现的:
S1:数据准备,将训练数据输入到局部图像生成模块获得局部图像;
S2:把局部图像输入至视觉自注意力网络进行训练,得到训练好的模型;视觉自注意力网络由4层所设计的视觉自注意力层、全局平均池化层和全连接层结构叠加组成,其中每层的视觉自注意力层由三组并列的视觉特征提取模块和自注意力特征融合机制构成,其连接关系是三组视觉特征提取模块的输出作为自注意力特征融合机制的输入;
S3:将待识别的图像经过预处理送入到训练好的视觉自注意力网络中进行识别,得到结果。
2.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法,其特征在于,所述S1的具体步骤包括:
S1.1数据的准备
所使用的数据由公开的表情数据集CK+,Oulu-CASIA,RAF-DB组成,前两个数据集中用10折交叉验证的方法取8折作为训练数据,最后一个数据集用给出的训练集作为训练数据;
S1.2局部图像生成模块
所述的局部图像生成模块由人脸检测方法和数据增强技术组成,人脸检测方法使用的是Dlib库中基于深度学***翻转,随机旋转,调节亮度、对比度、饱和度和色度,最后对图像进行随机裁切并进行标准化;
将上述局部图像生成模块中的流程运行三次,由此生成三个局部图像。
3.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法,其特征在于,所述的三组并列的视觉特征提取模块均由残差结构、询问向量(q)生成模块、关键向量(k)生成模块和值矩阵(V)生成模块构成;
残差结构由ResNet中的残差模块(Res Module),最大池化层(MP)组成,其连接关系为:Res Module、MP;
询问向量(q)生成模块由深度可分离卷积层(DSC1),全局平均池化层(GP1)构成,其连接关系依次为:DSC1、GP1;
关键向量(k)生成模块由深度可分离卷积层(DSC2),全局平均池化层(GP2)构成,其连接关系依次为:DSC2、GP2;
值矩阵(V)生成模块只由深度可分离卷积层(DSC3)组成;
视觉特征提取模块的具体结构组成包含三个并列的子结构,其具体连接关系分别是(1)残差结构、询问向量生成模块;(2)残差结构、关键向量生成模块;(3)残差结构、值矩阵生成模块;残差结构的输出同时是询问向量生成模块、关键向量生成模块和值矩阵生成模块的输入;因此数据经过视觉特征提取模块会有三个输出,对应的分别是询问向量、关键向量和值矩阵,由此可得三组视觉特征提取模块一共输出了三个询问向量,三个关键向量和三个值矩阵。
4.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法,其特征在于,所述的自注意力特征融合机制为:
F=Softmax(QK)V
式中Q是三组视觉特征提取模块输出的三个询问向量拼接而成;K是三组视觉特征提取模块输出的三个关键向量拼接而成;V是由三组视觉特征提取模块输出的三个值矩阵拼接而成;Softmax指的是Softmax函数。
5.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法,其特征在于,所述的视觉特征提取模块中的各个组成部分其详细参数如下:
残差结构中的残差模块由两个卷积层叠加组成,两个卷积层的卷积核大小均为3×3,步长和padding均设置为1,每个卷积层后面均用Batch Normalization函数进行规范化,激活函数设置为Relu激活函数;最大池化层的窗口尺寸为2×2,步长为1;
询问向量生成模块、关键向量生成模块和值矩阵生成模块中的深度可分离卷积层均由相同结构的深度卷积和逐点卷积构成,其中深度卷积的输出通道数均等于输入通道数,其卷积核大小设置为3×3,卷积步长设置为1,卷积的组数设置为输入通道数;逐点卷积中卷积核大小均设置为1×1,卷积步长设置为1;深度卷积后都用Batch Normalization函数进行规范化,激活函数为Relu6激活函数。
6.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法,其特征在于,所述的4层视觉自注意力层中每层的输入输出通道数设置如下:
第一层的输入通道数设置为3,输出通道数设置为64;
第二层的输入通道数设置为64,输出通道数设置为128;
第三层的输入通道数设置为128,输出通道数设置为256;
第四层的输入通道数设置为256,输出通道数设置为512。
7.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法,其特征在于,所述的全连接层结构组成如下:
全连接层结构由两层全连接层构成,第一个全连接层的输出是第二个全连接层的输入,其中第一个全连接层的输入单元个数为512,输出单元个数为256;第二个全连接层的输入单元个数为256,输出单元个数为7;第一个全连接层后使用Dropout方法防止过拟合,参数设置为0.5。
8.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法,其特征在于,所述的视觉自注意力网络中各个组成部分具体连接关系如下:
第一层视觉自注意力层、第二层视觉自注意力层、第三层视觉自注意力层、第四层视觉自注意力层、全局平均池化层、全连接层,以上各层按顺序连接;其中全局平均池化层的输入只取第四层视觉自注意力层的第一个输出。
9.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法,其特征在于,所述生成的三个局部图像是第一个视觉自注意力层的输入。
10.根据权利要求1中所述的一种基于视觉自注意力网络的表情识别方法,其特征在于,所述S3中的预处理方式是用Pytorch中的TenCrop方法把输入图片变为10张40×40像素大小的局部图片。
CN202110210515.4A 2021-02-25 2021-02-25 一种基于视觉自注意力网络的表情识别方法 Pending CN113033310A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110210515.4A CN113033310A (zh) 2021-02-25 2021-02-25 一种基于视觉自注意力网络的表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110210515.4A CN113033310A (zh) 2021-02-25 2021-02-25 一种基于视觉自注意力网络的表情识别方法

Publications (1)

Publication Number Publication Date
CN113033310A true CN113033310A (zh) 2021-06-25

Family

ID=76461560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110210515.4A Pending CN113033310A (zh) 2021-02-25 2021-02-25 一种基于视觉自注意力网络的表情识别方法

Country Status (1)

Country Link
CN (1) CN113033310A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516182A (zh) * 2021-07-02 2021-10-19 文思海辉元辉科技(大连)有限公司 视觉问答模型训练、视觉问答方法和装置
CN113723312A (zh) * 2021-09-01 2021-11-30 东北农业大学 基于视觉transformer的水稻病害识别方法
CN113887487A (zh) * 2021-10-20 2022-01-04 河海大学 一种基于CNN-Transformer的面部表情识别方法及装置
CN115296759A (zh) * 2022-07-15 2022-11-04 电子科技大学 一种基于深度学习的干扰识别方法
CN115424051A (zh) * 2022-09-16 2022-12-02 中国矿业大学 一种全景拼接图像质量评价方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610168A (zh) * 2019-09-20 2019-12-24 合肥工业大学 一种基于注意力机制的脑电情绪识别方法
WO2020114118A1 (zh) * 2018-12-07 2020-06-11 深圳光启空间技术有限公司 面部属性识别方法、装置、存储介质及处理器
CN111523462A (zh) * 2020-04-22 2020-08-11 南京工程学院 基于自注意增强cnn的视频序列表情识别***及方法
CN112257647A (zh) * 2020-11-03 2021-01-22 徐州工程学院 基于注意力机制的人脸表情识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020114118A1 (zh) * 2018-12-07 2020-06-11 深圳光启空间技术有限公司 面部属性识别方法、装置、存储介质及处理器
CN110610168A (zh) * 2019-09-20 2019-12-24 合肥工业大学 一种基于注意力机制的脑电情绪识别方法
CN111523462A (zh) * 2020-04-22 2020-08-11 南京工程学院 基于自注意增强cnn的视频序列表情识别***及方法
CN112257647A (zh) * 2020-11-03 2021-01-22 徐州工程学院 基于注意力机制的人脸表情识别方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516182A (zh) * 2021-07-02 2021-10-19 文思海辉元辉科技(大连)有限公司 视觉问答模型训练、视觉问答方法和装置
CN113516182B (zh) * 2021-07-02 2024-04-23 文思海辉元辉科技(大连)有限公司 视觉问答模型训练、视觉问答方法和装置
CN113723312A (zh) * 2021-09-01 2021-11-30 东北农业大学 基于视觉transformer的水稻病害识别方法
CN113723312B (zh) * 2021-09-01 2024-01-23 东北农业大学 基于视觉transformer的水稻病害识别方法
CN113887487A (zh) * 2021-10-20 2022-01-04 河海大学 一种基于CNN-Transformer的面部表情识别方法及装置
CN113887487B (zh) * 2021-10-20 2024-03-15 河海大学 一种基于CNN-Transformer的面部表情识别方法及装置
CN115296759A (zh) * 2022-07-15 2022-11-04 电子科技大学 一种基于深度学习的干扰识别方法
CN115424051A (zh) * 2022-09-16 2022-12-02 中国矿业大学 一种全景拼接图像质量评价方法
CN115424051B (zh) * 2022-09-16 2023-06-27 中国矿业大学 一种全景拼接图像质量评价方法

Similar Documents

Publication Publication Date Title
CN113033310A (zh) 一种基于视觉自注意力网络的表情识别方法
CN109615582B (zh) 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
CN107463949B (zh) 一种视频动作分类的处理方法及装置
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN110659573B (zh) 一种人脸识别方法、装置、电子设备及存储介质
CN111582095B (zh) 一种轻量级行人异常行为快速检测方法
CN106503661B (zh) 基于烟花深度信念网络的人脸性别识别方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN106600640A (zh) 一种基于rgb‑d相机的人脸识别辅助眼镜
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN112036276A (zh) 一种人工智能视频问答方法
CN109583334B (zh) 一种基于时空关联神经网络的动作识别方法及其***
CN110210344A (zh) 视频动作识别方法及装置、电子设备、存储介质
CN114333002A (zh) 基于图深度学习和人脸三维重建的微表情识别方法
CN109670285A (zh) 面部识别登陆方法、装置、计算机设备及存储介质
CN110222568B (zh) 一种基于时空图的跨视角步态识别方法
CN115731596A (zh) 基于渐进式标签分布和深度网络的自发表情识别方法
CN114550270A (zh) 一种基于双注意力机制的微表情识别方法
CN111882516A (zh) 一种基于视觉显著性和深度神经网络的图像质量评价方法
CN110782503B (zh) 一种基于两分支深度相关网络的人脸图像合成方法和装置
CN112487926A (zh) 一种基于时空图卷积网络的景区投喂行为识别方法
CN112270221A (zh) 一种融合四季色彩理论的服装个性化推荐方法
CN111368739A (zh) 一种基于双流卷积神经网络的暴力行为识别方法
Parkin et al. Creating artificial modalities to solve RGB liveness
CN114613016A (zh) 基于Xception网络改进的手势图像特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination