CN114973383A - 一种微表情识别方法、装置、电子设备及存储介质 - Google Patents
一种微表情识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114973383A CN114973383A CN202210704033.9A CN202210704033A CN114973383A CN 114973383 A CN114973383 A CN 114973383A CN 202210704033 A CN202210704033 A CN 202210704033A CN 114973383 A CN114973383 A CN 114973383A
- Authority
- CN
- China
- Prior art keywords
- image
- expression
- component analysis
- micro
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种微表情识别方法、装置、电子设备及存储介质,用于解决现有的微表情识别方法识别准确率较低的技术问题。本发明包括:对预设表情数据集进行人脸检测,得到脸部图像,并获取每个所述脸部图像对应的表情标签;所述预设表情数据集包括宏表情数据集和微表情数据集;对所述脸部图像进行主成分分析和数据增强,得到预处理图像;采用所述预处理图像和对应的表情标签训练改进卷积视觉模型,得到已训练卷积视觉模型;获取待识别微表情图像,将所述待识别微表情图像输入所述已训练改进卷积视觉模型,输出所述待识别微表情图像的识别结果。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种微表情识别方法、装置、电子设备及存储介质。
背景技术
人与机器的交互日渐频繁,表情识别作为人与机器交互常用的方法之一,入场生活中常常能够看到表情识别的身影:笑脸拍照、疲劳驾驶检测、辅助心理治疗、游戏娱乐等。在面部表情里有一种极难为人类肉眼所察觉的表情--微表情。微表情是一种通常仅持续0.04s-0.2s的持续时间短、强度低的表情,是人们隐藏内心的真实感受而不自觉流露出来的面部表情。正因为面部表情的这些特性,使得微表情在准确识别上存在较大的难度。但是微表情在心理疾病治疗、刑侦扯谎、临床诊断等方面有广泛的应用,如何突破微表情的特性来提高识别率,成了计算机视觉领域中的一大热点。
微表情识别的主要步骤是:图像预处理、特征提取和分类。在预处理阶段主要有基于统计学习模型ASM、主观表现模型AAM及自动估计初始脸型的多姿态人脸配准算法。在特征提取方面主要采取的是基于运动特征和纹理特征的提取方法。在基于纹理特征的方法中主要基于局部二值模式(LBP)方法,在运动特征方面则主要采用光流(OF)特征。尽管微表情幅度小这一特性与光流法更适应于小幅度运动中一直,但实际应用中微表情更多的产生在光线亮度等的场景。在分类方法的主流方法是采用随机森林(RF)极限学习机(ELM)及隐马尔可夫模型。
随着深度学习的不断发展,在微表情识别上使用深度学习的方法使得微表情的识别率有着显著的提升。可见深度学习在微表情识别上有着很大的前景。但由于深度学习需要大量的数据才能体现它的强大性能,而微表情的数据集在样本数量上存在较大问题,数据集数量过小会使得训练模型识别出来的特征与实际的特征存在一定的差别,导致识别率不高。
发明内容
本发明提供了一种微表情识别方法、装置、电子设备及存储介质,用于解决现有的微表情识别方法识别准确率较低的技术问题。
本发明提供了一种微表情识别方法,包括:
对预设表情数据集进行人脸检测,得到脸部图像,并获取每个所述脸部图像对应的表情标签;所述预设表情数据集包括宏表情数据集和微表情数据集;
对所述脸部图像进行主成分分析和数据增强,得到预处理图像;
采用所述预处理图像和对应的表情标签训练改进卷积视觉模型,得到已训练卷积视觉模型;
获取待识别微表情图像,将所述待识别微表情图像输入所述已训练改进卷积视觉模型,输出所述待识别微表情图像的识别结果。
可选地,所述对所述脸部图像进行主成分分析和数据增强,得到预处理图像的步骤,包括:
对所述脸部图像进行主成分分析,得到主成分分析特征图像;
对所述主成分分析特征图像进行数据增强操作,得到预处理图像。
可选地,所述对所述脸部图像进行主成分分析,得到主成分分析特征图像的步骤,包括:
获取所述脸部图像的表情图像矩阵;
计算所述表情图像矩阵的平均值;
采用所述平均值计算所述脸部图像的协方差矩阵;
计算所述协方差矩阵的特征值和特征向量;
对所述特征值进行排序,得到特征值序列;
从所述特征值序列中提取预设数量的特征值对应的特征向量作为目标特征向量,并采用所述目标特征向量生成特征矩阵;
求取所述表情图像矩阵和所述特征矩阵之间的乘积,得到主成分分析特征图像。
可选地,所述数据增强操作,包括实时数据增强操作和脱机数据增强操作。
可选地,所述采用所述预处理图像和对应的表情标签训练改进卷积视觉模型,得到已训练卷积视觉模型的步骤,包括:
将所述预处理图像输入所述改进卷积视觉模型,对所述预处理图像进行卷积操作,得到卷积结果;
对所述卷积结果进行归一化操作,得到归一化图像;
将所述归一化图像输入至若干个深度可分离卷积中,输出与所述深度可分离卷积一一对应的特征图;
采用所有所述特征图生成token,并将所述token输入MLP模块;
通过所述MLP模块对所述token进行图像分类,得到分类结果;
基于所述分类结果和所述表情标签计算所述改进卷积视觉模型的损失函数;
调整所述损失函数的参数,当所述损失函数达到最小值时,将当前的改进卷积视觉模型作为已训练卷积视觉模型。
本发明还提供了一种微表情识别装置,包括:
人脸检测模块,用于对预设表情数据集进行人脸检测,得到脸部图像,并获取每个所述脸部图像对应的表情标签;所述预设表情数据集包括宏表情数据集和微表情数据集;
预处理图像生成模块,用于对所述脸部图像进行主成分分析和数据增强,得到预处理图像;
训练模块,用于采用所述预处理图像和对应的表情标签训练改进卷积视觉模型,得到已训练卷积视觉模型;
识别模块,用于获取待识别微表情图像,将所述待识别微表情图像输入所述已训练改进卷积视觉模型,输出所述待识别微表情图像的识别结果。
可选地,所述预处理图像生成模块,包括:
主成分分析子模块,用于对所述脸部图像进行主成分分析,得到主成分分析特征图像;
数据增强子模块,用于对所述主成分分析特征图像进行数据增强操作,得到预处理图像。
可选地,所述主成分分析子模块,包括:
表情图像矩阵获取单元,用于获取所述脸部图像的表情图像矩阵;
平均值计算单元,用于计算所述表情图像矩阵的平均值;
协方差矩阵计算单元,用于采用所述平均值计算所述脸部图像的协方差矩阵;
特征值和特征向量计算单元,用于计算所述协方差矩阵的特征值和特征向量;
排序单元,用于对所述特征值进行排序,得到特征值序列;
特征矩阵生成单元,用于从所述特征值序列中提取预设数量的特征值对应的特征向量作为目标特征向量,并采用所述目标特征向量生成特征矩阵;
主成分分析特征图像生成单元,用于求取所述表情图像矩阵和所述特征矩阵之间的乘积,得到主成分分析特征图像。
本发明还提供了一种电子设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行如上任一项所述的微表情识别方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上任一项所述的微表情识别方法。
从以上技术方案可以看出,本发明具有以下优点:本发明通过迁移学习,使用宏表情数据集进行改进卷积视觉模型训练,保存最优模型参数,进行微表情图像分类,可在样本量较小的情况下得到识别准确率较高的已训练改进卷积视觉模型,从而提高了微表情的识别准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种微表情识别方法的步骤流程图;
图2为本发明另一实施例提供的一种微表情识别方法的步骤流程图;
图3为本发明实施例提供的一种改进卷积视觉模型的结构示意图;
图4为本发明实施例提供的一种微表情识别装置的结构框图。
具体实施方式
本发明实施例提供了一种微表情识别方法、装置、电子设备及存储介质,用于解决现有的微表情识别方法识别准确率较低的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例提供的一种微表情识别方法的步骤流程图。
本发明提供的一种微表情识别方法,具体包括以下步骤:
步骤101,对预设表情数据集进行人脸检测,得到脸部图像,并获取每个脸部图像对应的表情标签;预设表情数据集包括宏表情数据集和微表情数据集;
在本发明实施例中,宏表情数据集为CK+数据集,微表情数据集为CASME II数据集。其中,CK+数据集包含123个对象,593个图像序列,每个图像序列的最后一整都有运动编码的标签,而在这593个图像序列中,有327个序列有表情标签。该数据集中包含0-中性,1-愤怒,2-蔑视,3-厌恶,4-恐惧,5-高兴,6-悲伤,7-惊讶七个标签。CASME II数据集包含247条微表***片段,使用200FPS的高速摄像机进行拍摄,视频片段的面部分辨率达到约280*340像素。CASME II数据集将微表情分为5类进行标注,分别是快乐、恶心、惊讶、压抑和其他;CASME II数据集中还标注了微表情活动的起点(Onset)、峰值点(Apex)与结束(Offset),其中Apex对于微表情识别有所帮助;除了对情感进行标注外,CASME II数据集还标注了每个微表情的AU(面部活动单元),AU作为对微表情进行分类的依据。因为宏观表情数据集CK+人脸表情数据集中的表情分类种类与微表情数据集CASME II数据集不同,在心理学专家指导下,将CK+人脸表情数据集中的表情进行再分类,蔑视和厌恶两种表情再定义为恶心,将中性和愤怒归为其他,将恐惧归为压抑。
接着,对预设表情数据集进行人脸检测,得到脸部图像。
在一个示例中,使用Viola-Jones(V&J)面部检测器对宏表情和微表情数据集进行人脸检测,其原理是通过滑动窗口法,使用矩形框,依次滑动遍历整个图像,然后不断增加矩形框的大小,继续遍历;将检测窗口放入非人脸区域计算,会与人脸区域特征值不同,借此区分人脸和非人脸,从而得到脸部图像。
步骤102,对脸部图像进行主成分分析和数据增强,得到预处理图像;
在本发明实施例中,在获取到人的脸部图像之后,对脸部图像进行主成分分析和数据增强,以得到预处理图像。
其中,主成分分析用于去除脸部图像中的无关变量,用于降低图像维度;数据增强用于增加样本数量。
步骤103,采用预处理图像和对应的表情标签训练改进卷积视觉模型,得到已训练卷积视觉模型;
本发明实施例采用的改进卷积视觉模型(Convolution Vision Transformer,CVT)作为图像识别模型,该改进CVT在传统的CNN模型基础上将卷积神经网络与VisionTransformer融合在一起,既保持了平移、缩放和旋转不变性又保留了Transformer的动态注意力和更好的泛化能力,更大大减少参数数量并提升运算速度。
在具体实现中,通过迁移学习的方式进行改进卷积视觉模型的训练。首先在改进卷积视觉模型中输入宏表情数据集的预处理图像,采用宏表情数据集的数据进行改进卷积视觉模型的训练,得到初始模型,然后将微表情数据集对应的预处理图像输入初始模型中进行再次训练,直至完成对改进卷积视觉模型的训练。
将上述步骤102得到的预处理图像输入改进CVT中,根据输出的分类结果,调整改进CVT模型的参数,最终得到已训练的卷积视觉模型。
步骤104,获取待识别微表情图像,将待识别微表情图像输入已训练改进卷积视觉模型,输出待识别微表情图像的识别结果。
将待识别微表情图像输入已训练的卷积视觉模型,得到待识别微表情图像的分类结果。
本发明通过迁移学习,使用宏表情数据集进行改进卷积视觉模型训练,保存最优模型参数,进行微表情图像分类,可在样本量较小的情况下得到识别准确率较高的已训练改进卷积视觉模型,从而提高了微表情的识别准确率。
请参阅图2,图2为本发明另一实施例提供的一种微表情识别方法的步骤流程图,具体包括以下步骤:
步骤201,对预设表情数据集进行人脸检测,得到脸部图像,并获取每个脸部图像对应的表情标签;预设表情数据集包括宏表情数据集和微表情数据集;
步骤201与步骤101相同,具体可参照步骤101的描述,此处不再赘述。
步骤202,对脸部图像进行主成分分析,得到主成分分析特征图像;
在本发明实施例中,在获取到人的脸部图像之后,对脸部图像进行主成分分析和数据增强,以得到预处理图像。
在一个示例中,主成分分析用于去除脸部图像中的无关变量,用于降低图像维度;数据增强用于增加样本数量。
主成分分析法通过一系列线性变换组合在预处理图像的原始空间中提取出线性无关变量,以降低图像维度,并保留预处理图像的主要信息。
在一个示例中,对脸部图像进行主成分分析,得到主成分分析特征图像的步骤包括:
S21,获取脸部图像的表情图像矩阵;
在本发明实施例中,将脸部图像的原始数据按列组成n行m列的表情图像矩阵X。
S22,计算表情图像矩阵的平均值;
S23,采用平均值计算脸部图像的协方差矩阵;
接着采用平均值计算脸部图像的协方差矩阵,其计算公式如下:
S24,计算协方差矩阵的特征值和特征向量;
S25,对特征值进行排序,得到特征值序列;
S26,从特征值序列中提取预设数量的特征值对应的特征向量作为目标特征向量,并采用目标特征向量生成特征矩阵;
在计算得到特征值后,对特征值进行排序,得到特征序列;再从特征序列中提取并保留前N个最大特征值对应的特征向量作为目标特征向量,并采用目标特征向量生成特征矩阵。
S27,求取表情图像矩阵和特征矩阵之间的乘积,得到主成分分析特征图像。
将得到的特征矩阵与表情图像矩阵相乘,获得主成分分析特征图像ATX。
步骤203,对主成分分析特征图像进行数据增强操作,得到预处理图像;
为了保证对表情分类任务的通用性,模型的训练需要大量的数据进行训练,尽管使用了迁移学习的方法,结合宏观表情进行模型的训练,目前开源的面部表情数据集中的数据数量也是不够充足的,因此需要对数据集进行数据增强。本发明实施例使用的数据增强的方法是实时数据增强和脱机数据增强相结合即通过将图像进行旋转变换、上下挪动、随机裁剪以及随机扰动和分辨率变换,将原始数据集变成数倍规模。本发明实施例将数据增强的超参数Rotation_range设置为:10,将Width_shift_range设置为0.05,Heigth_shift_range同样设置为0.05,Horizontal_flip设置为true,Shear_range为0.2,同样Zoom_range亦为0.2。
步骤204,采用预处理图像和对应的表情标签训练改进卷积视觉模型,得到已训练卷积视觉模型;
在本发明实施例中,步骤204包括以下子步骤:
S41,将预处理图像输入改进卷积视觉模型,对预处理图像进行卷积操作,得到卷积结果;
S42,对卷积结果进行归一化操作,得到归一化图像;
S43,将归一化图像输入至若干个深度可分离卷积中,输出与深度可分离卷积一一对应的特征图;
S44,采用所有特征图生成token,并将token输入MLP模块;
S45,通过MLP模块对token进行图像分类,得到分类结果;
S46,基于分类结果和表情标签计算改进卷积视觉模型的损失函数;
S47,调整损失函数的参数,当损失函数达到最小值时,将当前的改进卷积视觉模型作为已训练卷积视觉模型。
请参阅图3,图3为本发明实施例提供的一种改进卷积视觉模型的结构示意图。
在具体实现中,本发明实施例将预处理图像输入到改进卷积视觉模型中,图像首先经过Convolutional Token Embedding层,在此层中,输入的图像的前一阶段作为后一阶段i的输入。在此层中,会学***成大小为Hi×Wi×Ci,并通过归一化层进行归一化操作。
进行完归一化操作后图像输入到Convolutional Transformer Block里。Convolutional Transformer Block的第一层是Convolutional Projection forAttention(CPA),在此层使用核大小为s的3个深度可分离卷积层来实现卷积映射,得到3个特征图(Q,K,V)。然后再将这三个特征图reshape成token,得到最终的Q,K,V;通过映射将Token展平为1D,再输入到下一层。展平操作公式可表示为xi q/k/v=Flatten(Conv2D(Reshape2D(xi),s),xi q/k/v是第i层Q/K/V矩阵的Token输入,xi是卷积投影之前的未扰动token,Conv2d是深度可分离卷积。它的具体流程为:Depth-wise Conv2d—>BatchNorm2d—>Point-wise Conv2d,s是卷积核大小。展平成1D以后,送入MLP模块。MLP Block由全连接层+GELU激活函数+Dropout组成。在本发明实施例中,使用全局平均池化层代替第一个stage中MLP Block中的全连接层。图像在第一个阶段处理完成后进入第二个stage。
在第三个stage中加入cls_token,第二个阶段结束得到的2D特征图,送入Convolutional Token Embedding模块得到图片数据的token,将cls_token和图片数据的token组合起来,送入Convolutional Projection For Attention模块,输出时会将cls_token和图数据的token分开,用cls_token来进行分类工作。
接着基于分类结果和表情标签计算改进卷积视觉模型的损失函数;调整损失函数的参数,当损失函数达到最小值时,完成模型训练。
需要说明的是,在本发明实施例中,通过迁移学习的方式进行改进卷积视觉模型的训练。首先在改进卷积视觉模型中输入宏表情数据集的预处理图像,采用宏表情数据集的数据进行改进卷积视觉模型的训练,得到初始模型,然后将微表情数据集对应的预处理图像输入初始模型中进行再次训练,直至完成对改进卷积视觉模型的训练。
步骤205,获取待识别微表情图像,将待识别微表情图像输入已训练改进卷积视觉模型,输出待识别微表情图像的识别结果。
将待识别微表情图像输入已训练的卷积视觉模型,得到待识别微表情图像的分类结果。
本发明使用了主成分分析法对宏表情及微表情数据集进行处理,获得仅包含了鼻子、眼睛、嘴巴等关键区域的脸部图像。忽略了与表情识别无关的脸颊部分,实现了表情图像的重构,为模型训练降低了计算量。通过实时数据增强和脱机数据增强组合,以及使用宏表情数据来扩充微表情以避免数据量不足从而导致模型过拟合的现象。此外,本发明实施采用了卷积神经网络和Vision Transformer相结合的改进CVT模型,既保持了平移、缩放和旋转不变性又保留了Transformer的动态注意力和更好的泛化能力,采用了depth-wiseseparable convolution以及使用全局平均池化层来替代一个全连接层以减少计算量,以及采用squeezed convolution projection来减少multi-head self attention的计算量从而大大减少了使用Vision Transformer的成本。有效的提升分类的准确性和鲁棒性。
请参阅图4,图4为本发明实施例提供的一种微表情识别装置的结构框图。
本发明实施例提供了一种微表情识别装置,包括:
人脸检测模块401,用于对预设表情数据集进行人脸检测,得到脸部图像,并获取每个脸部图像对应的表情标签;预设表情数据集包括宏表情数据集和微表情数据集;
预处理图像生成模块402,用于对脸部图像进行主成分分析和数据增强,得到预处理图像;
训练模块403,用于采用预处理图像和对应的表情标签训练改进卷积视觉模型,得到已训练卷积视觉模型;
识别模块404,用于获取待识别微表情图像,将待识别微表情图像输入已训练改进卷积视觉模型,输出待识别微表情图像的识别结果。
在本发明实施例中,预处理图像生成模块402,包括:
主成分分析子模块,用于对脸部图像进行主成分分析,得到主成分分析特征图像;
数据增强子模块,用于对主成分分析特征图像进行数据增强操作,得到预处理图像。
在本发明实施例中,主成分分析子模块,包括:
表情图像矩阵获取单元,用于获取脸部图像的表情图像矩阵;
平均值计算单元,用于计算表情图像矩阵的平均值;
协方差矩阵计算单元,用于采用平均值计算脸部图像的协方差矩阵;
特征值和特征向量计算单元,用于计算协方差矩阵的特征值和特征向量;
排序单元,用于对特征值进行排序,得到特征值序列;
特征矩阵生成单元,用于从特征值序列中提取预设数量的特征值对应的特征向量作为目标特征向量,并采用目标特征向量生成特征矩阵;
主成分分析特征图像生成单元,用于求取表情图像矩阵和特征矩阵之间的乘积,得到主成分分析特征图像。
在本发明实施例中,训练模块403,包括:
卷积子模块,用于将预处理图像输入改进卷积视觉模型,对预处理图像进行卷积操作,得到卷积结果;
归一化子模块,用于对卷积结果进行归一化操作,得到归一化图像;
特征图生成子模块,用于将归一化图像输入至若干个深度可分离卷积中,输出与深度可分离卷积一一对应的特征图;
Token生成子模块,用于采用所有特征图生成token,并将token输入MLP模块;
分类子模块,用于通过MLP模块对token进行图像分类,得到分类结果;
损失函数计算子模块,用于基于分类结果和表情标签计算改进卷积视觉模型的损失函数;
迭代训练子模块,用于调整损失函数的参数,当损失函数达到最小值时,将当前的改进卷积视觉模型作为已训练卷积视觉模型。
本发明实施例还提供了一种电子设备,设备包括处理器以及存储器:
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行本发明实施例的微表情识别方法。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行本发明实施例的微表情识别方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种微表情识别方法,其特征在于,包括:
对预设表情数据集进行人脸检测,得到脸部图像,并获取每个所述脸部图像对应的表情标签;所述预设表情数据集包括宏表情数据集和微表情数据集;
对所述脸部图像进行主成分分析和数据增强,得到预处理图像;
采用所述预处理图像和对应的表情标签训练改进卷积视觉模型,得到已训练卷积视觉模型;
获取待识别微表情图像,将所述待识别微表情图像输入所述已训练改进卷积视觉模型,输出所述待识别微表情图像的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述脸部图像进行主成分分析和数据增强,得到预处理图像的步骤,包括:
对所述脸部图像进行主成分分析,得到主成分分析特征图像;
对所述主成分分析特征图像进行数据增强操作,得到预处理图像。
3.根据权利要求2所述的方法,其特征在于,所述对所述脸部图像进行主成分分析,得到主成分分析特征图像的步骤,包括:
获取所述脸部图像的表情图像矩阵;
计算所述表情图像矩阵的平均值;
采用所述平均值计算所述脸部图像的协方差矩阵;
计算所述协方差矩阵的特征值和特征向量;
对所述特征值进行排序,得到特征值序列;
从所述特征值序列中提取预设数量的特征值对应的特征向量作为目标特征向量,并采用所述目标特征向量生成特征矩阵;
求取所述表情图像矩阵和所述特征矩阵之间的乘积,得到主成分分析特征图像。
4.根据权利要求2所述的方法,其特征在于,所述数据增强操作,包括实时数据增强操作和脱机数据增强操作。
5.根据权利要求1所述的方法,其特征在于,所述采用所述预处理图像和对应的表情标签训练改进卷积视觉模型,得到已训练卷积视觉模型的步骤,包括:
将所述预处理图像输入所述改进卷积视觉模型,对所述预处理图像进行卷积操作,得到卷积结果;
对所述卷积结果进行归一化操作,得到归一化图像;
将所述归一化图像输入至若干个深度可分离卷积中,输出与所述深度可分离卷积一一对应的特征图;
采用所有所述特征图生成token,并将所述token输入MLP模块;
通过所述MLP模块对所述token进行图像分类,得到分类结果;
基于所述分类结果和所述表情标签计算所述改进卷积视觉模型的损失函数;
调整所述损失函数的参数,当所述损失函数达到最小值时,将当前的改进卷积视觉模型作为已训练卷积视觉模型。
6.一种微表情识别装置,其特征在于,包括:
人脸检测模块,用于对预设表情数据集进行人脸检测,得到脸部图像,并获取每个所述脸部图像对应的表情标签;所述预设表情数据集包括宏表情数据集和微表情数据集;
预处理图像生成模块,用于对所述脸部图像进行主成分分析和数据增强,得到预处理图像;
训练模块,用于采用所述预处理图像和对应的表情标签训练改进卷积视觉模型,得到已训练卷积视觉模型;
识别模块,用于获取待识别微表情图像,将所述待识别微表情图像输入所述已训练改进卷积视觉模型,输出所述待识别微表情图像的识别结果。
7.根据权利要求6所述的装置,其特征在于,所述预处理图像生成模块,包括:
主成分分析子模块,用于对所述脸部图像进行主成分分析,得到主成分分析特征图像;
数据增强子模块,用于对所述主成分分析特征图像进行数据增强操作,得到预处理图像。
8.根据权利要求7所述的装置,其特征在于,所述主成分分析子模块,包括:
表情图像矩阵获取单元,用于获取所述脸部图像的表情图像矩阵;
平均值计算单元,用于计算所述表情图像矩阵的平均值;
协方差矩阵计算单元,用于采用所述平均值计算所述脸部图像的协方差矩阵;
特征值和特征向量计算单元,用于计算所述协方差矩阵的特征值和特征向量;
排序单元,用于对所述特征值进行排序,得到特征值序列;
特征矩阵生成单元,用于从所述特征值序列中提取预设数量的特征值对应的特征向量作为目标特征向量,并采用所述目标特征向量生成特征矩阵;
主成分分析特征图像生成单元,用于求取所述表情图像矩阵和所述特征矩阵之间的乘积,得到主成分分析特征图像。
9.一种电子设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的微表情识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-5任一项所述的微表情识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210704033.9A CN114973383A (zh) | 2022-06-21 | 2022-06-21 | 一种微表情识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210704033.9A CN114973383A (zh) | 2022-06-21 | 2022-06-21 | 一种微表情识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114973383A true CN114973383A (zh) | 2022-08-30 |
Family
ID=82965772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210704033.9A Pending CN114973383A (zh) | 2022-06-21 | 2022-06-21 | 一种微表情识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114973383A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311483A (zh) * | 2023-05-24 | 2023-06-23 | 山东科技大学 | 基于局部面部区域重构和记忆对比学习的微表情识别方法 |
CN117058405A (zh) * | 2023-07-04 | 2023-11-14 | 首都医科大学附属北京朝阳医院 | 一种基于图像的情绪识别方法、***、存储介质及终端 |
CN117115895A (zh) * | 2023-10-25 | 2023-11-24 | 成都大学 | 一种课堂微表情识别方法、***、设备及介质 |
-
2022
- 2022-06-21 CN CN202210704033.9A patent/CN114973383A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311483A (zh) * | 2023-05-24 | 2023-06-23 | 山东科技大学 | 基于局部面部区域重构和记忆对比学习的微表情识别方法 |
CN117058405A (zh) * | 2023-07-04 | 2023-11-14 | 首都医科大学附属北京朝阳医院 | 一种基于图像的情绪识别方法、***、存储介质及终端 |
CN117058405B (zh) * | 2023-07-04 | 2024-05-17 | 首都医科大学附属北京朝阳医院 | 一种基于图像的情绪识别方法、***、存储介质及终端 |
CN117115895A (zh) * | 2023-10-25 | 2023-11-24 | 成都大学 | 一种课堂微表情识别方法、***、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pitaloka et al. | Enhancing CNN with preprocessing stage in automatic emotion recognition | |
Pons et al. | Supervised committee of convolutional neural networks in automated facial expression analysis | |
Khor et al. | Enriched long-term recurrent convolutional network for facial micro-expression recognition | |
Zhang et al. | Facial expression recognition using facial movement features | |
Yan et al. | Multi-attributes gait identification by convolutional neural networks | |
CN114973383A (zh) | 一种微表情识别方法、装置、电子设备及存储介质 | |
Jung et al. | Deep temporal appearance-geometry network for facial expression recognition | |
Vyas et al. | Survey on face expression recognition using CNN | |
KR101893554B1 (ko) | 멀티 모달 데이터 기반 표정인식방법 및 장치 | |
CN111563417A (zh) | 一种基于金字塔结构卷积神经网络的人脸表情识别方法 | |
CN112800903A (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及*** | |
Jyoti et al. | Expression empowered residen network for facial action unit detection | |
Prabhu et al. | Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism. | |
CN112749671A (zh) | 一种基于视频的人体行为识别方法 | |
CN115359534A (zh) | 基于多特征融合和双流网络的微表情识别方法 | |
Kandeel et al. | Facial expression recognition using a simplified convolutional neural network model | |
Upadhyay et al. | Facial expression recognition: A review | |
Khemakhem et al. | Facial expression recognition using convolution neural network enhancing with pre-processing stages | |
CN116311472A (zh) | 基于多层次图卷积网络的微表情识别方法及装置 | |
CN116030516A (zh) | 基于多任务学习与全局循环卷积的微表情识别方法及装置 | |
Rathee et al. | Adaptive system to learn and recognize emotional state of mind | |
Dudekula et al. | Linear fusion approach to convolutional neural networks for facial emotion recognition | |
Pilarczyk et al. | Human Face Expressions from Images | |
Wang | Facial affect detection using convolutional neural networks | |
Yuvchenko et al. | Human emotion recognition system using deep learning algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |