CN115410254A - 一种基于深度学习的多特征表情识别方法 - Google Patents

一种基于深度学习的多特征表情识别方法 Download PDF

Info

Publication number
CN115410254A
CN115410254A CN202211031481.3A CN202211031481A CN115410254A CN 115410254 A CN115410254 A CN 115410254A CN 202211031481 A CN202211031481 A CN 202211031481A CN 115410254 A CN115410254 A CN 115410254A
Authority
CN
China
Prior art keywords
network
feature
information
output
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211031481.3A
Other languages
English (en)
Inventor
张秀峰
齐国斌
张宁
付兴魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Minzu University filed Critical Dalian Minzu University
Priority to CN202211031481.3A priority Critical patent/CN115410254A/zh
Publication of CN115410254A publication Critical patent/CN115410254A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度学习的多特征表情识别方法,属于机器学习和深度学习技术领域,包括如下:获取包含人体和环境的清晰图像并进行简单的预处理,将图片压缩到640*640大小或小于这个大小的原色RGB图片,保留颜色通道,这里使用的是公开数据集Emotic表情识别数据集;整体网络的构成为目标检测网络并联场景信息识别网络,最后输出到分类网络,而目标检测网络由主干网络CSPdarknet53,特征提取的特征金字塔结构并联特征增强网络,最后输出人体的位置信息和0/1置信度信息,再送入分类网络和场景信息一起进行分类输出最终结果。本发明使用了多尺度的上下文信息提取模块,上下文注意力模块和内容注意力模块,实现了提升图片前景权重的目的,提升了图片中人的检测比重。

Description

一种基于深度学习的多特征表情识别方法
技术领域
本发明属于机器学习和深度学习技术领域,具体涉及一种基于深度学习的多特征表情识别方法。
背景技术
现有的基于深度学习的表情识别只能识别几种基本表情,且判断的依据通常是根据人体面部的明显的表情变化,对照网络学习的特征进行识别,这就造成了网络对于表情识别中单一面部特征的依赖性,同时笼统的归类为基本表情的一种,在医学上的实用性较小。另外存在一种能够结合声音,动作或者患者年龄信息的表情分析方法,也受限于需要过多的人工手动校准和分析,额外的增加了人力和时间成本,且无法实现自动的、实时的、准确的表情分析。
当今社会,人们的生活工作压力极大,心理问题无法得到正视,诸如双向情感障碍、焦虑、神经衰弱等心理或精神问题在年轻群体中愈发严重,并且针对其诊断通常是借助一定的主观印象确定,再配合医疗手段进行干预。在一般的心理咨询治疗中,通过实时的观察患者的面部变化,记录患者的动作,再加以对患者进行语言交互,从而了解患者的心理和精神状态,这其中需要专业医生定期的进行回访复查,过程过于复杂。而目前还没有一种能够用以心理问题诊断的自动诊断方法,尤其是表情识别。表情识别是心理问题诊断的常用手段之一,是人体表现内心情绪的最直观反应。无论是传统的表情识别,还是现有的一些表情识别方法,使用的都是基本的神经网络模型或深度学习模型,在分类上也是用的是Ekman的基本表情分类方法,更多的是对面部明显特征的识别,诸如五官,肌肉动作等,这确实是人体表情表现的主要方式,但深度学习中使用图片和对应标签进行训练的过程,容易丢失很多特征信息,这就导致使用的图像在特征差距上要大,诸如,开心的时候嘴角上扬要明显,面部整体要有明显的开心特征,深度学习模型在前向传播中才能识别这一类的表情,同时得出的是一种基本表情,诸如生气,惊恐这类比较明显的表情,并且笼统的归类为基本表情的一种,在医学上的实用性较小,心理疾病诊断从来不是使用病人明显的表情作为诊断依据,心理疾病患者通常在情绪表达上较为困难,同时表情变化较为难以捉摸,更多的是结合人在实际行动上的变化,和环境对人的影响,甚至是包含人的年龄,性别等生理特征,才能准确判断人的心理状态。
现有的技术方案,对图片要求较高,图片的质量直接影响识别结果,同时现有方案很少能够实现实时的人脸追踪检测,本方案则使用目标检测网络YOLO的变体解决了这个问题,实现了情绪识别的自动化、任意化和实时化。
现有的技术方案中,常见的是使用卷积神经网络或机器学***均值后得到最终结果,以提升识别率,多模态一定程度上改善了传统的识别方法缺陷,但还是无法实现表情的多种分类和实时识别。现有的更多技术方案在论文表情识别技术综述以及Deep FacialExpression Recognition:A Survey论文中,都有详细叙述,其中表情识别技术综述中提到了现有技术的三方面不足:单模态单特征的表情识别中,数据集的不足和混乱,以及多停留在实验室阶段,识别率低错误率高,不能用于日常生活的局限性;从而引出多模态方法,结合了更多的信息辅助表情识别,以提高表情识别的准确率,但依旧无法解决数据集的各方面问题;这时提出的数据集增强方法和网络模型就更有效的帮助了多模态网络的识别效果,诸如收集更多野外环境数据,让模型能够贴合这种数据方法进行识别,或者使用更多的数据增强方法以及使用生成对抗网络产生由网络学习特征组合的更多数据。
本发明是受到现有技术Emotic数据集(文献:Context Based EmotionRecognition Using EMOTIC Dataset)和Places数据集启发(文献:Places:A 10 millionImage Database for Scene Recognition),emotic数据集提出了一种在多模态网络中的表情识别分类方法,提供了基于六种基本表情扩展而来的26种细分表情,这26种表情是在心理学书籍和文献中总结出来的人类能够覆盖的所有表情,同时加入了3种连续的表示程度的量,连续维度的情感分类包含了三方面对情绪的描述:Pleasure(P)衡量一个人的情绪的愉快程度,P值的大小表示这个人的情绪由负面的到积极的,是一种比较直接的情绪状态表示方法;Arousal(A)衡量了一个人当前时刻的平静程度,A值的大小表示了这个人是否是处于焦躁的,或者是激动的,或者是无所事事的,能够表示多种情绪状态,是作为类似多动症、抑郁症等疾病的评判标准的参考值;Dominance(D)表示一个人对表情的控制程度,是否能够快速的对自发性表情变化进行控制,用以判断心理或精神对情绪的影响。Places数据集则提出了一种识别场景的方法,场景的识别对表情识别也有很大帮助,因为人在某种特定场景中,某种表情发生的概率是比较大的,这会提高模型在某一分类的权重,同时为模型缩小了结果的识别范围,提高了整体的识别准确率。
现有技术中存在的缺陷:
1、现有的单模态方法,只关注面部变化,而深度学习网络在学习训练过程中容易损失很多的细节,所以面部特征要非常明显,且不能有过多干扰;
2、现有的多模态方法和单模态方法中,使用的表情分类过于笼统,无法表达表情之间的细微差距,只能大致的分为六种表情,过于简单;
3、数据集的质量、数量都过低过少,在训练中,网络不能很好的获得类间特征和差距;
4、现有的方法不能够实现实时的,任意的表情识别,只能使用完整的实验室环境下的图片;
发明内容
为了解决上述存在的问题,本发明结合了人体的动作特征、环境特征和面部表情多种信息,并针对这些信息划分了26种不同的情绪分类,同时包含3种表示当前人体在情绪状态上气场大小、情绪强弱和兴奋程度等连续分类,使用目标检测模型和注意力模型对人体动作和面部表情进行实时的捕捉和检测,使用场景信息、动作信息和表情信息的判断人的当前情绪,实现了在医学领域能够提供一种辅助诊断的方法。本发明提出:一种基于深度学习的多特征表情识别方法,
本发明的有益效果为:本发明创新的提出了一种多模态的表情识别方法,加入了人体动作姿态和场景信息,对情绪进行多方面的判断,并对表情进行更细化的分类,并加入了连续维度判断情绪强度。
本发明创新的使用了目标检测方法和传统卷积网络结合,实现了表情的实时和连续识别。
本发明使用了改进的目标检测网络,这些改进是基于YOLOv3,融合了多尺度池化方法和YOLOX的解耦检测头,提升了目标检测任务的性能。
本发明使用了多尺度的上下文信息提取模块,上下文注意力模块和内容注意力模块,实现了提升图片前景权重的目的,提升了图片中人的检测比重。
采用基于深度学习的多特征表情识别方法,相比较于传统方法中存在的识别率较差、分类不够细致、识别判据较为简单、数据集不足等问题,本发明改变了了传统面部表情识别的方法,对表情识别加入辅助的姿态动作和场景识别,使其对人脸特征的依赖降低,同时提高了表情识别的准确性。同时使用了更加符合医学分类的表情分类方法,使得表情识别结果更细致,不会笼统的将差距较小的图片分为一类。使用的公开数据集Emotic则是综合了各类目标检测任务数据图片的大型数据集,其中包含了完整的人体动作,面部,环境信息,使得网络训练能够获得更多的类间差距,对细微的人体变化也能够学习到相应的特征。这些优点使得整体框架可以在医学领域辅助诊断,提供了非常高准确率的人体表情变化,同时根据大量的心理学、神经***学、计算机视觉领域的资料,设计了适用于这种情感分析和心理诊断的上下文提取和检测方法,推动了深度学习在心理问题和人体结构进一步研究。
附图说明
图1为本发明人体的清晰图像;
图2为本发明的经过基于深度卷积网络的特征粗处理主干网络处理后输出的三种尺寸的图像特征图,其大小分别为80×80,40×40,20×20;
图3为本发明的基于深度卷积网络的特征粗处理主干网络的结构图;
图4为本发明的基于深度卷积网络的特征提取网络的结构图;
图5为本发明的基于深度空洞卷积和注意力机制的特征增强网络后图像的突出权重的热力图,包含人体面部的特征增强点和身体的姿态特征增强点;
图6为本发明的基于深度空洞卷积和注意力机制的特征增强网络的结构图;
图7为本发明的基于深度卷积网络的多分支输出模块的结构图;
图8为本发明的基于深度卷积网络的场景信息识别网络预训练后的场景信息识别结果状态图;
图9为本发明的特征融合模块对图1中最终识别结果的输出图。
具体实施方式
一种基于深度学习的多特征表情识别方法,如图1-图9所示,包括如下步骤:获取包含人体和环境的清晰图像并进行预处理,将图片压缩到640*640大小或小于这个大小的原色RGB图片,保留颜色通道,使用公开数据集Emotic表情识别数据集;
整体网络的构成为目标检测网络并联场景信息识别网络,最后输出到分类网络,而目标检测网络由主干网络CSPdarknet53,特征提取的特征金字塔结构并联特征增强网络,最后输出人体的位置信息和0/1置信度信息,再送入分类网络和场景信息一起进行分类输出最终结果。
其中,所述主干网络CSPdarknet53是经过改进的,CSPdarknet由多个残差结构组成,保持原生网络的输出不变,在其中的ResBlock_F3,ResBlock_F4,ResBlock_F5的输出之前,加入一个可以对多个尺度信息进行采集的空间金字塔池化,简化网络参数,融合多尺度信息;并在ResBlock_F3,ResBlock_F4,ResBlock_F5输出三张大小分别为80*80,40*40和20*20的特征图,使特征提取网络进行采样整合,实现后续的特征提取过程;
CSPdarknet53属于目标检测模型YOLO的主干网络,针对人体特征提取特性,在保证主干网络整体的参数量不额外增加的情况下,修改了主干网络的损失函数为mish函数,加入了全新的多特征池化分支以增强网络的多尺度感知能力;输入图像为RGB彩色图像,保留了三通道,使用缩放、平移和mosaic作为数据预处理方法;将CSPdarknet53在MS-COCO数据集上的预训练权值作为初始权值,对超参数进行微调;将数据集分为大小不同的三个部分:训练集、测试集和验证集;最终选取损失最小的训练权值作为最终的训练结果。
其中,所述特征提取网络采用了特征金字塔结构,由之前输出的不同大小的特征图进行自下而上的上采样过程,其中包含不同的语义信息和特征信息;在特征提取网络中,由尺寸最大的特征图进行向上采样,同时针对输出信息,使用自上而下的融合方法,所述语义信息传播到低层特征上,使得低层特征也包含丰富的语义信息;使用最邻近插值法,无需计算在待求像素的四个邻近像素中,将距离待求像素最近的邻近像素值赋给待求像素。
其中,所述特征增强网络使用空洞卷积和注意力机制,对人体目标进行多尺度的,高权重的特征提取,保证网络训练过程中能够多注意人体特征,突出人物主体;
采用并行多尺度空洞卷积和正采样结构对特征提取网络中经过通道规整后的特征图进行进一步特征提取;
多个尺度的空洞卷积将最大化的感知图片上不同大小的区域,并联上采样和全连接层后,最大化地保留原有的特征信息;
注意力机制是一种混合注意力机制,并且多个注意力机制的并联将提高深度空洞卷积部分的特征图中人脸的部分权重。
其中,所述特征增强网络是一种模块化的附加网络,安插在主干网络的输出,特征金字塔结构的输出和特征金字塔结构的采样末端,包含一组全连接和上采样的简单输出网络和一组多个可变尺度的空洞卷积层,空洞卷积的大小皆为3×3,扩张率为3到24的可变值,并进行堆叠,扩大特征以学习可变的几何特征建模能力。
其中,所述特征增强模块分为上下文信息提取模块,上下文注意力模块和内容注意力模块,在获得步骤4的特征映射后,利用丰富的上下文信息,将其输入到上下文信息提取模块中,上下文信息提取模块由不同扩张率的多路径空洞卷积组成,分离的卷积层在不同的感受野中获取多个特征映射。
其中,在每个路径中引入了可变形的卷积层,可变形的卷积层确保上下文信息提取模块从给定的数据中学习转换不变的特征。
其中,上下文信息提取模块中采用密集连接合并多尺度信息,其中每个扩张层的输出都与输入的特征映射连接起来,然后送入下一个扩张层;利用密集连接来解决梯度消失的问题,当深度学习模型越来越深时增强特征传播;将空洞卷积组的输出与上采样的输入连接起来,保持初始输入的粗粒度信息,并将它们输入到1×1的卷积层中,以融合粗粒度和细粒度特征;引入基于自注意机制的上下文注意力模块主动捕获子区域之间的语义依赖,与双路注意力的语义分割不同的是,上下文信息提取模块产生的包含多尺度感受野信息的上述特性输入到上下文注意力模块模块中;基于这些信息特征,上下文注意力模块自适应地更加关注相关子区域之间的关系;上下文注意力模块的输出特性将具有清晰的语义,并包含周围对象中的上下文依赖关系,对于给定的特征图像
Figure BDA0003817598890000101
转化为潜在的卷积网络空间Wq和Wk,转换后的特征映射为:
Figure BDA0003817598890000102
Figure BDA0003817598890000103
之后,将Q,K重新变形为
Figure BDA0003817598890000104
这时N=H×W。为了捕捉每个子区域之间的关系,计算一个相关矩阵为:
Figure BDA00038175988900001015
Figure BDA0003817598890000105
同时重新变形为
Figure BDA0003817598890000106
通过sigmoid激活函数和平均池化对R进行归一化后,建立一个注意力矩阵R′,且
Figure BDA0003817598890000107
Figure BDA0003817598890000108
同时,利用卷积层Wv将特征映射F转换为另一种表示V:
Figure BDA0003817598890000109
Figure BDA00038175988900001010
最后对R′和V矩阵进行元素点积,可得到:
Ei=R′⊙Vi (4)
其中Ei为第ith个特征图,通道维度为C;
引入内容注意力模块解决给定图像的几何特性被彻底破坏而导致位置偏移的问题,以保持每个物体的精确位置信息,与上下文注意力模块类似,使用卷积层来转换给定的特征映射,没有使用特征映射F来产生注意力矩阵,而是采用特征映射
Figure BDA00038175988900001011
捕捉每个物体的精确位置,
应用两个卷积层Wp和Wz得到注意力矩阵,将F5分别转化为潜在空间:
Figure BDA00038175988900001012
Figure BDA00038175988900001013
将P和Z的维度重新变形为
Figure BDA00038175988900001014
得到类似于式(2)的相关矩阵:
Figure BDA00038175988900001016
Figure BDA0003817598890000111
在将S重新变形为
Figure BDA0003817598890000112
通过sigmoid激活函数和平均池化对S进行归一化后,建立一个注意力矩阵S′,且
Figure BDA0003817598890000113
结合提取的特征V,对结果进行点积:
Di=S′⊙Vi (7)
Figure BDA0003817598890000114
Di表示第ith个输出的特征图。
其中,在上述网络处理完成后,将输出关于人***置和置信度的信息,基于深度卷积网络的多分支输出模块,包含了最终需要的置信度、坐标信息,这两个分支中,皆使用不同的损失函数;置信度输出了一种二值的绝对置信结果,此分支使用二元交叉熵损失函数;网络输出的坐标是一种回归任务,使用的是预测值和真实值的差值,此分支使用CIoU损失函数表示预测框的偏移量;
场景信息网络和目标检测网络是并联的,其中场景信息网络是使用ResNet34和ResNet50作为主体网络,在场景信息数据集Places365CNN数据集上的预训练权值作为初始权值,对超参数进行微调;将数据集分为大小不同的三个部分:训练集、测试集和验证集;最终选取损失最小的训练权值作为最终的训练结果;这些场景信息有助于分析地点属性和类别,不同的情绪在不同的环境中有着显著差异;
最后的特征融合模块,是三个长度不同的全连接组合而成的,特征融合模块结合两个特征提取模块的特征,对离散的情绪类别和连续的情绪维度进行估计,两个特征提取模块都是一维滤波CNN,每个网络由16个卷积层组成,其中1维核在水平方向和垂直方向之间交替,使用2维核有效地建模了8个层;使用全局平均池化层来减少最后一层卷积的特征;在每个卷积层之后加入一个批处理归一化层和整流线性单元以加快训练速度、避免内协变偏移。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种基于深度学习的多特征表情识别方法,其特征在于,包括如下步骤:获取包含人体和环境的清晰图像并进行预处理,将图片压缩到640*640大小或小于所述大小的原色RGB图片,保留颜色通道,使用公开数据集Emotic表情识别数据集;
整体网络的构成为目标检测网络并联场景信息识别网络,最后输出到分类网络,而目标检测网络由主干网络CSPdarknet53构成主干网络,特征提取的特征金字塔结构并联特征增强网络,最后输出人体的位置信息和0/1置信度信息,再送入分类网络和场景信息一起进行分类输出最终结果。
2.根据权利要求1所述的基于深度学习的多特征表情识别方法,其特征在于,所述主干网络CSPdarknet53由多个残差结构组成,保持原生网络的输出不变,在其中的第三层残差块、第四层残差块和第五层残差块的输出之前,加入一个对多个尺度信息进行采集的空间金字塔池化,空间金字塔池化进行简化网络参数、融合多尺度信息;并在三层残差块、第四层残差块和第五层残差块输出三张大小分别为80*80,40*40和20*20的特征图,使特征提取网络进行采样整合,实现后续的特征提取过程;
CSPdarknet53属于目标检测模型YOLO的主干网络,针对人体特征提取特性,在保证主干网络整体的参数量不额外增加的情况下,修改主干网络的损失函数为mish函数,加入全新的多特征池化分支以增强网络的多尺度感知能力;输入图像为RGB彩色图像,保留了三通道,使用缩放、平移和mosaic作为数据预处理方法;将CSPdarknet53在MS-COCO数据集上的预训练权值作为初始权值,对超参数进行微调;将数据集分为大小不同的三个部分:训练集、测试集和验证集;最终选取损失最小的训练权值作为最终的训练结果。
3.根据权利要求2所述的基于深度学习的多特征表情识别方法,其特征在于,所述特征提取网络采用特征金字塔结构,由之前输出的不同大小的特征图进行自下而上的上采样过程,其中包含不同的语义信息和特征信息;在特征提取网络中,由尺寸最大的特征图进行向上采样,同时针对输出信息,使用自上而下的融合方法,所述语义信息传播到低层特征上,使得低层特征也包含丰富的语义信息;使用最邻近插值法,无需计算在待求像素的四个邻近像素中,将距离待求像素最近的邻近像素值赋给待求像素。
4.根据权利要求1所述的基于深度学习的多特征表情识别方法,其特征在于,所述特征增强网络使用空洞卷积和注意力机制,对人体目标进行多尺度的,高权重的特征提取,保证网络训练过程中能够多注意人体特征,突出人物主体;
采用并行多尺度空洞卷积和正采样结构对特征提取网络中经过通道规整后的特征图进行进一步特征提取;
多个尺度的空洞卷积将最大化的感知图片上不同大小的区域,并联上采样和全连接层后,最大化地保留原有的特征信息。
5.根据权利要求4所述的基于深度学习的多特征表情识别方法,其特征在于,所述特征增强网络是一种模块化的附加网络,安插在主干网络的输出,特征金字塔结构的输出和特征金字塔结构的采样末端,包含一组全连接和上采样的简单输出网络和一组多个可变尺度的空洞卷积层,空洞卷积的大小皆为3×3,扩张率为3到24的可变值,并进行堆叠,扩大特征以学习可变的几何特征建模能力。
6.根据权利要求5所述的基于深度学习的多特征表情识别方法,其特征在于,所述特征增强模块分为上下文信息提取模块,上下文注意力模块和内容注意力模块,在获得特征金字塔提取的特征映射后,利用丰富的上下文信息,将其输入到上下文信息提取模块中,上下文信息提取模块由不同扩张率的多路径空洞卷积组成,分离的卷积层在不同的感受野中获取多个特征映射。
7.根据权利要求6所述的基于深度学习的多特征表情识别方法,其特征在于,在每个路径中引入可变形的卷积层,可变形的卷积层确保上下文信息提取模块从给定的数据中学习转换不变的特征。
8.根据权利要求7所述的基于深度学习的多特征表情识别方法,其特征在于,上下文信息提取模块中采用密集连接合并多尺度信息,其中每个扩张层的输出都与输入的特征映射连接起来,然后送入下一个扩张层;利用密集连接来解决梯度消失的问题,当深度学习模型越来越深时增强特征传播;将空洞卷积组的输出与上采样的输入连接起来,保持初始输入的粗粒度信息,并将它们输入到1×1的卷积层中,以融合粗粒度和细粒度特征;引入基于自注意机制的上下文注意力模块主动捕获子区域之间的语义依赖,与双路注意力的语义分割不同的是,上下文信息提取模块产生的包含多尺度感受野信息的上述特性输入到上下文注意力模块模块中;基于这些信息特征,上下文注意力模块自适应地更加关注相关子区域之间的关系;上下文注意力模块的输出特性将具有清晰的语义,并包含周围对象中的上下文依赖关系,对于给定的特征图像
Figure FDA0003817598880000031
转化为潜在的卷积网络空间Wq和Wk,转换后的特征映射为:
Figure FDA0003817598880000032
Figure FDA0003817598880000033
Figure FDA0003817598880000034
之后,将Q,K重新变形为
Figure FDA0003817598880000035
这时N=H×W;为了捕捉每个子区域之间的关系,计算一个相关矩阵为:
Figure FDA0003817598880000038
Figure FDA0003817598880000036
同时重新变形为
Figure FDA0003817598880000037
通过sigmoid激活函数和平均池化对R进行归一化后,建立一个注意力矩阵R′,且
Figure FDA0003817598880000041
同时,利用卷积层Wv将特征映射F转换为另一种表示V:
Figure FDA0003817598880000042
Figure FDA0003817598880000043
最后对R′和V矩阵进行元素点积,可得到:
Ei=R′⊙Vi (4)
其中Ei为第ith个特征图,通道维度为C;
引入内容注意力模块解决给定图像的几何特性被彻底破坏而导致位置偏移的问题,以保持每个物体的精确位置信息,与上下文注意力模块类似,使用卷积层来转换给定的特征映射,没有使用特征映射F来产生注意力矩阵,而是采用特征映射
Figure FDA0003817598880000044
捕捉每个物体的精确位置,
应用两个卷积层Wp和Wz得到注意力矩阵,将F5分别转化为潜在空间:
Figure FDA0003817598880000045
Figure FDA0003817598880000046
Figure FDA0003817598880000047
将P和Z的维度重新变形为
Figure FDA0003817598880000048
得到类似于式(2)的相关矩阵:
Figure FDA00038175988800000413
Figure FDA0003817598880000049
在将S重新变形为
Figure FDA00038175988800000410
通过sigmoid激活函数和平均池化对S进行归一化后,建立一个注意力矩阵S′,且
Figure FDA00038175988800000411
结合提取的特征V,对结果进行点积:
Di=S′⊙Vi (7)
Figure FDA00038175988800000412
Di表示第ith个输出的特征图。
9.根据权利要求8所述的基于深度学习的多特征表情识别方法,其特征在于,在上述网络处理完成后,将输出关于人***置和置信度的信息,基于深度卷积网络的多分支输出模块,包含最终需要的置信度、坐标信息,这两个分支中皆使用不同的损失函数;置信度输出一种二值的绝对置信结果,置信度分支使用二元交叉熵损失函数;网络输出的坐标是一种回归任务,使用的是预测值和真实值的差值,坐标信息分支使用CIoU损失函数表示预测框的偏移量;
场景信息网络和目标检测网络并联,其中场景信息网络使用ResNet34和ResNet50作为主体网络,在场景信息数据集Places 365CNN数据集上的预训练权值作为初始权值,对超参数进行微调;将数据集分为大小不同的三个部分:训练集、测试集和验证集;最终选取损失最小的训练权值作为最终的训练结果;
最后的特征融合模块,是三个长度不同的全连接组合而成的,特征融合模块结合两个特征提取模块的特征,对离散的情绪类别和连续的情绪维度进行估计,两个特征提取模块都是一维滤波CNN,每个网络由16个卷积层组成,其中1维核在水平方向和垂直方向之间交替,使用2维核有效地建模了8个层;使用全局平均池化层来减少最后一层卷积的特征;在每个卷积层之后加入一个批处理归一化层和整流线性单元以加快训练速度、避免内协变偏移。
CN202211031481.3A 2022-08-26 2022-08-26 一种基于深度学习的多特征表情识别方法 Pending CN115410254A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211031481.3A CN115410254A (zh) 2022-08-26 2022-08-26 一种基于深度学习的多特征表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211031481.3A CN115410254A (zh) 2022-08-26 2022-08-26 一种基于深度学习的多特征表情识别方法

Publications (1)

Publication Number Publication Date
CN115410254A true CN115410254A (zh) 2022-11-29

Family

ID=84160857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211031481.3A Pending CN115410254A (zh) 2022-08-26 2022-08-26 一种基于深度学习的多特征表情识别方法

Country Status (1)

Country Link
CN (1) CN115410254A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195891A (zh) * 2023-11-07 2023-12-08 成都航空职业技术学院 一种基于数据分析的工程施工材料供应链管理***
CN117593593A (zh) * 2024-01-18 2024-02-23 湖北工业大学 一种情感增益下多尺度语义融合的图像情感分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195891A (zh) * 2023-11-07 2023-12-08 成都航空职业技术学院 一种基于数据分析的工程施工材料供应链管理***
CN117195891B (zh) * 2023-11-07 2024-01-23 成都航空职业技术学院 一种基于数据分析的工程施工材料供应链管理***
CN117593593A (zh) * 2024-01-18 2024-02-23 湖北工业大学 一种情感增益下多尺度语义融合的图像情感分类方法
CN117593593B (zh) * 2024-01-18 2024-04-09 湖北工业大学 一种情感增益下多尺度语义融合的图像情感分类方法

Similar Documents

Publication Publication Date Title
Canal et al. A survey on facial emotion recognition techniques: A state-of-the-art literature review
Sun et al. A visual attention based ROI detection method for facial expression recognition
CN111797683A (zh) 一种基于深度残差注意力网络的视频表情识别方法
Arumugam Emotion classification using facial expression
CN115410254A (zh) 一种基于深度学习的多特征表情识别方法
CN111523462A (zh) 基于自注意增强cnn的视频序列表情识别***及方法
Hazourli et al. Multi-facial patches aggregation network for facial expression recognition and facial regions contributions to emotion display
CN116129141B (zh) 医学数据处理方法、装置、设备、介质和计算机程序产品
CN114201592A (zh) 面向医学图像诊断的视觉问答方法
Yang et al. Data augmentation for depression detection using skeleton-based gait information
CN117935339A (zh) 一种基于多模态融合的微表情识别方法
Wang et al. Temporal augmented contrastive learning for micro-expression recognition
Xie et al. Convolutional neural networks for facial expression recognition with few training samples
WO2021213012A1 (zh) 体重检测方法、人体特征参数检测方法及装置
Guo et al. Facial expression recognition: a review
Zhang et al. Biometric recognition
CN110555401B (zh) 一种基于表情识别的自适应情感表达***及方法
Liang et al. A spatiotemporal network using a local spatial difference stack block for facial micro-expression recognition
Nidhi et al. From methods to datasets: a detailed study on facial emotion recognition
Abhulimen et al. Facial age estimation using deep learning: A review
CN109214286A (zh) 基于深度神经网络多层特征融合的人脸识别方法
Karra et al. An extensive study of facial expression recognition using artificial intelligence techniques with different datasets
Malini et al. Automated Liar Recognition from Facial Expression Using Hybrid Feedforward Deep Neural Network And Convolutional Neural Network
Espinel et al. On the use of convolutional neural network architectures for facial emotion recognition
Xie et al. Facial expression recognition based on multi branch structure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination