CN112800903A - 一种基于时空图卷积神经网络的动态表情识别方法及*** - Google Patents

一种基于时空图卷积神经网络的动态表情识别方法及*** Download PDF

Info

Publication number
CN112800903A
CN112800903A CN202110067161.2A CN202110067161A CN112800903A CN 112800903 A CN112800903 A CN 112800903A CN 202110067161 A CN202110067161 A CN 202110067161A CN 112800903 A CN112800903 A CN 112800903A
Authority
CN
China
Prior art keywords
space
key points
time
expression
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110067161.2A
Other languages
English (en)
Other versions
CN112800903B (zh
Inventor
卢官明
缪远俊
卢峻禾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110067161.2A priority Critical patent/CN112800903B/zh
Publication of CN112800903A publication Critical patent/CN112800903A/zh
Application granted granted Critical
Publication of CN112800903B publication Critical patent/CN112800903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空图卷积神经网络的动态表情识别方法及***。该方法首先对动态表情序列中每帧图像进行人脸关键点检测,得到关键点的归一化坐标和编号;提取关键点的局部纹理特征向量,并与其归一化坐标进行拼接,组合成关键点的局部融合特征向量;然后连接同帧间的关键点形成空域边,连接相邻帧相同编号的关键点形成时域边,利用这些边和关键点构成一种时空拓扑图;接着,构建一种时空图卷积神经网络,用生成的时空拓扑图对其进行训练;最后将基于新的表情序列生成的时空拓扑图作为输入,利用训练好的网络模型进行表情识别。该方法利用了人脸关键点的位置信息,可以克服光照、肤色、姿态变化的影响,提升表情识别的准确率和鲁棒性。

Description

一种基于时空图卷积神经网络的动态表情识别方法及***
技术领域
本发明涉及一种基于时空图卷积神经网络的动态表情识别方法及***,属于图像处理与模式识别领域。
背景技术
随着计算机在人们的日常生活中变得越来越重要,人机交互也将成为科技发展的必然趋势。为了提高人机交互体验,计算机需要具有识别人类情感的能力。而早在1986年,心理学家Mehrabian的科学研究就表明,在日常生活中,人脸表情是情感传递中的重要载体,可以传递最为丰富的信息,超过通过语言和声音所传递信息量的总和。因此表情识别是人机交互中必不可少的一环,通过提取人类表情信息来判断人类的情感状态,从而满足人类的情感需求。
随着人脸表情识别技术的不断丰富,人脸表情识别已成为计算机视觉和模式识别领域中的研究热点。针对于如何有效地提取动态表情序列的时间和空间信息问题,目前的主流方法大多采用卷积神经网络(CNN)提取每帧图像表情的空间信息,再利用长短期记忆网络(LSTM)提取动态表情序列的时间信息;或者直接利用三维卷积神经网络(3D-CNN)在空间维度和时间维度对输入序列同时进行卷积,提取的特征不仅包含图像内的信息,也包含图像间的信息。这些方法通常使用原始图像作为输入,通过监督训练学习与表情识别任务相关的特征。然而原始图像富含了太多的与表情识别无关的干扰信息,比如年龄、性别、光照等信息,从原始图像到最终用于表情分类的低维特征向量,相当于有监督的挖掘有用信息的降维过程,而这一过程往往比较复杂,需要训练大量的参数。而由人脸关键点构成的面部轮廓,相对整张图像而言是一种更高层次的表达,而且不同的个体在不同表情状态下面部轮廓的变化有着相同的特征模式,因此利用人脸关键点训练后的模型对肤色、光照、姿态的变化具有一定的鲁棒性,此外关键点的数量明显少于整张图像的像素数量,能够得到更为简单的模型。
随着近年来的发展,图卷积神经网络已经可以很好的处理具有图结构的数据,比如社交网络关系、通信网络、分子结构等,它可以将这些数据映射到低维向量上,而这些数据是传统卷积神经网络(CNN)无法处理的,所以可以利用图卷积神经网络处理基于人脸关键点生成的时空拓扑图,学习更高层次的特征,实现动态表情的分类。
中国专利申请“一种基于图卷积神经网络的人脸表情识别方法”(专利申请号201910091261.1,公开号CN110008819 A)将人脸表情灰度图中的每个像素点作为图的节点,按照一定的规则构建拓扑图,然后输入到构建的图卷积神经网络模型中,得到表情的分类结果。该方法使用图像中的每个像素点构建的拓扑图过于复杂,不利于相距较远的节点间进行信息的融合;此外该方法只适用于图像,无法应用于视频序列,实现动态表情序列的分类。
中国专利申请“一种基于人脸特征点数据增强的动态表情识别方法”(专利申请号202010776415.3,公开号CN111931630 A)通过将动态表情序列的初始帧、峰值帧以及根据人脸关键点构建的轨迹图分别输入到卷积神经网络中,得到人脸动态表情的识别结果。该方法问题在于轨迹图是根据人脸的关键点手工设计的特征,特征提取过程较为繁琐,且复杂度较高,影响了该模型的实时性。
发明内容
发明目的:针对现有的表情识别方法无法有效利用人脸关键点信息的缺点,本发明提出了一种基于时空图卷积神经网络的动态表情识别方法及***,可以充分利用人脸关键点的位置信息,能够克服光照、肤色、姿态变化的影响,从而有效提升动态表情识别的准确率和鲁棒性。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
一种基于时空图卷积神经网络的动态表情识别方法,包括以下步骤:
(1)对动态表情数据集中的每一个表情序列进行预处理,得到等长的表情序列;
(2)对预处理后的表情序列中每帧图像进行人脸关键点检测,得到每个关键点的位置坐标及编号,并对关键点的坐标进行归一化;
(3)提取表情序列中每个关键点的局部纹理特征向量,并与该关键点的归一化坐标进行拼接,得到关键点的局部融合特征向量;
(4)连接表情序列同帧间的关键点形成空域边,连接相邻帧相同编号的关键点形成时域边,形成时空拓扑图的边集,将表情序列的关键点集合作为时空拓扑图的节点集,构建时空拓扑图;
(5)构建时空图卷积神经网络,该网络包含多个顺序连接的时空图卷积块,一个全局平均池化层,两个全连接层以及一个分类层;所述时空图卷积块中的空间图卷积在实现空域上相邻节点特征融合的基础上,首先计算节点间的相似度,得到相似度矩阵,然后将该矩阵与输入特征相乘,实现空域上相似节点特征的融合;
(6)利用构建的时空拓扑图和对应的表情类别对时空图卷积神经网络进行训练,得到训练好的时空图卷积神经网络模型;
(7)将基于新的表情序列生成的时空拓扑图作为输入,利用训练好的网络模型进行识别,输出最终的分类结果。
进一步地,所述步骤(1)中的预处理包括以下子步骤:
(1.1)将每个表情序列截取成长度为S的帧序列,对于多于S帧的序列,截取序列的最后S帧,对于少于S帧的序列,利用序列的最后一帧扩充至S帧;其中S为设定的表情序列的帧长;
(1.2)对序列中每一帧图像的尺寸进行归一化处理,使每一帧图像的大小都为m×n像素;其中m、n为设定的图像宽度和高度。
进一步地,所述步骤(2)中的对关键点的坐标进行归一化包括以下子步骤:
(2.1)对预处理后的表情序列中每帧图像进行人脸关键点检测,得到关键点的集合为V={vt,i|1≤t≤S,1≤i≤N},其中vt,i=(xt,i,yt,i)表示第t帧图像中编号为i的关键点坐标,S表示表情序列的帧长,N表示每帧图像中关键点的个数,这些关键点分布在嘴巴、眼睛、眉毛和鼻子部位;
(2.2)将所有关键点的坐标减去第一帧中鼻尖关键点的坐标,得到坐标归一化后的关键点集合V′={v′t,i|1≤t≤S,1≤i≤N}。
进一步地,所述步骤(3)中的局部融合特征向量具体实现步骤如下:
记从第t帧中编号为i的关键点提取的局部纹理特征向量为lt,i,将该特征向量与该关键点的归一化坐标v′t,i进行拼接,得到关键点的局部融合特征向量mt,i={v′t,i,lt,i),通过对动态表情序列中所有关键点进行相同的操作,得到的关键点集合为M={mt,i|1≤t≤S,1≤i≤N}。
进一步地,所述步骤(4)中连接表情序列同帧间的关键点形成空域边的方法为:首先对分布在嘴巴、眼睛、眉毛和鼻子部位处的关键点按照人脸的几何结构进行连接,形成各部位子图的边;然后为了便于信息在各部位子图间的流通,对各子图进行相互连接,形成各子图间的边。
进一步地,所述步骤(5)中时空图卷积块具体计算步骤如下:
(5.1)对输入的特征图进行维度变换:
f=g(fin)
fin为输入特征图,维度为Cin×T×N,其中Cin代表着节点特征的通道数,T代表着特征图的时间维度,N代表着空域的节点数;g(·)表示维度变换函数,通过g(·)将输入特征图fin的维度变换为N×CinT;
(5.2)计算归一化相似度矩阵B={bi,j|1≤i,j≤N},bi,j代表节点i和j的相似程度,通过采用相似性度量的方式为时空拓扑图生成新的边:
Figure BDA0002904586790000041
其中fi表示f矩阵的第i行向量,内部的|·|表示绝对值运算,外部的|·|代表模运算;
(5.3)构建空间图卷积,具体表示为:
Figure BDA0002904586790000042
其中
Figure BDA0002904586790000043
A={ai,j|1≤i,j≤N},维度为N×N,其中ai,j=0代表关键点i和j不相连,ai,j=1代表两关键点相连,并且ai,i=1;Λ是对角阵,对角线元素Λi=∑jai,j;fin为空间图卷积的输入特征图与步骤(5.1)的输入相同,h(·)和u(·)都表示维度变换函数,h(·)将输入特征图的维度变换为CinT×N,而u(·)将计算结果的维度变换为Cin×T×N;W为1×1的卷积核,用来将节点特征的通道数变换为Cout,fout为空间图卷积的输出,输出维度为Cout×T×N;
(5.4)将步骤(5.3)的输出结果依次通过归一化层BN和ReLu激活函数层;
(5.5)构建残差连接,将步骤(5.4)的输出特征图和步骤(5.1)的输入特征图fin进行残差连接;
(5.6)构建时域卷积层,步骤(5.5)的输出特征图维度为Cout×T×N,时域卷积核的大小设为[m×1],则每次完成1个节点,m个关键帧的卷积,m在2,3,4数值中选取;步长为s,则每次移动s帧,完成1个关键点后进行下一个关键点的卷积,通过padding操作,时域卷积的输出特征图维度为Cout×(T/s)×N;
(5.7)将步骤(5.6)的输出结果依次通过归一化层BN和ReLu激活函数层。
基于相同的发明构思,本发明公开的一种基于时空图卷积神经网络的动态表情识别***,包括:
预处理模块,用于对动态表情数据集中的每一个表情序列进行预处理,得到等长的表情序列;
关键点检测模块,用于对预处理后的表情序列中每帧图像进行人脸关键点检测,得到每个关键点的位置坐标及编号,并对关键点的坐标进行归一化;
关键点特征融合模块,用于提取表情序列中每个关键点的局部纹理特征向量,并与该关键点的归一化坐标进行拼接,得到关键点的局部融合特征向量;
时空拓扑图构建模块,用于连接表情序列同帧间的关键点形成空域边,连接相邻帧相同编号的关键点形成时域边,形成时空拓扑图的边集,将表情序列的关键点集合作为时空拓扑图的节点集,构建时空拓扑图;
时空图卷积神经网络模块,该时空图卷积神经网络包含多个顺序连接的时空图卷积块,一个全局平均池化层,两个全连接层以及一个分类层;所述时空图卷积块中的空间图卷积在实现空域上相邻节点特征融合的基础上,首先计算节点间的相似度,得到相似度矩阵,然后将该矩阵与输入特征相乘,实现空域上相似节点特征的融合;
网络训练模块,用于利用构建的时空拓扑图和对应的表情类别对时空图卷积神经网络进行训练,得到训练好的时空图卷积神经网络模型;
以及,表情识别模块,用于将基于新的表情序列生成的时空拓扑图作为输入,利用训练好的网络模型进行识别,输出最终的分类结果。
基于相同的发明构思,本发明公开的一种基于时空图卷积神经网络的动态表情识别***,包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于时空图卷积神经网络的动态表情识别方法。
有益效果:与现有技术相比,本发明具有以下技术效果:
(1)本发明采用时空图卷积神经网络提取面部关键点的时域和空域特征,将特征提取从静态图像拓展到图像序列,通过训练网络自适应地调整参数,可以自主提取能够反映时间信息的动态特征,提取到的特征可以更好地表征面部表情的动态变化;通过此方法能够有效识别出高兴、伤心、生气等表情,为开发智能化人机交互等***提供一种新的途径。
(2)本发明通过采用相似性度量的方式可以为时空拓扑图生成新的边,能有效弥补人工设计时空拓扑图的不足;通过此方法可以使每个节点不仅能融合其相邻节点的信息,还能融合其相似节点的信息,可以提高模型的灵活性和适用性。
(3)本发明首先根据动态表情序列生成时空拓扑图,然后利用训练好的时空图卷积神经网络模型进行识别;由人脸关键点构成的时空拓扑图,相对于整个动态表情序列而言是一种更高层次的表达,因为序列中的每帧图像富含了太多的与表情识别无关的干扰信息,比如年龄、性别、光照等信息,因此该网络模型对肤色、光照的变化具有一定的鲁棒性。
(4)本发明通过将每个关键点的局部纹理特征向量与坐标信息进行融合,增强了关键点特征的表达能力,因为完全基于坐标的关键点特征只考虑了关键点的运动信息,所以通过此方法可以提高动态表情分类的准确率。
(5)人脸关键点的数量远远低于整张图像像素点的数量,所以本发明通过将网络模型的输入由整个动态表情序列转换为人脸关键点构成的时空拓扑图,大大降低了模型的复杂度,提高了模型的实时性。
(6)本发明利用关键点检测算法可以准确的标注偏转一定角度的面部的关键点,构建时空拓扑图,从而实现动态表情的识别,所以该方法对姿态的变化具有一定的鲁棒性。
附图说明
图1是本发明实施例的方法总体流程图。
图2是本发明实施例构建的空间拓扑图。图3是本发明实施例构建的网络模型结构图。
图4是本发明实施例中使用的CK+表情数据集部分序列图像截图。
具体实施方式
下面结合附图和具体实施例,对本发明的技术方案做进一步说明。
如图1所示,本发明实施例公开的一种基于时空图卷积神经网络的动态表情识别方法,具体包含以下步骤:
步骤(1)对动态表情数据集中的每一个表情序列进行预处理,使得每个表情序列样本均能用一个等长的序列表示,从而得到预处理后的表情序列。具体包括如下子步骤:
(1.1)将每个表情序列截取成长度为S的帧序列,对于多于S帧的序列,截取序列的最后S帧,对于少于S帧的序列,利用序列的最后一帧扩充至S帧;其中S为设定的表情序列的帧长;
(1.2)对序列中每一帧图像的尺寸进行归一化处理,使每一帧图像的大小都为m×n像素;其中m、n为设定的图像宽度和高度。
本实施例中使用CK+动态表情数据集,数据集中的部分样本如图4所示,该数据集的表情类别为愤怒、厌恶、恐惧、高兴、悲伤、惊讶以及中性;在实际中,也可以采用其他的视频数据集,或自行采用摄像机采集面部表***,建立包含情感类别标签的表***库。对数据集中的表情序列进行预处理,将每个表情序列截取成长度为16的帧序列,对于多于16帧的序列,截取序列最后的16帧,对于少于16帧的序列,利用序列的最后一帧扩充至16帧;同时对序列中每一帧图像的尺寸进行归一化处理,使每一帧图像的大小都为64×64像素。
步骤(2)对预处理后的表情序列中的每帧图像进行人脸关键点检测,返回每个关键点的位置坐标及编号,并对关键点序列的坐标进行归一化,包含以下子步骤:
(2.1)对预处理后的表情序列中每帧图像进行人脸关键点检测,得到关键点的集合为V={vt,i|1≤t≤S,1≤i≤N},其中vt,i=(xt,i,yt,i)表示第t帧图像中编号为i的关键点坐标,S表示表情序列的帧长,N表示每帧图像中关键点的个数,这些关键点分布在嘴巴、眼睛、眉毛和鼻子部位;
(2.2)将所有关键点的坐标减去第一帧中鼻尖关键点的坐标,得到坐标归一化后的关键点集合V′={v′t,i|1≤t≤S,1≤i≤N}。
本实施例中采用Dlib开源工具包对每帧图像进行关键点检测,返回鼻尖、嘴角、眼角等68个关键点的坐标和编号;为了减少复杂度,删除编号为1-17的关键点,并对剩下的51个关键点按原有顺序重新编号。
设第t帧图像通过人脸关键点检测得到的51个关键点集合为Vt={vt,i|1≤i≤51},将所有关键点的坐标减去第一帧中编号为14的关键点坐标;通过对每帧图像进行相同操作,得到坐标归一化后的关键点集合V′=v′t,i|1≤t≤16,1≤i≤51={vt,i-v1,14|1≤t≤16,1≤i≤51}。
步骤(3)提取表情序列中每个关键点的局部纹理特征向量,并与该关键点的归一化坐标进行拼接,得到关键点的局部融合特征向量。具体地,记从第t帧中编号为i的关键点提取的局部纹理特征向量为lt,i,将该特征向量与该关键点的归一化坐标v′t,i进行拼接,得到关键点的局部融合特征向量mt,i={v′t,i,lt,i),通过对动态表情序列中所有关键点进行相同的操作,得到的关键点集合为M={mt,i|1≤t≤S,1≤i≤N}。本实施例中采用半径为1内含8个采样点的旋转不变LBP算子计算每个关键点的最小LBP值作为关键点的局部纹理特征向量。
步骤(4)根据表情序列的关键点构建一种时空拓扑图,包含以下子步骤:
(4.1)通过连接同帧间的关键点形成空域边,首先对分布在眉毛、眼睛、鼻子、嘴巴处的关键点按照人脸的几何结构进行连接,形成各器官子图的边;然后为了便于信息在各器官子图间的流通,对各子图进行相互连接,形成各器官子图间的边,如图2所示;通过连接相邻帧相同编号的关键点形成时域边,这些边形成了时空拓扑图的边集E;
(4.2)动态表情序列的关键点集合M={mt,i|1≤t≤16,1≤i≤51}作为时空拓扑图的节点集;
(4.3)利用边集E和节点集M构成一种时空拓扑图Q=(M,E)。
步骤(5)构建一种时空图卷积神经网络,该网络包含k个顺序连接的时空图卷积块,k在6、8、10数值中选取,一个全局平均池化层,两个全连接层以及一个分类层;所述时空图卷积块中的空间图卷积在实现空域上相邻节点特征融合的基础上,首先计算节点间的相似度,得到相似度矩阵,然后将该矩阵与输入特征相乘,实现空域上相似节点特征的融合。
本实施例中构建的时空图卷积神经网络包含顺序连接的六个时空图卷积块,一个全局平均池化层,两个全连接层以及一个softmax分类层。其中时空图卷积块,具体如下:
时空拓扑图的空域边是按照面部的天然结构人为设计的,在整个网络中无法生成新的边;比如在笑的过程中,面部的左嘴角关键点与右嘴角关键点会发生相似的形变,此时这两个关键点的特征会有较高的相似度,如果此时在这两个关键点间构建一条边,会有利于关键点信息的融合;所以可以通过采用相似性度量的方式为时空拓扑图生成新的边,提高模型的灵活性;时空图卷积块的计算步骤如下:
(5.1)对输入的特征图进行维度变换:
f=g(fin)
fin为输入特征图,维度为Cin×T×N,其中Cin代表着节点特征的通道数,T代表着特征图的时间维度,N代表着空域的节点数;g(·)表示维度变换函数,通过g(·)可以将输入特征图fin的维度变换为N×CinT;
(5.2)计算归一化相似度矩阵B={bi,j|1≤i,j≤51},bi,j代表着节点i和j的相似程度:
Figure BDA0002904586790000091
其中fi表示f矩阵的第i行向量,内部的|·|表示绝对值运算,外部的|·|代表模运算,因为所有的关键点都是利用第一帧中鼻尖关键点进行归一化,所以通过绝对值操作,可以使人脸关于鼻尖竖直对称的关键点有着相近的位置坐标,使得这两个关键点有着更高的相似度;
(5.3)构建空间图卷积,具体表示为:
Figure BDA0002904586790000092
其中
Figure BDA0002904586790000093
A={ai,j|1≤i,j≤51},维度为51×51,其中ai,j=0代表着关键点i和j不相连,ai,j=1代表两关键点相连,ai,i=1;Λ是对角阵,对角线元素Λi=∑jai,j;fin为空间图卷积的输入特征图与步骤(5.1)的输入相同,h(·)和u(·)都表示维度变换函数,h(·)将输入特征图的维度变换为CinT×51,而u(·)将计算结果的维度变换为Cin×T×51;W为1×1的卷积核,用来将节点特征的通道数变换为Cout,fout为空间图卷积的输出,输出维度为Cout×T×51;
(5.4)将步骤(5.3)的输出结果依次通过归一化层(BN)和ReLu激活函数层;
(5.5)构建残差连接,步骤(5.4)的输出特征图的维度为Cout×T×51,而步骤(5.1)输入特征图fin维度为Cin×T×51,当Cin=Cout时,将两特征图直接相加fin+fout,当Cin≠Cout时,需要对输入特征图fin的通道数转换为Cout,再执行相加操作;
(5.6)构建时域卷积层,上述卷积操作只能融合节点在空域上相邻和相似节点的信息,无法融合时域上相邻节点的信息;
类比于图像卷积,在时域卷积中,卷积核的大小为[m×1],则每次完成1个节点,m个关键帧的卷积,步长为s,则每次移动s帧,完成1个关节点后进行下一个关节点的卷积,通过padding操作,时域卷积的输出特征图维度为Cout×(T/s)×51;
(5.7)将步骤(5.6)的输出结果依次通过归一化层(BN)和ReLu激活函数层。
本实施例中的时空图卷积神经网络如图3所示,各层具体信息如下:
时空图卷积块C1的输入通道数量为3、输出通道数量为32、步长为1;
时空图卷积块C2的输入通道数量为32、输出通道数量为32、步长为1;
时空图卷积块C3的输入通道数量为32、输出通道数量为64、步长为2;
时空图卷积块C4的输入通道数量为64、输出通道数量为64、步长为1;
时空图卷积块C5的输入通道数量为64、输出通道的数量为128、步长为2;
时空图卷积块C6的输入通道数量为128、输出通道数量为128、步长为1;
全局平均池化层:经过6个时空卷积块后的输出特征维度为128×4×51,对所有节点做平均运算,得到128维的向量;
全连接层:第一个全连接层的输入为128维,输出为64维,第二个全连接层的输入为64维,输出为7维。
步骤(6)利用构建的时空拓扑图和对应的表情类别对时空图卷积神经网络进行训练,得到训练好的时空图卷积神经网络模型。训练时采用Adam方法作为优化策略,选择交叉熵作为梯度反向传播的损失函数。
步骤(7)将基于新的表情序列生成的时空拓扑图作为输入,利用训练好的网络模型进行识别,输出最终的分类结果。
基于相同的发明构思,本发明实施例公开的一种基于时空图卷积神经网络的动态表情识别***,包括:
预处理模块,用于对动态表情数据集中的每一个表情序列进行预处理,得到等长的表情序列;
关键点检测模块,用于对预处理后的表情序列中每帧图像进行人脸关键点检测,得到每个关键点的位置坐标及编号,并对关键点的坐标进行归一化;
关键点特征融合模块,用于提取表情序列中每个关键点的局部纹理特征向量,并与该关键点的归一化坐标进行拼接,得到关键点的局部融合特征向量;
时空拓扑图构建模块,用于连接表情序列同帧间的关键点形成空域边,连接相邻帧相同编号的关键点形成时域边,形成时空拓扑图的边集,将表情序列的关键点集合作为时空拓扑图的节点集,构建时空拓扑图;
时空图卷积神经网络模块,该时空图卷积神经网络包含多个顺序连接的时空图卷积块,一个全局平均池化层,两个全连接层以及一个分类层;所述时空图卷积块中的空间图卷积在实现空域上相邻节点特征融合的基础上,首先计算节点间的相似度,得到相似度矩阵,然后将该矩阵与输入特征相乘,实现空域上相似节点特征的融合;
网络训练模块,用于利用构建的时空拓扑图和对应的表情类别对时空图卷积神经网络进行训练,得到训练好的时空图卷积神经网络模型;
以及,表情识别模块,用于将基于新的表情序列生成的时空拓扑图作为输入,利用训练好的网络模型进行识别,输出最终的分类结果。
基于相同的发明构思,本发明公开的一种基于时空图卷积神经网络的动态表情识别***,包括至少一台计算设备,该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述实施例的基于时空图卷积神经网络的动态表情识别方法。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种基于时空图卷积神经网络的动态表情识别方法,其特征在于,该方法包括以下步骤:
(1)对动态表情数据集中的每一个表情序列进行预处理,得到等长的表情序列;
(2)对预处理后的表情序列中每帧图像进行人脸关键点检测,得到每个关键点的位置坐标及编号,并对关键点的坐标进行归一化;
(3)提取表情序列中每个关键点的局部纹理特征向量,并与该关键点的归一化坐标进行拼接,得到关键点的局部融合特征向量;
(4)连接表情序列同帧间的关键点形成空域边,连接相邻帧相同编号的关键点形成时域边,形成时空拓扑图的边集,将表情序列的关键点集合作为时空拓扑图的节点集,构建时空拓扑图;
(5)构建时空图卷积神经网络,该网络包含多个顺序连接的时空图卷积块,一个全局平均池化层,两个全连接层以及一个分类层;所述时空图卷积块中的空间图卷积在实现空域上相邻节点特征融合的基础上,首先计算节点间的相似度,得到相似度矩阵,然后将该矩阵与输入特征相乘,实现空域上相似节点特征的融合;
(6)利用构建的时空拓扑图和对应的表情类别对时空图卷积神经网络进行训练,得到训练好的时空图卷积神经网络模型;
(7)将基于新的表情序列生成的时空拓扑图作为输入,利用训练好的网络模型进行识别,输出最终的分类结果。
2.根据权利要求1所述的一种基于时空图卷积神经网络的动态表情识别方法,其特征在于,所述步骤(1)中的预处理包括以下子步骤:
(1.1)将每个表情序列截取成长度为S的帧序列,对于多于S帧的序列,截取序列的最后S帧,对于少于S帧的序列,利用序列的最后一帧扩充至S帧;其中S为设定的表情序列的帧长;
(1.2)对序列中每一帧图像的尺寸进行归一化处理,使每一帧图像的大小都为m×n像素;其中m、n为设定的图像宽度和高度。
3.根据权利要求1所述的一种基于时空图卷积神经网络的动态表情识别方法,其特征在于,所述步骤(2)中的对关键点的坐标进行归一化包括以下子步骤:
(2.1)对预处理后的表情序列中每帧图像进行人脸关键点检测,得到关键点的集合为V={vt,i|1≤t≤S,1≤i≤N},其中vt,i=(xt,i,yt,i)表示第t帧图像中编号为i的关键点坐标,S表示表情序列的帧长,N表示每帧图像中关键点的个数,这些关键点分布在嘴巴、眼睛、眉毛和鼻子部位;
(2.2)将所有关键点的坐标减去第一帧中鼻尖关键点的坐标,得到坐标归一化后的关键点集合V′={v′t,i|1≤t≤S,1≤i≤N}。
4.根据权利要求1所述的一种基于时空图卷积神经网络的动态表情识别方法,其特征在于,所述步骤(3)中的局部融合特征向量具体实现步骤如下:
记从第t帧中编号为i的关键点提取的局部纹理特征向量为lt,i,将该特征向量与该关键点的归一化坐标v′t,i进行拼接,得到关键点的局部融合特征向量mt,i={v′t,i,lt,i),通过对动态表情序列中所有关键点进行相同的操作,得到的关键点集合为M={mt,i|1≤t≤S,1≤i≤N}。
5.根据权利要求1所述一种基于时空图卷积神经网络的动态表情识别方法,其特征在于,所述步骤(4)中连接表情序列同帧间的关键点形成空域边的方法为:首先对分布在嘴巴、眼睛、眉毛和鼻子部位处的关键点按照人脸的几何结构进行连接,形成各部位子图的边;然后为了便于信息在各部位子图间的流通,对各子图进行相互连接,形成各子图间的边。
6.根据权利要求1所述一种基于时空图卷积神经网络的动态表情识别方法,其特征在于,所述步骤(5)中时空图卷积块具体计算步骤如下:
(5.1)对输入的特征图进行维度变换:
f=g(fin)
fin为输入特征图,维度为Cin×T×N,其中Cin代表着节点特征的通道数,T代表着特征图的时间维度,N代表着空域的节点数;g(·)表示维度变换函数,通过g(·)将输入特征图fin的维度变换为N×CinT;
(5.2)计算归一化相似度矩阵B={bi,j|1≤i,j≤N},bi,j代表节点i和j的相似程度,通过采用相似性度量的方式为时空拓扑图生成新的边:
Figure FDA0002904586780000031
其中fi表示f矩阵的第i行向量,内部的|·|表示绝对值运算,外部的|·|代表模运算;
(5.3)构建空间图卷积,具体表示为:
Figure FDA0002904586780000032
其中
Figure FDA0002904586780000033
A={ai,j|1≤i,j≤N},维度为N×N,其中ai,j=0代表关键点i和j不相连,ai,j=1代表两关键点相连,并且ai,i=1;Λ是对角阵,对角线元素Λi=∑jai,j;fin为空间图卷积的输入特征图与步骤(5.1)的输入相同,h(·)和u(·)都表示维度变换函数,h(·)将输入特征图的维度变换为CinT×N,而u(·)将计算结果的维度变换为Cin×T×N;W为1×1的卷积核,用来将节点特征的通道数变换为Cout,fout为空间图卷积的输出,输出维度为Cout×T×N;
(5.4)将步骤(5.3)的输出结果依次通过归一化层BN和ReLu激活函数层;
(5.5)构建残差连接,将步骤(5.4)的输出特征图和步骤(5.1)的输入特征图fin进行残差连接;
(5.6)构建时域卷积层,步骤(5.5)的输出特征图维度为Cout×T×N,时域卷积核的大小设为[m×1],则每次完成1个节点,m个关键帧的卷积,m在2,3,4数值中选取;步长为s,则每次移动s帧,完成1个关键点后进行下一个关键点的卷积,通过padding操作,时域卷积的输出特征图维度为Cout×(T/s)×N;
(5.7)将步骤(5.6)的输出结果依次通过归一化层BN和ReLu激活函数层。
7.一种基于时空图卷积神经网络的动态表情识别***,其特征在于,包括:
预处理模块,用于对动态表情数据集中的每一个表情序列进行预处理,得到等长的表情序列;
关键点检测模块,用于对预处理后的表情序列中每帧图像进行人脸关键点检测,得到每个关键点的位置坐标及编号,并对关键点的坐标进行归一化;
关键点特征融合模块,用于提取表情序列中每个关键点的局部纹理特征向量,并与该关键点的归一化坐标进行拼接,得到关键点的局部融合特征向量;
时空拓扑图构建模块,用于连接表情序列同帧间的关键点形成空域边,连接相邻帧相同编号的关键点形成时域边,形成时空拓扑图的边集,将表情序列的关键点集合作为时空拓扑图的节点集,构建时空拓扑图;
时空图卷积神经网络模块,该时空图卷积神经网络包含多个顺序连接的时空图卷积块,一个全局平均池化层,两个全连接层以及一个分类层;所述时空图卷积块中的空间图卷积在实现空域上相邻节点特征融合的基础上,首先计算节点间的相似度,得到相似度矩阵,然后将该矩阵与输入特征相乘,实现空域上相似节点特征的融合;
网络训练模块,用于利用构建的时空拓扑图和对应的表情类别对时空图卷积神经网络进行训练,得到训练好的时空图卷积神经网络模型;
以及,表情识别模块,用于将基于新的表情序列生成的时空拓扑图作为输入,利用训练好的网络模型进行识别,输出最终的分类结果。
8.一种基于时空图卷积神经网络的动态表情识别***,包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于时空图卷积神经网络的动态表情识别方法。
CN202110067161.2A 2021-01-19 2021-01-19 一种基于时空图卷积神经网络的动态表情识别方法及*** Active CN112800903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110067161.2A CN112800903B (zh) 2021-01-19 2021-01-19 一种基于时空图卷积神经网络的动态表情识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110067161.2A CN112800903B (zh) 2021-01-19 2021-01-19 一种基于时空图卷积神经网络的动态表情识别方法及***

Publications (2)

Publication Number Publication Date
CN112800903A true CN112800903A (zh) 2021-05-14
CN112800903B CN112800903B (zh) 2022-08-26

Family

ID=75810344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110067161.2A Active CN112800903B (zh) 2021-01-19 2021-01-19 一种基于时空图卷积神经网络的动态表情识别方法及***

Country Status (1)

Country Link
CN (1) CN112800903B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159007A (zh) * 2021-06-24 2021-07-23 之江实验室 一种基于自适应图卷积的步态情感识别方法
CN113435576A (zh) * 2021-06-24 2021-09-24 中国人民解放军陆军工程大学 一种双速时空图卷积神经网络架构及数据处理方法
CN113468980A (zh) * 2021-06-11 2021-10-01 浙江大华技术股份有限公司 一种人体行为识别方法及相关装置
CN113469144A (zh) * 2021-08-31 2021-10-01 北京文安智能技术股份有限公司 基于视频的行人性别及年龄识别方法和模型
CN113569675A (zh) * 2021-07-15 2021-10-29 郑州大学 一种基于ConvLSTM网络的小鼠旷场实验行为分析方法
CN113963445A (zh) * 2021-11-15 2022-01-21 河南理工大学 一种基于姿态估计的行人摔倒动作识别方法及设备
CN114050975A (zh) * 2022-01-10 2022-02-15 苏州浪潮智能科技有限公司 一种异构多节点互联拓扑生成方法和存储介质
CN115272943A (zh) * 2022-09-29 2022-11-01 南通双和食品有限公司 一种基于数据处理的畜牧家禽进食异常识别方法
CN115861822A (zh) * 2023-02-07 2023-03-28 海豚乐智科技(成都)有限责任公司 一种目标局部点与全局结构化匹配方法及装置
CN116311472A (zh) * 2023-04-07 2023-06-23 湖南工商大学 基于多层次图卷积网络的微表情识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684911A (zh) * 2018-10-30 2019-04-26 百度在线网络技术(北京)有限公司 表情识别方法、装置、电子设备及存储介质
CN110796110A (zh) * 2019-11-05 2020-02-14 西安电子科技大学 一种基于图卷积网络的人体行为识别方法及***
CN111325099A (zh) * 2020-01-21 2020-06-23 南京邮电大学 一种基于双流时空图卷积神经网络的手语识别方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684911A (zh) * 2018-10-30 2019-04-26 百度在线网络技术(北京)有限公司 表情识别方法、装置、电子设备及存储介质
CN110796110A (zh) * 2019-11-05 2020-02-14 西安电子科技大学 一种基于图卷积网络的人体行为识别方法及***
CN111325099A (zh) * 2020-01-21 2020-06-23 南京邮电大学 一种基于双流时空图卷积神经网络的手语识别方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邹建成等: "一种基于改进的卷积神经网络的人脸表情识别方法", 《北方工业大学学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468980A (zh) * 2021-06-11 2021-10-01 浙江大华技术股份有限公司 一种人体行为识别方法及相关装置
CN113468980B (zh) * 2021-06-11 2024-05-31 浙江大华技术股份有限公司 一种人体行为识别方法及相关装置
CN113435576A (zh) * 2021-06-24 2021-09-24 中国人民解放军陆军工程大学 一种双速时空图卷积神经网络架构及数据处理方法
CN113159007A (zh) * 2021-06-24 2021-07-23 之江实验室 一种基于自适应图卷积的步态情感识别方法
CN113569675B (zh) * 2021-07-15 2023-05-23 郑州大学 一种基于ConvLSTM网络的小鼠旷场实验行为分析方法
CN113569675A (zh) * 2021-07-15 2021-10-29 郑州大学 一种基于ConvLSTM网络的小鼠旷场实验行为分析方法
CN113469144A (zh) * 2021-08-31 2021-10-01 北京文安智能技术股份有限公司 基于视频的行人性别及年龄识别方法和模型
CN113469144B (zh) * 2021-08-31 2021-11-09 北京文安智能技术股份有限公司 基于视频的行人性别及年龄识别方法和模型
CN113963445A (zh) * 2021-11-15 2022-01-21 河南理工大学 一种基于姿态估计的行人摔倒动作识别方法及设备
CN114050975A (zh) * 2022-01-10 2022-02-15 苏州浪潮智能科技有限公司 一种异构多节点互联拓扑生成方法和存储介质
CN115272943A (zh) * 2022-09-29 2022-11-01 南通双和食品有限公司 一种基于数据处理的畜牧家禽进食异常识别方法
CN115861822A (zh) * 2023-02-07 2023-03-28 海豚乐智科技(成都)有限责任公司 一种目标局部点与全局结构化匹配方法及装置
CN115861822B (zh) * 2023-02-07 2023-05-12 海豚乐智科技(成都)有限责任公司 一种目标局部点与全局结构化匹配方法及装置
CN116311472A (zh) * 2023-04-07 2023-06-23 湖南工商大学 基于多层次图卷积网络的微表情识别方法及装置
CN116311472B (zh) * 2023-04-07 2023-10-31 湖南工商大学 基于多层次图卷积网络的微表情识别方法及装置

Also Published As

Publication number Publication date
CN112800903B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及***
Zhang et al. Multimodal learning for facial expression recognition
CN109359538B (zh) 卷积神经网络的训练方法、手势识别方法、装置及设备
Youssif et al. Automatic facial expression recognition system based on geometric and appearance features
CN110728209A (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
Murtaza et al. Analysis of face recognition under varying facial expression: a survey.
CN111401216A (zh) 图像处理、模型训练方法、装置、计算机设备和存储介质
Li et al. Learning symmetry consistent deep cnns for face completion
Yang et al. Facial expression recognition based on dual-feature fusion and improved random forest classifier
CN113989890A (zh) 基于多通道融合和轻量级神经网络的人脸表情识别方法
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
Zhao et al. Applying contrast-limited adaptive histogram equalization and integral projection for facial feature enhancement and detection
CN115862120B (zh) 可分离变分自编码器解耦的面部动作单元识别方法及设备
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
Yu Emotion monitoring for preschool children based on face recognition and emotion recognition algorithms
Podder et al. Time efficient real time facial expression recognition with CNN and transfer learning
Tautkutė et al. Classifying and visualizing emotions with emotional DAN
CN112800979B (zh) 一种基于表征流嵌入网络的动态表情识别方法及***
CN113076905B (zh) 一种基于上下文交互关系的情绪识别方法
Jin et al. Learning facial expressions with 3D mesh convolutional neural network
Ling et al. Human object inpainting using manifold learning-based posture sequence estimation
CN116758621A (zh) 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法
Kale et al. Face age synthesis: A review on datasets, methods, and open research areas
Dembani et al. UNSUPERVISED FACIAL EXPRESSION DETECTION USING GENETIC ALGORITHM.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant