CN112800903A

CN112800903A - 一种基于时空图卷积神经网络的动态表情识别方法及***

Info

Publication number: CN112800903A
Application number: CN202110067161.2A
Authority: CN
Inventors: 卢官明; 缪远俊; 卢峻禾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-05-14
Anticipated expiration: 2041-01-19
Also published as: CN112800903B

Abstract

本发明公开了一种基于时空图卷积神经网络的动态表情识别方法及***。该方法首先对动态表情序列中每帧图像进行人脸关键点检测，得到关键点的归一化坐标和编号；提取关键点的局部纹理特征向量，并与其归一化坐标进行拼接，组合成关键点的局部融合特征向量；然后连接同帧间的关键点形成空域边，连接相邻帧相同编号的关键点形成时域边，利用这些边和关键点构成一种时空拓扑图；接着，构建一种时空图卷积神经网络，用生成的时空拓扑图对其进行训练；最后将基于新的表情序列生成的时空拓扑图作为输入，利用训练好的网络模型进行表情识别。该方法利用了人脸关键点的位置信息，可以克服光照、肤色、姿态变化的影响，提升表情识别的准确率和鲁棒性。

Description

一种基于时空图卷积神经网络的动态表情识别方法及***

技术领域

本发明涉及一种基于时空图卷积神经网络的动态表情识别方法及***，属于图像处理与模式识别领域。

背景技术

随着计算机在人们的日常生活中变得越来越重要，人机交互也将成为科技发展的必然趋势。为了提高人机交互体验，计算机需要具有识别人类情感的能力。而早在1986年，心理学家Mehrabian的科学研究就表明，在日常生活中，人脸表情是情感传递中的重要载体，可以传递最为丰富的信息，超过通过语言和声音所传递信息量的总和。因此表情识别是人机交互中必不可少的一环，通过提取人类表情信息来判断人类的情感状态，从而满足人类的情感需求。

随着人脸表情识别技术的不断丰富，人脸表情识别已成为计算机视觉和模式识别领域中的研究热点。针对于如何有效地提取动态表情序列的时间和空间信息问题，目前的主流方法大多采用卷积神经网络(CNN)提取每帧图像表情的空间信息，再利用长短期记忆网络(LSTM)提取动态表情序列的时间信息；或者直接利用三维卷积神经网络(3D-CNN)在空间维度和时间维度对输入序列同时进行卷积，提取的特征不仅包含图像内的信息，也包含图像间的信息。这些方法通常使用原始图像作为输入，通过监督训练学习与表情识别任务相关的特征。然而原始图像富含了太多的与表情识别无关的干扰信息，比如年龄、性别、光照等信息，从原始图像到最终用于表情分类的低维特征向量，相当于有监督的挖掘有用信息的降维过程，而这一过程往往比较复杂，需要训练大量的参数。而由人脸关键点构成的面部轮廓，相对整张图像而言是一种更高层次的表达，而且不同的个体在不同表情状态下面部轮廓的变化有着相同的特征模式，因此利用人脸关键点训练后的模型对肤色、光照、姿态的变化具有一定的鲁棒性，此外关键点的数量明显少于整张图像的像素数量，能够得到更为简单的模型。

随着近年来的发展，图卷积神经网络已经可以很好的处理具有图结构的数据，比如社交网络关系、通信网络、分子结构等，它可以将这些数据映射到低维向量上，而这些数据是传统卷积神经网络(CNN)无法处理的，所以可以利用图卷积神经网络处理基于人脸关键点生成的时空拓扑图，学习更高层次的特征，实现动态表情的分类。

中国专利申请“一种基于图卷积神经网络的人脸表情识别方法”(专利申请号201910091261.1，公开号CN110008819 A)将人脸表情灰度图中的每个像素点作为图的节点，按照一定的规则构建拓扑图，然后输入到构建的图卷积神经网络模型中，得到表情的分类结果。该方法使用图像中的每个像素点构建的拓扑图过于复杂，不利于相距较远的节点间进行信息的融合；此外该方法只适用于图像，无法应用于视频序列，实现动态表情序列的分类。

中国专利申请“一种基于人脸特征点数据增强的动态表情识别方法”(专利申请号202010776415.3，公开号CN111931630 A)通过将动态表情序列的初始帧、峰值帧以及根据人脸关键点构建的轨迹图分别输入到卷积神经网络中，得到人脸动态表情的识别结果。该方法问题在于轨迹图是根据人脸的关键点手工设计的特征，特征提取过程较为繁琐，且复杂度较高，影响了该模型的实时性。

发明内容

发明目的：针对现有的表情识别方法无法有效利用人脸关键点信息的缺点，本发明提出了一种基于时空图卷积神经网络的动态表情识别方法及***，可以充分利用人脸关键点的位置信息，能够克服光照、肤色、姿态变化的影响，从而有效提升动态表情识别的准确率和鲁棒性。

技术方案：为实现上述发明目的，本发明采用如下技术方案：

一种基于时空图卷积神经网络的动态表情识别方法，包括以下步骤：

(1)对动态表情数据集中的每一个表情序列进行预处理，得到等长的表情序列；

(2)对预处理后的表情序列中每帧图像进行人脸关键点检测，得到每个关键点的位置坐标及编号，并对关键点的坐标进行归一化；

(3)提取表情序列中每个关键点的局部纹理特征向量，并与该关键点的归一化坐标进行拼接，得到关键点的局部融合特征向量；

(4)连接表情序列同帧间的关键点形成空域边，连接相邻帧相同编号的关键点形成时域边，形成时空拓扑图的边集，将表情序列的关键点集合作为时空拓扑图的节点集，构建时空拓扑图；

(5)构建时空图卷积神经网络，该网络包含多个顺序连接的时空图卷积块，一个全局平均池化层，两个全连接层以及一个分类层；所述时空图卷积块中的空间图卷积在实现空域上相邻节点特征融合的基础上，首先计算节点间的相似度，得到相似度矩阵，然后将该矩阵与输入特征相乘，实现空域上相似节点特征的融合；

(6)利用构建的时空拓扑图和对应的表情类别对时空图卷积神经网络进行训练，得到训练好的时空图卷积神经网络模型；

(7)将基于新的表情序列生成的时空拓扑图作为输入，利用训练好的网络模型进行识别，输出最终的分类结果。

进一步地，所述步骤(1)中的预处理包括以下子步骤：

(1.1)将每个表情序列截取成长度为S的帧序列，对于多于S帧的序列，截取序列的最后S帧，对于少于S帧的序列，利用序列的最后一帧扩充至S帧；其中S为设定的表情序列的帧长；

(1.2)对序列中每一帧图像的尺寸进行归一化处理，使每一帧图像的大小都为m×n像素；其中m、n为设定的图像宽度和高度。

进一步地，所述步骤(2)中的对关键点的坐标进行归一化包括以下子步骤：

(2.1)对预处理后的表情序列中每帧图像进行人脸关键点检测，得到关键点的集合为V＝{v_t，i|1≤t≤S，1≤i≤N}，其中v_t，i＝(x_t，i，y_t，i)表示第t帧图像中编号为i的关键点坐标，S表示表情序列的帧长，N表示每帧图像中关键点的个数，这些关键点分布在嘴巴、眼睛、眉毛和鼻子部位；

(2.2)将所有关键点的坐标减去第一帧中鼻尖关键点的坐标，得到坐标归一化后的关键点集合V′＝{v′_t，i|1≤t≤S，1≤i≤N}。

进一步地，所述步骤(3)中的局部融合特征向量具体实现步骤如下：

记从第t帧中编号为i的关键点提取的局部纹理特征向量为l_t，i，将该特征向量与该关键点的归一化坐标v′_t，i进行拼接，得到关键点的局部融合特征向量m_t，i＝{v′_t，i，l_t，i)，通过对动态表情序列中所有关键点进行相同的操作，得到的关键点集合为M＝{m_t，i|1≤t≤S，1≤i≤N}。

进一步地，所述步骤(4)中连接表情序列同帧间的关键点形成空域边的方法为：首先对分布在嘴巴、眼睛、眉毛和鼻子部位处的关键点按照人脸的几何结构进行连接，形成各部位子图的边；然后为了便于信息在各部位子图间的流通，对各子图进行相互连接，形成各子图间的边。

进一步地，所述步骤(5)中时空图卷积块具体计算步骤如下：

(5.1)对输入的特征图进行维度变换：

f＝g(f_in)

f_in为输入特征图，维度为C_in×T×N，其中C_in代表着节点特征的通道数，T代表着特征图的时间维度，N代表着空域的节点数；g(·)表示维度变换函数，通过g(·)将输入特征图f_in的维度变换为N×C_inT；

(5.2)计算归一化相似度矩阵B＝{b_i，j|1≤i，j≤N}，b_i，j代表节点i和j的相似程度，通过采用相似性度量的方式为时空拓扑图生成新的边：

其中f_i表示f矩阵的第i行向量，内部的|·|表示绝对值运算，外部的|·|代表模运算；

(5.3)构建空间图卷积，具体表示为：

其中

A＝{a_i，j|1≤i，j≤N}，维度为N×N，其中a_i，j＝0代表关键点i和j不相连，a_i，j＝1代表两关键点相连，并且a_i，i＝1；Λ是对角阵，对角线元素Λ_i＝∑_ja_i，j；f_in为空间图卷积的输入特征图与步骤(5.1)的输入相同，h(·)和u(·)都表示维度变换函数，h(·)将输入特征图的维度变换为C_inT×N，而u(·)将计算结果的维度变换为C_in×T×N；W为1×1的卷积核，用来将节点特征的通道数变换为C_out，f_out为空间图卷积的输出，输出维度为C_out×T×N；

(5.4)将步骤(5.3)的输出结果依次通过归一化层BN和ReLu激活函数层；

(5.5)构建残差连接，将步骤(5.4)的输出特征图和步骤(5.1)的输入特征图f_in进行残差连接；

(5.6)构建时域卷积层，步骤(5.5)的输出特征图维度为C_out×T×N，时域卷积核的大小设为[m×1]，则每次完成1个节点，m个关键帧的卷积，m在2，3，4数值中选取；步长为s，则每次移动s帧，完成1个关键点后进行下一个关键点的卷积，通过padding操作，时域卷积的输出特征图维度为C_out×(T/s)×N；

(5.7)将步骤(5.6)的输出结果依次通过归一化层BN和ReLu激活函数层。

基于相同的发明构思，本发明公开的一种基于时空图卷积神经网络的动态表情识别***，包括：

预处理模块，用于对动态表情数据集中的每一个表情序列进行预处理，得到等长的表情序列；

关键点检测模块，用于对预处理后的表情序列中每帧图像进行人脸关键点检测，得到每个关键点的位置坐标及编号，并对关键点的坐标进行归一化；

关键点特征融合模块，用于提取表情序列中每个关键点的局部纹理特征向量，并与该关键点的归一化坐标进行拼接，得到关键点的局部融合特征向量；

时空拓扑图构建模块，用于连接表情序列同帧间的关键点形成空域边，连接相邻帧相同编号的关键点形成时域边，形成时空拓扑图的边集，将表情序列的关键点集合作为时空拓扑图的节点集，构建时空拓扑图；

时空图卷积神经网络模块，该时空图卷积神经网络包含多个顺序连接的时空图卷积块，一个全局平均池化层，两个全连接层以及一个分类层；所述时空图卷积块中的空间图卷积在实现空域上相邻节点特征融合的基础上，首先计算节点间的相似度，得到相似度矩阵，然后将该矩阵与输入特征相乘，实现空域上相似节点特征的融合；

网络训练模块，用于利用构建的时空拓扑图和对应的表情类别对时空图卷积神经网络进行训练，得到训练好的时空图卷积神经网络模型；

以及，表情识别模块，用于将基于新的表情序列生成的时空拓扑图作为输入，利用训练好的网络模型进行识别，输出最终的分类结果。

基于相同的发明构思，本发明公开的一种基于时空图卷积神经网络的动态表情识别***，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于时空图卷积神经网络的动态表情识别方法。

有益效果：与现有技术相比，本发明具有以下技术效果：

(1)本发明采用时空图卷积神经网络提取面部关键点的时域和空域特征，将特征提取从静态图像拓展到图像序列，通过训练网络自适应地调整参数，可以自主提取能够反映时间信息的动态特征，提取到的特征可以更好地表征面部表情的动态变化；通过此方法能够有效识别出高兴、伤心、生气等表情，为开发智能化人机交互等***提供一种新的途径。

(2)本发明通过采用相似性度量的方式可以为时空拓扑图生成新的边，能有效弥补人工设计时空拓扑图的不足；通过此方法可以使每个节点不仅能融合其相邻节点的信息，还能融合其相似节点的信息，可以提高模型的灵活性和适用性。

(3)本发明首先根据动态表情序列生成时空拓扑图，然后利用训练好的时空图卷积神经网络模型进行识别；由人脸关键点构成的时空拓扑图，相对于整个动态表情序列而言是一种更高层次的表达，因为序列中的每帧图像富含了太多的与表情识别无关的干扰信息，比如年龄、性别、光照等信息，因此该网络模型对肤色、光照的变化具有一定的鲁棒性。

(4)本发明通过将每个关键点的局部纹理特征向量与坐标信息进行融合，增强了关键点特征的表达能力，因为完全基于坐标的关键点特征只考虑了关键点的运动信息，所以通过此方法可以提高动态表情分类的准确率。

(5)人脸关键点的数量远远低于整张图像像素点的数量，所以本发明通过将网络模型的输入由整个动态表情序列转换为人脸关键点构成的时空拓扑图，大大降低了模型的复杂度，提高了模型的实时性。

(6)本发明利用关键点检测算法可以准确的标注偏转一定角度的面部的关键点，构建时空拓扑图，从而实现动态表情的识别，所以该方法对姿态的变化具有一定的鲁棒性。

附图说明

图1是本发明实施例的方法总体流程图。

图2是本发明实施例构建的空间拓扑图。图3是本发明实施例构建的网络模型结构图。

图4是本发明实施例中使用的CK+表情数据集部分序列图像截图。

具体实施方式

下面结合附图和具体实施例，对本发明的技术方案做进一步说明。

如图1所示，本发明实施例公开的一种基于时空图卷积神经网络的动态表情识别方法，具体包含以下步骤：

步骤(1)对动态表情数据集中的每一个表情序列进行预处理，使得每个表情序列样本均能用一个等长的序列表示，从而得到预处理后的表情序列。具体包括如下子步骤：

本实施例中使用CK+动态表情数据集，数据集中的部分样本如图4所示，该数据集的表情类别为愤怒、厌恶、恐惧、高兴、悲伤、惊讶以及中性；在实际中，也可以采用其他的视频数据集，或自行采用摄像机采集面部表***，建立包含情感类别标签的表***库。对数据集中的表情序列进行预处理，将每个表情序列截取成长度为16的帧序列，对于多于16帧的序列，截取序列最后的16帧，对于少于16帧的序列，利用序列的最后一帧扩充至16帧；同时对序列中每一帧图像的尺寸进行归一化处理，使每一帧图像的大小都为64×64像素。

步骤(2)对预处理后的表情序列中的每帧图像进行人脸关键点检测，返回每个关键点的位置坐标及编号，并对关键点序列的坐标进行归一化，包含以下子步骤：

本实施例中采用Dlib开源工具包对每帧图像进行关键点检测，返回鼻尖、嘴角、眼角等68个关键点的坐标和编号；为了减少复杂度，删除编号为1-17的关键点，并对剩下的51个关键点按原有顺序重新编号。

设第t帧图像通过人脸关键点检测得到的51个关键点集合为V_t＝{v_t，i|1≤i≤51}，将所有关键点的坐标减去第一帧中编号为14的关键点坐标；通过对每帧图像进行相同操作，得到坐标归一化后的关键点集合V′＝v′_t，i|1≤t≤16，1≤i≤51＝{v_t，i-v_1，14|1≤t≤16，1≤i≤51}。

步骤(3)提取表情序列中每个关键点的局部纹理特征向量，并与该关键点的归一化坐标进行拼接，得到关键点的局部融合特征向量。具体地，记从第t帧中编号为i的关键点提取的局部纹理特征向量为l_t，i，将该特征向量与该关键点的归一化坐标v′_t，i进行拼接，得到关键点的局部融合特征向量m_t，i＝{v′_t，i，l_t，i)，通过对动态表情序列中所有关键点进行相同的操作，得到的关键点集合为M＝{m_t，i|1≤t≤S，1≤i≤N}。本实施例中采用半径为1内含8个采样点的旋转不变LBP算子计算每个关键点的最小LBP值作为关键点的局部纹理特征向量。

步骤(4)根据表情序列的关键点构建一种时空拓扑图，包含以下子步骤：

(4.1)通过连接同帧间的关键点形成空域边，首先对分布在眉毛、眼睛、鼻子、嘴巴处的关键点按照人脸的几何结构进行连接，形成各器官子图的边；然后为了便于信息在各器官子图间的流通，对各子图进行相互连接，形成各器官子图间的边，如图2所示；通过连接相邻帧相同编号的关键点形成时域边，这些边形成了时空拓扑图的边集E；

(4.2)动态表情序列的关键点集合M＝{m_t，i|1≤t≤16，1≤i≤51}作为时空拓扑图的节点集；

(4.3)利用边集E和节点集M构成一种时空拓扑图Q＝(M，E)。

步骤(5)构建一种时空图卷积神经网络，该网络包含k个顺序连接的时空图卷积块，k在6、8、10数值中选取，一个全局平均池化层，两个全连接层以及一个分类层；所述时空图卷积块中的空间图卷积在实现空域上相邻节点特征融合的基础上，首先计算节点间的相似度，得到相似度矩阵，然后将该矩阵与输入特征相乘，实现空域上相似节点特征的融合。

本实施例中构建的时空图卷积神经网络包含顺序连接的六个时空图卷积块，一个全局平均池化层，两个全连接层以及一个softmax分类层。其中时空图卷积块，具体如下：

时空拓扑图的空域边是按照面部的天然结构人为设计的，在整个网络中无法生成新的边；比如在笑的过程中，面部的左嘴角关键点与右嘴角关键点会发生相似的形变，此时这两个关键点的特征会有较高的相似度，如果此时在这两个关键点间构建一条边，会有利于关键点信息的融合；所以可以通过采用相似性度量的方式为时空拓扑图生成新的边，提高模型的灵活性；时空图卷积块的计算步骤如下：

(5.1)对输入的特征图进行维度变换：

f＝g(f_in)

f_in为输入特征图，维度为C_in×T×N，其中C_in代表着节点特征的通道数，T代表着特征图的时间维度，N代表着空域的节点数；g(·)表示维度变换函数，通过g(·)可以将输入特征图f_in的维度变换为N×C_inT；

(5.2)计算归一化相似度矩阵B＝{b_i，j|1≤i，j≤51}，b_i，j代表着节点i和j的相似程度：

其中f_i表示f矩阵的第i行向量，内部的|·|表示绝对值运算，外部的|·|代表模运算，因为所有的关键点都是利用第一帧中鼻尖关键点进行归一化，所以通过绝对值操作，可以使人脸关于鼻尖竖直对称的关键点有着相近的位置坐标，使得这两个关键点有着更高的相似度；

(5.3)构建空间图卷积，具体表示为：

其中

A＝{a_i，j|1≤i，j≤51}，维度为51×51，其中a_i，j＝0代表着关键点i和j不相连，a_i，j＝1代表两关键点相连，a_i，i＝1；Λ是对角阵，对角线元素Λ_i＝∑_ja_i，j；fin为空间图卷积的输入特征图与步骤(5.1)的输入相同，h(·)和u(·)都表示维度变换函数，h(·)将输入特征图的维度变换为C_inT×51，而u(·)将计算结果的维度变换为C_in×T×51；W为1×1的卷积核，用来将节点特征的通道数变换为C_out，f_out为空间图卷积的输出，输出维度为C_out×T×51；

(5.4)将步骤(5.3)的输出结果依次通过归一化层(BN)和ReLu激活函数层；

(5.5)构建残差连接，步骤(5.4)的输出特征图的维度为C_out×T×51，而步骤(5.1)输入特征图f_in维度为C_in×T×51，当C_in＝C_out时，将两特征图直接相加f_in+f_out，当C_in≠C_out时，需要对输入特征图f_in的通道数转换为C_out，再执行相加操作；

(5.6)构建时域卷积层，上述卷积操作只能融合节点在空域上相邻和相似节点的信息，无法融合时域上相邻节点的信息；

类比于图像卷积，在时域卷积中，卷积核的大小为[m×1]，则每次完成1个节点，m个关键帧的卷积，步长为s，则每次移动s帧，完成1个关节点后进行下一个关节点的卷积，通过padding操作，时域卷积的输出特征图维度为C_out×(T/s)×51；

(5.7)将步骤(5.6)的输出结果依次通过归一化层(BN)和ReLu激活函数层。

本实施例中的时空图卷积神经网络如图3所示，各层具体信息如下：

时空图卷积块C1的输入通道数量为3、输出通道数量为32、步长为1；

时空图卷积块C2的输入通道数量为32、输出通道数量为32、步长为1；

时空图卷积块C3的输入通道数量为32、输出通道数量为64、步长为2；

时空图卷积块C4的输入通道数量为64、输出通道数量为64、步长为1；

时空图卷积块C5的输入通道数量为64、输出通道的数量为128、步长为2；

时空图卷积块C6的输入通道数量为128、输出通道数量为128、步长为1；

全局平均池化层：经过6个时空卷积块后的输出特征维度为128×4×51，对所有节点做平均运算，得到128维的向量；

全连接层：第一个全连接层的输入为128维，输出为64维，第二个全连接层的输入为64维，输出为7维。

步骤(6)利用构建的时空拓扑图和对应的表情类别对时空图卷积神经网络进行训练，得到训练好的时空图卷积神经网络模型。训练时采用Adam方法作为优化策略，选择交叉熵作为梯度反向传播的损失函数。

步骤(7)将基于新的表情序列生成的时空拓扑图作为输入，利用训练好的网络模型进行识别，输出最终的分类结果。

基于相同的发明构思，本发明实施例公开的一种基于时空图卷积神经网络的动态表情识别***，包括：

基于相同的发明构思，本发明公开的一种基于时空图卷积神经网络的动态表情识别***，包括至少一台计算设备，该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述实施例的基于时空图卷积神经网络的动态表情识别方法。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于时空图卷积神经网络的动态表情识别方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于时空图卷积神经网络的动态表情识别方法，其特征在于，所述步骤(1)中的预处理包括以下子步骤：

3.根据权利要求1所述的一种基于时空图卷积神经网络的动态表情识别方法，其特征在于，所述步骤(2)中的对关键点的坐标进行归一化包括以下子步骤：

4.根据权利要求1所述的一种基于时空图卷积神经网络的动态表情识别方法，其特征在于，所述步骤(3)中的局部融合特征向量具体实现步骤如下：

5.根据权利要求1所述一种基于时空图卷积神经网络的动态表情识别方法，其特征在于，所述步骤(4)中连接表情序列同帧间的关键点形成空域边的方法为：首先对分布在嘴巴、眼睛、眉毛和鼻子部位处的关键点按照人脸的几何结构进行连接，形成各部位子图的边；然后为了便于信息在各部位子图间的流通，对各子图进行相互连接，形成各子图间的边。

6.根据权利要求1所述一种基于时空图卷积神经网络的动态表情识别方法，其特征在于，所述步骤(5)中时空图卷积块具体计算步骤如下：

(5.1)对输入的特征图进行维度变换：

f＝g(f_in)

(5.3)构建空间图卷积，具体表示为：

其中

7.一种基于时空图卷积神经网络的动态表情识别***，其特征在于，包括：

8.一种基于时空图卷积神经网络的动态表情识别***，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于时空图卷积神经网络的动态表情识别方法。