CN107808146A

CN107808146A - 一种多模态情感识别分类方法

Info

Publication number: CN107808146A
Application number: CN201711144196.1A
Authority: CN
Inventors: 孙波; 何珺; 余乐军; 曹斯铭
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2017-11-17
Filing date: 2017-11-17
Publication date: 2018-03-16
Anticipated expiration: 2037-11-17
Also published as: CN107808146B

Abstract

本发明提供一种多模态情感识别分类方法，所述方法包括对待检测的包含人脸的视频和对应同一时间内包含身体动作的视频进行处理，将其转变为由图像帧组成的图像时间序列，提取图像时间序列中的时间特征和空间特征，基于获得的多层深度时空特征，对特征进行多种特征级融合，并对分类结果进行决策级融合，从而从多模态上识别待检测视频中任务的情感类型，本发明提供的方法，充分利用了各模态中存在的有效信息，提升了情感识别的识别率。

Description

一种多模态情感识别分类方法

技术领域

本发明涉及计算机处理技术领域，更具体地，涉及一种多模态情感识别分类方法。

背景技术

情感识别作为计算机科学、认知科学、心理学、脑科学、神经科学等多学科交叉的新兴研究领域，其研究目的就是让计算机学习理解人类的情感表达，最终使其能够像人类一样具有识别、理解情感的能力。因此，作为一个极富挑战性的交叉学科，情感识别成为当前国内外模式识别、计算机视觉、大数据挖掘以及人工智能领域的一个研究热点，具有重要的研究价值和应用前景。

在现有的情感识别技术中，情感识别的研究趋势呈现出两个较为明显的特点，一方面，数据由基于静态图像的情感识别扩展到基于动态图像序列的情感识别；另一方面，由基于单模态的情感识别扩展到基于多模态的情感识别。目前，基于静态图像的情感识别研究已经取得了一批很好的成果，然而，基于静态图片的情感识别方法忽略了人体表情的时间动态信息。从整体来看，相对基于图片的情感识别，视频数据的分析准确度还需要进行进一步的研究。另外，心理学研究表明，情感识别本质上是多模态问题，利用身体姿态与面部表情共同判断情感状态比利用单模态信息有更好的效果。相对单模态而言，利用多模态信息融合来识别情感会更加准确可靠。这使得多模态信息融合也发展成为情感识别领域的一个研究热点。

现有技术中，面部表情和身体姿态的模态融合方法都只采用了单一的融合方式，依据某种策略从特征级融合或者决策级融合中选择一种。现有技术中，无法从视频数据中提取出有效的时空特征进行情感识别，另一方面，无论是采用前期还是后期融合，类似的融合方法都具有模型无关的特点，没有充分利用各模态中存在的有效信息，普遍存在融合效率不高的问题。

发明内容

为解决现有技术中，无法从视频数据中提取出有效的时空特征进行情感识别的问题，以及对情感识别中无论是采用前期还是后期融合，类似的融合方法都具有模型无关的特点，没有充分利用各模态中存在的有效信息，普遍存在融合效率不高的问题，提供一种多模态情感识别分类方法。

根据本发明的一个方面，一种多模态情感识别分类方法，包括：

S1，接收待测数据，所述待测数据包括包含人脸的视频和对应的同一时间内包含身体动作的视频，对所述包含人脸的视频和对应的包含身体动作的视频进行预处理，获得包含人脸的人脸图像时间序列和包含身体动作的身体图像时间序列；

S2，将所述人脸图像时间序列依次输入到基于Alexnet的卷积神经网络和基于BLSTM的循环神经网络中，取出输出的数据，作为第一人脸图像时空特征，将所述身体图像时间序列依次输入到基于Alexnet的卷积神经网络和基于BLSTM的循环神经网络中，取出输出的数据，作为第一身体图像时空特征；

S3，将所述第一人脸图像时空特征和所述第一身体图像时空特征串联输入到全连接神经网络中，获得所述第一人脸图像时空特征和所述第一身体图像时空特征融合后，属于不同情感类型的概率矩阵，将此概率矩阵标记为第一概率矩阵，同时将所述第一人脸图像时空特征和所述第一身体图像时空特征串联输入到支持向量机中，获得所述第一人脸图像时空特征和所述第一身体图像时空特征串联后，属于不同情感类型的概率矩阵，将此概率矩阵标记为第二概率矩阵；

S4，将所述第一人脸图像时空特征输入到支持向量机中，获得所述第一人脸图像时空特征属于不同情感类型的概率矩阵，将此概率矩阵标记为第三概率矩阵，将所述第一身体图像特征输入到支持向量机中，获得所述第一身体图像时空特征属于不同情感类型的概率矩阵，将此概率矩阵标记为第四概率矩阵，将所述第一概率矩阵、第二概率矩阵、第三概率矩阵和第四概率矩阵进行决策融合，获得第一融合概率矩阵，将所述第一融合概率矩阵中概率最高感情类型作为感情识别结果。

其中，所述步骤S1之前还包括：对所述基于Alexnet的卷积神经网络、基于BLSTM的循环神经网络、全连接神经网络以及支持向量机进行训练。

其中，步骤S1中对所述包含人脸的视频和对应的包含身体动作的视频进行预处理具体包括：

对所述包含人脸的视频中每一帧图像进行人脸检测和对齐处理，将处理后的图像帧按时间顺序排列，获得所述人脸图像时间序列；

对所述包含身体动作的视频进中的每一帧图像进行归一化处理，将处理后的图像帧按照时间顺序排列，获得身体图像时间序列。

其中，所述步骤S1中进一步包括：

读取所述包含人脸的视频中每一个图像帧的标记，提取标记为开始、顶点和消失的图像帧，组成人脸图像时间序列；

读取所述包含身体动作的视频中每一个图像帧的标记，提取标记为开始、顶点和消失的图像帧，组成身体图像时间序列；

其中，所述图像帧的标记包括平复、开始、顶点和消失。

其中，所述步骤S2具体包括：

S21，将所述人脸图像时间序列输入到基于Alexnet的卷积神经网络中，取出三个全连接层中前两个全连接层的数据作为人脸空间初始特征，将所述人脸空间初始特征进行主成分分析，从而实现空间转换和降维，获得第一人脸图像空间特征，将所述身体图像时间序列输入到基于Alexnet的卷积神经网络中，取出三个全连接层中前两个全连接层的数据作为身体空间初始特征，将所述身体空间初始特征进行主成分分析，从而实现空间转换和降维，获得第一身体图像空间特征；

S22，将所述第一人脸图像空间特征输入到基于BLSTM循环神经网络中，取出三个全连接层中前两个全连接层的数据作为人脸时空初始特征，将所述人脸时空初始特征进行主成分分析，从而实现空间转换和降维，获得第一人脸图像时空特征，将所述第一身体图像空间特征输入到基于BLSTM循环神经网络中，取出三个全连接层中前两个全连接层的数据作为身体时空初始特征，将所述身体时空初始特征进行主成分分析，从而实现空间转换和降维，获得第一身体图像时空特征。

其中，所述步骤S1中还包括：

通过预设的滑动窗口长度，对所述人脸图像时间序列和所述身体图像时间序列进行切割，获得由多个人脸图像时间序列片段组成的人脸图像时间子序列组和多个身体图像时间序列片段组成的身体图像时间子序列组。

其中，所述步骤S2中进一步包括：

将所述人脸图像时间子序列组中的多个人脸图像时间序列片段依次输入到基于Alexnet的卷积神经网络和基于BLSTM的循环神经网络中，取出输出的数据，作为第二人脸图像时空特征；

将所述身体图像时间子序列组中的多个身体图像时间序列片段依次输入到基于Alexnet的卷积神经网络和基于BLSTM的循环神经网络中，取出输出的数据，作为第二身体图像时空特征。

其中，所述步骤S2中还包括：

将所述人脸图像时间子序列组中的多个人脸图像时间序列输入到基于Alexnet的卷积神经网络中，取出三个全连接层中前两个全连接层的数据作为第二人脸空间初始特征，将所述第二人脸空间初始特征进行主成分分析，从而实现空间转换和降维，获得第二人脸图像空间特征，将所述身体图像时间子序列组中的多个身体图像时间序列输入到基于Alexnet的卷积神经网络中，取出三个全连接层中前两个全连接层的数据作为第二身体空间初始特征，将所述第二身体空间初始特征进行主成分分析，从而实现空间转换和降维，获得第二身体图像空间特征；

将所述第二人脸图像空间特征输入到基于BLSTM循环神经网络中，取出三个全连接层中前两个全连接层的数据作为第二人脸时空初始特征，将所述人脸时空初始特征进行主成分分析，从而实现空间转换和降维，获得第二人脸图像时空特征，将所述第二身体图像空间特征输入到基于BLSTM循环神经网络中，取出三个全连接层中前两个全连接层的数据作为第二身体时空初始特征，将所述身体时空初始特征进行主成分分析，从而实现空间转换和降维，获得第二身体图像时空特征。

其中，所述步骤S3中进一步包括：

将所述第二人脸图像时空特征和所述第二身体图像时空特征串联输入到全连接神经网络中，将输出结果输入到支持向量机中，获得所述第二人脸图像时空特征和所述第二身体图像时空特征融合后，属于不同情感类型的概率矩阵，将此概率矩阵标记为第五概率矩阵，同时将所述第二人脸图像时空特征和所述第二身体图像时空特征串联输入到支持向量机中，获得所述第二人脸图像时空特征和所述第二身体图像时空特征融合后，属于不同情感类型的概率矩阵，将此概率矩阵标记为第六概率矩阵。

其中，所述步骤S4中进一步包括：

将所述第一人脸图像时空特征输入到支持向量机中，获得所述第一人脸图像时空特征属于不同情感类型的概率矩阵，将此概率矩阵标记为第三概率矩阵，将所述第一身体图像特征输入到支持向量机中，获得所述第一身体图像时空特征属于不同情感类型的概率矩阵，将此概率矩阵标记为第四概率矩阵，将所述第五概率矩阵、第六概率矩阵、第七概率矩阵和第八概率矩阵进行决策融合，获得第二融合概率矩阵；

将所述第一融合概率矩阵和所述第二融合概率矩阵进行决策融合，获得第三融合概率矩阵，将所述第三融合概率矩阵中概率最高感情类型作为感情识别结果。

本发明提供的方法，采用多模态结合的情感识别方法，充分利用了带检测视频中各种模态的有效信息，提升了融合效率，同时提升了对情感识别的准确性。

附图说明

图1为本发明一实施例提供的一种多模态情感识别分类方法的流程图；

图2为本发明一实施例提供的一种多模态情感识别分类方法中基于时间序列采用不同融合策略的情感识别率对比图；

图3为本发明一实施例提供的一种多模态情感识别分类方法中对时空特征提取的神经网络结构示意图；

图4为本发明一实施例提供的一种多模态情感识别分类方法中使用滑窗对时间序列分割的示意图；

图5为本发明一实施例提供的一种多模态情感识别分类方法中基于时间序列片段采用不同融合策略的情感识别率对比图；

图6为本发明一实施例提供的一种多模态情感识别分类方法中基于时间序列和时间序列片段进行融合的情感识别率对比图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

参考图1，图1为本发明一实施例提供的一种多模态情感识别分类方法的流程图，所述方法包括：

S1，接收待测数据，所述待测数据包括包含人脸的视频和对应的包含身体动作的视频，对所述包含人脸的视频和对应的包含身体动作的视频进行预处理，获得人脸图像时间序列和身体图像时间序列。

具体的，通过接收包含同一时间内包含人的脸部表情的视频和包含身体动作的视频，将视频预处理后，对人脸的视频和身体动作的视频分别按照图像帧进行排列，获得由视频中的图像帧组成的人脸图像时间序列和身体图像时间序列。

通过此方法，将视频数据转化为图像帧序列，提升了对数据的可操作性，方便后续对数据进行处理。

S2，将所述人脸图像时间序列依次输入到基于Alexnet的卷积神经网络和基于BLSTM的循环神经网络中，取出输出的数据，作为第一人脸图像时空特征，将所述身体图像时间序列依次输入到基于Alexnet的卷积神经网络和基于BLSTM的循环神经网络中，取出输出的数据，作为第一身体图像时空特征。

具体的，分别将S1中获得的人脸图像时间序列和身体图像时间序列输入到训练好的基于Alexnet卷积神经网络中和基于BLSTM的循环神经网络中，通过基于Alexnet卷积神经网络可以从所述时间序列中获得图像时间序列的空间上的特征，而通过循环神经网络可以在获得的空间特征中进一步获得图像时间序列中时空上的特征。本实施例中，通过分别将人脸图像时间序列和身体图像时间序列输入到训练好的基于Alexnet的卷积神经网络中和基于BLSTM的循环神经网络中，可以分别获得人脸图像时空序列的时空特征即第一人脸图像时空特征和身体图像序列的时空特征即第一身体图像时空特征。

通过此方法，构建一个结合了基于Alexnet的卷积神经网络和基于BLSTM的循环神经网络的深度网络，提取局部和全局的时空特征，使得可以根据获取的多层深度时空特征，对所述人脸图像时间序列和身体图像时间序列进行分类。

S3，将所述第一人脸图像时空特征和所述第一身体图像时空特征串联输入到全连接神经网络中，将输出结果输入到支持向量机中，获得所述第一人脸图像时空特征和所述第一身体图像时空特征融合后，属于不同情感类型的概率矩阵，将此概率矩阵标记为第一概率矩阵，同时将所述第一人脸图像时空特征和所述第一身体图像时空特征串联输入到支持向量机中，获得所述第一人脸图像时空特征和所述第一身体图像时空特征串联后，属于不同情感类型的概率矩阵，将此概率矩阵标记为第二概率矩阵。

具体的，将所述第一人脸图像时空特征和所述第一身体图像时空特征串联，输入到训练好的全连接神经网络中，将输出结果输入到训练好的支持向量机中，可以按照所述第一人脸图像时空特征和所述第一身体图像时空特征两种模态组合，获取所述第一人脸图像时空特征和所述第一身体图像时空特征的组合特征属于不同情感类别的概率，构建第一分类概率矩阵。

其中，对全连接神经网络的输出数据中，优选的，取倒数第二个全连接层的数据进行主成分分析进行降维，再将处理后的数据输入到训练好的支持向量机中，以获得精度更高的概率分类结果。

另一方面，通过将所述第一人脸图像时空特征和所述第一身体图像时空特征进行串联，然后将串联后的特征输入到训练好的支持向量机中，从而可以获得所述第一人脸图像时空特征和所述第一身体图像时空特征的组合特征属于不同情感类别的概率，构建第二分类概率矩阵。

其中，将所述第一人脸图像时空特征和所述第一身体图像时空特征的串联过程中，可以对串联后的特征通过主成分分析进行降维，再将降维后的特征输入到训练好的支持向量机中从而获得概率输出。通过此方法，通过特征级融合，对人脸的特征和身体动作的特征进行融合，采用不同的融合策略包括神经网络融合策略和特征串联融合策略，可以分别获得视频数据属于不同情感类别的概率矩阵。

通过此方法，通过特征级融合，对人脸的特征和身体动作的特征进行融合，采用不同的融合策略包括神经网络融合策略和特征串联融合策略，可以分别获得视频数据属于不同情感类别的概率矩阵。

具体的，将所述第一人脸图像时空特征单独输入到训练好的支持向量机中，从而可以获得所述第一人脸图像时空特征属于不同情感类别的概率矩阵，通过此概率矩阵，构建第三概率矩阵，另一方面，将所述第一身体图像时空特征单独输入到训练好的支持向量机中，从而可以获得所述第一身体图像时空特征属于不同情感类别的概率矩阵，通过此概率矩阵构建第四概率矩阵。

参考图2，图2为本发明一实施例提供的一种多模态情感识别分类方法中基于时间序列采用不同融合策略的情感识别率对比图，将获得的四个概率矩阵进行决策融合，获得新的融合后的概率矩阵，该概率矩阵中包含有待测数据属于不同的情感类别的概率的集合，在此集合中，选择概率最高的情感类别作为最终的识别结果。

通过此方法，通过人的脸部图像表情和同一时间段内身体动作进行结合，通过使用深度神经网络进行待测数据的时空特征提取，通过支持向量机按照不同的融合策略对时空特征进行分类，从而最终实现多模态的情感识别，充分利用到了各模态中的有效信息，提升了情感识别准确概率。

在上述实施例的基础上，所述步骤S1之前还包括：对所述基于Alexnet的卷积神经网络、基于BLSTM的循环神经网络、全连接神经网络以及支持向量机进行训练。

具体的，将FABO数据库中，127个视频用于对基于Alexnet的卷积神经网络、基于BLSTM的循环神经网络、全连接神经网络以及支持向量机进行训练。

通过使用在人脸和身体具有变化的图像序列上，对基于Alexnet的卷积神经网络和基于BLSTM的循环神经网络进行训练，调整网络参数，得到特征提取模型。使用不同的面部活动的时空特征身体姿态的时空特征输入到支持向量机中，情感分类模型。

在上述实施例的基础上，步骤S1中对所述包含人脸的视频和对应的包含身体动作的视频进行预处理具体包括：对所述包含人脸的视频中每一帧图像进行人脸检测和对齐处理，将处理后的图像帧按时间顺序排列，获得所述人脸图像时间序列；对所述包含身体动作的视频中的每一帧图像进行归一化处理，将处理后的图像帧按照时间顺序排列，获得身体图像时间序列。

具体的，通过对所述包含人脸的视频中的每一个图像帧进行人脸检测操作和对齐处理，随后将处理后的每一帧图像，按照时间顺序进行排列，从而获得人脸图像时间序列，同时将所述包含身体动作的视频中的图像帧进行归一化处理，使得每一帧图像帧的格式一致，随后将处理后的图像帧组按照时间顺序进行排列，组成身体图像时间序列。

通过此方法，使得人脸图像时间序列和身体图像时间序列中的每一帧图像的格式相同，方便后续进行特征提取等操作。

在上述实施例的基础上，所述步骤S1中进一步包括：读取所述包含人脸的视频中每一个图像帧的标记，提取标记为开始、顶点和消失的图像帧，组成人脸图像时间序列；读取所述包含身体动作的视频中每一个图像帧的标记，提取标记为开始、顶点和消失的图像帧，组成身体图像时间序列。其中，所述图像帧的标记包括平复、开始、顶点和消失。

具体的，在待测数据的数据库中，视频的每一帧都进行了标记，在一个表情动作开始阶段的所有图像帧被标记为“开始”，在表情动作达到最大的时间段标记为“顶点”，将表情动作结束的时间段内所有的图像帧标记为“结束”，将其他没有表情进行表达的图像帧标记为“平复”。

在使用人脸图像时间序列和身体图像时间序列进行情感识别的过程中，可以使用包含所有图像帧的图像组成的时间序列，也可以选择只使用在表情动作达到最大的时间段的图像帧组成的时间序列，优选的，丢弃表情动作开始前和表情动作完毕以后的图像帧，仅选择在表情动作开始到结束的部分图像帧进行分类处理，将标记为“开始”、“顶点”、和“消失”的图像帧提取出来，组成时间序列，从而可以提升整体的识别精度，表1示出了基于不同的图像帧提取方法下通过人脸视频进行情感识别的结果，表2示出了基于不同的图像帧提取方法下通过身体动作进行情感识别的结果。

表1

时间序列筛选方法	MAA(％)	ACC(％)
			顶点序列	55.90	56.84
开始-顶点-消失序列	57.56	61.11
			整个周期所有序列	51.67	53.85

表2

时间序列筛选方法	MAA(％)	ACC(％)
			顶点序列	45.88	50.60
开始-顶点-消失序列	48.98	51.70
			整个周期所有序列	44.50	49.77

通过表1和表2可以看出，当选取视频中标记为“开始”、“顶点”和“消失”的图像帧组成时间序列进行情感识别相较于其他方案拥有更高的识别率。其中，MAA表示宏观平均准确率，ACC表示整体准确率，计算公式具体为：

P_i＝TP_i/(TP_i+FP_i)

式中，s是指情感类别数，P_i是指第i类情感的精度，i是指第i类中正确分类的个数，FP_i是指第i类中错误分类的个数。

在上述实施例的基础上，所述步骤S2具体包括：

S22，分别将所述第一人脸图像空间特征输入到基于BLSTM循环神经网络中，取出三个全连接层中前两个全连接层的数据作为人脸时空初始特征，将所述人脸时空初始特征进行主成分分析，从而实现空间转换和降维，获得第一人脸图像时空特征，将所述第一身体图像空间特征输入到基于BLSTM循环神经网络中，取出三个全连接层中前两个全连接层的数据作为身体时空初始特征，将所述身体时空初始特征进行主成分分析，从而实现空间转换和降维，获得第一身体图像时空特征。

具体的，参考图3，为了获取人脸图像时间序列和身体图像时间序列中的多层深度的时空特征，需要借助于卷积神经网络实现图像空间上的特征提取，再进一步的使用循环神经网络提取图像序列中的时间信息，本实施例中，通过使用基于Alexnet的卷积神经网络，分别对人脸图像时间序列和身体图像时间序列中的空间特征进行提取，优选的，在基于Alexnet的卷积神经网络中，最后三层都为全连接层，输出的特征维数分别为1024维、512维和10维，在此处将三个全连接层中前2层的输出数据作为出输出的初始空间特征，此处提取的初始特征维数一共有1536维，将这1536维特征进行主成分分析，从而实现空间转换和降维处理，使得纬度达到基于BLSTM的循环神经网络的输入标准，再将最后三个全连接层的中前2层的输出数据提取为初始时空特征，其中初始时空特征也为1536维，再对初始时空特征的1536维特征点进行主成分分析，从而实现空间转换和降维处理，最终获得时空特征。在这一步骤中，通过将人脸图像时间序列依次输入到训练好的基于Alexnet的卷积神经网络和训练好的基于BLSTM的循环神经网络，从而获得人脸图像时空特征，同样的，将身体图像时间序列依次输入到训练好的基于Alexnet的卷积神经网络和训练好的基于BLSTM的循环神经网络，从而获得身体图像时空特征，标记为第一人脸图像时空特征和第一身体图像时空特征。

通过此方法，实现了对图像的时间序列进行空间特征的提取和时间特征的提取。

在上述各实施例的基础上，所述步骤S1还包括：通过预设的滑动窗口长度，对所述人脸图像时间序列和所述身体图像时间序列进行切割，获得由多个人脸图像时间序列片段组成的人脸图像时间子序列组和多个身体图像时间序列片段组成的身体图像时间子序列组。

具体的，在获取了人脸图像时间序列和身体图像时间序列后，通过一个预设了窗口长度的滑窗，对时间序列进行切割，如图4所示，在一个长度为15的人脸图像时间序列中，包含有5帧图像帧标记为“开始”、5帧图像帧标记为“顶点”、5帧图像标记为“消失”，通过设置长度为6，滑动步长为1的滑窗，对序列进行切割，长度为15的人脸图像时间序列经过上述设置的滑窗后可以得到10个长度为6的人脸图像时间序列片段，组成人脸图像时间子序列组，其中滑窗的长度尽量定义到可以保证切割得到的时间序列片段中包含“开始”、“顶点”和“结束”三种类型的图像帧中至少两个种类型的图像帧，在对身体图像时间序列也进行切割，将切割后获得的身体图像时间序列片段组成身体片段时间子序列组。

表3示出了不同滑动窗口长度下基于人脸图像时间序列进行的情感识别结果，表4示出了不同滑窗长度下基于身体图像时间序列进行的情感识别结果。

表3

t	6	7	8	9	10
						MAA(％)	58.61	60.45	67.09	58.48	56.13
ACC(％)	59.00	61.25	66.46	59.03	57.21

表4

t	6	7	8	9	10
						MAA(％)	43.66	55.00	50.20	47.33	45.81
ACC(％)	44.85	55.98	51.83	48.76	46.00

通过表3和表4可以看出，当滑窗长度选择合适的长度的时候，识别的精确率高于表1和表2中使用整个时间序列而不进行时间序列切割的情感识别方式。

在上述各实施例的基础上，所述步骤S2中进一步包括：将所述人脸图像时间子序列组中的多个人脸图像时间序列片段依次输入到基于Alexnet的卷积神经网络和基于BLSTM的循环神经网络中，获得第二人脸图像时空特征；将所述身体图像时间子序列组中的多个身体图像时间序列片段依次输入到基于Alexnet的卷积神经网络和基于BLSTM的循环神经网络中，获得第二身体图像时空特征。

具体的，将所述人脸图像时间子序列组中的多个人脸图像时间序列片段和所述身体图像时间子序列组中的多个身体图像时间序列片段同样输入到训练好的基于Alexnet的卷积神经网络和基于BLSTM的循环神经网络中，分别获取人脸图像时间子序列组中所有时间序列片段的时空特征和身体动作图像时间子序列组中所有时间序列片段的时空特征，标记为第二人脸图像时空特征和第二身体动作图像时空特征。

通过此方法，对切割后多个时间序列片段进特征提取，可以获得新的人脸图像时空特征和新的身体动作图像时空特征，用于给分类器进行分类。

在上述各实施例的基础上，所述步骤S2中还包括：

具体的，与上述实施例中提取第一人脸时空特征和第一身体时空特征的方法一致，为了获取人脸图像时间序列和身体图像时间序列中的多层深度的时空特征，需要借助于卷积神经网络实现图像空间上的特征提取，再进一步的使用循环神经网络提取图像中的时间信息，本实施例中，通过使用基于Alexnet的卷积神经网络和基于BLSTM的循环神经网络来提取进行了滑动窗口切割的所有时间序列片段的时空特征，从而提取第二人脸时空特征和第二身体时空特征。此处神经网络中对特征的提取方式与上述实施例相同，此处不再赘述。

在上述各实施例的基础上，所述步骤S3中进一步包括：将所述第二人脸图像时空特征和所述第二身体图像时空特征串联输入到全连接神经网络中，将输出结果输入到支持向量机中，获得所述第二人脸图像时空特征和所述第二身体图像时空特征融合后，属于不同情感类型的概率矩阵，将此概率矩阵标记为第五概率矩阵，同时将所述第二人脸图像时空特征和所述第二身体图像时空特征串联输入到支持向量机中，获得所述第二人脸图像时空特征和所述第二身体图像时空特征串联后，属于不同情感类型的概率矩阵，将此概率矩阵标记为第六概率矩阵。

具体的，将所述第二人脸图像时空特征和所述第二身体图像时空特征串联，输入到训练好的全连接神经网络中，将全连接神经网络中倒数第二个全连接层的数据作为输出数据，进行主成分分析后，输入到训练好的支持向量机中，从而按照所述第二人脸图像时空特征和所述第二身体图像时空特征两种模态组合，获取所述第二人脸图像时空特征和所述第二身体图像时空特征属于不同情感类别的概率，构建第五分类概率矩阵。

另一方面，通过将所述第二人脸图像时空特征和所述第二身体图像时空特征进行串联，然后将串联后的特征输入到训练好的支持向量机中，从而可以获得串联后的第二人脸图像时空特征和所述第二身体图像时空特征属于不同情感类别的概率，将此概率组合，构建第六分类概率矩阵。

在上述实施例的基础上，所述步骤S4中进一步包括：将所述第一人脸图像时空特征输入到支持向量机中，获得所述第一人脸图像时空特征属于不同情感类型的概率矩阵，将此概率矩阵标记为第七概率矩阵，将所述第一身体图像特征输入到支持向量机中，获得所述第一身体图像时空特征属于不同情感类型的概率矩阵，将此概率矩阵标记为第八概率矩阵，将所述第五概率矩阵、第六概率矩阵、第七概率矩阵和第八概率矩阵进行决策融合，获得第二融合概率矩阵；将所述第一融合概率矩阵和所述第二融合概率矩阵进行决策融合，获得第三融合概率矩阵，将所述第三融合概率矩阵中概率最高感情类型作为感情识别结果

具体的，将所述第二人脸图像时空特征单独输入到训练好的支持向量机中，从而可以获得所述第二人脸图像时空特征属于不同情感类别的概率矩阵，将此概率矩阵标记为第七概概率矩阵，另一方面，将所述第二身体图像时空特征单独输入到训练好的支持向量机中，从而可以获得所述第二身体图像时空特征属于不同情感类别的概率矩阵，将此概率矩阵标记为第八概率矩阵。

参考图5，从图5中可以看出基于第五概率矩阵，第六概率矩阵，第七概率矩阵和第八概率矩阵中进行情感识别的识别率对比，将所述第五概率矩阵，第六概率矩阵，第七概率矩阵和第八概率矩阵进行决策融合，生成第二融合概率矩阵，可以达到图5中Multi4-2中示出的情感类型识别率。

最后通过将所述第一融合概率矩阵与所述第二融合概率矩阵再根据概率决策进行决策级融合，获得第三融合概率矩阵，在此集合中，选择概率最高的情感类别作为最终的识别结果。参考图6，图6示出了第一融合概率矩阵中对情感的识别率，和第二融合概率矩阵中对情感的识别率以及第三融合概率中对情感的识别率，在使用整个时间序列和进行滑窗切割后的时间序列片段组分别进行情感识别再将识别结果进行融合后，可以得到精确度在99％以上的情感识别。

通过此方法，采用多模态结合的情感识别方法，充分利用了带检测视频中各种模态的有效信息，提升了融合效率，同时提升了对情感识别的准确性。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模态情感识别分类方法，其特征在于，包括：

S3，将所述第一人脸图像时空特征和所述第一身体图像时空特征串联输入到全连接神经网络中，将输出结果输入到支持向量机中，获得所述第一人脸图像时空特征和所述第一身体图像时空特征融合后，属于不同情感类型的概率矩阵，将此概率矩阵标记为第一概率矩阵，同时将所述第一人脸图像时空特征和所述第一身体图像时空特征串联输入到支持向量机中，获得所述第一人脸图像时空特征和所述第一身体图像时空特征串联后，属于不同情感类型的概率矩阵，将此概率矩阵标记为第二概率矩阵；

2.根据权利要求1所述的方法，其特征在于，所述步骤S1之前还包括：对所述基于Alexnet的卷积神经网络、基于BLSTM的循环神经网络、全连接神经网络以及支持向量机进行训练。

3.根据权利要求1所述的方法，其特征在于，步骤S1中对所述包含人脸的视频和对应的包含身体动作的视频进行预处理具体包括：

4.根据权利要求3所述的方法，其特征在于，所述步骤S1中进一步包括：

其中，所述图像帧的标记包括平复、开始、顶点和消失。

5.根据权利要求1所述的方法，其特征在于，所述步骤S2具体包括：

6.根据权利要求1-5中任一所述的方法，其特征在于，所述步骤S1中还包括：

7.根据权利要求6所述的方法，其特征在于，所述步骤S2中进一步包括：

8.根据权利要求7所述的方法，其特征在于，所述步骤S2中还包括：

9.根据权利要求8所述的方法，其特征在于，所述步骤S3中进一步包括：

将所述第二人脸图像时空特征和所述第二身体图像时空特征串联输入到全连接神经网络中，将输出结果输入到支持向量机中，获得所述第二人脸图像时空特征和所述第二身体图像时空特征融合后，属于不同情感类型的概率矩阵，将此概率矩阵标记为第五概率矩阵，同时将所述第二人脸图像时空特征和所述第二身体图像时空特征串联输入到支持向量机中，获得所述第二人脸图像时空特征和所述第二身体图像时空特征串联后，属于不同情感类型的概率矩阵，将此概率矩阵标记为第六概率矩阵。

10.根据权利要求9所述的方法，其特征在于，所述步骤S4中进一步包括：