CN108596039A

CN108596039A - 一种基于3d卷积神经网络的双模态情感识别方法及***

Info

Publication number: CN108596039A
Application number: CN201810267991.8A
Authority: CN
Inventors: 卢官明; 郭迪; 闫静杰; 卢峻禾
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2018-09-28
Anticipated expiration: 2038-03-29
Also published as: CN108596039B

Abstract

本发明公开了一种基于3D卷积神经网络的双模态情感识别方法及***。该方法首先分别构建用于表情情感识别和姿态情感识别两种3D卷积神经网络，并基于双模态情感视频库的训练集和验证集优化网络模型参数；然后基于双模态情感视频库的测试集分别对优化后的两种神经网络进行测试，得到表情情感识别混淆矩阵和姿态情感识别混淆矩阵；最后利用表情情感识别混淆矩阵和姿态情感识别混淆矩阵的先验知识，将对新输入的表***序列和姿态视频序列的两种模态的识别结果进行融合，得到双模态的情感分类结果。该方法采用3D卷积神经网络和双模态融合算法，避免了人工设计特征的主观性，克服了单模态情感识别的局限性，并能有效提高情感识别的准确性和鲁棒性。

Description

一种基于3D卷积神经网络的双模态情感识别方法及***

技术领域

本发明属于机器学习与模式识别领域，涉及一种视频情感识别方法及***，特别涉及一种基于3D卷积神经网络的双模态情感识别方法及***。

背景技术

随着科学技术的高速发展，人类对计算机的依赖不断增强，人机交互能力受到研究者的重视。计算机科学发展的重要目标之一就是如何实现计算机的拟人化，这已经成为了该领域研究的一个热点问题。在人机交互中所需要解决的一个关键问题是实现计算机的情感识别能力。

情感识别能力是计算机智能的一个重要方面，它反映了计算机通过对获取的信息判断操作者或对话者的情感状态的能力。通过研究情感识别技术，让机器可以识别了解人的情感，人们就可以建立更加友好、和谐的人机交互环境。情感识别技术在人机交互、医疗、安全、教育以及娱乐等领域具有广阔的应用前景。随着情感识别技术研究的深入和计算机情感识别能力的不断提高，必将大大提高人类的生活质量。

目前，情感识别的研究很大一部分是针对面部表情、语音或脑电信号等单一模态进行的。相比单模态，两种或多种模态拥有更多的情感信息。人类也是通过多模态的方式来表达情感信息的。因此，深度挖掘和融合多种模态信号，是进一步提高情感识别性能的一种有效途径。

中国专利申请“一种复合时空特征的双模态视频情感识别方法”(专利申请号201611096937.9，公开号CN106529504A)，通过分别提取上身姿态样本和人脸表情样本的时空局部三值模式矩(TSLTPM)直方图特征和三维梯度方向(3DHOG)直方图特征，构成相应样本的上身姿态复合时空特征和人脸表情复合时空特征，最后使用D-S证据理论判决规则对复合时空特征测试集进行分类，得到情感识别结果。该方法采用人工设计的特征，特征提取过程较为繁琐，且复杂度较高，此外，在采用D-S证据理论判决规则进行融合时，会产生因基本概率分配函数的微小变化而导致融合结果截然不同的不稳定性，以及在处理完全冲突或高度冲突证据时产生有悖于常理的结果。

中国专利申请“基于表情和行为双模态结合的人类自然状态情感识别方法”(专利申请号201610654684.6，公开号CN106295568A)，采用两级分类模式的情感认知架构，首先将提取的人体躯干运动特征与事先建立的人体躯干运动特征库进行匹配比对，获得情感粗分类结果；然后，从事先建立的人脸表情特征库查找出与所提取的人脸表情特征相匹配的人脸表情特征，输出对应的情感细分类结果。该方法存在的最大问题是无法提取有效的人体躯干运动特征，以及难以建立有效的人体躯干运动特征库和人脸表情特征库。

发明内容

发明目的：针对现有技术的不足，本发明目的在于提供一种基于3D卷积神经网络的双模态情感识别方法及***，通过强大的特征学习与分类能力，简化特征的提取，并提高情感识别的准确性和鲁棒性。

技术方案：本发明为实现上述发明目的采用以下技术方案：

一种基于3D卷积神经网络的双模态情感识别方法，包括以下步骤：

(1)同时获取每一个人的面部表***片段和身体姿态视频片段样本，将每一个视频片段剪辑成一个等长的帧序列，建立包含情感类别标签的表情和姿态双模态情感视频库，并将双模态情感视频库的样本划分为训练集、验证集和测试集；

(2)利用训练集和验证集中的表***序列和姿态视频序列分别对构建的第一3D卷积神经网络和第二3D卷积神经网络进行训练，优化网络模型参数；所述训练集用于网络训练，每训练迭代预设次数后，在验证集上进行一次测试，用于验证网络参数的选取是否合理；所述第一3D卷积神经网络和第二3D卷积神经网络均包括：

数据输入层，用于输入视频序列，对视频序列中的每帧图像进行归一化处理；

至少2个卷积层和池化层的组合模块，其中卷积层采用若干3D卷积核对上一层的输出进行卷积运算，池化层用于对卷积层的输出进行下采样操作；

全连接层，用于将上一层池化层的输出全连接至本层的输出神经元，输出一个特征向量；

以及，分类层，用于将全连接层输出的特征向量全连接到表示情感类别的输出节点，输出一个n维向量，其中n为情感类别数目；

作为优选，所述第一3D卷积神经网络，包括顺序连接的1个数据输入层、至少2个卷积层和池化层的组合模块、1个全连接层和1个Softmax分类层；

所述数据输入层为第一层，输入为表***序列，对视频序列中的每帧图像进行归一化处理；所述表***序列的长度为16、24或32帧；

所述卷积层和池化层的组合模块，包含1个卷积层和1个池化层，其中，卷积层包含ReLU非线性激活函数层，选用m₁个d₁×k₁×k₁的3D卷积核对上一层的输出进行卷积运算，其中，d₁、k₁在3、5、7数值中选取，m₁在32、64、128、256、512数值中选取；池化层选用d₂×k₂×k₂的池化核对上一层卷积层的输出进行下采样操作，其中，d₂、k₂在1、2、3数值中选取；

所述全连接层将上一层池化层的输出全连接至本层的c个输出神经元，输出一个c维的特征向量，其中，c在256、512、1024数值中选取；

所述Softmax分类层将上一层全连接层输出的特征向量全连接到n个输出节点，经过Softmax回归后得到一个n维向量[p₁ p₂ p₃ … p_n]^T，其中每一个维度的数值就是输入视频序列的情感类别属于对应类别的概率；n为情感类别数目。

作为优选，所述第二3D卷积神经网络，包括顺序连接的1个数据输入层、至少2个卷积层和池化层的组合模块、1个全连接层和1个Softmax分类层；

所述数据输入层为第一层，输入为姿态视频序列，对视频序列中的每帧图像进行归一化处理；所述姿态视频序列的长度为16、24或32帧；

所述卷积层和池化层的组合模块，包含1个卷积层和1个池化层，其中，卷积层包含ReLU非线性激活函数层，选用m₂个d₃×k₃×k₃的3D卷积核对上一层的输出进行卷积运算，其中，d₃、k₃在3、5、7数值中选取，m₂在32、64、128、256、512数值中选取；池化层选用d₄×k₄×k₄的池化核对上一层卷积层的输出进行下采样操作，其中，d₄、k₄在1、2、3数值中选取；

所述Softmax分类层将上一层全连接层输出的特征向量全连接到n个输出节点，经过Softmax回归后得到一个n维向量[q₁ q₂ q₃ … q_n]^T，其中每一个维度的数值就是输入视频序列的情感类别属于对应类别的概率。

(3)利用优化后的第一3D卷积神经网络对测试集中的表***序列样本进行情感分类识别，得到一个n维向量，比较向量的每一个维度的数值大小，其中数值最大的维度所对应的类别就是该样本的情感类别；对测试集中的所有表***序列样本进行重复测试，统计分类识别结果，得到表情情感分类识别混淆矩阵E，即

同理，利用优化后的第二3D卷积神经网络对测试集中的姿态视频序列样本进行情感分类识别，得到一个n维向量，比较向量的每一个维度的数值大小，其中数值最大的维度所对应的类别就是该样本的情感类别；对测试集中的所有姿态视频序列样本进行重复测试，统计分类识别结果，得到姿态情感分类识别混淆矩阵G，即

(4)利用优化后的第一3D卷积神经网络和第二3D卷积神经网络分别对新输入的表***序列和姿态视频序列进行情感分类识别，得到表情和姿态两种模态的情感分类识别结果；

(5)利用步骤(3)得到的表情情感分类识别混淆矩阵E和姿态情感分类识别混淆矩阵G的先验知识，将步骤(4)得到的两种模态的情感分类识别结果在决策层进行加权融合，得到双模态的情感分类结果，具体的步骤如下：

(5.1)对表情情感分类识别混淆矩阵E主对角线上的元素的数值进行归一化，得到

(5.2)对姿态情感分类识别混淆矩阵G主对角线上的元素的数值进行归一化，得到

(5.3)将表情和姿态两种模态的情感分类识别结果进行加权融合，得到一个新的n维向量V，即

比较向量V中每一个维度的数值大小，其中数值最大的维度所对应的类别就是输入视频序列的情感类别。

本发明另一方面提供的一种基于3D卷积神经网络的双模态情感识别***，包括：

预处理模块，用于同时获取每一个人的面部表***片段和身体姿态视频片段样本，将每一个视频片段剪辑成一个等长的帧序列，建立包含情感类别标签的表情和姿态双模态情感视频库，并将双模态情感视频库的样本划分为训练集、验证集和测试集；

网络模型训练模块，利用训练集和验证集中的表***序列和姿态视频序列分别对构建的第一3D卷积神经网络和第二3D卷积神经网络进行训练，优化网络模型参数；所述第一3D卷积神经网络和第二3D卷积神经网络均包括：数据输入层，用于输入视频序列，对视频序列中的图像进行归一化处理；至少2个卷积层和池化层的组合模块，其中卷积层采用若干3D卷积核对上一层的输出进行卷积运算，池化层用于对卷积层的输出进行下采样操作；全连接层，用于将上一层池化层的输出全连接至本层的输出神经元，输出一个特征向量；以及，分类层，用于将全连接层输出的特征向量全连接到表示情感类别的输出节点，输出一个n维向量，其中n为情感类别数目；

混淆矩阵获取模块，用于分别利用优化后的第一3D卷积神经网络和第二3D卷积神经网络对测试集中的表***序列样本和姿态视频序列样本进行情感分类识别，并统计分类识别结果，得到n×n的表情情感分类识别混淆矩阵和姿态情感分类识别混淆矩阵；

表情和姿态情感分类识别模块，利用优化后的第一3D卷积神经网络和第二3D卷积神经网络分别对新输入的表***序列和姿态视频序列进行情感分类识别，得到表情和姿态两种模态的情感分类识别结果；

以及，决策模块，用于利用混淆矩阵获取模块得到的表情情感分类识别混淆矩阵和姿态情感分类识别混淆矩阵的先验知识，将表情和姿态情感分类识别模块得到的两种模态的情感分类识别结果在决策层进行加权融合，得到双模态的情感分类结果。

有益效果：与现有技术相比，本发明具有以下技术效果：

(1)本发明采用3D卷积神经网络提取视频片段的时域和空域特征，将特征提取从静态图像拓展到图像序列，通过训练网络自适应地调整参数，可以自主提取能够反映时间信息的动态特征，提取到的情感特征可以更好地表征面部表情和身体姿态的变化，相对于传统的人工设计特征，具有更强的表征能力和泛化能力，从而最终提升分类识别的准确性。

(2)本发明采用融合面部表情和身体姿态两种模态的信息进行情感分类识别，克服了单模态情感分类识别的局限性。

(3)本发明在决策层对表情和姿态两种模态的识别结果进行加权融合时，利用表情和姿态两种模态的情感分类识别混淆矩阵的先验知识来确定加权的权重值，可以克服采用D-S证据理论判决规则进行融合时因基本概率分配函数的微小变化而导致融合结果截然不同的不稳定性，以及在处理完全冲突或高度冲突证据时产生有悖于常理的结果等问题，能有效地提高情感识别的准确性和鲁棒性。

附图说明

图1是本发明的一种基于3D卷积神经网络的双模态情感识别方法的流程图；

图2是本发明的一种基于3D卷积神经网络的双模态情感识别方法的基本架构图；

图3是FABO数据库中的部分视频截取的图像；(a)-(c)为不同面部表***截图，(d)-(f)为不同身体姿态视频截图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式做进一步详细的说明。

如图1所示，本发明实施例提供的一种基于3D卷积神经网络的双模态情感识别方法，主要包括如下步骤：

步骤1：同时获取每一个人的面部表***片段和身体姿态视频片段样本，将每一个视频片段剪辑成一个等长的帧序列，建立包含情感类别标签的表情和姿态双模态情感视频库，并将双模态情感视频库的样本按照一定的比例划分为训练集、验证集和测试集。

本实施例中，选取FABO(A Bimodal Face and Body Gesture Database)双模态情感视频数据库。在实际中，也可以采用其他的视频数据库，或自行采用双摄像机采集面部表***和身体姿态视频，建立包含情感类别标签的表情和姿态双模态情感视频库。本实施例的FABO数据库提供的样本包含了23个人，每个人有9种不同的情感类别，包括生气、焦虑、厌倦、厌恶、害怕、伤心、惊讶、高兴、不确定。鉴于FABO数据库包含的“伤心”和“惊讶”两种情感类别的样本数不足，我们选取了生气、焦虑、厌倦、厌恶、害怕、高兴、不确定7种情感类别的样本，分别用1～7作为情感类别标签；对数据库中的视频样本进行预处理，按照4:1:1的比例任意选取视频样本分别作为训练集、验证集和测试集，每个视频片段截取成一个16帧长的帧序列，将各个样本集的视频序列及标签存储为lst文件。实际应用时，帧长可以在16、24、32数值中选取。

步骤2：分别构建两种3D卷积神经网络，其中，第一3D卷积神经网络用于面部表情情感识别，第二3D卷积神经网络用于身体姿态情感识别。

构建的第一3D卷积神经网络，包括顺序连接的1个数据输入层、至少2个卷积层和池化层的组合模块、1个全连接层和1个Softmax分类层；

数据输入层为第一层，输入为表***序列，对视频序列中的每帧图像进行归一化处理；

卷积层和池化层的组合模块，包含1个卷积层和1个池化层，其中，卷积层包含ReLU非线性激活函数层，选用m₁个d₁×k₁×k₁的3D卷积核对上一层的输出进行卷积运算，其中，m₁、d₁、k₁为正整数，d₁、k₁在3、5、7数值中选取，m₁在32、64、128、256、512数值中选取；池化层选用d₂×k₂×k₂的池化核对上一层卷积层的输出进行下采样操作，其中，d₂、k₂为正整数，d₂、k₂在1、2、3数值中选取；

全连接层将上一层池化层的输出全连接至本层的c个输出神经元，输出一个c维的特征向量，其中，c为正整数，在256、512、1024数值中选取；

Softmax分类层将上一层全连接层输出的特征向量全连接到n个输出节点，经过Softmax回归后得到一个n维向量，其中每一个维度的数值就是输入视频序列的情感类别属于对应类别的概率。

构建的第二3D卷积神经网络，包括顺序连接的1个数据输入层、至少2个卷积层和池化层的组合模块、1个全连接层和1个Softmax分类层；

数据输入层为第一层，输入为姿态视频序列，对视频序列中的每帧图像进行归一化处理；

卷积层和池化层的组合模块，包含1个卷积层和1个池化层，其中，卷积层包含ReLU非线性激活函数层，选用m₂个d₃×k₃×k₃的3D卷积核对上一层的输出进行卷积运算，其中，m₂、d₃、k₃为正整数，d₃、k₃在3、5、7数值中选取，m₂在32、64、128、256、512数值中选取；池化层选用d₄×k₄×k₄的池化核对上一层卷积层的输出进行下采样操作，其中，d₄、k₄为正整数，d₄、k₄在1、2、3数值中选取；

基于本实施例的所采用的数据库，可以构建两种结构相同、模型参数不同的3D卷积神经网络，如图2所示，具体结构如下：

第一层为数据输入层，将输入的16帧长的视频序列中的每一帧图像归一化为112×112像素；

第二层为卷积层1，选用64个3×3×3的3D卷积核对第一层数据输入层输出的特征图组进行卷积操作，卷积步长为1，进行补零(Zero Padding)操作加边的长度为1，卷积后再经过修正线性单元(ReLU)函数进行非线性映射，输出64个特征图组，每个特征图组包含16个大小为112×112的特征图；

第三层为池化层1，选用1×2×2的池化核，以步长2对卷积层1输出的特征图组进行下采样操作，输出64个特征图组，每个特征图组包含16个大小为56×56的特征图；

第四层为卷积层2，选用128个3×3×3的3D卷积核对池化层1输出的特征图组进行卷积操作，卷积步长为1，进行补零操作加边的长度为1，卷积后再经过修正线性单元(ReLU)函数进行非线性映射，输出128个特征图组，每个特征图组包含16个大小为56×56的特征图；

第五层为池化层2，选用2×2×2的池化核，以步长2对卷积层2输出的特征图组进行下采样操作，输出128个特征图组，每个特征图组包含8个大小为28×28的特征图；

第六层为卷积层3，选用256个3×3×3的3D卷积核对池化层2输出的特征图组进行卷积操作，卷积步长为1，进行补零操作加边的长度为1，卷积后再经过修正线性单元(ReLU)函数进行非线性映射，输出256个特征图组，每个特征图组包含8个大小为28×28的特征图；

第七层为池化层3，选用2×2×2的池化核，以步长2对卷积层3输出的特征图组进行下采样操作，输出256个特征图组，每个特征图组包含4个大小为14×14的特征图；

第八层为卷积层4，选用256个3×3×3的3D卷积核对池化层3输出的特征图组进行卷积操作，卷积步长为1，进行补零操作加边的长度为1，卷积后再经过修正线性单元函数进行非线性映射，输出256个特征图组，每个特征图组包含4个大小为14×14的特征图；

第九层为池化层4，选用2×2×2大小的池化核，以步长2对卷积层4输出的特征图组进行下采样操作，输出256个特征图组，每个特征图组包含2个大小为7×7的特征图；

第十层为全连接层，将池化层4的输出全连接至本层的512个输出神经元，输出一个512维的特征向量，将其再经过ReLU函数非线性变换，然后使用Dropout方法调整连接权重，全连接数目为512个；

第十一层为分类层，采用Softmax分类器，将第十层全连接层输出的特征向量全连接到7个输出节点，经过Softmax回归后得到一个7维向量，其中每一个维度的数值就是输入视频序列的情感类别属于对应类别的概率；

构建好上述两种3D卷积神经网络后，以双模态情感视频库中的表***序列和姿态视频序列作为输入，分别对相应的3D卷积神经网络进行训练，利用反向传播算法优化两种3D卷积神经网络的模型参数。

步骤3：利用训练集和验证集中的表***序列对第一3D卷积神经网络进行训练，利用训练集和验证集中的姿态视频序列对第二3D卷积神经网络进行训练，优化网络模型参数。其中，训练集用于网络训练，每训练迭代预设次数后，在验证集上进行一次测试，用于验证网络参数的选取是否合理。

步骤4：利用优化后的第一3D卷积神经网络对测试集中的表***序列样本进行情感分类识别，得到一个7维向量，比较向量的每一个维度的数值大小，其中数值最大的维度所对应的类别就是该样本的情感类别；对测试集中的所有表***序列样本进行重复测试，统计分类识别结果，得到表情情感分类识别混淆矩阵E，即

同理，利用优化后的第二3D卷积神经网络对测试集中的姿态视频序列样本进行情感分类识别，得到一个7维向量，比较向量的每一个维度的数值大小，其中数值最大的维度所对应的类别就是该样本的情感类别；对测试集中的所有姿态视频序列样本进行重复测试，统计分类识别结果，得到姿态情感分类识别混淆矩阵G，即

步骤5：利用优化后的第一3D卷积神经网络和第二3D卷积神经网络分别对新输入的表***序列和姿态视频序列进行情感分类识别，得到表情和姿态两种模态的情感分类识别结果；

步骤6：利用步骤4得到的表情情感分类识别混淆矩阵E和姿态情感分类识别混淆矩阵G的先验知识，将步骤5得到的两种模态的情感分类识别结果在决策层进行加权融合，得到双模态的情感分类结果，具体的步骤如下：

(6.1)对表情情感分类识别混淆矩阵E主对角线上的元素的数值进行归一化，得到

(6.2)对姿态情感分类识别混淆矩阵G主对角线上的元素的数值进行归一化，得到

(6.3)将表情和姿态两种模态的情感分类识别结果进行加权融合，得到一个新的7维向量V，即

本发明实施例提出的一种基于3D卷积神经网络的双模态情感识别方法，和传统的双模态情感识别方法相比，提取到的情感特征相对于人工设计特征具有更强的表征能力和泛化能力，从而最终提升分类识别的准确性。此外，在决策层对表情和姿态两种模态的识别结果进行加权融合时，利用表情和姿态两种模态的情感分类识别混淆矩阵的先验知识来确定加权的权重值，可以克服采用D-S证据理论判决规则进行融合时因基本概率分配函数的微小变化而导致融合结果截然不同的不稳定性，以及在处理完全冲突或高度冲突证据时产生有悖于常理的结果等问题，能有效地提高情感识别的准确性和鲁棒性。

本发明另一实施例提供的一种基于3D卷积神经网络的双模态情感识别***，包括：预处理模块，用于同时获取每一个人的面部表***片段和身体姿态视频片段样本，将每一个视频片段剪辑成一个等长的帧序列，建立包含情感类别标签的表情和姿态双模态情感视频库，并将双模态情感视频库的样本划分为训练集、验证集和测试集；网络模型训练模块，利用训练集和验证集中的表***序列和姿态视频序列分别对构建的第一3D卷积神经网络和第二3D卷积神经网络进行训练，优化网络模型参数；所述第一3D卷积神经网络和第二3D卷积神经网络均包括：数据输入层，用于输入视频序列，对视频序列中的图像进行归一化处理；至少2个卷积层和池化层的组合模块，其中卷积层采用若干3D卷积核对上一层的输出进行卷积运算，池化层用于对卷积层的输出进行下采样操作；全连接层，用于将上一层池化层的输出全连接至本层的输出神经元，输出一个特征向量；以及，分类层，用于将全连接层输出的特征向量全连接到表示情感类别的输出节点；混淆矩阵获取模块，用于分别利用优化后的第一3D卷积神经网络和第二3D卷积神经网络对测试集中的表***序列样本和姿态视频序列样本进行情感分类识别，并统计分类识别结果，得到的表情情感分类识别混淆矩阵和姿态情感分类识别混淆矩阵；表情和姿态情感分类识别模块，利用优化后的第一3D卷积神经网络和第二3D卷积神经网络分别对新输入的表***序列和姿态视频序列进行情感分类识别，得到表情和姿态两种模态的情感分类识别结果；以及，决策模块，用于利用混淆矩阵获取模块得到的表情情感分类识别混淆矩阵和姿态情感分类识别混淆矩阵的先验知识，将表情和姿态情感分类识别模块得到的两种模态的情感分类识别结果在决策层进行加权融合，得到双模态的情感分类结果。

上述基于3D卷积神经网络的双模态情感识别***实施例可以用于执行上述基于3D卷积神经网络的双模态情感识别方法实施例，其技术原理、所解决的技术问题及产生的技术效果相似，上述描述的基于3D卷积神经网络的双模态情感识别的具体工作过程及有关说明，可以参考前述基于3D卷积神经网络的双模态情感识别方法实施例中的对应过程，在此不再赘述。

本领域技术人员可以理解，可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个***中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于3D卷积神经网络的双模态情感识别方法，其特征在于，包括以下步骤：

(2)利用训练集和验证集中的表***序列和姿态视频序列分别对构建的第一3D卷积神经网络和第二3D卷积神经网络进行训练，优化网络模型参数；所述第一3D卷积神经网络和第二3D卷积神经网络均包括：

(3)分别利用优化后的第一3D卷积神经网络和第二3D卷积神经网络对测试集中的表***序列样本和姿态视频序列样本进行情感分类识别，并统计分类识别结果，得到n×n的表情情感分类识别混淆矩阵E和姿态情感分类识别混淆矩阵G；

(5)利用步骤(3)得到的表情情感分类识别混淆矩阵E和姿态情感分类识别混淆矩阵G的先验知识，将步骤(4)得到的两种模态的情感分类识别结果在决策层进行加权融合，得到双模态的情感分类结果。

2.根据权利要求1所述的一种基于3D卷积神经网络的双模态情感识别方法，其特征在于，所述第一3D卷积神经网络，包括顺序连接的1个数据输入层、至少2个卷积层和池化层的组合模块、1个全连接层和1个Softmax分类层；

所述Softmax分类层将上一层全连接层输出的特征向量全连接到n个输出节点，经过Softmax回归后得到一个n维向量[p₁ p₂ p₃ … p_n]^T，其中每一个维度的数值就是输入表***序列的情感类别属于对应类别的概率；n为情感类别数目。

3.根据权利要求1所述的一种基于3D卷积神经网络的双模态情感识别方法，其特征在于，所述第二3D卷积神经网络，包括顺序连接的1个数据输入层、至少2个卷积层和池化层的组合模块、1个全连接层和1个Softmax分类层；

所述Softmax分类层将上一层全连接层输出的特征向量全连接到n个输出节点，经过Softmax回归后得到一个n维向量[q₁ q₂ q₃ … q_n]^T，其中每一个维度的数值就是输入姿态视频序列的情感类别属于对应类别的概率；n为情感类别数目。

4.根据权利要求1所述的一种基于3D卷积神经网络的双模态情感识别方法，其特征在于，所述步骤(5)包括：

比较向量V中每一个维度的数值大小，其中数值最大的维度所对应的类别就是输入视频序列的情感类别；其中[p₁ p₂ p₃ … p_n]^T和[q₁ q₂ q₃ … q_n]^T分别为第一3D卷积神经网络和第二3D卷积神经网络分类层输出的识别结果向量。

5.一种基于3D卷积神经网络的双模态情感识别***，其特征在于，包括：