CN111583964B

CN111583964B - 一种基于多模深度特征学习的自然语音情感识别方法

Info

Publication number: CN111583964B
Application number: CN202010290317.9A
Authority: CN
Inventors: 张石清; 赵小明
Original assignee: Taizhou University
Current assignee: Taizhou University
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2023-07-21
Anticipated expiration: 2040-04-14
Also published as: CN111583964A

Abstract

本发明公开了一种基于多模深度特征学习的自然语音情感识别方法，包括以下步骤：S1、生成适当的多模态表示：从原始的一维语音信号中生成三种适当的音频表示形式，用于后续不同CNN模型的输入；S2、采用多重深度卷积神经网络模型学习多模态特征；S3、采用分数级别融合方法，将不同的CNN模型分类结果进行集成，输出最终的语音情感识别的结果。本发明通过多重深度卷积神经网络融合学习具有互补性特点的深层多模态特征，显著改善情感分类性能，为自然语音情感识别提供良好判别力的特征。

Description

一种基于多模深度特征学习的自然语音情感识别方法

技术领域

本发明涉及语音信号处理、模式识别的技术领域，尤其涉及一种基于多模深度特征学习的自然语音情感识别方法。

背景技术

近年来，自然语音情感识别已经成为模式识别、语音信号处理、人工智能等领域中活跃而富有挑战性的研究课题，和传统的输入设备不同，自然语音情感识别旨在通过与计算机直接的语音交互模式，来提供可用于语音呼叫中心、医疗保健和情感计算的智能情感服务。

目前，在语音情感识别领域，大量的前期工作主要是针对模拟情感而进行的，因为这种模拟情感数据库的建立相对自然情感而言，要容易得多。近年来，针对实际环境下的自然语音情感识别方面的研究备受研究者的关注，因为它更接近实际，而且比模拟情感的识别要困难得多。

语音情感特征提取，是语音情感识别中的一个关键步骤，其目的是从情感语音信号中提取能够反映说话人情感表达信息的特征参数。目前，大量语音情感识别文献采用了手工设计的特征用于情感识别，如韵律特征(基频、振幅、发音持续时间)、音质特征(共振峰、频谱能量分布、谐波噪声比)、谱特征(梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)和线性预测倒谱系数(LPCC))。然而，这些手工设计的语音情感特征参数属于低层次的特征，与人类理解的情感标签还存在“语义鸿沟”问题，因此有必要发展高层次的语音情感特征提取方法。

为了解决这个问题，近年来新出现的深度学习技术可能提供了线索，由于用了更深层次的体系结构，因此深度学习技术通常比传统方法具有某些优势，包括它们能够自动检测复杂的结构和特征而无需人工提取特征的能力。

到目前为止，各种代表性深度学习技术，如深度神经网络(DNN)、深度卷积神经网络(CNN)、基于长短期记忆的递归神经网络(LSTMRNN)等，都已经被用于语音情感识别。

例如，一种在中国专利文献上公开的“一种基于多尺度深度卷积循环神经网络的语音情感识别方法”(公告号CN108717856A)，将深度卷积神经网络(CNN)与长短时记忆网络(LSTM)相结合，并同时考虑不同长度的二维(2D)语音频谱片段信息对不同情感类型识别的判别力不同的特性，提出一种多尺度CNN+LSTM的混合深度学习模型，并应用于实际环境下的自然语音情感识别，但是这种采用2D语音频谱片段信息作为CNN输入的语音情感识别方法，无法捕获一句语音中连续帧之间的2D时频(time-frequency)中特征表示的动态变化信息，从而不能为自然语音情感识别提供良好判别力的特征参数。尽管LSTM-RNN能够用于时间信息的建模，但过于强调时间信息。

发明内容

本发明是为了克服现有技术中无法捕获一句语音中连续帧之间的2D时频特征表示中的动态变化信息，从而不能为自然语音情感识别提供良好判别力的特征参数的不足之处，提供一种基于多模深度特征学习的自然语音情感识别方法，通过多重深度卷积神经网络融合学习深层多模态特征，显著改善情感分类性能，为自然语音情感识别提供良好判别力的特征。

为了实现上述目的，本发明采用以下技术方案：

一种基于多模深度特征学习的自然语音情感识别方法，所述方法包括以下步骤：

S1、生成适当的多模态表示：从原始的一维语音信号中生成三种适当的音频表示形式，用于后续不同CNN模型的输入；

S2、采用多重深度卷积神经网络模型学习多模态特征；

S3、采用分数级别融合方法，将不同的CNN模型分类结果进行集成，输出最终的语音情感识别的结果。

本发明方案考虑到采用多重深度卷积神经网络模型(Multi-CNN)，即一维卷积神经网络(1D-CNN)、二维卷积神经网络(2D-CNN)和三维卷积神经网络(3D-CNN)学习到的深度多模态特征具有一定的互补性的特点，用于自然语音情感识别，克服现有技术中无法捕获一句语音中连续帧之间的2D时频特征表示中的动态变化信息的技术问题，通过多重深度卷积神经网络融合学习具有互补性特点的深层多模态特征，显著改善情感分类性能，为自然语音情感识别提供良好判别力的特征。

作为优选，所述步骤S1包括以下步骤：

S1.1、将一维原始语音信号波形分割成片段，输入到一维卷积神经网络，并设置语音片段长度；

S1.2、从一维原始语音信号中提取出二维Mel频谱图，并构建出类似于RGB图像的三通道频谱片段，作为二维卷积神经网络的输入；

S1.3、将多个连续二维Mel频谱片段序列组成一个类似于视频的3D动态片段，作为三维卷积神经网络的输入，进行时空特征学习。

作为优选，所述步骤S2包括以下步骤：

S2.1、采用一维卷积神经网络进行一维原始语音信号波形建模：构建一维卷积神经网络模型，并对构建的一维卷积神经网络模型进行训练；

S2.2、使用二维卷积神经网络进行二维Mel频谱建模：针对目标数据，微调现有的预先训练好的AlexNet深度卷积神经网络模型，并采样已生成的三通道的Mel频谱片段大小；

S2.3、基于三维卷积神经网络的时空动态信息建模：基于提取的类视频3D动态片段，执行时空特征学习任务，采用dropout正则化的方法来避免网络过度拟合。

作为优选，所述的一维卷积神经网络模型包括四个一维卷积层、三个最大池化层、两个全连接层和1个Softmax分类输出层，所述一维卷积层包括批处理归一化层和修正线性单元激活函数层，即在一维卷积神经网络训练前对输入数据做归一化处理。

作为优选，所述AlexNet深度卷积神经网络模型包括五个卷积层、三个最大池化层以及两个全连接层。

作为优选，所述步骤S2.2中微调包括以下步骤：

1)从预先训练的AlexNet深度卷积神经网络模型复制整个网络参数，以初始化使用的二维卷积神经网络；

2)利用新的样本标签矢量替换AlexNet深度卷积神经网络模型中的softmax输出层，该标签矢量对应于数据集中使用的情感类别的数量；

3)使用标准的反向传播策略对使用过的二维卷积神经网络进行重新训练。

微调被广泛用于计算机视觉中的转移学习，并缓解了数据不足的问题。

作为优选，所述步骤S2.3中的三维卷积神经网络包括两个三维卷积层、两个三维最大池化层、两个全连接层和一个softmax输出层，所述三维卷积层包括批处理归一化层和修正线性单元激活函数层。

作为优选，所述步骤S3包括以下步骤：

S3.1、对一维卷积神经网络、二维卷积神经网络和三维神经网络进行网络训练，更新网络参数；

S3.2、对从一维卷积神经网络、二维卷积神经网络和三维神经网络获得的片段分类结果，采用平均池化策略对一句语音中所有划分的片段分类结果执行平均运算，从而产生整句语音层次上的情感分类得分结果；

S3.3、将这些针对整句语音层次上的情感分类得分结果最大化，获得每个卷积神经网络的情感识别结果；

S3.4、利用分数级别融合策略组合不同的卷积神经网络模型在整句语音层次上得到的分类得分结果，以进行最终的情感分类。

作为优选，所述步骤S3.4可以表示为：

score^fusion＝λ₁score^1D+λ₂score^2D+λ₃score^3D；

λ₁+λ₂+λ₃＝1；

其中λ₁、λ₂和λ₃表示通过一维卷积神经网络、二维卷积神经网络和三维卷积神经网络获得的不同分类得分的权重值，λ₁、λ₂和λ₃的确定是通过以0.1的间隔步伐在[0,1]范围内进行搜索得到的最优值确定。

作为优选，所述步骤S3.1中更新网络参数如下表达式所示：

其中W表示网络参数θ的softmax层的权重值，表示是与输入数据a_i相对应的最后一层全连接层(FC)层的输出，y_i表示第i段的类标签向量，等于整句语音的情感类别，H代表softmax对数损失函数，所述H如下表达式所述：/>其中C代表情感类别的总数。

本发明的有益效果是：克服现有技术中无法捕获一句语音中连续帧之间的2D时频特征表示中的动态变化信息，从而不能为自然语音情感识别提供良好判别力的特征参数，且过于强调时间信息的技术问题，通过多重深度卷积神经网络融合学习具有互补性特点的深层多模态特征，显著改善情感分类性能，为自然语音情感识别提供良好的判别力特征。

附图说明

图1是本发明的一种总体架构框图。

图2是本发明的分数级融合在AFEW5.0数据集上的识别结果的一种混淆矩阵图。

图3是本发明的分数级融合在BAUM-1s数据集上的识别结果的一种混淆矩阵图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例1：本实施例的一种基于多模深度特征学习的自然语音情感识别方法，如图1所示，包括以下步骤：

S1、生成适当的多模态表示：从原始的一维语音信号中生成三种适当的音频表示形式，用于后续不同CNN模型的输入。

步骤S1包括以下步骤：

S1.1、将一维原始语音信号波形分割成片段，输入到一维卷积神经网络(1D-CNN)，并设置语音片段长度；为了获得最佳的性能，将语音片段的长度设置为625帧，原始语音信号在22kHz下采样，并缩放为[-256，256]。在这种情况下，缩放后的数据自然接近于零，因此不需要减去平均值。

S1.2、从一维原始语音信号中提取出二维Mel频谱图，并构建出类似于RGB图像的三通道频谱片段，作为二维卷积神经网络(2D-CNN)的输入；

S1.3、将多个连续二维Mel频谱片段序列组成一个类似于视频的3D动态片段，作为三维卷积神经网络(3D-CNN)的输入，进行时空特征学习。

在实验验证中，我们产生三通道的二维Mel频谱片段，其大小为，作为二维卷积神经网络的输入。具体来说，我们使用64个Mel滤波器组，在20Hz到8000Hz范围之内提取语音信号的整个对数Mel频谱图。此时，使用了25ms的汉明窗，重叠10ms。然后，采用64帧大小的文本框，将整个对数Mel频谱分割成固定长度的片段，从而得到64′64的静态片段。随后，我们沿时间轴计算所产生的静态片段的一阶和二阶回归系数，从而得到静态段的一阶导数(delta)系数和二阶导数(delta-delta)系数。最后，类似于计算机视觉中的彩色RGB图像，我们可以生成三个通道(静态、一阶导数和二阶导数)的Mel频谱片段。

S2、采用多重深度卷积神经网络模型Multi-CNN学习多模态特征。

步骤S2包括以下步骤：

S2.1、采用一维卷积神经网络进行一维原始语音信号波形建模：构建一维卷积神经网络模型，并对构建的一维卷积神经网络模型进行训练。

卷积层和最大池化层的步幅长度设置为1，如表1所示，一维卷积神经网络模型包括四个一维卷积层、三个最大池化层、两个全连接层和1个Softmax分类输出层，所述一维卷积层包括批处理归一化层和修正线性单元(ReLU)激活函数层，即在一维卷积神经网络训练前对输入数据做归一化处理，softmax层的输出对应于所使用数据集上的整个情感类别。

表1

S2.2、使用二维卷积神经网络进行二维Mel频谱建模：针对目标数据，微调现有的预先训练好的AlexNet深度卷积神经网络模型，并采样已生成的三通道Mel频谱片段大小至AlexNet模型固定的输入大小；如表2所示，AlexNet深度卷积神经网络模型包括五个卷积层、三个最大池化层以及两个全连接层。

表2

步骤S2.2中微调包括以下步骤：

如表3所示，三维卷积神经网络包括两个三维卷积层、两个三维最大池化层、两个全连接层和一个softmax输出层，所述三维卷积层包括批处理归一化层和和修正线性单元(ReLU)激活函数层。

表3

S3、采用分数级别融合方法，将不同的CNN模型分类结果进行集成，输出最终的语音情感识别结果。

由于与基于2D时频表示作为输入的二维卷积神经网络相比，从一维卷积神经网络和三维卷积神经网络获得的特征表示捕获了完全不同的声学特性，这表明从一维卷积神经网络、二维卷积神经网络和三维卷积神经网络学到的情感特征之间可能彼此互补，因此需要将他们集成在多重卷积神经网络融合网络中，可以进一步改善语音情感分类性能。

步骤S3包括以下步骤：

S3.1、对一维卷积神经网络、二维卷积神经网络和三维神经网络进行网络训练，更新网络参数，更新网络参数如下表达式所示：

其中W表示网络参数θ的softmax层的权重值，表示是与输入数据a_i相对应的最后一层全连接层(FC)层的输出，y_i表示第i段的类标签向量，等于整句语音的情感类别，H代表softmax对数损失函数，H如下表达式所述：/>其中C代表情感类别的总数。

S3.2、对从一维卷积神经网络、二维卷积神经网络和三维神经网络获得的片段分类结果，采用平均池化策略对一句语音中所有划分的片段分类结果执行平均运算，从而产生整句语音层次(utterance-level)上的情感分类得分结果；

S3.4、利用分数级别(score-level)融合策略组合不同的卷积神经网络模型(1D-CNN,2D-CNN,3D-CNN)在整句语音层次上得到的分类得分结果(score)，以进行最终的情感分类，可以表示为：

score^fusion＝λ₁score^1D+λ₂score^2D+λ₃score^3D；

λ₁+λ₂+λ₃＝1；

其中λ₁、λ₂和λ₃表示通过一维卷积神经网络、二维卷积神经网络和三维卷积神经网络获得的不同分类得分的权重值，λ₁、λ₂和λ₃的确定是通过以0.1的间隔步伐在在[0,1]范围内进行搜索得到的最优值。

为了验证我们提出的方法对自然语音情感识别的有效性，我们使用了两个具有挑战性的自然情感语音数据集AFEW5.0和BAUM-1s进行了实验，不使用其他的动作情感语音数据集进行实验。

AFEW5.0数据集包含7个情感类别，例如生气、高兴、悲伤、讨厌、惊奇、害怕和中性，邀请三个标注者来对这些情绪进行标注。AFEW5.0数据集分为三个部分：训练集Train(723个样本)，验证集Val(383个样本)和测试集Test(539个样本)。我们没有使用测试集，因为它只对参与竞赛的研究者开放获取权限。

BAUM-1s不仅包含6个基本情感类别，包括生气、高兴、悲伤、讨厌、害怕、惊奇，还包括其它精神状态，例如不确定、思考、专心和困扰。这里我们只关注于识别6个基本的情感类别，从而得到一个子集，共有521个情感视频样本。

A、实验设定

对于一维卷积神经网络、二维卷积神经网络和三维卷积神经网络的训练，输入数据的最小批处理大小为30，最大循环(epoch)数为300，学习率是0.001。为了加快卷积神经网络的训练速度，采用一个拥有12GB内存的NVIDIA GTX TITAN X GPU，并使用一种与说话人无关的交叉验证策略来实现自然语音情感识别，该策略主要用于真实场景。

实验采用了AFEW5.0数据集上的原始训练集(Train)和训练过程中的验证集(Val)作为测试集。在包含31名土耳其人的BAUM-1s数据集上，采用了5组交叉的留一法交叉验证(LOSGO)策略。通过这种方式，在BAUM-1s数据集上报告了五次测试中的平均识别精度。

注意，在实验中，我们将从音频样本中提取的整个语音的Mel频谱分割成一定数量的Mel频谱(Mel-spectrogram)片段，利用卷积神经网络进行片段级特征学习。在这种情况下，我们将每个Mel频谱片段的情感类别设置为整句语音层次上的情感标签。

B、网络训练

对一维卷积神经网络、二维卷积神经网络和三维神经网络进行网络训练，更新网络参数，更新网络参数如下表达式所示：

其中W表示网络参数θ的softmax层的权重值，表示是与输入数据a_i相对应的最终FC层的输出，y_i表示第i段的类标签向量，等于发声级情感类别，H代表softmax对数损失函数，H如下表达式：/>其中C代表情感类别的总数。

C、结果与分析

输入到一维卷积神经网络(1D-CNN)的样本片段长度可能对1D-CNN网络的性能有重要影响。因此，我们初步研究了不同样本片段长度作为1D-CNN网络输入的性能，即测试了四种不同的样本片段长度(125，625，3125，15625帧)作为一维卷积神经网络输入时的的性能，以及相应的卷积层的数量。表4显示了与卷积层数相关联的四种不同样本片段长度的识别性能。注意，每个卷积层后面跟着一个最大池化层，除了最后一层的卷积层等效于一个全连接层。

表4

如表4所示结果，在AFEW5.0和BAUM-1s数据集中，625帧的样本片段长度在四种不同的样本片段长度中表现最好。具体来说，我们的方法在AFEW5.0数据集上的准确率为24.02％，在BAUM-1s数据集上的准确率为37.37％。较大的样本片段长度有助于提高性能，但是，样本片段长度过大并不一定会提高性能。这可能是由于较大的样本片段长度减少了用于一维卷积神经网络训练时的样本数量。因此，当样本片段长度增加时，一维卷积神经网络的性能并不总是能提高，因此我们将一维卷积神经网络的样本片段长度设置为625帧。

由于提取的三通道Mel频谱片段类似于RGB图像，作为2D-CNN网络的输入，用于对已有的基于ImageNet数据的深度模型进行微调是可行的。为了评价不同预训练深度网络模型的微调效果，我们比较了AlexNet、VGG-16和ResNet-50三种典型深度网络模型在目标情感数据集上的微调识别性能。这些深度网络模型的识别结果是通过对所有分割的片段得分分数进行求取平均值，然后对其进行最大化操作所获得的。

表5显示了三个典型的深度网络模型(如AlexNet、VGG-16和ResNet-50)的微调识别结果。从表5可以看出，AlexNet的性能略优于VGG-16和ResNet-50，在AFEW5.0数据库中，AlexNet的准确率为29.24％，而VGG-16和ResNet-50分别为28.16％和28.55％，在BAUM-1s数据库中，AlexNet、VGG-16和ResNet-50的准确率分别为42.29％、41.73％和41.97％。这表明，VGG-16和ResNet-50等较深的网络模型与较浅的AlexNet相比，没有显著性能的改进，这可能是因为使用的情感数据集非常有限，因此产生的语音样本数量不足以训练更深层次的网络。

表5

对于时空特征学习，我们将多个连续的二维Mel频谱片段序列组成一个类似于视频的3D动态片段作为三维卷积神经网络(3D-CNN)的输入。创建的视频片段长度等于连续二维Mel频谱片段的数量。视频片段长度也会显著影响3D-CNN网络的性能。

为了评估不同视频片段长度作为3D CNN网络输入的性能，在实验中我们给出了4种不同视频片段长度(4、6、8、10个Mel频谱片段)的识别结果。对于这些视频片段长度，除了第一卷积层之外，三维卷积神经网络具有相同的网络结构。在第一卷积层(Conv1.)中，其三维滤波器大小的深度(即串联的连续Mel频谱片段的数目)等于相应的视频片段长度。表6给出了四种不同视频片段长度(即4、6、8、10个Mel频谱片段)的性能，以及第一卷积层的三维滤波器尺寸的深度。

表6

从表6可以看出，在AFEW5.0数据库和BAUM-1s数据库中，包含4个连续语音Mel频谱片段的视频片段长度获得了最佳的性能，准确率分别为28.46％和37.97％。随着视频片段长度的增加，三维卷积神经网络的性能下降，这可能是因为当视频片段长度增加时，用于训练三维卷积神经网络的视频片段的数量减少了。

在实验中，我们提出并比较了两种多重深度卷积神经网络的融合方法：特征级融合和分数级融合。对于特征级融合，我们首先为每个卷积神经网络提取整句语音层次上(utterance-level)特征，即通过在所使用的卷积神经网络网络的最后一层全连接层的输出所表示的片段特征上采用平均池化操作来实现的。然后，我们直接将来自一维、二维和三维卷积神经网络的三种整句语音层次上的特征串联起来，构成一个总的5376-D特征向量，最后采用线性支持向量机(SVM)进行最终的情感分类。

表7列出了不同的多重深度卷积神经网络融合方法以及获得最佳性能的单个卷积神经网络的识别结果。对于AFEW5.0数据库，最优权重值为0.3、0.3、0.4；对于BAUM-1s数据库，最优权重值为0.2、0.5、0.3。从表7的结果可见：

1)二维卷积神经网络(2D-CNN)表现最好，其次是三维卷积神经网络(3D-CNN)和一维卷积神经网络(1D-CNN)。这表明，利用生成的类似于RGB图像的二维Mel语音频谱片段对已有的基于ImageNet数据的深度网络模型AlexNet进行微调是有效的，从而缓解了情感数据不足对深度神经网络训练的压力。

2)分数级融合比特征级融合具有更好的性能。这说明分数级融合更适合于多重深度神经网络的融合。

3)与一维、二维、三维卷积神经网络等单一卷积神经网络相比，在特征层和分数层实现多重卷积神经网络融合具有更好的性能。这表明，从一维、二维、三维卷积神经网络中学习到的多模态深层特征是互补的，因此它们被集成在一个多重深度卷积神经网络融合网络中，以获得显著提高的情感分类性能。

表7

为了提供每种情感的识别精度，图2和图3分别给出了识别结果的混淆矩阵。此时分数级融合方法分别在这两个数据集上获得35.77％和44.06％的识别精度。

如图2所示，我们可以看到，在AFEW5.0数据库中，“生气”、“中性”和“害怕”三种情感的准确率分别为56.25％、50.79％和43.48％。而其他四种情感，即“讨厌”、“高兴”、“悲伤”和“惊奇”，分类准确率不到33％。

从图3可以看出，在BAUM-1s数据库中，“悲伤”和“快乐”两种情感分别被识别，准确率分别为70.90％和55.49％。其他四种情感，即“生气”、“害怕”、“讨厌”、“惊奇”的准确率不到29％。

本发明方案考虑到采用多重深度卷积神经网络模型(Multi-CNN)，即一维卷积神经网络(1D-CNN)、二维卷积神经网络(2D-CNN)和三维卷积神经网络(3D-CNN)学习到的深度多模态特征具有一定的互补性特点，用于自然语音情感识别，克服现有技术中无法捕获一句语音中连续帧之间的2D时频特征表示中的动态变化信息的技术问题，通过多重深度卷积神经网络融合学习具有互补性特点的深层多模态特征，显著改善情感分类性能，为自然语音情感识别提供良好判别力的特征。

Claims

1.一种基于多模深度特征学习的自然语音情感识别方法，其特征在于，所述方法包括以下步骤：

S1、生成适当的多模态表示：从原始的一维语音信号中生成三种适合不同深度卷积神经网络结构的音频表示形式，用于后续不同深度卷积神经网络模型的输入；

所述步骤S1包括以下步骤：

S1.1、将一维原始语音信号波形缩放到[-256，256]，并分割成长度为625帧的语音片段，输入到一维卷积神经网络；

S1.2、从一维原始语音信号提取出二维Mel频谱图，并构建出类似于RGB图像的三通道Mel频谱片段，所述三通道频谱片段包括静态、一阶导数、二阶导数的Mel频谱片段64×64×3，作为二维卷积神经网络的输入；

S1.3、将多个连续二维Mel频谱片段序列，即连续三个通道的频谱片段64×64×3序列组成一个类似于视频的3D动态片段，作为三维卷积神经网络的输入，进行时空特征学习；

S2、采用步骤S1.1-S1.3建立的多重深度卷积神经网络模型学习出不同的多模态深度特征；

所述步骤S2包括以下步骤：

S2.1、采用一维卷积神经网络进行一维原始语音信号波形建模：构建一维卷积神经网络模型，并对构建的一维卷积神经网络模型进行训练；所述的一维卷积神经网络模型包括四个一维卷积层、三个最大池化层、两个全连接层和1个Softmax分类输出层，所述一维卷积层包括批处理归一化层和修正线性单元激活函数层，即在一维卷积神经网络训练前对输入数据做归一化处理；

S2.2、使用二维卷积神经网络进行二维Mel频谱图建模：针对目标数据，微调现有计算机视觉领域中预先训练好的AlexNet深度卷积神经网络模型；所述AlexNet深度卷积神经网络模型包括五个卷积层、三个最大池化层以及两个全连接层；

S2.3、基于三维卷积神经网络的时空动态信息建模：基于提取的类视频3D动态片段，执行时空特征学习任务，采用dropout正则化的方法来避免网络过度拟合；所述步骤S2.3中的三维卷积神经网络包括两个三维卷积层、两个三维最大池化层、两个全连接层和一个softmax输出层，所述三维卷积层包括批处理归一化层和修正线性单元激活函数层；

S3、采用分数级别融合方法，将具有互补性的不同深度卷积神经网络模型分类结果进行集成，输出最终的语音情感识别的结果。

2.根据权利要求1所述的一种基于多模深度特征学习的自然语音情感识别方法，其特征在于，所述步骤S2.2中微调包括以下步骤：

3.根据权利要求1所述的一种基于多模深度特征学习的自然语音情感识别方法，其特征在于，所述步骤S3包括以下步骤：

S3.4、利用分数级别融合策略组合不同的卷积神经网络模型在整句语音水平上得到的分类得分结果，以进行最终的情感分类。

4.根据权利要求3所述的一种基于多模深度特征学习的自然语音情感识别方法，其特征在于，所述步骤S3.4可以表示为：

score^fusion＝λ₁score^1D+λ₂score^2D+λ₃score^3D；

λ₁+λ₂+λ₃＝1；

其中λ₁、λ₂和λ₃表示通过一维卷积神经网络、二维卷积神经网络和三维卷积神经网络获得的不同分类得分的权重值，λ₁、λ₂和λ₃的确定是通过以0.1的间隔步伐在[0,1]范围内进行搜索得到的最优值。