CN110110653A

CN110110653A - 多特征融合的情绪识别方法、装置和存储介质

Info

Publication number: CN110110653A
Application number: CN201910367271.3A
Authority: CN
Inventors: 陈继华; 陈志国; 陈凯迪
Original assignee: Shenzhen Liwei Zhilian Technology Co Ltd; Shanghai Yueling Information Technology Co Ltd
Current assignee: Shenzhen Liwei Zhilian Technology Co Ltd; Shanghai Yueling Information Technology Co Ltd; Shenzhen ZNV Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-09

Abstract

本发明公开了一种多特征融合的情绪识别方法。该方法包括：获取语音数据和人脸图像数据；对所述语音数据进行语音情绪识别，获得语音情绪数据，并对所述人脸图像数据进行人脸情绪识别，获得人脸情绪数据；对所述语音情绪数据和人脸情绪数据进行融合处理，得到情绪识别结果。本发明还公开了一种多特征融合的情绪识别装置及计算机可读存储介质。本发明能够实现提供一种利用语音和人脸图像两种特征信息进行情绪识别，识别更准确更全面的多特征融合的情绪识别方法。

Description

多特征融合的情绪识别方法、装置和存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种多特征融合的情绪识别方法、装置和计算机可读存储介质。

背景技术

情绪在人们的生活中起着举足轻重的作用，对人们的思维、决策和行为产生很大程度的影响。随着社会竞争压力的增加，如果常面临繁重的精神压力，长期处于不良情绪容易导致失眠以及增加焦虑症、抑郁症等心理疾病发病率、威胁人们健康甚至生命。因此对情绪易失控的人群，通过情绪识别及早发现情绪是否异常，有助于帮助缓解这类人群的精神压力，改善人体的身心健康状况。

然而，目前的情绪识别容易受到周围环境因素的影响如光照明暗、角度不同、遮挡区域等问题的影响，导致单一特征的情绪识别不够准确，如语音情感识别容易受到周围环境噪声的干扰，面部表情识别容易受到光照明暗、拍摄角色、遮挡区域等的影响，使得单一特征的情绪识别存在一定的局限性，情绪识别容易出现偏差，无法满足现代社会对情绪识别高要求的需要。

发明内容

本发明的主要目的在于提供一种多特征融合的情绪识别方法、装置和计算机可读存储介质，旨在实现提供一种利用语音和人脸图像两种特征信息进行情绪识别，识别更准确更全面的多特征融合的情绪识别方法。

为实现上述目的，本发明提供一种多特征融合的情绪识别方法，所述多特征融合的情绪识别方法包括以下步骤：

获取语音数据和人脸图像数据；

对所述语音数据进行语音情绪识别，获得语音情绪数据，并对所述人脸图像数据进行人脸情绪识别，获得人脸情绪数据；

对所述语音情绪数据和人脸情绪数据进行融合处理，得到情绪识别结果。

可选地，所述对所述语音数据进行语音情绪识别，获得语音情绪数据的步骤包括：

对所述语音数据进行分帧加窗处理，获得语音分析帧；

对所述语音分析帧进行短时傅里叶变换，获得语音声谱图；

根据预设的神经网络算法对所述语音声谱图进行情绪识别，获得语音情绪数据。

可选地，所述根据预设的神经网络算法对所述语音声谱图进行情绪识别，获得语音情绪数据的步骤包括：

对所述语音声谱图进行卷积操作，获得对应的声谱特征图；

对所述声谱特征图进行池化操作，并提取主要的语音情感特征；

对提取的语音情感特征进行分类识别，获得语音情绪数据。

可选地，所述对所述语音声谱图进行卷积操作，获得对应的声谱特征图的步骤之前包括：

对所述语音声谱图进行处理，获得简化语音声谱图；

对所述语音声谱图进行卷积操作，获得对应的声谱特征图的步骤包括：

对所述简化语音声谱图进行卷积操作，获得对应的声谱特征图。

可选地，所述对所述人脸图像数据进行人脸情绪识别，获得人脸情绪数据的步骤包括：

对所述人脸图像数据进行预处理，获得灰度图像；

通过灰度共生矩阵方法对所述灰度图像进行人脸纹理分析，获得灰度共生矩阵；

对所述灰度共生矩阵进行特征向量提取，获得人脸表情特征向量；

对所述人脸表情特征向量利用神经网络进行分类，获得人脸情绪数据。

可选地，所述对所述语音情绪数据和人脸情绪数据进行融合处理，得到情绪识别结果的步骤包括：

对所述语音情绪数据和人脸情绪数据构建后验概率集合，通过预设的两种算法分别获得对应的第一概率集合和第二概率集合；

根据所述第一概率集合和第二概率集合进行判断，获得情绪识别结果。

可选地，所述对所述语音情绪数据和人脸情绪数据构建后验概率集合，通过预设的两种算法分别获得对应的第一概率集合和第二概率集合的步骤包括：

通过预设概率算法对所述语音情绪数据和人脸情绪数据进行计算，获得后验概率集合；

对所述后验概率集合根据加权求和公式进行计算，获得第一概率集合，并对所述后验概率集合根据求积公式进行计算，获得第二概率集合。

可选地，所述根据所述第一概率集合和第二概率集合进行判断，获得情绪识别结果的步骤包括：

判断所述第一概率集合和第二概率集合的大小，确定最大概率集合；

对所述最大概率集合进行情绪分类计算，获得所述最大概率集合所对应的情绪识别结果。

此外，为实现上述目的，本发明还提供一种多特征融合的情绪识别装置，所述多特征融合的情绪识别装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多特征融合的情绪识别程序，所述多特征融合的情绪识别程序被所述处理器执行时实现如上所述的多特征融合的情绪识别方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有多特征融合的情绪识别程序，所述多特征融合的情绪识别程序被处理器执行时实现上述的多特征融合的情绪识别方法的步骤。

本发明提供一种多特征融合的情绪识别方法、装置和计算机存储介质。在该方法中，获取语音数据和人脸图像数据；对所述语音数据进行语音情绪识别，获得语音情绪数据，并对所述人脸图像数据进行人脸情绪识别，获得人脸情绪数据；对所述语音情绪数据和人脸情绪数据进行融合处理，得到情绪识别结果。通过上述方式，本发明能够根据语音和人脸图像两种特性信息的融合进行情绪的识别，获得情绪信息。利用多个情感特征间的不同特点，进行取长补短，可以更加全面准确的对人的情绪状态进行识别，克服了单一情感特征情绪识别容易受外界环境影响，准确度不高的缺陷，从而获得更加准确全面的情绪识别结果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本发明多特征融合的情绪识别方法第一实施例的流程示意图；

图3为本发明多特征融合的情绪识别方法第二实施例的流程示意图；

图4为本发明多特征融合的情绪识别方法第三实施例的流程示意图；

图5为本发明多特征融合的情绪识别方法第四实施例的流程示意图；

图6为本发明多特征融合的情绪识别方法第五实施例的流程示意图；

图7为本发明多特征融合的情绪识别方法第六实施例的流程示意图；

图8为本发明多特征融合的情绪识别方法第七实施例的流程示意图；

图9为本发明多特征融合的情绪识别方法第八实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图。

本发明实施例装置可以是PC的组合，也可以是智能手机、平板电脑、便携计算机等具有数据处理功能的装置设备。

如图1所示，该装置可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如摄像头、麦克风和键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的装置结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及多特征融合的情绪识别程序。

在图1所示的装置中，网络接口1004主要用于后台服务器互联，用于后台服务器间进行数据通信；用户接口1003主要用于采集语音数据和人脸图像数据，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的多特征融合的情绪识别程序，并执行以下操作：

获取语音数据和人脸图像数据；

进一步地，处理器1001可以调用存储器1005中存储的多特征融合的情绪识别程序，还执行以下操作：

对所述语音数据进行分帧加窗处理，获得语音分析帧；

对所述语音分析帧进行短时傅里叶变换，获得语音声谱图；

对所述语音声谱图进行卷积操作，获得对应的声谱特征图；

对提取的语音情感特征进行分类识别，获得语音情绪数据。

对所述语音声谱图进行处理，获得简化语音声谱图；

对所述人脸图像数据进行预处理，获得灰度图像；

本发明多特征融合的情绪识别设备的具体实施例与下述多特征融合的情绪识别方法各实施例基本相同，在此不作赘述。

参照图2，图2为本发明多特征融合的情绪识别方法第一实施例的流程示意图，所述多特征融合的情绪识别方法包括：

步骤S100，获取语音数据和人脸图像数据；

人的情感情绪往往需要借助表情、语言等方式来表达和传递，本发明就是根据语音数据和人脸图像数据进行情感情绪识别的一个过程。本发明实施例中，语音数据可以通过麦克风获得，也可以通过其他设备传输获得，本发明实施例对语音数据的获得方式不作限定。语音数据为包含人说话内容的音频数据，说话人的当时情绪不同，说话的内容也就不同，说话的语气也就不同，根据语音数据中说话人说话的内容和说话语气的不同，可以对说话人的情绪进行判断，获得说话人的情绪信息。同理，人脸图像数据可以通过摄像头拍摄获得，也可以通过其他设备传输获得，本发明实施例对人脸图像数据的获得方式不作限定。人脸图像数据包含有人脸图像，不同情绪下，人脸的表情特征就不一样，因此可以根据人脸图像中的人脸表情进行判断，获得说话人的情绪信息。

步骤S200，对所述语音数据进行语音情绪识别，获得语音情绪数据，并对所述人脸图像数据进行人脸情绪识别，获得人脸情绪数据；

在本实施例中，获得语音数据和人脸图像数据后，需要对语音数据和人脸图像数据进行识别，获得语音情绪数据和人脸情绪数据。语音情感识别是指人的语音信号进行预处理后，提取具有情感倾向的特征参数，并对特征参数进行分析识别，以此确定说话人的情感状态。面部情感识别是指从静态人脸图像或动态视频中提取人的表情状态，从而识别出人的心理情绪。获得语音数据后，需要对语音数据进行语音情绪识别，获得语音情绪数据；获得人脸图像数据后，需要对人脸图像数据进行面部情绪识别，获得人脸情绪数据。

在本实施例中，获得语音数据后，对语音数据进行语音情绪识别，获得语音情绪数据，对语音数据进行语音情绪识别可以采用基于声谱图和CNN(Convolutional NeuralNetworks，卷积神经网络)的语音情感识别方法来进行语音情绪识别。CNN(ConvolutionalNeural Networks，卷积神经网络)为一种深度前馈人工神经网络，已成功地应用于许多领域进行识别。

在本实施例中，获得人脸图像数据后，对人脸图像数据进行人脸情绪识别，获得人脸情绪数据，对人脸图像数据进行人脸图像识别可以采用基于BP(Back Propagation，反向传播)神经网络的面部情感识别方法来进行人脸情绪识别。利用语音数据进行语音情感识别和获取人脸抓拍照片进行面部情感识别为两个独立的操作过程，这两个操作流程没有先后顺序之分。

步骤S300，对所述语音情绪数据和人脸情绪数据进行融合处理，得到情绪识别结果。

获得语音情绪数据和人脸情绪数据后，对语音情绪数据和人脸情绪数据进行决策层融合，得到情绪识别结果。决策层融合，是指在提取有语音情绪特征的语音情绪数据和人脸表情特征的人脸情绪数据后，根据一定的准则如后验概率的决策层融合准则对数据特征进行决策层融合，从而得到最终的情绪识别的情感识别结果。决策层融合简单来说就是将多个分类器产生的分类结果采用一定的准则进行组合再进行判断，得到最终的识别结果。

请参阅图3，图3为本发明多特征融合的情绪识别方法第二实施例的流程示意图。

基于上述实施例，本实施例中，步骤S200包括：

步骤S210，对所述语音数据进行分帧加窗处理，获得语音分析帧；

在本实施例中，对语音数据进行分帧加窗处理，可以将语音数据分为一个个语音分析帧。因为语音信号通常在10～30ms(毫秒)之内保持相对平稳，因此，对语音数据进行分帧，可以使用平稳过程的处理方法对语音信号进行短时处理，将语音信号划分为很多短时的语音段，成为一个个分析帧。同时，为了减少频谱能量泄漏，可以采用不同的截取函数对信号进行截断，截断函数称为窗函数，常用的窗函数有矩形窗(Rectangle)、汉宁窗(Hanning)、汉明窗(Hamming)、高斯窗(Gaussian)等。对分帧后的语音信号进行加窗，利用窗函数和语音信号相乘得到加窗后的语音信号，经过加窗后的每一帧语音可以认为是短时平稳信号。

步骤S220，对所述语音分析帧进行短时傅里叶变换，获得语音声谱图；

在获得短时平稳信号的语音分析帧后，通过对短时语音信号进行短时傅里叶变换得到短时功率谱(即声谱图的灰度值)，然后以时间为横坐标、频率为纵坐标生成二维图像(第三维度为灰度值)，即为语音声谱图。

步骤S230，根据预设的神经网络算法对所述语音声谱图进行情绪识别，获得语音情绪数据。

在获得语音声谱图后，通过CNN的全连接层将语音情感特征数据进行降维，并通过分类器识别用户的语音情绪。对语音特征进行情绪识别，可以将语音声谱图分为生气、恐惧、高兴、悲伤、中性五个类别。

请参阅图4，图4为本发明多特征融合的情绪识别方法第三实施例的流程示意图。

基于上述实施例，本实施例中，步骤S230包括：

步骤S231，对所述语音声谱图进行卷积操作，获得对应的声谱特征图；

步骤S232，对所述声谱特征图进行池化操作，并提取主要的语音情感特征；

步骤S233，对提取的语音情感特征进行分类识别，获得语音情绪数据。

在获得语音声谱图后，采用CNN对声谱图进行卷积、池化操作，通过使用多层卷积层卷积得到更深层次的声谱特征图，通过池化操作对得到的声谱特征图进行压缩，提取主要语音情感特征，获得语音特征。

请参阅图5，图5为本发明多特征融合的情绪识别方法第四实施例的流程示意图。

基于上述实施例，本实施例中，步骤S231之前还包括：

步骤S234，对所述语音声谱图进行处理，获得简化语音声谱图；

获得语音声谱图后，对语音声谱图进行声谱图预处理，由于产生的声谱图边框信息对于语音的情感识别是无用的，因此，需要对声谱图进行剪切，删除无效信息；还需要对声谱图进行尺寸变换，得到大小统一的图片。

则步骤S231变为步骤S235：对所述简化语音声谱图进行卷积操作，获得对应的声谱特征图。

在获得简化语音声谱图后，采用CNN对简化声谱图进行卷积、池化操作，通过使用多层卷积层卷积得到更深层次的声谱特征图，通过池化操作对得到的声谱特征图进行压缩，提取主要语音情感特征，获得语音特征。

请参阅图6，图6为本发明多特征融合的情绪识别方法第五实施例的流程示意图。

基于上述实施例，本实施例中，步骤S200还包括：

步骤S240，对所述人脸图像数据进行预处理，获得灰度图像；

由于彩色图像中每个像素的颜色由R(Red，红色)、G(Green，绿色)、B(Blue，蓝色)三个分量决定，每个分量有256种取值情况，因此，一个像素点的颜色变化范围超过1600万。而灰度图的一个像素点的变化范围只有256种情况，将人脸抓拍照片转变成灰度图像，可以大幅度减少图像处理的计算量。通过对RGB空间的人脸抓拍照片做平均化处理，转化为灰度人脸图像，转化公式可以为：像素灰度值＝(R+G+B)/3。

步骤S250，通过灰度共生矩阵方法对所述灰度图像进行人脸纹理分析，获得灰度共生矩阵；

人脸表情的外观特征最主要的一个表现就是脸部不同器官的纹理形状发生变化。通过分析人脸图像中的像素灰度级变化趋势，可以得到纹理变化情况。灰度共生矩阵是一种通过研究灰度的空间相关特性来描述纹理的常用方法。采用空间灰度共生矩阵的方法对人脸图像进行纹理分析，通过计算两个灰度级别在图像中以一定方向相邻的次数而得到一个灰度共生矩阵。方向可以是水平、45度、90度、135度等。以水平方向计算的灰度共生矩阵为例，灰度共生矩阵中的每一个元素(i，j)代表灰度i与灰度j在图像中水平相邻的次数。

步骤S260，对所述灰度共生矩阵进行特征向量提取，获得人脸表情特征向量；

差分运算是指将两帧图像的灰度共生矩阵做矩阵减法，然后将新的灰度共生矩阵按列展开为一个向量表示。由于连续抓拍的人脸图片中的背景一般不变，因此，可以将人脸图像的前后两帧图像进行差分运算得到人脸表情时空特征数据。通过对灰度共生矩阵进行差分运算得到人脸表情特征向量。

步骤S270，对所述人脸表情特征向量利用神经网络进行分类，获得人脸情绪数据。

BP(Back Propagation，反向传播)神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络，可以通过设置多层隐含层，并以反向逆传播的方式不断修改网络权值，从而达到学习训练的目的。本实施例中，将提取出的人脸表情特征向量作为输入，在BP神经网络中进行线性组合，并在每个神经元处采用非线性的激活函数输出，每个神经元可以得到一个计算结果，将这个计算结果与预置阈值进行比较得到输出结果。可以采用sigmoid函数作为激活函数，sigmoid激活函数的公式为sigmoid函数常被用作神经网络的阈值函数，将变量映射到0,1之间。这里，所述激活函数采用sigmoid函数并不是必须的，可以是任何更逼近人脑对于视觉处理过程的神经元激活函数。BP神经网络的反向传播过程需要调整权值，确定一个误差函数，这个误差函数可以根据经验来确定。同时，为了进行多特征融合决策，面部表情情绪的类型与语音情感识别的语音情绪类型保持一致，BP神经网络的面部表情情绪输出同样分为生气、恐惧、高兴、悲伤、中性五个类别。

请参阅图7，图7为本发明多特征融合的情绪识别方法第六实施例的流程示意图。

基于上述实施例，本实施例中，步骤S300包括：

步骤S310，对所述语音情绪数据和人脸情绪数据构建后验概率集合，通过预设的两种算法分别获得对应的第一概率集合和第二概率集合；

通过后验概率算法对语音情绪数据和人脸情绪数据构造后验概率集合，然后采用加权求和准则计算第一概率集合，并用采用求积准则计算第二概率集合。对后验概率集合利用两种预设算法分别计算，获得对应的第一概率集合和第二概率集合。

步骤S320，根据所述第一概率集合和第二概率集合进行判断，获得情绪识别结果。

在本实施例中，通过加权求和准则和求积准则分别计算第一概率集合和第二概率集合即两个P_e(x)，最后结果最大的P_e(x)所对应的类别即为最终的情绪分类识别结果，计算公式为：F(x)＝argmax_e(P_e(x))。

请参阅图8，图8为本发明多特征融合的情绪识别方法第七实施例的流程示意图。

基于上述实施例，本实施例中，步骤S310包括：

步骤S311，通过预设概率算法对所述语音情绪数据和人脸情绪数据进行计算，获得后验概率集合；

在许多实际应用中，不仅需要知道样本分类的类别，还需要知道样本的隶属度，也就是后验后概率，它表示为样本被判定为某类别的概率。在本实施例中，可以采用sigmoid函数将语音情绪识别和人脸表情情绪识别的结果进行后处理映射到[0,1]之间，转化成后验概率。后验概率的计算公式为：f(x)是语音情绪识别或人脸表情情绪识别的结果，A和B是待拟合的参数，可以通过训练得到最优参数A和B。对于语音情绪识别和人脸表情情绪识别，一共有2种分类，5种模态特征(生气、恐惧、高兴、悲伤、中性五个类别)，因此，得到的后验概率集合为：{p_le(x),l＝1,2,…,5；e＝1,2}。

步骤S312，对所述后验概率集合根据加权求和公式进行计算，获得第一概率集合，并对所述后验概率集合根据求积公式进行计算，获得第二概率集合。

在本实施例中，采用加权求和准则分别对2种分类方式得到的后验概率进行组合形成一个新的概率集合：{P_e(x),e＝1,2}。采用加权求和准则计算的后验概率计算公式为：α_l表示第l种模态特征的权重系数，可以通过训练得到最优权重系数。计算新概率P_e(x)的计算公式为：

采用求积准则分别对2种分类方式得到的后验概率进行组合形成一个新的概率集合：{P_e(x),e＝1,2}。采用求积准则计算的后验概率计算公式为：计算新概率P_e(x)的计算公式为：

采用加权求和准则计算新的概率集合和采用求积准则计算新的概率集合为两个独立的操作过程，这两个操作流程没有先后顺序之分。

请参阅图9，图9为本发明多特征融合的情绪识别方法第八实施例的流程示意图。

基于上述实施例，本实施例中，步骤S320包括：

步骤S321，判断所述第一概率集合和第二概率集合的大小，确定最大概率集合；

步骤S322，对所述最大概率集合进行情绪分类计算，获得所述最大概率集合所对应的情绪识别结果。

此外，本发明实施例还提出一种计算机可读存储介质。

本发明计算机可读存储介质上存储有多特征融合的情绪识别程序，所述多特征融合的情绪识别程序被处理器执行时实现如上所述的多特征融合的情绪识别方法的步骤。

其中，在所述处理器上运行的多特征融合的情绪识别程序被执行时所实现的方法可参照本发明多特征融合的情绪识别方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台装置设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多特征融合的情绪识别方法，其特征在于，所述多特征融合的情绪识别方法包括以下步骤：

获取语音数据和人脸图像数据；

2.如权利要求1所述的多特征融合的情绪识别方法，其特征在于，所述对所述语音数据进行语音情绪识别，获得语音情绪数据的步骤包括：

对所述语音数据进行分帧加窗处理，获得语音分析帧；

对所述语音分析帧进行短时傅里叶变换，获得语音声谱图；

3.如权利要求2所述的多特征融合的情绪识别方法，其特征在于，所述根据预设的神经网络算法对所述语音声谱图进行情绪识别，获得语音情绪数据的步骤包括：

对所述语音声谱图进行卷积操作，获得对应的声谱特征图；

对提取的语音情感特征进行分类识别，获得语音情绪数据。

4.如权利要求3所述的多特征融合的情绪识别方法，其特征在于，所述对所述语音声谱图进行卷积操作，获得对应的声谱特征图的步骤之前包括：

对所述语音声谱图进行处理，获得简化语音声谱图；

5.如权利要求1所述的多特征融合的情绪识别方法，其特征在于，所述对所述人脸图像数据进行人脸情绪识别，获得人脸情绪数据的步骤包括：

对所述人脸图像数据进行预处理，获得灰度图像；

6.如权利要求1所述的多特征融合的情绪识别方法，其特征在于，所述对所述语音情绪数据和人脸情绪数据进行融合处理，得到情绪识别结果的步骤包括：

7.如权利要求6所述的多特征融合的情绪识别方法，其特征在于，所述对所述语音情绪数据和人脸情绪数据构建后验概率集合，通过预设的两种算法分别获得对应的第一概率集合和第二概率集合的步骤包括：

8.如权利要求6所述的多特征融合的情绪识别方法，其特征在于，所述根据所述第一概率集合和第二概率集合进行判断，获得情绪识别结果的步骤包括：

9.一种多特征融合的情绪识别装置，其特征在于，所述多特征融合的情绪识别装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多特征融合的情绪识别程序，所述多特征融合的情绪识别程序被所述处理器执行时实现如权利要求1至8中任一项所述多特征融合的情绪识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有多特征融合的情绪识别程序，所述多特征融合的情绪识别程序被处理器执行时实现如权利要求1至8中任一项所述多特征融合的情绪识别方法的步骤。