CN110516696B

CN110516696B - 一种基于语音和表情的自适应权重双模态融合情感识别方法

Info

Publication number: CN110516696B
Application number: CN201910632006.3A
Authority: CN
Inventors: 肖婧; 黄永明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2023-07-25
Anticipated expiration: 2039-07-12
Also published as: CN110516696A

Abstract

本发明涉及一种基于语音和人脸表情的自适应权重双模态融合情感识别方法，包括以下步骤：获取情感语音和人脸表情数据，将情感数据与情感类别相对应，并选取训练样本集合测试样本集；对语音数据提取语音情感特征，对表情数据提取动态表情特征；分别基于语音情感特征和表情特征，采用基于半监督自动编码器的深度学习方法进行学习，通过softmax分类器得到分类结果和各类别输出概率；最后将两种单模态情感识别结果进行决策层融合，采用一种自适应加权的方法，得到最终的情感识别结果。本发明实针对个人不同模态情感特征表征能力的差异性，采取了自适应权重融合方法，具有更高的准确性和客观性。

Description

一种基于语音和表情的自适应权重双模态融合情感识别方法

技术领域

本发明涉及情感计算中的情感识别领域，具体涉及基于语音和人脸表情的自适应权重双模融合情感识别方法。

背景技术

近年来，在人工智能和机器人技术的发展下，传统的人机交互模式已经不能满足需求，新型的人机交互需要情感的交流，因此，情感识别成为了人机交互技术发展的关键，也成为了学界热点的研究课题。情感识别是涉及多学科的研究课题，通过使计算机理解并识别人类情感，进而预测和理解人类的行为趋势和心理状态，从而实现高效和谐的人机情感交互。

人的情绪有各种各样的表达方式，如语音、表情、姿态、文本等等，我们可以从中提取有效的信息，从而正确分析情绪。而表情和语音信息最为其中最为明显和最易分析的特征，得到了广泛的研究和应用。心理学家Mehrabian给出了一个公式：感情表露＝7％的言辞+38％的声音+55％的面部表情，可见人的语音信息及人脸表情信息涵盖93％的情感信息，是人类交流信息中的核心。在情绪表达的过程中，面部形变会有效且直观地表达出内心的情感，是情感识别最为重要的特征信息之一，语音特征也同样能表达出丰富的情感。

由于近年来互联网的发展和各种社交媒体的层出不穷，人们的交流方式得到了很大的丰富，如视频，音频等，使得多模态情感识别成为可能。传统的单模态识别可能存在单一的情感特征不能很好地表征情感状态的问题，例如，人们在表达悲伤的感情时，面部表情可能没有较大的变化，但此时，从低沉和低缓的语音可以分辨出悲伤失落的感情。多模态识别使得不同模态的信息可以实现互补，为情感识别提供更多情感信息，提高情感识别的准确率。但目前，单模态情感识别研究较为成熟，针对多模态的情感识别方法还有待发展和完善。因此，多模态情感识别具有十分重要的实际应用意义。而作为最为显性的表情和语音特征，基于二者的双模情感识别具有重要的研究意义和实用价值。传统的加权方法忽略了个人差异性，因此，需要一种自适应权重的方法来进行权重分配。

发明内容

本发明的目的是提供一种基于语音和人脸表情的自适应权重双模融合情感识别方法，从而实现各模态信息的互补，并实现针对个人差异的自适应权重分配。

为此，本发明采用以下技术方案：

一种基于语音和人脸表情的自适应权重双模态融合的识别方法，其特征在于，所述方法包括以下步骤：

S1、获取情感语音和人脸表情数据，将情感数据与情感类别相对应，并选取训练样本集合测试样本集，

S2、对语音数据提取语音情感特征，对表情数据提取动态表情特征，首先自动提取表情峰值帧，获取表情开始到表情峰值的动态图像序列，后将非定长的图像序列归一化为定长的图像序列，作为动态表情特征，

S3、分别基于语音情感特征和表情特征，采用基于半监督自动编码器的深度学习方法进行学习，通过softmax分类器得到分类结果和各类别输出概率，

S4、将两种单模态情感识别结果进行决策层融合，采用一种自适应权重分配的方法，得到最终的情感识别结果。

进一步，上述所述步骤S2的具体步骤如下：

S2A.1：对于语音情感数据，将获得的语音样本段进行分帧处理，划分为多帧语音段，并对分帧后的语音段进行加窗处理，得到语音情感信号，

S2A.2：对于S2A.1获得的语音情感信号，在帧水平上，提取低水平特征提取，基音F0、短时能量、频率微扰振幅微扰、谐噪比以及Mel倒谱系数等，

S2A.3：对步骤一帧水平获得的低水平特征，在多帧组成的语音样本水平上进行统计，对其应用多个统计函数，最大值、最小值、平均值、标准差等，获得语音情感特征；

S2B.1:对于人脸表情数据，首先，将获取的人脸表情特征点三维坐标数据，进行坐标变化，将鼻尖作为中心点，利用SVD原理得到旋转矩阵，乘旋转矩阵进行旋转变化，以消除头部姿态变化的影响。

S2B.2:利用慢特征分析方法提取峰值表情帧，具体步骤如下：

1)将每个动态图像序列样本视为时间输入信号

2)将进行归一化，使得均差值为0，方差为1，

x(t)＝[x₁(t),x₂(t),…,x_I(t)]^T；

3)将输入信号进行非线性扩展扩展，将问题转化为线性SFA问题，

4)进行数据白化；

5)线性SFA方法求解。

S2B.3:得到表情起始帧到表情峰值帧的动态表情序列后，利用线性插值法非定长的动态特征进行归一化。

进一步，上述所述步骤S3的具体步骤如下：

S3.1:针对某一模态数据，输入无标签和有标签输入训练样本，经过自编码器编码，解码和softmax分类器输出分别产生重构数据和类别输出，

S3.2:计算无监督学习表示重构误差和有监督学习分类误差，

S3.3:构造优化目标函数，同时考虑重构误差和分类误差，

E(θ)＝αE_r+(1-α)E_c；

S3.4:梯度下降法更新参数，直至目标函数收敛。

进一步，上述所述步骤S4的具体步骤如下：

S4.1:获取softmax分类器测试样本两种模态分别的各类输出概率，计算变量δ_k，δ_k可用来衡量该模态对情感表征的好坏，根据每个样本δ_k大小的不同实现权重的自适应分配，其中，J为***中类的个数，P是样本输出概率组成的向量。P＝{p_j|j＝1,…,J}，p_j为softmax分类器输出的属于各类别的概率，d表示两向量间的欧式距离。

S4.2:将δ_k根据下式映射到[0,1]之间，作为权值，其中，a和b为自选参数，根据具体情况确定。,

u_k＝1-1/[1+exp(-a(δ_k-b))]；

S4.3:根据下式获得融合后的输出概率向量中P_final＝{p_{final_j}|j＝1,…,J}，最大概率所属类别即为识别类别。p_{j_k}为利用第k种模态进行单模态情感识别获得的第j种类别的概率输出，共K种模态。

相对于现有技术，本发明的有益效果如下：本发明基于语音和人脸表情的自适应权重双模融合的情感识别方法基于标准数据库取得了更为准确和高效的识别效果，针对个人不同模态情感特征表征能力的差异性，采取了自适应权重融合方法，具有更高的准确性和客观性，基于IEMOCAP情感库，取得了83％的识别率，相较于传统固定权重分配，取得了约3％的识别率提升。

附图说明

图1为本发明的识别方法总体流程示意图。

图2为本发明步骤S3的流程示意图。

图3为本发明自适应权重分配流程图。

具体实施方式

下面结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1：参见图1-图3，一种基于语音和人脸表情的自适应权重双模态融合的识别方法，所述方法包括以下步骤：

进一步，上述所述步骤S2的具体步骤如下：

S2A.3：对步骤一帧水平获得的低水平特征，在多帧组成的语音样本水平上进行统计，对其应用多个统计函数，最大值、最小值、平均值、标准差等，获得语音情感特征，

S2B.2:利用慢特征分析方法提取峰值表情帧，具体步骤如下：

1)将每个动态图像序列样本视为时间输入信号

2)将进行归一化，使得均差值为0，方差为1，

x(t)＝[x₁(t),x₂(t),…,x_I(t)]^T

4)进行数据白化；

5)线性SFA方法求解。

进一步，上述所述步骤S3的具体步骤如下：

S3.2:计算无监督学习表示重构误差和有监督学习分类误差，

S3.3:构造优化目标函数，同时考虑重构误差和分类误差，

E(θ)＝αE_r+(1-α)E_c；

S3.4:梯度下降法更新参数，直至目标函数收敛。

进一步，上述所述步骤S4的具体步骤如下：

S4.1:获取softmax分类器测试样本两种模态分别的各类输出概率，计算变量δ_k，δ_k可用来衡量该模态对情感表征的好坏，根据每个样本δ_k大小的不同实现权重的自适应分配，其中，J为***中类的个数。P是样本输出概率组成的向量。P＝{p_j|j＝1,…,J}，p_j为softmax分类器输出的属于各类别的概率，d表示两向量间的欧式距离。

S4.2:将δ_k根据下式映射到[0,1]之间，作为权值，其中，a和b为自选参数。

u_k＝1-1/[1+exp(-a(δ_k-b))]；

应用实施例：参见图1-图3，本实例以IEMOCAP情感数据库为素材，仿真平台是MATLAB R2014a。

如图1所示，本发明基于语音和表情的自适应权重双模融合的情感识别方法主要包括以下步骤：

S1、获取情感语音和人脸表情数据，将情感数据与情感类别相对应，并选取训练样本集合测试样本集。选取中性、高兴、悲伤、愤怒四类情感类别。

S2、对语音数据提取语音情感特征。对表情数据提取动态表情特征，首先自动提取表情峰值帧，获取表情开始到表情峰值的动态图像序列，后将非定长的图像序列归一化为定长的图像序列，作为动态表情特征。对于语音特征的提取是利用开源的语音特征提取工具箱openSMILE提取了INTERSPEECH 2010Paralinguistic Challenge标准特征集，共1582维特征。对于人脸表情动态特征的提取。利用慢特征分析方法提取峰值表情帧。后设定阈值找到表情起始帧，得到表情起始帧到表情峰值帧的动态表情序列后，利用线性插值法非定长的动态特征进行归一化。

S3、分别基于语音情感特征和表情特征，采用基于半监督自动编码器的深度学习方法进行学习，通过softmax分类器得到分类结果和各类别输出概率。

如图2所示，所述步骤S3半监督分类具体步骤为：

S3.1:针对某一模态数据，输入无标签和有标签输入训练样本。经过自编码器编码，解码和softmax分类器输出分别产生重构数据和类别输出。

S3.2:计算无监督学习表示重构误差和有监督学习分类误差。

S3.3:构造优化目标函数，同时考虑重构误差和分类误差。

E(θ)＝αE_r+(1-α)E_c

S3.4:梯度下降法更新参数，直至目标函数收敛。

如图3所示，所述步骤S4的具体步骤如下：

S4.1:获取softmax分类器测试样本两种模态分别的各类输出概率。计算变量δ_k，δ_k可用来衡量该模态对情感表征的好坏，根据每个样本δ_k大小的不同实现权重的自适应分配。其中，J为***中类的个数。P是样本输出概率组成的向量。P＝{p_j|j＝1,…,J}，p_j为softmax分类器输出的属于各类别的概率，d表示两向量间的欧式距离。

S4.2:将δ_k根据下式映射到[0,1]之间，作为权值。其中，a和b为自选参数。

u_k＝1-1/[1+exp(-a(δ_k-b))]

S4.3:根据下式获得融合后的输出概率向量中P_final＝{p_{final_j}|j＝1,…,J}，最大概率所属类别即为识别类别，p_{j_k}为利用第k种模态进行单模态情感识别获得的第j种类别的概率输出，共K种模态。

。

需要说明的是上述实施例仅仅是本发明的较佳实施例，并没有用来限定本发明的保护范围，在上述技术方案的基础上做出的等同替换或者替代，均属于本发明的保护范围。

Claims

1.一种基于语音和人脸表情的自适应权重双模态融合情感识别方法，其特征在于，所述方法包括如下步骤：

S1、获取情感语音数据和人脸表情数据，将情感数据与情感类别相对应，并选取训练样本集合测试样本集；

S2、对语音数据提取语音情感特征，对表情数据提取动态表情特征，首先自动提取表情峰值帧，获取表情开始到表情峰值的动态图像序列，后将非定长的图像序列归一化为定长的图像序列，作为动态表情特征；

S3、分别基于语音情感特征和表情特征，采用基于半监督自动编码器的深度学习方法进行学习，通过softmax分类器得到分类结果和各类别输出概率；

S4、将两种单模态情感识别结果进行决策层融合，采用一种自适应权重分配的方法，得到最终的情感识别结果，

其中，步骤S4基于自适应权重的决策层融合步骤为：

S4.1:获取softmax分类器测试样本两种模态分别的各类输出概率，计算变量δ_k，δ_k可用来衡量该模态对情感表征的好坏，根据每个样本δ_k大小的不同实现权重的自适应分配，其中，J为***中类的个数，P是样本输出概率组成的向量，P＝{p_j|j＝1,…,J}，p_j为softmax分类器输出的属于各类别的概率，d表示两向量间的欧式距离；

S4.2:将δ_k根据下式映射到[0,1]之间，作为权值，其中，a和b为自选参数，

u_k＝1-1/[1+exp(-a(δ_k-b))]；

S4.3:根据下式获得融合后的输出概率向量中P_final＝{p_{final_j}|j＝1,…,J}，最大概率所属类别即为识别类别，p_{j_k}为利用第k种模态进行单模态情感识别获得的第j种类别的概率输出，共K种模态；

2.根据权利要求1所述的基于语音和人脸表情的自适应权重双模态融合情感识别方法，其特征在于，所述步骤S2情感特征提取的具体步骤为：

S2B.1:对于人脸表情数据，首先，将获取的人脸表情特征点三维坐标数据，进行坐标变化，将鼻尖作为中心点，利用SVD原理得到旋转矩阵，乘旋转矩阵进行旋转变化，以消除头部姿态变化的影响，

S2B.2:利用慢特征分析方法提取峰值表情帧，

3.根据权利要求1所述的基于语音和人脸表情的自适应权重双模态融合情感识别方法，其特征在于，所述步骤S3半监督学习的具体步骤为：

S3.2:计算无监督学习表示重构误差E_r和有监督学习分类误差E_c，

S3.3:构造优化目标函数，同时考虑重构误差E_r和分类误差E_r，

E(θ)＝αE_r+(1-α)E_c；

S3.4:梯度下降法更新参数，直至目标函数收敛。

4.根据权利要求2所述的基于语音和人脸表情的自适应权重双模态融合情感识别方法，其特征在于，S2B.2:利用慢特征分析方法提取峰值表情帧，具体步骤如下：

1)将每个动态图像序列样本视为时间输入信号

2)将进行归一化，使得均差值为0，方差为1，

x(t)＝[x₁(t),x₂(t),…,x_I(t)]^T

3)将输入信号进行非线性扩展扩展，将问题转化为线性SFA问题，4)进行数据白化；

5)线性SFA方法求解。