CN103531208B

CN103531208B - 一种基于短时记忆权重融合的航天应激情感识别方法

Info

Publication number: CN103531208B
Application number: CN201310534910.3A
Authority: CN
Inventors: 黄程韦; 王峻; 吴斌; 秦海波; 赵力; 魏昕; 王浩
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2013-11-01
Filing date: 2013-11-01
Publication date: 2016-08-03
Anticipated expiration: 2033-11-01
Also published as: CN103531208A

Abstract

本发明公开了一种航天应激环境下的基于短时记忆权重融合的语音情感识别方法。本发明根据心理学中的短时记忆遗忘规律,提取语音帧的回忆正确率的先验概率；回忆正确率的先验概率,与调节系数共同构成帧的重要性权重；基于各帧的重要性权重,计算语音段的判决融合权重；各语音段进行情感识别；根据判决融合权重,进行情感融合,获得最终的识别结果。本发明的方法可以有效地提高与文本相关的说话人识别***的识别正确率，此外***对噪声也具有较好的鲁棒性。

Description

一种基于短时记忆权重融合的航天应激情感识别方法

技术领域

本发明涉及一种语音情感识别方法，特别涉及一种航天应激环境下的基于短时记忆权重融合的语音情感识别方法。

背景技术

在航天特殊环境中，人员的情绪稳定和客观测评具有重要的意义。在封闭空间、失重环境和长时间枯燥作业的情况下，容易诱发烦躁等应激语音情感。

传统的语音情感自动识别技术主要包括两个层次：一是采用语音信号中的何种特征作为情感识别，也就是情感特征提取的问题，一是如何将特定的语音数据进行分类，也就是模式识别的问题。

在语音信号中，情感的表达并不总是十分明显的。不同的情感可以具有相似的特征，不同的说话人可以存在较大的个体差异，这对情感特征的研究造成了较大的困难，甚至是对人耳听辨也造成了很大的困难。在语音情感的自动识别中一个极为重要的问题就是寻找情感在特征空间中的一个清晰的表达，也就是需要进行情感特征的提取和优化。

情感建模是语音情感识别中的一个基本问题。我们可以采用心理学理论中的情感类别模型或者维度空间模型对情感进行建模。情感类别模型将情感区分为互不相同的类别，是一种离散模型。维度空间模型将情感视为多维空间中的连续变量，是一种连续模型。高斯混合模型，是近年来在语音情感识别中取得较高识别性能的一种方法。由于高斯混合模型对数据的拟合能力较强，因此可能在语种识别、说话人识别、语音情感识别等“个体差异”较大的数据类型上的学习能力较强。然而高斯混合模型的缺点也是受制于训练数据，成功建立情感模型需要有充足的训练数据。

发明内容

本发明针对应激航天环境中连续语音情感识别的需求，设局部情感识别与全局情感识别结合的识别方法。提出一种嵌入短时记忆遗忘曲线的语音情感识别方法，其主要技术步骤为：

根据心理学中的短时记忆遗忘规律,提取语音帧的回忆正确率的先验概率；回忆正确率的先验概率,与调节系数共同构成帧的重要性权重；基于各帧的重要性权重,计算语音段的判决融合权重；各语音段进行情感识别；根据判决融合权重,进行情感融合,获得最终的识别结果。

(1)从短时记忆遗忘规律曲线中提取出回忆正确率的先验概率。

（1-1）对短时记忆遗忘曲线进行抽样，抽样间隔时间为t，0<t<18s;

(1-2)获得k个抽样值d（k），作为回忆正确率的先验概率。

(2)通过回忆正确率的先验概率与主观调节系数,获得时域帧的重要性权重。

（2-1）设置主观调节系数r，r的参考值为1，可以在(0,1]范围内动态调节；

（2-2）通过乘性关系获得时域帧的重要性权重f(n)=r×d(k)，其中n为帧序列。越接近末尾的帧回忆正确率越高,权重越高,18秒以外的帧回忆正确率为零，对应的重要性权重也为零。

(3)分割连续语音信号，构成情感识别单元。

（3-1）将连续的语音信号分割为小于18s的单元，单元的持续长度参考值为2s到9s。分割方法以自然停顿和音节为分界线。

（3-2）逐帧提取语音段的特征，包括基音、强度、共振峰等声学参数。

（4）根据每帧的重要性权重，求出情感识别单元的融合权重。

(4-1)对第（3）步骤中分割得到的m个语音段s(i),i=1,2，…m，分别提取各自的帧序列对应的帧的重要性权重f_i(n)；

（4-2）计算每个语音段s(i)的融合权重

（5）对各情感识别单元进行语音情感识别。

(5-1)对训练数据采用高斯混合模型对语音段进行情感建模，获得概率分布模型；

(5-2)对输入数据进行基于贝叶斯准则的情感识别，获得每段情感识别单元s(i)的情感矢量e(i)=[e（i,1）,e(i,2),…,e(i,p)],p为情感类别数量；

（5-3）依据融合权重w(i)，对各情感识别单元进行判决融合,最终的情感输出为E=w(1)×e(1)+w(2)×e(2)+…+w(m)×e(m)。

本发明的优点和效果在于：

1.本发明根据心理学中的短时记忆遗忘规律，提取语音帧的回忆正确率的先验概率；回忆正确率的先验概率,与调节系数共同构成帧的重要性权重,计算语音段的判决融合权重，最终根据判决融合权重进行识别，从而实现了情感的融合，提高了应激情感的识别效果。

2.本发明可以针对烦躁、疲倦、自信等与认知过程有关的情感类型进行有效地检测，在应激航天环境中有重要的应用前景，能够及时的对人员情绪稳定性进行预警监测。

本发明的其他优点和效果将在下面继续描述。

附图说明

图1——情感识别***流程图

图2——特征构造方法图

图3——短时记忆的遗忘曲线图

图4——高斯分量的权重迭代曲线

图5——嵌入短时记忆遗忘权重前的高斯混合模型识别结果

图6——本发明中方法的应激语音情感识别结果

具体实施方式

下面结合附图和实施例，对本发明所述的技术方案作进一步的阐述。

图1是本发明所涉及的语音情感识别***框图，其中主要的模块包括：分段特征提取、情感模型训练、分帧重要性权重计算、局部情感识别结果、全局情感矢量融合等。下面具体介绍***的实现方法。

一.语音特征提取

用于识别和建模的特征向量一般有两种构造方法，静态统计特征和短时动态特征。动态特征对音位信息的依赖性较强。文本的变化会对情感特征有较大的影响。情感语音当中大致包含三种信息来源，说话人信息、语义信息和情感信息。在构造情感特征和选择特征的时候，不仅需要使得特征尽可能多的反映出情感信息，也就是随着情感的变化而发生明显的变化，而且还需要尽量保持特征不受到语义变化的影响。

特征构造方法如图2所示，采用的语音特征具有静态性和全局性。特征包含了韵律特征与音质特征，其中一阶抖动的计算公式如下：

{Jitter}^{1} = \frac{\frac{1}{N - 1} Σ_{i = 1}^{N - 1} | x_{i} - x_{i + 1} |}{\frac{1}{N} Σ_{i = 1}^{N} x_{i}} \times 100 - - - (1)

二阶抖动的计算公式如下：

{Jitter}^{2} = \frac{\frac{1}{N - 2} Σ_{i = 2}^{N - 1} | {2 x}_{i} - x_{i + 1} - x_{i - 1} |}{\frac{1}{N} Σ_{i = 1}^{N} x_{i}} \times 100 - - - (2)

在构造频谱能量的分频段特征时，未采用650Hz-4kHz内的能量百分比，虽然这个频段涉及第一共振峰和几乎全部的第二共振峰，但是此频段的能量受到文本内容变化的影响较大，主要随着音位信息的变化而变化。

频谱能量特征中还采用了4kHz以上的能量百分比，这一部分频段能量的增加能反映激励程度的提高，可用于区分悲伤与生气等。

谐波噪声比特征中也同样增加了分频段的特征构造（特征78到特征95）。由于谐波噪声比会受到噪声干扰的影响，特别是在高频段中噪声的影响更加明显，因此考虑分频段构造谐波噪声比特征，以便更加细致的描述情感变化带来的信号变化。在频段的划分中，划分为四个频段：400Hz以下频段（包含了较低频率的谐波分量），400Hz-2000Hz频段（大致包含了前两个共振峰的能量范围），2000Hz-5000Hz频段（较高频率的谐波分量）。5kHz以上频段的信号中噪声影响较严重，而且对于一些采样率较低的语料也不适用，因此没有采用。

二.嵌入短时记忆遗忘曲线的分帧权重计算

从短时记忆遗忘规律曲线h(τ)中提取出回忆正确率的先验概率p(τ),短时记忆遗忘曲线如图3所示。对短时记忆遗忘曲线进行抽样，抽样间隔时间为t，0<t<18s。获得k个抽样值d（k），作为回忆正确率的先验概率。

p(τ)=d(τ/t)（3）

d(k)=h(kt)（4）

根据如下方式获得时域帧的重要性权重：

f(n)=r×d(k),0<k<18s/t（5）

f(n)=0,k>18s/t（6）

其中r为主观调节系数，0<r≤1，其中n为帧序列。越接近末尾的帧回忆正确率越高,权重越高,18秒以外的帧回忆正确率接近零，对应的重要性权重也为零。

对连续语音信号s(τ),构成情感识别单元S(m)，m为语段编号。

S(m)=s(τ_i)-s(τ_j),τ_j-τ_i<18s（7）

单元的持续长度参考值为2s到9s。分割方法以自然停顿和音节为分界线。

根据每帧的重要性权重，求出情感识别单元的融合权重

\begin{matrix} w (i) = \underset{i}{Σ} f_{i} (n) \\ = \underset{i}{Σr} \times h (kt) \end{matrix} - - - (8)

三.高斯混合模型建模

高斯混合模型（GaussianMixtureModel,GMM）可以通过下式定义：

p (X_{t} | λ) = Σ_{i = 1}^{M} a_{i} b_{i} (X_{t}) - - - (9)

这里X是语音样本的D维特征向量，t为其样本序号；b_i(X)，i＝1,2,...,M是成员密度；a_i，i＝1,2,...,M是混合权值。每个成员密度是一D维变量的关于均值矢量U_i和协方差矩阵Σ_i的高斯函数，形式如下：

b_{i} (X_{t}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(X_{t} - U_{i})}^{'} Σ_{i}^{- 1} (X_{t} - U_{i})} - - - (10)

其中混合权值满足条件：

Σ_{i = 1}^{M} a_{i} = 1 - - - (11)

完整的高斯混和密度由所有成员密度的均值矢量、协方差矩阵和混合权值参数化。这些参数聚集一起表示为：

λ_i＝{a_i,U_i,Σ_i}，i＝1,2,...,M（12）根据贝叶斯判决准则，基于GMM的情感识别可以通过最大后验概率来获得，

EmotionLabel = \underset{k}{\arg \max} (p (X_{t} | λ_{k})) - - - (13)

其中k为情感类别序号。

对于高斯混合模型的参数估计，可以采用EM（Expectation-maximization）算法进行。EM是最大期望算法，它的基本思想是从一个初始化的模型λ开始，去估计一个新的模型使得这时新的模型对于下一次重复运算来说成为初始模型，该过程反复执行直到达到收敛门限。这类似于用来估计隐马尔科夫模型（HMM）参数的Baum-Welch重估算法。每一步的EM重复中，下列重估公式保证模型的似然值单调增加：

混合参数的重估：

a_{m}^{i} = \frac{Σ_{t = 1}^{T} γ_{tm}^{i}}{Σ_{t = 1}^{T} Σ_{m = 1}^{M} γ_{tm}^{i}} - - - (14)

均值矢量的重估：

μ_{m}^{i} = \frac{Σ_{t = 1}^{T} γ_{tm}^{i} X_{t}}{Σ_{t = 1}^{T} γ_{tm}^{i}} - - - (15)

方差矩阵的重估：

Σ_{m}^{i} = \frac{Σ_{t = 1}^{T} γ_{tm}^{i} (X_{t} - μ_{m}^{i}) {(X_{t} - μ_{m}^{i})}^{'}}{Σ_{t = 1}^{T} γ_{tm}^{i}} - - - (16)

γ_{tm}^{i} = \frac{a_{m}^{i - 1} N (X_{t} | μ_{m}^{i - 1}, Σ_{m}^{i - 1})}{Σ_{m = 1}^{M} a_{m}^{i - 1} N (X_{t} | μ_{m}^{i - 1}, Σ_{m}^{i - 1})} - - - (17)

GMM各个分量的权重、均值和协方差矩阵的估计值，通过每一次迭代趋于收敛。

高斯混合模型中的混合度，在理论上只能推导出一个固定的范围，具体的取值需要在实验中确定，各高斯分量的权重可以通过EM算法估计得到，在EM算法的迭代中，要避免协方差矩阵变为奇异矩阵，保证算法的收敛性。

以权重为例，EM算法的迭代曲线如图4所示，图中显示出了每一次迭代的收敛情况。纵坐标代表各个高斯分量的权重的数值，横坐标代表EM算法的迭代优化次数，不同颜色和形状的曲线代表不同的高斯分量。其中部分高斯混合分量为零，说明混合度设置偏高。初始值是由K均值聚类初始化得到，在迭代35次左右之后，算法收敛。

四.分段识别与融合

对局部情感识别结果进行全局的情感融合，不超过短时记忆的容量18秒：

每段情感识别单元s(i)的输出情感矢量

e(i)=[e（i,1）,e(i,2),…,e(i,p)]（18）

p为情感类别数量，依据融合权重w(i)，对各情感识别单元进行判决融合,最终的情感输出为

E=w(1)×e(1)+w(2)×e(2)+…+w(m)×e(m)（19）

E为最终情感识别结果，m为局部语音段序号。

五.连续情感识别中嵌入短时记忆遗忘曲线权重的效果验证

选用连续情感语料进行实验。实验数据中包含了烦躁、喜悦、疲倦、自信和中性状态等五种情感状态的样本，语句样本之间保留了录音采集现场的顺序编号信息，相邻语句可以通过相邻的顺序编号得到。每种情感语料包含1000条语段样本，总计5000条。连续语音情感识别的识别率如图5所示，嵌入短时记忆遗忘曲线后，通过权重融合方法，提高了应激情感的识别效果，如图6中的识别结果所示。针对烦躁、疲倦、自信等与认知过程有关的情感类型进行检测，在应激航天环境中有重要的应用前景，能够及时的对人员情绪稳定性进行预警监测。

本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims

1.一种基于短时记忆权重融合的航天应激情感识别方法，其特征在于包括以下步骤：

步骤1，从短时记忆遗忘规律曲线中提取出回忆正确率的先验概率；

步骤2，从0＜r≤1的范围内选取主观调节系数，r为主观调节系数，将其用于时域帧对应的回忆正确率的修正，修正结果作为时域帧的重要性权重；

步骤3，分割连续语音信号，构成情感识别单元；

步骤4，将情感识别单元内部的所有帧的权重进行累加运算，累加结果作为情感识别单元的整体的权重；

步骤5，根据贝叶斯准则对各情感识别单元的情感概率模型进行识别，将各识别结果进行权重融合得到最终的识别结果。

2.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法，其特征在于，所述步骤1具体包括以下步骤：

步骤1-1，对短时记忆遗忘曲线进行抽样，抽样间隔时间为t，0<t<18s；

步骤1-2，获得k个抽样值d(k)，作为回忆正确率的先验概率。

3.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法，其特征在于，所述步骤2具体包括以下步骤：

步骤2-1，设置主观调节系数r，r的参考值为1，可以在(0,1]范围内动态调节；

步骤2-2，通过乘性关系获得时域帧的重要性权重f(n)＝r×d(k)，其中n为帧序列；越接近末尾的帧回忆正确率越高,权重越高,18秒以外的帧回忆正确率为零，对应的重要性权重也为零。

4.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法，其特征在于，所述步骤3具体包括以下步骤：

步骤3-1，将连续的语音信号分割为小于18s的单元，单元的持续长度参考值为2s到9s；分割方法以自然停顿和音节为分界线；

步骤3-2，逐帧提取语音段的特征，包括基音、强度、共振峰声学参数。

5.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法，其特征在于，所述步骤4具体包括以下步骤：

步骤4-1，对权利要求1所述的步骤3中分割得到的m个语音段s(i),i＝1,2，…m，分别提取各自的帧序列对应的帧的重要性权重f_i(n)；

步骤4-2，计算每个语音段s(i)的融合权重w(i)＝∑_nf_i(n)。

6.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法，其特征在于，所述步骤5具体包括以下步骤：

步骤5-1，对训练数据采用高斯混合模型对语音段进行情感建模，获得概率分布模型；

步骤5-2，对输入数据进行基于贝叶斯准则的情感识别，获得每段情感识别单元s(i)的情感矢量e(i)＝[e(i,1),e(i,2),…,e(i,p)],p为情感类别数量；

步骤5-3，依据融合权重w(i)，对各情感识别单元进行判决融合,最终的情感输出为E＝w(1)×e(1)+w(2)×e(2)+…+w(m)×e(m)。