CN103531208B - 一种基于短时记忆权重融合的航天应激情感识别方法 - Google Patents

一种基于短时记忆权重融合的航天应激情感识别方法 Download PDF

Info

Publication number
CN103531208B
CN103531208B CN201310534910.3A CN201310534910A CN103531208B CN 103531208 B CN103531208 B CN 103531208B CN 201310534910 A CN201310534910 A CN 201310534910A CN 103531208 B CN103531208 B CN 103531208B
Authority
CN
China
Prior art keywords
emotion
short term
weight
term memory
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310534910.3A
Other languages
English (en)
Other versions
CN103531208A (zh
Inventor
黄程韦
王峻
吴斌
秦海波
赵力
魏昕
王浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201310534910.3A priority Critical patent/CN103531208B/zh
Publication of CN103531208A publication Critical patent/CN103531208A/zh
Application granted granted Critical
Publication of CN103531208B publication Critical patent/CN103531208B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Toys (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种航天应激环境下的基于短时记忆权重融合的语音情感识别方法。本发明根据心理学中的短时记忆遗忘规律,提取语音帧的回忆正确率的先验概率;回忆正确率的先验概率,与调节系数共同构成帧的重要性权重;基于各帧的重要性权重,计算语音段的判决融合权重;各语音段进行情感识别;根据判决融合权重,进行情感融合,获得最终的识别结果。本发明的方法可以有效地提高与文本相关的说话人识别***的识别正确率,此外***对噪声也具有较好的鲁棒性。

Description

一种基于短时记忆权重融合的航天应激情感识别方法
技术领域
本发明涉及一种语音情感识别方法,特别涉及一种航天应激环境下的基于短时记忆权重融合的语音情感识别方法。
背景技术
在航天特殊环境中,人员的情绪稳定和客观测评具有重要的意义。在封闭空间、失重环境和长时间枯燥作业的情况下,容易诱发烦躁等应激语音情感。
传统的语音情感自动识别技术主要包括两个层次:一是采用语音信号中的何种特征作为情感识别,也就是情感特征提取的问题,一是如何将特定的语音数据进行分类,也就是模式识别的问题。
在语音信号中,情感的表达并不总是十分明显的。不同的情感可以具有相似的特征,不同的说话人可以存在较大的个体差异,这对情感特征的研究造成了较大的困难,甚至是对人耳听辨也造成了很大的困难。在语音情感的自动识别中一个极为重要的问题就是寻找情感在特征空间中的一个清晰的表达,也就是需要进行情感特征的提取和优化。
情感建模是语音情感识别中的一个基本问题。我们可以采用心理学理论中的情感类别模型或者维度空间模型对情感进行建模。情感类别模型将情感区分为互不相同的类别,是一种离散模型。维度空间模型将情感视为多维空间中的连续变量,是一种连续模型。高斯混合模型,是近年来在语音情感识别中取得较高识别性能的一种方法。由于高斯混合模型对数据的拟合能力较强,因此可能在语种识别、说话人识别、语音情感识别等“个体差异”较大的数据类型上的学习能力较强。然而高斯混合模型的缺点也是受制于训练数据,成功建立情感模型需要有充足的训练数据。
发明内容
本发明针对应激航天环境中连续语音情感识别的需求,设局部情感识别与全局情感识别结合的识别方法。提出一种嵌入短时记忆遗忘曲线的语音情感识别方法,其主要技术步骤为:
根据心理学中的短时记忆遗忘规律,提取语音帧的回忆正确率的先验概率;回忆正确率的先验概率,与调节系数共同构成帧的重要性权重;基于各帧的重要性权重,计算语音段的判决融合权重;各语音段进行情感识别;根据判决融合权重,进行情感融合,获得最终的识别结果。
(1)从短时记忆遗忘规律曲线中提取出回忆正确率的先验概率。
(1-1)对短时记忆遗忘曲线进行抽样,抽样间隔时间为t,0<t<18s;
(1-2)获得k个抽样值d(k),作为回忆正确率的先验概率。
(2)通过回忆正确率的先验概率与主观调节系数,获得时域帧的重要性权重。
(2-1)设置主观调节系数r,r的参考值为1,可以在(0,1]范围内动态调节;
(2-2)通过乘性关系获得时域帧的重要性权重f(n)=r×d(k),其中n为帧序列。越接近末尾的帧回忆正确率越高,权重越高,18秒以外的帧回忆正确率为零,对应的重要性权重也为零。
(3)分割连续语音信号,构成情感识别单元。
(3-1)将连续的语音信号分割为小于18s的单元,单元的持续长度参考值为2s到9s。分割方法以自然停顿和音节为分界线。
(3-2)逐帧提取语音段的特征,包括基音、强度、共振峰等声学参数。
(4)根据每帧的重要性权重,求出情感识别单元的融合权重。
(4-1)对第(3)步骤中分割得到的m个语音段s(i),i=1,2,…m,分别提取各自的帧序列对应的帧的重要性权重fi(n);
(4-2)计算每个语音段s(i)的融合权重
(5)对各情感识别单元进行语音情感识别。
(5-1)对训练数据采用高斯混合模型对语音段进行情感建模,获得概率分布模型;
(5-2)对输入数据进行基于贝叶斯准则的情感识别,获得每段情感识别单元s(i)的情感矢量e(i)=[e(i,1),e(i,2),…,e(i,p)],p为情感类别数量;
(5-3)依据融合权重w(i),对各情感识别单元进行判决融合,最终的情感输出为E=w(1)×e(1)+w(2)×e(2)+…+w(m)×e(m)。
本发明的优点和效果在于:
1.本发明根据心理学中的短时记忆遗忘规律,提取语音帧的回忆正确率的先验概率;回忆正确率的先验概率,与调节系数共同构成帧的重要性权重,计算语音段的判决融合权重,最终根据判决融合权重进行识别,从而实现了情感的融合,提高了应激情感的识别效果。
2.本发明可以针对烦躁、疲倦、自信等与认知过程有关的情感类型进行有效地检测,在应激航天环境中有重要的应用前景,能够及时的对人员情绪稳定性进行预警监测。
本发明的其他优点和效果将在下面继续描述。
附图说明
图1——情感识别***流程图
图2——特征构造方法图
图3——短时记忆的遗忘曲线图
图4——高斯分量的权重迭代曲线
图5——嵌入短时记忆遗忘权重前的高斯混合模型识别结果
图6——本发明中方法的应激语音情感识别结果
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案作进一步的阐述。
图1是本发明所涉及的语音情感识别***框图,其中主要的模块包括:分段特征提取、情感模型训练、分帧重要性权重计算、局部情感识别结果、全局情感矢量融合等。下面具体介绍***的实现方法。
一.语音特征提取
用于识别和建模的特征向量一般有两种构造方法,静态统计特征和短时动态特征。动态特征对音位信息的依赖性较强。文本的变化会对情感特征有较大的影响。情感语音当中大致包含三种信息来源,说话人信息、语义信息和情感信息。在构造情感特征和选择特征的时候,不仅需要使得特征尽可能多的反映出情感信息,也就是随着情感的变化而发生明显的变化,而且还需要尽量保持特征不受到语义变化的影响。
特征构造方法如图2所示,采用的语音特征具有静态性和全局性。特征包含了韵律特征与音质特征,其中一阶抖动的计算公式如下:
Jitter 1 = 1 N - 1 &Sigma; i = 1 N - 1 | x i - x i + 1 | 1 N &Sigma; i = 1 N x i &times; 100 - - - ( 1 )
二阶抖动的计算公式如下:
Jitter 2 = 1 N - 2 &Sigma; i = 2 N - 1 | 2 x i - x i + 1 - x i - 1 | 1 N &Sigma; i = 1 N x i &times; 100 - - - ( 2 )
在构造频谱能量的分频段特征时,未采用650Hz-4kHz内的能量百分比,虽然这个频段涉及第一共振峰和几乎全部的第二共振峰,但是此频段的能量受到文本内容变化的影响较大,主要随着音位信息的变化而变化。
频谱能量特征中还采用了4kHz以上的能量百分比,这一部分频段能量的增加能反映激励程度的提高,可用于区分悲伤与生气等。
谐波噪声比特征中也同样增加了分频段的特征构造(特征78到特征95)。由于谐波噪声比会受到噪声干扰的影响,特别是在高频段中噪声的影响更加明显,因此考虑分频段构造谐波噪声比特征,以便更加细致的描述情感变化带来的信号变化。在频段的划分中,划分为四个频段:400Hz以下频段(包含了较低频率的谐波分量),400Hz-2000Hz频段(大致包含了前两个共振峰的能量范围),2000Hz-5000Hz频段(较高频率的谐波分量)。5kHz以上频段的信号中噪声影响较严重,而且对于一些采样率较低的语料也不适用,因此没有采用。
二.嵌入短时记忆遗忘曲线的分帧权重计算
从短时记忆遗忘规律曲线h(τ)中提取出回忆正确率的先验概率p(τ),短时记忆遗忘曲线如图3所示。对短时记忆遗忘曲线进行抽样,抽样间隔时间为t,0<t<18s。获得k个抽样值d(k),作为回忆正确率的先验概率。
p(τ)=d(τ/t)(3)
d(k)=h(kt)(4)
根据如下方式获得时域帧的重要性权重:
f(n)=r×d(k),0<k<18s/t(5)
f(n)=0,k>18s/t(6)
其中r为主观调节系数,0<r≤1,其中n为帧序列。越接近末尾的帧回忆正确率越高,权重越高,18秒以外的帧回忆正确率接近零,对应的重要性权重也为零。
对连续语音信号s(τ),构成情感识别单元S(m),m为语段编号。
S(m)=s(τi)-s(τj),τji<18s(7)
单元的持续长度参考值为2s到9s。分割方法以自然停顿和音节为分界线。
根据每帧的重要性权重,求出情感识别单元的融合权重
w ( i ) = &Sigma; i f i ( n ) = &Sigma;r i &times; h ( kt ) - - - ( 8 )
三.高斯混合模型建模
高斯混合模型(GaussianMixtureModel,GMM)可以通过下式定义:
p ( X t | &lambda; ) = &Sigma; i = 1 M a i b i ( X t ) - - - ( 9 )
这里X是语音样本的D维特征向量,t为其样本序号;bi(X),i=1,2,...,M是成员密度;ai,i=1,2,...,M是混合权值。每个成员密度是一D维变量的关于均值矢量Ui和协方差矩阵Σi的高斯函数,形式如下:
b i ( X t ) = 1 ( 2 &pi; ) D / 2 | &Sigma; i | 1 / 2 exp { - 1 2 ( X t - U i ) &prime; &Sigma; i - 1 ( X t - U i ) } - - - ( 10 )
其中混合权值满足条件:
&Sigma; i = 1 M a i = 1 - - - ( 11 )
完整的高斯混和密度由所有成员密度的均值矢量、协方差矩阵和混合权值参数化。这些参数聚集一起表示为:
λi={ai,Uii},i=1,2,...,M(12)根据贝叶斯判决准则,基于GMM的情感识别可以通过最大后验概率来获得,
EmotionLabel = arg max k ( p ( X t | &lambda; k ) ) - - - ( 13 )
其中k为情感类别序号。
对于高斯混合模型的参数估计,可以采用EM(Expectation-maximization)算法进行。EM是最大期望算法,它的基本思想是从一个初始化的模型λ开始,去估计一个新的模型使得这时新的模型对于下一次重复运算来说成为初始模型,该过程反复执行直到达到收敛门限。这类似于用来估计隐马尔科夫模型(HMM)参数的Baum-Welch重估算法。每一步的EM重复中,下列重估公式保证模型的似然值单调增加:
混合参数的重估:
a m i = &Sigma; t = 1 T &gamma; tm i &Sigma; t = 1 T &Sigma; m = 1 M &gamma; tm i - - - ( 14 )
均值矢量的重估:
&mu; m i = &Sigma; t = 1 T &gamma; tm i X t &Sigma; t = 1 T &gamma; tm i - - - ( 15 )
方差矩阵的重估:
&Sigma; m i = &Sigma; t = 1 T &gamma; tm i ( X t - &mu; m i ) ( X t - &mu; m i ) &prime; &Sigma; t = 1 T &gamma; tm i - - - ( 16 )
&gamma; tm i = a m i - 1 N ( X t | &mu; m i - 1 , &Sigma; m i - 1 ) &Sigma; m = 1 M a m i - 1 N ( X t | &mu; m i - 1 , &Sigma; m i - 1 ) - - - ( 17 )
GMM各个分量的权重、均值和协方差矩阵的估计值,通过每一次迭代趋于收敛。
高斯混合模型中的混合度,在理论上只能推导出一个固定的范围,具体的取值需要在实验中确定,各高斯分量的权重可以通过EM算法估计得到,在EM算法的迭代中,要避免协方差矩阵变为奇异矩阵,保证算法的收敛性。
以权重为例,EM算法的迭代曲线如图4所示,图中显示出了每一次迭代的收敛情况。纵坐标代表各个高斯分量的权重的数值,横坐标代表EM算法的迭代优化次数,不同颜色和形状的曲线代表不同的高斯分量。其中部分高斯混合分量为零,说明混合度设置偏高。初始值是由K均值聚类初始化得到,在迭代35次左右之后,算法收敛。
四.分段识别与融合
对局部情感识别结果进行全局的情感融合,不超过短时记忆的容量18秒:
每段情感识别单元s(i)的输出情感矢量
e(i)=[e(i,1),e(i,2),…,e(i,p)](18)
p为情感类别数量,依据融合权重w(i),对各情感识别单元进行判决融合,最终的情感输出为
E=w(1)×e(1)+w(2)×e(2)+…+w(m)×e(m)(19)
E为最终情感识别结果,m为局部语音段序号。
五.连续情感识别中嵌入短时记忆遗忘曲线权重的效果验证
选用连续情感语料进行实验。实验数据中包含了烦躁、喜悦、疲倦、自信和中性状态等五种情感状态的样本,语句样本之间保留了录音采集现场的顺序编号信息,相邻语句可以通过相邻的顺序编号得到。每种情感语料包含1000条语段样本,总计5000条。连续语音情感识别的识别率如图5所示,嵌入短时记忆遗忘曲线后,通过权重融合方法,提高了应激情感的识别效果,如图6中的识别结果所示。针对烦躁、疲倦、自信等与认知过程有关的情感类型进行检测,在应激航天环境中有重要的应用前景,能够及时的对人员情绪稳定性进行预警监测。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims (6)

1.一种基于短时记忆权重融合的航天应激情感识别方法,其特征在于包括以下步骤:
步骤1,从短时记忆遗忘规律曲线中提取出回忆正确率的先验概率;
步骤2,从0<r≤1的范围内选取主观调节系数,r为主观调节系数,将其用于时域帧对应的回忆正确率的修正,修正结果作为时域帧的重要性权重;
步骤3,分割连续语音信号,构成情感识别单元;
步骤4,将情感识别单元内部的所有帧的权重进行累加运算,累加结果作为情感识别单元的整体的权重;
步骤5,根据贝叶斯准则对各情感识别单元的情感概率模型进行识别,将各识别结果进行权重融合得到最终的识别结果。
2.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法,其特征在于,所述步骤1具体包括以下步骤:
步骤1-1,对短时记忆遗忘曲线进行抽样,抽样间隔时间为t,0<t<18s;
步骤1-2,获得k个抽样值d(k),作为回忆正确率的先验概率。
3.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2-1,设置主观调节系数r,r的参考值为1,可以在(0,1]范围内动态调节;
步骤2-2,通过乘性关系获得时域帧的重要性权重f(n)=r×d(k),其中n为帧序列;越接近末尾的帧回忆正确率越高,权重越高,18秒以外的帧回忆正确率为零,对应的重要性权重也为零。
4.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法,其特征在于,所述步骤3具体包括以下步骤:
步骤3-1,将连续的语音信号分割为小于18s的单元,单元的持续长度参考值为2s到9s;分割方法以自然停顿和音节为分界线;
步骤3-2,逐帧提取语音段的特征,包括基音、强度、共振峰声学参数。
5.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法,其特征在于,所述步骤4具体包括以下步骤:
步骤4-1,对权利要求1所述的步骤3中分割得到的m个语音段s(i),i=1,2,…m,分别提取各自的帧序列对应的帧的重要性权重fi(n);
步骤4-2,计算每个语音段s(i)的融合权重w(i)=∑nfi(n)。
6.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法,其特征在于,所述步骤5具体包括以下步骤:
步骤5-1,对训练数据采用高斯混合模型对语音段进行情感建模,获得概率分布模型;
步骤5-2,对输入数据进行基于贝叶斯准则的情感识别,获得每段情感识别单元s(i)的情感矢量e(i)=[e(i,1),e(i,2),…,e(i,p)],p为情感类别数量;
步骤5-3,依据融合权重w(i),对各情感识别单元进行判决融合,最终的情感输出为E=w(1)×e(1)+w(2)×e(2)+…+w(m)×e(m)。
CN201310534910.3A 2013-11-01 2013-11-01 一种基于短时记忆权重融合的航天应激情感识别方法 Expired - Fee Related CN103531208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310534910.3A CN103531208B (zh) 2013-11-01 2013-11-01 一种基于短时记忆权重融合的航天应激情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310534910.3A CN103531208B (zh) 2013-11-01 2013-11-01 一种基于短时记忆权重融合的航天应激情感识别方法

Publications (2)

Publication Number Publication Date
CN103531208A CN103531208A (zh) 2014-01-22
CN103531208B true CN103531208B (zh) 2016-08-03

Family

ID=49933160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310534910.3A Expired - Fee Related CN103531208B (zh) 2013-11-01 2013-11-01 一种基于短时记忆权重融合的航天应激情感识别方法

Country Status (1)

Country Link
CN (1) CN103531208B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766459B (zh) * 2018-06-13 2020-07-17 北京联合大学 一种多人语音混合中目标说话人估计方法及***
CN110334705B (zh) * 2019-06-25 2021-08-03 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法
CN112002348B (zh) * 2020-09-07 2021-12-28 复旦大学 一种患者语音愤怒情绪识别方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101346758A (zh) * 2006-06-23 2009-01-14 松下电器产业株式会社 感情识别装置
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法
CN103021406A (zh) * 2012-12-18 2013-04-03 台州学院 基于压缩感知的鲁棒性语音情感识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965762B2 (en) * 2007-02-16 2015-02-24 Industrial Technology Research Institute Bimodal emotion recognition method and system utilizing a support vector machine

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101346758A (zh) * 2006-06-23 2009-01-14 松下电器产业株式会社 感情识别装置
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法
CN103021406A (zh) * 2012-12-18 2013-04-03 台州学院 基于压缩感知的鲁棒性语音情感识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Combining Long Short-Term Memory and Dynamic Bayesian Networks for Incremental Emotion-Sensitive Artificial Listening;Martin W&ouml;llmer等;《IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING》;20101031;第4卷(第5期);全文 *

Also Published As

Publication number Publication date
CN103531208A (zh) 2014-01-22

Similar Documents

Publication Publication Date Title
CN108899051B (zh) 一种基于联合特征表示的语音情感识别模型及识别方法
CN101930735B (zh) 语音情感识别设备和进行语音情感识别的方法
CN105760852B (zh) 一种融合脸部表情和语音的驾驶员情感实时识别方法
CN101178896B (zh) 基于声学统计模型的单元挑选语音合成方法
CN105469784B (zh) 一种基于概率线性鉴别分析模型的说话人聚类方法及***
CN102800316B (zh) 基于神经网络的声纹识别***的最优码本设计方法
Mariooryad et al. Compensating for speaker or lexical variabilities in speech for emotion recognition
CN102142253B (zh) 语音情感识别设备及方法
CN105593936B (zh) 用于文本转语音性能评价的***和方法
CN105206258A (zh) 声学模型的生成方法和装置及语音合成方法和装置
CN103065619B (zh) 一种语音合成方法和语音合成***
CN106251859A (zh) 语音识别处理方法和装置
CN104200804A (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN104700843A (zh) 一种年龄识别的方法及装置
US11837252B2 (en) Speech emotion recognition method and system based on fused population information
CN110853656B (zh) 基于改进神经网络的音频篡改识别方法
CN107731233A (zh) 一种基于rnn的声纹识别方法
CN105374352A (zh) 一种语音激活方法及***
CN107437417A (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN104538036A (zh) 一种基于语义细胞混合模型的说话人识别方法
CN109065073A (zh) 基于深度svm网络模型的语音情感识别方法
CN103531208B (zh) 一种基于短时记忆权重融合的航天应激情感识别方法
CN110019741A (zh) 问答***答案匹配方法、装置、设备及可读存储介质
CN110473571A (zh) 基于短视频语音的情感识别方法和装置
Utane et al. Emotion recognition through Speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160803

Termination date: 20201101