CN1975856A - 一种基于支持向量机的语音情感识别方法 - Google Patents

一种基于支持向量机的语音情感识别方法 Download PDF

Info

Publication number
CN1975856A
CN1975856A CNA2006100973016A CN200610097301A CN1975856A CN 1975856 A CN1975856 A CN 1975856A CN A2006100973016 A CNA2006100973016 A CN A2006100973016A CN 200610097301 A CN200610097301 A CN 200610097301A CN 1975856 A CN1975856 A CN 1975856A
Authority
CN
China
Prior art keywords
emotion
statement
support vector
vowel
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006100973016A
Other languages
English (en)
Other versions
CN1975856B (zh
Inventor
赵力
王治平
赵艳
郑文明
Original Assignee
邹采荣
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 邹采荣 filed Critical 邹采荣
Priority to CN2006100973016A priority Critical patent/CN1975856B/zh
Publication of CN1975856A publication Critical patent/CN1975856A/zh
Application granted granted Critical
Publication of CN1975856B publication Critical patent/CN1975856B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明涉及一种语音情感识别***及方法。本发明采取特征提取分析模块、SVM训练模块和SVM识别模块;训练过程包括特征提取分析、SVM训练;识别过程包括特征提取分析、SVM识别。特征提取分析有全局结构特征参数选择及性别规整、时序结构特征参数选择、性别规整及元音数目规整;支持向量机(SVM)有支持向量机训练、对高兴、生气、悲伤、恐惧、惊讶五种情感进行识别。解决了矢量分割型马氏距离判法、主元分析法、神经网络法、隐马尔可夫法等的各自缺陷。本发明加强了特征参数的有效性,加入性别规整,用最少支持向量,在错分样本和算法复杂度之间获得最好的语音识别,在单个SVM及多个SVM结合的多模式具有连续输出函数,降低误识率。

Description

一种基于支持向量机的语音情感识别方法
技术领域
本发明涉及一种语音识别方法,特别涉及一种语音情感识别***及方法。
背景技术
语音情感自动识别技术主要包括两个问题:一是采用语音信号中的何种特征作为情感识别,也就是情感特征提取的问题,一是如何将特定的语音数据进行分类,也就是模式识别的问题。
在本发明之前,目前主要使用的情感特征是韵律特征及其衍生参数,如持续时间、语速、振幅、基音频率、共振峰等。其中,基音频率和共振峰频率是重要的情感参数,但是由于人和人之间存在的个体差异性(声道的易变性、声道特征、单词发音音调等)目前存在的方法都难以实现基音和共振峰的精确检测,单纯的使用全局基音均值、共振峰均值等常见的衍生参数难以实现较高的情感识别率。并且这些参数主要体现的是人体的声门和声道的特征,因此和人的生理构造有着密切的关系,在不同的个体上显现出较强的相异性。这种差异在不同的性别上尤其明显。在过去的文献中,这些在不考虑情感因素情况下的声学参数性别差异已得到充分的研究,然而针对不同性别下的特征参数在情感状态下的影响,则较少有文献给予专门研究。在已有的各种识别方法中,具体而言,矢量分割型马氏距离判法、主元分析法过于简单,不足于取得好的识别率;神经网络法虽然具有高度的非线性和极强的分类能力,但是随着网络的增大所需学习时间增加很快,另外局部极小问题也是一个不足之处;隐马尔可夫法(HMM)在建立和训练时间上较长,应用于实际还需要解决计算复杂度过高的问题。另外,虽然上述方法在实验环境下有一定的识别率,但主要是根据已有的语音库样本使训练集的性能最优,而实际中环境往往训练集有较大的差异。
发明内容
本发明的目的就在于上述现有技术的缺陷,设计、研究一种基于支持向量机的全局与时序结构特征相结合的语音情感识别方法。
本发明的技术方案是:
一种基于支持向量机的语音情感识别方法,其主要技术步骤为:
建立特征提取分析模块、SVM训练模块、SVM识别模块;特征提取分析模块包括全局结构特征参数提取、时序结构特征参数提取;首先对原始语音信号预加重、分帧,然后分别进行全局结构特征提取、时序结构特征提取;
(1)全局结构特征参数提取:
(1-1)将原始语音信号经高通滤波器预处理,提取发音持续时间、语速参数;
(1-2)分帧,加窗;
(1-3)应用短时分析技术,分别提取各帧语句主要特征参数:基音频率轨迹、振幅、共振峰频率轨迹;
(1-4)提取上述特征参数的衍生参数:平均基音频率,最高基音频率、基音频率平均变化率、平均振幅曲线、振幅动态范围、最高第一共振峰频率曲线、第一共振峰平均变化率、最高第二共振峰频率;
(2)时序结构特征参数提取:
(2-1)将原始语音信号分帧后,经由24个等带宽的滤波器组成的美尔标度频率滤波器组滤波,每帧信号以一个能量系数向量表示;
(2-2)计算频带能量累积量,用当前帧的美尔标度滤波器组的平均能量与各个美尔标度滤波器的能量做差值,求得所有差值的绝对值的加权和,得到频带能量累积量;
Sbec ( t ) = Σ i = 1 24 α i | E i ( t ) - E ‾ ( t ) | (式1)
t表示当前帧,Ei(t)为第i个美标度滤波器的能量, E(t)为美尔标度滤波器组的平均能量,αi为第i个滤波器的权重系数;
(2-3)根据频带能量累积量峰值来判定元音位置或元音区间,并用简化能量累积量的分布来确定元音的位置,
Rec = Σ i = 1 24 α i | E i ( t ) - E ‾ ( t ) | = Rec LF + Rec HF (式2)
t表示当前帧,Ei(t)为第i个美标度滤波器的能量, E(t)为美标度滤波器组的平均能量,αi为第i个滤波器的权重系数,RecLF为低频部分(300~1000Hz)对应的Rec值、RecHF为高频部分(1000~3200Hz)对应的Rec值,根据Rec值的分布,利用峰值确定元音的位置,Rec值作为判别元音的标准必须满足两个条件:当前语音段必须长于15ms,低频和高频的能量分布必须均衡,即满足下式
Rec LF Rec HF ≥ 0.5 (式3)
                           Δt≥15ms
Δt为当前帧的长度;
(2-4)采用短时分析方法,按照性别分别计算情感语句各元音区间的基音轨迹、3个共振峰轨迹、振幅能量轨迹;
(2-5)计算情感语句各元音区间的最高基音频率、该基音频率所对应帧的振幅能量、各元音区间的最高振幅能量、该振幅所对应帧的基音频率、各元音区间的持续时间以及前3个共振峰频率;
(2-6)采用均值补齐方法规整元音,即选取情感语句中元音个数最多的句子为基准,对于元音个数少的语句在尾部用全句平均值代替、补齐参数向量;
将提取的全局结构特征参数、时序结构特征参数规整到相同的空间,得到支持向量机的输入矢量;
(3)支持向量机的训练
单个支持向量机是一个二分模式的分类器,对SVM的训练是在训练样本中寻找支持向量xi(=1,2,…,n)、支持向量权值系数ai和偏移系数b;
SVM的训练步骤:
(3-1)从情感语句库中选取高兴、生气、悲伤、恐惧、惊讶五种情感语句作为训练样本;
(3-2)选择其中一种情感作为识别目标,对于第i条情感语句,抽取其特征参数构成一个特征参数向量,采用符号函数作为判决函数,如果这条语句属于该类情感,则令SVM输出参数yi=1,否则yi=-1;
(3-3)利用训练样本的特征参数向量和SVM输出参数作为训练集,核函数是高斯(径向基)函数,采用已有的分解算法对该情感的支持向量机进行训练,得到该训练集的支持向量xi(i=1,2,…,n)、支持向量权值系数ai和偏移系数b;
(3-4)高兴、生气、悲伤、恐惧、惊讶五种情感分别训练五个支持向量机;
(4)情感识别
(4-1)单个情感识别
提取待识别语句的特征矢量输入到步骤(3)已训练好的支持向量机中,经输出判别函数(符号函数)对该语句进行判别,如果yj=1则该语句属于该类情感,则该语句为该类情感,否则不属于该类情感;
(4-2)多情感识别
采用One-Against-All支持向量机对高兴、生气、悲伤、恐惧、惊讶五种情感进行识别,与步骤(3)中建立的五个支持向量机对应,对每一个支持向量机,采用具有连续输出的函数作为软判决函数,将具有最大输出值的类别作为最终的输出;
y jk = 1 &Sigma; x &Element; sv &alpha; ik y ik ( K ( x ik , x ) ) + b > 1 &Sigma; x &Element; sv &alpha; jk y ik ( K ( x ik , x ) ) + b - 1 &le; &Sigma; x &Element; sv &alpha; ik y ik ( K ( x ik , x ) ) + b &le; 1 - 1 &Sigma; x &Element; sv &alpha; ik y ik ( K ( x ik , x ) ) + b < - 1 (式4)
j为测试语句的标号,k为不同的情感,K(xik,x)为待识别语句x与第k种情感的第i个支持向量xik的核函数。在计算出每个样本相对于不同情感的判别结果后,识别情感为使(式4)取得最大值的k值。
本发明的优点和效果在于:
1.通过对情感语句的特征参数提取与分析,将参数从全局结构特征扩充至时序结构,增加了特征参数的有效性;
2.充分考虑了男女性别不同对特征参数的影响,在参数提取上加入性别规整;进一步提高参数有效性;
3.利用支持向量机(SVM)对未知集合的识别错误率最小这一特点,提供一个实用的、性能优良的高识别率语音情感识别***,即利用最少的支持向量,在错分样本和算法复杂度之间寻找折衷,获得最好的语音识别;
4.从单个SVM的二分模式情感识别扩充至多个SVM结合的多模式多情感识别;
5.在多模式多情感识别上,SVM的判决函数采用具有连续输出的函数,进一步降低了误识率。
本发明的其他优点和效果将在下面继续描述。
附图说明
图1——语音情感识别***框图。
图2——特征提取分析模块流程图。
图3——利用简化能量累计量(Rec)进行元音分割图(A)、(B)、(C)。
图4——5个支持向量机子网络训练图。
图5——支持向量机子网络原理示意图。
图6——支持向量机情感识别图。
图7——使用SVM的情感识别结果(%)图。
图8——使用PCA的情感识别结果(%)图。
图9——采用最大可分性分析PCA的情感识别结果(%)图。
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案作进一步的阐述。
如图1所示,是语音情感识别***框图,主要分为3大块:特征提取分析模块、SVM训练模块和SVM识别模块。整个***执行过程可分为训练过程和识别过程。训练过程包括特征提取分析、SVM训练;识别过程包括特征提取分析、SVM识别。
一.特征提取分析模块
1.全局结构特征参数选择及性别规整
全局结构特征参数包括:语句发音持续时间、语速、平均基音频率、最高基音频率、基音频率的平均变化率、平均振幅、振幅的动态范围、最高第一共振峰频率、第一共振峰平均变化率、最高第二共振峰频率。
首先,根据图2中的全局结构特征参数提取流程将待提取特征语句进行预加重处理,具体实施包括高通滤波、语句开始端点与结束端点的检测;然后提取全句的语句发音持续时间、语速这两个特征;然后对语句分帧加窗,采用短时分析技术,按照男女性别,分别求出各帧基音、第一共振峰、第二共振峰、振幅,然后将各帧所得参数汇总,分别得到语句的基音轨迹、共振峰轨迹、振幅轨迹语速、语句发音持续时间;在以往的试验中发现,基音和共振峰及其衍生参数主要体现的是人体的声门和声道的特征,和人的生理构造有着密切的关系,在不同的个体上显现出较强的相异性,这种差异在不同的性别上尤其明显。为了更好的消除性别差异对特征参数造成的影响,需要对基音和共振峰参数进行性别规整,将特征参数按照男女性别划分为不同的性别集合,以基音为例,将各个情感语句的基音轨迹按照性别分为女性集合与男性集合,然后分别计算各个集合的均值(μi)、方差(σi),然后利用(式5)将参数规整到相同的空间
s &prime; = s - u i &sigma; i (式5)
最后提取衍生参数:即平均基音频率,最高基音频率、基音频率平均变化率、平均振幅曲线、振幅动态范围、最高第一共振峰频率曲线、第一共振峰平均变化率、最高第二共振峰频率;得到上述全部全局特征参数。
2.时序结构特征参数选择、性别规整及元音数目规整
情感语句时序结构特征的选取是本文方法的特点之一。虽然无声部分和清音本身对情感识别是有贡献的,但是通过分析观察发现情感特征的变化主要反映在有声部分尤其是元音部分的特征变化上,因此需要从从语句中分割出各元音区间。
分帧加窗后根据美(Mel)标度频率滤波器进行滤波。这组滤波器在频率的美(Mel)坐标上是等带宽的。采用24个滤波器的滤波器组,这样每帧信号可以用一个能量系数向量表示。采用一个简单的距离测量标准来计算频带能量累积量(Sbec),计算如式(1)所示。
Sbec ( t ) = &Sigma; i = 1 24 &alpha; i | E i ( t ) - E &OverBar; ( t ) | 式(1)
t表示当前帧,Ei(t)为第i个美标度滤波器的能量, E(t)为美标度滤波器组的平均能量,αi为第i个滤波器的权重系数。
通常由于存在共振峰以及间隙,元音具有较高的Sbec值。从一段语音的Sbec值分布,就可以根据峰值来判定元音的位置。用Sbec检测元音时,存在着一个主要缺点,就是在清音帧出现Sbec峰值时,也判为元音。因此在判别标准不再采用Sbec,而是采用简化能量累积量(Rec),计算如式(2)所示
Rec = &Sigma; i = 1 24 &alpha; i | E i ( t ) - E &OverBar; ( t ) | = Rec LF + Rec HF (式2)
t表示当前帧,Ei(t)为第i个美标度滤波器的能量, E(t)为美标度滤波器组的平均能量,αi为第i个滤波器的权重系数,RecLF为低频部分(300~1000Hz)对应的Rec值、RecHF为高频部分(1000~3200Hz)对应的Rec值,根据Rec值的分布,利用峰值确定元音的位置。这里每个Rec值作为判别元音的标准必须满足:当前语音段必须长于15ms;低频和高频的能量分布必须均衡。即就是式(3)所要求满足的条件。
Rec LF Rec HF &GreaterEqual; 0.5 (式3)
                      Δt≥15ms
图3即为利用上述方法得到的元音区间分割,(A)为语音信号波形,(B)为Rec曲线,(C)为元音分割。
确定元音区间后,根据短时分析技术分别计算情感语句元音区间的基音轨迹、振幅轨迹、共振峰频率轨迹,然后进行性别规整,方法类同于全局结构特征参数的性别规整。然后提取最高基音频率、该基频所对应帧的振幅能量、各元音区间的最高振幅能量、该振幅所对应帧的基音频率、各元音区间的持续时间以及前3个共振峰频率的平均值、前3个共振峰频率的变化率共11种特征参数。最后,考虑到不同语句的元音个数不可能相同,在训练阶段必须对元音数目不同的语句进行规整。选取训练用情感语料中元音个数最多的句子作为基准,对于元音个数较少的语句的参数向量在尾部用全句的平均值代替补齐。最终得到时序结构特征参数。
在***的执行过程中,特征提取分析是必不可少的。在训练过程中,训练样本的特征提取分析可以直接按照图2所示流程进行。在识别过程中,待识别语句的特征提取分析同样按照图2流程进行,需要注意的是其中的性别规整和元音数目规整采用训练过程中产生的参数。性别规整:如语句是女声,则按照前面训练过程中性别规整时的女声的均值(μi)、方差(σi),利用(式5)将参数规整到相同的空间,男声同理。元音数目规整:采用训练过程中元音规整的个数进行规整。
二.支持向量机(SVM)模块
1.支持向量机(SVM)的训练
单个的SVM本质上是一个二分模式的分类器,判决函数为
y = f ( x ) = sign ( &Sigma; i = 1 n &alpha; i y i K ( x i , x ) + b )
= sign ( &Sigma; &ForAll; x i &Element; SV n &alpha; i y i K ( x i , x ) + b ) (式6)
支持向量机子网络原理示意图如图5所示,其中K(xi,x)(i=1,2,…,N)为核函数,x为待分类样本,训练样本集为(xi,yi)(i=1,2,…,n)。xi为训练样本,yi是xi的类标记。SV是支持向量集,是训练样本集的一个子集,n为训练样本个数,N为支持向量个数。SVM的训练就是寻找支持向量集xi(i=1,2,…,N)、支持向量权值系数ai和偏移系数b。b的具体计算可由(式7)求得
(式7)
训练前,从情感语音库中选取高兴、生气、悲伤、惊讶、恐惧五种情感语句,经过特征提取分析模块,得到各自特征参数向量作为SVM训练样本。训练时,首先选择其中一种情感作为识别目标,对于第i条情感语句,采用符号函数作为判决函数,如果这条语句属于该类情感,则yi为1,否则为-1。利用训练样本的特征参数向量和类标号作为训练样本集,选用符合Mercer条件的高斯函数为核函数,采用分解算法对该情感的支持向量机进行训练,其思想是通过循环迭代解决对偶寻优问题:将原问题分解成更易于处理的若干子问题,即设法减小寻优算法要解决问题的规模,按照某种迭代策略,通过反复求解子问题,最终使结果收敛到原问题的最优解。这是目前SVM训练算法一般采用的途径,当支持向量数目远小于训练样本数目时,算法效率较高。最后得到该训练集关于某种情感的的支持向量集xi(i=1,2,…,N)、支持向量权值系数ai和偏移系数b。5种情感分别训练5个SVM,图4是训练5个SVM分别对应5种情感。
2.情感识别
情感识别可大致分为两种:某条语句是否是某种情感(二分模式识别);某条语句是哪一种情感(多模式识别)。对前者的识别可以用一个SVM实现,采用符号函数作为判决函数,对后者则需要多个SVM结合实现。从识别的精度出发,本发明采用的是“One-Against-All”的SVM网络,并采用具有连续输出的软判决函数,从识别的精度角度看该法更具优势。
当识别问题是判断某条语句是否是某种情感时,如判断语句“今天是晴天”是否为“高兴”,首先将语句经过特征提取分析模块得到特征参数向量x,选择SVM1进行识别,求得 y 1 = &Sigma; &ForAll; x i &Element; SV n &alpha; i y i K ( x i , x ) + b , 根据(式6)求SVM1的输出y,y为1则该语句情感为“高兴”,y为-1则该语句情感不是“高兴”。
当识别问题是多模式识别问题,需要利用前面已经构造好的5个支持向量机(SVM)。如判断语句“今天是晴天”是哪一种情感,首先将语句经过特征提取分析模块得到特征参数向量x,然后将x分别输入5个SVM中去,计算
&Sigma; &ForAll; x i &Element; SV N &alpha; ik y ik K ( x ik , x ) + b , 并按照式(4)做如下处理
y jk = 1 &Sigma; x &Element; sv &alpha; ik y ik ( K ( x ik , x ) ) + b > 1 &Sigma; x &Element; sv &alpha; jk y ik ( K ( x ik , x ) ) + b - 1 < &Sigma; x &Element; sv &alpha; ik y ik ( K ( x ik , x ) + b - 1 &Sigma; x &Element; sv &alpha; ik y ik ( K ( x ik , x ) ) + b < - 1 (式4)
最后选择具有最大输出值的类别所对应的情感作为判别结果,如图6所示。
多模式识别不同于二分模式识别的最大特点采用了(式4)所示的具有连续输出的函数作为判别函数,而二分模式采用的是(式6)所示的符号函数。这是因为语音情感的划分本身就是一个模糊的分类,真正的语音情感识别往往是依靠判别语音中不同情感成分的强弱来决定。一般认为某种情感成分在语音中较突出时,即认为该语音信号属于此类情感。而符号函数是不能完全体现情感的这种模糊性的。因此(式4)所示函数从识别精度上看更具优势。
三.识别***的评价
如图7、8、9所示,是本发明实施数据提供的结合全局结构特征与时序结构特征的并考虑到性别差异的SVM方法同传统PCA方法以及进行最大可分性变换的PCA方法进行对比的结果。该结果说明,使用此种方法对语音情感进行识别效率大大高于现有技术的识别方法。结合前面二分模式的情感识别结果,可以知道在不同情感之间的分类界并不是一个线性超平面,而SVM可以利用核空间影射将低维空间的非线性分类问题转化为高维特征空间的线性分类问题,而使非线性问题得到解决。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims (2)

1.一种基于支持向量机的语音情感识别方法,其步骤为:
建立特征提取分析模块、SVM训练模块、SVM识别模块;特征提取分析模块包括全局结构特征参数提取、时序结构特征参数提取;首先对原始语音信号预加重、分帧,然后分别进行全局结构特征提取、时序结构特征提取;
(1)全局结构特征参数提取:
(1-1)将原始语音信号经高通滤波器预处理,提取发音持续时间、语速参数;
(1-2)分帧,加窗;
(1-3)应用短时分析技术,分别提取各帧语句主要特征参数:基音频率轨迹、振幅、共振峰频率轨迹;
(1-4)提取上述特征参数的衍生参数:平均基音频率,最高基音频率、基音频率平均变化率、平均振幅曲线、振幅动态范围、最高第一共振峰频率曲线、第一共振峰平均变化率、最高第二共振峰频率;
(2)时序结构特征参数提取:
(2-1)将原始语音信号分帧后,经由24个等带宽的滤波器组成的美尔标度频率滤波器组滤波,每帧信号以一个能量系数向量表示;
(2-2)计算频带能量累积量,用当前帧的美尔标度滤波器组的平均能量与各个美尔标度滤波器的能量做差值,求得所有差值的绝对值的加权和,得到频带能量累积量;
Sbec ( t ) = &Sigma; i = 1 24 &alpha; i | E i ( t ) - E &OverBar; ( t ) | (式1)
t表示当前帧,Ei(t)为第i个美标度滤波器的能量, E(t)为美尔标度滤波器组的平均能量,αi为第i个滤波器的权重系数;
(2-3)根据频带能量累积量峰值来判定元音位置或元音区间,并用简化能量累积量的分布来确定元音的位置,
Rec = &Sigma; i = 1 24 &alpha; i | E i ( t ) - E &OverBar; ( t ) | = Rec LF + Rec HF (式2)
t表示当前帧,Ei(t)为第i个美标度滤波器的能量, E(t)为美标度滤波器组的平均能量,αi为第i个滤波器的权重系数,RecLF为低频部分(300~1000Hz)对应的Rec值、RecHF为高频部分(1000~3200Hz)对应的Rec值,根据Rec值的分布,利用峰值确定元音的位置,Rec值作为判别元音的标准必须满足两个条件:
当前语音段必须长于15ms,低频和高频的能量分布必须均衡,即满足下式
Rec LF Rec HF &GreaterEqual; 0.5
                  Δt≥15ms               (式3)
Δt为当前帧的长度;
(2-4)采用短时分析方法,按照性别分别计算情感语句各元音区间的基音轨迹、3个共振峰轨迹、振幅能量轨迹;
(2-5)计算情感语句各元音区间的最高基音频率、该基音频率所对应帧的振幅能量、各元音区间的最高振幅能量、该振幅所对应帧的基音频率、各元音区间的持续时间以及前3个共振峰频率;
(2-6)采用均值补齐方法规整元音,即选取情感语句中元音个数最多的句子为基准,对于元音个数少的语句在尾部用全句平均值代替、补齐参数向量;
将提取的全局结构特征参数、时序结构特征参数规整到相同的空间,得到支持向量机的输入矢量;
(3)支持向量机的训练
单个支持向量机是一个二分模式的分类器,对SVM的训练是在训练样本中寻找支持向量xi(i=1,2,…,n)、支持向量权值系数ai和偏移系数b;
SVM的训练步骤:
(3-1)从情感语句库中选取高兴、生气、悲伤、恐惧、惊讶五种情感语句作为训练样本;
(3-2)选择其中一种情感作为识别目标,对于第i条情感语句,抽取其特征参数构成一个特征参数向量,采用符号函数作为判决函数,如果这条语句属于该类情感,则令SVM输出参数yi=1,否则yi=-1;
(3-3)利用训练样本的特征参数向量和SVM输出参数作为训练集,核函数是高斯(径向基)函数,采用已有的分解算法对该情感的支持向量机进行训练,得到该训练集的支持向量xi(i=1,2,…,N)、支持向量权值系数ai和偏移系数b;(3-4)高兴、生气、悲伤、恐惧、惊讶五种情感分别训练五个支持向量机;
(4)情感识别
(4-1)单个情感识别
提取待识别语句的特征矢量输入到步骤(3)已训练好的支持向量机中,经输出判别函数(符号函数)对该语句进行判别,如果yj=1则该语句属于该类情感,则该语句为该类情感,否则不属于该类情感;
(4-2)多情感识别
采用One-Against-All支持向量机对高兴、生气、悲伤、恐惧、惊讶五种情感进行识别,与步骤(3)中建立的五个支持向量机对应,对每一个支持向量机,采用具有连续输出的函数作为软判决函数,将具有最大输出值的类别作为最终的输出,
y ik = 1 &Sigma; x &Element; sv &alpha; ik y ik ( K ( x ik , x ) ) + b > 1 &Sigma; x &Element; sv &alpha; ik y ik ( K ( x ik , x ) ) + b - 1 &le; &Sigma; x &Element; sv &alpha; ik y ik ( K ( x ik , x ) ) + b &le; 1 - 1 &Sigma; x &Element; sv &alpha; ik y ik ( K ( x ik , x ) ) + b < - 1 (式4)
j为测试语句的标号,k为不同的情感,K(xik,x)为待识别语句x与第k种情感的第i个支持向量xik的核函数,在计算出每个样本相对于不同情感的判别结果后,识别情感为使(式4)取得最大值的k值。
2.根据权利要求1所述的一种基于支持向量机的语音情感识别方法,其特征在于可以在步骤(1-4)、(2-5)之前加入特征参数关于性别的规整,即按男、女性别,将得到的每个信号样本的特征参数划分为不同的性别集合,分别计算各个集合的均值(μi)、方差(σi),利用(式5)将参数规整到相同的空间。
s &prime; = s - u i &sigma; i (式5)
CN2006100973016A 2006-10-30 2006-10-30 一种基于支持向量机的语音情感识别方法 Expired - Fee Related CN1975856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2006100973016A CN1975856B (zh) 2006-10-30 2006-10-30 一种基于支持向量机的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006100973016A CN1975856B (zh) 2006-10-30 2006-10-30 一种基于支持向量机的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN1975856A true CN1975856A (zh) 2007-06-06
CN1975856B CN1975856B (zh) 2011-11-09

Family

ID=38125883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006100973016A Expired - Fee Related CN1975856B (zh) 2006-10-30 2006-10-30 一种基于支持向量机的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN1975856B (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009140877A1 (zh) * 2008-05-19 2009-11-26 华为技术有限公司 矢量规整的方法及装置和矢量规整的解码方法及装置
CN101840506A (zh) * 2010-04-08 2010-09-22 上海交通大学 远程教育学生特征信号提取识别的方法
CN101887721A (zh) * 2010-07-19 2010-11-17 东南大学 一种基于心电信号与语音信号的双模态情感识别方法
CN101930733A (zh) * 2010-09-03 2010-12-29 中国科学院声学研究所 一种用于语音情感识别的语音情感特征提取方法
CN101226742B (zh) * 2007-12-05 2011-01-26 浙江大学 基于情感补偿的声纹识别方法
CN101178897B (zh) * 2007-12-05 2011-04-20 浙江大学 利用基频包络剔除情感语音的说话人识别方法
CN102034473A (zh) * 2010-12-24 2011-04-27 东莞市泰斗微电子科技有限公司 一种个人定位仪及其信息发送方法
CN101620851B (zh) * 2008-07-01 2011-07-27 邹采荣 一种基于改进Fukunage-koontz变换的语音情感识别方法
CN102426835A (zh) * 2011-08-30 2012-04-25 华南理工大学 一种基于支持向量机模型的开关柜局部放电信号识别方法
CN101930735B (zh) * 2009-06-23 2012-11-21 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN103236258A (zh) * 2013-05-06 2013-08-07 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103258531A (zh) * 2013-05-29 2013-08-21 安宁 一种用于说话人无关的语音情感识别的谐波特征提取方法
CN103514883A (zh) * 2013-09-26 2014-01-15 华南理工大学 一种自适应实现男女声切换方法
CN103531207A (zh) * 2013-10-15 2014-01-22 中国科学院自动化研究所 一种融合长跨度情感历史的语音情感识别方法
CN103854645A (zh) * 2014-03-05 2014-06-11 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN104021373A (zh) * 2014-05-27 2014-09-03 江苏大学 一种半监督语音特征可变因素分解方法
CN104347081A (zh) * 2013-08-07 2015-02-11 腾讯科技(深圳)有限公司 一种测试场景说法覆盖度的方法和装置
CN105761720A (zh) * 2016-04-19 2016-07-13 北京地平线机器人技术研发有限公司 一种基于语音属性分类的交互***及其方法
CN106128479A (zh) * 2016-06-30 2016-11-16 福建星网视易信息***有限公司 一种演唱情感识别方法及装置
CN106409288A (zh) * 2016-06-27 2017-02-15 太原理工大学 一种利用变异鱼群算法优化的svm进行语音识别的方法
CN106653000A (zh) * 2016-11-16 2017-05-10 太原理工大学 一种基于语音信息的情感强度实验方法
CN107169409A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种情感识别方法及装置
CN107452404A (zh) * 2017-07-31 2017-12-08 哈尔滨理工大学 语音情感识别的优选方法
CN107507611A (zh) * 2017-08-31 2017-12-22 苏州大学 一种语音分类识别的方法及装置
CN108735233A (zh) * 2017-04-24 2018-11-02 北京理工大学 一种性格识别方法和装置
CN108899046A (zh) * 2018-07-12 2018-11-27 东北大学 一种基于多级支持向量机分类的语音情感识别方法及***
CN109065073A (zh) * 2018-08-16 2018-12-21 太原理工大学 基于深度svm网络模型的语音情感识别方法
CN109582947A (zh) * 2017-09-28 2019-04-05 北京国双科技有限公司 Smo中情感判断的方法、装置、存储介质和处理器
CN109935226A (zh) * 2017-12-15 2019-06-25 上海擎语信息科技有限公司 一种基于深度神经网络的远场语音识别增强***及方法
CN109945900A (zh) * 2019-03-11 2019-06-28 南京智慧基础设施技术研究院有限公司 一种分布式的光纤传感方法
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110427840A (zh) * 2019-07-15 2019-11-08 东南大学 一种基于皮肤电信号的驾驶员心理应激强度智能识别方法
CN110648672A (zh) * 2019-09-05 2020-01-03 深圳追一科技有限公司 人物图像生成方法、交互方法、装置及终端设备
CN110706689A (zh) * 2018-07-09 2020-01-17 富士施乐株式会社 感情推测***以及计算机可读介质
CN110797008A (zh) * 2018-07-16 2020-02-14 阿里巴巴集团控股有限公司 一种远场语音识别方法、语音识别模型训练方法和服务器
CN112633381A (zh) * 2020-12-24 2021-04-09 北京百度网讯科技有限公司 音频识别的方法及音频识别模型的训练方法
CN112927723A (zh) * 2021-04-20 2021-06-08 东南大学 基于深度神经网络的高性能抗噪语音情感识别方法
CN112949708A (zh) * 2021-02-26 2021-06-11 平安科技(深圳)有限公司 情绪识别方法、装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617163B2 (en) * 1998-05-01 2009-11-10 Health Discovery Corporation Kernels and kernel methods for spectral data
US7634360B2 (en) * 2003-09-23 2009-12-15 Prediction Sciences, LL Cellular fibronectin as a diagnostic marker in stroke and methods of use thereof
WO2006055413A2 (en) * 2004-11-11 2006-05-26 The Trustees Of Columbia University In The City Of New York Methods and systems for identifying and localizing objects based on features of the objects that are mapped to a vector
CN100440315C (zh) * 2005-10-31 2008-12-03 浙江大学 基于倒谱特征线性情感补偿的说话人识别方法

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178897B (zh) * 2007-12-05 2011-04-20 浙江大学 利用基频包络剔除情感语音的说话人识别方法
CN101226742B (zh) * 2007-12-05 2011-01-26 浙江大学 基于情感补偿的声纹识别方法
WO2009140877A1 (zh) * 2008-05-19 2009-11-26 华为技术有限公司 矢量规整的方法及装置和矢量规整的解码方法及装置
CN101620851B (zh) * 2008-07-01 2011-07-27 邹采荣 一种基于改进Fukunage-koontz变换的语音情感识别方法
CN101930735B (zh) * 2009-06-23 2012-11-21 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN101840506B (zh) * 2010-04-08 2014-02-19 上海交通大学 远程教育学生特征信号提取识别的方法
CN101840506A (zh) * 2010-04-08 2010-09-22 上海交通大学 远程教育学生特征信号提取识别的方法
CN101887721A (zh) * 2010-07-19 2010-11-17 东南大学 一种基于心电信号与语音信号的双模态情感识别方法
CN101930733A (zh) * 2010-09-03 2010-12-29 中国科学院声学研究所 一种用于语音情感识别的语音情感特征提取方法
CN102034473A (zh) * 2010-12-24 2011-04-27 东莞市泰斗微电子科技有限公司 一种个人定位仪及其信息发送方法
CN102426835A (zh) * 2011-08-30 2012-04-25 华南理工大学 一种基于支持向量机模型的开关柜局部放电信号识别方法
CN102426835B (zh) * 2011-08-30 2013-06-12 华南理工大学 一种基于支持向量机模型的开关柜局部放电信号识别方法
CN103236258A (zh) * 2013-05-06 2013-08-07 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103236258B (zh) * 2013-05-06 2015-09-16 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103258531A (zh) * 2013-05-29 2013-08-21 安宁 一种用于说话人无关的语音情感识别的谐波特征提取方法
CN103258531B (zh) * 2013-05-29 2015-11-11 安宁 一种用于说话人无关的语音情感识别的谐波特征提取方法
CN104347081B (zh) * 2013-08-07 2019-07-02 腾讯科技(深圳)有限公司 一种测试场景说法覆盖度的方法和装置
CN104347081A (zh) * 2013-08-07 2015-02-11 腾讯科技(深圳)有限公司 一种测试场景说法覆盖度的方法和装置
CN103514883A (zh) * 2013-09-26 2014-01-15 华南理工大学 一种自适应实现男女声切换方法
CN103531207B (zh) * 2013-10-15 2016-07-27 中国科学院自动化研究所 一种融合长跨度情感历史的语音情感识别方法
CN103531207A (zh) * 2013-10-15 2014-01-22 中国科学院自动化研究所 一种融合长跨度情感历史的语音情感识别方法
CN103854645A (zh) * 2014-03-05 2014-06-11 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN103854645B (zh) * 2014-03-05 2016-08-24 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
WO2015180368A1 (zh) * 2014-05-27 2015-12-03 江苏大学 一种半监督语音特征可变因素分解方法
CN104021373B (zh) * 2014-05-27 2017-02-15 江苏大学 一种半监督语音特征可变因素分解方法
CN104021373A (zh) * 2014-05-27 2014-09-03 江苏大学 一种半监督语音特征可变因素分解方法
CN105761720A (zh) * 2016-04-19 2016-07-13 北京地平线机器人技术研发有限公司 一种基于语音属性分类的交互***及其方法
CN105761720B (zh) * 2016-04-19 2020-01-07 北京地平线机器人技术研发有限公司 一种基于语音属性分类的交互***及其方法
CN106409288A (zh) * 2016-06-27 2017-02-15 太原理工大学 一种利用变异鱼群算法优化的svm进行语音识别的方法
CN106409288B (zh) * 2016-06-27 2019-08-09 太原理工大学 一种利用变异鱼群算法优化的svm进行语音识别的方法
CN106128479A (zh) * 2016-06-30 2016-11-16 福建星网视易信息***有限公司 一种演唱情感识别方法及装置
CN106128479B (zh) * 2016-06-30 2019-09-06 福建星网视易信息***有限公司 一种演唱情感识别方法及装置
CN106653000A (zh) * 2016-11-16 2017-05-10 太原理工大学 一种基于语音信息的情感强度实验方法
CN107169409A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种情感识别方法及装置
CN108735233A (zh) * 2017-04-24 2018-11-02 北京理工大学 一种性格识别方法和装置
CN107452404A (zh) * 2017-07-31 2017-12-08 哈尔滨理工大学 语音情感识别的优选方法
CN107507611B (zh) * 2017-08-31 2021-08-24 苏州大学 一种语音分类识别的方法及装置
CN107507611A (zh) * 2017-08-31 2017-12-22 苏州大学 一种语音分类识别的方法及装置
CN109582947A (zh) * 2017-09-28 2019-04-05 北京国双科技有限公司 Smo中情感判断的方法、装置、存储介质和处理器
CN109582947B (zh) * 2017-09-28 2023-01-17 北京国双科技有限公司 Smo中情感判断的方法、装置、存储介质和处理器
CN109935226A (zh) * 2017-12-15 2019-06-25 上海擎语信息科技有限公司 一种基于深度神经网络的远场语音识别增强***及方法
CN110706689A (zh) * 2018-07-09 2020-01-17 富士施乐株式会社 感情推测***以及计算机可读介质
CN108899046A (zh) * 2018-07-12 2018-11-27 东北大学 一种基于多级支持向量机分类的语音情感识别方法及***
CN110797008B (zh) * 2018-07-16 2024-03-29 阿里巴巴集团控股有限公司 一种远场语音识别方法、语音识别模型训练方法和服务器
CN110797008A (zh) * 2018-07-16 2020-02-14 阿里巴巴集团控股有限公司 一种远场语音识别方法、语音识别模型训练方法和服务器
CN109065073A (zh) * 2018-08-16 2018-12-21 太原理工大学 基于深度svm网络模型的语音情感识别方法
CN109945900A (zh) * 2019-03-11 2019-06-28 南京智慧基础设施技术研究院有限公司 一种分布式的光纤传感方法
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110134952B (zh) * 2019-04-29 2020-03-31 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110427840A (zh) * 2019-07-15 2019-11-08 东南大学 一种基于皮肤电信号的驾驶员心理应激强度智能识别方法
CN110648672A (zh) * 2019-09-05 2020-01-03 深圳追一科技有限公司 人物图像生成方法、交互方法、装置及终端设备
CN112633381A (zh) * 2020-12-24 2021-04-09 北京百度网讯科技有限公司 音频识别的方法及音频识别模型的训练方法
CN112633381B (zh) * 2020-12-24 2023-09-01 北京百度网讯科技有限公司 音频识别的方法及音频识别模型的训练方法
CN112949708A (zh) * 2021-02-26 2021-06-11 平安科技(深圳)有限公司 情绪识别方法、装置、计算机设备和存储介质
WO2022178942A1 (zh) * 2021-02-26 2022-09-01 平安科技(深圳)有限公司 情绪识别方法、装置、计算机设备和存储介质
CN112949708B (zh) * 2021-02-26 2023-10-24 平安科技(深圳)有限公司 情绪识别方法、装置、计算机设备和存储介质
CN112927723A (zh) * 2021-04-20 2021-06-08 东南大学 基于深度神经网络的高性能抗噪语音情感识别方法

Also Published As

Publication number Publication date
CN1975856B (zh) 2011-11-09

Similar Documents

Publication Publication Date Title
CN1975856A (zh) 一种基于支持向量机的语音情感识别方法
CN103503060B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
Mannepalli et al. Emotion recognition in speech signals using optimization based multi-SVNN classifier
CN111583964B (zh) 一种基于多模深度特征学习的自然语音情感识别方法
CN101620853A (zh) 一种基于改进模糊矢量量化的语音情感识别方法
CN1755796A (zh) 文本到语音转换中基于统计技术的距离定义方法和***
CN1819017A (zh) 提取特征向量用于语音识别的方法
CN101650944A (zh) 基于保类内核Fisher判别法的说话人辨别实现方法
Origlia et al. Prosomarker: a prosodic analysis tool based on optimal pitch stylization and automatic syllabi fication.
CN112750442A (zh) 一种具有小波变换的朱鹮种群生态体系监测***及其小波变换方法
CN114373452A (zh) 基于深度学习的嗓音异常识别和评价的方法及***
Quan et al. Reduce the dimensions of emotional features by principal component analysis for speech emotion recognition
Hendy et al. Emotion recognition using neural network: A comparative study
CN116524960A (zh) 一种基于混合熵下采样和集成分类器的语音情感识别***
Lugger et al. An incremental analysis of different feature groups in speaker independent emotion recognition
CN103366737A (zh) 在自动语音识别中应用声调特征的装置和方法
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别***
Ezzine et al. Towards a computer tool for automatic detection of laryngeal cancer
Rabiei et al. A system for feature classification of emotions based on speech analysis; applications to human-robot interaction
Kalinli Automatic phoneme segmentation using auditory attention features
CN112735442B (zh) 一种具有音频分离声纹识别的湿地生态监测***及其音频分离方法
Kons et al. On feature extraction for voice pathology detection from speech signals
Mangalam et al. Emotion Recognition from Mizo Speech: A Signal Processing Approach
Mansoorizadeh et al. Speech emotion recognition: Comparison of speech segmentation approaches
Torres et al. A study of glottal waveform features for deceptive speech classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111109

Termination date: 20121030