CN103544963A - 一种基于核半监督判别分析的语音情感识别方法 - Google Patents

一种基于核半监督判别分析的语音情感识别方法 Download PDF

Info

Publication number
CN103544963A
CN103544963A CN201310549224.3A CN201310549224A CN103544963A CN 103544963 A CN103544963 A CN 103544963A CN 201310549224 A CN201310549224 A CN 201310549224A CN 103544963 A CN103544963 A CN 103544963A
Authority
CN
China
Prior art keywords
speech
training
feature
emotional
regularization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310549224.3A
Other languages
English (en)
Other versions
CN103544963B (zh
Inventor
郑文明
徐新洲
赵力
魏昕
余华
黄程韦
刘健刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201310549224.3A priority Critical patent/CN103544963B/zh
Publication of CN103544963A publication Critical patent/CN103544963A/zh
Application granted granted Critical
Publication of CN103544963B publication Critical patent/CN103544963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于核半监督判别分析的语音情感识别方法,对经预处理的语音样本中语音情感特征提取后,进行特征筛选、KSDA维数约简和分类。在训练阶段,对全监督训练样本集使用KSDA进行维数约简,将表示训练样本不同关系信息的嵌入图结合起来,并使用核化数据映射,实现对语音情感特征维数约简的优化,再用低维样本训练多类SVM分类器;在测试阶段,依次使用训练阶段特征筛选得到的特征及维数约简得到的数据映射方式,对各测试样本获取其低维特征,再使用训练得到的分类器进行分类判决,得到测试样本的类别。与现有方法相比,本发明的方法在语音情感特征维数约简中增加了降维的有效性,使语音情感识别***的识别率性能得到了提升。

Description

一种基于核半监督判别分析的语音情感识别方法
技术领域
本发明属于语音情感识别领域,特别是涉及一种基于核半监督判别分析的语音情感识别方法。
背景技术
语音情感识别(Speech Emotion Recognition,简称SER,)涉及到语音信号处理、模式识别、机器学***静、恐惧、生气、愉悦、烦躁、惊讶等。
在人机交互(HMI)中,机器需要根据交流对象的语音信号,经过处理之后提取出信号样本的情感特征,进行语音情感类型的识别,根据识别的结果给出相应的反应策略;同样,机器也可以根据各类样本特征分析的结果,自动生成带某种情感成分的语音信号,从而提高人机交互***的性能。在航天员培训训练过程中及航天器在轨阶段,语音情感识别也具有重要的意义,可以及时检测出负面情感,从而尽早进行干预和情绪疏导,排除由负面情绪所带来的安全隐患。此外,在呼叫中心、儿童的心理疾病诊疗等方面语音情感识别方法同样能够为相关人员提供一定的初步诊断筛选依据。
目前很多语音情感识别算法都是基于原始特征直接通过分类器进行分类识别,常用的分类器如高斯混合模型(GMM)、隐马尔可夫模型(HMM)、支持向量机(SVM)等,虽然能取得一些效果,但由于语音情感原始特征的维数一般较高,而且原始特征中一般会含有一些对情感分类无用的特征,所以对普通的语音情感样本的准确分类存在着较大的局限性。
传统的语音情感识别方法还采用了一些特征筛选的措施,但由于缺乏对原始特征的线性或非线性变换,语音情感的维数仍然太高,所以仍无法提供较为准确的语音情感特征。当前的研究成果中,流形学习算法已经成为模式识别与机器学习中的维数约简常用方法。常见的基本流形学习算法包括局部线性嵌入(Locally Linear Embedding,简称LLE)、等距线性映射(Isomap)、局部保持投影(Locally Preserve Projection,简称LPP)和随机近邻嵌入(Stochastic Neighbor Embedding,简称SNE)等。其中很多流形学习算法都与判别分析、瑞利(Rayleigh)商、谱图学习等相关算法具有密切联系。
较多的心理学研究表明,语音情感空间具有较低的维度,目前以三维及多维情绪空间理论为主,这为流形学习算法在语音情感识别中应用提供了依据,即语音情感空间在利用流行学习算法将其降到较低维度时仍然能保持并加强对于样本情绪的表达。
但是,在当前的研究成果中还存在下列问题:大部分方法都是直接基于基本的流形学习算法如LLE、Isomap、LPP、边界Fisher分析(Marginal Fisher Analysis,简称MFA)等,或是主成分分析(Principal Component Analysis,简称PCA)、线性判别分析(Liner Discriminant Analysis,简称LDA)等简单的维数约简算法及其不同的数据映射形式,无论是基本的流行学习算法还是简单的维数约减算法都仅仅使用单一的嵌入图及其相似模型的学习,而忽略了对于嵌入图的优化。由于一个嵌入图反映了训练样本的某种方面的关系,就必然会忽略其他方面的特性,所以单一的嵌入图并不能完全反映训练样本的特征空间结构,造成语音情感的识别效果不佳。
发明内容
要解决的技术问题:针对现有技术的不足,本发明提供一种基于核半监督判别分析的语音情感识别方法,解决现有技术中语音情感的维数较高,无法提供较为准确的语音情感特征;基本的流行学习算法中仅利用单一嵌入图及其相似模型进行学习时不能完全反应训练样本的特征空间结构导致语音情感识别率低的技术问题。
技术方案:为解决上述技术问题,本发明采用以下技术方案:
一种基于核半监督判别分析的语音情感识别方法,将语音情感数据库中若干个语音样本任意划分为训练样本集和测试样本集,包括顺序执行的以下步骤:
步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧;
步骤二,语音情感特征提取:提取经步骤一处理后的每个语音样本中的语音情感特征,按照提取方式的不同分为能量、基音、过零率、时长、共振峰和Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,简称MFCC)共6大类语音情感特征组成每个语音样本的原始语音情感特征向量,其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围;对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量;
步骤三,特征筛选:对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量;
步骤四,基于核半监督判别分析KSDA的特征维数约简:对经步骤三特征筛选后得到的训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]使用KSDA对X进行维数约简训练,生成核方法的降维映射阵A,同时求解得到X的低维样本集ATK,Gram阵K选用Gauss核函数;
步骤五,训练两类SVM分类器:对训练样本中的N个分属于Nc个种类的语音样本,取每两类组合训练得到1个两类SVM分类器,共得到Nc(Nc-1)/2个两类SVM分类器;
步骤六,测试:利用经步骤五训练完成的SVM分类器每个测试样本进行测试,具体包括顺序执行的以下步骤:
(1)对经步骤三得到的每个测试样本
Figure BDA0000410225300000031
的特征筛选后语音情感特征向量使用核方法的降维映射阵A进行维数约简,得到
Figure BDA0000410225300000032
经过维数约简后的低维样本为ATKi,对于一个测试样本
Figure BDA0000410225300000033
K i = [ K ( x i test , x 1 ) , K ( x i test , x 2 ) , . . . , K ( x i test , x N ) ] T , Gram阵K选用步骤四中所述的Gauss核函数;
(2)使用多类SVM分类器投票进行分类:将每个测试样本的低维样本ATKi经所有得到的两类SVM分类器分类之后得到Nc(Nc-1)/2个判断结果,得票最多的判断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本按此过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类别。
进一步的,在本发明中,步骤二中原始语音情感特征向量中的语音情感特征分布如下:
1-80维:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计特征;三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征;三个不同频带内能量序列的一阶、二阶抖动;
81-101维:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统计特征;基音序列斜率;
102-121维:过零率序列及其一阶、二阶差分序列的统计特征;
122-130维:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长段的帧数;浊、清音帧数和段数;语速;
131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共振峰频率序列的一阶、二阶抖动;
251-406维:MFCC及其一阶差分序列的统计特征;
其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。
进一步的,在本发明中,步骤二中的规整化处理的方法如下:
规整化前的所有语音样本中的任一样本为x(0),其中N个训练样本组成的训练样本集为
Figure BDA0000410225300000041
Figure BDA0000410225300000043
的第j个特征元素(i=1,2,...,N);
对于任一语音样本x(0),特征j对应元素的规整化处理的计算公式为:
x · j ( 1 ) = x · j ( 0 ) - min i = 1,2 , . . . , N ( x ij ( 0 ) ) max i = 1,2 , . . . , N ( x ij ( 0 ) ) - min i = 1,2 , . . . , N ( x ij ( 0 ) )
其中
Figure BDA0000410225300000046
表示X(0)第j行中最大的元素,
Figure BDA0000410225300000047
表示X(0)第j行中最小的元素;
将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本x(0)规整化语音情感特征向量集
Figure BDA0000410225300000048
其中,属于训练样本集的语音样本规整化语音情感特征向量,组成训练样本的规整化语音情感特征向量集 X ( 1 ) = [ x 1 ( 1 ) , x 2 ( 1 ) , . . . , x N ( 1 ) ] ,
Figure BDA00004102253000000410
其余为测试样本的语音样本规整化语音情感特征向量。
进一步的,在本发明中,步骤三中所述特征筛选的方法如下:
任一语音样本规整化语音情感特征向量
Figure BDA00004102253000000411
中属于特征j的FDR值的计算公式为:
J ( j ) = Σ l , k = 1 l > k N c ( μ c l j - μ c k j ) 2 δ c l j 2 + δ c k j 2
其中,
Figure BDA00004102253000000413
分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的均值,
Figure BDA00004102253000000414
分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的方差,Nc为情感的类数;
去除100~150个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]和每个测试样本的特征筛选后语音情感特征向量
Figure BDA00004102253000000415
进一步的,在本发明中,维数约简训练时,KSDA的图嵌入的优化形式为:
arg min a a T K [ ( I + τD ) - ( Σ c = 1 N c 1 n c e c e cT + τS ) ] Ka a T K [ ( I + τD ) - ( 1 N e e T + τS ) ] Ka
其中,
列向量a为核方法的降维投影向量,aT为a的转置;
I为N×N的单位阵;
Gram阵K中元素选用Gauss核函数,K中i行j列元素形式为:Kij=K(xi,xj)=exp(-||xi-xj||22),其中σ2为Gauss核参数,控制核函数的平缓程度;这里的Gram阵K满足K=φT(X)φ(X),φ(X)=[φ(x1)φ(x2)...φ(xN)]为原特征下的样本集X向高维再生核Hilbert空间的映射,φT(X)为φ(X)的转置矩阵;
C为用数字1,2,...,Nc表示的情感的类别;
Nc表示情感的类数;
nc表示属于类C的训练样本数;
e表示元素为全为1的N维列向量,eT表示e的转置;
ec表示语音样本的语音情感特征向量中对应的标签属于类C的元素为1,其他元素为0的列向量;
S为局部保持投影即LPP算法下的嵌入图;对角阵D的对角元素分别为LPP算法下嵌入图各个语音样本点的度,其中S和D的i行j列元素分别为:
S ij = 1 , i ∈ N k ( j ) or j ∈ N k ( i ) 0 , otherwise , D ij = Σ k = 1 N S ik , i = j 0 , i ≠ j
这里NK(i)、NK(j)分别表示样本点i、j的k近邻点集;
权重参数τ≥0为平衡KSDA的图嵌入的优化形式中和S之间关系的参数这里的
Figure BDA0000410225300000054
和S代表了不同类型训练样本嵌入图信息;采用枚举法进行权重参数τ的选择,通过使用训练样本集对离散的权重参数τ值代入KSDA的图嵌入的优化形式进行5折交叉验证,验证得到较优识别率对应的权重参数τ;
利用广义特征值问题GEP对该KSDA的图嵌入的优化形式进行求解,得到核方法的降维投影向量a的求解a1,a2,...,am,,所述各个求解a1,a2,...,am均两两相互正交,进而得到各个求解组成核方法的降维映射阵A=[a1,a2,...,am],m为维数约简后的特征维数。
更进一步的,在本发明中,所述5折交叉验证的方法为:
将训练样本集平均分为五份子集,每次交叉验证时将训练样本集中的四份子集合并划分为验证训练样本集,取剩下的一份子集作为验证测试样本集,用于对验证训练样本集进行测试,依次经过步骤四、步骤五和步骤六对于5折交叉验证中所有5种分割情况进行训练和测试,得到所取的每个权重参数τ值对应的验证测试样本集中的语音样本的平均识别率,反向验证得到较优识别率对应的权重参数τ。
有益效果:
本发明的语音情感识别方法通过对语音样本划分为训练样本集和测试样本集,将语音样本预处理后对其中的语音情感特征提取后进行特征筛选、维数约简和测试。基于SDA算法,在维数约简阶段,将全监督的训练样本使用半监督判别分析算法的嵌入图组合,将不同训练样本嵌入图信息之间关系通过权重参数τ结合起来;进一步地使用了非线性的核化映射,引入了高斯核函数,共同实现对语音情感识别中特征维数约简过程的优化,提高了降维的有效性;在测试阶段,使用多类SVM分类器投票进行分类,最终得到测试样本的类别同时验证得到本发明方法的识别率。
通过实验证明,相比于现有的识别方法,本发明的方法在语音情感特征空间降维过程中增加了降维的有效性,使得语音情感识别***的识别率性能得到了提升。
附图说明
图1为基于KSDA的语音情感识别方法流程图;
图2为训练样本数、测试样本数的比为5:5时几种线性降维方法的识别率随降维维数的变化情况比较;
图3为训练样本数、测试集样本数的比为5:5时SDA与不同参数的KSDA方法的识别率随降维维数的变化情况比较。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,为本发明的流程图。
步骤一,将语音情感数据库中的若干个语音样本任意划分为训练样本集和测试样本集,采用滤波器对所有语音样本进行预加重,这里预加重采用的滤波器z域内的***函数为:H(z)=1-μz-1,其中,参数μ取值为0.95<μ<1。然后对预加重后的语音样本的时域信号使用Hamming窗进行分帧。
步骤二,语音情感特征提取:从语音情感特征的属性上来看,语音情感特征分为两类:韵律特征和音质特征。韵律特征包括浊音段的基音、能量,以及时长特征,能够反映一个语段总体的韵律及其变化特性;音质特征来源于每帧语音信号的音质特征提取,大体反映了语段的音色特性。通过提取方式的不同,提取经步骤一处理后的每个语音样本中的语音情感特征,按照提取方式的不同分为能量、基音、过零率、时长、共振峰和MFCC共6大类语音情感特征的统计特征及其他相关参数组成每个语音样本的原始语音情感特征向量,其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。每个语音样本的原始语音情感特征向量中的与一个情感特征种类分布如下:
1-80维,能量特征:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计特征;三个不同频带内能量序列及其一阶、二阶差分序列分别的统计特征;三个不同频带内能量序列的一阶、二阶抖动。
81-101维,基音特征:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统计特征;基音序列斜率。
102-121维,过零率特征:过零率序列及其一阶、二阶差分序列的统计特征。
122-130维,时长特征:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长段的帧数;浊、清音帧数和段数;语速。
131-250维,F1、F2、F3三个共振峰特征:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共振峰频率序列的一阶、二阶抖动。
251-406维,MFCC特征:MFCC及其一阶差分序列的统计特征。
通过上述的语音情感特征提取,可以获取用于语音情感识别的每个语段样本406维原始语音情感特征向量。
对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量。
这里所述的规整化处理的方法如下:
规整化前的所有语音样本中的任一样本为x(0),其中N个训练样本组成的训练样本集为
Figure BDA0000410225300000071
的第j个特征元素(i=1,2,...,N);
对于任一语音样本x(0),特征j对应元素的规整化处理的计算公式为:
x · j ( 1 ) = x · j ( 0 ) - min i = 1,2 , . . . , N ( x ij ( 0 ) ) max i = 1,2 , . . . , N ( x ij ( 0 ) ) - min i = 1,2 , . . . , N ( x ij ( 0 ) )
其中
Figure BDA0000410225300000076
表示X(0)第j行中最大的元素,
Figure BDA0000410225300000077
表示X(0)第j行中最小的元素;
将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本x(0)规整化语音情感特征向量集
Figure BDA0000410225300000078
其中,属于训练样本集的语音样本规整化语音情感特征向量,组成训练样本的规整化语音情感特征向量集 X ( 1 ) = [ x 1 ( 1 ) , x 2 ( 1 ) , . . . , x N ( 1 ) ] ,
Figure BDA0000410225300000082
其余为测试样本的语音样本规整化语音情感特征向量。
步骤三,对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值(Fisher线性判别比)进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量。
这里特征筛选的方法如下:
任一语音样本规整化语音情感特征向量
Figure BDA0000410225300000083
中属于特征j的FDR值的计算公式为:
J ( j ) = Σ l , k = 1 l > k N c ( μ c l j - μ c k j ) 2 δ c l j 2 + δ c k j 2
其中,
Figure BDA0000410225300000085
分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的均值,
Figure BDA0000410225300000086
分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的方差,Nc为情感的类数;
去除100~150个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]和每个测试样本的特征筛选后语音情感特征向量
Figure BDA0000410225300000087
步骤四,基于KSDA的特征维数约简:对经步骤三特征筛选后得到的训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]使用KSDA(即核半监督判别分析)对X进行维数约简训练,生成核方法的降维映射阵A,同时求解得到X的低维样本集ATK,Gram阵K选用Gauss核函数。
维数约简训练时,KSDA的图嵌入的优化形式为:
arg min a a T K [ ( I + τD ) - ( Σ c = 1 N c 1 n c e c e cT + τS ) ] Ka a T K [ ( I + τD ) - ( 1 N e e T + τS ) ] Ka
其中,
列向量a为核方法的降维投影向量,aT为a的转置;
I为N×N的单位阵;
Gram阵K中元素选用Gauss核函数,K中i行j列元素形式为:Kij=K(xi,xj)=exp(-||xi-xj||22),其中σ2为Gauss核参数,控制核函数的平缓程度;这里的Gram阵K满足K=φT(X)φ(X),φ(X)=[φ(x1)φ(x2)...φ(xN)]为原特征下的样本集X向高维再生核Hilbert空间的映射,φT(X)为φ(X)的转置矩阵;
C为用数字1,2,...,Nc表示的情感的类别;
Nc表示情感的类数;
nc表示属于类C的训练样本数;
e表示元素为全为1的N维列向量,eT表示e的转置;
ec表示语音样本的语音情感特征向量中对应的标签属于类C的元素为1,其他元素为0的列向量;
S为局部保持投影即LPP算法下的嵌入图;对角阵D的对角元素分别为LPP算法下嵌入图各个样本点的度,其中S和D的i行j列元素分别为:
S ij = 1 , i ∈ N k ( j ) or j ∈ N k ( i ) 0 , otherwise , D ij = Σ k = 1 N S ik , i = j 0 , i ≠ j
这里NK(i)、NK(j)分别表示样本点i、j的k近邻点集;
权重参数τ≥0为平衡不同类型训练样本嵌入图信息之间关系的参数;采用枚举法进行权重参数τ的选择,通过使用训练样本集对离散的权重参数τ值代入KSDA的图嵌入的优化形式进行5折交叉验证,验证得到较优识别率对应的权重参数τ。这里5折交叉验证的具体方法为,将训练样本集平均分为五份子集,每次交叉验证时将训练样本集中的四份子集合并划分为验证训练样本集,取剩下的一份子集作为验证测试样本集,用于对验证训练样本集进行测试,依次经过步骤四、步骤五和步骤六所述方法对于5折交叉验证中所有5种分割情况进行训练和测试,得到所取的每个权重参数τ值对应的验证测试样本集中的语音样本的平均识别率,反向验证得到较优识别率对应的权重参数τ。
将该KSDA的图嵌入的优化形式转化为广义特征值问题GEP进行求解,得到核方法的降维投影向量a的求解a1,a2,...,am,所述各个求解a1,a2,...,am均两两相互正交,进而得到各个求解组成核方法的降维映射阵A=[a1,a2,...,am],m为维数约简后的特征维数。
步骤五,训练两类SVM分类器:根据2004年出版的《Pattern recognition》第二版的第三章中对该方法的介绍,对训练样本集中的N个分属于Nc个类的语音样本,取每两类组合训练得到1个两类SVM分类器,共得到Nc(Nc-1)/2个两类SVM分类器;每个两类SVM分类器训练的具体方法为:
设某个两类SVM分类器是用于判断类ω-和ω+两种语音情感类别,设x-、x+为分别属于类ω-、ω+的距离最近的样本点,其优化目标可写为:
max||x--x+||   (1)
上式(1)的约束条件为同时满足wTx-+b=-1,wTx++b=1   (2)
这里w为线性映射权重、b为偏置,w和b均为线性决策面参数。
具体地,由于两类SVM分类器分为线性可分和线性不可分两种,对于线性可分的两类SVM分类器,对经过维数约简后包含任意两类标签的训练样本集,即
Figure BDA0000410225300000101
该训练样本集经线性可分的两类SVM分类器分类,其优化目标为:
min | | w | | 2 2 = w T w 2 - - - ( 3 )
上式(3)的约束条件为满足
Figure BDA0000410225300000103
对于线性不可分的两类SVM分类器,训练样本集
Figure BDA0000410225300000104
经线性不可分的两类SVM分类器分类的优化目标为:
min ( | | w | | 2 2 + C Σ i = 1 N α i ) - - - ( 5 )
上式(5)的约束条件为满足 ( w T x ^ i + b ) y i ≥ 1 - α i , α i ≥ 0 ( i = 1,2 , . . . , N ± ) - - - ( 6 )
在上述(1)至(6)中,
Figure BDA0000410225300000107
为训练样本i经过维数约简后的特征矢量;yi=±1为训练样本i的标签信息;N±=N++N-为训练样本集中训练样本的个数;N+、N-分别为所取的ω-和ω+两类中各自的样本个数;αi为松弛项;C为常数。
求解上述(3)式和(5)式,求解得到决策面参数w和b,完成对该两类SVM分类器的训练。
步骤六,测试:利用经步骤五训练完成的SVM分类器每个测试样本进行测试,具体包括顺序执行的以下步骤:
(1)对经步骤三得到的每个测试样本
Figure BDA0000410225300000108
的特征筛选后语音情感特征向量使用核方法的降维映射阵A进行维数约简,得到
Figure BDA0000410225300000109
经过维数约简后的低维样本为ATKi,对于一个测试样本
Figure BDA00004102253000001010
K i = [ K ( x i test , x 1 ) , K ( x i test , x 2 ) , . . . , K ( x i test , x N ) ] T , Gram阵K选用步骤四中所述的Gauss核函数;
(2)使用多类SVM分类器投票进行分类:将每个测试样本的低维样本ATKi经所有得到的两类SVM分类器分类之后得到Nc(Nc-1)/2个判断结果,得票最多的判断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本按此过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类别。
下面对通过实验的方法将本发明的方法与现有的具有代表性的识别方法包括半监督判别分析(SDA)、主成分分析(PCA)、线性判别分析(LDA)、局部保持投影(LPP)、边界Fisher分析(MFA)进行识别率对比。
实验采用Berlin语音情感数据库,Berlin数据库中包括7类情感:害怕、厌恶、喜悦、厌倦、中性、悲伤、生气。实验者为10个专业演员,包括5男5女,语料为10个不同的德语短句。语音样本的采样频率为16kHz,量化位数为16bit。虽然Berlin语音情感数据库有着一些缺陷,如样本数量、表演因素以及语言因素等,但该数据库仍然可以作为语音情感识别的一个标准化数据库。
在实验过程中,为保证实验数据的可信度,在随机划分的训练样本集和测试样本集的基础上对实验重复20次,得到的识别率取均值作为最终实验结果。
所述SDA、PCA、LDA、LPP、MFA等5种算法为采用线性数据映射的降维方法,其中PCA、LPP算法中均不含监督信息,LDA、MFA、SDA含有监督信息;背景中提到的LLE、Isomap等算法不含监督信息,其识别率应与PCA、LPP等差不多,且一般情况下均低于含有监督信息的算法,故这里没有针对这些算法做相关实验。PCA和LDA常用于语音情感识别,而LPP、MFA以及半监督训练样本下的SDA已在人脸识别中得到了应用。由于PCA、LDA、LPP、MFA等算法仅考虑了单嵌入图下的情况,而SDA则考虑到了多个嵌入图之间的结合,所以这里使用SDA进行语音情感识别中的维数约简。在此基础上,使用了采取核数据映射方式的KSDA,即本发明方法,进一步提高了语音情感识别的识别率。
首先利用这几种方法对Berlin库中的语音样本进行识别,选取训练样本数、测试样本数的比为5:5时得到这5种方法的识别率随约简的维数变化的图像如图2所示。可见SDA的识别率最优。
进一步的,再比较本发明的方法和SDA之间识别率的高低。利用本发明所述方法和SDA方法对Berlin库中的语音样本进行识别,实验过程中,使用3个不同参数的Gauss核函数,得到具有3个不同参数的核半监督判别分析方法Kernel1-SDA、Kernel2-SDA和Kernel3-SDA。将Kernel1-SDA、Kernel2-SDA、Kernel3-SDA以及SDA对专业演员所说的语音样本进行识别,选取训练样本数、测试样本数的比为5:5时得到如图3所示的识别率随约简的维数变化的图像。可见Kernel1-SDA、Kernel2-SDA、Kernel3-SDA的识别率均高于SDA的识别率。
由图2和图3可以看出,在语音情感特征的低维子空间内,相对于其他一些常用的线性映射的子空间学习算法,SDA可以取得较高的识别率;而基于非线性映射的KSDA相对于SDA,则具有更理想的识别效果。
进一步的,改变训练样本和测试样本数量的比为6:4时,重复整个实验过程,得到利用各种识别方法进行实验在低特征维数时的最高识别率,制成下表。
Figure BDA0000410225300000121
表1
由表1可知,KSDA算法在语音情感识别中相比其他现有采用维数约简的识别方法(PCA、LDA、LPP、MFA等),在使用同样分类器的条件下能够取得较优的识别效果,从而更适用于语音情感识别。
综上所述,本发明中所采用的KSDA算法能够基于嵌入图的优化组合,以及非线性数据映射,有效地提高语音情感识别效果。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于核半监督判别分析的语音情感识别方法,其特征在于:将语音情感数据库中若干个语音样本任意划分为训练样本集和测试样本集,包括顺序执行的以下步骤:
步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧;
步骤二,语音情感特征提取:提取经步骤一处理后的每个语音样本中的语音情感特征,按照提取方式的不同分为能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量;对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量;
步骤三,特征筛选:对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量;
步骤四,基于KSDA的特征维数约简:对经步骤三特征筛选后得到的训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]使用KSDA对X进行维数约简训练,生成核方法的降维映射阵A,同时求解得到X的低维样本集ATK,Gram阵K选用Gauss核函数;
步骤五,训练两类SVM分类器:假设训练样本集中有N个分属于Nc个种类的语音样本,在训练样本集中任取两个种类的语音样本,进行组合训练得到1个两类SVM分类器,共得到Nc(Nc-1)/2个两类SVM分类器;
步骤六,测试:利用经步骤五训练完成的SVM分类器每个测试样本进行测试,具体包括顺序执行的以下步骤:
(1)对经步骤三得到的每个测试样本
Figure FDA0000410225290000011
的特征筛选后语音情感特征向量使用核方法的降维映射阵A进行维数约简,得到
Figure FDA0000410225290000012
经过维数约简后的低维样本为ATKi,对于一个测试样本
Figure FDA0000410225290000013
K i = [ K ( x i test , x 1 ) , K ( x i test , x 2 ) , . . . , K ( x i test , x N ) ] T , Gram阵K选用步骤四中所述的Gauss核函数;
(2)使用多类SVM分类器投票进行分类:将每个测试样本的低维样本ATKi经所有得到的两类SVM分类器分类之后得到Nc(Nc-1)/2个判断结果,得票最多的判断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本按此过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类别。
2.根据权利要求1所述的一种基于核半监督判别分析的语音情感识别方法,其特征在于:步骤二中原始语音情感特征向量中的语音情感特征分布如下:
1-80维:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计特征;三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征;三个不同频带内能量序列的一阶、二阶抖动;
81-101维:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统计特征;基音序列斜率;
102-121维:过零率序列及其一阶、二阶差分序列的统计特征;
122-130维:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长段的帧数;浊、清音帧数和段数;语速;
131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共振峰频率序列的一阶、二阶抖动;
251-406维:MFCC及其一阶差分序列的统计特征;
其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。
3.根据权利要求1所述的一种基于核半监督判别分析的语音情感识别方法,其特征在于:步骤二中的规整化处理的方法如下:
规整化前的所有语音样本中的任一样本为x(0),其中N个训练样本组成的训练样本集为
Figure FDA0000410225290000021
Figure FDA0000410225290000022
Figure FDA0000410225290000023
的第j个特征元素(i=1,2,...,N);
对于任一语音样本x(0),特征j对应元素
Figure FDA0000410225290000024
的规整化处理的计算公式为:
x · j ( 1 ) = x · j ( 0 ) - min i = 1,2 , . . . , N ( x ij ( 0 ) ) max i = 1,2 , . . . , N ( x ij ( 0 ) ) - min i = 1,2 , . . . , N ( x ij ( 0 ) )
其中
Figure FDA0000410225290000026
表示X(0)第j行中最大的元素,表示X(0)第j行中最小的元素;
将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本x(0)规整化语音情感特征向量集
Figure FDA0000410225290000028
其中,属于训练样本集的语音样本规整化语音情感特征向量,组成训练样本的规整化语音情感特征向量集 X ( 1 ) = [ x 1 ( 1 ) , x 2 ( 1 ) , . . . , x N ( 1 ) ] ,
Figure FDA0000410225290000032
其余为测试样本的语音样本规整化语音情感特征向量。
4.根据权利要求3所述的一种基于核半监督判别分析的语音情感识别方法,其特征在于:步骤三中所述特征筛选的方法如下:
任一语音样本规整化语音情感特征向量
Figure FDA0000410225290000033
中属于特征j的FDR值的计算公式为:
J ( j ) = Σ l , k = 1 l > k N c ( μ c l j - μ c k j ) 2 δ c l j 2 + δ c k j 2
其中,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的均值,
Figure FDA0000410225290000035
分别为训练样本的规整化语音情感特征向量集X(1)中特征j分属于cl、ck类样本的方差,Nc为情感的类数;
去除100~150个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特征向量集X=[x1,x2,...,xN]和每个测试样本的特征筛选后语音情感特征向量
Figure FDA0000410225290000036
5.根据权利要求1所述的一种基于核半监督判别分析的语音情感识别方法,其特征在于:维数约简训练时,KSDA的图嵌入的优化形式为:
arg min a a T K [ ( I + τD ) - ( Σ c = 1 N c 1 n c e c e cT + τS ) ] Ka a T K [ ( I + τD ) - ( 1 N e e T + τS ) ] Ka
其中,
列向量a为核方法的降维投影向量,aT为a的转置;
I为N×N的单位阵;
Gram阵K中元素选用Gauss核函数,K中i行j列元素形式为:Kij=K(xi,xj)=exp(-||xi-xj||22),其中σ2为Gauss核参数,控制核函数的平缓程度;这里的Gram阵K满足K=φT(X)φ(X),φ(X)=[φ(x1)φ(x2)...φ(xN)]为原特征下的样本集X向高维再生核Hilbert空间的映射,φT(X)为φ(X)的转置矩阵;
C为用数字1,2,...,Nc表示的情感的类别;
Nc表示情感的类数;
nc表示属于类C的训练样本数;
e表示元素为全为1的N维列向量,eT表示e的转置;
ec表示语音样本的语音情感特征向量中对应的标签属于类C的元素为1,其他元素为0的列向量;
S为LPP算法下的嵌入图;对角阵D的对角元素分别为LPP算法下嵌入图各个样本点的度,其中S和D的i行j列元素分别为:
S ij = 1 , i ∈ N k ( j ) or j ∈ N k ( i ) 0 , otherwise , D ij = Σ k = 1 N S ik , i = j 0 , i ≠ j
这里NK(i)、NK(j)分别表示样本点i、j的k近邻点集;
权重参数τ≥0为平衡KSDA的图嵌入的优化形式中
Figure FDA0000410225290000043
和S之间关系的参数;采用枚举法进行权重参数τ的选择,通过使用训练样本集对离散的权重参数τ值代入KSDA的图嵌入的优化形式进行5折交叉验证,验证得到较优识别率对应的权重参数τ;
利用广义特征值问题GEP对该KSDA的图嵌入的优化形式进行求解,得到核方法的降维投影向量a的求解a1,a2,...,am,所述各个求解a1,a2,...,am均两两相互正交,进而得到各个求解组成核方法的降维映射阵A=[a1,a2,...,am],m为维数约简后的特征维数。
6.根据权利要求5所述的一种基于核半监督判别分析的语音情感识别方法,其特征在于:所述5折交叉验证的方法为:
将训练样本集平均分为五份子集,每次交叉验证时将训练样本集中的四份子集合并划分为验证训练样本集,取剩下的一份子集作为验证测试样本集,用于对验证训练样本集进行测试,依次经过步骤四、步骤五和步骤六对于5折交叉验证中所有5种分割情况进行训练和测试,得到所取的每个权重参数τ值对应的验证测试样本集中的语音样本的平均识别率,反向验证得到较优识别率对应的权重参数τ。
CN201310549224.3A 2013-11-07 2013-11-07 一种基于核半监督判别分析的语音情感识别方法 Active CN103544963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310549224.3A CN103544963B (zh) 2013-11-07 2013-11-07 一种基于核半监督判别分析的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310549224.3A CN103544963B (zh) 2013-11-07 2013-11-07 一种基于核半监督判别分析的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN103544963A true CN103544963A (zh) 2014-01-29
CN103544963B CN103544963B (zh) 2016-09-07

Family

ID=49968357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310549224.3A Active CN103544963B (zh) 2013-11-07 2013-11-07 一种基于核半监督判别分析的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN103544963B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854645A (zh) * 2014-03-05 2014-06-11 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN103956165A (zh) * 2014-05-09 2014-07-30 德州学院 利用混合分量聚类Fisher得分算法提高音频分类准确率的方法
CN104008754A (zh) * 2014-05-21 2014-08-27 华南理工大学 一种基于半监督特征选择的语音情感识别方法
CN104050963A (zh) * 2014-06-23 2014-09-17 东南大学 一种基于情感数据场的连续语音情感预测算法
CN104156628A (zh) * 2014-08-29 2014-11-19 东南大学 一种基于多核学习判别分析的舰船辐射信号识别方法
CN104992715A (zh) * 2015-05-18 2015-10-21 百度在线网络技术(北京)有限公司 一种智能设备的界面切换方法及***
CN106096642A (zh) * 2016-06-07 2016-11-09 南京邮电大学 基于鉴别局部保持投影的多模态情感特征融合方法
CN106205636A (zh) * 2016-07-07 2016-12-07 东南大学 一种基于mrmr准则的语音情感识别特征融合方法
CN106469560A (zh) * 2016-07-27 2017-03-01 江苏大学 一种基于无监督域适应的语音情感识别方法
CN106504772A (zh) * 2016-11-04 2017-03-15 东南大学 基于重要性权重支持向量机分类器的语音情感识别方法
CN106531195A (zh) * 2016-11-08 2017-03-22 北京理工大学 一种对话冲突检测方法及装置
CN106571135A (zh) * 2016-10-27 2017-04-19 苏州大学 一种耳语音特征提取方法及***
CN107221344A (zh) * 2017-04-07 2017-09-29 南京邮电大学 一种语音情感迁移方法
CN107305773A (zh) * 2016-04-15 2017-10-31 美特科技(苏州)有限公司 语音情绪辨识方法
CN108564132A (zh) * 2018-04-25 2018-09-21 杭州闪捷信息科技股份有限公司 一种基于集成支持向量机对深度特征进行分类的方法
CN108735233A (zh) * 2017-04-24 2018-11-02 北京理工大学 一种性格识别方法和装置
CN108921037A (zh) * 2018-06-07 2018-11-30 四川大学 一种基于BN-inception双流网络的情绪识别方法
CN109394203A (zh) * 2017-08-18 2019-03-01 广州市惠爱医院 精神障碍康复期情绪监测与干预方法
CN109740635A (zh) * 2018-12-11 2019-05-10 中国科学院上海微***与信息技术研究所 基于二分类器的分类识别特征映射方法
WO2019119279A1 (en) * 2017-12-19 2019-06-27 Wonder Group Technologies Ltd. Method and apparatus for emotion recognition from speech
CN110120231A (zh) * 2019-05-15 2019-08-13 哈尔滨工业大学 基于自适应半监督非负矩阵分解的跨语料情感识别方法
CN110288983A (zh) * 2019-06-26 2019-09-27 上海电机学院 一种基于机器学习的语音处理方法
CN110534091A (zh) * 2019-08-16 2019-12-03 广州威尔森信息科技有限公司 一种基于微服务器及智能语音识别的人车交互方法
CN110895929A (zh) * 2015-01-30 2020-03-20 展讯通信(上海)有限公司 语音识别方法及装置
CN111145785A (zh) * 2018-11-02 2020-05-12 广州灵派科技有限公司 一种基于语音的情绪识别方法及装置
CN111915101A (zh) * 2020-08-17 2020-11-10 安徽三禾一信息科技有限公司 基于lpp-hmm方法的复杂装备故障预测方法及***
CN116913258A (zh) * 2023-09-08 2023-10-20 鹿客科技(北京)股份有限公司 语音信号识别方法、装置、电子设备和计算机可读介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663432A (zh) * 2012-04-18 2012-09-12 电子科技大学 结合支持向量机二次识别的模糊核聚类语音情感识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663432A (zh) * 2012-04-18 2012-09-12 电子科技大学 结合支持向量机二次识别的模糊核聚类语音情感识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIE HUANG ET AL: "Variance-based Gaussian Kernel Fuzzy Vector Quantization for Emotion Recognition with Short Speech", 《2012 IEEE 12TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION TECHNOLOGY》, 31 December 2012 (2012-12-31) *
JIN YUN ET AL: "Novel feature fusion method for speech emotion recognition based on multiple kernel learning", 《JOURNAL OF SOUTHEAST UNIVERSITY ( ENGLISH EDITION)》, vol. 29, no. 2, 30 June 2013 (2013-06-30) *
XU XINZHOU ET AL: "Speech emotion recognition using semi-supervised discriminant analysis", 《JOURNAL OF SOUTHEAST UNIVERSITY ( ENGLISH EDITION)》, vol. 30, no. 1, 31 March 2014 (2014-03-31) *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854645A (zh) * 2014-03-05 2014-06-11 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN103854645B (zh) * 2014-03-05 2016-08-24 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN103956165A (zh) * 2014-05-09 2014-07-30 德州学院 利用混合分量聚类Fisher得分算法提高音频分类准确率的方法
CN104008754B (zh) * 2014-05-21 2017-01-18 华南理工大学 一种基于半监督特征选择的语音情感识别方法
CN104008754A (zh) * 2014-05-21 2014-08-27 华南理工大学 一种基于半监督特征选择的语音情感识别方法
CN104050963A (zh) * 2014-06-23 2014-09-17 东南大学 一种基于情感数据场的连续语音情感预测算法
CN104050963B (zh) * 2014-06-23 2017-02-15 东南大学 一种基于情感数据场的连续语音情感预测方法
CN104156628A (zh) * 2014-08-29 2014-11-19 东南大学 一种基于多核学习判别分析的舰船辐射信号识别方法
CN104156628B (zh) * 2014-08-29 2017-05-31 东南大学 一种基于多核学习判别分析的舰船辐射信号识别方法
CN110895929A (zh) * 2015-01-30 2020-03-20 展讯通信(上海)有限公司 语音识别方法及装置
CN110895929B (zh) * 2015-01-30 2022-08-12 展讯通信(上海)有限公司 语音识别方法及装置
CN104992715A (zh) * 2015-05-18 2015-10-21 百度在线网络技术(北京)有限公司 一种智能设备的界面切换方法及***
CN107305773A (zh) * 2016-04-15 2017-10-31 美特科技(苏州)有限公司 语音情绪辨识方法
CN106096642A (zh) * 2016-06-07 2016-11-09 南京邮电大学 基于鉴别局部保持投影的多模态情感特征融合方法
CN106205636A (zh) * 2016-07-07 2016-12-07 东南大学 一种基于mrmr准则的语音情感识别特征融合方法
CN106469560A (zh) * 2016-07-27 2017-03-01 江苏大学 一种基于无监督域适应的语音情感识别方法
CN106469560B (zh) * 2016-07-27 2020-01-24 江苏大学 一种基于无监督域适应的语音情感识别方法
CN106571135A (zh) * 2016-10-27 2017-04-19 苏州大学 一种耳语音特征提取方法及***
CN106571135B (zh) * 2016-10-27 2020-06-09 苏州大学 一种耳语音特征提取方法及***
CN106504772B (zh) * 2016-11-04 2019-08-20 东南大学 基于重要性权重支持向量机分类器的语音情感识别方法
CN106504772A (zh) * 2016-11-04 2017-03-15 东南大学 基于重要性权重支持向量机分类器的语音情感识别方法
CN106531195B (zh) * 2016-11-08 2019-09-27 北京理工大学 一种对话冲突检测方法及装置
CN106531195A (zh) * 2016-11-08 2017-03-22 北京理工大学 一种对话冲突检测方法及装置
CN107221344A (zh) * 2017-04-07 2017-09-29 南京邮电大学 一种语音情感迁移方法
CN108735233A (zh) * 2017-04-24 2018-11-02 北京理工大学 一种性格识别方法和装置
CN109394203A (zh) * 2017-08-18 2019-03-01 广州市惠爱医院 精神障碍康复期情绪监测与干预方法
WO2019119279A1 (en) * 2017-12-19 2019-06-27 Wonder Group Technologies Ltd. Method and apparatus for emotion recognition from speech
CN108564132A (zh) * 2018-04-25 2018-09-21 杭州闪捷信息科技股份有限公司 一种基于集成支持向量机对深度特征进行分类的方法
CN108921037A (zh) * 2018-06-07 2018-11-30 四川大学 一种基于BN-inception双流网络的情绪识别方法
CN111145785A (zh) * 2018-11-02 2020-05-12 广州灵派科技有限公司 一种基于语音的情绪识别方法及装置
CN109740635A (zh) * 2018-12-11 2019-05-10 中国科学院上海微***与信息技术研究所 基于二分类器的分类识别特征映射方法
CN109740635B (zh) * 2018-12-11 2023-12-26 中国科学院上海微***与信息技术研究所 基于二分类器的分类识别特征映射方法
CN110120231A (zh) * 2019-05-15 2019-08-13 哈尔滨工业大学 基于自适应半监督非负矩阵分解的跨语料情感识别方法
CN110120231B (zh) * 2019-05-15 2021-04-02 哈尔滨工业大学 基于自适应半监督非负矩阵分解的跨语料情感识别方法
CN110288983A (zh) * 2019-06-26 2019-09-27 上海电机学院 一种基于机器学习的语音处理方法
CN110288983B (zh) * 2019-06-26 2021-10-01 上海电机学院 一种基于机器学习的语音处理方法
CN110534091A (zh) * 2019-08-16 2019-12-03 广州威尔森信息科技有限公司 一种基于微服务器及智能语音识别的人车交互方法
CN111915101A (zh) * 2020-08-17 2020-11-10 安徽三禾一信息科技有限公司 基于lpp-hmm方法的复杂装备故障预测方法及***
CN116913258A (zh) * 2023-09-08 2023-10-20 鹿客科技(北京)股份有限公司 语音信号识别方法、装置、电子设备和计算机可读介质
CN116913258B (zh) * 2023-09-08 2023-11-24 鹿客科技(北京)股份有限公司 语音信号识别方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN103544963B (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
CN103544963A (zh) 一种基于核半监督判别分析的语音情感识别方法
CN106228977B (zh) 基于深度学习的多模态融合的歌曲情感识别方法
CN106878677B (zh) 基于多传感器的学生课堂掌握程度评估***和方法
CN102982809B (zh) 一种说话人声音转换方法
CN103854645B (zh) 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN104167208B (zh) 一种说话人识别方法和装置
CN110400579A (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
CN106529503B (zh) 一种集成卷积神经网络人脸情感识别方法
CN102800316B (zh) 基于神经网络的声纹识别***的最优码本设计方法
CN108777140A (zh) 一种非平行语料训练下基于vae的语音转换方法
CN103198833B (zh) 一种高精度说话人确认方法
CN112562741B (zh) 一种基于点积自注意力卷积神经网络的歌声检测方法
CN107393554A (zh) 一种声场景分类中融合类间标准差的特征提取方法
Zhou et al. Deep learning based affective model for speech emotion recognition
Lataifeh et al. Arabic audio clips: Identification and discrimination of authentic cantillations from imitations
CN105702251B (zh) 基于Top-k加强音频词袋模型的语音情感识别方法
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN110289002A (zh) 一种端到端的说话人聚类方法及***
CN107039036A (zh) 一种基于自动编码深度置信网络的高质量说话人识别方法
CN104240706A (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN103531206A (zh) 一种结合局部与全局信息的语音情感特征提取方法
CN109377981A (zh) 音素对齐的方法及装置
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
Du et al. Dynamic Music emotion recognition based on CNN-BiLSTM
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant