CN101419800B - 基于频谱平移的情感说话人识别方法 - Google Patents

基于频谱平移的情感说话人识别方法 Download PDF

Info

Publication number
CN101419800B
CN101419800B CN2008101624505A CN200810162450A CN101419800B CN 101419800 B CN101419800 B CN 101419800B CN 2008101624505 A CN2008101624505 A CN 2008101624505A CN 200810162450 A CN200810162450 A CN 200810162450A CN 101419800 B CN101419800 B CN 101419800B
Authority
CN
China
Prior art keywords
spectrum
translation
signal
frequency
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101624505A
Other languages
English (en)
Other versions
CN101419800A (zh
Inventor
杨莹春
吴朝晖
单振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2008101624505A priority Critical patent/CN101419800B/zh
Publication of CN101419800A publication Critical patent/CN101419800A/zh
Application granted granted Critical
Publication of CN101419800B publication Critical patent/CN101419800B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于频谱平移的情感说话人识别方法,包括如下步骤:(1)采集待测音频信号后,对音频信号依次进行采样量化、去零漂、预加重和加窗,得到加窗后的语音帧;(2)加窗后的语音帧经过快速傅立叶变换得到频谱信号,采用频谱平移方法得到多组分别拥有不同共振峰分布的频谱信号;(3)采用美尔滤波器对上述频谱进行滤波,再采用离散余弦压缩得到语音特征;(4)按步骤(1)~步骤(3)的流程提取的待测音频信号的语音特征,采用最大得分方法计算气氛得分,并给出识别结果。本发明方法改变中性情感语音的共振峰分布情况,合成具有不同共振峰分布的语音频谱,增强***对各种情感语音的熟悉程度,提高***识别率。

Description

基于频谱平移的情感说话人识别方法
技术领域
本发明涉及信号处理和模式识别,主要是一种基于频谱平移的情感说话人识别方法。
背景技术
说话人识别技术是指利用信号处理和模式识别方法,根据说话人的语音识别其身份的技术。情感说话人识别是训练语音和测试语音中包含情感语音的说话人识别。在情感说话人识别中,由于受到测试语音和训练语音情感不一致的影响,***的识别率将降大幅降低。本专利提出的方法就是为了减弱训练和测试语音情感不一致引起的***性能的下降。
目前说话人识别方法主要分成两个步骤,第一个步骤为特征提取,主要的特征提取方法有梅尔倒谱系数(MFCC),线形预测编码倒谱系数(LPCC),感觉加权的线性预测系数(PLP)。第二个步骤为说话人识别过程,包括说话人建模和训练。主要的建模方法有高斯混合模型法(GMM),通用背景模型法(GMM-UBM),支持向量机(SVM)。
在情感说话人识别中,训练语音通常为中性情感语音,而测试语音包括各种情感的语音,比如高兴情感语音,悲伤情感语音。所以,解决情感问题的关键是在训练时也能得到除中性情感语音之外的情感语音。如果只是让用户提供各种各样的情感语音,显然是不符合应用要求的。一般情况下,用户只能提供中性语音,因此提出了采用中性情感语音得到与各种情感语音等效的语音频谱。
发明内容
本发明提供了一种基于频谱平移的情感说话人识别方法。该方法通过平移语音信号的短时频谱,将中性语音频谱转换成情感语音等效的语音频谱,降低情感变化因素对说话人识别性能的影响。
共振峰位置的不同是各类情感语音的一个主要差别,通过改变中性语音的共振峰位置,可以得到与情感语音等效的语音频谱,让***在训练的时候熟悉各种情感语音,从而提高情感说话人识别的性能。本专利提出了一种基于频谱平移的情感说话人识别方法。通过平移中性语音的频谱来改变共振峰分布,从而得到与情感语音等效的语音频谱。
本发明首先采用平移中性语音频谱的方法,得到和中性语音有不同共振峰分布的频谱,再从这些频谱中提取情感语音特征,然后采用高斯混合模型对各类情感特征建立模型,最后采用最大得分方法求出测试语音得分,并进行识别。
一种基于频谱平移的情感说话人识别方法,包括如下步骤:
(1)音频预处理
采集待测音频信号后,对音频信号依次进行采样量化、去零漂、预加重和加哈明窗,得到加哈明窗后的语音帧;
(2)频谱平移
加窗后的语音帧经过快速傅立叶变换得到频谱信号,采用频谱平移方法得到多组分别拥有不同共振峰分布的频谱信号;
由于说话人处于不同情感状态下的语音频谱的共振峰分布情况不同,通过改变中性语音频谱的共振峰分布就等效于得到该说话人不同情感状态下的语音的特征;
(3)特征提取
采用美尔滤波器对频谱信号进行滤波,再采用离散余弦压缩得到语音特征;
(4)说话人识别
训练:采用频谱平移方法对每个说话人的语音提取多种情感语音,并对每种情感的语音建立一个高斯混合模型;
测试:将按步骤(1)~步骤(3)的流程提取的待测音频信号的语音特征,计算待测音频信号在各种情感语音高斯混合模型下的得分,采用最大得分方法计算待测音频信号的得分,得到识别结果。
步骤(1)的音频预处理包括:
1)采样量化
A)用对采集得到的音频信号sa(t)进行滤波,滤波时奈奎斯特频率FN为4KHZ,音频采样率F=2FN,滤波后得到数字音频信号(即数字化的音频信号)的振幅序列
Figure GSB00000207200800031
B)用脉冲编码调制对数字音频信号的振幅序列s(n)进行量化编码,得到振幅序列的量化表示s’(n);
其中t表示该信号是时间连续信号,n则表示离散信号序列,n取值时一般可取为连续的自然数。
2)去零漂
A)计算振幅序列的量化表示s’(n)的平均值
Figure GSB00000207200800032
B)将振幅序列中的每个振幅值分别减去平均值
Figure GSB00000207200800033
,得到去零漂后平均值为0的振幅序列s”(n);
3)预加重
将去零漂后的振幅序列s”(n)通过数字滤波器进行预加重,预加重时数字滤波器的传递函数为H(z)=1-αz-1,得到预加重的振幅序列s”’(n)。
对语音信号进行预加重,使信号频谱变得平坦,压缩信号器的动态范围,提高信噪比。这样处理可以使低频到高频的整个频带内能用相同的信噪比来求频谱。预加重部分可采用6dB/倍频程来增强语音信号的高频部分,经预加重,语音信号的高频部分可与中频部分(1~2kHz)的能量大致相等。;
4)加哈明窗
A)把预加重后的振幅序列s”’(n)划分成若干音频帧Fm,每一音频帧Fm的帧长为N、帧移量为T,且满足:
N F = 0.032
T F = 0.010
其中,F是音频采样率,单位为Hz;一般每一音频帧Fm的帧长为N、帧移量为T在划分振幅序列s”’(n)前预先计算出来。
B)计算哈明窗函数:
Figure GSB00000207200800043
式中N为每一音频帧Fm的帧长;
C)利用公式F′m(n):F′m(n)=ωH(n)×Fm(n)对每一音频帧Fm加哈明窗,得到加哈明窗后的音频帧F′m(n)。
步骤(2)的频谱平移包括:
1)音频信号转换成频谱信号
对加哈明窗后的音频帧F′m(n)进行快速傅立叶变换,得到频谱信号fm,频谱信号fm的能量谱为Em
2)平移频谱信号
对频谱信号fm进行平移,得到平移后频谱信号f′m,平移后频谱信号f′m的能量谱E′m
平移公式为:
E′m(f)=Em(f+h)
其中h表示频谱信号fm平移的距离,单位为Hz。平移后的能量谱E′m在频率为fHz处的能量和原能量谱Em在频率f+hHz处相等。
其目的是得到和中性语音的频谱信号fm具有不同共振峰分布的语音信号,具有不同共振峰分布的语音帧包含该说话人的情感语音信息。
步骤(3)的音频特征提取包括:
美尔滤波器的实施步骤分为三步:
1)计算梅尔域刻度:
M i = i p × 2595 log ( 1 + 8000 / 2.0 700.0 ) , ( i = 0,1,2 , K , p )
p表示需计算的美尔刻度的个数;
2)计算梅尔域刻度Mi处对应的频谱刻度:
f i = 700 × e M i 2595 ln 10 - 1 , ( i = 0,1,2 , K , p )
3)计算每个梅尔域通道φj上的对数能量谱Ej
其中
Figure GSB00000207200800054
表示梅尔域通道φj的权重,
Figure GSB00000207200800055
其中k为滤波器的个数。上述三步完成了对美尔滤波器的构建。
上述频谱信号经过美尔滤波器后,再采用离散余弦变换压缩对对数能量谱Ej进行压缩,得到语音特征。
步骤(4)的所述说话人识别中,训练时采集说话人的中性语音作为测试语音,采用频谱平移的方法得到各种情感的语音特征,然后为每个说话人的每种情感语音建立一个高斯混合模型。训练高斯混合模型的方法采用期望最大化方法。
测试时测试语音在提取特征之后,对应每种情感的高斯混合模型计算后验概率,作为测试语音的得分。并根据设定的阀值接收或拒绝该测试语音。
本发明方法中提及的梅尔域刻度可参见:JOSEPH P.CAMPBELL,JR.,“Speaker Recognition:A Tutorial”,PROCEEDINGS OF THE IEEE,VOL.85,NO.9,PP.1437-1462,SEPTEMBER 1997.
本发明方法中提及的期望最大化方法:DouglasA.Reynolds,Richard C.Rose,“Robust Text-Independent Speaker Identification Using GaussianMixture Speaker Modes”,IEEE TRANSACTIONS ON SPEECH ANDAUDIO PROCESSING,VOL.3,no.1,pp.72-83,JANUARY 1995.
本发明有益的效果是:采用频谱平移的方法,改变中性情感语音的共振峰分布情况,生成具有不同共振峰分布的与情感语音等效的语音频谱,增强***对各种情感语音的熟悉程度,提高***识别率。
具体实施方式
本发明方法实施时:
第一步:音频预处理
音频预处理分为采样量化,去零漂,预加重和加窗四个部分。
1、采样量化
A)用锐截止滤波器对采集得到的待测音频信号进行滤波,使其奈奎斯特频率FN为4KHZ;
B)设置音频采样率F=2FN
C)对音频信号sa(t)按周期进行采样,得到数字音频信号的振幅序列 s ( n ) = s a ( n F ) ;
D)用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化表示s’(n)。
2、去零漂
A)计算量化的振幅序列的平均值
Figure GSB00000207200800062
B)将每个振幅值减去平均值,得到去零漂后平均值为0的振幅序列s”(n)。
3、预加重
A)设置数字滤波器的Z传递函数H(z)=1-αz-1中的预加重系数α,α可取比1稍小的值,可取为0.97;
B)s”(n)通过数字滤波器,得到音频信号的高、中、低频幅度相当的振幅序列s”’(n)。
4、加哈明窗
A)预先计算音频帧的帧长N(32毫秒)和帧移量T(10毫秒),分别满足:
N F = 0.032
T F = 0.010
这里F是音频采样率,单位为Hz;
B)以帧长为N、帧移量为T,把s”’(n)划分成一系列的音频帧Fm,每一音频帧包含N个音频信号样本;
C)计算哈明窗函数:
Figure GSB00000207200800073
D)对每一音频帧Fm加哈明窗:
利用公式F′m(n):F′m(n)=ωH(n)×Fm(n)对每一音频帧Fm加哈明窗,得到加哈明窗后的音频帧F′m(n)。
第二步:频谱平移
音频帧上的频谱平移包括快速傅立叶变换和频谱平移。
1、时域到频域的变化:采用快速傅立叶变换,转变{F′m(n)}得到频谱信号fm,频谱信号fm的能量谱为Em。快速傅立叶变化时其大小可取为512。
2、平移频谱信号:
Em(f)=Em(f+h)
其中h表示频谱信号fm平移的距离,单位为Hz。平移后的能量谱E′m在频率为fHz处的能量和原能量谱Em在频率f+hHz处相等。
第三步、特征提取
采用美尔滤波器对上述频谱进行滤波,再采用离散余弦变化得到特征。
1、计算梅尔域刻度:
M i = i p × 2595 log ( 1 + 8000 / 2.0 700.0 ) , ( i = 0,1,2 , K , p )
p表示需计算的美尔刻度的个数;
2、计算对应的频域刻度:
f i = 700 × e M i 2595 ln 10 - 1 , ( i = 0,1,2 , K , p )
3、计算每个梅尔域通道φj上的对数能量谱:
其中
Figure GSB00000207200800083
k为通道个数,
Figure GSB00000207200800084
为每个梅尔域通道的权重,可以都取为1,表示每个通道的权重相同。也可以根据需要取不同的数值。一般情况下梅尔域通道的个数为40个或者60个。
4、采用离散余弦变换(DCT)对梅尔域通道上的能量谱进行压缩得到特征。压缩后,取DCT变化的前13或者16维作为特征。
第四步、说话人建模及识别
采用高斯混合模型对各种情感语音特征建模,得到各种情感语音模型,也可以称为说话人训练;
模型训练中包括两个部分,第一部分是采用似然估计法得到语音模型(高斯混合模型);第二部分采用中性和情感语音转化算法。
高斯混合模型的训练
GMM参数包括权重(ωi),均值(μi)和方差(Ri),其定义如下:
P ( x | λ ) = Σ i = 1 M w i g i ( u i , R i , x )
M为混合模型的阶数,gi为高斯分量。
训练是一个迭代的估计过程,其过程可分为两步,计算训练数据在第i阶时的概率,这一步称为求期望;然后以上一步的参数(λ(ωi,μi,Ri))估计下一步GMM的参数(λ′(ω′i,μ′i,R′i)),这一步被称为求最大化。
ω i ′ = Σ t = 1 T r i ( i ) Σ t = 1 T Σ i = 1 M r t ( i ) = 1 T Σ t = 1 T P ( i t = i / z t , λ )
μ i ′ = Σ t = 1 T r t ( i ) z t Σ t = 1 T r t ( i ) = Σ t = 1 T P ( i t = i / z t , λ ) z t Σ t = 1 T P ( i t = i / z t , λ )
R i ′ = Σ t = 1 T P ( i t = i / z t , λ ) ( z t - μ i ′ ) T ( z t - μ i ′ ) Σ t = 1 T P ( i t = i / z t , λ )
其中,zt表示训练的语音特征,其总数为T。
用户的每种情感特征建立一个高斯混合模型,每个高斯混合模型代表了其情感语音特征的分布情况。如果,有ne种情感,那么每个说话人都拥有ne个高斯混合模型。
计算测试语句在各种情感语音模型下的得分,采用最大得分方法计算该语句的最后得分,并做出判断。
根据贝叶斯理论,在输入语音特征X下,符合声纹模型λi的概率为:
P ( λ i | X ) = P ( X | λ i ) * P ( λ i ) P ( X )
同一个说话人有ne个模型,对于一个语音帧可以得到ne个得分,那么把这些得分中的最高得分当成该语音帧的最后得分:
P ( λ | X ) = max i = 1 ne P ( λ i | X )
那么对于该测试语句的所有语音帧的最后得分为:
P ( λ | X ) = Σ i = 1 N log ( P ( λ | X i ) )
其中num为测试语音帧的总帧数。
在说话人鉴别中,其中在所有模型中得分最高的模型拥有者被认为是该测试语音对应的用户。在说话人确认中,需要设定一个阀值,如果得分高于该阀值就被接受;否则被拒绝。
效果测试
实验中采用的数据库为中文情感语音数据库(MASC)。该数据库包括68人,其中女性23人。一共录制了5种情感的语音,分别为:中性,生气,高兴,愤怒和悲伤。每个说话人要在每种情感情况下说出5个单词和20句语句3遍。
实验中,采用中性的20句话的前5句的三遍,一共15句话用于训练,组成训练语音集。五种情感的后15句语音(三遍)用于测试,组成测试语音集合(共15*3*68)。实验中,模拟的是说话人鉴别的过程。共有两组实验:
1.对比实验:在频谱平移方法中,采用的平移量为0,也就是得到一组特征。由于训练语音为中性语音,该组特征就是该说话人中性语音的特征。
2.频谱平移:采用本发明方法,采用的平移为±1,±2,±3±4,±5单位,单位的大小为8000/512=15.625Hz。
两组实验的识别率分别为:45.17%和54.43%。说明采用本发明移动频谱方法得到的识别结果要优于未采用移动频谱的方法。

Claims (1)

1.一种基于频谱平移的情感说话人识别方法,其特征在于,包括如下步骤:
(1)音频预处理
采集待测音频信号后,对音频信号依次进行采样量化、去零漂、预加重和加哈明窗,得到加哈明窗后的语音帧;
所述的采样量化的步骤为:
A)用对采集得到的音频信号sa(t)进行滤波,滤波时奈奎斯特频率FN为4KHz,音频采样率F=2FN,滤波后得到数字音频信号的振幅序列
Figure FSB00000257840800011
Figure FSB00000257840800012
B)用脉冲编码调制对数字音频信号的振幅序列s(n)进行量化编码,得到振幅序列的量化表示s’(n);
所述的去零漂的步骤为:
A)计算振幅序列的量化表示s’(n)的平均值
B)将振幅序列中的每个振幅值分别减去平均值
Figure FSB00000257840800014
得到去零漂后平均值为0的振幅序列s”(n);
所述的预加重的步骤为:
将去零漂后的振幅序列s”(n)通过数字滤波器来增强信号的高频部分,经预加重,语音信号的高频部分与中频部分的能量相当,得到预加重后的振幅序列s”’(n);
所述的加哈明窗的步骤为:
A)把预加重后的振幅序列s”’(n)划分成若干音频帧Fm,每一音频帧Fm的帧长为N、帧移量为T,且满足:
N F = 0.032
T F = 0.010
其中,F是音频采样率,单位为Hz;
B)计算哈明窗函数:
Figure FSB00000257840800021
式中N为每一音频帧Fm的帧长;
C)利用公式F′m(n):F′m(n)=ωH(n)×Fm(n)对每一音频帧Fm加哈明窗,得到加哈明窗后的音频帧F′m(n);
(2)频谱平移
加窗后的语音帧经过快速傅立叶变换得到频谱信号,采用频谱平移方法对频谱信号进行平移得到多组分别拥有不同共振峰分布的频谱信号,不同的共振峰分布表示信号不同的情感类型;
所述的频谱平移步骤为:
对进行快速傅立叶变换后得到频谱信号fm进行平移,得到平移后频谱信号f′m,平移后频谱信号f′m的能量谱E′m
平移公式为:
E′m(f)=Em(f+h);
其中Em为频谱信号fm的能量谱,h表示频谱信号fm平移的距离,单位为Hz,平移后的能量谱E′m在频率为fHz处的能量和原能量谱Em在频率f+h Hz处相等;
(3)特征提取
采用美尔滤波器对频谱信号进行滤波,再采用离散余弦压缩得到语音特征;
所述的美尔滤波器的构建步骤为:
A)计算梅尔域刻度:
M i = i p × 2595 log ( 1 + 8000 / 2.0 700.0 ) , ( i = 0,1,2 , K , p )
p表示需计算的美尔刻度的个数;
B)计算梅尔域刻度Mi处对应的频谱刻度:
f i = 700 × e M i 2595 ln 10 - 1 , ( i = 0,1,2 , K , p )
C)计算每个梅尔域通道φj上的对数能量谱Ej
Figure FSB00000257840800032
其中
Figure FSB00000257840800033
表示梅尔域通道φj的权重,
Figure FSB00000257840800034
其中k为滤波器的个数;
(4)说话人识别
采用频谱平移方法将每个说话人的中性语音频谱转换成各种情感语音频谱,并利用每种情感语音频谱建立说话人的相应情感下的模型;
将按步骤(1)~步骤(3)的流程提取的待测音频信号的语音特征,计算待测音频信号在各种情感语音的说话人模型下的得分,采用最大得分方法计算待测音频信号的得分,得到识别结果。
CN2008101624505A 2008-11-25 2008-11-25 基于频谱平移的情感说话人识别方法 Expired - Fee Related CN101419800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101624505A CN101419800B (zh) 2008-11-25 2008-11-25 基于频谱平移的情感说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101624505A CN101419800B (zh) 2008-11-25 2008-11-25 基于频谱平移的情感说话人识别方法

Publications (2)

Publication Number Publication Date
CN101419800A CN101419800A (zh) 2009-04-29
CN101419800B true CN101419800B (zh) 2011-12-14

Family

ID=40630565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101624505A Expired - Fee Related CN101419800B (zh) 2008-11-25 2008-11-25 基于频谱平移的情感说话人识别方法

Country Status (1)

Country Link
CN (1) CN101419800B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332263B (zh) * 2011-09-23 2012-11-07 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法
CN103680495B (zh) * 2012-09-26 2017-05-03 ***通信集团公司 语音识别模型训练方法和装置及语音识别终端
US10115410B2 (en) * 2014-06-10 2018-10-30 Peter Graham Craven Digital encapsulation of audio signals
CN108122552B (zh) * 2017-12-15 2021-10-15 上海智臻智能网络科技股份有限公司 语音情绪识别方法和装置
CN111145785A (zh) * 2018-11-02 2020-05-12 广州灵派科技有限公司 一种基于语音的情绪识别方法及装置
CN113327620A (zh) * 2020-02-29 2021-08-31 华为技术有限公司 声纹识别的方法和装置
CN113611326B (zh) * 2021-08-26 2023-05-12 中国地质大学(武汉) 一种实时语音情感识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1354871A (zh) * 1999-06-07 2002-06-19 艾利森电话股份有限公司 加权频谱距离计算器
CN101064104A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于语音转换的情感语音生成方法
US20080221401A1 (en) * 2006-10-27 2008-09-11 Derchak P Alexander Identification of emotional states using physiological responses

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1354871A (zh) * 1999-06-07 2002-06-19 艾利森电话股份有限公司 加权频谱距离计算器
CN101064104A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于语音转换的情感语音生成方法
US20080221401A1 (en) * 2006-10-27 2008-09-11 Derchak P Alexander Identification of emotional states using physiological responses

Also Published As

Publication number Publication date
CN101419800A (zh) 2009-04-29

Similar Documents

Publication Publication Date Title
CN101419800B (zh) 基于频谱平移的情感说话人识别方法
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
CN113012720B (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN102655003B (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
CN101620853A (zh) 一种基于改进模糊矢量量化的语音情感识别方法
CN110265063B (zh) 一种基于固定时长语音情感识别序列分析的测谎方法
CN100543840C (zh) 基于情感迁移规则及语音修正的说话人识别方法
Murugappan et al. DWT and MFCC based human emotional speech classification using LDA
AboElenein et al. Improved text-independent speaker identification system for real time applications
Dash et al. Speaker identification using mel frequency cepstralcoefficient and bpnn
CN112397074A (zh) 基于mfcc和向量元学习的声纹识别方法
Ghezaiel et al. Hybrid network for end-to-end text-independent speaker identification
CN101419799A (zh) 基于混合t模型的说话人识别方法
CN102496366B (zh) 一种与文本无关的说话人识别方法
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
CN114842878A (zh) 一种基于神经网络的语音情感识别方法
Patil et al. Combining evidences from magnitude and phase information using VTEO for person recognition using humming
Khanna et al. Application of vector quantization in emotion recognition from human speech
Lu et al. Physiological feature extraction for text independent speaker identification using non-uniform subband processing
Nasr et al. Text-independent speaker recognition using deep neural networks
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Kumar et al. Text dependent speaker identification in noisy environment
CN112735477B (zh) 语音情感分析方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111214