CN102496366A - 一种与文本无关的说话人识别方法 - Google Patents

一种与文本无关的说话人识别方法 Download PDF

Info

Publication number
CN102496366A
CN102496366A CN2011104283792A CN201110428379A CN102496366A CN 102496366 A CN102496366 A CN 102496366A CN 2011104283792 A CN2011104283792 A CN 2011104283792A CN 201110428379 A CN201110428379 A CN 201110428379A CN 102496366 A CN102496366 A CN 102496366A
Authority
CN
China
Prior art keywords
speaker
characteristic parameter
frequency
sequence
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104283792A
Other languages
English (en)
Other versions
CN102496366B (zh
Inventor
朱坚民
黄之文
李孝茹
李海伟
王军
翟东婷
毛得吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201110428379.2A priority Critical patent/CN102496366B/zh
Publication of CN102496366A publication Critical patent/CN102496366A/zh
Application granted granted Critical
Publication of CN102496366B publication Critical patent/CN102496366B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明涉及一种与文本无关的说话人识别方法,其主要步骤是:(1)获取说话人语音信号,对语音信号处理得到语音预处理信号;(2)对预处理后获得的语音信号进行特征提取,求得识别***中说话人的特征参数;(3)重复上述两步骤若干次,获取已注册说话人特征参数序列,建立所有已注册说话人特征参数参考库;(4)获取待识别说话人特征参数序列,计算待识别说话人与所有已注册说话人间的加权灰色关联度;(5)提取所有加权灰色关联度的最大值,将其与加权灰色关联度识别阈值进行比较,得出识别结果。本发明涉及生物特征识别技术领域,特别是说话人识别技术领域。它解决了现有与文本无关的说话人识别技术中错误率较高的问题,具有广泛的应用前景。

Description

一种与文本无关的说话人识别方法
技术领域
本发明涉及生物特征识别技术,主要是一种基于1/3倍频程和加权灰色关联的与文本无关的说话人识别方法。
技术背景
随着计算机技术的发展和社会信息化程度的提高,利用人的生物特征(如指纹、声纹、图像等)进行身份识别或验证已成为信息产业中极为重要的前沿技术。说话人识别是指利用人的发音来进行说话人身份的识别或验证,说话人识别可广泛应用于公安司法部门、商务贸易、银行金融、保守个人机密、安全检查等领域。
说话人识别技术领域的研究重点在于特征参数的提取和识别算法的构造。特征提取就是从说话人的语音信号中提取出能够详尽地、精确地表达其语音的特征参数。目前,语音识别技术中使用的特征参数是基于声道模型的LPCC(Linear Prediction Cepstrum Coefficient)参数、基于听觉机理的MFCC(Mel Frequency Cepstmm Coefficient)参数或其改进和组合,但这些特征参数所表征的语音信息量不足。因此本发明提出采用1/3倍频程频谱分析法对语音信号进行特征参数的提取。1/3倍频程频谱分析法把人耳能听到的20HZ-20KHZ整个声频范围分成30个恒定带宽比的频带,并对落在这些频带中的音频信号进行频谱分析,能够更准确地表达说话人的语音信号中所蕴含的信息,进而增强说话人特征参数的鲁棒性。
在语音技术研究及应用领域,语音信号的识别算法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。基于声道模型和语音知识方法的研究虽然起步较早,但由于其过于复杂,现阶段没有取得很好的实用效果。模板匹配的方法有动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术,这些算法在噪声环境下抗干扰能力差,不能达到良好的识别效果。人工神经网络方法具有自适应性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入-输出映射能力在语音识别中都很有吸引力,但由于存在训练、识别时间太长的缺点,也不能取得很好的实用效果。本发明提出使用基于加权灰色关联度的方法进行说话人识别,同时考虑说话人语音信号中蕴含的信息及其信息变化在说话人识别中的作用,显著地提高了语音信号的识别率。
说话人识别又可分为与文本有关的和与文本无关的,此二者都是根据语音信号中蕴含的特征信息进行说话人识别。“与文本有关”,是采用受限制的说话文本内容,且只对说话人的语音信号中一种或几种特征参数进行识别,较容易被假冒模仿,识别***的保密性不高。“与文本无关”,则是采用随机说话文本内容,识别***的灵活性好。但由于语音信号中所蕴含特征信息的丰富性,以及实际环境中噪声的复杂性,传统的说话人识别方法的步骤又比较繁琐。
发明内容
为了解决上述技术所存在的缺陷以及提高与文本无关的说话人识别率,本发明提供一种基于1/3倍频程和加权灰色关联的与文本无关的说话人识别方法。该方法通过1/3倍频程频谱分析法对说话人语音信号进行特征提取,并采用加权灰色关联度算法进行说话人识别,是一种可靠的、有效的与文本无关的说话人识别方法,具有优良的鲁棒性。
为达到以上发明目的,本发明方法包括如下步骤:
一、建立N个说话人的语音特征参考库,所述的N为大于或等于1的整数,步骤如下:
A、采集第1说话人第1段语音信号并依次采样量化、去零漂、预加重和加窗,得到加窗后的第1-1音频帧Fm′(n);
B、对第1-1音频帧Fm′(n)使用1/3倍频程频谱分析法,获得第1-1特征参数,所述的特征参数为各中心频率所处频带对应的功率谱值序列,所述的1-1表示第1说话人第1段语音信号;
C、N个说话人进行M次A、B步骤,依次获得N×M个特征参数,所述的N×M个特征参数形成特征参数参考库,所述的N×M表示N个说话人M次特征参数提取;
二、获得N个加权灰色关联度,步骤如下:
I、通过步骤A、B采集待测说话人特征参数X;
II、将特征参数X的序列分别添加到参考库中,并根据频域信号的时不变性均匀地赋予N个特征参数的序列以相同的权重系数,重新组合构成N个加权平均特征参数序列,获得N个加权灰色关联度值;
三、识别匹配,提取N个加权灰色关联度值中最大值Rmax与Rθ比较,若Rmax≥R,则匹配,否,则不匹配。
根据本发明一个实施方式的一种与文本无关的说话人识别方法,步骤B中所述的特征提取的步骤为:
(A)信号时频变换:采用基-2算法的FFT变换将说话人语音的时域信号转换为频域信号,求取说话人语音信号的功率谱;
(B)确定1/3倍频程频谱分析法的中心频率fc
(C)求取上、下限频率:1/3倍频程的上、下限频率以及中心频率之间的关系为:
f u f d = 2 1 / 3 , f c f d = 2 1 / 6 , f u f c = 2 1 / 6 ;
(D)声压级转换,即
L p = 20 lg P P 0 ( dB )
其中P0为基准声压,其值为2×10-5Pa;
(E)计算各中心频率fc所处频带的功率谱的平均值:按照1/3倍频程的上、下限频率以及中心频率将功率谱中的频率划分成多个频带,并在每个频带中将所有的功率幅值按对数叠加,获得1/3倍频程频谱,其幅值即为特征参数。
根据本发明一个实施方式的一种与文本无关的说话人识别方法,步骤II中所述的加权灰色关联度计算的详细步骤为:
(F)提取特征参数序列:获得待识别说话人特征参数X的序列X0,并提取所有已注册说话人参考库的各特征参数序列,即已注册说话人A的特征参数序列A1、A2、
Figure BDA0000122444270000035
AN,已注册说话人B的特征参数序列B1、B2、
Figure BDA0000122444270000036
BN,以此类推;
(G)构造加权平均特征参数序列:将待识别说话人的特征参数序列分别添加到识别***中所有已注册说话人参考库中,并根据频域信号的时不变性均匀地赋予这些特征参数序列以相同的权重系数,以使待识别说话人分别与已注册说话人重新组合构成加权平均特征参数序列。即已注册说话人A和待识别说话人X构成序列ω11A1、ω12A2、
Figure BDA0000122444270000037
ω1nAN、ω1xX0,其中ω11=ω12=L=ω1n=ω1x且ω1112+L+ω1n1x=1;已注册说话人B和待识别说话人X构成序列ω21B1、ω22B2、
Figure BDA0000122444270000038
ω2nBN、ω2xX0,其中ω21=ω22=L=ω2n=ω2x且ω2122+L+ω2n2x=1,以此类推;
(H)累加生成加权平均灰色关联特征参数序列:根据叠加原理分别求得待识别说话人与识别***中所有已注册说话人的加权平均灰色关联特征参数序列,即已注册说话人A和待识别说话人X构成新的特征参数序列AY=ω11A1+ω12A2+L+ω1nAN+ω1xX1,已注册说话人B和待识别说话人X构成新的特征参数序列BY=ω21B1+ω22B2+L+ω2nBN+ω2xX1,以此类推;
(I)计算加权灰色关联度:按加权灰色关联度算法计算待识别说话人和已注册说话人的加权灰色关联度,即已注册说话人A和待识别说话人X的加权灰色关联度RA,已注册说话人B和待识别说话人X的加权灰色关联度RB,以此类推,获得N个加权灰色关联度R。
根据本发明一个实施方式的一种与文本无关的说话人识别方法,所述的1/3倍频程频谱分析法的中心频率的确定方法为:
1/3倍频程的中心频率为fc=1000×103n/30HZ(n=0,±1,±2,K);
选取中心频率的近似值,即所选取的中心频率为:20HZ,25HZ,31.5HZ,40HZ,50HZ,63HZ,80HZ,100HZ,125HZ,160HZ,200HZ,250HZ,315HZ,400HZ,500HZ,630HZ,800HZ,1000HZ,1350HZ,1600HZ,2000HZ,2500HZ,3150HZ,4000HZ,5000HZ,6300HZ,8000HZ,10000HZ,12500HZ,16000HZ。
根据本发明一个实施方式的一种与文本无关的说话人识别方法,所述的加权灰色关联度的算法为:
设X={xσ(t)|σ=0,1,2,K,m}为序列关联因子集,即参考库,x0为参考函数(母因素),即其中一个已注册说话人;
xi为比较函数(子因素),即待测说话人的特征因素X,xσ(k)为xσ在第k点的值,其中,i=1,2,K,m,k=1,2,K,n。
对于x0、xi,令:
ζ i ( k ) = ξ · max i ∈ m max k ∈ n | x 0 ( k ) - x i ( k ) | λ 1 | x 0 ( k ) i ∈ m - x i ( k ) k ∈ n | + λ 2 | x 0 ′ i ∈ m - x i ′ k ∈ n ( k ) | + ξ · max max | x 0 ( k ) - x i ( k ) |
则xi对于x0的灰关联度为:
γ i = γ ( x 0 , x i ) = 1 n · Σ k = 1 n ζ i ( k )
其中,0<ε<1,λ1,λ2≥0,λ12=1,常数ξ为分辨系数,λ1,λ2分别为位移和变化率加权系数,在实际应用中可根据具体情况适当选取ξ,λ1,λ2
本发明有益的效果是:本发明采用1/3倍频程频谱分析法对说话人语音信号进行特征参数提取,把人耳听到的20HZ-20KHZ整个声频范围内语音信号所蕴含的信息更全面地提取出来,减少了说话人识别过程中语音信号的特征信息不全带来的不利影响;该发明通过加权灰色关联度算法进行说话人识别,同时考虑说话人语音信号中蕴含的信息及信息变化在说话人识别中的作用,降低了说话人识别的错误率。这种基于1/3倍频程和加权灰色关联的与文本无关的说话人识别方法,实现了与文本无关的说话人识别的鲁棒性,显著地提高了与文本无关的说话人语音信号的识别率,具有广泛的应用前景。
附图说明
图1是本发明提供的方法的流程图;
图2是本发明的1/3倍频程特征提取流程图;
图3是本发明的FFT蝶形运算符图;
图4是本发明的加权灰色关联度算法流程图;
图5是本发明的识别匹配及策略抉择流程图;
图6是本发明的说话人A的一段语音信号图;
图7是本发明的说话人A的一段预处理后语音的帧信号图;
图8是本发明的说话人A的一幅1/3倍频程频谱图。
具体实施方式
下面通过附图和实施例对本发明的技术方案做进一步的详细描述。本发明的方法共分五步,如附图1所示。
第一步:语音信号预处理
1、采样与量化
A)、用FIR带通滤波器对语音信号经行滤波,使奈奎斯特频率FN为20KHZ;
B)、设置语音采样频率F≥2FN,本发明所述实施例中取其为F=51200HZ;
C)、对语音信号sa(t)按周期进行采样,得到语音信号振幅序列其中t表示该语音信号是时间连续信号,n则表示离散信号序列,n取值时取为连续的自然数即可;
D)、用脉冲编码(PCM)对数字语音信号的振幅序列s(n)进行量化编码,得到振幅序列的量化值表示s′(n)。
2、去零漂
A)、计算振幅序列的量化值表示s′(n)的平均值
B)、将振幅序列中的每个振幅值分别减去平均值,得到去零漂后平均值为0的振幅序列s″(n);
3、预加重处理
A)、设置数字滤波器的Z传递函数H(z)=1-az-1中的预加重系数a,a可取比1稍小是值,本实施例中取其为0.96;
B)、s″(n)通过数字滤波器,得到语音信号的高、中、低频幅度相当的振幅序列s″′(n)。
4、加窗
A)、计算语音帧的帧长N,N满足:
20 ≤ N F ≤ 30 ,
其中,F是语音采样率,单位为HZ;
B)、以N为帧长、N/2为帧移量,把s″′(n)划分成一系列的语音帧Fm,每一语音帧Fm包含N个语音信号样本;
C)、计算汉明窗函数:
Figure BDA0000122444270000064
式中N为每一音频帧Fm的帧长;
D)、对每一语音帧Fm加汉明窗:
利用公式Fm′(n):Fm′(n)=ω(n)×Fm(n)分别对每一音频帧Fm加汉明窗,得到加汉明窗后的音频帧Fm′(n)。
第二步:特征参数提取
本发明基于1/3倍频程提取预处理后的说话人语音信号的特征参数。其算法流程如图2所示,具体详述如下:
1、快速傅里叶变换(FFT)求功率谱
本发明采用基-2算法的FFT将说话人语音信号的时域信号转换为频域信号,求取说话人语音信号的功率谱序列。
A)、对语音信号序列x(n)进行“基-2时间抽取”,得到“按时间抽取”子序列,即
x1(r)=x(2r),r=0,1,2,K,N/2-1
x2(r)=x(2r+1),r=0,1,2,K,N/2-1
其中,N为语音信号序列的长度。
B)、对语音信号x(n)进行离散傅里叶变换(DFT),获得说话人语音的频域信号,即
X ( k ) = Σ r = 0 N / 2 - 1 x 1 ( r ) W N 2 kr + W N k Σ r = 0 N / 2 - 1 x 2 ( r ) W N 2 kr
由于
W N 2 kr = e - j 2 π N 2 kr = e - j 4 π N kr = W N / 2 2 kr
因此,说话人语音的频域信号为
X ( k ) = X 1 ( k ) + W N k X 2 ( k ) , k = 0,1,2 , K , N - 1
其中,X1(k)和X2(k)分别为x1(r)和x2(r)的N/2点DFT,即
X 1 ( k ) = Σ r = 0 N / 2 - 1 x 1 ( r ) W N / 2 kr = DFT [ x 1 ( r ) ]
X 2 ( k ) = Σ r = 0 N / 2 - 1 x 2 ( r ) W N / 2 kr = DFT [ x 2 ( r ) ]
C)、根据X1(k)和X2(k)的周期性(N/2)和
Figure BDA0000122444270000076
的对称性得到FFT频谱序列:
X ( k ) = X 1 ( k ) + W N k X 2 ( k ) , k = 0,1,2 , KN / 2 - 1
X ( k + N / 2 ) = X 1 ( k ) - W N k X 2 ( k ) , k = 0,1,2 , KN / 2 - 1
上述运算如图3所示,如此可求得预处理后语音信号的FFT频域功率谱。
2、确定中心频率
1/3倍频程的中心频率fc为:
fc=1000×103n/30HZ(n=0,±1,±2,K)
本发明采用的中心频率是其近似值,即所选取的中心频率为:20HZ,25HZ,31.5HZ,40HZ,50HZ,63HZ,80HZ,100HZ,125HZ,160HZ,200HZ,250HZ,315HZ,400HZ,500HZ,630HZ,800HZ,1000HZ,1350HZ,1600HZ 2000HZ,2500HZ,3150HZ,4000HZ,5000HZ,6300HZ,8000HZ,10000HZ,12500HZ,16000HZ。
3、求取上下限频率
1/3倍频程的中心频率fc所处频带介于上限频率fu与下限频率fd之间。其上限频率fu、下限频率fd以及中心频率fc之间的关系为:
f u f d = 2 1 / 3 , f c f d = 2 1 / 6 , f u f c = 2 1 / 6 ;
1/3倍频程各中心频率fc所处频带的带宽为:
Δf=fu-fd=(21/6-2-1/6)fc
4、声压级转换
1/3倍频程频谱分析把人耳能听到的20HZ-20KHZ整个声频范围分成30个恒定带宽比的频带,并对落在这些频带中的音频信号计算声压级。
根据音频信号的声压即可求出声压级,其转换关系为:
L p = 20 lg P P 0 ( dB )
其中,P0为基准声压,其值为2×10-5Pa。
5、计算中心频率fc所处频带内频谱值
按照上、下限频率以及中心频率将功率谱中的频率划分成多个频带,把恒定带宽比的功率谱合成为1/3倍频程功率谱。1个1/3倍频程频带内的功率谱,其合成方法为
S x ( f n ) = ∫ f d f u S x ( f ) df
式中,Sx(fn)为1个1/3倍频程频带内的合成功率谱;Sx(f)为1个1/3倍频程频带内的离散功率谱。
对于离散功率谱,第n个频带的功率谱为
S x , n = &Sigma; f l , n &le; f i < f u , n ln ( S x , n ( f i ) )
式中,Sx,n(fi)为该频带内各离散频率的功率谱幅值。
频带功率谱的平均值为该频带的幅值An,即
A n = 1 n S x , n
频谱中30个恒定带宽比的频带所对应的幅值即为说话人的特征参数,这30个特征参数构成说话人特征参数序列。第三步:建立说话人参考库
重复第一步和第二步若干次,建立说话人识别***中所有已注册说话人的特征参数参考库,即由已注册说话人A的特征参数序列A1、A2、
Figure BDA0000122444270000094
AN构成其参考库,由已注册说话人B的特征参数序列B1、B2、
Figure BDA0000122444270000095
BN构成其参考库,
Figure BDA0000122444270000096
如此建立说话人识别***中所有已注册说话人的参考库。本实施例中有14位已注册说话人,每位说话人的参考库中有5个特征参数序列。
第四步:求取加权灰色关联度
本发明中加权灰色关联度算法流程如图4所示,具体详述如下:
1、构造特征参数关联组
A)、获得待识别说话人X的特征参数序列X0,并提取所有已注册说话人参考库中各特征参数序列,即已注册说话人A的特征参数序列A1、A2、
Figure BDA0000122444270000097
AN,已注册说话人B的特征参数序列B1、B2、
Figure BDA0000122444270000098
BN,以此类推。
B)、将待识别说话人的特征参数序列分别添加到识别***中所有已注册说话人参考库中,并根据频域信号的时不变性均匀地赋予这些特征参数序列以相同的权重系数,以使待识别说话人分别与已注册说话人重新组合构成加权平均特征参数序列。即已注册说话人A和待识别说话人X构成序列ω11A1、ω12A2、
Figure BDA0000122444270000099
ω1nAN、ω1xX0,其中ω11=ω12=L=ω1n=ω1x且ω1112+L+ω1n1x=1;已注册说话人B和待识别说话人X构成序列ω21B1、ω22B2、
Figure BDA00001224442700000910
ω2nBN、ω2xX0,其中ω21=ω22=L=ω2n=ω2x且ω2122+L+ω2n2x=1;以此类推。
C)、根据叠加原理分别求得待识别说话人与识别***中所有已注册说话人的灰色关联加权平均特征参数序列,即已注册说话人A和待识别说话人X构成新的特征参数序列AY=ω11A1+ω12A2+L+ω1nAN+ω1xX1,已注册说话人B和待识别说话人X构成新的特征参数序列BY=ω21B1+ω22B2+L+ω2nBN+ω2xX1,以此类推。
D)、设X={xσ(t)|σ=0,1,2,K,m}为序列关联因子集,x0为参考函数(母因素),xi为比较函数(子因素),xσ(k)为xσ在第k点的值,其中,i=1,2,K,m,k=1,2,K,n。
对于x0、xi,令
&zeta; i ( k ) = &xi; &CenterDot; max i &Element; m max k &Element; n | x 0 ( k ) - x i ( k ) | &lambda; 1 | x 0 ( k ) i &Element; m - x i ( k ) k &Element; n | + &lambda; 2 | x 0 &prime; i &Element; m - x i &prime; k &Element; n ( k ) | + &xi; &CenterDot; max max | x 0 ( k ) - x i ( k ) |
得到xi对于x0的灰关联度
&gamma; i = &gamma; ( x 0 , x i ) = 1 n &CenterDot; &Sigma; k = 1 n &zeta; i ( k )
其中,0<ε<1,λ1,λ2≥0,λ12=1,常数ξ为分辨系数,λ1,λ2分别为位移和变化率加权系数,在实际应用中可根据具体情况适当选取ξ,λ1,λ2
本实施例中,取分辨率系数ξ=0.9,位移加权系数λ1=0.95,变化率加权系数λ2=0.05。按照上述步骤计算得到待识别说话人和已注册说话人的加权灰色关联度值,即已注册说话人A和待识别说话人X的加权灰色关联度值RA,已注册说话人B和待识别说话人X的加权灰色关联度值RB,以此类推。
第五步:识别匹配及策略抉择
本发明中说话人识别匹配及策略抉择过程如图5所示,具体如下:
1、获得加权灰色关联度最大值
在待识别说话人和所有已注册说人的加权灰色关联度值中,提取加权灰色关联度最大值,即Rmax=max{RA,RB,K},其中,RA为待识别说话人X和已注册说话人A的加权灰色关联度值,RB为待识别说话人X和已注册说话人B的加权灰色关联度值,以此类推。
2、说话人识别匹配及策略抉择
将提取出的加权灰色关联度最大值Rmax与加权灰色关联度识别阈值Rθ比较,若Rmax≥R,则匹配成功,即待识别说话人为识别***中与其拥有最大加权灰色关联度值的已注册说话人;否则匹配失败,即待识别人不是识别***中已注册说话人。其中,加权灰色关联度识别阈值Rθ由大量实验统计分析给出。
本实施例采集14位说话人(7男、7女)的语音信号,每位说话人录取10段不同的文本内容,每段时长28秒,且各说话人间的文本内容亦不同。为了减小采集开始和结束时说话人声音变化紊乱带来的语音差异,截去每段语音信号首尾各3秒,则每段语音信号时长22秒。在此基础上,对每位说话人分别任选5段语音信号,按上述实施方式进行语音信号预处理和特征参数提取,建立已注册说话人的特征参数参考库;接着任取一段余下的语音信号,按上述实施方式进行语音信号预处理和特征参数提取,获取待识别说话人的特征参数序列,并按上述实施方式计算加权灰色关联度;最后提取最大加权灰色关联度值,与加权灰色关联度识别阈值比较,得出说话人识别结果。现以A、B、C、D、E、F、G、H、I、J、K、L、M、N代表上述说话人,详述本实施例的具体实施步骤。
提取已采集的说话人A的一段语音信号,此时域信号如附图6所示;按上述实施方式依次对其进行采样量化、去零漂、预加重和加窗,得到预处理后的语音信号,其语音的帧信号如附图7所示;接着采用1/3倍频程频谱分析法对预处理后的语音信号进行特征提取,得到1/3倍频程频谱,如附图8所示,再获得其特征参数序列,如表1所示。
表格1已注册说话人A的特征参数序列
Figure BDA0000122444270000111
Figure BDA0000122444270000121
按照上述步骤,分别对说话人A的另外四段语音信号进行特征提取,获取其特征参数序列,再组合说话人A的所有特征参数序列,建立说话人A的特征参数参考库,如表2所示。按照建立说话人A的特征参数参考库的步骤,再分别依次建立说话人B、C、D、E、F、G、H、I、J、K、L、M、N的特征参数参考库。
表格2已注册说话人A的特征参数参考库
Figure BDA0000122444270000122
Figure BDA0000122444270000131
任取一段说话人A余下的语音信号,按照上述实施步骤,依次进行语音信号预处理和特征参数提取,获得待识别人的特征参数序列。按照本发明所提供的加权灰色关联度算法,求取待识别说话人A和已注册说话人A、B、C、D、E、F、G、H、I、J、K、L、M、N的加权灰色关联度,其结果如表3所示。
  表格   A   B   C   D   E   F   G
  A   0.9528   0.8006   0.7440   0.8039   0.7995   0.8598   0.8016
  H   I   J   K   L   M   N
  A   0.7903   0.8267   0.7804   0.8741   0.8057   0.8887   0.7945
依次任意提取其他说话人余下的一段语音信号,按照待识别说话人A的操作方法,求取待识别说话人B、C、D、E、F、G、H、I、J、K、L、M、N和所有已注册说话人的加权灰色关联度,其结果如表4所示,表中横向字母表示已注册说话人,纵向字母表示待识别说话人。
表格4所有待识别说话人与所有已注册说话人间的加权灰色关联度
  A   B   C   D   E   F   G
  A   0.9528   0.8006   0.7440   0.8039   0.7995   0.8598   0.8016
  B   0.8295   0.9050   0.8281   0.8699   0.8693   0.8387   0.8967
  C   0.7306   0.8556   0.9628   0.8324   0.7968   0.7509   0.8407
  D   0.7935   0.8371   0.7769   0.8762   0.8421   0.8335   0.8324
  E   0.8214   0.8601   0.8119   0.8426   0.9645   0.8501   0.8921
  F   0.8659   0.8292   0.7851   0.8391   0.8647   0.9489   0.8447
  G   0.7940   0.9030   0.8868   0.8750   0.8899   0.8159   0.9324
  H   0.7799   0.7990   0.8216   0.7979   0.7488   0.7641   0.7857
  I   0.7949   0.8201   0.7710   0.8335   0.8437   0.8091   0.8178
  J   0.8086   0.7748   0.8327   0.8450   0.8106   0.8024   0.8251
  K   0.8710   0.7829   0.7517   0.8055   0.7924   0.8763   0.8041
  L   0.8142   0.8276   0.8629   0.8865   0.9038   0.8343   0.9274
  M   0.8958   0.8350   0.7777   0.8239   0.8207   0.8965   0.8273
  N   0.8103   0.8896   0.8593   0.8784   0.8838   0.8242   0.9081
  H   I   J   K   L   M   N
  A   0.7903   0.8267   0.7804   0.8741   0.8057   0.8887   0.7945
  B   0.7761   0.8681   0.7816   0.8188   0.8749   0.8415   0.8675
  C   0.798   0.8425   0.8151   0.7278   0.8138   0.7466   0.8425
  D   0.7182   0.8530   0.7202   0.7804   0.8238   0.7953   0.8465
  E   0.7697   0.8717   0.7671   0.8049   0.9012   0.8349   0.8842
  F   0.7909   0.8717   0.7925   0.8900   0.8479   0.9072   0.8325
  G   0.8190   0.8892   0.8326   0.7916   0.9209   0.8058   0.9047
  H   0.9432   0.8127   0.8982   0.8106   0.7702   0.8063   0.7913
  I   0.7299   0.9198   0.7214   0.7715   0.8157   0.7775   0.8432
  J   0.8935   0.7634   0.9605   0.8445   0.8095   0.8514   0.8099
  K   0.8380   0.8286   0.8370   0.9502   0.8075   0.9011   0.7990
  L   0.8127   0.8667   0.8234   0.8117   0.9435   0.8227   0.9051
  M   0.8359   0.8318   0.8401   0.9094   0.8235   0.9565   0.815
  N   0.8053   0.8598   0.8058   0.805   0.8984   0.8158   0.9310
按上述实施方式提取所有待识别说话人与所有已注册说话人间加权灰色关联度的最大值,详见表4中的加粗的数值。通过对大量实验结果的分析,本实施例选取说话人识别的加权灰色关联度识别阈值为0.9。将已获得的最大值与其比较,得出说话人识别结果,如表5所示。
表格5说话人识别结果
  说话人识别的总人数(位)   14
  加权灰色关联度最大值大于识别阈值的人数(位)   13
  与文本无关的说话人识别的正确率   92.86%
表5所示的识别结果,表明本发明提供的基于1/3倍频程和加权灰色关联的与文本无关的说话人识别方法,采用1/3倍频程频谱分析法对说话人语音信号进行特征参数提取,通过加权灰色关联度算法进行说话人识别,提高了与文本无关的说话人识别的正确率,实现了与文本无关的说话人识别的鲁棒性,具有广泛的应用前景。
以上对本发明所提供的一种基于1/3倍频程和加权灰色关联的与文本无关的说话人识别方法,进行了详细具体的介绍,并且通过具体的实施例进一步阐述了本发明的原理及实施方式,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,而不是对其发明进行限制,任何在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。

Claims (5)

1.一种与文本无关的说话人识别方法,其特征在于,包括如下步骤:
一、建立N个说话人的语音特征参考库,设定加权灰色关联度识别阈值Rθ所述的N为大于或等于1的整数,步骤如下:
A、采集第1说话人第1段语音信号并依次采样量化、去零漂、预加重和加窗,得到加窗后的第1-1音频帧Fm′(n);
B、对第1-1音频帧Fm′(n)使用1/3倍频程频谱分析法,获得第1-1特征参数,所述的特征参数为各中心频率所处频带对应的功率谱值序列,
C、N个说话人依次进行M次A、B步骤,依次获得N×M个特征参数,所述的N个特征参数序列形成语音特征参考库;
二、获得N个加权灰色关联度,步骤如下:
I、通过步骤A、B采集待测说话人特征参数X;
II、将特征参数X的序列分别添加到参考库中,并根据频域信号的时不变性均匀地赋予N个特征参数的序列以相同的权重系数,重新组合构成N个加权平均特征参数序列,获得N个加权灰色关联度值;
三、识别匹配,提取N个加权灰色关联度值中最大值Rmax与Rθ比较,若Rmax≥R,则匹配,否,则不匹配。
2.根据权利要求1所述的一种与文本无关的说话人识别方法,其特征在于:步骤B中所述的特征提取的步骤为:
(A)信号时频变换:采用基-2算法的FFT变换将说话人语音的时域信号转换为频域信号,求取说话人语音信号的功率谱;
(B)确定1/3倍频程频谱分析法的中心频率fc
(C)求取上、下限频率:1/3倍频程的上、下限频率以及中心频率之间的关系为
f u f d = 2 1 / 3 , f c f d = 2 1 / 6 , f u f c = 2 1 / 6 ;
(D)声压级转换,即
L p = 20 lg P P 0 ( dB )
其中P0为基准声压,其值为2×10-5Pa;
(E)计算各中心频率fc所处频带的功率谱的平均值:按照1/3倍频程的上、下限频率以及中心频率将功率谱中的频率划分成多个频带,并在每个频带中将所有的功率幅值按对数叠加,获得1/3倍频程频谱,其幅值即为特征参数。
3.根据权利要求1所述的一种与文本无关的说话人识别方法,其特征在于:步骤II中所述的加权灰色关联度计算的详细步骤为:
(F)提取特征参数序列:获得待识别说话人特征参数X的序列X0,并提取所有已注册说话人参考库的各特征参数序列,即已注册说话人A的特征参数序列A1、A2、AN,已注册说话人B的特征参数序列B1、B2、
Figure FDA0000122444260000022
BN,以此类推;
(G)构造加权平均特征参数序列:将待识别说话人的特征参数序列分别添加到识别***中所有已注册说话人参考库中,并根据频域信号的时不变性均匀地赋予这些特征参数序列以相同的权重系数,以使待识别说话人分别与已注册说话人重新组合构成加权平均特征参数序列。即已注册说话人A和待识别说话人X构成序列ω11A1、ω12A2、
Figure FDA0000122444260000023
ω1nAN、ω1xX0,其中ω11=ω12=L=ω1n=ω1x且ω1112+L+ω1n1x=1;已注册说话人B和待识别说话人X构成序列ω21B1、ω22B2、
Figure FDA0000122444260000024
ω2nBN、ω2xX0,其中ω21=ω22=L=ω2n=ω2x且ω2122+L+ω2n2x=1,以此类推;
(H)累加生成加权平均灰色关联特征参数序列:根据叠加原理分别求得待识别说话人与识别***中所有已注册说话人的加权平均灰色关联特征参数序列,即已注册说话人A和待识别说话人X构成新的特征参数序列AY=ω11A1+ω12A2+L+ω1nAN+ω1xX1,已注册说话人B和待识别说话人X构成新的特征参数序列BY=ω21B1+ω22B2+L+ω2nBN+ω2xX1,以此类推;
(I)计算加权灰色关联度:按加权灰色关联度算法计算待识别说话人和已注册说话人的加权灰色关联度,即已注册说话人A和待识别说话人X的加权灰色关联度RA,已注册说话人B和待识别说话人X的加权灰色关联度RB,以此类推,获得N个加权灰色关联度R。
4.根据权利要求2所述的一种与文本无关的说话人识别方法,其特征在于:所述的1/3倍频程频谱分析法的中心频率的确定方法为:
1/3倍频程的中心频率为fc=1000×103n/30HZ(n=0,±1,±2,K);
选取中心频率的近似值,即所选取的中心频率为:20HZ,25HZ,31.5HZ,40HZ,50HZ,63HZ,80HZ,100HZ,125HZ,160HZ,200HZ,250HZ,315HZ,400HZ,500HZ,630HZ,800HZ,1000HZ,1350HZ,1600HZ,2000HZ,2500HZ,3150HZ,4000HZ,5000HZ,6300HZ,8000HZ,10000HZ,12500HZ,16000HZ。
5.根据权利要求3所述的一种与文本无关的说话人识别方法,其特征在于:所述的加权灰色关联度的算法为:
设X={xσ(t)|σ=0,1,2,K,m}为序列关联因子集,即参考库,x0为参考函数(母因素),即其中一个已注册说话人;
xi为比较函数(子因素),即待测说话人的特征因素X,xσ(k)为xσ在第k点的值,其中,i=1,2,K,m,k=1,2,K,n。
对于x0、xi,令
&zeta; i ( k ) = &xi; &CenterDot; max i &Element; m max k &Element; n | x 0 ( k ) - x i ( k ) | &lambda; 1 | x 0 ( k ) i &Element; m - x i ( k ) k &Element; n | + &lambda; 2 | x 0 &prime; i &Element; m - x i &prime; k &Element; n ( k ) | + &xi; &CenterDot; max max | x 0 ( k ) - x i ( k ) |
则xi对于x0的灰关联度为
&gamma; i = &gamma; ( x 0 , x i ) = 1 n &CenterDot; &Sigma; k = 1 n &zeta; i ( k )
其中,0<ε<1,λ1,λ2≥0,λ12=1,常数ξ为分辨系数,λ1,λ2分别为位移和变化率加权系数,在实际应用中可根据具体情况适当选取ξ,λ1,λ2
CN201110428379.2A 2011-12-20 2011-12-20 一种与文本无关的说话人识别方法 Expired - Fee Related CN102496366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110428379.2A CN102496366B (zh) 2011-12-20 2011-12-20 一种与文本无关的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110428379.2A CN102496366B (zh) 2011-12-20 2011-12-20 一种与文本无关的说话人识别方法

Publications (2)

Publication Number Publication Date
CN102496366A true CN102496366A (zh) 2012-06-13
CN102496366B CN102496366B (zh) 2014-04-09

Family

ID=46188183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110428379.2A Expired - Fee Related CN102496366B (zh) 2011-12-20 2011-12-20 一种与文本无关的说话人识别方法

Country Status (1)

Country Link
CN (1) CN102496366B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104167208A (zh) * 2014-08-08 2014-11-26 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN105244031A (zh) * 2015-10-26 2016-01-13 北京锐安科技有限公司 说话人识别方法和装置
CN106328168A (zh) * 2016-08-30 2017-01-11 成都普创通信技术股份有限公司 一种语音信号相似度检测方法
CN108154189A (zh) * 2018-01-10 2018-06-12 重庆邮电大学 基于ldtw距离的灰关联聚类方法
CN109065026A (zh) * 2018-09-14 2018-12-21 海信集团有限公司 一种录音控制方法及装置
CN112885355A (zh) * 2021-01-25 2021-06-01 上海头趣科技有限公司 一种基于多特征的语音识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1986005618A1 (en) * 1985-03-21 1986-09-25 American Telephone & Telegraph Company Individual recognition by voice analysis
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
US5950157A (en) * 1997-02-28 1999-09-07 Sri International Method for establishing handset-dependent normalizing models for speaker recognition
CN1941080A (zh) * 2005-09-26 2007-04-04 吴田平 一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法
CN101266792A (zh) * 2007-03-16 2008-09-17 富士通株式会社 语音识别***和语音识别方法
CN101405739A (zh) * 2002-12-26 2009-04-08 摩托罗拉公司(在特拉华州注册的公司) 身份识别设备和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1986005618A1 (en) * 1985-03-21 1986-09-25 American Telephone & Telegraph Company Individual recognition by voice analysis
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
US5950157A (en) * 1997-02-28 1999-09-07 Sri International Method for establishing handset-dependent normalizing models for speaker recognition
CN101405739A (zh) * 2002-12-26 2009-04-08 摩托罗拉公司(在特拉华州注册的公司) 身份识别设备和方法
CN1941080A (zh) * 2005-09-26 2007-04-04 吴田平 一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法
CN101266792A (zh) * 2007-03-16 2008-09-17 富士通株式会社 语音识别***和语音识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《声学技术》 20021231 王宏等 基于长时平均频谱的"文本无关"话者识别 59-62 1-5 第21卷, 第2期 *
曾毓敏等: "基于浊音语音谐波谱子带加权重建的抗噪声说话人识别", 《东南大学学报(自然科学版)》, vol. 38, no. 06, 30 November 2008 (2008-11-30), pages 925 - 941 *
王宏等: "基于长时平均频谱的"文本无关"话者识别", 《声学技术》, vol. 21, no. 2, 31 December 2002 (2002-12-31), pages 59 - 62 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104167208A (zh) * 2014-08-08 2014-11-26 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN104167208B (zh) * 2014-08-08 2017-09-15 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN105244031A (zh) * 2015-10-26 2016-01-13 北京锐安科技有限公司 说话人识别方法和装置
CN106328168A (zh) * 2016-08-30 2017-01-11 成都普创通信技术股份有限公司 一种语音信号相似度检测方法
CN108154189A (zh) * 2018-01-10 2018-06-12 重庆邮电大学 基于ldtw距离的灰关联聚类方法
CN109065026A (zh) * 2018-09-14 2018-12-21 海信集团有限公司 一种录音控制方法及装置
CN112885355A (zh) * 2021-01-25 2021-06-01 上海头趣科技有限公司 一种基于多特征的语音识别方法

Also Published As

Publication number Publication date
CN102496366B (zh) 2014-04-09

Similar Documents

Publication Publication Date Title
CN102893326B (zh) 结合情感点的汉语语音情感提取及建模方法
CN101599271B (zh) 一种数字音乐情感的识别方法
CN101178897B (zh) 利用基频包络剔除情感语音的说话人识别方法
CN102496366A (zh) 一种与文本无关的说话人识别方法
CN103137137B (zh) 一种会议音频中的精彩说话人发现方法
CN102509547A (zh) 基于矢量量化的声纹识别方法及***
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
CN106024010B (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
CN103489454A (zh) 基于波形形态特征聚类的语音端点检测方法
CN102982803A (zh) 基于hrsf及改进dtw算法的孤立词语音识别方法
CN102968990A (zh) 说话人识别方法和***
CN104887263A (zh) 一种基于心音多维特征提取的身份识别算法及其***
CN106531174A (zh) 基于小波包分解和声谱图特征的动物声音识别方法
CN109961794A (zh) 一种基于模型聚类的分层说话人识别方法
Waghmare et al. Emotion recognition system from artificial marathi speech using MFCC and LDA techniques
CN103456302A (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN109272986A (zh) 一种基于人工神经网络的狗声音情感分类方法
Linh et al. MFCC-DTW algorithm for speech recognition in an intelligent wheelchair
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
Kumar et al. Hybrid of wavelet and MFCC features for speaker verification
Martin et al. Cepstral modulation ratio regression (CMRARE) parameters for audio signal analysis and classification
Kumar et al. Text dependent speaker identification in noisy environment
Aggarwal et al. Performance evaluation of artificial neural networks for isolated Hindi digit recognition with LPC and MFCC
GS et al. Synthetic speech classification using bidirectional LSTM Networks
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140409

Termination date: 20161220

CF01 Termination of patent right due to non-payment of annual fee