CN102496366A

CN102496366A - 一种与文本无关的说话人识别方法

Info

Publication number: CN102496366A
Application number: CN2011104283792A
Authority: CN
Inventors: 朱坚民; 黄之文; 李孝茹; 李海伟; 王军; 翟东婷; 毛得吉
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2011-12-20
Filing date: 2011-12-20
Publication date: 2012-06-13
Anticipated expiration: 2031-12-20
Also published as: CN102496366B

Abstract

本发明涉及一种与文本无关的说话人识别方法，其主要步骤是：(1)获取说话人语音信号，对语音信号处理得到语音预处理信号；(2)对预处理后获得的语音信号进行特征提取，求得识别***中说话人的特征参数；(3)重复上述两步骤若干次，获取已注册说话人特征参数序列，建立所有已注册说话人特征参数参考库；(4)获取待识别说话人特征参数序列，计算待识别说话人与所有已注册说话人间的加权灰色关联度；(5)提取所有加权灰色关联度的最大值，将其与加权灰色关联度识别阈值进行比较，得出识别结果。本发明涉及生物特征识别技术领域，特别是说话人识别技术领域。它解决了现有与文本无关的说话人识别技术中错误率较高的问题，具有广泛的应用前景。

Description

一种与文本无关的说话人识别方法

技术领域

本发明涉及生物特征识别技术，主要是一种基于1/3倍频程和加权灰色关联的与文本无关的说话人识别方法。

技术背景

随着计算机技术的发展和社会信息化程度的提高，利用人的生物特征(如指纹、声纹、图像等)进行身份识别或验证已成为信息产业中极为重要的前沿技术。说话人识别是指利用人的发音来进行说话人身份的识别或验证，说话人识别可广泛应用于公安司法部门、商务贸易、银行金融、保守个人机密、安全检查等领域。

说话人识别技术领域的研究重点在于特征参数的提取和识别算法的构造。特征提取就是从说话人的语音信号中提取出能够详尽地、精确地表达其语音的特征参数。目前，语音识别技术中使用的特征参数是基于声道模型的LPCC(Linear Prediction Cepstrum Coefficient)参数、基于听觉机理的MFCC(Mel Frequency Cepstmm Coefficient)参数或其改进和组合，但这些特征参数所表征的语音信息量不足。因此本发明提出采用1/3倍频程频谱分析法对语音信号进行特征参数的提取。1/3倍频程频谱分析法把人耳能听到的20HZ-20KHZ整个声频范围分成30个恒定带宽比的频带，并对落在这些频带中的音频信号进行频谱分析，能够更准确地表达说话人的语音信号中所蕴含的信息，进而增强说话人特征参数的鲁棒性。

在语音技术研究及应用领域，语音信号的识别算法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。基于声道模型和语音知识方法的研究虽然起步较早，但由于其过于复杂，现阶段没有取得很好的实用效果。模板匹配的方法有动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术，这些算法在噪声环境下抗干扰能力差，不能达到良好的识别效果。人工神经网络方法具有自适应性、并行性、鲁棒性、容错性和学习特性，其强大的分类能力和输入-输出映射能力在语音识别中都很有吸引力，但由于存在训练、识别时间太长的缺点，也不能取得很好的实用效果。本发明提出使用基于加权灰色关联度的方法进行说话人识别，同时考虑说话人语音信号中蕴含的信息及其信息变化在说话人识别中的作用，显著地提高了语音信号的识别率。

说话人识别又可分为与文本有关的和与文本无关的，此二者都是根据语音信号中蕴含的特征信息进行说话人识别。“与文本有关”，是采用受限制的说话文本内容，且只对说话人的语音信号中一种或几种特征参数进行识别，较容易被假冒模仿，识别***的保密性不高。“与文本无关”，则是采用随机说话文本内容，识别***的灵活性好。但由于语音信号中所蕴含特征信息的丰富性，以及实际环境中噪声的复杂性，传统的说话人识别方法的步骤又比较繁琐。

发明内容

为了解决上述技术所存在的缺陷以及提高与文本无关的说话人识别率，本发明提供一种基于1/3倍频程和加权灰色关联的与文本无关的说话人识别方法。该方法通过1/3倍频程频谱分析法对说话人语音信号进行特征提取，并采用加权灰色关联度算法进行说话人识别，是一种可靠的、有效的与文本无关的说话人识别方法，具有优良的鲁棒性。

为达到以上发明目的，本发明方法包括如下步骤：

一、建立N个说话人的语音特征参考库，所述的N为大于或等于1的整数，步骤如下：

A、采集第1说话人第1段语音信号并依次采样量化、去零漂、预加重和加窗，得到加窗后的第1-1音频帧F_m′(n)；

B、对第1-1音频帧F_m′(n)使用1/3倍频程频谱分析法，获得第1-1特征参数，所述的特征参数为各中心频率所处频带对应的功率谱值序列，所述的1-1表示第1说话人第1段语音信号；

C、N个说话人进行M次A、B步骤，依次获得N×M个特征参数，所述的N×M个特征参数形成特征参数参考库，所述的N×M表示N个说话人M次特征参数提取；

二、获得N个加权灰色关联度，步骤如下：

I、通过步骤A、B采集待测说话人特征参数X；

II、将特征参数X的序列分别添加到参考库中，并根据频域信号的时不变性均匀地赋予N个特征参数的序列以相同的权重系数，重新组合构成N个加权平均特征参数序列，获得N个加权灰色关联度值；

三、识别匹配，提取N个加权灰色关联度值中最大值R_max与R_θ比较，若R_max≥R，则匹配，否，则不匹配。

根据本发明一个实施方式的一种与文本无关的说话人识别方法，步骤B中所述的特征提取的步骤为：

(A)信号时频变换：采用基-2算法的FFT变换将说话人语音的时域信号转换为频域信号，求取说话人语音信号的功率谱；

(B)确定1/3倍频程频谱分析法的中心频率f_c；

(C)求取上、下限频率：1/3倍频程的上、下限频率以及中心频率之间的关系为：

\frac{f_{u}}{f_{d}} = 2^{1 / 3},

\frac{f_{c}}{f_{d}} = 2^{1 / 6},

\frac{f_{u}}{f_{c}} = 2^{1 / 6};

(D)声压级转换，即

L_{p} = 20 \lg \frac{P}{P_{0}} (dB)

其中P₀为基准声压，其值为2×10^-5Pa；

(E)计算各中心频率f_c所处频带的功率谱的平均值：按照1/3倍频程的上、下限频率以及中心频率将功率谱中的频率划分成多个频带，并在每个频带中将所有的功率幅值按对数叠加，获得1/3倍频程频谱，其幅值即为特征参数。

根据本发明一个实施方式的一种与文本无关的说话人识别方法，步骤II中所述的加权灰色关联度计算的详细步骤为：

(F)提取特征参数序列：获得待识别说话人特征参数X的序列X0，并提取所有已注册说话人参考库的各特征参数序列，即已注册说话人A的特征参数序列A1、A2、

AN，已注册说话人B的特征参数序列B1、B2、

BN，以此类推；

(G)构造加权平均特征参数序列：将待识别说话人的特征参数序列分别添加到识别***中所有已注册说话人参考库中，并根据频域信号的时不变性均匀地赋予这些特征参数序列以相同的权重系数，以使待识别说话人分别与已注册说话人重新组合构成加权平均特征参数序列。即已注册说话人A和待识别说话人X构成序列ω₁₁A1、ω₁₂A2、

ω_1nAN、ω_1xX0，其中ω₁₁＝ω₁₂＝L＝ω_1n＝ω_1x且ω₁₁+ω₁₂+L+ω_1n+ω_1x＝1；已注册说话人B和待识别说话人X构成序列ω₂₁B1、ω₂₂B2、

ω_2nBN、ω_2xX0，其中ω₂₁＝ω₂₂＝L＝ω_2n＝ω_2x且ω₂₁+ω₂₂+L+ω_2n+ω_2x＝1，以此类推；

(H)累加生成加权平均灰色关联特征参数序列：根据叠加原理分别求得待识别说话人与识别***中所有已注册说话人的加权平均灰色关联特征参数序列，即已注册说话人A和待识别说话人X构成新的特征参数序列AY＝ω₁₁A1+ω₁₂A2+L+ω_1nAN+ω_1xX1，已注册说话人B和待识别说话人X构成新的特征参数序列BY＝ω₂₁B1+ω₂₂B2+L+ω_2nBN+ω_2xX1，以此类推；

(I)计算加权灰色关联度：按加权灰色关联度算法计算待识别说话人和已注册说话人的加权灰色关联度，即已注册说话人A和待识别说话人X的加权灰色关联度RA，已注册说话人B和待识别说话人X的加权灰色关联度RB，以此类推，获得N个加权灰色关联度R。

根据本发明一个实施方式的一种与文本无关的说话人识别方法，所述的1/3倍频程频谱分析法的中心频率的确定方法为：

1/3倍频程的中心频率为f_c＝1000×10^3n/30HZ(n＝0，±1，±2，K)；

选取中心频率的近似值，即所选取的中心频率为：20HZ，25HZ，31.5HZ，40HZ，50HZ，63HZ，80HZ，100HZ，125HZ，160HZ，200HZ，250HZ，315HZ，400HZ，500HZ，630HZ，800HZ，1000HZ，1350HZ，1600HZ，2000HZ，2500HZ，3150HZ，4000HZ，5000HZ，6300HZ，8000HZ，10000HZ，12500HZ，16000HZ。

根据本发明一个实施方式的一种与文本无关的说话人识别方法，所述的加权灰色关联度的算法为：

设X＝{x_σ(t)|σ＝0，1，2，K，m}为序列关联因子集，即参考库，x₀为参考函数(母因素)，即其中一个已注册说话人；

x_i为比较函数(子因素)，即待测说话人的特征因素X，x_σ(k)为x_σ在第k点的值，其中，i＝1，2，K，m，k＝1，2，K，n。

对于x₀、x_i，令：

ζ_{i} (k) = \frac{ξ \cdot \max_{i &Element; m} \max_{k &Element; n} | x_{0} (k) - x_{i} (k) |}{λ_{1} | \underset{i &Element; m}{x_{0} (k)} - \underset{k &Element; n}{x_{i} (k)} | + λ_{2} | \underset{i &Element; m}{x_{0}^{'}} - \underset{k &Element; n}{x_{i}^{'}} (k) | + ξ \cdot \max \max | x_{0} (k) - x_{i} (k) |}

则x_i对于x₀的灰关联度为：

γ_{i} = γ (x_{0}, x_{i}) = \frac{1}{n} \cdot Σ_{k = 1}^{n} ζ_{i} (k)

其中，0＜ε＜1，λ₁，λ₂≥0，λ₁+λ₂＝1，常数ξ为分辨系数，λ₁，λ₂分别为位移和变化率加权系数，在实际应用中可根据具体情况适当选取ξ，λ₁，λ₂。

本发明有益的效果是：本发明采用1/3倍频程频谱分析法对说话人语音信号进行特征参数提取，把人耳听到的20HZ-20KHZ整个声频范围内语音信号所蕴含的信息更全面地提取出来，减少了说话人识别过程中语音信号的特征信息不全带来的不利影响；该发明通过加权灰色关联度算法进行说话人识别，同时考虑说话人语音信号中蕴含的信息及信息变化在说话人识别中的作用，降低了说话人识别的错误率。这种基于1/3倍频程和加权灰色关联的与文本无关的说话人识别方法，实现了与文本无关的说话人识别的鲁棒性，显著地提高了与文本无关的说话人语音信号的识别率，具有广泛的应用前景。

附图说明

图1是本发明提供的方法的流程图；

图2是本发明的1/3倍频程特征提取流程图；

图3是本发明的FFT蝶形运算符图；

图4是本发明的加权灰色关联度算法流程图；

图5是本发明的识别匹配及策略抉择流程图；

图6是本发明的说话人A的一段语音信号图；

图7是本发明的说话人A的一段预处理后语音的帧信号图；

图8是本发明的说话人A的一幅1/3倍频程频谱图。

具体实施方式

下面通过附图和实施例对本发明的技术方案做进一步的详细描述。本发明的方法共分五步，如附图1所示。

第一步：语音信号预处理

1、采样与量化

A)、用FIR带通滤波器对语音信号经行滤波，使奈奎斯特频率F_N为20KHZ；

B)、设置语音采样频率F≥2F_N，本发明所述实施例中取其为F＝51200HZ；

C)、对语音信号s_a(t)按周期进行采样，得到语音信号振幅序列其中t表示该语音信号是时间连续信号，n则表示离散信号序列，n取值时取为连续的自然数即可；

D)、用脉冲编码(PCM)对数字语音信号的振幅序列s(n)进行量化编码，得到振幅序列的量化值表示s′(n)。

2、去零漂

A)、计算振幅序列的量化值表示s′(n)的平均值

B)、将振幅序列中的每个振幅值分别减去平均值，得到去零漂后平均值为0的振幅序列s″(n)；

3、预加重处理

A)、设置数字滤波器的Z传递函数H(z)＝1-az^-1中的预加重系数a，a可取比1稍小是值，本实施例中取其为0.96；

B)、s″(n)通过数字滤波器，得到语音信号的高、中、低频幅度相当的振幅序列s″′(n)。

4、加窗

A)、计算语音帧的帧长N，N满足：

20 \leq \frac{N}{F} \leq 30,

其中，F是语音采样率，单位为HZ；

B)、以N为帧长、N/2为帧移量，把s″′(n)划分成一系列的语音帧F_m，每一语音帧F_m包含N个语音信号样本；

C)、计算汉明窗函数：

式中N为每一音频帧F_m的帧长；

D)、对每一语音帧F_m加汉明窗：

利用公式F_m′(n)：F_m′(n)＝ω(n)×F_m(n)分别对每一音频帧F_m加汉明窗，得到加汉明窗后的音频帧F_m′(n)。

第二步：特征参数提取

本发明基于1/3倍频程提取预处理后的说话人语音信号的特征参数。其算法流程如图2所示，具体详述如下：

1、快速傅里叶变换(FFT)求功率谱

本发明采用基-2算法的FFT将说话人语音信号的时域信号转换为频域信号，求取说话人语音信号的功率谱序列。

A)、对语音信号序列x(n)进行“基-2时间抽取”，得到“按时间抽取”子序列，即

x₁(r)＝x(2r)，r＝0，1，2，K，N/2-1

x₂(r)＝x(2r+1)，r＝0，1，2，K，N/2-1

其中，N为语音信号序列的长度。

B)、对语音信号x(n)进行离散傅里叶变换(DFT)，获得说话人语音的频域信号，即

X (k) = Σ_{r = 0}^{N / 2 - 1} x_{1} (r) W_{N}^{2 kr} + W_{N}^{k} Σ_{r = 0}^{N / 2 - 1} x_{2} (r) W_{N}^{2 kr}

由于

W_{N}^{2 kr} = e^{- j \frac{2 π}{N} 2 kr} = e^{- j \frac{4 π}{N} kr} = W_{N / 2}^{2 kr}

因此，说话人语音的频域信号为

X (k) = X_{1} (k) + W_{N}^{k} X_{2} (k), k = 0,1,2, K, N - 1

其中，X₁(k)和X₂(k)分别为x₁(r)和x₂(r)的N/2点DFT，即

X_{1} (k) = Σ_{r = 0}^{N / 2 - 1} x_{1} (r) W_{N / 2}^{kr} = DFT [x_{1} (r)]

X_{2} (k) = Σ_{r = 0}^{N / 2 - 1} x_{2} (r) W_{N / 2}^{kr} = DFT [x_{2} (r)]

C)、根据X₁(k)和X₂(k)的周期性(N/2)和

的对称性得到FFT频谱序列：

X (k) = X_{1} (k) + W_{N}^{k} X_{2} (k), k = 0,1,2, KN / 2 - 1

X (k + N / 2) = X_{1} (k) - W_{N}^{k} X_{2} (k), k = 0,1,2, KN / 2 - 1

上述运算如图3所示，如此可求得预处理后语音信号的FFT频域功率谱。

2、确定中心频率

1/3倍频程的中心频率f_c为：

f_c＝1000×10^3n/30HZ(n＝0，±1，±2，K)

本发明采用的中心频率是其近似值，即所选取的中心频率为：20HZ，25HZ，31.5HZ，40HZ，50HZ，63HZ，80HZ，100HZ，125HZ，160HZ，200HZ，250HZ，315HZ，400HZ，500HZ，630HZ，800HZ，1000HZ，1350HZ，1600HZ 2000HZ，2500HZ，3150HZ，4000HZ，5000HZ，6300HZ，8000HZ，10000HZ，12500HZ，16000HZ。

3、求取上下限频率

1/3倍频程的中心频率f_c所处频带介于上限频率f_u与下限频率f_d之间。其上限频率f_u、下限频率f_d以及中心频率f_c之间的关系为：

\frac{f_{u}}{f_{d}} = 2^{1 / 3},

\frac{f_{c}}{f_{d}} = 2^{1 / 6},

\frac{f_{u}}{f_{c}} = 2^{1 / 6};

1/3倍频程各中心频率f_c所处频带的带宽为：

Δf＝f_u-f_d＝(2^1/6-2-^1/6)f_c

4、声压级转换

1/3倍频程频谱分析把人耳能听到的20HZ-20KHZ整个声频范围分成30个恒定带宽比的频带，并对落在这些频带中的音频信号计算声压级。

根据音频信号的声压即可求出声压级，其转换关系为：

L_{p} = 20 \lg \frac{P}{P_{0}} (dB)

其中，P₀为基准声压，其值为2×10^-5Pa。

5、计算中心频率f_c所处频带内频谱值

按照上、下限频率以及中心频率将功率谱中的频率划分成多个频带，把恒定带宽比的功率谱合成为1/3倍频程功率谱。1个1/3倍频程频带内的功率谱，其合成方法为

S_{x} (f_{n}) = {&Integral;}_{f_{d}}^{f_{u}} S_{x} (f) df

式中，S_x(f_n)为1个1/3倍频程频带内的合成功率谱；S_x(f)为1个1/3倍频程频带内的离散功率谱。

对于离散功率谱，第n个频带的功率谱为

S_{x, n} = \underset{f_{l, n} \leq f_{i} < f_{u, n}}{Σ} \ln (S_{x, n} (f_{i}))

式中，S_x，n(f_i)为该频带内各离散频率的功率谱幅值。

频带功率谱的平均值为该频带的幅值A_n，即

A_{n} = \frac{1}{n} S_{x, n}

频谱中30个恒定带宽比的频带所对应的幅值即为说话人的特征参数，这30个特征参数构成说话人特征参数序列。第三步：建立说话人参考库

重复第一步和第二步若干次，建立说话人识别***中所有已注册说话人的特征参数参考库，即由已注册说话人A的特征参数序列A1、A2、

AN构成其参考库，由已注册说话人B的特征参数序列B1、B2、

BN构成其参考库，

如此建立说话人识别***中所有已注册说话人的参考库。本实施例中有14位已注册说话人，每位说话人的参考库中有5个特征参数序列。

第四步：求取加权灰色关联度

本发明中加权灰色关联度算法流程如图4所示，具体详述如下：

1、构造特征参数关联组

A)、获得待识别说话人X的特征参数序列X0，并提取所有已注册说话人参考库中各特征参数序列，即已注册说话人A的特征参数序列A1、A2、

AN，已注册说话人B的特征参数序列B1、B2、

BN，以此类推。

B)、将待识别说话人的特征参数序列分别添加到识别***中所有已注册说话人参考库中，并根据频域信号的时不变性均匀地赋予这些特征参数序列以相同的权重系数，以使待识别说话人分别与已注册说话人重新组合构成加权平均特征参数序列。即已注册说话人A和待识别说话人X构成序列ω₁₁A1、ω₁₂A2、

ω_1nAN、ω_1xX0，其中ω₁₁＝ω₁₂＝L＝ω_1n＝ω_1x且ω₁₁+ω₁₂+L+ω_1n+ω_1x＝1；已注册说话人B和待识别说话人X构成序列ω₂₁B₁、ω₂₂B2、

ω_2nBN、ω_2xX0，其中ω₂₁＝ω₂₂＝L＝ω_2n＝ω_2x且ω₂₁+ω₂₂+L+ω_2n+ω_2x＝1；以此类推。

C)、根据叠加原理分别求得待识别说话人与识别***中所有已注册说话人的灰色关联加权平均特征参数序列，即已注册说话人A和待识别说话人X构成新的特征参数序列AY＝ω₁₁A1+ω₁₂A2+L+ω_1nAN+ω_1xX1，已注册说话人B和待识别说话人X构成新的特征参数序列BY＝ω₂₁B1+ω₂₂B2+L+ω2_nBN+ω_2xX1，以此类推。

D)、设X＝{x_σ(t)|σ＝0，1，2，K，m}为序列关联因子集，x₀为参考函数(母因素)，x_i为比较函数(子因素)，x_σ(k)为x_σ在第k点的值，其中，i＝1，2，K，m，k＝1，2，K，n。

对于x₀、x_i，令

ζ_{i} (k) = \frac{ξ \cdot \max_{i &Element; m} \max_{k &Element; n} | x_{0} (k) - x_{i} (k) |}{λ_{1} | \underset{i &Element; m}{x_{0} (k)} - \underset{k &Element; n}{x_{i} (k)} | + λ_{2} | \underset{i &Element; m}{x_{0}^{'}} - \underset{k &Element; n}{x_{i}^{'}} (k) | + ξ \cdot \max \max | x_{0} (k) - x_{i} (k) |}

得到x_i对于x₀的灰关联度

γ_{i} = γ (x_{0}, x_{i}) = \frac{1}{n} \cdot Σ_{k = 1}^{n} ζ_{i} (k)

本实施例中，取分辨率系数ξ＝0.9，位移加权系数λ₁＝0.95，变化率加权系数λ₂＝0.05。按照上述步骤计算得到待识别说话人和已注册说话人的加权灰色关联度值，即已注册说话人A和待识别说话人X的加权灰色关联度值RA，已注册说话人B和待识别说话人X的加权灰色关联度值RB，以此类推。

第五步：识别匹配及策略抉择

本发明中说话人识别匹配及策略抉择过程如图5所示，具体如下：

1、获得加权灰色关联度最大值

在待识别说话人和所有已注册说人的加权灰色关联度值中，提取加权灰色关联度最大值，即R_max＝max{RA，RB，K}，其中，RA为待识别说话人X和已注册说话人A的加权灰色关联度值，RB为待识别说话人X和已注册说话人B的加权灰色关联度值，以此类推。

2、说话人识别匹配及策略抉择

将提取出的加权灰色关联度最大值R_max与加权灰色关联度识别阈值R_θ比较，若R_max≥R，则匹配成功，即待识别说话人为识别***中与其拥有最大加权灰色关联度值的已注册说话人；否则匹配失败，即待识别人不是识别***中已注册说话人。其中，加权灰色关联度识别阈值R_θ由大量实验统计分析给出。

本实施例采集14位说话人(7男、7女)的语音信号，每位说话人录取10段不同的文本内容，每段时长28秒，且各说话人间的文本内容亦不同。为了减小采集开始和结束时说话人声音变化紊乱带来的语音差异，截去每段语音信号首尾各3秒，则每段语音信号时长22秒。在此基础上，对每位说话人分别任选5段语音信号，按上述实施方式进行语音信号预处理和特征参数提取，建立已注册说话人的特征参数参考库；接着任取一段余下的语音信号，按上述实施方式进行语音信号预处理和特征参数提取，获取待识别说话人的特征参数序列，并按上述实施方式计算加权灰色关联度；最后提取最大加权灰色关联度值，与加权灰色关联度识别阈值比较，得出说话人识别结果。现以A、B、C、D、E、F、G、H、I、J、K、L、M、N代表上述说话人，详述本实施例的具体实施步骤。

提取已采集的说话人A的一段语音信号，此时域信号如附图6所示；按上述实施方式依次对其进行采样量化、去零漂、预加重和加窗，得到预处理后的语音信号，其语音的帧信号如附图7所示；接着采用1/3倍频程频谱分析法对预处理后的语音信号进行特征提取，得到1/3倍频程频谱，如附图8所示，再获得其特征参数序列，如表1所示。

表格1已注册说话人A的特征参数序列

按照上述步骤，分别对说话人A的另外四段语音信号进行特征提取，获取其特征参数序列，再组合说话人A的所有特征参数序列，建立说话人A的特征参数参考库，如表2所示。按照建立说话人A的特征参数参考库的步骤，再分别依次建立说话人B、C、D、E、F、G、H、I、J、K、L、M、N的特征参数参考库。

表格2已注册说话人A的特征参数参考库

任取一段说话人A余下的语音信号，按照上述实施步骤，依次进行语音信号预处理和特征参数提取，获得待识别人的特征参数序列。按照本发明所提供的加权灰色关联度算法，求取待识别说话人A和已注册说话人A、B、C、D、E、F、G、H、I、J、K、L、M、N的加权灰色关联度，其结果如表3所示。

表格	A	B	C	D	E	F	G
								A	0.9528	0.8006	0.7440	0.8039	0.7995	0.8598	0.8016
	H	I	J	K	L	M	N
								A	0.7903	0.8267	0.7804	0.8741	0.8057	0.8887	0.7945

依次任意提取其他说话人余下的一段语音信号，按照待识别说话人A的操作方法，求取待识别说话人B、C、D、E、F、G、H、I、J、K、L、M、N和所有已注册说话人的加权灰色关联度，其结果如表4所示，表中横向字母表示已注册说话人，纵向字母表示待识别说话人。

表格4所有待识别说话人与所有已注册说话人间的加权灰色关联度

	A	B	C	D	E	F	G
								A	0.9528	0.8006	0.7440	0.8039	0.7995	0.8598	0.8016
B	0.8295	0.9050	0.8281	0.8699	0.8693	0.8387	0.8967
								C	0.7306	0.8556	0.9628	0.8324	0.7968	0.7509	0.8407
D	0.7935	0.8371	0.7769	0.8762	0.8421	0.8335	0.8324
								E	0.8214	0.8601	0.8119	0.8426	0.9645	0.8501	0.8921
F	0.8659	0.8292	0.7851	0.8391	0.8647	0.9489	0.8447
								G	0.7940	0.9030	0.8868	0.8750	0.8899	0.8159	0.9324
H	0.7799	0.7990	0.8216	0.7979	0.7488	0.7641	0.7857
								I	0.7949	0.8201	0.7710	0.8335	0.8437	0.8091	0.8178
J	0.8086	0.7748	0.8327	0.8450	0.8106	0.8024	0.8251
								K	0.8710	0.7829	0.7517	0.8055	0.7924	0.8763	0.8041
L	0.8142	0.8276	0.8629	0.8865	0.9038	0.8343	0.9274
								M	0.8958	0.8350	0.7777	0.8239	0.8207	0.8965	0.8273
N	0.8103	0.8896	0.8593	0.8784	0.8838	0.8242	0.9081
									H	I	J	K	L	M	N
A	0.7903	0.8267	0.7804	0.8741	0.8057	0.8887	0.7945
								B	0.7761	0.8681	0.7816	0.8188	0.8749	0.8415	0.8675
C	0.798	0.8425	0.8151	0.7278	0.8138	0.7466	0.8425
								D	0.7182	0.8530	0.7202	0.7804	0.8238	0.7953	0.8465
E	0.7697	0.8717	0.7671	0.8049	0.9012	0.8349	0.8842
								F	0.7909	0.8717	0.7925	0.8900	0.8479	0.9072	0.8325
G	0.8190	0.8892	0.8326	0.7916	0.9209	0.8058	0.9047
								H	0.9432	0.8127	0.8982	0.8106	0.7702	0.8063	0.7913
I	0.7299	0.9198	0.7214	0.7715	0.8157	0.7775	0.8432
								J	0.8935	0.7634	0.9605	0.8445	0.8095	0.8514	0.8099
K	0.8380	0.8286	0.8370	0.9502	0.8075	0.9011	0.7990
								L	0.8127	0.8667	0.8234	0.8117	0.9435	0.8227	0.9051
M	0.8359	0.8318	0.8401	0.9094	0.8235	0.9565	0.815
								N	0.8053	0.8598	0.8058	0.805	0.8984	0.8158	0.9310

按上述实施方式提取所有待识别说话人与所有已注册说话人间加权灰色关联度的最大值，详见表4中的加粗的数值。通过对大量实验结果的分析，本实施例选取说话人识别的加权灰色关联度识别阈值为0.9。将已获得的最大值与其比较，得出说话人识别结果，如表5所示。

表格5说话人识别结果

说话人识别的总人数(位)	14
		加权灰色关联度最大值大于识别阈值的人数(位)	13
与文本无关的说话人识别的正确率	92.86％

表5所示的识别结果，表明本发明提供的基于1/3倍频程和加权灰色关联的与文本无关的说话人识别方法，采用1/3倍频程频谱分析法对说话人语音信号进行特征参数提取，通过加权灰色关联度算法进行说话人识别，提高了与文本无关的说话人识别的正确率，实现了与文本无关的说话人识别的鲁棒性，具有广泛的应用前景。

以上对本发明所提供的一种基于1/3倍频程和加权灰色关联的与文本无关的说话人识别方法，进行了详细具体的介绍，并且通过具体的实施例进一步阐述了本发明的原理及实施方式，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，而不是对其发明进行限制，任何在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种与文本无关的说话人识别方法，其特征在于，包括如下步骤：

一、建立N个说话人的语音特征参考库，设定加权灰色关联度识别阈值R_θ所述的N为大于或等于1的整数，步骤如下：

B、对第1-1音频帧F_m′(n)使用1/3倍频程频谱分析法，获得第1-1特征参数，所述的特征参数为各中心频率所处频带对应的功率谱值序列，

C、N个说话人依次进行M次A、B步骤，依次获得N×M个特征参数，所述的N个特征参数序列形成语音特征参考库；

二、获得N个加权灰色关联度，步骤如下：

I、通过步骤A、B采集待测说话人特征参数X；

2.根据权利要求1所述的一种与文本无关的说话人识别方法，其特征在于：步骤B中所述的特征提取的步骤为：

(B)确定1/3倍频程频谱分析法的中心频率f_c；

(C)求取上、下限频率：1/3倍频程的上、下限频率以及中心频率之间的关系为

\frac{f_{u}}{f_{d}} = 2^{1 / 3},

\frac{f_{c}}{f_{d}} = 2^{1 / 6},

\frac{f_{u}}{f_{c}} = 2^{1 / 6};

(D)声压级转换，即

L_{p} = 20 \lg \frac{P}{P_{0}} (dB)

其中P₀为基准声压，其值为2×10^-5Pa；

3.根据权利要求1所述的一种与文本无关的说话人识别方法，其特征在于：步骤II中所述的加权灰色关联度计算的详细步骤为：

(F)提取特征参数序列：获得待识别说话人特征参数X的序列X0，并提取所有已注册说话人参考库的各特征参数序列，即已注册说话人A的特征参数序列A1、A2、AN，已注册说话人B的特征参数序列B1、B2、

BN，以此类推；

4.根据权利要求2所述的一种与文本无关的说话人识别方法，其特征在于：所述的1/3倍频程频谱分析法的中心频率的确定方法为：

1/3倍频程的中心频率为f_c＝1000×10^3n/30HZ(n＝0，±1，±2，K)；

5.根据权利要求3所述的一种与文本无关的说话人识别方法，其特征在于：所述的加权灰色关联度的算法为：

xi为比较函数(子因素)，即待测说话人的特征因素X，x_σ(k)为x_σ在第k点的值，其中，i＝1，2，K，m，k＝1，2，K，n。

对于x₀、x_i，令

ζ_{i} (k) = \frac{ξ \cdot \max_{i &Element; m} \max_{k &Element; n} | x_{0} (k) - x_{i} (k) |}{λ_{1} | \underset{i &Element; m}{x_{0} (k)} - \underset{k &Element; n}{x_{i} (k)} | + λ_{2} | \underset{i &Element; m}{x_{0}^{'}} - \underset{k &Element; n}{x_{i}^{'}} (k) | + ξ \cdot \max \max | x_{0} (k) - x_{i} (k) |}

则x_i对于x₀的灰关联度为

γ_{i} = γ (x_{0}, x_{i}) = \frac{1}{n} \cdot Σ_{k = 1}^{n} ζ_{i} (k)