CN102509547B

CN102509547B - 基于矢量量化的声纹识别方法及***

Info

Publication number: CN102509547B
Application number: CN2011104503646A
Authority: CN
Inventors: 霍春宝; 赵立辉; 崔文翀; 张彩娟; 曹景胜
Original assignee: Liaoning University of Technology
Current assignee: Liaoning University of Technology
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2013-06-19
Anticipated expiration: 2031-12-29
Also published as: CN102509547A

Abstract

一种基于矢量量化的声纹识别方法及***，具有良好识别性能和抗噪能力，识别效果比较好，建模数据少，判决速度快，而且复杂度不高。具体步骤如下：语音信号的采集；语音信号预处理；语音信号特征参数提取：采用MFCC参数，MFCC的阶数为12~16；模板训练：采用LBG聚类算法为***中的每一个说话人建立一个码本存储在语音数据库中作为该说话人的语音模板；声纹辨识：通过将采集到的待识别语音信号特征参数与库中已建立的说话人语音模板进行比较，并根据加权欧式距离测度进行判断，若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度，则认为识别出说话人。

Description

基于矢量量化的声纹识别方法及***

技术领域

本发明属于语音信号处理技术，特别涉及一种用说话人的语音信号来辨识说话人身份的基于矢量量化的声纹识别方法及***。

背景技术

近年来，随着信息处理与人工智能技术的广泛应用，以及人们对快速有效身份验证的迫切要求，传统密码认证的身份识别已经逐渐失去了他的地位，而在生物识别领域中，基于说话人语音的身份识别技术却受到了越来越多的人的青睐。

由于每个人的发音器官的生理差异以及后天形成的行为差异导致发音方式和说话习惯各不相同，因此用说话人的语音来识别身份成为可能。声纹识别除了具有不会遗忘、不需记忆、使用方便等优点外，还具有下列特性：首先，它的认证方式易于接受，使用的“密码”为声音，开口即得；其次，识别文本的内容可以随机，不易窃取，安全性能比较高；第三，识别使用的终端设备为麦克风或电话，成本低廉且易于和现有通信***相结合。因此，声纹识别的应用前景非常广阔：在经济活动中，可以实现各银行的汇款、余额查询、转账等；在保密安全中，可以用指定的声音检查秘密场所的人员，其只响应特定说话人；在司法鉴定中，可以根据即时录音判断疑犯中作案者的真实身份；在生物医学中，可以使该***只响应患者的命令，从而实现对使用者假肢的控制。

声纹识别的关键技术主要是语音信号特征参数提取和模型匹配。语音信号特征参数大体可分为两类：一类是主要体现说话人发音器官生理特性的低层特征，如根据人耳对不同频率的语音信号的敏感程度提取的梅尔频率倒谱系数(MFCC)，根据语音信号的全极点模型得到的线性预测倒谱系数(LPCC)等；另一类是主要体现说话人用语习惯、发音特点的高层特征，如反映说话人语音抑扬顿挫的韵律特征(Prosodic Features)、反映说话人习惯用语中音素统计规律的音素特征(Phone Features)等。LPCC是基于语音信号的发音模型建立的，容易受到假设模型的影响，高层特征虽然有些文献中使用，但识别率并不是很高。

针对各种语音信号特征参数而提出的模型匹配方法主要有动态时间规整(DTW)法、矢量量化(VQ)法、高斯混合模型(GMM)法、人工神经网络(ANN)法等。其中DTW模型依赖于参数的时间顺序，实时性能较差，适合基于孤立字(词)的说话人识别；GMM主要用于大量语音的说话人识别，需要较多的模型训练数据，较长的训练时间及识别时间，而且还需要较大的内存空间。在ANN模型中，对最佳模型拓扑结构的设计的训练算法并不一定能保证收敛，而且会存在过学***均量化失真，以最小失真的语音模板作为识别结果。然而不足之处是语音信号是成椭圆状的正态分布，各矢量的分布不相等，在基于传统的VQ说话人识别***的欧氏距离测度中没有得到很到的反应。

发明内容

本发明要解决的技术问题是提出一种基于矢量量化的声纹识别方法及***，具有良好识别性能和抗噪能力，识别效果比较好，建模数据少，判决速度快，而且复杂度不高。

一种基于矢量量化的声纹识别方法，具体步骤如下：

1、语音信号的采集：以程控交换综合实验箱的话机作为采集语音的终端设备，通过语音卡采集语音信号；

2、语音信号预处理：通过计算机将提取的语音信号进行分帧加窗操作，在分帧过程中一帧包括256个采样点，帧移为128个采样点，所加的窗函数为汉明窗；端点检测，采用基于短时能量和短时过零率相结合的端点检测法；预加重，加重系数的取值为0.90~1.00；

3、语音信号特征参数提取：采用MFCC参数，MFCC的阶数为12~16；

4、模板训练：采用LBG聚类算法为***中的每一个说话人建立一个码本存储在语音数据库中作为该说话人的语音模板；

5、声纹辨识：通过将采集到的待识别语音信号特征参数与库中通过步骤1、2、3、4已建立的说话人语音模板进行比较，并根据加权欧式距离测度进行判断，若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度，则认为识别出说话人。

上述的语音信号特征参数提取步骤如下：

（1）将预处理后的语音信号进行短时傅里叶变换得到其频谱X(k)，语音信号的DFT公式为：

Figure 2011104503646100002DEST_PATH_IMAGE001

(1)

其中，

Figure 2011104503646100002DEST_PATH_IMAGE002

为输入的以帧为单位的语音信号，N为傅里叶变换的点数，取256；

（2）求频谱

Figure 2011104503646100002DEST_PATH_IMAGE003

的平方，即能量谱

Figure 2011104503646100002DEST_PATH_IMAGE004

，然后通过Mel频率滤波器对语音信号的频谱进行平滑，并消除谐波，凸显原先语音的共振峰；

Mel频率滤波器是一组三角带通滤波器，中心频率为

Figure 2011104503646100002DEST_PATH_IMAGE005

，

=1，2，…，Q， Q为三角带通滤波器的个数，Mel滤波器

Figure 2011104503646100002DEST_PATH_IMAGE007

表示如下：

Figure 2011104503646100002DEST_PATH_IMAGE008

(2)

（3）对滤波器组输出的Mel频谱取对数：压缩语音谱的动态范围；将频域中噪声的乘性成分转换成加性成分，对数Mel频谱

Figure 2011104503646100002DEST_PATH_IMAGE009

如下：

Figure 2011104503646100002DEST_PATH_IMAGE010

(3)

（4）离散余弦变换(DCT)

将公式(3)获得的对数Mel频谱

变换到时域，其结果为Mel频率倒谱系数(MFCC)，第n个系数

Figure 2011104503646100002DEST_PATH_IMAGE011

的计算如下式:

Figure 2011104503646100002DEST_PATH_IMAGE012

(4)

其中，L为MFCC参数的阶数，Q为Mel滤波器的个数，L取12~16，Q取23~26；

上述的模板训练时所采用LBG聚类算法的具体步骤如下:

（1）取得输入的特征矢量集合S中全体训练矢量X，并通过***码本法给定一个初始码本的码字

Figure 2011104503646100002DEST_PATH_IMAGE013

；

（2）利用一个较小的阈值

，

Figure 2011104503646100002DEST_PATH_IMAGE015

，将一分为二，***的方法遵循下列规则：

Figure 2011104503646100002DEST_PATH_IMAGE016

(5)

***后，得到新码本的码字

Figure 2011104503646100002DEST_PATH_IMAGE017

，

Figure 2011104503646100002DEST_PATH_IMAGE018

；

（3）根据最邻近准则，为新码本的码字寻找距离最近的码字，最后把S分成m个子集，即当

Figure 2011104503646100002DEST_PATH_IMAGE019

时，

Figure 2011104503646100002DEST_PATH_IMAGE020

Figure 2011104503646100002DEST_PATH_IMAGE021

(6)

式中，M为当前初始码本中码字的个数；

（4）计算每个子集中特征矢量的质心，并用这个质心代替该集合中的码字，这样就得到了新的码本；

（5）通过第（3），（4）步进行的迭代计算，得到新的码本的码字，

Figure 2011104503646100002DEST_PATH_IMAGE023

；

（6）然后再重复第（2）步，将新得到的码字各分为二，接着再通过第（3），（4）步进行迭代计算，如此继续，直到所需的码本码字数是

Figure 2011104503646100002DEST_PATH_IMAGE024

，r是整数，则共需要做r轮上述的循环处理，直到聚类完毕，此时，各类的质心即为所需的码字。

上述的LBG聚类算法中的初始码本，采用***码本法进行码本初始化，具体过程如下：

（1）将提取出来的所有帧的特征矢量的均值作为初始码本的码字；

（2）将

根据以下规则***，形成2m个码字；

Figure 2011104503646100002DEST_PATH_IMAGE025

(7)

其中m是从1变化到当前码本的码字数，是***时的参数，取

；

（3）根据新的码字把所有的特征矢量进行聚类，然后计算总距离测度D和：

Figure 2011104503646100002DEST_PATH_IMAGE027

(8)

为下一次迭代的总距离测度，

Figure 2011104503646100002DEST_PATH_IMAGE028

为训练特征矢量X与训练出来的码本

Figure 2011104503646100002DEST_PATH_IMAGE029

之间的距离测度；

计算相对距离测度：

Figure 2011104503646100002DEST_PATH_IMAGE030

(9)

若(

Figure 2011104503646100002DEST_PATH_IMAGE032

)，则停止迭代计算，当前的码本就是设计好的码本，否则，转下一步。

（4）重新计算各个区域的新质心；

（5）重复第（3）步和第（4）步，直到形成一个2m个码字的最佳的码本；

（6）重复第（2）、（3）和（4）步，直到形成有M个码字的码本；

上述的离散余弦变换时，L=13，Q=25。

一种基于矢量量化的声纹识别***，组成如下：

语音信号采集模块、语音信号预处理模块，语音信号特征参数提取模块，语音模板训练模块和声纹识别模块。

本发明与现有技术相比的有益效果是：

通过语音卡采集语音信号，利用语音信号处理技术对采集到的语音信号进行预处理，然后提取语音信号特征参数，利用矢量量化技术对得到的语音信号特征参数建立语音模型从而构建一个说话人识别***。采用MFCC参数，具有良好识别性能和抗噪能力且能充分模拟人耳感知能力，在说话人识别中最有用的说话人信息包含在MFCC参数的第2阶到16阶之间；通过采用矢量量化(VQ)法，具有良好识别性能和抗噪能力，实时性强，识别效果好，建模数据少，算法简单，判决速度快，而且复杂度不高。

附图说明

图1 是本发明的***框图；

图2是本发明的主流程图；

图3 是LBG算法流程图；

图4是基于VQ的声纹识别人机交互界面。

具体实施方式

如图1所示，该基于矢量量化的声纹识别***，由软硬件结合完成对说话人语音的识别，组成如下：

语音信号采集模块、语音信号预处理模块，语音信号特征参数提取模块，语音模型训练模块和声纹识别模块。

如图2～图3所示，该基于矢量量化的声纹识别方法的具体步骤如下：

1、语音信号的采集

语音信号的采集是将原始的语音模拟信号转换为数字信号，设置通道号、采样频率，本发明以采用杭州三汇公司生产的SHT-8B/PCI型语音卡进行语音信号的采集，通道号为2(语音卡默认通道号为2)，采样频率为8KHz(语音卡默认采样频率)。识别的终端设备为实验用程控交换综合实验箱的电话机，且程控交换实验箱的的交换方式为空分交换，话路为甲二路(共四路：甲一路，甲二路，乙一路，乙二路，本发明随机选取甲二路，对实验结果无影响)。

2、语音信号的预处理

（1）加窗分帧

语音信号的时变特性决定对其进行处理必须在一小段语音上进行，因此要对其进行分帧处理，同时为了保证语音信号不会因为分帧而导致信息的丢失，帧与帧之间要保证一定的重叠，即帧移，帧移与帧长的比值一般在0~1/2之间。本发明中使用的帧长为256个采样点，帧移为128个采样点。窗函数

Figure 2011104503646100002DEST_PATH_IMAGE033

采用平滑特性较好的汉明窗函数，如下所示：

(10)

式中N为窗口长度，本发明为256个点。

（2）端点检测

本发明采用基于短时能量和短时平均过零率相结合的端点检测法对语音信号进行端点检测，从而判断语音信号的起始点和终止点。短时能量检测浊音，过零率检测清音。假设

Figure 2011104503646100002DEST_PATH_IMAGE035

为语音信号，

Figure 2011104503646100002DEST_PATH_IMAGE036

为汉明窗函数，则定义短时能量为

Figure 2011104503646100002DEST_PATH_IMAGE038

(11)

式中，

Figure 2011104503646100002DEST_PATH_IMAGE039

，

表示语音信号的第n个点开始加窗函数时的短时能量。

短时平均过零率

Figure 2011104503646100002DEST_PATH_IMAGE040

为：

Figure 2011104503646100002DEST_PATH_IMAGE041

(12)

式中，N是窗函数的长度，是符号函数，即

Figure 2011104503646100002DEST_PATH_IMAGE043

（3）预加重

由于语音信号的平均功率谱受到声门激励和口鼻辐射的影响，高频端大约在8000Hz以上按6dB/倍程跌落，为此要进行预加重处理以提升语音信号的高频部分，使信号的频谱变得平坦。预加重用6dB/倍程的具有提升高频特性的数字滤波器来实现，它一般是一阶的数字滤波器

Figure 2011104503646100002DEST_PATH_IMAGE044

，即

Figure 2011104503646100002DEST_PATH_IMAGE045

(13)

其中u取值在0.90~1.00之间***的识别率最高，本发明取u=0.97。

3、语音信号特征参数提取

语音信号特征参数提取就是从说话人的语音信号中提取出能够反映说话人个性的参数，具体过程如下：

（1）将预处理后的语音信号进行短时傅里叶变换（DFT）得到其频谱X(k)。语音信号的DFT公式为：

Figure 2011104503646100002DEST_PATH_IMAGE046

(14)

其中，

Figure 2011104503646100002DEST_PATH_IMAGE047

为输入的以帧为单位的语音信号，N为傅里叶变换的点数，取256。

（2）求频谱

Figure 2011104503646100002DEST_PATH_IMAGE048

的平方，即能量谱

，然后将它们通过Mel滤波器，以实现对语音信号的频谱进行平滑，并消除谐波，凸显原先语音的共振峰。

Mel频率滤波器是一组三角带通滤波器，中心频率为

，=1，2，…，Q， Q为三角带通滤波器的个数，Mel滤波器

表示如下：

Figure 2011104503646100002DEST_PATH_IMAGE049

(15)

（3）对滤波器组的输出取对数：压缩语音谱的动态范围；将频域中噪声的乘性成分转换成加性成分，得到的对数Mel频谱

Figure 2011104503646100002DEST_PATH_IMAGE050

如下：

(16)

（4）离散余弦变换(DCT)

将上述步骤获得的Mel频谱

变换到时域，其结果就是Mel频率倒谱系数(MFCC)。第n个系数

的计算如下式:

(17)

其中，L为MFCC的阶数，Q 为Mel滤波器的个数，二者取值常依据实验情况来定。本实施例取L=13，Q=25，实际不受本实施例限制。

4、模板训练

（1）基本原理

在声纹识别中，一般是先用矢量量化的码本作为说话人的语音模板，即***中每一个说话人的语音，被量化为一个码本存到语音库中作为该说话人语音模板。识别时对于任意输入的语音特征矢量序列提取特征参数，计算该语音特征参数对每一个语音模板的总平均失真量化误差，总平均误差最小的模板所对应的说话人即为识别结果。

（2）距离测度

设未知模式的K维特征矢量为X，与码本中某个K维码字矢量Y进行比较，

Figure 2011104503646100002DEST_PATH_IMAGE053

分别表示X和Y的同一维分量，则欧式距离测度

Figure 2011104503646100002DEST_PATH_IMAGE054

为：

Figure 2011104503646100002DEST_PATH_IMAGE055

(18)

对于传统的欧氏距离测度特征矢量的各分量是等权重的，这只有当特征矢量的自然分布为球状或接近于球状时，也就是说当特征矢量的各分量的分布接近于相等时才能取得较好的识别效果。而语音信号是成椭圆状的正态分布，各矢量的分布不相等，他们在欧氏距离测度中没有得到很好的反应，若直接采用欧式距离测度对说话人进行判决，***的识别率将会受到影响。

本发明采用13阶的MFCC，为了体现他们在聚类的不同贡献，采用加权的欧式距离测度，对不同分布的矢量赋予不同的权重，分布较离散的矢量赋予很小的权重，对于分布较集中的矢量赋予很大的权重。分布的离散程度用矢量到聚类中心(矢量均值)的欧氏距离来衡量，加权因子

Figure 2011104503646100002DEST_PATH_IMAGE056

为：

Figure 2011104503646100002DEST_PATH_IMAGE057

(19)

上式中的K为特征矢量的维数。在训练及识别时将得到的欧式距离进行降序排列，然后用加权因子进行预加重，此过程实质上等效于在训练及识别时采用不加权的欧式距离，而对特征矢量的各维分量用比例因子进行预加重，这样对排序很高有破坏性质的矢量，如孤立点或者噪声赋予很小的权重，而对排序很低的好的矢量赋予较大的权重，从而各个矢量对识别的贡献得到很好的体现。

（3）模板训练

本发明采用的是基于***法的LBG算法，具体步骤如下：

1）取得输入的特征矢量集合S中全体训练矢量X，并通过***码本(码本即矢量集，或者说是码字的集合)法给定一个初始码本的码字；

2）利用一个较小的阈值

（）将

一分为二，***的方法遵循下列规则：

Figure 2011104503646100002DEST_PATH_IMAGE060

(20)

***后，得到新码本的码字

，

；

3）根据最邻近准则，为新码本的码字寻找距离最近的码字，最后把S分成m个子集，即当

Figure 2011104503646100002DEST_PATH_IMAGE061

时，

Figure 2011104503646100002DEST_PATH_IMAGE062

Figure 2011104503646100002DEST_PATH_IMAGE063

(21)

式中，M为当前初始码本中码字的个数；

4）计算每个子集中特征矢量的质心，并用这个质心代替该集合中的码字，这样就得到了新的码本；

5）通过第3），4）步进行的迭代计算，得到新的码本的码字，

；

6）然后再重复第2）步，将新得到的码字各分为二，接着再通过第3），4）步进行迭代计算，如此继续，直到所需的码本码字数是（r是整数），则共需要做r轮上述的循环处理，直到聚类完毕，此时，各类的质心即为所需的码字。

Figure 2011104503646100002DEST_PATH_IMAGE065

将提取出来的所有帧的特征矢量的均值作为初始码本的码字；

将根据以下规则***，形成2m个码字；

(22)

其中m是从1变化到当前码本的码字数，

是***时的参数，本发明取

；

③根据新的码字把所有的特征矢量进行聚类，然后计算总距离测度D和

Figure 2011104503646100002DEST_PATH_IMAGE067

：

(23)

为下一次迭代的总距离测度，

为训练特征矢量X与训练出来的码本

之间的距离测度。

计算相对距离测度：

(24)

若

，则停止迭代计算，当前的码本就是设计好的码本，否则，转下一步；

④重新计算各个区域的新质心；

⑤重复③和④，直到形成一个2m个码字的最佳的码本;

⑥重复②、③和④，直到形成有M个码字的码本;

5、声纹辨识

（1）提取长度为T的待识别说话人语音信号的特征矢量序列

，在训练阶段所形成的语音库中的码本为：

（N表示说话人个数）。

（2）计算特征矢量与库中已有的说话人的语音模板之间的距离测度，即求出

：

（25）

式中，j表示X中第

帧的特征矢量，m表示第i个说话人的第m个码字，共有M个码字，K为特征矢量的维数。加权因子

为：

(26)

（3）计算X到第i个码本的平均距离测度

。

(27)

（4）计算

，得到所有的

。

（5）求出

中最小者对应的那个i，即是所求的那个人。

本***属于闭集识别，也就是说所有待识别的说话人都属于已知的说话人集合。说话人识别的人机交互界面如图4所示。在声纹识别***的人机交互界面中，“语音卡状态显示”列表视图显示当前语音卡可用的语音通道号及通道状态；“语音样本库”列表视图显示当前语音样本库中的说话人样本数目及说话人姓名。“声纹识别参数设置”一栏显示语音采集所要设置的参数，包括：训练时长(默认23s)，测试时长(默认15s)以及候选人个数(默认 1)。

以下结合实例进行具体说明：假设语音样本库中预先存了100个人的语音，当张XX拨通电话时，其声音如何识别的过程。

1、若张XX不属于已知的语音样本库

（1）语音信号的采集：以程控交换综合实验箱的话机作为采集语音的终端设备，通过语音卡采集语音；

首先,设置需要采集的训练语音的“训练时长”参数(范围：10-39s)，然后在姓名编辑框中添加说话人的姓名“张XX”，点击“添加说话人”按钮。添加完成后点击“确定”，然后拨通程控交换综合实验箱的电话(号码：8700)，接通后，语音卡通道2(默认为通道2)的状态更新为“录音中”，此时语音卡就可以进行采集语音。采集的语音达到预定的训练时长，电话会自动挂断；

（2）语音信号的预处理：通过计算机和VC软件结合将提取的语音信号进行分帧加窗操作，在分帧过程中一帧包括256个采样点，帧移为128个采样点，所加的窗函数为汉明窗；端点检测，采用基于短时能量和短时过零率法相结合的检测法；预加重，加重系数的值为0.97；

（3）提取语音信号特征参数：利用计算机与VC软件结合提取13阶的MFCC参数；

（4）模板训练：利用***码本法对码本进行初始化,然后采用LBG聚类算法为***中的每一个说话人建立一个码本存储在语音数据库中作为该说话人的语音模板；

（5）说话人识别

首先,设置需要采集的测试语音的“测试时长”参数(范围：5-20s)，拨通程控交换综合实验箱的电话(号码：8700)，利用语音卡 (通道为2)采集语音。采集的语音达到预定的测试时长，电话会自动挂断；

然后软件禁止“进行说话人辨识”按钮使用，对说话人的语音进行步骤（2）、（3）的操作，最后将提取的待测试的说话人的语音与库中的语音模板进行比较，点击 “进行说话人辨识”按钮，选择要显示的候选人数(范围1-3)，若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度，则认为识别出说话人，同时在“说话人辨识”视图列表上显示辨识结果“张XX”和识别度。

2、若张XX属于已知的语音样本库

若张XX属于已知的语音样本库则直接进行说话人辨识：首先,设置需要采集的测试语音的“测试时长”参数(范围：5-20s)，拨通程控交换综合实验箱的电话(号码：8700)，利用语音卡 (通道为2)采集语音。采集的语音达到预定的测试时长，电话会自动挂断；

然后软件禁止“进行说话人辨识”按钮使用，对说话人的语音进行步骤（2）、（3）的操作，最后将提取的待测试的说话人的语音与库中的语音模板进行比较，若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度，则认为识别出说话人，同时在“说话人辨识”视图列表上显示辨识结果“张XX”和识别度。