CN102509547B - 基于矢量量化的声纹识别方法及*** - Google Patents

基于矢量量化的声纹识别方法及*** Download PDF

Info

Publication number
CN102509547B
CN102509547B CN2011104503646A CN201110450364A CN102509547B CN 102509547 B CN102509547 B CN 102509547B CN 2011104503646 A CN2011104503646 A CN 2011104503646A CN 201110450364 A CN201110450364 A CN 201110450364A CN 102509547 B CN102509547 B CN 102509547B
Authority
CN
China
Prior art keywords
speaker
code word
code book
sound
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011104503646A
Other languages
English (en)
Other versions
CN102509547A (zh
Inventor
霍春宝
赵立辉
崔文翀
张彩娟
曹景胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University of Technology
Original Assignee
Liaoning University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University of Technology filed Critical Liaoning University of Technology
Priority to CN2011104503646A priority Critical patent/CN102509547B/zh
Publication of CN102509547A publication Critical patent/CN102509547A/zh
Application granted granted Critical
Publication of CN102509547B publication Critical patent/CN102509547B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种基于矢量量化的声纹识别方法及***,具有良好识别性能和抗噪能力,识别效果比较好,建模数据少,判决速度快,而且复杂度不高。具体步骤如下:语音信号的采集;语音信号预处理;语音信号特征参数提取:采用MFCC参数,MFCC的阶数为12~16;模板训练:采用LBG聚类算法为***中的每一个说话人建立一个码本存储在语音数据库中作为该说话人的语音模板;声纹辨识:通过将采集到的待识别语音信号特征参数与库中已建立的说话人语音模板进行比较,并根据加权欧式距离测度进行判断,若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度,则认为识别出说话人。

Description

基于矢量量化的声纹识别方法及***
技术领域
本发明属于语音信号处理技术,特别涉及一种用说话人的语音信号来辨识说话人身份的基于矢量量化的声纹识别方法及***。
背景技术
近年来,随着信息处理与人工智能技术的广泛应用,以及人们对快速有效身份验证的迫切要求,传统密码认证的身份识别已经逐渐失去了他的地位,而在生物识别领域中,基于说话人语音的身份识别技术却受到了越来越多的人的青睐。
由于每个人的发音器官的生理差异以及后天形成的行为差异导致发音方式和说话习惯各不相同,因此用说话人的语音来识别身份成为可能。声纹识别除了具有不会遗忘、不需记忆、使用方便等优点外,还具有下列特性:首先,它的认证方式易于接受,使用的“密码”为声音,开口即得;其次,识别文本的内容可以随机,不易窃取,安全性能比较高;第三,识别使用的终端设备为麦克风或电话,成本低廉且易于和现有通信***相结合。因此,声纹识别的应用前景非常广阔:在经济活动中,可以实现各银行的汇款、余额查询、转账等;在保密安全中,可以用指定的声音检查秘密场所的人员,其只响应特定说话人;在司法鉴定中,可以根据即时录音判断疑犯中作案者的真实身份;在生物医学中,可以使该***只响应患者的命令,从而实现对使用者假肢的控制。
声纹识别的关键技术主要是语音信号特征参数提取和模型匹配。语音信号特征参数大体可分为两类:一类是主要体现说话人发音器官生理特性的低层特征,如根据人耳对不同频率的语音信号的敏感程度提取的梅尔频率倒谱系数(MFCC),根据语音信号的全极点模型得到的线性预测倒谱系数(LPCC)等;另一类是主要体现说话人用语习惯、发音特点的高层特征,如反映说话人语音抑扬顿挫的韵律特征(Prosodic Features)、反映说话人习惯用语中音素统计规律的音素特征(Phone Features)等。LPCC是基于语音信号的发音模型建立的,容易受到假设模型的影响,高层特征虽然有些文献中使用,但识别率并不是很高。 
针对各种语音信号特征参数而提出的模型匹配方法主要有动态时间规整(DTW)法、矢量量化(VQ)法、高斯混合模型(GMM)法、人工神经网络(ANN)法等。其中DTW模型依赖于参数的时间顺序,实时性能较差,适合基于孤立字(词)的说话人识别;GMM主要用于大量语音的说话人识别,需要较多的模型训练数据,较长的训练时间及识别时间,而且还需要较大的内存空间。在ANN模型中,对最佳模型拓扑结构的设计的训练算法并不一定能保证收敛,而且会存在过学***均量化失真,以最小失真的语音模板作为识别结果。然而不足之处是语音信号是成椭圆状的正态分布,各矢量的分布不相等,在基于传统的VQ说话人识别***的欧氏距离测度中没有得到很到的反应。
发明内容
本发明要解决的技术问题是提出一种基于矢量量化的声纹识别方法及***,具有良好识别性能和抗噪能力,识别效果比较好,建模数据少,判决速度快,而且复杂度不高。
一种基于矢量量化的声纹识别方法,具体步骤如下:
1、语音信号的采集:以程控交换综合实验箱的话机作为采集语音的终端设备,通过语音卡采集语音信号;
2、语音信号预处理:通过计算机将提取的语音信号进行分帧加窗操作,在分帧过程中一帧包括256个采样点,帧移为128个采样点,所加的窗函数为汉明窗;端点检测,采用基于短时能量和短时过零率相结合的端点检测法;预加重,加重系数的取值为0.90~1.00;
3、语音信号特征参数提取:采用MFCC参数,MFCC的阶数为12~16;
4、模板训练:采用LBG聚类算法为***中的每一个说话人建立一个码本存储在语音数据库中作为该说话人的语音模板;
5、声纹辨识:通过将采集到的待识别语音信号特征参数与库中通过步骤1、2、3、4已建立的说话人语音模板进行比较,并根据加权欧式距离测度进行判断,若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度,则认为识别出说话人。
上述的语音信号特征参数提取步骤如下:
(1)将预处理后的语音信号进行短时傅里叶变换得到其频谱X(k),语音信号的DFT公式为: 
Figure 2011104503646100002DEST_PATH_IMAGE001
                        (1)
其中,
Figure 2011104503646100002DEST_PATH_IMAGE002
为输入的以帧为单位的语音信号,N为傅里叶变换的点数,取256;
(2)求频谱
Figure 2011104503646100002DEST_PATH_IMAGE003
的平方,即能量谱
Figure 2011104503646100002DEST_PATH_IMAGE004
,然后通过Mel频率滤波器对语音信号的频谱进行平滑,并消除谐波,凸显原先语音的共振峰;
Mel频率滤波器是一组三角带通滤波器,中心频率为
Figure 2011104503646100002DEST_PATH_IMAGE005
Figure 2011104503646100002DEST_PATH_IMAGE006
=1,2,…,Q, Q为三角带通滤波器的个数,Mel滤波器
Figure 2011104503646100002DEST_PATH_IMAGE007
表示如下:
Figure 2011104503646100002DEST_PATH_IMAGE008
          (2)
(3)对滤波器组输出的Mel频谱取对数:压缩语音谱的动态范围;将频域中噪声的乘性成分转换成加性成分,对数Mel频谱
Figure 2011104503646100002DEST_PATH_IMAGE009
如下:
Figure 2011104503646100002DEST_PATH_IMAGE010
                           (3)
(4)离散余弦变换(DCT)
将公式(3)获得的对数Mel频谱
Figure 842556DEST_PATH_IMAGE009
变换到时域,其结果为Mel频率倒谱系数(MFCC),第n个系数
Figure 2011104503646100002DEST_PATH_IMAGE011
的计算如下式:
Figure 2011104503646100002DEST_PATH_IMAGE012
                    (4)
  其中,L为MFCC参数的阶数,Q为Mel滤波器的个数,L取12~16,Q取23~26;
上述的模板训练时所采用LBG聚类算法的具体步骤如下:
(1)取得输入的特征矢量集合S中全体训练矢量X,并通过***码本法给定一个初始码本的码字
Figure 2011104503646100002DEST_PATH_IMAGE013
; 
(2)利用一个较小的阈值
Figure 2011104503646100002DEST_PATH_IMAGE014
Figure 2011104503646100002DEST_PATH_IMAGE015
,将一分为二,***的方法遵循下列规则:
                
Figure 2011104503646100002DEST_PATH_IMAGE016
                         (5)
***后,得到新码本的码字
Figure 2011104503646100002DEST_PATH_IMAGE017
Figure 2011104503646100002DEST_PATH_IMAGE018
(3)根据最邻近准则,为新码本的码字寻找距离最近的码字,最后把S分成m个子集,即当
Figure 2011104503646100002DEST_PATH_IMAGE019
时,
Figure 2011104503646100002DEST_PATH_IMAGE020
 
Figure 2011104503646100002DEST_PATH_IMAGE021
              (6)
式中,M为当前初始码本中码字的个数;
(4)计算每个子集中特征矢量的质心,并用这个质心代替该集合中的码字,这样就得到了新的码本;
(5)通过第(3),(4)步进行的迭代计算,得到新的码本的码字
Figure 2011104503646100002DEST_PATH_IMAGE023
(6)然后再重复第(2)步,将新得到的码字各分为二,接着再通过第(3),(4)步进行迭代计算,如此继续,直到所需的码本码字数是
Figure 2011104503646100002DEST_PATH_IMAGE024
,r是整数,则共需要做r轮上述的循环处理,直到聚类完毕,此时,各类的质心即为所需的码字。
上述的LBG聚类算法中的初始码本,采用***码本法进行码本初始化,具体过程如下:
(1)将提取出来的所有帧的特征矢量的均值作为初始码本的码字
(2)将
Figure 436108DEST_PATH_IMAGE013
根据以下规则***,形成2m个码字;
                           
Figure 2011104503646100002DEST_PATH_IMAGE025
                                               (7)
其中m是从1变化到当前码本的码字数,是***时的参数,取
Figure 636724DEST_PATH_IMAGE015
(3)根据新的码字把所有的特征矢量进行聚类,然后计算总距离测度D和
Figure 2011104503646100002DEST_PATH_IMAGE027
                               (8)
Figure 28391DEST_PATH_IMAGE026
为下一次迭代的总距离测度,
Figure 2011104503646100002DEST_PATH_IMAGE028
为训练特征矢量X与训练出来的码本
Figure 2011104503646100002DEST_PATH_IMAGE029
之间的距离测度;
计算相对距离测度:        
Figure 2011104503646100002DEST_PATH_IMAGE030
                                 (9)
(
Figure 2011104503646100002DEST_PATH_IMAGE032
),则停止迭代计算,当前的码本就是设计好的码本,否则,转下一步。
(4)重新计算各个区域的新质心;
(5)重复第(3)步和第(4)步,直到形成一个2m个码字的最佳的码本;
(6)重复第(2)、(3)和(4)步,直到形成有M个码字的码本;
上述的离散余弦变换时,L=13,Q=25。
一种基于矢量量化的声纹识别***,组成如下:
语音信号采集模块、语音信号预处理模块,语音信号特征参数提取模块,语音模板训练模块和声纹识别模块。
本发明与现有技术相比的有益效果是:
通过语音卡采集语音信号,利用语音信号处理技术对采集到的语音信号进行预处理,然后提取语音信号特征参数,利用矢量量化技术对得到的语音信号特征参数建立语音模型从而构建一个说话人识别***。采用MFCC参数,具有良好识别性能和抗噪能力且能充分模拟人耳感知能力,在说话人识别中最有用的说话人信息包含在MFCC参数的第2阶到16阶之间;通过采用矢量量化(VQ)法,具有良好识别性能和抗噪能力,实时性强,识别效果好,建模数据少,算法简单,判决速度快,而且复杂度不高。
附图说明
图1 是本发明的***框图;
图2是本发明的主流程图;
图3 是LBG算法流程图;
图4是基于VQ的声纹识别人机交互界面。
具体实施方式
如图1所示,该基于矢量量化的声纹识别***,由软硬件结合完成对说话人语音的识别,组成如下:
语音信号采集模块、语音信号预处理模块,语音信号特征参数提取模块,语音模型训练模块和声纹识别模块。
如图2~图3所示,该基于矢量量化的声纹识别方法的具体步骤如下: 
1、语音信号的采集
语音信号的采集是将原始的语音模拟信号转换为数字信号,设置通道号、采样频率,本发明以采用杭州三汇公司生产的SHT-8B/PCI型语音卡进行语音信号的采集,通道号为2(语音卡默认通道号为2),采样频率为8KHz(语音卡默认采样频率)。识别的终端设备为实验用程控交换综合实验箱的电话机,且程控交换实验箱的的交换方式为空分交换,话路为甲二路(共四路:甲一路,甲二路,乙一路,乙二路,本发明随机选取甲二路,对实验结果无影响)。
2、语音信号的预处理
(1)加窗分帧
语音信号的时变特性决定对其进行处理必须在一小段语音上进行,因此要对其进行分帧处理,同时为了保证语音信号不会因为分帧而导致信息的丢失,帧与帧之间要保证一定的重叠,即帧移,帧移与帧长的比值一般在0~1/2之间。本发明中使用的帧长为256个采样点,帧移为128个采样点。窗函数
Figure 2011104503646100002DEST_PATH_IMAGE033
采用平滑特性较好的汉明窗函数,如下所示:
                       (10)
式中N为窗口长度,本发明为256个点。
(2)端点检测
本发明采用基于短时能量和短时平均过零率相结合的端点检测法对语音信号进行端点检测,从而判断语音信号的起始点和终止点。短时能量检测浊音,过零率检测清音。假设
Figure 2011104503646100002DEST_PATH_IMAGE035
为语音信号,
Figure 2011104503646100002DEST_PATH_IMAGE036
为汉明窗函数,则定义短时能量
Figure 2011104503646100002DEST_PATH_IMAGE038
             (11)
式中,
Figure 2011104503646100002DEST_PATH_IMAGE039
Figure 654721DEST_PATH_IMAGE037
表示语音信号的第n个点开始加窗函数时的短时能量。
短时平均过零率
Figure 2011104503646100002DEST_PATH_IMAGE040
为:
Figure 2011104503646100002DEST_PATH_IMAGE041
             (12)
式中,N是窗函数的长度,是符号函数,即
Figure 2011104503646100002DEST_PATH_IMAGE043
(3)预加重
由于语音信号的平均功率谱受到声门激励和口鼻辐射的影响,高频端大约在8000Hz以上按6dB/倍程跌落,为此要进行预加重处理以提升语音信号的高频部分,使信号的频谱变得平坦。预加重用6dB/倍程的具有提升高频特性的数字滤波器来实现,它一般是一阶的数字滤波器
Figure 2011104503646100002DEST_PATH_IMAGE044
,即
Figure 2011104503646100002DEST_PATH_IMAGE045
                                  (13)
其中u取值在0.90~1.00之间***的识别率最高,本发明取u=0.97。
3、语音信号特征参数提取
语音信号特征参数提取就是从说话人的语音信号中提取出能够反映说话人个性的参数,具体过程如下:
(1)将预处理后的语音信号进行短时傅里叶变换(DFT)得到其频谱X(k)。语音信号的DFT公式为: 
Figure 2011104503646100002DEST_PATH_IMAGE046
                     (14)
其中,
Figure 2011104503646100002DEST_PATH_IMAGE047
为输入的以帧为单位的语音信号,N为傅里叶变换的点数,取256。
(2)求频谱
Figure 2011104503646100002DEST_PATH_IMAGE048
的平方,即能量谱
Figure 198966DEST_PATH_IMAGE004
,然后将它们通过Mel滤波器,以实现对语音信号的频谱进行平滑,并消除谐波,凸显原先语音的共振峰。
Mel频率滤波器是一组三角带通滤波器,中心频率为
Figure 756111DEST_PATH_IMAGE005
=1,2,…,Q, Q为三角带通滤波器的个数,Mel滤波器
Figure 309769DEST_PATH_IMAGE007
表示如下:
Figure 2011104503646100002DEST_PATH_IMAGE049
           (15)
(3)对滤波器组的输出取对数:压缩语音谱的动态范围;将频域中噪声的乘性成分转换成加性成分,得到的对数Mel频谱
Figure 2011104503646100002DEST_PATH_IMAGE050
如下:
Figure 957788DEST_PATH_IMAGE010
                         (16)
(4)离散余弦变换(DCT)
将上述步骤获得的Mel频谱
Figure 387633DEST_PATH_IMAGE050
变换到时域,其结果就是Mel频率倒谱系数(MFCC)。第n个系数
Figure 193040DEST_PATH_IMAGE051
的计算如下式:
                  (17)
  其中,L为MFCC的阶数,Q 为Mel滤波器的个数,二者取值常依据实验情况来定。本实施例取L=13,Q=25,实际不受本实施例限制。
4、模板训练
(1)基本原理
在声纹识别中,一般是先用矢量量化的码本作为说话人的语音模板,即***中每一个说话人的语音,被量化为一个码本存到语音库中作为该说话人语音模板。识别时对于任意输入的语音特征矢量序列提取特征参数,计算该语音特征参数对每一个语音模板的总平均失真量化误差,总平均误差最小的模板所对应的说话人即为识别结果。
(2)距离测度
设未知模式的K维特征矢量为X,与码本中某个K维码字矢量Y进行比较,
Figure 2011104503646100002DEST_PATH_IMAGE053
分别表示X和Y的同一维分量,则欧式距离测度
Figure 2011104503646100002DEST_PATH_IMAGE054
为:
Figure 2011104503646100002DEST_PATH_IMAGE055
                        (18)
对于传统的欧氏距离测度特征矢量的各分量是等权重的,这只有当特征矢量的自然分布为球状或接近于球状时,也就是说当特征矢量的各分量的分布接近于相等时才能取得较好的识别效果。而语音信号是成椭圆状的正态分布,各矢量的分布不相等,他们在欧氏距离测度中没有得到很好的反应,若直接采用欧式距离测度对说话人进行判决,***的识别率将会受到影响。
本发明采用13阶的MFCC,为了体现他们在聚类的不同贡献,采用加权的欧式距离测度,对不同分布的矢量赋予不同的权重,分布较离散的矢量赋予很小的权重,对于分布较集中的矢量赋予很大的权重。分布的离散程度用矢量到聚类中心(矢量均值)的欧氏距离来衡量,加权因子
Figure 2011104503646100002DEST_PATH_IMAGE056
为:
             
Figure 2011104503646100002DEST_PATH_IMAGE057
                      (19)
上式中的K为特征矢量的维数。在训练及识别时将得到的欧式距离进行降序排列,然后用加权因子进行预加重,此过程实质上等效于在训练及识别时采用不加权的欧式距离,而对特征矢量的各维分量用比例因子进行预加重,这样对排序很高有破坏性质的矢量,如孤立点或者噪声赋予很小的权重,而对排序很低的好的矢量赋予较大的权重,从而各个矢量对识别的贡献得到很好的体现。
(3)模板训练
本发明采用的是基于***法的LBG算法,具体步骤如下:
1) 取得输入的特征矢量集合S中全体训练矢量X,并通过***码本(码本即矢量集,或者说是码字的集合)法给定一个初始码本的码字; 
2) 利用一个较小的阈值
Figure 2011104503646100002DEST_PATH_IMAGE059
)将
Figure 987001DEST_PATH_IMAGE013
一分为二,***的方法遵循下列规则:
                
Figure 2011104503646100002DEST_PATH_IMAGE060
                         (20)
***后,得到新码本的码字
Figure 384484DEST_PATH_IMAGE017
Figure 113406DEST_PATH_IMAGE018
3)根据最邻近准则,为新码本的码字寻找距离最近的码字,最后把S分成m个子集,即当
Figure 2011104503646100002DEST_PATH_IMAGE061
时,
Figure 2011104503646100002DEST_PATH_IMAGE062
 
Figure 2011104503646100002DEST_PATH_IMAGE063
Figure 818319DEST_PATH_IMAGE021
               (21)
式中,M为当前初始码本中码字的个数;
4)计算每个子集中特征矢量的质心,并用这个质心代替该集合中的码字,这样就得到了新的码本;
5) 通过第3),4)步进行的迭代计算,得到新的码本的码字
Figure 150260DEST_PATH_IMAGE023
6) 然后再重复第2)步,将新得到的码字各分为二,接着再通过第3),4)步进行迭代计算,如此继续,直到所需的码本码字数是(r是整数),则共需要做r轮上述的循环处理,直到聚类完毕,此时,各类的质心即为所需的码字。
上述的LBG聚类算法中的初始码本,采用***码本法进行码本初始化,具体过程如下:
Figure 2011104503646100002DEST_PATH_IMAGE065
将提取出来的所有帧的特征矢量的均值作为初始码本的码字
Figure 961986DEST_PATH_IMAGE065
根据以下规则***,形成2m个码字;
                                                                        (22)
其中m是从1变化到当前码本的码字数,
Figure 529420DEST_PATH_IMAGE059
是***时的参数,本发明取
Figure 950037DEST_PATH_IMAGE015
③根据新的码字把所有的特征矢量进行聚类,然后计算总距离测度D和
Figure 2011104503646100002DEST_PATH_IMAGE067
                               (23)
Figure DEST_PATH_IMAGE069
为下一次迭代的总距离测度,
Figure 48705DEST_PATH_IMAGE028
为训练特征矢量X与训练出来的码本
Figure 224471DEST_PATH_IMAGE029
之间的距离测度。
计算相对距离测度:         
Figure 212019DEST_PATH_IMAGE030
                                 (24)
Figure DEST_PATH_IMAGE071
,则停止迭代计算,当前的码本就是设计好的码本,否则,转下一步;
④重新计算各个区域的新质心;
⑤重复③和④,直到形成一个2m个码字的最佳的码本;
⑥重复②、③和④,直到形成有M个码字的码本;
5、声纹辨识
(1)提取长度为T的待识别说话人语音信号的特征矢量序列
Figure DEST_PATH_IMAGE072
,在训练阶段所形成的语音库中的码本为:
Figure DEST_PATH_IMAGE073
(N表示说话人个数)。
(2)计算特征矢量与库中已有的说话人的语音模板之间的距离测度,即求出
Figure DEST_PATH_IMAGE074
Figure DEST_PATH_IMAGE075
                       (25)
式中,j表示X中第
Figure DEST_PATH_IMAGE076
帧的特征矢量,m表示第i个说话人的第m个码字,共有M个码字,K为特征矢量的维数。加权因子
Figure DEST_PATH_IMAGE077
为:
Figure DEST_PATH_IMAGE078
                    (26)
(3)计算X到第i个码本的平均距离测度
Figure DEST_PATH_IMAGE079
                       
Figure DEST_PATH_IMAGE080
                         (27)
(4)计算
Figure DEST_PATH_IMAGE081
,得到所有的
Figure DEST_PATH_IMAGE082
(5)求出
Figure DEST_PATH_IMAGE083
中最小者对应的那个i,即是所求的那个人。
本***属于闭集识别,也就是说所有待识别的说话人都属于已知的说话人集合。说话人识别的人机交互界面如图4所示。在声纹识别***的人机交互界面中,“语音卡状态显示”列表视图显示当前语音卡可用的语音通道号及通道状态;“语音样本库”列表视图显示当前语音样本库中的说话人样本数目及说话人姓名。“声纹识别参数设置”一栏显示语音采集所要设置的参数,包括:训练时长(默认23s),测试时长(默认15s)以及候选人个数(默认 1)。
以下结合实例进行具体说明:假设语音样本库中预先存了100个人的语音,当张XX拨通电话时,其声音如何识别的过程。
1、若张XX不属于已知的语音样本库
(1)语音信号的采集:以程控交换综合实验箱的话机作为采集语音的终端设备,通过语音卡采集语音;
首先,设置需要采集的训练语音的“训练时长”参数(范围:10-39s),然后在姓名编辑框中添加说话人的姓名“张XX”,点击“添加说话人”按钮。添加完成后点击“确定”,然后拨通程控交换综合实验箱的电话(号码:8700),接通后,语音卡通道2(默认为通道2)的状态更新为“录音中”,此时语音卡就可以进行采集语音。采集的语音达到预定的训练时长,电话会自动挂断;
(2)语音信号的预处理:通过计算机和VC软件结合将提取的语音信号进行分帧加窗操作,在分帧过程中一帧包括256个采样点,帧移为128个采样点,所加的窗函数为汉明窗;端点检测,采用基于短时能量和短时过零率法相结合的检测法;预加重,加重系数的值为0.97;
(3)提取语音信号特征参数:利用计算机与VC软件结合提取13阶的MFCC参数;
(4)模板训练:利用***码本法对码本进行初始化,然后采用LBG聚类算法为***中的每一个说话人建立一个码本存储在语音数据库中作为该说话人的语音模板;
(5)说话人识别
首先,设置需要采集的测试语音的“测试时长”参数(范围:5-20s),拨通程控交换综合实验箱的电话(号码:8700),利用语音卡 (通道为2)采集语音。采集的语音达到预定的测试时长,电话会自动挂断;
然后软件禁止“进行说话人辨识”按钮使用,对说话人的语音进行步骤(2)、(3)的操作,最后将提取的待测试的说话人的语音与库中的语音模板进行比较,点击 “进行说话人辨识”按钮,选择要显示的候选人数(范围1-3),若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度,则认为识别出说话人,同时在“说话人辨识”视图列表上显示辨识结果“张XX”和识别度。
2、若张XX属于已知的语音样本库
若张XX属于已知的语音样本库则直接进行说话人辨识:首先,设置需要采集的测试语音的“测试时长”参数(范围:5-20s),拨通程控交换综合实验箱的电话(号码:8700),利用语音卡 (通道为2)采集语音。采集的语音达到预定的测试时长,电话会自动挂断;
然后软件禁止“进行说话人辨识”按钮使用,对说话人的语音进行步骤(2)、(3)的操作,最后将提取的待测试的说话人的语音与库中的语音模板进行比较,若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度,则认为识别出说话人,同时在“说话人辨识”视图列表上显示辨识结果“张XX”和识别度。

Claims (2)

1.一种基于矢量量化的声纹识别方法,其特征是,具体步骤如下:
(1)、语音信号的采集:以程控交换综合实验箱的话机作为采集语音的终端设备,通过语音卡采集语音信号;
(2)、语音信号预处理:通过计算机将提取的语音信号进行分帧加窗操作,在分帧过程中一帧包括256个采样点,帧移为128个采样点,所加的窗函数为汉明窗;端点检测,采用基于短时能量和短时过零率相结合的端点检测法;预加重,加重系数的取值为0.90~1.00;
(3)、语音信号特征参数提取:采用MFCC参数,MFCC的阶数为12~16;
(4)、模板训练:采用LBG聚类算法为***中的每一个说话人建立一个码本存储在语音数据库中作为该说话人的语音模板,所采用LBG聚类算法的具体步骤如下:
(4.1)取得输入的特征矢量集合S中全体训练矢量X,并通过***码本法给定一个初始码本的码字                                                ; 
(4.2)利用一个较小的阈值
Figure 275845DEST_PATH_IMAGE002
Figure 944724DEST_PATH_IMAGE003
,将一分为二,***的方法遵循下列规则:
                
Figure 128635DEST_PATH_IMAGE004
                         (5)
***后,得到新码本的码字
Figure 741013DEST_PATH_IMAGE005
Figure 202082DEST_PATH_IMAGE006
(4.3)根据最邻近准则,为新码本的码字寻找距离最近的码字,最后把S分成m个子集,即当
Figure 631926DEST_PATH_IMAGE007
时,
Figure 309770DEST_PATH_IMAGE008
 
Figure 584893DEST_PATH_IMAGE009
              (6)
式中,M为当前初始码本中码字的个数;
(4.4)计算每个子集中特征矢量的质心,并用这个质心代替该集合中的码字,这样就得到了新的码本;
(4.5)通过第3步、第4步进行的迭代计算,得到新的码本的码字
Figure 501214DEST_PATH_IMAGE011
(4.6)然后再重复第2步,将新得到的码字各分为二,接着再通过第3步、第4步进行迭代计算,如此继续,直到所需的码本码字数是
Figure 167818DEST_PATH_IMAGE012
,r是整数,则共需要做r轮上述的循环处理,直到聚类完毕,此时,各类的质心即为所需的码字。
(5)、声纹辨识:通过将采集到的待识别语音信号特征参数与库中通过第1步~第4步已建立的说话人语音模板进行比较,并根据加权欧式距离测度进行判断,若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度,则认为识别出说话人。
2.根据权利要求1所述的基于矢量量化的声纹识别方法,其特征是,LBG聚类算法中的初始码本,采用***码本法进行码本初始化,具体过程如下:
(1)将提取出来的所有帧的特征矢量的均值作为初始码本的码字
Figure 246633DEST_PATH_IMAGE001
(2)将
Figure 682293DEST_PATH_IMAGE001
根据以下规则***,形成2m个码字;
                               (7)
其中m是从1变化到当前码本的码字数,
Figure 840797DEST_PATH_IMAGE002
是***时的参数,取
Figure 660985DEST_PATH_IMAGE003
(3)根据新的码字把所有的特征矢量进行聚类,然后计算总距离测度D和
Figure 13469DEST_PATH_IMAGE014
Figure 893701DEST_PATH_IMAGE015
                               (8)
Figure 331635DEST_PATH_IMAGE014
为下一次迭代的总距离测度,
Figure 689935DEST_PATH_IMAGE016
为训练特征矢量X与训练出来的码本之间的距离测度;
计算相对距离测度:        
Figure 712173DEST_PATH_IMAGE018
                                 (9)
Figure 575087DEST_PATH_IMAGE019
(
Figure 799395DEST_PATH_IMAGE020
),则停止迭代计算,当前的码本就是设计好的码本,否则,转下一步
(4)重新计算各个区域的新质心;
(5)重复第3步和第4步,直到形成一个2m个码字的最佳的码本;
(6)重复第2、第3步、第4步,直到形成有M个码字的码本。
CN2011104503646A 2011-12-29 2011-12-29 基于矢量量化的声纹识别方法及*** Expired - Fee Related CN102509547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104503646A CN102509547B (zh) 2011-12-29 2011-12-29 基于矢量量化的声纹识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104503646A CN102509547B (zh) 2011-12-29 2011-12-29 基于矢量量化的声纹识别方法及***

Publications (2)

Publication Number Publication Date
CN102509547A CN102509547A (zh) 2012-06-20
CN102509547B true CN102509547B (zh) 2013-06-19

Family

ID=46221622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104503646A Expired - Fee Related CN102509547B (zh) 2011-12-29 2011-12-29 基于矢量量化的声纹识别方法及***

Country Status (1)

Country Link
CN (1) CN102509547B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102810A (zh) * 2017-06-21 2018-12-28 北京搜狗科技发展有限公司 声纹识别方法和装置

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103794207A (zh) * 2012-10-29 2014-05-14 西安远声电子科技有限公司 一种双模语音身份识别方法
CN103714826B (zh) * 2013-12-18 2016-08-17 讯飞智元信息科技有限公司 面向声纹鉴定的共振峰自动匹配方法
CN103794219B (zh) * 2014-01-24 2016-10-05 华南理工大学 一种基于m码字***的矢量量化码本生成方法
CN104485102A (zh) * 2014-12-23 2015-04-01 智慧眼(湖南)科技发展有限公司 声纹识别方法和装置
CN105989842B (zh) * 2015-01-30 2019-10-25 福建星网视易信息***有限公司 对比声纹相似度的方法、装置及其在数字娱乐点播***中的应用
CN106340298A (zh) * 2015-07-06 2017-01-18 南京理工大学 融合内容识别和话者识别的声纹解锁方法
CN104994400A (zh) * 2015-07-06 2015-10-21 无锡天脉聚源传媒科技有限公司 一种获取主持人姓名用来索引视频的方法及装置
CN105304087B (zh) * 2015-09-15 2017-03-22 北京理工大学 一种基于过零间隔点声纹识别方法
US10262654B2 (en) * 2015-09-24 2019-04-16 Microsoft Technology Licensing, Llc Detecting actionable items in a conversation among participants
CN105355206B (zh) * 2015-09-24 2020-03-17 车音智能科技有限公司 一种声纹特征提取方法和电子设备
CN105355195A (zh) * 2015-09-25 2016-02-24 小米科技有限责任公司 音频识别方法及装置
CN106920558B (zh) * 2015-12-25 2021-04-13 展讯通信(上海)有限公司 关键词识别方法及装置
CN106971729A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于声音特征范围提高声纹识别速度的方法及***
CN106981287A (zh) * 2016-01-14 2017-07-25 芋头科技(杭州)有限公司 一种提高声纹识别速度的方法及***
CN106971735B (zh) * 2016-01-14 2019-12-03 芋头科技(杭州)有限公司 一种定期更新缓存中训练语句的声纹识别的方法及***
CN106971711A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种自适应的声纹识别方法及***
CN106971726A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种自适应的基于码本的声纹识别方法及***
CN106971712A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种自适应的快速声纹识别方法及***
CN105931637A (zh) * 2016-04-01 2016-09-07 金陵科技学院 一种可自定义指令识别的语音拍照***
CN106057212B (zh) * 2016-05-19 2019-04-30 华东交通大学 基于语音个性特征和模型自适应的驾驶疲劳检测方法
CN106448682A (zh) * 2016-09-13 2017-02-22 Tcl集团股份有限公司 开集说话人识别的方法及装置
CN107945807B (zh) * 2016-10-12 2021-04-13 厦门雅迅网络股份有限公司 基于静音游程的语音识别方法及其***
CN108269573A (zh) * 2017-01-03 2018-07-10 蓝盾信息安全技术有限公司 基于矢量量化和高斯混合模型的说话人识别***
CN106847292B (zh) 2017-02-16 2018-06-19 平安科技(深圳)有限公司 声纹识别方法及装置
CN107039036B (zh) * 2017-02-17 2020-06-16 南京邮电大学 一种基于自动编码深度置信网络的高质量说话人识别方法
CN107068154A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 基于声纹识别的身份验证的方法及***
CN107799114A (zh) * 2017-04-26 2018-03-13 珠海智牧互联科技有限公司 一种猪只咳嗽声音识别方法及***
CN107993663A (zh) * 2017-09-11 2018-05-04 北京航空航天大学 一种基于Android的声纹识别方法
CN108022584A (zh) * 2017-11-29 2018-05-11 芜湖星途机器人科技有限公司 办公室语音识别优化方法
CN107993661A (zh) * 2017-12-07 2018-05-04 浙江海洋大学 一种防口语替考的方法和***
CN108417226A (zh) * 2018-01-09 2018-08-17 平安科技(深圳)有限公司 语音对比方法、终端及计算机可读存储介质
CN108460081B (zh) * 2018-01-12 2019-07-12 平安科技(深圳)有限公司 语音数据库创建方法、声纹注册方法、装置、设备及介质
CN110047491A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 一种随机数字口令相关的说话人识别方法及装置
CN108922541B (zh) * 2018-05-25 2023-06-02 南京邮电大学 基于dtw和gmm模型的多维特征参数声纹识别方法
CN109147798B (zh) * 2018-07-27 2023-06-09 北京三快在线科技有限公司 语音识别方法、装置、电子设备及可读存储介质
CN109146002B (zh) * 2018-09-30 2021-06-01 佛山科学技术学院 一种gmm识别器的快速识别方法
CN109841229A (zh) * 2019-02-24 2019-06-04 复旦大学 一种基于动态时间规整的新生儿哭声识别方法
CN110889009B (zh) * 2019-10-18 2023-07-21 平安科技(深圳)有限公司 一种声纹聚类方法、装置、处理设备以及计算机存储介质
CN111128198B (zh) * 2019-12-25 2022-10-28 厦门快商通科技股份有限公司 一种声纹识别方法、装置、存储介质、服务器及***
CN111341327A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于粒子群算法的说话人语音识别方法、装置和设备
CN111583938B (zh) * 2020-05-19 2023-02-03 威盛电子股份有限公司 电子装置与语音识别方法
CN113611284B (zh) * 2021-08-06 2024-05-07 工银科技有限公司 语音库构建方法、识别方法、构建***和识别***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011004098A1 (fr) * 2009-07-07 2011-01-13 France Telecom Allocation de bits dans un codage/décodage d'amélioration d'un codage/décodage hiérarchique de signaux audionumériques
CN102231277A (zh) * 2011-06-29 2011-11-02 电子科技大学 基于声纹识别的移动终端隐私保护方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011004098A1 (fr) * 2009-07-07 2011-01-13 France Telecom Allocation de bits dans un codage/décodage d'amélioration d'un codage/décodage hiérarchique de signaux audionumériques
CN102231277A (zh) * 2011-06-29 2011-11-02 电子科技大学 基于声纹识别的移动终端隐私保护方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张彩娟,霍春宝,吴峰,韦春丽.《改进K-means算法在声纹识别中的应用》.《辽宁工业大学学报》.2011,第31卷(第5期),第1-4节. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102810A (zh) * 2017-06-21 2018-12-28 北京搜狗科技发展有限公司 声纹识别方法和装置

Also Published As

Publication number Publication date
CN102509547A (zh) 2012-06-20

Similar Documents

Publication Publication Date Title
CN102509547B (zh) 基于矢量量化的声纹识别方法及***
CN102324232A (zh) 基于高斯混合模型的声纹识别方法及***
CN102800316B (zh) 基于神经网络的声纹识别***的最优码本设计方法
CN102820033B (zh) 一种声纹识别方法
Chavan et al. An overview of speech recognition using HMM
CN108900725A (zh) 一种声纹识别方法、装置、终端设备及存储介质
Kekre et al. Speaker identification by using vector quantization
CN103794207A (zh) 一种双模语音身份识别方法
CN101540170B (zh) 一种基于仿生模式识别的声纹识别方法
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN102968990A (zh) 说话人识别方法和***
Todkar et al. Speaker recognition techniques: A review
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
Zhang et al. Voice biometric identity authentication system based on android smart phone
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
Rudresh et al. Performance analysis of speech digit recognition using cepstrum and vector quantization
Sun et al. A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea
JPH09507921A (ja) ニューラルネットワークを使用した音声認識システムおよびその使用方法
Goh et al. Robust computer voice recognition using improved MFCC algorithm
Sarangi et al. A novel approach in feature level for robust text-independent speaker identification system
Nijhawan et al. Speaker recognition using support vector machine
Chauhan et al. A review of automatic speaker recognition system
Wang et al. Robust Text-independent Speaker Identification in a Time-varying Noisy Environment.
CN109003613A (zh) 结合空间信息的声纹识别支付信息防伪方法
Panda et al. Study of speaker recognition systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130619

Termination date: 20131229