CN102509547B - 基于矢量量化的声纹识别方法及*** - Google Patents
基于矢量量化的声纹识别方法及*** Download PDFInfo
- Publication number
- CN102509547B CN102509547B CN2011104503646A CN201110450364A CN102509547B CN 102509547 B CN102509547 B CN 102509547B CN 2011104503646 A CN2011104503646 A CN 2011104503646A CN 201110450364 A CN201110450364 A CN 201110450364A CN 102509547 B CN102509547 B CN 102509547B
- Authority
- CN
- China
- Prior art keywords
- speaker
- code word
- code book
- sound
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种基于矢量量化的声纹识别方法及***,具有良好识别性能和抗噪能力,识别效果比较好,建模数据少,判决速度快,而且复杂度不高。具体步骤如下:语音信号的采集;语音信号预处理;语音信号特征参数提取:采用MFCC参数,MFCC的阶数为12~16;模板训练:采用LBG聚类算法为***中的每一个说话人建立一个码本存储在语音数据库中作为该说话人的语音模板;声纹辨识:通过将采集到的待识别语音信号特征参数与库中已建立的说话人语音模板进行比较,并根据加权欧式距离测度进行判断,若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度,则认为识别出说话人。
Description
技术领域
本发明属于语音信号处理技术,特别涉及一种用说话人的语音信号来辨识说话人身份的基于矢量量化的声纹识别方法及***。
背景技术
近年来,随着信息处理与人工智能技术的广泛应用,以及人们对快速有效身份验证的迫切要求,传统密码认证的身份识别已经逐渐失去了他的地位,而在生物识别领域中,基于说话人语音的身份识别技术却受到了越来越多的人的青睐。
由于每个人的发音器官的生理差异以及后天形成的行为差异导致发音方式和说话习惯各不相同,因此用说话人的语音来识别身份成为可能。声纹识别除了具有不会遗忘、不需记忆、使用方便等优点外,还具有下列特性:首先,它的认证方式易于接受,使用的“密码”为声音,开口即得;其次,识别文本的内容可以随机,不易窃取,安全性能比较高;第三,识别使用的终端设备为麦克风或电话,成本低廉且易于和现有通信***相结合。因此,声纹识别的应用前景非常广阔:在经济活动中,可以实现各银行的汇款、余额查询、转账等;在保密安全中,可以用指定的声音检查秘密场所的人员,其只响应特定说话人;在司法鉴定中,可以根据即时录音判断疑犯中作案者的真实身份;在生物医学中,可以使该***只响应患者的命令,从而实现对使用者假肢的控制。
声纹识别的关键技术主要是语音信号特征参数提取和模型匹配。语音信号特征参数大体可分为两类:一类是主要体现说话人发音器官生理特性的低层特征,如根据人耳对不同频率的语音信号的敏感程度提取的梅尔频率倒谱系数(MFCC),根据语音信号的全极点模型得到的线性预测倒谱系数(LPCC)等;另一类是主要体现说话人用语习惯、发音特点的高层特征,如反映说话人语音抑扬顿挫的韵律特征(Prosodic Features)、反映说话人习惯用语中音素统计规律的音素特征(Phone Features)等。LPCC是基于语音信号的发音模型建立的,容易受到假设模型的影响,高层特征虽然有些文献中使用,但识别率并不是很高。
针对各种语音信号特征参数而提出的模型匹配方法主要有动态时间规整(DTW)法、矢量量化(VQ)法、高斯混合模型(GMM)法、人工神经网络(ANN)法等。其中DTW模型依赖于参数的时间顺序,实时性能较差,适合基于孤立字(词)的说话人识别;GMM主要用于大量语音的说话人识别,需要较多的模型训练数据,较长的训练时间及识别时间,而且还需要较大的内存空间。在ANN模型中,对最佳模型拓扑结构的设计的训练算法并不一定能保证收敛,而且会存在过学***均量化失真,以最小失真的语音模板作为识别结果。然而不足之处是语音信号是成椭圆状的正态分布,各矢量的分布不相等,在基于传统的VQ说话人识别***的欧氏距离测度中没有得到很到的反应。
发明内容
本发明要解决的技术问题是提出一种基于矢量量化的声纹识别方法及***,具有良好识别性能和抗噪能力,识别效果比较好,建模数据少,判决速度快,而且复杂度不高。
一种基于矢量量化的声纹识别方法,具体步骤如下:
1、语音信号的采集:以程控交换综合实验箱的话机作为采集语音的终端设备,通过语音卡采集语音信号;
2、语音信号预处理:通过计算机将提取的语音信号进行分帧加窗操作,在分帧过程中一帧包括256个采样点,帧移为128个采样点,所加的窗函数为汉明窗;端点检测,采用基于短时能量和短时过零率相结合的端点检测法;预加重,加重系数的取值为0.90~1.00;
3、语音信号特征参数提取:采用MFCC参数,MFCC的阶数为12~16;
4、模板训练:采用LBG聚类算法为***中的每一个说话人建立一个码本存储在语音数据库中作为该说话人的语音模板;
5、声纹辨识:通过将采集到的待识别语音信号特征参数与库中通过步骤1、2、3、4已建立的说话人语音模板进行比较,并根据加权欧式距离测度进行判断,若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度,则认为识别出说话人。
上述的语音信号特征参数提取步骤如下:
(1)将预处理后的语音信号进行短时傅里叶变换得到其频谱X(k),语音信号的DFT公式为:
(4)离散余弦变换(DCT)
其中,L为MFCC参数的阶数,Q为Mel滤波器的个数,L取12~16,Q取23~26;
上述的模板训练时所采用LBG聚类算法的具体步骤如下:
式中,M为当前初始码本中码字的个数;
(4)计算每个子集中特征矢量的质心,并用这个质心代替该集合中的码字,这样就得到了新的码本;
(6)然后再重复第(2)步,将新得到的码字各分为二,接着再通过第(3),(4)步进行迭代计算,如此继续,直到所需的码本码字数是,r是整数,则共需要做r轮上述的循环处理,直到聚类完毕,此时,各类的质心即为所需的码字。
上述的LBG聚类算法中的初始码本,采用***码本法进行码本初始化,具体过程如下:
(1)将提取出来的所有帧的特征矢量的均值作为初始码本的码字;
(3)根据新的码字把所有的特征矢量进行聚类,然后计算总距离测度D和:
(4)重新计算各个区域的新质心;
(5)重复第(3)步和第(4)步,直到形成一个2m个码字的最佳的码本;
(6)重复第(2)、(3)和(4)步,直到形成有M个码字的码本;
上述的离散余弦变换时,L=13,Q=25。
一种基于矢量量化的声纹识别***,组成如下:
语音信号采集模块、语音信号预处理模块,语音信号特征参数提取模块,语音模板训练模块和声纹识别模块。
本发明与现有技术相比的有益效果是:
通过语音卡采集语音信号,利用语音信号处理技术对采集到的语音信号进行预处理,然后提取语音信号特征参数,利用矢量量化技术对得到的语音信号特征参数建立语音模型从而构建一个说话人识别***。采用MFCC参数,具有良好识别性能和抗噪能力且能充分模拟人耳感知能力,在说话人识别中最有用的说话人信息包含在MFCC参数的第2阶到16阶之间;通过采用矢量量化(VQ)法,具有良好识别性能和抗噪能力,实时性强,识别效果好,建模数据少,算法简单,判决速度快,而且复杂度不高。
附图说明
图1 是本发明的***框图;
图2是本发明的主流程图;
图3 是LBG算法流程图;
图4是基于VQ的声纹识别人机交互界面。
具体实施方式
如图1所示,该基于矢量量化的声纹识别***,由软硬件结合完成对说话人语音的识别,组成如下:
语音信号采集模块、语音信号预处理模块,语音信号特征参数提取模块,语音模型训练模块和声纹识别模块。
如图2~图3所示,该基于矢量量化的声纹识别方法的具体步骤如下:
1、语音信号的采集
语音信号的采集是将原始的语音模拟信号转换为数字信号,设置通道号、采样频率,本发明以采用杭州三汇公司生产的SHT-8B/PCI型语音卡进行语音信号的采集,通道号为2(语音卡默认通道号为2),采样频率为8KHz(语音卡默认采样频率)。识别的终端设备为实验用程控交换综合实验箱的电话机,且程控交换实验箱的的交换方式为空分交换,话路为甲二路(共四路:甲一路,甲二路,乙一路,乙二路,本发明随机选取甲二路,对实验结果无影响)。
2、语音信号的预处理
(1)加窗分帧
语音信号的时变特性决定对其进行处理必须在一小段语音上进行,因此要对其进行分帧处理,同时为了保证语音信号不会因为分帧而导致信息的丢失,帧与帧之间要保证一定的重叠,即帧移,帧移与帧长的比值一般在0~1/2之间。本发明中使用的帧长为256个采样点,帧移为128个采样点。窗函数采用平滑特性较好的汉明窗函数,如下所示:
(10)
式中N为窗口长度,本发明为256个点。
(2)端点检测
(3)预加重
由于语音信号的平均功率谱受到声门激励和口鼻辐射的影响,高频端大约在8000Hz以上按6dB/倍程跌落,为此要进行预加重处理以提升语音信号的高频部分,使信号的频谱变得平坦。预加重用6dB/倍程的具有提升高频特性的数字滤波器来实现,它一般是一阶的数字滤波器,即
其中u取值在0.90~1.00之间***的识别率最高,本发明取u=0.97。
3、语音信号特征参数提取
语音信号特征参数提取就是从说话人的语音信号中提取出能够反映说话人个性的参数,具体过程如下:
(1)将预处理后的语音信号进行短时傅里叶变换(DFT)得到其频谱X(k)。语音信号的DFT公式为:
(4)离散余弦变换(DCT)
(17)
其中,L为MFCC的阶数,Q 为Mel滤波器的个数,二者取值常依据实验情况来定。本实施例取L=13,Q=25,实际不受本实施例限制。
4、模板训练
(1)基本原理
在声纹识别中,一般是先用矢量量化的码本作为说话人的语音模板,即***中每一个说话人的语音,被量化为一个码本存到语音库中作为该说话人语音模板。识别时对于任意输入的语音特征矢量序列提取特征参数,计算该语音特征参数对每一个语音模板的总平均失真量化误差,总平均误差最小的模板所对应的说话人即为识别结果。
(2)距离测度
对于传统的欧氏距离测度特征矢量的各分量是等权重的,这只有当特征矢量的自然分布为球状或接近于球状时,也就是说当特征矢量的各分量的分布接近于相等时才能取得较好的识别效果。而语音信号是成椭圆状的正态分布,各矢量的分布不相等,他们在欧氏距离测度中没有得到很好的反应,若直接采用欧式距离测度对说话人进行判决,***的识别率将会受到影响。
本发明采用13阶的MFCC,为了体现他们在聚类的不同贡献,采用加权的欧式距离测度,对不同分布的矢量赋予不同的权重,分布较离散的矢量赋予很小的权重,对于分布较集中的矢量赋予很大的权重。分布的离散程度用矢量到聚类中心(矢量均值)的欧氏距离来衡量,加权因子为:
上式中的K为特征矢量的维数。在训练及识别时将得到的欧式距离进行降序排列,然后用加权因子进行预加重,此过程实质上等效于在训练及识别时采用不加权的欧式距离,而对特征矢量的各维分量用比例因子进行预加重,这样对排序很高有破坏性质的矢量,如孤立点或者噪声赋予很小的权重,而对排序很低的好的矢量赋予较大的权重,从而各个矢量对识别的贡献得到很好的体现。
(3)模板训练
本发明采用的是基于***法的LBG算法,具体步骤如下:
1) 取得输入的特征矢量集合S中全体训练矢量X,并通过***码本(码本即矢量集,或者说是码字的集合)法给定一个初始码本的码字;
式中,M为当前初始码本中码字的个数;
4)计算每个子集中特征矢量的质心,并用这个质心代替该集合中的码字,这样就得到了新的码本;
6) 然后再重复第2)步,将新得到的码字各分为二,接着再通过第3),4)步进行迭代计算,如此继续,直到所需的码本码字数是(r是整数),则共需要做r轮上述的循环处理,直到聚类完毕,此时,各类的质心即为所需的码字。
上述的LBG聚类算法中的初始码本,采用***码本法进行码本初始化,具体过程如下:
(22)
(23)
④重新计算各个区域的新质心;
⑤重复③和④,直到形成一个2m个码字的最佳的码本;
⑥重复②、③和④,直到形成有M个码字的码本;
5、声纹辨识
本***属于闭集识别,也就是说所有待识别的说话人都属于已知的说话人集合。说话人识别的人机交互界面如图4所示。在声纹识别***的人机交互界面中,“语音卡状态显示”列表视图显示当前语音卡可用的语音通道号及通道状态;“语音样本库”列表视图显示当前语音样本库中的说话人样本数目及说话人姓名。“声纹识别参数设置”一栏显示语音采集所要设置的参数,包括:训练时长(默认23s),测试时长(默认15s)以及候选人个数(默认 1)。
以下结合实例进行具体说明:假设语音样本库中预先存了100个人的语音,当张XX拨通电话时,其声音如何识别的过程。
1、若张XX不属于已知的语音样本库
(1)语音信号的采集:以程控交换综合实验箱的话机作为采集语音的终端设备,通过语音卡采集语音;
首先,设置需要采集的训练语音的“训练时长”参数(范围:10-39s),然后在姓名编辑框中添加说话人的姓名“张XX”,点击“添加说话人”按钮。添加完成后点击“确定”,然后拨通程控交换综合实验箱的电话(号码:8700),接通后,语音卡通道2(默认为通道2)的状态更新为“录音中”,此时语音卡就可以进行采集语音。采集的语音达到预定的训练时长,电话会自动挂断;
(2)语音信号的预处理:通过计算机和VC软件结合将提取的语音信号进行分帧加窗操作,在分帧过程中一帧包括256个采样点,帧移为128个采样点,所加的窗函数为汉明窗;端点检测,采用基于短时能量和短时过零率法相结合的检测法;预加重,加重系数的值为0.97;
(3)提取语音信号特征参数:利用计算机与VC软件结合提取13阶的MFCC参数;
(4)模板训练:利用***码本法对码本进行初始化,然后采用LBG聚类算法为***中的每一个说话人建立一个码本存储在语音数据库中作为该说话人的语音模板;
(5)说话人识别
首先,设置需要采集的测试语音的“测试时长”参数(范围:5-20s),拨通程控交换综合实验箱的电话(号码:8700),利用语音卡 (通道为2)采集语音。采集的语音达到预定的测试时长,电话会自动挂断;
然后软件禁止“进行说话人辨识”按钮使用,对说话人的语音进行步骤(2)、(3)的操作,最后将提取的待测试的说话人的语音与库中的语音模板进行比较,点击 “进行说话人辨识”按钮,选择要显示的候选人数(范围1-3),若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度,则认为识别出说话人,同时在“说话人辨识”视图列表上显示辨识结果“张XX”和识别度。
2、若张XX属于已知的语音样本库
若张XX属于已知的语音样本库则直接进行说话人辨识:首先,设置需要采集的测试语音的“测试时长”参数(范围:5-20s),拨通程控交换综合实验箱的电话(号码:8700),利用语音卡 (通道为2)采集语音。采集的语音达到预定的测试时长,电话会自动挂断;
然后软件禁止“进行说话人辨识”按钮使用,对说话人的语音进行步骤(2)、(3)的操作,最后将提取的待测试的说话人的语音与库中的语音模板进行比较,若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度,则认为识别出说话人,同时在“说话人辨识”视图列表上显示辨识结果“张XX”和识别度。
Claims (2)
1.一种基于矢量量化的声纹识别方法,其特征是,具体步骤如下:
(1)、语音信号的采集:以程控交换综合实验箱的话机作为采集语音的终端设备,通过语音卡采集语音信号;
(2)、语音信号预处理:通过计算机将提取的语音信号进行分帧加窗操作,在分帧过程中一帧包括256个采样点,帧移为128个采样点,所加的窗函数为汉明窗;端点检测,采用基于短时能量和短时过零率相结合的端点检测法;预加重,加重系数的取值为0.90~1.00;
(3)、语音信号特征参数提取:采用MFCC参数,MFCC的阶数为12~16;
(4)、模板训练:采用LBG聚类算法为***中的每一个说话人建立一个码本存储在语音数据库中作为该说话人的语音模板,所采用LBG聚类算法的具体步骤如下:
(4.1)取得输入的特征矢量集合S中全体训练矢量X,并通过***码本法给定一个初始码本的码字 ;
式中,M为当前初始码本中码字的个数;
(4.4)计算每个子集中特征矢量的质心,并用这个质心代替该集合中的码字,这样就得到了新的码本;
(4.6)然后再重复第2步,将新得到的码字各分为二,接着再通过第3步、第4步进行迭代计算,如此继续,直到所需的码本码字数是,r是整数,则共需要做r轮上述的循环处理,直到聚类完毕,此时,各类的质心即为所需的码字。
(5)、声纹辨识:通过将采集到的待识别语音信号特征参数与库中通过第1步~第4步已建立的说话人语音模板进行比较,并根据加权欧式距离测度进行判断,若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度,则认为识别出说话人。
2.根据权利要求1所述的基于矢量量化的声纹识别方法,其特征是,LBG聚类算法中的初始码本,采用***码本法进行码本初始化,具体过程如下:
(7)
(4)重新计算各个区域的新质心;
(5)重复第3步和第4步,直到形成一个2m个码字的最佳的码本;
(6)重复第2、第3步、第4步,直到形成有M个码字的码本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104503646A CN102509547B (zh) | 2011-12-29 | 2011-12-29 | 基于矢量量化的声纹识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104503646A CN102509547B (zh) | 2011-12-29 | 2011-12-29 | 基于矢量量化的声纹识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102509547A CN102509547A (zh) | 2012-06-20 |
CN102509547B true CN102509547B (zh) | 2013-06-19 |
Family
ID=46221622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011104503646A Expired - Fee Related CN102509547B (zh) | 2011-12-29 | 2011-12-29 | 基于矢量量化的声纹识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102509547B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102810A (zh) * | 2017-06-21 | 2018-12-28 | 北京搜狗科技发展有限公司 | 声纹识别方法和装置 |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103794207A (zh) * | 2012-10-29 | 2014-05-14 | 西安远声电子科技有限公司 | 一种双模语音身份识别方法 |
CN103714826B (zh) * | 2013-12-18 | 2016-08-17 | 讯飞智元信息科技有限公司 | 面向声纹鉴定的共振峰自动匹配方法 |
CN103794219B (zh) * | 2014-01-24 | 2016-10-05 | 华南理工大学 | 一种基于m码字***的矢量量化码本生成方法 |
CN104485102A (zh) * | 2014-12-23 | 2015-04-01 | 智慧眼(湖南)科技发展有限公司 | 声纹识别方法和装置 |
CN105989842B (zh) * | 2015-01-30 | 2019-10-25 | 福建星网视易信息***有限公司 | 对比声纹相似度的方法、装置及其在数字娱乐点播***中的应用 |
CN106340298A (zh) * | 2015-07-06 | 2017-01-18 | 南京理工大学 | 融合内容识别和话者识别的声纹解锁方法 |
CN104994400A (zh) * | 2015-07-06 | 2015-10-21 | 无锡天脉聚源传媒科技有限公司 | 一种获取主持人姓名用来索引视频的方法及装置 |
CN105304087B (zh) * | 2015-09-15 | 2017-03-22 | 北京理工大学 | 一种基于过零间隔点声纹识别方法 |
US10262654B2 (en) * | 2015-09-24 | 2019-04-16 | Microsoft Technology Licensing, Llc | Detecting actionable items in a conversation among participants |
CN105355206B (zh) * | 2015-09-24 | 2020-03-17 | 车音智能科技有限公司 | 一种声纹特征提取方法和电子设备 |
CN105355195A (zh) * | 2015-09-25 | 2016-02-24 | 小米科技有限责任公司 | 音频识别方法及装置 |
CN106920558B (zh) * | 2015-12-25 | 2021-04-13 | 展讯通信(上海)有限公司 | 关键词识别方法及装置 |
CN106971729A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种基于声音特征范围提高声纹识别速度的方法及*** |
CN106981287A (zh) * | 2016-01-14 | 2017-07-25 | 芋头科技(杭州)有限公司 | 一种提高声纹识别速度的方法及*** |
CN106971735B (zh) * | 2016-01-14 | 2019-12-03 | 芋头科技(杭州)有限公司 | 一种定期更新缓存中训练语句的声纹识别的方法及*** |
CN106971711A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种自适应的声纹识别方法及*** |
CN106971726A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种自适应的基于码本的声纹识别方法及*** |
CN106971712A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种自适应的快速声纹识别方法及*** |
CN105931637A (zh) * | 2016-04-01 | 2016-09-07 | 金陵科技学院 | 一种可自定义指令识别的语音拍照*** |
CN106057212B (zh) * | 2016-05-19 | 2019-04-30 | 华东交通大学 | 基于语音个性特征和模型自适应的驾驶疲劳检测方法 |
CN106448682A (zh) * | 2016-09-13 | 2017-02-22 | Tcl集团股份有限公司 | 开集说话人识别的方法及装置 |
CN107945807B (zh) * | 2016-10-12 | 2021-04-13 | 厦门雅迅网络股份有限公司 | 基于静音游程的语音识别方法及其*** |
CN108269573A (zh) * | 2017-01-03 | 2018-07-10 | 蓝盾信息安全技术有限公司 | 基于矢量量化和高斯混合模型的说话人识别*** |
CN106847292B (zh) | 2017-02-16 | 2018-06-19 | 平安科技(深圳)有限公司 | 声纹识别方法及装置 |
CN107039036B (zh) * | 2017-02-17 | 2020-06-16 | 南京邮电大学 | 一种基于自动编码深度置信网络的高质量说话人识别方法 |
CN107068154A (zh) * | 2017-03-13 | 2017-08-18 | 平安科技(深圳)有限公司 | 基于声纹识别的身份验证的方法及*** |
CN107799114A (zh) * | 2017-04-26 | 2018-03-13 | 珠海智牧互联科技有限公司 | 一种猪只咳嗽声音识别方法及*** |
CN107993663A (zh) * | 2017-09-11 | 2018-05-04 | 北京航空航天大学 | 一种基于Android的声纹识别方法 |
CN108022584A (zh) * | 2017-11-29 | 2018-05-11 | 芜湖星途机器人科技有限公司 | 办公室语音识别优化方法 |
CN107993661A (zh) * | 2017-12-07 | 2018-05-04 | 浙江海洋大学 | 一种防口语替考的方法和*** |
CN108417226A (zh) * | 2018-01-09 | 2018-08-17 | 平安科技(深圳)有限公司 | 语音对比方法、终端及计算机可读存储介质 |
CN108460081B (zh) * | 2018-01-12 | 2019-07-12 | 平安科技(深圳)有限公司 | 语音数据库创建方法、声纹注册方法、装置、设备及介质 |
CN110047491A (zh) * | 2018-01-16 | 2019-07-23 | 中国科学院声学研究所 | 一种随机数字口令相关的说话人识别方法及装置 |
CN108922541B (zh) * | 2018-05-25 | 2023-06-02 | 南京邮电大学 | 基于dtw和gmm模型的多维特征参数声纹识别方法 |
CN109147798B (zh) * | 2018-07-27 | 2023-06-09 | 北京三快在线科技有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN109146002B (zh) * | 2018-09-30 | 2021-06-01 | 佛山科学技术学院 | 一种gmm识别器的快速识别方法 |
CN109841229A (zh) * | 2019-02-24 | 2019-06-04 | 复旦大学 | 一种基于动态时间规整的新生儿哭声识别方法 |
CN110889009B (zh) * | 2019-10-18 | 2023-07-21 | 平安科技(深圳)有限公司 | 一种声纹聚类方法、装置、处理设备以及计算机存储介质 |
CN111128198B (zh) * | 2019-12-25 | 2022-10-28 | 厦门快商通科技股份有限公司 | 一种声纹识别方法、装置、存储介质、服务器及*** |
CN111341327A (zh) * | 2020-02-28 | 2020-06-26 | 广州国音智能科技有限公司 | 一种基于粒子群算法的说话人语音识别方法、装置和设备 |
CN111583938B (zh) * | 2020-05-19 | 2023-02-03 | 威盛电子股份有限公司 | 电子装置与语音识别方法 |
CN113611284B (zh) * | 2021-08-06 | 2024-05-07 | 工银科技有限公司 | 语音库构建方法、识别方法、构建***和识别*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011004098A1 (fr) * | 2009-07-07 | 2011-01-13 | France Telecom | Allocation de bits dans un codage/décodage d'amélioration d'un codage/décodage hiérarchique de signaux audionumériques |
CN102231277A (zh) * | 2011-06-29 | 2011-11-02 | 电子科技大学 | 基于声纹识别的移动终端隐私保护方法 |
-
2011
- 2011-12-29 CN CN2011104503646A patent/CN102509547B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011004098A1 (fr) * | 2009-07-07 | 2011-01-13 | France Telecom | Allocation de bits dans un codage/décodage d'amélioration d'un codage/décodage hiérarchique de signaux audionumériques |
CN102231277A (zh) * | 2011-06-29 | 2011-11-02 | 电子科技大学 | 基于声纹识别的移动终端隐私保护方法 |
Non-Patent Citations (1)
Title |
---|
张彩娟,霍春宝,吴峰,韦春丽.《改进K-means算法在声纹识别中的应用》.《辽宁工业大学学报》.2011,第31卷(第5期),第1-4节. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102810A (zh) * | 2017-06-21 | 2018-12-28 | 北京搜狗科技发展有限公司 | 声纹识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102509547A (zh) | 2012-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102509547B (zh) | 基于矢量量化的声纹识别方法及*** | |
CN102324232A (zh) | 基于高斯混合模型的声纹识别方法及*** | |
CN102800316B (zh) | 基于神经网络的声纹识别***的最优码本设计方法 | |
CN102820033B (zh) | 一种声纹识别方法 | |
Chavan et al. | An overview of speech recognition using HMM | |
CN108900725A (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
Kekre et al. | Speaker identification by using vector quantization | |
CN103794207A (zh) | 一种双模语音身份识别方法 | |
CN101540170B (zh) | 一种基于仿生模式识别的声纹识别方法 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN102968990A (zh) | 说话人识别方法和*** | |
Todkar et al. | Speaker recognition techniques: A review | |
CN112735435A (zh) | 具备未知类别内部划分能力的声纹开集识别方法 | |
Zhang et al. | Voice biometric identity authentication system based on android smart phone | |
CN104464738B (zh) | 一种面向智能移动设备的声纹识别方法 | |
Rudresh et al. | Performance analysis of speech digit recognition using cepstrum and vector quantization | |
Sun et al. | A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea | |
JPH09507921A (ja) | ニューラルネットワークを使用した音声認識システムおよびその使用方法 | |
Goh et al. | Robust computer voice recognition using improved MFCC algorithm | |
Sarangi et al. | A novel approach in feature level for robust text-independent speaker identification system | |
Nijhawan et al. | Speaker recognition using support vector machine | |
Chauhan et al. | A review of automatic speaker recognition system | |
Wang et al. | Robust Text-independent Speaker Identification in a Time-varying Noisy Environment. | |
CN109003613A (zh) | 结合空间信息的声纹识别支付信息防伪方法 | |
Panda et al. | Study of speaker recognition systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130619 Termination date: 20131229 |