CN110364169A - 声纹识别方法、装置、设备及计算机可读存储介质 - Google Patents
声纹识别方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110364169A CN110364169A CN201910777107.XA CN201910777107A CN110364169A CN 110364169 A CN110364169 A CN 110364169A CN 201910777107 A CN201910777107 A CN 201910777107A CN 110364169 A CN110364169 A CN 110364169A
- Authority
- CN
- China
- Prior art keywords
- vocal print
- voiceprint
- mode
- identified
- print feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000001755 vocal effect Effects 0.000 claims abstract description 182
- 230000009467 reduction Effects 0.000 claims abstract description 21
- 238000011946 reduction process Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 68
- 238000000354 decomposition reaction Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000630 rising effect Effects 0.000 description 4
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 1
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3226—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
- H04L9/3231—Biological data, e.g. fingerprint, voice or retina
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种声纹识别方法、装置、设备及计算机可读存储介质,该方法包括步骤:获取用于声纹识别的语音信息,并对语音信息进行分解,得到第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪处理,再将降噪后的第一模态信号与除第一模态之外的模态信号进行相加重构,得到待识别声纹信息;计算待识别声纹信息的识别度;根据识别度判断待识别声纹信息是否为目标声纹。本发明提供了声纹识别的方法,提高了现有技术对声纹识别不准确的问题。
Description
技术领域
本发明涉及终端技术领域,尤其涉及一种声纹识别方法、装置、设备及计算机可读存储介质。
背景技术
声纹识别技术起初应用于军事领域,后来该项技术的发展使得该项技术逐渐应用于法医鉴定,身份鉴别等领域,但是现有的声纹识别技术在实际应用中由于受到周围嘈杂环境的影响,采集的语音信息含有噪音,导致识别效果不佳,加之,一个人的声音易受身体状况、年龄、情绪等的影响,进一步的造成了声纹识别不准确的问题。
发明内容
本发明的主要目的在于提出一种声纹识别方法、装置、设备及计算机可读存储介质,旨在解决目前的声纹识别技术对声纹识别不准确的问题。
为实现上述目的,本发明提供了一种声纹识别方法,所述声纹识别方法包括:
获取用于声纹识别的语音信息,并对所述语音信息进行分解,得到第一模态信号和除所述第一模态之外的模态信号;
对所述第一模态信号进行降噪处理,再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构,得到待识别声纹信息;
计算所述待识别声纹信息的识别度;
根据所述识别度判断所述待识别声纹信息是否为目标声纹。
可选地,所述获取用于声纹识别的语音信息,并对所述语音信息进行分解,得到第一模态信号和除所述第一模态之外的模态信号的步骤包括:
将所述语音信息转换为数字信号,对所述数字信号进行特征提取,得到语音功率谱图;
采用集合经验模态分解方法对所述语音功率谱图进行分解,得到第一模态信号和除所述第一模态之外的模态信号。
可选地,所述对所述第一模态信号进行降噪处理,再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构,得到待识别声纹信息的步骤包括:
采用小波降噪方法对所述第一模态信号进行降噪处理,再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构,得到待识别声纹信息。
可选地,所述计算所述待识别声纹信息的识别度的步骤之前,还包括:
提取所述待识别声纹信息中的第一声纹特征和声纹识别模型中的第二声纹特征;
根据所述第一声纹特征,构造出所述第二声纹特征中的第二声纹特征向量。
可选地,所述根据所述第一声纹特征,构造出所述第二声纹特征中的第二声纹特征向量的步骤包括:
根据所述第一声纹特征中的第一声纹特征向量调整预先建立的声纹通用模型中与所述第一声纹特征向量对应的声纹特征向量参数,以构造出与所述待识别声纹信息相适应的所述声纹识别模型中的所述第二声纹特征中的第二声纹特征向量。
可选地,所述计算所述待识别声纹信息的识别度的步骤包括:
计算所述第一声纹特征中的每个所述第一声纹特征向量与所述第二声纹特征中每个与所述第一声纹特征向量相对应的所述第二声纹特征向量的向量距离;
根据计算得到的多个所述向量距离计算所述第一声纹特征与所述第二声纹特征的目标距离;
利用所述目标距离计算所述待识别声纹信息的识别度。
可选地,所述根据所述识别度判断所述待识别声纹信息是否为目标声纹的步骤之后,还包括:
若判断出所述识别度大于预设阈值,则识别出所述待识别声纹信息为所述目标声纹。
此外,为实现上述目的,本发明还提供一种声纹识别装置,所述声纹识别装置包括:
获取模块,用于获取用于声纹识别的语音信息;
分解模块,用于对所述语音信息进行分解,得到第一模态信号和除所述第一模态之外的模态信号;
降噪模块,用于对所述第一模态信号进行降噪处理;
重构模块,用于将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构,得到待识别声纹信息;
计算模块,用于计算所述待识别声纹信息的识别度;
判断模块,用于根据所述识别度判断所述待识别声纹信息是否为目标声纹。
此外,为实现上述目的,本发明还提供一种声纹识别设备,所述声纹识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹识别程序,所述声纹识别程序被所述处理器执行时实现如上文所述的声纹识别方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有声纹识别程序,所述声纹识别程序被处理器执行时实现如上文所述的声纹识别方法的步骤。
本发明通过对用于声纹识别的语音信息进行降噪处理,防止语音信息中的噪声影响声纹识别的效果,得到待识别声纹信息,再计算待识别声纹信息的识别度,根据识别度判断待识别声纹信息是否为目标信息,提高了声纹识别的准确度。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明声纹识别方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种声纹识别设备,参照图1,图1是本发明实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图1即可为声纹识别设备的硬件运行环境的结构示意图。本发明实施例声纹识别设备可以是PC,便携计算机等终端设备。
如图1所示,该声纹识别设备可以包括:处理器1001,例如CPU,存储器1005,用户接口1003,网络接口1004,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,声纹识别设备还可以包括RF(Radio Frequency,射频)电路,传感器、WiFi模块等等。
本领域技术人员可以理解,图1中示出的声纹识别设备结构并不构成声纹识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及声纹识别程序。其中,操作***是管理和控制声纹识别设备硬件和软件资源的程序,支持声纹识别程序以及其它软件或程序的运行。
图1所示的声纹识别设备,可用于声纹识别设备的声纹识别,用户接口1003主要用于侦测或者输出各种消息,如侦测语音信息和输出目标声纹等;网络接口1004主要用于与后台服务器交互,进行通信;处理器1001可以用于调用存储器1005中存储的声纹识别程序,并执行以下操作:
获取用于声纹识别的语音信息,并对所述语音信息进行分解,得到第一模态信号和除所述第一模态之外的模态信号;
对所述第一模态信号进行降噪处理,再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构,得到待识别声纹信息;
计算所述待识别声纹信息的识别度;
根据所述识别度判断所述待识别声纹信息是否为目标声纹。
进一步地,所述获取用于声纹识别的语音信息,并对所述语音信息进行分解,得到第一模态信号和除所述第一模态之外的模态信号的步骤包括:
将所述语音信息转换为数字信号,对所述数字信号进行特征提取,得到语音功率谱图;
采用集合经验模态分解方法对所述语音功率谱图进行分解,得到第一模态信号和除所述第一模态之外的模态信号。
进一步地,所述对所述第一模态信号进行降噪处理,再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构,得到待识别声纹信息的步骤包括:
采用小波降噪方法对所述第一模态信号进行降噪处理,再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构,得到待识别声纹信息。
进一步地,所述计算所述待识别声纹信息的识别度的步骤之前,处理器1001还可以用于调用存储器1005中存储的声纹识别程序,并执行以下步骤:
提取所述待识别声纹信息中的第一声纹特征和声纹识别模型中的第二声纹特征;
根据所述第一声纹特征,构造出所述第二声纹特征中的第二声纹特征向量。
进一步地,所述根据所述第一声纹特征,构造出所述第二声纹特征中的第二声纹特征向量的步骤包括:
根据所述第一声纹特征中的第一声纹特征向量调整预先建立的声纹通用模型中与所述第一声纹特征向量对应的声纹特征向量参数,以构造出与所述待识别声纹信息相适应的所述声纹识别模型中的所述第二声纹特征中的第二声纹特征向量。
进一步地,所述计算所述待识别声纹信息的识别度的步骤包括:
计算所述第一声纹特征中的每个所述第一声纹特征向量与所述第二声纹特征中每个与所述第一声纹特征向量相对应的所述第二声纹特征向量的向量距离;
根据计算得到的多个所述向量距离计算所述第一声纹特征与所述第二声纹特征的目标距离;
利用所述目标距离计算所述待识别声纹信息的识别度。
进一步地,所述根据所述识别度判断所述待识别声纹信息是否为目标声纹的步骤之后,处理器1001还可以用于调用存储器1005中存储的声纹识别程序,并执行以下步骤:
若判断出所述识别度大于预设阈值,则识别出所述待识别声纹信息为所述目标声纹。
本发明声纹识别设备具体实施方式与下述声纹识别方法各实施例基本相同,在此不再赘述。
基于上述的硬件结构,提出本发明声纹识别方法的各个实施例。
参照图2,图2为本发明声纹识别方法第一实施例的流程示意图。
在本实施例中,提供了声纹识别方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中,声纹识别方法可选应用于声纹识别设备中,声纹识别设备可为PC,便携式计算机,服务器等。
在本实施例中,声纹识别方法包括:
步骤S10,获取用于声纹识别的语音信息,并对所述语音信息进行分解,得到第一模态信号和除所述第一模态之外的模态信号。
对用于声纹识别的语音信息进行分解,最终可以获取含有最多噪声能量的第一模态信息,以及除第一模态信号之外的其他模态信号。而其他模态信号所包含的噪声能量都是极少的,不会对分离出的说话人的语音信号造成影响。因此,不需对其进行降噪处理,只需对包含噪声能量最多的第一模态信号进行降噪处理即可。
步骤S20,对所述第一模态信号进行降噪处理,再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构,得到待识别声纹信息。
去除第一模态信号中的噪声,对去除噪声后的第一模态信号与除第一模态信号之外的其他模态信号进行相加重构,得到重组后的模态信号,该重组后的模态信号即为待识别声纹信息。
进一步地,步骤S20包括:
步骤a,采用小波降噪方法对所述第一模态信号进行降噪处理,再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构,得到待识别声纹信息。
利用小波降噪方法可以有效降低第一模态信号中的加性噪声,降低加性噪声对声纹识别结果的干扰。
小波去噪方法本质上是一个函数逼近问题,即如何在由小波母函数伸缩和平移版本所展成的函数空间中,根据提出的衡量准则,寻找对第一模态信号的最佳逼近,以完成第一模态信号和噪声信号的区分,也就是寻找从实际信号空间到小波函数空间的最佳映射,以便得到第一模态信号的最佳恢复
步骤S30,计算所述待识别声纹信息的识别度。
步骤S40,根据所述识别度判断所述待识别声纹信息是否为目标声纹。
待识别信息的识别度表示的是该待识别声纹信息与目标声纹的相似程度,根据该相似程度判断该待识别声纹信息是否为目标声纹。可以理解的是相似度越高,该待识别声纹信息为目标声纹的可能性越大。
判断待识别声纹信息是否为目标声纹的步骤包括:
步骤b,若判断出所述识别度大于预设阈值,则识别出所述待识别声纹信息为所述目标声纹。
预设阈值是判断待识别声纹信息是否为目标声纹的标准,其设定可以由研究人员根据实践经验设定,也可以根据实验测定结果设定,包括但不限于这两种设定方式。当待识别声纹信息的识别度大于预设阈值后,确定待识别声纹信息为目标声纹。如果待识别声纹信息的识别度小于或者等于预设阈值,该待识别声纹信息不是目标声纹,此时可以进行下一个语音信息的识别。
本实施例通过对输入的语音信息的降噪处理,得到待识别声纹信息,有效阻止了语音信息中的噪音对声纹识别的干扰,提高了声纹识别的准确度,再计算待识别声纹信息的识别度,通过该识别度判断待识别声纹信息是否为目标声纹,又进一步地提高了声纹识别的准确度。
进一步地,提出本发明声纹识别方法的第二实施例。声纹识别方法的第二实施例与声纹识别方法的第一实施例的区别在于,所述获取用于声纹识别的语音信息,并对所述语音信息进行分解,得到第一模态信号和除所述第一模态之外的模态信号的步骤包括:
步骤c,将所述语音信息转换为数字信号,对所述数字信号进行特征提取,得到语音功率谱图。
将用于声纹识别的语音信息转换成数字信号,就是对该语音信号进行数字化处理,得到语音信号的数字化编码,然后对该数字化编码进行特征处理,获取每个数字信号对应的功率,进而获得语音功率谱图。具体的获取过程为现有技术,在这里不再赘述。
步骤d,采用集合经验模态分解方法对所述语音功率谱图进行分解,得到第一模态信号和除所述第一模态之外的模态信号。
集合经验模态分解方法是将语音功率谱图在二维图像上分解为多个模态,包括第一模态信号。集合经验模态分解方法是针对工业现场间歇非平稳时间序列中的特征提取与状态预测问题,提出了一种基于集合经验模态分解、主要成分分析和支持向量机的预测新方法。
本实施例通过将语音信息转换为数字信号,对数字信号进行特征提取,得到语音功率谱图,再对语音功率谱图进行分解,分离出第一模态信号,使得在对第一模态信号降噪处理的同时可以尽量避免语音信息中其他有效信号的损失,进一步地提高了声纹识别的准确度。
进一步地,提出本发明声纹识别方法的第三实施例。声纹识别方法的第三实施例与声纹识别方法的第一或第二实施例的区别在于,所述声纹识别方法还包括:
步骤e,提取所述待识别声纹信息中的第一声纹特征和声纹识别模型中的第二声纹特征;
第一声纹特征包括但不限于多个第一声纹特征向量,4个实小波特征、4个双树复小波特征、梅尔倒谱系数特征、差分梅尔倒谱系数特征。声纹识别模型可以但不限于是根据待识别声纹中第一声纹特征的多个第一声纹特征向量对声纹通用模型进行调整后,得到与待识别声纹相适应的用于识别待识别声纹的声纹识别模型。声纹识别模型中包括但不限于第二声纹特征。
步骤f,根据所述第一声纹特征,构造出所述第二声纹特征中的第二声纹特征向量。
步骤g,根据所述第一声纹特征中的第一声纹特征向量调整预先建立的声纹通用模型中与所述第一声纹特征向量对应的声纹特征向量参数,以构造出与所述待识别声纹信息相适应的所述声纹识别模型中的所述第二声纹特征中的第二声纹特征向量。
第一声纹特征包括但不限于多个第一声纹特征向量,第二声纹特征包括但不限于多个第二声纹特征向量。例如,每个声纹特征包括10个VQ码本,也就是说,每个第一声纹特征向量对应一个VQ码本,其中,每个VQ码本对应一组特征集。
根据第一声纹中的多个第一声纹特征向量调整声纹通用模型,以得到与待识别声纹相适应的声纹识别模型,从而便于利用声纹识别模型实现声纹识别。
在提取待识别声纹中的第一声纹特征之前,通过调整通用模型以得到与待识别声纹相适应的声纹识别模型,实现对待识别声纹的预先注册,从而使得在声纹识别时可以根据预先注册的声纹识别模型直接进行准确识别,减小了模型建立的复杂度和建立周期,进而提高了声纹识别的可靠性及效率。
第一声纹特征中包括多个第一声纹特征向量,第二声纹特征中包括多个第二声纹特征向量,根据第一声纹特征和声纹识别模型中的第二声纹特征计算待识别声纹的识别度的步骤包括:
步骤h,计算所述第一声纹特征中的每个所述第一声纹特征向量与所述第二声纹特征中每个与所述第一声纹特征向量相对应的所述第二声纹特征向量的向量距离;
步骤i,根据计算得到的多个所述向量距离计算所述第一声纹特征与所述第二声纹特征的目标距离;
步骤j,利用所述目标距离计算所述待识别声纹信息的识别度。
待识别声纹信息的第一声纹特征中的第一声纹特征向量与声纹识别模型的第二声纹特征中的第二声纹特征向量之间的向量距离,对多个向量距离进行归一化处理,并加权求和得到第一声纹特征与第二声纹特征的目标距离,根据目标距离计算第一声纹特征的识别度,第一声纹特征的识别度即为待识别声纹信息的识别度。
本实施例通过提取待识别声纹信息中的第一声纹特征和声纹识别模型中的第二声纹特征,计算第一声纹特征中第一声纹特征向量与第二声纹特征中第二声纹特征向量的多个向量距离,再根据多个向量距离准确计算第一声纹特征与第二声纹特征的目标距离,进一步地保证了声纹识别度的准确性。
此外,本发明实施例还提出一种声纹识别装置,所述声纹识别装置包括:
获取模块,用于获取用于声纹识别的语音信息;
分解模块,用于对所述语音信息进行分解,得到第一模态信号和除所述第一模态之外的模态信号;
降噪模块,用于对所述第一模态信号进行降噪处理;
重构模块,用于将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构,得到待识别声纹信息;
计算模块,用于计算所述待识别声纹信息的识别度;
判断模块,用于根据所述识别度判断所述待识别声纹信息是否为目标声纹。
进一步地,所述分解模块包括:
转换单元,用于将所述语音信息转换为数字信号;
提取单元,用于对所述数字信号进行特征提取,得到语音功率谱图;
分解单元,用于采用集合经验模态分解方法对所述语音功率谱图进行分解,得到第一模态信号和除所述第一模态之外的模态信号。
进一步地,所述降噪模块还用于采用小波降噪方法对所述第一模态信号进行降噪处理。
进一步地,所述声纹识别装置还包括:
提取模块,用于提取所述待识别声纹信息中的第一声纹特征和声纹识别模型中的第二声纹特征;
构造模块,用于根据所述第一声纹特征,构造出所述第二声纹特征中的第二声纹特征向量。
进一步地,所述构造模块还用于根据所述第一声纹特征中的第一声纹特征向量调整预先建立的声纹通用模型中与所述第一声纹特征向量对应的声纹特征向量参数,以构造出与所述待识别声纹信息相适应的所述声纹识别模型中的所述第二声纹特征中的第二声纹特征向量。
进一步地,所述计算模块还用于计算所述第一声纹特征中的每个所述第一声纹特征向量与所述第二声纹特征中每个与所述第一声纹特征向量相对应的所述第二声纹特征向量的向量距离;根据计算得到的多个所述向量距离计算所述第一声纹特征与所述第二声纹特征的目标距离;利用所述目标距离计算所述待识别声纹信息的识别度。
进一步地,所述声纹识别装置还包括:
识别模块,用于若判断出所述识别度大于预设阈值,则识别出所述待识别声纹信息为所述目标声纹。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有声纹识别程序,所述声纹识别程序被处理器执行时实现如上所述的声纹识别方法的各个步骤。
需要说明的是,计算机可读存储介质可设置在声纹识别设备中。
本发明计算机可读存储介质具体实施方式与上述声纹识别方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种声纹识别的方法,其特征在于,所述声纹识别的方法包括:
获取用于声纹识别的语音信息,并对所述语音信息进行分解,得到第一模态信号和除所述第一模态之外的模态信号;
对所述第一模态信号进行降噪处理,再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构,得到待识别声纹信息;
计算所述待识别声纹信息的识别度;
根据所述识别度判断所述待识别声纹信息是否为目标声纹。
2.如权利要求1所述的声纹识别方法,其特征在于,所述获取用于声纹识别的语音信息,并对所述语音信息进行分解,得到第一模态信号和除所述第一模态之外的模态信号的步骤包括:
将所述语音信息转换为数字信号,对所述数字信号进行特征提取,得到语音功率谱图;
采用集合经验模态分解方法对所述语音功率谱图进行分解,得到第一模态信号和除所述第一模态之外的模态信号。
3.如权利要求1所述的声纹识别方法,其特征在于,所述对所述第一模态信号进行降噪处理,再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构,得到待识别声纹信息的步骤包括:
采用小波降噪方法对所述第一模态信号进行降噪处理,再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构,得到待识别声纹信息。
4.如权利要求1所述的声纹识别方法,其特征在于,所述计算所述待识别声纹信息的识别度的步骤之前,还包括:
提取所述待识别声纹信息中的第一声纹特征和声纹识别模型中的第二声纹特征;
根据所述第一声纹特征,构造出所述第二声纹特征中的第二声纹特征向量。
5.如权利要求4所述的声纹识别方法,其特征在于,所述根据所述第一声纹特征,构造出所述第二声纹特征中的第二声纹特征向量的步骤包括:
根据所述第一声纹特征中的第一声纹特征向量调整预先建立的声纹通用模型中与所述第一声纹特征向量对应的声纹特征向量参数,以构造出与所述待识别声纹信息相适应的所述声纹识别模型中的所述第二声纹特征中的第二声纹特征向量。
6.如权利要求1所述的声纹识别方法,其特征在于,所述计算所述待识别声纹信息的识别度的步骤包括:
计算所述第一声纹特征中的每个所述第一声纹特征向量与所述第二声纹特征中每个与所述第一声纹特征向量相对应的所述第二声纹特征向量的向量距离;
根据计算得到的多个所述向量距离计算所述第一声纹特征与所述第二声纹特征的目标距离;
利用所述目标距离计算所述待识别声纹信息的识别度。
7.如权利要求1至6所述的声纹识别方法,其特征在于,所述根据所述识别度判断所述待识别声纹信息是否为目标声纹的步骤之后,还包括:
若判断出所述识别度大于预设阈值,则识别出所述待识别声纹信息为所述目标声纹。
8.一种声纹识别装置,其特征在于,所述声纹装置包括:
获取模块,用于获取用于声纹识别的语音信息;
分解模块,用于对所述语音信息进行分解,得到第一模态信号和除所述第一模态之外的模态信号;
降噪模块,用于对所述第一模态信号进行降噪处理;
重构模块,用于将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构,得到待识别声纹信息;
计算模块,用于计算所述待识别声纹信息的识别度;
判断模块,用于根据所述识别度判断所述待识别声纹信息是否为目标声纹。
9.一种声纹识别设备,其特征在于,所述声纹识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹识别程序,所述声纹识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的声纹识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有声纹识别程序,所述声纹识别程序被处理器执行时实现如权利要求1至7中任一项所述的声纹识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910777107.XA CN110364169A (zh) | 2019-08-21 | 2019-08-21 | 声纹识别方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910777107.XA CN110364169A (zh) | 2019-08-21 | 2019-08-21 | 声纹识别方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110364169A true CN110364169A (zh) | 2019-10-22 |
Family
ID=68225329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910777107.XA Pending CN110364169A (zh) | 2019-08-21 | 2019-08-21 | 声纹识别方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110364169A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110875043A (zh) * | 2019-11-11 | 2020-03-10 | 广州国音智能科技有限公司 | 声纹识别方法、装置、移动终端及计算机可读存储介质 |
CN113948089A (zh) * | 2020-06-30 | 2022-01-18 | 北京猎户星空科技有限公司 | 声纹模型训练和声纹识别方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104485102A (zh) * | 2014-12-23 | 2015-04-01 | 智慧眼(湖南)科技发展有限公司 | 声纹识别方法和装置 |
CN105845140A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 应用于短语音条件下的说话人确认方法和装置 |
CN108735222A (zh) * | 2018-05-03 | 2018-11-02 | 广州国音科技有限公司 | 一种基于声纹识别的声纹鉴定方法及*** |
CN110070874A (zh) * | 2018-01-23 | 2019-07-30 | 中国科学院声学研究所 | 一种针对声纹识别的语音降噪方法及装置 |
-
2019
- 2019-08-21 CN CN201910777107.XA patent/CN110364169A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104485102A (zh) * | 2014-12-23 | 2015-04-01 | 智慧眼(湖南)科技发展有限公司 | 声纹识别方法和装置 |
CN105845140A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 应用于短语音条件下的说话人确认方法和装置 |
CN110070874A (zh) * | 2018-01-23 | 2019-07-30 | 中国科学院声学研究所 | 一种针对声纹识别的语音降噪方法及装置 |
CN108735222A (zh) * | 2018-05-03 | 2018-11-02 | 广州国音科技有限公司 | 一种基于声纹识别的声纹鉴定方法及*** |
Non-Patent Citations (1)
Title |
---|
徐佳: "《希尔伯特-黄变换理论及其在重大工程变形监测中的应用》", 31 July 2013 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110875043A (zh) * | 2019-11-11 | 2020-03-10 | 广州国音智能科技有限公司 | 声纹识别方法、装置、移动终端及计算机可读存储介质 |
CN110875043B (zh) * | 2019-11-11 | 2022-06-17 | 广州国音智能科技有限公司 | 声纹识别方法、装置、移动终端及计算机可读存储介质 |
CN113948089A (zh) * | 2020-06-30 | 2022-01-18 | 北京猎户星空科技有限公司 | 声纹模型训练和声纹识别方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109817213B (zh) | 用于自适应语种进行语音识别的方法、装置及设备 | |
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
US10943582B2 (en) | Method and apparatus of training acoustic feature extracting model, device and computer storage medium | |
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN103065631B (zh) | 一种语音识别的方法、装置 | |
CN103971680B (zh) | 一种语音识别的方法、装置 | |
CN112185352B (zh) | 语音识别方法、装置及电子设备 | |
CN110265040A (zh) | 声纹模型的训练方法、装置、存储介质及电子设备 | |
CN110428842A (zh) | 语音模型训练方法、装置、设备及计算机可读存储介质 | |
CN110379407B (zh) | 自适应语音合成方法、装置、可读存储介质及计算设备 | |
CN110415701A (zh) | 唇语的识别方法及其装置 | |
CN110277088B (zh) | 智能语音识别方法、装置及计算机可读存储介质 | |
CN103543979A (zh) | 一种输出语音的方法、语音交互的方法及电子设备 | |
CN107316635B (zh) | 语音识别方法及装置、存储介质、电子设备 | |
CN111902862A (zh) | 耳语音处理方法及设备 | |
CN113129927B (zh) | 语音情绪识别方法、装置、设备及存储介质 | |
CN115602165B (zh) | 基于金融***的数字员工智能*** | |
CN111435592A (zh) | 一种语音识别方法、装置及终端设备 | |
CN113571078B (zh) | 噪声抑制方法、装置、介质以及电子设备 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、***及存储介质 | |
CN110364169A (zh) | 声纹识别方法、装置、设备及计算机可读存储介质 | |
CN110580897B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN111862962A (zh) | 一种语音识别方法及*** | |
CN113851113A (zh) | 模型训练方法及装置、语音唤醒方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191022 |
|
RJ01 | Rejection of invention patent application after publication |