CN109473107B - 一种文本半相关的声纹识别方法及*** - Google Patents
一种文本半相关的声纹识别方法及*** Download PDFInfo
- Publication number
- CN109473107B CN109473107B CN201811468428.3A CN201811468428A CN109473107B CN 109473107 B CN109473107 B CN 109473107B CN 201811468428 A CN201811468428 A CN 201811468428A CN 109473107 B CN109473107 B CN 109473107B
- Authority
- CN
- China
- Prior art keywords
- verification
- section
- string
- feature
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000012795 verification Methods 0.000 claims abstract description 277
- 239000013598 vector Substances 0.000 claims abstract description 131
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010200 validation analysis Methods 0.000 description 3
- 238000013077 scoring method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种文本半相关的声纹识别方法及***,所述方法包括:在注册过程中获取注册用户读几段不同的字符串的语音,对所述语音根据内容进行切分,并对切分后语音段进行特征提取;随机产生一段验证字符串,获取验证特征向量V,对验证特征向量V进行加权获取改良验证特征向量V’,根据所述一段验证字符串对应的字符获取获得注册特征向量U,计算改良后的验证特征向量V’和注册特征向量U的相似度llr判断验证用户与注册用户是否一致。采用本发明的声纹识别方法及***具备简单可靠安全,同时充分考虑了各数字的不同识别效果,大大提高声纹识别精度。
Description
技术领域
本发明涉及声纹识别技术领域,具体涉及与一串随机动态数字相关的一种文本半相关的声纹识别方法。
背景技术
在现有声纹识别中主要有两种声纹识别方式,分别为固定文本(text-dependent)声纹识别和文本无关(text-independent)声纹识别,在实际应用中,文本无关声纹识别需要很长的语音才能达到理想的识别效果,而固定文本声纹识别只要很短的一句话就能有很好的识别效果。但在实际应用中固定文本声纹识别方式由于文本内容固定,难以防止录音等情况发生,固定文本声纹识别方式存在较大的安全问题。
在声纹识别的实际应用中以动态数字串最为常见,其在注册时会给出几个随机数字串,而在验证时给出一个随机数字串用于识别,具体包含:
(1)注册步骤:获取说话人读几段不同的数字串的语音,对所述语音根据内容进行切分,即将语音内容的每个数字切成一段,并对切分后语音段进行特征提取,
(2)验证步骤:将说话人读的一段数字串语音进行切分,分别提取特征,然后将提取的特征依次串起来获取验证特征向量V;
(3)相似度判断步骤:将注册获取的不同数字的特征,根据验证给的数字串依次串起来获得注册特征向量U,通过cosine方式计算V和U的相似度。
上述声纹识别方法未考虑到各个数字的识别效果,声纹识别精度较低。
发明内容
本发明的目的在于克服现有技术问题,提出一种即提高声纹识别精度,又可以从较短语音进行声纹识别,同时可以防止录音等情况产生,确保声纹识别应用安全的文本半相关的声纹识别方法及***,
为达成上述目的,本发明提供了文本半相关的声纹识别方法,所述方法包括如下:
步骤一,在注册过程中获取注册用户读几段不同的字符串的语音,对所述语音根据内容进行切分,并对切分后语音段进行特征提取;所述切分是将语音内容的每个字符切成一语音段;
步骤二,随机产生一段验证字符串,所述一段验证字符串包含n个字符,并获取待验证用户读的一段验证字符串语音内容,并对一段验证字符串语音内容进行切分,分别对每个字符提取的特征,并将提取的特征依次串起来获取验证特征向量V,对验证特征向量V进行加权获取改良验证特征向量V’,其中,V=[v1,v2,...,vn],V’=[C1v1,C2v2,...,Cnvn],vi为所述一段验证字符串的第i个字符的特征,Ci为所述一段验证字符串的第i个字符的特征对应的权值,
其中i、n均为正整数,n≥2,1≤i≤n;
步骤三,根据所述一段验证字符串对应的字符获取注册用户在注册过程中对应的特征,并依次即将所述一段验证字符串对应的字符特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证字符串的第i个字符对应的注册特征;
步骤四,计算改良后的验证特征向量V’和注册特征向量U的相似度llr;
步骤五,根据所述相似度llr值的大小判断验证用户与注册用户是否一致。
可选地,所述字符串为数字串,所述一段验证数字串包含n个数字;
步骤一,在注册过程中获取注册用户读几段不同的数字串的语音,对所述语音根据内容进行切分,并对切分后语音段进行特征提取;所述切分是将语音内容的每个数字切成一语音段;
步骤二,随机产生一段验证数字串,所述一段验证数字串包含n个数字,并获取待验证用户读的一段验证数字串语音内容,并对一段验证数字串语音内容进行切分,分别对每个数字提取的特征,并将提取的特征依次串起来获取验证特征向量V,对验证特征向量V进行加权获取改良验证特征向量V’,其中,V=[v1,v2,...,vn],V’=[C1v1,C2v2,...,Cnvn],vi为所述一段验证数字串的第i个数字验证特征,Ci为所述一段验证数字串的第i个数字验证特征对应的权值;
步骤三,根据所述一段验证数字串对应的数字获取注册用户在注册过程中对应的特征,并依次即将所述一段验证数字串对应的数字特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证数字串的第i个数字对应的注册特征。
进一步的,Ci为误识率为f的情况下,所述一段验证数字串的第i个数字单独用于声纹识别的识别率r作为所述一段验证数字串的第i个数字的验证特征对应的权值,所述一段验证数字串的第i个数字为数字“X”,所述识别率r的获取过程包括:
(1)获取m个人的数字“X”的语音段,每个人至少包含两段语音,分别提取各语音段的特征向量;
(2)构建一定数量的正负对,两个特征为同一人即正对,两个特征为不同人为负对;
正对是指注册过程输出的特征与验证过程输出的特征一致,负对是指注册过程输出的特征与验证过程输出的特征不一致,特征是从语音中提取的,如果配对的两段语音不是同一人的即为负对,为同一人的即为正对;
(3)分别对一定数量的正负对的特征向量进行打分,其中,正对的特征向量打分大于t的数量为Tg,正对的特征向量打分小于t的数量为Tl;负对的特征向量打分大于t的数量为Fg,负对的特征向量小于t的数量为Fl,计算误识率为f=Fl/(Fg+Fl);
所述打分是注册特征向量、验证特征向量进行相似度进行计算;
(4)识别率为r=Tl/(Tg+Tl),其中,所述一段验证数字串的第i个数字为数字“X”的Ci值即为确定f值时的识别率r值。
进一步的,需要说明的是,误识率的f值可根据场景需求行设定。
可选地,构建一定数量的正负对,其中一定数量为不低10000。
进一步的,在本发明优选实施例中,在步骤四中,通过余弦距离算法获取改良后的验证特征向量V’和注册特征向量U的相似度llr。
与上述文本半相关的声纹识别方法相对应的,本发明还提供了一种文本半相关的声纹识别***,包括:
注册模块,用于提供几段不同的字符串供注册用户读取,获取注册用户读几段不同的字符串的语音,用于对语音进行切分后语音段进行特征提取;所述切分是将语音内容的每个字符切成一语音段;
验证模块,用于随机产生一段验证字符串,所述一段验证字符串包含n个字符;
验证特征模块,用于获取待验证用户读的一段验证字符串语音内容,并对一段验证字符串语音内容进行切分,分别对每个字符提取的特征,并将提取的特征依次串起来获取验证特征向量V,V=[v1,v2,...,vn],vi为所述一段验证字符串的第i个字符的特征,v1为所述一段验证字符串的第1个字符的特征,v2为所述一段验证字符串的第2个字符的特征,vn为所述一段验证字符串的第n个字符的特征,其中i、n均为正整数,n≥2,1≤i≤n;
改良模块,用于对验证特征向量V进行加权获取改良验证特征向量V’,V’=[C1v1,C2v2,...,Cnvn],Ci为所述一段验证字符串的第i个字符的特征对应的权值;
注册特征模块,用于根据所述验证模块产生的所述一段验证字符串对应的字符获取注册用户在注册过程中对应的特征,并依次即将所述一段验证字符串对应的特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证字符串的第i个字符对应的注册特征;
判断模块,用于计算改良后的验证特征向量V’和注册特征向量U的相似度llr,,并根据所述相似度llr值的大小判断验证用户与注册用户是否一致。
可选的,上述文本半相关的声纹识别***中,所述注册模块提供几段不同的数字串供注册用户读取,所述几段不同的数字串的语音为几段不同的数字串的语音,所述切分是将语音内容的每个数字切成一语音段;
所述验证模块随机产生一段验证数字串,所述一段验证数字串包含n个数字;
所述验证特征模块获取待验证用户读的一段验证数字串语音内容,并对一段验证数字串语音内容进行切分,分别对每个数字提取的特征,并将提取的特征依次串起来获取验证特征向量V,V=[v1,v2,...,vn],vi为所述一段验证数字串的第i个数字的特征;
改良模块,用于对验证特征向量V进行加权获取改良验证特征向量V’,V’=[C1v1,C2v2,...,Cnvn],Ci为所述一段验证数字串的第i个数字的特征对应的权值;
注册特征模块,用于根据所述验证模块产生的所述一段验证数字串对应的数字获取注册用户在注册过程中对应的特征,并依次即将所述一段验证数字串对应的特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证数字串的第i个数字对应的注册特征。
进一步的,上述文本半相关的声纹识别***中所述改良模块中的Ci为所述一段验证数字串的第i个数字的特征对应的权值;误识率为f的情况下,所述一段验证数字串的第i个数字单独用于声纹识别的识别率r作为所述一段验证数字串的第i个数字的验证特征对应的权值,所述一段验证数字串的第i个数字为数字“X”,改良模块中的获取识别率r包括:
获取m个人的数字“X”的语音段,每个人至少包含两段语音,分别提取各语音段的特征向量;
构建一定数量的正负对,两个特征为同一人即正对,两个特征为不同人为负对;
正对是指注册过程输出的特征与验证过程输出的特征一致,负对是指注册过程输出的特征与验证过程输出的特征不一致,特征是从语音中提取的,如果配对的两段语音不是同一人的即为负对,为同一人的即为正对;
分别对一定数量的正负对的特征向量进行打分,其中,正对的特征向量打分大于t的数量为Tg,正对的特征向量打分小于t的数量为Tl;负对的特征向量打分大于t的数量为Fg,负对的特征向量小于t的数量为Fl,计算误识率为f=Fl/(Fg+Fl);
所述打分是注册特征向量、验证特征向量进行相似度进行计算;
识别率为r=Tl/(Tg+Tl),其中,所述一段验证数字串的第i个数字为数字“X”的Ci值即为确定f值时的识别率r值。
进一步的,上述文本半相关的声纹识别***中所述改良模块中的所述构建一定数量的正负对,其中一定数量为不低10000;误识率的f值可根据场景需求行设定。
与现有技术相比,通过本发明的文本半相关的声纹识别方法及***,即提高声纹识别精度,又可以从较短语音进行声纹识别,同时可以防止录音等情况产生,确保声纹识别应用安全的。
附图说明
此处所说明的附图用来提供对发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明的实施例1文本半相关的声纹识别方法的流程步骤图;
图2为本发明的实施例3文本半相关的声纹识别***的原理示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种文本半相关的声纹识别方法,如附图1所示,所述方法包括如下:
步骤S1,在注册过程中获取注册用户读几段不同的字符串的语音,对所述语音根据内容进行切分,并对切分后语音段进行特征提取;所述切分是将语音内容的每个字符切成一语音段;
步骤S2,随机产生一段验证字符串,所述一段验证字符串包含n个字符,
步骤S3,获取待验证用户读的一段验证字符串语音内容,并对一段验证字符串语音内容进行切分,分别对每个字符提取的特征,并将提取的特征依次串起来获取验证特征向量V;
步骤S4,对验证特征向量V进行加权获取改良验证特征向量V’,其中,V=[v1,v2,...,vn],V’=[C1v1,C2v2,...,Cnvn],vi为所述一段验证字符串的第i个字符的特征,Ci为所述一段验证字符串的第i个字符的特征对应的权值,即v1为所述一段验证字符串的第1个字符的特征,vi为所述一段验证字符串的第i个字符的特征,vn为所述一段验证字符串的第n个字符的特征;C1为所述一段验证字符串的第1个字符的特征对应的权值,Ci为所述一段验证字符串的第i个字符串的特征对应的权值,Cn为所述一段验证字符串的第n个字符的特征对应的权值,
其中i、n均为正整数,n≥2,1≤i≤n;
进一步的,Ci为误识率为f的情况下,第i个数字单独用于声纹识别的识别率r作为第i个数字的验证特征对应的权值。
识别率r的获取方法如下:
本发明实施例以字符Y为例,介绍字符Y验证特征对应的权值的C的获取方法,具体包括如下:
(1)获取m个人的字符Y的语音段,每个人至少包含两段语音,分别提取各语音段的特征向量。
(2)构建一定数量的正负对,两个特征为同一人即正对,两个特征为不同人为负对;为了使得结果越稳定可靠,其中一定数量为不低10000;
正对是指注册过程输出的特征与验证过程输出的特征一致,
负对是指注册过程输出的特征与验证过程输出的特征不一致,
特征是从语音中提取的,如果配对的两段语音不是同一人的即为负对,为同一人的即为正对,
(3)分别对一定数量的正负对的特征向量进行打分,其中,正对的特征向量打分大于t的数量为Tg,正对的特征向量打分小于t的数量为Tl;负对的特征向量打分大于t的数量为Fg,负对的特征向量小于t的数量为Fl,计算误识率为f=Fl/(Fg+Fl);
所述打分是注册特征向量、验证特征向量进行相似度进行计算,其中相似度计算在本发明实施例优选地为,余弦距离cosine计算,llr=cos(注册特征向量,验证特征向量),不限于这个方法,也可以使用plda,欧式距离等多种打分方法。
(4)识别率为r=Tl/(Tg+Tl),其中,字符Y的C值即为确定f值时的识别率r值,误识率的f值可根据场景需求行设定。
步骤S5,根据所述一段验证数字串对应的数字获取注册用户在注册过程中对应的特征,并依次即将所述一段验证数字串对应的数字特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证数字串的第i个数字对应的注册特征,u1为所述一段验证数字串的第1个数字对应的注册特征,u2为所述一段验证数字串的第2个数字对应的注册特征,un为所述一段验证数字串的第n个数字对应的注册特征;
步骤S6,计算改良后的验证特征向量V’和注册特征向量U的相似度llr,即进行余弦距离cosine计算,llr=cos(U,V’);
步骤S7,根据所述相似度llr值的大小判断验证用户与注册用户是否一致。
实施例2
本发明实施例提供了一种文本半相关的声纹识别方法,如附图2所示,所述方法包括如下:
步骤一,在注册过程中获取注册用户读几段不同的字符串串的语音,对所述语音根据内容进行切分,并对切分后语音段进行特征提取;所述切分是将语音内容的每个数字切成一语音段;在本发明实施例中,优选地,所述字符串为数字串;需要说明的是,本发明字符串不限定于数字串,可以为字符串可以为数字、字母、特殊符号、汉字等。
步骤二,随机产生一段验证数字串,所述一段验证数字串包含n个数字,并获取待验证用户读的一段验证数字串语音内容,并对一段验证数字串语音内容进行切分,分别对每个数字提取的特征,并将提取的特征依次串起来获取验证特征向量V,对验证特征向量V进行加权获取改良验证特征向量V’,其中,V=[v1,v2,...,vn],V’=[C1v1,C2v2,...,Cnvn],i、n均为正整数,n≥2,1≤i≤n;
其中vi为所述一段验证数字串的第i个数字的特征,Ci为所述一段验证数字串的第i个数字的特征对应的权值,即v1为所述一段验证数字串的第1个数字的特征,v2为所述一段验证数字串的第2个数字的特征,……,vn为所述一段验证数字串的第n个数字的特征,C1为所述一段验证数字串的第1个数字的特征对应的权值,C2为所述一段验证数字的第2个数字串的特征对应的权值,……,Cn为所述一段验证数字串的第n个数字的特征对应的权值;
其中i、n均为正整数,n≥2,1≤i≤n;
进一步的,Ci为误识率为f的情况下,所述一段验证数字串的第i个数字单独用于声纹识别的识别率r作为所述一段验证数字串的第i个数字的验证特征对应的权值。
识别率r的获取方法如下:
本发明实施例以数字‘0’为例,介绍数字0验证特征对应的权值的C的获取方法,具体包括如下:
(1)获取m个人的数字‘0’的语音段,每个人至少包含两段语音,分别提取各语音段的特征向量。
(2)构建一定数量的正负对,两个特征为同一人即正对,两个特征为不同人为负对;为了使得结果越稳定可靠,其中一定数量为不低10000;
正对是指注册过程输出的特征与验证过程输出的特征一致,
负对是指注册过程输出的特征与验证过程输出的特征不一致,
特征是从语音中提取的,如果配对的两段语音不是同一人的即为负对,为同一人的即为正对
(3)分别对一定数量的正负对的特征向量进行打分,其中,正对的特征向量打分大于t的数量为Tg,正对的特征向量打分小于t的数量为Tl;负对的特征向量打分大于t的数量为Fg,负对的特征向量小于t的数量为Fl,计算误识率为f=Fl/(Fg+Fl);
所述打分是注册特征向量、验证特征向量进行相似度进行计算,其中相似度计算在本发明实施例优选地为,余弦距离cosine计算,llr=cos(注册特征向量,特征2),不限于这个方法,也可以使用plda,欧式距离等多种打分方法
(4)识别率为r=Tl/(Tg+Tl),其中,数字‘0’的C值即为确定f值时的识别率r值,误识率的f值可根据场景需求行设定。另外,识率f值由整体声纹识别的需求决定,即误识率的f值可根据场景需求行设定。
步骤三,根据所述一段验证数字串对应的数字获取注册用户在注册过程中对应的特征,并依次即将所述一段验证数字串对应的数字特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证数字串的第i个数字对应的注册特征,u1为所述一段验证数字串的第1个数字对应的注册特征,u2为所述一段验证数字串的第2个数字对应的注册特征,un为所述一段验证数字串的第n个数字对应的注册特征;
步骤四,计算改良后的验证特征向量V’和注册特征向量U的相似度llr,即进行进行余弦距离cosine计算,llr=cos(U,V’);
步骤五,根据所述相似度llr值的大小判断验证用户与注册用户是否一致。
需要进一步说明的是,数字i对应的注册特征是指在注册用户在注册过程中获取注册用户的语音内容中数字i提取的特征;数字i对应的验证特征是指在待验证用户在验证过程中获取待验证用户语音内容中数字i提取的特征。
实施例3
另外,本发明实施例还提供了一种文本半相关的声纹识别***,如附图2所示,所述***包括注册模块1、验证模块2、验证特征模块4、改良模块5、注册特征模块3、判断模块6。
所述注册模块用于提供几段不同的字符串供注册用户读取,获取注册用户读几段不同的字符串的语音,用于对语音进行切分后语音段进行特征提取;所述切分是将语音内容的每个字符切成一语音段;
所述验证模块2用于随机产生一段验证字符串,所述一段验证字符串包含n个字符;
所述验证特征模块4,用于获取待验证用户读的一段验证字符串语音内容,并对一段验证字符串语音内容进行切分,分别对每个字符提取的特征,并将提取的特征依次串起来获取验证特征向量V,V=[v1,v2,...,vn],vi为所述一段验证字符串的第i个字符的特征,v1为所述一段验证字符串的第1个字符的特征,v2为所述一段验证字符串的第2个字符的特征,vn为所述一段验证字符串的第n个字符的特征,其中i、n均为正整数,n≥2,1≤i≤n;
所述改良模块5,用于对验证特征向量V进行加权获取改良验证特征向量V’,V’=[C1v1,C2v2,...,Cnvn],Ci为所述一段验证字符串的第i个字符的特征对应的权值,C1为所述一段验证字符串的第1个字符的特征对应的权值,C2为所述一段验证字符串的第2个字符串的特征对应的权值,Cn为所述一段验证字符串的第n个字符的特征对应的权值。
所述注册特征模块3用于根据所述验证模块2产生的所述一段验证字符串对应的字符获取注册用户在注册过程中对应的特征,并依次即将所述一段验证字符串对应的特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证字符串的第i个字符对应的注册特征,u1为所述一段验证字符串的第1个字符对应的注册特征,u2为所述一段验证字符串的第2个字符对应的注册特征,un为所述一段验证字符串的第n个字符对应的注册特征;
所述判断模块6用于计算改良后的验证特征向量V’和注册特征向量U的相似度llr,,并根据所述相似度llr值的大小判断验证用户与注册用户是否一致。
在本发明实施例中,优选地,所述字符串为数字串;
所述注册模块1提供几段不同的数字串供注册用户读取,所述几段不同的数字串的语音为几段不同的数字串的语音,所述切分是将语音内容的每个数字切成一语音段;
所述验证模块2随机产生一段验证数字串,所述一段验证数字串包含n个数字;
所述验证特征模块4获取待验证用户读的一段验证数字串语音内容,并对一段验证数字串语音内容进行切分,分别对每个数字提取的特征,并将提取的特征依次串起来获取验证特征向量V,V=[v1,v2,...,vn],vi为所述一段验证数字串的第i个数字的特征;
改良模块5,用于对验证特征向量V进行加权获取改良验证特征向量V’,V’=[C1v1,C2v2,...,Cnvn],Ci为所述一段验证数字串的第i个数字的特征对应的权值;
注册特征模块,用于根据所述验证模块产生的所述一段验证数字串对应的数字获取注册用户在注册过程中对应的特征,并依次即将所述一段验证数字串对应的特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证数字串的第i个数字对应的注册特征,u1为所述一段验证数字串的第1个数字对应的注册特征,u2为所述一段验证数字串的第2个数字对应的注册特征,un为所述一段验证数字串的第n个数字对应的注册特征。
改良模块5中的Ci为所述一段验证数字串的第i个数字的特征对应的权值;误识率为f的情况下,所述一段验证数字串的第i个数字单独用于声纹识别的识别率r作为所述一段验证数字串的第i个数字的验证特征对应的权值,所述一段验证数字串的第i个数字为数字“X”,改良模块中的获取识别率r包括:
获取m个人的数字“X”的语音段,每个人至少包含两段语音,分别提取各语音段的特征向量;
构建一定数量的正负对,两个特征为同一人即正对,两个特征为不同人为负对;
正对是指注册过程输出的特征与验证过程输出的特征一致,负对是指注册过程输出的特征与验证过程输出的特征不一致,特征是从语音中提取的,如果配对的两段语音不是同一人的即为负对,为同一人的即为正对;
分别对一定数量的正负对的特征向量进行打分,其中,正对的特征向量打分大于t的数量为Tg,正对的特征向量打分小于t的数量为Tl;负对的特征向量打分大于t的数量为Fg,负对的特征向量小于t的数量为Fl,计算误识率为f=Fl/(Fg+Fl);
所述打分是注册特征向量、验证特征向量进行相似度进行计算,当前相似值算法以cosine为例,则相似值越小两者越可能是同一人,反之则越不是一个人,t值实际应用中可根据精度需求设置阈值。
识别率为r=Tl/(Tg+Tl),其中,所述一段验证数字串的第i个数字为数字“X”的Ci值即为确定f值时的识别率r值。
进一步的,构建一定数量的正负对,总数量越多结果越稳定可靠,其中一定数量为不低10000。
另外,误识率f值由整体声纹识别的需求决定,即误识率的f值可根据场景需求行设定。
需要说明的是,本发明字符串不限定于数字串,以可以为字符串可以为数字、字母、特殊符号、汉字等。
以上各实施例仅用以说明本发明的技术方案,但应当理解本发明并非局限于上述实施例,通过本发明的启示,本领域技术人员结合公知或现有技术、知识所进行的修改,或者对其中部分或者全部技术特征进行等同替换也应视为在本发明的保护范围内。
Claims (10)
1.一种文本半相关的声纹识别方法,其特征在于,所述方法包括如下:
步骤一,在注册过程中获取注册用户读几段不同的字符串的语音,对所述语音根据内容进行切分,并对切分后语音段进行特征提取;所述切分是将语音内容的每个字符切成一语音段;
步骤二,随机产生一段验证字符串,所述一段验证字符串包含n个字符,并获取待验证用户读的一段验证字符串语音内容,并对一段验证字符串语音内容进行切分,分别对每个字符提取的特征,并将提取的特征依次串起来获取验证特征向量V,对验证特征向量V进行加权获取改良验证特征向量V’,其中,V=[v1,v2,...,vn],V’=[C1v1,C2v2,...,Cnvn],vi为所述一段验证字符串的第i个字符的特征,Ci为所述一段验证字符串的第i个字符的特征对应的权值,
其中i、n均为正整数,n≥2,1≤i≤n;
步骤三,根据所述一段验证字符串对应的字符获取注册用户在注册过程中对应的特征,并依次即将所述一段验证字符串对应的字符特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证字符串的第i个字符对应的注册特征;
步骤四,计算改良后的验证特征向量V’和注册特征向量U的相似度llr;
步骤五,根据所述相似度llr值的大小判断验证用户与注册用户是否一致。
2.根据权利要求1所述的文本半相关的声纹识别方法,其特征在于,
所述字符串为数字串,所述一段验证字符串包含n个数字;
步骤一,在注册过程中获取注册用户读几段不同的数字串的语音,对所述语音根据内容进行切分,并对切分后语音段进行特征提取;所述切分是将语音内容的每个数字切成一语音段;
步骤二,随机产生一段验证数字串,所述一段验证数字串包含n个数字,并获取待验证用户读的一段验证数字串语音内容,并对一段验证数字串语音内容进行切分,分别对每个数字提取的特征,并将提取的特征依次串起来获取验证特征向量V,对验证特征向量V进行加权获取改良验证特征向量V’,其中,V=[v1,v2,...,vn],V’=[C1v1,C2v2,...,Cnvn],vi为所述一段验证数字串的第i个数字验证特征,Ci为所述一段验证数字串的第i个数字验证特征对应的权值;
步骤三,根据所述一段验证数字串对应的数字获取注册用户在注册过程中对应的特征,并依次即将所述一段验证数字串对应的数字特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证数字串的第i个数字对应的注册特征。
3.根据权利要求2所述的文本半相关的声纹识别方法,其特征在于,
Ci为误识率为f的情况下,所述一段验证数字串的第i个数字单独用于声纹识别的识别率r作为所述一段验证数字串的第i个数字的验证特征对应的权值,所述一段验证数字串的第i个数字为数字“X”,所述识别率r的获取过程包括:
(1)获取m个人的数字“X”的语音段,每个人至少包含两段语音,分别提取各语音段的特征向量;
(2)构建一定数量的正负对,两个特征为同一人即正对,两个特征为不同人为负对;
正对是指注册过程输出的特征与验证过程输出的特征一致,负对是指注册过程输出的特征与验证过程输出的特征不一致,特征是从语音中提取的,如果配对的两段语音不是同一人的即为负对,为同一人的即为正对;
(3)分别对一定数量的正负对的特征向量进行打分,其中,正对的特征向量打分大于t的数量为Tg,正对的特征向量打分小于t的数量为Tl;负对的特征向量打分大于t的数量为Fg,负对的特征向量小于t的数量为Fl,计算误识率为f=Fl/(Fg+Fl);
所述打分是注册特征向量、验证特征向量进行相似度进行计算;
(4)识别率为r=Tl/(Tg+Tl),其中,所述一段验证数字串的第i个数字为数字“X”的Ci值即为确定f值时的识别率r值。
4.根据权利要求3所述的文本半相关的声纹识别方法,其特征在于,
误识率的f值可根据场景需求行设定。
5.根据权利要求3所述的文本半相关的声纹识别方法,其特征在于,
构建一定数量的正负对,其中一定数量为不低10000。
6.根据权利要求1或2所述的文本半相关的声纹识别方法,其特征在于,
在步骤四中,通过余弦距离算法获取改良后的验证特征向量V’和注册特征向量U的相似度llr。
7.一种文本半相关的声纹识别***,其特征在于,包括:
注册模块,用于提供几段不同的字符串供注册用户读取,获取注册用户读几段不同的字符串的语音,用于对语音进行切分后语音段进行特征提取;所述切分是将语音内容的每个字符切成一语音段;
验证模块,用于随机产生一段验证字符串,所述一段验证字符串包含n个字符;
验证特征模块,用于获取待验证用户读的一段验证字符串语音内容,并对一段验证字符串语音内容进行切分,分别对每个字符提取的特征,并将提取的特征依次串起来获取验证特征向量V,V=[v1,v2,...,vn],vi为所述一段验证字符串的第i个字符的特征,v1为所述一段验证字符串的第1个字符的特征,v2为所述一段验证字符串的第2个字符的特征,vn为所述一段验证字符串的第n个字符的特征,其中i、n均为正整数,n≥2,1≤i≤n;
改良模块,用于对验证特征向量V进行加权获取改良验证特征向量V’,V’=[C1v1,C2v2,...,Cnvn],Ci为所述一段验证字符串的第i个字符的特征对应的权值;
注册特征模块,用于根据所述验证模块产生的所述一段验证字符串对应的字符获取注册用户在注册过程中对应的特征,并依次即将所述一段验证字符串对应的特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证字符串的第i个字符对应的注册特征;
判断模块,用于计算改良后的验证特征向量V’和注册特征向量U的相似度llr,,并根据所述相似度llr值的大小判断验证用户与注册用户是否一致。
8.根据权利要求7所述的文本半相关的声纹识别***,其特征在于,
所述注册模块提供几段不同的数字串供注册用户读取,所述几段不同的数字串的语音为几段不同的数字串的语音,所述切分是将语音内容的每个数字切成一语音段;
所述验证模块随机产生一段验证数字串,所述一段验证数字串包含n个数字;
所述验证特征模块获取待验证用户读的一段验证数字串语音内容,并对一段验证数字串语音内容进行切分,分别对每个数字提取的特征,并将提取的特征依次串起来获取验证特征向量V,V=[v1,v2,...,vn],vi为所述一段验证数字串的第i个数字的特征;
改良模块,用于对验证特征向量V进行加权获取改良验证特征向量V’,V’=[C1v1,C2v2,...,Cnvn],Ci为所述一段验证数字串的第i个数字的特征对应的权值;
注册特征模块,用于根据所述验证模块产生的所述一段验证数字串对应的数字获取注册用户在注册过程中对应的特征,并依次即将所述一段验证数字串对应的特征串起来获得注册特征向量U,U=[u1,u2,..,un],其中,ui为所述一段验证数字串的第i个数字对应的注册特征。
9.根据权利要求8所述的文本半相关的声纹识别***,其特征在于,
改良模块中的Ci为所述一段验证数字串的第i个数字的特征对应的权值;误识率为f的情况下,所述一段验证数字串的第i个数字单独用于声纹识别的识别率r作为所述一段验证数字串的第i个数字的验证特征对应的权值,所述一段验证数字串的第i个数字为数字“X”,改良模块中的获取识别率r包括:
获取m个人的数字“X”的语音段,每个人至少包含两段语音,分别提取各语音段的特征向量;
构建一定数量的正负对,两个特征为同一人即正对,两个特征为不同人为负对;
正对是指注册过程输出的特征与验证过程输出的特征一致,负对是指注册过程输出的特征与验证过程输出的特征不一致,特征是从语音中提取的,如果配对的两段语音不是同一人的即为负对,为同一人的即为正对;
分别对一定数量的正负对的特征向量进行打分,其中,正对的特征向量打分大于t的数量为Tg,正对的特征向量打分小于t的数量为Tl;负对的特征向量打分大于t的数量为Fg,负对的特征向量小于t的数量为Fl,计算误识率为f=Fl/(Fg+Fl);
所述打分是注册特征向量、验证特征向量进行相似度进行计算;
识别率为r=Tl/(Tg+Tl),其中,所述一段验证数字串的第i个数字为数字“X”的Ci值即为确定f值时的识别率r值。
10.根据权利要求9所述的文本半相关的声纹识别***,其特征在于,
构建一定数量的正负对,其中一定数量为不低10000;误识率的f值可根据场景需求行设定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811468428.3A CN109473107B (zh) | 2018-12-03 | 2018-12-03 | 一种文本半相关的声纹识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811468428.3A CN109473107B (zh) | 2018-12-03 | 2018-12-03 | 一种文本半相关的声纹识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109473107A CN109473107A (zh) | 2019-03-15 |
CN109473107B true CN109473107B (zh) | 2020-12-22 |
Family
ID=65674885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811468428.3A Active CN109473107B (zh) | 2018-12-03 | 2018-12-03 | 一种文本半相关的声纹识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109473107B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145758A (zh) * | 2019-12-25 | 2020-05-12 | 厦门快商通科技股份有限公司 | 声纹识别方法、***、移动终端及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105913850A (zh) * | 2016-04-20 | 2016-08-31 | 上海交通大学 | 文本相关声纹密码验证方法 |
CN106057206A (zh) * | 2016-06-01 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 声纹模型训练方法、声纹识别方法及装置 |
CN106098068A (zh) * | 2016-06-12 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
CN106531171A (zh) * | 2016-10-13 | 2017-03-22 | 普强信息技术(北京)有限公司 | 一种动态声纹密码***的实现方法 |
CN108446638A (zh) * | 2018-03-21 | 2018-08-24 | 广东欧珀移动通信有限公司 | 身份验证方法、装置、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) * | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
-
2018
- 2018-12-03 CN CN201811468428.3A patent/CN109473107B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105913850A (zh) * | 2016-04-20 | 2016-08-31 | 上海交通大学 | 文本相关声纹密码验证方法 |
CN106057206A (zh) * | 2016-06-01 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 声纹模型训练方法、声纹识别方法及装置 |
CN106098068A (zh) * | 2016-06-12 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
CN106531171A (zh) * | 2016-10-13 | 2017-03-22 | 普强信息技术(北京)有限公司 | 一种动态声纹密码***的实现方法 |
CN108446638A (zh) * | 2018-03-21 | 2018-08-24 | 广东欧珀移动通信有限公司 | 身份验证方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109473107A (zh) | 2019-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107104803B (zh) | 一种基于数字口令与声纹联合确认的用户身份验证方法 | |
RU2738325C2 (ru) | Способ и устройство аутентификации личности | |
CN106782572B (zh) | 语音密码的认证方法及*** | |
CN106098068B (zh) | 一种声纹识别方法和装置 | |
KR101908711B1 (ko) | 인공 지능을 기반으로 하는 성문 로그인 방법 및 장치 | |
CN105096121B (zh) | 声纹认证方法和装置 | |
CN105933323B (zh) | 声纹注册、认证方法及装置 | |
CN106709402A (zh) | 基于音型像特征的真人活体身份验证方法 | |
CN106448684A (zh) | 基于深度置信网络特征矢量的信道鲁棒声纹识别*** | |
CN102402985A (zh) | 提高声纹识别安全性的声纹认证***及其实现方法 | |
CN105933272A (zh) | 能够防止录音攻击的声纹认证方法、服务器、终端及*** | |
CN101697514A (zh) | 一种身份验证的方法及*** | |
JPS59192A (ja) | 個人照合装置 | |
CN104064189A (zh) | 一种声纹动态口令的建模和验证方法 | |
JPS6217240B2 (zh) | ||
CN111611566B (zh) | 一种说话人验证***及其重放攻击检测方法 | |
CN104158664A (zh) | 一种身份认证方法及*** | |
CN110827453A (zh) | 一种指纹声纹双重认证方法及认证*** | |
CN102222502A (zh) | 一种汉语随机提示声纹验证的有效方式 | |
CN111145758A (zh) | 声纹识别方法、***、移动终端及存储介质 | |
CN111091837A (zh) | 一种基于在线学习的时变声纹认证方法及*** | |
CN106911630A (zh) | 终端及身份认证方法、终端和认证中心的认证方法及*** | |
CN109473107B (zh) | 一种文本半相关的声纹识别方法及*** | |
Safavi et al. | Fraud detection in voice-based identity authentication applications and services | |
CN106100846B (zh) | 声纹注册、认证方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |