CN109243465A - 声纹认证方法、装置、计算机设备以及存储介质 - Google Patents
声纹认证方法、装置、计算机设备以及存储介质 Download PDFInfo
- Publication number
- CN109243465A CN109243465A CN201811487395.7A CN201811487395A CN109243465A CN 109243465 A CN109243465 A CN 109243465A CN 201811487395 A CN201811487395 A CN 201811487395A CN 109243465 A CN109243465 A CN 109243465A
- Authority
- CN
- China
- Prior art keywords
- vocal print
- certified
- sound
- groove model
- print feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000001755 vocal effect Effects 0.000 claims abstract description 248
- 239000000284 extract Substances 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000003064 k means clustering Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 abstract description 8
- 230000004044 response Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000033764 rhythmic process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035479 physiological effects, processes and functions Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 210000000515 tooth Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明实施例公开了一种声纹认证方法、装置、计算机设备以及存储介质,其中,所述方法包括:预先建立声纹模型库;获取用户输入的待认证声纹数据,并从所述待认证声纹数据中提取对应的待认证声纹特征;根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型;计算所述待认证声纹特征与目标声纹模型之间的声纹相似度;获取所述声纹相似度并判断所述声纹相似度是否大于预设阈值;若所述声纹相似度大于所述预设阈值,判定所述待认证声纹数据对应的用户身份与目标用户身份相匹配,并确定所述用户身份认证通过。本发明提供一种声纹识别技术,能够提高身份认证效率,缩短认证的响应时长。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种声纹认证方法、装置、计算机设备以及存储介质。
背景技术
声纹识别(Voiceprint Recognize)是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。随着声纹识别技术的发展,越来越多的设备采用声纹识别来进行身份认证,传统的利用声纹识别进行身份认证的技术,在处理少量的声纹数据时可以保证认证的效率,但是对于一定数量的声纹数据,存在认证效率低、响应时间长的问题。
发明内容
有鉴于此,本发明实施例提供一种声纹认证方法、装置、计算机设备以及存储介质,能够提高身份认证效率,缩短认证的响应时长。
一方面,本发明实施例提供了一种声纹认证方法,该方法包括:
预先建立声纹模型库;
获取用户输入的待认证声纹数据,并从所述待认证声纹数据中提取对应的待认证声纹特征;
根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型;
计算所述待认证声纹特征与目标声纹模型之间的声纹相似度;
获取所述声纹相似度并判断所述声纹相似度是否大于预设阈值;
若所述声纹相似度大于所述预设阈值,判定所述待认证声纹数据对应的用户身份与目标用户身份相匹配,并确定所述用户身份认证通过。
另一方面,本发明实施例提供了一种声纹认证装置,所述装置包括:
建立单元,用于预先建立声纹模型库;
第一提取单元,用于获取用户输入的待认证声纹数据,并从所述待认证声纹数据中提取对应的待认证声纹特征;
确定单元,用于根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型;
计算单元,用于计算所述待认证声纹特征与目标声纹模型之间的声纹相似度;
判断单元,用于获取所述声纹相似度并判断所述声纹相似度是否大于预设阈值;
判定单元,用于若所述声纹相似度大于所述预设阈值,判定所述待认证声纹数据对应的用户身份与目标用户身份相匹配,并确定所述用户身份认证通过。
又一方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的声纹认证方法。
再一方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现如上所述的声纹认证方法。
本发明实施例提供一种声纹认证方法、装置、计算机设备以及存储介质,其中方法包括:预先建立声纹模型库;获取用户输入的待认证声纹数据,并从所述待认证声纹数据中提取对应的待认证声纹特征;根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型;计算所述待认证声纹特征与目标声纹模型之间的声纹相似度;获取所述声纹相似度并判断所述声纹相似度是否大于预设阈值;若所述声纹相似度大于所述预设阈值,判定所述待认证声纹数据对应的用户身份与目标用户身份相匹配,并确定所述用户身份认证通过。本发明提供一种声纹识别技术,能够提高身份认证效率,缩短认证的响应时长。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种声纹认证方法的应用场景示意图;
图2是本发明实施例提供的一种声纹认证方法的示意流程图;
图3是本发明实施例提供的一种声纹认证方法的另一示意流程图;
图4是本发明实施例提供的一种声纹认证方法的另一示意流程图;
图5是本发明实施例提供的一种声纹认证装置的示意性框图;
图6是本发明实施例提供的一种声纹认证装置的另一示意性框图;
图7是本发明实施例提供的一种声纹认证装置的另一示意性框图;
图8是本发明实施例提供的一种计算机设备的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的一种声纹认证方法的应用场景示意图,图2为本发明实施例提供的一种声纹认证方法的流程示意图。该声纹认证方法应用于服务器或终端中,其中终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。作为一应用,如图1所示,该声纹认证方法应用于服务器10中,该服务器10可以为分布式服务平台中的一台服务器,该服务器10执行声纹识别/认证指令,并将执行结果反馈在终端20中。
需要说明的是,图1中仅仅示意出一台终端20,在实际操作过程中,服务器10可以将声纹认证结果反馈至多台终端20中。
请参阅图2,图2为本发明实施例提供的一种声纹认证方法的示意流程图。如图2所示,该方法包括以下步骤S101~S106。
S101,预先建立声纹模型库。
在本发明实施例中,具体是通过预先收集几段语音数据作为训练语音样本,不同的语音数据对应不同的用户身份,利用GMM模型(Gaussian Mixture Model,高斯混合模型)对训练语音样本进行训练,得到针对不同用户身份的声纹模型,并由所得到的不同声纹模型组成预设声纹模型库;更具体的,在该预设声纹模型库中保存有训练语音样本对应声纹模型,训练语音样本对应的声纹特征以及与训练语音样本对应的不同的用户身份。其中,用户身份可以通过身份ID进行标识,不同的身份ID可以唯一标识不同的用户。
进一步地,如图3所示,所述步骤S101包括步骤S202~S208。
S202,采集用于模型训练的至少两个训练语音样本。
在本发明实施例中,用户可以通过终端20上的话筒录入语音数据,服务器10通过与终端20而获取用户所输入的语音数据作为训练语音样本,具体的,至少需要两个不同的用户录入两个不同的语音数据作为训练语音样本。
S204,对各个所述各训练语音样本进行预处理。
在本发明实施例中,在提取各训练语音样本之前,需要对各训练语音样本进行预处理,因为人类发声器官本身和由于采集语音数据的设备所带来的混叠、高次谐波失真、高频等等因素,对语音信号质量的影响,通过预处理能够得到更均匀、平滑的语音信号,并且可以去除语音数据中的低频干扰,为声纹特征的提取提供优质的特征参数,提高语音处理的质量。
具体的,对所述各训练语音样本进行预处理分为采样量化、去零漂、预加重和加窗四个步骤。其中,采样量化处理,指的是用锐截止滤波器对训练语音样本的语音信号进行滤波,使其奈奎斯特频率FN为4KHZ;去零漂,指的是计算量化的振幅序列的平均值,并将每个振幅值减去平均值,得到去零漂后平均值为0的振幅序列;预加重,指的是设置数字滤波器的传递函数中的预加重系数,并通过数字滤波器得到语音信号的高、中、低频幅度相当的振幅序列;加窗,指的是使用哈明窗函数对每一语音信号帧进行加哈明窗处理。
S206,提取预处理后的各个训练语音样本的声纹特征。
在本发明实施例中,所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官(比如:舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。通过声纹可以辨认和确认不同的说话人。所述声纹特征包括声学特征、词法特征、韵律特征以及语言特征中的一种或多种;本实施例基于不同训练语音样本的声纹特征来实现不同声纹模型的训练,并且基于不同的声纹特征也可以实现所训练的具体目标声纹模型的确定,因此需要预先从训练语音样本中提取出不同训练语音样本的声纹特征并对应进行保存;具体的,从不同训练语音样本中提取出对应的声纹特征,具体是指从声音中提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学、词法、韵律或者语言特征,对于声纹特征的提取可以通过现有技术中的提取方式来实现,本发明实施例对此不再详细说明。
需要说明的是,对训练语音样本进行提取的声纹特征可能是一个,也可能是多个。
S208,将提取的各个声纹特征进行高斯混合模型训练,得到不同的声纹模型,并由所述不同的声纹模型组成所述声纹模型库。
在本发明实施例中,对同属于一个训练语音样本的声纹特征进行GMM模型(Gaussian Mixture Model,高斯混合模型)训练以建立对应的声纹模型。更具体地,可先确定属于同一个训练语音样本的所有声纹特征对应的语音信号帧,之后,可对属于同一个训练语音样本的所有语音信号帧进行训练以得到对应的GMM模型,并由不同的训练语音样本的声纹特征进行训练得到的不同声纹模型组成所述声纹模型库。
S102,获取用户输入的待认证声纹数据,并从所述待认证声纹数据中提取对应的待认证声纹特征。
在本发明实施例中,用户输入的待认证声纹数据指的是未认证的用户通过终端20的话筒输入的用于认证的语音数据。当检测到当前用户输入的待认证声纹数据之后,可提取当前声纹数据的待认证声纹特征,其中,所述待认证声纹特征包括声学特征、词法特征、韵律特征以及语言特征中的一种或多种。声纹特征,即与人类的发音机制的解剖学结构有关的特征,包括如鼻音、带深呼吸音、沙哑音、笑声等,由此分析可得到如频谱、倒频谱、共振峰、基音、反射系数等特征;词法特征,即受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等特征;韵律特征,即说话的韵律、节奏、速度、语调、音量等特征。语言特征,即语种、方言、口音等特征。
S103,根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型。
在本发明实施例中,利用所提取的待认证声纹特征与所建立的预设声纹模型库中各声纹模型对应的声纹特征参数进行对比,根据对比结果确定所述目标声纹模型,在具体实现过程中,考虑到每个个体对象的声音可能在一定时间内发生变化,为了提高对比效果,可以预先设置对比程度为一个预定阈值,当所提取的待认证声纹特征与预设声纹模型库中各声纹模型对应的声纹特征参数的对比程度超过所预定的阈值时,则确定所对比的声纹特征参数对应的声纹模型为目标声纹模型,比如当前声纹数据中提取的声纹特征与预设声纹模型库中的声纹特征参数A匹配度达到90%或以上,即确定该声纹特征参数A对应的声纹模型为目标声纹模型。
在一个实施例中,如图4所示,所述步骤S103包括步骤S302~S306。
S302,确定所提取的待认证声纹特征的数量。
在本发明实施例中,在当前声纹数据中所提取的待认证声纹特征可能是一个,也可能是多个,需要确定所提取的待认证声纹特征的数量。
S304,若所提取的待认证声纹特征为多个时,确定各个待认证声纹特征的优先级。
在本发明实施例中,当所提取的待认证声纹特征为多个时,需要确定对比的待认证声纹特征的优先级,例如,当前提取的待认证声纹特征包括声学特征、词法特征、韵律特征,声学特征所对应的声纹特征优先级高于词法特征,词法特征所对应的声纹特征优先级高于韵律特征,此时选择声学特征作为用于对比的待认证声纹特征。可以提高声纹特征识别的准确性。
S306,根据优先级最高的待认证声纹特征从所述声纹模型库中确定目标声纹模型。
在本发明实施例中,选择优先级最高的待认证声纹特征与所建立的预设声纹模型库中各声纹模型对应的声纹特征参数进行对比,当所提取的待认证声纹特征与预设声纹模型库中各声纹模型对应的声纹特征参数的对比程度超过所预定的阈值时,则确定所对比的声纹特征参数对应的声纹模型为目标声纹模型。可以提高声纹特征识别的准确性。
S104,计算所述待认证声纹特征与目标声纹模型之间的声纹相似度。
在本发明实施例中,计算所述待认证声纹特征与目标声纹模型之间的声纹相似度的计算方法可以包括:
设所述目标声纹模型具有n个声纹特征,分别对所述待认证声纹特征以及所述目标声纹模型的n个声纹特征进行向量化,通过夹角余弦函数计算所述待认证声纹特征与所述目标声纹模型的n个声纹特征之间的相似度,并得到相似度矩阵K;对相似度矩阵K进行求和,从而计算出所述待认证声纹特征与所述目标声纹模型之间的声纹相似度:
设K=[sim(x,yi)]n,i=1,…,n,其中,sim(x,yi)表示待认证声纹特征与所述目标声纹模型的n个声纹特征之间的相似度,求和公式为:
s=1,…,n。
在一个实施例中,若所述待认证声纹特征为多个,使用K-means聚类算法计算所述优先级最高的待认证声纹特征与所述目标声纹模型的各声纹特征之间的声纹相似度。
在一个实施例中,若所述待认证声纹特征为一个,使用K-means聚类算法计算所述待认证声纹特征与所述目标声纹模型的各声纹特征之间的声纹相似度。
S105,获取所述声纹相似度并判断所述声纹相似度是否大于预设阈值。
在本发明实施例中,可以预先设置用于声纹相似度对比的预设阈值,当所计算的待认证声纹特征与预设声纹模型库中的目标声纹模型之间的声纹相似度超过所述预设阈值时,则通过所述待认证声纹特征的认证,并确定所述待认证声纹特征所对应的用户身份与目标声纹模型对应的目标用户身份相匹配并通过身份认证。
S106,若所述声纹相似度大于所述预设阈值,判定所述待认证声纹数据对应的用户身份与目标用户身份相匹配,并确定所述用户身份认证通过。
在本发明实施例中,只有在用户身份通过认证后,才允许用户进一步操作,例如,在终端上管理通过认证的用户的资金、录入用户信息或者修改用户的个人资料等操作。
由以上可见,本发明实施例通过预先建立声纹模型库;获取用户输入的待认证声纹数据,并从所述待认证声纹数据中提取对应的待认证声纹特征;根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型;计算所述待认证声纹特征与目标声纹模型之间的声纹相似度;获取所述声纹相似度并判断所述声纹相似度是否大于预设阈值;若所述声纹相似度大于所述预设阈值,判定所述待认证声纹数据对应的用户身份与目标用户身份相匹配,并确定所述用户身份认证通过。本发明提供一种声纹识别技术,能够提高身份认证效率,缩短认证的响应时长。
请参阅图5,对应上述一种声纹认证方法,本发明实施例还提出一种声纹认证装置,该装置100包括:建立单元101、第一提取单元102、确定单元103、计算单元104、判断单元105、判定单元106。
其中,所述建立单元101,用于预先建立声纹模型库。
第一提取单元102,用于获取用户输入的待认证声纹数据,并从所述待认证声纹数据中提取对应的待认证声纹特征。
确定单元103,用于根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型。
计算单元104,用于计算所述待认证声纹特征与目标声纹模型之间的声纹相似度。
判断单元105,用于获取所述声纹相似度并判断所述声纹相似度是否大于预设阈值。
判定单元106,用于若所述声纹相似度大于所述预设阈值,判定所述待认证声纹数据对应的用户身份与目标用户身份相匹配,并确定所述用户身份认证通过。
在一个实施例中,所述计算单元104,具体用于若所述待认证声纹特征为多个,使用K-means聚类算法计算所述优先级最高的待认证声纹特征与所述目标声纹模型的各声纹特征之间的声纹相似度。
在一个实施例中,所述计算单元104,还具体用于若所述待认证声纹特征为一个,使用K-means聚类算法计算所述待认证声纹特征与所述目标声纹模型的各声纹特征之间的声纹相似度。
由以上可见,本发明实施例通过预先建立声纹模型库;获取用户输入的待认证声纹数据,并从所述待认证声纹数据中提取对应的待认证声纹特征;根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型;计算所述待认证声纹特征与目标声纹模型之间的声纹相似度;获取所述声纹相似度并判断所述声纹相似度是否大于预设阈值;若所述声纹相似度大于所述预设阈值,判定所述待认证声纹数据对应的用户身份与目标用户身份相匹配,并确定所述用户身份认证通过。本发明提供一种声纹识别技术,能够提高身份认证效率,缩短认证的响应时长。
请参阅图6,所述建立单元101,包括:
采集单元101a,用于采集用于模型训练的至少两个训练语音。
预处理单元101b,用于对各个所述各训练语音样本进行预处理。
第二提取单元101c,用于提取预处理后的各个训练语音样本的声纹特征。
建立子单元101d,用于将提取的各个声纹特征进行高斯混合模型训练,得到不同的声纹模型,并由所述不同的声纹模型组成所述声纹模型库。
请参阅图7,所述确定单元103,包括:
第一确定子单元103a,用于确定所提取的待认证声纹特征的数量。
第二确定子单元103b,用于若所提取的待认证声纹特征为多个时,确定各个待认证声纹特征的优先级。
第三确定子单元103c,用于根据优先级最高的待认证声纹特征从所述声纹模型库中确定目标声纹模型。
上述声纹认证装置与上述声纹认证方法一一对应,其具体的原理和过程与上述实施例所述方法相同,不再赘述。
上述声纹认证装置可以实现为一种计算机程序的形式,计算机程序可以在如图8所示的计算机设备上运行。
图8为本发明一种计算机设备的结构组成示意图。该设备可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式装置等具有通信功能和语音输入功能的电子装置。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群,服务器可通过与终端通信来获取用户输入的待认证声纹数据。参照图8,该计算机设备500包括通过***总线501连接的处理器502、非易失性存储介质503、内存储器504和网络接口505。其中,该计算机设备500的非易失性存储介质503可存储操作***5031和计算机程序5032,该计算机程序5032被执行时,可使得处理器502执行一种声纹认证方法。该计算机设备500的处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序被处理器执行时,可使得处理器502执行一种声纹认证方法。计算机设备500的网络接口505用于进行网络通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502执行所述计算机程序时实现如下操作:
预先建立声纹模型库;
获取用户输入的待认证声纹数据,并从所述待认证声纹数据中提取对应的待认证声纹特征;
根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型;
计算所述待认证声纹特征与目标声纹模型之间的声纹相似度;
获取所述声纹相似度并判断所述声纹相似度是否大于预设阈值;
若所述声纹相似度大于所述预设阈值,判定所述待认证声纹数据对应的用户身份与目标用户身份相匹配,并确定所述用户身份认证通过。
在一个实施例中,所述预先建立声纹模型库,包括:
采集用于模型训练的至少两个训练语音样本;
对各个所述各训练语音样本进行预处理;
提取预处理后的各个训练语音样本的声纹特征;
将提取的各个声纹特征进行高斯混合模型训练,得到不同的声纹模型,并由所述不同的声纹模型组成所述声纹模型库。
在一个实施例中,所述根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型,包括:
确定所提取的待认证声纹特征的数量;
若所提取的待认证声纹特征为多个时,确定各个待认证声纹特征的优先级;
根据优先级最高的待认证声纹特征从所述声纹模型库中确定目标声纹模型。
在一个实施例中,所述计算所述待认证声纹特征与目标声纹模型之间的声纹相似度,包括:
若所述待认证声纹特征为多个,使用K-means聚类算法计算所述优先级最高的待认证声纹特征与所述目标声纹模型的各声纹特征之间的声纹相似度。
在一个实施例中,所述计算所述待认证声纹特征与目标声纹模型之间的声纹相似度,包括:
若所述待认证声纹特征为一个,使用K-means聚类算法计算所述待认证声纹特征与所述目标声纹模型的各声纹特征之间的声纹相似度。
本领域技术人员可以理解,图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图8所示实施例一致,在此不再赘述。
本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现以下步骤:
预先建立声纹模型库;
获取用户输入的待认证声纹数据,并从所述待认证声纹数据中提取对应的待认证声纹特征;
根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型;
计算所述待认证声纹特征与目标声纹模型之间的声纹相似度;
获取所述声纹相似度并判断所述声纹相似度是否大于预设阈值;
若所述声纹相似度大于所述预设阈值,判定所述待认证声纹数据对应的用户身份与目标用户身份相匹配,并确定所述用户身份认证通过。
在一个实施例中,所述预先建立声纹模型库,包括:
采集用于模型训练的至少两个训练语音样本;
对各个所述各训练语音样本进行预处理;
提取预处理后的各个训练语音样本的声纹特征;
将提取的各个声纹特征进行高斯混合模型训练,得到不同的声纹模型,并由所述不同的声纹模型组成所述声纹模型库。
在一个实施例中,所述根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型,包括:
确定所提取的待认证声纹特征的数量;
若所提取的待认证声纹特征为多个时,确定各个待认证声纹特征的优先级;
根据优先级最高的待认证声纹特征从所述声纹模型库中确定目标声纹模型。
在一个实施例中,所述计算所述待认证声纹特征与目标声纹模型之间的声纹相似度,包括:
若所述待认证声纹特征为多个,使用K-means聚类算法计算所述优先级最高的待认证声纹特征与所述目标声纹模型的各声纹特征之间的声纹相似度。
在一个实施例中,所述计算所述待认证声纹特征与目标声纹模型之间的声纹相似度,包括:
若所述待认证声纹特征为一个,使用K-means聚类算法计算所述待认证声纹特征与所述目标声纹模型的各声纹特征之间的声纹相似度。
本发明前述的存储介质包括:磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等各种可以存储程序代码的介质。
本发明所有实施例中的单元可以通过通用集成电路,例如CPU(CentralProcessing Unit,中央处理器),或通过ASIC(Application Specific IntegratedCircuit,专用集成电路)来实现。
本发明实施例声纹认证方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例声纹认证装置中的单元可以根据实际需要进行合并、划分和删减。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种声纹认证方法,其特征在于,所述方法包括:
预先建立声纹模型库;
获取用户输入的待认证声纹数据,并从所述待认证声纹数据中提取对应的待认证声纹特征;
根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型;
计算所述待认证声纹特征与目标声纹模型之间的声纹相似度;
获取所述声纹相似度并判断所述声纹相似度是否大于预设阈值;
若所述声纹相似度大于所述预设阈值,判定所述待认证声纹数据对应的用户身份与目标用户身份相匹配,并确定所述用户身份认证通过。
2.如权利要求1所述的方法,其特征在于,所述预先建立声纹模型库,包括:
采集用于模型训练的至少两个训练语音样本;
对各个所述各训练语音样本进行预处理;
提取预处理后的各个训练语音样本的声纹特征;
将提取的各个声纹特征进行高斯混合模型训练,得到不同的声纹模型,并由所述不同的声纹模型组成所述声纹模型库。
3.如权利要求1所述的方法,其特征在于,所述根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型,包括:
确定所提取的待认证声纹特征的数量;
若所提取的待认证声纹特征为多个时,确定各个待认证声纹特征的优先级;
根据优先级最高的待认证声纹特征从所述声纹模型库中确定目标声纹模型。
4.如权利要求3所述的方法,其特征在于,所述计算所述待认证声纹特征与目标声纹模型之间的声纹相似度,包括:
若所述待认证声纹特征为多个,使用K-means聚类算法计算所述优先级最高的待认证声纹特征与所述目标声纹模型的各声纹特征之间的声纹相似度。
5.如权利要求1所述的方法,其特征在于,所述计算所述待认证声纹特征与目标声纹模型之间的声纹相似度,包括:
若所述待认证声纹特征为一个,使用K-means聚类算法计算所述待认证声纹特征与所述目标声纹模型的各声纹特征之间的声纹相似度。
6.一种声纹认证装置,其特征在于,所述装置包括:
建立单元,用于预先建立声纹模型库;
第一提取单元,用于获取用户输入的待认证声纹数据,并从所述待认证声纹数据中提取对应的待认证声纹特征;
确定单元,用于根据所述待认证声纹特征从所述声纹模型库中确定目标声纹模型;
计算单元,用于计算所述待认证声纹特征与目标声纹模型之间的声纹相似度;
判断单元,用于获取所述声纹相似度并判断所述声纹相似度是否大于预设阈值;
判定单元,用于若所述声纹相似度大于所述预设阈值,判定所述待认证声纹数据对应的用户身份与目标用户身份相匹配,并确定所述用户身份认证通过。
7.如权利要求6所述的装置,其特征在于,所述建立单元,包括:
采集单元,用于采集用于模型训练的至少两个训练语音样本;
预处理单元,用于对各个所述各训练语音样本进行预处理;
第二提取单元,用于提取预处理后的各个训练语音样本的声纹特征;
建立子单元,用于将提取的各个声纹特征进行高斯混合模型训练,得到不同的声纹模型,并由所述不同的声纹模型组成所述声纹模型库。
8.如权利要求6所述的装置,其特征在于,所述确定单元,包括:
第一确定子单元,用于确定所提取的待认证声纹特征的数量;
第二确定子单元,用于若所提取的待认证声纹特征为多个时,确定各个待认证声纹特征的优先级;
第三确定子单元,用于根据优先级最高的待认证声纹特征从所述声纹模型库中确定目标声纹模型。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的声纹认证方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现如权利要求1-5任一项所述的声纹认证方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811487395.7A CN109243465A (zh) | 2018-12-06 | 2018-12-06 | 声纹认证方法、装置、计算机设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811487395.7A CN109243465A (zh) | 2018-12-06 | 2018-12-06 | 声纹认证方法、装置、计算机设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109243465A true CN109243465A (zh) | 2019-01-18 |
Family
ID=65073890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811487395.7A Pending CN109243465A (zh) | 2018-12-06 | 2018-12-06 | 声纹认证方法、装置、计算机设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109243465A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902957A (zh) * | 2019-02-28 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种数据处理方法和装置 |
CN110197172A (zh) * | 2019-06-10 | 2019-09-03 | 清华大学 | 一种基于光电血管容积信息进行身份认证的方法及装置 |
CN111243601A (zh) * | 2019-12-31 | 2020-06-05 | 北京捷通华声科技股份有限公司 | 声纹聚类方法、装置、电子设备和计算机可读存储介质 |
WO2020199473A1 (zh) * | 2019-04-04 | 2020-10-08 | 平安科技(深圳)有限公司 | 语音密码验证方法、装置、存储介质及计算机设备 |
CN111833068A (zh) * | 2020-07-31 | 2020-10-27 | 重庆富民银行股份有限公司 | 基于声纹识别的身份核验***及方法 |
CN111833882A (zh) * | 2019-03-28 | 2020-10-27 | 阿里巴巴集团控股有限公司 | 声纹信息管理方法、装置、***及计算设备、存储介质 |
CN111933147A (zh) * | 2020-06-22 | 2020-11-13 | 厦门快商通科技股份有限公司 | 声纹识别方法、***、移动终端及存储介质 |
CN112164404A (zh) * | 2020-10-28 | 2021-01-01 | 广西电网有限责任公司贺州供电局 | 一种基于声纹识别技术的远程身份认证方法及*** |
CN112992154A (zh) * | 2021-05-08 | 2021-06-18 | 北京远鉴信息技术有限公司 | 一种基于增强型声纹库的语音身份确定方法及*** |
WO2021139589A1 (zh) * | 2020-01-10 | 2021-07-15 | 华为技术有限公司 | 一种语音处理方法、介质及*** |
CN113327617A (zh) * | 2021-05-17 | 2021-08-31 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN113327618A (zh) * | 2021-05-17 | 2021-08-31 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN113366567A (zh) * | 2021-05-08 | 2021-09-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种声纹识别方法、歌手认证方法、电子设备及存储介质 |
CN113457096A (zh) * | 2020-03-31 | 2021-10-01 | 荣耀终端有限公司 | 基于可穿戴设备检测篮球动作的方法以及可穿戴设备 |
CN115021937A (zh) * | 2022-06-21 | 2022-09-06 | 中国银行股份有限公司 | 一种用户身份认证方法、***、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1447278A (zh) * | 2002-11-15 | 2003-10-08 | 郑方 | 一种声纹识别方法 |
CN103714817A (zh) * | 2013-12-31 | 2014-04-09 | 厦门天聪智能软件有限公司 | 基于声纹识别技术的满意度调查作弊排查方法 |
CN107680582A (zh) * | 2017-07-28 | 2018-02-09 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
CN107993663A (zh) * | 2017-09-11 | 2018-05-04 | 北京航空航天大学 | 一种基于Android的声纹识别方法 |
CN108040032A (zh) * | 2017-11-02 | 2018-05-15 | 阿里巴巴集团控股有限公司 | 一种声纹认证方法、账号注册方法及装置 |
CN108297108A (zh) * | 2018-02-06 | 2018-07-20 | 上海交通大学 | 一种球形跟随机器人及其跟随控制方法 |
-
2018
- 2018-12-06 CN CN201811487395.7A patent/CN109243465A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1447278A (zh) * | 2002-11-15 | 2003-10-08 | 郑方 | 一种声纹识别方法 |
CN103714817A (zh) * | 2013-12-31 | 2014-04-09 | 厦门天聪智能软件有限公司 | 基于声纹识别技术的满意度调查作弊排查方法 |
CN107680582A (zh) * | 2017-07-28 | 2018-02-09 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
CN107993663A (zh) * | 2017-09-11 | 2018-05-04 | 北京航空航天大学 | 一种基于Android的声纹识别方法 |
CN108040032A (zh) * | 2017-11-02 | 2018-05-15 | 阿里巴巴集团控股有限公司 | 一种声纹认证方法、账号注册方法及装置 |
CN108297108A (zh) * | 2018-02-06 | 2018-07-20 | 上海交通大学 | 一种球形跟随机器人及其跟随控制方法 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902957A (zh) * | 2019-02-28 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种数据处理方法和装置 |
CN109902957B (zh) * | 2019-02-28 | 2022-12-09 | 腾讯科技(深圳)有限公司 | 一种数据处理方法和装置 |
CN111833882A (zh) * | 2019-03-28 | 2020-10-27 | 阿里巴巴集团控股有限公司 | 声纹信息管理方法、装置、***及计算设备、存储介质 |
WO2020199473A1 (zh) * | 2019-04-04 | 2020-10-08 | 平安科技(深圳)有限公司 | 语音密码验证方法、装置、存储介质及计算机设备 |
CN110197172A (zh) * | 2019-06-10 | 2019-09-03 | 清华大学 | 一种基于光电血管容积信息进行身份认证的方法及装置 |
CN111243601A (zh) * | 2019-12-31 | 2020-06-05 | 北京捷通华声科技股份有限公司 | 声纹聚类方法、装置、电子设备和计算机可读存储介质 |
CN111243601B (zh) * | 2019-12-31 | 2023-04-07 | 北京捷通华声科技股份有限公司 | 声纹聚类方法、装置、电子设备和计算机可读存储介质 |
WO2021139589A1 (zh) * | 2020-01-10 | 2021-07-15 | 华为技术有限公司 | 一种语音处理方法、介质及*** |
CN113457096B (zh) * | 2020-03-31 | 2022-06-24 | 荣耀终端有限公司 | 基于可穿戴设备检测篮球动作的方法以及可穿戴设备 |
CN113457096A (zh) * | 2020-03-31 | 2021-10-01 | 荣耀终端有限公司 | 基于可穿戴设备检测篮球动作的方法以及可穿戴设备 |
CN111933147B (zh) * | 2020-06-22 | 2023-02-14 | 厦门快商通科技股份有限公司 | 声纹识别方法、***、移动终端及存储介质 |
CN111933147A (zh) * | 2020-06-22 | 2020-11-13 | 厦门快商通科技股份有限公司 | 声纹识别方法、***、移动终端及存储介质 |
CN111833068A (zh) * | 2020-07-31 | 2020-10-27 | 重庆富民银行股份有限公司 | 基于声纹识别的身份核验***及方法 |
CN112164404A (zh) * | 2020-10-28 | 2021-01-01 | 广西电网有限责任公司贺州供电局 | 一种基于声纹识别技术的远程身份认证方法及*** |
CN112992154A (zh) * | 2021-05-08 | 2021-06-18 | 北京远鉴信息技术有限公司 | 一种基于增强型声纹库的语音身份确定方法及*** |
CN113366567A (zh) * | 2021-05-08 | 2021-09-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种声纹识别方法、歌手认证方法、电子设备及存储介质 |
CN113366567B (zh) * | 2021-05-08 | 2024-06-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种声纹识别方法、歌手认证方法、电子设备及存储介质 |
CN113327617A (zh) * | 2021-05-17 | 2021-08-31 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN113327618B (zh) * | 2021-05-17 | 2024-04-19 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN113327617B (zh) * | 2021-05-17 | 2024-04-19 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN113327618A (zh) * | 2021-05-17 | 2021-08-31 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN115021937A (zh) * | 2022-06-21 | 2022-09-06 | 中国银行股份有限公司 | 一种用户身份认证方法、***、电子设备及存储介质 |
CN115021937B (zh) * | 2022-06-21 | 2024-02-09 | 中国银行股份有限公司 | 一种用户身份认证方法、***、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109243465A (zh) | 声纹认证方法、装置、计算机设备以及存储介质 | |
CN108460081B (zh) | 语音数据库创建方法、声纹注册方法、装置、设备及介质 | |
US9990915B2 (en) | Systems and methods for multi-style speech synthesis | |
CN113470615B (zh) | 跨讲话者风格转移语音合成 | |
CN109817246A (zh) | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 | |
CN110265040A (zh) | 声纹模型的训练方法、装置、存储介质及电子设备 | |
CN107767869A (zh) | 用于提供语音服务的方法和装置 | |
CN110197658A (zh) | 语音处理方法、装置以及电子设备 | |
US20160027430A1 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
CN110570876A (zh) | 歌声合成方法、装置、计算机设备和存储介质 | |
CN112735371B (zh) | 一种基于文本信息生成说话人视频的方法及装置 | |
CN112382300A (zh) | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 | |
Rashmi | Review of algorithms and applications in speech recognition system | |
US10014007B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
CN114283783A (zh) | 语音合成方法、模型训练方法、设备及存储介质 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、***及存储介质 | |
EP3363015A1 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
CN111599339A (zh) | 具有高自然度的语音拼接合成方法、***、设备及介质 | |
CN113782032A (zh) | 一种声纹识别方法及相关装置 | |
CN108665901A (zh) | 一种音素/音节提取方法及装置 | |
CA2947957A1 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
CN110298150B (zh) | 一种基于语音识别的身份验证方法及*** | |
CN113555003B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
Gao | Audio deepfake detection based on differences in human and machine generated speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |