CN111081256A - 数字串声纹密码验证方法及*** - Google Patents
数字串声纹密码验证方法及*** Download PDFInfo
- Publication number
- CN111081256A CN111081256A CN201911416538.XA CN201911416538A CN111081256A CN 111081256 A CN111081256 A CN 111081256A CN 201911416538 A CN201911416538 A CN 201911416538A CN 111081256 A CN111081256 A CN 111081256A
- Authority
- CN
- China
- Prior art keywords
- audio
- digital
- xvector
- training
- string information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012795 verification Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 82
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000012935 Averaging Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 44
- 238000004590 computer program Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开一种数字串声纹密码验证方法及***,方法包括:训练并获取背景模型。获取注册者音频中的数字串信息。获取当前解码音频中的数字串信息。若匹配设定数字串信息,则通过背景模型处理注册者音频获取当前音频的xvector声纹特征。若不匹配设定数字串信息,则结束或重新获取本步骤中当前解码音频中的数字串信息。根据说话人库中的对应注册xvector声纹特征对当前xvector声纹特征打分,获取打分值。根据打分值判断验证结果。本发明只需简单调整数字分类头,就可能可以在文本相关和文本无关声纹识别任务上使用,做成通用的声纹识别方案。
Description
技术领域
本发明属于音频处理技术领域,尤其涉及数字串声纹密码验证方法及***。
背景技术
相关技术中,先将注册音频和测试音频中0~9十个数字对应的音频分开,分别提取表征向量如ivector,相同数字的上ivector进行相似度打分,所有数字的分数求平均得到注册音频和测试音频的说话人相似度得分。
目前市场上使用的这些技术,比较明显的缺陷有两个:一是容易造成注册音频中的信息利用不全;二是不能很好利用不同数字之间的联合信息。目前市场上的数字串声纹密码***是逐个数字进行的相似度打分,当测试音频中包含的不重复数字不同于注册音频时,必然会有些数字的ivector没有被利用,影响***性能。另外,背景模型的训练时是每个数字训练一个背景模型,每个数字的音频采用对应数字的背景模型提取ivector都没有联合到不同数字之间的信息,因而***难以达到最优性能。
发明人在实现本申请的过程中发现:本业内同行通常能想到的做法是用深度嵌入技术提取xvector替代ivector,提高表征向量的建模能力;同时注册音频里所有数字的xvector取平均,注册音频里所有数字提取的xvector取均值,两个均值向量进行说话人相似度打分。我们的方案在背景模型训练时,会用到多任务训练,联合多数字信息提取xvector,整个方案不容易实现。
发明内容
本发明实施例提供一种数字串声纹密码验证方法及***,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种数字串声纹密码验证方法,包括:
步骤S101,训练并获取背景模型。
步骤S102,获取注册者音频中的数字串信息。若匹配设定数字串信息,则通过背景模型处理注册者音频获取注册xvector声纹特征,根据注册xvector声纹特征建立说话人库。若不匹配设定数字串信息,则结束或重新获取本步骤中当前注册者音频中的数字串信息。
步骤S103,获取当前解码音频中的数字串信息。若匹配设定数字串信息,则通过背景模型处理测试者者音频获取当前xvector声纹特征。若不匹配设定数字串信息,则结束或重新获取本步骤中当前解码音频中的数字串信息。
步骤S104,根据说话人库中的对应注册xvector声纹特征对当前测试者xvector声纹特征打分,获取打分值。
步骤S105,判断打分值是否超过设定阈值,若是,则生成验证通过信息,若否,则生成验证失败信息。
在一种优选的实施方式中,步骤S101中训练并获取背景模型的步骤包括:
步骤S1011,获取训练集音频,训练集音频为具有多人语音的训练集音频。获取每个数字对应的多个时间段并获取数字标签。
步骤S1012,从训练集音频中根据多个时间段提取特征并通过深度卷积神经网络训练。将卷积训练后的结果经过第一全连接层输出,第一全连接层具有0~9个数字定义节点。将第一全连接层输出归一化并对应每个定义节点映射到多个超向量。
步骤S1013,对多个超向量求均值,再经过第二全连接层获取设定维度的xvector声纹特征。
在一种优选的实施方式中,步骤S1013中还包括:对于多人语音中的每个人的设定维度的xvector声纹特征,通过交叉熵损失函数将相同说话人的xvector之间的距离变小,不同说话人的xvector之间的距离变大。
在一种优选的实施方式中,步骤S1011中还包括:通过数字标签获取数字分类头损失函数。
通过训练集音频获取说话人标签。根据说话人标签获取说话人分类损失函数。
步骤S1013后还包括:
步骤S1014,通过数字分类头损失函数及说话人分类损失函数获取***总损失函数。
第二方面,本发明实施例提供一种数字串声纹密码的验证***,其包括:
训练单元,其配置为训练并获取背景模型。
注册单元,其配置为获取注册者音频中的数字串信息。若匹配设定数字串信息,则通过背景模型处理注册者音频获取注册xvector声纹特征,根据注册xvector声纹特征建立说话人库。若不匹配设定数字串信息,则结束或重新获取本步骤中当前注册者音频中的数字串信息。
验证单元,其配置为获取当前解码音频中的数字串信息。若匹配设定数字串信息,则通过背景模型处理测试者音频获取当前xvector声纹特征。若不匹配设定数字串信息,则结束或重新获取本步骤中当前解码音频中的数字串信息。
打分单元,其配置为根据说话人库中的对应注册xvector声纹特征对当前测试者xvector声纹特征打分,获取打分值。
结果输出单元,其配置为判断打分值是否超过设定阈值,若是,则生成验证通过信息,若否,则生成验证失败信息。
在本***的一种优选的实施方式中,训练单元还配置为:
获取训练集音频,训练集音频为具有多人语音的训练集音频。获取每个数字对应的多个时间段并获取数字标签。
从训练集音频中根据多个时间段提取特征并通过深度卷积神经网络训练。将卷积训练后的结果经过第一全连接层输出,第一全连接层具有0~9个数字定义节点。将第一全连接层输出归一化并对应每个定义节点映射到多个超向量。
对多个超向量求均值,再经过第二全连接层获取设定维度的xvector声纹特征。
在本***的一种优选的实施方式中,训练单元还配置为:对于多人语音中的每个人的设定维度的xvector声纹特征,通过交叉熵损失函数将相同说话人的xvector之间的距离变小,不同说话人的xvector之间的距离变大。
在本***的一种优选的实施方式中,训练单元还配置为:通过数字标签获取数字分类头损失函数。
通过训练集音频获取说话人标签。根据说话人标签获取说话人分类损失函数。
通过数字分类头损失函数及说话人分类损失函数获取***总损失函数。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行本发明任一实施例的方法的步骤。
本申请目前只是在数字串声纹密码***上使用,而实际上唤醒词相关声纹,只是将0~9十个数字换成了唤醒词内容。文本无关声纹也可以将音频中所有字枚举出来。从这样的角度来看,该方案只需简单调整数字分类头,就可能可以在文本相关和文本无关声纹识别任务上使用,做成通用的声纹识别方案。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种数字串声纹密码验证方法的流程图;
图2为本发明一实施例提供的数字串声纹密码***方案流程图;
图3为本发明一实施例提供的说话人识别中的背景模型示意图;
图4为本发明一实施例提供的一种数字串声纹密码验证***的组成框图;
图5是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面,先介绍本申请的实施方式,之后将用实验数据证实本申请的方案与现有技术相比有什么不同,能实现什么有益效果。
请参考图1,其示出了本申请的数字串声纹密码验证方法的流程图。
步骤S101,训练并获取背景模型。
步骤S102,获取注册xvector声纹特征。
本步骤中,获取注册者音频中的数字串信息。若匹配设定数字串信息,则通过背景模型处理注册者音频获取注册xvector声纹特征,根据注册xvector声纹特征建立说话人库。若不匹配设定数字串信息,则结束或重新获取本步骤中当前注册者音频中的数字串信息。
步骤S103,获取当前xvector声纹特征。
本步骤中,获取当前解码音频中的数字串信息。若匹配设定数字串信息,则通过背景模型处理测试者音频获取当前xvector声纹特征。若不匹配设定数字串信息,则结束或重新获取本步骤中当前解码音频中的数字串信息。
步骤S104,获取打分值。
本步骤中,根据说话人库中的对应注册xvector声纹特征对当前测试者xvector声纹特征打分,获取打分值。
步骤S105,判断打分值是否超过设定阈值。
判断打分值是否超过设定阈值,若是,则生成验证通过信息,若否,则生成验证失败信息。
在一种优选的实施方式中,步骤S101中训练并获取背景模型的步骤包括:
步骤S1011,获取训练集音频,训练集音频为具有多人语音的训练集音频。获取每个数字对应的多个时间段并获取数字标签。
步骤S1012,从训练集音频中根据多个时间段提取特征并通过深度卷积神经网络训练。将卷积训练后的结果经过第一全连接层输出,第一全连接层具有0~9个数字定义节点。将第一全连接层输出归一化并对应每个定义节点映射到多个超向量。
步骤S1013,对多个超向量求均值,再经过第二全连接层获取设定维度的xvector声纹特征。
在一种优选的实施方式中,步骤S1013中还包括:对于多人语音中的每个人的设定维度的xvector声纹特征,通过交叉熵损失函数将相同说话人的xvector之间的距离变小,不同说话人的xvector之间的距离变大。
在一种优选的实施方式中,步骤S1011中还包括:通过数字标签获取数字分类头损失函数。
通过训练集音频获取说话人标签。根据说话人标签获取说话人分类损失函数。
步骤S1013后还包括:
步骤S1014,通过数字分类头损失函数及说话人分类损失函数获取***总损失函数。
采用以下的技术方案解决问题:本方案中,采用深度卷积神经网络和批量归一化操作,将卷积操作后的结果经过一个全连接层,该全连接层的输出节点表示0~9十个数字,输出进行softmax。根据每个卷积层输出向量在这10个节点上的输出,将它们映射到一个超向量,对这些超向量求均值,再经过另一个全连接层得到固定维度的xvector,采用交叉熵损失函数将相同说话人的xvector之间的距离变小,不同说话人的xvector之间的距离变大。然后对注册音频的xvector和测试音频的xvector求余弦距离,表示他们之间的说话人相似度。
整个***的流程图如图2所示,声纹识别***分为声纹注册过程和声纹识别过程。
在声纹注册阶段,***提示用户一个随机生成的数字串,用户读出该数字串。设备端麦克风采集到用户语音后,采用语音活动点检测(Voice Activity detection,VAD)截出用户说话的音频,送入数字串识别器。如果数字串识别器识别结果与***提示数字串一致,则将音频送入xvector提取模块,提取出xvector放入说话人数据库;否则注册失败,注册流程结束。
在声纹识别阶段,***提示用户一个随机生成的数字串,用户读出该数字串,设备端麦克风采集到用户语音后,采用VAD截出用户说话的音频,送入数字串识别器。如果数字串识别器识别结果与***提示数字串不一致,测试流程结束。如果数字串识别器识别结果与***提示数字串一致,将音频送入xvector提取器提取xvector,然后与数据库中说话人注册人speakerA的xvector进行余弦距离打分,如果得分高于阈值则判断当前测试人是speakerA,否则不是。
整个***中的核心组件是xvector提取器,即说话人识别中的背景模型示意图图如图3所示。
如图3所示,在训练背景模型过程中,每条训练数据需要包含音频、音频中每个数字对应的时间段和说话人标签。我们的模型包含两个分类头,分别如图3中91框中部分,其中一个头对音频中的数字进行分类,另外一个头则是对说话人进行分类。背景模型训练过程中,数字分类头的损失函数与说话人分类都的损失函数的和作为***总损失函数进行优化。
说话人注册和测试时,音频提取的FBANK特征,先经过多层卷积神经网络,然后根据数字分类的输出和卷积层输出联合计算超向量,再经过一个全连接层映射到xvector,在这个过程中可以很好的联合利用不同数字的信息,提高说话人识别的效果。
请参考图4,其示出了本发明一实施例提供的一种数字串声纹密码的验证***,其包括:
训练单元101,其配置为训练并获取背景模型。
注册单元102,其配置为获取注册者音频中的数字串信息。若匹配设定数字串信息,则通过背景模型处理注册者音频获取注册xvector声纹特征,根据注册xvector声纹特征建立说话人库。若不匹配设定数字串信息,则结束或重新获取本步骤中当前注册者音频中的数字串信息。
验证单元103,其配置为获取当前解码音频中的数字串信息。若匹配设定数字串信息,则通过背景模型处理测试者者音频获取当前xvector声纹特征。若不匹配设定数字串信息,则结束或重新获取本步骤中当前解码音频中的数字串信息。
打分单元104,其配置为根据说话人库中的对应注册xvector声纹特征对当前xvector声纹特征打分,获取打分值。
结果输出单元105,其配置为判断打分值是否超过设定阈值,若是,则生成验证通过信息,若否,则生成验证失败信息。
在本***的一种优选的实施方式中,训练单元还配置为:
获取训练集音频,训练集音频为具有多人语音的训练集音频。获取每个数字对应的多个时间段并获取数字标签。
从训练集音频中根据多个时间段提取特征并通过深度卷积神经网络训练。将卷积训练后的结果经过第一全连接层输出,第一全连接层具有0~9个数字定义节点。将第一全连接层输出归一化并对应每个定义节点映射到多个超向量。
对多个超向量求均值,再经过第二全连接层获取设定维度的xvector声纹特征。
在本***的一种优选的实施方式中,训练单元还配置为:对于多人语音中的每个人的设定维度的xvector声纹特征,通过交叉熵损失函数将相同说话人的xvector之间的距离变小,不同说话人的xvector之间的距离变大。
在本***的一种优选的实施方式中,训练单元还配置为:通过数字标签获取数字分类头损失函数。
通过训练集音频获取说话人标签。根据说话人标签获取说话人分类损失函数。
通过数字分类头损失函数及说话人分类损失函数获取***总损失函数。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音信号处理和使用方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
训练并获取背景模型。
获取注册者音频中的数字串信息。若匹配设定数字串信息,则通过背景模型识别注册者音频获取注册xvector声纹特征,根据注册xvector声纹特征建立说话人库。若不匹配设定数字串信息,则结束或重新获取本步骤中当前注册者音频中的数字串信息。
获取当前解码音频中的数字串信息。若匹配设定数字串信息,则通过背景模型处理注册者音频获取当前xvector声纹特征。若不匹配设定数字串信息,则结束或重新获取本步骤中当前解码音频中的数字串信息。
根据说话人库中的对应注册xvector声纹特征对当前测试者xvector声纹特征打分,获取打分值。
判断打分值是否超过设定阈值,若是,则生成验证通过信息,若否,则生成验证失败信息。
基于训练并获取背景模型的步骤包括:步骤S1011,获取训练集音频,训练集音频为具有多人语音的训练集音频。获取每个数字对应的时间段并获取数字标签。步骤S1012,从训练集音频中根据时间段提取特征并通过深度卷积神经网络训练。将卷积训练后的结果经过第一全连接层输出,第一全连接层具有0~9个数字定义节点。将第一全连接层输出归一化并对应每个定义节点映射到多个超向量。步骤S1013,对多个超向量求均值,再经过第二全连接层获取设定维度的xvector声纹特征。
基于步骤S1013中还包括:对于多人语音中的每个人的设定维度的xvector声纹特征,通过交叉熵损失函数将相同说话人的xvector之间的距离变小,不同说话人的xvector之间的距离变大。
基于步骤S1011中还包括:通过数字标签获取数字分类头损失函数。
通过训练集音频获取说话人标签。根据说话人标签获取说话人分类损失函数。步骤S1013后还包括:步骤S1014,通过数字分类头损失函数及说话人分类损失函数获取***总损失函数。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的数字串声纹密码验证方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的数字串声纹密码验证方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据语音信号处理装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音信号处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项数字串声纹密码验证方法。
图5是本发明实施例提供的电子设备的结构示意图,如图5所示,该设备包括:一个或多个处理器510以及存储器520,图5中以一个处理器510为例。数字串声纹密码验证方法的设备还可以包括:输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例数字串声纹密码验证方法。输入装置530可接收输入的数字或字符信息,以及产生与信息投放装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备可以应用于智能语音对话平台中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
训练并获取背景模型。
获取注册者音频中的数字串信息。若匹配设定数字串信息,则通过背景模型处理注册者音频获取注册xvector声纹特征,根据注册xvector声纹特征建立说话人库。若不匹配设定数字串信息,则结束或重新获取本步骤中当前注册者音频中的数字串信息。
获取当前解码音频中的数字串信息。若匹配设定数字串信息,则通过背景模型处理测试者音频获取当前xvector声纹特征。若不匹配设定数字串信息,则结束或重新获取本步骤中当前解码音频中的数字串信息。
根据说话人库中的对应注册xvector声纹特征对当前测试者xvector声纹特征打分,获取打分值。
判断打分值是否超过设定阈值,若是,则生成验证通过信息,若否,则生成验证失败信息。
基于训练并获取背景模型的步骤包括:步骤S1011,获取训练集音频,训练集音频为具有多人语音的训练集音频。获取每个数字对应的多个时间段并获取数字标签。步骤S1012,从训练集音频中根据多个时间段提取特征并通过深度卷积神经网络训练。将卷积训练后的结果经过第一全连接层输出,第一全连接层具有0~9个数字定义节点。将第一全连接层输出归一化并对应每个定义节点映射到多个超向量。步骤S1013,对多个超向量求均值,再经过第二全连接层获取设定维度的xvector声纹特征。
基于步骤S1013中还包括:对于多人语音中的每个人的设定维度的xvector声纹特征,通过交叉熵损失函数将相同说话人的xvector之间的距离变小,不同说话人的xvector之间的距离变大。
基于步骤S1011中还包括:通过数字标签获取数字分类头损失函数。
通过训练集音频获取说话人标签。根据说话人标签获取说话人分类损失函数。步骤S1013后还包括:步骤S1014,通过数字分类头损失函数及说话人分类损失函数获取***总损失函数。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、***总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种数字串声纹密码的验证方法,包括:
步骤S101,训练并获取背景模型;
步骤S102,获取注册者音频中的数字串信息;若匹配设定数字串信息,则通过所述背景模型处理所述注册者音频获取注册xvector声纹特征,根据所述注册xvector声纹特征建立说话人库;若不匹配所述设定数字串信息,则结束或重新获取本步骤中所述当前注册者音频中的数字串信息;
步骤S103,获取当前解码音频中的数字串信息;若匹配所述设定数字串信息,则通过所述背景模型处理所述测试者音频获取当前xvector声纹特征;若不匹配所述设定数字串信息,则结束或重新获取本步骤中所述当前解码音频中的数字串信息;
步骤S104,根据所述说话人库中的对应注册xvector声纹特征对所述当前测试者xvector声纹特征打分,获取打分值;
步骤S105,判断所述打分值是否超过设定阈值,若是,则生成验证通过信息,若否,则生成验证失败信息。
2.根据权利要求1所述的验证方法,其中,所述步骤S101中所述训练并获取背景模型的步骤包括:
步骤S1011,获取训练集音频,所述训练集音频为具有多人语音的训练集音频;获取每个数字对应的时间段并获取数字标签;
步骤S1012,从所述训练集音频中根据所述时间段提取特征并通过深度卷积神经网络训练;将卷积训练后的结果经过第一全连接层输出,所述第一全连接层具有0~9个数字定义节点;将所述第一全连接层输出归一化并对应每个定义节点映射到多个超向量;
步骤S1013,对所述多个超向量求均值,再经过第二全连接层获取设定维度的xvector声纹特征。
3.根据权利要求2所述的验证方法,其中,所述步骤S1013中还包括:对于多人语音中的每个人的设定维度的xvector声纹特征,通过交叉熵损失函数将相同说话人的xvector之间的距离变小,不同说话人的xvector之间的距离变大。
4.根据权利要求2或3所述的验证方法,其中,所述步骤S1011中还包括:通过所述数字标签获取数字分类头损失函数;
通过训练集音频获取说话人标签;根据所述说话人标签获取说话人分类损失函数;
所述步骤S1013后还包括:
步骤S1014,通过数字分类头损失函数及所述说话人分类损失函数获取***总损失函数。
5.一种数字串声纹密码的验证***,其包括:
训练单元,其配置为训练并获取背景模型;
注册单元,其配置为获取注册者音频中的数字串信息;若匹配设定数字串信息,则通过所述背景模型处理所述注册者音频获取注册xvector声纹特征,根据所述注册xvector声纹特征建立说话人库;若不匹配所述设定数字串信息,则结束或重新获取本步骤中所述当前注册者音频中的数字串信息;
验证单元,其配置为获取当前解码音频中的数字串信息;若匹配所述设定数字串信息,则通过所述背景模型处理所述测试者音频获取当前xvector声纹特征;若不匹配所述设定数字串信息,则结束或重新获取本步骤中所述当前解码音频中的数字串信息;
打分单元,其配置为根据所述说话人库中的对应注册xvector声纹特征对所述当前测试者xvector声纹特征打分,获取打分值;
结果输出单元,其配置为判断所述打分值是否超过设定阈值,若是,则生成验证通过信息,若否,则生成验证失败信息。
6.根据权利要求5所述的验证***,其中,所述训练单元还配置为:
获取训练集音频,所述训练集音频为具有多人语音的训练集音频;获取每个数字对应的时间段并获取数字标签;
从所述训练集音频中根据所述时间段提取特征并通过深度卷积神经网络训练;将卷积训练后的结果经过第一全连接层输出,所述第一全连接层具有0~9个数字定义节点;将所述第一全连接层输出归一化并对应每个定义节点映射到多个超向量;
对所述多个超向量求均值,再经过第二全连接层获取设定维度的xvector声纹特征。
7.根据权利要求6所述的验证***,其中,所述训练单元还配置为:对于多人语音中的每个人的设定维度的xvector声纹特征,通过交叉熵损失函数将相同说话人的xvector之间的距离变小,不同说话人的xvector之间的距离变大。
8.根据权利要求6或7所述的验证***,其中,所述训练单元还配置为:通过所述数字标签获取数字分类头损失函数;
通过训练集音频获取说话人标签;根据所述说话人标签获取说话人分类损失函数;
通过数字分类头损失函数及所述说话人分类损失函数获取***总损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911416538.XA CN111081256A (zh) | 2019-12-31 | 2019-12-31 | 数字串声纹密码验证方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911416538.XA CN111081256A (zh) | 2019-12-31 | 2019-12-31 | 数字串声纹密码验证方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111081256A true CN111081256A (zh) | 2020-04-28 |
Family
ID=70320938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911416538.XA Withdrawn CN111081256A (zh) | 2019-12-31 | 2019-12-31 | 数字串声纹密码验证方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111081256A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640438A (zh) * | 2020-05-26 | 2020-09-08 | 同盾控股有限公司 | 音频数据处理方法、装置、存储介质及电子设备 |
CN112735438A (zh) * | 2020-12-29 | 2021-04-30 | 科大讯飞股份有限公司 | 一种在线声纹特征更新方法及设备、存储设备和建模设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106098068A (zh) * | 2016-06-12 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
US20160358608A1 (en) * | 2009-10-28 | 2016-12-08 | Nec Corporation | Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium |
EP3180785A1 (en) * | 2014-12-15 | 2017-06-21 | Baidu USA LLC | Systems and methods for speech transcription |
CN107104803A (zh) * | 2017-03-31 | 2017-08-29 | 清华大学 | 一种基于数字口令与声纹联合确认的用户身份验证方法 |
CN110047491A (zh) * | 2018-01-16 | 2019-07-23 | 中国科学院声学研究所 | 一种随机数字口令相关的说话人识别方法及装置 |
CN110047504A (zh) * | 2019-04-18 | 2019-07-23 | 东华大学 | 身份矢量x-vector线性变换下的说话人识别方法 |
-
2019
- 2019-12-31 CN CN201911416538.XA patent/CN111081256A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160358608A1 (en) * | 2009-10-28 | 2016-12-08 | Nec Corporation | Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium |
EP3180785A1 (en) * | 2014-12-15 | 2017-06-21 | Baidu USA LLC | Systems and methods for speech transcription |
CN106098068A (zh) * | 2016-06-12 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
CN107104803A (zh) * | 2017-03-31 | 2017-08-29 | 清华大学 | 一种基于数字口令与声纹联合确认的用户身份验证方法 |
CN110047491A (zh) * | 2018-01-16 | 2019-07-23 | 中国科学院声学研究所 | 一种随机数字口令相关的说话人识别方法及装置 |
CN110047504A (zh) * | 2019-04-18 | 2019-07-23 | 东华大学 | 身份矢量x-vector线性变换下的说话人识别方法 |
Non-Patent Citations (1)
Title |
---|
董莺艳: "基于深度学习的声纹识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640438A (zh) * | 2020-05-26 | 2020-09-08 | 同盾控股有限公司 | 音频数据处理方法、装置、存储介质及电子设备 |
CN111640438B (zh) * | 2020-05-26 | 2023-09-05 | 同盾控股有限公司 | 音频数据处理方法、装置、存储介质及电子设备 |
CN112735438A (zh) * | 2020-12-29 | 2021-04-30 | 科大讯飞股份有限公司 | 一种在线声纹特征更新方法及设备、存储设备和建模设备 |
CN112735438B (zh) * | 2020-12-29 | 2024-05-31 | 科大讯飞股份有限公司 | 一种在线声纹特征更新方法及设备、存储设备和建模设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136749B (zh) | 说话人相关的端到端语音端点检测方法和装置 | |
KR101757990B1 (ko) | 성문 인증 방법 및 장치 | |
CN107147618B (zh) | 一种用户注册方法、装置及电子设备 | |
JP6096333B2 (ja) | 決済を検証するための方法、装置、およびシステム | |
CN107623614A (zh) | 用于推送信息的方法和装置 | |
CN108428446A (zh) | 语音识别方法和装置 | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
CN111081255B (zh) | 说话人确认方法和装置 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN111081260A (zh) | 一种唤醒词声纹的识别方法及*** | |
CN113362829B (zh) | 说话人验证方法、电子设备及存储介质 | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
CN104462912B (zh) | 改进的生物密码安全 | |
CN109462603A (zh) | 基于盲检测的声纹认证方法、设备、存储介质及装置 | |
CN110349569B (zh) | 定制化产品语言模型的训练和识别方法及装置 | |
CN111312218A (zh) | 神经网络的训练和语音端点检测方法及装置 | |
CN111159358A (zh) | 多意图识别训练和使用方法及装置 | |
CN111243604B (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及*** | |
CN111081256A (zh) | 数字串声纹密码验证方法及*** | |
CN110232927B (zh) | 说话人验证反欺骗方法和装置 | |
CN112397072B (zh) | 语音检测方法、装置、电子设备及存储介质 | |
CN104901807A (zh) | 一种可用于低端芯片的声纹密码方法 | |
CN113205809A (zh) | 语音唤醒方法和装置 | |
CN109273004B (zh) | 基于大数据的预测性语音识别方法及装置 | |
CN111105803A (zh) | 快速识别性别的方法及装置、用于识别性别的算法模型的生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Co.,Ltd. |
|
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200428 |