CN112289324B - 声纹身份识别的方法、装置和电子设备 - Google Patents

声纹身份识别的方法、装置和电子设备 Download PDF

Info

Publication number
CN112289324B
CN112289324B CN202011167536.4A CN202011167536A CN112289324B CN 112289324 B CN112289324 B CN 112289324B CN 202011167536 A CN202011167536 A CN 202011167536A CN 112289324 B CN112289324 B CN 112289324B
Authority
CN
China
Prior art keywords
voiceprint
sample
model
trained
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011167536.4A
Other languages
English (en)
Other versions
CN112289324A (zh
Inventor
黄明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Huawei Jin'an Enterprise Management Co ltd
Original Assignee
Hunan Huawei Jin'an Enterprise Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Huawei Jin'an Enterprise Management Co ltd filed Critical Hunan Huawei Jin'an Enterprise Management Co ltd
Priority to CN202011167536.4A priority Critical patent/CN112289324B/zh
Publication of CN112289324A publication Critical patent/CN112289324A/zh
Application granted granted Critical
Publication of CN112289324B publication Critical patent/CN112289324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明提供了一种声纹身份识别的方法、装置和电子设备,该方法包括:获取待识别声纹的频谱特征;通过声纹鉴别模型对频谱特征进行鉴别,得到待识别声纹对应的身份信息和待识别声纹的属性信息。本发明的声纹鉴别模型是预先对InfoGAN网络进行训练得到的,所需的训练样本的数据量小,并且通过声纹鉴别模型对频谱特征进行鉴别后,不仅能得到待识别声纹对应的对象标识,还能得到待识别声纹对应的对象的年龄、待识别声纹的噪音信息和音量信息,即提高了模型的抗时变能力和抗噪能力,缓解了现有的声纹身份识别模型不具有抗时变能力,并且抗噪能力差、训练时所需的样本数量大的技术问题。

Description

声纹身份识别的方法、装置和电子设备
技术领域
本发明涉及身份识别的技术领域,尤其是涉及一种声纹身份识别的方法、装置和电子设备。
背景技术
声纹身份认证方法,一般是通过训练一个声纹身份识别模型,以模型的末层输出作为声纹特征,计算两个声纹特征的相似度得分来进行身份认证。相似度得分高于阈值的,认为是同一人,否则,认为不是同一人。即,声纹身份识别技术是声纹身份认证技术的基础和关键。
声纹身份识别技术从传统的i-vector技术发展到现今的d-vector技术,取得了显著的成果。d-vector所涉及的深度学习技术一般是指:深度神经网络DNN、卷积神经网络CNN、残差网络ResNET、循环神经网络LSTM及各自的改进网络。上述声纹身份识别技术(例如:DNN、CNN、RNN、ResNET、LSTM网络)具有大量的参数,需要足够多的样本才能达到一定的泛化能力,且计算量大,消耗的硬件计算资源多。即,现有技术的声纹身份识别模型训练时所需样本数量大。另外,现有的声纹身份识别模型仅是从分类的角度进行,即仅能识别出每个待识别声纹所属的对象ID,无法利用年龄数据,也无法自动挖掘潜在噪音数据,而仅通过分类方法训练得到的声纹身份识别模型不具有抗时变能力,并且抗噪能力也不足。
综上,现有的声纹身份识别模型不具有抗时变能力,并且抗噪能力差、训练时所需的样本数量大。
发明内容
本发明的目的在于提供一种声纹身份识别的方法、装置和电子设备,以缓解现有的声纹身份识别模型不具有抗时变能力,并且抗噪能力差、训练时所需的样本数量大的技术问题。
第一方面,本发明实施例提供了一种声纹身份识别的方法,包括:
获取待识别声纹的频谱特征;
通过声纹鉴别模型对所述频谱特征进行鉴别,得到所述待识别声纹对应的身份信息和所述待识别声纹的属性信息,其中,所述声纹鉴别模型为预先对InfoGAN网络进行训练得到的模型,所述身份信息包括:对象标识,所述对象标识对应的对象的年龄,所述属性信息至少包括:噪音信息和音量信息。
进一步的,获取待识别声纹的频谱特征包括:
获取所述待识别声纹;
对所述待识别声纹进行傅里叶变换,得到所述频谱特征。
进一步的,所述InfoGAN网络包括:待训练的声纹生成模型和待训练的声纹鉴别模型,所述方法还包括:
获取训练样本数据,其中,所述训练样本数据包括:声纹的频谱特征样本、所述频谱特征样本对应的对象标识、所述频谱特征样本对应的对象的年龄、2维连续随机变量和162维随机变量,所述2维连续随机变量用于分别表征所述频谱特征样本对应的噪音信息和所述频谱特征样本对应的音量信息;
采用所述训练样本数据对所述待训练的声纹生成模型和所述待训练的声纹鉴别模型进行训练,得到声纹生成模型和所述声纹鉴别模型。
进一步的,获取训练样本数据包括:
获取带有年龄标签和对象标识标签的声纹样本;
基于噪音强度检测算法对所述声纹样本进行过滤,得到目标声纹样本;
对所述目标声纹样本进行傅里叶变换,得到所述频谱特征样本;
基于随机变量生成算法生成所述2维连续随机变量和所述162维随机变量。
进一步的,采用所述训练样本数据对所述待训练的声纹生成模型和所述待训练的声纹鉴别模型进行训练包括:
将所述频谱特征样本对应的对象标识、所述频谱特征样本对应的对象的年龄、所述2维连续随机变量和所述162维随机变量输入至所述待训练的声纹生成模型,输出得到生成数据,其中,所述生成数据包括:生成的频谱特征、生成的对象标识、生成的对象的年龄、生成的2维连续随机变量;
将所述频谱特征样本和所述生成的频谱特征输入至所述待训练的声纹鉴别模型,输出得到鉴别结果,其中,所述鉴别结果包括:所述频谱特征样本和所述生成的频谱特征的真假样本标志位、待确认的对象标识、待确认的对象的年龄、待确认的2维连续随机变量;
计算所述生成数据和所述鉴别结果之间的差异值;
如果所述差异值大于预设阈值,则继续通过所述训练样本数据对所述待训练的声纹生成模型和所述待训练的声纹鉴别模型进行训练,直至所述差异值小于或等于所述预设阈值。
进一步的,计算所述生成数据和所述鉴别结果之间的差异值包括:
计算所述真假样本标志位的鉴别损失;
计算所述生成的对象标识与所述待确认的对象标识之间的交叉熵损失;
计算所述生成的对象的年龄与所述待确认的对象的年龄之间的第一均方损失信息熵;
计算所述生成的2维连续随机变量与所述待确认的2维连续随机变量之间的第二均方损失信息熵;
将所述鉴别损失、所述交叉熵损失、所述第一均方损失信息熵和所述第二均方损失信息熵作为所述差异值。
第二方面,本发明实施例还提供了一种声纹身份识别的装置,所述装置包括:
获取单元,用于获取待识别声纹的频谱特征;
鉴别单元,用于通过声纹鉴别模型对所述频谱特征进行鉴别,得到所述待识别声纹对应的身份信息和所述待识别声纹的属性信息,其中,所述声纹鉴别模型为预先对InfoGAN网络进行训练得到的模型,所述身份信息包括:对象标识,所述对象标识对应的对象的年龄,所述属性信息至少包括:噪音信息和音量信息。
进一步的,所述获取单元还用于:
获取所述待识别声纹;
对所述待识别声纹进行傅里叶变换,得到所述频谱特征。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。
第四方面,本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述第一方面任一项所述的方法的步骤。
在本发明实施例中,提供了一种声纹身份识别的方法,该方法包括:先获取待识别声纹的频谱特征;然后,通过声纹鉴别模型对频谱特征进行鉴别,得到待识别声纹对应的身份信息和待识别声纹的属性信息,其中,声纹鉴别模型为预先对InfoGAN网络进行训练得到的模型,身份信息包括:对象标识,对象标识对应的对象的年龄,属性信息至少包括:噪音信息和音量信息。通过上述描述可知,本发明的声纹鉴别模型是预先对InfoGAN网络进行训练得到的,所需的训练样本的数据量小,并且通过声纹鉴别模型对频谱特征进行鉴别后,不仅能得到待识别声纹对应的对象标识,还能得到待识别声纹对应的对象的年龄、待识别声纹的噪音信息和音量信息,即提高了模型的抗时变能力和抗噪能力,缓解了现有的声纹身份识别模型不具有抗时变能力,并且抗噪能力差、训练时所需的样本数量大的技术问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种声纹身份识别的方法的流程示意图;
图2为本发明实施例提供的声纹鉴别模型的训练方法流程图;
图3为本发明实施例提供的获取训练样本数据的方法流程图;
图4为本发明实施例提供的采用训练样本数据对待训练的声纹生成模型和待训练的声纹鉴别模型进行训练的方法流程图;
图5为本发明实施例提供的真实样本与声纹生成模型生成的假样本之间的对比图;
图6为本发明实施例提供的一种声纹身份识别的装置的示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种声纹身份识别的方法进行详细介绍。
实施例一:
为便于对本实施例进行理解,首先对本发明实施例所公开的一种声纹身份识别的方法进行详细介绍,参见图1所示的一种声纹身份识别的方法的流程示意图,主要包括以下步骤:
步骤S102,获取待识别声纹的频谱特征;
上述待识别声纹具体可以为说话人录音,而上述频谱特征为对待识别声纹进行傅里叶变换得到的。
步骤S104,通过声纹鉴别模型对频谱特征进行鉴别,得到待识别声纹对应的身份信息和待识别声纹的属性信息,其中,声纹鉴别模型为预先对InfoGAN网络进行训练得到的模型,身份信息包括:对象标识,对象标识对应的对象的年龄,属性信息至少包括:噪音信息和音量信息。
具体的,将频谱特征输入至声纹鉴别模型,输出得到待识别声纹对应的身份信息和待识别声纹的属性信息。
当待识别声纹来自于说话人录音时,上述对象标识可以为说话人的身份证号,或者为说话人的手机号,还可以为说话人的姓名,也可以为上述三者中的任两种或三种。
在本发明实施例中,提供了一种声纹身份识别的方法,该方法包括:先获取待识别声纹的频谱特征;然后,通过声纹鉴别模型对频谱特征进行鉴别,得到待识别声纹对应的身份信息和待识别声纹的属性信息,其中,声纹鉴别模型为预先对InfoGAN网络进行训练得到的模型,身份信息包括:对象标识,对象标识对应的对象的年龄,属性信息至少包括:噪音信息和音量信息。通过上述描述可知,本发明的声纹鉴别模型是预先对InfoGAN网络进行训练得到的,所需的训练样本的数据量小,并且通过声纹鉴别模型对频谱特征进行鉴别后,不仅能得到待识别声纹对应的对象标识,还能得到待识别声纹对应的对象的年龄、待识别声纹的噪音信息和音量信息,即提高了模型的抗时变能力和抗噪能力,缓解了现有的声纹身份识别模型不具有抗时变能力,并且抗噪能力差、训练时所需的样本数量大的技术问题。
上述内容对本发明的声纹身份识别的方法进行了简要介绍,下面对其中涉及到的具体内容进行详细描述。
在本发明的一个可选实施例中,步骤S102,获取待识别声纹的频谱特征包括如下步骤:
(1)获取待识别声纹;
(2)对待识别声纹进行傅里叶变换,得到频谱特征。
上述内容对声纹鉴别模型的应用进行了介绍,下面对声纹鉴别模型的训练过程进行详细描述。
在本发明的一个可选实施例中,InfoGAN网络包括:待训练的声纹生成模型和待训练的声纹鉴别模型,参考图2,模型的训练过程包括如下步骤:
步骤S201,获取训练样本数据,其中,训练样本数据包括:声纹的频谱特征样本、频谱特征样本对应的对象标识、频谱特征样本对应的对象的年龄、2维连续随机变量和162维随机变量,2维连续随机变量用于分别表征频谱特征样本对应的噪音信息和频谱特征样本对应的音量信息;上述2维连续随机变量用于挖掘噪音信息和音量信息,上述162维随机变量作为噪声,用于生成生成的频谱特征。
参考图3,具体包括如下步骤:
步骤S301,获取带有年龄标签和对象标识标签的声纹样本;
上述声纹样本具体可以为说话人录音样本,该声纹样本携带有年龄标签和对象标识标签。
步骤S302,基于噪音强度检测算法对声纹样本进行过滤,得到目标声纹样本;
具体的,目标声纹样本为噪音相对较小的声纹样本。
步骤S303,对目标声纹样本进行傅里叶变换,得到频谱特征样本;
具体的,傅里叶变换中采用的参量为:nfft 512,win_len 400,hop 160,得到的频谱特征样本为256*248(去除最高频的一维频谱特征后,为256*248)。
步骤S304,基于随机变量生成算法生成2维连续随机变量和162维随机变量。
具体的,上述2维连续随机变量通过正态分布的随机变量生成算法生成得到的。
步骤S202,采用训练样本数据对待训练的声纹生成模型和待训练的声纹鉴别模型进行训练,得到声纹生成模型和声纹鉴别模型。
参考图4,具体包括如下步骤:
步骤S401,将频谱特征样本对应的对象标识、频谱特征样本对应的对象的年龄、2维连续随机变量和162维随机变量输入至待训练的声纹生成模型,输出得到生成数据,其中,生成数据包括:生成的频谱特征、生成的对象标识、生成的对象的年龄、生成的2维连续随机变量;
步骤S402,将频谱特征样本和生成的频谱特征输入至待训练的声纹鉴别模型,输出得到鉴别结果,其中,鉴别结果包括:频谱特征样本和生成的频谱特征的真假样本标志位、待确认的对象标识、待确认的对象的年龄、待确认的2维连续随机变量;
步骤S403,计算生成数据和鉴别结果之间的差异值;
具体的,计算真假样本标志位的鉴别损失;计算生成的对象标识与待确认的对象标识之间的交叉熵损失;计算生成的对象的年龄与待确认的对象的年龄之间的第一均方损失信息熵;计算生成的2维连续随机变量与待确认的2维连续随机变量之间的第二均方损失信息熵;将鉴别损失、交叉熵损失、第一均方损失信息熵和第二均方损失信息熵作为差异值。
步骤S404,如果差异值大于预设阈值,则继续通过训练样本数据对待训练的声纹生成模型和待训练的声纹鉴别模型进行训练,直至差异值小于或等于预设阈值。
本发明通过InfoGAN网络实现了声纹身份识别,充分使用了InfoGAN网络的特性,并进行了改进,将频谱特征样本对应的对象标识、频谱特征样本对应的对象的年龄、挖掘的频谱特征样本对应的噪音信息和挖掘的频谱特征样本对应的音量信息与162维随机变量拼接在一起,作为生成器的输入,生成器输出生成数据,包括:生成的频谱特征(假样本)、生成的对象标识、生成的对象的年龄、生成的2维连续随机变量(即生成的噪音信息和生成的音量信息)。鉴别器的输入为频谱特征样本和生成的频谱特征,输出的鉴别结果为:频谱特征样本和生成的频谱特征的真假样本标志位、待确认的对象标识、待确认的对象的年龄、待确认的2维连续随机变量(即待确认的噪音信息和待确认的音量信息)。进而再通过计算带权重的对应输入输出变量之间的交叉熵、均方损失,使用梯度下降算法,优化鉴别器和生成器。通过这种方式,充分利用了数据中的年龄标签和潜在隐式变量(即2维连续随机变量),提高了模型的抗时变能力和抗噪能力。
需要说明的是:针对声纹鉴别模型的真假样本标志位的鉴别损失、交叉熵损失、第一均方损失信息熵、第二均方损失信息熵设置不同的权重,从而实现不同阶段的针对性训练。例如:应优先训练待训练的声纹生成模型和待训练的声纹鉴别模型的样本生成能力、样本鉴别能力,则将声纹鉴别模型的真假样本标志位的鉴别损失(也是交叉熵损失)的权重设置为1,其他损失的权重降低。
本发明的方案具有以下优点:
(1)InfoGAN具备GAN的生成对抗特性,一般用于图像领域中,自身能够生成多样化的样本,在生成器与鉴别器的对抗过程中,生成器能够逐渐生成逼真的假样本,鉴别器能够逐渐得增强鉴别真假样本的能力,即只需很少的数据量,InfoGAN就能实现分类任务;
(2)InfoGAN在训练过程中,具有两个独立的网络:鉴别器和生成器,但在训练完毕后,只需要部署鉴别器网络,相对于完全基于CNN、RNN技术的模型,InfoGAN的鉴别器具有更少的参数,即对计算资源的消耗低。
(3)InfoGAN具有其他技术不具备的另一特性,可以同时做分类和回归任务。根据此特性,将说话人识别、年龄回归、潜在隐式变量(噪声、音量等)数据同时利用起来,使模型具有抗时变能力和抗噪能力。
图5为真实样本与声纹生成模型生成的假样本之间的对比图,其中,左侧为模型生成的假样本,右侧为真实样本,可见,声纹生成模型生成了逼真的假样本。
实施例二:
本发明实施例还提供了一种图像真实性的识别装置,该图像真实性的识别装置主要用于执行本发明实施例上述内容所提供的图像真实性的识别方法,以下对本发明实施例提供的图像真实性的识别装置做具体介绍。
图6是本发明实施例的一种声纹身份识别的装置的示意图,如图6所示,该声纹身份识别的装置主要包括:获取单元10和鉴别单元20,其中:
获取单元,用于获取待识别声纹的频谱特征;
鉴别单元,用于通过声纹鉴别模型对频谱特征进行鉴别,得到待识别声纹对应的身份信息和待识别声纹的属性信息,其中,声纹鉴别模型为预先对InfoGAN网络进行训练得到的模型,身份信息包括:对象标识,对象标识对应的对象的年龄,属性信息至少包括:噪音信息和音量信息。
在本发明实施例中,提供了一种声纹身份识别的装置,该装置包括:先获取待识别声纹的频谱特征;然后,通过声纹鉴别模型对频谱特征进行鉴别,得到待识别声纹对应的身份信息和待识别声纹的属性信息,其中,声纹鉴别模型为预先对InfoGAN网络进行训练得到的模型,身份信息包括:对象标识,对象标识对应的对象的年龄,属性信息至少包括:噪音信息和音量信息。通过上述描述可知,本发明的声纹鉴别模型是预先对InfoGAN网络进行训练得到的,所需的训练样本的数据量小,并且通过声纹鉴别模型对频谱特征进行鉴别后,不仅能得到待识别声纹对应的对象标识,还能得到待识别声纹对应的对象的年龄、待识别声纹的噪音信息和音量信息,即提高了模型的抗时变能力和抗噪能力,缓解了现有的声纹身份识别模型不具有抗时变能力,并且抗噪能力差、训练时所需的样本数量大的技术问题。
可选地,获取单元还用于:获取待识别声纹;对待识别声纹进行傅里叶变换,得到频谱特征。
可选地,InfoGAN网络包括:待训练的声纹生成模型和待训练的声纹鉴别模型,该装置还用于:获取训练样本数据,其中,训练样本数据包括:声纹的频谱特征样本、频谱特征样本对应的对象标识、频谱特征样本对应的对象的年龄、2维连续随机变量和162维随机变量,2维连续随机变量用于分别表征频谱特征样本对应的噪音信息和频谱特征样本对应的音量信息;采用训练样本数据对待训练的声纹生成模型和待训练的声纹鉴别模型进行训练,得到声纹生成模型和声纹鉴别模型。
可选地,该装置还用于:获取带有年龄标签和对象标识标签的声纹样本;基于噪音强度检测算法对声纹样本进行过滤,得到目标声纹样本;对目标声纹样本进行傅里叶变换,得到频谱特征样本;基于随机变量生成算法生成2维连续随机变量和162维随机变量。
可选地,该装置还用于:将频谱特征样本对应的对象标识、频谱特征样本对应的对象的年龄、2维连续随机变量和162维随机变量输入至待训练的声纹生成模型,输出得到生成数据,其中,生成数据包括:生成的频谱特征、生成的对象标识、生成的对象的年龄、生成的2维连续随机变量;将频谱特征样本和生成的频谱特征输入至待训练的声纹鉴别模型,输出得到鉴别结果,其中,鉴别结果包括:频谱特征样本和生成的频谱特征的真假样本标志位、待确认的对象标识、待确认的对象的年龄、待确认的2维连续随机变量;计算生成数据和鉴别结果之间的差异值;如果差异值大于预设阈值,则继续通过训练样本数据对待训练的声纹生成模型和待训练的声纹鉴别模型进行训练,直至差异值小于或等于预设阈值。
可选地,该装置还用于:计算真假样本标志位的鉴别损失;计算生成的对象标识与待确认的对象标识之间的交叉熵损失;计算生成的对象的年龄与待确认的对象的年龄之间的第一均方损失信息熵;计算生成的2维连续随机变量与待确认的2维连续随机变量之间的第二均方损失信息熵;将鉴别损失、交叉熵损失、第一均方损失信息熵和第二均方损失信息熵作为差异值。
本发明实施例所提供的声纹身份识别的装置,其实现原理及产生的技术效果和前述实施例一中的方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在另一个实施例中,还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述权实施例一中任意实施例的方法的步骤。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种声纹身份识别的方法,其特征在于,所述方法包括:
获取待识别声纹的频谱特征;
通过声纹鉴别模型对所述频谱特征进行鉴别,得到所述待识别声纹对应的身份信息和所述待识别声纹的属性信息,其中,所述声纹鉴别模型为预先对InfoGAN网络进行训练得到的模型,所述身份信息包括:对象标识,所述对象标识对应的对象的年龄,所述属性信息至少包括:噪音信息和音量信息;
所述InfoGAN网络包括:待训练的声纹生成模型和待训练的声纹鉴别模型,所述方法还包括:
获取训练样本数据,其中,所述训练样本数据包括:声纹的频谱特征样本、所述频谱特征样本对应的对象标识、所述频谱特征样本对应的对象的年龄、2维连续随机变量和162维随机变量,所述2维连续随机变量用于分别表征所述频谱特征样本对应的噪音信息和所述频谱特征样本对应的音量信息;
采用所述训练样本数据对所述待训练的声纹生成模型和所述待训练的声纹鉴别模型进行训练,得到声纹生成模型和所述声纹鉴别模型;
采用所述训练样本数据对所述待训练的声纹生成模型和所述待训练的声纹鉴别模型进行训练包括:
将所述频谱特征样本对应的对象标识、所述频谱特征样本对应的对象的年龄、所述2维连续随机变量和所述162维随机变量输入至所述待训练的声纹生成模型,输出得到生成数据,其中,所述生成数据包括:生成的频谱特征、生成的对象标识、生成的对象的年龄、生成的2维连续随机变量;
将所述频谱特征样本和所述生成的频谱特征输入至所述待训练的声纹鉴别模型,输出得到鉴别结果,其中,所述鉴别结果包括:所述频谱特征样本和所述生成的频谱特征的真假样本标志位、待确认的对象标识、待确认的对象的年龄、待确认的2维连续随机变量;
计算所述生成数据和所述鉴别结果之间的差异值;
如果所述差异值大于预设阈值,则继续通过所述训练样本数据对所述待训练的声纹生成模型和所述待训练的声纹鉴别模型进行训练,直至所述差异值小于或等于所述预设阈值。
2.根据权利要求1所述的方法,其特征在于,获取待识别声纹的频谱特征包括:
获取所述待识别声纹;
对所述待识别声纹进行傅里叶变换,得到所述频谱特征。
3.根据权利要求1所述的方法,其特征在于,获取训练样本数据包括:
获取带有年龄标签和对象标识标签的声纹样本;
基于噪音强度检测算法对所述声纹样本进行过滤,得到目标声纹样本;
对所述目标声纹样本进行傅里叶变换,得到所述频谱特征样本;
基于随机变量生成算法生成所述2维连续随机变量和所述162维随机变量。
4.根据权利要求1所述的方法,其特征在于,计算所述生成数据和所述鉴别结果之间的差异值包括:
计算所述真假样本标志位的鉴别损失;
计算所述生成的对象标识与所述待确认的对象标识之间的交叉熵损失;
计算所述生成的对象的年龄与所述待确认的对象的年龄之间的第一均方损失信息熵;
计算所述生成的2维连续随机变量与所述待确认的2维连续随机变量之间的第二均方损失信息熵;
将所述鉴别损失、所述交叉熵损失、所述第一均方损失信息熵和所述第二均方损失信息熵作为所述差异值。
5.一种声纹身份识别的装置,其特征在于,所述装置包括:
获取单元,用于获取待识别声纹的频谱特征;
鉴别单元,用于通过声纹鉴别模型对所述频谱特征进行鉴别,得到所述待识别声纹对应的身份信息和所述待识别声纹的属性信息,其中,所述声纹鉴别模型为预先对InfoGAN网络进行训练得到的模型,所述身份信息包括:对象标识,所述对象标识对应的对象的年龄,所述属性信息至少包括:噪音信息和音量信息;
所述InfoGAN网络包括:待训练的声纹生成模型和待训练的声纹鉴别模型,所述装置还用于:获取训练样本数据,其中,所述训练样本数据包括:声纹的频谱特征样本、所述频谱特征样本对应的对象标识、所述频谱特征样本对应的对象的年龄、2维连续随机变量和162维随机变量,所述2维连续随机变量用于分别表征所述频谱特征样本对应的噪音信息和所述频谱特征样本对应的音量信息;采用所述训练样本数据对所述待训练的声纹生成模型和所述待训练的声纹鉴别模型进行训练,得到声纹生成模型和所述声纹鉴别模型;
所述装置还用于:将所述频谱特征样本对应的对象标识、所述频谱特征样本对应的对象的年龄、所述2维连续随机变量和所述162维随机变量输入至所述待训练的声纹生成模型,输出得到生成数据,其中,所述生成数据包括:生成的频谱特征、生成的对象标识、生成的对象的年龄、生成的2维连续随机变量;将所述频谱特征样本和所述生成的频谱特征输入至所述待训练的声纹鉴别模型,输出得到鉴别结果,其中,所述鉴别结果包括:所述频谱特征样本和所述生成的频谱特征的真假样本标志位、待确认的对象标识、待确认的对象的年龄、待确认的2维连续随机变量;计算所述生成数据和所述鉴别结果之间的差异值;如果所述差异值大于预设阈值,则继续通过所述训练样本数据对所述待训练的声纹生成模型和所述待训练的声纹鉴别模型进行训练,直至所述差异值小于或等于所述预设阈值。
6.根据权利要求5所述的装置,其特征在于,所述获取单元还用于:
获取所述待识别声纹;
对所述待识别声纹进行傅里叶变换,得到所述频谱特征。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至4中任一项所述的方法的步骤。
8.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述权利要求1至4中任一项所述的方法的步骤。
CN202011167536.4A 2020-10-27 2020-10-27 声纹身份识别的方法、装置和电子设备 Active CN112289324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011167536.4A CN112289324B (zh) 2020-10-27 2020-10-27 声纹身份识别的方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011167536.4A CN112289324B (zh) 2020-10-27 2020-10-27 声纹身份识别的方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN112289324A CN112289324A (zh) 2021-01-29
CN112289324B true CN112289324B (zh) 2024-05-10

Family

ID=74373403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011167536.4A Active CN112289324B (zh) 2020-10-27 2020-10-27 声纹身份识别的方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112289324B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107068154A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 基于声纹识别的身份验证的方法及***
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN108829739A (zh) * 2018-05-23 2018-11-16 出门问问信息科技有限公司 一种信息推送方法及装置
CN109559736A (zh) * 2018-12-05 2019-04-02 中国计量大学 一种基于对抗网络的电影演员自动配音方法
CN109754088A (zh) * 2017-11-06 2019-05-14 谷歌有限责任公司 具有训练生成式对抗网络的模块化基础结构的计算***
CN109993125A (zh) * 2019-04-03 2019-07-09 腾讯科技(深圳)有限公司 模型训练方法、人脸识别方法、装置、设备及存储介质
CN110007341A (zh) * 2019-02-28 2019-07-12 长江大学 一种基于IfnoGAN和SSD模型的微地震有效信号的识别方法及***
CN110060691A (zh) * 2019-04-16 2019-07-26 南京邮电大学 基于i向量和VARSGAN的多对多语音转换方法
CN110751960A (zh) * 2019-10-16 2020-02-04 北京网众共创科技有限公司 噪声数据的确定方法及装置
CN111128197A (zh) * 2019-12-25 2020-05-08 北京邮电大学 基于声纹特征与生成对抗学习的多说话人语音分离方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10891949B2 (en) * 2018-09-10 2021-01-12 Ford Global Technologies, Llc Vehicle language processing

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107068154A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 基于声纹识别的身份验证的方法及***
CN109754088A (zh) * 2017-11-06 2019-05-14 谷歌有限责任公司 具有训练生成式对抗网络的模块化基础结构的计算***
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN108829739A (zh) * 2018-05-23 2018-11-16 出门问问信息科技有限公司 一种信息推送方法及装置
CN109559736A (zh) * 2018-12-05 2019-04-02 中国计量大学 一种基于对抗网络的电影演员自动配音方法
CN110007341A (zh) * 2019-02-28 2019-07-12 长江大学 一种基于IfnoGAN和SSD模型的微地震有效信号的识别方法及***
CN109993125A (zh) * 2019-04-03 2019-07-09 腾讯科技(深圳)有限公司 模型训练方法、人脸识别方法、装置、设备及存储介质
CN110060691A (zh) * 2019-04-16 2019-07-26 南京邮电大学 基于i向量和VARSGAN的多对多语音转换方法
CN110751960A (zh) * 2019-10-16 2020-02-04 北京网众共创科技有限公司 噪声数据的确定方法及装置
CN111128197A (zh) * 2019-12-25 2020-05-08 北京邮电大学 基于声纹特征与生成对抗学习的多说话人语音分离方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
生成对抗网络GAN的发展与最新应用;陈亮;吴攀;刘韵婷;刘晓阳;杨佳明;姜余;;电子测量与仪器学报(06);全文 *
生成对抗网络GAN综述;梁俊杰;韦舰晶;蒋正锋;;计算机科学与探索(01);全文 *
生成对抗网络在雷达反欺骗干扰中的应用框架;杨志峰;李增辉;刘笑;冀鑫炜;王恩堂;;现代雷达(08);全文 *

Also Published As

Publication number Publication date
CN112289324A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN106961418A (zh) 身份认证方法和身份认证***
WO2019210796A1 (zh) 语音识别方法、装置、存储介质及电子设备
CN102890776B (zh) 通过面部表情调取表情图释的方法
CN105991593B (zh) 一种识别用户风险的方法及装置
CN108763915A (zh) 建立验证码生成模型以及生成验证码的方法、装置
CN106991312B (zh) 基于声纹识别的互联网反欺诈认证方法
CN107578034A (zh) 信息生成方法和装置
CN110102051B (zh) 游戏外挂的检测方法及装置
CN102890777B (zh) 可识别面部表情的电脑***
CN113436646B (zh) 一种采用联合特征与随机森林的伪装语音检测方法
CN108920928A (zh) 身份识别方法、装置、电子设备及计算机可读存储介质
CN106357411A (zh) 一种身份验证方法和装置
KR102111858B1 (ko) 기계학습을 이용한 획 기반 수기 서명 인증 방법 및 시스템
CN112351047B (zh) 基于双引擎的声纹身份认证方法、装置、设备及存储介质
CN112289324B (zh) 声纹身份识别的方法、装置和电子设备
CN104392161B (zh) 变距条件下的基于音频物理指纹的设备认证
CN116935889B (zh) 一种音频类别的确定方法、装置、电子设备及存储介质
CN111081256A (zh) 数字串声纹密码验证方法及***
CN111161759A (zh) 音频质量评价方法、装置、电子设备及计算机存储介质
CN111639718B (zh) 分类器应用方法及装置
CN115731620A (zh) 检测对抗攻击的方法和训练对抗攻击检测模型的方法
CN109040466A (zh) 基于语音的移动终端解锁方法以及装置
CN117648990A (zh) 一种用于黑盒攻击的语音对抗样本生成方法及其***
CN115346532A (zh) 声纹识别***的优化方法、终端设备及存储介质
CN114841340A (zh) 深度伪造算法的识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant