CN110223676A - 欺骗录音检测神经网络模型的优化方法及*** - Google Patents

欺骗录音检测神经网络模型的优化方法及*** Download PDF

Info

Publication number
CN110223676A
CN110223676A CN201910516188.8A CN201910516188A CN110223676A CN 110223676 A CN110223676 A CN 110223676A CN 201910516188 A CN201910516188 A CN 201910516188A CN 110223676 A CN110223676 A CN 110223676A
Authority
CN
China
Prior art keywords
data
domain
feature extractor
deception
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910516188.8A
Other languages
English (en)
Inventor
俞凯
钱彦旻
王鸿基
丁翰林
王帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
Shanghai Jiaotong University
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, AI Speech Ltd filed Critical Shanghai Jiaotong University
Priority to CN201910516188.8A priority Critical patent/CN110223676A/zh
Publication of CN110223676A publication Critical patent/CN110223676A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种欺骗录音检测神经网络模型的优化方法。该方法包括:基于特征提取器、欺骗检测器和领域预测器构建欺骗录音检测神经网络模型;将源域数据以及目标域数据输入至特征提取器;将特征提取器的输出分别输入至欺骗检测器和领域预测器,通过训练欺骗录音检测神经网络模型,降低欺骗检测器的损失函数值和领域预测器的损失函数值;基于降低后的领域预测器的损失函数值对特征提取器进行对抗训练,使特征提取器输出到欺骗检测器的深度特征为域不变和欺骗检测区别的特征。本发明实施例还提供一种欺骗录音检测神经网络模型的优化***。本发明实施例优化的模型在录音攻击检测中没有区分领域预测的能力,提高跨领域测试的泛化性能。

Description

欺骗录音检测神经网络模型的优化方法及***
技术领域
本发明涉及音频检测领域,尤其涉及一种欺骗录音检测神经网络模型的优化方法及***。
背景技术
由于身份认证的便利性和可靠性,ASV(Automatic speaker verification,自动说话人验证)在深度神经网络有着重大进展,这导致其在呼叫中心、电话银行等应用进行商业化。然而ASV技术的脆弱性使ASV***易暴露于各种欺骗语音攻击中。
录音欺骗攻击检测技术通常用于说话人识别***中,用于检测输入的音频是录音攻击还是真实音频,为了保护ASV***免受恶意欺骗攻击。在音频中提取的前端特征,训练深度学习模型,在对应的领域中,有着不错的区分效果。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
正如前面所说,这些技术在同个数据集(领域)上的性能都是不错的;然而,如果进行跨数据集(跨领域)的测试,那么性能将会大大降低。因为同一个数据集或同一领域中,录音配置(如播放设备、录音设备和录音环境等)比较相似,所以这些录音攻击比较相似;而不同的数据集的录音配置差异较大,即录音攻击存在较大差异。上面这些技术由于过拟合到训练集上,对于没有在训练集中出现的录音攻击类型缺乏很好的泛化性能,故进行跨数据集领域测试时,由于源域的训练集与目标域的测试集存在较大的数据分布差异(不匹配),导致检测的效果大大降低。
发明内容
为了至少解决现有技术中实际中欺骗录音是什么领域的往往难以预测,而使用同个训练集训练的欺骗录音检测神经网络模型所识别的领域往往与实际中的欺骗录音领域不匹配,也就使得欺骗录音检测神经网络模型对于领域不同的欺骗录音的检测效果往往不佳的问题。
第一方面,本发明实施例提供一种欺骗录音检测神经网络模型的优化方法,包括:
基于特征提取器、欺骗检测器和领域预测器构建欺骗录音检测神经网络模型,其中,所述特征提取器与所述欺骗检测器构成了第一支路,所述特征提取器与所述领域预测器构成了第二支路;
将源域数据以及目标域数据作为输入样本输入至所述特征提取器,其中,源域数据具有欺骗标签和领域标签,目标域数据具有领域标签;
将所述特征提取器的输出分别输入至所述欺骗检测器和所述领域预测器,通过训练所述欺骗录音检测神经网络模型,降低欺骗检测器的损失函数值和降低所述领域预测器的损失函数值;
基于所述降低后的领域预测器的损失函数值对所述特征提取器进行对抗训练,以使所述特征提取器输出到所述欺骗检测器的深度特征为域不变和欺骗检测区别的特征。
第二方面,本发明实施例提供一种欺骗录音检测神经网络模型的优化***,包括:
网络模型构建程序模块,用于基于特征提取器、欺骗检测器和领域预测器构建欺骗录音检测神经网络模型,其中,所述特征提取器与所述欺骗检测器构成了第一支路,所述特征提取器与所述领域预测器构成了第二支路;
特征提取程序模块,用于将源域数据以及目标域数据作为输入样本输入至所述特征提取器,其中,源域数据具有欺骗标签和领域标签,目标域数据具有领域标签;
损失函数优化程序模块,用于将所述特征提取器的输出分别输入至所述欺骗检测器和所述领域预测器,通过训练所述欺骗录音检测神经网络模型,降低欺骗检测器的损失函数值和降低所述领域预测器的损失函数值;
模型优化程序模块,用于基于所述降低后的领域预测器的损失函数值对所述特征提取器进行对抗训练,以使所述特征提取器输出到所述欺骗检测器的深度特征为域不变和欺骗检测区别的特征。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的欺骗录音检测神经网络模型的优化方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的欺骗录音检测神经网络模型的优化方法的步骤。
本发明实施例的有益效果在于:为了减小跨领域测试性能的降低幅度,提出了优化后的欺骗录音检测神经网络模型的框架,在传统的神经网络模型基础上加入另一个领域预测的输出,通过特征提取器和领域预测器的对抗训练,最终使得模型学习到在录音攻击检测在具有鉴别能力而在领域预测上没有区分能力的深度特征,从而提高跨领域测试的泛化性能,解决了跨数据集领域测试时,鉴别效果不佳的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种欺骗录音检测神经网络模型的优化方法的流程图;
图2是本发明一实施例提供的一种欺骗录音检测神经网络模型的优化方法的基于领域对抗训练的跨领域录音欺骗攻击检测框架示意图;
图3是本发明一实施例提供的一种欺骗录音检测神经网络模型的优化方法的ASVspoof 2017V.2数据集和BTAS-PA 2016数据集中的句子数量列表数据图;
图4是本发明一实施例提供的一种欺骗录音检测神经网络模型的优化方法的LCNN模型的拓扑结构参数图;
图5是本发明一实施例提供的一种欺骗录音检测神经网络模型的优化方法的基线LCNN模型的EER(%)和在A-dev,A-eval,B-dev和B-eval上提出的LCNN-DAT模型列表数据图;
图6是本发明一实施例提供的一种欺骗录音检测神经网络模型的优化方法的在不同训练数据上训练的LCNN或LCNN-DAT模型的EER示意图;
图7是本发明一实施例提供的一种欺骗录音检测神经网络模型的优化***的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种欺骗录音检测神经网络模型的优化方法的流程图,包括如下步骤:
S11:基于特征提取器、欺骗检测器和领域预测器构建欺骗录音检测神经网络模型,其中,所述特征提取器与所述欺骗检测器构成了第一支路,所述特征提取器与所述领域预测器构成了第二支路;
S12:将源域数据以及目标域数据作为输入样本输入至所述特征提取器,其中,源域数据具有欺骗标签和领域标签,目标域数据具有领域标签;
S13:将所述特征提取器的输出分别输入至所述欺骗检测器和所述领域预测器,通过训练所述欺骗录音检测神经网络模型,降低欺骗检测器的损失函数值和降低所述领域预测器的损失函数值;
S14:基于所述降低后的领域预测器的损失函数值对所述特征提取器进行对抗训练,以使所述特征提取器输出到所述欺骗检测器的深度特征为域不变和欺骗检测区别的特征。
在本实施方式中,对于文中所述的“领域”,可以理解为:一条录音音频的配置包括“播放设备”(即用什么设备播放原音频),“录音设备”(即用什么设备录制原音频)和“录音的环境”(音频播放所在的周围环境,例如办公室,餐厅等等),同一个数据集之间这些配置的相似性会比较高,而不同数据集的这些配置相似性会比较低,直观理解同一个数据集不可能每一条音频都用不同的录音环境和设备(往往会复用环境和设备),而两个数据集之间的重合率则可能几乎为0,例如录音环境和所用的设备完全没有重叠,也就是说跨数据集的领域差异巨大,比同数据集内测试的情况差异性大得多。
对于步骤S11,基于特征提取器、欺骗检测器和领域预测器来构建欺骗录音检测神经网络模型,用于检测重放欺骗攻击的传统深度神经网络通常包含两个组件:一个是旨在发现辨别特征的特征提取器,另一个是将特征映射到欺骗标签的欺骗检测器,其暗示它们是欺骗攻击还是真实的语音。
为了减轻域不匹配的影响,提出了一种体系结构,该体系结构可以学习深度特征,可以解决检测重放欺骗但在不同域之间无法区分的问题,与传统神经网络不同,建立新的分支连接,在特征提取器之后通过梯度反转层,充当域分类器。第一条支路包括了特征提取器和欺骗检测器,构成了一个标准的前馈结构。第二条支路共享了第一条支路的特征提取器,通过一个梯度反向层(gradient reversal layer)接入一个领域分类器(domainclassifier)。
对于步骤S12,将准备好的源域数据以及目标域数据作为输入样本输入至所述特征提取器,其中,所述源域数据以及目标域数据的欺骗标签和领域标签是在收集数据时就已经知晓。
对于步骤S13,对于“源域数据”,既要通过欺骗检测器去计算欺骗预测损失,又要同时计算领域检测器那边的领域预测损失;而对于“目标域数据”,只需要计算领域检测器的领域预测损失,因为这些数据没有欺骗的标签。进而通过训练所述欺骗录音检测神经网络模型,降低欺骗检测器的损失函数值和降低所述领域预测器的损失函数值。
对于步骤S14,基于所述降低后的领域预测器的损失函数值对所述特征提取器进行对抗训练,通过对抗训练,使得特征提取器训练后是没有领域特征的区分能力。
通过该实施方式可以看出,为了减小跨领域测试性能的降低幅度,提出了优化后的欺骗录音检测神经网络模型的框架,在传统的神经网络模型基础上加入另一个领域预测的输出,通过特征提取器和领域预测器的对抗训练,最终使得模型学习到在录音攻击检测在具有鉴别能力而在领域预测上没有区分能力的深度特征,从而提高跨领域测试的泛化性能,解决了跨数据集领域测试时,鉴别效果不佳的问题。
作为一种实施方式,所述基于所述降低后的领域预测器的损失函数值对所述特征提取器进行对抗训练包括:
将所述降低后的领域预测器的损失函数值通过梯度反向层对所述特征提取器进行对抗训练。
进一步的,在所述通过梯度反向层反转后,确定最小化的欺骗检测器的损失函数值以及最大化的领域预测器的损失函数值。
在本实施方式中,特征提取器和领域预测器之间的GRL(gradient reversallayer,梯度反转层)在反向传播期间反转梯度。进而,将领域预测器的损失函数值反转最大化。
通过该实施方式可以看出,通过梯度反向层在反向传播期间实现了领域预测器的损失函数值最大化,帮助优化后的欺骗录音检测神经网络模型的识别更加准确。
作为一种实施方式,当所述源域数据和所述目标域数据的数据量不平衡时,对数据量少的数据域进行过采样,以使得所述源域数据和所述目标域数据的数据量匹配。
在源域数据和目标域数据的获取中,可能由于数据不够,导致在训练时数据量不平衡,影响最终的优化效果。为了避免这一情况,对数据量少的数据域进行过采样。
通过该实施方式可以看出,通过匹配源域数据和所述目标域数据的数据量,保证在优化训练时,有充足的数据进行训练优化,提高了优化后的欺骗录音检测神经网络模型的识别效果。
对上述步骤进行具体的实施,用于重放欺骗攻击检测的传统深度神经网络通常包含两个组件:一个是旨在发现辨别特征的特征提取器,另一个是将特征映射到欺骗标签的欺骗检测器,其暗示它们是欺骗攻击还是真实的语音。假设输入样本是x∈X并且输出标签是y∈Y={[0,1],[1,0]},其中X和Y分别是输入特征空间和输出标签空间。在域不匹配场景中,源域数据和目标域数据共享相似但不同的数据分布,分别表示为S(x,y)和T(x,y)。
为了减轻域不匹配的影响,提出了一种体系结构,该体系结构可以学习深度特征,如图2所示的基于领域对抗训练的跨领域录音欺骗攻击检测框架示意图。与传统神经网络不同,新分支连接在特征提取器之后通过梯度反转层,充当领域预测器。因此,该架构由两个输出层组成:一个是欺骗标签y∈Y,另一个是域标签d∈D。这里Y=D={[0,1],[1,0]},因为欺骗通常被建模为二进制分类任务。
具体地,特征提取器Gf(·;Θf),欺骗检测器Gy(·;Θy)和域分类器Gd(·;Θd)的对应映射函数公式如下:
f=Gf(x;Θf)
y=Gy(f;Θy)
d=Gd(f;Θd)
将xi表示为具有标记yi和di的第i个输入样本,其指示xi来自源域((xi,yi)~S(x,y),如果di=[0,1])或目标域((xi,yi)~T(x,y)如果di=[1,0])。第i个输入样本的欺骗检测丢失和域预测丢失表示为(域指文中的领域):
为了找到欺骗-判别和域不变特征,目标是寻找最佳参数Θf,Θy和Θd,以最小化欺骗检测损失,同时最大化域预测损失。因此,N个输入样本的整个网络的总损失可以表述如下:
其中λ是在反向传播过程中折断两个损失的正系数。通过找到鞍点 可以在理论上进行优化。
在梯度反转层的帮助下使用随机梯度下降(SGD),源域样本的梯度
其中,α是学习率。对于目标域样本,参数Θy不更新,参数Θd仍然更新,当参数Θf改变其更新规则时:
为了验证本方法的效果,进行实验,
实验在ASVspoof 2017V.2数据集以及BTAS 2016数据集]的PA部分(仅真正的音频和重放攻击,表示为BTAS-PA 2016数据集)上进行。如图3所示的ASVspoof 2017V.2数据集和BTAS-PA 2016数据集中的句子数量列表数据图列出了两个数据集句子数量的详细统计数据。
对于ASVspoof 2017V.2数据集,所有真正的音频都来自原始RedDots语料库的子集,而重放音频则以各种重放配置记录,包括声学环境,回放设备和录音设备的不同组合。BTAS 2016数据集基于公共AVspoof数据库,在该数据库中,在不同的设置和环境条件下也会进行秘密记录,另外两种“未知”类型的重放攻击被进一步添加到评估集中,使竞争更具挑战性。此外,ASVspoof 2017V.2数据集和BTAS-PA 2016数据集的开发集和评估集仅在所有实验中保留为测试集。对于模型选择,将训练集的10%除去作为验证集。
前端特征是257维光谱图,通过每10毫秒计算512点快速傅立叶变换获得,窗口大小为25毫秒。Librosa库用于从原始数据中提取前端特征,而使用Kaldi工具包通过300帧滑动窗口应用每个句子的倒频谱均值和方差归一化。此外,计算训练数据的均值和标准差并用于全局标准化。
训练是以句子的方式进行的,这意味着需要应用填充,因为句子长度不同。为了在批次中并行处理所有句子,通过在每个批次中重复其特征来填充最长的话题。在所有实验中批量大小设置为8。
所有神经网络都在PyTorch中实现,Xavier初始化用于所有参数层。采用交叉熵损失作为损失准则,在所有模型的训练过程中使用动量为0.9且学习率为0.0001的SGD优化器。此外,采用端到端打分方法,其直接使用来自神经网络的评分预测来计算性能度量EER(Equal Error Rate,等错误率)。EER是使用ASV spoof 2019挑战中提供的工具包计算的。
LCNN(Lingt Convolutional Neural Networks,轻量级卷积神经网络)是2017年ASV spoof挑战的最佳***,其中最大特征映射(MFM)激活模块在CNN模块之后使用。由于使用批量填充而不是将所有句子全局填充到最大长度,因此帧数(表示为T)因批次而异。将实现的LCNN调整为适用于可变长度输入特征的新版本。
图4所示的LCNN模型的拓扑结构参数图中描述了LCNN架构的细节。MaxPool模式用于所有最大池层,使其适用于少于32帧的短句子。此外,在MaxPool5层之后的时间维度中应用平均池,从而显着减少完全连接(FC)FC6层中的参数数量。在FC7和FC8中使用0.5比率dropout层(随机丢弃层)。
可以从基线LCNN模型容易地获得基于LCNN的DAT(domain adversarialtraining,领域对抗训练)(LCNN-DAT)框架。具体而言,从Conv1到MFM6的层被视为特征提取器,而FC7和FC8层构成欺骗检测器。欺骗检测器的副本用作在特征提取器之后通过梯度反转层连接的域分类器。但是,不在域分类器中使用dropout。
为了弥补源域训练数据量与目标域训练数据量之间的不平衡,对少数域训练数据进行了过采样,以匹配多数域训练数据。然后,依次使用所有源域数据的批次和所有目标域数据的批次来训练模型。此外,为了在早期训练阶段抑制来自域分类器的噪声信号,使用以下策略将适应因子λ从0逐渐改变为1而不是最初固定它:
其中r设置为0.1,e表示已经训练的迭代次数。
这里,分别将ASVSpoof 2017v.2数据集和BTAS-PA 2016数据集的训练集、开发集和测试集表示为A-train、A-dev、A-eval、B-train、B-dev和B-eval。图5所示的列表数据图比较了基线LCNN模型和LCNN-DAT模型在A-dev,A-eval,B-dev和B-eval上的EER(%)性能。(其中,使用A-train+B-train作为训练数据意味着A-train是源域数据,而B-train是目标域数据,对于B-train+A-train反之亦然。)
从而在A-dev上实现了9.06EER,在A-eval上实现了12.39EER,这表明实现的LCNN略微更好地推广。此外,LCNN模型在B-dev和B-eval上都表现良好,但结果是在B-train上过度拟合,这解释了显着的性能差异。虽然LCNN模型在同一个域内表现良好,但它们在这两个数据集中的泛化能力很差。但是,通过引入域对抗性训练架构,可以有效地降低跨域测试的性能下降量,而不会弱化其在原始源域内的整体性能。具体而言,如果使用在A-train+B-train上训练的LCNN-DAT模型,B-dev的性能退化相对减少38%,B-eval则相应减少57%,A-dev为33%,A-为30%如果使用在B-train+A-train上训练的LCNN-DAT模型则评估。结果表明,通过将域对抗训练引入LCNN框架,LCNN-DAT模型对于跨数据集重放欺骗攻击检测的泛化能力要比没有DAT的更好。
整个目标域训练集用域对抗训练。在这里,将其随机分成五折,然后分别使用前1,2,3,4和5折作为未标记的目标域训练数据,并且确保较小的训练集是较大训练集的子集。
图6所示的在不同训练数据上训练的LCNN或LCNN-DAT模型的EER示意图显示了所有***的结果。无论在所有情况下使用的目标域数据量如何,都可以获得显着的跨域性能改进。然而,可以看出LCNN-DAT模型使用更多目标域训练数据有更好的跨领域泛化能力,而不会影响它们在原始源域数据集中的整体性能。此外,当BTAS-PA 2016数据集用作目标域而不是ASVspoof 2017V.2数据集时,相对改进更为显着。原因可能是B-train的数据集大小是A-train的两倍多,从而有效地帮助LCNN-DAT模型从更多目标域数据中学习更好,并实现更好的跨域性能。
如图7所示为本发明一实施例提供的一种欺骗录音检测神经网络模型的优化***的结构示意图,该***可执行上述任意实施例所述的欺骗录音检测神经网络模型的优化方法,并配置在终端中。
本实施例提供的一种欺骗录音检测神经网络模型的优化***包括:网络模型构建程序模块11,特征提取程序模块12,损失函数优化程序模块13和模型优化程序模块14。
其中,网络模型构建程序模块11用于基于特征提取器、欺骗检测器和领域预测器构建欺骗录音检测神经网络模型,其中,所述特征提取器与所述欺骗检测器构成了第一支路,所述特征提取器与所述领域预测器构成了第二支路;特征提取程序模块12用于将源域数据以及目标域数据作为输入样本输入至所述特征提取器,其中,源域数据具有欺骗标签和领域标签,目标域数据具有领域标签;损失函数优化程序模块13用于将所述特征提取器的输出分别输入至所述欺骗检测器和所述领域预测器,通过训练所述欺骗录音检测神经网络模型,降低欺骗检测器的损失函数值和降低所述领域预测器的损失函数值;模型优化程序模块14用于基于所述降低后的领域预测器的损失函数值对所述特征提取器进行对抗训练,以使所述特征提取器输出到所述欺骗检测器的深度特征为域不变和欺骗检测区别的特征。
进一步地,所述模型优化程序模块用于:
将所述降低后的领域预测器的损失函数值通过梯度反向层对所述特征提取器进行对抗训练。
进一步地,在所述通过梯度反向层反转后,确定最小化的欺骗检测器的损失函数值以及最大化的领域预测器的损失函数值。
进一步地,当所述源域数据和所述目标域数据的数据量不平衡时,对数据量少的数据域进行过采样,以使得所述源域数据和所述目标域数据的数据量匹配。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的欺骗录音检测神经网络模型的优化方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
基于特征提取器、欺骗检测器和领域预测器构建欺骗录音检测神经网络模型,其中,所述特征提取器与所述欺骗检测器构成了第一支路,所述特征提取器与所述领域预测器构成了第二支路;
将源域数据以及目标域数据作为输入样本输入至所述特征提取器,其中,源域数据具有欺骗标签和领域标签,目标域数据具有领域标签;
将所述特征提取器的输出分别输入至所述欺骗检测器和所述领域预测器,通过训练所述欺骗录音检测神经网络模型,降低欺骗检测器的损失函数值和降低所述领域预测器的损失函数值;
基于所述降低后的领域预测器的损失函数值对所述特征提取器进行对抗训练,以使所述特征提取器输出到所述欺骗检测器的深度特征为域不变和欺骗检测区别的特征。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的欺骗录音检测神经网络模型的优化方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的欺骗录音检测神经网络模型的优化方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有音频检测功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种欺骗录音检测神经网络模型的优化方法,所述方法包括:
基于特征提取器、欺骗检测器和领域预测器构建欺骗录音检测神经网络模型,其中,所述特征提取器与所述欺骗检测器构成了第一支路,所述特征提取器与所述领域预测器构成了第二支路;
将源域数据以及目标域数据作为输入样本输入至所述特征提取器,其中,源域数据具有欺骗标签和领域标签,目标域数据具有领域标签;
将所述特征提取器的输出分别输入至所述欺骗检测器和所述领域预测器,通过训练所述欺骗录音检测神经网络模型,降低欺骗检测器的损失函数值和降低所述领域预测器的损失函数值;
基于所述降低后的领域预测器的损失函数值对所述特征提取器进行对抗训练,以使所述特征提取器输出到所述欺骗检测器的深度特征为域不变和欺骗检测区别的特征。
2.根据权利要求1所述的方法,其中,所述基于所述降低后的领域预测器的损失函数值对所述特征提取器进行对抗训练包括:
将所述降低后的领域预测器的损失函数值通过梯度反向层对所述特征提取器进行对抗训练。
3.根据权利要求2所述的方法,其中,在所述通过梯度反向层反转后,确定最小化的欺骗检测器的损失函数值以及最大化的领域预测器的损失函数值。
4.根据权利要求1所述的方法,其中,当所述源域数据和所述目标域数据的数据量不平衡时,对数据量少的数据域进行过采样,以使得所述源域数据和所述目标域数据的数据量匹配。
5.一种欺骗录音检测神经网络模型的优化***,所述***包括:
网络模型构建程序模块,用于基于特征提取器、欺骗检测器和领域预测器构建欺骗录音检测神经网络模型,其中,所述特征提取器与所述欺骗检测器构成了第一支路,所述特征提取器与所述领域预测器构成了第二支路;
特征提取程序模块,用于将源域数据以及目标域数据作为输入样本输入至所述特征提取器,其中,源域数据具有欺骗标签和领域标签,目标域数据具有领域标签;
损失函数优化程序模块,用于将所述特征提取器的输出分别输入至所述欺骗检测器和所述领域预测器,通过训练所述欺骗录音检测神经网络模型,降低欺骗检测器的损失函数值和降低所述领域预测器的损失函数值;
模型优化程序模块,用于基于所述降低后的领域预测器的损失函数值对所述特征提取器进行对抗训练,以使所述特征提取器输出到所述欺骗检测器的深度特征为域不变和欺骗检测区别的特征。
6.根据权利要求5所述的***,其中,所述模型优化程序模块用于:
将所述降低后的领域预测器的损失函数值通过梯度反向层对所述特征提取器进行对抗训练。
7.根据权利要求6所述的***,其中,在所述通过梯度反向层反转后,确定最小化的欺骗检测器的损失函数值以及最大化的领域预测器的损失函数值。
8.根据权利要求5所述的***,其中,当所述源域数据和所述目标域数据的数据量不平衡时,对数据量少的数据域进行过采样,以使得所述源域数据和所述目标域数据的数据量匹配。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。
CN201910516188.8A 2019-06-14 2019-06-14 欺骗录音检测神经网络模型的优化方法及*** Pending CN110223676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910516188.8A CN110223676A (zh) 2019-06-14 2019-06-14 欺骗录音检测神经网络模型的优化方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910516188.8A CN110223676A (zh) 2019-06-14 2019-06-14 欺骗录音检测神经网络模型的优化方法及***

Publications (1)

Publication Number Publication Date
CN110223676A true CN110223676A (zh) 2019-09-10

Family

ID=67817331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910516188.8A Pending CN110223676A (zh) 2019-06-14 2019-06-14 欺骗录音检测神经网络模型的优化方法及***

Country Status (1)

Country Link
CN (1) CN110223676A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735381A (zh) * 2020-12-29 2021-04-30 四川虹微技术有限公司 一种模型更新方法及装置
CN113284508A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 基于层级区分的生成音频检测***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875007A (zh) * 2017-01-25 2017-06-20 上海交通大学 用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络
US20180082689A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Speaker recognition in the call center
CN107944410A (zh) * 2017-12-01 2018-04-20 中国科学院重庆绿色智能技术研究院 一种基于卷积神经网络的跨领域面部特征解析方法
CN108141363A (zh) * 2015-10-15 2018-06-08 诺基亚技术有限公司 用于认证的装置,方法和计算机程序产品
CN108198561A (zh) * 2017-12-13 2018-06-22 宁波大学 一种基于卷积神经网络的翻录语音检测方法
US20180254046A1 (en) * 2017-03-03 2018-09-06 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
US20180374487A1 (en) * 2017-06-27 2018-12-27 Cirrus Logic International Semiconductor Ltd. Detection of replay attack
CN109754812A (zh) * 2019-01-30 2019-05-14 华南理工大学 一种基于卷积神经网络的防录音攻击检测的声纹认证方法
US20190180742A1 (en) * 2017-12-08 2019-06-13 Google Llc Digital assistant processing of stacked data structures

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108141363A (zh) * 2015-10-15 2018-06-08 诺基亚技术有限公司 用于认证的装置,方法和计算机程序产品
US20180082689A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Speaker recognition in the call center
CN106875007A (zh) * 2017-01-25 2017-06-20 上海交通大学 用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络
US20180254046A1 (en) * 2017-03-03 2018-09-06 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
US20180374487A1 (en) * 2017-06-27 2018-12-27 Cirrus Logic International Semiconductor Ltd. Detection of replay attack
CN107944410A (zh) * 2017-12-01 2018-04-20 中国科学院重庆绿色智能技术研究院 一种基于卷积神经网络的跨领域面部特征解析方法
US20190180742A1 (en) * 2017-12-08 2019-06-13 Google Llc Digital assistant processing of stacked data structures
CN108198561A (zh) * 2017-12-13 2018-06-22 宁波大学 一种基于卷积神经网络的翻录语音检测方法
CN109754812A (zh) * 2019-01-30 2019-05-14 华南理工大学 一种基于卷积神经网络的防录音攻击检测的声纹认证方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HIMAWAN I 等: "Deep domain adaptation for anti-spoofing in speaker verification systems", 《COMPUTER SPEECH & LANGUAGE》 *
WANG H 等: "Cross-Domain Replay Spoofing Attack Detection Using Domain Adversarial Training", 《INTERSPEECH. 2019》 *
WANG Q 等: "Unsupervised Domain Adaptation via Domain Adversarial Training for Speaker Recognition", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
徐涌钞: "基于高频和瓶颈特征的说话人验证***重放攻击检测方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735381A (zh) * 2020-12-29 2021-04-30 四川虹微技术有限公司 一种模型更新方法及装置
CN112735381B (zh) * 2020-12-29 2022-09-27 四川虹微技术有限公司 一种模型更新方法及装置
CN113284508A (zh) * 2021-07-21 2021-08-20 中国科学院自动化研究所 基于层级区分的生成音频检测***
CN113284508B (zh) * 2021-07-21 2021-11-09 中国科学院自动化研究所 基于层级区分的生成音频检测***
US11763836B2 (en) 2021-07-21 2023-09-19 Institute Of Automation, Chinese Academy Of Sciences Hierarchical generated audio detection system

Similar Documents

Publication Publication Date Title
CN109637546B (zh) 知识蒸馏方法和装置
CN110246487A (zh) 用于单通道的语音识别模型的优化方法及***
CN107924682A (zh) 用于说话者验证的神经网络
CN110473569A (zh) 检测说话人欺骗攻击的优化方法及***
CN111835784B (zh) 用于重放攻击检测***的数据泛化方法及***
CN108766445A (zh) 声纹识别方法及***
CN108109613A (zh) 用于智能对话语音平台的音频训练和识别方法及电子设备
CN104902012B (zh) 通过网络进行歌唱比赛的方法与歌唱比赛***
CN105869644A (zh) 基于深度学习的声纹认证方法和装置
CN103730114A (zh) 一种基于联合因子分析模型的移动设备声纹识别方法
CN109584884A (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN108711336A (zh) 一种钢琴演奏评分***及其方法
CN110223676A (zh) 欺骗录音检测神经网络模型的优化方法及***
CN110008984A (zh) 一种基于多任务样本的目标模型训练方法和装置
CN111147871B (zh) 直播间歌唱识别方法、装置及服务器、存储介质
CN108091326A (zh) 一种基于线性回归的声纹识别方法及***
CN108877783A (zh) 确定音频数据的音频类型的方法和装置
Cáceres et al. The Biometric Vox system for the ASVspoof 2021 challenge
CN109785846A (zh) 单声道的语音数据的角色识别方法及装置
CN106991312A (zh) 基于声纹识别的互联网反欺诈认证方法
CN110223678A (zh) 语音识别方法及***
CN108417207A (zh) 一种深度混合生成网络自适应方法及***
CN108932646A (zh) 基于运营商的用户标签验证方法、装置和电子设备
Kawa et al. Attack agnostic dataset: Towards generalization and stabilization of audio deepfake detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200616

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Co.,Ltd.

Applicant after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Co.,Ltd.

Applicant before: SHANGHAI JIAO TONG University

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201026

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Co.,Ltd.

Applicant before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190910

RJ01 Rejection of invention patent application after publication