CN111835784A - 用于重放攻击检测***的数据泛化方法及*** - Google Patents

用于重放攻击检测***的数据泛化方法及*** Download PDF

Info

Publication number
CN111835784A
CN111835784A CN202010709452.2A CN202010709452A CN111835784A CN 111835784 A CN111835784 A CN 111835784A CN 202010709452 A CN202010709452 A CN 202010709452A CN 111835784 A CN111835784 A CN 111835784A
Authority
CN
China
Prior art keywords
discriminator
domain
replay
real
deception
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010709452.2A
Other languages
English (en)
Other versions
CN111835784B (zh
Inventor
钱彦旻
俞凯
王鸿基
丁翰林
王帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN202010709452.2A priority Critical patent/CN111835784B/zh
Publication of CN111835784A publication Critical patent/CN111835784A/zh
Application granted granted Critical
Publication of CN111835784B publication Critical patent/CN111835784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种用于重放攻击检测***的数据泛化方法。该方法包括:基于特征提取器、重放欺骗攻击检测器、欺骗类别领域鉴别器、真实类别领域鉴别器构建重放攻击检测***;将带有真实/欺骗标签的源域数据、无标签的目标域数据输入至特征提取器,将特征提取器的输出分别输入至对应的重放欺骗攻击检测器、欺骗类别领域鉴别器、真实类别领域鉴别器,对重放攻击检测***进行训练;基于真实类别领域鉴别器、欺骗类别领域鉴别器的损失函数对特征提取器进行对抗训练。本发明实施例还提供一种用于重放攻击检测***的数据泛化***。本发明实施例提升了***在集外场景的泛化性能,同时基本不影响其集内性能,使得***整体上具有最好的泛化性能。

Description

用于重放攻击检测***的数据泛化方法及***
技术领域
本发明涉及说话人识别领域,尤其涉及一种用于重放攻击检测***的数据泛化方法及***。
背景技术
重放攻击是针对说话人识别***的主要攻击形式之一,而重放攻击检测***则用于检测输入的音频是重放攻击还是真实音频,从而保护说话人***。目前已有的重放攻击检测技术,绝大部分聚焦在集内的场景,如使用Light CNN(Convolutional NeuralNetworks,卷积神经网络)和ResNet模型,在同一个数据集内都有不错的泛化效果。
这些技术都是使用较强的深度神经网络模型,从合适的前端特征中学习到良好区分能力的深度表示,进而对输入音频进行很好的分类(区分音频是重放攻击语音还是真实语音)。传统的说话人重放攻击检测框架已经被验证在集内场景下具有很好的泛化性能,但是在集外场景的测试效果还是比较差。为了提高集外的泛化性能,提出了基于领域对抗训练的重放攻击检测***:通过领域对抗训练,不同领域(数据集)的差异性被“抹除”,即不同数据集的整体分布更加相似,从而提高了***在不同数据集之间的泛化能力。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
传统的说话人重放攻击检测框架在集外场景的测试效果是非常差的。尽管基于领域对抗训练的重放攻击检测***已经被提出并取得了一定的性能提升,该***仍存在缺陷:由于只使用了一个领域鉴别器,只能从整个数据集的层面去拟合两者的分布,而无法具体考虑不同类别的分布而进行细粒度的分布对齐。具体而言,重放攻击检测模型的输出为二分类:重放攻击或者真实音频。该方法会导致不同领域之间重放数据和真实数据之间的错误对齐,从而影响了***对重放攻击和真实音频的区分能力。
发明内容
为了至少解决现有技术中基于领域对抗训练的重放攻击检测***由于只使用了一个领域鉴别器,对于一个音频可以预测出它的领域类别,然后将领域信号反传回前面的特征提取器,再通过领域对抗训练“抹除”掉特征中的领域区分性,进而拟合两个数据集的整体分布,该方法会导致不同领域之间重放攻击和真实数据之间的错误对齐,所以数据分布难以得到很好的拟合,进而影响了***检测重放攻击的泛化性能的问题。
第一方面,本发明实施例提供一种用于重放攻击检测***的数据泛化方法,包括:
基于特征提取器、重放欺骗攻击检测器、欺骗类别领域鉴别器、真实类别领域鉴别器构建重放攻击检测***;
将带有真实/欺骗标签的源域数据、无标签的目标域数据输入至所述特征提取器,将所述特征提取器的输出分别输入至对应的所述重放欺骗攻击检测器、所述欺骗类别领域鉴别器、所述真实类别领域鉴别器,对所述重放攻击检测***进行训练,以使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音或欺骗重放语音来自源域/目标域领域的能力;
基于训练后的所述真实类别领域鉴别器、所述欺骗类别领域鉴别器的损失函数对所述特征提取器进行对抗训练,以使所述特征提取器输出到所述欺骗检测器的深度特征对所述源域/目标域领域泛化。
第二方面,本发明实施例提供一种用于重放攻击检测***的数据泛化***,包括:
***构建程序模块,用于基于特征提取器、重放欺骗攻击检测器、欺骗类别领域鉴别器、真实类别领域鉴别器构建重放攻击检测***;
训练程序模块,用于将带有真实/欺骗标签的源域数据、无标签的目标域数据输入至所述特征提取器,将所述特征提取器的输出分别输入至对应的所述重放欺骗攻击检测器、所述欺骗类别领域鉴别器、所述真实类别领域鉴别器,对所述重放攻击检测***进行训练,以使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音或欺骗重放语音来自源域/目标域领域的能力;
泛化程序模块,用于基于训练后的所述真实类别领域鉴别器、所述欺骗类别领域鉴别器的损失函数对所述特征提取器进行对抗训练,以使所述特征提取器输出到所述欺骗检测器的深度特征对所述源域/目标域领域泛化。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于重放攻击检测***的数据泛化方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的用于重放攻击检测***的数据泛化方法的步骤。
本发明实施例的有益效果在于:对基于领域对抗训练的重放攻击检测***进行完善和改进,进一步提升了***在集外场景的泛化性能,同时基本不影响其集内性能,使得***整体上具有最好的泛化性能。在实际应用中,本方法的***将非常有效,因为攻击者所用的重放攻击类别是不可预测的,这意味着***需要有较好的集外泛化性能,这极大地符合了本方法中的场景。其次,无标签数据比起有标签数据更加容易收集,也说明了本方法的可实施性高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种用于重放攻击检测***的数据泛化方法的流程图;
图2是本发明一实施例提供的一种用于重放攻击检测***的数据泛化方法的基于双重对抗领域自适应的泛化重放攻击检测***结构图;
图3是本发明一实施例提供的一种用于重放攻击检测***的数据泛化方法的总持续时间(以小时为单位)以及每个子集的话语数和重放配置(RC)数据图;
图4是本发明一实施例提供的一种用于重放攻击检测***的数据泛化方法的在对应的DAT和DADA框架下基线模型的EER(%)数据图;
图5是本发明一实施例提供的一种用于重放攻击检测***的数据泛化方法的LCNN提取每个域中所有训练数据的可视化数据图;
图6是本发明一实施例提供的一种用于重放攻击检测***的数据泛化方法的LCNN、LCNN-DAT和LCNN-DADA模型的DET曲线;
图7是本发明一实施例提供的一种用于重放攻击检测***的数据泛化***的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种用于重放攻击检测***的数据泛化方法的流程图,包括如下步骤:
S11:基于特征提取器、重放欺骗攻击检测器、欺骗类别领域鉴别器、真实类别领域鉴别器构建重放攻击检测***;
S12:将带有真实/欺骗标签的源域数据、无标签的目标域数据输入至所述特征提取器,将所述特征提取器的输出分别输入至对应的所述重放欺骗攻击检测器、所述欺骗类别领域鉴别器、所述真实类别领域鉴别器,对所述重放攻击检测***进行训练,以使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音或欺骗重放语音来自源域/目标域领域的能力;
S13:基于训练后的所述真实类别领域鉴别器、所述欺骗类别领域鉴别器的损失函数对所述特征提取器进行对抗训练,以使所述特征提取器输出到所述欺骗检测器的深度特征对所述源域/目标域领域泛化。
在本实施方式中,基于领域对抗训练的重放攻击检测***中,只使用了一个领域鉴别器,导致了一个问题是不同领域之间重放数据和真实数据之间的错误对齐。针对该问题,本方法提出了使用明确了不同领域鉴别器的***框架:一个拟合重放数据的分布,而另一个拟合真实数据的分布。通过在两个类别内部进行领域对抗训练,更加细粒度地拟合了数据集之间的分布,进一步提升了***的重放攻击检测泛化性能。
对于步骤S11,由于明确使用了不同的领域鉴别器,在重放攻击检测***中的结构进行调整,使用了欺骗类别的领域鉴别器和真实类别的领域鉴别器,如图2所示,该框架采用了无监督的领域自适应训练方法,训练数据为源域的有标签训练数据和目标域的无标签训练数据。
对于步骤S12,需要对重放攻击检测***中的特征提取器、重放欺骗攻击检测器、欺骗类别领域鉴别器、真实类别领域鉴别器进行训练。
作为一种实施方式,对所述重放攻击检测***进行训练包括:
通过所述特征提取器,确定带有真实/欺骗标签的源域数据内的源域数据深度特征;
基于所述带有真实/欺骗标签的源域数据深度特征对所述重放攻击检测***内的所述重放欺骗攻击检测器、所述真实类别领域鉴别器、所述欺骗类别领域鉴别器进行训练,以提高所述重放欺骗攻击检测器对真实语音/欺骗重放语音的区分,使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音/欺骗重放语音来自源域领域的能力。
在本实施方式中,带有真实/欺骗标签的源域数据包括:带有真实/欺骗标签的音频集合,并且该音频集合还带有领域标签(其标签都为源域领域)。
首先将带有真实/欺骗标签的源域音频集合输入到特征提取器,确定源域音频集合的深度特征,通过重放欺骗攻击检测器可以确定出源域音频集合中各音频对应的预测的标签(真实标签/欺骗标签)。由于我们准备了源域音频集合中各音频对应的实际的标签(真实标签/欺骗标签)。可以使用实际的标签与预测的标签的差距对重放欺骗攻击检测器进行训练,从而提高重放欺骗攻击检测器的精度。
依据上述同样的训练方法,对欺骗类别领域鉴别器、真实类别领域鉴别器进行训练,在此不再赘述。这样使得欺骗类别、真实类别的这两个领域鉴别器获得了识别真实语音或欺骗重放语音来自源域领域的能力。
作为一种实施方式,对所述重放攻击检测***进行训练还包括:
通过所述特征提取器,确定无标签的目标域数据内的目标域数据深度特征,基于所述重放欺骗攻击检测器,确定所述目标域数据深度特征对应的真实/欺骗软标签;
基于所述带有真实/欺骗软标签的目标域数据深度特征对所述真实类别领域鉴别器、欺骗类别领域鉴别器进行训练,以使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音/欺骗重放语音来自目标域领域的能力。
在本实施方式中,无标签的源域数据包括:无标签的音频集合,并且该音频集合还带有领域标签(其标签都为目标域领域)。
首先需要通过特征提取器,确定无标签的目标域数据内的目标域数据深度特征,或得到目标域数据深度特征后,由于目标域中是没有真实/欺骗标签的,所以需要使用重放欺骗攻击检测器进行标签的识别,对无标签的目标域数据内各音频标记对应的真实/欺骗软标签(即这个音频有多大概率属于真实,多大概率属于欺骗,和为1)。
有了对应的软标签后,就可以按照上述方法中训练源域数据同样的训练方式对真实类别领域鉴别器、欺骗类别领域鉴别器进行训练(将损失函数乘以软标签中的概率)。目的为让这样使得欺骗类别、真实类别的这两个领域鉴别器获得了识别真实语音或欺骗重放语音来自目标域领域的能力。
经过这样的训练,使得两个领域鉴别器输出的损失函数,通过该损失函数提取出的特征是可以区分源域和目标域的。
对于步骤S13,基于训练后的所述真实类别领域鉴别器、所述欺骗类别领域鉴别器的损失函数对所述特征提取器进行对抗训练,作为一种实施方式,通过梯度反传层对所述真实类别领域鉴别器、所述欺骗类别领域鉴别器输出的损失函数进行反传处理,以使所述特征提取器提取的深度特征无法区分源域和目标域。
梯度反传层的作用是反转两个领域鉴别器的损失,正常不反转的话,提取出来的特征是可以区分源域和目标域的,由于进行了反转,提取出来的特征是不可以区分源域和目标域的,模型也就获得了同时在两个领域泛化的能力,特别是我们原先目标域的训练数据是没有真实/欺骗标签的,所以大大提高了模型在目标域的泛化能力。
模型训好之后,对于待测试的音频,只需要提取同样的前端特征,经过特征提取器和欺骗重放攻击检测器即可得到其预测输出(已经不需要领域鉴别器的输出了)。由于***内的两个鉴别器分别有专门负责真实数据的鉴别,另一个专门负责欺骗数据的鉴别,更加细粒度地拟合了数据集之间的分布,进一步提升了***的重放攻击检测泛化性能。
通过该实施方式可以看出,对基于领域对抗训练的重放攻击检测***进行完善和改进,进一步提升了***在集外场景的泛化性能,同时基本不影响其集内性能,使得***整体上具有最好的泛化性能。在实际应用中,本方法的***将非常有效,因为攻击者所用的重放攻击类别是不可预测的,这意味着***需要有较好的集外泛化性能,这极大地符合了本方法中的场景。其次,无标签数据比起有标签数据更加容易收集,也说明了本方法的可实施性高。
对本方法进行具体说明,基于深度神经网络,常规的反欺骗模型可以分解为两个组件:学习深度欺骗-区分性嵌入的特征提取器以及将嵌入内容映射到欺骗标签(欺骗或真实)的重放欺骗攻击检测器。在DAT(domain adversarial training,领域对抗训练)框架中,在特征提取器之后通过梯度反转层(GRL)额外连接了一个领域鉴别器。同样,可以通过添加两个域标识符来构造用于欺骗检测的双对抗域自适应框架:一个用于欺骗类,另一个用于真正类。理想情况下,欺骗类域识别符可将欺骗性数据中的源域与目标域区分开,而真正类域识别符可将其区分为真实数据中的域。但是,由于在欺骗中未标记目标域数据,因此很难确定哪个域区分符负责每个目标域训练样本。幸运的是,重放欺骗攻击检测器的输出准确传达了很强的标签信号,可以用作软欺骗标签。
图2描述了建议的DADA(dual-adversarial domain adaptation,双重对抗领域自适应)体系结构。首先,将输入特征x输入特征提取器以学习深度嵌入f。然后,对于标记的源域样本,我们训练了重放欺骗攻击检测器及其对应的领域鉴别器(欺骗类别或真正类别)。但是,对于未标记的目标域样本,我们首先通过重放欺骗攻击检测器将其转发以获取其软标记,然后通过将损失与相应的类别概率相乘,将两个领域鉴别器一起训练。DADA体系结构包含三个输出:欺骗标签
Figure BDA0002595958450000081
欺骗类域标签
Figure BDA0002595958450000082
和真实类域标签
Figure BDA0002595958450000083
其中
Figure BDA0002595958450000084
假设源域
Figure BDA0002595958450000085
和目标域
Figure BDA0002595958450000086
作为训练数据给定。此外,对于训练样本席,欺骗标签
Figure BDA0002595958450000087
定义如下:
Figure BDA0002595958450000088
其中
Figure BDA0002595958450000089
是欺骗检测器的softmax输出。
注意,伪类和真实类域预测的原始损失可以表示为:
Figure BDA00025959584500000810
Figure BDA00025959584500000811
因此,任何训练样本xi的目标域域预测损失可以表示为:
Figure BDA00025959584500000812
此外,如果xi是源域,我们可以计算欺骗检测损失:
Figure BDA00025959584500000813
为了寻求最佳参数Θf,Θy
Figure BDA00025959584500000814
Figure BDA00025959584500000815
这些参数可以最大程度地减少欺骗检测损耗并同时最大化域预测损耗,DADA框架的成本函数可以表述为:
Figure BDA00025959584500000816
其中n=ns+nt,而λ是一个正系数,可以在反向传播过程中权衡两个损耗。从理论上讲,可以通过寻找点
Figure BDA00025959584500000817
Figure BDA00025959584500000818
来优化上述方程,从而得到:
Figure BDA00025959584500000819
Figure BDA00025959584500000820
类似于随机梯度下降优化器可用于借助梯度反转层更新模型参数。
对本方法进行实验,经过模拟数据训练的反欺骗***无法检测到真实的欺骗攻击。因此,我们的工作将丢弃人工模拟欺骗数据的ASVspoof 2019PA数据集。所有实验均在ASVspoof 2017 V.2数据集以及BTAS 2016数据集的PA部分(表示为BTAS-PA 2016数据集)上进行。图3显示了两个数据集的详细统计信息。
ASVspoof 2017 V.2数据集中涵盖十种不同的固定通行短语,真正的话语来自RedDots语料库的子集,该子集常用于依赖文本的ASV研究中。使用各种异构设备和声学环境进一步播放和记录它们。BTAS 2016数据集基于公共AVspoof数据库,其中记录和重放条件涵盖了具有不同音质的不同类型的麦克风/扬声器。对于每个数据集,我们将评估集用作测试集,并将训练集和开发集合并为实际训练数据,进一步将其中的10%划分为模型选择的验证集。
我们之前的工作中的大多数实验设置都保留在此处。首先,我们通过每10ms计算512点短时傅立叶变换(STFT),并以25ms的窗口大小提取257维对数功率谱图作为前端特征。之后,我们对每个话语以及全局标准化应用300帧滑动窗口倒谱均值和方差归一化。由于发声长度不同,我们通过在每批中重复它们的功能将所有发声填充到最大长度,这使得它们可以并行处理。由于GPU内存的限制,批处理大小设置为8,并且最大发音长度不应超过1500。
PyTorch用于实现所有神经网络,其参数层使用Xavier初始化进行初始化。我们采用交叉熵损失准则以及SGD优化器,所有模型的学习率均为0.001,动量为0.9。此外,评估指标是等错误率(EER),它是根据分数预测直接从重放欺骗攻击检测器计算得出的。
最后,由于训练数据量相对较小,尤其是在ASVspoof 2017 V.2数据集中,我们为所有伪随机生成器(CPU和GPU)进行修复,并通过从一到五,这使我们的结果更具说服力,并且易于再现。每个模型的最终EER是五个相应EER的平均值。
为了验证所提出的DADA框架的有效性和鲁棒性,除了在我们先前的工作中使用的轻型CNN(LCNN)模型之外,本方法还进一步研究了三种模型结构:
·自适应轻型CNN(LCNN):LCNN是ASVspoof 2017中最好的***,其中在每次卷积操作后都会使用最大特征图激活。它在ASVspoof 2019中也表现良好。因此,我们保留改编后的LCNN作为基线,该基线适用于可变长度的输入要素。
·10层ResNet(ResNet10):在ASVspoof 2019中使用的ResNet变体在PA子任务中实现了出色的性能。ResNet10仅包含4个残差块{1,1,1,1},其参数大小与LCNN(9层CNN)相当。同样,我们删除内部的所有batchnorm层。
·Context-Gate模型(CGCNN):CGCNN是我们在ASVspoof 2019中的主要建议,在PA和LA子任务中都有可喜的表现。具体来说,门控线性单元(GLU)激活用于替换LCNN中的MFM激活。除此之外,CGCNN与LCNN具有相似的结构。
DAT和DADA框架:如上述步骤中所述,与基线模型相比,相应的DAT和DADA框架是通过分别添加一个和两个域区分符分支来构建的。在我们的实验中,每个域识别器是一个2层感知器(输入大小:64,隐藏大小:64,输出大小:2),将特征提取器的64维输出映射到2类(源和目标域)。所有模型定义都是开源的。DAT和DADA训练策略:为了补偿源域和目标域之间的数据不平衡,我们对少数群体进行了过度采样以匹配多数群体。之后,我们每两批更新一次模型参数:一个是源域,另一个是目标域。此外,为了在早期训练阶段抑制噪声域信号,权衡因子λ会按照时间表从0逐渐适应:
Figure BDA0002595958450000101
其中γ设置为0.01(微调后),而e表示已训练的时期数。
在此,我们将ASVspoof 2017 V.2数据集和BTAS-PA 2016数据集的训练数据(训练集和开发集)和测试集(评估集)分别表示为Atrain,Aeval,Btrain和Beval。图4比较了不同***的EER(%)。
尽管基线模型在域内测试集上可实现出色的性能,但它们在跨域测试集上的泛化效果很差,从而导致性能显着下降。例如,经过Btrain培训的ResNet10在Beval上的EER达到6.11%,而在Aeval上的EER仅为22.21%。通过采用DAT框架,LCNN和CGCNN的性能下降都可以略微降低,而ResNet10则可以提高。
但是,在跨域评估方案中,每个DADA框架都大大优于相应的基线模型和DAT框架。此外,对于每个DADA框架,它在原始源域内都可以与相应的基线模型以及DAT框架实现可比的性能。考虑到两个测试集,新的DADA方法可实现最佳的总体泛化性能,如“平均”列中所示。
我们还在“Atrain+Btrain”上训练了基线模型,以研究提出的DADA框架的上限。结果表明,所提出的DADA框架可以实现与“Atrain+Btrain”上训练的相应基线模型平均非常接近的性能,特别是对于
Figure BDA0002595958450000111
上训练的ResNet10-DADA。有趣的是,尽管在Beval上进行测试时,使用“Atrain+Btrain”训练的基线模型优于仅在Btrain进行训练的基线模型,但与仅在Atrain进行训练的基线模型相比,它在Aeval上的表现更差。原因可能是Atrain比Btrain小得多,这使基线模型严重过拟合到B域。
为了更好地理解新的DADA框架的机制,我们使用t-SNE投影来可视化模型的嵌入分布。图5显示了一个示例。由于明显的域不匹配,在Atrain上训练的LCNN在B域上不能很好地推广。使用DAT框架,虽然可以稍微缓解整个域的差异,但是LCNN-DAT不能很好地将欺骗性样本与真实样本区分开。但是,不仅LCNN-DADA可以更好地对齐细颗粒中的数据分布,而且还具有更强的欺骗区分能力,这表明所提出的DADA方法更有效,并且在看不见的跨域数据上具有更好的泛化能力。
由于EER仅对应于未命中率等于虚警率的阈值,因此采用检测误差折衷(DET)曲线直观地显示每个阈值下的***性能。图6比较了上述相同模型的DET曲线。显然,与LCNN和LCNN-DAT模型相比,新的LCNN-DADA模型在任何阈值下均可实现更低的未命中率和误报率,这揭示了所提出的DADA框架用于重放欺骗攻击检测的鲁棒性。
尽管域对抗训练(DAT)框架缓解了针对重播攻击检测的域不匹配问题,但是由于跨域的欺骗对和真实对的错误对齐,它无法获得强大的欺骗区分能力。本方法提出了一种双对抗域自适应(DADA)框架,它可以通过使用两个域区分符来分别对欺骗数据和真实数据进行细粒度对齐,从而有效地缓解了错误对齐问题,并进一步提高了重播欺骗检测的泛化性能。在ASVspoof 2017 V.2数据集和BTAS-PA 2016数据集上进行的实验表明,新提出的DADA框架在跨域评估方案中明显优于相应的基线模型(LCNN,ResNet10或CGCNN)和我们以前的DAT框架,具有最佳的总体推广性能。此外,通过实例说明了DADA框架用于广义重放攻击检测的有效性和鲁棒性。
如图7所示为本发明一实施例提供的一种用于重放攻击检测***的数据泛化***的结构示意图,该***可执行上述任意实施例所述的用于重放攻击检测***的数据泛化方法,并配置在终端中。
本实施例提供的一种用于重放攻击检测***的数据泛化***包括:***构建程序模块11,训练程序模块12和泛化程序模块13。
其中,***构建程序模块11用于基于特征提取器、重放欺骗攻击检测器、欺骗类别领域鉴别器、真实类别领域鉴别器构建重放攻击检测***;训练程序模块12用于将带有真实/欺骗标签的源域数据、无标签的目标域数据输入至所述特征提取器,将所述特征提取器的输出分别输入至对应的所述重放欺骗攻击检测器、所述欺骗类别领域鉴别器、所述真实类别领域鉴别器,对所述重放攻击检测***进行训练,以使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音或欺骗重放语音来自源域/目标域领域的能力;泛化程序模块13用于基于训练后的所述真实类别领域鉴别器、所述欺骗类别领域鉴别器的损失函数对所述特征提取器进行对抗训练,以使所述特征提取器输出到所述欺骗检测器的深度特征对所述源域/目标域领域泛化。
进一步地,所述训练程序模块用于:
通过所述特征提取器,确定带有真实/欺骗标签的源域数据内的源域数据深度特征;
基于所述带有真实/欺骗标签的源域数据深度特征对所述重放攻击检测***内的所述重放欺骗攻击检测器、所述真实类别领域鉴别器、所述欺骗类别领域鉴别器进行训练,以提高所述重放欺骗攻击检测器对真实语音/欺骗重放语音的区分,使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音/欺骗重放语音来自源域领域的能力。
进一步地,所述训练程序模块还用于:
通过所述特征提取器,确定无标签的目标域数据内的目标域数据深度特征,基于所述重放欺骗攻击检测器,确定所述目标域数据深度特征对应的真实/欺骗软标签;
基于所述带有真实/欺骗软标签的目标域数据深度特征对所述真实类别领域鉴别器、欺骗类别领域鉴别器进行训练,以使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音/欺骗重放语音来自目标域领域的能力。
进一步地,所述泛化程序模块用于:
通过梯度反传层对所述真实类别领域鉴别器、所述欺骗类别领域鉴别器输出的损失函数进行反传处理,以使所述特征提取器提取的深度特征无法区分源域和目标域。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于重放攻击检测***的数据泛化方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
基于特征提取器、重放欺骗攻击检测器、欺骗类别领域鉴别器、真实类别领域鉴别器构建重放攻击检测***;
将带有真实/欺骗标签的源域数据、无标签的目标域数据输入至所述特征提取器,将所述特征提取器的输出分别输入至对应的所述重放欺骗攻击检测器、所述欺骗类别领域鉴别器、所述真实类别领域鉴别器,对所述重放攻击检测***进行训练,以使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音或欺骗重放语音来自源域/目标域领域的能力;
基于训练后的所述真实类别领域鉴别器、所述欺骗类别领域鉴别器的损失函数对所述特征提取器进行对抗训练,以使所述特征提取器输出到所述欺骗检测器的深度特征对所述源域/目标域领域泛化。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的用于重放攻击检测***的数据泛化方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于重放攻击检测***的数据泛化方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用于重放攻击检测***的数据泛化方法,包括:
基于特征提取器、重放欺骗攻击检测器、欺骗类别领域鉴别器、真实类别领域鉴别器构建重放攻击检测***;
将带有真实/欺骗标签的源域数据、无标签的目标域数据输入至所述特征提取器,将所述特征提取器的输出分别输入至对应的所述重放欺骗攻击检测器、所述欺骗类别领域鉴别器、所述真实类别领域鉴别器,对所述重放攻击检测***进行训练,以使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音或欺骗重放语音来自源域/目标域领域的能力;
基于训练后的所述真实类别领域鉴别器、所述欺骗类别领域鉴别器的损失函数对所述特征提取器进行对抗训练,以使所述特征提取器输出到所述欺骗检测器的深度特征对所述源域/目标域领域泛化。
2.根据权利要求1所述的方法,其中,所述将所述特征提取器的输出分别输入至对应的所述重放欺骗攻击检测器、所述欺骗类别领域鉴别器、所述真实类别领域鉴别器,对所述重放攻击检测***进行训练包括:
通过所述特征提取器,确定带有真实/欺骗标签的源域数据内的源域数据深度特征;
基于所述带有真实/欺骗标签的源域数据深度特征对所述重放攻击检测***内的所述重放欺骗攻击检测器、所述真实类别领域鉴别器、所述欺骗类别领域鉴别器进行训练,以提高所述重放欺骗攻击检测器对真实语音/欺骗重放语音的区分,使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音/欺骗重放语音来自源域领域的能力。
3.根据权利要求2所述的方法,其中,所述将所述特征提取器的输出分别输入至对应的所述重放欺骗攻击检测器、所述欺骗类别领域鉴别器、所述真实类别领域鉴别器,对所述重放攻击检测***进行训练还包括:
通过所述特征提取器,确定无标签的目标域数据内的目标域数据深度特征,基于所述重放欺骗攻击检测器,确定所述目标域数据深度特征对应的真实/欺骗软标签;
基于所述带有真实/欺骗软标签的目标域数据深度特征对所述真实类别领域鉴别器、欺骗类别领域鉴别器进行训练,以使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音/欺骗重放语音来自目标域领域的能力。
4.根据权利要求1所述的方法,其中,所述基于训练后的所述真实类别领域鉴别器、所述欺骗类别领域鉴别器的损失函数对所述特征提取器进行对抗训练包括:
通过梯度反传层对所述真实类别领域鉴别器、所述欺骗类别领域鉴别器输出的损失函数进行反传处理,以使所述特征提取器提取的深度特征无法区分源域和目标域。
5.一种用于重放攻击检测***的数据泛化***,包括:
***构建程序模块,用于基于特征提取器、重放欺骗攻击检测器、欺骗类别领域鉴别器、真实类别领域鉴别器构建重放攻击检测***;
训练程序模块,用于将带有真实/欺骗标签的源域数据、无标签的目标域数据输入至所述特征提取器,将所述特征提取器的输出分别输入至对应的所述重放欺骗攻击检测器、所述欺骗类别领域鉴别器、所述真实类别领域鉴别器,对所述重放攻击检测***进行训练,以使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音或欺骗重放语音来自源域/目标域领域的能力;
泛化程序模块,用于基于训练后的所述真实类别领域鉴别器、所述欺骗类别领域鉴别器的损失函数对所述特征提取器进行对抗训练,以使所述特征提取器输出到所述欺骗检测器的深度特征对所述源域/目标域领域泛化。
6.根据权利要求5所述的***,其中,所述训练程序模块用于:
通过所述特征提取器,确定带有真实/欺骗标签的源域数据内的源域数据深度特征;
基于所述带有真实/欺骗标签的源域数据深度特征对所述重放攻击检测***内的所述重放欺骗攻击检测器、所述真实类别领域鉴别器、所述欺骗类别领域鉴别器进行训练,以提高所述重放欺骗攻击检测器对真实语音/欺骗重放语音的区分,使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音/欺骗重放语音来自源域领域的能力。
7.根据权利要求6所述的***,其中,所述训练程序模块还用于:
通过所述特征提取器,确定无标签的目标域数据内的目标域数据深度特征,基于所述重放欺骗攻击检测器,确定所述目标域数据深度特征对应的真实/欺骗软标签;
基于所述带有真实/欺骗软标签的目标域数据深度特征对所述真实类别领域鉴别器、欺骗类别领域鉴别器进行训练,以使所述真实类别领域鉴别器、所述欺骗类别领域鉴别器获得识别真实语音/欺骗重放语音来自目标域领域的能力。
8.根据权利要求5所述的***,其中,所述泛化程序模块用于:
通过梯度反传层对所述真实类别领域鉴别器、所述欺骗类别领域鉴别器输出的损失函数进行反传处理,以使所述特征提取器提取的深度特征无法区分源域和目标域。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。
CN202010709452.2A 2020-07-22 2020-07-22 用于重放攻击检测***的数据泛化方法及*** Active CN111835784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010709452.2A CN111835784B (zh) 2020-07-22 2020-07-22 用于重放攻击检测***的数据泛化方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010709452.2A CN111835784B (zh) 2020-07-22 2020-07-22 用于重放攻击检测***的数据泛化方法及***

Publications (2)

Publication Number Publication Date
CN111835784A true CN111835784A (zh) 2020-10-27
CN111835784B CN111835784B (zh) 2022-05-13

Family

ID=72926028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010709452.2A Active CN111835784B (zh) 2020-07-22 2020-07-22 用于重放攻击检测***的数据泛化方法及***

Country Status (1)

Country Link
CN (1) CN111835784B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735381A (zh) * 2020-12-29 2021-04-30 四川虹微技术有限公司 一种模型更新方法及装置
CN113192504A (zh) * 2021-04-29 2021-07-30 浙江大学 一种基于域适应的无声语音攻击检测方法
CN113673570A (zh) * 2021-07-21 2021-11-19 南京旭锐软件科技有限公司 电子器件图片分类模型的训练方法、装置及设备
CN113887357A (zh) * 2021-09-23 2022-01-04 华南理工大学 一种人脸表示攻击检测方法、***、装置及介质
CN114049900A (zh) * 2021-12-08 2022-02-15 马上消费金融股份有限公司 模型训练方法、身份识别方法、装置及电子设备
CN114397875A (zh) * 2022-01-12 2022-04-26 浙江大学 基于随机控制的自动化生产线欺骗攻击检测方法及***
CN114822587A (zh) * 2021-01-19 2022-07-29 四川大学 一种基于常数q变换的音频特征压缩方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180254046A1 (en) * 2017-03-03 2018-09-06 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180254046A1 (en) * 2017-03-03 2018-09-06 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735381A (zh) * 2020-12-29 2021-04-30 四川虹微技术有限公司 一种模型更新方法及装置
CN112735381B (zh) * 2020-12-29 2022-09-27 四川虹微技术有限公司 一种模型更新方法及装置
CN114822587A (zh) * 2021-01-19 2022-07-29 四川大学 一种基于常数q变换的音频特征压缩方法
CN114822587B (zh) * 2021-01-19 2023-07-14 四川大学 一种基于常数q变换的音频特征压缩方法
CN113192504A (zh) * 2021-04-29 2021-07-30 浙江大学 一种基于域适应的无声语音攻击检测方法
CN113673570A (zh) * 2021-07-21 2021-11-19 南京旭锐软件科技有限公司 电子器件图片分类模型的训练方法、装置及设备
CN113887357A (zh) * 2021-09-23 2022-01-04 华南理工大学 一种人脸表示攻击检测方法、***、装置及介质
CN113887357B (zh) * 2021-09-23 2024-04-12 华南理工大学 一种人脸表示攻击检测方法、***、装置及介质
CN114049900A (zh) * 2021-12-08 2022-02-15 马上消费金融股份有限公司 模型训练方法、身份识别方法、装置及电子设备
CN114049900B (zh) * 2021-12-08 2023-07-25 马上消费金融股份有限公司 模型训练方法、身份识别方法、装置及电子设备
CN114397875A (zh) * 2022-01-12 2022-04-26 浙江大学 基于随机控制的自动化生产线欺骗攻击检测方法及***
CN114397875B (zh) * 2022-01-12 2022-08-05 浙江大学 基于随机控制的自动化生产线欺骗攻击检测方法及***

Also Published As

Publication number Publication date
CN111835784B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN111835784B (zh) 用于重放攻击检测***的数据泛化方法及***
CN109637546B (zh) 知识蒸馏方法和装置
CN108711436B (zh) 基于高频和瓶颈特征的说话人验证***重放攻击检测方法
Monteiro et al. Generalized end-to-end detection of spoofing attacks to automatic speaker recognizers
Dean et al. The QUT-NOISE-TIMIT corpus for evaluation of voice activity detection algorithms
CN111862942B (zh) 普通话和四川话的混合语音识别模型的训练方法及***
CN110706692A (zh) 儿童语音识别模型的训练方法及***
Wu et al. Partially fake audio detection by self-attention-based fake span discovery
CN111611566B (zh) 一种说话人验证***及其重放攻击检测方法
CN110120230B (zh) 一种声学事件检测方法及装置
CN113823293B (zh) 一种基于语音增强的说话人识别方法及***
CN111816215A (zh) 语音端点检测模型训练和使用方法及装置
CN110473569A (zh) 检测说话人欺骗攻击的优化方法及***
CN113362829B (zh) 说话人验证方法、电子设备及存储介质
CN111145730A (zh) 语音识别模型的优化方法及***
Yu et al. Cam: Context-aware masking for robust speaker verification
Adiban et al. Sut system description for anti-spoofing 2017 challenge
CN110232927B (zh) 说话人验证反欺骗方法和装置
Mascia et al. Forensic and anti-forensic analysis of indoor/outdoor classifiers based on acoustic clues
CN110232928B (zh) 文本无关说话人验证方法和装置
CN111191787A (zh) 提取说话人嵌入特征的神经网络的训练方法和装置
Chen et al. Masking speech feature to detect adversarial examples for speaker verification
CN113241091B (zh) 声音分离的增强方法及***
Peri et al. VoxWatch: an open-set speaker recognition benchmark on VoxCeleb
Nagakrishnan et al. Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

GR01 Patent grant
GR01 Patent grant