CN111627429A - 一种基于CycleGAN的语音识别模型的防御方法及装置 - Google Patents

一种基于CycleGAN的语音识别模型的防御方法及装置 Download PDF

Info

Publication number
CN111627429A
CN111627429A CN202010433039.8A CN202010433039A CN111627429A CN 111627429 A CN111627429 A CN 111627429A CN 202010433039 A CN202010433039 A CN 202010433039A CN 111627429 A CN111627429 A CN 111627429A
Authority
CN
China
Prior art keywords
cyclegan
sample
model
recognition model
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010433039.8A
Other languages
English (en)
Other versions
CN111627429B (zh
Inventor
陈晋音
叶林辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010433039.8A priority Critical patent/CN111627429B/zh
Publication of CN111627429A publication Critical patent/CN111627429A/zh
Application granted granted Critical
Publication of CN111627429B publication Critical patent/CN111627429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开了一种基于CycleGAN的语音识别模型的防御方法及装置,所述防御方法利用对抗样本数据集和正常语音数据集训练CycleGAN模型,使该模型中的GA~B生成器能够对对抗样本进行去噪操作,而对于正常样本没有影响,将其集成到语音识别模型中作为前端处理装置,提高语音识别模型的识别精度,并使语音识别模型能够抵御对抗样本的攻击,提高语音识别模型的鲁棒性。

Description

一种基于CycleGAN的语音识别模型的防御方法及装置
技术领域
本发明属于深度学习算法及信息安全研究领域,具体涉及一种基于CycleGAN的语音识别模型的防御方法。
背景技术
随着技术的不断发展,语音识别技术正在越来越多的被人们使用。语音识别技术带来了极大的便利性,简化了人与机器之间的通信,省略了中间键盘输入和手写的步骤,有着丰富的应用场景。在智能化家电领域,有语音控制的家电设备,人们用语音就可以控制家里的所有语音设备;在国防领域,自动语音识别***通过语音命令提供选定的驾驶舱控制,为飞行员带来了方便;在医疗领域,利用语音识别技术帮助有显著发声障碍的患者的语言表达;在自动驾驶领域,可以利用语音控制车载设备,甚至可以控制汽车的行驶。
近些年来,深度学***;国内语音识别行业的佼佼者科大讯飞的语音听写准确率则达到了95%,表现优良。虽然深度学习带来了便捷的训练步骤也提高了模型的识别精度,但是深度学习也给语音识别***带来了潜在的风险。最近的研究表明,深度神经网络容易受到对输入数据进行细微扰动形式的对抗攻击。这种做法会导致模型输出不正确的预测结果,在一些场景下会造成一些严重的事故。如在自动驾驶领域,若语音识别***被外加的细微扰动所攻击,汽车将会错误的识别乘客的指令,如将“stop”识别为“go”,这给自动驾驶***带来了极大的安全隐患,极有可能引发交通事故,造成人员的伤亡。
已有的语音识别攻击方法主要分为白盒和黑盒攻击。白盒攻击是攻击者已知模型内部参数的情况下进行的,如利用快速梯度符号法(FGSM),通过反向传播计算模型关于噪声的梯度,不断迭代生成对抗样本。黑盒攻击是攻击者在未知模型内部参数的情况下进行的,利用一些寻优算法,如利用遗传算法(GA),粒子群算法(PSO)不断优化所需要添加的扰动,迭代生成对抗样本。由此可以利用白盒或黑盒攻击方法,对语音识别模型进行攻击,使生成的对抗样本能够被识别为目标短语。
基于以上语音识别模型易被攻击的问题,研究一种利用CycleGAN作为语音识别***的前端,将其集成到语音识别模型中,对输入语音识别***的语音进行处理,对于对抗样本进行去噪操作,而保留正常的语音,使语音识别***达到抵御对抗样本攻击的效果具有重要的意义和实践价值。
发明内容
针对目前语音识别***存在识别精度不高,容易受到对抗样本攻击的安全性问题,本发明提供了一种基于CycleGAN的语音识别模型的防御方法,该方法可以提高语音识别模型的识别精度,并可以使语音识别模型的能够抵御对抗样本的攻击,提高语音识别模型的安全性及鲁棒性。
本发明的技术方案为:
一种基于CycleGAN的语音识别模型的防御方法,包括如下步骤:
S1生成用于CycleGAN模型训练的数据集,所述的数据集包括对抗样本数据集和正常语音数据集,将所述数据集划分为训练集和测试集;
S2搭建CycleGAN模型,所述的CycleGAN模型由两组GAN模型以对偶的形式构成;
一组GAN模型将对抗样本传递给生成器GA~B滤除噪音,由判别器DB判别是否为正常语音,然后将滤除噪音后的语音传递给生成器GB~A添加噪音;
另一组GAN模型将正常语音传递给生成器GB~A添加噪音,由判别器DA判别是否为对抗样本,然后将添加噪音后的语音传递给生成器GA~B滤除噪音;
S3构建CycleGAN模型的损失函数LcycleGAN;所述损失函数LcycleGAN由Ladv、Lcyc和Lid组成,如式(2)所示,
LcycleGAN=ladv+λlcycidlid (2);
其中,所述λ和λid为缩放因子,ladv为对抗性损失函数,lcyc为循环一致损失函数,lid为身份映射损失函数;
S4利用训练集对CycleGAN模型进行训练,训练完成后,用测试集进行测试,统计经过CycleGAN模型处理后的对抗样本的失效率,若失效率达不到预设标准,则更改CycleGAN模型参数继续训练模型,直到失效率达到预设标准;
S5将失效率达到预设标准的CycleGAN模型中的生成器GA~B集成到语音识别模型中,以抵御对抗样本的攻击。
构建CycleGAN模型的损失函数,该损失函数L由三个部分构成,Ladv,Lcyc和Lid,Lady损用来实现两个尘成器的功能以及判别器和生成器性能的提升;Lcyc用来保***的多样性;Lid用来保留语音信息,即让生成器只对对抗样本进行处理,而尽量不影响正常的语音。
公式(3)为一般的GAN模型的损失函数,若仅使用公式(3),由于使用的是非平行的数据集,那么生成器很可能将数据集A映射为数据集B中的某一句话造成损失函数失效,因此引入公式(4),保证两个生成器的多样性,由于公式(3)和(4)都没有考虑生成器对语音中的语义信息,若公式(2)中未加入公式(5),则生成器GA~B可能会有滤噪声过渡造成语义信息丢失,因此引入公式(5)保证语音不会被过渡处理。
本发明还提供了基于上述防御方法的装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现上述基于CycleGAN的语音识别模型的防御方法。
与现有技术相比,本发明具有如下有益效果:
(1)本发明所述防御方法使用的CycleGAN模型及其损失函数,一方面可以使用非平行的语料库进行训练,另一方面避免了生成器将对抗样本映射为正常语音中的一条语音而造成的损失函数失效的问题。
(2)针对可能存在的对语音识别模型的白盒或黑盒的攻击,本发明利用对抗样本数据集和正常语音数据集对CycleGAN模型进行训练,使CycleGAN模型能够在不影响正常样本的前提下对对抗样本进行降噪操作,使CycleGAN模型成为语音识别***的前端,集成到语音识别模型中,使语音识别模型的识别准确率得到提升,并能抵御对抗样本的攻击。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本发明所述四个不同卷积块的组成。
其中,a是门控卷积块,b是实例归一化门控卷积块,c是残差卷积块,d是pixelshuffed后的实例归一化门控卷积块。
图2为本发明所述CycleGAN模型的两个生成器的组成。
图3为本发明所述CycleGAN模型的两个生成器的组成。
其中,图2、图3中Gated C表示门控卷积块,I-Gated C表示实例归一化门控卷积块,Res-C表示残差卷积块,SI-Gated C表示pixel shuffed后的实例归一化门控卷积块。
图4为本发明CycleGAN模型及其损失函数。
其中,图4中A表示对抗样本数据集,B表示正常语音数据集,FB表示经过过滤噪声后生成的正常样本,FA表示经过添加噪声后生成的对抗样本,GA~B用来滤除对抗样本中的噪声,GB~A用来往正常样本中添加噪声,判别器DA用来判别音频是否为带噪语音,判别器DB用来判别音频是否为正常语音;lAadv为GA~B与DB构成的对抗网络的对抗性损失函数,lBadv为GB~A与DA构成的对抗网络的对抗性损失函数;lAcyc为GA~B与GB~A构成的对抗网络的循环一致损失函数,lBcyc为GB~A与GA~B构成的对抗网络的循环一致损失函数。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
本发明提供的一种基于CycleGAN的语音识别模型的防御方法,具体包括以下步骤:
S1生成用于CycleGAN模型训练的数据集,所述的数据集包括对抗样本数据集和正常语音数据集,将所述数据集划分为训练集和测试集。
S11初始化遗传算法的损失函数如式(1)所示:
L=lctc(x,t) (1);
其中,lctc表示CTC损失函数用于衡量对抗样本经语音识别模型转录的结果与目标短语的相近程度,x表示迭代过程中的最优样本,t表示设置的目标短语;设定种群大小设为100,精英数量为10,迭代次数为3000;
S12通过复制原始样本将样本数量扩大至设定的种群大小,给个体添加随机噪声进行变异,在变异后,攻击语音识别模型,根据公式(1)选择损失函数较小的10个样本作为精英群体,根据公式(1),从精英群体中挑选100次,组成父辈1,再挑选100次组成父辈2;
S13通过从父辈1和父辈2中各取一半的样本进行交义变异来生成子代,根据公式(1)选择最优样本;
S14判断迭代次数是否达到3000或最优样本的转录结果是否为目标短语,若是,则该样本就为对抗样本数据集,若否,将该最优样本作为下一次迭代的原始样本,回到步骤S12;
S15选择LibriSpeech、VoxForge、TIMIT、CHIME或TED-LIUM语音数据集作为正常语音数据集;
S16将对抗样本数据集与正常语音数据集组合在一起形成用于CycleGAN模型训练的数据集;按照比例划分为训练集和测试集。
S2搭建CycleGAN模型,所述的CycleGAN模型由两组GAN模型以对偶的形式构成;
一组GAN模型将对抗样本传递给生成器GA~B滤除噪音,由判别器DB判别是否为正常语音,然后将滤除噪音后的语音传递给生成器GB~A添加噪音;
另一组GAN模型将正常语音传递给生成器GB~A添加噪音,由判别器DA判别是否为对抗样本,然后将添加噪音后的语音传递给生成器GA~B滤除噪音。
S21搭建CycleGAN模型的两个生成器GA~B和GB~A,所述生成器GA~B和生成器GB~A的结构相同,均由12个卷积块组成,依次为1个门控卷积块,2个实例归一化门控卷积块,6个残差卷积块,2个pixel shuffed后的实例归一化门控卷积块以及1个卷积层。
本实施例中的生成器如图2所示。
S22搭建CycleGAN模型的两个判别器DA和DB,所述的判别器DA和判别器DB的结构相同,均由6个卷积块组成,依次为1个门控卷积块,3个实例归一化门控卷积块,1个全连接层和1个sigmoid函数。
本实施例中的判别器如图3所示。
S3构建CycleGAN模型的损失函数LcycleGAN;所述损失函数LcycleGAN由Ladv、Lcyc和Lid组成,如式(2)所示,
LcycleGAN=ladv+λlcycidlid (2);
其中,所述λ和λid为缩放因子,ladv为对抗性损失函数,lcyc为循环一致损失函数,lid为身份映射损失函数。
所述的ladv计算公式如式(3)所示,
Figure BDA0002500492350000061
其中,所述lAadv为GA~B与DB构成的对抗网络的对抗性损失函数,lBadv为GB~A与DA构成的对抗网络的对抗性损失函数;a为对抗样本数据集中的语音,b为正常语音数据集中的语音;DA()为判断输入是否为对抗样本的判别器,DB()为输入是否为正常语音的判别器;GB~A()为添加噪音的生成器,GA~B()为滤除噪音的生成器,E表示期望。
所述的Lcyc计算公式如式(4)所示,
lcyc=lAcyc+lBcyc
=Ea||GB~A(GA~B(a))-a||1+Eb||GA~B(GB~A(b))-b||1 (4);
其中,所述lAcyc为GA~B与GB~A构成的对抗网络的循环一致损失函数,lBcyc为GB~A与GA~B构成的对抗网络的循环一致损失函数;|| ||1表示11范数。
所述的Lid计算公式如式(5)所示,
lid=Ea||GB~A(a)-a||1+Eb||GA~B(b)-b||1 (5)。
S4利用训练集对CycleGAN模型进行训练直到损失函数不再减小,训练完成后,用测试集进行测试,统计经过CycleGAN模型生成器GA~B处理后的对抗样本攻击语音识别模型的失效率,若失效率达不到预设标准,则更改CycleGAN模型参数继续训练模型,直到失效率达到预设标准。
S5将失效率达到预设标准的CycleGAN模型中的生成器GA~B集成到语音识别模型中,以抵御对抗样本的攻击。
本发明还提供了基于上述防御方法的装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现上述基于CycleGAN的语音识别模型的防御方法。
由于该防御装置中以及计算机存储器存储的计算机程序主要用于实现上述的一种面向语音识别***黑盒攻击模型的防御方法,因此其作用于上述防御方法的作用相对应,此处不再赘述。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于CycleGAN的语音识别模型的防御方法,其特征在于,包括如下步骤:
S1生成用于CycleGAN模型训练的数据集,所述的数据集包括对抗样本数据集和正常语音数据集,将所述数据集划分为训练集和测试集;
S2搭建CycleGAN模型,所述的CycleGAN模型由两组GAN模型以对偶的形式构成;
一组GAN模型将对抗样本传递给生成器GA~B滤除噪音,由判别器DB判别是否为正常语音,然后将滤除噪音后的语音传递给生成器GB~A添加噪音;
另一组GAN模型将正常语音传递给生成器GB~A添加噪音,由判别器DA判别是否为对抗样本,然后将添加噪音后的语音传递给生成器GA~B滤除噪音;
S3构建CycleGAN模型的损失函数LcycleGAN;所述损失函数LcycleGAN由Ladv、Lcyc和Lid组成,如式(2)所示,
LcycleGAN=ladv+λlcycidlid (2);
其中,所述λ和λid为缩放因子,ladv为对抗性损失函数,lcyc为循环一致损失函数,lid为身份映射损失函数;
S4利用训练集对CycleGAN模型进行训练,训练完成后,用测试集进行测试,统计经过CycleGAN模型处理后的对抗样本的失效率,若失效率达不到预设标准,则更改CycleGAN模型参数继续训练模型,直到失效率达到预设标准;
S5将失效率达到预设标准的CycleGAN模型中的生成器GA~B集成到语音识别模型中,以抵御对抗样本的攻击。
2.根据权利要求1所述的基于CycleGAN的语音识别模型的防御方法,其特征在于,所述抗样本数据集由以下步骤生成:
S11初始化遗传算法的损失函数如式(1)所示:
L=lctc(x,t) (1);
其中,lctc表示CTC损失函数用于衡量对抗样本经语音识别模型转录的结果与目标短语的相近程度,x表示迭代过程中的最优样本,t表示设置的目标短语;设定种群大小设为100,精英数量为10,迭代次数为3000;
S12通过复制原始样本将样本数量扩大至设定的种群大小,给个体添加随机噪声进行变异,在变异后,攻击语音识别模型,根据公式(1)选择损失函数较小的10个样本作为精英群体,根据公式(1),从精英群体中挑选100次,组成父辈1,再挑选100次组成父辈2;
S13通过从父辈1和父辈2中各取一半的样本进行交叉变异来生成子代,根据公式(1)选择最优样本;
S14判断迭代次数是否达到3000或最优样本的转录结果是否为目标短语,若是,则该样本就为对抗样本数据集,若否,将该最优样本作为下一次迭代的原始样本,回到步骤S12。
3.根据权利要求1所述的基于CycleGAN的语音识别模型的防御方法,其特征在于,所述尘成器GA~B和生成器GA~B的结构相同,均由12个卷积块组成,依次为1个门控卷积块,2个实例归一化门控卷积块,6个残差卷积块,2个pixel shuffed后的实例归一化门控卷积块以及1个卷积层。
4.根据权利要求1所述的基于CycleGAN的语音识别模型的防御方法,其特征在于,所述的判别器DA和判别器DB的结构相同,均由6个卷积块组成,依次为1个门控卷积块,3个实例归一化门控卷积块,1个全连接层和1个sigmoid函数。
5.根据权利要求1所述的基于CycleGAN的语音识别模型的防御方法,其特征在于,所述的ladv计算公式如式(3)所示,
Figure FDA0002500492340000021
其中,所述lAadv,为GA~B与DB构成的对抗网络的对抗性损失函数,lBadv为GB~A与DA构成的对抗网络的对抗性损失函数;a为对抗样本数据集中的语音,b为正常语音数据集中的语音;DA()为判断输入是否为对抗样本的判别器,DB()为输入是否为正常语音的判别器;GB~A()为添加噪音的生成器,GA~B()为滤除噪音的生成器,E表示期望。
6.根据权利要求1或5所述的基于CycleGAN的语音识别模型的防御方法,其特征在于,所述的Lcyc计算公式如式(4)所示,
Figure FDA0002500492340000022
其中,所述lAcyc为GA~B与GB~A构成的对抗网络的循环一致损失函数,lBcyc为GB~A与GA~B构成的对抗网络的循环一致损失函数;|| ||1表示11范数。
7.根据权利要求6所述的基于CycleGAN的语音识别模型的防御方法,其特征在于,所述的Lid计算公式如式(5)所示,
lid=Ea||GB~A(a)-a||1+Eb||GA~B(b)-b||1 (5)。
8.根据权利要求1所述的基于CycleGAN的语音识别模型的防御方法,其特征在于,在步骤S4前,首先利用训练集对CycleGAN模型中的判别器DB和判别器DA进行预训练,使两个判别器有初步判别语音是否为对抗样本和正常语音的能力。
9.一种基于CycleGAN的语音识别模型的防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机处理器执行权利要求1~8任意一项所述的基于CycleGAN的语音识别模型的防御方法。
CN202010433039.8A 2020-05-20 2020-05-20 一种基于CycleGAN的语音识别模型的防御方法及装置 Active CN111627429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010433039.8A CN111627429B (zh) 2020-05-20 2020-05-20 一种基于CycleGAN的语音识别模型的防御方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010433039.8A CN111627429B (zh) 2020-05-20 2020-05-20 一种基于CycleGAN的语音识别模型的防御方法及装置

Publications (2)

Publication Number Publication Date
CN111627429A true CN111627429A (zh) 2020-09-04
CN111627429B CN111627429B (zh) 2022-10-14

Family

ID=72259964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010433039.8A Active CN111627429B (zh) 2020-05-20 2020-05-20 一种基于CycleGAN的语音识别模型的防御方法及装置

Country Status (1)

Country Link
CN (1) CN111627429B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349281A (zh) * 2020-10-28 2021-02-09 浙江工业大学 基于StarGAN的语音识别模型的防御方法
CN112951214A (zh) * 2021-04-01 2021-06-11 山东大学 一种抗对抗样本攻击的语音识别模型训练方法
CN113223515A (zh) * 2021-04-01 2021-08-06 山东大学 一种对抗攻击免疫的自动语音识别优化方法
CN113449850A (zh) * 2021-07-05 2021-09-28 电子科技大学 一种海面监视雷达杂波智能抑制方法
CN113487506A (zh) * 2021-07-06 2021-10-08 杭州海康威视数字技术股份有限公司 基于注意力去噪的对抗样本防御方法、装置和***
CN113935913A (zh) * 2021-10-08 2022-01-14 北京计算机技术及应用研究所 一种具有视觉感知隐蔽性的黑盒图像对抗样本生成方法
CN115392325A (zh) * 2022-10-26 2022-11-25 中国人民解放军国防科技大学 一种基于CycleGan的多特征降噪调制识别方法
CN117012204A (zh) * 2023-07-25 2023-11-07 贵州师范大学 一种针对说话人识别***对抗样本的防御方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
KR20190111278A (ko) * 2018-03-22 2019-10-02 삼성전자주식회사 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
CN110390950A (zh) * 2019-08-17 2019-10-29 杭州派尼澳电子科技有限公司 一种基于生成对抗网络的端到端语音增强方法
CN110600017A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 语音处理模型的训练方法、语音识别方法、***及装置
CN110826059A (zh) * 2019-09-19 2020-02-21 浙江工业大学 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置
US20200082817A1 (en) * 2018-09-10 2020-03-12 Ford Global Technologies, Llc Vehicle language processing
US20200090676A1 (en) * 2018-09-17 2020-03-19 Honeywell International Inc. System and method for audio noise reduction

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190111278A (ko) * 2018-03-22 2019-10-02 삼성전자주식회사 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
US20200082817A1 (en) * 2018-09-10 2020-03-12 Ford Global Technologies, Llc Vehicle language processing
US20200090676A1 (en) * 2018-09-17 2020-03-19 Honeywell International Inc. System and method for audio noise reduction
CN110390950A (zh) * 2019-08-17 2019-10-29 杭州派尼澳电子科技有限公司 一种基于生成对抗网络的端到端语音增强方法
CN110600017A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 语音处理模型的训练方法、语音识别方法、***及装置
CN110826059A (zh) * 2019-09-19 2020-02-21 浙江工业大学 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DONGSUK YOOK: "Voice Conversion using Conditional CycleGAN", 《2018 INTERNATIONAL CONFERENCE ON COMPUTATIONAL SCIENCE AND COMPUTATIONAL INTELLIGENCE (CSCI)》 *
李涛: "基于 CycleGAN 网络实现非平行语料库条件下的语音转换", 《硕士学位论文》 *
杨弋?等: "面向智能驾驶视觉感知的对抗样本攻击与防御方法综述", 《南京信息工程大学学报(自然科学版)》 *
陈晋音等: "面向语音识别***的黑盒对抗攻击方法", 《小型微型计算机***》 *
韩斌等: "基于环状生成对抗网络的深度语音去噪方法", 《电子设计工程》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349281A (zh) * 2020-10-28 2021-02-09 浙江工业大学 基于StarGAN的语音识别模型的防御方法
CN112951214A (zh) * 2021-04-01 2021-06-11 山东大学 一种抗对抗样本攻击的语音识别模型训练方法
CN113223515A (zh) * 2021-04-01 2021-08-06 山东大学 一种对抗攻击免疫的自动语音识别优化方法
CN113223515B (zh) * 2021-04-01 2022-05-31 山东大学 一种对抗攻击免疫的自动语音识别方法
CN113449850A (zh) * 2021-07-05 2021-09-28 电子科技大学 一种海面监视雷达杂波智能抑制方法
CN113487506A (zh) * 2021-07-06 2021-10-08 杭州海康威视数字技术股份有限公司 基于注意力去噪的对抗样本防御方法、装置和***
CN113487506B (zh) * 2021-07-06 2023-08-29 杭州海康威视数字技术股份有限公司 基于注意力去噪的对抗样本防御方法、装置和***
CN113935913A (zh) * 2021-10-08 2022-01-14 北京计算机技术及应用研究所 一种具有视觉感知隐蔽性的黑盒图像对抗样本生成方法
CN115392325A (zh) * 2022-10-26 2022-11-25 中国人民解放军国防科技大学 一种基于CycleGan的多特征降噪调制识别方法
CN115392325B (zh) * 2022-10-26 2023-08-18 中国人民解放军国防科技大学 一种基于CycleGan的多特征降噪调制识别方法
CN117012204A (zh) * 2023-07-25 2023-11-07 贵州师范大学 一种针对说话人识别***对抗样本的防御方法
CN117012204B (zh) * 2023-07-25 2024-04-09 贵州师范大学 一种针对说话人识别***对抗样本的防御方法

Also Published As

Publication number Publication date
CN111627429B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN111627429B (zh) 一种基于CycleGAN的语音识别模型的防御方法及装置
CN110992934B (zh) 面向语音识别***黑盒攻击模型的防御方法及防御装置
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、***及装置
CN110706692B (zh) 儿童语音识别模型的训练方法及***
CN111429938B (zh) 一种单通道语音分离方法、装置及电子设备
CN109637545B (zh) 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN112349281B (zh) 基于StarGAN的语音识别模型的防御方法
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN111524527A (zh) 话者分离方法、装置、电子设备和存储介质
CN111261147A (zh) 一种面向语音识别***的音乐嵌入攻击防御方法
Wu et al. Partially fake audio detection by self-attention-based fake span discovery
CN111563373B (zh) 聚焦属性相关文本的属性级情感分类方法
US11217265B2 (en) Condition-invariant feature extraction network
CN113362822A (zh) 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法
Han et al. DPCCN: Densely-connected pyramid complex convolutional network for robust speech separation and extraction
Sun et al. Ai-synthesized voice detection using neural vocoder artifacts
Jiang et al. An Improved Unsupervised Single‐Channel Speech Separation Algorithm for Processing Speech Sensor Signals
Yao et al. Stepwise-refining speech separation network via fine-grained encoding in high-order latent domain
CN112906820A (zh) 基于遗传算法的对抗卷积神经网络句子相似度计算方法
Liu et al. Golden gemini is all you need: Finding the sweet spots for speaker verification
CN116564330A (zh) 弱监督语音预训练方法、电子设备和存储介质
Qiu et al. Adversarial Latent Representation Learning for Speech Enhancement.
CN114937454A (zh) 一种声纹识别防语音合成攻击的方法、装置及存储介质
CN111667836B (zh) 基于深度学习的文本无关多标号说话人识别方法
CN114584337A (zh) 一种基于遗传算法的语音攻击伪造方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant