CN111627429A

CN111627429A - 一种基于CycleGAN的语音识别模型的防御方法及装置

Info

Publication number: CN111627429A
Application number: CN202010433039.8A
Authority: CN
Inventors: 陈晋音; 叶林辉
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-09-04
Anticipated expiration: 2040-05-20
Also published as: CN111627429B

Abstract

本发明公开了一种基于CycleGAN的语音识别模型的防御方法及装置，所述防御方法利用对抗样本数据集和正常语音数据集训练CycleGAN模型，使该模型中的G_A～B生成器能够对对抗样本进行去噪操作，而对于正常样本没有影响，将其集成到语音识别模型中作为前端处理装置，提高语音识别模型的识别精度，并使语音识别模型能够抵御对抗样本的攻击，提高语音识别模型的鲁棒性。

Description

一种基于CycleGAN的语音识别模型的防御方法及装置

技术领域

本发明属于深度学习算法及信息安全研究领域，具体涉及一种基于CycleGAN的语音识别模型的防御方法。

背景技术

随着技术的不断发展，语音识别技术正在越来越多的被人们使用。语音识别技术带来了极大的便利性，简化了人与机器之间的通信，省略了中间键盘输入和手写的步骤，有着丰富的应用场景。在智能化家电领域，有语音控制的家电设备，人们用语音就可以控制家里的所有语音设备；在国防领域，自动语音识别***通过语音命令提供选定的驾驶舱控制，为飞行员带来了方便；在医疗领域，利用语音识别技术帮助有显著发声障碍的患者的语言表达；在自动驾驶领域，可以利用语音控制车载设备，甚至可以控制汽车的行驶。

近些年来，深度学***；国内语音识别行业的佼佼者科大讯飞的语音听写准确率则达到了95％，表现优良。虽然深度学习带来了便捷的训练步骤也提高了模型的识别精度，但是深度学习也给语音识别***带来了潜在的风险。最近的研究表明，深度神经网络容易受到对输入数据进行细微扰动形式的对抗攻击。这种做法会导致模型输出不正确的预测结果，在一些场景下会造成一些严重的事故。如在自动驾驶领域，若语音识别***被外加的细微扰动所攻击，汽车将会错误的识别乘客的指令，如将“stop”识别为“go”，这给自动驾驶***带来了极大的安全隐患，极有可能引发交通事故，造成人员的伤亡。

已有的语音识别攻击方法主要分为白盒和黑盒攻击。白盒攻击是攻击者已知模型内部参数的情况下进行的，如利用快速梯度符号法(FGSM)，通过反向传播计算模型关于噪声的梯度，不断迭代生成对抗样本。黑盒攻击是攻击者在未知模型内部参数的情况下进行的，利用一些寻优算法，如利用遗传算法(GA)，粒子群算法(PSO)不断优化所需要添加的扰动，迭代生成对抗样本。由此可以利用白盒或黑盒攻击方法，对语音识别模型进行攻击，使生成的对抗样本能够被识别为目标短语。

基于以上语音识别模型易被攻击的问题，研究一种利用CycleGAN作为语音识别***的前端，将其集成到语音识别模型中，对输入语音识别***的语音进行处理，对于对抗样本进行去噪操作，而保留正常的语音，使语音识别***达到抵御对抗样本攻击的效果具有重要的意义和实践价值。

发明内容

针对目前语音识别***存在识别精度不高，容易受到对抗样本攻击的安全性问题，本发明提供了一种基于CycleGAN的语音识别模型的防御方法，该方法可以提高语音识别模型的识别精度，并可以使语音识别模型的能够抵御对抗样本的攻击，提高语音识别模型的安全性及鲁棒性。

本发明的技术方案为：

一种基于CycleGAN的语音识别模型的防御方法，包括如下步骤：

S1生成用于CycleGAN模型训练的数据集，所述的数据集包括对抗样本数据集和正常语音数据集，将所述数据集划分为训练集和测试集；

S2搭建CycleGAN模型，所述的CycleGAN模型由两组GAN模型以对偶的形式构成；

一组GAN模型将对抗样本传递给生成器G_A～B滤除噪音，由判别器D_B判别是否为正常语音，然后将滤除噪音后的语音传递给生成器G_B～A添加噪音；

另一组GAN模型将正常语音传递给生成器G_B～A添加噪音，由判别器D_A判别是否为对抗样本，然后将添加噪音后的语音传递给生成器G_A～B滤除噪音；

S3构建CycleGAN模型的损失函数L_cycleGAN；所述损失函数L_cycleGAN由L_adv、L_cyc和L_id组成，如式(2)所示，

L_cycleGAN＝l_adv+λl_cyc+λ_idl_id (2)；

其中，所述λ和λ_id为缩放因子，l_adv为对抗性损失函数，l_cyc为循环一致损失函数，l_id为身份映射损失函数；

S4利用训练集对CycleGAN模型进行训练，训练完成后，用测试集进行测试，统计经过CycleGAN模型处理后的对抗样本的失效率，若失效率达不到预设标准，则更改CycleGAN模型参数继续训练模型，直到失效率达到预设标准；

S5将失效率达到预设标准的CycleGAN模型中的生成器G_A～B集成到语音识别模型中，以抵御对抗样本的攻击。

构建CycleGAN模型的损失函数，该损失函数L由三个部分构成，L_adv，L_cyc和L_id，L_ady损用来实现两个尘成器的功能以及判别器和生成器性能的提升；L_cyc用来保***的多样性；L_id用来保留语音信息，即让生成器只对对抗样本进行处理，而尽量不影响正常的语音。

公式(3)为一般的GAN模型的损失函数，若仅使用公式(3)，由于使用的是非平行的数据集，那么生成器很可能将数据集A映射为数据集B中的某一句话造成损失函数失效，因此引入公式(4)，保证两个生成器的多样性，由于公式(3)和(4)都没有考虑生成器对语音中的语义信息，若公式(2)中未加入公式(5)，则生成器G_A～B可能会有滤噪声过渡造成语义信息丢失，因此引入公式(5)保证语音不会被过渡处理。

本发明还提供了基于上述防御方法的装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述基于CycleGAN的语音识别模型的防御方法。

与现有技术相比，本发明具有如下有益效果：

(1)本发明所述防御方法使用的CycleGAN模型及其损失函数，一方面可以使用非平行的语料库进行训练，另一方面避免了生成器将对抗样本映射为正常语音中的一条语音而造成的损失函数失效的问题。

(2)针对可能存在的对语音识别模型的白盒或黑盒的攻击，本发明利用对抗样本数据集和正常语音数据集对CycleGAN模型进行训练，使CycleGAN模型能够在不影响正常样本的前提下对对抗样本进行降噪操作，使CycleGAN模型成为语音识别***的前端，集成到语音识别模型中，使语音识别模型的识别准确率得到提升，并能抵御对抗样本的攻击。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明所述四个不同卷积块的组成。

其中，a是门控卷积块，b是实例归一化门控卷积块，c是残差卷积块，d是pixelshuffed后的实例归一化门控卷积块。

图2为本发明所述CycleGAN模型的两个生成器的组成。

图3为本发明所述CycleGAN模型的两个生成器的组成。

其中，图2、图3中Gated C表示门控卷积块，I-Gated C表示实例归一化门控卷积块，Res-C表示残差卷积块，SI-Gated C表示pixel shuffed后的实例归一化门控卷积块。

图4为本发明CycleGAN模型及其损失函数。

其中，图4中A表示对抗样本数据集，B表示正常语音数据集，FB表示经过过滤噪声后生成的正常样本，FA表示经过添加噪声后生成的对抗样本，G_A～B用来滤除对抗样本中的噪声，G_B～A用来往正常样本中添加噪声，判别器D_A用来判别音频是否为带噪语音，判别器D_B用来判别音频是否为正常语音；l_Aadv为G_A～B与D_B构成的对抗网络的对抗性损失函数，l_Badv为G_B～A与D_A构成的对抗网络的对抗性损失函数；l_Acyc为G_A～B与G_B～A构成的对抗网络的循环一致损失函数，l_Bcyc为G_B～A与G_A～B构成的对抗网络的循环一致损失函数。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本发明提供的一种基于CycleGAN的语音识别模型的防御方法，具体包括以下步骤：

S1生成用于CycleGAN模型训练的数据集，所述的数据集包括对抗样本数据集和正常语音数据集，将所述数据集划分为训练集和测试集。

S11初始化遗传算法的损失函数如式(1)所示：

L＝l_ctc(x，t) (1)；

其中，l_ctc表示CTC损失函数用于衡量对抗样本经语音识别模型转录的结果与目标短语的相近程度，x表示迭代过程中的最优样本，t表示设置的目标短语；设定种群大小设为100，精英数量为10，迭代次数为3000；

S12通过复制原始样本将样本数量扩大至设定的种群大小，给个体添加随机噪声进行变异，在变异后，攻击语音识别模型，根据公式(1)选择损失函数较小的10个样本作为精英群体，根据公式(1)，从精英群体中挑选100次，组成父辈1，再挑选100次组成父辈2；

S13通过从父辈1和父辈2中各取一半的样本进行交义变异来生成子代，根据公式(1)选择最优样本；

S14判断迭代次数是否达到3000或最优样本的转录结果是否为目标短语，若是，则该样本就为对抗样本数据集，若否，将该最优样本作为下一次迭代的原始样本，回到步骤S12；

S15选择LibriSpeech、VoxForge、TIMIT、CHIME或TED-LIUM语音数据集作为正常语音数据集；

S16将对抗样本数据集与正常语音数据集组合在一起形成用于CycleGAN模型训练的数据集；按照比例划分为训练集和测试集。

另一组GAN模型将正常语音传递给生成器G_B～A添加噪音，由判别器D_A判别是否为对抗样本，然后将添加噪音后的语音传递给生成器G_A～B滤除噪音。

S21搭建CycleGAN模型的两个生成器G_A～B和G_B～A，所述生成器G_A～B和生成器G_B～A的结构相同，均由12个卷积块组成，依次为1个门控卷积块，2个实例归一化门控卷积块，6个残差卷积块，2个pixel shuffed后的实例归一化门控卷积块以及1个卷积层。

本实施例中的生成器如图2所示。

S22搭建CycleGAN模型的两个判别器D_A和D_B，所述的判别器D_A和判别器D_B的结构相同，均由6个卷积块组成，依次为1个门控卷积块，3个实例归一化门控卷积块，1个全连接层和1个sigmoid函数。

本实施例中的判别器如图3所示。

L_cycleGAN＝l_adv+λl_cyc+λ_idl_id (2)；

其中，所述λ和λ_id为缩放因子，l_adv为对抗性损失函数，l_cyc为循环一致损失函数，l_id为身份映射损失函数。

所述的l_adv计算公式如式(3)所示，

其中，所述l_Aadv为G_A～B与D_B构成的对抗网络的对抗性损失函数，l_Badv为G_B～A与D_A构成的对抗网络的对抗性损失函数；a为对抗样本数据集中的语音，b为正常语音数据集中的语音；D_A()为判断输入是否为对抗样本的判别器，D_B()为输入是否为正常语音的判别器；G_B～A()为添加噪音的生成器，G_A～B()为滤除噪音的生成器，E表示期望。

所述的L_cyc计算公式如式(4)所示，

l_cyc＝l_Acyc+l_Bcyc

＝E_a||G_B～A(G_A～B(a))-a||₁+E_b||G_A～B(G_B～A(b))-b||₁ (4)；

其中，所述l_Acyc为G_A～B与G_B～A构成的对抗网络的循环一致损失函数，l_Bcyc为G_B～A与G_A～B构成的对抗网络的循环一致损失函数；|| ||₁表示11范数。

所述的L_id计算公式如式(5)所示，

l_id＝E_a||G_B～A(a)-a||₁+E_b||G_A～B(b)-b||₁ (5)。

S4利用训练集对CycleGAN模型进行训练直到损失函数不再减小，训练完成后，用测试集进行测试，统计经过CycleGAN模型生成器G_A～B处理后的对抗样本攻击语音识别模型的失效率，若失效率达不到预设标准，则更改CycleGAN模型参数继续训练模型，直到失效率达到预设标准。

由于该防御装置中以及计算机存储器存储的计算机程序主要用于实现上述的一种面向语音识别***黑盒攻击模型的防御方法，因此其作用于上述防御方法的作用相对应，此处不再赘述。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于CycleGAN的语音识别模型的防御方法，其特征在于，包括如下步骤：

L_cycleGAN＝l_adv+λl_cyc+λ_idl_id (2)；

2.根据权利要求1所述的基于CycleGAN的语音识别模型的防御方法，其特征在于，所述抗样本数据集由以下步骤生成：

S11初始化遗传算法的损失函数如式(1)所示：

L＝l_ctc(x，t) (1)；

S13通过从父辈1和父辈2中各取一半的样本进行交叉变异来生成子代，根据公式(1)选择最优样本；

S14判断迭代次数是否达到3000或最优样本的转录结果是否为目标短语，若是，则该样本就为对抗样本数据集，若否，将该最优样本作为下一次迭代的原始样本，回到步骤S12。

3.根据权利要求1所述的基于CycleGAN的语音识别模型的防御方法，其特征在于，所述尘成器G_A～B和生成器G_A～B的结构相同，均由12个卷积块组成，依次为1个门控卷积块，2个实例归一化门控卷积块，6个残差卷积块，2个pixel shuffed后的实例归一化门控卷积块以及1个卷积层。

4.根据权利要求1所述的基于CycleGAN的语音识别模型的防御方法，其特征在于，所述的判别器D_A和判别器D_B的结构相同，均由6个卷积块组成，依次为1个门控卷积块，3个实例归一化门控卷积块，1个全连接层和1个sigmoid函数。

5.根据权利要求1所述的基于CycleGAN的语音识别模型的防御方法，其特征在于，所述的l_adv计算公式如式(3)所示，

其中，所述l_Aadv，为G_A～B与D_B构成的对抗网络的对抗性损失函数，l_Badv为G_B～A与D_A构成的对抗网络的对抗性损失函数；a为对抗样本数据集中的语音，b为正常语音数据集中的语音；D_A()为判断输入是否为对抗样本的判别器，D_B()为输入是否为正常语音的判别器；G_B～A()为添加噪音的生成器，G_A～B()为滤除噪音的生成器，E表示期望。

6.根据权利要求1或5所述的基于CycleGAN的语音识别模型的防御方法，其特征在于，所述的L_cyc计算公式如式(4)所示，

7.根据权利要求6所述的基于CycleGAN的语音识别模型的防御方法，其特征在于，所述的L_id计算公式如式(5)所示，

l_id＝E_a||G_B～A(a)-a||₁+E_b||G_A～B(b)-b||₁ (5)。

8.根据权利要求1所述的基于CycleGAN的语音识别模型的防御方法，其特征在于，在步骤S4前，首先利用训练集对CycleGAN模型中的判别器D_B和判别器D_A进行预训练，使两个判别器有初步判别语音是否为对抗样本和正常语音的能力。

9.一种基于CycleGAN的语音识别模型的防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行权利要求1～8任意一项所述的基于CycleGAN的语音识别模型的防御方法。