CN113362822A

CN113362822A - 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法

Info

Publication number: CN113362822A
Application number: CN202110635286.0A
Authority: CN
Inventors: 曾颖明; 郭敏; 方永强
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-09-07
Anticipated expiration: 2041-06-08
Also published as: CN113362822B

Abstract

本发明涉及一种具有听觉隐蔽性的黑盒语音对抗样本生成方法，涉及人工智能安全技术领域。本发明主要技术方案包括初始化模拟退火参数；读入原始音频，初始化音频对抗样本；根据输入音频计算黑盒噪声，并做隐蔽性处理，即基于信号方差的时变噪声策略和基于人耳听觉效应的隐蔽性改进；利用黑盒噪声合成新的对抗样本；输入黑盒语音识别模型，判断是否攻击成功，如果攻击成功，则停止迭代，输出音频对抗样本，如果没有攻击成功，则按照Markov准则产生新解作为输入音频继续迭代，直到迭代完成或者攻击成功为止。本发明方法生成的音频对抗样本与原始音频相似度较高，更符合人耳听觉效应，具有较强的隐蔽性，能够在不被察觉的情况下攻击成功。

Description

一种具有听觉隐蔽性的黑盒语音对抗样本生成方法

技术领域

本发明涉及人工智能安全技术领域，具体涉及一种具有听觉隐蔽性的黑盒语音对抗样本生成方法。

背景技术

近年来，随着人工智能的快速发展，深度学习已经逐渐应用到社会各领域，尤其在安防、金融、物流等诸多领域出现了大量的商业化应用。现代语音识别技术在此期间也出现了重大突破。由于深度学习的非线性特质和其深层次的网络结构，在解码器、声学建模和语音信息的特征提取方面表现尤为突出。2018年，科大讯飞提出深度全序列卷积神经网络(DFCNN)，使用大量的卷积直接对整句语音信号进行建模，借鉴图像识别的网络配置，每个卷积层使用小卷积核，并在多个卷积层之后再加上池化层，通过累积非常多卷积池化层对，从而可以看到更多的历史信息。2018年，阿里提出LFR-DFSMN(Lower Frame Rate-DeepFeedforward Sequential Memory Networks)。该模型将低帧率算法和DFSMN算法进行融合，语音识别错误率相比上一代技术降低20％，解码速度提升3倍。2019年，百度提出了流式多级的截断注意力模型SMLTA，该模型是在LSTM和CTC的基础上引入了注意力机制来获取更大范围和更有层次的上下文信息。与此同时，深度学习带来的安全问题也引起了诸多研究者们的研究。其中，对抗样本是指由恶意攻击者在原有样本基础上添加微小扰动后，导致深度学习算法产生错误分类的样本。对抗样本的构造方法也成为了人工智能安全领域的热点问题。目前根据目标模型的访问权限，可以将对抗样本生成方法的分类为白盒生成方法与黑盒生成方法。

自从ChristianSzegedy等人提出深度神经网络易受对抗样本攻击的特性后，大量的对抗样本生成方法被研究者们提出。常用的白盒对抗样本生成方法如下所述：

FGSM：一种基于梯度的快速梯度下降算法，在白盒环境下，通过求出神经网络模型对输入的导数，然后用符号函数得到其具体的梯度方向，接着和步长相乘，所得到的“扰动”加在原来的输入上，得到了该算法产生的对抗样本，但算法所生成的对抗样本的成功率较低，不适用于对攻击效率有较高要求的应用场景。

PGD：一种基于梯度的映射式梯度下降算法，相比于普通的FGSM算法仅做一次迭代，该算法在得到具体的梯度方向后，多次和步长相乘，每次迭代都会将扰动投射到规定的范围内。通过该算法得到的对抗样本相较于其他一阶梯度算法生成的对抗样本而言，成功率较高。

DeepFool：一种基于迭代的超平面分类算法，超平面是实现分类的基础。而该算法产生对抗样本是通过在分类的边缘区域增加微小扰动作为开始，每次迭代的过程中，不断地修改扰动的方向和大小，直到图像或者语音被分类错误，即分类器做出错误判断。但该算法产生对抗样本的前提是***网络模型存在一定的线性特质。

常用的黑盒对抗样本生成方法如下所述：

遗传算法：一种基于进化过程的最优解搜索算法，该算法按照适者生存和优胜劣汰的原理，逐代演化产生出越来越好的近似解，在每一代，根据问题域中个体的适应度大小选择个体，并借助于自然遗传学的遗传算子进行组合交叉和变异，产生出代表新的解集的种群。但在语音对抗样本的生成方法中，该算法往往进行局部搜索时，搜索速度较慢，导致多次迭代生成的对抗样本与原始样本的差异性较大。

模拟退火算法：从某一较高的温度出发，这个温度称为初始温度，伴随着温度参数的不断下降，算法中的解趋于稳定，但是，可能这样的稳定解是一个局部最优解，此时，模拟退火算法中会以一定的概率跳出这样的局部最优解，以寻找目标函数的全局最优解。但在语音对抗样本的生成方法中，初始化温度设置过大或过小，容易陷入局部极小。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种黑盒语音对抗样本生成方法，针对语音信号能够具有较高的攻击成功率的同时，还解决语音对抗样本的隐蔽性问题。

(二)技术方案

为了解决上述技术问题，本发明提供了一种具有听觉隐蔽性的黑盒语音对抗样本生成方法，包括以下步骤：

步骤1，初始化模拟退火算法参数，包括当前温度T、退火速率α、终止温度T_end；

步骤2，读入音频数据，并将读入的音频数据当作音频对抗样本的初始化输入；

步骤3，根据的音频数据计算黑盒噪声，其中，做了隐蔽性处理；

步骤4，利用步骤3得到的黑盒噪声合成新的音频对抗样本；

步骤5，将新的音频对抗样本输入黑盒识别模型，判断是否攻击成功。

优选地，步骤2中按照.wav的文件格式和采样率为16kHZ的标准，读取输入的音频数据，时长小于等于1秒，即读入的音频数据序列长度小于等于16000，读入音频数据后还按照MFCC语音特征格式进行预处理操作，并提取出语音特征值。

优选地，步骤2中的预处理操作是指对读入的音频数据时长小于1秒的序列，在末尾进行补零操作，使其长度达到16000。

优选地，步骤2中在预处理操作之后，通过MFCC特征提取音频特征，得到一个维度为101*13大小的特征数据，输入至黑盒语音识别模型，得到原始识别结果f(x)_origin，并将读入的音频数据作为对抗样本的初始化输入。

优选地，步骤3包括子步骤：

3.1，利用输入的音频对抗样本，计算信号方差，具体为：对读入的音频数据序列设置一个滑动窗口，并对每个窗口的音频数据，计算该窗口的音频数据方差，以该音频数据方差近似作为该窗口中心时刻的实时信号方差，最终得到整体的信号方差，其中计算窗口中心时刻的实时信号方差的公式如下：

其中

表示t时刻的信号方差，t＝1，2，...，n，n表示音频数据序列长度，l表示窗口大小，x_i表示窗口内各个时刻音频数据的大小，

表示以t时刻为中心的窗口均值，其计算公式如下：

3.2，利用得到的实时信号方差，计算噪声方差，具体为：将每个时刻的实时信号方差和噪声方差近似作为每个时刻的信号功率和噪声功率，然后根据信噪比公式，设置信噪比大小，计算每个时刻噪声方差，最终得到整体信号的噪声方差，其中计算噪声方差的公式如下：

其中噪声标准差

其中SNR表示信噪比，将

分别代表的t时刻的实时信号方差和噪声方差，近似作为t时刻的信号功率和噪声功率；

3.3，利用得到的噪声方差产生噪声信号序列，具体为：对每个时刻的噪声方差都乘以一个随机数，得到噪声信号序列，其中随机数通过均值为0，标准差为1的正态分布产生；

3.4，利用得到的噪声信号序列，结合A计权声级，使用带阻滤波器对噪声信号进行过滤，得到符合人耳听觉效应的黑盒噪声数据。

优选地，步骤4包括以下子步骤：

4.1，对得到的黑盒噪声数据的大小进行限制；

4.2，将经过限制后的黑盒噪声数据加载到输入的音频对抗样本上，得到新的音频对抗样本并对得到的新的音频对抗样本数据大小进行限制；

其中，对黑盒噪声数据大小进行限制和对音频对抗样本数据大小进行限制是指对序列中的数据大小进行限定，设置限定最大值和限定最小值，保证整个序列中比限定最大值大的数据都被强制变成限定最大值，保证整个序列中比限定最小值小的数据都被强制变成限定最小值。

优选地，步骤5包括以下子步骤：

5.1，将新得到的音频对抗样本经过音频特征提取得到的特征值，输入到黑盒语音识别模型中，得到新的识别结果f(x)_new；该音频特征提取为提取音频的MFCC特征，得到一个维度为101*13大小的特征数据；

5.2，做如下判断：如果步骤2得到的原始识别结果和步骤5.1得到的新的识别结果不一致，即f(x)_origin≠f(x)_new，表示攻击成功，则输出音频对抗样本；反之，如果f(x)_origin＝f(x)_new，则执行步骤5.3；

5.3，判断当前温度是否达到终止温度，若达到种植温度，即T≤T_end，则判定攻击失败，否则更新当前温度为αT，并根据Markov准则产生新解，返回步骤3进行迭代，重新产生新的音频对抗样本。

优选地，对音频对抗样本数据大小进行限制时，限定最大值和限定最小值分别为+1和-1。

优选地，步骤5.3中根据Markov准则产生新解是指如果新的音频对抗样本比输入的音频对抗样本要好，那么就以新的音频对抗样本作为输入，返回步骤3进行迭代，如果新的音频对抗样本比输入的对抗样本要差，就以一定的概率接受当前相对不好的新的音频对抗样本作为输入，返回步骤3进行迭代。

本发明还提供了一种所述方法在人工智能安全技术领域中的应用。

(三)有益效果

本发明提出通过对原始语音指令数据添加的噪声数据上进行限制，能够保证在人耳听觉上，加入噪声数据后所产生的语音指令数据和原始语音指令没有区别。其中限制是指基于信号方差的时变噪声策略和基于人耳听觉效应的隐蔽性改进：

基于信号方差的时变噪声策略是指由于人类说话的语音信号往往是非平稳随机信号，即信号功率是随时间不断变化的，在处理时往往利用临近时间内的信号序列方差代表该时刻信号方差，并结合相应约束来推算该时刻的噪声方差。

基于人耳听觉效应的隐蔽性改进是指正常人耳对声音的频响会随着声音大小的变化而变化，为了符合人耳听觉效应，需要对语音信号进行频率计权和时间计权，根据计权结果并设计相应滤波器对信号进行滤波。

经实验验证，在黑盒环境下，本发明生成的对抗样本可在自动语音指令识别***上的识别结果为给定的任意指令，与其他黑盒语音对抗样本生成算法相比，在对抗样本识别结果和原始标签错误率相同的情况下，本方法生成的对抗样本和原始样本的相似度更高，更符合人耳听觉效应，更具听觉隐蔽性，能够在不被察觉的情况下攻击成功。

附图说明

图1为本发明方法的流程图；

图2为原始音频声谱图；

图3为本发明方法生成的音频对抗样本声谱图；

图4为普通模拟退火算法生成的音频对抗样本声谱图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明针对基于循环神经网络模型结构的语音指令识别***进行研究，目的是提供一种具有听觉隐蔽性的黑盒语音对抗样本生成方法。与其他黑盒对抗样本生成算法相比，该方法针对语音信号能够具有较高的攻击成功率的同时，还解决了语音对抗样本的隐蔽性问题，可在人耳无法正确区分所生成的语音对抗样本和真实样本的情况下，实现对抗样本可被语音指令识别***识别为任意给定的语音指令。

参考图1，本发明提供的一种具有听觉隐蔽性的黑盒语音对抗样本生成方法，包括以下步骤：

步骤4，利用步骤3得到的黑盒噪声合成新的音频对抗样本；

步骤2中按照.wav的文件格式和采样率为16kHZ的标准，读取输入的音频数据，时长小于等于1秒，即读入的音频数据序列长度小于等于16000，其中通过torchaudio库中的torchaudio.load模块进行读取，读入音频数据后还按照MFCC语音特征格式进行预处理操作，并提取出语音特征值；

其中，预处理操作是指对读入的音频数据时长小于1秒的序列，在末尾进行补零操作，使其长度达到16000，其中通过numpy库中的numpy.pad模块进行补零操作；然后通过MFCC特征提取音频特征，得到一个维度为101*13大小的特征数据，输入至黑盒语音识别模型，得到原始识别结果f(x)_origin，并将读入的音频数据作为对抗样本的初始化输入。其中，通过torchaudio库中的torchaudio.transforms.MFCC进行MFCC特征提取；所述黑盒语音识别模型是指使用双向LSTM网络结构搭建的一个音频指令识别模型。该模型使用的数据集包含down、go、left、off、on、right、stop、up在内的八种英文语音控制指令，并以其他语音构成other类作为背景类，共计21430条数据；然后经过MFCC提取音频特征作为该网络结构输入，输入维度为(101,13)，经过BiLSTM(包含三个大小为64的隐含层)之后，将所有的输出结果进行拼接，得到一个64*101*64大小的序列，然后将该序列依次全连接到一个1024个神经元的隐含层、BatchNorm层、ReLU激活层和9个神经元的隐含层，最后经过SoftMax输出9种分类中概率最大的类别，得到分类结果和分类概率向量等。

步骤3包括子步骤：

其中

表示t时刻的信号方差，t＝1，2，...，n，n表示音频数据序列长度，在本实施例中为16000，l表示窗口大小，设置为200，x_i表示窗口内各个时刻音频数据的大小，

表示以t时刻为中心的窗口均值，通过numpy库中的numpy.var模块实现，其计算公式如下：

其中噪声标准差

其中SNR表示信噪比，设置为40，将

3.3，利用得到的噪声方差，产生噪声信号序列，具体为：对每个时刻的噪声方差都乘以一个随机数，得到噪声信号序列，其中随机数通过均值为0，标准差为1的正态分布产生，通过numpy库中numpy.random.rand模块实现；

3.4，利用得到的噪声信号序列，结合A计权声级，使用带阻滤波器对噪声信号进行过滤，得到符合人耳听觉效应的黑盒噪声数据；其中A计权是计权网络的一种，计权网络是指为了模拟人耳听觉，在声级计内设有一种能够模拟人耳的听觉特性，把电信号修正为与听感近似值的网络，A计权声级是指模拟人耳对55dB以下低强度噪声的频率特性，结果显示人耳对1kHz到6kHz频率段内的噪声信号不敏感；带阻滤波器是指巴特沃斯带阻滤波器，其中设置滤波器的通带截止频率为0.9kHz和6.1kHz，阻带截止频率为1.1kHz和5.9kHz，通带最大衰减为-3dB，阻带最小衰减为-16dB；

本步骤中的隐蔽性处理包括基于信号方差的时变噪声策略和基于人耳听觉效应的隐蔽性改进，其中步骤3.1至步骤3.3是基于信号方差的时变噪声策略，步骤3.4是基于人耳听觉效应的隐蔽性改进；

步骤4包括以下子步骤：

4.1，对得到的黑盒噪声数据的大小进行限制；

其中，对黑盒噪声数据大小进行限制和对音频对抗样本数据大小进行限制是指对序列中的数据大小进行限定(通过numpy库中numpy.random.rand模块实现)，设置限定最大值和限定最小值，保证整个序列中比限定最大值大的数据都被强制变成限定最大值，保证整个序列中比限定最小值小的数据都被强制变成限定最小值，从而保证了整个音频对抗样本数据大小都处于一个合适的范围之内，进一步确保了其听觉隐蔽性。对音频对抗样本数据大小进行限制时，限定最大值和限定最小值不一样，限定最大值和限定最小值分别为+1和-1；

步骤5包括以下子步骤：

5.3，判断当前温度是否达到终止温度，若达到种植温度，即T≤T_end，则判定攻击失败，否则更新当前温度为αT(退火速率α乘以当前温度T)，并根据Markov准则产生新解，返回步骤3进行迭代，重新产生新的音频对抗样本。其中Markov准则是指如果新的音频对抗样本比输入的音频对抗样本要好，那么就以新的音频对抗样本作为输入，返回步骤3进行迭代，如果新的音频对抗样本比输入的对抗样本要差，就以一定的概率接受当前不好的新的音频对抗样本作为输入，返回步骤3进行迭代。

将本发明方法与其他黑盒语音对抗样本生成方法相比，本发明方法生成音频对抗样本时，所加的黑盒噪声较小，特别是在音频信号能量小的区域，几乎没有任何噪声，只有在音频信号能量大的区域，才会添加较大的噪声，且所加的黑盒噪声与原始音频信号相似，很容易被原始音频所掩盖，在对抗样本识别结果和原始标签错误率相同的情况下，本方法生成的对抗样本和原始样本的相似度更高，以保证不会被人耳所察觉。

参考图2-图4可以看出，经实验验证，在黑盒环境下，本发明生成的对抗样本可在自动语音指令识别***上的识别结果为给定的任意指令，与其他黑盒语音对抗样本生成算法相比，在对抗样本识别结果和原始标签错误率相同的情况下，本方法生成的对抗样本和原始样本的相似度更高，更符合人耳听觉效应，更具听觉隐蔽性，能够在不被察觉的情况下攻击成功。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种具有听觉隐蔽性的黑盒语音对抗样本生成方法，其特征在于，包括以下步骤：

步骤4，利用步骤3得到的黑盒噪声合成新的音频对抗样本；

2.如权利要求1所述的方法，其特征在于，步骤2中按照.wav的文件格式和采样率为16kHZ的标准，读取输入的音频数据，时长小于等于1秒，即读入的音频数据序列长度小于等于16000，读入音频数据后还按照MFCC语音特征格式进行预处理操作，并提取出语音特征值。

3.如权利要求2所述的方法，其特征在于，步骤2中的预处理操作是指对读入的音频数据时长小于1秒的序列，在末尾进行补零操作，使其长度达到16000。

4.如权利要求3所述的方法，其特征在于，步骤2中在预处理操作之后，通过MFCC特征提取音频特征，得到一个维度为101*13大小的特征数据，输入至黑盒语音识别模型，得到原始识别结果f(x)_origin，并将读入的音频数据作为对抗样本的初始化输入。

5.如权利要求4所述的方法，其特征在于，步骤3包括子步骤：

其中

表示以t时刻为中心的窗口均值，其计算公式如下：

其中噪声标准差

其中SNR表示信噪比，将

6.如权利要求5所述的方法，其特征在于，步骤4包括以下子步骤：

4.1，对得到的黑盒噪声数据的大小进行限制；

7.如权利要求6所述的方法，其特征在于，步骤5包括以下子步骤：

5.2，做如下判断：如果步骤2得到的原始识别结果和步骤5.1得到的新的识别结果不一致，即f(x)_origin≠f(x)_new，表示攻击成功，则输出音频对抗样本；反之，如果f(x)_origin＝f(x)_new，则执行步骤5.3：

8.如权利要求6的方法，其特征在于，对音频对抗样本数据大小进行限制时，限定最大值和限定最小值分别为+1和-1。

9.如权利要求7所述的方法，其特征在于，步骤5.3中根据Markov准则产生新解是指如果新的音频对抗样本比输入的音频对抗样本要好，那么就以新的音频对抗样本作为输入，返回步骤3进行迭代，如果新的音频对抗样本比输入的对抗样本要差，就以一定的概率接受当前相对不好的新的音频对抗样本作为输入，返回步骤3进行迭代。

10.一种如权利要求1至9中任一项所述方法在人工智能安全技术领域中的应用。