CN113362822A - 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法 - Google Patents

一种具有听觉隐蔽性的黑盒语音对抗样本生成方法 Download PDF

Info

Publication number
CN113362822A
CN113362822A CN202110635286.0A CN202110635286A CN113362822A CN 113362822 A CN113362822 A CN 113362822A CN 202110635286 A CN202110635286 A CN 202110635286A CN 113362822 A CN113362822 A CN 113362822A
Authority
CN
China
Prior art keywords
audio
noise
variance
data
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110635286.0A
Other languages
English (en)
Other versions
CN113362822B (zh
Inventor
曾颖明
郭敏
方永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202110635286.0A priority Critical patent/CN113362822B/zh
Publication of CN113362822A publication Critical patent/CN113362822A/zh
Application granted granted Critical
Publication of CN113362822B publication Critical patent/CN113362822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种具有听觉隐蔽性的黑盒语音对抗样本生成方法,涉及人工智能安全技术领域。本发明主要技术方案包括初始化模拟退火参数;读入原始音频,初始化音频对抗样本;根据输入音频计算黑盒噪声,并做隐蔽性处理,即基于信号方差的时变噪声策略和基于人耳听觉效应的隐蔽性改进;利用黑盒噪声合成新的对抗样本;输入黑盒语音识别模型,判断是否攻击成功,如果攻击成功,则停止迭代,输出音频对抗样本,如果没有攻击成功,则按照Markov准则产生新解作为输入音频继续迭代,直到迭代完成或者攻击成功为止。本发明方法生成的音频对抗样本与原始音频相似度较高,更符合人耳听觉效应,具有较强的隐蔽性,能够在不被察觉的情况下攻击成功。

Description

一种具有听觉隐蔽性的黑盒语音对抗样本生成方法
技术领域
本发明涉及人工智能安全技术领域,具体涉及一种具有听觉隐蔽性的黑盒语音对抗样本生成方法。
背景技术
近年来,随着人工智能的快速发展,深度学习已经逐渐应用到社会各领域,尤其在安防、金融、物流等诸多领域出现了大量的商业化应用。现代语音识别技术在此期间也出现了重大突破。由于深度学习的非线性特质和其深层次的网络结构,在解码器、声学建模和语音信息的特征提取方面表现尤为突出。2018年,科大讯飞提出深度全序列卷积神经网络(DFCNN),使用大量的卷积直接对整句语音信号进行建模,借鉴图像识别的网络配置,每个卷积层使用小卷积核,并在多个卷积层之后再加上池化层,通过累积非常多卷积池化层对,从而可以看到更多的历史信息。2018年,阿里提出LFR-DFSMN(Lower Frame Rate-DeepFeedforward Sequential Memory Networks)。该模型将低帧率算法和DFSMN算法进行融合,语音识别错误率相比上一代技术降低20%,解码速度提升3倍。2019年,百度提出了流式多级的截断注意力模型SMLTA,该模型是在LSTM和CTC的基础上引入了注意力机制来获取更大范围和更有层次的上下文信息。与此同时,深度学习带来的安全问题也引起了诸多研究者们的研究。其中,对抗样本是指由恶意攻击者在原有样本基础上添加微小扰动后,导致深度学习算法产生错误分类的样本。对抗样本的构造方法也成为了人工智能安全领域的热点问题。目前根据目标模型的访问权限,可以将对抗样本生成方法的分类为白盒生成方法与黑盒生成方法。
自从ChristianSzegedy等人提出深度神经网络易受对抗样本攻击的特性后,大量的对抗样本生成方法被研究者们提出。常用的白盒对抗样本生成方法如下所述:
FGSM:一种基于梯度的快速梯度下降算法,在白盒环境下,通过求出神经网络模型对输入的导数,然后用符号函数得到其具体的梯度方向,接着和步长相乘,所得到的“扰动”加在原来的输入上,得到了该算法产生的对抗样本,但算法所生成的对抗样本的成功率较低,不适用于对攻击效率有较高要求的应用场景。
PGD:一种基于梯度的映射式梯度下降算法,相比于普通的FGSM算法仅做一次迭代,该算法在得到具体的梯度方向后,多次和步长相乘,每次迭代都会将扰动投射到规定的范围内。通过该算法得到的对抗样本相较于其他一阶梯度算法生成的对抗样本而言,成功率较高。
DeepFool:一种基于迭代的超平面分类算法,超平面是实现分类的基础。而该算法产生对抗样本是通过在分类的边缘区域增加微小扰动作为开始,每次迭代的过程中,不断地修改扰动的方向和大小,直到图像或者语音被分类错误,即分类器做出错误判断。但该算法产生对抗样本的前提是***网络模型存在一定的线性特质。
常用的黑盒对抗样本生成方法如下所述:
遗传算法:一种基于进化过程的最优解搜索算法,该算法按照适者生存和优胜劣汰的原理,逐代演化产生出越来越好的近似解,在每一代,根据问题域中个体的适应度大小选择个体,并借助于自然遗传学的遗传算子进行组合交叉和变异,产生出代表新的解集的种群。但在语音对抗样本的生成方法中,该算法往往进行局部搜索时,搜索速度较慢,导致多次迭代生成的对抗样本与原始样本的差异性较大。
模拟退火算法:从某一较高的温度出发,这个温度称为初始温度,伴随着温度参数的不断下降,算法中的解趋于稳定,但是,可能这样的稳定解是一个局部最优解,此时,模拟退火算法中会以一定的概率跳出这样的局部最优解,以寻找目标函数的全局最优解。但在语音对抗样本的生成方法中,初始化温度设置过大或过小,容易陷入局部极小。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种黑盒语音对抗样本生成方法,针对语音信号能够具有较高的攻击成功率的同时,还解决语音对抗样本的隐蔽性问题。
(二)技术方案
为了解决上述技术问题,本发明提供了一种具有听觉隐蔽性的黑盒语音对抗样本生成方法,包括以下步骤:
步骤1,初始化模拟退火算法参数,包括当前温度T、退火速率α、终止温度Tend
步骤2,读入音频数据,并将读入的音频数据当作音频对抗样本的初始化输入;
步骤3,根据的音频数据计算黑盒噪声,其中,做了隐蔽性处理;
步骤4,利用步骤3得到的黑盒噪声合成新的音频对抗样本;
步骤5,将新的音频对抗样本输入黑盒识别模型,判断是否攻击成功。
优选地,步骤2中按照.wav的文件格式和采样率为16kHZ的标准,读取输入的音频数据,时长小于等于1秒,即读入的音频数据序列长度小于等于16000,读入音频数据后还按照MFCC语音特征格式进行预处理操作,并提取出语音特征值。
优选地,步骤2中的预处理操作是指对读入的音频数据时长小于1秒的序列,在末尾进行补零操作,使其长度达到16000。
优选地,步骤2中在预处理操作之后,通过MFCC特征提取音频特征,得到一个维度为101*13大小的特征数据,输入至黑盒语音识别模型,得到原始识别结果f(x)origin,并将读入的音频数据作为对抗样本的初始化输入。
优选地,步骤3包括子步骤:
3.1,利用输入的音频对抗样本,计算信号方差,具体为:对读入的音频数据序列设置一个滑动窗口,并对每个窗口的音频数据,计算该窗口的音频数据方差,以该音频数据方差近似作为该窗口中心时刻的实时信号方差,最终得到整体的信号方差,其中计算窗口中心时刻的实时信号方差的公式如下:
Figure BDA0003105443050000051
其中
Figure BDA0003105443050000052
表示t时刻的信号方差,t=1,2,...,n,n表示音频数据序列长度,l表示窗口大小,xi表示窗口内各个时刻音频数据的大小,
Figure BDA0003105443050000053
表示以t时刻为中心的窗口均值,其计算公式如下:
Figure BDA0003105443050000054
3.2,利用得到的实时信号方差,计算噪声方差,具体为:将每个时刻的实时信号方差和噪声方差近似作为每个时刻的信号功率和噪声功率,然后根据信噪比公式,设置信噪比大小,计算每个时刻噪声方差,最终得到整体信号的噪声方差,其中计算噪声方差的公式如下:
Figure BDA0003105443050000055
其中噪声标准差
Figure BDA0003105443050000056
其中SNR表示信噪比,将
Figure BDA0003105443050000057
分别代表的t时刻的实时信号方差和噪声方差,近似作为t时刻的信号功率和噪声功率;
3.3,利用得到的噪声方差产生噪声信号序列,具体为:对每个时刻的噪声方差都乘以一个随机数,得到噪声信号序列,其中随机数通过均值为0,标准差为1的正态分布产生;
3.4,利用得到的噪声信号序列,结合A计权声级,使用带阻滤波器对噪声信号进行过滤,得到符合人耳听觉效应的黑盒噪声数据。
优选地,步骤4包括以下子步骤:
4.1,对得到的黑盒噪声数据的大小进行限制;
4.2,将经过限制后的黑盒噪声数据加载到输入的音频对抗样本上,得到新的音频对抗样本并对得到的新的音频对抗样本数据大小进行限制;
其中,对黑盒噪声数据大小进行限制和对音频对抗样本数据大小进行限制是指对序列中的数据大小进行限定,设置限定最大值和限定最小值,保证整个序列中比限定最大值大的数据都被强制变成限定最大值,保证整个序列中比限定最小值小的数据都被强制变成限定最小值。
优选地,步骤5包括以下子步骤:
5.1,将新得到的音频对抗样本经过音频特征提取得到的特征值,输入到黑盒语音识别模型中,得到新的识别结果f(x)new;该音频特征提取为提取音频的MFCC特征,得到一个维度为101*13大小的特征数据;
5.2,做如下判断:如果步骤2得到的原始识别结果和步骤5.1得到的新的识别结果不一致,即f(x)origin≠f(x)new,表示攻击成功,则输出音频对抗样本;反之,如果f(x)origin=f(x)new,则执行步骤5.3;
5.3,判断当前温度是否达到终止温度,若达到种植温度,即T≤Tend,则判定攻击失败,否则更新当前温度为αT,并根据Markov准则产生新解,返回步骤3进行迭代,重新产生新的音频对抗样本。
优选地,对音频对抗样本数据大小进行限制时,限定最大值和限定最小值分别为+1和-1。
优选地,步骤5.3中根据Markov准则产生新解是指如果新的音频对抗样本比输入的音频对抗样本要好,那么就以新的音频对抗样本作为输入,返回步骤3进行迭代,如果新的音频对抗样本比输入的对抗样本要差,就以一定的概率接受当前相对不好的新的音频对抗样本作为输入,返回步骤3进行迭代。
本发明还提供了一种所述方法在人工智能安全技术领域中的应用。
(三)有益效果
本发明提出通过对原始语音指令数据添加的噪声数据上进行限制,能够保证在人耳听觉上,加入噪声数据后所产生的语音指令数据和原始语音指令没有区别。其中限制是指基于信号方差的时变噪声策略和基于人耳听觉效应的隐蔽性改进:
基于信号方差的时变噪声策略是指由于人类说话的语音信号往往是非平稳随机信号,即信号功率是随时间不断变化的,在处理时往往利用临近时间内的信号序列方差代表该时刻信号方差,并结合相应约束来推算该时刻的噪声方差。
基于人耳听觉效应的隐蔽性改进是指正常人耳对声音的频响会随着声音大小的变化而变化,为了符合人耳听觉效应,需要对语音信号进行频率计权和时间计权,根据计权结果并设计相应滤波器对信号进行滤波。
经实验验证,在黑盒环境下,本发明生成的对抗样本可在自动语音指令识别***上的识别结果为给定的任意指令,与其他黑盒语音对抗样本生成算法相比,在对抗样本识别结果和原始标签错误率相同的情况下,本方法生成的对抗样本和原始样本的相似度更高,更符合人耳听觉效应,更具听觉隐蔽性,能够在不被察觉的情况下攻击成功。
附图说明
图1为本发明方法的流程图;
图2为原始音频声谱图;
图3为本发明方法生成的音频对抗样本声谱图;
图4为普通模拟退火算法生成的音频对抗样本声谱图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明针对基于循环神经网络模型结构的语音指令识别***进行研究,目的是提供一种具有听觉隐蔽性的黑盒语音对抗样本生成方法。与其他黑盒对抗样本生成算法相比,该方法针对语音信号能够具有较高的攻击成功率的同时,还解决了语音对抗样本的隐蔽性问题,可在人耳无法正确区分所生成的语音对抗样本和真实样本的情况下,实现对抗样本可被语音指令识别***识别为任意给定的语音指令。
参考图1,本发明提供的一种具有听觉隐蔽性的黑盒语音对抗样本生成方法,包括以下步骤:
步骤1,初始化模拟退火算法参数,包括当前温度T、退火速率α、终止温度Tend
步骤2,读入音频数据,并将读入的音频数据当作音频对抗样本的初始化输入;
步骤3,根据的音频数据计算黑盒噪声,其中,做了隐蔽性处理;
步骤4,利用步骤3得到的黑盒噪声合成新的音频对抗样本;
步骤5,将新的音频对抗样本输入黑盒识别模型,判断是否攻击成功。
步骤2中按照.wav的文件格式和采样率为16kHZ的标准,读取输入的音频数据,时长小于等于1秒,即读入的音频数据序列长度小于等于16000,其中通过torchaudio库中的torchaudio.load模块进行读取,读入音频数据后还按照MFCC语音特征格式进行预处理操作,并提取出语音特征值;
其中,预处理操作是指对读入的音频数据时长小于1秒的序列,在末尾进行补零操作,使其长度达到16000,其中通过numpy库中的numpy.pad模块进行补零操作;然后通过MFCC特征提取音频特征,得到一个维度为101*13大小的特征数据,输入至黑盒语音识别模型,得到原始识别结果f(x)origin,并将读入的音频数据作为对抗样本的初始化输入。其中,通过torchaudio库中的torchaudio.transforms.MFCC进行MFCC特征提取;所述黑盒语音识别模型是指使用双向LSTM网络结构搭建的一个音频指令识别模型。该模型使用的数据集包含down、go、left、off、on、right、stop、up在内的八种英文语音控制指令,并以其他语音构成other类作为背景类,共计21430条数据;然后经过MFCC提取音频特征作为该网络结构输入,输入维度为(101,13),经过BiLSTM(包含三个大小为64的隐含层)之后,将所有的输出结果进行拼接,得到一个64*101*64大小的序列,然后将该序列依次全连接到一个1024个神经元的隐含层、BatchNorm层、ReLU激活层和9个神经元的隐含层,最后经过SoftMax输出9种分类中概率最大的类别,得到分类结果和分类概率向量等。
步骤3包括子步骤:
3.1,利用输入的音频对抗样本,计算信号方差,具体为:对读入的音频数据序列设置一个滑动窗口,并对每个窗口的音频数据,计算该窗口的音频数据方差,以该音频数据方差近似作为该窗口中心时刻的实时信号方差,最终得到整体的信号方差,其中计算窗口中心时刻的实时信号方差的公式如下:
Figure BDA0003105443050000101
其中
Figure BDA0003105443050000102
表示t时刻的信号方差,t=1,2,...,n,n表示音频数据序列长度,在本实施例中为16000,l表示窗口大小,设置为200,xi表示窗口内各个时刻音频数据的大小,
Figure BDA0003105443050000103
表示以t时刻为中心的窗口均值,通过numpy库中的numpy.var模块实现,其计算公式如下:
Figure BDA0003105443050000104
3.2,利用得到的实时信号方差,计算噪声方差,具体为:将每个时刻的实时信号方差和噪声方差近似作为每个时刻的信号功率和噪声功率,然后根据信噪比公式,设置信噪比大小,计算每个时刻噪声方差,最终得到整体信号的噪声方差,其中计算噪声方差的公式如下:
Figure BDA0003105443050000105
其中噪声标准差
Figure BDA0003105443050000106
其中SNR表示信噪比,设置为40,将
Figure BDA0003105443050000111
分别代表的t时刻的实时信号方差和噪声方差,近似作为t时刻的信号功率和噪声功率;
3.3,利用得到的噪声方差,产生噪声信号序列,具体为:对每个时刻的噪声方差都乘以一个随机数,得到噪声信号序列,其中随机数通过均值为0,标准差为1的正态分布产生,通过numpy库中numpy.random.rand模块实现;
3.4,利用得到的噪声信号序列,结合A计权声级,使用带阻滤波器对噪声信号进行过滤,得到符合人耳听觉效应的黑盒噪声数据;其中A计权是计权网络的一种,计权网络是指为了模拟人耳听觉,在声级计内设有一种能够模拟人耳的听觉特性,把电信号修正为与听感近似值的网络,A计权声级是指模拟人耳对55dB以下低强度噪声的频率特性,结果显示人耳对1kHz到6kHz频率段内的噪声信号不敏感;带阻滤波器是指巴特沃斯带阻滤波器,其中设置滤波器的通带截止频率为0.9kHz和6.1kHz,阻带截止频率为1.1kHz和5.9kHz,通带最大衰减为-3dB,阻带最小衰减为-16dB;
本步骤中的隐蔽性处理包括基于信号方差的时变噪声策略和基于人耳听觉效应的隐蔽性改进,其中步骤3.1至步骤3.3是基于信号方差的时变噪声策略,步骤3.4是基于人耳听觉效应的隐蔽性改进;
步骤4包括以下子步骤:
4.1,对得到的黑盒噪声数据的大小进行限制;
4.2,将经过限制后的黑盒噪声数据加载到输入的音频对抗样本上,得到新的音频对抗样本并对得到的新的音频对抗样本数据大小进行限制;
其中,对黑盒噪声数据大小进行限制和对音频对抗样本数据大小进行限制是指对序列中的数据大小进行限定(通过numpy库中numpy.random.rand模块实现),设置限定最大值和限定最小值,保证整个序列中比限定最大值大的数据都被强制变成限定最大值,保证整个序列中比限定最小值小的数据都被强制变成限定最小值,从而保证了整个音频对抗样本数据大小都处于一个合适的范围之内,进一步确保了其听觉隐蔽性。对音频对抗样本数据大小进行限制时,限定最大值和限定最小值不一样,限定最大值和限定最小值分别为+1和-1;
步骤5包括以下子步骤:
5.1,将新得到的音频对抗样本经过音频特征提取得到的特征值,输入到黑盒语音识别模型中,得到新的识别结果f(x)new;该音频特征提取为提取音频的MFCC特征,得到一个维度为101*13大小的特征数据;
5.2,做如下判断:如果步骤2得到的原始识别结果和步骤5.1得到的新的识别结果不一致,即f(x)origin≠f(x)new,表示攻击成功,则输出音频对抗样本;反之,如果f(x)origin=f(x)new,则执行步骤5.3;
5.3,判断当前温度是否达到终止温度,若达到种植温度,即T≤Tend,则判定攻击失败,否则更新当前温度为αT(退火速率α乘以当前温度T),并根据Markov准则产生新解,返回步骤3进行迭代,重新产生新的音频对抗样本。其中Markov准则是指如果新的音频对抗样本比输入的音频对抗样本要好,那么就以新的音频对抗样本作为输入,返回步骤3进行迭代,如果新的音频对抗样本比输入的对抗样本要差,就以一定的概率接受当前不好的新的音频对抗样本作为输入,返回步骤3进行迭代。
将本发明方法与其他黑盒语音对抗样本生成方法相比,本发明方法生成音频对抗样本时,所加的黑盒噪声较小,特别是在音频信号能量小的区域,几乎没有任何噪声,只有在音频信号能量大的区域,才会添加较大的噪声,且所加的黑盒噪声与原始音频信号相似,很容易被原始音频所掩盖,在对抗样本识别结果和原始标签错误率相同的情况下,本方法生成的对抗样本和原始样本的相似度更高,以保证不会被人耳所察觉。
参考图2-图4可以看出,经实验验证,在黑盒环境下,本发明生成的对抗样本可在自动语音指令识别***上的识别结果为给定的任意指令,与其他黑盒语音对抗样本生成算法相比,在对抗样本识别结果和原始标签错误率相同的情况下,本方法生成的对抗样本和原始样本的相似度更高,更符合人耳听觉效应,更具听觉隐蔽性,能够在不被察觉的情况下攻击成功。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种具有听觉隐蔽性的黑盒语音对抗样本生成方法,其特征在于,包括以下步骤:
步骤1,初始化模拟退火算法参数,包括当前温度T、退火速率α、终止温度Tend
步骤2,读入音频数据,并将读入的音频数据当作音频对抗样本的初始化输入;
步骤3,根据的音频数据计算黑盒噪声,其中,做了隐蔽性处理;
步骤4,利用步骤3得到的黑盒噪声合成新的音频对抗样本;
步骤5,将新的音频对抗样本输入黑盒识别模型,判断是否攻击成功。
2.如权利要求1所述的方法,其特征在于,步骤2中按照.wav的文件格式和采样率为16kHZ的标准,读取输入的音频数据,时长小于等于1秒,即读入的音频数据序列长度小于等于16000,读入音频数据后还按照MFCC语音特征格式进行预处理操作,并提取出语音特征值。
3.如权利要求2所述的方法,其特征在于,步骤2中的预处理操作是指对读入的音频数据时长小于1秒的序列,在末尾进行补零操作,使其长度达到16000。
4.如权利要求3所述的方法,其特征在于,步骤2中在预处理操作之后,通过MFCC特征提取音频特征,得到一个维度为101*13大小的特征数据,输入至黑盒语音识别模型,得到原始识别结果f(x)origin,并将读入的音频数据作为对抗样本的初始化输入。
5.如权利要求4所述的方法,其特征在于,步骤3包括子步骤:
3.1,利用输入的音频对抗样本,计算信号方差,具体为:对读入的音频数据序列设置一个滑动窗口,并对每个窗口的音频数据,计算该窗口的音频数据方差,以该音频数据方差近似作为该窗口中心时刻的实时信号方差,最终得到整体的信号方差,其中计算窗口中心时刻的实时信号方差的公式如下:
Figure FDA0003105443040000021
其中
Figure FDA0003105443040000022
表示t时刻的信号方差,t=1,2,...,n,n表示音频数据序列长度,l表示窗口大小,xi表示窗口内各个时刻音频数据的大小,
Figure FDA0003105443040000023
表示以t时刻为中心的窗口均值,其计算公式如下:
Figure FDA0003105443040000024
3.2,利用得到的实时信号方差,计算噪声方差,具体为:将每个时刻的实时信号方差和噪声方差近似作为每个时刻的信号功率和噪声功率,然后根据信噪比公式,设置信噪比大小,计算每个时刻噪声方差,最终得到整体信号的噪声方差,其中计算噪声方差的公式如下:
Figure FDA0003105443040000025
其中噪声标准差
Figure FDA0003105443040000026
其中SNR表示信噪比,将
Figure FDA0003105443040000027
分别代表的t时刻的实时信号方差和噪声方差,近似作为t时刻的信号功率和噪声功率;
3.3,利用得到的噪声方差产生噪声信号序列,具体为:对每个时刻的噪声方差都乘以一个随机数,得到噪声信号序列,其中随机数通过均值为0,标准差为1的正态分布产生;
3.4,利用得到的噪声信号序列,结合A计权声级,使用带阻滤波器对噪声信号进行过滤,得到符合人耳听觉效应的黑盒噪声数据。
6.如权利要求5所述的方法,其特征在于,步骤4包括以下子步骤:
4.1,对得到的黑盒噪声数据的大小进行限制;
4.2,将经过限制后的黑盒噪声数据加载到输入的音频对抗样本上,得到新的音频对抗样本并对得到的新的音频对抗样本数据大小进行限制;
其中,对黑盒噪声数据大小进行限制和对音频对抗样本数据大小进行限制是指对序列中的数据大小进行限定,设置限定最大值和限定最小值,保证整个序列中比限定最大值大的数据都被强制变成限定最大值,保证整个序列中比限定最小值小的数据都被强制变成限定最小值。
7.如权利要求6所述的方法,其特征在于,步骤5包括以下子步骤:
5.1,将新得到的音频对抗样本经过音频特征提取得到的特征值,输入到黑盒语音识别模型中,得到新的识别结果f(x)new;该音频特征提取为提取音频的MFCC特征,得到一个维度为101*13大小的特征数据;
5.2,做如下判断:如果步骤2得到的原始识别结果和步骤5.1得到的新的识别结果不一致,即f(x)origin≠f(x)new,表示攻击成功,则输出音频对抗样本;反之,如果f(x)origin=f(x)new,则执行步骤5.3:
5.3,判断当前温度是否达到终止温度,若达到种植温度,即T≤Tend,则判定攻击失败,否则更新当前温度为αT,并根据Markov准则产生新解,返回步骤3进行迭代,重新产生新的音频对抗样本。
8.如权利要求6的方法,其特征在于,对音频对抗样本数据大小进行限制时,限定最大值和限定最小值分别为+1和-1。
9.如权利要求7所述的方法,其特征在于,步骤5.3中根据Markov准则产生新解是指如果新的音频对抗样本比输入的音频对抗样本要好,那么就以新的音频对抗样本作为输入,返回步骤3进行迭代,如果新的音频对抗样本比输入的对抗样本要差,就以一定的概率接受当前相对不好的新的音频对抗样本作为输入,返回步骤3进行迭代。
10.一种如权利要求1至9中任一项所述方法在人工智能安全技术领域中的应用。
CN202110635286.0A 2021-06-08 2021-06-08 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法 Active CN113362822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110635286.0A CN113362822B (zh) 2021-06-08 2021-06-08 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110635286.0A CN113362822B (zh) 2021-06-08 2021-06-08 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法

Publications (2)

Publication Number Publication Date
CN113362822A true CN113362822A (zh) 2021-09-07
CN113362822B CN113362822B (zh) 2022-09-30

Family

ID=77533045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110635286.0A Active CN113362822B (zh) 2021-06-08 2021-06-08 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法

Country Status (1)

Country Link
CN (1) CN113362822B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113935913A (zh) * 2021-10-08 2022-01-14 北京计算机技术及应用研究所 一种具有视觉感知隐蔽性的黑盒图像对抗样本生成方法
CN113948067A (zh) * 2021-10-08 2022-01-18 北京计算机技术及应用研究所 一种具有听觉高保真度特点的语音对抗样本修复方法
CN114550704A (zh) * 2022-01-26 2022-05-27 浙江大学 一种语音对抗样本识别模型训练方法及***
CN114882323A (zh) * 2022-07-08 2022-08-09 第六镜科技(北京)集团有限责任公司 对抗样本生成方法、装置、电子设备及存储介质
CN115081510A (zh) * 2022-05-10 2022-09-20 哈尔滨工程大学 一种面向水声智能伪装的跨模态高隐蔽对抗样本生成方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及***
CN109036389A (zh) * 2018-08-28 2018-12-18 出门问问信息科技有限公司 一种对抗样本的生成方法及装置
CN109887496A (zh) * 2019-01-22 2019-06-14 浙江大学 一种黑盒场景下的定向对抗音频生成方法及***
CN111680292A (zh) * 2020-06-10 2020-09-18 北京计算机技术及应用研究所 一种基于高隐蔽性通用扰动的对抗样本生成方法
US10896664B1 (en) * 2019-10-14 2021-01-19 International Business Machines Corporation Providing adversarial protection of speech in audio signals
CN112349281A (zh) * 2020-10-28 2021-02-09 浙江工业大学 基于StarGAN的语音识别模型的防御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及***
CN109036389A (zh) * 2018-08-28 2018-12-18 出门问问信息科技有限公司 一种对抗样本的生成方法及装置
CN109887496A (zh) * 2019-01-22 2019-06-14 浙江大学 一种黑盒场景下的定向对抗音频生成方法及***
US10896664B1 (en) * 2019-10-14 2021-01-19 International Business Machines Corporation Providing adversarial protection of speech in audio signals
CN111680292A (zh) * 2020-06-10 2020-09-18 北京计算机技术及应用研究所 一种基于高隐蔽性通用扰动的对抗样本生成方法
CN112349281A (zh) * 2020-10-28 2021-02-09 浙江工业大学 基于StarGAN的语音识别模型的防御方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
段玉超: "《基于无梯度优化的神经网络对抗样本黑盒生成方法研究》", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
郭敏等: "《基于对抗训练和VAE样本修复的对抗攻击防御技术研究》", 《信息网络安全》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113935913A (zh) * 2021-10-08 2022-01-14 北京计算机技术及应用研究所 一种具有视觉感知隐蔽性的黑盒图像对抗样本生成方法
CN113948067A (zh) * 2021-10-08 2022-01-18 北京计算机技术及应用研究所 一种具有听觉高保真度特点的语音对抗样本修复方法
CN114550704A (zh) * 2022-01-26 2022-05-27 浙江大学 一种语音对抗样本识别模型训练方法及***
CN115081510A (zh) * 2022-05-10 2022-09-20 哈尔滨工程大学 一种面向水声智能伪装的跨模态高隐蔽对抗样本生成方法及***
CN115081510B (zh) * 2022-05-10 2024-05-10 哈尔滨工程大学 一种面向水声智能伪装的跨模态高隐蔽对抗样本生成方法及***
CN114882323A (zh) * 2022-07-08 2022-08-09 第六镜科技(北京)集团有限责任公司 对抗样本生成方法、装置、电子设备及存储介质
CN114882323B (zh) * 2022-07-08 2022-10-14 第六镜科技(北京)集团有限责任公司 对抗样本生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113362822B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN113362822B (zh) 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法
EP3926623A1 (en) Speech recognition method and apparatus, and neural network training method and apparatus
WO2021205746A1 (en) System and method for detecting adversarial attacks
CN110992934A (zh) 面向语音识别***黑盒攻击模型的防御方法及防御装置
CN108564940A (zh) 语音识别方法、服务器及计算机可读存储介质
KR102294638B1 (ko) 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
CN111627429B (zh) 一种基于CycleGAN的语音识别模型的防御方法及装置
EP0623914B1 (en) Speaker independent isolated word recognition system using neural networks
US20120316879A1 (en) System for detecting speech interval and recognizing continous speech in a noisy environment through real-time recognition of call commands
CN109887496A (zh) 一种黑盒场景下的定向对抗音频生成方法及***
JP2008152262A (ja) 音声特徴ベクトル変換方法及び装置
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
Renkens Capsule networks for low resource spoken language understanding
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN114678030A (zh) 基于深度残差网络和注意力机制的声纹识别方法及装置
CN114550703A (zh) 语音识别***的训练方法和装置、语音识别方法和装置
CN113205803A (zh) 一种具有自适应降噪能力的语音识别方法及装置
CN113569062A (zh) 一种知识图谱补全方法与***
CN115394287A (zh) 混合语种语音识别方法、装置、***及存储介质
CN113870863A (zh) 声纹识别方法及装置、存储介质及电子设备
CN117789754A (zh) 一种音频事件检测模型生成方法、装置、设备及存储介质
Ponting Computational Models of Speech Pattern Processing
CN116564315A (zh) 一种声纹识别方法、装置、设备及存储介质
Kwon et al. Audio adversarial detection through classification score on speech recognition systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant