CN116913259B - 结合梯度引导的语音识别对抗防御方法及装置 - Google Patents
结合梯度引导的语音识别对抗防御方法及装置 Download PDFInfo
- Publication number
- CN116913259B CN116913259B CN202311154761.8A CN202311154761A CN116913259B CN 116913259 B CN116913259 B CN 116913259B CN 202311154761 A CN202311154761 A CN 202311154761A CN 116913259 B CN116913259 B CN 116913259B
- Authority
- CN
- China
- Prior art keywords
- loss
- challenge
- sample
- class classification
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000007123 defense Effects 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000013518 transcription Methods 0.000 claims description 6
- 230000035897 transcription Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了结合梯度引导的语音识别对抗防御方法及装置,该方法包括:计算损失函数,所述损失函数包括连接时序类分类损失和最优运输损失,在有监督场景中,计算连接时序类分类损失,在无监督场景中,计算最优运输损失;计算样本间的余弦距离;基于所述余弦距离和所述连接时序类分类损失计算最大损失,并通过迭代降低所述连接时序类分类损失的值;结合利用所述连接时序类分类损失和所述最优运输损失,生成新的对抗样本,使用所述新的对抗样本对所述语音识别模型f进行对抗训练。本申请能够获得更强的对抗样本,将有助于进行对抗训练;同时在ASR模型输出时利用梯度引导来防御针对分类器的对抗攻击,提高ASR模型的鲁棒性。
Description
技术领域
本申请属于语音识别技术领域,特别涉及结合梯度引导的语音识别对抗防御方法及装置。
背景技术
自动语音识别(ASR)***抵抗对抗攻击的能力较弱。大多数对抗攻击如快速梯度符号法(FGSM)和随机梯度下降(PGD)等,都是有监督的攻击,这些方法的优点是总能生成更强的对抗样本,但这些方法不考虑样本之间的关系而且容易发生标签泄漏。目前,另外的无监督对抗样本生成方法,如特征散射(FS),这类方法训练时间长而且并不总能生成更强的对抗样本,从而导致无法保证语音交互的安全性,语音识别***的防御能力较低。
针对上述问题,本申请提出结合梯度引导的语音识别对抗防御方法及装置。
发明内容
为了解决所述现有技术的不足,本申请提供了结合梯度引导的语音识别对抗防御方法,以解决现有技术训练时间长,无法持续生成强的对抗样本,从而导致无法保证语音交互的安全性,语音识别***的防御能力较低的技术问题。
本申请所要达到的技术效果通过以下方案实现:
第一方面,本申请实施例提供结合梯度引导的语音识别对抗防御方法,包括:
计算损失函数,所述损失函数包括连接时序类分类损失和最优运输损失,其中,在有监督场景中,LCTC(f(x),y)表示所述连接时序类分类损失,其中x是提供给语音识别模型f的原始音频输入,y是相应的转录,在无监督场景中,最优运输损失用LOT表示,其中LOT=minT(T·B), T是解决最有运输问题的相关矩阵, B是运输成本矩阵;
计算样本间的余弦距离,所述余弦距离表示干净样本f(x)的预测和对抗样本的预测之间的距离;
基于所述余弦距离和所述连接时序类分类损失计算最大损失,并通过迭代降低所述连接时序类分类损失的值;
结合利用所述连接时序类分类损失和所述最优运输损失,生成新的对抗样本,其中生成所述新的对抗样本中涉及的损失函数为 Lnew,所述 Lnew的计算方式如下:
Lnew=LCTC+βLOT,
其中,β是一个加权因子;
使用所述新的对抗样本对所述语音识别模型f进行对抗训练。
在一些实施例中,所述余弦距离用C表示,计算C的公式如下所示:
,
其中, f(x)表示干净样本,表示对抗样本,x是提供给语音识别模型f的原始音频输入。
在一些实施例中,所述结合利用所述连接时序类分类损失和所述最优运输损失,生成新的对抗样本,包括:
采用如下公式进行迭代,生成新的对抗样本,其中所述新的对抗样本为混合对抗样本:
,
其中,表示所述原始音频输入 x的对抗样本, t表示迭代次数。
在一些实施例中,所述β的值为1,用于平衡所述连接时序类分类损失和所述最优运输损失。
在一些实施例中,所述方法还包括:
采用如下公式计算梯度,来识别对分类最重要的单词:
,
其中,是将单词 xi转换为嵌入 e1的输入嵌入层, g(·)是根据词嵌入进行预测的上层, g(·)的输出是所有类的概率分布,使用g(·)k来表示第 k类的概率;
通过以下公式计算每个所述单词的重要性权重:
,
其中,ei表示所述词嵌入,位置嵌入和标记类型嵌入的总和。
在一些实施例中,所述方法还包括:
将所述 wi作为权重,随机采样句子中的的位置,其中/>是掩蔽比,/>表示单词的个数;对所述位置进行采样,得到位置序列/>,其中 Cat表示多项式分布, α是超参数,用特殊的掩码占位符替换所述位置序列,并使用BERT语言模型将最有可能的句子估算为:
,
其中, BERT(x)是所述BERT语言模型,表示单词的个数。
第二方面,本申请实施例提供结合梯度引导的语音识别对抗防御装置,包括:
第一计算模块,用于计算损失函数,所述损失函数包括连接时序类分类损失和最优运输损失,其中,在有监督场景中,表示所述连接时序类分类损失,其中x是提供给语音识别模型f的原始音频输入,y是相应的转录,在无监督场景中,最优运输损失用 LOT表示,其中LOT=minT(T·B),T是解决最有运输问题的相关矩阵,B是运输成本矩阵;
第二计算模块,用于计算样本间的余弦距离,所述余弦距离表示干净样本f(x)的预测和对抗样本的预测之间的距离;
迭代模块,用于基于所述余弦距离和所述连接时序类分类损失计算最大损失,并通过迭代降低所述连接时序类分类损失的值;
生成模块,用于结合利用所述连接时序类分类损失和所述最优运输损失,生成新的对抗样本,其中生成所述新的对抗样本中涉及的损失函数为Lnew,所述Lnew的计算方式如下:
Lnew=LCTC+βLOT,
其中,β是一个加权因子;
训练模块,用于使用所述新的对抗样本对所述语音识别模型f进行对抗训练。
在一些实施例中,所述余弦距离用C表示,计算C的公式如下所示:
,
其中, f(x)表示干净样本,表示对抗样本, x是提供给语音识别模型f的原始音频输入。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述任意一项所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述任一项所述的方法。
通过本申请实施例提供的结合梯度引导的语音识别对抗防御方法,能够实现同时具有有监督和无监督能力的方法,这两种方法结合就能获得更强的对抗样本,将有助于进行对抗训练;同时在ASR模型输出时利用梯度引导来防御针对分类器的对抗攻击,提高ASR模型的鲁棒性,保证语音交互的安全性,提高语音识别***的防御能力。
附图说明
为了更清楚地说明本申请实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例中的结合梯度引导的语音识别对抗防御方法的流程图;
图2为本申请一实施例中的结合梯度引导的语音识别对抗防御方法的GGAD对抗训练的示意图;
图3为本申请一实施例中的结合梯度引导的语音识别对抗防御方法的语音识别模型的示意图;
图4为本申请一实施例中的电子设备的示意框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,除非另外定义,本申请一个或多个实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
相关技术中,论文“Training augmentation with adversarial examples forrobust speech recognition”使用基于快速梯度符号法(FGSM)的对抗训练来训练模型,研究了输入梯度正则化作为对抗鲁棒性的方法。该方法训练可微分模型(例如,深度神经网络),使用了关于输入损失函数梯度的惩罚网络模型方法。结果表明,这种方法可以对对抗攻击产生非常好的鲁棒性,但这种方法几乎使网络的训练复杂性增加一倍,而且没有体现在各种对抗攻击尤其是黑盒攻击场景下的方法性能。
本申请的目的是实现一种同时具有有监督和无监督能力的方法,这样就能获得更强的对抗样本,将有助于进行对抗训练;同时在ASR模型输出时利用梯度引导来防御针对分类器的对抗攻击,提高ASR模型的鲁棒性。
下面结合附图,详细说明本申请的各种非限制性实施方式。
首先,参照图1,对本申请的结合梯度引导的语音识别对抗防御方法进行详细说明。
如图1所示,本申请实施例提供结合梯度引导的语音识别对抗防御方法,包括:
S101:计算损失函数,所述损失函数包括连接时序类分类损失和最优运输损失,其中,在有监督场景中,LCTC(f(x),y)表示所述连接时序类分类损失,其中 x是提供给语音识别模型f的原始音频输入, y是相应的转录,在无监督场景中,最优运输损失用LOT表示,其中LOT=minT(T·B), T是解决最有运输问题的相关矩阵,B是运输成本矩阵;
S102:计算样本间的余弦距离,所述余弦距离表示干净样本f(x)的预测和对抗样本的预测之间的距离;
S103:基于所述余弦距离和所述连接时序类分类损失计算最大损失,并通过迭代降低所述连接时序类分类损失的值;
S104:结合利用所述连接时序类分类损失和所述最优运输损失,生成新的对抗样本,其中生成所述新的对抗样本中涉及的损失函数为 Lnew,所述 Lnew的计算方式如下:
Lnew=LCTC+βLOT(1)
其中,β是一个加权因子;
S105:使用所述新的对抗样本对所述语音识别模型f进行对抗训练。
具体地,S101包括如下示例:
步骤11,使用有监督方法计算CTC损失。
对抗样本的生成是通过使用相对于输入数据的损失值来获得梯度信息。在有监督场景中,使用交叉熵(用于分类)、连接时序类分类(用于语音识别模型)等。可以定义原始标签和模型预测之间的连接时序类分类(CTC)损失,如下所示:
LCTC(f(x),y)(2)
其中, x是提供给语音识别模型f的音频输入,y是相应的转录,这是一个有监督损失函数,它使用的是数据的原始标签,有监督对抗样本生成技术使该函数最大化。
步骤12,使用无监督方法计算OT损失。
在无监督方法中不使用标签,而是使用干净样本预测和对抗样本预测之间的差异。无监督损失使用最优运输(OT)理论,对抗样本是用随机噪声初始化的,OT距离可以表示为:
LOT=minT(T·C)(3)
其中 T是一个有助于解决OT问题的矩阵,C是运输成本矩阵。
在一些实施例中,所述余弦距离用C表示,计算C的公式如下所示:
(4)
其中,f(x)表示干净样本,表示对抗样本,x是提供给语音识别模型f的原始音频输入。
在一些实施例中,结合上述步骤计算最大损失,并通过迭代减少CTC损失。最后,本申请将有监督损失和无监督损失结合起来,并使用它来生成新的对抗样本,然后通过使用这些新样本进行对抗训练以提高语音识别模型的鲁棒性。
在一些实施例中,所述结合利用所述连接时序类分类损失和所述最优运输损失,生成新的对抗样本,包括:
采用如下公式进行迭代,生成新的对抗样本,其中所述新的对抗样本为混合对抗样本:
(5)
其中,表示所述原始音频输入 x的对抗样本, t表示迭代次数。
在一些实施例中,所述β的值为1,用于平衡所述连接时序类分类损失和所述最优运输损失;此处的β的值为示例性的,本领域技术人员所熟知的其他的值也可以应用于此,对此不做限制。
在一些实施例中,所述方法还包括:
采用如下公式计算梯度,来识别对分类最重要的单词:
(6)
是将单词xi转换为嵌入 e1的输入嵌入层, g(·)是根据词嵌入进行预测的上层, g(·)的输出是所有类的概率分布,使用 g(·)k来表示第 k类的概率;
具体地,使用分类器的梯度估计单词的重要性;在攻击者可以完全访问分类器的白盒环境中,梯度被直接用于挑选候选者,而在黑盒环境中,梯度是通过比较分类器的输出是否有单词来近似估计的。假设在构建防御时可以完全访问分类器,则直接采用公式(6)计算梯度来识别对分类最重要的单词。
通过以下公式计算每个所述单词的重要性权重:
(7)
其中,ei表示所述词嵌入,位置嵌入和标记类型嵌入的总和。
使用掩码语言模型随机多次改写;计算每个单词的重要性权重后,必须替换重要单词来防御对抗攻击。如果对重要性权重进行阈值设置,然后掩蔽和替换单词,有可能会掩蔽所有重要单词,并使模型生成的句子在语义上与原始句子不同。为了解决这个问题,GGAD使用了一种随机替代方法。
具体地,GGAD对抗训练模型如图2所示,输入录音,计算CTC损失,以及计算OT损失,其中CTC损失和OT损失的计算与干净数据经过语言识别模型后进行预处理的结果相关,OT损失还有扰动数据经过语音识别模型进行预处理的结果相关,并计算最大损失和最小损失,还涉及更新扰动数据的过程。
示例性地,本申请中涉及的语音识别模型可以如图3所示,语音识别模型依次包括输入,卷积层,ResCNN,全连接层,BiRNN,分类器以及输入;其中BiRNN包括层归一化,门控循环单元以及随机失活层,分类器包括全连接层。
在一些实施例中,所述方法还包括:
将所述 wi作为权重,随机采样句子中的的位置,其中/>是掩蔽比,/>表示单词的个数;对所述位置进行采样,得到位置序列/>,其中Cat表示多项式分布, α是超参数,用特殊的掩码占位符替换所述位置序列,并使用BERT语言模型将最有可能的句子估算为:
(8)
其中, BERT(x)是所述BERT语言模型,表示单词的个数。
具体地,该方法将wi作为权重,随机采样句子中的位置,其中/>是掩蔽比。具体就是对位置进行采样:/>,其中Cat表示多项式分布,α是超参数,然后用特殊的掩码占位符替换这些位置,并使用BERT语言模型将最有可能的句子估算公式(8)的值;
其中 BERT(x)是BERT语言模型,改写句子中的所有/>个单词都是由BERT语言模型生成的,虽然只掩蔽了m个单词,句子/>中仍可能有超过 m个单词被替换。不同的掩码位置会导致不同的改写。
为了使分类器更稳定,该方法通过选择不同的掩码位置来为每个对抗句子生成句子 λ,然后将多数预测的句子 λ作为原始输入音频的预测结果。
本申请的方法,在白盒环境下GGAD的字符错误率(WER)比其他防御模型至少降低了1%,至多降低了12%;在白盒环境下GGAD的单词错误率(WER)比其他防御模型至少降低了4%,至多降低了40%;在黑盒环境下GGAD的单词错误率(WER)比其他防御模型至少降低了4%,至多降低了29%。
基于音频数据的对抗样本是很难应对的,制定有效的防御策略来保护深度学习模型免受对抗攻击是非常必要的。本申请讨论了一种基于对抗训练的防御方法,该方法以一种新方式生成对抗样本,生成的对抗样本包含有监督和无监督方法的能力。实验对本发明和其他流行的防御方法进行了比较,实验结果表明,本发明在防御白盒和黑盒攻击时表现出比其他流行方法更好的效果。
本申请实施例提供结合梯度引导的语音识别对抗防御装置,包括:
第一计算模块,用于计算损失函数,所述损失函数包括连接时序类分类损失和最优运输损失,其中,在有监督场景中,LCTC(f(x),y)表示所述连接时序类分类损失,其中 x是提供给语音识别模型f的原始音频输入,y是相应的转录,在无监督场景中,最优运输损失用LOT表示,其中LOT=minT(T·B), T是解决最有运输问题的相关矩阵,B是运输成本矩阵;
第二计算模块,用于计算样本间的余弦距离,所述余弦距离表示干净样本 f(x)的预测和对抗样本的预测之间的距离;
迭代模块,用于基于所述余弦距离和所述连接时序类分类损失计算最大损失,并通过迭代降低所述连接时序类分类损失的值;
生成模块,用于结合利用所述连接时序类分类损失和所述最优运输损失,生成新的对抗样本,其中生成所述新的对抗样本中涉及的损失函数为Lnew,所述 Lnew的计算方式如下:
Lnew=LCTC+βLOT,
其中,β是一个加权因子;
训练模块,用于使用所述新的对抗样本对所述语音识别模型f进行对抗训练。
在一些实施例中,所述余弦距离用C表示,计算C的公式如下所示:
,
其中, f(x)表示干净样本,表示对抗样本, x是提供给语音识别模型f的原始音频输入。
本申请使用了结合梯度引导的对抗防御(GGAD)方法,一是融合了有监督和无监督的对抗训练方法以生成新的对抗样本,二是在输出时使用梯度范数来估计对分类最重要的单词并进行改写。这样不仅能解决ASR***抵抗对抗攻击能力弱的问题,还能提高ASR***模型的鲁棒性。
需要说明的是,本申请一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还公开一种电子设备;
具体地,图4示出了本实施例所提供的结合梯度引导的语音识别对抗防御方法的电子设备的硬件结构示意图,该设备可以包括:处理器410、存储器420、输入/输出接口430、通信接口440和总线 450。其中,处理器410、存储器420、输入/输出接口430和通信接口440通过总线450实现彼此之间在设备内部的通信连接。
处理器410可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案。
存储器420可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器420可以存储操作***和其他应用程序,在通过软件或者固件来实现本申请实施例所提供的技术方案时,相关的程序代码保存在存储器420中,并由处理器410来调用执行。
输入/输出接口430用于连接输入/输出模块,以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口440用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如,USB、网线等)实现通信,也可以通过无线方式(例如,移动网络、WIFI、蓝牙等)实现通信。
总线450包括一通路,在设备的各个组件(例如,处理器410、存储器420、输入/输出接口430和通信接口440)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器410、存储器420、输入/输出接口430、通信接口440以及总线450,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的结合梯度引导的语音识别对抗防御方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的结合梯度引导的语音识别对抗防御方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的结合梯度引导的语音识别对抗防御方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以避免使本申请一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (6)
1.一种结合梯度引导的语音识别对抗防御方法,其特征在于,所述方法包括:
计算损失函数,所述损失函数包括连接时序类分类损失和最优运输损失,其中,在有监督场景中,LCTC(f(x),y)表示所述连接时序类分类损失,其中x是提供给语音识别模型f的原始音频输入,y是相应的转录,在无监督场景中,最优运输损失用LOT表示,其中LOT=minT(T·B),T是解决最有运输问题的相关矩阵,B是运输成本矩阵;
计算样本间的余弦距离作为C,所述余弦距离表示干净样本f(x)的预测和对抗样本的预测之间的距离;
结合利用所述连接时序类分类损失和所述最优运输损失,生成新的对抗样本,其中生成所述新的对抗样本中涉及的损失函数为Lnew,所述Lnew的计算方式如下:
Lnew=LCTC(f(x),y)+βLOT,
其中,β是一个加权因子;
使用所述新的对抗样本对所述语音识别模型f进行对抗训练;
采用如下公式计算梯度,来识别对分类最重要的单词:
f(x)=arg maxk g(E(x))k,
其中,E(x)=e1,…,el是将单词xi转换为嵌入ei的输入嵌入层,g(·)是根据词嵌入进行预测的上层,g(·)的输出是所有类的概率分布,使用g()k来表示第k类的概率;
通过以下公式计算每个所述单词的重要性权重:
其中,ei表示所述词嵌入,位置嵌入和标记类型嵌入的总和;
将所述wi作为权重,随机采样句子中的的位置,其中γ是掩蔽比,l表示单词的个数;对所述位置进行采样,得到位置序列/>其中Cat表示多项式分布,α是超参数,用特殊的掩码占位符替换所述位置序列,并使用BERT语言模型将最有可能的句子估算为:
其中,BERT(x)是所述BERT语言模型,l表示单词的个数。
2.如权利要求1所述的结合梯度引导的语音识别对抗防御方法,其特征在于,计算C的公式如下所示:
其中,f(x)表示干净样本,表示对抗样本,x是提供给语音识别模型f的原始音频输入。
3.如权利要求1或2所述的结合梯度引导的语音识别对抗防御方法,其特征在于,所述结合利用所述连接时序类分类损失和所述最优运输损失,生成新的对抗样本,包括:
采用如下公式进行迭代,生成新的对抗样本,其中所述新的对抗样本为混合对抗样本:
其中,表示所述原始音频输入x的对抗样本,t表示迭代次数。
4.如权利要求3所述的结合梯度引导的语音识别对抗防御方法,其特征在于,所述β的值为1,用于平衡所述连接时序类分类损失和所述最优运输损失。
5.一种电子设备,其特征在于,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至4任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311154761.8A CN116913259B (zh) | 2023-09-08 | 2023-09-08 | 结合梯度引导的语音识别对抗防御方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311154761.8A CN116913259B (zh) | 2023-09-08 | 2023-09-08 | 结合梯度引导的语音识别对抗防御方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116913259A CN116913259A (zh) | 2023-10-20 |
CN116913259B true CN116913259B (zh) | 2023-12-15 |
Family
ID=88351373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311154761.8A Active CN116913259B (zh) | 2023-09-08 | 2023-09-08 | 结合梯度引导的语音识别对抗防御方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116913259B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502976A (zh) * | 2019-07-10 | 2019-11-26 | 深圳追一科技有限公司 | 文本识别模型的训练方法及相关产品 |
CN111243620A (zh) * | 2020-01-07 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 语音分离模型训练方法、装置、存储介质和计算机设备 |
CN111540367A (zh) * | 2020-04-17 | 2020-08-14 | 合肥讯飞数码科技有限公司 | 语音特征提取方法、装置、电子设备和存储介质 |
CN112085041A (zh) * | 2019-06-12 | 2020-12-15 | 北京地平线机器人技术研发有限公司 | 神经网络的训练方法、训练装置和电子设备 |
CN113948093A (zh) * | 2021-10-19 | 2022-01-18 | 南京航空航天大学 | 一种基于无监督场景适应的说话人识别方法及*** |
CN114758113A (zh) * | 2022-03-29 | 2022-07-15 | 浙大城市学院 | 对抗样本防御训练方法、分类预测方法及装置、电子设备 |
CN116386111A (zh) * | 2023-03-31 | 2023-07-04 | 重庆邮电大学 | 一种面向人脸识别的对抗补丁攻击方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221905B (zh) * | 2021-05-18 | 2022-05-17 | 浙江大学 | 基于均匀聚类的语义分割的无监督域适应方法、装置、***和存储介质 |
-
2023
- 2023-09-08 CN CN202311154761.8A patent/CN116913259B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085041A (zh) * | 2019-06-12 | 2020-12-15 | 北京地平线机器人技术研发有限公司 | 神经网络的训练方法、训练装置和电子设备 |
CN110502976A (zh) * | 2019-07-10 | 2019-11-26 | 深圳追一科技有限公司 | 文本识别模型的训练方法及相关产品 |
CN111243620A (zh) * | 2020-01-07 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 语音分离模型训练方法、装置、存储介质和计算机设备 |
CN111540367A (zh) * | 2020-04-17 | 2020-08-14 | 合肥讯飞数码科技有限公司 | 语音特征提取方法、装置、电子设备和存储介质 |
CN113948093A (zh) * | 2021-10-19 | 2022-01-18 | 南京航空航天大学 | 一种基于无监督场景适应的说话人识别方法及*** |
CN114758113A (zh) * | 2022-03-29 | 2022-07-15 | 浙大城市学院 | 对抗样本防御训练方法、分类预测方法及装置、电子设备 |
CN116386111A (zh) * | 2023-03-31 | 2023-07-04 | 重庆邮电大学 | 一种面向人脸识别的对抗补丁攻击方法 |
Non-Patent Citations (4)
Title |
---|
Adaptive Activation Network for Low Resource Multilingual Speech Recognition;Jian Luo 等;2022 International Joint Conference on Neural Networks (IJCNN);全文 * |
R-gossip:分布式负载均衡效率优化算法;肖韬睿 等;电子设计工程;第28卷(第6期);全文 * |
基于无监督表征学习的深度聚类研究进展;侯海薇 等;模式识别与人工智能;第35卷(第11期);全文 * |
深度学习中的对抗样本问题;张思思 等;计算机学报;第42卷(第8期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116913259A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11334671B2 (en) | Adding adversarial robustness to trained machine learning models | |
Kim et al. | Exploring lottery ticket hypothesis in spiking neural networks | |
CN111241287A (zh) | 用于生成对抗文本的生成模型的训练方法及装置 | |
US11681796B2 (en) | Learning input preprocessing to harden machine learning models | |
US20210319090A1 (en) | Authenticator-integrated generative adversarial network (gan) for secure deepfake generation | |
CN113298152B (zh) | 模型训练方法、装置、终端设备及计算机可读存储介质 | |
Bhaskara et al. | Emulating malware authors for proactive protection using GANs over a distributed image visualization of dynamic file behavior | |
CN115439708A (zh) | 一种图像数据处理方法和装置 | |
US11727686B2 (en) | Framework for few-shot temporal action localization | |
CN113435531B (zh) | 零样本图像分类方法、***、电子设备及存储介质 | |
CN114462425A (zh) | 社交媒体文本处理方法、装置、设备及存储介质 | |
CN114677556A (zh) | 神经网络模型的对抗样本生成方法及相关设备 | |
CN116913259B (zh) | 结合梯度引导的语音识别对抗防御方法及装置 | |
CN116720214A (zh) | 一种用于隐私保护的模型训练方法及装置 | |
Andrew et al. | Sequential deep belief networks | |
CN110889290A (zh) | 文本编码方法和设备、文本编码有效性检验方法和设备 | |
Gaihua et al. | Instance segmentation convolutional neural network based on multi-scale attention mechanism | |
US20220004904A1 (en) | Deepfake detection models utilizing subject-specific libraries | |
Kotenko et al. | Attacks against machine learning systems: Analysis and GAN-based approach to protection | |
Mishra et al. | Regularized Hardmining loss for face recognition | |
CN116978370A (zh) | 语音处理方法、装置、计算机设备和存储介质 | |
CN115357712A (zh) | 方面级情感分析方法、装置、电子设备及存储介质 | |
CN113239215A (zh) | 多媒体资源的分类方法、装置、电子设备及存储介质 | |
CN113238821A (zh) | 数据处理的加速方法、装置、电子设备及存储介质 | |
Zheng et al. | Little‐YOLOv4: A Lightweight Pedestrian Detection Network Based on YOLOv4 and GhostNet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |