CN109948658A

CN109948658A - 面向特征图注意力机制的对抗攻击防御方法及应用

Info

Publication number: CN109948658A
Application number: CN201910138087.1A
Authority: CN
Inventors: 陈晋音; 郑海斌; 熊晖; 成凯回; 杨东勇; 宣琦
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2019-06-28
Anticipated expiration: 2039-02-25
Also published as: CN109948658B

Abstract

本发明公开了一种面向注意力机制的对抗攻击防御方法，包括以下步骤：(1)采用注意力机制提取目标轮廓的轮廓特征，并且基于轮廓特征加入微小的扰动量，获得对抗样本，再通过动量迭代的方式优化扰动变量以更新对抗样本，从而实现对深度模型的对抗攻击；(2)利用对抗样本基于多强度对抗训练策略对深度模型进行对抗训练，以实现深度模型对对抗攻击的防御。该方法提高了分类器对对抗样本攻击的鲁棒性和泛化能力，从而使得分类器更加可靠、稳定，提高深度学习模型在实际应用过程中的安全性。还公开了一种面向注意力机制的对抗攻击防御方法在图像分类中的应用。

Description

面向特征图注意力机制的对抗攻击防御方法及应用

技术领域

本发明属于人工智能中的深度学习算法在图像分类任务中的安全应用研究领域，具体涉及一种面向注意力机制的对抗攻击防御方法及该对抗攻击防御方法在图像分类中的应用。

背景技术

近年来，深度学习凭借强大的特征学习能力，被广泛应用于各行各业，并且取得了较好的效果，例如：计算机视觉、生物信息学、复杂网络、自然语言处理等领域。但随着深度学习的广泛应用，其缺点也逐渐暴露，其中一个主要的缺点就是深度学习模型容易受到对抗样本的攻击，十分脆弱。举例来说，在一张自然情况下拍摄的正常图片，能够以较高的置信度被分类为正确的类标，但是一旦添加了精心设计的微小扰动得到对抗图像，该对抗样本图像就会被深度学习模型错误分类。更糟糕的是，由于添加的扰动十分微小，人类的视觉***并不能分辨出这些精心设计的对抗样本。

随着研究的深入，针对深度模型的对抗攻击模式已经逐渐被***化。根据攻击者对深度模型的了解程度可以分为黑盒攻击、白盒攻击与灰盒攻击，黑盒攻击是指在不了解模型的任何参数与结构的情况下进行对抗攻击，白盒攻击是指了解模型的全部属性，灰盒攻击则是介于两者之间的情况，即了解模型的部分参数与结构。根据对抗样本实现的误分类结果可以分为无目标攻击、目标攻击，无目标攻击的对抗样本只需实现误分类，目标攻击不仅需要实现误分类，还需要让对抗样本被误分类为攻击者预设的目标类。根据无目标攻击、目标攻击的目的不同，一般其优化目标函数也有区别。此外，这些攻击方法不仅仅只存在于数字空间中，也可以在物理世界中发生。如攻击者可以通过佩戴精心设计的眼镜，可以冒充其它人员，从而骗过人脸识别***；攻击者还可以在车牌或者路牌上贴上一些很小的贴纸，造成错误识别从而骗过车牌识别***或者自动驾驶车辆的路牌识别***。可见对抗攻击会严重地破坏深度学习模型的性能，从而威胁到基于深度学习模型的***的安全性，甚至威胁到人们的生命财产安全。因此，研究深度模型中存在的漏洞并进行防御是十分必要的。

与此同时，针对深度模型对抗攻击的防御方法研究也逐渐成为重点，目前的防御措施主要包括3大类：修改输入数据的防御，例如对待识别的输入图像添加一些随机噪声或者将图像进行翻转、缩放操作，就能破坏添加的对抗扰动；修改模型网络结构的防御，例如修改卷积核的尺寸、池化的范围，增加网络层数、修改激活函数等；对模型添加外挂式网络进行防御，例如在测试时添加外部模型来实现模型对于对抗样本的检测或者恢复。虽然大部分防御方法对于对抗攻击都起到了一定的防御效果，但是其迁移性受限，不能较好的防御新型的对抗攻击。

同时，最新的研究表明，修改模型的训练数据集，即在训练数据中添加对抗样本对模型进行对抗训练，是目前效果较好的一种防御手段。但是对抗训练的防御效果比较依赖于生成的对抗样本的质量，目前的攻击方法生成的对抗样本的迁移能力比较弱，因此很难达到比较好的对抗训练防御效果。

发明内容

本发明的目的是提供一种面向特征图注意力机制的对抗攻击防御方法，该方法通过特征图注意力机制对图像中目标的轮廓特征进行聚焦并对聚焦的轮廓特征增加扰动量，实现对深度模型的对抗攻击易产生对抗样本，并利用对抗样本和正常样本对深度模型进行训练，以提高分类模型对对抗攻击防御的鲁棒性。

本发明的另一目的是提供一种面向特征图注意力机制的对抗攻击防御方法在图像分类中的应用，该面向特征图注意力机制的对抗攻击防御方法能够获得能够防御攻击的图像分类模型，该图像分类模型能够大大提升了图像分类的准确性。

为实现上述发明目的，本发明提供以下技术方案：

一种面向注意力机制的对抗攻击防御方法，包括以下步骤：

(1)采用注意力机制提取图像中目标轮廓的轮廓特征，并且基于提取到的轮廓特征设计微小的扰动量添加到原始正常样本中，获得对抗样本，再通过动量迭代的方式优化扰动变量以更新对抗样本，从而实现对深度模型的对抗攻击；

(2)利用对抗样本和正常样本混合后的数据集，，基于多强度对抗训练策略对深度模型进行对抗训练，以实现深度模型对对抗攻击的防御。

本发明利用空间注意力机制集中特征图上目标轮廓实现正确分类的空间关键信息，进一步通过输出的损失函数值进行梯度计算得到对抗扰动所需添加的位置，并基于动量迭代方法优化每一次的扰动值从而生成高质量的对抗样本实现有效攻击。然后对深度模型进行多强度对抗训练，以实现深度模型对对抗攻击防御的鲁棒性和迁移性。

其中，所述采用注意力机制提取图像中目标轮廓的轮廓特征，并且基于提取到的轮廓特征设计微小的扰动量添加到原始正常样本中，获得对抗样本包括：

重构特征提取步骤，基于深度模型的浅层网络特征，采用注意力机制提取输入原始图像的浅层特征图像作为特征图像，并对特征图像进行上采样操作，获得重构特征图像；

信道空间注意力权重计算步骤，根据原始图像和重构特征图像计算信道空间注意力权重矩阵；

像素空间注意力权重计算步骤，根据重构的信道空间注意力权重矩阵和原始图像计算像素空间注意力权重矩阵；

对抗样本生成步骤，根据像素空间注意力权重矩阵计算添加的扰动量，将扰动量添加到原始图像中，获得对抗样本。

所述注意力机制可以分为软注意机制和硬注意机制，其中硬注意机制是一种基于伯努利分布的随机权重分配过程，软注意机制是神经网络参数化的可嵌入加权方法，能够在深度模型中使用全局信息通过端到端训练取得较好的效果。因此，本发明使用软注意机制进行对抗扰动计算。

在深度模型分类器中，与浅层特征相比，深层特征的视野较大，但深层特征图的空间信息大大丢失。因此，本发明通过双线性插值对深度神经网络的浅层特征输出进行重构，重构为与输入样本具有相同的H和W，其中H表示图像垂直方向的像素点个数，W表示图像水平方向的像素点个数。对扰动分布进行搜索的注意力机制包括信道空间关注和像素空间关注，其中信道空间关注通过对不同信道进行加权特征映射来关注信道特征分布，像素空间关注通过对不同像素区域进行加权特征映射来关注像素特征分布。

具体地，信道空间注意力权重计算步骤中，

将尺寸为[H,W,3]的原始图像x，通过reshape操作转化成尺寸为[3，l]的图片x^re，其中H表示图像垂直方向的像素点个数，W表示图像水平方向的像素点个数，3表示具有RGB三通道的彩色图像，l＝H×W；

将浅层隐藏层中经过上采样后尺寸为[H，W，c]的重构特征图像f_m，通过reshape操作转化成尺寸为[c，l]的重构特征图像f_mm；

通过公式获得尺寸为[3，c]的信道空间注意力权重矩阵W_c，其中，softmax(·)为激活函数。

像素空间注意力权重计算步骤中，

利用公式计算尺寸为[3，l]的重构的信道空间注意力权重其中，表示矩阵的乘法；

利用公式计算尺寸为[1，l]的像素空间注意力权重W_p，其中，·表示矩阵各对应元素相乘，softmax(·)为激活函数。

对抗样本生成步骤中，

通过reshape函数操作将尺寸为[1，l]的像素空间注意力权重W_p变成尺寸为[H,W,1]的注意力映射权重W_map；

通过以下公式计算添加的扰动量ρ：

其中，·表示两个矩阵对应元素相乘；y表示原始图像x对应的正确类标；表示计算梯度的1-范数，即向量元素的绝对数之和；xⁱ表示第i通道的像素矩阵；

最后，通过公式得到对抗样本x^*，其中，表示矩阵对应元素相加。

具体地，通过动量迭代的方式优化扰动变量以更新对抗样本包括：

设置被训练的深度学习分类器f的最大迭代次数为T，原始图像为x，且该原始图像x对应的正确类标为y。迭代开始时，令设置初始速度向量g₀＝0；

定义迭代过程的攻击优化目标函数为：

其中，超参数κ≥0表示生成的对抗样本的误分类类标的置信度，κ的数值越大则对于生产对抗样本的要求更高，得到的样本攻击性能更加可靠；x₀表示未添加扰动的初始图像，即原始图像x；Z(x)_y表示样本被分类为y的置信度，Z(x)_y′表示样本被分类为y'的置信度；表示x-x₀的2-范数，用来限制对抗扰动的大小，即向量元素绝对值的平方和再进行开根号，y_t'表示攻击者预先设定的特定目标标签；

(1)输入图像至深度学习分类器f，计算深度学习分类器f对于输入的梯度并且捕获图像在网络中的浅层特征图像通过双线性插值的方式对浅层特征图像进行上采样操作获得重构特征图像通过以下计算公式获得像素空间注意力权重

其中，表示经过重构的信道空间注意力权重，表示重构前的信道空间注意力权重。通过reshape函数对进行重构操作得到表示矩阵乘法，softmax(·)为激活函数，表示重构图像矩阵的转置，·表示矩阵对应元素相乘，在执行softmax(·)函数之前对计算所得的矩阵进行一次列方向上的求和使得

(2)通过重构操作将像素空间注意力权重重构为注意力映射权重

(3)通过基于梯度的方向更新速度向量g_i+1：

其中，μ为衰减因子，表示计算梯度的1-范数；

(4)基于速度向量g_i+1计算所需要添加的扰动量ρ_i：

ρ_i＝g_i+1×α

其中，α表示迭代过程中每次添加的扰动步长；

(5)将扰动量ρ_i添加至图像中，得到更新后的对抗样本：

重复步骤(1)～(5)，直至扰动大于预设值或者实现成功攻击即对抗样本已成功生成，其中，表示无穷范数，即中绝对值的最大值，ε为预设的扰动大小，y为原始图像x的正确类标。

利用对抗样本基于多强度对抗训练策略对深度模型进行对抗训练包括：

(1)基于预设扰动幅值参数ε，采用面向注意力机制的对抗攻击防御方法中的步骤(1)产生一批对抗样本子集合{x_adv1}，然后不断调整扰动幅值为ε/2，ε/3，ε/4，得到对抗样本子集合{x_adv2}、对抗样本子集合{x_adv3}、对抗样本子集合{x_adv4}；

(2)将步骤(1)得到的所有对抗样本子集合混合，得到具有不同攻击能力的对抗样本总集合，按照攻击强度AIn的取值从0.1、0.2、0.3、…、1.0进行对抗样本和正常样本的混合，得到具有不同攻击强度的新训练数据集；

(3)将步骤(2)得到的具有不同攻击强度的新训练数据集对深度模型的权重参数进行微调训练。

一种上述面向注意力机制的对抗攻击防御方法在图像分类中的应用，其特征在于，包括以下过程：

首先，以与待分类图像具有类似特征的图像集作为原始图像，以深度神经网络作为图像分类模型，利用上述面向特征图注意力机制的对抗攻击防御方法产生大量的对抗样本，并利用对抗样本对已经训练好的图像分类模型进行多强度对抗训练发现并修补其存在的漏洞，获得具有防御对抗样本能力的图像分类模型；

然后，采用训练好的具有防御对抗样本能力的图像分类模型对分类图像进行分类，获得可靠的分类结果。

本发明提供了一种面向特征图注意力机制的对抗攻击防御方法，通过特征图注意力机制获得具有更微小的扰动但是能够可靠地误导分类器的对抗样本，并且利用该对抗样本对原分类器进行多强度对抗训练提高分类器对对抗样本攻击的鲁棒性和泛化能力，从而使得分类器更加可靠、稳定，提高深度学习模型在实际应用过程中的安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是基于特征图注意力机制的对抗样本生成方法FineFool的示意图；

图2是深度模型ResNet-v2在MI-FGSM、PGD以及FineFool攻击方法的攻击下产生的对抗样本图；

图3是深度模型Inception-v3在MI-FGSM、PGD以及FineFool攻击方法的攻击下产生的对抗样本图；

图4是MI-FGSM、PGD以及FineFool攻击方法的攻击下，深度模型ResNet-v2产生的对抗样本的原始正确类标的置信度下降曲线；

图5是MI-FGSM、PGD以及FineFool攻击方法的攻击下，深度模型Inception-v3产生的对抗样本的错误分类类标的置信度上升曲线。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为提高深度学习模型的鲁棒性，本实施例提供了一种面向特征图注意力机制的对抗攻击防御方法，主要包括两个阶段，分别为对抗样本生成阶段和深度模型的对抗训练阶段，具体过程如下：

针对对抗样本生成阶段：

该阶段主要利用注意力机制提取目标轮廓的轮廓特征，并且基于轮廓特征加入微小的扰动量，再通过动量迭代的方式优化扰动变量，从而实现对深度模型的对抗攻击，该对抗攻击方法命名为FineFool，该对抗攻击方法能够产生对抗样本，具体地，如图1所示，该对抗攻击方法包括重构特征提取步骤，信道空间注意力权重计算步骤、像素空间注意力权重计算步骤以及对抗样本的生成步骤。

其中，重构特征提取步骤主要用于提取深度学***方向的像素个数，3为原始图像包含的RGB信道数，将原始图像x输入到深度分类模型(也就是分类器f)中，经计算提取尺寸为[H1，W1，C]的浅层特征图像x^f作为特征图像，该浅层特征图像具有更好的空间特征，然后，再对特征图像进行双线性上采样，即使用双线性插值法对特征图像x^f进行上采样的操作得到尺寸为[H，W，c]的重构特征图像f_m。

信道(或通道)空间注意力权重计算步骤主要用于计算信道空间注意力权重W_c。具体过程为：将尺寸为[H,W,3]的原始图像x，通过reshape操作转化成尺寸为[3，l]的图片x^re，其中H表示图像垂直方向的像素点个数，W表示图像水平方向的像素点个数，l＝H×W；将尺寸为[H，W，c]的重构特征图像f_m，通过reshape操作转化成尺寸为[c，l]的重构特征图像f_mm，然后，通过公式获得尺寸为[3，c]的信道空间注意力权重矩阵W_c，其中，softmax(·)为激活函数。

像素空间注意力权重计算步骤主要用于计算像素空间注意力权重W_p。具体过程为：首先，利用公式计算尺寸为[3，l]的重构的信道空间注意力权重其中，表示矩阵的乘法；然后，利用公式计算尺寸为[1，l]的像素空间注意力权重W_p，其中，·表示矩阵各对应元素相乘，softmax(·)为激活函数。

对抗样本生成步骤主要用于生成对抗样本x^*，具体过程为：首先，通过reshape函数操作将尺寸为[1，l]的像素空间注意力权重W_p变成尺寸为[H,W,1]的注意力映射权重W_map，然后，通过以下公式计算添加的扰动量ρ：

在上述生成对抗样本的基础上，通过动量迭代的方法更新对抗样本的具体过程为：

设置被训练的深度学习分类器f的最大迭代次数为T，原始图像为x，且该原始图像x对应的正确类标为y。迭代开始时，令设置初始速度向量g₀＝0。

定义迭代过程的攻击优化目标函数为：

在此基础上，迭代过程为：

(3)通过基于梯度的方向更新速度向量g_i+1：

其中，μ为衰减因子，表示计算梯度的1-范数；

(4)基于速度向量g_i+1计算所需要添加的扰动量ρ_i：

ρ_i＝g_i+1×α

其中，α表示迭代过程中每次添加的扰动步长；

(5)将扰动量ρ_i添加至图像中，得到更新后的对抗样本：

重复步骤(1)～(5)，直至扰动大于预设值或者实现成功攻击即对抗样本已成功生成。其中，表示无穷范数，即中绝对值的最大值，ε为预设的扰动大小，y为原始图像x的正确类标；

若对抗样本成功生成则跳出迭代，并输出对抗样本。否则，判断当前迭代次数i是否超过最大迭代次数T，若否，则继续进行动量迭代，若是，则停止迭代并输出攻击失败。

最后生成的对抗样本可视化结果如图2和图3中的的最后一列所示，其中，ρ_FineFool表示通过FineFool方法得到的对抗扰动可视化结果，Adv_FineFool表示在原始正常样本上添加对抗扰动后的对抗样本。

针对深度模型的对抗训练阶段：

该阶段利用对抗样本生成阶段产生的对抗样本对深度模型进行多强度对抗训练，具体为：

在其它条件相同的情况下，设定不同的对抗扰动上限值，即不同的ε值，则得到具有不同强度的攻击能力的对抗样本。将不同强度的对抗样本和正常样本按照一定的比例混合，得到不同的用于对抗训练的训练数据集，利用该训练数据集对深度模型进行分批次的对抗训练，从而使得深度模型在对正常样本的分类准确率尽可能少下降的情况下，提高对对对抗攻击防御的泛化能力，即能够防御不同攻击方法产生的对抗样本。

定义训练数据集的攻击强度(attack intensity,AIn)为：

AIn＝Num(Adv)/Num(Nor)

其中，Num(Adv)和Num(Nor)分别表示对抗样本和正常样本的样本数量，一般情况下，训练数据集中正常图像的样本数量是固定的，对抗样本可以根据攻击方法的不同参数产生，所以数量远超过正常样本的数量，AIn的取值范围是Ain≥0。

对深度模型进行对抗训练的具体过程为：

(1)基于预设的扰动幅值参数ε，通过基于特征图注意力机制的对抗攻击方法攻击深度模型产生一批对抗样本子集合{x_adv1}，然后不断调整扰动幅值为ε/2，ε/3，ε/4，得到更多的数据样本子集合{x_adv2}、{x_adv3}、{x_adv4}，由于扰动预设幅值变小，攻击成功率会变低，对应的对抗样本数量也将变少，每个集合的对抗样本的整体攻击能力也变弱。

(2)将步骤(1)得到的所有对抗样本混合，得到具有不同攻击能力的对抗样本总集合，保证数据分布的均衡性和多样性，然后按照AIn的取值从0.1、0.2、0.3、…、1.0进行对抗样本和正常样本的混合，得到具有不同攻击强度的新训练数据集；这些新训练数据集中的正常样本都相同，对抗样本具有一定的随机性。

(3)将步骤(2)得到的具有不同攻击强度的训练数据集对深度模型的权重参数进行微调训练，使其对于对抗样本的攻击具有较好的鲁棒性，提高深度模型应用的可靠性。

应用例

上述提供的一种面向特征图注意力机制的对抗攻击防御方法应用于图像分类中，具体地，可以对动物图像分类，对人脸图像分类等目标图像分类中。

应用时，首先，以与待分类图像具有类似特征的图像集作为原始图像，以深度学习网络(可以是Resnet-v2或Inception-v3)作为图像分类模型，利用上述面向特征图注意力机制的对抗攻击防御方法产生大量的对抗样本，并利用对抗样本对已经训练好的图像分类模型进行多强度对抗训练发现并修补其存在的漏洞，获得具有防御对抗样本能力的图像分类模型，然后，采用训练好的具有防御能力的图像分类模型对分类图像进行分类，获得可靠的分类结果。

具体实验：

本实验使用的图像数据集为来自http://www.image-net.org/的ImageNet图像数据集的子集，数据集的基本情况包括：(a)图像数据集有130000个训练图像样本、100000个测试图像样本以及50000个验证集样本，每个图像样本的尺寸为64*64的矩阵；(b)数据集可以分为1000类，每个类有相同数量的图像样本，即训练集中每类有130个样本、验证集中每类有50个样本、测试集中每类有100个样本；(c)为了便于实验对于每张图片进行了简单的归一化操作。

使用上述的训练集对已经训练好的图像分类模型进行参数微调训练，并且利用FineFool方法生成对抗样本。

本实验所用的图像分类模型是Resnet-v2和Inception-v3，最终得到的对抗样本可视化结果如图2图3的最后一列所示，图2中的original表示原始正常图像，ρ_MI-FGSM、Adv_MI-FGSM、ρ_PGD、Adv_PGD、ρ_FineFool、Adv_FineFool分别表示由MI-FGSM、PGD和FineFool攻击方法得到的扰动图和对抗样本图。图2和图3分别表示攻击深度模型Resnet-v2和Inception-v3得到的结果。图4和图5表示在攻击过程中，如图2和图3所示的对抗样本的原始正确类标的置信度下降曲线和错误分类类标的置信度上升曲线。

其中，PGD和MI-FGSM都是作为对比的攻击方法。PGD应用一次标准梯度下降，然后将所有的坐标剪切到一个区域内，研究表明通过PGD得到的局部最大值与正常训练或者对抗训练的网络相比，具有相似的损失函数，这种现象表明了该方法所产生的对抗样本具有很好的鲁棒性。MI-FGSM攻击方法引入了一种广义的动量迭代算法来增强对抗攻击能力，通过将动量项嵌入到攻击迭代的过程中，可以在迭代的过程中稳定扰动更新的方向，从而避免陷入局部最优的问题。

对上述MI-FGSM、PGD以及FineFool对抗攻击方法攻击Resnet-v2和Inception-v3深度模型，然后使用所产生的对抗样本进行多强度对抗训练防御操作，得到的防御效果如表1所示。表1中所展示的是攻击成功率，数值越小，说明模型越不易被成功攻击，防御能力越好。可以看出，本发明提出的FineFool能够产生较好的对抗样本，使得模型在对抗训练后具有较好的防御效果。不同攻击方法攻击经过使用FineFool攻击方法生成的对抗样本进行对抗训练后的模型。

表1基于FineFool攻击方法进行对抗训练后的攻击成功率

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向注意力机制的对抗攻击防御方法，包括以下步骤：

(2)利用对抗样本和正常样本混合后的数据集，基于多强度对抗训练策略对深度模型进行对抗训练，以实现深度模型对对抗攻击的防御。

2.如权利要求1所述的面向注意力机制的对抗攻击防御方法，其特征在于，所述采用注意力机制提取图像中目标轮廓的轮廓特征，并且基于提取到的轮廓特征设计微小的扰动量添加到原始正常样本中，获得对抗样本包括：

3.如权利要求2所述的面向注意力机制的对抗攻击防御方法，其特征在于，信道空间注意力权重计算步骤中，

4.如权利要求2所述的面向注意力机制的对抗攻击防御方法，其特征在于，像素空间注意力权重计算步骤中，

5.如权利要求2所述的面向注意力机制的对抗攻击防御方法，其特征在于，对抗样本生成步骤中，

通过以下公式计算添加的扰动量ρ：

6.如权利要求1～5任一项所述的面向注意力机制的对抗攻击防御方法，其特征在于，通过动量迭代的方式优化扰动变量以更新对抗样本包括：

定义迭代过程的攻击优化目标函数为：

(3)通过基于梯度的方向更新速度向量g_i+1：

其中，μ为衰减因子，表示计算梯度的1-范数；

(4)基于速度向量g_i+1计算所需要添加的扰动量ρ_i：

ρ_i＝g_i+1×α

其中，α表示迭代过程中每次添加的扰动步长；

(5)将扰动量ρ_i添加至图像中，得到更新后的对抗样本：

7.如权利要求1所述的面向注意力机制的对抗攻击防御方法，其特征在于，利用对抗样本基于多强度对抗训练策略对深度模型进行对抗训练包括：

8.一种如权利要求1～7任一项所述的面向注意力机制的对抗攻击防御方法在图像分类中的应用，其特征在于，包括以下过程：

首先，以与待分类图像具有类似特征的图像集作为原始图像，以深度神经网络作为图像分类模型，利用权利要求1～7所述的面向特征图注意力机制的对抗攻击防御方法产生大量的对抗样本，并利用对抗样本对已经训练好的图像分类模型进行多强度对抗训练发现并修补其存在的漏洞，获得具有防御对抗样本能力的图像分类模型；