CN112396129A

CN112396129A - 一种对抗样本检测方法及通用对抗攻击防御***

Info

Publication number: CN112396129A
Application number: CN202011425771.7A
Authority: CN
Inventors: 王青; 叶佳全; 吴贺丰; 林倞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-02-23
Anticipated expiration: 2040-12-08
Also published as: CN112396129B

Abstract

本发明公开了一种对抗样本检测方法，所述方法包括：获取训练数据集用于训练深度神经网络模型，获取预测单元A；利用基于训练数据集生成的对抗样本，通过对抗训练方法训练深度神经网络模型，获取预测单元B；将训练数据集和对抗样本均输入至预测单元A、B中进行推理，分别提取相同卷积层输出的特征图并拼接，将拼接图作为分类训练数据集；采用分类训练数据集训练深度神经网络二分类模型，获取对抗样本检测模块；将需检测的输入样本分别输入至预测单元A、B中进行推理，分别提取相同卷积层输出的特征图并进行拼接，然后将拼接图输入至对抗样本检测模块中进行检测，获取检测结果y_detector。本发明提升了对抗样本检测准确率，避免损失模型精度的代价。

Description

一种对抗样本检测方法及通用对抗攻击防御***

技术领域

本发明涉及人工智能技术领域领域，更具体地，涉及一种对抗样本检测方法及通用对抗攻击防御***。

背景技术

深度神经网络在人脸识别、图像分类、文本分析等任务上都取得了非常好的效果。然而，近几年的研究发现，基于深度神经网络的图像分类器能够被别有用心的攻击者攻陷，通过在图像上加一个人肉眼不可见的扰动，使得图像分类器将其错分为另一个类别，这些被恶意修改的图像被称为对抗样本，给现有的诸多应用带来了安全隐患。

目前，关于对抗样本的生成算法，已有很多研究成果。对抗攻击算法从是否已知模型结构、参数、梯度等信息分为白盒攻击算法和黑盒攻击算法。白盒攻击算法已知目标模型的信息，能够有针对性的生成更有效的对抗样本。而黑盒攻击算法由于不知道目标模型的结构、参数等信息，只能获得输出类别，常见的方法有梯度估计或利用对抗样本的迁移性来攻击目标网络，相对来说攻击难度会高很多，效果较差。

根据是否要使目标分类器错分对抗样本为指定类别，可以将对抗攻击分为有目标对抗攻击和无目标对抗攻击。有目标对抗攻击在生成对抗样本时，需要指定目标类别，只有当能够生成使目标分类器错分为指定类别的对抗样本时，才认定为攻击成功。而无目标对抗攻击仅需使目标分类器错分对抗样本为任意非正确类别即可。

此外，衡量对抗样本与干净样本之间的差异时，一般使用L_p范数距离度量。其中，L_∞：||z||_∞＝max_i|z_i|，该范数度量任意维度上的最大变化，对于图像意味着度量每个像素上的最大变化，任意像素的变化不会超过该上界；

该范数即为干净样本与对抗样本之间的欧氏距离，表示每个像素变化的平方和在开平方，当大多数像素变化都很小时，该范数计算出来的值也会比较小；L₀：||z||₀＝#{i|z_i≠0}，该范数度量图像中像素修改的数量，至于修改像素的变化绝对值不在度量范畴中。

常见的对抗攻击算法有很多。其中，Goodfellow等人猜想深度神经网络之所以容易被对抗样本攻击，是因为深度神经网络具有线性特性，提出了快速梯度符号算法(FastGradient Sign Method，FGSM)，通过在干净样本的每一维加上损失函数对干净样本偏导方向的微小扰动，创建出使损失函数最大化的对抗样本。Kurakin等人扩展了快速梯度符号算法，提出了基本迭代算法(Basic Iterative Method，BIM)，通过采用多轮次小步长迭代替换快速梯度算法中一次大步长的方式，进一步增大了损失函数。DeepFool算法通过在分类器输出空间中搜索可以改变分类器决策的最小扰动来生成对抗样本。

为了增强模型的鲁棒性，研究者们提出了诸多算法来防御对抗攻击。其中，对抗训练方法通过在训练阶段，引入对抗样本及其正确类别一起作为训练数据来训练网络，以期望模型能够学到如何避免对抗扰动的干扰。梯度屏蔽方法，通过在训练阶段对目标函数添加一个梯度惩罚项，来使得模型尽可能产生接近零的梯度，降低模型对微小扰动的敏感性。防御蒸馏算法，利用原始模型的输出作为新的标签训练另一个结构相似的模型，来防御对抗样本的攻击。还有另一类算法，通过对输入图像进行变换来降低模型对微小变化的敏感性。

近几年，部分研究者的工作重点在于对抗样本的检测。Feinman等人提出使用核密度估计，利用深度神经网络中间的一些隐藏层，测量一个未知输入与一批干净样本之间的距离，若距离超过指定阈值则认定为是一个对抗样本。Metzen等人提出在原始模型中间的隐藏层接一个基于深度神经网络的检测器，即一个二分类来区分干净样本和对抗样本，且在训练检测器时，固定原始模型的参数不变，因此不会影响到原始模型的精度。此外，还有一类算法通过对样本进行变换，将样本和变换后的样本分别输入到模型中，比较预测结果的差异，若超过指定阈值则认定为是对抗样本，否则为干净样本。

基于样本统计的对抗样本方法计算量较大，且只能检测出远离干净样本群体的对抗样本，相比其他对抗样本检测算法，使用样本统计方法来区分对抗样本的性能较差。此外，现有的在原始模型隐藏层外接检测器的方法，对于部分类型的对抗样本检测效果不理想。而通过对输入样本进行多种变换分别输入模型，比较模型输出的不一致性来检测对抗样本的方法，计算量也比较大，因为这种方法往往需要数次的模型推理才能获得比较好的效果。

此外，现有的对抗攻击防御算法在提升模型对抗样本鲁棒性的同时，往往会降低原始模型的精度，难以兼顾模型的鲁棒性与精度。

在现有技术中，公开号为CN111783085A的中国发明专利，于2020年10月16日公开了一种对抗样本攻击的防御方法、装置及电子设备，其中所述方法包括：获取原始样本并进行预处理；根据深度神经网络分类模型和预处理后的样本生成对抗样本；输入原始样本和对抗样本，分别获得原始样本和对抗样本基于所述深度神经网络分类模型的表征；对原始样本和对抗样本的表征进行匹配；以表征匹配误差为正则项构建目标函数，实施防御训练；对待测样本进行预处理；将所述预处理后的待测样本输入至防御训练后的深度神经网络分类模型中，输出分类结果。虽然该方案在一定程度上解决现有深度神经网络对对抗样本的分类精度低的问题，但是并未能解决特定对抗攻击方法生成的对抗样本检测准确率差、计算复杂度高以及提升模型对抗样本鲁棒性时需要损失一定精度的问题，因此，急需一种对抗样本检测方法及通用对抗攻击防御***。

发明内容

本发明为解决特定对抗攻击方法生成的对抗样本检测准确率差、计算复杂度高以及提升模型对抗样本鲁棒性时需要损失一定精度的问题，提供一种对抗样本检测方法及通用对抗攻击防御***。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

首先，提出一种对抗样本检测方法，包括以下步骤：

S1：获取训练数据集并用于训练深度神经网络模型，获取预测单元A；

S2：利用基于训练数据集生成的对抗样本，通过对抗训练方法训练与步骤S1中结构相同的深度神经网络模型，获取预测单元B；

S3：将原训练数据集和对抗样本均输入至预测单元A、预测单元B中进行推理，分别提取相同卷积层输出的特征图并进行拼接，将拼接图作为分类训练数据集；

S4：采用分类训练数据集训练深度神经网络二分类模型，获取对抗样本检测模块；

S5：将需要进行检测的输入样本分别输入至预测单元A、预测单元B中进行推理，分别提取相同卷积层输出的特征图并进行拼接，然后将拼接图输入至对抗样本检测模块中进行检测，获取检测结果y_detector。

优选地，在所述步骤S3中，将原训练数据集记为标签0，将对抗样本记为标签1。

在上述方案中：

预测单元A：为训练好的基于深度神经网络的分类器或其他类型模型，对输入样本进行推理，用于提取隐藏层的特征图。在训练预测单元A时，需准备好训练数据集，并选择合适的预处理方式、损失函数、学习率、迭代次数等训练参数，训练一个基于深度神经网络的分类器。训练过程中，为加速收敛速度，可选择ImageNet数据集上预训练好的模型作为基础模型进行微调。

预测单元B：为与预测单元A结构相同且输出类型相同的深度神经网络模型，利用对抗样本并采用对抗训练方法进行训练获取得到，同样用于提取隐藏层的特征图。在训练预测单元B时，损失函数、学习率等训练参数可与训练预测单元A时保持一致，预测单元B与预测单元A的主要区别在于对训练数据集进行了扩充，选用已有的对抗攻击算法，在训练数据集上不断生成新的对抗样本，且新生成的对抗样本的类别标签与原样本保持一致。这样能够得到一个对抗样本鲁棒性更好的模型，作为预测单元B。

对抗样本检测模块：基于深度神经网络的二分类模型，将预测单元A和预测单元B在推理时隐藏层产生的特征图拼接后输入，输出0或1标签，分别表示输入样本为干净样本或对抗样本。在训练对抗样本检测模块前，需要先生成用于进行训练的分类训练数据集：此过程对训练预测单元B时生成的对抗样本和训练预测单元A时利用的原训练数据集进行复用，将原训练数据集打上类别标签0，对抗样本打上类别标签1；将原训练数据集和对抗样本分别输入至预测单元A和预测单元B中，提取出两个单元中相同位置卷积层输出的特征图并拼接在一起作为对抗样本检测模块的分类训练数据集，其中，拼接在一起的特征图作为x，特征图对应的输入样本类别标签(0或1)作为y。在训练对抗样本检测模块时，利用所生成的分类训练数据集，以及损失函数选用Softmax交叉熵损失函数，训练一个基于深度神经网络的二分类器作为对抗样本检测模块。

采用对抗样本检测方法进行检测：首先将需要检测的样本输入至预测单元A和预测单元B中进行推理，提取出两个预测单元相同位置(与训练时提取的位置保持一致)的卷积层输出的特征图，拼接到一起输入到对抗样本检测模块中得到分类结果y_detector；若y_detector＝0，则表示样本为干净样本；否则y_detector＝1，样本为对抗样本。

优选地，在所述步骤S5中获取检测结果y_detector，其中：

若检测结果y_detector＝0，则表示输入样本为干净样本；

若检测结果y_detector＝1，则表示输入样本为对抗样本。

优选地，在所述步骤S1中采用ImageNet数据集训练ResNet101模型以获取预测单元A；在所述步骤S2中采用ImageNet数据集训练ResNet101模型以获取预测单元B，训练参数与所述步骤S1相同。

优选地，在所述步骤S2通过对抗训练方法训练深度神经网络模型前，采用PGD算法对训练数据集每轮迭代时输入的图像添加扰动，生成对抗样本。

上述方案中，PGD算法通过多步迭代的方式生成一个能使模型损失值尽可能大的扰动。记输入图像为x，类别标签为y，模型参数为θ，损失函数为l，每轮迭代移动的步长为α，生成的扰动为δ，扰动限制为||δ||_∞＜ε，PGD算法的主要步骤包括：1)随机初始化扰动δ⁰；2)参照公式(1)迭代n次得到最终的扰动δ＝δⁿ。

优选地，在所述步骤S4中采用Softmax交叉熵损失函数训练深度神经网络二分类模型，获取对抗样本检测模块。

上述方案中，记模型参数为θ，输入图像为x，类别标签为y，学习率为α，模型对输入图像推理得到的输出为f_θ(x)，采用Softmax交叉熵损失函数计算损失值可见公式(2)。每轮迭代对输入(x，y)对计算损失值之后，利用该损失值参照公式(3)去反向传播更新模型参数。

L(x，y)＝CrossEntropyLoss(Softmax(f_θ(x))，y)#(2)

其次，提出一种通用对抗攻击防御***，包括预测单元A生成模块、预测单元B生成模块、对抗样本检测模块、模型输出选择模块；其中：

所述预测单元A生成模块输出端、预测单元B生成模块输出端均与所述对抗样本检测模块输入端连接；

所述对抗样本检测模块输出端与所述模型输出选择模块输入端连接；

所述预测单元A生成模块输出端、预测单元B生成模块输出端均与所述模型输出选择模块输入端连接；

在进行样本检测前，所述预测单元A生成模块用于生成预测单元A，所述预测单元A对输入样本进行初步推理，并输出预测结果至所述模型输出选择模块中；所述预测单元B生成模块用于生成预测单元B，所述预测单元B对输入样本进行初步推理，并输出预测结果至所述模型输出选择模块中；

在进行样本检测时，所述预测单元A、预测单元B对输入样本进行推理，分别提取相同卷积层输出的特征图并进行拼接；所述对抗样本检测模块对拼接图进行检测，输出分类结果y_detector；所述模型输出选择模块根据分类结果y_detector输出最终结果。

在上述方案中：

通用对抗攻击防御***在对抗样本检测方法的基础上，额外添加了模型输出选择模块来指引***输出兼具对抗样本鲁棒性和准确性的结果。模型输出选择模块的主要功能为：输入预测单元A、预测单元B的预测结果，以及对抗样本检测模块的输出，若对抗样本检测模块输出0，则模型输出选择模块输出预测单元A的预测结果，否则输出预测单元B的预测结果。

需要强调的是，在通用对抗攻击防御***中，预测单元A和预测单元B不仅用以提取特征图作为对抗样本检测模块的输入，还需要对输入样本完整推理出预测结果，用以作为模型输出选择模块的输入。

优选地，所述预测单元A对输入样本进行初步推理所输出的预测结果记为y_A；所述预测单元B对输入样本进行初步推理所输出的预测结果记为y_B；所述对抗样本检测模块对拼接图进行检测，输出的分类结果y_detector为标签0或标签1。

优选地，对于所述对抗样本检测模块所获取的最终结果y_detector；其中：

若y_detector为0，则所述模型输出选择模块输出最终结果y_A；

若y_detector为1，则所述模型输出选择模块输出最终结果y_B。

优选地，所述预测单元A与预测单元B的结构、训练参数、输出类型均相同。

与现有技术相比，本发明技术方案的有益效果是：

本发明方法通过结合未进行对抗训练的预测单元A、进行对抗训练的预测单元B相同卷积层的特征图信息，并获取对抗样本检测模块作为分类器来实现对抗样本检测，提升了对抗样本检测准确率，并且避免了复杂的计算。本发明***通过增加模型输出选择模块，指引***输出兼具对抗样本鲁棒性和准确性的结果，避免了损失模型精度的代价。

附图说明

图1为本发明所述方法步骤图；

图2为本发明所述***模块图；

图3为实施例1深度神经网络二分类模型图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

本发明所述对抗样本检测方法的具体步骤如图1所示。

在本实施例中，训练数据集选用ImageNet数据集，预测单元A和预测单元B的模型结构选用ResNet101。对抗样本检测方法主要实施步骤如下：

1)获取预测单元A：使用ImageNet数据集训练ResNet101模型。训练时，批大小(Batch Size)为32，损失函数采用交叉熵损失函数，使用SGD作为训练优化器，训练110个Epoch，初始学习率为0.1，并在训练到第35、70、95个Epoch时，将学习率乘以0.1。由于已经有在ImageNet数据集上预训练好的ResNet101，因此也可省略训练步骤，直接用来作为预测单元A。

2)获取预测单元B：采用对抗训练方法，训练另一个ResNet101模型作为预测单元B。训练参数等与步骤1)相同，主要区别在于：在训练时采用PGD算法对每轮迭代时输入的图像添加扰动，生成对抗样本作为训练数据，类别标签与原始图像保持一致。

3)获取分类训练数据集：将ImageNet数据集输入至预测单元A、将步骤2)生成的对抗样本输入至预测单元B，分别提取出两个单元中ResNet101模型的第22个卷积层的输出特征图，每个样本对应的特征图大小为512×28×28。两个特征图拼接在一起作为x(大小为1024×28×28)，是否为对抗样本作为y(1表示输入到两个预测单元的样本为对抗样本，0表示输入到两个预测单元的样本为ImageNet数据集的样本)。将ImageNet数据集与步骤2)生成的对抗样本按照这一方式全部进行处理，作为对抗样本检测模块的分类训练数据集。

4)获取对抗样本检测模块：使用步骤3)生成的分类训练数据集去训练如图3所示的深度神经网络二分类模型，损失函数使用Softmax交叉熵损失函数，批大小为32，学习率为0.01，选用SGD作为优化器，训练30个Epoch。

5)获取到预测单元A、预测单元B、对抗样本检测模块后，进行对抗样本检测：首先将需要检测的样本输入至预测单元A和预测单元B，分别提取出两个预测单元的第21个卷积层输出的特征图(大小为512×28×28)，拼接到一起(大小为1024×28×28)输入到对抗样本检测模块中得到检测结果y_detector，若y_detector＝0，则表示样本为干净样本；否则y_detector＝1，样本为对抗样本。

如图2所示，在本发明所述对抗样本检测方法的基础上，通用对抗攻击防御***只需要额外增加模型输出选择模块。在使用该***进行推理时，首先预测单元A生成模块输出预测单元A、预测单元B生成模块输出预测单元B，首先将样本输入至预测单元A和预测单元B中得到两个预测结果y_A和y_B，然后提取出两个预测单元的第21个卷积层输出的特征图(大小为512×28×28)，即隐藏层特征图，拼接到一起(大小为1024×28×28)输入到对抗样本检测模块中得到分类结果y_detector，最后将y_A和y_B以及y_detector输入到模型输出选择模块中，若y_detector为0，则模型输出选择模块输出最终结果y_A；否则y_detector为1，模型输出选择模块输出最终结果y_B。

可知，本发明方案考虑到了对抗训练前后深度神经网络隐藏层对干净样本与对抗样本的表示存在差异，并利用这一特点以及深度神经网络在分类任务上的良好性能，提出了一种对抗样本检测方法，能够提升对抗样本的检测准确率。

此外，本方案还在对抗样本检测方法的基础上构建了一个通用的对抗攻击防御***，无需修改模型结构，通过增加模型输出选择模块指引***输出兼具对抗攻击鲁棒性与准确性的结果。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种对抗样本检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种对抗样本检测方法，其特征在于，在所述步骤S3中，将原训练数据集记为标签0，将对抗样本记为标签1。

3.根据权利要求2所述的一种对抗样本检测方法，其特征在于，在所述步骤S5中获取检测结果y_detector，其中：

若检测结果y_detector＝0，则表示输入样本为干净样本；

若检测结果y_detector＝1，则表示输入样本为对抗样本。

4.根据权利要求1所述的一种对抗样本检测方法，其特征在于，在所述步骤S1中采用ImageNet数据集训练ResNet101模型以获取预测单元A；在所述步骤S2中采用ImageNet数据集训练ResNet101模型以获取预测单元B，训练参数与所述步骤S1相同。

5.根据权利要求1所述的一种对抗样本检测方法，其特征在于，在所述步骤S2通过对抗训练方法训练深度神经网络模型前，采用PGD算法对训练数据集每轮迭代时输入的图像添加扰动，生成对抗样本。

6.根据权利要求1所述的一种对抗样本检测方法，其特征在于，在所述步骤S4中采用Softmax交叉熵损失函数训练深度神经网络二分类模型，获取对抗样本检测模块。

7.一种通用对抗攻击防御***，其特征在于，包括预测单元A生成模块、预测单元B生成模块、对抗样本检测模块、模型输出选择模块；其中：

8.根据权利要求7所述的一种通用对抗攻击防御***，其特征在于，所述预测单元A对输入样本进行初步推理所输出的预测结果记为yA；所述预测单元B对输入样本进行初步推理所输出的预测结果记为y_B；所述对抗样本检测模块对拼接图进行检测，输出的分类结果y_detector为标签0或标签1。

9.根据权利要求8所述的一种通用对抗攻击防御***，其特征在于，对于所述对抗样本检测模块所获取的最终结果y_detector；其中：

若y_detector为0，则所述模型输出选择模块输出最终结果y_A；

若y_detector为1，则所述模型输出选择模块输出最终结果y_B。

10.根据权利要求7所述的一种通用对抗攻击防御***，其特征在于，所述预测单元A与预测单元B的结构、训练参数、输出类型均相同。