CN111783085B

CN111783085B - 一种对抗样本攻击的防御方法、装置及电子设备

Info

Publication number: CN111783085B
Application number: CN202010610929.1A
Authority: CN
Inventors: 李卓蓉; 封超; 吴明晖; 颜晖; 朱凡微; 金苍宏
Original assignee: Hangzhou City University
Current assignee: Hangzhou City University
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2023-08-22
Anticipated expiration: 2040-06-29
Also published as: CN111783085A

Abstract

本发明公开了一种对抗样本攻击的防御方法、装置及电子设备，包括：获取原始样本并进行预处理；根据深度神经网络分类模型和预处理后的样本生成对抗样本；输入原始样本和对抗样本，分别获得原始样本和对抗样本基于所述深度神经网络分类模型的表征；对原始样本和对抗样本的表征进行匹配；以表征匹配误差为正则项构建目标函数，实施防御训练；对待测样本进行预处理；将所述预处理后的待测样本输入至防御训练后的深度神经网络分类模型中，输出分类结果。本发明可以有效提高分类模型对对抗样本的分类准确性，从而减小对抗样本攻击对分类模型造成的损失。

Description

一种对抗样本攻击的防御方法、装置及电子设备

技术领域

本发明属于机器学习领域，涉及图像分类技术，具体涉及一种对抗样本攻击的防御方法、装置及电子设备。

背景技术

随着数据规模和计算能力的急速增长，深度学习在学术研究和商业推广中获得了广泛关注和实施。然而，最新研究发现深度神经网络容易受到对抗样本攻击，即，在正常样本中添加精心设计的不明显扰动，能够导致原本分类精度极高的深度神经网络彻底失效。

对抗样本给实际应用场景带来了巨大安全威胁，例如，在基于人脸识别的身份验证***中，攻击方可利用对抗样本非法获得授权；在自动驾驶场景中，攻击方可利用对抗样本误导***对交通信号的识别，等等。因此，提高深度神经网络对对抗样本攻击的防御能力迫在眉睫。

对抗训练是一种常用的对抗样本攻击的防御方法，通过将对抗样本添加至训练集中以提高模型泛化性。尽管深度网络经对抗训练后对对抗样本的分类准确率有所提高，但与之对正常样本的分类准确率仍有明显差距，降低了深度神经网络在实际应用中的适用性和可靠性。

发明内容

本发明实施例的目的是提供一种对抗样本攻击的防御方法、装置及电子设备，以解决现有深度神经网络对对抗样本的分类精度低的问题。

第一方面，本发明实施例提供一种对抗样本攻击的防御方法，包括：

获取原始样本并进行预处理；

根据深度神经网络分类模型和预处理后的样本生成对抗样本；

输入原始样本和对抗样本，分别获得原始样本和对抗样本基于所述深度神经网络分类模型的表征；

对原始样本和对抗样本的表征进行匹配；

以表征匹配误差为正则项构建目标函数，实施防御训练；

对待测样本进行预处理；

将所述预处理后的待测样本输入至防御训练后的深度神经网络分类模型中，输出分类结果。进一步地，获取原始样本并进行预处理，包括：

利用随机信号对原始样本进行翻转；

对翻转后的样本进行缩放；

对缩放后的样本进行裁剪；

对裁剪后的样本进行归一化。

进一步地，根据深度神经网络分类模型和预处理后的样本生成对抗样本，包括：

通过下式，生成对抗样本：

其中，x′表示对抗样本，下标t+1和t分别表示第t+1次和第t次迭代，α表示步长，sign是符号函数，x表示原始样本，S表示有效的对抗扰动幅值，表示将像素值投影至有效取值范围的投影算子，J是交叉熵损失函数，/>表示深度神经网络分类模型的交叉熵损失函数J对x′_t的每个像素点求负梯度，y表示样本真正类别，θ表示深度神经网络分类模型的参数。

进一步地，所述对抗样本的初始值x′₀如下：

其中，ε表示像素值的最大扰动幅值，random(-1，1)表示和原始样本x尺寸相同的、取值范围在(-1,1)内的随机向量。

进一步地，所述表征包括原始样本和对抗样本在所述深度神经网络分类模型的预设层的激活特征图。

进一步地，对原始样本和对抗样本的表征进行匹配，包括：

匹配可形式化表示为：

其中，L_fm表示表征匹配误差项，j表示预设层，和/>分别表示原始样本和对抗样本在深度神经网络分类模型的预设层j的表征，p是范数取值。

进一步地，以表征匹配误差为正则项构建目标函数，包括：

根据下式构建目标函数：

其中，表示训练集(x，y)服从分布/>L是深度神经网络分类模型的损失函数，λ₁和λ₂分别是表征匹配误差项L_fm和深度神经网络分类模型参数的l₂正则项L_norm的权重；L_norm能有效避免深度神经网络发生过拟合现象，其公式化表示为：/>其中，n表示样本数量。

进一步地，实施防御训练，包括：

将所述原始样本与所述对抗样本一起作为所述深度神经网络分类模型的防御训练数据集；

根据防御训练数据集，通过最小化目标函数对所述深度神经网络分类模型进行训练。

进一步地，对待测样本进行预处理，包括：对待测样本进行归一化。

第二方面，本发明实施例提供一种对抗样本攻击的防御装置，包括：

第一处理单元，用于获取原始样本并进行预处理；

对抗样本生成单元，用于根据深度神经网络分类模型和预处理后的样本生成对抗样本；

获取单元，用于输入原始样本和对抗样本，分别获取原始样本和对抗样本基于所述深度神经网络分类模型的表征；

匹配单元，用于对原始样本和对抗样本的表征进行匹配；

防御训练单元，用于构建以表征匹配误差为正则项的目标函数，实施防御训练；

第二处理单元，用于对待测样本进行预处理；

分类单元，用于对所述预处理后的待测样本进行分类，并输出分类结果。

第三方面，本发明实施例提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

根据以上技术方案，通过匹配原始样本和对抗样本在深度神经网络分类模型的预设层的表征，实施以表征匹配为正则化手段的对抗训练，有效提高深度神经网络分类模型对鲁棒特征的学习能力，从而在正常环境和对抗环境中均能准确地对样本进行识别，有效抵御对抗样本攻击。本发明实施例的技术方案进一步提高深度神经网络对对抗样本的分类精度、缩小与之对正常样本分类精度的差距，从而提高深度神经网络在实际应用中的适用性和可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明第一实施例提供的一种对抗样本攻击的防御方法的流程图；

图2为本实施例中对抗样本示例，其中，(a)是原图，(b)是对抗扰动，(c)是对抗样本，即，原图与对抗扰动的逐点像素值之和；

图3为本发明第二实施例提供的对抗样本攻击的防御装置的框图；

图4为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了更清晰地说明本发明的技术方案，下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行进一步描述。显然，本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为***、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式，或硬件和软件方面结合的实施方式。

实施例1：

请参照图1，图1是本发明第一实施例提供的一种对抗样本攻击的防御方法的流程图，下面将对图1所示的流程进行详细阐述，所述方法包括以下步骤：

步骤S100：获取原始样本并进行预处理；

在本实施例中，通过配置有数据线的非暂态计算机可读存储介质，例如U盘，移动硬盘等，通过通信接口140将待处理的原始数据输入到电子设备100的处理器120中。

具体地，包括以下子步骤：

步骤S110：利用随机信号对原始样本进行翻转。

在实际实施过程中，由于训练数据不足会造成模型过拟合问题，因此，利用随机信号对所述图像数据进行翻转可扩充数据集，从而缓解过拟合问题。步骤S110可以是但不限于随机水平翻转、或随机垂直翻转。在本实施例中，先实施随机水平翻转，然后实施随机垂直翻转。在其他实施例中，可以仅采用其中一种翻转方式，也可以以任意次序组合不同翻转方式。

步骤S120：根据深度神经网络分类模型输入要求，对翻转后的样本进行缩放。

在实际实施过程中，由于深度神经网络对输入样本的尺寸有统一要求而原始样本尺寸不一，因此需要对原始样本进行缩放。步骤S120可以采用双线性插值法，或最近邻插值法，或双立方插值法将原始样本尺寸调整至模型的输入尺寸要求的1.2倍，即：[1.2*W,1.2*H]，其中W表示宽度，H表示高度。在本实施例中，采用双线性插值法。

步骤S130：对缩放后的样本进行裁剪。

作为一种实施方式，S130包括：在前述缩放操作后的原始样本的随机位置裁剪出[W,H]大小的图像，使之满足深度神经网络输入尺寸要求。在其他实施例中，也可采用中心裁剪，即，固定以缩放后的原始样本的中心为中心进行裁剪。

步骤S140：对裁剪后的样本进行归一化。

作为一种实施方式，可以根据下式进行归一化处理：

其中，a′是归一化处理后的像素值，a是未归一化的像素值，min(x)是样本x的最小像素值，max(x)是样本x的最大像素值。

步骤S200：根据深度神经网络分类模型和预处理后的样本生成对抗样本。

在实际实施过程中，根据具体机器学习任务选择深度神经网络。在可能的实施例中，机器学习任务可以是图像识别、语音识别，以及图像分割等。

本实施例以图像分类为例，具体地，以对CIFAR-10数据集进行图像分类为例，采用如下基于深度神经网络的图像识别模型：

其中，网络层设置中，3x3表示卷积核大小，卷积核大小后面的参数是特征通道数量，如：16，160，320和640；输入尺寸和输出尺寸各参数分别表示：特征图的宽，高，通道数量。除特别说明池化层、全连接层、softmax层，其他均为卷积层。表示1个残差模块，该残差模块中包含6个同样的结构/>该结构中包含2个参数为[3×3,160]的卷积层。

其中，多个卷积层堆叠构成的残差模块可通过如下方式表示，例如，表示该残差。

进一步地，基于所述深度神经网络分类模型，根据下式生成所述对抗样本：

其中，x′表示对抗样本，t+1和t分别表示第t+1次和第t次迭代，α表示步长，sign是符号函数，x表示原始样本，S表示有效的对抗扰动幅值，表示将像素值投影至有效取值范围的投影算子，J(·)是交叉熵损失函数，/>表示深度神经网络分类模型的交叉熵损失函数J(·)对x′_t的每个像素点求负梯度，y表示样本真正类别，θ表示深度神经网络分类模型的参数。

进一步地，所述对抗样本的初始值如下：

其中，ε表示像素值的最大扰动幅值，random(-1，1)表示和图像x尺寸相同的、取值范围在(-1,1)内的随机向量。

在实际实施过程中，ε取值太大会导致对抗样本变得明显，不符合隐蔽性；ε取值太小意味着对抗样本攻击强度较低，基于强度较低的攻击样本进行防御训练会导致模型防御性能欠佳。优选地，在本实施例中，ε＝8。

请参考图2，图2为本发明实施例提供的对抗样本示例，图2中(a)为原图，(b)为对抗扰动，从上到下依次通过L-BFGS算法、快速梯度符号法、DeepFool和投影梯度下降法生成，(c)为对抗样本，即原图与对抗扰动的逐点像素值之和。

步骤S300：输入原始样本和对抗样本，分别获得原始样本和对抗样本基于所述深度神经网络分类模型的表征。

进一步地，所述表征，包括原始样本和对抗样本在所述深度神经网络分类模型的预设层的激活特征图。

步骤S400：对原始样本和对抗样本的表征进行匹配。

进一步地，对原始样本和对抗样本的表征进行匹配，可形式化表示为：

其中，L_fm表示表征匹配误差项，j表示预设层，表示深度神经网络分类模型第j层的激活函数，/>和/>分别表示原始样本和对抗样本在深度神经网络分类模型的预设层j的表征，p表示范数取值，||·||₂表示l₂范数，||·||_p表示l_p范数。

作为一种实施例，p＝2。

在实际实施过程中，需根据具体机器学习任务和深度神经网络分类模型来设定用于表征样本特征的网络预设层。较深网络层所提取的特征通常较为抽象，反之，较浅的网络层所提取的特征往往是低级特征。

作为一种实施例，采用较深网络层。进一步地，考虑到网络最后一层是全连接层，而全连接层并不能很好地保留图像空间特征，因此，本实施例将网络全连接层的前一个卷积层作为预设层。

步骤S500：以表征匹配误差为正则项构建目标函数，实施防御训练。

步骤S510：以表征匹配误差为正则项构建目标函数。

进一步地，根据下式构建目标函数：

其中，表示训练集(x，y)服从分布/>L是深度神经网络分类模型的损失函数，λ₁和λ₂分别是所述表征匹配误差项L_fm和深度神经网络分类模型参数的l₂正则项L_norm的权重。L_norm可有效避免深度神经网络发生过拟合现象，公式化表示为：/>其中，n表示样本数量。

在具体实施过程中，L是交叉熵函数，λ₁＝10，λ₂＝0.02。

步骤S520：实施防御训练。

进一步地，实施防御训练，包括：将所述原始样本与所述对抗样本一起作为所述深度神经网络分类模型的防御训练数据集；根据防御训练数据集，通过最小化所述目标函数对所述深度神经网络分类模型进行训练。

在实际实施过程中，原始样本数量与对抗样本数量的比例为1:1。

步骤S600：对待测样本进行预处理。

作为一种实施例，可采用如下归一化方式：

步骤S700：将所述预处理后的待测样本输入至防御训练后的深度神经网络分类模型中，输出分类结果。

实施例2：

请参照图3，图3是本发明第二实施例提供的一种对抗样本攻击的防御装置300的结构框图。所述防御装置存储于如图4所述的电子设备100，下面将对图3所示的结构框图进行阐述，所示装置包括：

第一处理单元410，用于获取原始样本并进行预处理；

对抗样本生成单元420，用于根据深度神经网络分类模型和预处理后的样本生成对抗样本；

获取单元430，用于输入原始样本和对抗样本，分别获取原始样本和对抗样本基于所述深度神经网络分类模型的表征；

匹配单元440，用于对原始样本和对抗样本的表征进行匹配；

防御训练单元450，用于构建以表征匹配误差为正则项的目标函数，实施防御训练；

第二处理单元460，用于对待测样本进行预处理；

分类单元470，用于对所述预处理后的待测样本进行分类，并输出分类结果。

本实施例对防御装置300的各功能单元实现各自功能的过程，请参见上述图1所示实施例中描述的内容，此处不再赘述。

综上所述，本发明各实施例提出的对抗样本攻击的防御方法和装置，通过匹配原始样本和对抗样本在深度神经网络分类模型的预设层的表征，实施以表征匹配为正则化手段的对抗训练，有效提高深度神经网络分类模型对鲁棒特征的学习能力，从而在正常环境和对抗环境中均能准确对样本进行识别，有效抵御对抗样本攻击。

图4是本发明实施例提供一种电子设备的结构示意图，所述电子设备100可以是个人计算机，服务器，移动终端，或者网络设备等。上述的推荐方法应用于如图4所示的电子设备100。

如图4所示，电子设备100以通用计算设备的形式表现。所述电子设备100可以包括但不限于：防御装置300、输入输出单元110、处理器120、存储器130、通信接口140、显示单元150，各个元件之间通过总线160直接或间接地电性连接并完成通信。图4显示的电子设备100仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

所述防御装置300可以以软件形式存储在所述存储器130中，也可以固化在客户端设备的操作***的软件功能模块中。

所述存储器130可以是，但不限于，U盘，移动硬盘，CD-ROM等。其中，存储器130可用于存储计算机指令，所述计算机指令可以被所述处理器120执行，使得处理器120执行该计算机指令时，本发明实施例的任一步骤可以被实现。例如，所述处理器120可以执行如图1所示的步骤S100：获取原始样本并进行预处理；S200：根据深度神经网络分类模型和预处理后的样本生成对抗样本；S300：输入原始样本和对抗样本，分别获得原始样本和对抗样本基于所述深度神经网络分类模型的表征；S400：对原始样本和对抗样本的表征进行匹配；S500：以表征匹配误差为正则项构建目标函数，实施防御训练；S600：对待测样本进行预处理；S700：将所述预处理后的待测样本输入至防御训练后的深度神经网络分类模型中，输出分类结果。

所述处理器120可以是通用型中央处理器(CPU)，单片机(MCU)，数字信号处理器(DSP)，也可以是特定应用集成电路ASIC、现场可编程逻辑门阵列(FPGA)。所述处理器120用于执行所述存储器130中存储的可执行模块，如：所述推荐装置包括的计算机指令或软件功能模块。所述处理器120可以实现或者执行本发明实施例中的各方法、各步骤及逻辑框图。

所述输入输出单元110，可以是，但不限于，鼠标和键盘等。用于提供用户输入数据，实现用户与所述电子设备100的交互。

所述通信接口140将所述输入输出单元110以及所述显示单元150耦合至所述存储器130以及所述处理器120。

在其他可能的实施方式中，通信接口140还可能实现所述电子设备与其他设备之间的通信连接。

所述显示单元150可以是液晶显示器，用于向用户显示数据。

在其他可能的实施方式中，所述显示单元150还可能是触控显示器，提供给用户与电子设备100进行交互。

所述总线160可以为表示总线结构中的一种或多种，包括存储器总线或存储器控制线、***总线、图像加速端口、处理器或使用多种总线结构中任意总线结构的局域总线。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对抗样本攻击的防御方法，其特征在于，包括：

获取原始样本并进行预处理；

对原始样本和对抗样本的表征进行匹配；

以表征匹配误差为正则项构建目标函数，实施防御训练；

对待测样本进行预处理；

将所述预处理后的待测样本输入至防御训练后的深度神经网络分类模型中，输出分类结果；

其中，对原始样本和对抗样本的表征进行匹配，包括：

匹配可形式化表示为：

，

其中，表示表征匹配误差项，j表示预设层，/>和/>分别表示原始样本和对抗样本在深度神经网络分类模型的预设层j的表征，/>是范数取值；

其中，以表征匹配误差为正则项构建目标函数，包括：

根据下式构建目标函数：

，

其中，表示训练集/>服从分布/>，/>是深度神经网络分类模型的损失函数，和/>分别是表征匹配误差项L _fm和深度神经网络分类模型参数的/>正则项L _norm的权重；L _norm能有效避免深度神经网络分类模型发生过拟合现象，其公式化表示为：/>，其中，n表示样本数量。

2.如权利要求1所述的方法，其特征在于，获取原始样本并进行预处理，包括：

利用随机信号对原始样本进行翻转；

对翻转后的样本进行缩放；

对缩放后的样本进行裁剪；

对裁剪后的样本进行归一化。

3.如权利要求1所述的方法，其特征在于，根据深度神经网络分类模型和预处理后的样本生成对抗样本，包括：

通过下式，生成对抗样本：

,

其中，表示对抗样本，下标t+1和t分别表示第t+1次和第t次迭代，α表示步长，/>是符号函数，x表示原始样本，S表示有效的对抗扰动幅值，/>表示将像素值投影至有效取值范围的投影算子，/>是交叉熵损失函数，/>表示深度神经网络分类模型的交叉熵损失函数/>对/>的每个像素点求负梯度，/>表示样本真正类别，/>表示深度神经网络分类模型的参数。

4.如权利要求3所述的方法，其特征在于，所述对抗样本的初始值如下：

,

其中，表示像素值的最大扰动幅值，/>表示和原始样本x尺寸相同的、取值范围在(-1,1)内的随机向量。

5.如权利要求1所述的方法，其特征在于，所述表征包括原始样本和对抗样本在所述深度神经网络分类模型的预设层的激活特征图。

6.如权利要求1所述的方法，其特征在于，实施防御训练，包括：

7.如权利要求1所述的方法，其特征在于，对待测样本进行预处理，包括：

对待测样本进行归一化。

8.一种对抗样本攻击的防御装置，其特征在于，包括：

第一处理单元，用于获取原始样本并进行预处理；

匹配单元，用于对原始样本和对抗样本的表征进行匹配；

第二处理单元，用于对待测样本进行预处理；

分类单元，用于对所述预处理后的待测样本进行分类，并输出分类结果；

其中，对原始样本和对抗样本的表征进行匹配，包括：

匹配可形式化表示为：

，

其中，以表征匹配误差为正则项构建目标函数，包括：

根据下式构建目标函数：

，

其中，表示训练集/>服从分布/>，/>是深度神经网络分类模型的损失函数，/>和/>分别是表征匹配误差项L _fm和深度神经网络分类模型参数的/>正则项L _norm的权重；L _norm能有效避免深度神经网络分类模型发生过拟合现象，其公式化表示为：，其中，n表示样本数量。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。