CN110276377B

CN110276377B - 一种基于贝叶斯优化的对抗样本生成方法

Info

Publication number: CN110276377B
Application number: CN201910414533.7A
Authority: CN
Inventors: 刘林兴; 冯建文
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2021-04-06
Anticipated expiration: 2039-05-17
Also published as: CN110276377A

Abstract

本发明公布了一种基于贝叶斯优化的对抗样本生成方法，现有的黑盒攻击方法需要通过大量地向模型进行查询来获取优化信息。本发明以原始图片作为输入，通过计算扰动图片与原始图片的结构相似度的梯度来确定待优化的位置；然后使用贝叶斯优化在选定的位置中进行采样优化，得到该位置上能使损失函数增加的扰动值；通过迭代的方式选择多个位置，并优化得到扰动值，直到改变被扰动图像的分类结果，或者达到最大迭代次数则停止。本发明能够有效降低查询向目标DNN模型查询的次数，且扰动像素点的数量较少。

Description

一种基于贝叶斯优化的对抗样本生成方法

技术领域

本发明属于计算机数字图像处理领域，具体涉及一种对抗样本生成方法。

背景技术

深度学习在解决过去难以解决的复杂问题方面取得了重大突破，例如，在重建脑回路、分析DNA中的突变、预测潜在药物分子的活性结构、分析粒子加速器数据等问题上都有应用。深度神经网络(Deep Neural Network,DNN)也成为解决语音识别和自然语言理解中等许多具有挑战性的任务的首选方法。

虽然DNN以惊人的精度执行各种计算机视觉任务，但DNN却极易受到对抗攻击的影响，这种攻击的形式是在图像中添加对人类视觉***来说几乎不可察觉的微小图像扰动。这种攻击可以使DNN分类器完全改变其关于图像的预测，受到攻击的模型对错误的预测高度信任。而且，相同的图像扰动可以欺骗多个神经网络分类器。这种可以改变 DNN分类器预测结果的被扰动图片被称为对抗样本。

目前生成对抗样本的方法大致可以分为两类：白盒攻击与黑盒攻击。白盒攻击假设已有目标模型的所有知识，包括它的参数值、架构、训练方法等，甚至目标模型的训练数据都是可知的，利用这些知识生成对抗样本来欺骗目标模型。例如，FGSM计算目标模型的梯度信息，在每个像素值上添加一个相同大小的小扰动构建对抗样本，JSMA计算模型的前向导数，扰动有限数量像素点的构建对抗样本。白盒攻击的优势在于计算速度比较快，但是需要用到目标网络的梯度信息。黑盒攻击方法无需利用网络的梯度及参数知识，通过向目标模型输入对抗样本查询其输出的预测标签，利用这些信息生成对抗样本来欺骗目标模型。例如，One Pixel Attack方法使用差分进化的概念，观测目标模型的预测概率标签生成对抗样本，仅仅改变一个像素点就能误导目标网络，Boundary Attacks方法则仅仅利用网络的分类输出结果即可生成对抗样本。然而，由于缺乏梯度信息，带来了高额的评估代价，比如One Pixel Attacks方法需要3万次评估，而Boundary Attacks方法则需要百万次评估。

发明内容

本发明的主要目的是针对现有的黑盒攻击方法带来大量查询开销的问题，提出一种基于贝叶斯优化生成对抗样本的黑盒攻击方法。本方法使用贝叶斯优化在解空间中进行搜索，迭代地在解空间中找到一个特定的扰动，该扰动添加到原图片之后，可以改变分类器对被扰动图像的分类结果。

本发明所使用的黑盒攻击方法包括如下步骤：

步骤一、获取原始图像x的真实类别y_c及其概率M_c

以原始图像x作为以θ为参数的目标DNN分类器的输入，获得原始图像的概率输出向量M(x；θ)；取概率输出向量中最大值对应的类别作为原始图像的类别预测y_c，概率输出向量中最大值为M_c；

步骤二、确定待优化的目标函数

使用迭代的方法生成对抗样本，为了降低计算的复杂度，在每个迭代中仅扰动图像向量的某一维度；设扰动值为z，并将扰动值z赋值到Δx的对应维度；扰动值满足||z||＜ε，以确保图像质量，ε为设定的阈值；将x+Δx输入到参数为θ的深层神经网络DNN分类器中，得到预测输出向量M(x+Δx；θ)；令M(x+Δx；θ)中除y_c类别外的最大概率值为M_t，其对应的类别为y_t，目标函数定义为B(z)＝log(M_c)- log(M_t)；优化的目标是B(z)≤0，从而改变目标DNN分类器对被扰动图像的分类结果；Δx是与x具有相同维度的全0扰动向量；

步骤三、确定此次迭代中需要优化的坐标与通道

在第T次迭代中，计算当前扰动图像x′＝x+Δx与随机图像x_G的结构相似度的梯度

选择其中最小梯度值对应的维度s 作为需要的优化维度；x_G是与x具有相同维度的从高斯分布中采样得到的随机向量；

步骤四、对特定维度中使用贝叶斯优化

1)使用高斯过程代理待优化的目标函数，使用EI策略作为采集函数；设定最大测试点次数为I，以及当前测试点数量i＝0；首先随机选择几个扰动值进行测试，生成初始观测数据集D_1:t，包含t个已观测数据点；

2)根据已观测到的数据集D_1:t得到的后验分布构造一个EI采集函数α_t(z；D_1:t)：

其中，v^*表示当前最优函数值，φ(·)为标准正态分布概率密度函数，μ_t(z)与σ_t(z)分别表示D_1:t中数据点的均值与方差；

3)通过最大化采集函数选择下一个评估点

将z_t+1赋值到Δx的对应维度s，并评估此时的目标函数值B(z_t+1)，在z_t+1处评估后将评估值加入观测数据集D； i+＝1，若i≤I，转(2)；

4)输出已观测数据集中的最小函数值B(z)及其对应的扰动值z；

步骤五：将步骤四得到的最佳扰动值z赋值到扰动向量Δx；若 B(z)≤ 0，则认为攻击成功，将被扰动图片x+Δx作为对抗样本输出，若B(z)＞ 0，则认为在此次迭代中攻击不成功，跳转到步骤三，在当前扰动向量Δx的基础上继续下一次迭代。

本发明的有益效果：

本发明通过计算结构相似度的梯度，选择对最小梯度对应坐标的像素点添加扰动，以降低添加的扰动对图像质量的影响。同时采用贝叶斯优化方法计算扰动，可以用比较少的查询次数获取最佳扰动值。

附图说明

图1为原始图像；

图2为高斯随机图像；

图3为对抗扰动图像；

图4为对抗样本图像。

具体实施方式

本发明以一张原始图像作为输入，计算原始图像与随机高斯图像的结构相似度并求其梯度，选择最小梯度值对应的维度。逐个维度地使用贝叶斯优化得到最佳扰动值。将多次迭代得到的扰动叠加在一起，直到改变DNN分类器的类别预测结果。

以下举例说明本发明整个过程的具体实施方式如下(各步骤效果图参见图2)：

步骤一、获取原始图像x的真实类别y_c及其概率M_c

x是原始图像向量(如图1所示)，Δx是与x具有相同维度的全0 扰动向量，x_G是与x具有相同维度的从高斯分布中采样得到的随机向量(如图2所示)。以原始图像x作为目标DNN分类器的输入，获得原始图像的概率输出向量M(x；θ)；取概率输出向量中最大值对应的类别作为原始图像的类别预测y_c，概率输出向量中最大值为M_c。

步骤二、确定待优化的目标函数

由于图像向量x具有较高的维度，并且生成对抗样本并不需要对所有的维度添加扰动，故而在本方法中每次仅扰动一个维度，其他维度不改变，以生成试验扰动Δx。将x+Δx输入到DNN分类器中，得到预测输出向量M(x+Δx；θ)。令M(x+Δx；θ)中除y_c类别外的最大概率值为M_t，其对应的类别为y_t，目标函数定义为B(z)＝log(M_c)- log(M_t)。优化的目标是B(z)≤0，从而改变目标DNN分类器对被扰动图像的分类结果。

步骤三：确定此次迭代中需要优化的坐标与通道

在第T次迭代中，计算当前扰动图像x′＝x+Δx与随机图像x_G的结构相似度SSIM(x′，x_G)：

这里μ_x′、

表示x′和x_G的均值，

表示x′和x_G的方差，

表示x′和x_G的协方差，∈₁与∈₂是一个小标量，以确保分母不为零。然后求结构相似度关于x′的梯度，得到一个与原始图像相同维度的梯度向量

选择其中最小梯度值对应的坐标s及通道c作为下一步的优化坐标：

步骤四：对特定像素使用贝叶斯优化

1)使用高斯过程代理待优化的目标函数，使用EI策略作为采集函数。设定最大测试点次数I，以及当前测试点数量i＝0；首先随机选择几个扰动值进行测试，生成初始观测数据集D_1:t，包含t个已观测数据点。

其中，v^*表示当前最优函数值，φ(·)为标准正态分布概率密度函数，μ_t(z)与σ_t(z)分别表示D_1:t中数据点的均值与方差。

3)通过对其最大化采集函数选择下一个评估点

将z_t+1赋值到Δx的对应维度s，并评估此时的目标函数值B(z_t+1)，在z_t+1处评估后将评估值加入观测数据集D。i+＝1，若i≤I，转(2)。

4)输出已观测数据集中的最小函数值B(z)及其对应的扰动值z。

步骤五：将步骤四得到的最佳扰动值z赋值到扰动向量Δx(最终扰动图像如图3所示，共扰动36个像素点，891次评估次数)。若 B(z)≤0，则认为攻击成功，将被扰动图片x+Δx作为对抗样本输出 (最终对抗样本图像如图4所示)，若B(z)＞0，则认为在此次迭代中攻击不成功，跳转到步骤三，在当前扰动向量Δx的基础上继续下一次迭代。

实验结果：从CIFAR10中随机选用100张图片作为实验数据，在实验结果中，平均扰动像素数量为95.22，中位数为78.5，平均评估次数为2364.85次，中位数为1944.5次。评估次数明显少于One Pixel Attacks方法与Boundary Attacks方法。

Claims

1.一种基于贝叶斯优化的对抗样本生成方法，其特征在于，该方法包括如下步骤：

步骤一、获取原始图像x的真实类别y_c及其概率M_c

步骤二、确定待优化的目标函数

使用迭代的方法生成对抗样本，为了降低计算的复杂度，在每个迭代中仅扰动图像向量的某一维度；设扰动值为z，并将扰动值z赋值到Δx的对应维度；扰动值满足||z||＜ε，以确保图像质量，ε为设定的阈值；将x+Δx输入到参数为θ的深层神经网络DNN分类器中，得到预测输出向量M(x+Δx；θ)；令M(x+Δx；θ)中除y_c类别外的最大概率值为M_t，其对应的类别为y_t，目标函数定义为B(z)＝log(M_c)-log(M_t)；优化的目标是B(z)≤0，从而改变目标DNN分类器对被扰动图像的分类结果；Δx是与x具有相同维度的全0扰动向量；

步骤三、确定此次迭代中需要优化的坐标与通道

选择其中最小梯度值对应的维度s作为需要的优化维度；x_G是与x具有相同维度的从高斯分布中采样得到的随机向量；

步骤四、对特定维度中使用贝叶斯优化

1)使用高斯过程代理待优化的目标函数，使用EI策略作为采集函数；设定最大测试点次数为I，以及当前测试点数量i＝0；首先随机选择几个扰动值进行测试，生成初始观测数据集D_1：t，包含t个已观测数据点；

2)根据已观测到的数据集D_1：t得到的后验分布构造一个EI采集函数α_t(z；D_1：t)：

其中，v^*表示当前最优函数值，φ(·)为标准正态分布概率密度函数，μ_t(z)与σ_t(z)分别表示D_1：t中数据点的均值与方差；

3)通过最大化采集函数选择下一个评估点

将z_t+1赋值到Δx的对应维度s，并评估此时的目标函数值B(z_t+1)，在z_t+1处评估后将评估值加入观测数据集D；i+＝1，若i≤I，转(2)；

4)输出已观测数据集中的最小函数值B(z)及其对应的扰动值z；

步骤五：将步骤四得到的最佳扰动值z赋值到扰动向量Δx；若B(z)≤0，则认为攻击成功，将被扰动图片x+Δx作为对抗样本输出，若B(z)＞0，则认为在此次迭代中攻击不成功，跳转到步骤三，在当前扰动向量Δx的基础上继续下一次迭代。