CN112085055B - 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法 - Google Patents

一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法 Download PDF

Info

Publication number
CN112085055B
CN112085055B CN202010775599.1A CN202010775599A CN112085055B CN 112085055 B CN112085055 B CN 112085055B CN 202010775599 A CN202010775599 A CN 202010775599A CN 112085055 B CN112085055 B CN 112085055B
Authority
CN
China
Prior art keywords
black box
sample
disturbance
model
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010775599.1A
Other languages
English (en)
Other versions
CN112085055A (zh
Inventor
崔鹏
周琳钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010775599.1A priority Critical patent/CN112085055B/zh
Publication of CN112085055A publication Critical patent/CN112085055A/zh
Application granted granted Critical
Publication of CN112085055B publication Critical patent/CN112085055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法,属于机器学习***安全和黑盒攻击技术领域。该方法首先确定待攻击的黑盒模型和迁移预训练模型,获取待攻击的原始样本及其标签后,通过对原始样本不断施加扰动,利用经过迁移预训练模型计算的雅可比矩阵的奇异值分解结果,通过迭代计算不断更新扰动,最终使得施加扰动后的样本通过黑盒模型分类不再对应正确标签。本发明具有仅需要一个可迁移的预训练网络而无需任何训练样本的特点,可以大幅提升传统黑盒模型的攻击效率。

Description

一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
技术领域
本发明属于机器学习***安全和黑盒攻击的技术领域,特别提出一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法。
背景技术
随着深度学***均问询黑盒模型的次数,对抗样本相对原待攻击样本的平均扰动距离及总体的攻击成功率。
黑盒攻击在实际场景中有着丰富的应用,比如在计算机视觉中,黑盒攻击可以针对一张特定的图像进行微小的扰动,使得一个原本可以将原始图像正确分类的神经网络对扰动后的图像做出错误的分类判断,而往往人类的视觉***察觉不出扰动前后图像的区别。针对图像的黑盒攻击的探索会促进机器学习界对于鲁棒学习的更深层次的探索,以期能够预防深度学习***在现实计算机视觉应用中出现的误判,如智能驾驶***,人脸识别***等。
传统的黑盒攻击技术包括基于白盒网络迁移的黑盒攻击和基于零阶梯度优化的黑盒攻击。前一种方案中,一般通过一些训练样本训练一个白盒网络,然后利用已知的白盒网络参数来指导黑盒攻击的每步迭代,其特点是需要大量的预训练样本,且预训练样本最好与黑盒网络的分类任务较为贴近;后一种方案中,通常利用零阶梯度优化的思想,通过采样的方式估算黑盒网络在某个输入点的梯度,从而梯度下降迭代寻找对抗样本,其特点是无需预训练样本,但是攻击效率较低。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法。本发明具有仅需要一个可迁移的预训练网络而无需任何训练样本的特点,可以大幅提升传统黑盒模型的攻击效率。
本发明提出一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法,其特征在于,包括以下步骤:
1)确定待攻击的黑盒模型F,;
确定迁移预训练模型
Figure BDA0002618246210000021
其中该迁移预训练模型的输入层到表征层为函数h,表征层到输出层为函数g;
选取待攻击的一个输入样本和其对应的标签记为(x,y),其中x代表该待攻击的输入样本,y为x对应的标签;将该待攻击的输入样本作为原始样本;设定扰动步长α和每轮选取特征向量数目K;
2)将原始样本x输入黑盒模型F,计算该原始样本通过黑盒模型F的对应输出概率向量p=p(·|x);
令δ=0,δ表示对原始样本施加的扰动,生成样本x+δ;
3)将样本x+δ输入迁移预训练模型,计算该样本对应的函数h的雅可比矩阵J=Jh(x+δ);
4)对步骤3)获得的雅可比矩阵J进行奇异值分解,得到对应的前K个归一化的右特征值向量V1,...,VK,令i=1;
5)对i的值进行判定:若i≤K,则进入步骤6);否则重新返回步骤3);
6)迭代计算扰动δ,最终使得样本x+δ通过黑盒模型分类不再对应正确标签y,具体步骤如下:
6-1)令x+δ沿向量Vi的负向方向移动长度为单次扰动步长α的距离,计算黑盒模型F的对应负向输出概率向量pneg=p(·|x+δ-αVi);
6-2)判断是否满足pneg,y<py,其中,py表示向量p中标签y对应的输出概率,pneg,y:表示向量pneg中标签y对应的输出概率;若满足,则负向扰动有效,进入步骤6-3),否则进入步骤6-4);
6-3)更新概率向量p=pneg,令i=i+1,更新扰动为δ=δ-αVi,进入步骤6-8);
6-4)沿向量Vi正向方向移动长度为单次扰动步长α的距离,并计算黑盒模型的对应正向输出概率向量ppos=p(·|x+δ+αVi);
6-5)判断是否满足ppos,y<py,其中,ppos,y表示向量pneg中标签y对应的输出概率;若满足,则正向扰动有效,进入步骤6-6);否则,进入步骤6-7);
6-6)更新概率向量p=ppos,令i=i+1,更新扰动为δ=δ+αVi,进入步骤6-8);
6-7)令i=i+1,保持概率向量p和扰动δ不变,进入步骤6-8);
6-8)判定y≠argmaxy′py′是否成立:若成立,则概率向量p中的最大概率分量对应的标签不是y,黑盒攻击成功,转入步骤7);若不成立,则黑盒攻击不成功,重新返回步骤5);
7)返回扰动δ作为使得黑盒模型F对原始样本x做出错误分类判断的有效扰动,此时的样本x+δ即为黑盒模型F的一个对抗样本,方法结束。
本发明的特点及有益效果:
本发明提出了一种新型的黑盒攻击方法。利用本发明,攻击者只需要一个预训练的模型网络结构和网络参数,达到了更高的攻击效率和更小的攻击成本。且本发明不需要任何预训练样本对该网络进一步调整,节省了采集训练样本和训练的时间和成本。通过这一预训练模型来指导更有效率的黑盒攻击。我们在实验中表明,通过预训练模型的信息可以达到比基于零阶梯度优化的黑盒攻击更优的攻击效率,并且由于无需采集任何预训练样本,在实际应用中比需要训练的基于白盒网络迁移的黑盒攻击技术更为简便。
本发明的一大应用场景是计算机视觉中针对图片进行攻击,具体做法是对目标图片添加一个合成的微小扰动,使得神经网络对扰动后的图片分类错误,而由于扰动足够微小,人类的视觉***几乎无法分辨扰动前后图片的变化。
用户使用本方法的条件是:在一个黑盒模型攻击的场景中,用户可以利用的信息是一个预训练的白盒模型,该白盒模型和黑盒模型的任务关系十分紧密。另外,采集与此任务相关的训练数据是较为困难的事情。举例来说,攻击一个使用卷积神经网络架构的黑盒图像分类***。图像的预训练模型可以轻松获取,已经有很多在ImageNet上训练成型的预训练模型,而如果对此预训练模型微调或者进行结构修改,不仅需要采集大量的图片样本,而且训练过程十分耗时,这对于需要快速实现对黑盒图像分类***攻击的应用场景是十分不利的。而我们的方法恰好能够适配这一场景。
附图说明
图1是本发明方法的整体流程图。
具体实施方式
本发明提出的一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法结合附图及一个实施例详细说明如下:
本发明提出一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法,适用于任何通用的黑盒攻击模型。本实施例使用ResNet-50对ImageNet图像样本进行黑盒攻击,使用预训练好的ResNet-18作为迁移预训练模型(其中,迁移预训练模型与黑盒模型属于同一类别模型;例如,如果待攻击的黑盒模型是一个图像分类模型,则迁移预训练模型也是一个图像分类模型;且当这两个模型的任务相关性越强时,本发明方法的表现越好),此实施例仅用于说明本发明的使用方法,并不对本发明的权利要求构成约束。
本发明提出一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法,整体流程如图1所示,包括以下步骤:
1)确定待攻击的黑盒模型F,本实施例指黑盒的ResNet-50,由于其黑盒的特点,该黑盒模型架构和参数为未知;
确定
Figure BDA0002618246210000041
本实施例指白盒的ResNet-18,其中该迁移预训练模型的输入层到表征层为函数h(本实施例为ResNet-18经过连续的卷积层和平均池化后的512维表征层),表征层到输出层为函数g;
选取待攻击的一个输入样本和其对应的标签记为(x,y),其中x代表该待攻击的输入样本,y为x对应的标签;将该待攻击的输入样本作为原始样本,本实施例中选取了一张ImageNet验证集中的图像样本作为待攻击的输入样本并获取其对应的标签;设定扰动步长a和每轮选取特征向量数目K(K的取值与x维度有关,x维度越高,则K的取值越大,本实施例中K取100)。
2)将原始样本x输入黑盒模型F,计算该原始样本通过黑盒模型F的对应输出概率向量p=p(·|x);
令δ=0,δ表示对原始样本施加的扰动,此扰动会随着算法迭代不断更新,生成样本x+δ。
3)将样本x+δ输入迁移预训练模型,计算该样本对应的函数h的雅可比矩阵J=Jh(x+δ)。
4)对步骤3)获得的雅可比矩阵J进行奇异值分解,得到对应的前K个归一化的右特征值向量V1,...,VK,令i=1;
5)对i的值进行判定:若i≤K,则进入步骤6);否则重新返回到步骤3),此时本轮的扰动δ更新迭代已经全部结束,需要在更新后的样本x+δ处重新计算雅可比矩阵并进入下一轮的扰动更新迭代;
6)迭代计算扰动δ,最终使得样本x+δ通过黑盒模型分类不再对应正确标签y,具体步骤如下:
6-1)令x+δ沿向量Vi的负向方向移动长度为单次扰动步长α的距离,计算黑盒模型F的对应负向输出概率向量pneg=p(·|x+δ-αVi);
6-2)判断是否满足pneg,y<py,其中,py表示向量p中标签y对应的输出概率,pneg,y:表示向量pneg中标签y对应的输出概率;若满足,则此时负向扰动可以降低黑盒模型对扰动样本的真实标签的判断概率,说明负向扰动有效,进入步骤6-3),否则进入步骤6-4);
6-3)更新概率向量p=pneg,令i=i+1,更新扰动为δ=δ-αVi,进入步骤6-8);
6-4)沿向量Vi正向方向移动长度为单次扰动步长α的距离,并计算黑盒模型的对应正向输出概率向量ppos=p(·|x+δ+αVi);
6-5)判断是否满足ppos,y<py,其中,ppos,y表示向量pneg中标签y对应的输出概率;若满足,则说明此时正向扰动可以降低黑盒模型对扰动样本的真实标签的判断概率,正向扰动有效,进入步骤6-6);否则,进入步骤6-7);
6-6)更新概率向量p=ppos,令i=i+1,更新扰动为δ=δ+αVi,进入步骤6-8);
6-7)此时正向扰动和负向扰动均不能降低黑盒模型对扰动样本的真实标签的判断概率,因此只让i=i+1,保持概率向量p和扰动δ不变,进入步骤6-8);
6-8)判定y≠argmaxy′py′是否成立,其中等式右侧表示概率向量p中的最大概率分量所对应的标签,本式的作用是判定此时的概率向量p中的最大概率分量对应的标签是否已经不再是原始样本x原本的标签y:若成立,则黑盒攻击成功,转入步骤7);若不成立,则黑盒攻击不成功,重新返回步骤5);
7)此时针对原始样本施加的扰动已经可以使黑盒模型F做出错误分类判断,返回扰动δ作为使得黑盒模型F对原始样本x做出错误分类判断的有效扰动,此时的样本x+δ即为黑盒模型F的一个对抗样本(在本实施例中,该对抗样本是使得黑盒的ResNet-50做出错误分类的一张图片),方法结束。

Claims (1)

1.一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法,其特征在于,包括以下步骤:
1)确定待攻击的黑盒模型F,;
确定迁移预训练模型
Figure FDA0002618246200000011
其中该迁移预训练模型的输入层到表征层为函数h,表征层到输出层为函数g;
选取待攻击的一个输入样本和其对应的标签记为(x,y),其中x代表该待攻击的输入样本,y为x对应的标签;将该待攻击的输入样本作为原始样本;设定扰动步长α和每轮选取特征向量数目K;
2)将原始样本x输入黑盒模型F,计算该原始样本通过黑盒模型F的对应输出概率向量p=p(·|x);
令δ=0,δ表示对原始样本施加的扰动,生成样本x+δ;
3)将样本x+δ输入迁移预训练模型,计算该样本对应的函数h的雅可比矩阵J=Jh(x+δ);
4)对步骤3)获得的雅可比矩阵J进行奇异值分解,得到对应的前K个归一化的右特征值向量V1,...,VK,令i=1;
5)对i的值进行判定:若i≤K,则进入步骤6);否则重新返回步骤3);
6)迭代计算扰动δ,最终使得样本x+δ通过黑盒模型分类不再对应正确标签y,具体步骤如下:
6-1)令x+δ沿向量Vi的负向方向移动长度为单次扰动步长α的距离,计算黑盒模型F的对应负向输出概率向量pneg=p(·|x+δ-αVi);
6-2)判断是否满足pneg,y<py,其中,py表示向量p中标签y对应的输出概率,pneg,y:表示向量pneg中标签y对应的输出概率;若满足,则负向扰动有效,进入步骤6-3),否则进入步骤6-4);
6-3)更新概率向量p=pneg,令i=i+1,更新扰动为δ=δ-αVi,进入步骤6-8);
6-4)沿向量Vi正向方向移动长度为单次扰动步长α的距离,并计算黑盒模型的对应正向输出概率向量ppos=p(·|x+δ+αVi);
6-5)判断是否满足ppos,y<py,其中,ppos,y表示向量pneg中标签y对应的输出概率;若满足,则正向扰动有效,进入步骤6-6);否则,进入步骤6-7);
6-6)更新概率向量p=ppos,令i=i+1,更新扰动为δ=δ+αVi,进入步骤6-8);
6-7)令i=i+1,保持概率向量p和扰动δ不变,进入步骤6-8);
6-8)判定y≠argmaxy′py′是否成立:若成立,则概率向量p中的最大概率分量对应的标签不是y,黑盒攻击成功,转入步骤7);若不成立,则黑盒攻击不成功,重新返回步骤5);
7)返回扰动δ作为使得黑盒模型F对原始样本x做出错误分类判断的有效扰动,此时的样本x+δ即为黑盒模型F的一个对抗样本,方法结束。
CN202010775599.1A 2020-08-05 2020-08-05 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法 Active CN112085055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010775599.1A CN112085055B (zh) 2020-08-05 2020-08-05 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010775599.1A CN112085055B (zh) 2020-08-05 2020-08-05 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法

Publications (2)

Publication Number Publication Date
CN112085055A CN112085055A (zh) 2020-12-15
CN112085055B true CN112085055B (zh) 2022-12-13

Family

ID=73735579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010775599.1A Active CN112085055B (zh) 2020-08-05 2020-08-05 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法

Country Status (1)

Country Link
CN (1) CN112085055B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380255B (zh) * 2021-05-19 2022-12-20 浙江工业大学 一种基于迁移训练的声纹识别中毒样本生成方法
CN113469330B (zh) * 2021-06-25 2022-12-02 中国人民解放军陆军工程大学 双极网络腐蚀增强对抗样本迁移性的方法
CN113298238B (zh) * 2021-06-28 2023-06-20 上海观安信息技术股份有限公司 使用定向攻击探索黑盒神经网络的方法、装置、处理设备、存储介质
CN114693732B (zh) * 2022-03-07 2022-11-25 四川大学华西医院 一种弱小目标检测与跟踪方法
CN115115905B (zh) * 2022-06-13 2023-06-27 苏州大学 基于生成模型的高可迁移性图像对抗样本生成方法
CN116523032B (zh) * 2023-03-13 2023-09-29 之江实验室 一种图像文本双端迁移攻击方法、装置和介质
CN116504069B (zh) * 2023-06-26 2023-09-05 中国市政工程西南设计研究总院有限公司 城市道路网络容量优化方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837637A (zh) * 2019-10-16 2020-02-25 华中科技大学 一种脑机接口***黑盒攻击方法
CN111027060A (zh) * 2019-12-17 2020-04-17 电子科技大学 基于知识蒸馏的神经网络黑盒攻击型防御方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837637A (zh) * 2019-10-16 2020-02-25 华中科技大学 一种脑机接口***黑盒攻击方法
CN111027060A (zh) * 2019-12-17 2020-04-17 电子科技大学 基于知识蒸馏的神经网络黑盒攻击型防御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向低维工控网数据集的对抗样本攻击分析;周文等;《计算机研究与发展》;20200413(第04期);全文 *

Also Published As

Publication number Publication date
CN112085055A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN112085055B (zh) 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
CN111583263B (zh) 一种基于联合动态图卷积的点云分割方法
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN111814584B (zh) 基于多中心度量损失的多视角环境下车辆重识别方法
CN108647583B (zh) 一种基于多目标学习的人脸识别算法训练方法
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
CN111709435B (zh) 一种基于离散小波变换的对抗样本生成方法
CN113076994B (zh) 一种开集域自适应图像分类方法及***
CN114492574A (zh) 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法
CN107945210B (zh) 基于深度学习和环境自适应的目标跟踪方法
CN112396129A (zh) 一种对抗样本检测方法及通用对抗攻击防御***
CN107862680B (zh) 一种基于相关滤波器的目标跟踪优化方法
CN113158955B (zh) 基于聚类引导和成对度量三元组损失的行人重识别方法
CN113807214B (zh) 基于deit附属网络知识蒸馏的小目标人脸识别方法
CN110968734A (zh) 一种基于深度度量学习的行人重识别方法及装置
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN113920472A (zh) 一种基于注意力机制的无监督目标重识别方法及***
CN116824216A (zh) 一种无源无监督域适应图像分类方法
CN110135435B (zh) 一种基于广度学习***的显著性检测方法及装置
Zhang et al. Category modeling from just a single labeling: Use depth information to guide the learning of 2d models
CN111291705A (zh) 一种跨多目标域行人重识别方法
CN113378620B (zh) 监控视频噪声环境下跨摄像头行人重识别方法
CN114417975A (zh) 基于深度pu学习与类别先验估计的数据分类方法及***
CN114267060A (zh) 基于不确定抑制网络模型的人脸年龄识别方法及***
CN114048843A (zh) 一种基于选择性特征迁移的小样本学习网络

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant