CN112836764A - 一种面向目标分类***的通用目标攻击方法及装置 - Google Patents

一种面向目标分类***的通用目标攻击方法及装置 Download PDF

Info

Publication number
CN112836764A
CN112836764A CN202110232607.2A CN202110232607A CN112836764A CN 112836764 A CN112836764 A CN 112836764A CN 202110232607 A CN202110232607 A CN 202110232607A CN 112836764 A CN112836764 A CN 112836764A
Authority
CN
China
Prior art keywords
noise matrix
target
classification system
misleading
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110232607.2A
Other languages
English (en)
Other versions
CN112836764B (zh
Inventor
高成英
吴星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110232607.2A priority Critical patent/CN112836764B/zh
Publication of CN112836764A publication Critical patent/CN112836764A/zh
Application granted granted Critical
Publication of CN112836764B publication Critical patent/CN112836764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Optimization (AREA)
  • General Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向目标分类***的通用目标攻击方法及装置。所述方法,包括步骤:S1、对随机生成的噪音矩阵进行初始化,得到初始噪音矩阵;S2、将所述初始噪音矩阵叠加至自然图像,得到伪装图像,并通过标签误导方法和特征误导方法误导所述目标分类***,得到误导后的目标分类***,以获取所述误导后的目标分类***对所述伪装图像的分类结果;S3、对所述初始噪音矩阵进行更新得到更新噪音矩阵,并将所述初始噪音矩阵更新为所述更新噪音矩阵;S4、迭代执行步骤S2~S3直至满足预设停止条件,获取当前所述初始噪音矩阵和/或当前所述伪装图像。本发明能够实现定向攻击目标分类***,获取具有最佳攻击效果的噪音矩阵和/或伪装图像。

Description

一种面向目标分类***的通用目标攻击方法及装置
技术领域
本发明涉及图像处理技术领域,尤其涉及一种面向目标分类***的通用目标攻击方法及装置。
背景技术
近年来,深度神经网络作为目标分类***被广泛应用于图像分类、目标检测、自然语言处理等领域。由于深度神经网络容易受到输入端微小扰动的影响而发生分类错误,施加一个微小的通用扰动可能使深度神经网络在整个数据集上失效。因此,深入研究通用扰动的存在根源和生成方法,有助于将叠加有通用扰动的图像作为对抗样本构建更加健壮的深度神经网络。而通用扰动生成问题要求得到一个扰动向量对整个数据集产生指定扰动率的攻击效果。目前,基于现有算法得到的定向攻击的通用扰动范数较大,容易被人眼识别,减小范数扰动迁移性也几乎为0,通用攻击效果不佳。
发明内容
为了克服现有技术的缺陷,本发明提供一种面向目标分类***的通用目标攻击方法及装置,能够实现定向攻击目标分类***,获取具有最佳攻击效果的噪音矩阵和/或伪装图像。
为了解决上述技术问题,第一方面,本发明一实施例提供一种面向目标分类***的通用目标攻击方法,包括步骤:
S1、对随机生成的噪音矩阵进行初始化,得到初始噪音矩阵;
S2、将所述初始噪音矩阵叠加至自然图像,得到伪装图像,并通过标签误导方法和特征误导方法误导所述目标分类***,得到误导后的目标分类***,以获取所述误导后的目标分类***对所述伪装图像的分类结果;
S3、对所述初始噪音矩阵进行更新得到更新噪音矩阵,并将所述初始噪音矩阵更新为所述更新噪音矩阵;
S4、迭代执行步骤S2~S3直至满足预设停止条件,获取当前所述初始噪音矩阵和/或当前所述伪装图像。
进一步地,所述步骤S1,还包括:
获取目标类别的可视化图像。
进一步地,所述通过标签误导方法和特征误导方法误导所述目标分类***,得到误导后的目标分类***,具体为:
通过标签误导方法使所述目标分类***将所述伪装图像分类为所述目标类别的概率达到最大概率,并通过特征误导方法使所述目标分类***所提取的所述伪装图像的特征与所述可视化图像的特征的相似度达到最大相似度,得到所述误导后的目标分类***。
进一步地,所述对所述初始噪音矩阵进行更新得到更新噪音矩阵,具体为:
通过梯度下降方法更新所述初始噪音矩阵,得到中间噪音矩阵,并通过语义约束方法约束所述中间噪音矩阵的取值范围,得到所述更新噪音矩阵。
进一步地,所述迭代执行步骤S2~S3直至满足预设停止条件,获取当前所述初始噪音矩阵和/或当前所述伪装图像,具体包括:
在当前迭代执行次数等于第一预设阈值时,统计当前所有所述分类结果得到第一攻击成功率,并在当前迭代执行次数等于第二预设阈值时,统计当前所有所述分类结果得到第二攻击成功率;其中,所述第二预设阈值大于所述第一预设阈值;
比较所述第一攻击成功率和所述第二攻击成功率,在所述第二攻击成功率小于所述第一攻击成功率时判定满足所述预设停止条件,停止迭代执行步骤S2~S3,并获取当前所述初始噪音矩阵和/或当前所述伪装图像。
第二方面,本发明一实施例提供一种面向目标分类***的通用目标攻击装置,包括:
初始噪音矩阵获取模块,用于对随机生成的噪音矩阵进行初始化,得到初始噪音矩阵;
目标分类***误导模块,用于将所述初始噪音矩阵叠加至自然图像,得到伪装图像,并通过标签误导方法和特征误导方法误导所述目标分类***,得到误导后的目标分类***,以获取所述误导后的目标分类***对所述伪装图像的分类结果;
初始噪音矩阵更新模块,用于对所述初始噪音矩阵进行更新得到更新噪音矩阵,并将所述初始噪音矩阵更新为所述更新噪音矩阵;
目标攻击结果获取模块,用于驱动所述目标分类***误导模块和所述初始噪音矩阵更新模块迭代执行目标分类***误导操作和初始噪音矩阵更新操作直至满足预设停止条件,获取当前所述初始噪音矩阵和/或当前所述伪装图像。
进一步地,所述初始噪音矩阵获取模块,还用于获取目标类别的可视化图像。
进一步地,所述通过标签误导方法和特征误导方法误导所述目标分类***,得到误导后的目标分类***,具体为:
通过标签误导方法使所述目标分类***将所述伪装图像分类为所述目标类别的概率达到最大概率,并通过特征误导方法使所述目标分类***所提取的所述伪装图像的特征与所述可视化图像的特征的相似度达到最大相似度,得到所述误导后的目标分类***。
进一步地,所述对所述初始噪音矩阵进行更新得到更新噪音矩阵,具体为:
通过梯度下降方法更新所述初始噪音矩阵,得到中间噪音矩阵,并通过语义约束方法约束所述中间噪音矩阵的取值范围,得到所述更新噪音矩阵。
进一步地,所述驱动所述目标分类***误导模块和所述初始噪音矩阵更新模块迭代执行目标分类***误导操作和初始噪音矩阵更新操作直至满足预设停止条件,获取当前所述初始噪音矩阵和/或当前所述伪装图像,具体包括:
在当前迭代执行次数等于第一预设阈值时,统计当前所有所述分类结果得到第一攻击成功率,并在当前迭代执行次数等于第二预设阈值时,统计当前所有所述分类结果得到第二攻击成功率;其中,所述第二预设阈值大于所述第一预设阈值;
比较所述第一攻击成功率和所述第二攻击成功率,在所述第二攻击成功率小于所述第一攻击成功率时判定满足所述预设停止条件,停止驱动所述目标分类***误导模块和所述初始噪音矩阵更新模块迭代执行目标分类***误导操作和初始噪音矩阵更新操作,并获取当前所述初始噪音矩阵和/或当前所述伪装图像。
相比于现有技术,本发明的实施例,具有如下有益效果:
通过对随机生成的噪音矩阵进行初始化,得到初始噪音矩阵,将初始噪音矩阵叠加至自然图像,得到伪装图像,并通过标签误导方法和特征误导方法误导目标分类***,得到误导后的目标分类***,以获取误导后的目标分类***对伪装图像的分类结果,对初始噪音矩阵进行更新得到更新噪音矩阵,并将初始噪音矩阵更新为更新噪音矩阵,迭代执行目标分类***误导操作和初始噪音矩阵更新操作直至满足预设停止条件,获取当前初始噪音矩阵和/或当前伪装图像,能够实现定向攻击目标分类***,获取具有最佳攻击效果的噪音矩阵和/或伪装图像,以便后续利用具有最佳攻击效果的噪音矩阵定向攻击目标分类***,和/或利用具有最佳攻击效果的伪装图像作为对抗样本训练目标分类***,有利于提高目标分类***的鲁棒性。
附图说明
图1为本发明第一实施例中的一种面向目标分类***的通用目标攻击方法的流程示意图;
图2为本发明第一实施例中的一种面向目标分类***的通用目标攻击方法的另一流程示意图;
图3为本发明第二实施例中的一种面向目标分类***的通用目标攻击装置的结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。
如图1-2所示,第一实施例提供一种面向目标分类***的通用目标攻击方法,包括步骤S1~S4:
S1、对随机生成的噪音矩阵进行初始化,得到初始噪音矩阵;
S2、将初始噪音矩阵叠加至自然图像,得到伪装图像,并通过标签误导方法和特征误导方法误导目标分类***,得到误导后的目标分类***,以获取误导后的目标分类***对伪装图像的分类结果;
S3、对初始噪音矩阵进行更新得到更新噪音矩阵,并将初始噪音矩阵更新为更新噪音矩阵;
S4、迭代执行步骤S2~S3直至满足预设停止条件,获取当前初始噪音矩阵和/或当前伪装图像。
在优选的实施例中,步骤S1,还包括:获取目标类别的可视化图像。
在本实施例的一优选实施方式中,根据预先定义的目标类别,获取目标类别的可视化图像,并对随机生成的噪音矩阵进行初始化,得到初始噪音矩阵。
作为示例性地,根据预先定义的目标类别,通过激活最大化的神经网络可视化方法获取目标类别的可视化图像。其中,激活最大化的神经网络可视化方法是根据反向传播算法在可视化神经网络的最终层获取输入偏好,得到目标类别的可视化图像。
基于标准正态分布N(0,1)随机生成一个维度为h×w×c的噪音矩阵,对噪音矩阵进行初始化,得到初始噪音矩阵。其中,h,w,c分别为训练集图像的高、宽、通道维度。
在优选的实施例中,所述通过标签误导方法和特征误导方法误导目标分类***,得到误导后的目标分类***,具体为:通过标签误导方法使目标分类***将伪装图像分类为目标类别的概率达到最大概率,并通过特征误导方法使目标分类***所提取的伪装图像的特征与可视化图像的特征的相似度达到最大相似度,得到误导后的目标分类***。
需要说明的是,最大概率、最大相似度可以是预先设置的一取值。
作为示例性地,通过标签误导方法误导目标分类***输出的分类结果,最大化地降低目标分类***将伪装图像分类为真实类别的概率,同时最大化地提高目标分类***将伪装图像分类为目标类别的概率,并通过特征误导方法误导目标分类***中提取特征的卷积层的判断结果,使目标分类***所提取的伪装图像的特征与目标类别的可视化图像的特征尽可能地接近。
其中,标签误导的优化公式如式(1)所示:
Figure BDA0002958252170000061
在式(1)中,I为可视化图像;C为目标分类***,C(t*)为目标分类***对自然图像t*的分类结果,C((t+z)*)为目标分类网络对伪装图像It=(t+z)*的分类结果;最小化式(1)可以最大化地降低目标分类***将伪装图像分类为真实类别T*的概率,同时最大化地增加目标分类***将伪装图像分类为目标类别F*的概率。
特征误导的优化公式如式(2)所示:
Figure BDA0002958252170000062
在式(2)中,I为可视化图像;f为目标分类***的卷积层,f((t+z)*)为目标分类***对伪装图像It=(t+z)*的特征提取结果,f(I)为目标分类***对可视化图像I的特征提取结果;最小化式(2)可以使伪装图像的特征和目标类别的可视化图像的特征尽可能接近。
在优选的实施例中,所述对初始噪音矩阵进行更新得到更新噪音矩阵,具体为:通过梯度下降方法更新初始噪音矩阵,得到中间噪音矩阵,并通过语义约束方法约束中间噪音矩阵的取值范围,得到更新噪音矩阵。
作为示例性地,通过梯度下降方法,按照目标分类***最优损失函数的下降方向更新初始噪音矩阵,得到中间噪音矩阵。其中,初始噪音矩阵的更新公式如式(3)所示:
z′=z+Δz (3);
在式(3)中,z’为中间噪音矩阵,z为初始噪音矩阵,Δz为更新增量。
通过语义约束方法,将中间噪音矩阵投影至小范围无穷范数空间中,约束中间噪音矩阵的取值范围,得到更新噪音矩阵。其中,中间噪音矩阵的约束公式如式(4)所示:
Figure BDA0002958252170000071
在式(4)中,z*为更新噪音矩阵;Projection为投影函数,z’为中间噪音矩阵,
Figure BDA0002958252170000072
为攻击后识别为错误内容对应的噪音矩阵,ε为预设的一个较小固定值,用于约束中间噪音矩阵的取值范围。
本实施例通过约束中间噪音矩阵的取值范围得到更新噪音矩阵,使得基于更新噪音矩阵得到的伪装图像在视觉上接近自然图像,人眼难以察觉,具有更强的视觉隐蔽性。
在优选的实施例中,所述迭代执行步骤S2~S3直至满足预设停止条件,获取当前初始噪音矩阵和/或当前伪装图像,具体包括:在当前迭代执行次数等于第一预设阈值时,统计当前所有分类结果得到第一攻击成功率,并在当前迭代执行次数等于第二预设阈值时,统计当前所有分类结果得到第二攻击成功率;其中,第二预设阈值大于第一预设阈值;比较第一攻击成功率和第二攻击成功率,在第二攻击成功率小于第一攻击成功率时判定满足预设停止条件,停止迭代执行步骤S2~S3,并获取当前初始噪音矩阵和/或当前伪装图像。
可以理解的是,若目标分类***将伪装图像分类为目标类别,即分类结果为目标类别,则定向攻击目标分类***成功。
作为示例性地,利用深度学习优化器迭代执行步骤S2~S3,在当前迭代执行次数等于第一预设阈值时,统计当前所有分类结果得到第一攻击成功率,并在当前迭代执行次数等于第二预设阈值时,统计当前所有分类结果得到第二攻击成功率,通过比较第一攻击成功率和第二攻击成功率,在第二攻击成功率小于第一攻击成功率时,认为此后基于更新噪音矩阵得到的伪装图像对目标分类***的攻击效果已经不如先前,则判定满足预设停止条件,停止迭代执行步骤S2~S3,并获取当前初始噪音矩阵和/或当前伪装图像。
本实施例通过迭代更新初始噪音矩阵,利用基于更新噪音矩阵得到的伪装图像定向攻击目标分类***,能够优化初始噪音矩阵,获取具有最佳攻击效果的噪音矩阵和/或伪装图像。
如图3所示,第二实施例提供一种面向目标分类***的通用目标攻击装置,包括:初始噪音矩阵获取模块21,用于对随机生成的噪音矩阵进行初始化,得到初始噪音矩阵;目标分类***误导模块22,用于将初始噪音矩阵叠加至自然图像,得到伪装图像,并通过标签误导方法和特征误导方法误导目标分类***,得到误导后的目标分类***,以获取误导后的目标分类***对伪装图像的分类结果;初始噪音矩阵更新模块23,用于对初始噪音矩阵进行更新得到更新噪音矩阵,并将初始噪音矩阵更新为更新噪音矩阵;目标攻击结果获取模块24,用于驱动目标分类***误导模块和初始噪音矩阵更新模块迭代执行目标分类***误导操作和初始噪音矩阵更新操作直至满足预设停止条件,获取当前初始噪音矩阵和/或当前伪装图像。
在优选的实施例中,初始噪音矩阵获取模块21,还用于获取目标类别的可视化图像。
在本实施例的一优选实施方式中,通过初始噪音矩阵获取模块21,根据预先定义的目标类别,获取目标类别的可视化图像,并对随机生成的噪音矩阵进行初始化,得到初始噪音矩阵。
作为示例性地,根据预先定义的目标类别,通过激活最大化的神经网络可视化方法获取目标类别的可视化图像。其中,激活最大化的神经网络可视化方法是根据反向传播算法在可视化神经网络的最终层获取输入偏好,得到目标类别的可视化图像。
基于标准正态分布N(0,1)随机生成一个维度为h×w×c的噪音矩阵,对噪音矩阵进行初始化,得到初始噪音矩阵。其中,h,w,c分别为训练集图像的高、宽、通道维度。
在优选的实施例中,所述通过标签误导方法和特征误导方法误导目标分类***,得到误导后的目标分类***,具体为:通过标签误导方法使目标分类***将伪装图像分类为目标类别的概率达到最大概率,并通过特征误导方法使目标分类***所提取的伪装图像的特征与可视化图像的特征的相似度达到最大相似度,得到误导后的目标分类***。
需要说明的是,最大概率、最大相似度可以是预先设置的一取值。
作为示例性地,通过目标分类***误导模块22,通过标签误导方法误导目标分类***输出的分类结果,最大化地降低目标分类***将伪装图像分类为真实类别的概率,同时最大化地提高目标分类***将伪装图像分类为目标类别的概率,并通过特征误导方法误导目标分类***中提取特征的卷积层的判断结果,使目标分类***所提取的伪装图像的特征与目标类别的可视化图像的特征尽可能地接近。
其中,标签误导的优化公式如式(5)所示:
Figure BDA0002958252170000091
在式(5)中,I为可视化图像;C为目标分类***,C(t*)为目标分类***对自然图像t*的分类结果,C((t+z)*)为目标分类网络对伪装图像It=(t+z)*的分类结果;最小化式(5)可以最大化地降低目标分类***将伪装图像分类为真实类别T*的概率,同时最大化地增加目标分类***将伪装图像分类为目标类别F*的概率。
特征误导的优化公式如式(6)所示:
Figure BDA0002958252170000092
在式(6)中,I为可视化图像;f为目标分类***的卷积层,f((t+z)*)为目标分类***对伪装图像It=(t+z)*的特征提取结果,f(I)为目标分类***对可视化图像I的特征提取结果;最小化式(6)可以使伪装图像的特征和目标类别的可视化图像的特征尽可能接近。
在优选的实施例中,所述对初始噪音矩阵进行更新得到更新噪音矩阵,具体为:通过梯度下降方法更新初始噪音矩阵,得到中间噪音矩阵,并通过语义约束方法约束中间噪音矩阵的取值范围,得到更新噪音矩阵。
作为示例性地,通过初始噪音矩阵更新模块23,通过梯度下降方法,按照目标分类***最优损失函数的下降方向更新初始噪音矩阵,得到中间噪音矩阵。其中,初始噪音矩阵的更新公式如式(7)所示:
z′=z+Δz (7);
在式(7)中,z’为中间噪音矩阵,z为初始噪音矩阵,Δz为更新增量。
通过语义约束方法,将中间噪音矩阵投影至小范围无穷范数空间中,约束中间噪音矩阵的取值范围,得到更新噪音矩阵。其中,中间噪音矩阵的约束公式如式(8)所示:
Figure BDA0002958252170000101
在式(8)中,z*为更新噪音矩阵;Projection为投影函数,z’为中间噪音矩阵,
Figure BDA0002958252170000102
为攻击后识别为错误内容对应的噪音矩阵,ε为预设的一个较小固定值,用于约束中间噪音矩阵的取值范围。
本实施例通过初始噪音矩阵更新模块23约束中间噪音矩阵的取值范围得到更新噪音矩阵,使得基于更新噪音矩阵得到的伪装图像在视觉上接近自然图像,人眼难以察觉,具有更强的视觉隐蔽性。
在优选的实施例中,所述驱动目标分类***误导模块和初始噪音矩阵更新模块迭代执行目标分类***误导操作和初始噪音矩阵更新操作直至满足预设停止条件,获取当前初始噪音矩阵和/或当前伪装图像,具体包括:在当前迭代执行次数等于第一预设阈值时,统计当前所有分类结果得到第一攻击成功率,并在当前迭代执行次数等于第二预设阈值时,统计当前所有分类结果得到第二攻击成功率;其中,第二预设阈值大于第一预设阈值;比较第一攻击成功率和第二攻击成功率,在第二攻击成功率小于第一攻击成功率时判定满足预设停止条件,停止驱动目标分类***误导模块和初始噪音矩阵更新模块迭代执行目标分类***误导操作和初始噪音矩阵更新操作,并获取当前初始噪音矩阵和/或当前伪装图像。
可以理解的是,若目标分类***将伪装图像分类为目标类别,即分类结果为目标类别,则定向攻击目标分类***成功。
作为示例性地,通过目标攻击结果获取模块24,驱动目标分类***误导模块和初始噪音矩阵更新模块利用深度学习优化器迭代执行目标分类***误导操作和初始噪音矩阵更新操作,在当前迭代执行次数等于第一预设阈值时,统计当前所有分类结果得到第一攻击成功率,并在当前迭代执行次数等于第二预设阈值时,统计当前所有分类结果得到第二攻击成功率,通过比较第一攻击成功率和第二攻击成功率,在第二攻击成功率小于第一攻击成功率时,认为此后基于更新噪音矩阵得到的伪装图像对目标分类***的攻击效果已经不如先前,则判定满足预设停止条件,停止迭代执行目标分类***误导操作和初始噪音矩阵更新操作,并获取当前初始噪音矩阵和/或当前伪装图像。
本实施例通过目标攻击结果获取模块24迭代更新初始噪音矩阵,利用基于更新噪音矩阵得到的伪装图像定向攻击目标分类***,能够优化初始噪音矩阵,获取具有最佳攻击效果的噪音矩阵和/或伪装图像。
综上所述,实施本发明的实施例,具有如下有益效果:
通过对随机生成的噪音矩阵进行初始化,得到初始噪音矩阵,将初始噪音矩阵叠加至自然图像,得到伪装图像,并通过标签误导方法和特征误导方法误导目标分类***,得到误导后的目标分类***,以获取误导后的目标分类***对伪装图像的分类结果,对初始噪音矩阵进行更新得到更新噪音矩阵,并将初始噪音矩阵更新为更新噪音矩阵,迭代执行目标分类***误导操作和初始噪音矩阵更新操作直至满足预设停止条件,获取当前初始噪音矩阵和/或当前伪装图像,能够实现定向攻击目标分类***,获取具有最佳攻击效果的噪音矩阵和/或伪装图像,以便后续利用具有最佳攻击效果的噪音矩阵定向攻击目标分类***,和/或利用具有最佳攻击效果的伪装图像作为对抗样本训练目标分类***,有利于提高目标分类***的鲁棒性。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

Claims (10)

1.一种面向目标分类***的通用目标攻击方法,其特征在于,包括步骤:
S1、对随机生成的噪音矩阵进行初始化,得到初始噪音矩阵;
S2、将所述初始噪音矩阵叠加至自然图像,得到伪装图像,并通过标签误导方法和特征误导方法误导所述目标分类***,得到误导后的目标分类***,以获取所述误导后的目标分类***对所述伪装图像的分类结果;
S3、对所述初始噪音矩阵进行更新得到更新噪音矩阵,并将所述初始噪音矩阵更新为所述更新噪音矩阵;
S4、迭代执行步骤S2~S3直至满足预设停止条件,获取当前所述初始噪音矩阵和/或当前所述伪装图像。
2.如权利要求1所述的面向目标分类***的通用目标攻击方法,其特征在于,所述步骤S1,还包括:
获取目标类别的可视化图像。
3.如权利要求2所述的面向目标分类***的通用目标攻击方法,其特征在于,所述通过标签误导方法和特征误导方法误导所述目标分类***,得到误导后的目标分类***,具体为:
通过标签误导方法使所述目标分类***将所述伪装图像分类为所述目标类别的概率达到最大概率,并通过特征误导方法使所述目标分类***所提取的所述伪装图像的特征与所述可视化图像的特征的相似度达到最大相似度,得到所述误导后的目标分类***。
4.如权利要求1所述的面向目标分类***的通用目标攻击方法,其特征在于,所述对所述初始噪音矩阵进行更新得到更新噪音矩阵,具体为:
通过梯度下降方法更新所述初始噪音矩阵,得到中间噪音矩阵,并通过语义约束方法约束所述中间噪音矩阵的取值范围,得到所述更新噪音矩阵。
5.如权利要求1所述的面向目标分类***的通用目标攻击方法,其特征在于,所述迭代执行步骤S2~S3直至满足预设停止条件,获取当前所述初始噪音矩阵和/或当前所述伪装图像,具体包括:
在当前迭代执行次数等于第一预设阈值时,统计当前所有所述分类结果得到第一攻击成功率,并在当前迭代执行次数等于第二预设阈值时,统计当前所有所述分类结果得到第二攻击成功率;其中,所述第二预设阈值大于所述第一预设阈值;
比较所述第一攻击成功率和所述第二攻击成功率,在所述第二攻击成功率小于所述第一攻击成功率时判定满足所述预设停止条件,停止迭代执行步骤S2~S3,并获取当前所述初始噪音矩阵和/或当前所述伪装图像。
6.一种面向目标分类***的通用目标攻击装置,其特征在于,包括:
初始噪音矩阵获取模块,用于对随机生成的噪音矩阵进行初始化,得到初始噪音矩阵;
目标分类***误导模块,用于将所述初始噪音矩阵叠加至自然图像,得到伪装图像,并通过标签误导方法和特征误导方法误导所述目标分类***,得到误导后的目标分类***,以获取所述误导后的目标分类***对所述伪装图像的分类结果;
初始噪音矩阵更新模块,用于对所述初始噪音矩阵进行更新得到更新噪音矩阵,并将所述初始噪音矩阵更新为所述更新噪音矩阵;
目标攻击结果获取模块,用于驱动所述目标分类***误导模块和所述初始噪音矩阵更新模块迭代执行目标分类***误导操作和初始噪音矩阵更新操作直至满足预设停止条件,获取当前所述初始噪音矩阵和/或当前所述伪装图像。
7.如权利要求6所述的面向目标分类***的通用目标攻击装置,其特征在于,所述初始噪音矩阵获取模块,还用于获取目标类别的可视化图像。
8.如权利要求7所述的面向目标分类***的通用目标攻击装置,其特征在于,所述通过标签误导方法和特征误导方法误导所述目标分类***,得到误导后的目标分类***,具体为:
通过标签误导方法使所述目标分类***将所述伪装图像分类为所述目标类别的概率达到最大概率,并通过特征误导方法使所述目标分类***所提取的所述伪装图像的特征与所述可视化图像的特征的相似度达到最大相似度,得到所述误导后的目标分类***。
9.如权利要求6所述的面向目标分类***的通用目标攻击装置,其特征在于,所述对所述初始噪音矩阵进行更新得到更新噪音矩阵,具体为:
通过梯度下降方法更新所述初始噪音矩阵,得到中间噪音矩阵,并通过语义约束方法约束所述中间噪音矩阵的取值范围,得到所述更新噪音矩阵。
10.如权利要求6所述的面向目标分类***的通用目标攻击装置,其特征在于,所述驱动所述目标分类***误导模块和所述初始噪音矩阵更新模块迭代执行目标分类***误导操作和初始噪音矩阵更新操作直至满足预设停止条件,获取当前所述初始噪音矩阵和/或当前所述伪装图像,具体包括:
在当前迭代执行次数等于第一预设阈值时,统计当前所有所述分类结果得到第一攻击成功率,并在当前迭代执行次数等于第二预设阈值时,统计当前所有所述分类结果得到第二攻击成功率;其中,所述第二预设阈值大于所述第一预设阈值;
比较所述第一攻击成功率和所述第二攻击成功率,在所述第二攻击成功率小于所述第一攻击成功率时判定满足所述预设停止条件,停止驱动所述目标分类***误导模块和所述初始噪音矩阵更新模块迭代执行目标分类***误导操作和初始噪音矩阵更新操作,并获取当前所述初始噪音矩阵和/或当前所述伪装图像。
CN202110232607.2A 2021-03-02 2021-03-02 一种面向目标分类***的通用目标攻击方法及装置 Active CN112836764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110232607.2A CN112836764B (zh) 2021-03-02 2021-03-02 一种面向目标分类***的通用目标攻击方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110232607.2A CN112836764B (zh) 2021-03-02 2021-03-02 一种面向目标分类***的通用目标攻击方法及装置

Publications (2)

Publication Number Publication Date
CN112836764A true CN112836764A (zh) 2021-05-25
CN112836764B CN112836764B (zh) 2023-07-28

Family

ID=75934424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110232607.2A Active CN112836764B (zh) 2021-03-02 2021-03-02 一种面向目标分类***的通用目标攻击方法及装置

Country Status (1)

Country Link
CN (1) CN112836764B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102497270A (zh) * 2011-12-24 2012-06-13 王勇 一类规范化文档的加密方法
CN109948663A (zh) * 2019-02-27 2019-06-28 天津大学 一种基于模型抽取的步长自适应的对抗攻击方法
CN110444208A (zh) * 2019-08-12 2019-11-12 浙江工业大学 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置
CN111460426A (zh) * 2020-04-02 2020-07-28 武汉大学 基于对抗演化框架的抗深度学习文本验证码生成***及方法
CN111680292A (zh) * 2020-06-10 2020-09-18 北京计算机技术及应用研究所 一种基于高隐蔽性通用扰动的对抗样本生成方法
CN111783982A (zh) * 2020-06-30 2020-10-16 平安国际智慧城市科技股份有限公司 攻击样本的获取方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102497270A (zh) * 2011-12-24 2012-06-13 王勇 一类规范化文档的加密方法
CN109948663A (zh) * 2019-02-27 2019-06-28 天津大学 一种基于模型抽取的步长自适应的对抗攻击方法
CN110444208A (zh) * 2019-08-12 2019-11-12 浙江工业大学 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置
CN111460426A (zh) * 2020-04-02 2020-07-28 武汉大学 基于对抗演化框架的抗深度学习文本验证码生成***及方法
CN111680292A (zh) * 2020-06-10 2020-09-18 北京计算机技术及应用研究所 一种基于高隐蔽性通用扰动的对抗样本生成方法
CN111783982A (zh) * 2020-06-30 2020-10-16 平安国际智慧城市科技股份有限公司 攻击样本的获取方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王永刚;严寒冰;许俊峰;胡建斌;陈钟;: "垃圾标签的抵御方法研究", 计算机研究与发展, no. 10, pages 1 - 4 *

Also Published As

Publication number Publication date
CN112836764B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
Carlini et al. Evading deepfake-image detectors with white-and black-box attacks
Warde-Farley et al. 11 adversarial perturbations of deep neural networks
EP3812970A1 (en) Method for learning and testing user learning network to be used for recognizing obfuscated data created by concealing original data to protect personal information and learning device and testing device using the same
US20210117733A1 (en) Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium
CN111737691B (zh) 对抗样本的生成方法和装置
CN110379418B (zh) 一种语音对抗样本生成方法
CN112396129B (zh) 一种对抗样本检测方法及通用对抗攻击防御***
CN110175646B (zh) 基于图像变换的多通道对抗样本检测方法及装置
EP3916597A1 (en) Detecting malware with deep generative models
CN111062036A (zh) 恶意软件识别模型构建、识别方法及介质和设备
CN111260620A (zh) 图像异常检测方法、装置和电子设备
US20220179955A1 (en) Mobile malicious code classification method based on feature selection and recording medium and device for performing the same
CN114241569A (zh) 人脸识别攻击样本的生成方法、模型训练方法及相关设备
CN113408558A (zh) 用于模型验证的方法、装置、设备和介质
Lv et al. Chinese character CAPTCHA recognition based on convolution neural network
CN111783853A (zh) 一种基于可解释性的检测并恢复神经网络对抗样本方法
CN111353514A (zh) 模型训练方法、图像识别方法、装置及终端设备
US20220207322A1 (en) Data processing method and apparatus based on neural population coding, storage medium, and processor
CN112836764A (zh) 一种面向目标分类***的通用目标攻击方法及装置
Wang et al. Exploring robust features for improving adversarial robustness
Wang et al. Beyond Boundaries: A Comprehensive Survey of Transferable Attacks on AI Systems
CN113259369A (zh) 一种基于机器学习成员推断攻击的数据集认证方法及***
CN112990384B (zh) 一种基于噪声灭活的生物特征识别对抗防御方法
Zhang et al. Eliminating adversarial perturbations using image-to-image translation method
KR102592120B1 (ko) 적대적 예제의 비지도 이상 탐지 방법 및 이를 이용하는 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant