CN111027060A - 基于知识蒸馏的神经网络黑盒攻击型防御方法 - Google Patents

基于知识蒸馏的神经网络黑盒攻击型防御方法 Download PDF

Info

Publication number
CN111027060A
CN111027060A CN201911300484.0A CN201911300484A CN111027060A CN 111027060 A CN111027060 A CN 111027060A CN 201911300484 A CN201911300484 A CN 201911300484A CN 111027060 A CN111027060 A CN 111027060A
Authority
CN
China
Prior art keywords
attack
black box
network
model
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911300484.0A
Other languages
English (en)
Other versions
CN111027060B (zh
Inventor
崔炜煜
王文一
李晓锐
陈建文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911300484.0A priority Critical patent/CN111027060B/zh
Publication of CN111027060A publication Critical patent/CN111027060A/zh
Application granted granted Critical
Publication of CN111027060B publication Critical patent/CN111027060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于知识蒸馏的神经网络黑盒攻击型防御方法,其包括选取多个子网络构建教师网络,对所有子网络softmax层的输入向量进行软化,之后重新加载子网络的模型参数训练得到新的子网络;获取每个子网络的预测标签,并将所有预测标签平均或加权平均后做为软标签;将ImageNet数据集输入学生网络,采用软标签、数据集硬标签及黑盒模型特殊标签指导学生网络训练,得到替代模型;采用白盒攻击算法攻击替代模型生成对抗样本序列,并采用对抗样本序列对黑盒模型进行攻击,选取对抗样本序列中攻击成功的对抗样本;将攻击成功的对抗样本加入黑盒模型的训练集中,并采用更新后的训练集进行对抗训练,生成具备防御攻击的黑盒模型。

Description

基于知识蒸馏的神经网络黑盒攻击型防御方法
技术领域
本发明涉及神经网络的防御方法,具体涉及一种基于知识蒸馏的神经网络黑盒攻击型防御方法。
背景技术
现有比较常见的黑盒攻击分为基于迁移性的训练替代模型攻击方式以及基于决策的多次查询估计梯度攻击方式。二者在生成接近黑盒模型的替代模型后和估计接近黑盒模型的梯度后,利用主流的白盒攻击方法来进行攻击。
前者在训练替代模型时多数需要得知被攻击模型的训练数据集,以及输入输出等除模型内部参数以外的众多信息,而这些信息特别是训练数据集在实际应用中是很难得知的,或者是被限制获取数量的,所以通过以上方式生成替代模型的方法在很多情况下是有所限制的。
后者通过对对抗模型多次进行查询输入输出并且估计梯度,当查询次数足够多时估计得到的梯度将接近对抗模型的真实梯度以获得决策边界。但是该方法的问题是多次查询导致计算复杂度高,同时在限制查询次数的黑盒模型中无法得到进展,从而严重影响了黑盒攻击的效率。
发明内容
针对现有技术中的上述不足,本发明提供的基于知识蒸馏的神经网络黑盒攻击型防御方法解决了传统方法的多次查询带来的计算复杂度较高的问题。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种基于知识蒸馏的神经网络黑盒攻击型防御方法,其包括:
选取多个图像分类网络作为的子网络构建教师网络,对所有子网络softmax层的输入向量进行软化,之后重新加载子网络的模型参数训练得到新的子网络;
获取教师网络中每个子网络的预测标签,并将所有预测标签平均后或者加权平均后做为教师网络输出的软标签;
将ImageNet数据集输入学生网络,采用教师网络的软标签、数据集硬标签及黑盒模型特殊标签指导学生网络训练,得到针对黑盒模型的替代模型,特殊标签为黑盒模型分类任务中与常规数据集分类不同的样本;
采用白盒攻击算法攻击替代模型生成对抗样本序列,并采用对抗样本序列对黑盒模型进行攻击,选取对抗样本序列中攻击成功的对抗样本;
将攻击成功的对抗样本加入黑盒模型的训练集中,并采用更新后的训练集进行对抗训练,生成具备防御攻击的黑盒模型。
本发明的有益效果为:本方法在多数情况下无需获取黑盒模型的数据集和查询申请,便可以对黑盒模型进行攻击,在少数边缘分类任务中,可以限制性获取黑盒模型数据集以及查询次数,仍然可以保证攻击成功。
在进行攻击和防御过程中,采用知识蒸馏的方式优化了替代模型生成过程,解决了使用传统方法的多次查询带来的计算复杂度较高的问题;知识蒸馏的方式可以使用来生成替代模型的学生网络充分利用教师网络所拥有的知识信息量,减少普通训练方式丢失类别之间差异性的缺陷。
通过生成对抗样本序列的方式解决了在对抗训练中对抗样本质量差并且强度低的问题,使得对抗训练更加鲁棒,即防御性更好。
附图说明
图1为基于知识蒸馏的神经网络黑盒攻击型防御方法的流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
知识蒸馏是一种基于神经网络的信息提取方式,同时也是一种有效的网络压缩方式,通过集成或者大规模训练的方式生成一个教师网络,然后将该教师网络的输出标签进行软化,从而增加不同类别之间的信息量,使得对于不同模型分类任务的兼容性更强。
当面临实际问题的时候,教师网络会指导训练学生网络生成相应模型来解决实际的分类或识别问题,该学生网络可以有效地将教师网络中优秀的分类能力和预测能力继承下来,并且减少了教师网络的冗余性和复杂度,同时又提高了学生网络的性能。
参考图1,图1示出了基于知识蒸馏的神经网络黑盒攻击型防御方法的流程图;如图1所示,该方法包括步骤101至步骤105。
在步骤101中,选取多个图像分类网络作为的子网络构建教师网络,对所有子网络softmax层的输入向量进行软化,之后重新加载子网络的模型参数训练得到新的子网络。
教师网络采用集成的方式将多个模型的预测结果结合到一起,能够降低整体的方差,集成多个模型使得最终的预测结果添加了偏差,而该偏差又会与神经网络的方差相抵消,使得模型的预测对训练数据的细节、训练方案的选择以及单次训练的偶然性不太敏感。
实施时,本方案优选对子网络softmax层的输入向量进行软化的计算公式为:
Figure BDA0002320981800000041
其中,T为温度系数;zi和zj均为输入向量;exp(.)为指数运算;i为当前输入向量的标号;j为所有输入向量的总数;qi为软化后预测标签。
本方案通过在神经网络的softmax层的输入向量进行软化,可以使得类别之间的相关性被放大,使得最终输出的软化标签可以用来指导和监督学生网络的训练。
在步骤102中,获取教师网络中每个子网络的预测标签,并将所有预测标签平均后或者加权平均后做为教师网络输出的软标签;
其中,图像分类网络和学生网络均是以残差模块为基础的ResNet网络;多个图像分类网络为ResNet18,ResNet34,ResNet50,ResNet101,ResNet152;学生网络为ResNet8网络。
多个图像分类网络采用上述ResNet网络后,具有相同的训练集、相似输入输出,只是在随机参数初始化、网络参数结构和网络损失函数输入值有微小差别,从而达到容易集成教师网络的目的。
在采用多个子网络集成教师网络时,所有子网络给予相同的数据集进行训练,这样可以使所有子网络的输出通道一致,以保证最终得到相同维度的预测软标签。
将所有预测软标签进行加权平均的公式为:
Figure BDA0002320981800000042
其中n为子网络的数量,
Figure BDA0002320981800000043
bi为第i个子网络的权重,Oi为第i个子网络的输出。
在步骤103中,将ImageNet数据集输入学生网络,采用教师网络的软标签、数据集硬标签及黑盒模型特殊标签指导学生网络训练,得到针对黑盒模型的替代模型,特殊标签为黑盒模型分类任务中与常规数据集分类不同的样本。
其中,三种类型的标签分别代表图片的不同标注信息,硬标签代表图片的固有属性,软标签代表图片类别与相近类别之前的相关性,特殊标签代表图片在黑盒模型中的特殊样本的标签。三种类型的标签具体地为:
硬标签,即普通数据集中的标签,对输入数据有着明确的标定,非0即1,如[0,1,…,0],其中1代表对应数据样本的标签在标签列表中的位置。
软标签,来源于教师网络,对输入数据之间的相关性有着相当信息量的解释,在保证正确样本置信度最高的情况下,也对相关性较大样本进行标定。如[0.1,0.7,…,0.1],其中0.7表示该样本在标签列表中第二个位置的置信度,最大置信度通常就是样本的真实分类,而0.1表示该样本在标签列表第二个位置的可能置信度,即在有目标攻击中最有可能攻击成功的目标类别。
特殊标签,该类标签取决于黑盒模型的限制条件,在可获取少量标签的限制性黑盒模型中,使用此类标签将利于学生网络生成的替代模型无限逼近黑盒模型,因为此类标签通常等同于硬标签,如[0,1,…,0];但是在个别样本不等同于硬标签时,如[1,0,…,0],此类标签具有绝对优先级,即将用特殊标签取代硬标签,同时不添加软标签。
在本发明的一个实施例中,指导学生网络训练过程中,选取三个损失函数,并对三个损失函数加权归一化后作为学生网络的损失函数;三个损失函数分别为:
Figure BDA0002320981800000051
Figure BDA0002320981800000061
其中,yh为数据集中样本的硬标签;
Figure BDA0002320981800000062
为数据集中样本的预测硬标签;ys为数据中样本的软标签,
Figure BDA0002320981800000063
为数据集中样本的预测软标签;ysp为数据集中样本的特殊标签,
Figure BDA0002320981800000064
为数据集中样本的预测特殊标签;
所述替代模型的损失函数为:
L=(1-a-b)×Ls+a×Lh+b×Lsp
当yh=ysp时,b=0,L=(1-a)×Ls+a×Lh
当yh≠ysp时,a=0,b=1,L=Lsp
其中,a和b为加权系数;Lh、Ls、Lsp和L均为损失函数输出值。
本方案选用少数从黑盒模型分类任务中与常规数据集分类不同的样本作为特殊标签对学生网络的训练进行指导,可以使得学生网络更加接近被攻击模型(黑盒模型)。
在步骤104中,采用白盒攻击算法攻击替代模型生成对抗样本序列,并采用对抗样本序列对黑盒模型进行攻击,选取对抗样本序列中攻击成功的对抗样本。
在本发明的一个实施例中,白盒攻击算法为FGSM算法,采用白盒攻击算法攻击替代模型生成对抗样本序列进一步包括:
对于无目标攻击时,向损失函数最大化的方向进行梯度上升,每次梯度上升时对输入图片的像素值加入扰动,梯度每上升设定次数生成一个对抗样本;
采用同一输入图像生成的所有对抗样本构成无目标攻击的对抗样本序列;
对于有目标攻击时,向损失函数最小化的方向进行梯度下降,每次梯度下降时对输入图片的像素值加入扰动,梯度每下降设定次数生成一个对抗样本;
采用同一输入图像生成的所有对抗样本构成有目标攻击的对抗样本序列。
有目标攻击和无目标攻击时,生成扰动后的对抗样本的公式均为:
Figure BDA0002320981800000071
其中,ω为权重向量;ωT为权重向量的转置;x为原始图像;
Figure BDA0002320981800000072
为扰动后图片;ε为扰动权重上限;sign(.)为符号函数;
Figure BDA0002320981800000073
为梯度算子;η为加入的扰动;J(.)为损失函数。
本方案在对抗样本生成时,并非针对一张图片只生成一张对抗样本,而是选择一幅输入图片向着决策边界的正交方向生成多个对抗样本,组成对抗样本序列,来覆盖被攻击模型(黑盒模型)决策边界可能存在的区域,以达到高性能的黑盒攻击。
实施时,本方案优选采用对抗样本序列对黑盒模型进行攻击包括:
采用每一对抗样本序列中所有对抗样本逐次攻击黑盒模型;
无目标攻击模式下,若盒模型预测结果不是原始数据标签,则表示攻击成功;有目标攻击模式下,若黑盒模型预测结果是指定目标的预测结果,则表示攻击成功。
在步骤105中,将攻击成功的对抗样本加入黑盒模型的训练集中,并采用更新后的训练集进行对抗训练,生成具备防御攻击的黑盒模型。
本方案将攻击成功的对抗样本加入到黑盒模型的对抗训练中,使得黑盒模型能够对此类对抗样本有很好的辨别能力,从而使得黑盒模型更加鲁棒,足以防御更多其他近似类型的对抗样本。

Claims (8)

1.基于知识蒸馏的神经网络黑盒攻击型防御方法,其特征在于,包括:
选取多个图像分类网络作为的子网络构建教师网络,对所有子网络softmax层的输入向量进行软化,之后重新加载子网络的模型参数训练得到新的子网络;
获取教师网络中每个子网络的预测标签,并将所有预测标签平均后或者加权平均后做为教师网络输出的软标签;
将ImageNet数据集输入学生网络,采用教师网络的软标签、数据集硬标签及黑盒模型特殊标签指导学生网络训练,得到针对黑盒模型的替代模型,特殊标签为黑盒模型分类任务中与常规数据集分类不同的样本;
采用白盒攻击算法攻击替代模型生成对抗样本序列,并采用对抗样本序列对黑盒模型进行攻击,选取对抗样本序列中攻击成功的对抗样本;
将攻击成功的对抗样本加入黑盒模型的训练集中,并采用更新后的训练集进行对抗训练,生成具备防御攻击的黑盒模型。
2.根据权利要求1所述的基于知识蒸馏的神经网络黑盒攻击型防御方法,其特征在于,对子网络softmax层的输入向量进行软化的计算公式为:
Figure FDA0002320981790000011
其中,T为温度系数;zi和zj均为输入向量;exp(.)为指数运算;i为当前输入向量的标号;j为所有输入向量的总数;qi为软化后预测标签。
3.根据权利要求1所述的基于知识蒸馏的神经网络黑盒攻击型防御方法,其特征在于,指导学生网络训练过程中,选取三个损失函数,并对三个损失函数加权归一化后作为学生网络的损失函数;三个损失函数分别为:
Figure FDA0002320981790000021
Figure FDA0002320981790000022
其中,yh为数据集中样本的硬标签;
Figure FDA0002320981790000023
为数据集中样本的预测硬标签;ys为数据集中样本的软标签,
Figure FDA0002320981790000024
为数据集中样本的预测软标签;ysp为数据集中样本的特殊标签,
Figure FDA0002320981790000025
为数据集中样本的预测特殊标签;
所述替代模型的损失函数为:
L=(1-a-b)×Ls+a×Lh+b×Lsp
当yh=ysp时,b=0,L=(1-a)×Ls+a×Lh
当yh≠ysp时,a=0,b=1,L=Lsp
其中,a和b为加权系数;Lh、Ls、Lsp和L均为损失函数输出值。
4.根据权利要求1所述的基于知识蒸馏的神经网络黑盒攻击型防御方法,其特征在于,白盒攻击算法为FGSM算法,采用白盒攻击算法攻击替代模型生成对抗样本序列进一步包括:
对于无目标攻击时,向损失函数最大化的方向进行梯度上升,每次梯度上升时对输入图片的像素值加入扰动,梯度每上升设定次数生成一个对抗样本;
采用同一输入图像生成的所有对抗样本构成无目标攻击的对抗样本序列;
对于有目标攻击时,向损失函数最小化的方向进行梯度下降,每次梯度下降时对输入图片的像素值加入扰动,梯度每下降设定次数生成一个对抗样本;
采用同一输入图像生成的所有对抗样本构成有目标攻击的对抗样本序列。
5.根据权利要求4所述的基于知识蒸馏的神经网络黑盒攻击型防御方法,其特征在于,有目标攻击和无目标攻击时,生成扰动后的对抗样本的公式均为:
Figure FDA0002320981790000026
其中,ω为权重向量;ωT为权重向量的转置;x为原始图像;
Figure FDA0002320981790000031
为扰动后图像;ε为扰动权重上限;sign(.)为符号函数;
Figure FDA0002320981790000032
为梯度算子;η为加入的扰动;J(.)为损失函数。
6.根据权利要求1所述的基于知识蒸馏的神经网络黑盒攻击型防御方法,其特征在于,采用对抗样本序列对黑盒模型进行攻击包括:
采用每一对抗样本序列中所有对抗样本逐次攻击黑盒模型;
无目标攻击模式下,若黑盒模型预测结果不是原始数据标签,则表示攻击成功;有目标攻击模式下,若黑盒模型预测结果是指定目标的预测结果,则表示攻击成功。
7.根据权利要求1-6任一所述的基于知识蒸馏的神经网络黑盒攻击型防御方法,其特征在于,所述图像分类网络和学生网络均是以残差模块为基础的ResNet网络。
8.根据权利要求7所述的基于知识蒸馏的神经网络黑盒攻击型防御方法,其特征在于,多个图像分类网络为ResNet18,ResNet34,ResNet50,ResNet101,ResNet152;学生网络为ResNet8网络。
CN201911300484.0A 2019-12-17 2019-12-17 基于知识蒸馏的神经网络黑盒攻击型防御方法 Active CN111027060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911300484.0A CN111027060B (zh) 2019-12-17 2019-12-17 基于知识蒸馏的神经网络黑盒攻击型防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911300484.0A CN111027060B (zh) 2019-12-17 2019-12-17 基于知识蒸馏的神经网络黑盒攻击型防御方法

Publications (2)

Publication Number Publication Date
CN111027060A true CN111027060A (zh) 2020-04-17
CN111027060B CN111027060B (zh) 2022-04-29

Family

ID=70209984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911300484.0A Active CN111027060B (zh) 2019-12-17 2019-12-17 基于知识蒸馏的神经网络黑盒攻击型防御方法

Country Status (1)

Country Link
CN (1) CN111027060B (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582474A (zh) * 2020-04-24 2020-08-25 中科物栖(北京)科技有限责任公司 神经网络结构探测方法、结构探测模型的训练方法及装置
CN111666979A (zh) * 2020-05-13 2020-09-15 北京科技大学 一种可用于标签生成的水下场景目标检测集成方法及***
CN111753995A (zh) * 2020-06-23 2020-10-09 华东师范大学 一种基于梯度提升树的局部可解释方法
CN111783982A (zh) * 2020-06-30 2020-10-16 平安国际智慧城市科技股份有限公司 攻击样本的获取方法、装置、设备及介质
CN111818101A (zh) * 2020-09-09 2020-10-23 平安国际智慧城市科技股份有限公司 网络安全性的检测方法、装置、计算机设备和存储介质
CN112035834A (zh) * 2020-08-28 2020-12-04 北京推想科技有限公司 对抗训练方法及装置、神经网络模型的应用方法及装置
CN112085055A (zh) * 2020-08-05 2020-12-15 清华大学 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
CN112115469A (zh) * 2020-09-15 2020-12-22 浙江科技学院 基于Bayes-Stackelberg博弈的边缘智能移动目标防御方法
CN112200243A (zh) * 2020-10-09 2021-01-08 电子科技大学 一种基于低问询图像数据的黑盒对抗样本生成方法
CN112241554A (zh) * 2020-10-30 2021-01-19 浙江工业大学 基于差分隐私指数机制的模型窃取防御方法和装置
CN112364708A (zh) * 2020-10-20 2021-02-12 西安理工大学 基于知识蒸馏与对抗学习的多模态人体动作识别方法
CN112381209A (zh) * 2020-11-13 2021-02-19 平安科技(深圳)有限公司 一种模型压缩方法、***、终端及存储介质
CN112396129A (zh) * 2020-12-08 2021-02-23 中山大学 一种对抗样本检测方法及通用对抗攻击防御***
CN112464230A (zh) * 2020-11-16 2021-03-09 电子科技大学 基于神经网络中间层正则化的黑盒攻击型防御***及方法
CN112766315A (zh) * 2020-12-31 2021-05-07 湖南大学 一种用于测试人工智能模型鲁棒性的方法和***
CN112884552A (zh) * 2021-02-22 2021-06-01 广西师范大学 一种基于生成对抗和知识蒸馏的轻量级多模推荐方法
CN112989361A (zh) * 2021-04-14 2021-06-18 华南理工大学 一种基于生成对抗网络的模型安全性检测方法
CN113111731A (zh) * 2021-03-24 2021-07-13 浙江工业大学 基于测信道信息的深度神经网络黑盒对抗样本生成方法及***
CN113139618A (zh) * 2021-05-12 2021-07-20 电子科技大学 一种基于集成防御的鲁棒性增强的分类方法及装置
CN113178255A (zh) * 2021-05-18 2021-07-27 西安邮电大学 一种基于gan的医学诊断模型对抗攻击方法
CN113343898A (zh) * 2021-06-25 2021-09-03 江苏大学 基于知识蒸馏网络的口罩遮挡人脸识别方法、装置及设备
CN113407939A (zh) * 2021-06-17 2021-09-17 电子科技大学 面向黑盒攻击的替代模型自动选取方法、存储介质及终端
CN113688914A (zh) * 2021-08-27 2021-11-23 西安交通大学 一种实用相对顺序对抗攻击方法
CN113705362A (zh) * 2021-08-03 2021-11-26 北京百度网讯科技有限公司 图像检测模型的训练方法、装置、电子设备及存储介质
CN113837232A (zh) * 2021-08-30 2021-12-24 厦门大学 一种基于样本选择和加权损失函数的黑盒模型蒸馏方法
CN113946688A (zh) * 2021-10-20 2022-01-18 中国人民解放军国防科技大学 一种寻找自然语言处理模型天然后门的方法
WO2022037295A1 (zh) * 2020-08-20 2022-02-24 鹏城实验室 一种针对深度哈希检索的有目标攻击方法及终端设备
CN114118268A (zh) * 2021-11-25 2022-03-01 福州大学 以脉冲为概率生成均匀分布扰动的对抗性攻击方法及***
CN114240951A (zh) * 2021-12-13 2022-03-25 电子科技大学 一种基于查询的医学图像分割神经网络的黑盒攻击方法
CN114299313A (zh) * 2021-12-24 2022-04-08 北京瑞莱智慧科技有限公司 对抗扰动生成方法、装置及存储介质
CN114500071A (zh) * 2022-02-10 2022-05-13 江苏大学 一种针对目标网站动态增长的自适应指纹攻击方法和***
CN115481719A (zh) * 2022-09-20 2022-12-16 宁波大学 一种防御基于梯度的对抗攻击的方法
CN117371541A (zh) * 2023-12-08 2024-01-09 齐鲁工业大学(山东省科学院) 一种零知识、免真实数据的模型推理攻击方法
CN118051949A (zh) * 2024-04-16 2024-05-17 贵州优特云科技有限公司 基于ai的平台内容安全巡检方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977707A (zh) * 2017-11-23 2018-05-01 厦门美图之家科技有限公司 一种对抗蒸馏神经网络模型的方法及计算设备
CN109902727A (zh) * 2019-02-02 2019-06-18 钟祥博谦信息科技有限公司 防御性蒸馏模型的构建方法与装置
US20190237096A1 (en) * 2018-12-28 2019-08-01 Intel Corporation Ultrasonic attack detection employing deep learning
CN110222831A (zh) * 2019-06-13 2019-09-10 百度在线网络技术(北京)有限公司 深度学习模型的鲁棒性评估方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977707A (zh) * 2017-11-23 2018-05-01 厦门美图之家科技有限公司 一种对抗蒸馏神经网络模型的方法及计算设备
US20190237096A1 (en) * 2018-12-28 2019-08-01 Intel Corporation Ultrasonic attack detection employing deep learning
CN109902727A (zh) * 2019-02-02 2019-06-18 钟祥博谦信息科技有限公司 防御性蒸馏模型的构建方法与装置
CN110222831A (zh) * 2019-06-13 2019-09-10 百度在线网络技术(北京)有限公司 深度学习模型的鲁棒性评估方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘雨佳: "针对神经网络的图像对抗样本生成及应用研究", 《万方学位论文库》 *
张思思等: "深度学习中的对抗样本问题", 《万方学位论文库》 *

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582474A (zh) * 2020-04-24 2020-08-25 中科物栖(北京)科技有限责任公司 神经网络结构探测方法、结构探测模型的训练方法及装置
CN111582474B (zh) * 2020-04-24 2023-08-25 中科物栖(南京)科技有限公司 神经网络结构探测方法、结构探测模型的训练方法及装置
CN111666979A (zh) * 2020-05-13 2020-09-15 北京科技大学 一种可用于标签生成的水下场景目标检测集成方法及***
CN111666979B (zh) * 2020-05-13 2023-09-08 北京科技大学 一种可用于标签生成的水下场景目标检测集成方法及***
CN111753995A (zh) * 2020-06-23 2020-10-09 华东师范大学 一种基于梯度提升树的局部可解释方法
CN111753995B (zh) * 2020-06-23 2024-06-28 华东师范大学 一种基于梯度提升树的局部可解释方法
CN111783982A (zh) * 2020-06-30 2020-10-16 平安国际智慧城市科技股份有限公司 攻击样本的获取方法、装置、设备及介质
CN111783982B (zh) * 2020-06-30 2024-06-04 平安国际智慧城市科技股份有限公司 攻击样本的获取方法、装置、设备及介质
CN112085055B (zh) * 2020-08-05 2022-12-13 清华大学 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
CN112085055A (zh) * 2020-08-05 2020-12-15 清华大学 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
WO2022037295A1 (zh) * 2020-08-20 2022-02-24 鹏城实验室 一种针对深度哈希检索的有目标攻击方法及终端设备
CN112035834A (zh) * 2020-08-28 2020-12-04 北京推想科技有限公司 对抗训练方法及装置、神经网络模型的应用方法及装置
CN111818101B (zh) * 2020-09-09 2020-12-11 平安国际智慧城市科技股份有限公司 网络安全性的检测方法、装置、计算机设备和存储介质
CN111818101A (zh) * 2020-09-09 2020-10-23 平安国际智慧城市科技股份有限公司 网络安全性的检测方法、装置、计算机设备和存储介质
CN112115469A (zh) * 2020-09-15 2020-12-22 浙江科技学院 基于Bayes-Stackelberg博弈的边缘智能移动目标防御方法
CN112115469B (zh) * 2020-09-15 2024-03-01 浙江科技学院 基于Bayes-Stackelberg博弈的边缘智能移动目标防御方法
CN112200243B (zh) * 2020-10-09 2022-04-26 电子科技大学 一种基于低问询图像数据的黑盒对抗样本生成方法
CN112200243A (zh) * 2020-10-09 2021-01-08 电子科技大学 一种基于低问询图像数据的黑盒对抗样本生成方法
CN112364708A (zh) * 2020-10-20 2021-02-12 西安理工大学 基于知识蒸馏与对抗学习的多模态人体动作识别方法
CN112364708B (zh) * 2020-10-20 2024-02-06 西安理工大学 基于知识蒸馏与对抗学习的多模态人体动作识别方法
CN112241554A (zh) * 2020-10-30 2021-01-19 浙江工业大学 基于差分隐私指数机制的模型窃取防御方法和装置
CN112241554B (zh) * 2020-10-30 2024-04-30 浙江工业大学 基于差分隐私指数机制的模型窃取防御方法和装置
CN112381209B (zh) * 2020-11-13 2023-12-22 平安科技(深圳)有限公司 一种模型压缩方法、***、终端及存储介质
CN112381209A (zh) * 2020-11-13 2021-02-19 平安科技(深圳)有限公司 一种模型压缩方法、***、终端及存储介质
CN112464230B (zh) * 2020-11-16 2022-05-17 电子科技大学 基于神经网络中间层正则化的黑盒攻击型防御***及方法
CN112464230A (zh) * 2020-11-16 2021-03-09 电子科技大学 基于神经网络中间层正则化的黑盒攻击型防御***及方法
CN112396129B (zh) * 2020-12-08 2023-09-05 中山大学 一种对抗样本检测方法及通用对抗攻击防御***
CN112396129A (zh) * 2020-12-08 2021-02-23 中山大学 一种对抗样本检测方法及通用对抗攻击防御***
CN112766315B (zh) * 2020-12-31 2024-03-29 湖南大学 一种用于测试人工智能模型鲁棒性的方法和***
CN112766315A (zh) * 2020-12-31 2021-05-07 湖南大学 一种用于测试人工智能模型鲁棒性的方法和***
CN112884552B (zh) * 2021-02-22 2023-11-21 广西师范大学 一种基于生成对抗和知识蒸馏的轻量级多模推荐方法
CN112884552A (zh) * 2021-02-22 2021-06-01 广西师范大学 一种基于生成对抗和知识蒸馏的轻量级多模推荐方法
CN113111731A (zh) * 2021-03-24 2021-07-13 浙江工业大学 基于测信道信息的深度神经网络黑盒对抗样本生成方法及***
CN112989361B (zh) * 2021-04-14 2023-10-20 华南理工大学 一种基于生成对抗网络的模型安全性检测方法
CN112989361A (zh) * 2021-04-14 2021-06-18 华南理工大学 一种基于生成对抗网络的模型安全性检测方法
CN113139618A (zh) * 2021-05-12 2021-07-20 电子科技大学 一种基于集成防御的鲁棒性增强的分类方法及装置
CN113139618B (zh) * 2021-05-12 2022-10-14 电子科技大学 一种基于集成防御的鲁棒性增强的分类方法及装置
CN113178255A (zh) * 2021-05-18 2021-07-27 西安邮电大学 一种基于gan的医学诊断模型对抗攻击方法
CN113178255B (zh) * 2021-05-18 2023-05-26 西安邮电大学 一种基于gan的医学诊断模型对抗攻击方法
CN113407939A (zh) * 2021-06-17 2021-09-17 电子科技大学 面向黑盒攻击的替代模型自动选取方法、存储介质及终端
CN113343898A (zh) * 2021-06-25 2021-09-03 江苏大学 基于知识蒸馏网络的口罩遮挡人脸识别方法、装置及设备
CN113343898B (zh) * 2021-06-25 2022-02-11 江苏大学 基于知识蒸馏网络的口罩遮挡人脸识别方法、装置及设备
CN113705362B (zh) * 2021-08-03 2023-10-20 北京百度网讯科技有限公司 图像检测模型的训练方法、装置、电子设备及存储介质
CN113705362A (zh) * 2021-08-03 2021-11-26 北京百度网讯科技有限公司 图像检测模型的训练方法、装置、电子设备及存储介质
CN113688914A (zh) * 2021-08-27 2021-11-23 西安交通大学 一种实用相对顺序对抗攻击方法
CN113837232A (zh) * 2021-08-30 2021-12-24 厦门大学 一种基于样本选择和加权损失函数的黑盒模型蒸馏方法
CN113946688A (zh) * 2021-10-20 2022-01-18 中国人民解放军国防科技大学 一种寻找自然语言处理模型天然后门的方法
CN113946688B (zh) * 2021-10-20 2022-09-23 中国人民解放军国防科技大学 一种寻找自然语言处理模型天然后门的方法
CN114118268A (zh) * 2021-11-25 2022-03-01 福州大学 以脉冲为概率生成均匀分布扰动的对抗性攻击方法及***
CN114240951A (zh) * 2021-12-13 2022-03-25 电子科技大学 一种基于查询的医学图像分割神经网络的黑盒攻击方法
CN114240951B (zh) * 2021-12-13 2023-04-07 电子科技大学 一种基于查询的医学图像分割神经网络的黑盒攻击方法
CN114299313B (zh) * 2021-12-24 2022-09-09 北京瑞莱智慧科技有限公司 对抗扰动生成方法、装置及存储介质
CN114299313A (zh) * 2021-12-24 2022-04-08 北京瑞莱智慧科技有限公司 对抗扰动生成方法、装置及存储介质
CN114500071A (zh) * 2022-02-10 2022-05-13 江苏大学 一种针对目标网站动态增长的自适应指纹攻击方法和***
CN114500071B (zh) * 2022-02-10 2024-04-16 江苏大学 一种针对目标网站动态增长的自适应指纹攻击方法和***
CN115481719B (zh) * 2022-09-20 2023-09-15 宁波大学 一种防御基于梯度的对抗攻击的方法
CN115481719A (zh) * 2022-09-20 2022-12-16 宁波大学 一种防御基于梯度的对抗攻击的方法
CN117371541A (zh) * 2023-12-08 2024-01-09 齐鲁工业大学(山东省科学院) 一种零知识、免真实数据的模型推理攻击方法
CN117371541B (zh) * 2023-12-08 2024-03-29 齐鲁工业大学(山东省科学院) 一种零知识、免真实数据的模型推理方法
CN118051949A (zh) * 2024-04-16 2024-05-17 贵州优特云科技有限公司 基于ai的平台内容安全巡检方法、装置及存储介质

Also Published As

Publication number Publication date
CN111027060B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN111027060B (zh) 基于知识蒸馏的神经网络黑盒攻击型防御方法
Chang et al. Provable benefits of overparameterization in model compression: From double descent to pruning neural networks
CN109961145B (zh) 一种针对图像识别模型分类边界敏感的对抗样本生成方法
CN112085055B (zh) 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
Wei et al. Simultaneously optimizing perturbations and positions for black-box adversarial patch attacks
CN112200243B (zh) 一种基于低问询图像数据的黑盒对抗样本生成方法
CN113674140A (zh) 一种物理对抗样本生成方法及***
CN113239131B (zh) 基于元学习的少样本知识图谱补全方法
CN111754519B (zh) 一种基于类激活映射的对抗防御方法
Gragnaniello et al. Perceptual quality-preserving black-box attack against deep learning image classifiers
CN111898645A (zh) 基于注意力机制的可迁移的对抗样本攻击方法
CN113780461B (zh) 基于特征匹配的鲁棒神经网络训练方法
CN112396129A (zh) 一种对抗样本检测方法及通用对抗攻击防御***
CN111967006A (zh) 基于神经网络模型的自适应黑盒对抗攻击方法
CN112464230B (zh) 基于神经网络中间层正则化的黑盒攻击型防御***及方法
CN114240951B (zh) 一种基于查询的医学图像分割神经网络的黑盒攻击方法
CN113704758A (zh) 一种黑盒攻击对抗样本生成方法及***
CN112016686A (zh) 一种基于深度学习模型的对抗性训练方法
CN111274958A (zh) 一种网络参数自纠正的行人重识别方法及***
CN111950635A (zh) 一种基于分层特征对齐的鲁棒特征学习方法
CN114792114B (zh) 一种基于黑盒多源域通用场景下的无监督域适应方法
CN115510986A (zh) 一种基于AdvGAN的对抗样本生成方法
CN114638356A (zh) 一种静态权重引导的深度神经网络后门检测方法及***
CN112149752A (zh) 一种单像素攻击分布可视化方法
Co et al. Universal Adversarial perturbations to understand robustness of texture vs. shape-biased training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant