CN113947579A - 一种针对图像目标探测神经网络的对抗样本检测方法 - Google Patents

一种针对图像目标探测神经网络的对抗样本检测方法 Download PDF

Info

Publication number
CN113947579A
CN113947579A CN202111212059.3A CN202111212059A CN113947579A CN 113947579 A CN113947579 A CN 113947579A CN 202111212059 A CN202111212059 A CN 202111212059A CN 113947579 A CN113947579 A CN 113947579A
Authority
CN
China
Prior art keywords
sample
countermeasure
detection
sample detection
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111212059.3A
Other languages
English (en)
Other versions
CN113947579B (zh
Inventor
曾颖明
王斌
方永强
张顺
石波
郭敏
马晓军
桓琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202111212059.3A priority Critical patent/CN113947579B/zh
Publication of CN113947579A publication Critical patent/CN113947579A/zh
Application granted granted Critical
Publication of CN113947579B publication Critical patent/CN113947579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种针对图像目标探测神经网络的对抗样本检测方法,涉及人工智能安全技术领域。该方法包括步骤:构建对抗样本检测数据集;利用目标探测神经网络模型提取对抗样本检测特征数据集;搭建对抗样本检测神经网络;进行对抗样本检测神经网络训练,得到对抗样本检测模型;进行对抗样本检测模型性能测试。本发明利用目标探测神经网络生成的目标探测框之间存在顺序关系,提升了对抗样本检测准确率,并且通过浅层特征共享机制避免了过多额外计算。

Description

一种针对图像目标探测神经网络的对抗样本检测方法
技术领域
本发明涉及人工智能安全技术领域,具体涉及一种针对图像目标探测神经网络的对抗样本检测方法。
背景技术
近年来,随着人工智能的快速发展,人工智能逐渐深入人们的日常生活,人类越来越依赖人工智能带来的高效与便捷,尤其是人脸识别、自动驾驶等基于图像识别的技术。与此同时,深度神经网络自身的安全性也吸引了越来越多的关注。其中非常重要的一类攻击为“对抗型攻击”,即别有用心的攻击者通过在图像上添加人肉眼不可见的轻微扰动将其恶意修改为对抗样本,使得图像分类器将其错分为另一个类别,给诸多人工智能应用埋下诸多安全隐患。因此,图像对抗样本检测技术具有很大的现实意义。
中国人民大学在其申请的专利“一种深度神经网络图像对抗样本检测方法和***”(专利申请号:202010111521.X,公开号:CN111353403A)中提出了一种图像对抗样本检测方法。该方法首先输入图像,计算图像的一维熵,根据图像的一维熵值,采用标量量化和平滑滤波的方法,对图像进行降噪处理,生成降噪图像,然后对图像和降噪图像进行分类,如果图像和降噪图像属于同一类别,表明输入的图像为正常样本,否则,图像为对抗样本。该发明采用标量量化和平滑滤波的方式减少图像噪声,使对抗样本图像变为可分类的干净样本。但是,该方法依然存在的不足之处是:传统的降噪算法并不适合于对抗样本噪声,导致检测准确率低;其次,该算法一次识别需要进行两次神经网络计算,增加了超过一倍的计算量,实用性差。
中山大学在其申请的专利“一种对抗样本检测方法及通用对抗攻击防御***”(专利申请号:202011425771.7,公开号:CN112396129A)中提出了一种图像对抗样本检测方法。该方法首先获取训练数据集用于训练深度神经网络模型,获取预测单元A;利用基于训练数据集生成的对抗样本,通过对抗训练方法训练深度神经网络模型,获取预测单元Β;将训练数据集和对抗样本均输入至预测单元A、Β中进行推理,分别提取相同卷积层输出的特征图并拼接,将拼接图作为分类训练数据集;采用分类训练数据集训练深度神经网络二分类模型,获取对抗样本检测模块;将需检测的输入样本分别输入至预测单元A、Β中进行推理,分别提取相同卷积层输出的特征图并进行拼接,然后将拼接图输入至对抗样本检测模块中进行检测,获取检测结果y。该发明提升了对抗样本检测准确率,避免损失模型精度的代价。但是该方法依然存在的不足之处是:模型训练开销大,检测流程繁琐效率低。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种针对图像目标探测神经网络的对抗样本检测方法,提升对抗样本检测准确率,并且避免过多额外计算。
(二)技术方案
为了解决上述技术问题,本发明提供了一种针对图像目标探测神经网络的对抗样本检测方法,包括以下步骤:
(1)构建对抗样本检测数据集:
(1a)搭建目标探测神经网络,输入干净样本数据集进行训练,得到目标探测神经网络模型;
(1b)使用不同攻击算法生成对抗样本数据集,具体是采用FGSM(Fast GradientSignMethod,快速梯度符号法)、PGD(Projected Gradient Descent,投影梯度下降法)、C&W(Carlini andWagner)等白盒攻击算法和SA(SimulatedAnnealing,模拟退火)、GA(GeneticAlgorithm,遗传算法)、GAN(GenerativeAdversarial Networks,生成式对抗网络)等黑盒攻击算法对干净样本数据集每轮迭代时输入的图像添加扰动,生成相应的对抗样本数据集;
(1c)将所述干净样本数据集和所述对抗样本数据集进行标注得到N条带标注图像数据,作为所述对抗样本检测数据集,其中,将干净样本标签为0,对抗样本标签为1;N为正整数;
(2)基于步骤1,利用所述目标探测神经网络模型提取对抗样本检测特征数据集:
(2a)将所述对抗样本检测数据集输入到所述目标探测神经网络模型,针对每张图像提取出前H个得分最高的目标探测框的特征数据,每个所述目标探测框的特征数据的大小为1×M,由H个目标探测框的特征数据组成一个H×M的特征序列作为样本的特征序列,得到N条特征序列,作为对抗样本检测特征数据集;H、M为正整数;
(2b)将所述对抗样本检测特征数据集随机打乱,然后划分为具有Ntrain=N*p个特征数据的对抗样本检测特征训练集,以及具有Ntest=N*(1-p)个特征数据的对抗样本检测特征测试集,0<p<1,表示训练集比例;
(3)搭建对抗样本检测神经网络:
(3a)搭建一个4层卷积神经网络,包括输入层、一维卷积层、全连接层、输出层,将所述输入层的尺寸设置为H×M;所述一维卷积层包含二维卷积、归一化、ReLU激活函数以及最大池化,卷积核的尺寸设置为K×M,卷积核的宽度和输入的特征序列宽度保持一致,高度K≤H,步长设置为s,采用不补零valid方式;所述全连接层包含一个全连接和ReLU激活函数,全连接的神经元个数为h;所述输出层包含一个全连接和Sigmoid激活函数,输出层的个数设置为2;
(3b)按照输入层→一维卷积层→全连接层→输出层依次链接;
(4)基于步骤2进行对抗样本检测神经网络训练,得到对抗样本检测模型:
(4a)选取二分类交叉熵损失函数作为卷积神经网络的目标函数;
(4b)设置模型训练参数:包括优化算法、训练批次大小b、迭代轮次T、学习率η,其中,所述优化算法是指一阶梯度优化算法,包括SGD(Stochastic Gradient Descent,随机梯度下降),Momentum-SGD(Stochastic GradientDescentwithMomentum,带动量的随机梯度下降),RMSProp(RootMeanSquareprop,均方根传递),Adam(AdaptiveMomentEstimation,自适应矩估计)等;
(4c)利用所述对抗样本检测特征训练集训练卷积神经网络,按照所选择的优化算法和学习率η进行网络权重更新,网络权重更新公式为
Figure BDA0003309289190000041
其中Wk代表当前权重,Wk+1代表更新后的权重,
Figure BDA0003309289190000042
代表损失函数在W=Wk时的梯度,每次输入b条特征数据,每轮迭代
Figure BDA0003309289190000043
次,迭代T轮,共计迭代
Figure BDA0003309289190000044
次后停止训练,生成对抗样本检测模型,其中
Figure BDA0003309289190000045
代表向上取整运算;
(5)基于步骤2进行对抗样本检测模型性能测试:
(5a)设置概率阈值t,将所述对抗样本检测特征测试集中的干净样本特征序列输入到对抗样本检测模型,利用概率阈值t判断样本是否为对抗样本,如果模型输出的概率值大于概率阈值t,则判定样本为对抗样本,计算模型将干净样本错误地分到对抗样本类别中真实的干净样本占所有干净样本的比例FPR,即对抗样本检测误报率,其中,FPR=FP/(FP+TN),FP代表干净样本预测为对抗样本的数量,TN代表干净样本预测为干净样本的数量;
(5b)设置概率阈值t,将所述对抗样本检测特征测试集中的不同攻击算法生成的对抗样本特征序列依次输入到对抗样本检测模型,利用概率阈值t判断样本是否为对抗样本,如果模型输出的概率值大于概率阈值t,则判定样本为对抗样本,计算模型将对抗样本错误地分到干净样本类别中真实的对抗样本占所有对抗样本的比例FNR,即对抗样本检测漏报率,其中,FNR=FN/(TP+FN),FN代表对抗样本检测为干净样本的数量,TP代表对抗样本检测为对抗样本的数量;
(5c)概率阈值t的取值范围为[0.1,0.9],重复将对抗样本检测特征测试集中的干净样本特征序列、不同攻击算法生成的对抗样本特征序列输入到对抗样本检测模型(即重复步骤5a、5b),对比在不同概率阈值情况下对抗样本检测模型的效果。
(三)有益效果
第一,与其它传统图像对抗样本检测算法相比,本发明针对目标
探测神经网络进行改进,通过浅层特征共享机制与目标探测神经网络共用骨干网络,避免了额外的计算,仅需要增加少量网络结构,就能发现目标探测识别过程中的对抗攻击行为。
第二,本发明利用了目标探测网络的目标探测框存在序列关系,对抗样本攻击时会同时影响其它临近的目标探测框的特征数据,因此采用一维卷积进行序列分类,大幅提高了针对目标探测神经网络对抗样本检测的准确率。
附图说明
图1为本发明的方法流程图;
图2为针对目标探测网络的对抗样本检测原理图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明针对图像目标探测网络的安全防护问题,基于卷积神经网络模型结构的目标探测识别***进行研究,提供一种针对图像目标探测神经网络的对抗样本检测方法。该方法根据目标探测神经网络生成的目标探测框之间的序列关系,提取目标探测框的特征作为图像的特征序列,将特征序列作为训练集训练二分类卷积神经网络实现对抗样本的检测。该方法利用目标探测神经网络生成的目标探测框之间存在顺序关系,提升了对抗样本检测准确率,并且通过浅层特征共享机制实现,仅需增加少量计算就能发现目标探测识别过程中的对抗攻击行为,避免了过多额外计算。
参考图1、图2,本发明的对抗样本检测方法具体包括以下步骤:
步骤1,构建对抗样本检测数据集。
首先获取一个Faster RCNN模型对象,将1000张干净样本数据集输入到模型进行训练,获得目标探测神经网络模型。
使用不同攻击算法生成对抗样本数据集,是指采用FGSM、PGD、C&W等白盒攻击算法和SA、GA、GAN等黑盒攻击算法对干净样本数据集每轮迭代时对输入的图像添加扰动,生成6000张对抗样本数据集。
将干净样本数据集和对抗样本数据集进行标注得到7000条带标注图像数据,作为对抗样本检测数据集,其中干净样本标签为0,对抗样本标签为1。
步骤2,利用目标探测神经网络模型提取对抗样本检测特征数据集。
将对抗样本检测数据集输入到目标探测神经网络模型,针对每张图像提取出前1000个得分最高的目标探测框的特征数据,每个目标探测框特征数据大小为1×32,由1000个目标探测框的特征数据组成一个1000×32的特征序列作为该样本的特征序列,得到7000条特征序列,作为对抗样本检测特征数据集。
将对抗样本检测特征数据集随机打乱,然后划分为具有5600个特征数据的对抗样本检测特征训练集,以及1400个特征数据的对抗样本检测特征测试集。
步骤3,搭建对抗样本检测神经网络。
搭建一个4层卷积神经网络,包括输入层、一维卷积层、全连接层、输出层,将输入层的尺寸设置为1000×32,一维卷积层包含二维卷积、归一化、ReLU激活函数以及最大池化,卷积核尺寸设置为8×32,卷积核宽度和输入的特征序列宽度保持一致,步长设置为2,采用不补零valid方式,全连接层包含一个全连接和ReLU激活函数,全连接的神经元个数为1024,输出层包含一个全连接和Sigmoid激活函数,输出层个数设置为2。
按照输入层→一维卷积层→全连接层→输出层依次链接。
步骤4,对抗样本检测神经网络训练。
选取二分类交叉熵损失函数作为卷积神经网络的目标函数。
设置模型训练参数:设置优化算法为Adam、训练批次大小b=32、迭代轮次T=60、学习率η=1e-4,概率阈值t=0.5。
利用对抗样本检测特征训练集训练卷积神经网络,按照所选择的Adam优化算法和学习率η=1e-4进行网络权重更新,网络权重更新公式为
Figure BDA0003309289190000071
Wk代表当前权重,Wk+1代表更新后的权重,
Figure BDA0003309289190000072
代表损失函数在W=Wk时的梯度,每次输入32条特征数据,每轮迭代175次,迭代60轮,共计迭代60×175次后停止训练。
步骤5,对抗样本检测模型性能测试。
将对抗样本检测特征测试集中的干净样本特征序列输入到对抗样本检测模型,计算模型将干净样本错误分到对抗样本类别中真实的干净样本所占所有干净样本的比例FPR,即对抗样本检测误报率,其中FPR=FP/(FP+TN),FP代表干净样本预测为对抗样本的数量,TN代表干净样本预测为干净样本的数量。
将对抗样本检测特征测试集中的不同攻击算法生成的对抗样本特征序列依次输入到对抗样本检测模型,计算模型将对抗样本错误分到干净样本类别中真实的对抗样本所占所有对抗样本的比例FNR,即对抗样本检测漏报率,其中FNR=FN/(TP+FN),FN代表对抗样本检测为干净样本的数量,TP代表对抗样本检测为对抗样本的数量。
改变概率阈值t大小,设置概率阈值范围为[0.1,0.9],重复将对抗样本检测特征测试集中的干净样本特征序列、不同攻击算法生成的对抗样本特征序列输入到对抗样本检测模型,对比在不同概率阈值情况下对抗样本检测模型的效果。
下面结合仿真实验对本发明的效果做进一步的描述。
仿真实验条件:
本发明的仿真实验的硬件平台为:Intel Core(TM)[email protected]×8,GPUNVIDIA GeForce GTX 1080Ti,11GB显存。
本发明的仿真实验的软件平台为:Windows 10操作***和Spyder集成开发环境。
仿真内容和结果:
本发明的仿真实验是,首先利用目标探测网络和攻击算法生成对抗样本检测数据集,然后利用目标探测神经网络提取对抗样本检测特征数据集,将特征数据集输入到对抗样本检测网络中,得到对抗样本检测结果,按照公式、计算模型将干净样本错误分到对抗样本类别中真实的干净样本所占所有干净样本的比例以及模型将对抗样本错误分到干净样本类别中真实的对抗样本所占的所有对抗样本的比例。结果如表1所示。
下面结合仿真实验对本发明的效果做进一步的描述。
仿真实验条件:
本发明的仿真实验的硬件平台为:Intel Core(TM)[email protected]×8,GPUNVIDIAGeForceGTX 1080Ti,11GB显存。
本发明的仿真实验的软件平台为:Windows 10操作***和Spyder集成开发环境。
仿真内容和结果:
本发明的仿真实验是,首先利用目标探测网络和攻击算法生成对抗样本检测数据集,然后利用目标探测神经网络提取对抗样本检测特征数据集,将特征数据集输入到对抗样本检测网络中,得到对抗样本检测结果,按照公式FPR=FP/(FP+TN)、FNR=FN/(TP+FN)计算模型将干净样本错误分到对抗样本类别中真实的干净样本所占所有干净样本的比例以及模型将对抗样本错误分到干净样本类别中真实的对抗样本所占的所有对抗样本的比例。结果如表1所示。
表1不同概率阈值下的对抗样本检测结果
Figure BDA0003309289190000091
Figure BDA0003309289190000101
对照表1的第2列的结果,本发明对于干净样本的识别,随着概率阈值的增大,本发明对对抗样本检测的误报率逐渐减小。对照表1的第3、4、5列的结果,本发明对于白盒攻击生成的对抗样本检测结果,随着阈值的增大本发明对对抗样本检测的漏报率分别从0.57%、1.04%、0.57%增大到1.32%、3.78%、1.79%。对照表1的第6、7、8列的结果,本发明对于黑盒攻击生成的对抗样本检测结果,随着阈值的增大,本发明对对抗样本检测的漏报率识分别从0.09%、0.19%、0.00%增大到0.19%、0.57%、0.19%,因此,本发明的方法适用于大部分攻击算法生成的对抗样本检测任务。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种针对图像目标探测神经网络的对抗样本检测方法,其特征在于,包括以下步骤:
(1)构建对抗样本检测数据集;
(2)基于步骤1,利用目标探测神经网络模型提取对抗样本检测特征数据集;
(3)搭建对抗样本检测神经网络;
(4)基于步骤2进行对抗样本检测神经网络训练,得到对抗样本检测模型;
(5)基于步骤2进行对抗样本检测模型性能测试。
2.如权利要求1所述的方法,其特征在于,步骤1具体为:
(1a)搭建目标探测神经网络,输入干净样本数据集进行训练,得到目标探测神经网络模型;
(1b)使用不同攻击算法生成对抗样本数据集,具体是对干净样本数据集每轮迭代时输入的图像添加扰动,生成相应的对抗样本数据集;
(1c)将所述干净样本数据集和所述对抗样本数据集进行标注得到N条带标注图像数据,作为所述对抗样本检测数据集,其中,将干净样本标签为0,对抗样本标签为1;N为正整数。
3.如权利要求2所述的方法,其特征在于,步骤2具体为:
(2a)将所述对抗样本检测数据集输入到所述目标探测神经网络模型,针对每张图像提取出前H个得分最高的目标探测框的特征数据,每个所述目标探测框的特征数据的大小为1×M,由H个目标探测框的特征数据组成一个H×M的特征序列作为样本的特征序列,得到N条特征序列,作为对抗样本检测特征数据集;H、M为正整数;
(2b)将所述对抗样本检测特征数据集随机打乱,然后划分为具有Ntrain=N*p个特征数据的对抗样本检测特征训练集,以及具有Ntest=N*(1-p)个特征数据的对抗样本检测特征测试集,0<p<1,表示训练集比例。
4.如权利要求3所述的方法,其特征在于,步骤3具体为:
(3a)搭建一个4层卷积神经网络,包括输入层、一维卷积层、全连接层、输出层,将所述输入层的尺寸设置为H×M;所述一维卷积层包含二维卷积、归一化、ReLU激活函数以及最大池化,卷积核的尺寸设置为K×M,卷积核的宽度和输入的特征序列宽度保持一致,高度K≤H,步长设置为s,采用不补零valid方式实现;所述全连接层包含一个全连接和ReLU激活函数,全连接的神经元个数为h;所述输出层包含一个全连接和Sigmoid激活函数,输出层的个数设置为2;
(3b)按照输入层→一维卷积层→全连接层→输出层依次链接。
5.如权利要求4所述的方法,其特征在于,步骤4具体为:
(4a)选取二分类交叉熵损失函数作为卷积神经网络的目标函数;
(4b)设置模型训练参数:包括优化算法、训练批次大小b、迭代轮次T、学习率η,其中,所述优化算法是指一阶梯度优化算法;
(4c)利用所述对抗样本检测特征训练集训练卷积神经网络,按照所选择的优化算法和学习率η进行网络权重更新,网络权重更新公式为
Figure FDA0003309289180000021
其中Wk代表当前权重,Wk+1代表更新后的权重,
Figure FDA0003309289180000022
代表损失函数在W=Wk时的梯度,每次输入b条特征数据,每轮迭代
Figure FDA0003309289180000023
次,迭代T轮,共计迭代
Figure FDA0003309289180000024
次后停止训练,生成对抗样本检测模型,其中
Figure FDA0003309289180000025
代表向上取整运算。
6.如权利要求6所述的方法,其特征在于,步骤5具体为:
(5a)设置概率阈值t,将所述对抗样本检测特征测试集中的干净样本特征序列输入到对抗样本检测模型,利用概率阈值t判断样本是否为对抗样本,如果模型输出的概率值大于概率阈值t,则判定样本为对抗样本,计算模型将干净样本错误地分到对抗样本类别中真实的干净样本占所有干净样本的比例FPR,即对抗样本检测误报率,其中,FPR=FP/(FP+TN),FP代表干净样本预测为对抗样本的数量,TN代表干净样本预测为干净样本的数量;
(5b)将所述对抗样本检测特征测试集中的不同攻击算法生成的对抗样本特征序列依次输入到对抗样本检测模型,利用概率阈值t判断样本是否为对抗样本,如果模型输出的概率值大于概率阈值t,则判定样本为对抗样本,计算模型将对抗样本错误地分到干净样本类别中真实的对抗样本占所有对抗样本的比例FNR,即对抗样本检测漏报率,其中,FNR=FN/(TP+FN),FN代表对抗样本检测为干净样本的数量,TP代表对抗样本检测为对抗样本的数量;
(5c)重复将对抗样本检测特征测试集中的干净样本特征序列、不同攻击算法生成的对抗样本特征序列输入到对抗样本检测模型,对比在不同概率阈值情况下对抗样本检测模型的效果。
7.如权利要求1所述的方法,其特征在于,步骤1b中,采用FGSM、PGD、C&W这些白盒攻击算法和SA、GA、GAN这些黑盒攻击算法对干净样本数据集每轮迭代时输入的图像添加扰动,生成相应的对抗样本数据集。
8.如权利要求5所述的方法,其特征在于,步骤4b中,所述梯度优化算法包括SGD、Momentum-SGD、RMSProp,Adam。
9.如权利要求6所述的方法,其特征在于,所述概率阈值的范围为[0.1,0.9]。
10.一种如权利要求1至9中任一项所述方法在人工智能安全技术领域中的应用。
CN202111212059.3A 2021-10-18 2021-10-18 一种针对图像目标探测神经网络的对抗样本检测方法 Active CN113947579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111212059.3A CN113947579B (zh) 2021-10-18 2021-10-18 一种针对图像目标探测神经网络的对抗样本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111212059.3A CN113947579B (zh) 2021-10-18 2021-10-18 一种针对图像目标探测神经网络的对抗样本检测方法

Publications (2)

Publication Number Publication Date
CN113947579A true CN113947579A (zh) 2022-01-18
CN113947579B CN113947579B (zh) 2022-05-17

Family

ID=79331413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111212059.3A Active CN113947579B (zh) 2021-10-18 2021-10-18 一种针对图像目标探测神经网络的对抗样本检测方法

Country Status (1)

Country Link
CN (1) CN113947579B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648678A (zh) * 2022-03-29 2022-06-21 清华大学 对抗样本检测方法、装置、计算机设备和存储介质
TWI818891B (zh) * 2022-06-02 2023-10-11 鴻海精密工業股份有限公司 訓練方法及電子裝置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241933A (zh) * 2019-12-30 2020-06-05 南京航空航天大学 一种基于通用对抗扰动的养猪场目标识别方法
US20200250304A1 (en) * 2019-02-01 2020-08-06 Nec Laboratories America, Inc. Detecting adversarial examples
CN111600835A (zh) * 2020-03-18 2020-08-28 宁波送变电建设有限公司永耀科技分公司 一种基于fgsm对抗攻击算法的检测与防御方法
CN112396129A (zh) * 2020-12-08 2021-02-23 中山大学 一种对抗样本检测方法及通用对抗攻击防御***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200250304A1 (en) * 2019-02-01 2020-08-06 Nec Laboratories America, Inc. Detecting adversarial examples
CN111241933A (zh) * 2019-12-30 2020-06-05 南京航空航天大学 一种基于通用对抗扰动的养猪场目标识别方法
CN111600835A (zh) * 2020-03-18 2020-08-28 宁波送变电建设有限公司永耀科技分公司 一种基于fgsm对抗攻击算法的检测与防御方法
CN112396129A (zh) * 2020-12-08 2021-02-23 中山大学 一种对抗样本检测方法及通用对抗攻击防御***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JAN HENDRIK METZEN ET AL.: "On Detecting Adversarial Perturbations", 《ARXIV:1702.04267V2》 *
曾利宏 等: "二分类判别网络的对抗样本检测", 《江西师范大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648678A (zh) * 2022-03-29 2022-06-21 清华大学 对抗样本检测方法、装置、计算机设备和存储介质
TWI818891B (zh) * 2022-06-02 2023-10-11 鴻海精密工業股份有限公司 訓練方法及電子裝置

Also Published As

Publication number Publication date
CN113947579B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
Jie et al. RunPool: A dynamic pooling layer for convolution neural network
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN110837850B (zh) 一种基于对抗学习损失函数的无监督域适应方法
CN108710892B (zh) 面向多种对抗图片攻击的协同免疫防御方法
CN113947579B (zh) 一种针对图像目标探测神经网络的对抗样本检测方法
CN110175611B (zh) 面向车牌识别***黑盒物理攻击模型的防御方法及装置
CN108718310A (zh) 基于深度学习的多层次攻击特征提取及恶意行为识别方法
CN112231562A (zh) 一种网络谣言识别方法及***
CN112836798A (zh) 一种针对场景文字识别的非定向式白盒对抗攻击方法
CN110348475A (zh) 一种基于空间变换的对抗样本增强方法和模型
CN113127857B (zh) 针对对抗性攻击的深度学习模型防御方法及深度学习模型
CN110826056B (zh) 一种基于注意力卷积自编码器的推荐***攻击检测方法
Jain et al. Adversarial text generation for ***'s perspective api
CN112217787B (zh) 一种基于ed-gan的仿冒域名训练数据生成方法及***
CN113627543B (zh) 一种对抗攻击检测方法
CN112633377A (zh) 一种基于生成对抗网络的人体行为预测方法及***
CN112884150A (zh) 一种预训练模型知识蒸馏的安全性增强方法
CN110956684B (zh) 基于残差网络的人群运动疏散仿真方法及***
CN115331079A (zh) 一种面向多模态遥感图像分类网络的对抗攻击方法
Machado et al. MultiMagNet: A Non-deterministic Approach based on the Formation of Ensembles for Defending Against Adversarial Images.
CN116051924B (zh) 一种图像对抗样本的分治防御方法
CN113948067B (zh) 一种具有听觉高保真度特点的语音对抗样本修复方法
CN113204641B (zh) 一种基于用户特征的退火注意力谣言鉴别方法及装置
CN114565791A (zh) 一种人物档案识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant