CN113780468B - 一种基于少量神经元连接的健壮图像分类模型训练方法 - Google Patents

一种基于少量神经元连接的健壮图像分类模型训练方法 Download PDF

Info

Publication number
CN113780468B
CN113780468B CN202111140405.1A CN202111140405A CN113780468B CN 113780468 B CN113780468 B CN 113780468B CN 202111140405 A CN202111140405 A CN 202111140405A CN 113780468 B CN113780468 B CN 113780468B
Authority
CN
China
Prior art keywords
neuron
model
results
attack
connections
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111140405.1A
Other languages
English (en)
Other versions
CN113780468A (zh
Inventor
郭延明
李建
老松杨
阮逸润
赵翔
魏迎梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111140405.1A priority Critical patent/CN113780468B/zh
Publication of CN113780468A publication Critical patent/CN113780468A/zh
Application granted granted Critical
Publication of CN113780468B publication Critical patent/CN113780468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于少量神经元连接的健壮模型训练方法,所述方法用于图像分类鲁棒模型训练,所述方法包括骨干网络和决策模块两部分;所述骨干网络对输入的图像进行特征提取,并在最后一个卷积层和全局平均池化层来提取输入图像的潜在特征L;所述决策模块包括四个过程:积运算、排序、剪裁、求和;所述积运算为计算L与W的乘积,得到神经元连接的计算结果,所述排序为对所述神经元连接的计算结果进行排序;所述剪裁为将排序后的每组结果的前α和后β设置为0;所述求和为通过对每个神经元中剩余的非零结果求和来得到预测值,通过预测值得到分类结果。本方法不增加模型的可训练参数,并且可以在不使用对抗性训练的情况下获得高鲁棒性的模型。

Description

一种基于少量神经元连接的健壮图像分类模型训练方法
技术领域
本发明属于图像分类技术领域,具体是涉及一种基于少量神经元连接的健壮图像分类模型训练方法。
背景技术
深度神经网络(DNN)越来越多地应用于现实世界,并在图像分类、图像分割、目标检测等多个研究领域取得了令人瞩目的成功。然而,许多研究表明DNN容易受到对抗样本的影响。在图像分类任务中,对抗性攻击过程是指在干净的图像中添加精心设计的扰动,然后使用对抗性示例来欺骗模型。对抗样本可以使被攻击模型输出错误预测的概率很高。对抗性攻击的研究非常丰富,可分为白盒攻击、黑盒攻击、有目标攻击和无目标攻击。
对抗性攻击严重限制了人工智能在安全场景中的应用,因为对抗性攻击易于实施,并且可能给现实世界带来巨大损失。因此,抵抗对抗性攻击受到越来越多的关注,并提出了许多防御方法。这些现有的防御方法通常使用对抗性训练或调整网络结构来抵抗对抗性攻击,其中对抗性训练被认为是提高模型鲁棒性的一种简单有效的方法。然而,值得注意的是,对抗训练是一个非常缓慢的过程。例如,对于CIFAR-10数据集上的对抗性训练,每个epoch将生成50,000个对抗样本,并且每个epoch中网络将学习双倍的训练数据(50,000个对抗样本和50,000个干净数据),这大大增加了网络的训练时间。所以,还有很多东西需要改进,比如模型复杂度和训练速度。
对于具有预定义损失函数lf的分类模型fw(例如,图像分类任务中广泛使用的交叉熵损失)。在训练阶段,使用lf函数来计算模型fw的损失值,目标是找到参数w最小化损失函数lf。相比之下,对抗性攻击的目标是最大化损失函数lf的值。向输入图像添加梯度是欺骗模型的最直接和有效的方法。著名的白盒攻击方法包括FGSM、PGD、DDN,这些方法通常用于评估防御能力。
FastGradientSignMethod(FGSM)是一种高效的单步攻击算法,它使用输入图像的符号化梯度来生成对抗样本。对于给定的干净图像x及其标签y,FGSM使用等式(1)生成对抗性示例x'。
Figure GDA0003714480050000011
其中ε为攻击强度,取值范围为0-255。sign(·)返回梯度的符号。PGD是FGSM的一种变体,在设置xk=1=x的前提下,使用k次梯度生成对抗样本。该过程可以描述为:
Figure GDA0003714480050000012
其中α是一个小步长,对抗样本在原始输入x的lp-ball内,且通过实验证明PGD是所有一阶对手中的普遍对手。
DDN是一种经典的L2-norm攻击方法,可以看作是C&W的变种。DDN可以比C&W更快地获得对抗样本。并且DDN攻击在与C&W类似的扰动水平下也可以获得高攻击成功率。因此,DDN通常用于评估模型对L2-norm攻击的鲁棒性。
抵御对抗性攻击的主要方法可以分为对抗训练和调整网络结构两大类。对抗训练被认为是最流行和最有效的防御方法,是最常用的防御基线之一。有学者建议使用PGD生成的对抗样本来训练稳健模型,因为PGD是通用的一阶对手。
修改网络结构是另一种常用的防御方法。最近的研究已经证明在原始网络结构中加入噪声层可以提高模型的鲁棒性。随机自集成(RSE)方法在卷积层中加入了一个加性噪声。噪声是从均值为0的正态分布中采样的,但分布的方差需要手动设置。相比之下,参数化噪声注入(PNI)添加从正态分布采样的噪声,并通过网络为每个噪声值学习权重。采样噪声的均值和方差与卷积层权重相同。Learn2Perturb(L2P)是PNI的最新扩展,它直接将噪声层输出添加到网络层。Learn2Perturb允许网络通过交替训练噪声注入模块和网络层来学习噪声。
尽管这些方法获得了较高的扰动数据精度,但它们增加了网络的训练负担,并严重降低了干净数据的精度。
发明内容
本发明为了解决上述问题,提出了一种基于少量神经元连接的健壮图像分类模型训练方法(Few2Decide),来训练一个图像分类的鲁棒模型,所述模型在全连接层丢弃部分非鲁棒连接,其余连接可以保持鲁棒预测,消除了对抗训练的巨大计算成本。该方法具体包括:
所述方法包括骨干网络和决策模块两部分,所述骨干网络对输入的图像进行特征提取,并在最后一个卷积层和全局平均池化层来提取输入图像的潜在特征L,所述决策模块包括积运算、排序、剪裁、求和;
所述积运算为计算L与W的乘积,得到神经元连接的计算结果,所述W是全连接层的权重矩阵,W的大小是n×m,其中n是数据集的类别数,m是图像的潜在特征L的长度;所述排序为对所述每个神经元包含的连接的计算结果进行排序;所述剪裁为将排序后的每组结果的前α和后β设置为0;所述求和为通过对每个神经元中剩余的非零结果求和来得到预测值,通过预测值得到分类结果。
进一步的,所述积运算使用hadamard积来得到神经元连接的计算结果。
进一步的,所述对所述神经元连接的计算结果进行排序具体为将每个神经元包含的连接的计算结果从小到大进行排序。
进一步的,所述α和所述β设为m的1/3。
进一步的,所述通过预测值得到分类结果具体通过查询最大预测值的索引,得到分类结果。
进一步的,所述鲁棒模型使用干净的数据来训练,并使用交叉熵损失作为损失函数。
进一步的,权重W使用均匀分布来初始化,且在训练阶段是固定的。
本发明提出的一种简单的方法来训练鲁棒模型,消除了对抗训练的巨大计算成本。具体来说,本发明设计了一种方法来丢弃全连接层中的一些非鲁棒神经元连接,并使用剩余的连接来计算每个类别的预测分数。本发明提出的方法不增加模型的可训练参数,并且可以在不使用对抗性训练的情况下获得高鲁棒性的模型,其在白盒环境下,在常用的用于评估模型防御能力的数据集(CIFAR-10和MNIST)上,本方法在多种强攻击下显著提高了模型鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为基于少量神经元连接的健壮图像分类模型训练方法示意图。
图2为FGSM和PGD不同攻击强度下Few2Decide与其他方法的比较。
图3为神经元连接的计算结果。
图4为在CIFAR-10测试集上,ResNet-56在PGD攻击下的扰动数据准确性与攻击步骤k的关系。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了有效抵御对抗性攻击,首先研究对抗性攻击对网络输出的影响。使用T-SNE工具在有/无攻击的标准模型(ResNet-56)中可视化图像特征分布。具体来说,我们收集最后一个卷积层的输出,然后使用PCA(Principal Component Analysis)将输出投影到三维空间。同一类别中的干净数据特征是紧密聚集的。我们可视化了FGSM和PGD攻击下类别truck的干净数据特征和类别truck的扰动图像特征。可以发现攻击方法使对抗样本的特征远离干净的数据。
接下来,我们展示了图像特征的变化如何影响全连接层神经元的最终分类结果。图像特征(L={L_1,L_2,...,L_{63},L_{64})的长度为64。全连接层有10个神经元,每个神经元有64个权重。给定权重矩阵是W,我们可以根据公式3得到10个类别的预测分数{P_0,P_1,...,P_9}。
Pi=ΣWij·Lj j=1,2,3,…,63,64 (3)
我们将神经元中64个连接的计算结果从小到大排序。另外,我们还展示了攻击下的计算结果。可以看到,虽然神经元输出的变化愚弄了模型,但是攻击算法并没有改变64个连接计算结果的中值分布。
从以上可知,虽然添加到图像中的扰动改变了模型的预测结果,但是在每一个神经元中有部分神经元连接的计算结果变化不大。因此,我们可以将每个神经元包含的连接分为两种类型:鲁棒连接、非鲁棒连接。(1)鲁棒连接:受到攻击时鲁棒连接的计算结果没有明显的变化,位于结果分布的中间。(2)非鲁棒连接:非鲁棒连接的计算结果在攻击下有明显的变化,位于结果分布的顶部或底部。因此,可仅通过在全连接层中稳健连接来确定图像类别。
在图1中展示了本发明方法(Few2Decide)示意图。本方法主要包括一个骨干网络和一个决策模块。W是全连接层的权重矩阵,W的大小是n×m,其中n是数据集的类别数,m是图像的潜在特征L的长度。使用骨干网络的最后一个卷积层和全局平均池化来提取输入图像的潜在特征L,然后使用决策模块计算模型预测值。决策模块有四个过程,包括:积运算、排序、剪裁、求和。
积运算:矩阵之间有两种乘法,分别为hadamard积和matmul积,Hadamard积是指两个相同形状矩阵的逐元素相乘。使用hadamard积来获得权重W的计算结果(即神经元连接的计算结果)。
排序:十个类别分类器有十组结果(Wij·Lj,i=0,1,2...,9)。在经过hadamard乘积过程后,将每个神经元包含的连接的计算结果从小到大排序。
剪裁:排序后,将每组结果的前α和后β设置为0。鲁棒连接约占图像特征长度的1/3。所以,将α和β设为m/3。
求和:通过对每个神经元中剩余的非零结果求和来得到预测值。然后查询最大预测值的索引,得到分类结果。
上述过程与dropout的不同之处在于以下两点:1)本发明的方法仅停用部分非鲁棒连接,而dropout随机停用整个神经元。2)本发明的方法在模型训练和测试阶段都存在,但是dropout在测试阶段用期望值代替了随机失活。
同时,本发明中,只使用干净的数据来训练模型,并使用交叉熵损失作为损失函数。权重W使用均匀分布U~(0,1)来初始化。为了加快模型收敛的过程,权重W在训练阶段是固定的。
为了评估本方法的防御性能,采用Few2Decide方法来训练各种模型并观察它们对不同攻击方法的鲁棒性。此外,将本方法与典型的普通PGD对抗训练以及其他通过修改网络结构获得最先进防御性能的方法进行比较,包括随机自集成(RSE)、对抗性贝叶斯神经网络(Adv-BNN)、参数噪声注入(PNI)和Learn2Perturb(L2P)。
实验使用两个常用的数据集来评估模型防御能力,CIFAR-10和MNIST。CIFAR-10数据集涉及10个类别的自然图像,由50,000张训练图像和10,000张测试图像组成。每张图像都设置了RGB通道,大小为32×32像素。MNIST数据集是一系列手写数字的灰度图像,由60,000张训练图像和10,000张测试图像组成。每个图像只有一个通道,大小为28×28像素。对于这两个数据集,在训练期间使用Learn2Perturb(L2P)的相同数据增强策略(即随机裁剪、随机翻转)。此外,我们在模型前面将归一化设置为不可训练的层,这样攻击算法可以直接将对抗性扰动添加到干净的数据中。
骨干网络:使用经典的ResidualNetworks作为骨干网络,在两个数据集上评估我们的方法。具体来说,使用ResNet-(20,32,44,56)来研究网络深度对不同方法防御能力的影响。ResNet-20([1.5x],[2x],[4x])用于研究网络宽度对防御能力的影响。ResNet-20[nx]表示每个卷积层中的卷积核数增加到n倍。
攻击:为了评估防御能力,将本方法与其他防御方法进行比较,抵抗基于l∞范数的攻击FGSM和PGD。对于攻击算法,遵循与其他方法相同的配置。对于PGD攻击,在方程中设置攻击强度ε。在CIFAR-10上为8/255,在MNIST上设置为0.3,将迭代步数k设置为7,步长α=0.01。FGSM攻击与PGD保持相同的攻击强度ε。在完整的测试数据中评估模型在攻击下的准确性。由于PGD具有随机初始化过程,因此在每次评估中进行5次PGD攻击,并将模型精度报告为(mean±std)%。对于DDN攻击,使用文献(J.Rony,L.G.Hafemann,L.S.Oliveira,I.B.Ayed,R.Sabourin,and E.Granger,“Decoupling direction and norm forefficient gradient-based l2 adversarial attacks and defenses,”in CVPR,2019)中的默认设置。
表1与不设防网络的比较
Figure GDA0003714480050000051
表1反映了本发明提出的方法的有效性,Parameter表示需要训练的所有参数的数量。为了评估我们提出的模块的有效性,首先比较了模型在干净数据和扰动数据上使用/不使用本方法的准确性。干净数据是数据集中的原始测试图像。扰动数据是通过向干净数据添加对抗性扰动而形成的。如表1所示,采用我们方法的骨干网络参数小于未设防模型(原始模型未做任何修改),这是因为我们的模型没有使用传统的全连接层,并且权重不可训练。虽然我们对CIFAR-10和MNIST使用相同的骨干,但当网络用于MNIST时,将第一个卷积层输入通道调整为1。因此使MNIST模型参数小于CIFAR-10。
首先,可以观察到攻击会显著损害模型的准确性,尤其是对于未设防的模型。例如,ResNet-44和ResNet-56在CIFAR-10数据集上的干净数据准确率超过93%,但在PGD攻击下的准确率下降到零,这是因为扰动数据特征和干净数据特征分布有很大不同。相比之下,我们的方法可以保留健壮的连接,因此我们的方法可以增强模型抵抗攻击的能力。由此可见,采用本发明所提出方法的骨干网络在PGD攻击下仍然可以保持60%以上的准确率。
其次,我们的方法在一定程度上也比不设防模型降低了干净数据的准确性,这是因为我们的模型在决策阶段使用的神经元连接比不设防模型少。丢弃的神经元连接也与标签相关。因此,当我们的模型应用于干净的数据时,准确率将不可避免地下降。但是鲁棒性的增加可以弥补这种干净的数据准确性损失。例如,当我们使用ResNet-56作为骨干网络时,我们的方法在CIFAR-10干净数据上的准确率降低了0.41%(93.3%→92.89%),但扰动数据的准确率提高了68.08%。
为了进一步说明我们方法的有效性,将本发明所提出的方法与当前最先进的方法进行了比较,包括普通对抗训练、PNI、Adv-BNN和L2P。与竞争方法一致,以下实验在CIFAR-10数据集上进行。
由于本发明所提出的方法下的网络不具有随机性,干净数据和FGSM扰动数据的精度是固定的。对于随机性方法,其结果表示为(mean±std)%。#Clean是骨干网络在干净数据上的准确率。部分结果摘自文献(Z.He,A.S.Rakin,and D.Fan,“Parametric noiseinjection:Trainable randomness to improve deep neural network robustnessagainst adversarial attack,”in CVPR,2019)和文献(A.Jeddi,M.J.Shafiee,M.Karg,C.Scharfenberger,and A.Wong,“Learn2perturb:an end-toend feature perturbationlearning to improve adversarial robustness,”in CVPR,2020)。如果我们在竞争方法中获得更高级别的准确率,我们会报告我们自己的实验结果。我们将每种类型准确率的最大值加粗。
表2比较Few2Decide方法和当前最先进方法的性能
Figure GDA0003714480050000061
表2展示了不同网络的比较结果。首先,可以发现所有方法都比不设防模型降低了干净数据的准确性。例如,当本发明所提出的方法使用ResNet-56作为骨干网络时,三种竞争方法的清洁数据准确率分别为86.0%、77.2%和84.82%。证明本发明所提出的方法损失相对较少的干净数据准确性。虽然我们的研究重点是模型防御能力,但确保模型在干净数据上获得令人满意的准确性也非常重要。所以,我们认为本发明所提出的方法更加有效和实用。其次,网络深度和宽度的增加可以增强模型拟合能力,使模型学习的特征更加准确,有助于我们的方法找到稳健的连接。如表2所示,竞争方法的防御能力不随骨干网深度和宽度的增加而增加。以Adv-BNN和L2P方法为例,在PGD攻击下,它们的扰动数据精度保持在54.62%,骨干网络深度从32增加到56。随着骨干宽度从ResNet-20增加到ResNet-20(4×),扰动数据的准确度甚至下降。相比之下,本发明所提出的方法可以通过增加网络容量来提供更好的性能。例如,当骨干网络深度从20增加到56时,FGSM攻击下的准确率从64.84%增加到75.41%,PGD攻击下的准确率从53.01%增加到68.08%。此外,增加网络宽度也增强了我们的方法防御能力。ResNet-20和ResNet-20([1.5x],[2x],[4x])的结果表明,在FGSM攻击下,我们模型的扰动数据精度从64.84%提高到80.4%,在PGD攻击下从53.01%提高到73.01%。这证明本发明所提出的方法比竞争方法更具适应性,因为我们不需要单独为每个网络架构仔细设计。
表3中报告的结果基于文献中的最高准确度。对于PGD攻击,攻击强度ε=8/255,k=7。部分结果摘自文献(A.Jeddi,M.J.Shafiee,M.Karg,C.Scharfenberger,and A.Wong,“Learn2perturb:an end-toend feature perturbation learning to improveadversarial robustness,”in CVPR,2020)。
表3在CIFAR-10上将提出的Few2Decide与最先进的方法进行比较
Figure GDA0003714480050000071
同时还将本发明所提出的方法与其他当前最先进的方法进行比较,以在CIFAR-10数据集上提供强大的网络模型。由于不同的方法对骨干网的适应性不同,不考虑每种方法使用的骨干网,只报告最高的扰动数据精度。表3显示本发明所提出的方法在PGD攻击下以8/255的扰动强度在CIFAR-10上实现了最先进的对抗精度。此外,我们的方法比其他方法具有更高的干净数据精度。
以上实验结果是基于一定强度的攻击。为了评估这些方法在广泛威胁强度下的防御能力,使用不同的防御方法(包括PNI、Vanilla、Few2Decide和undefended模型)训练ResNet-56网络,并评估它们在不同强度的FGSM和PGD攻击下的鲁棒准确性。
图2为FGSM和PGD不同攻击强度下Few2Decide与其他方法的比较。对于(a)和(b),x轴代表ε/255的攻击强度,y轴代表每个模型被攻击后剩余的准确率。对于(c),x轴代表攻击迭代次数k。
图2(a)显示了几种模型在FGSM攻击下的准确率,ε从1/255增加到20/255。对于PGD攻击,增加攻击强度ε和迭代步数k可以增加PGD攻击能力。当k=7且ε从1/255增加到20/255时,模型精度如图2(b)所示。图2(c)显示了当ε=8/255且k从0增加到20时的模型精度。
可以观察到,随着攻击强度的增加,更多的对抗性噪声被添加到干净的数据中,因此所有方法的准确性都在下降。可以看到,所有防御方法都具有一定的防御能力,因为它们的准确性总是高于不设防模型。我们的Few2Decide方法在所有设置中始终以明显的优势优于所有竞争方法。这表明所提出的方法仍然可以很好地抵抗各种强度的攻击。图2(c)还表明,我们的方法可以提供稳定的防御,因为当攻击达到饱和以后,模型精度不会再随着PGD攻击步骤的增加而降低。
对基于L∞范数的攻击具有鲁棒性的防御方法并不一定意味着提高针对任何特定攻击方法的测试数据准确性。为了验证我们的方法也具有针对基于L2范数的攻击的防御能力。我们对我们的模型进行DDN攻击。DDN攻击是一种强L2规范的攻击,很难降低DDN攻击的成功率。但是对抗性扰动的L2范数可以反映攻击模型的难度。
表4基于L2-norm的攻击DDN的比较
Figure GDA0003714480050000081
我们在表4中报告了扰动的平均L2范数,其中,括号中的数值为测试模型的攻击成功率。
对于无防御模型ResNet-56,对抗性扰动的平均L2范数为0.109,DDN攻击成功率为100%。相比之下,我们模型的平均扰动L2范数增加到0.336。对于模型ResNet-20[4x],对抗性扰动的平均L2范数也比不设防模型有所增加。这表明我们的方法增强了模型的鲁棒性,因为攻击算法必须使用更高水平的噪声才能愚弄我们的模型。此外,我们的方法可以降低DDN攻击的成功率。攻击成功率的降低和噪声水平的增加证明我们的模型也具有针对L2-norm攻击的防御能力。
为了评估我们的模型已经学习了鲁棒的连接。除了上面的定量评估之外,在本节中,我们将我们的Few2Decide选择的鲁棒连接的计算结果可视化。
图3为我们的方法选择的神经元连接的计算结果。攻击强度设置为8/255。所有结果都基于ResNet-56作为骨干网络,使用我们的Few2Decide方法,但没有进行对抗训练。图3(a)-图3(j)的横坐标是横坐标是神经元连接的序号,纵坐标是该神经元连接的计算结果,图3(a)-图3(j)分别为十个类别分类器在干净样本、FGSM对抗样本、PGD对抗样本输入到神经网络时,全连接神经元的输出,其输出结果分别为(72.4,55.6,169.9)、(68.6,57.1,170.9)、(74.2,65.6,208.3)、(75.6,64.8,187.8)、(56.3,51.0,169.5)、(74.5,71.4,230.9)、(67.7,65.2,162.7)、(65.9,58.6,186.5)、(113.0,96.7,298.5)、(64.1,53.7,148.3),图3(k)为给定的图像及其标签,图3(1)可视化了10个神经元输出的变化趋势。
如图3所示,我们使用排序后的第20到40个神经元进行预测,并使用骨干网络(ResNet-56)。实线是干净数据计算结果。长虚线代表PGD攻击下的结果,短虚线代表FGSM攻击。攻击强度设为8/255。当网络采用我们的防御方法时,扰动图像未能欺骗分类器。对于一步攻击FGSM,当扰动图像特征输入到权重W时,我们的模型会调整用于计算预测分数的连接,因此我们模型选择的计算结果不会发生显着变化。对于多步攻击PGD,每步攻击后,我们的模型动态调整使用的神经元连接。虽然攻击算法仍然可以改变神经元的计算结果,但预测分数的分布并没有改变。例如,船舶(类别8)的分数仍然是最大的,甚至每个类别分数之间的关系也没有改变。因此,我们的模型已经学习了鲁棒的连接,并且我们的模型对对抗性攻击具有鲁棒性。
图4为在CIFAR-10测试集上,ResNet-56在PGD攻击下的扰动数据准确性与攻击步骤k的关系。
我们的模型提供的高鲁棒性并非来自梯度混淆。我们试图通过与vanilla模型进行比较来表明我们的方法不依赖于梯度混淆,vanilla模型在一些文献中被认证为非混淆梯度。如图4所示,增加PGD攻击的迭代步骤导致我们模型和vanilla模型的扰动数据精度降低。然而,对于这两个模型,当迭代步骤k>=20时,扰动数据的准确性不会降低。如果我们的Few2Decide方法提供的鲁棒性来自梯度混淆,由于单个样本而导致梯度不正确,那么增加攻击步骤应该会打破我们的防御。我们可以观察到,即使k从0增加到100,我们的方法仍保持防御能力,并且仍然优于对抗训练。因此,我们可以得出结论,我们的防御方法不依赖于梯度混淆。
依照本发明的实施例如上文所述,这些实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施例。根据以上描述,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (6)

1.一种基于少量神经元连接的健壮图像分类模型训练方法,其特征在于,所述方法用于图像分类鲁棒模型训练,所述方法包括骨干网络和决策模块两部分;
所述骨干网络对输入的图像进行特征提取,并在最后一个卷积层和全局平均池化层来提取输入图像的潜在特征L;
所述决策模块包括四个过程:积运算、排序、剪裁、求和;
所述积运算为计算L与W的乘积,得到神经元连接的计算结果,所述W是全连接层的权重矩阵,W的大小是n×m,其中n是数据集的类别数,m是图像的潜在特征L的长度;
所述排序为对所述神经元连接的计算结果进行排序;
所述剪裁为将排序后的每组结果的前α个结果和后β个结果均设置为0,所述α和所述β设为m的1/3;
所述求和为通过对每个神经元中剩余的非零结果求和来得到预测值,通过预测值得到分类结果。
2.如权利要求1所述的方法,其特征在于,所述积运算使用hadamard积来得到神经元连接的计算结果。
3.如权利要求1所述的方法,其特征在于,对所述神经元连接的计算结果进行排序具体为将每个神经元包含的连接的计算结果从小到大进行排序。
4.如权利要求1所述的方法,其特征在于,所述通过预测值得到分类结果具体通过查询最大预测值的索引,得到分类结果。
5.如权利要求1所述的方法,其特征在于,所述鲁棒模型使用干净的数据来训练,并使用交叉熵损失作为损失函数。
6.如权利要求1所述的方法,其特征在于,权重W使用均匀分布来初始化,且在训练阶段是固定的。
CN202111140405.1A 2021-09-28 2021-09-28 一种基于少量神经元连接的健壮图像分类模型训练方法 Active CN113780468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111140405.1A CN113780468B (zh) 2021-09-28 2021-09-28 一种基于少量神经元连接的健壮图像分类模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111140405.1A CN113780468B (zh) 2021-09-28 2021-09-28 一种基于少量神经元连接的健壮图像分类模型训练方法

Publications (2)

Publication Number Publication Date
CN113780468A CN113780468A (zh) 2021-12-10
CN113780468B true CN113780468B (zh) 2022-08-09

Family

ID=78853814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111140405.1A Active CN113780468B (zh) 2021-09-28 2021-09-28 一种基于少量神经元连接的健壮图像分类模型训练方法

Country Status (1)

Country Link
CN (1) CN113780468B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038471A (zh) * 2017-12-27 2018-05-15 哈尔滨工程大学 一种基于深度学习技术的水声通信调制模式识别方法
CN108805281A (zh) * 2017-04-28 2018-11-13 英特尔公司 图形处理单元生成对抗网络
CN109887047A (zh) * 2018-12-28 2019-06-14 浙江工业大学 一种基于生成式对抗网络的信号-图像翻译方法
CN110298384A (zh) * 2019-06-03 2019-10-01 西华大学 对抗样本图像生成方法和装置
CN110334808A (zh) * 2019-06-12 2019-10-15 武汉大学 一种基于对抗样本训练的对抗攻击防御方法
CN110569916A (zh) * 2019-09-16 2019-12-13 电子科技大学 用于人工智能分类的对抗样本防御***及方法
CN111368886A (zh) * 2020-02-25 2020-07-03 华南理工大学 一种基于样本筛选的无标注车辆图片分类方法
CN112926661A (zh) * 2021-02-26 2021-06-08 电子科技大学 一种增强图像分类鲁棒性的方法
CN113378949A (zh) * 2021-06-22 2021-09-10 昆明理工大学 一种基于胶囊网络和混合注意力的双重生成对抗学习方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11715016B2 (en) * 2019-03-15 2023-08-01 International Business Machines Corporation Adversarial input generation using variational autoencoder
CN112446476A (zh) * 2019-09-04 2021-03-05 华为技术有限公司 神经网络模型压缩的方法、装置、存储介质和芯片

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805281A (zh) * 2017-04-28 2018-11-13 英特尔公司 图形处理单元生成对抗网络
CN108038471A (zh) * 2017-12-27 2018-05-15 哈尔滨工程大学 一种基于深度学习技术的水声通信调制模式识别方法
CN109887047A (zh) * 2018-12-28 2019-06-14 浙江工业大学 一种基于生成式对抗网络的信号-图像翻译方法
CN110298384A (zh) * 2019-06-03 2019-10-01 西华大学 对抗样本图像生成方法和装置
CN110334808A (zh) * 2019-06-12 2019-10-15 武汉大学 一种基于对抗样本训练的对抗攻击防御方法
CN110569916A (zh) * 2019-09-16 2019-12-13 电子科技大学 用于人工智能分类的对抗样本防御***及方法
CN111368886A (zh) * 2020-02-25 2020-07-03 华南理工大学 一种基于样本筛选的无标注车辆图片分类方法
CN112926661A (zh) * 2021-02-26 2021-06-08 电子科技大学 一种增强图像分类鲁棒性的方法
CN113378949A (zh) * 2021-06-22 2021-09-10 昆明理工大学 一种基于胶囊网络和混合注意力的双重生成对抗学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Distillation as a Defense to Adversarial Perturbations against Deep Neural Networks;Nicolas Papernot 等;《2016 IEEE Symposium on Security and Privacy》;20161231;第582-597页 *
基于深度生成式对抗网络的蓝藻语义分割;杨朔 等;《计算机应用》;20181231;第38卷(第6期);第1554-1561页 *
深度神经网络的对抗样本攻击与防御综述;王兴宾 等;《广州大学学报(自然科学版)》;20200831;第19卷(第4期);第1-10页 *

Also Published As

Publication number Publication date
CN113780468A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
Qin et al. Detecting and diagnosing adversarial images with class-conditional capsule reconstructions
CN110048827B (zh) 一种基于深度学习卷积神经网络的类模板攻击方法
CN110348399B (zh) 基于原型学习机制和多维残差网络的高光谱智能分类方法
CN108717568A (zh) 一种基于三维卷积神经网络的图像特征提取与训练方法
Aïvodji et al. Gamin: An adversarial approach to black-box model inversion
CN110334749A (zh) 基于注意力机制的对抗攻击防御模型、构建方法及应用
CN113379618B (zh) 基于残差密集连接和特征融合的光学遥感图像去云方法
CN103366184B (zh) 基于混合分类器的极化sar数据分类方法及***
CN112287997A (zh) 一种基于生成式对抗网络的深度图卷积模型防御方法
CN108509996A (zh) 基于Filter和Wrapper选择算法的特征选择方法
CN103886334A (zh) 一种多指标融合的高光谱遥感影像降维方法
CN108596264A (zh) 一种基于深度学习的社区发现方法
Zunair et al. Unconventional wisdom: A new transfer learning approach applied to bengali numeral classification
CN113627543A (zh) 一种对抗攻击检测方法
Ding et al. Defending against adversarial attacks using random forest
CN115062306A (zh) 一种针对恶意代码检测***的黑盒对抗攻击方法
CN114049537B (zh) 一种基于卷积神经网络的对抗样本防御方法
Nguyen-Son et al. Opa2d: One-pixel attack, detection, and defense in deep neural networks
CN107766792A (zh) 一种遥感图像舰船目标识别方法
CN113780468B (zh) 一种基于少量神经元连接的健壮图像分类模型训练方法
Nabizadeh et al. A novel method for multi-level image thresholding using particle swarm Optimization algorithms
CN116051924B (zh) 一种图像对抗样本的分治防御方法
CN107592635A (zh) 认知无线电中基于som神经网络的恶意用户判别方法
CN115238271A (zh) 基于生成学习的ai安全性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant