CN111401407B - 一种基于特征重映射的对抗样本防御方法和应用 - Google Patents

一种基于特征重映射的对抗样本防御方法和应用 Download PDF

Info

Publication number
CN111401407B
CN111401407B CN202010115357.XA CN202010115357A CN111401407B CN 111401407 B CN111401407 B CN 111401407B CN 202010115357 A CN202010115357 A CN 202010115357A CN 111401407 B CN111401407 B CN 111401407B
Authority
CN
China
Prior art keywords
model
sample
features
significant
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010115357.XA
Other languages
English (en)
Other versions
CN111401407A (zh
Inventor
陈晋音
郑海斌
张龙源
王雪柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010115357.XA priority Critical patent/CN111401407B/zh
Publication of CN111401407A publication Critical patent/CN111401407A/zh
Priority to US17/602,437 priority patent/US11921819B2/en
Priority to PCT/CN2020/103264 priority patent/WO2021169157A1/zh
Application granted granted Critical
Publication of CN111401407B publication Critical patent/CN111401407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征重映射的对抗样本防御方法和应用,包括:构建特征重映射模型,该特征重映射模型包括用于生成显著特征的显著特征生成模型,用于生成非显著特征的非显著特征生成模型,用于判别显著特征和非显著特征真伪的共享判别模型;根据显著特征生成模型和非显著特征生成模型构建检测器,该检测器用于检测对抗样本和良性样本;根据显著特征生成模型构建重识别器,该重识别器用于识别对抗样本的类别;在进行对抗样本检测时,将检测器连接到目标模型的输出,利用检测器进行对抗样本检测;在进行对抗样本识别时,将重识别器连接到目标模型的输出,利用重识别器进行对抗样本识别。能够实现对抗样本的检测和重识别的双重防御效果。

Description

一种基于特征重映射的对抗样本防御方法和应用
技术领域
本发明涉及面向深度学习对抗攻防的防御领域,具体涉及一种基于特征重映射的对抗样本防御方法和应用。
背景技术
随着硬件计算能力的提升、大数据存储的支持和理论框架的完善,深度学习技术凭借强大的特征提取能力和拟合能力被应用到众多领域,包括计算机视觉领域、自然语言处理领域、生物信息领域等等。同时,深度学习技术也从实验室逐渐走向产业化,其中以自动驾驶应用最为突出。自动驾驶***中的路牌识别、车牌识别、行人识别、道路识别、障碍物检测等,都涉及到计算机视觉的技术,而语音指令控制则涉及到语音识别技术。随着深度学习技术的进一步广泛应用,其中存在的问题也逐渐暴露。
早在2014年,就有研究人员发现深度模型容易受到对抗样本的攻击,即对抗攻击。具体表现为,训练好的深度模型对测试集中的良性样本具有较好的识别准确率,但是在原本能够被正确识别的良性样本中添加微小的精心设计的对抗扰动后,得到的对抗样本会被深度模型错误识别。对抗攻击揭露了深度模型中存在的漏洞,而这样的漏洞将会阻碍深度学习技术的进一步发展。同样以自动驾驶***为例,对抗攻击将会对其安全性造成致命的影响,如原本“STOP”的路牌上被粘上一些小贴纸,自动驾驶***中的路牌识别模型就会把“STOP”识别成限速“40”,这对驾驶人员和行人都十分危险。
根据攻击者是否知道深度模型的内部细节,可以将对抗攻击分为白盒攻击和黑盒攻击;根据攻击者是否设定攻击目标,可以将对抗攻击分为目标攻击和无目标攻击;根据攻击发生的场景,可以将对抗攻击分为电子对抗攻击和物理对抗攻击。研究对抗攻击的最终目的是为了发现深度模型中存在的漏洞,提高模型的安全性和鲁棒性。因此,目前研究人员也提出了许多针对对抗攻击的防御技术,根据防御实现的目标不同,可以分为完全防御和仅检测防御;根据防御作用的位置不同,主要可以分为以下三类:数据修改防御、模型修改防御和附加结构防御。最新的研究表明,对抗样本的存在不是深度学习模型的一个漏洞(Bug),而是一种特征,只是机器能够很好地识别这种特征,但是人类很难理解这种特征。
完全防御是重新识别对抗样本所对应的原始良性样本的类标;仅检测防御是识别待检测的样本是对抗样本还是良性样本。
数据修改防御方法通过对输入的数据进行修改,破坏在样本上精心设计的对抗扰动,从而实现防御。目前的常用的数据集修改防御方法包括数据缩放、数据旋转、数据翻转、数据重编码等操作,存在的主要问题是不仅会破坏对抗样本上的扰动,同时也会改变原始数据的样本的分布,属于无差别防御,无法实现先检测对抗样本,再针对性的对对抗样本实现防御。
模型修改防御方法包括模型的层数修改、模型的激活函数修改、模型的层尺寸修改、模型的连接稠密度修改等,其存在的主要问题是需要知道原始模型的结构信息,无法实现模型隐私的安全性。
附加结构防御方法是通过在原始模型的外部或者内部添加附加的子结构实现防御,外部附加结构多为检测器,只能实现检测对抗样本的功能而大都存在结构复杂的问题,而内部附加结构需要知道模型的隐私信息。
发明内容
为了克服现有的路牌识别、车牌识别、行人识别、道路识别、障碍物检测等防御方法存在的需要获取原始模型隐私信息、对抗原始良性样本的识别有影响、防御模型结构复杂等不足,为了实现对抗样本的检测和重识别的双重防御效果,本发明提供一种基于特征重映射的对抗样本防御方法和应用。
本发明的技术方案为:
一种基于特征重映射的对抗样本防御方法,包括以下步骤:
构建特征重映射模型,该特征重映射模型包括用于生成显著特征的显著特征生成模型,用于生成非显著特征的非显著特征生成模型,用于判别显著特征和非显著特征真伪的共享判别模型;
根据显著特征生成模型和非显著特征生成模型构建检测器,该检测器用于检测对抗样本和良性样本;
根据显著特征生成模型构建重识别器,该重识别器用于识别对抗样本的类别;
在进行对抗样本检测时,将检测器连接到目标模型的输出,利用检测器进行对抗样本检测;
在进行对抗样本识别时,将重识别器连接到目标模型的输出,利用重识别器进行对抗样本识别。
优选地,特征重映射模型的构建方法为:
构建特征重映射模型训练体系,包括目标模型、显著特征生成模型、非显著特征生成模型以及共享判别模型,其中,目标模型用于目标识别,输入为样本,输出隐藏层特征;显著特征生成模型的输入为隐藏层特征,输出为生成显著特征;非显著特征生成模型的输入为隐藏层特征,输出为生成非显著特征;共享判别模型的输入为生成显著特征、生成非显著特征、真实显著特征以及真实非显著特征,输出为对良性样本或对抗样本的识别结果;
构建训练共享判别模型的损失函数lossD和训练显著特征生成模型和非显著特征生成模型的损失函数lossG,利用损失函数lossD和损失函数lossG对共享判别模型、显著特征生成模型以及非显著特征生成模型进行联合训练,以确定显著特征生成模型、非显著特征生成模型以及共享判别模型的模型参数;
其中,损失函数
Figure GDA0002469569360000041
为对抗样本的显著特征生成训练时共享判别模型的损失函数,
Figure GDA0002469569360000042
对抗样本的非显著特征生成训练时共享判别模型的损失函数,
Figure GDA0002469569360000043
为良性样本的显著特征生成训练时共享判别模型的损失函数,
Figure GDA0002469569360000044
为良性样本的非显著特征生成训练时共享判别模型的损失函数;
损失函数
Figure GDA0002469569360000045
为对抗样本的显著特征生成训练时显著特征生成模型的损失函数,
Figure GDA0002469569360000046
为对抗样本的非显著特征生成训练时非显著特征生成模型的损失函数,
Figure GDA0002469569360000047
为良性样本的显著特征生成训练时显著特征生成模型的损失函数,
Figure GDA0002469569360000048
为良性样本的非显著特征生成训练时非显著特征生成模型的损失函数。
优选地,检测器的构建方法为:
构建检测器训练体系,包括目标模型、参数确定的显著特征生成模型、参数确定的非显著特征生成模型以及检测模型,其中,目标模型用于目标识别,输入为样本,输出隐藏层特征;显著特征生成模型的输入为隐藏层特征,输出为生成显著特征;非显著特征生成模型的输入为隐藏层特征,输出为生成非显著特征;检测模型的输入为生成显著特征与生成非显著特征级联形成的级联特征,输出为良性样本或对抗样本的检测结果;
构建训练检测模型的损失函数lossdetect,以最小化损失函数lossdetect为目标对检测模型进行训练,以确定检测模型的模型参数;
其中,损失函数lossdetect为:
Figure GDA0002469569360000051
其中,log(·)表示对数函数,Det(·)表示检测模型,h(·)表示目标模型隐藏层模块的输出,xi表示良性样本,
Figure GDA0002469569360000052
表示xi对应的对抗样本,GSF(·)表示显著特征生成模型,GNSF(·)表示非显著特征生成模型,表示为concat(GSF(·),GNSF(·))表示级联特征。
优选地,重识别器的构建方法为:
构建检测器训练体系,包括目标模型、参数确定的显著特征生成模型以及重识别模型,其中,目标模型用于目标识别,输入为样本,输出隐藏层特征;显著特征生成模型的输入为隐藏层特征,输出为生成显著特征;重识别模型的输入为生成显著特征,输出为对抗样本的类别;
构建训练重识别模型的损失函数lossre-recog,以最小化损失函数lossre-recog为目标对重识别模型进行训练,以确定重识别模型的模型参数;
其中,损失函数lossre-recog为:
Figure GDA0002469569360000053
其中,log(·)表示对数函数;
Figure GDA0002469569360000054
表示对抗样本对应的原始良性样本的真实类标经过one-hot编码后,在第k个位置上的元素值;
Figure GDA0002469569360000055
表示对抗样本经过目标模型后得到的
Figure GDA0002469569360000056
Figure GDA0002469569360000057
输入参数确定的显著特征生成模型后得到
Figure GDA0002469569360000058
将生成的显著特征输入到重识别模型后输出的置信度矩阵的第k个位置上的元素值;k为原始样本分类索引,m表示原始样本的分类数;i为对抗样本索引,
Figure GDA0002469569360000061
表示训练集中对抗样本的数量。
优选地,训练特征重映射模型、检测器以及重识别器的训练样本的构建方法为:
(a)对于原始的良性样本xi,首先测试其在目标模型中的预测类标与真实类标是否一致,若不一致,则剔除该良性样本不攻击,若一致,则执行步骤(b);
(b)针对目标模型和良性样本xi,使用ma种不同的攻击方法进行攻击得到对应的对抗样本集合
Figure GDA0002469569360000062
(c)攻击结束后,将步骤(b)中得到的对抗样本集合中的对抗样本逐一输入目标模型中进行测试,若预测类标与真实类标不一致,则表示其为攻击成功的对抗样本,保留在集合中;若一致,则表明其攻击失败,从对抗样本集合中剔除;
(d)重复步骤(a)~(c)的操作,得到所有样本的对抗样本集合;
(e)对对抗样本集合
Figure GDA0002469569360000063
中的样本进行重新整理排序。
优选地,显著特征生成模型与非显著特征生成模型的结构相同,为依次连接的输入层、隐藏单元以及输出层,其中,隐藏单元包含若干个隐藏层,每个隐藏层为全连接层、卷积层中的至少一种。
优选地,共享判别模型、检测模型以及重识别模型网络结构相同,均包括依次连接的输入层、隐藏单元、过渡层以及输出层,其中,隐藏单元包含若干个隐藏层,每个隐藏层为全连接层、卷积层中的至少一种。
本发明的技术构思为:基于特征重映射的对抗样本防御方法,通过设计特征重映射模型,将深度模型中隐藏层模块提取的特征分别映射为显著特征和非显著特征,进一步学习对抗样本和良性样本的显著特征和非显著特征的差异性,实现检测对抗样本,并重新识别对抗样本的原始类标。最后通过在CIFAR10数据集上训练多个模型,使用不同的攻击方法攻击后,再使用本发明提出的防御方法进行检测,同时在重识别阶段与样本缩放(resize)、样本旋转(rotate)两种防御方法进行对比,验证了本发明基于特征重映射的对抗样本防御方法的效果良好。
一种自动驾驶中对抗攻击的防御方法,以包含4类户外交通工具和6类自然野生动物图像的数据集作为训练集,采用上述的基于特征重映射的对抗样本防御方法来构建检测器和重识别器,在进行对抗样本检测时,将检测器连接到目标模型的输出,利用检测器进行对抗样本检测;在进行对抗样本识别时,将重识别器连接到目标模型的输出,利用重识别器进行对抗样本识别。
本发明的有益效果为:1)通过先检测对抗样本,再对对抗样本进行重识别的两阶段操作,尽可能减小了附加防御方法对良性样本的识别准确率的影响;2)采用附加模型的防御措施,不需要获取目标模型的内部信息,保护了用户和模型的隐私;3)提出的附加模型结构较为轻量;4)能够实现对抗样本检测和重识别的功能,满足不同的应用需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的特征重映射模型训练体系的结构示意图;
图2是本发明实施例提供的检测器训练体系的结构示意图;
图3是本发明实施例提供的重识别器训练体系的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
参照图1~图3,实施例提供的基于特征重映射的对抗样本防御方法,包括以下步骤:
S101,构建特征重映射模型,该特征重映射模型包括用于生成显著特征的显著特征生成模型,用于生成非显著特征的非显著特征生成模型,用于判别显著特征和非显著特征真伪的共享判别模型。
训练所有模型均需要训练样本,训练样本包括良性样本和对抗样本,其中,数据样本格式定义为包含Nsam个样本的集合X,
Figure GDA0002469569360000081
每个样本表示为xi∈RH×W×c(i=1,2,...,Nsam),即xi是一个包含H×W×c个元素的矩阵,其中H表示高度,W表示宽度,c表示样本通道数。数据集的类标集合为
Figure GDA0002469569360000082
每个样本都有对应的类标yi,表示第i个样本xi属于第yi类,其中yi={0,1,2...,m-1}(i=1,2,...,Nsam),即该数据集为m分类的数据集。同时定义样本类标的one-hot编码形式,表示为
Figure GDA0002469569360000083
即一共包含m个元素的向量,其中第yi个元素值为1,其余元素值为0。
深度模型DNN定义为F(X,Θ):X→Y,其中Θ表示模型在数据集{X,Y}上训练得到的模型参数。深度模型实现的功能是将数据X映射为Y,在攻击时DNN是攻击者的攻击目标,在防御时是防护者的保护目标,统称为目标模型,在实际应用中,该目标模型可用于自动驾驶***中的路牌识别、车牌识别、行人识别、道路识别、障碍物检测以及语音识别,也就说本发明提供的基于特征重映射的对抗样本防御方法可以用于路牌识别、车牌识别、行人识别、道路识别、障碍物检测以及语音识别的防御,根据结构功能,可以将DNN分为输入层模块、隐藏层模块、输出层模块三部分。输入层模块获取数据样本;隐藏层模块提取样本的特征并将有用的特征不断放大,实现特征映射的功能,隐藏层模块的最后一层输出称为logits;输出层模块使用Softmax函数对logits进行归一化得到置信度向量,取向量中置信度值最大的神经元所在的位置作为DNN预测的类标。定义目标模型输出的logits作为输入样本xi在隐藏层模块最后一层的特征,表示为h(xi);经过Softmax归一化后的置信度表示为1×m的置信度向量
Figure GDA0002469569360000091
最后的预测类标表示为
Figure GDA0002469569360000092
其中argmax(·)函数返回向量
Figure GDA0002469569360000093
中元素值最大的位置,预测类标集表示为
Figure GDA0002469569360000094
当样本xi的预测类标
Figure GDA0002469569360000095
与真实类标yi一致时,即目标模型对输入样本预测正确。
在确定良性样本和深度模型的基础上,采用攻击方法即可以生成对抗样本。本发明使用不同的攻击方法获取对抗样本,包括白盒攻击方法和黑盒攻击方法。在进行白盒攻击时,需要获取目标模型的梯度信息,使用的白盒攻击方法包括但不仅限于快速梯度符号攻击法(fast gradient sign method,FGSM)、动量迭代的快速梯度符号攻击法(momentumiterative fast gradient sign method,MI-FGSM)、基本迭代攻击方法(basic iterativemethods,BIM)、迭代最小似然类攻击方法(iterative least-likely class,ILCM)、雅可比特性映射方法攻击法(jacobian saliency map approach,JSMA)、迷惑深度攻击方法(DeepFool)、Carlini&Wagner攻击方法(C&W)等。在进行黑盒攻击时,只需要获取目标模型的输出信息,使用的黑盒攻击方法包括但不仅限于单像素攻击方法(single pixelattack)、零阶优化攻击方法(zeroth order optimization,ZOO)、边界攻击方法(Boundary)等。具体攻击过程为:
(a)对于原始的良性样本xi,首先测试其在目标模型中的预测类标与真实类标是否一致,若不一致,则剔除该良性样本不攻击,若一致,则执行步骤(b);
(b)针对目标模型和良性样本xi,使用ma种不同的攻击方法进行攻击得到对应的对抗样本集合
Figure GDA0002469569360000101
(c)攻击结束后,将步骤(b)中得到的对抗样本集合中的对抗样本逐一输入目标模型中进行测试,若预测类标与真实类标不一致,则表示其为攻击成功的对抗样本,保留在集合中;若一致,则表明其攻击失败,从对抗样本集合中剔除;
(d)重复步骤(a)~(c)的操作,得到所有样本的对抗样本集合;
(e)对对抗样本集合
Figure GDA0002469569360000102
中的样本进行重新整理排序。
特征映射模型的功能是将输入的特征进行重新映射,分别映射成显著特征和非显著特征。对于对抗样本,其显著特征是模型学习到的人类需要的特征,非显著特征是模型学习到的人类不需要的特征;对于良性样本,其显著特征和非显著特征都是模型学习到的且人类需要的特征。
特征映射模型包括三部分,显著特征生成模型、非显著特征生成模型、共享判别模型。每个模型都包括输入层模块、隐藏层模块和输出层模块三部分。显著特征生成模型的输入是目标模型的隐藏层模块输出的特征h(xi),输出是生成的显著特征;非显著特征生成模型的输入是目标模型的隐藏层模块输出的特征h(xi),输出是生成的非显著特征;共享判别模型的输入是生成的显著特征、生成的非显著特征、真实的显著特征、真实的非显著特征,输出是0或者1的判定结果。
显著特征生成模型和非显著特征生成模型的输入层模块和输出层模块的尺寸相同,与特征h(xi)的尺寸一致;共享判别模型的输入层模块的尺寸与特征h(xi)的尺寸一致,输出层模块是经过Sigmoid函数激活的单个神经元。
对于显著特征生成模型的隐藏层模块,本发明提出了三种不同的构建策略。第一种是全连接策略,即隐藏层模块全部使用全连接层,层数为2a+1,其中a=1,2,3...根据硬件计算能力调整。假定输入层模块和输出模型的尺寸为sin,即包含sin个元素,则第i层的神经元数量为:
Figure GDA0002469569360000111
其中,
Figure GDA0002469569360000112
表示第i层的神经元个数,在这里隐藏层模块的全连接层数为奇数层,smiddle表示最中间层的神经元个数,Z[·]表示取整函数,sin表示输入层模块和输出模型的尺寸,即输入层和输出层的神经元个数。以输入层sin=100,中间层smiddle=400,a=2,共有5层的隐藏层模块为例,则第一层到第五层的神经元个数分别为200,300,400,300,200。其中a和smiddle决定了神经元层数和每层神经元的个数,根据用户能够达到的硬件计算能力调整。在全连接策略中,每个全连接层的dropout比率取值范围为[0.3,0.8],激活函数选择包括但不局限于ReLU、Leaky ReLU、tanh、exponential linear激活、Sigmoid激活等。
第二种策略是全卷积策略,即隐藏层模块全部使用卷积结构,层数为2b+1,其中b=1,2,3...根据硬件计算能力调整。卷积层主要由卷积核尺寸决定,卷积核的尺寸包括窗口大小、核深度、滑动步长。下面具体说明窗口大小、核深度、滑动步长这三个参数的设定。
卷积核的窗口为正方形,即长和宽一致,窗口尺寸包括但不限于{1×1,3×3,5×5,7×7}这几种类型,不同卷积层窗口尺寸可以不同,窗口的滑动步长包括但不限于{0,1,2,3,4,5}这几种类型。但是滑动步长和窗口尺寸遵循的尺度关系为,窗口尺寸大于滑动步长,以3×3的窗口尺寸为例,其滑动步长限于{0,1,2}这三种选择。下面确定核深度这一参数,假定输入层模块和输出模型的尺寸为sin,即包含sin个元素,为了适合卷积结构,本发明设计过渡层将输入层模块、输出层模块分别与隐藏层模块进行联结。在输入层模块和隐藏层模块的过渡层设计为,将输入层的sin个神经元全连接到strans个神经元,然后将strans个神经元reshape成wre×wre×1的矩形神经元矩阵,即strans=wre×wre×1。在隐藏层模块和输出层模块的过渡层设计为将隐藏层模块的输出全连接到包含strans个神经元的全连接层,然后将strans个神经元的全连接层再次全连接到输出层模块。
全卷积策略中隐藏层模块的第i层卷积核深度采用最近原则确定。最近原则阐述为,首先计算第i层卷积核的理论深度,然后在卷积核深度集合{8,16,32,64,128,256,1024}中选择与理论深度最接近的值作为实际深度。理论深度的计算公式为:
Figure GDA0002469569360000131
其中,,
Figure GDA0002469569360000132
表示第i层的神经元个数,在这里隐藏层模块的卷积层数为奇数层,
Figure GDA0002469569360000133
表示最中间层的神经元个数。公式中b和
Figure GDA0002469569360000134
决定了神经网络层数和每层卷积核的深度,根据用户能够达到的硬件计算能力调整。在全卷积策略中,每个卷积层的dropout比率取值范围为[0.3,0.8],激活函数选择包括但不局限于ReLU、Leaky ReLU、tanh、exponential linear激活、Sigmoid激活等,池化的窗口尺寸包括但不限于{1×1,2×2,3×3,4×4,5×5,6×6}这几种类型。
第三种策略为混合策略,即在隐藏层模块中混合使用全连接层和卷积层。全连接层和卷积层的层数、全连接层的每层神经元数、卷积层的卷积核尺寸都根据策略一和策略二中的公式确定。
对于非显著特征生成模型的隐藏层结构,非显著特征生成模型的隐藏层模块的结构与显著特征生成模型的隐藏层模块的结构一致。当显著特征生成模型的隐藏层模块的任意一种策略确定后,将其复制一份作为非显著特征生成模型的隐藏层模块。
共享判别模型的隐藏层模块的结构的确定遵循显著特征生成模型的隐藏层模块的三种策略。唯一的区别在于,在隐藏层模块和输出层模型之间有一个过渡层。共享判别模型的隐藏层模块和输出层模块之间的过渡层设计为,将隐藏层模块的输出全连接到具有128个神经元的全连接层,然后将前述128个神经元的全连接层再次全连接到输出层模块。
在确定好特征重映射模型结构基础上,定义对抗样本的生成显著特征、生成非显著特征、真实显著特征以及真实非显著特征,定义良性样本的生成显著特征、生成非显著特征、真实显著特征以及真实非显著特征。具体过程为:
对抗样本的显著特征定义为对抗样本对应的原始良性样本输入目标模型后,模型隐藏层模块输出的特征。即对于对抗样本
Figure GDA0002469569360000141
其对应的原始良性样本为xi,将h(xi)作为对抗样本的显著特征。
良性样本的显著特征定义为良性样本输入目标模型后,模型隐藏层模块输出的特征。即对于良性样本xi,将h(xi)作为良性样本的显著特征。
对抗样本的非显著特征定义为对抗样本输入目标模型后,模型隐藏层模块输出的特征。即对于对抗样本
Figure GDA0002469569360000142
Figure GDA0002469569360000143
作为对抗样本的非显著特征。
良性样本的非显著特征定义为良性样本输入目标模型后,模型隐藏层模块输出的特征。即对于良性样本xi,将h(xi)作为良性样本的非显著特征。
综上所述,在特征映射模型中,当输入特征为h(xi)时,显著特征生成模型的生成输出表示为GSF(h(xi)),对应的真实显著特征为h(xi);非显著特征生成模型的生成输出表示为GNSF(h(xi)),对应的真实非显著特征为h(xi)。当输入特征为
Figure GDA0002469569360000144
时,显著特征生成模型的生成输出表示为
Figure GDA0002469569360000145
对应的真实显著特征为h(xi);非显著特征生成模型的生成输出表示为
Figure GDA0002469569360000146
对应的真实非显著特征为
Figure GDA0002469569360000147
对特征重映射模型进行训练,具体过程为:
(a)根据搭建的特征映射模型,进行对抗样本的显著特征生成训练。
在进行对抗样本的显著特征生成训练时,训练的模型包括显著特征生成模型、共享判别模型。显著特征生成模型表示为GSF(·),共享判别模型表示为Dshare(·)。
两个模型的训练是交替进行的,在训练共享判别模型时,显著特征生成模型的参数固定。目标模型的输入是
Figure GDA0002469569360000151
目标模型的隐藏层模块的输出是
Figure GDA0002469569360000152
作为显著特征生成模型的输入。共享判别模型的输入是h(xi)和
Figure GDA0002469569360000153
其训练目的是为了判别输入的特征是真实的显著特征还是生成的显著特征,输出是1或者0。在训练共享判别模型的阶段,标记真实的显著特征h(xi)为1,生成的显著特征
Figure GDA0002469569360000154
为0,采用交叉熵作为损失函数,具体计算公式如下:
Figure GDA0002469569360000155
其中,log(·)表示对数函数,Dshare(·)表示共享判别器,h(·)表示目标模型隐藏层模块的输出,xi表示良性样本,
Figure GDA0002469569360000156
表示对应的对抗样本,GSF(·)表示显著特征生成模型。此时训练共享判别模型的目标是最小化
Figure GDA0002469569360000157
显著特征生成模型的输入是
Figure GDA0002469569360000158
输出是生成的
Figure GDA0002469569360000159
其训练目的是令生成的显著特征的分布接近真实的显著特征的分布,并且无法被共享判别模型识别。在训练显著特征生成模型的阶段,标记生成的显著特征为1,采用交叉熵作为损失函数,具体计算公式如下:
Figure GDA00024695693600001510
此时,训练显著特征生成模型的目标是最小化
Figure GDA00024695693600001511
(b)根据搭建的特征映射模型,进行对抗样本的非显著特征生成训练。
在进行对抗样本的非显著特征生成训练时,训练的模型包括非显著特征生成模型、共享判别模型。非显著特征生成模型表示为GNSF(·),共享判别模型表示为Dshare(·)。
两个模型的训练是交替进行的,在训练共享判别模型时,非显著特征生成模型的参数固定。目标模型的输入是
Figure GDA0002469569360000161
目标模型的隐藏层模块的输出是
Figure GDA0002469569360000162
作为非显著特征生成模型的输入。共享判别模型的输入是
Figure GDA0002469569360000163
Figure GDA0002469569360000164
其训练目的是为了判别输入的特征是真实的非显著特征还是生成的非显著特征,输出是1或者0。在训练共享判别模型的阶段,标记真实的非显著特征
Figure GDA0002469569360000165
为1,生成的非显著特征
Figure GDA0002469569360000166
为0,采用交叉熵作为损失函数,具体计算公式如下:
Figure GDA0002469569360000167
其中,log(·)表示对数函数,Dshare(·)表示共享判别器,h(·)表示目标模型隐藏层模块的输出,
Figure GDA0002469569360000168
表示对抗样本,GNSF(·)表示非显著特征生成模型。此时训练共享判别模型的目标是最小化
Figure GDA0002469569360000169
非显著特征生成模型的输入是
Figure GDA00024695693600001610
输出是生成的
Figure GDA00024695693600001611
其训练目的是令生成的非显著特征的分布接近真实的非显著特征的分布,并且无法被共享判别模型识别。在训练非显著特征生成模型的阶段,标记生成的非显著特征为1,采用交叉熵作为损失函数,具体计算公式如下:
Figure GDA00024695693600001612
此时,训练非显著特征生成模型的目标是最小化
Figure GDA00024695693600001613
(c)根据搭建的特征映射模型,进行良性样本的显著特征生成训练。
在进行良性样本的显著特征生成训练时,训练的模型包括显著特征生成模型、共享判别模型。显著特征生成模型表示为GSF(·),共享判别模型表示为Dshare(·)。
两个模型的训练是交替进行的,在训练共享判别模型时,显著特征生成模型的参数固定。目标模型的输入是xi,目标模型的隐藏层模块的输出是h(xi),作为显著特征生成模型的输入。共享判别模型的输入是h(xi)和GSF(h(xi)),其训练目的是为了判别输入的特征是真实的显著特征还是生成的显著特征,输出是1或者0。在训练共享判别模型的阶段,标记真实的显著特征h(xi)为1,生成的显著特征GSF(h(xi))为0,采用交叉熵作为损失函数,具体计算公式如下:
Figure GDA0002469569360000171
其中,log(·)表示对数函数,Dshare(·)表示共享判别器,h(·)表示目标模型隐藏层模块的输出,xi表示良性样本,GSF(·)表示显著特征生成模型。此时训练共享判别模型的目标是最小化
Figure GDA0002469569360000172
显著特征生成模型的输入是h(xi),输出是生成的GSF(h(xi)),其训练目的是令生成的显著特征的分布接近真实的显著特征的分布,并且无法被共享判别模型识别。在训练显著特征生成模型的阶段,标记生成的显著特征为1,采用交叉熵作为损失函数,具体计算公式如下:
Figure GDA0002469569360000173
此时,训练显著特征生成模型的目标是最小化
Figure GDA0002469569360000174
(d)根据搭建的特征映射模型,进行良性样本的非显著特征生成训练。
在进行良性样本的非显著特征生成训练时,训练的模型包括非显著特征生成模型、共享判别模型。非显著特征生成模型表示为GNSF(·),共享判别模型表示为Dshare(·)。
两个模型的训练是交替进行的,在训练共享判别模型时,非显著特征生成模型的参数固定。目标模型的输入是xi,目标模型的隐藏层模块的输出是h(xi),作为非显著特征生成模型的输入。共享判别模型的输入是h(xi)和GNSF(h(xi)),其训练目的是为了判别输入的特征是真实的非显著特征还是生成的非显著特征,输出是1或者0。在训练共享判别模型的阶段,标记真实的非显著特征h(xi)为1,生成的非显著特征GNSF(h(xi))为0,采用交叉熵作为损失函数,具体计算公式如下:
Figure GDA0002469569360000181
其中,log(·)表示对数函数,Dshare(·)表示共享判别器,h(·)表示目标模型隐藏层模块的输出,xi表示良性样本,GNSF(·)表示非显著特征生成模型。此时训练共享判别模型的目标是最小化
Figure GDA0002469569360000182
非显著特征生成模型的输入是h(xi),输出是生成的GNSF(h(xi)),其训练目的是令生成的非显著特征的分布接近真实的非显著特征的分布,并且无法被共享判别模型识别。在训练非显著特征生成模型的阶段,标记生成的非显著特征为1,采用交叉熵作为损失函数,具体计算公式如下:
Figure GDA0002469569360000183
此时,训练非显著特征生成模型的目标是最小化
Figure GDA0002469569360000184
(e)特征映射模型的联合训练
综上所述,在训练过程中,主要包括三个损失,显著特征生成模型的损失、非显著特征生成模型的损失、共享判别模型的损失,这三个损失分别对应显著特征生成模型、非显著特征生成模型、共享判别模型的参数更新。三个模型的的训练是“2-1”交替训练,即显著特征生成模型GSF(·)和非显著特征生成模型GNSF(·)两者独立,可以同时训练,因此GSF(·)-GNSF(·)与共享判别模型Dshare(·)交替训练,训练Dshare(·)时的损失公式为:
Figure GDA0002469569360000191
训练GSF(·)-GNSF(·)时的损失公式为:
Figure GDA0002469569360000192
训练结束后,即可以获得模型参数确定的特征重映射模型。
S102,根据显著特征生成模型和非显著特征生成模型构建检测器,该检测器用于检测对抗样本和良性样本。
如图2所示,完成特征映射模型的训练后,将共享判别模型从特征映射模型中移除,将显著特征生成模型和非显著特征映射模型的输出层进行级联,级联后作为检测器的输入层模块。检测器的输出层模块是经过Sigmoid函数激活的单个神经元,实现的功能是实现对抗样本和良性样本的检测。在训练检测模型的时候,对抗样本标记为1,良性样本标记为0。
检测模型的隐藏层模块采用全连接网络。区别在于,在隐藏层模块和输出层模型之间有一个过渡层。检测模型的隐藏层模块和输出层模块之间的过渡层设计为,将隐藏层模块的输出全连接到具有128个神经元的全连接层,然后将前述128个神经元的全连接层再次全连接到输出层模块。
检测模型的训练采用交叉熵作为损失函数,模型的输入是GSF(·)和GNSF(·)的级联,表示为concat(GSF(·),GNSF(·)),其中concat(·,·)表示级联函数。
损失函数的公式表示为:
Figure GDA0002469569360000201
其中,log(·)表示对数函数,Det(·)表示检测模型,h(·)表示目标模型隐藏层模块的输出,xi表示良性样本,
Figure GDA0002469569360000202
表示对应的对抗样本,GSF(·)表示显著特征生成模型,GNSF(·)表示非显著特征生成模型。此时训练检测模型的目标是最小化lossdetect
S103,根据显著特征生成模型构建重识别器,该重识别器用于识别对抗样本的类别。
完成检测模型的训练后,能够识别待检测样本集合中的对抗样本和良性样本,对于检测为良性样本的样本,重新输入目标模型中进行识别;对于检测为对抗样本的样本,搭建重识别模型进行进一步识别。如图3所示,移除非显著特征生成模型,仅保留显著特征生成模型,将其输出作为重识别模型的输入。
重识别模型的输入是显著特征生成模型的输出,即
Figure GDA0002469569360000203
输出层模块是包含m个神经元经过Softmax函数激活的全连接层。重识别模型的隐藏层模块的结构遵循2.2)中的三种策略。唯一的区别在于,在隐藏层模块和输出层模型之间有一个过渡层。重识别模型的隐藏层模块和输出层模块之间的过渡层设计为,将隐藏层模块的输出全连接到具有512个神经元的全连接层,然后将前述512个神经元的全连接层再次全连接到输出层模块。
重识别模型的训练属于多分类任务,使用交叉熵作为损失函数。对于对抗样本
Figure GDA0002469569360000211
损失函数的公式定义为:
Figure GDA0002469569360000212
其中,log(·)表示对数函数;
Figure GDA0002469569360000213
表示对抗样本对应的原始良性样本的真实类标经过one-hot编码后,在第k个位置上的元素值;
Figure GDA0002469569360000214
表示对抗样本经过目标模型后得到的
Figure GDA0002469569360000215
Figure GDA0002469569360000216
输入训练好的显著特征生成模型后得到
Figure GDA0002469569360000217
将生成的显著特征输入到重识别模型后输出的置信度矩阵的第k个位置上的元素值;m表示原始样本的分类数;
Figure GDA0002469569360000218
表示训练集中对抗样本的数量。
S104,在进行对抗样本检测时,将检测器连接到目标模型的输出,利用检测器进行对抗样本检测。
S105,在进行对抗样本识别时,将重识别器连接到目标模型的输出,利用重识别器进行对抗样本识别。
实验例
在本发明的实验例中,以户外交通工具和自然野生动物识别应用作为具体场景,这是自动驾驶应用的一个基础场景。然后对训练好的深度识别模型进行攻击和防御,以验证本方法的有效性。首先,采用CIFAR10作为训练数据集,该数据集是一个包含10分类的更接近普适物体的彩色图像数据集,具体包含飞机、汽车、船、卡车共4类户外交通工具和鸟类、猫、鹿、狗、蛙类、马共6类自然野生动物。CIFAR10数据集的每张样本图片包含RGB三通道,尺寸为32*32的像素尺寸。在CIFAR10数据集上训练4个识别模型,代码语言为Python,采用的深度学习框架为Tensorflow,使用的深度学习基本结构包括VGG16、VGG19、ResNet50、ResNet101共4个典型的结构。在经典的深度模型结构基础上,修改了模型的输入和输出层,以匹配训练数据,出入层的尺寸为32*32*3,输出层包含10个神经元。模型训练好后,针对CIFAR10数据集的测试集中的10000张样本,挑选出能够被目标模型正确识别的样本,使用FGSM、MI-FGSM、JSMA三种攻击方法进行攻击得到对抗样本,攻击成功率如表1所示,攻击过程中的最大扰动像素值设置为35,原始良性样本的像素数值范围为[0,255]。
攻击成功率计算公式定义为:
Figure GDA0002469569360000221
其中,NtoAtt表示待攻击的良性样本数,Nsucc表示攻击成功的对抗样本数。
完成攻击后,使用本发明提出的防御方法进行检测,检测结果如表2所示。检测率计算公式为:
Figure GDA0002469569360000222
其中,NtoDet表示待检测的样本,包括对抗样本和良性样本,其中对抗样本是攻击成功的样本,良性样本是能够被目标模型正确识别的样本,对抗样本和良性样本的比例为1:1;
Figure GDA0002469569360000223
表示成功地将对抗样本检测为对抗样本和将良性样本检测为良性样本的样本总数。
同时在重识别阶段与样本缩放(resize)、样本旋转(rotate)两种防御方法进行对比,验证了本发明基于特征重映射的对抗样本防御方法的效果良好,图表3所示。resize操作是将待识别样本先缩小为原来的一半尺寸,在重新放大到原来的尺寸,缩放过程中采用双线性插值;rotate操作是将待识别样本顺时针旋转随机角度,然后在旋转后的空白部分用高斯噪声填充,随机旋转的角度范围为[0°,45°]。重识别阶段的识别准确率计算公式为:
Figure GDA0002469569360000231
其中,NtoRe-recog表示检测为对抗样本的样本数量,
Figure GDA0002469569360000232
表示待重识别样本中成功准确识别的样本数。
表1在CIFAR10数据集上不同攻击方法攻击不同目标模型的攻击成功率
目标模型 FGSM MI-FGSM JSMA
VGG16 100.00% 100.00% 93.50%
VGG19 98.50% 98.30% 92.00%
ResNet50 100.00% 100.00% 96.25%
ResNet101 99.00% 100.00% 94.35%
表2本发明方法针对不同攻击得到的对抗样本的检测率
目标模型 FGSM MI-FGSM JSMA
VGG16 95.16% 96.11% 95.34%
VGG19 96.10% 97.36% 96.73%
ResNet50 97.82% 96.42% 99.44%
ResNet101 97.31% 96.95% 99.24%
表3本发明方法针对不同攻击得到的对抗样本的重识别准确率
Figure GDA0002469569360000233
Figure GDA0002469569360000241
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于特征重映射的对抗样本防御方法,其特征在于,包括以下步骤:
构建特征重映射模型,该特征重映射模型包括用于生成显著特征的显著特征生成模型,用于生成非显著特征的非显著特征生成模型,用于判别显著特征和非显著特征真伪的共享判别模型;
根据显著特征生成模型和非显著特征生成模型构建检测器,该检测器用于检测对抗样本和良性样本;
根据显著特征生成模型构建重识别器,该重识别器用于识别对抗样本的类别;
在进行对抗样本检测时,将检测器连接到目标模型的输出,利用检测器进行对抗样本检测;
在进行对抗样本识别时,将重识别器连接到目标模型的输出,利用重识别器进行对抗样本识别;
对于对抗样本,其显著特征是模型学习到的人类需要的特征,非显著特征是模型学习到的人类不需要的特征;对于良性样本,其显著特征和非显著特征都是模型学习到的且人类需要的特征。
2.如权利要求1所述的基于特征重映射的对抗样本防御方法,其特征在于,特征重映射模型的构建方法为:
构建特征重映射模型训练体系,包括目标模型、显著特征生成模型、非显著特征生成模型以及共享判别模型,其中,目标模型用于目标识别,输入为样本,输出隐藏层特征;显著特征生成模型的输入为隐藏层特征,输出为生成显著特征;非显著特征生成模型的输入为隐藏层特征,输出为生成非显著特征;共享判别模型的输入为生成显著特征、生成非显著特征、真实显著特征以及真实非显著特征,输出为对良性样本或对抗样本的识别结果;
构建训练共享判别模型的损失函数lossD和训练显著特征生成模型和非显著特征生成模型的损失函数lossG,利用损失函数lossD和损失函数lossG对共享判别模型、显著特征生成模型以及非显著特征生成模型进行联合训练,以确定显著特征生成模型、非显著特征生成模型以及共享判别模型的模型参数;
其中,损失函数
Figure FDA0003013572440000021
Figure FDA0003013572440000022
为对抗样本的显著特征生成训练时共享判别模型的损失函数,
Figure FDA0003013572440000023
对抗样本的非显著特征生成训练时共享判别模型的损失函数,
Figure FDA0003013572440000024
为良性样本的显著特征生成训练时共享判别模型的损失函数,
Figure FDA0003013572440000025
为良性样本的非显著特征生成训练时共享判别模型的损失函数;
损失函数
Figure FDA0003013572440000026
Figure FDA0003013572440000027
为对抗样本的显著特征生成训练时显著特征生成模型的损失函数,
Figure FDA0003013572440000028
为对抗样本的非显著特征生成训练时非显著特征生成模型的损失函数,
Figure FDA0003013572440000029
为良性样本的显著特征生成训练时显著特征生成模型的损失函数,
Figure FDA00030135724400000210
为良性样本的非显著特征生成训练时非显著特征生成模型的损失函数。
3.如权利要求1所述的基于特征重映射的对抗样本防御方法,其特征在于,检测器的构建方法为:
构建检测器训练体系,包括目标模型、参数确定的显著特征生成模型、参数确定的非显著特征生成模型以及检测模型,其中,目标模型用于目标识别,输入为样本,输出隐藏层特征;显著特征生成模型的输入为隐藏层特征,输出为生成显著特征;非显著特征生成模型的输入为隐藏层特征,输出为生成非显著特征;检测模型的输入为生成显著特征与生成非显著特征级联形成的级联特征,输出为良性样本或对抗样本的检测结果;
构建训练检测模型的损失函数lossdetect,以最小化损失函数lossdetect为目标对检测模型进行训练,以确定检测模型的模型参数;
其中,损失函数lossdetect为:
Figure FDA0003013572440000031
其中,log(·)表示对数函数,Det(·)表示检测模型,h(·)表示目标模型隐藏层模块的输出,xi表示良性样本,
Figure FDA0003013572440000032
表示xi对应的对抗样本,GSF(·)表示显著特征生成模型,GNSF(·)表示非显著特征生成模型,表示为concat(GSF(·),GNSF(·))表示级联特征。
4.如权利要求1所述的基于特征重映射的对抗样本防御方法,其特征在于,重识别器的构建方法为:
构建检测器训练体系,包括目标模型、参数确定的显著特征生成模型以及重识别模型,其中,目标模型用于目标识别,输入为样本,输出隐藏层特征;显著特征生成模型的输入为隐藏层特征,输出为生成显著特征;重识别模型的输入为生成显著特征,输出为对抗样本的类别;
构建训练重识别模型的损失函数lossre-recog,以最小化损失函数lossre-recog为目标对重识别模型进行训练,以确定重识别模型的模型参数;
其中,损失函数lossre-recog为:
Figure FDA0003013572440000033
其中,log(·)表示对数函数;
Figure FDA0003013572440000034
表示对抗样本对应的原始良性样本的真实类标经过one-hot编码后,在第k个位置上的元素值;
Figure FDA0003013572440000035
表示对抗样本经过目标模型后得到的
Figure FDA0003013572440000041
Figure FDA0003013572440000042
输入参数确定的显著特征生成模型后得到
Figure FDA0003013572440000043
将生成的显著特征输入到重识别模型后输出的置信度矩阵的第k个位置上的元素值;k为原始样本分类索引,m表示原始样本的分类数;i为对抗样本索引,
Figure FDA0003013572440000044
表示训练集中对抗样本的数量。
5.如权利要求1~4任一项所述的基于特征重映射的对抗样本防御方法,其特征在于,训练特征重映射模型、检测器以及重识别器的训练样本的构建方法为:
(a)对于原始的良性样本xi,首先测试其在目标模型中的预测类标与真实类标是否一致,若不一致,则剔除该良性样本不攻击,若一致,则执行步骤(b);
(b)针对目标模型和良性样本xi,使用ma种不同的攻击方法进行攻击得到对应的对抗样本集合
Figure FDA0003013572440000045
(c)攻击结束后,将步骤(b)中得到的对抗样本集合中的对抗样本逐一输入目标模型中进行测试,若预测类标与真实类标不一致,则表示其为攻击成功的对抗样本,保留在集合中;若一致,则表明其攻击失败,从对抗样本集合中剔除;
(d)重复步骤(a)~(c)的操作,得到所有样本的对抗样本集合;
(e)对对抗样本集合
Figure FDA0003013572440000046
中的样本进行重新整理排序。
6.如权利要求1~4任一项所述的基于特征重映射的对抗样本防御方法,其特征在于,显著特征生成模型与非显著特征生成模型的结构相同,为依次连接的输入层、隐藏单元以及输出层,其中,隐藏单元包含若干个隐藏层,每个隐藏层为全连接层、卷积层中的至少一种。
7.如权利要求2~4任一项所述的基于特征重映射的对抗样本防御方法,其特征在于,共享判别模型、检测模型以及重识别模型网络结构相同,均包括依次连接的输入层、隐藏单元、过渡层以及输出层,其中,隐藏单元包含若干个隐藏层,每个隐藏层为全连接层、卷积层中的至少一种。
8.一种自动驾驶中对抗攻击的防御方法,其特征在于,以包含4类户外交通工具和6类自然野生动物图像的数据集作为训练集,采用如权利要求1~7任一项所述的基于特征重映射的对抗样本防御方法来构建检测器和重识别器,在进行对抗样本检测时,将检测器连接到目标模型的输出,利用检测器进行对抗样本检测;在进行对抗样本识别时,将重识别器连接到目标模型的输出,利用重识别器进行对抗样本识别。
CN202010115357.XA 2020-02-25 2020-02-25 一种基于特征重映射的对抗样本防御方法和应用 Active CN111401407B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010115357.XA CN111401407B (zh) 2020-02-25 2020-02-25 一种基于特征重映射的对抗样本防御方法和应用
US17/602,437 US11921819B2 (en) 2020-02-25 2020-07-21 Defense method and an application against adversarial examples based on feature remapping
PCT/CN2020/103264 WO2021169157A1 (zh) 2020-02-25 2020-07-21 一种基于特征重映射的对抗样本防御方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010115357.XA CN111401407B (zh) 2020-02-25 2020-02-25 一种基于特征重映射的对抗样本防御方法和应用

Publications (2)

Publication Number Publication Date
CN111401407A CN111401407A (zh) 2020-07-10
CN111401407B true CN111401407B (zh) 2021-05-14

Family

ID=71432723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010115357.XA Active CN111401407B (zh) 2020-02-25 2020-02-25 一种基于特征重映射的对抗样本防御方法和应用

Country Status (3)

Country Link
US (1) US11921819B2 (zh)
CN (1) CN111401407B (zh)
WO (1) WO2021169157A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401407B (zh) * 2020-02-25 2021-05-14 浙江工业大学 一种基于特征重映射的对抗样本防御方法和应用
CN112241532B (zh) * 2020-09-17 2024-02-20 北京科技大学 一种基于雅可比矩阵生成与检测恶性对抗样本的方法
CN112017669B (zh) * 2020-11-02 2021-02-23 鹏城实验室 语音对抗样本检测方法、装置、终端设备以及存储介质
CN112598032B (zh) * 2020-12-11 2023-04-07 同济大学 面向红外图像对抗攻击的多任务防御模型构建方法
CN113221717B (zh) * 2021-05-06 2023-07-18 支付宝(杭州)信息技术有限公司 一种基于隐私保护的模型构建方法、装置及设备
CN113222056B (zh) * 2021-05-28 2022-11-08 北京理工大学 面向图像分类***攻击的对抗样本检测方法
CN113938291B (zh) * 2021-09-03 2022-12-02 华中科技大学 一种基于对抗攻击算法的加密流量分析防御方法和***
CN113688781B (zh) * 2021-09-08 2023-09-15 北京邮电大学 一种遮挡弹性的行人重识别对抗攻击方法
CN113869233A (zh) * 2021-09-30 2021-12-31 湖南大学 一种基于上下文特征不一致性的多专家对抗攻击检测方法
CN115223011A (zh) * 2022-07-08 2022-10-21 广东省智能网联汽车创新中心有限公司 一种智能驾驶场景的对抗样本生成方法及***
CN114998707B (zh) * 2022-08-05 2022-11-04 深圳中集智能科技有限公司 评估目标检测模型鲁棒性的攻击方法和装置
CN115361221B (zh) * 2022-08-25 2024-03-29 天津大学 一种基于数据投毒的网站指纹识别防御***及方法
CN115860112B (zh) * 2023-01-17 2023-06-30 武汉大学 基于模型反演方法的对抗样本防御方法和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296692A (zh) * 2016-08-11 2017-01-04 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN109460814A (zh) * 2018-09-28 2019-03-12 浙江工业大学 一种具有防御对抗样本攻击功能的深度学习分类方法
CN110674938A (zh) * 2019-08-21 2020-01-10 浙江工业大学 基于协同多任务训练的对抗攻击防御方法
CN110647918B (zh) * 2019-08-26 2020-12-25 浙江工业大学 面向深度学习模型对抗攻击的拟态防御方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013216362A1 (de) * 2013-08-19 2015-02-19 Siemens Healthcare Diagnostics Products Gmbh Analyseverfahren zur Klassifikationsunterstützung
US9721097B1 (en) * 2016-07-21 2017-08-01 Cylance Inc. Neural attention mechanisms for malware analysis
US10402701B2 (en) * 2017-03-17 2019-09-03 Nec Corporation Face recognition system for face recognition in unlabeled videos with domain adversarial learning and knowledge distillation
US11721090B2 (en) * 2017-07-21 2023-08-08 Samsung Electronics Co., Ltd. Adversarial method and system for generating user preferred contents
US11137761B2 (en) * 2017-11-20 2021-10-05 At&T Intellectual Property I, L.P. Object modeling with adversarial learning
US11494667B2 (en) 2018-01-18 2022-11-08 Google Llc Systems and methods for improved adversarial training of machine-learned models
WO2019207770A1 (ja) 2018-04-27 2019-10-31 日本電気株式会社 学習済みモデル更新装置、学習済みモデル更新方法、プログラム
KR102406432B1 (ko) * 2018-08-13 2022-06-08 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 신원 인증 방법 및 장치, 전자 기기 및 저장 매체
CN109543740B (zh) 2018-11-14 2022-07-15 哈尔滨工程大学 一种基于生成对抗网络的目标检测方法
JP7186120B2 (ja) * 2019-03-27 2022-12-08 オリンパス株式会社 画像ファイル生成装置
US11049239B2 (en) * 2019-03-29 2021-06-29 GE Precision Healthcare LLC Deep neural network based identification of realistic synthetic images generated using a generative adversarial network
US11501532B2 (en) * 2019-04-25 2022-11-15 International Business Machines Corporation Audiovisual source separation and localization using generative adversarial networks
US11947890B2 (en) * 2019-05-10 2024-04-02 Sandisk Technologies Llc Implementation of deep neural networks for testing and quality control in the production of memory devices
US20210397170A1 (en) * 2019-05-10 2021-12-23 Sandisk Technologies Llc Implementation of deep neural networks for testing and quality control in the production of memory devices
US11556567B2 (en) * 2019-05-14 2023-01-17 Adobe Inc. Generating and visualizing bias scores representing bias in digital segments within segment-generation-user interfaces
US11037025B2 (en) * 2019-05-30 2021-06-15 Baidu Usa Llc Systems and methods for adversarially robust object detection
US11693763B2 (en) * 2019-07-30 2023-07-04 General Electric Company Resilient estimation for grid situational awareness
CN111401407B (zh) * 2020-02-25 2021-05-14 浙江工业大学 一种基于特征重映射的对抗样本防御方法和应用

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296692A (zh) * 2016-08-11 2017-01-04 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN109460814A (zh) * 2018-09-28 2019-03-12 浙江工业大学 一种具有防御对抗样本攻击功能的深度学习分类方法
CN109460814B (zh) * 2018-09-28 2020-11-03 浙江工业大学 一种具有防御对抗样本攻击功能的深度学习分类方法
CN110674938A (zh) * 2019-08-21 2020-01-10 浙江工业大学 基于协同多任务训练的对抗攻击防御方法
CN110647918B (zh) * 2019-08-26 2020-12-25 浙江工业大学 面向深度学习模型对抗攻击的拟态防御方法

Also Published As

Publication number Publication date
WO2021169157A1 (zh) 2021-09-02
CN111401407A (zh) 2020-07-10
US20220172000A1 (en) 2022-06-02
US11921819B2 (en) 2024-03-05

Similar Documents

Publication Publication Date Title
CN111401407B (zh) 一种基于特征重映射的对抗样本防御方法和应用
CN108491837B (zh) 一种提高车牌攻击鲁棒性的对抗攻击方法
CN111553397B (zh) 基于区域全卷积网络和自适应的跨域目标检测方法
KR102224253B1 (ko) 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
EP3690714A1 (en) Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same
CN108492298B (zh) 基于生成对抗网络的多光谱图像变化检测方法
CN112085069A (zh) 基于集成注意力机制的多目标对抗补丁生成方法及装置
CN110941794A (zh) 一种基于通用逆扰动防御矩阵的对抗攻击防御方法
EP3690741A2 (en) Method for automatically evaluating labeling reliability of training images for use in deep learning network to analyze images, and reliability-evaluating device using the same
CN101944174A (zh) 车牌字符的识别方法
CN110569792A (zh) 一种基于卷积神经网络的自动驾驶汽车前方物体检测方法
CN111754519B (zh) 一种基于类激活映射的对抗防御方法
CN110569738A (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN113673530B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN111598182A (zh) 训练神经网络及图像识别的方法、装置、设备及介质
CN111488879A (zh) 利用双嵌入构成的用于提高分割性能的方法及装置
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
CN112052845A (zh) 图像识别方法、装置、设备及存储介质
CN112115761A (zh) 自动驾驶汽车视觉感知***漏洞检测的对抗样本生成方法
CN112052933A (zh) 基于粒子群优化的深度学习模型的安全性测试方法和修复方法
CN110569971A (zh) 一种基于LeakyRelu激活函数的卷积神经网络单目标识别方法
CN115481716A (zh) 一种基于深度网络前景激活特征转移的物理世界对抗攻击方法
Li et al. A defense method based on attention mechanism against traffic sign adversarial samples
Li et al. An outstanding adaptive multi-feature fusion YOLOv3 algorithm for the small target detection in remote sensing images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant