CN113052314B - 一种认证半径引导攻击方法、优化训练方法及*** - Google Patents

一种认证半径引导攻击方法、优化训练方法及*** Download PDF

Info

Publication number
CN113052314B
CN113052314B CN202110583029.7A CN202110583029A CN113052314B CN 113052314 B CN113052314 B CN 113052314B CN 202110583029 A CN202110583029 A CN 202110583029A CN 113052314 B CN113052314 B CN 113052314B
Authority
CN
China
Prior art keywords
picture
semantic segmentation
segmentation model
attack
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110583029.7A
Other languages
English (en)
Other versions
CN113052314A (zh
Inventor
周潘
吴启铭
屈文杰
谢雨来
李瑞轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202110583029.7A priority Critical patent/CN113052314B/zh
Publication of CN113052314A publication Critical patent/CN113052314A/zh
Application granted granted Critical
Publication of CN113052314B publication Critical patent/CN113052314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明提供一种认证半径引导攻击方法、优化训练方法及***,攻击方法包括:对训练样本集的每一张原始图片,添加高斯噪声,并获取对应的认证半径;采用投影梯度下降法结合认证半径对图片进行迭代处理,得到迭代处理后的图片,其中,所有迭代处理后的图片形成对抗样本集;利用对抗样本集对语义分割模型进行攻击测试。本发明采用认证半径引导攻击方法对语义分割模型进行攻击测试,能够揭示语义分割模型的内部弱点信息,进而根据语义分割模型的内部弱点信息,进行优化,使得优化后的语义分割模型的鲁棒性更强,能对抗更强大的扰动。

Description

一种认证半径引导攻击方法、优化训练方法及***
技术领域
本发明涉及网络模型优化领域,更具体地,涉及一种认证半径引导攻击方法、优化训练方法及***。
背景技术
神经网络模型的应用非常广泛,为了使得神经网络模型的性能更好,通常先对神经网络模型进行攻击,针对攻击出现的问题,对神经网络模型进行优化。
传统的在对神经网络模型进行攻击的阶段,一般的白盒攻击方法认为攻击就是添加扰动使得模型的loss(损失函数值)增大,所以沿着梯度方向生成攻击样本应该是最佳的,由此提出了FGSM(fast gradient sign method,快速梯度符号法)方法和PGD(projected gradient descent,投影梯度下降法)方法。FGSM方法在产生对抗样本时,是不需要迭代的,它顺着梯度方向迭代一次,优点是速度很快,但它的攻击效果很差。PGD方法对FGSM进行了改进,PGD考虑把FGSM的一大步换成多小步,并且将其转化成一个优化过程,优点是攻击效果显著增强,但是速度非常慢。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的一种语义分割模型的认证半径引导攻击方法、优化训练方法及***。
根据本发明的第一方面,提供了一种语义分割模型的认证半径引导攻击方法,包括:对训练样本集的每一张原始图片,添加高斯噪声,获取每一张原始图片对应的第一图片;
计算每一张第一图片的认证半径;
采用投影梯度下降法对每一张第一图片进行第一次迭代处理,以及结合所述认证半径和投影梯度下降法对每一张第一图片进行剩余次数的迭代处理,得到迭代处理后的第二图片,其中,所有的第二图片形成对抗样本集;
利用对抗样本集对语义分割模型进行攻击测试;
其中,所述语义分割模型用于对图片中的目标进行分割。
在上述技术方案的基础上,本发明还可以作出如下改进。
可选的,通过如下公式计算每一张第一图片的认证半径:
Figure 455269DEST_PATH_IMAGE001
Figure 964879DEST_PATH_IMAGE002
其中,F(x)为平滑模型,E代表期望值,
Figure 796568DEST_PATH_IMAGE003
代表高斯逆累积分布函数 (Gaussian Inverse CDF function) ,
Figure 144242DEST_PATH_IMAGE004
代表高斯核,
Figure 770395DEST_PATH_IMAGE005
代表满足高斯分布的统计变量, Ri代表训 练样本集中的第i张原始图片的认证半径, F(x)iA和F(x)iB分别表示第i张原始图片经过语 义分割模型后输出的预测分割图F(x)中像素值最大的像素点和像素值第二大的像素点的 索引值。
可选的,所述采用投影梯度下降法对每一张第一图片进行第一次迭代处理,包括:
Figure 469099DEST_PATH_IMAGE006
其中,x表示训练样本集中的原始图片,x1为原始图片x经过第一次迭代后的输出,
Figure 448687DEST_PATH_IMAGE007
代表图片x第一次迭代的梯度值,
Figure 401600DEST_PATH_IMAGE008
代表迭代过程中的步长;
所述结合认证半径和投影梯度下降法对每一张第一图片进行剩余次数的迭代处理,包括:
Figure 510239DEST_PATH_IMAGE009
其中,xt为原始图片x经过第t次迭代后的输出,Rt为原始图片第t次迭代后的认证半径。
可选的,所述利用对抗样本集对语义分割模型进行攻击测试,包括:
将对抗样本集中的每一张第二图片输入语义分割模型中,获取输出的每一张第二图片的真实分割结果;
根据每一张第二图片的真实分割结果与预测分割结果,计算语义分割模型的MIOU值;
基于语义分割模型的MIOU值,判定对语义分割模型的攻击测试是否成功。
根据本发明的第二方面,提供一种语义分割模型的优化训练方法,包括:
基于语义分割模型的认证半径引导攻击方法对语义分割模型进行攻击测试;
当攻击测试结果为攻击成功时,对语义分割模型的损失函数进行优化;
利用优化后的损失函数与对语义分割模型进行优化训练,得到优化训练后的语义分割模型。
可选的,所述第二损失函数为:
Figure 384654DEST_PATH_IMAGE010
Figure 886043DEST_PATH_IMAGE011
其中,n为对抗样本集中的第二图片的数量,Ri代表训练样本集中的第i张原始图 片的认证半径,
Figure 709773DEST_PATH_IMAGE012
代表第i张原始图片对应的第i张第二图片的认证半径,CRLOSS为第二损 失函数,x表示原始图片,x’表示第二图片。
可选的,所述优化后的损失函数为:
Figure 740046DEST_PATH_IMAGE013
其中,
Figure 351025DEST_PATH_IMAGE014
表示第一损失函数,
Figure 390525DEST_PATH_IMAGE015
为优化前的语义分割模 型对第i张原始图片的输出,yi为第i张原始图片的标签,
Figure 68762DEST_PATH_IMAGE016
为第一损失函数和第二损失函 数之间的权重,可通过不断的优化训练得到最优的
Figure 136117DEST_PATH_IMAGE016
值,其中,第一损失函数为交叉熵损 失函数。
根据本发明的第三方面,提供了一种语义分割模型的认证半径引导攻击***,包括:
获取模块,用于对训练样本集的每一张原始图片,添加高斯噪声,获取每一张原始图片对应的第一图片;
计算模块,用于计算每一张第一图片的认证半径;
迭代处理模块,用于采用投影梯度下降法对每一张第一图片进行第一次迭代处理,以及结合所述认证半径和投影梯度下降法对每一张第一图片进行剩余次数的迭代处理,得到迭代处理后的第二图片,其中,所有的第二图片形成对抗样本集;
攻击测试模块,用于利用对抗样本集对语义分割模型进行攻击测试;
其中,所述语义分割模型用于对图片中的目标进行分割。
根据本发明的第四方面,提供了一种语义分割模型的优化训练***,包括:
第一优化模块,用于当攻击测试模块对语义分割模型的攻击测试结果为攻击成功时,对语义分割模型的损失函数进行优化;
第二优化模块,用于利用优化后的损失函数与对语义分割模型进行优化训练,得到优化训练后的语义分割模型。
根据第五方面,提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现语义分割模型的认证半径引导攻击方法或优化训练方法的步骤。
根据本发明的第六方面,提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现语义分割模型的认证半径引导攻击方法或优化训练方法的步骤。
本发明提供的一种语义分割模型的认证半径引导攻击方法、优化训练方法及***,采用认证半径引导攻击方法对语义分割模型进行攻击测试,能够揭示语义分割模型的内部弱点信息,进而根据语义分割模型的内部弱点信息,进行攻击和优化,使得优化后的语义分割模型的鲁棒性更强,能对抗更强大的扰动。
附图说明
图1为本发明提供的一种语义分割模型的认证半径引导攻击方法流程图;
图2为本发明提供的一种语义分割模型的认证半径引导攻击方法流程图;
图3为本发明提供的一种语义分割模型的优化训练方法流程图;
图4为本发明提供的语义分割模型的认证半径引导攻击***结构示意图;
图5为本发明提供的语义分割模型的优化训练***结构示意图;
图6为本发明提供的一种可能的电子设备的硬件结构示意图;
图7为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明提供的一种语义分割模型的认证半径引导攻击方法流程图,如图1所示,方法包括:101、对训练样本集的每一张原始图片,添加高斯噪声,获取每一张原始图片对应的第一图片;102、计算每一张第一图片的认证半径;103、采用投影梯度下降法对每一张第一图片进行第一次迭代处理,以及结合所述认证半径和投影梯度下降法对每一张第一图片进行剩余次数的迭代处理,得到迭代处理后的第二图片,其中,所有的第二图片形成对抗样本集;104、利用对抗样本集对语义分割模型进行攻击测试;其中,所述语义分割模型用于对图片中的目标进行分割。
可以理解的是,基于背景技术中FGSM方法和PGD方法对神经网络模型进行攻击的缺陷,认证半径(CR)是评估对抗神经网络实例的深度神经网络(DNN)模型的认证鲁棒性的关键指标,同时,CR可以反过来揭示DNN模型的内部弱点信息,而先前的工作忽略了这些信息。基于此观察,提出了神经网络模型进行CR引导的逃逸攻击和鲁棒性再训练策略,以更好地增强DNN的鲁棒性;而且,CR攻击和防御方法不受特定规范的限制。
基于上述理论,本发明实施例提出了对一个已经训练好的语义分割模型进行认证半径引导攻击,其中,采用训练样本集中的原始图片对语义分割模型进行训练,利用训练好的语义分割模型可对图片中的目标进行分割识别,比如,对周围环境图片中的行人、车辆、树木等目标进行分割识别。对于训练好的语义分割模型可能对于一些扰动的图片,分割效果不好,或者根本无法从图片中分割识别出目标,因此,需要对语义分割模型进行攻击测试,确定语义分割模型的分割效果。具体为,在对语义分割模型进行攻击测试时,对于训练语义分割模型的训练样本集中的每一张原始图片,添加高斯噪声进行扰动,为方便描述,对每一张原始图片添加高斯噪声后的图片称为第一图片,第一图片的数量与原始图片的数量相等。
计算每一张第一图片的认证半径,基于认证半径和投影梯度下降法对每一张第一图片进行迭代处理,具体的,采用投影梯度下降法对每一张第一图片进行第一次迭代处理,经过第一次迭代处理后,结合认证半径和投影梯度下降法对每一张第一图片进行剩余次数的迭代处理,得到迭代处理后的第二图片。对每一张第一图片均进行迭代处理,得到对应的第二图片,其中,所有的第二图片形成对抗样本集。利用获取的对抗样本集对先前训练好的语义分割模型进行攻击测试。
本发明实施例采用认证半径引导攻击方法对语义分割模型进行攻击测试,能够揭示语义分割模型的内部弱点信息,进而针对语义分割模型的内部弱点信息,对语义分割模型进行攻击,能够实现较小的扰动实现更强的攻击,攻击效果好;对语义分割模型中的内部脆弱信息有针对性的攻击,攻击的效率也更高。
在一种可能的实施例方式中,通过如下公式计算每一张第一图片的认证半径:
Figure 781862DEST_PATH_IMAGE017
Figure 844627DEST_PATH_IMAGE018
其中,F(x)为平滑模型,E代表期望值,
Figure 95480DEST_PATH_IMAGE003
代表高斯逆累积分布函数 (Gaussian Inverse CDF function) ,
Figure 513560DEST_PATH_IMAGE004
代表高斯核,
Figure 849864DEST_PATH_IMAGE019
代表满足高斯分布的统计变量, Ri代表训 练样本集中的第i张原始图片的认证半径, F(x)iA和F(x)iB分别表示第i张原始图片经过语 义分割模型后输出的预测分割图F(x)中像素值最大的像素点和像素值第二大的像素点的 索引值,x表示原始图片,I表示训练样本集中的图片。
其中,计算出的认证半径为在物体的分割边缘形成的轮廓,表示语义分割模型在这个轮廓上会比较脆弱,那么通过认证半径可揭示语义分割模型的内部脆弱信息。
在一种可能的实施例方式中,可以理解的是,对每一张第一图片进行迭代处理的过程为,采用投影梯度下降法对每一张第一图片进行第一次迭代处理,包括:
Figure 981899DEST_PATH_IMAGE020
其中,x表示训练样本集中的原始图片,
Figure 352838DEST_PATH_IMAGE021
为原始图片x经过第一次迭代后的输出,
Figure 99077DEST_PATH_IMAGE022
代表图片x第一次迭代的梯度值,
Figure 922676DEST_PATH_IMAGE023
代表迭代过程中的步长。
进行第一次迭代后,结合认证半径和投影梯度下降法对每一张第一图片进行剩余次数的迭代处理,包括:
Figure 356937DEST_PATH_IMAGE024
其中,xt为原始图片x经过第t次迭代后的输出,Rt为原始图片第t次迭代后的认证 半径,
Figure 316803DEST_PATH_IMAGE025
为原始图片x经过第t此迭代后的梯度值。
与第一次迭代不同的是,剩余次数的迭代过程中,将认证半径提供的模型脆弱信 息融入该式子,具体做法就是在梯度这个部分乘以
Figure 499523DEST_PATH_IMAGE026
,加上绝对值是为了保证优 化方向始终一致。
其中,对每一张第一图片进行迭代时,可设定迭代的总次数,当迭代次数达到设定的迭代总次数时,停止迭代,得到对应的第二图片。
在一种可能的实施例方式中,所述利用对抗样本集对语义分割模型进行攻击测试,包括:将对抗样本集中的每一张第二图片输入语义分割模型中,获取输出的每一张第二图片的真实分割结果;根据每一张第二图片的真实分割结果与预测分割结果,计算语义分割模型的MIOU值;基于语义分割模型的MIOU值,判定对语义分割模型的攻击测试是否成功。
可以理解的是,利用得到的对抗样本集中的第二图片的语义分割模型进行攻击测试。具体的,将每一张第二图片输入语义分割模型中,输出每一张第二图片的真实分割结果,得到真实分割结果集合,对于每一张第二图片的预测分割结果形成预测分割结果集合。根据真实分割结果集合和预测分割结果集合,计算语义分割模型的MIOU值;基于语义分割模型的MIOU值小于预设阈值,判定对语义分割模型的攻击测试是否成功,若MIOU值大于预设阈值,则判定对语义分割模型的攻击测试失败。其中,MIOU值为计算真实分割结果与预测分割结果的两个集合中的交集和并集之比。
其中,比如利用训练样本集中的原始图片对语义分割模型进行测试,得到的MIOU值为80,但是利用对抗样本集中的第二图片对语义分割模型进行测试,得到的MIOU值为20。Mean Intersection over Union(MIoU,均交并比)为语义分割的标准度量,其计算两个集合的交集和并集之比,在语义分割的问题中,这两个集合为真实值(ground truth)和预测值(predicted segmentation)。这个比例可以变形为正真数(intersection)比上真正、假负、假正(并集)之和,在每个类上计算IoU之后平均。
参见图2,对本发明实施例提供的语义分割模型的认证半径引导攻击方法进行详细说明。
对原来的训练样本集中的每一张原始图片添加高斯噪声,得到第一图片,对于每一张第一图片,计算出其认证半径,并基于认证半径和投影梯度下降法对第一图片进行迭代处理。其中,在对第一图片进行迭代处理过程中,利用投影梯度下降法对第一图片进行第一次迭代处理,利用投影梯度下降法和认证半径相结合对第一图片进行剩余次数的迭代,得到迭代处理后的第二图片,所有的第二图片形成对抗样本集。利用对抗样本集对语义分割模型进行攻击测试,并记录攻击测试的成败结果。
本发明实施例提出的认证半径引导对语义分割模型的攻击方法,在图片上添加高斯噪声,进行扰动,计算出增加扰动后图片的认证半径,认证半径能够揭示语义分割模型的内部脆弱信息,后面进行攻击时,有针对性地对语义分割模型的脆弱区域进行攻击,那么在较小的扰动下,能够形成对语义分割模型更强大的攻击,攻击效果好。
参见图3,提供了本发明实施例的一种语义分割模型的优化训练方法,包括:301、基于语义分割模型的认证半径引导攻击方法对语义分割模型进行攻击测试;302、当攻击测试结果为攻击成功时,对语义分割模型的损失函数进行优化;303、利用优化后的损失函数与对语义分割模型进行优化训练,得到优化训练后的语义分割模型。
可以理解的是,对抗训练(adversarial training)是增强神经网络鲁棒性的重要方式。在对抗训练的过程中,样本会被混合一些微小的扰动(改变很小,但是很可能造成误分类),然后使语义分割模型适应这种改变,从而对对抗样本具有鲁棒性。同样的,针对FGSM和PGD攻击,进行对应防御策略,在语义分割模型的训练中生成对抗样本通过FGSM,PGD方法。但是这些防御策略都有缺陷,基于FGSM的防御策略有一个重大缺陷:由于FGSM攻击者的攻击比较弱,所以训练出来的模型也还是对对抗样本攻击表现脆弱;基于PGD的防御策略的缺点是,训练时间特别慢而且计算资源要求很多,否则经常会导致模型训练失败。
基于此,本发明实施例在对语义分割模型训练过程中融入认证半径的信息,并且利用高斯噪声来模拟对抗样本的扰动攻击,速度比PGD防御策略快很多倍,防御效果好。
具体的,基于上述利用认证半径对语义分割模型进行攻击测试,当攻击测试成功时,需要对原来的语义分割模型进行优化,本发明实施例主要是对语义分割模型的损失函数进行优化,利用优化后的损失函数对语义分割模型进行优化训练,得到优化训练后的语义分割模型,利用优化训练后的语义分割模型来对图片中的目标进行分割,分割效果更好,抗干扰能力更强。
在一种可能的实施例方式中,优化后的损失函数包括第一损失函数和第二损失函数,第一损失函数为利用训练样本集对语义分割模型训练时的损失函数,第二损失函数为利用对抗样本集对语义分割模型训练时的损失函数。
可以理解的是,优化后的整个损失函数由两部分组成:在原始训练样本上普通训练的部分对应的损失函数和利用认证半径的对抗训练对应的损失函数。
其中,基于认证半径的对抗训练损失函数(像素级别的累加),即第二损失函数为:
Figure 623468DEST_PATH_IMAGE010
Figure 80994DEST_PATH_IMAGE011
其中,n为对抗样本集中的第二图片的数量,Ri代表训练样本集中的第i张原始图 片的认证半径,
Figure 410213DEST_PATH_IMAGE027
代表第i张原始图片对应的第i张第二图片的认证半径,CRLOSS为第二损 失函数,x表示原始图片,x’表示第二图片。
在一种可能的实施例方式中,优化后的整体损失函数为将第一损失函数和第二损失函数根据一定的权重相加得到:
Figure 763834DEST_PATH_IMAGE028
其中,
Figure 562026DEST_PATH_IMAGE014
表示第一损失函数,
Figure 839554DEST_PATH_IMAGE029
为优化前的语义分割模 型对第i张原始图片的输出,yi为第i张原始图片的标签,
Figure 774012DEST_PATH_IMAGE030
为第一损失函数和第二损失函 数之间的权重,可通过不断的优化训练得到最优的
Figure 298535DEST_PATH_IMAGE031
值,其中,第一损失函数为交叉熵损失 函数。
对损失函数进行优化,优化后的损失函数中考虑了认证半径,使得优化后损失函数针对了语义分割模型的脆弱区域,那么基于优化后的损失函数,对语义分割模型进行优化训练,得到优化训练后的语义分割模型,利用优化后的语义分割模型来分割图片,分割效果会更好,抗扰动能力也更强。
图4为本发明提供的一种语义分割模型的认证半径引导攻击***结构图,如图4所示,一种语义分割模型的认证半径引导攻击***包括获取模块401、计算模块402、迭代处理模块403和攻击测试模块404,其中:
获取模块401,用于对训练样本集的每一张原始图片,添加高斯噪声,获取每一张原始图片对应的第一图片;计算模块402,用于计算每一张第一图片的认证半径;迭代处理模块403,用于采用投影梯度下降法对每一张第一图片进行第一次迭代处理,以及结合所述认证半径和投影梯度下降法对每一张第一图片进行剩余次数的迭代处理,得到迭代处理后的第二图片,其中,所有的第二图片形成对抗样本集;攻击测试模块403,用于利用对抗样本集对语义分割模型进行攻击测试,其中,所述语义分割模型用于对图片中的目标进行分割。
可以理解的是,本发明实施例提供的语义分割模型的认证半径引导攻击***与前述各实施例提供的语义分割模型的认证半径引导攻击方法相对应,语义分割模型的认证半径引导攻击***的相关技术特征可参考语义分割模型的认证半径引导攻击方法的相关技术特征,在此不再赘述。
参见图5,提供了本发明实施例的一种语义分割模型的优化训练***,包括第一优化模块501和第二优化模块502,其中:
第一优化模块501,用于当攻击测试模块对语义分割模型的攻击测试结果为攻击成功时,对语义分割模型的损失函数进行优化;第二优化模块502,用于利用优化后的损失函数与对语义分割模型进行优化训练,得到优化训练后的语义分割模型。
可以理解的是,本发明实施例提供的语义分割模型的优化训练***与前述各实施例提供的语义分割模型的优化训练方法相对应,语义分割模型的优化训练***的相关技术特征可参考语义分割模型的优化训练方法的相关技术特征,在此不再赘述。
请参阅图6,图6为本发明实施例提供的电子设备的实施例示意图。如图6所示,本发明实施例提供了一种电子设备600,包括存储器610、处理器620及存储在存储器620上并可在处理器620上运行的计算机程序611,处理器620执行计算机程序611时实现以下步骤:对训练样本集的每一张原始图片,添加高斯噪声,获取每一张原始图片对应的第一图片;计算每一张第一图片的认证半径;采用投影梯度下降法对每一张第一图片进行第一次迭代处理,以及结合所述认证半径和投影梯度下降法对每一张第一图片进行剩余次数的迭代处理,得到迭代处理后的第二图片,其中,所有的第二图片形成对抗样本集;利用对抗样本集对语义分割模型进行攻击测试。
请参阅图7,图7为本发明实施例提供的一种计算机可读存储介质的实施例示意图。如图7所示,本实施例提供了一种计算机可读存储介质700,其上存储有计算机程序711,该计算机程序711被处理器执行时实现如下步骤:对训练样本集的每一张原始图片,添加高斯噪声,获取每一张原始图片对应的第一图片;计算每一张第一图片的认证半径;采用投影梯度下降法对每一张第一图片进行第一次迭代处理,以及结合所述认证半径和投影梯度下降法对每一张第一图片进行剩余次数的迭代处理,得到迭代处理后的第二图片,其中,所有的第二图片形成对抗样本集;利用对抗样本集对语义分割模型进行攻击测试。
本发明提供的一种语义分割模型的认证半径引导攻击方法、优化训练方法及***,本发明实施例提出的认证半径引导对语义分割模型的攻击方法,在图片上添加高斯噪声,进行扰动,计算出增加扰动后图片的认证半径,认证半径能够揭示语义分割模型的内部脆弱信息,后面进行攻击时,有针对性地对语义分割模型的脆弱区域进行攻击,那么在较小的扰动下,能够形成对语义分割模型更强大的攻击,攻击效果好。
在对语义分割模型进行优化训练防御时,对损失函数进行优化,优化后的损失函数中考虑了认证半径,使得优化后损失函数针对了语义分割模型的脆弱区域,那么基于优化后的损失函数,对语义分割模型进行优化训练,得到优化训练后的语义分割模型,利用优化后的语义分割模型来分割图片,分割效果会更好,抗扰动能力也更强。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (9)

1.一种语义分割模型的认证半径引导攻击方法,其特征在于,包括:
对训练样本集的每一张原始图片,添加高斯噪声,获取每一张原始图片对应的第一图片;
计算每一张第一图片的认证半径;
采用投影梯度下降法对每一张第一图片进行第一次迭代处理,以及结合所述认证半径和投影梯度下降法对每一张第一图片进行剩余次数的迭代处理,得到迭代处理后的第二图片,其中,所有的第二图片形成对抗样本集;
利用对抗样本集对语义分割模型进行攻击测试;
其中,所述语义分割模型用于对图片中的目标进行分割;
所述采用投影梯度下降法对每一张第一图片进行第一次迭代处理,包括:
Figure 602141DEST_PATH_IMAGE001
其中,x表示训练样本集中的原始图片,x1为原始图片x经过第一次迭代后的输出,
Figure 561875DEST_PATH_IMAGE002
代表图片x第一次迭代的梯度值,
Figure 836999DEST_PATH_IMAGE003
代表迭代过程中的步长;
所述结合认证半径和投影梯度下降法对每一张第一图片进行剩余次数的迭代处理,包括:
Figure 480470DEST_PATH_IMAGE004
其中,xt为原始图片x经过第t次迭代后的输出,Rt为原始图片第t次迭代后的认证半径。
2.根据权利要求1所述的认证半径引导攻击方法,其特征在于,通过如下公式计算每一张第一图片的认证半径:
Figure 284478DEST_PATH_IMAGE005
Figure 13399DEST_PATH_IMAGE006
其中,F(x)为优化后的语义分割模型,E代表期望值,
Figure 92214DEST_PATH_IMAGE007
代表高斯逆累积分布函数(Gaussian Inverse CDF function) ,
Figure 590191DEST_PATH_IMAGE008
代表高斯核,
Figure 33942DEST_PATH_IMAGE009
代表满足高斯分布的统计变量,
Figure 984581DEST_PATH_IMAGE010
表示原始图片经过优化前的语义分割模型后的输出,Ri代表训练样本集中的第i张原始图片的认证半径, F(x)iA和F(x)iB分别表示第i张原始图片经过优化后的语义分割模型后输出的预测分割图中像素值最大的像素点和像素值第二大的像素点的索引值。
3.根据权利要求1所述的认证半径引导攻击方法,其特征在于,所述利用对抗样本集对语义分割模型进行攻击测试,包括:
将对抗样本集中的每一张第二图片输入语义分割模型中,获取输出的每一张第二图片的真实分割结果;
根据每一张第二图片的真实分割结果与预测分割结果,计算语义分割模型的MIOU值;
基于语义分割模型的MIOU值,判定对语义分割模型的攻击测试是否成功。
4.一种语义分割模型的优化训练方法,其特征在于,包括:
基于权利要求1所述的认证半径引导攻击方法对语义分割模型进行攻击测试;
当攻击测试结果为攻击成功时,对语义分割模型的损失函数进行优化;
利用优化后的损失函数与对语义分割模型进行优化训练,得到优化训练后的语义分割模型。
5.根据权利要求4所述的优化训练方法,其特征在于,所述优化后的损失函数包括第一损失函数和第二损失函数,所述第一损失函数为利用训练样本集对语义分割模型训练时的损失函数,所述第二损失函数为利用对抗样本集对语义分割模型训练时的损失函数。
6.根据权利要求5所述的优化训练方法,其特征在于,所述第二损失函数为:
Figure 867086DEST_PATH_IMAGE011
Figure 937679DEST_PATH_IMAGE012
其中,n为对抗样本集中的第二图片的数量,Ri代表训练样本集中的第i张原始图片的认证半径,
Figure 880227DEST_PATH_IMAGE013
代表第i张原始图片对应的第i张第二图片的认证半径,CRLOSS为第二损失函数,x表示原始图片,x’表示第二图片,FiA(x)和FiB(x)分别表示第i张原始图片经过优化后的语义分割模型后输出的预测分割图中像素值最大的像素点和像素值第二大的像素点的索引值,FiA(x’)和FiB(x’)分别表示第i张第二图片经过优化后的语义分割模型后输出的预测分割图中像素值最大的像素点和像素值第二大的像素点的索引值,
Figure 318162DEST_PATH_IMAGE007
代表高斯逆累积分布函数。
7.根据权利要求6所述的优化训练方法,其特征在于,所述优化后的损失函数为:
Figure 738779DEST_PATH_IMAGE014
其中,
Figure 476928DEST_PATH_IMAGE015
表示第一损失函数,
Figure 590377DEST_PATH_IMAGE016
为优化前的语义分割模型对第i张原始图片的输出,yi为第i张原始图片的标签,
Figure 718870DEST_PATH_IMAGE017
为第一损失函数和第二损失函数之间的权重,第一损失函数为交叉熵损失函数。
8.一种语义分割模型的认证半径引导攻击***,其特征在于,包括:
获取模块,用于对训练样本集的每一张原始图片,添加高斯噪声,获取每一张原始图片对应的第一图片;
计算模块,用于计算每一张第一图片的认证半径;
迭代处理模块,用于采用投影梯度下降法对每一张第一图片进行第一次迭代处理,以及结合所述认证半径和投影梯度下降法对每一张第一图片进行剩余次数的迭代处理,得到迭代处理后的第二图片,其中,所有的第二图片形成对抗样本集;
攻击测试模块,用于利用对抗样本集对语义分割模型进行攻击测试;
其中,所述语义分割模型用于对图片中的目标进行分割;
所述采用投影梯度下降法对每一张第一图片进行第一次迭代处理,包括:
Figure 412020DEST_PATH_IMAGE018
其中,x表示训练样本集中的原始图片,x1为原始图片x经过第一次迭代后的输出,
Figure 473517DEST_PATH_IMAGE019
代表图片x第一次迭代的梯度值,
Figure 757867DEST_PATH_IMAGE003
代表迭代过程中的步长;
所述结合认证半径和投影梯度下降法对每一张第一图片进行剩余次数的迭代处理,包括:
Figure 170394DEST_PATH_IMAGE020
其中,xt为原始图片x经过第t次迭代后的输出,Rt为原始图片第t次迭代后的认证半径。
9.一种语义分割模型的优化训练***,其特征在于,包括权利要求8所述的语义分割模型的认证半径引导攻击***、第一优化模块和第二优化模块;
第一优化模块,用于当攻击测试模块对语义分割模型的攻击测试结果为攻击成功时,对语义分割模型的损失函数进行优化;
第二优化模块,用于利用优化后的损失函数与对语义分割模型进行优化训练,得到优化训练后的语义分割模型。
CN202110583029.7A 2021-05-27 2021-05-27 一种认证半径引导攻击方法、优化训练方法及*** Active CN113052314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110583029.7A CN113052314B (zh) 2021-05-27 2021-05-27 一种认证半径引导攻击方法、优化训练方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110583029.7A CN113052314B (zh) 2021-05-27 2021-05-27 一种认证半径引导攻击方法、优化训练方法及***

Publications (2)

Publication Number Publication Date
CN113052314A CN113052314A (zh) 2021-06-29
CN113052314B true CN113052314B (zh) 2021-09-14

Family

ID=76518572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110583029.7A Active CN113052314B (zh) 2021-05-27 2021-05-27 一种认证半径引导攻击方法、优化训练方法及***

Country Status (1)

Country Link
CN (1) CN113052314B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165671A (zh) * 2018-07-13 2019-01-08 上海交通大学 基于样本到决策边界距离的对抗样本检测方法
US10936910B2 (en) * 2019-02-15 2021-03-02 Baidu Usa Llc Systems and methods for joint adversarial training by incorporating both spatial and pixel attacks
US11494639B2 (en) * 2019-09-24 2022-11-08 Robert Bosch Gmbh Bayesian-optimization-based query-efficient black-box adversarial attacks
CN111898758B (zh) * 2020-09-29 2021-03-02 苏宁金融科技(南京)有限公司 一种用户异常行为识别方法、装置及计算机可读存储介质
CN112364915B (zh) * 2020-11-10 2024-04-26 浙江科技学院 一种不可察觉的对抗补丁生成方法及应用
CN112667496B (zh) * 2020-12-14 2022-11-18 清华大学 基于多先验的黑盒对抗测试样本生成方法及装置

Also Published As

Publication number Publication date
CN113052314A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN111310802B (zh) 一种基于生成对抗网络的对抗攻击防御训练方法
CN112396129B (zh) 一种对抗样本检测方法及通用对抗攻击防御***
CN115860112B (zh) 基于模型反演方法的对抗样本防御方法和设备
CN111178504B (zh) 基于深度神经网络的鲁棒压缩模型的信息处理方法及***
Khalid et al. Fadec: A fast decision-based attack for adversarial machine learning
CN112200380A (zh) 优化风险检测模型的方法及装置
CN113435264A (zh) 基于寻找黑盒替代模型的人脸识别对抗攻击方法及装置
CN112560881A (zh) 对象识别方法和装置、数据处理方法
Zhang et al. Generalizing universal adversarial perturbations for deep neural networks
CN113052314B (zh) 一种认证半径引导攻击方法、优化训练方法及***
KR20220058189A (ko) 뉴럴 네트워크를 이용한 분류 방법 및 장치
CN111950635A (zh) 一种基于分层特征对齐的鲁棒特征学习方法
CN113837253B (zh) 一种单步对抗训练方法、***、设备、存储介质及产品
Xu et al. Lancex: A versatile and lightweight defense method against condensed adversarial attacks in image and audio recognition
CN113222480A (zh) 对抗样本生成模型的训练方法及装置
US20240193931A1 (en) Method and apparatus for generating adversarial patch
CN114330652A (zh) 一种目标检测攻击方法和装置
CN115222990A (zh) 一种基于自适应指纹的元学习神经网络指纹检测方法
CN114021136A (zh) 针对人工智能模型的后门攻击防御***
CN113313404B (zh) 生成对抗样本的方法及装置
Kuroki et al. Fast Explanation Using Shapley Value for Object Detection
CN113298238B (zh) 使用定向攻击探索黑盒神经网络的方法、装置、处理设备、存储介质
US20240232335A1 (en) Model determination apparatus and method
KR102561613B1 (ko) Ste 및 최적 중단시점 자동 결정 알고리즘을 적용한 dip를 사용하여 노이즈 이미지를 디노이징하는 방법 및 장치
CN117336057B (zh) 一种基于深度学习的轻量化恶意流量分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant