CN111860681A

CN111860681A - 一种双注意力机制下的深度网络困难样本生成方法及应用

Info

Publication number: CN111860681A
Application number: CN202010749955.2A
Authority: CN
Inventors: 化春键; 王珊珊; 陈莹; 李祥明; 钱春俊; 裴佩
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-10-30
Anticipated expiration: 2040-07-30
Also published as: CN111860681B

Abstract

本发明公开了一种新的用于深度学习的困难样本的生成方法及应用，设计一种双向注意力机制自动生成困难样本，有助于深度模型跳出局部最优解，使模型的鲁棒性更强。该方法的注意力机制不仅能够强调突出前景目标，同时能够在一定程度上避免背景杂波的影响，使得遮挡的区域更加集中且生成的困难样本更具有对抗性，进而可提高了深度网络目标识别精度。

Description

一种双注意力机制下的深度网络困难样本生成方法及应用

技术领域

本发明涉及一种双注意力机制下的深度网络困难样本生成方法，属于人工智能技术领域。

背景技术

深度学习的方法需要增加训练样本的多样性来提高模型的泛化能力，缓解过拟合现象。

然而，对于大多数识别任务来说，收集一个大的数据集是比较困难的问题。数据增强是一个值得考虑的替代方法，不需要人工标注大量的图片。通常的数据扩充方法包括随机裁剪、镜像图像以及图像抖动等，参考文献[1-2]。近来，对抗生成网络的发展为模型引入额外的扩充数据带来了可靠的选择，参考文献[3-4]。

但是通常来说，使用对抗生成网络进行数据扩充需要额外的数据集，因为需要利用额外数据集的风格或姿态等信息生成训练集可利用的数据集。为了在增加样本数量的同时，增强样本对网络的约束力，人们开始研究困难样本的生成。文献[5]在网络的输入图片中随机擦除一些区域避免网络陷入过拟合从而使得网络更加鲁棒。

但是另一方面，随意遮挡样本有可能给网络增加噪音，从而使得网络收敛得更慢。

文献[6]利用滑动窗口生成困难样本池，根据不同的困难样本加入模型训练后的精度选取最困难样本，按照选取的最困难样本扩充训练集，重新训练模型，但是步骤比较繁琐。

发明内容

本发明的目的是提出一种新的用于深度学习的困难样本的生成方法，设计一种双向注意力机制自动生成困难样本，有助于深度模型跳出局部最优解，使模型的鲁棒性更强。技术方案包括如下步骤：

S01、获取训练集图像，将训练集图像I_k，k＝1,2,...,N输入基础网络ResNet-50，提取来自conv5_3层的特征

其中W×H为特征F的高和宽，C为F的通道数，N为训练集图像数量；

S02、建立空间注意机制，得到空间注意权重矩阵

S03、建立通道注意机制，得到通道注意向量a^c；

S04、逐步应用通道注意向量a^c和空间注意权重矩阵a^s生成双注意力加强特征，完成将空间注意机制与通道注意机制融合，得到双注意力加强特征

S05、利用Grad-cam对双注意力加强特征

进行处理，得到对应于I_k的关注热图，并利用OTSU算法对关注热图进行二值化操作，得到关注二值图片B_k，k＝1,2,...,N；

S06、对于每一张B_k，k＝1,2,...,N，选取其最大的连通域，在对应的原图I_k，k＝1,2,...,N上将该连通域对应像素的灰度值置为0，即生成双注意机制下的困难样本J_k，k＝1,2,...,N。

进一步地，步骤S02具体为：

(1)提取来自conv5_3层的特征F；

(2)提取特征F中空间位置l＝(x,y)处的空间特征

(3)空间位置l＝(x,y)处的注意力权重可以通道softmax操作获得：

进而得到空间注意权重矩阵

进一步地，步骤S03具体为：

(1)对每个通道的特征

i＝1,...,C应用平均池化得到u_i，进而得到通道特征

(2)在平均池化层后接一个卷积层学习每个通道的强化特征，即：

u'＝W_c*u+b_c

其中*表示卷积操作，W_c表示权重，b_c是偏置项。

(3)对u'＝[u′₁,u'₂,...,u'_C]应用Sigmoid操作，生成通道注意向量

即通道i的注意值

本发明还提供了深度网络困难样本生成方法在监控图像识别、热图识别领域的应用。

本发明还提供了深度网络困难样本生成方法在金融经济量化分析领域的应用。

本发明还提供了深度网络困难样本生成方法在医疗药物挖掘、病情分析、医学影像分析领域的应用。

本发明还提供了深度网络困难样本生成方法在网络安全领域的应用。

本发明还提供了深度网络困难样本生成方法在在过滤垃圾邮件领域的应用。

本发明还提供了深度网络困难样本生成方法在在DNS恶意域名分析领域的应用。

本发明具有如下有益效果：

本发明设计了一种基于空间和通道的双注意力机制的深度网络困难样本生成方法，其注意力机制不仅能够强调突出前景目标，同时能够在一定程度上避免背景杂波的影响，使得遮挡的区域更加集中且生成的困难样本更具有对抗性，进而可提高了深度网络目标识别精度。

附图说明

图1为一种双注意力机制下的深度网络困难样本生成方法的流程示意图；

图2为双注意力模型网络框架图；

图3为关注热图与困难样本示例。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

如图1所示,为本发明所提供的一种双注意力机制下的深度网络困难样本生成方法的流程示意图。在本实施方式中，一种双注意力机制下的深度网络困难样本生成方法，包括如下步骤：

S01、将训练集图像I_k，k＝1,2,...,N输入基础网络ResNet-50，提取来自conv5_3层的特征F，N为训练集图像数量；

S02、建立空间注意机制，得到空间注意权重矩阵

如图2(a)所示，所述步骤S02具体为：

(1)提取聚合特征

其中W×H为聚合特征F的高和宽，C为F的通道数；

(2)提取聚合特征F中空间位置l＝(x,y)处的空间特征

(3)空间位置l＝(x,y)处的注意力权重可以通道softmax操作获得：

进而得到空间注意权重矩阵

S03、建立通道注意机制，得到通道注意向量a^c；

如图2(b)所示，所述步骤S03具体为：

(1)对每个通道的聚合特征

i＝1,...,C应用平均池化得到u_i，进而得到通道特征

(2)在平均池化层后接一个卷积层学习每个通道的聚合特征，即：

u'＝W_c*u+b_c

其中*表示卷积操作，W_c表示权重，b_c是偏置项。

即通道i的注意值

S04、逐步应用通道注意和空间注意生成双注意力加强特征，完成将空间注意机制与通道注意机制融合，得到双注意力加强特征

如图2(c)所示，所述步骤S04具体为：

(1)将通道i的注意值

与每个通道的聚合特征F_i相乘，得到通道i的注意加强特征

(2)在通道i,i＝1,2,K,C，将空间注意权重矩阵a^s与通道i的注意加强特征F_i ^c做点乘，得到双注意力加强特征

F_i ^sc＝a^s*F_i ^c

S05、利用Grad-cam将I_k，k＝1,2,...,N网络关注的区域可视化，得到关注热图，并利用OTSU算法对关注热图进行二值化操作，得到关注二值图片B_k，k＝1,2,...,N；

如图3所示为本发明所生成的关注热图及困难样本示例。将本发明所生成的困难样本用于行人再识别，随机挑选30％的困难样本替代原始的训练样本来重新训练模型，在公开数据集Market1501数据集和DukeMTMC-reID数据集上进行实验，实验结果如表1所示。

表1实验结果比较

实施例2

一种深度网络困难样本生成方法在监控图像识别、热图识别领域的应用。

实施例3

一种深度网络困难样本生成方法在金融经济量化分析领域的应用。

实施例4

实施例5

一种深度网络困难样本生成方法在医疗药物挖掘、病情分析、医学影像分析领域的应用。

实施例6

一种深度网络困难样本生成方法在网络安全领域的应用。

实施例7

一种深度网络困难样本生成方法在在过滤垃圾邮件领域的应用。

实施例8

一种深度网络困难样本生成方法在在DNS恶意域名分析领域的应用。

虽然本发明已以较佳实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可做各种的改动与修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

参考文献：

[1]Fadaee,Marzieh,Arianna Bisazza,and Christof Monz."Dataaugmentation for low-resource neural machine translation."arXiv preprintarXiv:1705.00440(2017).

[2]Perez L,Wang J.The effectiveness of data augmentation in imageclassification using deep learning[J].arXiv preprint arXiv:1712.04621,2017.

[3]Frid-Adar M,Diamant I,Klang E,et al.GAN-based synthetic medicalimage augmentation for increased CNN performance in liver lesionclassification[J].Neurocomputing,2018,321:321-331.

[4]Lim S K,Loo Y,Tran N T,et al.Doping:Generative data augmentationfor unsupervised anomaly detection with gan[C]//2018IEEE InternationalConference on Data Mining(ICDM).IEEE,2018:1122-1127.

[5]Zhong Z,Zheng L,Kang G,et al.Random erasing data augmentation[J].arXiv preprint arXiv:170804896,2017.

[6]Huang H,Li D,Zhang Z,et al.Adversarially occluded samples forperson re-identification；proceedings of the Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2018