CN111046939A - 基于注意力的cnn类别激活图生成方法 - Google Patents
基于注意力的cnn类别激活图生成方法 Download PDFInfo
- Publication number
- CN111046939A CN111046939A CN201911241048.0A CN201911241048A CN111046939A CN 111046939 A CN111046939 A CN 111046939A CN 201911241048 A CN201911241048 A CN 201911241048A CN 111046939 A CN111046939 A CN 111046939A
- Authority
- CN
- China
- Prior art keywords
- weight
- activation
- cnn
- class
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004913 activation Effects 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims abstract description 86
- 210000002569 neuron Anatomy 0.000 claims abstract description 33
- 238000011176 pooling Methods 0.000 claims description 41
- 238000010586 diagram Methods 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 8
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 238000012800 visualization Methods 0.000 abstract description 55
- 230000000694 effects Effects 0.000 abstract description 24
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 72
- 230000008569 process Effects 0.000 description 21
- 238000002474 experimental method Methods 0.000 description 11
- 241000282326 Felis catus Species 0.000 description 9
- 230000000007 visual effect Effects 0.000 description 8
- 238000007794 visualization technique Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 101100261006 Salmonella typhi topB gene Proteins 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 3
- 101150032437 top-3 gene Proteins 0.000 description 3
- 241000239290 Araneae Species 0.000 description 2
- 241000282577 Pan troglodytes Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000153928 Aegyriana oliva Species 0.000 description 1
- 241000272878 Apodiformes Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241001166076 Diapheromera femorata Species 0.000 description 1
- 241000512668 Eunectes Species 0.000 description 1
- 241000204992 Leopardus tigrinus Species 0.000 description 1
- 241001504477 Pycnonotidae Species 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于深度学习与计算机可视化技术领域,公开一种基于注意力的CNN类别激活图生成方法,包括:步骤1、计算特征图M=(M0,M1,...,MK‑1)每个像素点的梯度值作为神经元类别相关的空间注意力权重;步骤2、获取各类别神经元对应的连接权重作为通道注意力权重;步骤3、根据空间注意力权重及通道注意力权重生成CNN类别激活图。本发明将类别激活权重作用注意力权重,同时利用特征图的通道‑空间位置重要性,与CAM、Grad‑CAM方法相比,生成的类别激活图的可视化效果更好,并且该方法不受网络结构的限制,使用更加灵活。
Description
技术领域
本发明属于深度学习与计算机可视化技术领域,尤其涉及一种基于注意力的 CNN类别激活图生成方法。
背景技术
卷积神经网络(Convolutional Neural Network,CNN)在许多领域取得了巨大 成功,但由于其端到端的“黑盒”特性,掩盖了中间层知识存储与处理机制,使 人们无法窥探其内部特征及外部决策的依据,在一定程度上影响了其应用价值。 可视化即为一种常见的用于解释CNN决策原因、展示其内部学习到的特征的方 式,目前有一些研究将其应用到CNN的特征理解与决策原因解释中,例如CAM 方法(class activation map),Grad-CAM方法(gradient-based CAM)(R.R.Selvaraju, M.Cogswell,A.Das,R.Vedantam,D.Parikh,andD.Batra.Grad-cam:Visual explanations from deep networks via gradient-basedlocalization.In arXiv:1610.02391v3,2017.),反卷积方法(deconvolution),但有些方法受到网络 结构的限制,只能对特定结构的网络进行可视化,有些只能可视化内部特征或对 原图进行重建,无法将内部特征和CNN外部决策依据关联起来,实现对CNN 分类依据的有效解释。因此,需要在现有方法基础上,提出一种更好的可视化方 法,在可视化CNN内部所学特征的同时,对CNN决策依据进行有效解释,使 内部所学特征与外部决策结果对应起来,进一步增强对CNN决策机制的理解。
发明内容
本发明针对虽然基于深度卷积网络的图像分类模型在准确率上越来越高,但 由于深度网络“端到端”属性的限制,导致该分类过程如同一个“黑盒”,无法 对其分类结果进行解释,也无法定位图像哪些区域的特征对分类结果贡献最大的 问题,提出一种基于注意力的CNN类别激活图生成方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于注意力的CNN类别激活图生成方法,包括:
步骤1:计算特征图M=(M0,M1,...,MK-1)每个像素点的梯度值作为神经元类 别相关的空间注意力权重;
步骤2:获取各类别神经元对应的连接权重作为通道注意力权重;
步骤3:根据空间注意力权重及通道注意力权重生成CNN类别激活图。
进一步地,在所述步骤1之前还包括:
在含有GAP层或不含有GAP层的CNN中,对输入特征图 M=(M0,M1,...,MK-1)进行特征提取与分类层神经元分类;
计算第一类别激活权重及第二类别激活权重的关系,将第一类别激活权重作 为通道注意力权重,将第二类别激活权重作为空间注意力权重;所述第一类别激 活权重为各类别神经元的连接权重,所述第二类别激活权重为关于神经元类别c 的梯度值;第一类别激活权重及第二类别激活权重的关系如下:
进一步地,所述步骤1包括:
对CNN输出的分值反向传播,计算特征图中每个像素点关于得分的梯度作 为类别相关的空间注意力权重,得到空间注意力权重矩阵,即像素级梯度矩阵gc:
进一步地,所述步骤2包括:
获取分类层各类别神经元的连接权重作为各类别神经元对应的通道注意力 权重,得到通道注意力权重矩阵,即连接权重矩阵wc:
进一步地,所述步骤3包括:
根据第一类别激活权重及第二类别激活权重的关系对式(10)进一步变形, 得到空间-通道注意力权重调节的类别激活图生成公式:
与现有技术相比,本发明具有的有益效果:
基于深度卷积网络的图像分类模型在准确率上越来越高,但由于深度网络 “端到端”属性的限制,导致该分类过程如同一个“黑盒”,无法对其分类结果 进行解释,也无法定位图像哪些区域的特征对分类结果贡献最大。为了让基于卷 积网络的图像分类过程在保证分类效果的同时,决策原因变得更加能够被用户理 解,本发明提出基于注意力的CNN类别激活图生成方法,该方法将类别激活权 重作用注意力权重,同时利用特征图的通道-空间位置重要性,与CAM、 Grad-CAM方法相比,生成的类别激活图的可视化效果更好,并且该方法不受网 络结构的限制,使用更加灵活。
附图说明
图1为ResNet-18网络可视化示例图;其中,(a)、(g)为输入原图,(b)~(f) 表示中间层特征图可视化,conv1表示第1个卷积层,conv2_x~conv5_x表示 ResNet-18设计的卷积模块;(h)为最高层特征图可视化;(i)和(j)为分别针对输入 原图中“dog”和“cat”的CAM可视化;(k)和(l)为分别针对输入原图中“dog” 和“cat”的Grad-CAM类别激活图可视化;
图2为CAM网络结构及类别激活图生成过程示意图;
图3为Grad-CAM网络结构及类别激活图生成过程示意图;
图4为类别激活图生成过程示意图;
图5为含有GAP层的CNN特征提取与分类流程图;
图6为采用4种不同池化方式(GAP,池化窗口大小为整个特征图大小;averagepooling,池化窗口大小为(2,2),步长设为2;max pooling,池化窗口大小为(2,2), 步长设为1;average pooling,池化窗口大小为(2,2),步长设为1)的过程示意图;
图7为本发明实施例一种基于注意力的CNN类别激活图生成方法流程图;
图8为ResNet-18类别激活权重可视化结果图之一;其中(a)为ResNet-18: “dog”的类别激活权重可视化结果;(b)为ResNet-18:“cat”类别激活权重可 视化结果;(c)为DenseNet-161:“dog”的类别激活权重可视化结果;(d)为DenseNet-161:“cat”类别激活权重可视化结果;
图9为ResNet-18类别激活权重可视化结果图之二;其中,(a)为ResNet-18: top3类别激活权重softmax weight可视化结果,(b)为ResNet-18:top3类别激活 权重averagegradient可视化结果;
图10为不同网络结构下不同类别激活图生成方法可视化效果比较图;其中,(a1)、(b1)、(c1)、(d1)为输入原图;(a2)~(a4)分别为SqueezeNet网络结构下 分别采用CAM、Grad-CAM、Att-CAM的可视化结果;(b2)~(b4)分别为ResNet-18 网络结构下分别采用CAM、Grad-CAM、Att-CAM的可视化结果;(c2)~(c4)分别 为RenNet50网络结构下分别采用CAM、Grad-CAM、Att-CAM的可视化结果; (d2)~(d4)分别为DenseNet-161网络结构下分别采用CAM、Grad-CAM、Att-CAM 的可视化结果;
图11为类别激活图对于不同输出类别的可视化结果图;其中,(a)、(b)、 (c)为输入原图;(a1)~(a5)分别为(a)对应的DenseNet-161网络结构下采用 Att-CAM方法top5类别激活图;(b1)~(b5)分别为(b)对应的DenseNet-161网 络结构下采用Att-CAM方法top5类别激活图;(c1)~(c5)分别为(c)对应的 DenseNet-161网络结构下采用Att-CAM方法top5类别激活图;
图12为对同一类别的不同图像的可视化效果比较图;其中,(a)为spider 类图像可视化结果;(b)为hourglass类图像可视化结果;(c)为chimpanzee类 图像可视化结果;(d)为butterfly类图像可视化结果。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
(1)特征图可视化、CAM及Grad-CAM分析
卷积神经网络擅长表示学习,隐含层滤波器可看作不同类型的特征提取器, 对输入图像进行分层次的特征提取与表示。不同层次隐含层编码的特征图关注重 点不同,较低层的特征图学习到边缘、纹理等轮廓特征,较高层的特征图则学习 到目标细节等局部特征。越往高层的卷积层神经元,所含语义信息越丰富,对物 体、场景等目标越具有区分性。因此,CNN的特征图可视为输入图像的特征空 间,尤其是高层特征图蕴含着较为丰富的语义信息,对特征图可视化有利于理解 CNN内部特征与表达。
特征图直接可视化可观察CNN中间各层的特征表达,如图1所示,输入原 图(a)和(g)中有2个较显著的目标物体,即“dog”和“cat”,图1中(b)~(f) 为ResNet-18中间卷积层((b)conv1,(c)conv2_x,(d)conv3_x,(e)conv4_x, (f)conv5_x)输出,可见越往高层特征表达越抽象。图1中(h)将其最高层(conv5_x) 特征图各通道叠加并投影到原图,得到最具区分性的特征表达,从中可以看出, CNN最高层特征图可定位到具有语义概念信息的特征位置,图像中重要目标区 域特征都被编码到网络中,表明整个网络的特征学习是有效的。然而,虽然特征 图可视化能够帮助理解CNN学习到了输入图像的哪些特征,但这些特征是被统 一的表达与展示出来,无法确定这些特征与当前决策结果的关联性高低,即特征 图可视化具有类别无关性,无法对CNN的决策结果做出有效解释。
Zhou等人(参见B.Zhou,A.Khosla,A.Lapedriza,A.Oliva,and A.Torralba.Learning deep features for discriminative localization.In CVPR,2016.)提出了利用 特征图加权叠加的方式生成类别激活图,使用这种类别相关的热力图 (Class-specific Heatmap)对CNN分类原因进行解释。热力图可定位目标区域的 关键特征,该特征能够支撑当前具体分类结果。如图1中(i)和(j),分别表示CAM 方法生成的与ResNet-18分类结果中“dog”和“cat”相关的热力图,图中分别对关 键区域进行高亮,表示该区域特征与当前决策最相关。图2所示为CAM方法所 依赖的CNN结构,其中前半部分为常见CNN结构,如AlexNet、VGGNet和 GoogLeNet等,用于输入图像特征提取,后半部分是去除原始CNN中的全连接 层并添加3个层:卷积层、GAP层和softmax分类层,其中GAP(Global AveragePooling,GAP)表示全局平均池化操作,将整张特征图平均化为一个数值。在该 网络结构中,生成CAM热力图的具体过程如虚线所示,由softmax分类层关于 某个类别的神经元权重,与最高层特征图各通道加权叠加得到。
CAM方法生成类别激活图过程非常简单,且定位效果较好,缺点在于结构 中对GAP层的依赖,并不是所有CNN结构中都含有GAP层。因此,使用CAM 方法可视化CNN分类原因时,需修改原始CNN结构(将全连接层替换成卷积 层、GAP层和softmax层),使其后半部分符合图2所示的结构,并且修改结构 后需重新训练网络,这样导致其使用较为复杂。同时,由于GAP操作将丢失大 量特征图信息,因此修改后的网络与原始CNN相比,分类性能有所下降。
由于CAM方法的限制,使其并不适用于一般类型网络,因此,Selvaraju等 人(参见R.R.Selvaraju,M.Cogswell,A.Das,R.Vedantam,D.Parikh,and D.Batra. Grad-cam:Visual explanations from deep networks via gradient-based localization.InarXiv:1610.02391v3,2017.)提出另一种生成类别激活图的思路——Grad-CAM。 如图1中(k)和(l)所示,分别表示利用Grad-CAM方法生成的与ResNet-18分类结 果中“dog”和“cat”相关的热力图。Grad-CAM方法并不需要改变网络结构,而是 通过计算反向传播过程中,特征图每个像素关于某个类别的梯度,再对各通道像 素点的梯度加以平均,即得到各通道对应的权重大小。图3所示为Grad-CAM网 络结构及类别激活图生成过程。虽然Grad-CAM需要反向传播计算梯度,但涉 及对单张输入图像进行可视化解释时,只需获取梯度来计算权重,而无需更新网 络参数,因此不需要重新训练网络。
综上,这3种可视化方法均采用热力图的形式,对输入图像的关键区域进行 高亮,以表示CNN学习到的特征及支撑当前分类结果的依据。热力图生成过程 大致相同,如图4所示,使用的特征空间即最高层特征图,对其采用加权求和的 方式,经过插值放大并与原图叠加,即可标明原图中关键区域及特征。不同点在 于所使用的权重,不同的权重使得可视化效果的不同:特征图直接叠加等同于各 通道权重均设置为1,此时权重是不含类别信息的固定数值,表明各个通道检测 到的特征对当前分类结果的重要性相同;CAM使用的权重来自softmax分类层 中关于某个类别神经元的连接权值,该权重与GAP层输出元素一一对应,进而 映射到前一层特征图各通道重要性;Grad-CAM使用的权重则来自特征图各通道像素关于某个类别得分的反向梯度均值,这些梯度均值即对应各通道权重大小。
图4所示类别激活图生成过程如下:
其中,公式(1)仅表示类别激活权重为的情形,c表示类别, K表示通道数,其它两种类型同理。特征图可视化、CAM和Grad-CAM均可看 作对特征图采用通道注意力机制,为各通道分配不同注意力权重,注意力权重分 布不同导致合成类别激活图的解释效果也不同。
(2)类别激活权重分析
通过对特征图可视化、CAM和Grad-CAM方法的比较可知,CNN类别激活 权重具有十分重要的作用,一定程度上决定了生成类别激活图的质量和解释效果。 为了进一步分析比较CAM与Grad-CAM方法所使用的类别激活权重,本发明首 先在含有GAP层的CNN网络,分析对比2种类别激活权重间的关系,再进一 步打破GAP层限制,研究在不含GAP层的网络结构中两者间的关系。
a.含有GAP层的CNN类别激活权重
GAP层将特征图整个通道平均池化为一个数值点,该过程无需参数训练, 可减少参数数量,防止过拟合。同时,GAP层输出特征向量维度与输入特征图 通道数(即卷积滤波器个数)相同,因此可使输出维度固定而不受输入图像尺寸 影响。由于GAP层的这些优势,越来越多CNN结构中使用其代替全连接层, 对特征图进行全局平均池化,然后映射到softmax分类层。
在CNN结构中含有GAP层时,可在不修改网络结构的情形下,将CAM和 Grad-CAM这2种可视化方法统一到同一网络中,在相同网络结构与输入图像的 情形下,可保证特征空间相同,从而针对不同的类别激活权重进行详细分析。
在含有GAP层的CNN中,对输入图像的特征提取与分类流程如图5所示:
设最后一个卷积层输出特征图M=(M0,M1,...,MK-1),经过GAP层输出特征向 量,最后进入分类层,该过程形式化为:(未经过softmax函数, l表示通道号),其中类别c对应的得分yc计算方式如下:
其中,ml表示通道Ml平均池化后的值,其计算方式如下:
另一方面,按照Grad-CAM方法的思路计算其类别激活权重,对得分yc反 向传播到特征图空间,可获取其关于每个像素的梯度:
由公式(6)可知,在含有GAP层的CNN结构中,2种不同的类别激活权 重之间存在线性对应关系。直观地看,如图5所示流程,从多通道特征图映射为 CNN输出各类别得分的过程中,中间仅包含GAP操作,未使用非线性激活函数, 且GAP属于线性计算过程,因而可得出该线性关系。图1中(g)和(i)、图1中(h) 和(j)对应的类别激活图可视化效果相近,也验证了该线性对应关系。
b.不含GAP层的CNN类别激活权重
GAP层的全局平均池化操作是一种特殊的池化方式,池化窗口为整张特征 图大小。对于常见的池化方式如average pooling和max pooling,为了降低尺寸 的同时保留更多特征图信息,池化窗口尺寸选择一般较小(如2x2或3x3),且 max pooling操作是一种非线性算子,因此在对最高层特征图进行普通池化层的 CNN中,2种类别激活权重之间关系更加复杂,需对不同情形分别加以分析。
以3通道4x4大小特征图为例,如图6所示,分别采用GAP池化和其它3 种普通池化方式,分析此时2种类别激活权重之间的关系。
如图6所示,对于输入图像,经过CNN前半部分卷积和下采样,得到3x4x4 大小特征图,分别经过4种不同池化(padding默认为0),再将池化后特征图展 开,映射到二分类的分类层,输出得分y0和y1(未经过softmax函数)。其中, 池化方式分为以下4种:
1、GAP,池化窗口大小为整个特征图大小。由公式(6),2种类别激活权 重之间的关系为:
此时,2种类别激活权重之间存在线性关系,系数大小为特征图尺寸的倒数。
2、average pooling,池化窗口大小为(2,2),步长设为2。此时,类别1的 得分y1为:
其中,根据average pooling池化过程,可计算m0~m3的值:
同理可计算m4~m11,由上式并结合(7)式可知,得分y1由分类层权重w1和 特征图像素值加权得到。因此,反向传播中,特征图像素值的梯度仍与分类层权 重相关,按照各通道平均梯度的计算公式(4)和(5),可计算此时关于类别1 的各通道平均梯度值:
3、max pooling,池化窗口大小为(2,2),步长设为2:得到结论同2。
4、average pooling,池化窗口大小为(2,2),步长设为1,此时,特征图池 化步长重叠的位置产生梯度叠加,经过对通道内所有像素的梯度值相加再求平均, 可得到如下关系:
由上述结果可知,在普通池化方式下,CAM和Grad-CAM所使用的2种类 别激活权重之间仍存在线性关系。其中,类别激活权重始终是wc元素的线性 组合,求和元素个数等于池化结果中各通道元素个数,即池化结果所得特征图尺 寸。即使在GAP池化下,池化所得特征图大小为1,此时结论仍然成立。因此, CNN的2种类别激活权重wc和始终具有一致性,依据该一致性可对2种类 别激活权重结合使用,对类别激活图生成过程进行细微调整以提升可视化质量。
类别激活权重的作用相当于通道注意力权重,在合成类别激活图时,实现对 特征图的通道级注意力调整。出于对类别激活权重一致性的考虑,并且其带有与 CNN分类结果相关联的特征,本发明提出一种基于注意力的CNN类别激活图生 成方法,采用通道级的类别激活权重作为通道注意力权重,采用特征空间每个像 素点的梯度值作为空间像素级注意力权重,通过空间与通道注意力结合的方式, 使特征图中与当前分类类别关联性高的位置和通道得到进一步加强,关联性的位 置和通道得到进一步抑制,这样合成的类别激活图将更加突出对分类结果有重要 贡献的特征,而相关度较低的特征被更好地抑制。
将本发明提出的基于注意力的CNN类别激活图生成方法记作Att-CAM,其 具体过程如图7所示,包括:
步骤1:计算特征图M=(M0,M1,...,MK-1)每个像素点的梯度值作为神经元类 别相关的空间注意力权重;
步骤2:获取各类别神经元对应的连接权重作为通道注意力权重;
步骤3:根据空间注意力权重及通道注意力权重生成CNN类别激活图。
具体地,在所述步骤1之前还包括:
在含有GAP层或不含有GAP层的CNN中,对输入特征图 M=(M0,M1,...,MK-1)进行特征提取与分类层神经元分类;
计算第一类别激活权重及第二类别激活权重的关系,将第一类别激活权重作 为通道注意力权重,将第二类别激活权重作为空间注意力权重;所述第一类别激 活权重为各类别神经元的连接权重,所述第二类别激活权重为关于神经元类别c 的梯度值;第一类别激活权重及第二类别激活权重的关系如下:
具体地,所述步骤1包括:
对CNN输出的分值反向传播,计算特征图中每个像素点关于得分的梯度作 为类别相关的空间注意力权重,得到空间注意力权重矩阵:
CNN高层特征图编码中,与目标相关的语义信息丰富且空间位置相对集中, 各通道内不同位置所含像素信息差别较大。由于各通道内特征分布并不均匀,单 独使用通道注意力并不能很好地利用像素的空间分布特征,因此,本文采用空间 注意力机制对各通道不同位置实现不同加权,可利用这种空间分布特征。通过对 CNN输出分值反向传播,计算特征图中每个像素点关于得分的梯度,可得到类 别相关的空间注意力权重矩阵,即像素级梯度矩阵gc:
具体地,所述步骤2包括:
获取分类层各类别神经元的连接权重作为各类别神经元对应的通道注意力 权重,得到通道注意力权重矩阵:
CAM和Grad-CAM方法采用的通道注意力机制将特征图各通道视为一个整 体,认为各个通道对应不同特征,对当前分类结果中各类别的贡献不同,因而在 生成类别激活图时,通道之间应赋予不同大小注意力权重。在含有GAP层的CNN 中,通过获取分类层各类别神经元的连接权重,可得到各类别对应的通道注意力 权重,如下:
具体地,所述步骤3包括:
此时,由空间-通道注意力权重调节的类别激活图生成方式如下:
上式中,空间与通道注意力权重均由梯度构成,与(10)式相比,仅由梯度 即可实现像素级与通道级注意力加权。
池化方式采用avgpool/maxpool(2,2)/2时,由公式(5)、(8)可得第1个通 道的通道注意力权重如下:
因此,在该池化方式下,类别激活图生成方法仍为公式(11)。同理,池化 方式采用avgpool(2,2)/1时,由公式(5)、(9),可推导出公式(11)所示形式。
综上,本发明Att-CAM方法如公式(11)所示,该式在现有的通道注意力 基础上,添加空间注意力提升类别激活图质量,并将不同池化方式下的通道注意 力权重与空间注意力权重的表示统一起来,无需再依赖分类层权重对通道加权, 简化了类别激活图生成过程。
值得注意的是,文献(M.T.Ribeiro,S.Singh,and C.Guestrin.why should itrust you?: Explaining the predictions of any classifier.In ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining,pages 1135–1144,2016.)、(Sanghyun Woo, Jongchan Park,Joon-Young Lee,and In So Kweon.CBAM:Convolutional block attention module.In ECCV,2018.)和(Chen,L.,Zhang,H.,Xiao,J.,Nie,L.,Shao,J., Liu,W.,Chua,T.S.:SCA-CNN-Spatial and ChannelWise Attentionin Convolutional Networks for Image Captioning.CVPR(2017)6298–6306.)在CNN结构中加入空 间-通道注意力机制,注意力权重跟随网络参数一起调整更新,用于提升CNN分类准确率。与之不同,本发明所提方法Att-CAM仅实现基于类别激活图的CNN 可视化解释,通过对特征图使用空间-通道注意力加权,提升类别激活图生成质 量。因此,本发明所用注意力权重采用网络的梯度构成,可离线获取而不跟随网 络一起训练。
为验证本发明效果,进行如下实验:
实验使用的预训练模型采用torchvision自带的预训练CNN网络,分别为SqueezeNet、ResNet-18、ResNet-50和DenseNet-161,这些网络预先在ImageNet 数据集上训练至最佳性能。理论上讲,分类准确率越高的模型,特征提取及表示 能力越强,重要特征定位能力就越好,生成的类别激活图可视化效果也越好。实 验使用的预训练网络在ImageNet数据集上的分类性能如表1所示。
表1、4种网络在ImageNet数据集上的错误率及最高层特征图尺寸
实验在Ubuntu 18.04***下,Anaconda 4.4.10集成环境中,使用深度学习框 架PyTorch实现,其中torchvision自带大量在ImageNet上的预训练网络。由于 可视化实验是对预训练的CNN分类结果进行解释,因此不涉及网络训练及参数 调优。
1、类别激活权重可视化实验
类别激活权重对生成热力图的解释效果至关重要,实验对ResNet-18和DenseNet-161的类别激活权重进行可视化及比较。按照前文所述,类别激活权重 分为2种:(1)CAM方法中,采用分类层某个类别对应的神经元与前一层的连 接权重,作为特征图各通道的权重;(2)Grad-CAM方法中,采用各通道特征图 关于某个类别输出得分的梯度平均值,作为特征图各通道的权重。
(1)关于同一输出类别的不同类别激活权重比较实验
对于残差网络ResNet-18和DenseNet-161,输入图像为图1中(a),尺寸大小 为224x224x3。以ResNet-18为例,对ResNet-18类别激活权重进行可视化,由 于高层特征图通道数较多,为了便于清晰展示,从其conv5_x层输出的512个通 道中,随机选取50个通道对应的权重进行可视化,如图8中(a)和(b)所示。由于 反向传播的梯度在数值上非常小,与前向分类层的权重数值上相差较大,因此为 方便比较其关系,绘图时对average gradient数值上扩大100倍,这样并不会影 响二者在数值上的关系比较。
图8所示的类别激活权重有以下2种:
Softmax weight:表示softmax分类层某个神经元(类别)的连接权重,即第 1种类别激活权重;
Average gradient:表示特征图关于某个类别的梯度均值,即第2种类别激活 权重。
图8中(a)和(b)分别表示ResNet-18输出类别“dog和“cat”时,所对应的2种 类别激活权重。其中,横轴表示特征图的各个通道(随机选取),纵轴表示该通 道对应的2种类别激活权重值大小。可以看出,这2种类别激活权重存在明显的 对应关系,数值大小总是呈现相同的波动,表明二者之间存在数值上的线性对应 关系。与之类似,图8中(c)和(d)分别表示DenseNet-161输出类别为“dog”和“cat” 时对应的类别激活权重,可以看到相似的线性关系。
(2)关于不同输出类别的同一类别激活权重比较实验
考虑对于同一种类别激活权重,关于不同输出类别的各通道权重值大小,如 图9所示。
图9中(a)表示对ResNet-18的类别激活权重softmax weight的可视化,其输 出top3类别为boxer=0.426,bull mastiff=0.265,tiger cat=0.175,其中softmaxweight1~3分别与之对应。同理,图9中(b)表示对类别激活权重average gradient 的可视化。可以看出,对于同一类别激活权重,在同一通道上,不同输出类别对 应的权重值差异巨大,表示该通道对各输出类别的贡献大小互不相同。因此,由 于权重值的差异化,其与特征图的加权叠加才能够出现不同的类别激活区域效果。 同时,对图9(a)和(b)中各类别对应的权重曲线进行横向比较,进一步验证了上一 小节的结论。
2、类别激活图可视化与比较实验
通过3组实验,对本发明提出的Att-CAM方法的可视化效果进行验证,以 及与其它几种可视化方法的效果对比。
(1)Att-CAM与CAM、Grad-CAM可视化效果比较
在同一输入图像上,对4种CNN网络:SqueezeNet、ResNet-18、ResNet-50 和DenseNet-161,分别采用3种可视化方法:CAM、Grad-CAM、Att-CAM(本 文方法)进行效果比较,如图10所示。这里应用的4种CNN结构中,都带有 GAP层进行全局平均池化,因此根据类别激活权重分析,可在其上同时使用CAM 和Grad-CAM可视化,这样可保证预训练网络结构及参数的一致性。
从图10所示可视化结果,可以看到:
a.从横向看,在同一CNN结构下,采用CAM、Grad-CAM和Att-CAM这3 种可视化方法,可看到本发明提出的Att-CAM方法的可视化效果更好。由于 Att-CAM所使用的注意力权重同时包含了2种类别激活权重,因此对区分性特 征区域定位效果更好;
b.从纵向看,对于同一种可视化方法,对比在不同网络下的可视化效果。从 表1可以看出,这4种网络的分类错误率高低依次为: SqueezeNet>ResNet-18>ResNet-50>DenseNet-161,即分类准确率顺序相反。因此, 从可视化效果对比发现,分类网络自身的准确率越高,生成的热力图定位效果越 好。直观地理解,CNN自身性能越好,其中间层特征图对目标物体的特征关注 越集中,学习到的特征越全面,因此采用特征图加权的方式生成的热力图解释效 果也更好。
(2)Att-CAM关于不同输出类别的可视化
Att-CAM方法使用的注意力权重来自两种类别激活权重,这些类别激活权 重与网络输出类别直接相关,因此,Att-CAM方法可对特定类别特征进行可视 化,对和输出类别相关的感兴趣区域进行定位。如图11所示,表示对 DenseNet-161各个输出类别进行可视化解释。对于图11中原图(a),DenseNet-161 top5分类结果分别为:flowerpot=0.270,littleblue heron=0.148,hummingbird=0.069, walkingstick=0.062,bulbul=0.051;对于图11中原图(b),DenseNet-161top5分 类结果分别为:schooner=0.821,pirate ship=0.051,yawl=0.021,wreck=0.013, dock=0.009;对于图11中原图(c),DenseNet-161top5分类结果分别为:studio couch=0.860,bookcase=0.118,library=0.010,rocking chair=0.003,table lamp =0.002;在每个类别对应的类别激活图中,与该分类结果最相关的图像区域被高 亮,表示该区域最能支撑当前分类结果。
由图11所示的可视化结果,并结合类别激活权重分析可以得知,可视化效 果与输出类别非常相关,不同类别对应的类别激活权重显著不同,因而生成的类 别激活图可实现对特定输出类别的解释。但可视化效果与该类别对应的得分无关, 即图像属于该类别的可能性大小并不会影响其可视化效果。
(3)Att-CAM关于同一类别图像的可视化
选取同一类别的多张图像,可视化其中的区分性特征,测试Att-CAM从不 同图像中定位同类目标的能力,如图12所示,表示对属于4个类别“spider”、 “hourglass”、“chimpanzee”和“butterfly”的不同图像进行区分性特征定位结果。
图12可视化结果表明,对于同一类别的图像,在分类结果相同的情形下, Att-CAM方法能够有效地定位与该图像中目标相关的区域。同时,对于有些图 像中像素非常相近的目标,该方法也可从中寻找到合理的区域以解释当前分类结 果,表明Att-CAM可视化方法具有较好的鲁棒性。
本发明在详细分析特征图可视化、CAM和Grad-CAM方法的基础上,通过 对不同池化情形下的类别激活权重进行研究分析,发现不同的类别激活权重之间 存在一致的线性对应关系,据此提出了涉及一种基于注意力的CNN类别激活图 生成方法Att-CAM,该方法将不同的类别激活权重结合作为注意力权重,可在 同时关注特征图通道特征和空间分布特征的情况下,提升类别激活图生成质量。 实验结果表明,与现有的方法相比,本文方法能够有效提升类别激活图的可视化 效果。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技 术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些 改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于注意力的CNN类别激活图生成方法,其特征在于,包括:
步骤1:计算特征图M=(M0,M1,...,MK-1)每个像素点的梯度值作为神经元类别相关的空间注意力权重;
步骤2:获取各类别神经元对应的连接权重作为通道注意力权重;
步骤3:根据空间注意力权重及通道注意力权重生成CNN类别激活图。
2.根据权利要求1所述的基于注意力的CNN类别激活图生成方法,其特征在于,在所述步骤1之前还包括:
在含有GAP层或不含有GAP层的CNN中,对输入特征图M=(M0,M1,...,MK-1)进行特征提取与分类层神经元分类;
计算第一类别激活权重及第二类别激活权重的关系,将第一类别激活权重作为通道注意力权重,将第二类别激活权重作为空间注意力权重;所述第一类别激活权重为各类别神经元的连接权重,所述第二类别激活权重为关于神经元类别c的梯度值;第一类别激活权重及第二类别激活权重的关系如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911241048.0A CN111046939B (zh) | 2019-12-06 | 2019-12-06 | 基于注意力的cnn类别激活图生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911241048.0A CN111046939B (zh) | 2019-12-06 | 2019-12-06 | 基于注意力的cnn类别激活图生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046939A true CN111046939A (zh) | 2020-04-21 |
CN111046939B CN111046939B (zh) | 2023-08-04 |
Family
ID=70235052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911241048.0A Active CN111046939B (zh) | 2019-12-06 | 2019-12-06 | 基于注意力的cnn类别激活图生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046939B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101438A (zh) * | 2020-09-08 | 2020-12-18 | 南方科技大学 | 一种左右眼分类方法、装置、服务器和存储介质 |
CN112130200A (zh) * | 2020-09-23 | 2020-12-25 | 电子科技大学 | 一种基于grad-CAM注意力引导的断层识别方法 |
CN112200794A (zh) * | 2020-10-23 | 2021-01-08 | 苏州慧维智能医疗科技有限公司 | 一种基于卷积神经网络的多模型糖网病变自动筛查方法 |
CN112560039A (zh) * | 2020-12-25 | 2021-03-26 | 河南交通职业技术学院 | 一种计算机安全防护方法 |
CN112560999A (zh) * | 2021-02-18 | 2021-03-26 | 成都睿沿科技有限公司 | 一种目标检测模型训练方法、装置、电子设备及存储介质 |
CN112651407A (zh) * | 2020-12-31 | 2021-04-13 | 中国人民解放军战略支援部队信息工程大学 | 一种基于区分性反卷积的cnn可视化方法 |
CN112906867A (zh) * | 2021-03-03 | 2021-06-04 | 安徽省科亿信息科技有限公司 | 一种基于像素梯度加权的卷积神经网络特征可视化方法及*** |
CN113077466A (zh) * | 2021-05-11 | 2021-07-06 | 清华大学深圳国际研究生院 | 基于多尺度感知损失的医学图像分类方法和装置 |
CN113095382A (zh) * | 2021-03-30 | 2021-07-09 | 浙江大学 | 基于ct图像的可解释性肺结核分类网络识别方法 |
CN113744284A (zh) * | 2021-09-06 | 2021-12-03 | 浙大城市学院 | 脑肿瘤图像区域分割方法、装置、神经网络及电子设备 |
CN113780557A (zh) * | 2021-11-11 | 2021-12-10 | 中南大学 | 基于免疫理论的对抗图像攻击方法、装置、产品及介质 |
WO2022188327A1 (zh) * | 2021-03-09 | 2022-09-15 | 北京百度网讯科技有限公司 | 定位图获取模型的训练方法和装置 |
US11527056B2 (en) | 2020-02-28 | 2022-12-13 | Alibaba Group Holding Limited | Image and data processing methods and apparatuses |
WO2023220859A1 (en) * | 2022-05-16 | 2023-11-23 | Intel Corporation | Multi-dimensional attention for dynamic convolutional kernel |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563999A (zh) * | 2017-09-05 | 2018-01-09 | 华中科技大学 | 一种基于卷积神经网络的芯片缺陷识别方法 |
WO2019057200A1 (zh) * | 2017-09-25 | 2019-03-28 | 清华大学 | 检查方法和检查设备以及计算机可读介质 |
CN109858482A (zh) * | 2019-01-16 | 2019-06-07 | 创新奇智(重庆)科技有限公司 | 一种图像关键区域检测方法及其***、终端设备 |
CN109858506A (zh) * | 2018-05-28 | 2019-06-07 | 哈尔滨工程大学 | 一种面向卷积神经网络分类结果的可视化算法 |
CN110322509A (zh) * | 2019-06-26 | 2019-10-11 | 重庆邮电大学 | 基于层级类激活图的目标定位方法、***及计算机设备 |
JP2019192082A (ja) * | 2018-04-27 | 2019-10-31 | Awl株式会社 | 学習用サーバ、不足学習用画像収集支援システム、及び不足学習用画像推定プログラム |
-
2019
- 2019-12-06 CN CN201911241048.0A patent/CN111046939B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563999A (zh) * | 2017-09-05 | 2018-01-09 | 华中科技大学 | 一种基于卷积神经网络的芯片缺陷识别方法 |
WO2019057200A1 (zh) * | 2017-09-25 | 2019-03-28 | 清华大学 | 检查方法和检查设备以及计算机可读介质 |
JP2019192082A (ja) * | 2018-04-27 | 2019-10-31 | Awl株式会社 | 学習用サーバ、不足学習用画像収集支援システム、及び不足学習用画像推定プログラム |
CN109858506A (zh) * | 2018-05-28 | 2019-06-07 | 哈尔滨工程大学 | 一种面向卷积神经网络分类结果的可视化算法 |
CN109858482A (zh) * | 2019-01-16 | 2019-06-07 | 创新奇智(重庆)科技有限公司 | 一种图像关键区域检测方法及其***、终端设备 |
CN110322509A (zh) * | 2019-06-26 | 2019-10-11 | 重庆邮电大学 | 基于层级类激活图的目标定位方法、***及计算机设备 |
Non-Patent Citations (3)
Title |
---|
SANGHYUN WOO等: "CBAM: Convolutional Block Attention Module" * |
司念文等: "基于注意力长短时记忆网络的中文词性标注模型" * |
赵冰;李平;代明睿;马小宁;: "基于深度学习的铁路图像场景分类优化研究" * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11527056B2 (en) | 2020-02-28 | 2022-12-13 | Alibaba Group Holding Limited | Image and data processing methods and apparatuses |
CN112101438B (zh) * | 2020-09-08 | 2024-04-16 | 南方科技大学 | 一种左右眼分类方法、装置、服务器和存储介质 |
CN112101438A (zh) * | 2020-09-08 | 2020-12-18 | 南方科技大学 | 一种左右眼分类方法、装置、服务器和存储介质 |
CN112130200B (zh) * | 2020-09-23 | 2021-07-20 | 电子科技大学 | 一种基于grad-CAM注意力引导的断层识别方法 |
CN112130200A (zh) * | 2020-09-23 | 2020-12-25 | 电子科技大学 | 一种基于grad-CAM注意力引导的断层识别方法 |
CN112200794A (zh) * | 2020-10-23 | 2021-01-08 | 苏州慧维智能医疗科技有限公司 | 一种基于卷积神经网络的多模型糖网病变自动筛查方法 |
CN112560039A (zh) * | 2020-12-25 | 2021-03-26 | 河南交通职业技术学院 | 一种计算机安全防护方法 |
CN112560039B (zh) * | 2020-12-25 | 2023-04-18 | 河南交通职业技术学院 | 一种计算机安全防护方法 |
CN112651407A (zh) * | 2020-12-31 | 2021-04-13 | 中国人民解放军战略支援部队信息工程大学 | 一种基于区分性反卷积的cnn可视化方法 |
CN112651407B (zh) * | 2020-12-31 | 2023-10-20 | 中国人民解放军战略支援部队信息工程大学 | 一种基于区分性反卷积的cnn可视化方法 |
CN112560999A (zh) * | 2021-02-18 | 2021-03-26 | 成都睿沿科技有限公司 | 一种目标检测模型训练方法、装置、电子设备及存储介质 |
CN112906867A (zh) * | 2021-03-03 | 2021-06-04 | 安徽省科亿信息科技有限公司 | 一种基于像素梯度加权的卷积神经网络特征可视化方法及*** |
CN112906867B (zh) * | 2021-03-03 | 2023-09-15 | 安徽省科亿信息科技有限公司 | 一种基于像素梯度加权的卷积神经网络特征可视化方法及*** |
WO2022188327A1 (zh) * | 2021-03-09 | 2022-09-15 | 北京百度网讯科技有限公司 | 定位图获取模型的训练方法和装置 |
CN113095382A (zh) * | 2021-03-30 | 2021-07-09 | 浙江大学 | 基于ct图像的可解释性肺结核分类网络识别方法 |
CN113095382B (zh) * | 2021-03-30 | 2022-07-26 | 浙江大学 | 基于ct图像的可解释性肺结核分类网络识别方法 |
CN113077466A (zh) * | 2021-05-11 | 2021-07-06 | 清华大学深圳国际研究生院 | 基于多尺度感知损失的医学图像分类方法和装置 |
CN113744284A (zh) * | 2021-09-06 | 2021-12-03 | 浙大城市学院 | 脑肿瘤图像区域分割方法、装置、神经网络及电子设备 |
CN113744284B (zh) * | 2021-09-06 | 2023-08-29 | 浙大城市学院 | 脑肿瘤图像区域分割方法、装置、神经网络及电子设备 |
CN113780557A (zh) * | 2021-11-11 | 2021-12-10 | 中南大学 | 基于免疫理论的对抗图像攻击方法、装置、产品及介质 |
WO2023220859A1 (en) * | 2022-05-16 | 2023-11-23 | Intel Corporation | Multi-dimensional attention for dynamic convolutional kernel |
Also Published As
Publication number | Publication date |
---|---|
CN111046939B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046939A (zh) | 基于注意力的cnn类别激活图生成方法 | |
CN109191476B (zh) | 基于U-net网络结构的生物医学图像自动分割新方法 | |
CN111723860B (zh) | 一种目标检测方法及装置 | |
CN109859190B (zh) | 一种基于深度学习的目标区域检测方法 | |
US10467820B2 (en) | Image style transfer for three-dimensional models | |
CN109712165B (zh) | 一种基于卷积神经网络的同类前景图像集分割方法 | |
Stylianou et al. | Visualizing deep similarity networks | |
CN112614077B (zh) | 一种基于生成对抗网络的非监督低照度图像增强方法 | |
CN109711401B (zh) | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 | |
CN111738055B (zh) | 多类别文本检测***和基于该***的票据表单检测方法 | |
CN107680113A (zh) | 基于贝叶斯框架边缘先验的多层分割网络的图像分割方法 | |
CN114693983B (zh) | 基于图像-实例对齐网络的训练方法和跨域目标检测方法 | |
CN115565043A (zh) | 结合多表征特征以及目标预测法进行目标检测的方法 | |
CN113554657A (zh) | 基于注意力机制及卷积神经网络的超像素分割方法及*** | |
Li et al. | A low-light image enhancement method with brightness balance and detail preservation | |
Li et al. | A novelty harmony search algorithm of image segmentation for multilevel thresholding using learning experience and search space constraints | |
Wang et al. | Spectral-spatial global graph reasoning for hyperspectral image classification | |
CN111460966A (zh) | 基于度量学习和近邻增强的高光谱遥感图像分类方法 | |
CN115063655A (zh) | 一种融合超列的类激活映射图生成方法 | |
CN109345497A (zh) | 基于模糊算子的图像融合处理方法及***、计算机程序 | |
CN117011655A (zh) | 基于自适应区域选择特征融合方法、目标跟踪方法及*** | |
Gupta et al. | A robust and efficient image de-fencing approach using conditional generative adversarial networks | |
Aoshima et al. | Deep Curvilinear Editing: Commutative and Nonlinear Image Manipulation for Pretrained Deep Generative Model | |
CN116109656A (zh) | 一种基于无监督学习的交互式图像分割方法 | |
CN115688234A (zh) | 一种基于条件卷积的建筑布局生成方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |