CN111046939A

CN111046939A - 基于注意力的cnn类别激活图生成方法

Info

Publication number: CN111046939A
Application number: CN201911241048.0A
Authority: CN
Inventors: 张文林; 司念文; 屈丹; 罗向阳; 闫红刚; 陈琦; 张连海; 牛铜; 杨绪魁; 李�真; 李喜坤
Original assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Current assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-21
Anticipated expiration: 2039-12-06
Also published as: CN111046939B

Abstract

本发明属于深度学习与计算机可视化技术领域，公开一种基于注意力的CNN类别激活图生成方法，包括：步骤1、计算特征图M＝(M₀,M₁,...,M_K‑1)每个像素点的梯度值作为神经元类别相关的空间注意力权重；步骤2、获取各类别神经元对应的连接权重作为通道注意力权重；步骤3、根据空间注意力权重及通道注意力权重生成CNN类别激活图。本发明将类别激活权重作用注意力权重，同时利用特征图的通道‑空间位置重要性，与CAM、Grad‑CAM方法相比，生成的类别激活图的可视化效果更好，并且该方法不受网络结构的限制，使用更加灵活。

Description

基于注意力的CNN类别激活图生成方法

技术领域

本发明属于深度学习与计算机可视化技术领域，尤其涉及一种基于注意力的 CNN类别激活图生成方法。

背景技术

卷积神经网络(Convolutional Neural Network,CNN)在许多领域取得了巨大成功，但由于其端到端的“黑盒”特性，掩盖了中间层知识存储与处理机制，使人们无法窥探其内部特征及外部决策的依据，在一定程度上影响了其应用价值。可视化即为一种常见的用于解释CNN决策原因、展示其内部学习到的特征的方式，目前有一些研究将其应用到CNN的特征理解与决策原因解释中，例如CAM 方法(class activation map)，Grad-CAM方法(gradient-based CAM)(R.R.Selvaraju, M.Cogswell,A.Das,R.Vedantam,D.Parikh,andD.Batra.Grad-cam:Visual explanations from deep networks via gradient-basedlocalization.In arXiv:1610.02391v3,2017.)，反卷积方法(deconvolution)，但有些方法受到网络结构的限制，只能对特定结构的网络进行可视化，有些只能可视化内部特征或对原图进行重建，无法将内部特征和CNN外部决策依据关联起来，实现对CNN 分类依据的有效解释。因此，需要在现有方法基础上，提出一种更好的可视化方法，在可视化CNN内部所学特征的同时，对CNN决策依据进行有效解释，使内部所学特征与外部决策结果对应起来，进一步增强对CNN决策机制的理解。

发明内容

本发明针对虽然基于深度卷积网络的图像分类模型在准确率上越来越高，但由于深度网络“端到端”属性的限制，导致该分类过程如同一个“黑盒”，无法对其分类结果进行解释，也无法定位图像哪些区域的特征对分类结果贡献最大的问题，提出一种基于注意力的CNN类别激活图生成方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于注意力的CNN类别激活图生成方法，包括：

步骤1：计算特征图M＝(M₀,M₁,...,M_K-1)每个像素点的梯度值作为神经元类别相关的空间注意力权重；

步骤2：获取各类别神经元对应的连接权重作为通道注意力权重；

步骤3：根据空间注意力权重及通道注意力权重生成CNN类别激活图。

进一步地，在所述步骤1之前还包括：

在含有GAP层或不含有GAP层的CNN中，对输入特征图 M＝(M₀,M₁,...,M_K-1)进行特征提取与分类层神经元分类；

计算第一类别激活权重及第二类别激活权重的关系，将第一类别激活权重作为通道注意力权重，将第二类别激活权重作为空间注意力权重；所述第一类别激活权重为各类别神经元的连接权重，所述第二类别激活权重为关于神经元类别c 的梯度值；第一类别激活权重及第二类别激活权重的关系如下：

其中，

为一端与m_l相连接且另一端与分类层第c类神经元相连接的权重，m_l表示通道M_l平均池化后的值，

表示l通道内位置(i,j)处的梯度值，l表示通道号， K表示通道数目。

进一步地，所述步骤1包括：

对CNN输出的分值反向传播，计算特征图中每个像素点关于得分的梯度作为类别相关的空间注意力权重，得到空间注意力权重矩阵，即像素级梯度矩阵g^c：

其中，

表示梯度矩阵的l通道每个元素值对应像素点的梯度值。

进一步地，所述步骤2包括：

获取分类层各类别神经元的连接权重作为各类别神经元对应的通道注意力权重，得到通道注意力权重矩阵，即连接权重矩阵w^c：

进一步地，所述步骤3包括：

按照如下公式根据空间注意力权重及通道注意力权重生成CNN类别激活图

根据第一类别激活权重及第二类别激活权重的关系对式(10)进一步变形，得到空间-通道注意力权重调节的类别激活图生成公式：

与现有技术相比，本发明具有的有益效果：

基于深度卷积网络的图像分类模型在准确率上越来越高，但由于深度网络 “端到端”属性的限制，导致该分类过程如同一个“黑盒”，无法对其分类结果进行解释，也无法定位图像哪些区域的特征对分类结果贡献最大。为了让基于卷积网络的图像分类过程在保证分类效果的同时，决策原因变得更加能够被用户理解，本发明提出基于注意力的CNN类别激活图生成方法，该方法将类别激活权重作用注意力权重，同时利用特征图的通道-空间位置重要性，与CAM、 Grad-CAM方法相比，生成的类别激活图的可视化效果更好，并且该方法不受网络结构的限制，使用更加灵活。

附图说明

图1为ResNet-18网络可视化示例图；其中，(a)、(g)为输入原图，(b)～(f) 表示中间层特征图可视化，conv1表示第1个卷积层，conv2_x～conv5_x表示 ResNet-18设计的卷积模块；(h)为最高层特征图可视化；(i)和(j)为分别针对输入原图中“dog”和“cat”的CAM可视化；(k)和(l)为分别针对输入原图中“dog” 和“cat”的Grad-CAM类别激活图可视化；

图2为CAM网络结构及类别激活图生成过程示意图；

图3为Grad-CAM网络结构及类别激活图生成过程示意图；

图4为类别激活图生成过程示意图；

图5为含有GAP层的CNN特征提取与分类流程图；

图6为采用4种不同池化方式(GAP，池化窗口大小为整个特征图大小；averagepooling，池化窗口大小为(2,2)，步长设为2；max pooling，池化窗口大小为(2,2)，步长设为1；average pooling，池化窗口大小为(2,2)，步长设为1)的过程示意图；

图7为本发明实施例一种基于注意力的CNN类别激活图生成方法流程图；

图8为ResNet-18类别激活权重可视化结果图之一；其中(a)为ResNet-18: “dog”的类别激活权重可视化结果；(b)为ResNet-18:“cat”类别激活权重可视化结果；(c)为DenseNet-161:“dog”的类别激活权重可视化结果；(d)为DenseNet-161:“cat”类别激活权重可视化结果；

图9为ResNet-18类别激活权重可视化结果图之二；其中，(a)为ResNet-18: top3类别激活权重softmax weight可视化结果，(b)为ResNet-18:top3类别激活权重averagegradient可视化结果；

图10为不同网络结构下不同类别激活图生成方法可视化效果比较图；其中，(a1)、(b1)、(c1)、(d1)为输入原图；(a2)～(a4)分别为SqueezeNet网络结构下分别采用CAM、Grad-CAM、Att-CAM的可视化结果；(b2)～(b4)分别为ResNet-18 网络结构下分别采用CAM、Grad-CAM、Att-CAM的可视化结果；(c2)～(c4)分别为RenNet50网络结构下分别采用CAM、Grad-CAM、Att-CAM的可视化结果； (d2)～(d4)分别为DenseNet-161网络结构下分别采用CAM、Grad-CAM、Att-CAM 的可视化结果；

图11为类别激活图对于不同输出类别的可视化结果图；其中，(a)、(b)、 (c)为输入原图；(a1)～(a5)分别为(a)对应的DenseNet-161网络结构下采用 Att-CAM方法top5类别激活图；(b1)～(b5)分别为(b)对应的DenseNet-161网络结构下采用Att-CAM方法top5类别激活图；(c1)～(c5)分别为(c)对应的 DenseNet-161网络结构下采用Att-CAM方法top5类别激活图；

图12为对同一类别的不同图像的可视化效果比较图；其中，(a)为spider 类图像可视化结果；(b)为hourglass类图像可视化结果；(c)为chimpanzee类图像可视化结果；(d)为butterfly类图像可视化结果。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

(1)特征图可视化、CAM及Grad-CAM分析

卷积神经网络擅长表示学习，隐含层滤波器可看作不同类型的特征提取器，对输入图像进行分层次的特征提取与表示。不同层次隐含层编码的特征图关注重点不同，较低层的特征图学习到边缘、纹理等轮廓特征，较高层的特征图则学习到目标细节等局部特征。越往高层的卷积层神经元，所含语义信息越丰富，对物体、场景等目标越具有区分性。因此，CNN的特征图可视为输入图像的特征空间，尤其是高层特征图蕴含着较为丰富的语义信息，对特征图可视化有利于理解 CNN内部特征与表达。

特征图直接可视化可观察CNN中间各层的特征表达，如图1所示，输入原图(a)和(g)中有2个较显著的目标物体，即“dog”和“cat”，图1中(b)～(f) 为ResNet-18中间卷积层((b)conv1，(c)conv2_x，(d)conv3_x，(e)conv4_x， (f)conv5_x)输出，可见越往高层特征表达越抽象。图1中(h)将其最高层(conv5_x) 特征图各通道叠加并投影到原图，得到最具区分性的特征表达，从中可以看出， CNN最高层特征图可定位到具有语义概念信息的特征位置，图像中重要目标区域特征都被编码到网络中，表明整个网络的特征学习是有效的。然而，虽然特征图可视化能够帮助理解CNN学习到了输入图像的哪些特征，但这些特征是被统一的表达与展示出来，无法确定这些特征与当前决策结果的关联性高低，即特征图可视化具有类别无关性，无法对CNN的决策结果做出有效解释。

Zhou等人(参见B.Zhou,A.Khosla,A.Lapedriza,A.Oliva,and A.Torralba.Learning deep features for discriminative localization.In CVPR,2016.)提出了利用特征图加权叠加的方式生成类别激活图，使用这种类别相关的热力图 (Class-specific Heatmap)对CNN分类原因进行解释。热力图可定位目标区域的关键特征，该特征能够支撑当前具体分类结果。如图1中(i)和(j)，分别表示CAM 方法生成的与ResNet-18分类结果中“dog”和“cat”相关的热力图，图中分别对关键区域进行高亮，表示该区域特征与当前决策最相关。图2所示为CAM方法所依赖的CNN结构，其中前半部分为常见CNN结构，如AlexNet、VGGNet和 GoogLeNet等，用于输入图像特征提取，后半部分是去除原始CNN中的全连接层并添加3个层：卷积层、GAP层和softmax分类层，其中GAP(Global AveragePooling,GAP)表示全局平均池化操作，将整张特征图平均化为一个数值。在该网络结构中，生成CAM热力图的具体过程如虚线所示，由softmax分类层关于某个类别的神经元权重，与最高层特征图各通道加权叠加得到。

CAM方法生成类别激活图过程非常简单，且定位效果较好，缺点在于结构中对GAP层的依赖，并不是所有CNN结构中都含有GAP层。因此，使用CAM 方法可视化CNN分类原因时，需修改原始CNN结构(将全连接层替换成卷积层、GAP层和softmax层)，使其后半部分符合图2所示的结构，并且修改结构后需重新训练网络，这样导致其使用较为复杂。同时，由于GAP操作将丢失大量特征图信息，因此修改后的网络与原始CNN相比，分类性能有所下降。

由于CAM方法的限制，使其并不适用于一般类型网络，因此，Selvaraju等人(参见R.R.Selvaraju,M.Cogswell,A.Das,R.Vedantam,D.Parikh,and D.Batra. Grad-cam:Visual explanations from deep networks via gradient-based localization.InarXiv:1610.02391v3,2017.)提出另一种生成类别激活图的思路——Grad-CAM。如图1中(k)和(l)所示，分别表示利用Grad-CAM方法生成的与ResNet-18分类结果中“dog”和“cat”相关的热力图。Grad-CAM方法并不需要改变网络结构，而是通过计算反向传播过程中，特征图每个像素关于某个类别的梯度，再对各通道像素点的梯度加以平均，即得到各通道对应的权重大小。图3所示为Grad-CAM网络结构及类别激活图生成过程。虽然Grad-CAM需要反向传播计算梯度，但涉及对单张输入图像进行可视化解释时，只需获取梯度来计算权重，而无需更新网络参数，因此不需要重新训练网络。

综上，这3种可视化方法均采用热力图的形式，对输入图像的关键区域进行高亮，以表示CNN学习到的特征及支撑当前分类结果的依据。热力图生成过程大致相同，如图4所示，使用的特征空间即最高层特征图，对其采用加权求和的方式，经过插值放大并与原图叠加，即可标明原图中关键区域及特征。不同点在于所使用的权重，不同的权重使得可视化效果的不同：特征图直接叠加等同于各通道权重均设置为1，此时权重是不含类别信息的固定数值，表明各个通道检测到的特征对当前分类结果的重要性相同；CAM使用的权重来自softmax分类层中关于某个类别神经元的连接权值，该权重与GAP层输出元素一一对应，进而映射到前一层特征图各通道重要性；Grad-CAM使用的权重则来自特征图各通道像素关于某个类别得分的反向梯度均值，这些梯度均值即对应各通道权重大小。

图4所示类别激活图生成过程如下：

其中，公式(1)仅表示类别激活权重为

的情形，c表示类别， K表示通道数，其它两种类型同理。特征图可视化、CAM和Grad-CAM均可看作对特征图采用通道注意力机制，为各通道分配不同注意力权重，注意力权重分布不同导致合成类别激活图的解释效果也不同。

(2)类别激活权重分析

通过对特征图可视化、CAM和Grad-CAM方法的比较可知，CNN类别激活权重具有十分重要的作用，一定程度上决定了生成类别激活图的质量和解释效果。为了进一步分析比较CAM与Grad-CAM方法所使用的类别激活权重，本发明首先在含有GAP层的CNN网络，分析对比2种类别激活权重间的关系，再进一步打破GAP层限制，研究在不含GAP层的网络结构中两者间的关系。

a.含有GAP层的CNN类别激活权重

GAP层将特征图整个通道平均池化为一个数值点，该过程无需参数训练，可减少参数数量，防止过拟合。同时，GAP层输出特征向量维度与输入特征图通道数(即卷积滤波器个数)相同，因此可使输出维度固定而不受输入图像尺寸影响。由于GAP层的这些优势，越来越多CNN结构中使用其代替全连接层，对特征图进行全局平均池化，然后映射到softmax分类层。

在CNN结构中含有GAP层时，可在不修改网络结构的情形下，将CAM和 Grad-CAM这2种可视化方法统一到同一网络中，在相同网络结构与输入图像的情形下，可保证特征空间相同，从而针对不同的类别激活权重进行详细分析。

在含有GAP层的CNN中，对输入图像的特征提取与分类流程如图5所示：

设最后一个卷积层输出特征图M＝(M₀,M₁,...,M_K-1)，经过GAP层输出特征向量，最后进入分类层，该过程形式化为：

(未经过softmax函数， l表示通道号)，其中类别c对应的得分y^c计算方式如下：

其中，m_l表示通道M_l平均池化后的值，其计算方式如下：

其中，

表示与m_l相连接另一端与分类层第c类神经元相连接的权重，M_{l,i_j}表示l通道内位置(i,j)处的像素值。

由公式(2)、(3)可知，得分y^c与特征图各像素值以及分类层权重有关。此时，分类层权重

即为CAM方法所使用的类别激活权重。

另一方面，按照Grad-CAM方法的思路计算其类别激活权重，对得分y^c反向传播到特征图空间，可获取其关于每个像素的梯度：

其中，

表示l通道(通道M_l)内位置(i,j)处的梯度值，则l通道的梯度平均值

为：

注意，这些梯度均表示关于特定类别c的梯度。此时，各通道平均梯度值

即为Grad-CAM方法所使用的类别激活权重。

由公式(4)、(5)，并结合公式(2)、(3)，经计算可得这2种类别激活权重 w^c和

间的关系：

由公式(6)可知，在含有GAP层的CNN结构中，2种不同的类别激活权重之间存在线性对应关系。直观地看，如图5所示流程，从多通道特征图映射为 CNN输出各类别得分的过程中，中间仅包含GAP操作，未使用非线性激活函数，且GAP属于线性计算过程，因而可得出该线性关系。图1中(g)和(i)、图1中(h) 和(j)对应的类别激活图可视化效果相近，也验证了该线性对应关系。

b.不含GAP层的CNN类别激活权重

GAP层的全局平均池化操作是一种特殊的池化方式，池化窗口为整张特征图大小。对于常见的池化方式如average pooling和max pooling，为了降低尺寸的同时保留更多特征图信息，池化窗口尺寸选择一般较小(如2x2或3x3)，且 max pooling操作是一种非线性算子，因此在对最高层特征图进行普通池化层的 CNN中，2种类别激活权重之间关系更加复杂，需对不同情形分别加以分析。

以3通道4x4大小特征图为例，如图6所示，分别采用GAP池化和其它3 种普通池化方式，分析此时2种类别激活权重之间的关系。

如图6所示，对于输入图像，经过CNN前半部分卷积和下采样，得到3x4x4 大小特征图，分别经过4种不同池化(padding默认为0)，再将池化后特征图展开，映射到二分类的分类层，输出得分y⁰和y¹(未经过softmax函数)。其中，池化方式分为以下4种：

1、GAP，池化窗口大小为整个特征图大小。由公式(6)，2种类别激活权重之间的关系为：

此时，2种类别激活权重之间存在线性关系，系数大小为特征图尺寸的倒数。

2、average pooling，池化窗口大小为(2,2)，步长设为2。此时，类别1的得分y¹为：

其中，根据average pooling池化过程，可计算m₀～m₃的值：

同理可计算m₄～m₁₁，由上式并结合(7)式可知，得分y¹由分类层权重w¹和特征图像素值加权得到。因此，反向传播中，特征图像素值的梯度仍与分类层权重相关，按照各通道平均梯度的计算公式(4)和(5)，可计算此时关于类别1 的各通道平均梯度值：

此时，类别激活权重

是w^c元素的线性组合，求和元素的个数与池化结果所得特征图中各通道元素个数相同，线性组合系数大小仍为特征图尺寸的倒数。

3、max pooling，池化窗口大小为(2,2)，步长设为2：得到结论同2。

4、average pooling，池化窗口大小为(2,2)，步长设为1，此时，特征图池化步长重叠的位置产生梯度叠加，经过对通道内所有像素的梯度值相加再求平均，可得到如下关系：

此时，类别激活权重

仍是w^c元素的线性组合，求和元素的个数及线性组合系数仍与情形2相同。

由上述结果可知，在普通池化方式下，CAM和Grad-CAM所使用的2种类别激活权重之间仍存在线性关系。其中，类别激活权重

始终是w^c元素的线性组合，求和元素个数等于池化结果中各通道元素个数，即池化结果所得特征图尺寸。即使在GAP池化下，池化所得特征图大小为1，此时结论仍然成立。因此， CNN的2种类别激活权重w^c和

始终具有一致性，依据该一致性可对2种类别激活权重结合使用，对类别激活图生成过程进行细微调整以提升可视化质量。

类别激活权重的作用相当于通道注意力权重，在合成类别激活图时，实现对特征图的通道级注意力调整。出于对类别激活权重一致性的考虑，并且其带有与 CNN分类结果相关联的特征，本发明提出一种基于注意力的CNN类别激活图生成方法，采用通道级的类别激活权重作为通道注意力权重，采用特征空间每个像素点的梯度值作为空间像素级注意力权重，通过空间与通道注意力结合的方式，使特征图中与当前分类类别关联性高的位置和通道得到进一步加强，关联性的位置和通道得到进一步抑制，这样合成的类别激活图将更加突出对分类结果有重要贡献的特征，而相关度较低的特征被更好地抑制。

将本发明提出的基于注意力的CNN类别激活图生成方法记作Att-CAM，其具体过程如图7所示，包括：

具体地，在所述步骤1之前还包括：

其中，

具体地，所述步骤1包括：

对CNN输出的分值反向传播，计算特征图中每个像素点关于得分的梯度作为类别相关的空间注意力权重，得到空间注意力权重矩阵：

CNN高层特征图编码中，与目标相关的语义信息丰富且空间位置相对集中，各通道内不同位置所含像素信息差别较大。由于各通道内特征分布并不均匀，单独使用通道注意力并不能很好地利用像素的空间分布特征，因此，本文采用空间注意力机制对各通道不同位置实现不同加权，可利用这种空间分布特征。通过对 CNN输出分值反向传播，计算特征图中每个像素点关于得分的梯度，可得到类别相关的空间注意力权重矩阵，即像素级梯度矩阵g^c：

其中，

表示梯度矩阵的l通道每个元素值对应像素点的梯度值，H和W分别表示高和宽。该梯度矩阵既含有各空间位置的重要性特征，也含有与分类类别相关的特征，可在生成类别激活图时实现像素级注意力加权。

具体地，所述步骤2包括：

获取分类层各类别神经元的连接权重作为各类别神经元对应的通道注意力权重，得到通道注意力权重矩阵：

CAM和Grad-CAM方法采用的通道注意力机制将特征图各通道视为一个整体，认为各个通道对应不同特征，对当前分类结果中各类别的贡献不同，因而在生成类别激活图时，通道之间应赋予不同大小注意力权重。在含有GAP层的CNN 中，通过获取分类层各类别神经元的连接权重，可得到各类别对应的通道注意力权重，如下：

具体地，所述步骤3包括：

此时，由空间-通道注意力权重调节的类别激活图生成方式如下：

由公式(6)可知，在含有GAP层的CNN中，2种类别激活权重w^c和

存在线性对应关系。结合公式(5)(6)，可对公式(10)进一步化简：

上式中，空间与通道注意力权重均由梯度构成，与(10)式相比，仅由梯度即可实现像素级与通道级注意力加权。

池化方式采用avgpool/maxpool(2,2)/2时，由公式(5)、(8)可得第1个通道的通道注意力权重如下：

其中，s表示池化后特征图中元素总数，其它通道类似。此时，忽略系数

的影响，通道注意力权重

仍可用像素级梯度求和代替：

因此，在该池化方式下，类别激活图生成方法仍为公式(11)。同理，池化方式采用avgpool(2,2)/1时，由公式(5)、(9)，可推导出公式(11)所示形式。

综上，本发明Att-CAM方法如公式(11)所示，该式在现有的通道注意力基础上，添加空间注意力提升类别激活图质量，并将不同池化方式下的通道注意力权重与空间注意力权重的表示统一起来，无需再依赖分类层权重对通道加权，简化了类别激活图生成过程。

值得注意的是，文献(M.T.Ribeiro,S.Singh,and C.Guestrin.why should itrust you？: Explaining the predictions of any classifier.In ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining,pages 1135–1144,2016.)、(Sanghyun Woo, Jongchan Park,Joon-Young Lee,and In So Kweon.CBAM:Convolutional block attention module.In ECCV,2018.)和(Chen,L.,Zhang,H.,Xiao,J.,Nie,L.,Shao,J., Liu,W.,Chua,T.S.:SCA-CNN-Spatial and ChannelWise Attentionin Convolutional Networks for Image Captioning.CVPR(2017)6298–6306.)在CNN结构中加入空间-通道注意力机制，注意力权重跟随网络参数一起调整更新，用于提升CNN分类准确率。与之不同，本发明所提方法Att-CAM仅实现基于类别激活图的CNN 可视化解释，通过对特征图使用空间-通道注意力加权，提升类别激活图生成质量。因此，本发明所用注意力权重采用网络的梯度构成，可离线获取而不跟随网络一起训练。

为验证本发明效果，进行如下实验：

实验使用的预训练模型采用torchvision自带的预训练CNN网络，分别为SqueezeNet、ResNet-18、ResNet-50和DenseNet-161，这些网络预先在ImageNet 数据集上训练至最佳性能。理论上讲，分类准确率越高的模型，特征提取及表示能力越强，重要特征定位能力就越好，生成的类别激活图可视化效果也越好。实验使用的预训练网络在ImageNet数据集上的分类性能如表1所示。

表1、4种网络在ImageNet数据集上的错误率及最高层特征图尺寸

实验在Ubuntu 18.04***下，Anaconda 4.4.10集成环境中，使用深度学习框架PyTorch实现，其中torchvision自带大量在ImageNet上的预训练网络。由于可视化实验是对预训练的CNN分类结果进行解释，因此不涉及网络训练及参数调优。

1、类别激活权重可视化实验

类别激活权重对生成热力图的解释效果至关重要，实验对ResNet-18和DenseNet-161的类别激活权重进行可视化及比较。按照前文所述，类别激活权重分为2种：(1)CAM方法中，采用分类层某个类别对应的神经元与前一层的连接权重，作为特征图各通道的权重；(2)Grad-CAM方法中，采用各通道特征图关于某个类别输出得分的梯度平均值，作为特征图各通道的权重。

(1)关于同一输出类别的不同类别激活权重比较实验

对于残差网络ResNet-18和DenseNet-161，输入图像为图1中(a)，尺寸大小为224x224x3。以ResNet-18为例，对ResNet-18类别激活权重进行可视化，由于高层特征图通道数较多，为了便于清晰展示，从其conv5_x层输出的512个通道中，随机选取50个通道对应的权重进行可视化，如图8中(a)和(b)所示。由于反向传播的梯度在数值上非常小，与前向分类层的权重数值上相差较大，因此为方便比较其关系，绘图时对average gradient数值上扩大100倍，这样并不会影响二者在数值上的关系比较。

图8所示的类别激活权重有以下2种：

Softmax weight：表示softmax分类层某个神经元(类别)的连接权重，即第 1种类别激活权重；

Average gradient：表示特征图关于某个类别的梯度均值，即第2种类别激活权重。

图8中(a)和(b)分别表示ResNet-18输出类别“dog和“cat”时，所对应的2种类别激活权重。其中，横轴表示特征图的各个通道(随机选取)，纵轴表示该通道对应的2种类别激活权重值大小。可以看出，这2种类别激活权重存在明显的对应关系，数值大小总是呈现相同的波动，表明二者之间存在数值上的线性对应关系。与之类似，图8中(c)和(d)分别表示DenseNet-161输出类别为“dog”和“cat” 时对应的类别激活权重，可以看到相似的线性关系。

(2)关于不同输出类别的同一类别激活权重比较实验

考虑对于同一种类别激活权重，关于不同输出类别的各通道权重值大小，如图9所示。

图9中(a)表示对ResNet-18的类别激活权重softmax weight的可视化，其输出top3类别为boxer＝0.426,bull mastiff＝0.265,tiger cat＝0.175，其中softmaxweight1～3分别与之对应。同理，图9中(b)表示对类别激活权重average gradient 的可视化。可以看出，对于同一类别激活权重，在同一通道上，不同输出类别对应的权重值差异巨大，表示该通道对各输出类别的贡献大小互不相同。因此，由于权重值的差异化，其与特征图的加权叠加才能够出现不同的类别激活区域效果。同时，对图9(a)和(b)中各类别对应的权重曲线进行横向比较，进一步验证了上一小节的结论。

2、类别激活图可视化与比较实验

通过3组实验，对本发明提出的Att-CAM方法的可视化效果进行验证，以及与其它几种可视化方法的效果对比。

(1)Att-CAM与CAM、Grad-CAM可视化效果比较

在同一输入图像上，对4种CNN网络：SqueezeNet、ResNet-18、ResNet-50 和DenseNet-161，分别采用3种可视化方法：CAM、Grad-CAM、Att-CAM(本文方法)进行效果比较，如图10所示。这里应用的4种CNN结构中，都带有 GAP层进行全局平均池化，因此根据类别激活权重分析，可在其上同时使用CAM 和Grad-CAM可视化，这样可保证预训练网络结构及参数的一致性。

从图10所示可视化结果，可以看到：

a.从横向看，在同一CNN结构下，采用CAM、Grad-CAM和Att-CAM这3 种可视化方法，可看到本发明提出的Att-CAM方法的可视化效果更好。由于 Att-CAM所使用的注意力权重同时包含了2种类别激活权重，因此对区分性特征区域定位效果更好；

b.从纵向看，对于同一种可视化方法，对比在不同网络下的可视化效果。从表1可以看出，这4种网络的分类错误率高低依次为： SqueezeNet>ResNet-18>ResNet-50>DenseNet-161，即分类准确率顺序相反。因此，从可视化效果对比发现，分类网络自身的准确率越高，生成的热力图定位效果越好。直观地理解，CNN自身性能越好，其中间层特征图对目标物体的特征关注越集中，学习到的特征越全面，因此采用特征图加权的方式生成的热力图解释效果也更好。

(2)Att-CAM关于不同输出类别的可视化

Att-CAM方法使用的注意力权重来自两种类别激活权重，这些类别激活权重与网络输出类别直接相关，因此，Att-CAM方法可对特定类别特征进行可视化，对和输出类别相关的感兴趣区域进行定位。如图11所示，表示对 DenseNet-161各个输出类别进行可视化解释。对于图11中原图(a)，DenseNet-161 top5分类结果分别为：flowerpot＝0.270，littleblue heron＝0.148，hummingbird＝0.069， walkingstick＝0.062，bulbul＝0.051；对于图11中原图(b)，DenseNet-161top5分类结果分别为：schooner＝0.821，pirate ship＝0.051，yawl＝0.021，wreck＝0.013， dock＝0.009；对于图11中原图(c)，DenseNet-161top5分类结果分别为：studio couch＝0.860，bookcase＝0.118，library＝0.010，rocking chair＝0.003，table lamp ＝0.002；在每个类别对应的类别激活图中，与该分类结果最相关的图像区域被高亮，表示该区域最能支撑当前分类结果。

由图11所示的可视化结果，并结合类别激活权重分析可以得知，可视化效果与输出类别非常相关，不同类别对应的类别激活权重显著不同，因而生成的类别激活图可实现对特定输出类别的解释。但可视化效果与该类别对应的得分无关，即图像属于该类别的可能性大小并不会影响其可视化效果。

(3)Att-CAM关于同一类别图像的可视化

选取同一类别的多张图像，可视化其中的区分性特征，测试Att-CAM从不同图像中定位同类目标的能力，如图12所示，表示对属于4个类别“spider”、 “hourglass”、“chimpanzee”和“butterfly”的不同图像进行区分性特征定位结果。

图12可视化结果表明，对于同一类别的图像，在分类结果相同的情形下， Att-CAM方法能够有效地定位与该图像中目标相关的区域。同时，对于有些图像中像素非常相近的目标，该方法也可从中寻找到合理的区域以解释当前分类结果，表明Att-CAM可视化方法具有较好的鲁棒性。

本发明在详细分析特征图可视化、CAM和Grad-CAM方法的基础上，通过对不同池化情形下的类别激活权重进行研究分析，发现不同的类别激活权重之间存在一致的线性对应关系，据此提出了涉及一种基于注意力的CNN类别激活图生成方法Att-CAM，该方法将不同的类别激活权重结合作为注意力权重，可在同时关注特征图通道特征和空间分布特征的情况下，提升类别激活图生成质量。实验结果表明，与现有的方法相比，本文方法能够有效提升类别激活图的可视化效果。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。