CN115170876A

CN115170876A - 一种基于因果干涉注意力的图像识别方法

Info

Publication number: CN115170876A
Application number: CN202210766486.4A
Authority: CN
Inventors: 李革; 柳儒杨; 李宏
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-11

Abstract

一种基于因果干涉注意力的图像识别方法，包括以下步骤：S1.数据预处理：将作为训练数据的图像处理为模型需要的大小和格式并进行增强；S2.预处理后的训练数据进入主干基准网络，得到图像的特征图；S3.将特征图在通道维度切分为四份，视为对特征图进行了因果干涉；S4.在每一份特征图中，实现类别‑空间注意力；S5.在每一份的类别‑空间注意力的基础上上，实现点乘注意力；S6.将经过两层注意力模块之后的四个特征图在通道维度上拼接在一起，得到最终特征；S6.将最终特征输入二元分类器，得到预测结果。本发明方法能去除上下文偏移对图像识别带来的干扰，从而提升图像识别的准确率和鲁棒性，解决了现有的注意力机制加重上下文偏移的问题。

Description

一种基于因果干涉注意力的图像识别方法

技术领域

本发明涉及图像处理领域，更具体地，涉及一种基于因果干涉注意力的图像识别方法。

背景技术

注意力机制本质上是一种加权，它的输入是信号序列，选取并突出信号序列中信息最丰富有效的部分，输出是加权后的信号。最开始时，注意力模块主要被应用于自然语言处理等天然的序列任务。近年来，注意力机制在计算机视觉中也得到广泛的应用。无论是最开始的传统注意力机制还是近期的自注意力机制，它们在各个任务上都取得了优秀的效果。然而，注意力机制也有着自己的问题，即对输入信号的选取和加权的过程是无监督的，而它选择突出的都是它“自以为”重要的信号片段，因此很容易加强错误的部分。具体地，当训练集中存在严重的上下文偏移时(比如，大部分的“刀叉”类别都会在餐桌这个上下文下)，注意力机制就会错误地认为，餐桌是“刀叉”出现的必要条件，因而选择突出图片中餐桌而非刀叉。而当遇到一个没有刀叉的餐桌图片时，这种错误的加权就会导致错误地预测出刀叉存在。事实上，尽管注意力机制在大多数情况下都可以带来效果的提升，但当遇到训练集和测试集数据分布不同时，带有注意力模块的模型效果反而会更差

因果推理是一门探求事物因果关系的理论，它被广泛地应用于医药学、政治学、社会学等领域。而在人工智能领域中，因果方法常被用来消除模型以及数据集中偏移的影响。因果推理存在的问题是：文的上下文背景(如餐桌)就是典型的混杂因子。混杂因子是具有A←B→C结构的关系，如运动←年长→癌症，“年长”的混杂效应可能会导致模型认为运动和癌症间有因果关系。而在图像识别任务中，存在着很多前景和它的频繁共现的背景，而这些背景作为混杂因子，混淆了前景和识别结果之间的因果关系，比如，误导模型认为餐桌背景和刀叉的出现之间有着必然的因果联系。这种错误的因果联系就导致了预测结果的不鲁棒，比如当遇到没有刀叉的餐桌图片或刀叉不在餐桌场景的图片时，普通的模型常常会做出错误的预测。而注意力机制无法识别模型得到的因果关系是正确还是错误的，只能加强现有的因果关系(即数据集中的偏移)，因此，在训练集和测试集分布不同时，带有注意力模块的模型效果反而更差。要解决这一问题，使注意力模块发挥出应有的效果，就需要去除混杂因子的影响，得到正确的因果关系。在因果推理中，对于混杂效应的去除通常由因果干涉完成，而最常见的因果干涉为后门调干涉(do算子)：P(Y|do(X＝x))＝∑_cP(Y|X＝x,C＝c)P(c)，其中X，Y是我们想要求解的因与果，而C是模型中的混杂因子。

上述问题和缺陷非常难以解决，因为上下文的偏移普遍存在于数据集中且难以量化表示。目前该问题还没有完善的解决手段。

解决上述问题的意义为：帮助模型学习到更本质的物体特征，得到更鲁棒的预测，从而在应用场景数据和训练数据分布不一致这样的高难度场景下获得更优秀的结果。

发明内容

本发明提供了一种基于因果干涉注意力的图像识别方法，能去除上下文偏移对图像识别带来的干扰，充分地发挥注意力机制的功效，从而提升图像识别的准确率和鲁棒性，解决了现有的注意力机制加重上下文偏移的问题。

本发明的技术方案如下：

本发明的一种基于因果干涉注意力的图像识别方法，包括以下步骤：S1.数据预处理：将作为训练数据的图像处理为模型需要的大小和格式并进行增强；S2.预处理后的训练数据进入主干基准网络，得到图像的特征图；S3.将特征图在通道维度切分为四份，称为四个头，视为对特征图进行了因果干涉；S4.在每一份特征图中，实现第一层注意力：类别-空间注意力；S5.在每一份的类别-空间注意力的基础上上，实现第二层注意力：点乘注意力；S6.将经过两层注意力模块之后的四个特征图在通道维度上拼接在一起，得到最终特征；S6.将最终特征输入二元分类器，得到预测结果。

优选地，在上述基于因果干涉注意力的图像识别方法中，在步骤S1中，将作为训练数据的图像根据后续的主干基准网络缩放为统一的尺寸，然后进行数据增强，将图像以随机的概率进行水平或竖直翻转，再以随机概率进行旋转扭曲。

优选地，在上述基于因果干涉注意力的图像识别方法中，在步骤S2中，主干基准网络是能输出空间特征图的CNN的卷积架构或无卷积的transformer骨架。

优选地，在上述基于因果干涉注意力的图像识别方法中，在步骤S4中，第一层注意力先对空间维度上的特征做分类，然后将每一类的分类概率乘回空间特征上，最后分别得到四个头中每一类的特征。

优选地，在上述基于因果干涉注意力的图像识别方法中，在步骤S5中，第二层注意力对第一层注意力四个头中的结果进行加权，加权方法为质询Q和值K相乘并归一化后的结果乘到值K上，得到的是每个头中综合其它头信息的每一类的特征，其维度与上一层相同。

优选地，在上述基于因果干涉注意力的图像识别方法中，在步骤S6中，先将点乘注意力的输出序列分解，得到4个头的类别特征，然后按步骤S3切分的顺序，把四个头的类别特征在通道维度上拼接在一起，得到每个类别的分类特征。

优选地，在上述基于因果干涉注意力的图像识别方法中，在步骤S6中，得到预分类的分数后，经过一层Softmax，得到基于类别的概率分布，基于此概率，将基于类别的混杂集加权求和，得到上下文的特征。

根据本发明的技术方案，产生的有益效果是：

本发明方法通过因果干涉去除了上下文偏移这个混杂因子，使得物体与它的预测之前能建立正确的因果关系，从而让注意力机制能发挥出应有的效果。本方法能够针对目标物体的不同背景，做出鲁棒的预测，提升识别准确率。

本发明方法提出的改进注意力机制的框架，并不局限中方法中类别-空间注意力，而是可以被用来改进和提升任何其他的注意力模块，比如著名的CBAM和SENET。

本发明方法基于因果推理的理论，适用于任何骨架和概率模型，可以灵活迁移到不同方法上。同时，本发明还灵魂适用于各种视觉识别任务，包括单分类、多分类、检测等。

为了更好地理解和说明本发明的构思、工作原理和发明效果，下面结合附图，通过具体实施例，对本发明进行详细说明如下：

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明的基于因果干涉注意力的图像识别方法的流程图；

图2是本发明的基于因果干涉注意力的图像识别方法的的网络框架的流程图。

具体实施方式

为使本发明的目的、技术方法及优点更加清晰，下面结合附图及具体实例，对本发明做进一步的详细说明。这些实例仅仅是说明性的，而并非对本发明的限制。

如图1和图2所示，本发明的基于因果干涉注意力的图像识别方法，包括以下步骤：

S1.数据预处理：将作为训练数据的图像处理为模型需要的大小和格式并进行增强。

具体地，在该步骤中，首先，将作为训练数据的图像缩放为统一的尺寸，尺寸具体大小根据后续的主干基准网络决定，然后进行数据增强，将图像以随机的概率进行水平或竖直翻转，再以随机概率进行旋转扭曲。例如，数据预处理时，将图像缩放为448*448标准大小，并通过随机翻转和旋转后，送入主干基准网络。

S2.训练数据进入主干基准网络，得到图像的特征图。

主干基准网络可以使用任意网络模型，包括可以是CNN的卷积架构和无卷积的transformer骨架，只要其能输出空间特征图即可。分别以残差网络(ResNet)和滑动窗口转化器(SwinT)为例。对于ResNet，其输入图像尺寸为448*448，输出的特征图为2048*14*14的矩阵。对于SwinT，其输入图像尺寸为384*384，输出的特征图为1024*12*12的矩阵。为了简便，后续统一采用ResNet的尺寸大小作为例子。其中2048为通道维度，14*14分别为特征图的宽和高，对应空间维度。

S3.将特征图在通道维度切分为四份，称为四个头，视为对特征图进行了因果干涉。

将特征图在通道维度切分为四份，称之为四个头，是对于后门调公式(因果干涉的一种)的一种建模，而切分后的特征分别做处理，等价于对特征进行了因果干涉。具体地，将前面所得的特征图在通道维度切为四份，每一份特征图的大小为512*14*14，称之为四个头。切分后的公式为：

该公式为后门调公式的近似，所以该切分操作视为对特征进行的一步因果干涉，其中X和Y分别表示物体特征和预测结果，K表示头的数量，而w表示分类器的权重，γ设置为0.03125。然后，将最后两个维度压缩为一个维度，得到四个512*196的矩阵，196对应空间维度。

S4.在每一份特征图中，实现第一层注意力：类别-空间注意力(SCA)。

第一层注意力先对空间维度上的特征做分类，然后将每一类的分类概率乘回空间特征上，最后分别得到四个头中每一类的特征。具体地，首先将特征图通过一层卷积分类，将通道维度转化为类别数，假设有80个类，则得到的结果为80*196，其中80这个维度为每一个类的分类概率；然后将其在196这个维度上进行Softmax操作，使得80个概率和为1；随后，将用这些概率对原来的特征图在空间维度上进行加权平均，即用80*196这个概率矩阵和前面的512*196的特征图矩阵相乘，得到每个类别的通道特征(E₁，E₂，…，E₈₀)，尺寸为80*512。在四个头中都进行该操作，得到四个80*512的类别特征矩阵，称为多头类别-空间注意力(MHSCA)。

S5.在每一份的类别-空间注意力的基础上，实现第二层注意力：点乘注意力(DPA)。

在类别-空间注意力的基础上实现点乘注意力，对四个头的结果进行加权平均。加权方法为质询Q和值K相乘并归一化后的结果乘到值K上，得到的是每个头中综合其他头信息的每一类的特征，其维度与上一层相同。具体地，将四个头的类别特征叠在一起形成序列，尺寸为80*4*512，其中序列长度为头的数量4。然后，分别用该序列通过三个512*512的映射得到查询值Q、值K、值V，其中值Q、K、V的大小都为80*4*512。然后对Q和值K做矩阵乘法，得到序列权重，大小为80*4*4。对该权重做Softmax处理，使得权重和为1。最后，将该权重乘到值V上，得到点乘注意力的输出结果，大小为80*4*512。

S6.将经过两层注意力模块之后的四个特征图在通道维度上拼接在一起，得到最终特征。

得到预分类的分数后，经过一层Softmax，得到基于类别的概率分布，基于此概率，将基于类别的混杂集加权求和，得到上下文的特征。具体地，先将点乘注意力的输出序列分解，得到4个头的类别特征，大小为80*512。然后，按步骤S3切分的顺序，把四个头的类别特征在通道维度上拼接在一起，得到大小为80*2048的每个类别的分类特征。

S7.将最终特征输入二元分类器，得到预测结果。最终的二元分类器同样使用的是干涉分类器，且与预分类器参数不同。具体地，将80个类别的2048维特征分别输入到80个分类器中，单个分类器的尺寸同样为2048，得到80个类别的分类概率，如图2中出现“人”的概率为0.99，出现汽车的概率为0.87，出现“猫”的概率为0.06，然后根据概率对图像进行识别。

本发明的测试结果如以下表1和表2所示，由表1和表2可知本发明的基于因果干涉注意力的图像识别方法，能去除上下文偏移对图像识别带来的干扰，充分地发挥注意力机制的功效，从而提升图像识别的准确率和鲁棒性。

表1

本发明方法和其它著名方法的定量对比结果如表1所示，其中IDA(L)和IDA(H)分别是本发明轻量级模型和重量级模型(将第二层的注意力重复拓展多次)，WH是分辨率，mAP为主要客观平均指标，CP、CR、CF1、OP、OR、OF1为客观评价指标。

表2

本发明方法各个模块的消融实验结果如表2所示。其中SCA为原始的类别-空间注意力，Multi-head为在类别-空间注意力上添加多头得到MHSCA，DPA表示在多头的基础上添加点乘注意力，Trans表示对第二层点乘注意力进行多层拓展得到重量级模型。Parameters表示参数量(单位为M)。

以上说明是依据发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制，依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。

Claims

1.一种基于因果干涉注意力的图像识别方法，其特征在于，包括以下步骤：

S1.数据预处理：将作为训练数据的图像处理为模型需要的大小和格式并进行增强；

S2.预处理后的训练数据进入主干基准网络，得到图像的特征图；

S3.将所述特征图在通道维度切分为四份，称为四个头，视为对所述特征图进行了因果干涉；

S4.在每一份特征图中，实现第一层注意力：类别-空间注意力；

S5.在每一份的类别-空间注意力的基础上上，实现第二层注意力：点乘注意力；

S6.将经过两层注意力模块之后的四个特征图在通道维度上拼接在一起，得到最终特征；

S6.将最终特征输入二元分类器，得到预测结果。

2.根据权利要求1所述的基于因果干涉注意力的图像识别方法，其特征在于，在步骤S1中，将作为训练数据的图像根据后续的所述主干基准网络缩放为统一的尺寸，然后进行数据增强，将所述图像以随机的概率进行水平或竖直翻转，再以随机概率进行旋转扭曲。

3.根据权利要求1所述的基于因果干涉注意力的图像识别方法，其特征在于，在步骤S2中，所述主干基准网络是能输出空间特征图的CNN的卷积架构或无卷积的transformer骨架。

4.根据权利要求1所述的基于因果干涉注意力的图像识别方法，其特征在于，在步骤S4中，所述第一层注意力先对空间维度上的特征做分类，然后将每一类的分类概率乘回空间特征上，最后分别得到四个头中每一类的特征。

5.根据权利要求1所述的基于因果干涉注意力的图像识别方法，其特征在于，在步骤S5中，所述第二层注意力对所述第一层注意力四个头中的结果进行加权，加权方法为质询Q和值K相乘并归一化后的结果乘到值K上，得到的是每个头中综合其它头信息的每一类的特征，其维度与上一层相同。

6.根据权利要求1所述的基于因果干涉注意力的图像识别方法，其特征在于，在步骤S6中，先将所述点乘注意力的输出序列分解，得到4个头的类别特征，然后按步骤S3切分的顺序，把所述四个头的类别特征在通道维度上拼接在一起，得到每个类别的分类特征。

7.根据权利要求1所述的基于因果干涉注意力的图像识别方法，其特征在于，在步骤S6中，得到预分类的分数后，经过一层Softmax，得到基于类别的概率分布，基于所述概率，将基于类别的混杂集加权求和，得到上下文的特征。