CN114048822A

CN114048822A - 一种图像的注意力机制特征融合分割方法

Info

Publication number: CN114048822A
Application number: CN202111398830.0A
Authority: CN
Inventors: 刘辉; 曲长波
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-15

Abstract

本发明公开了一种图像的注意力机制特征融合分割方法，步骤为：将输入图像统一裁剪；对输出特征图进行池化操作；将特征提取网络ResNet101中四个不同的卷积阶段；将输出特征图通过空间金字塔池化聚合多尺度的上下文信息；对输出特征图通过双线性插值进行两倍上采样，经通道注意力机制与输出特征图进行特征融合；对输出特征图通过双线性插值进行两倍上采样，经通道注意力机制与输出特征图进行特征融合，作为通道注意力机制特征融合模块的输出特征图；使用双线性插值对特诊图进行4倍上采样，还原至输入图像分辨率，生成最终预测结果。本发明有助于形成更加清晰的目标分割边界和精细的分割结果，充分利用低级特征图中的细节信息，提高图像的语义分割精度。

Description

一种图像的注意力机制特征融合分割方法

技术领域

本发明属于图像语义分割的技术领域，尤其涉及一种图像的注意力机制特征融合分割方法。

背景技术

随着社会的不断进步，人们期待计算机能够拥有像人类一样的逻辑推理能力和决策能力，将人们从各种复杂的任务中解救出来。图像语义分割通过为图像中的像素分配一个预先定义好表示类别的语义标签，将图像划分为表示不同语义信息的区域。经图像语义分割后的图像可以用于图像语义识别、目标追踪、等场景理解任务中，是图像处理的一个重要手段。目前图像语义分割技术已经在医疗影像、自动驾驶、智能家居和图像引擎搜索等领域产生了很多重要的应用。

图像语义分割方法可分为传统的图像语义分割方法和基于深度学习的图像语义分割方法(Image Semantic Segmentation Based On Deep Learning，ISSbDL)，以下简称深度语义分割方法。传统的语义分割方法大多根据图像的灰度、纹理等特征进行分割比如基于图像像素阈值的分割方法、基于图像物体边缘的分割方法、基于区域的分割方法或者超像素分割方法。传统的语义分割算法需要人手动提取特征，分割结果的好坏取决于特征提取结果的好坏，所以传统的语义分割方法往往耗时耗力且分割结果粗糙。深度语义分割方法能够通过卷积神经网络(Convolutional Nerual Network,CNN)强大的特征提取能力自动提取图像特征，从而进行端到端的训练，DeepLabv3+采用ResNet101作为特征提取网络，通过空间金字塔池化聚和多尺度上下文信息，最后采用一个简单高效的解码器将预测分数图恢复至输入图像尺寸作为预测结果。

DeepLabv3+网络中只在解码器中融合了下采样步长为4的特征图，没有对卷积过程中的浅层特征图信息充分利用，并且不能对感兴趣目标进行侧重学习，导致目标边界像素点的分割效果粗糙，容易漏分割小的目标。

图像语义分割是计算机视觉中的关键问题之一，卷积神经网络是语义分割任务的主流方法。DeepLabv3+语义分割网络的编码器有效的提取了高级特征，但解码器直接将特征提取网络中单个低级特征图与高级特征图融合，这种特征融合方式过于简单，不能有效恢复图像的细节信息，导致分割结果中目标边缘像素定位不准，存在漏分割、误分割的问题。

发明内容

基于以上现有技术的不足，本发明所要解决的技术问题在于提出一种图像的注意力机制特征融合分割方法，有助于形成更加清晰的目标分割边界和精细的分割结果，并且充分利用低级特征图中的细节信息，提高图像的语义分割精度。

为了实现以上发明，提出了一种图像的注意力机制特征融合分割方法，包括以下步骤：

S1，将输入图像统一裁剪为513×513分辨率大小，对原始尺寸小于513×513的输入图像，进行补零操作后再裁剪；

S2，采用卷积步长为2的7×7卷积将输入图像尺寸由513×513缩小为257×257；

S3，对步骤S2的输出特征图进行步长为2、池化核大小为3×3的池化操作，此次下采样将特征图尺寸缩减为129×129；

S4，标记特征提取网络ResNet101中四个不同的卷积阶段；

S5，将步骤S4中的输出特征图通过空间金字塔池化聚合多尺度的上下文信息；

S6，对Conv2_x的输出特征图通过双线性插值进行两倍上采样，经通道注意力机制与Conv3_x的输出特征图进行特征融合；

S7，对步骤S6的输出特征图通过双线性插值进行两倍上采样，经通道注意力机制与Conv4_x的输出特征图进行特征融合，作为通道注意力机制特征融合模块的输出特征图；

S8，将步骤S7与步骤S5的输出特征图在通道维度进行拼接操作，通过3×3卷积生成稠密的特征映射，使用双线性插值对特诊图进行4倍上采样，还原至输入图像分辨率，生成最终预测结果。

优选的，在步骤S4中，四个不同的卷积阶段分别记为Conv2_x、Conv3_x、Conv4_x和Conv5_x，分别将Conv2_x、Conv3_x、Conv4_x和Conv5_x中的残差结构数目调整为{8,8,9,8}，调整后的特征提取网络浅层特征图中包含更多的高级语义信息，可以有效引导浅层特征和深层特征之间的融合。

优选的，在步骤S5中，空间金字塔池化中包含四个不同采样率的特征提取路径和一个全局平均池化通道，全局平均池化具有全局的感受野，不同采路径的输出特征图经过通道维度的拼接，随后通过双线性插值进行4倍上采样作为编码器输出。

由上，本发明的图像的注意力机制特征融合分割方法具有如下有益效果：

本发明采用卷积神经网络自动提取图像特征，无需人为选择特征，使图像语义分割过程能够进行端到端训练，与传统的分割算法相比本发明的算法更加简洁。与DeepLabv3+中只利用了下采样步长为4的特征图相比，本发明的方法采用通道注意力特征融合模块通过级联的方式聚合了多尺度的浅层特征图，获取更加丰富的上下文信息并在解码器中高效恢复了像素的空间位置信息，生成了更加精细的分割结果。本发明在编码器中采用ResNet101提取图像特征，经空间金字塔池化聚和多尺度上下文信息，然后在解码器中通过通道注意力特征融合模块将深层特征图与浅层特征图中的信息进行逐级融合，旨在保留更完整的低级表征信息，生成更加清晰的目标边界。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下结合优选实施例，并配合附图，详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍。

图1为本发明的通道注意力图像语义分割算法的过程图；

图2为本发明的全局通道注意力计算过程图；

图3为本发明的局部通道注意力计算过程图；

图4为本发明的通道注意力机制特征融合模块结构图。

具体实施方式

下面结合附图详细说明本发明的具体实施方式，其作为本说明书的一部分，通过实施例来说明本发明的原理，本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中，不同的图中相同或相似的部件使用相同的附图标号来表示。

本发明提供一种图像的注意力机制特征融合分割方法，包括以下步骤：

S1，将输入图像统一裁剪为513×513分辨率大小，对原始尺寸小于513×513的输入图像，进行补零操作后再裁剪。

S2，采用卷积步长为2的7×7卷积将输入图像尺寸由513×513缩小为257×257。

S3，对步骤S2的输出特征图进行步长为2、池化核大小为3×3的池化操作，此次下采样将特征图尺寸缩减为129×129。

S4，将特征提取网络ResNet101中四个不同的卷积阶段分别记为Conv2_x、Conv3_x、Conv4_x和Conv5_x。分别将Conv2_x、Conv3_x、Conv4_x和Conv5_x中的残差结构数目调整为{8,8,9,8}。调整后的特征提取网络浅层特征图中包含更多的高级语义信息，可以有效引导浅层特征和深层特征之间的融合。

S5，将步骤S4中的输出特征图通过空间金字塔池化聚合多尺度的上下文信息，空间金字塔池化中包含四个不同采样率的特征提取路径和一个全局平均池化通道，全局平均池化具有全局的感受野。不同采路径的输出特征图经过通道维度的拼接，随后通过双线性插值进行4倍上采样作为编码器输出。

S6，对Conv2_x的输出特征图通过双线性插值进行两倍上采样，经通道注意力机制与Conv3_x的输出特征图进行特征融合。

S7，对步骤S6的输出特征图通过双线性插值进行两倍上采样，经通道注意力机制与Conv4_x的输出特征图进行特征融合。作为通道注意力机制特征融合模块的输出特征图。

图1是本发明的通道注意力机制图像语义分割算法的过程图，通道注意力图像语义分割主要包括以下步骤：

步骤1，在编码器阶段，将ResNet101作为提取图像特征的骨干网络，挑选了下采样步长为4、8和16的特征图进行特征融合，充分利用图像的低级信息。并调整了ResNet101中不同卷积阶段的残差结构数量，平衡了特征图中的细节信息与语义信息的比重。

步骤2，在解码器中进行特征融合之前先通过1×1的卷积操作将特征图的通道数降低至256。通过通道注意力机制特征融合后的浅层特征图与编码器的输出特征图进行通道维度的拼接操作，使用3×3卷积使解码器能够充分学习特征与分割目标之间的映射关系。最后将特征图进行四倍上采样将特征图换原至输入图像分辨率后输出预测图。

图2是本发明的全局通道注意力计算过程图，全局通道注意力模块通过全局平均池化获取具有全局感受野的权重向量，使神经网络在训练过程中建模特征图各个通道的重要性，自动判断哪些通道上的信息为有用信息，哪些通道上的信息为噪声信息。全局通道注意力模块中主要包括以下步骤：

步骤3，首先对输入特征图进行全局平均池化，将尺度为H×W×C的特征图变为了1×1×C的向量，向量中的每一个元素都对应输入特征图中的一个通道，该元素具有全局的感受野。全局平均池化的结果为：

其中Z表示对通道数为C的特征图X进行全局平均池化的结果，X_C(i,j)表示输入特征图中第C个通道上的第i行，第j列的元素。

步骤4，以步骤3中全局平均池化的向量作为输入，生成全局通道注意力矩阵M_Global：

M_Global＝F_Global(X_C)×W＝W₂ReLU(β(W₁Z))

其中β表示批归一化，W₁和W₂分别表示使用1×1卷积操作对特征图进行降维和升维。M_Global中存储了语义分割网络对输入图像各个通道感兴趣程度的权重系数，并且这个权重系数可以在网络训练的过程中进行学习。

图3是本发明的局部通道注意力计算过程图，相比全局通道注意力对每个通道都生成唯一权重，局部通道注意力对每个通道上不同位置的像素都学习特质化的权重信息。局部通道注意力的计算步骤如下：

步骤5，直接采用1×1卷积将输入特征图的通道数降为原来的1/16。通过卷积建模各通道间的相关性，并将特征图通道数恢复为C。最后输出结果为同一通道上不同位置的元素进行差异性表征的权重矩阵M_Local：

M_Local(X)＝Conv₂(ReLU(β(Conv₁(X))))

Conv₁和Conv₂分别表示对输入特征图进行升维和降维的1×1卷积操作，β为批归一化。局部通道注意力改变了全局通道注意力的池化窗口大小，在本图中采用的是窗口大小为1×1的池化操作，可以根据具体情况选择不同池化窗口大小的池化核。

图4是本发明的通道注意力机制特征融合模块结构图，相同尺寸的输入特征通过全局通道注意力模块和局部通道注意力模块建模多尺度的通道相关性信息，生成多尺度通道注意力权重矩阵X_out：

输入特征图输出特征图的尺寸都是H×W×C，分别记为X_in和X_out。输入特征图通过并行的全局通道注意力模块和局部通道注意力模块分别生成权重矩阵M_Global和M_Local。其中M_Global为1×1×C的权重向量，而M_Local为H×W×C的权重矩阵，两者因为尺度不同不能直接进行相加。需要将M_Global沿通道维度扩展为H×W×C的权重矩阵在进行对应元素求和操作。随后采用Sigmoid函数对权重矩阵进行阈值软化，将权重矩阵中的系数映射到(0～1)的范围之内。

本发明在编码器中调整特征提取网络ResNet101中各卷积阶段中残差结构数量，旨在使高分辨率的低级特征图承载更多高级语义信息；采用深度可分离卷积代替普通卷积，使模型尽可能的轻量化。在解码器中使用三种不同尺度的低级特征图，采用级联的方式进行特征融合。在特征融合中采用通道注意力模块建模通道之间的相关性，增强感兴趣目标的特征表达，弱化低级特征图中无用信息的影响。通过PASCAL VOC 2012数据集验证模型的有效性。结果表明，AFF-DeepLab能够生成精细的分割边界，优于Deeplabv3+对易混淆像素的分类能力。本发明的平均交并比(mIoU)达到了81.08％，相比DeepLabv3+提升了0.86％，在不增加计算复杂度的情况下达到了更高的语义分割精度。

以上所述是本发明的优选实施方式而已，当然不能以此来限定本发明之权利范围，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变动，这些改进和变动也视为本发明的保护范围。

Claims

1.一种图像的注意力机制特征融合分割方法，其特征在于，包括以下步骤：

S4，标记特征提取网络ResNet101中四个不同的卷积阶段；

2.如权利要求1所述的图像的注意力机制特征融合分割方法，其特征在于，在步骤S4中，四个不同的卷积阶段分别记为Conv2_x、Conv3_x、Conv4_x和Conv5_x，分别将Conv2_x、Conv3_x、Conv4_x和Conv5_x中的残差结构数目调整为{8,8,9,8}，调整后的特征提取网络浅层特征图中包含更多的高级语义信息，可以有效引导浅层特征和深层特征之间的融合。

3.如权利要求1所述的图像的注意力机制特征融合分割方法，其特征在于，在步骤S5中，空间金字塔池化中包含四个不同采样率的特征提取路径和一个全局平均池化通道，全局平均池化具有全局的感受野，不同采路径的输出特征图经过通道维度的拼接，随后通过双线性插值进行4倍上采样作为编码器输出。