CN114359297A

CN114359297A - 基于注意力金字塔的多分辨率语义分割方法及装置

Info

Publication number: CN114359297A
Application number: CN202210014091.9A
Authority: CN
Inventors: 冯结青; 姜丰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-04-15

Abstract

本发明公开了一种基于注意力金字塔的多分辨率语义分割方法，包括：构建深度卷积神经网络，其中，通过串联空洞空间金字塔模块融合不同大小空洞率的空洞卷积的结果，解决空洞卷积的棋盘格效应问题；通过特征金字塔注意力模块提取不同尺度的信息，并提供精确密集的像素级别的注意力，解决以往注意力机制中不能提取多尺度信息以及无法提供像素级别注意力的问题；通过多分辨率融合解码器结构在解码器中维护不同分辨率的特征图卷积流，在多个分辨率特征图之间反复交换信息，解决通用的解码器结构中对上下文信息利用程度不足的问题。该方法像素敏感性较强，能够获得更丰富的特征图，具有较好的感受野，并解决了空洞卷积的棋盘效应问题。

Description

基于注意力金字塔的多分辨率语义分割方法及装置

技术领域

本发明属于图像语义分割领域，具体为基于注意力金字塔的多分辨率语义分割方法及装置。

背景技术

自20世纪60年代以来直到今天，经过数十年的发展，图像语义分割技术突飞猛进，国内外的诸多研究人员为图像语义分割技术的发展做出了重大的贡献。图像语义分割的定义是为图像中的每个像素分配一个预先定义好的能够表示其语义类别的标签，从而将整张图像分割成若干个不重叠的子区域，每个子区域代表一个语义类别，其数学定义是，对于图像像素集合I，将I划分成若干个连通的非空子集I₁,I₂,…,I_N，使得

并存在判断集合一致性的谓词P(·)，使得

P(I_i)＝True,P(I_i∪I_j)＝False(i≠j)

在将深度学习应用到图像语义分割领域以前，传统的无监督图像语义分割方法往往是通过一种自底向上的方法，提取图像形状、颜色、纹理等底层特征，然后将某个特征空间内相似的像素点聚合在一起生成若干个候选区域，然后根据这些候选区域与分割物体特征的匹配度进行打分并依据得分进行排序，从中选出一定数量的得分最高的有效区域，最后针对每一个有效区域，计算其属于特定类别的概率。这些方法提取到的仅仅是底层特征，缺乏全局的语义特征信息，而且对先验知识依赖性极强，因而对一些复杂场景的分割效果并不好，鲁棒性不足。

深度学习出现以后，使用卷积神经网络提取特征也是一种有效的手段。这时期的语义分割算法通常是先从图像中生成若干个候选区域，然后使用卷积神经网络对这些候选区域提取高层语义特征，最后利用分类器判断每个区域属于某个语义类别的概率。这类算法虽然能够提取高层语义特征，但是为了获取候选区域需要不断滑动窗口，增加了计算量；由于候选区域通常比整张图像要小，因此以候选区域为输入的卷积神经网络只能提取到局部区域的特征，降低了分类的精度。

全卷积神经网络将卷积神经网络最后的全连接层转换成若干个卷积层，使得网络输出不再是类别概率的向量而是特征图，网络可以接受任意大小的输入，并通过多个池化操作将网络的感受野扩大，从而能够提取全局级别的特征。自此，基于全卷积神经网络的图像语义分割算法成为主流。此后，空洞卷积、Encoder-Decoder、多尺度特征提取、注意力机制等技术的出现，大大提高了语义分割任务的精度。但目前的语义分割网络仍然存在一些问题限制了网络的性能。

现有的基于深度学习的图像语义分割网络虽然提高了语义分割的精度，但仍然存在一些问题。例如，空洞卷积虽然能够在保持感受野的同时不降低特征图的分辨率，但是却存在棋盘格效应问题，降低了网络的分割性能；有关注意力模型的研究虽然很多，但通常是通过全局池化操作提取全局感受野，且只能提供通道级别或空间级别或二者兼而有之的注意力机制，不能提取多尺度的信息以及无法提供像素级别的注意力是限制注意力机制发展的一个因素；在通用的编码器-解码器结构中，解码器通常是串行连接不同分辨率的表示，每个子模块的输入来自上一个解码器模块的输出以及编码器对应模块的输出这两种特征，对上下文信息的利用程度不足。因此，目前语义分割网络仍然有改进的空间。

发明内容

本发明提供了一种基于注意力金字塔的多分辨率语义分割方法，该方法像素敏感性较强，能够获得更丰富的特征图，具有较好的感受野，并解决了空洞卷积的棋盘效应问题。

一种基于注意力金字塔的多分辨率语义分割方法，包括：

(1)构建语义分割训练集；

(2)构建深度卷积神经网络，所述深度卷积神经网络包括编码器，特征金字塔注意力模块，串联空洞空间金字塔模块和多分辨率融合解码器，将初始语义图像输入至编码器得到多个分辨率特征图，其中，将分辨率最小的特征图输入至所述串联空洞空间金字塔模块，所述串联空洞空间金字塔模块包括多个空洞卷积层，所述空洞卷积层以级联方式组合，空洞率逐层增加，将每个空洞卷积层输出的特征图与上一空洞卷积层输出的连接特征图进行连接后卷积处理，以调整连接后的特征图的过滤器数量并提取语义特征信息，得到第一子融合特征图，连接多个第一子融合特征图得到第一融合特征图，连接所述第一融合特征图、所述分辨率最小特征图和全局池化特征图得到第一连接特征图，将所述第一连接特征图输入至第一解码器；

将每个其他分辨率特征图输入至所述特征金字塔注意力模块的多个平均池化层得到多分辨率的第一注意力特征图集，将每个第一注意力特征图进行上采样后卷积处理得到第二融合特征图；将每个所述其他分辨率特征图输入至所述特征金字塔注意力模块的多个最大池化层得到多分辨率的第二注意力特征图集，将每个第二注意力特征图进行上采样后卷积处理得到第三融合特征图；将第二和第三融合特征图连接后进行卷积处理得到所述其他分辨率特征图的像素级别权重，将所述像素级别权重与所述其他分辨率特征图进行对位乘法，将对位乘法结果输入至对应分辨率的第二解码器；

所述多分辨率融合解码器包括多个分辨率解码层，每个分辨率解码层包括第一解码器，以及当前分辨率和高于当前分辨率的第二解码器集，通过解码层逐层卷积操作和上、下采样得到与初始语义图像相同分辨率的最终语义分割图像；

(3)通过所述语义分割训练集训练深度卷积神经网络，优化参数得到多分辨率语义分割模型；

(4)应用时，将语义图像输入至所述多分辨率语义分割模型得到语义分割图像。

多分辨率融合解码器结构：在目前通用的编码器-解码器结构中，编码器和解码器结构通常是对称的。编码器负责提取特征，每个子模块后通常使用一个最大值池化层或步幅为2的卷积层降低分辨率，目的是扩大感受野和减少后续的计算量。解码器的子模块数量一般和编码器是相同的，每个子模块前都需要对上一个子模块的输出进行一次上采样，并与编码器对应子模块的输出相融合，以便恢复分辨率。但这种解码器结构是串行连接不同分辨率的表示，每个子模块只利用了上一个解码器模块的输出以及编码器对应模块的输出这两层特征，对上下文信息利用程度不足。于是，本发明提出了多分辨率融合解码器结构，在解码过程中，将不同分辨率的特征图并行连接，并通过上采样、下采样和卷积操作反复交错融合多个分辨率的表示，这样就可以得到更加丰富的特征图表示，像素敏感性更强。

串联空洞空间金字塔模块：在编码器结构中，为了增大感受野并降低计算量，总是需要对特征图进行下采样，这种方法虽然能够增加感受野，但空间分辨率降低了。空洞卷积能够在保持感受野的同时不降低特征图的分辨率，但是由于空洞卷积的计算方式与棋盘格式类似，空洞卷积得到的结果中邻近像素是从各自独立的子集中卷积得到，相互之间的依赖性就受到了削弱，这就丢失了局部信息；而且随着空洞率逐渐增大，空洞卷积采样的输入信号会变得越来越稀疏，这就造成在对小物体进行分割时，远距离卷积获取的信息缺乏相关性，使得空洞卷积对小物体分割任务非常不友好。这就是空洞卷积的棋盘格(gridding)效应问题。为了解决这个问题，本发明提出了串联空洞空间金字塔模块，通过将空洞卷积结果按空洞率大小从小到大排列并进行串行连接，使较大空洞率卷积的结果与较小空洞率卷积的结果相融合，这样既可以保留空洞卷积保持感受野的优点，又可以解决空洞卷积的棋盘格效应问题。

特征金字塔注意力模块：目前，有关注意力的研究有很多，例如SENet能够提供通道级别的注意力，即通过特征重标定的方式让网络能够自适应地调整通道之间的特征关系；GENet则提出了一种比SENet更一般的建模形式，充分利用空间级别的注意力来挖掘特征之间的上下文信息；CBAM则是集大成者，能够同时提供通道级别和空间级别的注意力。虽然将这些注意力模块和深度神经网络融合之后，都能让网络的特征提取能力有一定的提升，但这些注意力机制仍然都普遍存在一些问题，它们都通过全局池化操作提取全局信息，而不能提取多尺度的信息；提供的注意力一般是较为粗糙的通道或空间级别的注意力，不能提供更加精确的像素级别的注意力机制。因此，本发明受空洞空间金字塔的启发，提出了一种特征金字塔注意力模块，借以解决前述注意力机制的不足之处。

所述空洞卷积层以级联方式组合，空洞率逐层增加，包括：

设置第一层空洞卷积层的空洞率为1，依据空洞率从小到大将每个所述空洞卷积层进行排列，将所述分辨率最小特征图分别输入至多个空洞卷积层得到每个空洞卷积层的特征图。

所述将每个空洞卷积层输出的特征图与上一空洞卷积层输出的连接特征图进行连接后卷积处理，包括：

所述上一空洞卷积层输出的连接特征图，用于将空洞率小于当前层的空洞卷积层输出的特征图信息进行融合，通过逐层连接得到与空洞率大小相对应的多个第一子融合特征图。

将所述分辨率最小特征图输入至全局池化层得到全局池化特征图，用于得到图像级别的特征。

所述将每个其他分辨率特征图输入至所述特征金字塔注意力模块的多个平均池化层得到多分辨率的第一注意力特征图集，包括：

所述多个平均池化层包括全局池化层和多个不同尺寸平均池化层，将所述全局池化层和多个不同尺寸平均池化层按照分辨率大小从小到大排列，将每个其他分辨率特征图输入至多个平均池化层进行下采样得到按照分辨率大小从小到大排列的第一注意力特征图集。

所述将每个第一注意力特征图进行上采样后卷积处理得到第二融合特征图，包括：

将从最小分辨率的第一注意力特征图开始逐层上采样，将上一层上采样得到的上采样特征图与当前层输出的第一注意力特征图进行元素级别加法后得到当前层的上采样特征图，通过逐层上采样最终得到与输入的所述每个其他分辨率特征图相同分辨率的最终上采样特征图，将最终上采样特征图进行卷积处理得到第二融合特征图。

所述将第二和第三融合特征图连接后进行卷积处理得到所述其他分辨率特征图的像素级别权重，包括：

将第二融合特征图与第三融合特征图连接后，依次通过1x1卷积和sigmoid激活函数得到像素级别的权重，基于对位乘法将所述像素级别权重赋予到所述其他分辨率特征图。

所述通过解码层逐层卷积操作和上、下采样得到与初始语义图像相同分辨率的最终语义分割图像，包括

通过当前分辨率解码器层与下一分辨率解码器层的第一解码器、第二解码器集的下采样、上采样和卷积操作将不同尺寸的特征图进行融合，通过逐层上采样得到与初始语义图像相同分辨率的最终语义分割图像。

所述通过当前分辨率解码器层与下一分辨率解码器层的第一解码器、第二解码器集的下采样、上采样和卷积操作将不同尺寸的特征图进行融合，包括：

基于分辨率大小，将当前分辨率解码器层的解码器与下一分辨率解码器层的解码器进行下采样、上采样和卷积操作；

其中，当前分辨率解码器层的解码器的分辨率与下一分辨率解码器层的解码器分辨率相同时采用卷积操作；

当前分辨率解码器层的解码器的分辨率高于下一分辨率解码器层的解码器分辨率时，进行上采样；

当前分辨率解码器层的解码器的分辨率低于下一分辨率解码器层的解码器分辨率时，进行下采样；

最后通过卷积操作和上采样得到与初始语义图像相同分辨率的最终语义分割图像。

一种基于注意力金字塔的多分辨率语义分割装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中采用权利要求1～9任一项所述的多分辨率语义分割模型；

所述计算机处理器执行所述计算机程序时实现以下步骤：将语义图像输入至所述多分辨率语义分割模型，经计算输出语义分割图像。

与现有技术相比，本发明的有益效果为：

本发明提出的基于注意力金字塔的多分辨率融合网络能够提高语义分割技术的精度。通过多分辨率融合解码器结构，反复交错融合多分辨率的表示，这样就可以得到像素敏感性更强的特征表示；通过串联空洞空间金字塔模块解决空洞卷积的棋盘格效应问题；通过特征金字塔注意力模块通过提取多尺度的信息对编码器每个子模块得到的特征图提供像素级别的注意力，以便进行特征重标定，得到更加精确的表示。

附图说明

图1为本发明具体实施方式提供的基于注意力金字塔的多分辨率语义分割方法整体结构图；

图2为本发明具体实施方式提供的深度可分离卷积示意图；

图3为本发明具体实施方式提供的串联空洞空间金字塔模块示意图；

图4为本发明具体实施方式提供的特征金字塔注意力模块特征提取步骤示意图；

图5为本发明具体实施方式提供的特征金字塔注意力模块示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合实施例及其附图对本发明作进一步说明。

本发明提供了一种基于注意力金字塔的多分辨率语义分割方法，如图1所示，具体步骤为：

构建语义分割训练集；基于注意力金字塔的多分辨率融合网络使用预训练的ResNet作为骨干网络，去除其中的全连接层形成全卷积网络，ResNet的第一个模块进行4倍下采样，之后每个模块均进行2倍下采样，最终输出的特征图分辨率为原始图像的1/32。

构建深度卷积神经网络，所述深度卷积神经网络包括编码器，特征金字塔注意力模块，串联空洞空间金字塔模块和多分辨率融合解码器，将初始语义图像输入至编码器得到多个分辨率特征图。

针对Res-5模块输出的分辨率最小特征图，使用串联空洞空间金字塔模块提取多尺度的信息；针对Res-2、Res-3、Res-4模块输出的特征图，使用特征金字塔注意力模块进行特征图注意力重标定，得到更加精确的表示；在多分辨率融合解码器结构中，维持不同分辨率的特征图卷积流，并通过上采样、下采样和卷积操作反复交错融合多个分辨率的表示，得到更加丰富的特征图表示；最后将解码的特征图上采样回原来大小的分辨率，从而完成分割任务。

本发明提出的多分辨率融合解码器结构依然从编码器提取的最低分辨率的特征图开始，通过采用双线性插值上采样的方法逐渐恢复原始的分辨率。与通用的解码器结构不同的是，在逐步恢复分辨率的过程中，低分辨率的特征图没有被丢弃，而是逐步添加从低分辨率到高分辨率的卷积流，并将多分辨率的卷积流并行连接，维护不同分辨率的特征图卷积流，在多个分辨率特征图之间反复交换信息：

所述多分辨率融合解码器包括多个分辨率解码层，每个分辨率解码层包括第一解码器，以及当前分辨率和高于当前分辨率的第二解码器集，通过解码层逐层卷积操作和上、下采样得到与初始语义图像相同分辨率的最终语义分割图像；基于分辨率大小，将当前分辨率解码器层的解码器与下一分辨率解码器层的解码器进行下采样、上采样和卷积操作；

所述卷积操作为深度可分离卷积(Depthwise Separable Convolution,DSConv)代替传统卷积。相比于传统卷积，深度可分离卷积参数量更少、计算量更少，速度更快，但不会影响网络的性能，甚至可以提升网络的拟合能力，具体步骤为：

对应于ResNet编码器的4个下采样子模块，多分辨率融合解码器结构中共包含4种不同分辨率的特征图，分别是原始图像的4倍下采样、8倍下采样、16倍下采样、32倍下采样的分辨率。整个解码过程可以划分为4个阶段，假设当前阶段维护了n种不同分辨率的特征图，该阶段要完成两个工作：一方面恢复一个更高分辨率的特征图，方法是将目前n种不同分辨率的特征图均作不同倍数的上采样，并与编码器对应的特征图相融合；另一方面在目前已有的n种不同低分辨率特征图之间通过上采样、下采样、卷积操作交错融合信息。最后，该阶段会输出的n+1个特征图，并且每个特征图都融合了其它所有特征图的信息。

相比于通用的解码器结构，本发明提出的多分辨率融合解码器结构最终得到的每个分辨率的表示都融合了来自所有分辨率的信息，每个分辨率特征图提取到的上下文信息显然更丰富，位置敏感性更强，这样对恢复细节区域、提高分割精度有很大的帮助。

如图2所示，传统卷积过程会同时考虑输入特征图中的所有通道，对所有通道同时进行空间卷积。深度可分离卷积的卷积过程分为两部分，先执行深度卷积，再执行逐点卷积。深度卷积对每个通道分别执行空间卷积，不会改变输入的特征图通道数，不能扩展或收缩输入特征图的维度；逐点卷积主要由1x1卷积组成，负责混合深度卷积的输出在相同空间位置上的不同通道，并对维度进行有效的扩展或收缩，从而投影到一个新的特征图。

深度可分离卷积的目的是用较少的参数学习更丰富的特征表述，它将卷积操作分解为两个过程，分开进行空间卷积和通道卷积，大大减少了模型的参数量和计算量。语义分割任务的特点是输入的特征图不同通道之间特征相对独立，而空间位置上的信息相关性很强，尤其适合使用深度可分离卷积。

由于批标准化(Batch Normalization,BN)层有助于梯度传播以及提高模型的泛化能力，加速模型的收敛，因此本发明涉及的卷积操作不是简单的传统卷积层，而是由深度可分离卷积+批标准化层+Relu激活层(DSConv+BN+Relu)构成的一个模块。

如图3所示，空洞率(Dilation)大小顺序为1<d₁<d₂<…<d_n，串联空洞空间金字塔模块将n+1个空洞卷积的输出按空洞率大小从小到大排列，然后按顺序将这些输出连接在一起。为了采样邻近像素之间的信息，第一个空洞卷积的空洞率设置为1，实际上该空洞卷积已经退化为普通的3x3卷积操作。每个空洞卷积层输出的特征图都与比它空洞率小的卷积输出的连接特征图连接起来，后面紧跟一个1x1的卷积层以调整过滤器的个数并对提取的信息进行融合。所述上一空洞卷积层输出的连接特征图，用于将空洞率小于当前层的空洞卷积层输出的特征图信息进行融合，通过逐层连接得到与空洞率大小相对应的多个第一子融合特征图。空洞率为d_k的空洞卷积的输出将能够提取空洞率分别为1,d₁,d₂,…,d_k-1的的空洞卷积的输出信息。最后将所有空洞卷积融合信息后的输出连接在一起。这样的结构能够提取更加密集精确的特征信息，加强空洞卷积的结果中邻近像素之间的依赖性，提高对于小物体的分割效果。此外，为了提取图像级别的特征，串联空洞空间金字塔模块中还增加了全局的池化分支，分辨率最小特征图输入至全局池化层得到全局池化特征图，用于得到图像级别的特征，进一步提高了该模块的性能。

最终，串联空洞空间金字塔模块的输出由原始的分辨率最小特征图、经过全局池化以及上采样后的输出以及多尺度多空洞率并进行串联融合的空洞卷积的结果组成。

S4，特征金字塔注意力模块特征提取步骤如图4所示。首先，在进行全局池化操作之外，还增加了不同尺度的池化分支，这样就可以提取多尺度的信息。其次，特征提取金字塔模块将池化后的特征图按分辨率大小从小到大排列，然后从具有最小分辨率池化输出开始，逐步向上采样，并与高分辨率的池化输出做元素级别的加法，最终将恢复到原始的分辨率。最后，特征金字塔注意力模块对原始分辨率的输出进行3x3的卷积，以便对邻近像素的信息进行采样，并对上采样后的结果进行调整，让最后的输出更加精确。

以往注意力机制在提取特征的步骤中，一般只使用全局均值池化操作，鉴于提取特征时平均值和最大值可以从不同角度描述信息，所以本发明额外添加了最大值池化操作，参见图5，特征金字塔注意力模块中首先将使用平均值池化和使用最大值池化的特征提取金字塔模块并联，然后将两个模块的输出第二和第三融合特征图进行连接，用1x1卷积调整通道个数之后用sigmoid激活函数激活，这就为原来的特征图提供了像素级别的权重，最后与原始特征图作像素级别的乘法即可。

本实施例使用PASCAL VOC 2012的测试数据集对本专利提出的多分辨率语义分割模型的性能做测试，PASCAL VOC 2012数据集是计算机视觉领域对象类别识别和检测的一个基准数据集，为计算机视觉和深度学习社区提供了一个标准的图像和注释数据集以及标准的评估程序。PASCAL VOC 2012数据集中用于语义分割的数据集包含20个前景对象类别和一个背景类别，原始的数据集中提供了1464张图像用于训练集、1449张图像用于验证集以及1456张图像用于最后的测试。显然，训练集图像数量过少，难以训练一个有效的网络。Hariharan等人对原有数据集进行了增强和扩充，最终用于训练的图像数量增加到了10582张。

为了方便网络读取，本节将输入网络的图像统一裁剪至384×384分辨率大小。为了方便评估性能，本节使用的网络均以ResNet101为骨干网络。在未用MS-COCO数据集预训练和Dense-CRF算法进行后处理的情况下，本专利提出的网络达到了77.5％的MIoU，比其它算法性能更高。表1中列出了定量指标的对比分析结果。

表1 PASCAL VOC 2012的测试数据集上的语义分割算法性能对比

Claims

1.一种基于注意力金字塔的多分辨率语义分割方法，其特征在于，包括：

(1)构建语义分割训练集；

2.根据权利要求1所述的基于注意力金字塔的多分辨率语义分割方法，其特征在于，所述空洞卷积层以级联方式组合，空洞率逐层增加，其特征在于，包括：

3.根据权利要求2所述的基于注意力金字塔的多分辨率语义分割方法，其特征在于，所述将每个空洞卷积层输出的特征图与上一空洞卷积层输出的连接特征图进行连接后卷积处理，包括：

4.根据权利要求1所述的基于注意力金字塔的多分辨率语义分割方法，其特征在于，将所述分辨率最小特征图输入至全局池化层得到全局池化特征图，用于得到图像级别的特征。

5.根据权利要求1所述的基于注意力金字塔的多分辨率语义分割方法，其特征在于，所述将每个其他分辨率特征图输入至所述特征金字塔注意力模块的多个平均池化层得到多分辨率的第一注意力特征图集，包括：

6.根据权利要求5所述的基于注意力金字塔的多分辨率语义分割方法，其特征在于，所述将每个第一注意力特征图进行上采样后卷积处理得到第二融合特征图，包括：

7.根据权利要求1所述的基于注意力金字塔的多分辨率语义分割方法，其特征在于，所述将第二和第三融合特征图连接后进行卷积处理得到所述其他分辨率特征图的像素级别权重，包括：

8.根据权利要求1所述的基于注意力金字塔的多分辨率语义分割方法，其特征在于，所述通过解码层逐层卷积操作和上、下采样得到与初始语义图像相同分辨率的最终语义分割图像，包括：

9.根据权利要求1所述的基于注意力金字塔的多分辨率语义分割方法，其特征在于，所述通过当前分辨率解码器层与下一分辨率解码器层的第一解码器、第二解码器集的下采样、上采样和卷积操作将不同尺寸的特征图进行融合，包括：

10.一种基于注意力金字塔的多分辨率语义分割装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器中采用权利要求1～9任一项所述的多分辨率语义分割模型；