CN113240683B

CN113240683B - 基于注意力机制的轻量化语义分割模型构建方法

Info

Publication number: CN113240683B
Application number: CN202110638043.2A
Authority: CN
Inventors: 张霖; 杨源
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2022-09-20
Anticipated expiration: 2041-06-08
Also published as: CN113240683A

Abstract

本发明公开了基于注意力机制的轻量化语义分割模型构建方法，应用于图像处理技术领域，给定图像I，对应的真实标签图GT，构成训练集：步骤1、模型建立；步骤2、模型训练；步骤3、模型测试，将测试集图像输入到训练好的网络模型中，得到测试结果。本发明实现图像分割准确率和分割速度的提升；分割过程不容易过拟合；效率高，便于实际部署；在标注数据的不足的情况下，对其进行快速训练，以进一步提高性能。

Description

基于注意力机制的轻量化语义分割模型构建方法

技术领域

本发明涉及图像处理技术领域，尤其涉及基于注意力机制的轻量化语义分割模型构建方法。

背景技术

图像分割是指根据图像内容对指定区域进行标记的计算机视觉任务，具体来讲，图像语义分割的目的在于标记图像中的每一点像素，并将像素和其对应的类别对应起来。在场景理解、医疗图像、无人驾驶等方面具有重要的实际应用价值。

经典语义分割模型包括：

全卷积神经网络(FCN)，作为深度学习中的语义分割网络的经典制作，借鉴了传统的分类网络结构，而又区别于传统的分类网络，将传统分类网络的全连接层转化为卷积层。然后通过反卷积(deconvolution)进行上采样，逐步恢复图像的细节信息并扩大特征图的尺寸。在恢复图像的细节信息过程中，FCN一方面通过可以学习的反卷积来实现，另一方面，采用了跳跃连接(skip-connection)的方式，将下采样过程中得到的特征信息与上采样过程中对应的特征图相融合。但是，FCN存在着诸如语义信息丢失，缺乏对于像素之间关联性研究的技术缺陷。

SegNet，采用了FCN的编码-解码的架构，但是与FCN不同的是，SegNet没有使用跳跃连接结构，并且在上采样的过程中，不是使用反卷积，而是使用了unpooling的操作。在解码器中使用那些存储的索引来对相应特征图进行去池化操作。从而保证了高频信息的完整性，但是对于较低分辨率的特征图进行unpooling时，同样会忽略像素近邻之间的信息。

deeplab系列是由Google团队设计的一系列的语义分割网络模型，采用了空洞卷积和CRF的处理。利用空洞卷积在不增加参数的情况下扩大了感受野的范围。而CRF的后期处理可以更好的提升语义分割的准确率。deeplabv2在v1的基础之上增加了ASPP(空洞空间金字塔池化)模块。

PSPnet，全称为Pyramid Scene Parsing Network，它采用的金字塔池化模块，来融合图像的上下文信息，注重像素之间的关联性。利用预训练模型提取特征后，将采用金字塔池化模块提取图像的上下文信息，并将上下文信息与提取的特征进行堆叠后，经过上采样得到最终的输出。而特征堆叠的过程其实就是讲目标的细节特征和全局特征融合的过程，这里的细节特征指的是浅层特征，也就是浅层网络所提取到的特征，而全局特征指的是深层的特征，也就是常常说的上下文特征。对应的就是深层网络提取的特征。

上述网络模型层数较多，模型参数量较大，随着技术的发展和硬件条件的不断进步，基于像素级别的分割才是图像分类的主流方向。

因此，引入轻量化模型进行语义分割，提出一种基于注意力机制的轻量化语义分割模型构建方法，实现图像分割准确率和分割速度的提升，是本领域技术人员亟需解决的问题技术问题。

发明内容

有鉴于此，本发明提供了一种基于注意力机制的轻量化语义分割模型构建方法，实现图像分割准确率和分割速度的提升。

为了实现上述目的，本发明采用如下技术方案：

基于注意力机制的轻量化语义分割模型构建方法，包括以下步骤：

给定图像I，对应的真实标签图GT，构成训练集：

步骤1、模型建立，采用AHSP模块、Channel Attention Sum、Criss-CrossAttention Sum、Channel Split和Concat构建编码阶段，FFM、Channel Attention Sum、Criss-Cross Attention Sum，ReLU函数、Final Prediction构建解码阶段，编码阶段与解码阶段通过Channel Attention Sum连接，得到基于注意力机制的超轻量化语义分割网络；

步骤2、模型训练，将训练集图像I输入到注意力机制的超轻量化语义分割网络中，得到预测图像，将其与真实标签图GT进行对比，计算出交叉熵函数作为损失函数，度量预测值与真实值的误差；通过反向传播算法对步骤1定义的网络模型参数进行迭代优化训练，训练到整个模型收敛为止；

步骤3、模型测试，将测试集图像输入到训练好的网络模型中，得到测试结果。

优选的，步骤1中，编码网络包括n个阶段，以AHSP模块作为基本模块，引入Criss-Cross Attention Sum、Channel Split、Concat fuse split，构建相互连接的第一路径和第二路径；对训练集图像I进行n次下采样，每个阶段输出特征图的尺寸为原始尺寸的1/2、1/4、...、1/2ⁿ。

优选的，第一路径包括k个AHSP模块，在第一路径的第i-th阶段的第k-th个模块的转换函数表示为为

输出为

其中，i∈{1,2,3,...,n}，k∈{1}；

第二路径包括j个AHSP模块，在第二路径的第i-th阶段的第j-th个模块的转换函数表示为

输出为

其中，i∈{1,2,3,...,n}，j∈{1,2}，C_i是第i-th阶段的特征通道数。

优选的，第一路径和第二路径在每个阶段的第一个AHSP模块输出特征图的计算公式如下：

其中，i∈{1,2,3,...,n}，

和

为步长为2的下采样；F^1×1(·)为卷积核为1×1的卷积函数，Split(·)将接收到的特征图沿通道维度分割为两部分，并分别送入

和

中，得到第一路径特征信息和第二路径特征信息。

优选的，第二路径在每个阶段的第2个AHSP模块输出特征图的计算公式如下：

其中，i∈{1,2,3,...,n}。

优选的，步骤1中，解码网络包括n个阶段，以FFM模块为基础，引入ChannelAttention Sum、Criss-Cross Attention Sum构成解码网络，并引入ReLU函数作为最终的输出预测结果的激活函数。

优选的，FFM模块的转换函数为D_i(·)，输出的特征图表示为

其中，i∈{1,2,3,...,n}；

S′_i＝F^1×1(X) (5)

其中，S′_i为下采样的最终输出X经过1×1的卷积函数操作后的输出结果，F^1×1(·)为卷积核为1×1的卷积函数，

为卷积核为3×3的可分离卷积网络转换函数，BatchNorm(·)为批处理归一化函数。

优选的，经过编码阶段得到特征图输出为：

则D_i的计算公式过程如下：

S″_i＝D_i(Upsample(CAM(D_i+1),2)) (8)

其中，Upsample(·,t)表示使用双线性插值方法以t的系数对特征图进行采样，CAM(·)表示使用通道注意力机制，S″_i为下一stage的特征图D经过CAM、上采样、FFM操作后的输出。

优选的，利用D_i通过1×1卷积得到测试结果P_i，具体如下：

P_i＝Soft max(Upsample(F^1×1(D_i),2ⁱ)) (10)

其中，P_i∈R^H×W为预测的类标签图，Soft max(·)为激活函数，i∈{1,2,3,...,n}。

经由上述的技术方案可知，与现有技术相比，本发明提供了一种基于注意力机制的轻量化语义分割模型构建方法：实现图像分割准确率和分割速度的提升；分割过程不容易过拟合；效率高，便于实际部署；在标注数据的不足的情况下，对其进行快速训练，以进一步提高性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明一种基于注意力机制的超轻量化语义分割网络结构图；

图2为本发明FFM模块的结构图；

图3为本发明实施例图像，其中，3.1为CT Image，3.2为预测图，3.3为真实标签图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1所示，本实发明公开了一种基于注意力机制的轻量化语义分割模型构建方法，包括以下步骤：

给定图像I，对应的真实标签图GT，构成训练集：

步骤1、模型建立，采用AHSP模块、Channel Attention Sum(通道注意力相加)、Criss-Cross Attention Sum(交叉注意力相加)、Channel Split(通道分割)和Concatfuse split(路径融合)构建编码阶段，FFM(特征融合模块)、Channel Attention Sum、Criss-Cross Attention Sum，ReLU函数、Final Prediction构建解码阶段，编码阶段与解码阶段通过Channel Attention Sum连接，得到基于注意力机制的超轻量化语义分割网络；

在一个具体实施例中，Channel Attention Sum在网络结构中用

来表示，Criss-Cross Attention Sum在网络结构中用

来表示，Concat fuse split在网络中用

来表示。

在一个具体实施例中，步骤1，编码网络包括n个阶段，以AHSP模块作为基本模块，引入Criss-Cross Attention Sum、Channel Split、Concat fuse split，构建相互连接的第一路径和第二路径；对训练集图像I进行n次下采样，每个阶段输出特征图的尺寸为原始尺寸的1/2、1/4、...、1/2ⁿ。

在一个具体实施例中，第一路径包括k个AHSP模块，在第一路径的第i-th阶段的第k-th个模块的转换函数表示为为

输出为

其中，i∈{1,2,3,...,n}，k∈{1}；

输出为

在一个具体实施例中，对于第0个阶段，可得到：

在一个具体实施例中，第一路径和第二路径在每个阶段的第一个AHSP模块输出特征图的计算公式如下：

其中，i∈{1,2,3,...,n}，

和

和

中，得到第一路径特征信息和第二路径特征信息。

在一个具体实施例中，第二路径在每个阶段的第2个AHSP模块输出特征图的计算公式如下：

其中，i∈{1,2,3,...,n}。

在一个具体实施例中，步骤1中，解码网络包括n个阶段，以FFM模块为基础，引入Channel Attention Sum、Criss-Cross Attention Sum构成解码网络，并引入ReLU函数作为最终的输出预测结果的激活函数。

在一个具体实施例中，参照图2所示，FFM模块的转换函数为D_i(·)，输出的特征图表示为

其中，i∈{1,2,3,...,n}；

S′_i＝F^1×1(X) (5)

其中，S_i'为下采样的最终输出X经过1×1的卷积函数操作后的输出结果，F^1×1(·)为卷积核为1×1的卷积函数，

为卷积核为3×3的可分离卷积函数，BatchNorm(·)为批处理归一化函数。

在一个具体实施例中，经过编码阶段得到特征图输出为：

则D_i的计算公式过程如下：

S″_i＝D_i(Upsample(CAM(D_i+1),2)) (8)

其中，Upsample(·,t)表示使用双线性插值方法以t的系数对特征图进行采样，CAM(·)表示使用通道注意力机制，S″_i为下采样的最终输出X经过1×1的卷积函数操作后的输出结果。

在一个具体实施例中，利用D_i通过1×1卷积得到测试结果P_i，具体如下：

P_i＝Soft max(Upsample(F^1×1(D_i),2ⁱ)) (10)

其中，P_i∈R^H×W为预测的类标签图，Soft max(·)为激活函数，i∈{1,2,3,...,n}；

Softmax函数的定义(以第i个节点输出为例)：

其中：Z_i为第i个节点的输出值，C为输出节点的个数，即分类的类别个数。

在一个具体实施例中，以肺部图像为例进行试验，参照图3所示，3.1为CTImage，3.2为预测图，3.3为真实标签图，表1为此模型的参数量与其他模型参数量的对比：

表1

Methods

Backbone

Param.

FLOPs

Dice

Sen.

Spec.

U-Net

VGG16

7.853M

38.116G

0.4

0.5

0.8

Attention-UNet

VGG16

8.727M

31.73G

0.5

0.6

0.9

U-Net++

VGG16

9.163M

65.938G

0.5

0.6

0.9

Minimum-seg

36.98K

209.043M

0.663

0.704

0.935

从表1中的Param.列可以看出，基于注意力机制的超轻量化语义分割网络模型的参数量只有近37K的参数量，其他模型的参数量至少是M级别的，可得出改模型体积量小，进而实现图像分割准确率和分割速度的提升；分割过程不容易过拟合；效率高，便于实际部署；在标注数据的不足的情况下，对其进行快速训练，以进一步提高性能。

对所公开的实施例的上述说明，按照递进的方式进行，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于注意力机制的轻量化语义分割模型构建方法，其特征在于，包括以下步骤：

给定图像I，对应的真实标签图GT，构成训练集：

步骤1、模型建立，采用AHSP模块、Channel Attention Sum、Criss-Cross AttentionSum、Channel Split和Concat构建编码阶段，FFM、Channel Attention Sum、Criss-CrossAttention Sum，ReLU函数、Final Prediction构建解码阶段，编码阶段与解码阶段通过Channel Attention Sum连接，得到基于注意力机制的超轻量化语义分割网络；

步骤3、模型测试，将测试集图像输入到训练好的网络模型中，得到测试结果；

步骤1中，编码网络包括n个阶段，以AHSP模块作为基本模块，引入Criss-CrossAttention Sum、Channel Split、Concat fuse split，构建相互连接的第一路径和第二路径；对训练集图像I进行n次下采样，每个阶段输出特征图的尺寸为原始尺寸的1/2、1/4、...、1/2ⁿ；

第一路径包括k个AHSP模块，在第一路径的第i-th阶段的第k-th个模块的转换函数表示为