CN116486080A

CN116486080A - 一种基于深度学习的轻量化图像语义分割方法

Info

Publication number: CN116486080A
Application number: CN202310376737.2A
Authority: CN
Inventors: 林镇源; 张文辉; 蒋小莲; 贾茂宁; 谢胜勇; 李为坤
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-07-25

Abstract

本发明公开一种基于深度学习的轻量化图像语义分割方法，先构建轻量化图像语义分割模型Mobile‑SegFormer；再利用已分割好的样本图像集对构建的轻量化图像语义分割模型进行训练，得到训练好的轻量化图像语义分割模型；后将待分割的图像送入到训练好的轻量化图像语义分割模型中，训练好的轻量化图像语义分割模型输出分割好的图片。本发明将SegFormer和MobileNetv3模型都进行了改进，无需通过Imagenet数据集的预训练，即可实现较高的分割精度，具有较友好的可移植性。通过实验进行对比，我们提出的Mobile‑SegFormer网络，相对于常见的轻量化网络，有着更准确的分割效果，相对于大型的分割网络，有着更轻量化的参数量和更低的每秒浮点运算值，能够较好的均衡Params、FLOPS和MIoU指标。

Description

一种基于深度学习的轻量化图像语义分割方法

技术领域

本发明涉及图像语义分割技术领域，具体涉及一种基于深度学习的轻量化图像语义分割方法。

背景技术

图像语义分割是计算机视觉领域的一个重要课题。现今深度神经网络的语义分割模型因具有较高的分割精度，而被广泛研究，但庞大的参数量和缓慢的推理速度阻碍了其在实际场景中的应用推广，如在以自动驾驶为代表的应用中对道路场景分割的准确性和时效性均提出较高要求。此外，近年来移动端视觉应用的发展刺激了对轻量化语义分割技术的需求，尽管目前已经取得了较好的成就，但当前轻量化语义分割网络仍然存在精度不高、参数量过多的问题。

发明内容

本发明所要解决的是现有图像语义分割方法存在精度不高和参数量过多的问题，提供一种基于深度学习的轻量化图像语义分割方法。

为解决上述问题，本发明是通过以下技术方案实现的：

一种基于深度学习的轻量化图像语义分割方法，包括步骤如下：

步骤1、构建轻量化图像语义分割模型；

轻量化图像语义分割模型由1个卷积批归一化激活模块、15个瓶颈残差模块、4个融合门控注意力的多层感知模块、1个空间金字塔级联模块、1个门控注意力机制模块、1个剪枝模块、2个1×1卷积模块和1个双线性差值模块组成；卷积批归一化激活模块的输入形成轻量化图像语义分割模型的输入，卷积批归一化激活模块的输出连接第一个瓶颈残差模块的输入；15个瓶颈残差模块依次串联，第三个瓶颈残差模块的输出通过1个融合门控注意力的多层感知模块连接空间金字塔级联模块的第一个输入，第六个瓶颈残差模块的输出通过1个融合门控注意力的多层感知模块连接空间金字塔级联模块的第二个输入，第十二个瓶颈残差模块的输出通过1个融合门控注意力的多层感知模块连接空间金字塔级联模块的第三个输入，第十五个瓶颈残差模块的输出通过1个融合门控注意力的多层感知模块连接空间金字塔级联模块的第四个输入；空间金字塔级联模块的输出连接门控注意力机制模块的输入，门控注意力机制模块的输出连接剪枝模块的输入，剪枝模块的输出连接第一个1×1卷积模块的输入，第一个1×1卷积模块的输出连接第二个1×1卷积模块的输入，第二个1×1卷积模块的输出连接双线性差值模块的输入，双线性差值模块的输出形成轻量化图像语义分割模型的输出；

步骤2、利用已分割好的样本图像集对步骤1所构建的轻量化图像语义分割模型进行训练，得到训练好的轻量化图像语义分割模型；

步骤3、将待分割的图像送入到步骤2所得到的训练好的轻量化图像语义分割模型中，训练好的轻量化图像语义分割模型输出分割好的图片。

上述轻量化图像语义分割模型的瓶颈残差模块分为基本瓶颈残差模块和CA注意力瓶颈残差模块；第一瓶颈残差模块至第三瓶颈残差模块、以及第七瓶颈残差模块至第十瓶颈残差模块为基本瓶颈残差模块；第四瓶颈残差模块至第六瓶颈残差模块、以及第十一瓶颈残差模块至第十五瓶颈残差模块为CA注意力瓶颈残差模块。

上述基本瓶颈残差模块由2个卷积批归一化激活模块、1个空间金字塔融合模块和1个融合模块组成；第一个卷积批归一化激活模块的输入形成基本瓶颈残差模块的输入，第一个卷积批归一化激活模块的输出连接空间金字塔融合模块的输入，空间金字塔融合模块的输出连接第二个卷积批归一化激活模块的输入，第二个卷积批归一化激活模块的输出和第一个卷积批归一化激活模块的输入同时连接融合模块的输入，融合模块的输出形成基本瓶颈残差模块的输出。

上述CA注意力瓶颈残差模块由2个卷积批归一化激活模块、1个空间金字塔融合模块、1个CA注意力机制模块和1个融合模块组成；第一个卷积批归一化激活模块的输入形成CA注意力瓶颈残差模块的输入，第一个卷积批归一化激活模块的输出连接空间金字塔融合模块的输入，空间金字塔融合模块的输出连接CA注意力机制模块的输入，CA注意力机制模块的输出连接第二个卷积批归一化激活模块的输入，第二个卷积批归一化激活模块的输出和第一个卷积批归一化激活模块的输入同时连接融合模块的输入，融合模块的输出形成CA注意力瓶颈残差模块的输出。

在瓶颈残差模块中，空间金字塔融合模块由5个深度可分离膨胀卷积模块、1个最大池化模块、1个上采样模块、1个融合模块、1个批归一化模块和1个激活模块组成；第一个深度可分离膨胀卷积模块的输入、第二个深度可分离膨胀卷积模块的输入、第三个深度可分离膨胀卷积模块的输入、第四个深度可分离膨胀卷积模块的输入和最大池化模块的输入共同形成空间金字塔融合模块的输入；最大池化模块的输出连接第五个深度可分离膨胀卷积模块的输入，第五个深度可分离膨胀卷积模块的输出连接上采样模块的输入；第一个深度可分离膨胀卷积模块、第二个深度可分离膨胀卷积模块、第三个深度可分离膨胀卷积模块的输入和第四个深度可分离膨胀卷积模块的输入和输出，以及上采样模块的输出同时连接融合模块的输入；融合模块的输出连接批归一化模块的输入，批归一化模块的输出连接激活模块的输入，激活模块的输出形成空间金字塔融合模块的输出。

上述轻量化图像语义分割模型的融合门控注意力的多层感知模块由门控注意力机制模块、1个图像尺寸展平模块、1个层归一化模块、1个全连接模块、1个激活模块和1个上采样模块组成；门控注意力机制模块的输入形成融合门控注意力的多层感知模块的输入，门控注意力机制模块的输出连接图像尺寸展平模块的输入，图像尺寸展平模块的输出连接层归一化模块的输入，层归一化模块的输出连接全连接模块的输入，全连接模块的输出连接激活模块的输入，激活模块的输出连接上采样模块的输入，上采样模块的输出形成融合门控注意力的多层感知模块的输出。

上述轻量化图像语义分割模型的空间金字塔级联模块由4个深度可分离膨胀卷积模块、1个拼接模块、1个批归一化模块和1个激活模块组成；

第一个深度可分离膨胀卷积模块的输入形成空间金字塔级联模块的第一个输入，第二个深度可分离膨胀卷积模块的输入形成空间金字塔级联模块的第二个输入，第三个深度可分离膨胀卷积模块的输入形成空间金字塔级联模块的第三个输入，第四个深度可分离膨胀卷积模块的输入形成空间金字塔级联模块的第四个输入；第一个深度可分离膨胀卷积模块的输出、第二个深度可分离膨胀卷积模块的输出、第三个深度可分离膨胀卷积模块的输出和第四个深度可分离膨胀卷积模块的输出同时连接拼接模块的输入，拼接模块的输出连接批归一化模块的输入，批归一化模块的输出连接激活模块的输入，激活模块的输出形成空间金字塔级联模块的输出。

与现有技术相比，本发明提出一种基于改进SegFormer网络与融合CA注意力机制的MobileNetv3的轻量级轻量化图像语义分割模型Mobile-SegFormer，以实现轻量化的语义分割。Mobile-SegFormer将改进的MobileNetv3作为编码器进行特征提取，有效地减少了模型的参数量，同时为了进一步提高模型的精度，在瓶颈残差模块中构建了空间金字塔融合模块作为多尺度学习的基本模块，提高了模型的分割精度。同时Mobile-SegFormer将对SegFormer的解码器进行改进，提出融合门控注意力的多层感知模块联合空间金字塔级联模块，进一步提高了模型对语义信息的特征提取能力。在Cityscape、Camvid和ADE20K数据集上进行了实验，结果表明，本发明提出的Mobile-SegFormer模型在没有使用Imagenet数据集预训练权重的情况下，相对于原模型在三个实验数据集上，以较少的参数量Params、更低的FLOPS值，取得了更高的MIoU值。

附图说明

图1为轻量化图像语义分割模型(Mobile-SegFormer)的结构原理图。

图2为瓶颈残差模块(BR)的结构原理图；(a)基本瓶颈残差模块，(b)CA注意力瓶颈残差模块。

图3为空间金字塔融合模块(SPM)的结构原理图。

图4为多层感知器模块(MLP)的结构原理图。

图5为空间金字塔级联模块(SPC)的结构原理图。

图6不同算法在Cityscape数据集的可视化结展示，(a)Input；(b)Grouth Truth；(c)SegFormer_B0；(d)SegFormer_MobileNetv3；(e)Ours。

图7不同模型在Cityscape数据集的Params与MIoU图。

图8不同模型在Cityscape数据集的FLOPS与MIoU图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

步骤1、构建轻量化图像语义分割模型。

参见图1，轻量化图像语义分割模型由1个卷积批归一化激活模块(ConvBNACT)、15个瓶颈残差模块(BR)、4个融合门控注意力的多层感知模块(MLP)、1个空间金字塔级联模块(SPC)、1个门控注意力机制模块(GCTB0)、1个剪枝模块(Dropout)、2个1×1卷积模块(1X1Conv)和1个双线性差值模块组成(Interpolate)。卷积批归一化激活模块的输入形成轻量化图像语义分割模型的输入，卷积批归一化激活模块的输出连接第一个瓶颈残差模块的输入。15个瓶颈残差模块依次串联，第三个瓶颈残差模块的输出通过1个融合门控注意力的多层感知模块连接空间金字塔级联模块的第一个输入，第六个瓶颈残差模块的输出通过1个融合门控注意力的多层感知模块连接空间金字塔级联模块的第二个输入，第十二个瓶颈残差模块的输出通过1个融合门控注意力的多层感知模块连接空间金字塔级联模块的第三个输入，第十五个瓶颈残差模块的输出通过1个融合门控注意力的多层感知模块连接空间金字塔级联模块的第四个输入。空间金字塔级联模块的输出连接门控注意力机制模块的输入，门控注意力机制模块的输出连接剪枝模块的输入，剪枝模块的输出连接第一个1×1卷积模块的输入，第一个1×1卷积模块的输出连接第二个1×1卷积模块的输入，第二个1×1卷积模块的输出连接双线性差值模块的输入，双线性差值模块的输出形成轻量化图像语义分割模型的输出。

本发明的轻量化图像语义分割模型以基于编码器(Encoder)和解码器(Decoder)结构的SegFormer为基础进行改进而得。编码器由1个卷积批归一化激活模块和15个瓶颈残差模块构成。解码器由4个融合门控注意力的多层感知模块、1个空间金字塔级联模块、1个门控注意力机制模块、1个剪枝模块、2个1×1卷积模块和1个双线性差值模块构成。

在轻量化图像语义分割模型的编码器中，卷积批归一化激活模块对输入图像进行图像预处理，之后将预处理后的图像传入15个瓶颈残差模块所构成的4个不同通道和尺寸的特征提取网络进行特征提取，即第一个瓶颈残差模块至第三个瓶颈残差模块所形成第一个特征提取网络；第四个瓶颈残差模块至第六个瓶颈残差模块所形成第二个特征提取网络；第七个瓶颈残差模块至第十二个瓶颈残差模块所形成第三个特征提取网络；第十三个瓶颈残差模块至第十五个瓶颈残差模块所形成第四个特征提取网络，由此得到4个具有不同通道和尺寸的特征图。

瓶颈残差模块是由Resnet的结构改进而来，将输入的特征图经过卷积批归一化激活模块进行特征提取，经卷积批归一化激活模块特征提取后送入空间金字塔融合模块再次提取特征，并由表1中的CA参数决定是否进行CA注意力进行特征提取，再送入一个卷积批归一化激活模块与原始的特征图进行残差连接后输出。

在本发明中，15个瓶颈残差模块分为两类，一类为基本瓶颈残差模块，其中第一瓶颈残差模块至第三瓶颈残差模块、以及第七瓶颈残差模块至第十瓶颈残差模块为基本瓶颈残差模块；另一类为CA注意力瓶颈残差模块，其中第四瓶颈残差模块至第六瓶颈残差模块、以及第十一瓶颈残差模块至第十五瓶颈残差模块为CA注意力瓶颈残差模块。

基本瓶颈残差模块如图2(a)所示，由2个卷积批归一化激活模块、1个空间金字塔融合模块和1个融合模块组成。第一个卷积批归一化激活模块的输入形成基本瓶颈残差模块的输入，第一个卷积批归一化激活模块的输出连接空间金字塔融合模块的输入，空间金字塔融合模块的输出连接第二个卷积批归一化激活模块的输入，第二个卷积批归一化激活模块的输出和第一个卷积批归一化激活模块的输入同时连接融合模块的输入，融合模块的输出形成基本瓶颈残差模块的输出。

CA注意力瓶颈残差模块如图2(b)所示，由2个卷积批归一化激活模块、1个空间金字塔融合模块、1个CA注意力机制模块和1个融合模块组成。第一个卷积批归一化激活模块的输入形成CA注意力瓶颈残差模块的输入，第一个卷积批归一化激活模块的输出连接空间金字塔融合模块的输入，空间金字塔融合模块的输出连接CA注意力机制模块的输入，CA注意力机制模块的输出连接第二个卷积批归一化激活模块的输入，第二个卷积批归一化激活模块的输出和第一个卷积批归一化激活模块的输入同时连接融合模块的输入，融合模块的输出形成CA注意力瓶颈残差模块的输出。

为了使得瓶颈残差模块拥有更大的感受野和更加强大的捕获全局特征的能力，并使用膨胀率为1、2、4和8的深度可分离膨胀卷积和最大池化组成的空间金字塔融合模块，空间金字塔融合模块中的上采样使用双线性插值进行上采样，保证了最后多个特征图能够进行特征相加，仅使用较小的内存和参数量即可获得更多的语义特征信息。空间金字塔融合模块有效增加了模型的感受野，感受野计算见式1，高效地提取了图像的特征。

N＝k+(k-1)(d-1)(1)

式中，N为感受野范围，k为原始卷积核大小，d为膨胀率。对于卷积深度网络而言，感受野越大，意味着包含的全局信息也就更多，有效减少了空间信息丢失。

在本发明中，瓶颈残差模块中的空间金字塔融合模块如图3所示，由5个深度可分离膨胀卷积模块(DSDConv)、1个最大池化模块(Max Pooling)、1个上采样模块(Upsample)、1个融合模块、1个批归一化模块(BN)和1个激活模块(ReLU)组成。其中第一个深度可分离膨胀卷积模块和第五个深度可分离膨胀卷积模块的膨胀率为1，第二个深度可分离膨胀卷积模块入的膨胀率为2，第三个深度可分离膨胀卷积模块的膨胀率为4，第四个深度可分离膨胀卷积模块的膨胀率为8。第一个深度可分离膨胀卷积模块的输入、第二个深度可分离膨胀卷积模块的输入、第三个深度可分离膨胀卷积模块的输入、第四个深度可分离膨胀卷积模块的输入和最大池化模块的输入共同形成空间金字塔融合模块的输入。最大池化模块的输出连接第五个深度可分离膨胀卷积模块的输入，第五个深度可分离膨胀卷积模块的输出连接上采样模块的输入。第一个深度可分离膨胀卷积模块、第二个深度可分离膨胀卷积模块、第三个深度可分离膨胀卷积模块的输入和第四个深度可分离膨胀卷积模块的输入和输出，以及上采样模块的输出同时连接融合模块的输入。融合模块的输出连接批归一化模块的输入，批归一化模块的输出连接激活模块的输入，激活模块的输出形成空间金字塔融合模块的输出。

编码器的网络参数如表1所示。

表1编码器的网络参数

表1仅展示在Cityscape数据的网络参数，在Camvid和ADE20K数据集仅Input的尺寸不同。对于Cityscape数据集，将2048×1024分辨率的图像裁剪为1024×512分辨率的图像后输入模型网络，本发明针对原先的MobileNetv3网络结构进行了改进，将SE注意力机制改为CA注意力机制，并将其中的残差模块ResidualBlock替换为我们提出的瓶颈残差模块BottleneckResidualBlock，其他结构均沿用原先的MobileNetv3-Large结构。

在轻量化图像语义分割模型的解码器中，4个融合门控注意力的多层感知模块分别对4个特征图进行门控注意力机制进一步关注特征图中有效的语义信息，将将通过门控注意力机制的特征图的长与宽进行打平，使得二维图像变为一维的特征队列，再对四个特征队列各自进行全连接操作调整特征图的通道数，将调整后的特征队列再经过层归一化避免梯度***，再将经过层归一化的特征图进行ReLU函数进行激活，最后将不同层的特征图通过双线性插值的方式变为原始图像大小的1/4倍，并将4个融合门控注意力的多层感知模块输出的特征图通过空间金字塔级联模块进行进一步的特征提取，低语义信息的特征图含有的有效信息较少，高语义信息的特征图含有的语义信息较多，因此使用膨胀率较低的DSDConv处理低语义信息特征图，使用膨胀率较高的DSDConv处理高语义信息特征图。使得最终空间金字塔级联模块的输出更高维度的通道信息，再经过门控注意力机制模块关注更应该关注的特征图语义信息，再通过剪枝模块进行剪枝避免过拟合和1个1×1卷积降低通道数，再通过1个1×1卷积将通道数调整为分割类别数，最后通过双线性差值模块输出与原图图像大小相同的特征图作为预测结果。

为了更好地进行特征上的融合，我们将输入的融合门控注意力的多层感知模块的特征图通过GCT_B0的门控注意力机制，并对特征图进行图像尺寸展平模块操作，合成了图像的高和宽，并对合成后的特征图采用层归一化进行归一化，再经过全连接模块进行特征的提取，用于减少ICS(Internal Convariate Shift)现象，采用ReLU激活模块函数进行激活，能够有效避免梯度消失问题，最后将特征图采用双线性插值的方式上采样为原图1/4的尺寸后输出。

在本发明中，融合门控注意力的多层感知模块如图4所示，由门控注意力机制模块(GCTB0)、1个图像尺寸展平模块(Flatten)、1个层归一化模块(Layer Normalization)、1个全连接模块(Linear)、1个激活模块(ReLU)和1个上采样模块(Upsample)组成。门控注意力机制模块的输入形成融合门控注意力的多层感知模块的输入，门控注意力机制模块的输出连接图像尺寸展平模块的输入，图像尺寸展平模块的输出连接层归一化模块的输入，层归一化模块的输出连接全连接模块的输入，全连接模块的输出连接激活模块的输入，激活模块的输出连接上采样模块的输入，上采样模块的输出形成融合门控注意力的多层感知模块的输出。

针对融合门控注意力的多层感知模块输出后的四层特征图通过空间金字塔级联模块，其中空间金字塔级联模块由膨胀率为1、2、4和8的3×3深度可分离卷积膨胀卷积组成，最终将卷积后的结果进行拼接，再通过批归一化进行归一化和ReLU激活函数激活后输出。

在本发明中，空间金字塔级联模块如图5所示，由4个深度可分离膨胀卷积模块(DSDConv)、1个拼接模块、1个批归一化模块(BN)和1个激活模块(ReLU)组成。其中第一个深度可分离膨胀卷积模块的膨胀率为1，第二个深度可分离膨胀卷积模块入的膨胀率为2，第三个深度可分离膨胀卷积模块的膨胀率为4，第四个深度可分离膨胀卷积模块的膨胀率为8。第一个深度可分离膨胀卷积模块的输入形成空间金字塔级联模块的第一个输入，第二个深度可分离膨胀卷积模块的输入形成空间金字塔级联模块的第二个输入，第三个深度可分离膨胀卷积模块的输入形成空间金字塔级联模块的第三个输入，第四个深度可分离膨胀卷积模块的输入形成空间金字塔级联模块的第四个输入。第一个深度可分离膨胀卷积模块的输出、第二个深度可分离膨胀卷积模块的输出、第三个深度可分离膨胀卷积模块的输出和第四个深度可分离膨胀卷积模块的输出同时连接拼接模块的输入，拼接模块的输出连接批归一化模块的输入，批归一化模块的输出连接激活模块的输入，激活模块的输出形成空间金字塔级联模块的输出。

步骤2、利用已分割好的样本图像集对步骤1所构建的轻量化图像语义分割模型进行训练，得到训练好的轻量化图像语义分割模型。

下面通过实验来说明本发明所提算法的有效性和鲁棒性。

实验硬件平台为1块Tesla V100 GPU，共32GB显存，Gold Intel处理器，共24核。实验软件环境是ubuntu16.04、python3.7.4、深度学习框架是PaddlePaddle2.4.0，gcc为7.3.0。

实验采用Cityscapes、Camvid和ADE20K数据集。对于Cityscape、Camvid和ADE20K训练集，均采用随机裁剪，分别将训练集图像分辨率裁剪为1024×512的分辨率、960×720的分辨率和480×480的分辨率，并使用0.5至2.0范围内随机缩放、随机水平翻转、随机填充裁剪和随机扭曲，使得训练集图像能够变得更加多样性，使得输入图像更加复杂，从而保证模型能够适应更加复杂的环境，提高模型的鲁棒性。

Cityscapes是采集自德国及附近国家的50个城市，包括了春夏秋三个季节的街区场景，共有5000张分辨率为2048×1024的图像，其中训练集2975张、验证集500张、测试集1525张，共有19个类别的密集像素标注。对于Cityscape数据集，使用AdamW优化器更新网络参数，学习率设置为4×10^-4，最终学习率为1×10^-6，权重衰减值为0.0125，momentum为1，批大小Batchsize设置为4，使用Warmup的方式开始训练，Warmup的iterations为1500次，Warmup的起始学习率为1×10^-6，迭代次数Epoch设置为175次。

Camvid是来自剑桥的道路与驾驶场景图像分割数据集，共有701张分辨率为960x720的图像，其中训练集367张，验证集101张，测试集233张，共有32个类别的密集像素标注。对于Camvid数据集，使用AdamW优化器更新网络参数，学习率设置为8×10^-4，权重衰减值为0.0125，momentum为1，批大小Batchsize设置为4，迭代次数Epoch设置为175次。

ADE20K是MIT推出的用于语义分割、目标识别等的数据集，共拥有25562张分辨率不一的图像，其中训练集20210张，验证集2000张，测试集3352张，共有150个类别的密集像素标注。对于ADE20K数据集，使用AdamW优化器更新网络参数，学习率设置为8×10^-4，最终学习率为1×10^-6，权重衰减值为0.0125，momentum为1，批大小Batchsize设置为16，使用Warmup的方式开始训练，Warmup的iterations为1500次，Warmup的起始学习率为1×10^-6，迭代的iterations设置为150K。

实验采用语义分割领域常用的评价指标，即：参数总量(Params)、每秒浮点运算(Floating Point Operations Per Second，FLOPS)和均交并比(Mean Intersection overUnion，MIoU)。FLOPS和Params可用于描述模型的复杂度，它们的值越大，代表着模型也就越复杂，需要付出的计算成本也会越多。MIoU值越大代表模型的分割效果越好。

Ⅰ消融实验

设计每个模块相对应的消融实验，以验证每个模块的有效性。消融实验是在Cityscape数据集和Camvid数据集上进行评估，同时为了方便表示，将Cityscape数据集标记为(1)，将Camvid数据集标记为(2)，对应的输入尺寸分别为1024×512和960×720，迭代次数Epoch为175次。

1)注意力机制改进

表2不同注意力机制的评价指标对比

由表2可知，对于Cityscape数据集和Camvid数据集，将SE注意力机制更换为CA注意力机制，均有效降低了模型的参数量，也使得模型都有着更高的MIoU值，因此本发明选择了更轻量的CA注意力机制作为改进的MobileNetv3的注意力模块。

2)骨干网络改进

表3不同骨干网络的评价指标对比

由表3可知，对于Cityscape数据集，加入SPM Block的MobileNetv3结合原先的SE注意力机制，模型的MIoU达到65.76％，我们提出的SPM Block在仅增加0.41M的Params和0.84G的FLOPS，将模型的MIoU指标提升了2.76％，由此可见SPM模块具有良好的性能。同时我们改进后的Our_MobileNetv3模型，MIoU指标可达66.29％，相对于未改进的MobileNetv3骨干网络，我们改进后的MobileNetv3骨干网络在下降了0.81M的Params的情况下，还将模型的MIoU指标提升了3.29％；对于Camvid数据集，加入SPM Block的MobileNetv3结合原先的SE注意力机制，模型的MIoU达到54.59％，我们提出的SPM Block在仅增加0.4M的Params和1.08G的FLOPS，将模型的MIoU指标提升了2.32％，但我们改进后的Our_MobileNetv3模型，使用CA注意力机制的MIoU指标不如使用SE注意力机制的MIoU，权衡使用CA注意力机制与SE注意力机制的Params值，最终仍选择CA注意力机制为改进MobileNetv3网络的注意力机制。

3)MLP Layer改进

表4改进后的MLP的评价指标对比

由表4可知，对于Cityscape数据集，SegFormer_B0添加改进后的MLP在不增加模型的Params和FLOPS的情况下，MIoU提升了0.6％，SegFormer_MoblieNetv3使用改进后的MLP在不增加模型的Params和FLOPS的情况下，MIoU提升了0.62％；对于Camvid数据集，SegFormer_B0添加改进后的MLP后MIoU提升了2.98％，SegFormer_MoblieNetv3使用改进后的MLP在不增加模型的Params和FLOPS的情况下，MIoU提升了1.43％。

4)SPC Block添加

表5添加SPC Block的评价指标对比

由表5可知，对于Cityscape数据集，SegFormer_B0使用SPC Block在仅增加模型0.01M的Params和0.44G的FLOPS的情况下，MIoU提升了1.23％，SegFormer_MobileNetv3使用SPC Block在仅增加模型0.02M的Params和0.44G的FLOPS的情况下，MIoU提升了1.21％；对于Camvid数据集，SegFormer_B0使用SPC Block在仅增加模型0.01M的Params和0.57G的FLOPS的情况下，MIoU提升了3.53％，SegFormer_MobileNetv3使用SPC Block在仅增加模型0.02M的Params和0.57G的FLOPS的情况下，MIoU提升了1.15％

Ⅱ不同模型对比实验

将本发明提出的模型与SegFormer、FCN、Deeplabv3、ESPNetV2、BiSeNetV2、O-CRNet、Topformer、LRASPP和PSPNet等10种轻量化图像语义分割模型在Cityscape、Camvid和ADE20K数据集上进行对比实验，对比结果如表6所示。

表6不同模型在实验数据集上的对比

从表6可知，对于Cityscape数据集，相对于其他经典的轻量化网络，如ESPNetV2和BiSeNetV2，本发明SegFormer模型有着更优异的MIoU值，不仅在精度方面相比原模型SegFormer_B0和SegFormer_MobileNetv3分别提升了7.77％和5.74％，而且在参数量Params上分别降低了1.32M和0.79M，每秒浮点运算FLOPS相对于SegFormer_MobileNetv3提升了1.27G，相对于原SegFormer_B0降低了0.95G；本发明SegFormer模型的MIoU指标相对于其他大参数量和高额FLOPS模型，如Deeplabv3_Resnet50落后了3.77％，但模型的Params仅为Deeplabv3_Resnet50的8.95％，FLOPS仅为Deeplabv3_Resnet50的5.55％；相对于中等模型如FCN_HRNetW18，本发明的SegFormer模型有着更少的Params值、FLOPS值和更高的MIoU值。对于Camvid数据集和ADE20K数据集，本发明SegFormer模型也均衡了Params、FLOPS和MIoU三个评价指标，并相对于SegFormer_B0模型在Camvid数据集和ADE20K数据集分别提升了3.54％和3.35％的MIoU值，相对于SegFormer_MobileNetv3分别提升了2.12％和1.85％的MIoU值，最终本发明模型较好平衡了三个评价指标，能够更好地满足实际场景。

为了更直观地对比SegFormer改进前后的分割性能，在Cityscape数据集设置了五组分割图进行可视化对比分析，如图6所示。从第一行中发现，SegFormer_B0网络和SegFormer_MobileNetv3网络均没有很好将右侧两位行人区分开，而本发明模型在有效将两位行人分割；SegFormer_B0网络和SegFormer_MobileNetv3网络在处理右侧建筑物存在漏分割现象，而且处理左侧车辆也比较粗糙，本发明模型在以上问题中都有一定的完善；第三行分割两侧人物和围栏时，SegFormer_B0网络和SegFormer_MobileNetv3网络存在漏分割、分割不连续、细节模糊等问题，本发明模型在分割明显更加连续，更细化的分割效果。

图7和图8展示了不同模型的在Cityscape数据集的各项指标可视化结果，通过观察图片中的各点，可以发现本发明提出的模型在较低的参数量Params和FLOPS的情况下，仍保持着较好的MIoU指标。

综上所述，为了实现均衡图像分割的轻量化和模型精度，本发明将SegFormer和MobileNetv3模型都进行了改进，无需通过Imagenet数据集的预训练，即可实现较高的分割精度，具有较友好的可移植性。通过实验进行对比，我们提出的Mobile-SegFormer网络，相对于常见的轻量化网络，有着更准确的分割效果，相对于大型的分割网络，有着更轻量化的参数量和更低的每秒浮点运算值，能够较好的均衡Params、FLOPS和MIoU指标。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.一种基于深度学习的轻量化图像语义分割方法，其特征是，包括步骤如下：

步骤1、构建轻量化图像语义分割模型；

2.根据权利要求1所述的一种基于深度学习的轻量化图像语义分割方法，其特征是，瓶颈残差模块为基本瓶颈残差模块和CA注意力瓶颈残差模块；第一瓶颈残差模块至第三瓶颈残差模块、以及第七瓶颈残差模块至第十瓶颈残差模块为基本瓶颈残差模块；第四瓶颈残差模块至第六瓶颈残差模块、以及第十一瓶颈残差模块至第十五瓶颈残差模块为CA注意力瓶颈残差模块。

3.根据权利要求2所述的一种基于深度学习的轻量化图像语义分割方法，其特征是，基本瓶颈残差模块由2个卷积批归一化激活模块、1个空间金字塔融合模块和1个融合模块组成；

第一个卷积批归一化激活模块的输入形成基本瓶颈残差模块的输入，第一个卷积批归一化激活模块的输出连接空间金字塔融合模块的输入，空间金字塔融合模块的输出连接第二个卷积批归一化激活模块的输入，第二个卷积批归一化激活模块的输出和第一个卷积批归一化激活模块的输入同时连接融合模块的输入，融合模块的输出形成基本瓶颈残差模块的输出。

4.根据权利要求2所述的一种基于深度学习的轻量化图像语义分割方法，其特征是，CA注意力瓶颈残差模块由2个卷积批归一化激活模块、1个空间金字塔融合模块、1个CA注意力机制模块和1个融合模块组成；

第一个卷积批归一化激活模块的输入形成CA注意力瓶颈残差模块的输入，第一个卷积批归一化激活模块的输出连接空间金字塔融合模块的输入，空间金字塔融合模块的输出连接CA注意力机制模块的输入，CA注意力机制模块的输出连接第二个卷积批归一化激活模块的输入，第二个卷积批归一化激活模块的输出和第一个卷积批归一化激活模块的输入同时连接融合模块的输入，融合模块的输出形成CA注意力瓶颈残差模块的输出。

5.根据权利要求3或4所述的一种基于深度学习的轻量化图像语义分割方法，其特征是，空间金字塔融合模块由5个深度可分离膨胀卷积模块、1个最大池化模块、1个上采样模块、1个融合模块、1个批归一化模块和1个激活模块组成；

第一个深度可分离膨胀卷积模块的输入、第二个深度可分离膨胀卷积模块的输入、第三个深度可分离膨胀卷积模块的输入、第四个深度可分离膨胀卷积模块的输入和最大池化模块的输入共同形成空间金字塔融合模块的输入；最大池化模块的输出连接第五个深度可分离膨胀卷积模块的输入，第五个深度可分离膨胀卷积模块的输出连接上采样模块的输入；第一个深度可分离膨胀卷积模块、第二个深度可分离膨胀卷积模块、第三个深度可分离膨胀卷积模块的输入和第四个深度可分离膨胀卷积模块的输入和输出，以及上采样模块的输出同时连接融合模块的输入；融合模块的输出连接批归一化模块的输入，批归一化模块的输出连接激活模块的输入，激活模块的输出形成空间金字塔融合模块的输出。

6.根据权利要求1所述的一种基于深度学***模块、1个层归一化模块、1个全连接模块、1个激活模块和1个上采样模块组成；

门控注意力机制模块的输入形成融合门控注意力的多层感知模块的输入，门控注意力机制模块的输出连接图像尺寸展平模块的输入，图像尺寸展平模块的输出连接层归一化模块的输入，层归一化模块的输出连接全连接模块的输入，全连接模块的输出连接激活模块的输入，激活模块的输出连接上采样模块的输入，上采样模块的输出形成融合门控注意力的多层感知模块的输出。

7.根据权利要求1所述的一种基于深度学习的轻量化图像语义分割方法，其特征是，空间金字塔级联模块由4个深度可分离膨胀卷积模块、1个拼接模块、1个批归一化模块和1个激活模块组成；