CN116612288B

CN116612288B - 一种多尺度轻量级实时语义分割方法、***

Info

Publication number: CN116612288B
Application number: CN202310884464.2A
Authority: CN
Inventors: 陈苏婷; 韩光勋; 胡斌武; 杨宁; 薄业雯; 裴加明; 孙俊; 王茹慧; 刘涛
Original assignee: NANJING CHINA-SPACENET SATELLITE TELECOM CO LTD; Nanjing University of Information Science and Technology
Current assignee: NANJING CHINA-SPACENET SATELLITE TELECOM CO LTD; Nanjing University of Information Science and Technology
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-11-07
Anticipated expiration: 2043-07-19
Also published as: CN116612288A

Abstract

本发明公开了一种多尺度轻量级实时语义分割方法、***，该方法包括对互联网上公开的图像数据集进行预处理；构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络，生成编码器主干网络浅层、中间层和最深层特征图；将浅层、中间层和最深层特征图分别输入到轻量化注意力模块中，生成增强的特征图；将中间层和最深层特征图分别输入到轻量化物体上下文特征融合模块中并进行上采样操作，生成二倍增强的区域上下文信息特征图；将增强的浅层特征图和二倍增强的区域上下文信息特征图进行连接、池化、上采样操作，生成最终网络分割结果。本发明改善了传统语义分割网络模型体量过大、在算力资源有限的移动平台上平衡分割精度和实现效率的问题。

Description

一种多尺度轻量级实时语义分割方法、***

技术领域

本发明属于电子通讯与信息工程领域，具体涉及一种多尺度轻量级实时语义分割方法、***。

背景技术

语义分割是深度学习中一个十分重要的领域，指的是像素级别的图像分类，将图像中的像素归于类标签，即标注出图像中每个元素所属的像素类别。在深度学习技术崛起之前，计算机视觉领域内进行语义分割还是一个难题。但伴随近些年来深度学习的不断发展，语义分割领域中涌现出许多优秀的算法和模型，这使得语义分割在例如自动驾驶、医学影像处理、人机交互、机器人技术等越来越多的领域中崭露头角。

深度学习中的语义分割方法可以大致分为两类，一类是从基于滑动窗口的语义分割模型到基于候选区域的语义分割模型，另一种是基于编码器-解码器结构的语义分割模型。采用滑动窗口的语义分割模型是通过采用滑窗的方式，把以每个像素点为中心的小图像块输入到CNN（Convolutional Neural Networks, 卷积神经网络）中来预测这个像素点的语义标签，但这个方法在语义分割中需要计算图片中每个像素点滑动窗口的语义标签，参数量多，训练、预测速度慢，十分耗时。并且对于滑动窗口的大小无法给定，如果滑动窗口取值较大，那么计算量巨大，如果滑动窗口取值较小，那么缺少目标上下文信息。基于候选区域的语义分割模型代表是Mask R-CNN，它在基于区域卷积神经网络Faster R-CNN结构的基础上增加Mask预测分支，并且改良了ROI Pooling模块，提出了ROI Align这一区域特征聚集方式，满足了图像语义分割的准确度要求，强化了提取特征的能力。但Mask R-CNN的训练数据巨大，对内存的消耗也很高，不能一次性全部载入设备。

发明内容

本发明所要解决的技术问题是：提出了一种多尺度轻量级实时语义分割方法、***，基于轻量化注意力模块和轻量化物体上下文特征融合模块构建多尺度轻量级语义分割网络模型，将深度可分离非对称卷积与扩展卷积相结合，提高了分割性能，降低了整个网络的复杂度，并提升了图片语义分割的分割精度和分割速度。

本发明为解决上述技术问题采用以下技术方案：

本发明提出的一种多尺度轻量级实时语义分割方法，包括以下步骤：

S1、获取互联网上公开的图像数据集，对其进行预处理。

S2、构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络，将预处理后的图片输入到该编码器主干网络中，生成编码器主干网络浅层特征图、中间层特征图和最深层特征图。

S3、将编码器主干网络中间层特征图和最深层特征图分别输入到轻量化注意力模块中，生成增强的中间层特征图和最深层特征图，将两个增强的特征图输入到轻量化物体上下文特征融合模块中，利用目标区域的表示来增强其像素的表示，生成增强的区域上下文信息特征图。

S4、将编码器主干网络浅层特征图输入到轻量化注意力模块中，生成增强的浅层特征图，将增强的区域上下文信息特征图进行上采样操作，生成二倍增强的区域上下文信息特征图。把生成的两个特征图进行连接、池化、上采样操作，生成最终网络分割结果。

进一步的，步骤S2中，生成编码器主干网络浅层特征图、中间层特征图和最深层特征图的具体内容为：

S201、基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络的构建：

下采样模块中，使用并联的步长为2的3×3卷积层与2×2最大池化层，3×3卷积核能增大感受野，最大池化能提高下采样速度。

轻量化可分离非对称残差模块由两个低维分支构成，每个分支都有一半的输入通道。轻量化可分离非对称残差模块处理图像的内容为：对输入的特征图进行通道拆解操作，在左分支上使用3×1和1×3的1D分解卷积进行特征提取，在右分支上利用带有扩张率3×1和1×3的1D分解卷积进行特征提取，将两个分支连接，执行1×1逐点卷积恢复通道的数量，再进行一个通道洗牌操作，确保信息可以在不同的组之间流动；该模块引入残差结构，有助于解决梯度消失和梯度***问题，具体计算公式为：

；

其中，x _t表示网络输入值，x _t+1表示网络输出值，W _t表示权重，表示激活函数，F()表示对应系数相乘的函数。

编码器主干网络由一个下采样模块、三个轻量化可分离非对称残差模块、一个下采样模块、两个轻量化可分离非对称残差模块、一个下采样模块、八个轻量化可分离非对称残差模块堆叠而成。其中，一个下采样模块和三个轻量化可分离非对称残差模块属于编码器主干网络浅层，一个下采样模块和两个轻量化可分离非对称残差模块属于编码器主干网络中间层，一个下采样模块和八个轻量化可分离非对称残差模块属于编码器主干网络最深层。

S202、将尺寸为W×H的预处理的图像输入到下采样模块中进行下采样操作，得到尺寸为W/2×H/2的特征图，再将其输入到三个扩张率分别2、3、5的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行三次特征提取，得到编码器主干网络浅层特征图，其中W表示图像的宽，H表示图像的高。

S203、将尺寸为W/2×H/2编码器主干网络浅层特征图输入到下采样模块中进行下采样操作，得到尺寸为W/4×H/4的特征图，再将其输入到两个扩张率分别为2、3的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行两次特征提取，得到编码器主干网络中间层特征图。

S204、将尺寸为W/4×H/4编码器主干网络中间层特征图输入到下采样模块中进行下采样操作，得到尺寸为W/8×H/8的特征图，再将其输入到八个扩张率分别为1、2、5、9、2、5、13、17轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行八次特征提取，得到编码器主干网络最深层特征图。

进一步的，步骤S3中，生成增强的区域上下文信息特征图的具体步骤为：

S301、将编码器主干网络中间层特征图输入到轻量化注意力模块中，对其分别进行空间维度上的全局最大池化和全局平均池化操作，生成两个维数为C×1×1的空间信息描述特征图，使用卷积核长度为K的一维卷积聚合通道邻域内的K个通道的信息，将卷积后的两个空间信息描述特征图按元素相加，通过 Sigmoid 函数运算，生成通道注意力图，具体公式为：

；

其中，M _C表示通道注意力图，F表示输入的特征图，表示Sigmoid函数，/>表示卷积核大小为K的一维卷积操作，C表示输入特征图通道数，/>表示在空间维度上的均值池化特征，/>表示在空间维度上的最大池化特征，/>表示取最接近t的奇数。

S302、将通道注意力图与编码器主干网络中间层特征图进行基于Element-Wise的乘法操作，生成通道方向上的特征图，再对其在通道维度上分别进行最大池化和平均池化，得到两个不同的空间二维特征图，将两个空间二维特征图进行拼接，生成特征描述器，从而突出目标区域。使用扩张率都为2的1×3扩张卷积和3×1扩张卷积提取特征，生成二维空间注意力图。对二维空间注意力图使用Sigmoid函数得到值域为[0,1]的空间注意力图，将空间注意力图与编码器主干网络中间层特征图进行基于Element-Wise的乘法操作，生成增强的中间层特征图，具体公式为：

；

其中，F _T表示通道方向上的特征图，表示基于Element-Wise的逐元素相乘操作，M _S表示空间注意力图，/>表示扩张率都为2的1×3扩张卷积和3×1扩张卷积；表示在通道维度上的均值池化特征；/>表示在通道维度上的最大池化特征；F _R表示增强的中间层特征图。

S303、将编码器主干网络最深层特征图输入轻量化注意力模块中，进行同步骤S301- S302相同的操作，生成增强的最深层特征图。

S304、将增强的中间层特征图和增强的最深层特征图输入到轻量化物体上下文特征融合模块中，通过一个1×1卷积改变增强的最深层特征图的通道数，得到一组像素语义区域，即为一组粗分割的结果。将该结果进行上采样生成一个较高分辨率的粗分割，与此同时进行辅助监督学习。将较高分辨率的粗分割进行reshape和softmax操作，生成一个带有0-1概率的特征向量系数，将该系数与经过reshape操作后的增强的中间层特征图进行矩阵点乘运算，生成上下文信息，其中包含K组向量，即K种物体的类别区域特征，每一个向量对应一个语义类别的特征表示。

S305、对上下文信息进行1×1卷积生成关键值向量key和值向量value，对增强的中间层特征图进行1×1卷积和reshape操作生成查询向量query，对query、key、value进行矩阵运算生成区域上下文信息，将区域上下文信息与增强的中间层特征图进行concat操作和 1×1卷积操作，生成增强的区域上下文信息特征图，其特征映射表示为：

；

其中，表示增强的区域上下文信息特征图，/>表示1×1的卷积操作，Concat表示连接操作，Reshape表示将指定的矩阵变换成特定维数矩阵操作，softmax表示归一化指数函数，Q表示查询向量，K表示关键值向量，V表示值向量，d _k表示K的维度，/>表示输入的特征图。

进一步的，本发明还提出了一种多尺度轻量级实时语义分割***，包括

图像预处理模块，用于获取互联网上公开的图像数据集，对其进行预处理。

编码器主干网络特征图生成模块，用于构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络，将预处理后的图片输入到该编码器主干网络中，生成编码器主干网络浅层特征图、中间层特征图和最深层特征图。

增强的区域上下文信息特征图生成模块，用于将编码器主干网络中间层特征图和最深层特征图分别输入到轻量化注意力模块中，生成增强的中间层特征图和最深层特征图，将两个增强的特征图输入到轻量化物体上下文特征融合模块中，利用目标区域的表示来增强其像素的表示，生成增强的区域上下文信息特征图。

最终网络分割结果生成模块，用于将编码器主干网络浅层特征图输入到轻量化注意力模块中，生成增强的浅层特征图，将增强的区域上下文信息特征图进行上采样操作，生成二倍增强的区域上下文信息特征图。把生成的两个特征图进行连接、池化、上采样操作，生成最终网络分割结果。

进一步的，本发明还提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前文所述的多尺度轻量级实时语义分割方法的步骤。

进一步的，本发明还提出了一种计算机可读的存储介质，所述计算机可读的存储介质存储有计算机程序，所述计算机程序被处理器运行时执行前文所述的多尺度轻量级实时语义分割方法。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明提出的基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络首先对目标图片进行下采样，减少了参数的数量，降低了卷积网络计算的复杂度，再通过残差模块过滤作用小、信息冗余的特征，保留关键特征信息。避免直接使用经典backbone网络进行下采样导致网络参数量过大、网络训练速度慢、计算资源消耗巨大。结合了注意力机制的物体上下文特征融合结构，可以更充分的利用相应类的对象区域表示来增加一个像素的表示，自主学***台上平衡分割精度和实现效率的问题。

附图说明

图1为本发明的整体实施流程图。

图2为本发明多尺度轻量级实时语义分割网络结构图。

图3为本发明下采样模块实施流程图。

图4为本发明轻量化可分离非对称残差模块实施流程图。

图5为本发明轻量化物体上下文特征融合模块实施流程图。

图6为本发明轻量化注意力模块实施流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

下面结合附图对本发明做进一步详细说明。

本发明提出的一种多尺度轻量级实时语义分割方法，如图1所示，包括以下步骤：

S1、获取cityscape数据集中精细标注的图像，包含来自50个城市的5000张像素级注释图像，其中训练集2975张，验证集500张，测试集1525张，有19个语义类别，图像分辨率为2048×1024。对图像进行预处理，首先采用resize和slide window crop两种方式，将数据集图片尺寸进行剪裁，转换为适合编码器网络输入的1024×512尺寸。

S2、构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络，将预处理后的图片输入到该编码器主干网络中，生成编码器主干网络浅层特征图、中间层特征图和最深层特征图，具体内容如图2所示：

如图3所示，下采样模块中，使用并联的步长为2的3×3卷积层与2×2最大池化层，3×3卷积核能增大感受野，最大池化能提高下采样速度。

如图4所示，轻量化可分离非对称残差模块由两个低维分支构成，每个分支都有一半的输入通道。轻量化可分离非对称残差模块处理图像的内容为：对输入的特征图进行通道拆解操作，在左分支上使用3×1和1×3的1D分解卷积进行特征提取，在右分支上利用带有扩张率3×1和1×3的1D分解卷积进行特征提取，将两个分支连接，执行1×1逐点卷积恢复通道的数量，再进行一个通道洗牌操作，确保信息可以在不同的组之间流动；该模块引入残差结构，有助于解决梯度消失和梯度***问题，具体计算公式为：

；

S202、将尺寸为1024×512的预处理的图像输入到下采样模块中进行下采样操作，得到尺寸为512×256的特征图，再将其输入到三个扩张率分别2、3、5的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行三次特征提取，得到大小为512×256×32的编码器主干网络浅层特征图，其特征映射表示为：

；

其中，F1表示大小为512×256的特征图，表示轻量化可分离非对称残差模块，/>表示下采样模块，/>表示多通道输入。

S203、将尺寸为512×256编码器主干网络浅层特征图输入到下采样模块中进行下采样操作，得到尺寸为256×128的特征图，再将其输入到两个扩张率分别为2、3的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行两次特征提取，得到大小为256×128×64的编码器主干网络中间层特征图，其特征映射表示为：

；

其中，F2表示大小为256×128的特征图。

S204、将尺寸为256×128编码器主干网络中间层特征图输入到下采样模块中进行下采样操作，得到尺寸为128×64的特征图，再将其输入到八个扩张率分别为1、2、5、9、2、5、13、17轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行八次特征提取，得到大小为128×64×128的编码器主干网络最深层特征图，其特征映射表示为：

；

其中，F3表示大小为128×64的特征图，表示轻量化可分离非对称残差模块堆叠8次。

S3、将编码器主干网络中间层特征图和最深层特征图分别输入到轻量化注意力模块中，生成增强的中间层特征图和最深层特征图，将两个增强的特征图输入到轻量化物体上下文特征融合模块中，利用目标区域的表示来增强其像素的表示，生成增强的区域上下文信息特征图，具体步骤如图5所示：

S301、将编码器主干网络中间层特征图输入到轻量化注意力模块中，对其分别进行空间维度上的全局最大池化和全局平均池化操作，生成两个维数为C×1×1的空间信息描述特征图，使用卷积核长度为K的一维卷积聚合通道邻域内的K个通道的信息，将卷积后的两个空间信息描述特征图按元素相加，通过Sigmoid函数运算，生成通道注意力图，具体公式为：

；

其中，F _T表示通道方向上的特征图，表示基于Element-Wise的逐元素相乘操作，M _S表示空间注意力图，/>表示扩张率都为2的1×3扩张卷积和3×1扩张卷积；/>表示在通道维度上的均值池化特征；/>表示在通道维度上的最大池化特征；F _R表示增强的中间层特征图。

S303、将编码器主干网络最深层特征图输入轻量化注意力模块中，进行同步骤S301-S302相同的操作，生成增强的最深层特征图。

S304、将增强的中间层特征图和增强的最深层特征图输入到轻量化物体上下文特征融合模块中，通过一个1×1卷积改变增强的最深层特征图的通道数，得到一组大小为128×64×19的像素语义区域，即为一组粗分割的结果。将该结果进行上采样生成一个大小为256×128×19的较高分辨率的粗分割，与此同时进行辅助监督学习。将较高分辨率的粗分割进行reshape和softmax操作，生成一个带有0-1概率的、大小为19×32768的特征向量系数，将该系数与经过reshape操作后大小为32768×64的增强的中间层特征图进行矩阵点乘运算，生成大小为19×64的上下文信息，其中包含K组向量，即K种物体的类别区域特征，每一个向量对应一个语义类别的特征表示。

S305、对大小为19×64的上下文信息进行1×1卷积生成大小为19×32的关键值向量key和大小为19×32的值向量value，对增强的中间层特征图进行1×1卷积和reshape操作，得到大小为32768×32的特征图，生成查询向量query，对query、key、value进行矩阵运算生成大小为32768×32的最主要的区域上下文信息，将区域上下文信息与增强的中间层特征图进行concat操作和 1×1卷积操作，生成大小为256×128×32的增强的区域上下文信息特征图，其特征映射表示为：

；

矩阵运算的具体公式为：

；

其中，self-Attention表示自注意力机制机制函数。

S4、将编码器主干网络浅层特征图输入到轻量化注意力模块中，生成增强的浅层特征图，将增强的区域上下文信息特征图进行上采样操作，生成二倍增强的区域上下文信息特征图。把生成的两个特征图进行连接、池化、上采样操作，生成最终网络分割结果，如图6所示，具体步骤为：

S401、将大小为256×128×32的增强的区域上下文信息特征图进行倍率为2的双线性插值的上采样操作，生成大小为512×256×32的二倍增强的区域上下文信息特征图。将编码器主干网络浅层特征图输入到轻量化注意力模块中，进行同步骤S301-S302相同的操作，生成大小为512×256×32的增强的浅层特征图。

S402、将二倍增强的区域上下文信息特征图与增强的浅层特征图进行连接操作，生成连接特征图，然后利用全局池化将连接特征图转换为1×1×64的特征向量，按顺序进行1×1卷积、Relu激活函数、1×1卷积和sigmoid激活函数操作，计算权重向量。接着将权重向量与连接特征图相乘得到更新后的特征图，并通过逐点求和与连接特征图相加，得到输出特征图。最后将输出特征图进行倍率为2的双线性插值上采样操作生成最终网络分割结果。具体公式为：

；

其中，F _n表示连接的特征图，表示输入轻量化注意力模块，/>表示倍率为2的双线性插值的上采样操作，W为权值向量，/>和/>分别为sigmoid函数和Relu函数，G为全局池化操作，W ₁和W ₂采用全连接运算，F表示最终网络分割结果图。

此外，在神经网络中学习率的作用不容小觑。如果学习率设置较小可能会导致逼近精度不足，如果学习率设置过大，也可能会导致模型收敛的鲁棒性不足。深度学习算法模型迭代初期通常采用步长更大的学习率来使得算法模型可以更快地逼近最优解；但在算法模型后期优化迭代中，步长更大的学习率会导致损失值loss在最小值附近震荡。因此学习率衰减算法被引入训练中，公式如下：

；

其中，iter为当前迭代步长，max_iter为最大衰减步长，代表初始学习率，/>表示衰减率。

损失函数的主要目标是将函数的值降低实现精确分割的最低水平，本发明损失函数均采用交叉熵损失函数：

；

其中，K表示类别的数目；表示标签值，取值为0或1；/>表示模型预测值，取值为0-1之间。

本发明轻量化可分离非对称残差模块中需要一个粗分割预测的损失函数进行辅助监督学习，因此引入一个辅助损失函数，其整体损失函数如下：

；

其中，loss表示整体损失函数，L ₁表示最终预测的交叉熵损失函数，L ₂表示粗分割预测的交叉熵损失函数。

模型整体训练批次大小设置为8，执行1000次训练迭代，优化器为Adam，动量采样设为0.9，以5×10^-4的初始学习率进行学习并进行10^-4权重衰减。

本发明实施例还提出一种多尺度轻量级实时语义分割***，包括图像预处理模块、编码器主干网络特征图生成模块、增强的区域上下文信息特征图生成模块、最终网络分割结果生成模块及可在处理器上运行的计算机程序。需要说明的是，上述***中的各个模块对应本发明实施例所提供的方法的具体步骤，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

本发明实施例还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。需要说明的是，上述***中的各个模块对应本发明实施例所提供的方法的具体步骤，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

本发明实施例还提出一种计算机可读的存储介质，所述计算机可读的存储介质存储有计算机程序。需要说明的是，上述***中的各个模块对应本发明实施例所提供的方法的具体步骤，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

尽管上面示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。任何根据本发明的技术构思所做出的各种其他相应的改变和变型，均应包含在本发明权利要求的保护范围内。

Claims

1.一种多尺度轻量级实时语义分割方法，其特征在于，包括：

S1、获取互联网上公开的图像数据集，对其进行预处理；

S2、构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络，将预处理后的图片输入到该编码器主干网络中，生成编码器主干网络浅层特征图、中间层特征图和最深层特征图；

S3、将编码器主干网络中间层特征图和最深层特征图分别输入轻量化注意力模块，生成增强的中间层特征图和最深层特征图，将两个增强的特征图输入轻量化物体上下文特征融合模块，生成增强的区域上下文信息特征图；

S4、将编码器主干网络浅层特征图输入轻量化注意力模块，生成增强的浅层特征图，将增强的区域上下文信息特征图进行上采样操作，生成二倍增强的区域上下文信息特征图；对生成的两个特征图进行连接、池化、上采样操作，生成最终网络分割结果；

其中，步骤S2中，生成编码器主干网络浅层特征图、中间层特征图和最深层特征图的具体内容为：

下采样模块中，使用并联的步长为2的3×3卷积层与2×2最大池化层；

轻量化可分离非对称残差模块由两个低维分支构成，每个分支都有一半的输入通道；其处理图像的内容为：对输入的特征图进行通道拆解操作，在左分支上使用3×1和1×3的1D分解卷积进行特征提取，在右分支上利用带有扩张率3×1和1×3的1D分解卷积进行特征提取，将两个分支连接，执行1×1逐点卷积恢复通道的数量，再进行通道洗牌操作，具体计算公式为：

σ(W_tx_t)＝max(0,x)；

F(x_t,W_t)＝σ(W_tx_t)；

x_t+1＝x_t+F(x_t,W_t)；

其中，x_t表示网络输入值，x_t+1表示网络输出值，W_t表示权重，σ表示激活函数，F()表示对应系数相乘的函数；

编码器主干网络由一个下采样模块、三个轻量化可分离非对称残差模块、一个下采样模块、两个轻量化可分离非对称残差模块、一个下采样模块、八个轻量化可分离非对称残差模块堆叠而成；其中，一个下采样模块和三个轻量化可分离非对称残差模块属于编码器主干网络浅层，一个下采样模块和两个轻量化可分离非对称残差模块属于编码器主干网络中间层，一个下采样模块和八个轻量化可分离非对称残差模块属于编码器主干网络最深层；

S202、将尺寸为W×H的预处理的图像输入到下采样模块中进行下采样操作，得到尺寸为W/2×H/2的特征图，再将其输入到三个扩张率分别2、3、5的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行三次特征提取，得到编码器主干网络浅层特征图，其特征映射表示为：

F1＝L_LWSAR(L_LWSAR(L_LWSAR(D_downsampling(f))))

其中，F1表示大小为W/2×H/2的特征图，L_LWSAR表示轻量化可分离非对称残差模块，D_downsampling表示下采样模块，f表示多通道输入；

S203、将尺寸为W/2×H/2编码器主干网络浅层特征图输入到下采样模块中进行下采样操作，得到尺寸为W/4×H/4的特征图，再将其输入到两个扩张率分别为2、3的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行两次特征提取，得到编码器主干网络中间层特征图，其特征映射表示为：

F2＝L_LWSAR(L_LWSAR(D_downsampling(F1)))

其中，F2表示大小为W/4×H/4的特征图；

S204、将尺寸为W/4×H/4编码器主干网络中间层特征图输入到下采样模块中进行下采样操作，得到尺寸为W/8×H/8的特征图，再将其输入到八个扩张率分别为1、2、5、9、2、5、13、17轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行八次特征提取，得到编码器主干网络最深层特征图，其特征映射表示为：

其中，F3表示大小为W/8×H/8的特征图，L⁸ _LWSAR表示轻量化可分离非对称残差模块堆叠8次；

步骤S3中，生成增强的区域上下文信息特征图的具体步骤为：

S301、将编码器主干网络中间层特征图输入到轻量化注意力模块中，分别进行空间维度上的全局最大池化和全局平均池化操作，生成两个维数为C×1×1的空间信息描述特征图，使用卷积核长度为K的一维卷积聚合通道邻域内的K个通道的信息，将卷积后的两个空间信息描述特征图按元素相加，通过Sigmoid函数运算，生成通道注意力图，具体公式为：

其中，M_C表示通道注意力图，F表示输入的特征图，σ表示Sigmoid函数，表示卷积核大小为K的一维卷积操作，C表示输入特征图通道数，/>表示在空间维度上的均值池化特征，/>表示在空间维度上的最大池化特征，|t|_odd表示取最接近t的奇数；

S302、将通道注意力图与编码器主干网络中间层特征图进行基于Element-Wise的乘法操作，生成通道方向上的特征图，再对其在通道维度上分别进行最大池化和平均池化，得到两个不同的空间二维特征图，将两个空间二维特征图进行拼接，生成特征描述器；使用扩张率都为2的1×3扩张卷积和3×1的卷积提取特征，生成二维空间注意力图，对其使用Sigmoid函数得到值域为[0,1]的空间注意力图，将空间注意力图与编码器主干网络中间层特征图进行基于Element-Wise的乘法操作，生成增强的中间层特征图，具体公式为：

其中，F_T表示通道方向上的特征图，表示基于Element-Wise的逐元素相乘操作，M_S表示空间注意力图，/>1D conv表示扩张率都为2的1×3扩张卷积和3×1扩张卷积，/>表示在通道维度上的均值池化特征，/>表示在通道维度上的最大池化特征，F_R表示增强的中间层特征图；

S303、将编码器主干网络最深层特征图输入轻量化注意力模块中，进行同步骤S301-S302相同的操作，生成增强的最深层特征图；

S304、将增强的中间层特征图和增强的最深层特征图输入到轻量化物体上下文特征融合模块中，通过一个1×1卷积改变增强的最深层特征图的通道数，得到一组粗分割的结果，将该结果进行上采样生成一个较高分辨率的粗分割，将该较高分辨率的粗分割进行reshape和softmax操作，生成一个带有0-1概率的特征向量系数，将该系数与经过reshape操作后的增强的中间层特征图进行矩阵点乘运算，生成上下文信息；

S305、对上下文信息进行1×1卷积生成关键值向量和值向量，对增强的中间层特征图进行1×1卷积和reshape操作生成查询向量，对关键值向量、值向量、查询向量进行矩阵运算生成区域上下文信息，将区域上下文信息与增强的中间层特征图进行concat和1×1卷积操作，生成增强的区域上下文信息特征图，其特征映射表示为：

其中，F_enhanced表示增强的区域上下文信息特征图，Conv_1×1表示1×1的卷积操作，Concat表示连接操作，Reshape表示将指定的矩阵变换成特定维数矩阵操作，softmax表示归一化指数函数，Q表示查询向量，K表示关键值向量，V表示值向量，d_k表示K的维度，F_input表示输入的特征图；

矩阵运算的具体公式为：

其中，self-Attention表示自注意力机制机制函数。

2.根据权利要求1所述的多尺度轻量级实时语义分割方法，其特征在于，步骤S1中，对训练集图像进行预处理的具体内容为：

S101、从互联网的公开数据源上获取图像数据集；

S102、利用随机缩放和随机裁剪方法对图像数据集中的图片进行图像增强处理；

S103、将增强处理后的图像调整为W×H尺寸，其中W表示图像的宽，H表示图像的高。

3.根据权利要求1所述的多尺度轻量级实时语义分割方法，其特征在于，步骤S4中，生成最终网络分割结果的具体步骤为：

S401、将增强的区域上下文信息特征图进行倍率为2的双线性插值的上采样操作，生成二倍增强的区域上下文信息特征图；将编码器主干网络浅层特征图输入到轻量化注意力模块中，进行同步骤S301-S302相同的操作，生成增强的浅层特征图；

S402、将二倍增强的区域上下文信息特征图与增强的浅层特征图进行连接操作，生成连接特征图，利用全局池化将连接特征图转换为特征向量，按顺序进行1×1卷积、Relu激活函数、1×1卷积和sigmoid激活函数操作，计算权重向量；将权重向量与连接特征图相乘得到更新后的特征图，并通过逐点求和与连接特征图相加，得到输出特征图；将输出特征图进行倍率为2的双线性插值上采样操作生成最终网络分割结果，具体公式为：

W＝σ[W₂δ[W₁(GF_n)]]；

F_output＝WF_n+F_n；

其中，F_n表示连接的特征图，A_LWAM表示输入轻量化注意力模块，表示倍率为2的双线性插值的上采样操作，W表示权值向量，σ和δ分别表示sigmoid函数和Relu函数，G表示全局池化操作，W₁和W₂采用全连接运算，F_output表示最终网络分割结果图。

4.一种多尺度轻量级实时语义分割***，其特征在于，包括

图像预处理模块，用于获取互联网上公开的图像数据集，对其进行预处理；

编码器主干网络特征图生成模块，用于构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络，将预处理后的图片输入到该编码器主干网络中，生成编码器主干网络浅层特征图、中间层特征图和最深层特征图；

增强的区域上下文信息特征图生成模块，用于将编码器主干网络中间层特征图和最深层特征图分别输入到轻量化注意力模块中，生成增强的中间层特征图和最深层特征图，将两个增强的特征图输入到轻量化物体上下文特征融合模块中，利用目标区域的表示来增强其像素的表示，生成增强的区域上下文信息特征图；

最终网络分割结果生成模块，用于将编码器主干网络浅层特征图输入到轻量化注意力模块中，生成增强的浅层特征图，将增强的区域上下文信息特征图进行上采样操作，生成二倍增强的区域上下文信息特征图；把两者进行连接、池化、上采样操作，生成最终网络分割结果；

其中，编码器主干网络特征图生成模块中，生成编码器主干网络浅层特征图、中间层特征图和最深层特征图的具体内容为：

步骤1、基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络的构建：

σ(W_tx_t)＝max(0,x)；

F(x_t,W_t)＝σ(W_tx_t)；

x_t+1＝x_t+F(x_t,W_t)；

步骤2、将尺寸为W×H的预处理的图像输入到下采样模块中进行下采样操作，得到尺寸为W/2×H/2的特征图，再将其输入到三个扩张率分别2、3、5的轻量化可分离非对称残差模块中按照步骤1中轻量化可分离非对称残差模块处理图像的内容进行三次特征提取，得到编码器主干网络浅层特征图，其特征映射表示为：

F1＝L_LWSAR(L_LWSAR(L_LWSAR(D_downsampling(f))))

步骤3、将尺寸为W/2×H/2编码器主干网络浅层特征图输入到下采样模块中进行下采样操作，得到尺寸为W/4×H/4的特征图，再将其输入到两个扩张率分别为2、3的轻量化可分离非对称残差模块中按照步骤1中轻量化可分离非对称残差模块处理图像的内容进行两次特征提取，得到编码器主干网络中间层特征图，其特征映射表示为：

F2＝L_LWSAR(L_LWSAR(D_downsampling(F1)))

其中，F2表示大小为W/4×H/4的特征图；

步骤4、将尺寸为W/4×H/4编码器主干网络中间层特征图输入到下采样模块中进行下采样操作，得到尺寸为W/8×H/8的特征图，再将其输入到八个扩张率分别为1、2、5、9、2、5、13、17轻量化可分离非对称残差模块中按照步骤1中轻量化可分离非对称残差模块处理图像的内容进行八次特征提取，得到编码器主干网络最深层特征图，其特征映射表示为：

增强的区域上下文信息特征图生成模块中，生成增强的区域上下文信息特征图的具体步骤为：

步骤1、将编码器主干网络中间层特征图输入到轻量化注意力模块中，分别进行空间维度上的全局最大池化和全局平均池化操作，生成两个维数为C×1×1的空间信息描述特征图，使用卷积核长度为K的一维卷积聚合通道邻域内的K个通道的信息，将卷积后的两个空间信息描述特征图按元素相加，通过Sigmoid函数运算，生成通道注意力图，具体公式为：

其中，M_C表示通道注意力图，F表示输入的特征图，σ表示Sigmoid函数，表示卷积核大小为K的一维卷积操作，C表示输入特征图通道数，/>表示在空间维度上的均值池化特征，/>表示在空间维度上的最大池化特征，|t|odd表示取最接近t的奇数；

步骤2、将通道注意力图与编码器主干网络中间层特征图进行基于Element-Wise的乘法操作，生成通道方向上的特征图，再对其在通道维度上分别进行最大池化和平均池化，得到两个不同的空间二维特征图，将两个空间二维特征图进行拼接，生成特征描述器；使用扩张率都为2的1×3扩张卷积和3×1的卷积提取特征，生成二维空间注意力图，对其使用Sigmoid函数得到值域为[0,1]的空间注意力图，将空间注意力图与编码器主干网络中间层特征图进行基于Element-Wise的乘法操作，生成增强的中间层特征图，具体公式为：

其中，F_T表示通道方向上的特征图，表示基于Element-Wise的逐元素相乘操作，M_S表示空间注意力图，/>表示扩张率都为2的1×3扩张卷积和3×1扩张卷积，/>表示在通道维度上的均值池化特征，/>表示在通道维度上的最大池化特征，F_R表示增强的中间层特征图；

步骤3、将编码器主干网络最深层特征图输入轻量化注意力模块中，进行同步骤1-2相同的操作，生成增强的最深层特征图；

步骤4、将增强的中间层特征图和增强的最深层特征图输入到轻量化物体上下文特征融合模块中，通过一个1×1卷积改变增强的最深层特征图的通道数，得到一组粗分割的结果，将该结果进行上采样生成一个较高分辨率的粗分割，将该较高分辨率的粗分割进行reshape和softmax操作，生成一个带有0-1概率的特征向量系数，将该系数与经过reshape操作后的增强的中间层特征图进行矩阵点乘运算，生成上下文信息；

步骤5、对上下文信息进行1×1卷积生成关键值向量和值向量，对增强的中间层特征图进行1×1卷积和reshape操作生成查询向量，对关键值向量、值向量、查询向量进行矩阵运算生成区域上下文信息，将区域上下文信息与增强的中间层特征图进行concat和1×1卷积操作，生成增强的区域上下文信息特征图，其特征映射表示为：

矩阵运算的具体公式为：

其中，self-Attention表示自注意力机制机制函数。

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。

6.一种计算机可读的存储介质，所述计算机可读的存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行所述权利要求1至3中任一项所述的方法。