CN114445430B

CN114445430B - 轻量级多尺度特征融合的实时图像语义分割方法及***

Info

Publication number: CN114445430B
Application number: CN202210365378.6A
Authority: CN
Inventors: 石敏; 沈佳林; 易清明; 骆爱文; 戴国帅
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-06-21
Anticipated expiration: 2042-04-08
Also published as: CN114445430A

Abstract

本发明提出一种轻量级多尺度特征融合的实时图像语义分割方法，包括：构建包括初始化模块、分离‑提取‑合并瓶颈模块、分区‑融合通道注意力模块、特征融合模块和多尺度注意力解码器的图像语义分割网络。通过图像语义分割网络提取待处理图像初始特征图的多尺度特征，得到多尺度特征图；提取并融合初始特征图的全局通道信息和局部通道信息，得到通道信息特征图；将多尺度特征图、通道信息特征图和原始的待处理图像进行特征融合，得到融合特征图；基于融合特征图进行图像精度恢复，得到图像语义分割结果。本发明能够在参数量相对较小的轻量级图像语义分割网络模型中保证模型的精度和准确率，提高模型的推理速度，实现图像的实时语义分割。

Description

轻量级多尺度特征融合的实时图像语义分割方法及***

技术领域

本发明涉及计算机视觉技术领域，更具体地，涉及一种轻量级多尺度特征融合的实时图像语义分割方法及***。

背景技术

随着计算机视觉技术的发展，图像语义分割在自动驾驶、智能医疗和机器人等领域的应用也越来越深入和广泛。图像语义分割是将图片中每个像素点分类到对应的类别，并找到每个类别对象在图片中的位置，对图像进行精确分割，提供精确的对象边界信息。随着深度学习的发展和计算机硬件性能的不断提升，基于深度卷积神经网络的图像语义分割算法取得了不错的效果。

现有的许多基于深度卷积神经网络的图像语义分割模型通常是通过使用更深的卷积层和更大的特征通道来实现更高的精度，具有大量的超参数。例如，PSPNet（PyramidScene Parsing Network）引入了一个金字塔池模块，在Cityscapes测试集上实现80.2%的mIoU，然而该模型却有6570万参数，推理时间远低于实时性的标准，难以部署在移动电话、汽车***、可穿戴设备和物联网设备等硬件终端。

发明内容

本发明为解决现有图像语义分割模型存在的推理速度低的缺陷，提供一种轻量级多尺度特征融合的实时图像语义分割方法及***，在保证模型精度的同时提高了模型的推理速度。

为解决上述技术问题，本发明的技术方案如下：

第一个方面，本发明提出一种轻量级多尺度特征融合的实时图像语义分割方法包括以下步骤：

S1：构建图像语义分割网络，所述图像语义分割网络包括初始化模块、分离-提取-合并瓶颈模块、分区-融合通道注意力模块、特征融合模块和多尺度注意力解码器；所述分离-提取-合并瓶颈模块包括若干个依次连接的分离-提取-合并瓶颈结构。

S2：将待处理图像输入所述图像语义分割网络，图像语义分割网络输出图像语义分割结果。

其中，所述初始化模块对待处理图像进行特征提取，得到待处理图像的初始特征图；所述分离-提取-合并瓶颈模块采用分离特征通道提取初始特征图的多尺度特征，得到多尺度特征图；所述分区-融合通道注意力模块提取并融合初始特征图的全局通道信息和局部通道信息，得到通道信息特征图；所述特征融合模块将多尺度特征图、通道信息特征图和原始的待处理图像进行特征融合，得到融合特征图；所述多尺度注意力解码器基于融合特征图进行图像精度恢复，得到图像语义分割结果。

第二个方面，本发明提出一种轻量级多尺度特征融合的实时图像语义分割***，包括：

图像语义分割网络，所述图像语义分割网络包括初始化模块、分离-提取-合并瓶颈模块、分区-融合通道注意力模块、特征融合模块和多尺度注意力解码器。所述分离-提取-合并瓶颈模块包括若干个依次连接的分离-提取-合并瓶颈结构。所述初始化模块对待处理图像进行特征提取，得到待处理图像的初始特征图。所述分离-提取-合并瓶颈模块采用分离特征通道提取待处理图像特征图的多尺度特征，得到多尺度特征图。所述分区-融合通道注意力模块提取并融合初始特征图的全局通道信息和局部通道信息，得到通道信息特征图。所述特征融合模块将多尺度特征图、通道信息特征图和原始的待处理图像进行特征融合，得到融合特征图。所述多尺度注意力解码器根据融合特征图进行图像精度恢复，得到图像语义分割结果。

与大多数靠堆砌强力硬件资源和功率消耗来提高模型精度的现有技术相比，本发明技术方案的有益效果是：通过分离-提取-合并瓶颈模块提取图像的多尺度特征、分区-融合通道注意力模块提取并融合初始特征图的全局通道信息和局部通道信息，以及特征融合模块融合和补充图像的有效信息和细节信息，并通过多尺度注意力解码器对图像中不同尺度的物体恢复精度，能够在参数量相对较小的轻量级图像语义分割网络模型中保证模型的精度（Precision）和准确率（Accuracy），提高模型的推理速度（Inference Speed）。本发明不仅提高了图像目标的分割精度，还实现图像的快速语义分割，最终能够在模型精度与计算速度之间实现很好的性能均衡，可以同时满足实际应用场景对时效性与准确性的需求。

附图说明

图1为实施例1中轻量级多尺度特征融合的实时图像语义分割方法的流程图。

图2为实施例2中并行拼接模块的结构图。

图3为实施例2中分离-提取-合并瓶颈结构的结构图。

图4为实施例2中分区-融合通道注意力模块的结构图。

图5为实施例2中特征融合模块的结构图。

图6为实施例3中图像语义分割网络的整体网络结构图。

图7为实施例3中多尺度注意力解码器的结构图。

图8为实施例4中在Cityscapes数据集上评估不同语义分割网络的综合准确率与计算效率的性能结果对比图，以及综合准确率与参数量的性能结果对比图。

图9为实施例4中部分现有语义分割网络与LMFFNet-3-8在Cityscapes数据集的分割效果可视化对比图。

图10为实施例4中另一部分现有语义分割网络与LMFFNet-3-8在Cityscapes数据集的分割效果可视化对比图。

图11为实施例4中不同语义分割网络在CamVid数据集的分割效果可视化对比图。

图12为实施例5中轻量级多尺度特征融合的实时图像语义分割***的架构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提出一种轻量级多尺度特征融合的实时图像语义分割方法，如图1所示，图1为轻量级多尺度特征融合的实时图像语义分割方法的流程图，包括以下步骤：

S1：构建图像语义分割网络，所述图像语义分割网络包括初始化模块、分离-提取-合并瓶颈模块（SEM-B Block）、分区-融合通道注意力模块（PMCA）、特征融合模块（FFM）和多尺度注意力解码器（MAD）。所述分离-提取-合并瓶颈模块包括若干个分离-提取-合并瓶颈结构（SEM-B）。

所述初始化模块对待处理图像进行特征提取，得到待处理图像的初始特征图。

所述分离-提取-合并瓶颈模块采用分离特征通道提取待处理图像特征图的多尺度特征，得到多尺度特征图。本实施例中，分离-提取-合并瓶颈模块中的分离-提取-合并瓶颈结构遵循分离-提取-合并的思想，首先使用一个3×3标准卷积层对待处理图像的初始特征图的有用的信息进行了压缩，然后采用Split特征通道分离，利用有感受野差异的并行双分支对压缩后的特征图进行特征处理，产生不同尺度的特征图，最后再次使用3×3标准卷积层对不同尺度的特征图融合多尺度信息，得到多尺度特征图，有效提升了图像语义分割网络的多尺度特征捕获能力，提高图像语义分割网络对不同尺度目标的分割能力。

所述分区-融合通道注意力模块提取并融合初始特征图的初始特征图的全局通道信息和局部通道信息，得到通道信息特征图。本实施例中，分区-融合通道注意力模块中包括全局注意力生成支路和局部注意力融合支路。在局部注意力融合支路中，以分区的方式先获取初始特征图的区域通道注意力权重，再以自适应学习的方式融合每个区域通道注意力权重，从分区角度考虑了特征图子区域的联系。全局注意力支路通过获取初始特征图的全局信息生成全局通道注意力权重。最后通过融合区域通道注意力权重和全局通道注意力权重，得到最终的通道注意力权重。同时融合了全局信息和局部信息生成通道注意力权重同时考虑了特征图的区域联系以及全局信息，提高了图像语义分割网络的准确率。

所述特征融合模块将多尺度特征图、通道信息特征图和原始的待处理图像进行特征融合，得到融合特征图。本实施例中，将多尺度特征图、通道信息特征图和原始的待处理图像进行特征融合，融合和补充图像的有效信息和细节信息，提高了图像语义分割网络的准确率。

所述多尺度注意力解码器基于融合特征图进行图像精度恢复，得到图像语义分割结果。本实施例中，通过融合了多尺度特征的融合特征图指导多尺度注意力解码器进行图像精度恢复，对图像空间区域中重要的信息进行加权关注，对非重要信息进行抑制，有效地提升解码器对不同尺度物体的恢复精度。

通过分离-提取-合并瓶颈模块提取图像的多尺度特征、分区-融合通道注意力模块提取并融合图像的全局通道信息和局部通道信息，以及特征融合模块融合和补充图像的有效信息和细节信息，并通过多尺度注意力解码器对图像中不同尺度的物体恢复精度，能够在参数量相对较小的轻量级图像语义分割网络模型中保证模型的精度和准确率，减少模型的参数量和计算量，减少资源的消耗，提高模型的推理速度，保证网络具有轻量性和实时性。

实施例2

本实施例在实施例1提出的轻量级多尺度特征融合的实时图像语义分割方法的基础上作出改进。

本实施例中，所述初始化模块包括3个3×3的标准卷积层。在具体实施过程中，可根据需求自定义待处理图像的分辨率，在待处理图像输入到网络前，会将图像放缩到提前设置好的图像分辨率，例如，对于3通道的RGB图像，提前设置待处理各个通道的输入图像分辨率为512×1024。将待处理图像输入初始化模块，待处理图像经过一个步长为2的3×3的标准卷积层进行卷积操作，将原始的输入图像的尺寸减少一半，并将输出的特征图的通道数扩大到32，然后将卷积操作连续经过两个3×3的标准卷积层进行卷积操作，提取上下文语义信息，减少图像信息丢失，得到第一特征图。将所述第一特征图输入一个并行拼接模块（FFM-A1），并行拼接模块将第一特征图与原始的待处理图像进行并行拼接得到第二特征图。如图2所示，其为本实施例中并行拼接模块（FFM-A1）的一个实施例的结构图。在图像语义分割网络的初始阶段，初始化模块对待处理图像进行特征提取，得到第一特征图，但同时也丢失了部分有用信息。因此，在保持通道数不变的情况下，对原始的待处理图像进行下采样，得到通道数为3的降采样图像信息。将通道数为3的降采样信息作为补偿信息与第一特征图进行并行拼接，最后通过1×1标准卷积层运算处理，得到第二特征图，以少量的模型参数提取更多有用的信息。

本实施例中，使用若干个分离-提取-合并瓶颈结构采用分离特征通道提取待处理图像的多尺度特征，得到多尺度特征图。如图3所示，其为本实施例中分离-提取-合并瓶颈结构的结构图。在具体实施过程中，使用一个3×3的标准卷积层作为分离-提取-合并瓶颈结构的输入瓶颈，初始特征图经过输入瓶颈，生成输入通道数减少一半的特征图，然后通过通道分离，将输入通道数减少一半的特征图通过通道分离生成两个特征图分别进入第一分支和第二分支，第一分支和第二分支的输入特征图的通道数为原来通道数的1/4，简化了图像语义分割网络的整体结构，降低了计算复杂度。

为了提高多尺度特征信息的获取，进入所述第一分支的特征图经过一个3×3的深度可分离卷积层进行卷积操作，进入所述第二分支的特征图经过一个3×3的深度可分离空洞卷积层进行卷积操作，通过第一分支和第二分支的感受野的不同，获取了不同尺度的上下文信息，减少了每个通道上的信息损失。

将第一分支和第二分支的卷积操作结果进行合并，将特征图的通道数恢复到原来通道数的1/2，在获得多尺度特征信息的同时，提高通道间的关联性。然后使用3×3的标准卷积层作为分离-提取-合并瓶颈结构的输出瓶颈，合并结果经过3×3的标准卷积层进行卷积操作，对不同尺度的特征图进行整合并恢复出与输入通道数一致的通道数，最后将通道数恢复后的卷积输出与输入当前分离-提取-合并瓶颈结构的特征图进行特征映射，将特征映射结果输入下一个分离-提取-合并瓶颈结构进行处理；

经过若干个分离-提取-合并瓶颈结构处理后，得到多尺度特征图。

在一个分离-提取-合并瓶颈结构中，所述3×3的标准卷积层、3×3的深度可分离卷积层和3×3的深度可分离空洞卷积层的输出端均依次连接有PReLU激活层和BN层，在每次进行卷积操作之前都使用PReLU和批量归一化的激活函数处理，提高模型的收敛速度。

在神经网络中添加注意力机制，有助于在训练的时候提取感兴趣的信息，并且忽略无关的信息，进而提高模型的精度。如图4所示，其为本实施例中分区-融合通道注意力模块的结构图。本实施例中，所述分区-融合通道注意力模块采用双分支通道注意力机制，包括全局注意力生成支路和局部注意力融合支路，所述分区-融合通道注意力模块提取并融合初始特征图的全局通道信息和局部通道信息，得到通道信息特征图的步骤包括：

将所述分离-提取-合并瓶颈模块中第一个分离-提取-合并瓶颈结构输出的特征图A输入分区-融合通道注意力模块后分别进入全局注意力生成支路和局部注意力融合支路。

为了捕获全局通道信息，对输入全局注意力生成支路的特征图A₁进行全局平均池化，通过多层神经网络学习特征图A₁的通道权值，得到特征图A₁的全局通道信息。

为了补偿全局平均池化后通道信息的损失，对输入局部注意力融合支路的特征图A₂进行分区处理，将特征图A₂分为4个区域；对特征图A₂的4个区域分别进行全局平均池化，并通过神经网络自适应学***均池化值，得到特征图A₂的局部通道信息。

将所述全局通道信息和所述局部通道信息进行加权融合，得到一组最终的汇总权值，根据汇总权值引导神经网络提取输出特征图的感兴趣信息，得到通道信息特征图，高效地完成了特征信息的整合。

特征融合模块对多尺度特征图、通道信息特征图和原始的待处理图像进行通道方向上的拼接，将拼接结果经过一个标准卷积层进行卷积操作，得到融合特征图。

图5为本实施例中特征融合模块的结构图。本实施例中，特征融合模块都建立一个远程连接将经过下采样的原始的待处理图像加入到特征融合模块中补偿细节信息，再通过短程跳跃连接模型连接特征融合模块的首端特征图。特征融合模块不仅集成了原始的待处理图像的降采样信息，而且还引入了分离-提取-合并瓶颈结构中的信息。此外，与许多现有的使用特征映射和跳跃连接直接融合输入特征图的方法不同，在连接分离-提取-合并瓶颈模块时，特征融合模块都引入了分区-融合通道注意力模块来提取特征图在通道上的重要信息，加强特征融合模块对重要的特征信息的融合。特征融合模块来保证模型通过结合远程跳跃连接和短程跳跃连接，捕获不同距离之间的信息关系，提升模型的准确率。另外，作为一个轻量级的网络，考虑如何充分地提取特征图中的信息来提高模型精度并且使模型参数规模尽量小，本发明更倾向于堆叠有限的几个特征融合模块来保证模型足够轻量。

实施例3

本实施例在实施例2提出的轻量级多尺度特征融合的实时图像语义分割方法的基础上作出改进。

本实施例的图像语义分割网络LMFFNet的网络结构如表1所示。

表1 图像语义分割网络LMFFNet的网络结构

如图6所示，图6为本实施例中图像语义分割网络的整体网络结构图，其中①-标准卷积，②-下采样模块，③-逐点卷积，④-深度可分离卷积，⑤-上采样单元。

本实施例中，所述分离-提取-合并瓶颈模块包括第一分离-提取-合并瓶颈模块（SEM-B Block1）和第二分离-提取-合并瓶颈模块（SEM-B Block2）；所述分区-融合通道注意力模块包括第一分区-融合通道注意力模块和第二分区-融合通道注意力模块；所述特征融合模块包括第一特征融合模块（FFM-B1）和第二特征融合模块（FFM-B2）。

将待处理图像经过3个标准卷积层进行卷积操作，得到第一特征图；将所述第一特征图与原始的待处理图像进行并行拼接，将拼接结果经过一个1×1卷积层进行逐点卷积，得到第二特征图。

将所述第二特征图经过下采样模块进行一次下采样处理后输入第一分离-提取-合并瓶颈模块，第二特征图经过M个分离-提取-合并瓶颈结构进行多尺度特征提取，得到第一多尺度特征图；将第一分离-提取-合并瓶颈模块中的第一个分离-提取-合并瓶颈结构的输出特征图传输至第一分区-融合通道注意力模块，所述第一分区-融合通道注意力模块提取并融合所述输出特征图的全局通道信息和局部通道信息，得到第一通道信息特征图；将所述第一多尺度特征图和第一通道信息特征图输入第一特征融合模块，第二特征融合模块将第一多尺度特征图、第一通道信息特征和经过4倍下采样的原始的待处理图像进行通道方向上的拼接，将拼接结果经过一个1×1卷积层进行逐点卷积，得到第一融合特征图。

将所述第一融合特征图经过下采样模块进行一次下采样处理后输入第二分离-提取-合并瓶颈模块，第一融合特征图经过N个分离-提取-合并瓶颈结构进行多尺度特征提取，得到第二多尺度特征图；将第二分离-提取-合并瓶颈模块中的第一个分离-提取-合并瓶颈结构的输出特征图传输至第二分区-融合通道注意力模块，所述第二分区-融合通道注意力模块提取并融合所述输出特征图的全局通道信息和局部通道信息，得到第二通道信息特征图；将所述第二多尺度特征图和第二通道信息特征图输入第二特征融合模块，第二特征融合模块将第二多尺度特征图、第二通道信息特征和经过8倍下采样的原始的待处理图像进行通道方向上的拼接，将拼接结果经过一个1×1卷积层进行逐点卷积，得到第二融合特征图。将所述第一融合特征图和第二融合特征图输入所述多尺度注意力解码器，多尺度注意力解码器根据第一融合特征图和第二融合特征图进行图像精度恢复，得到图像语义分割结果。

在一个基于编码器-解码器的语义分割架构中，编码器产生密集的特征图，而解码器对特征图进行上采样，以匹配原始输入图像的分辨率，一个设计良好的解码器可以有效地恢复空间细节，提高语义分割精度。

本实施例中，所述第一融合特征图包括特征图F ₁₁，所述第二融合特征图包括特征图F ₂₁和特征图F ₃₁。如图7所示，图7为本实施例中多尺度注意力解码器的结构图，将第一融合特征图和第二融合特征图输入所述多尺度注意力解码器，得到图像语义分割结果的步骤包括：

将特征图F ₁₁经过一个1×1卷积层进行逐点卷积，得到特征通道数为C₁的特征图F ₁₂，将特征图F ₂₁经过一个1×1卷积层进行逐点卷积后后得到特征通道数为C₂的特征图F ₂₂，对特征图F ₂₂进行双线性上采样得到特征图F ₂₃，其表达式如下所示：

其中，

表示1×1的卷积计算，

表示双线性上采样；

将所述特征图F ₁₂和特征图F ₂₃进行通道方向上的拼接，然后将拼接结果经过一个深度可分离卷积层和一个Sigmoid激活函数，得到多尺度注意力特征图M _mam。其表达式如下所示：

其中，

表示Sigmoid激活函数，

表示深度可分离卷积层的逐点卷积，

表示深度可分离卷积层的深度卷积，

表示对若干个特征图进行通道方向上的拼接。

通过收集中层特征F ₁₁和高层特征F ₂₁，以较小的计算复杂度来恢复输入信息，实现快速推理。通过使用Concat融合中层和高层特征，并使用带Sigmoid激活函数的深度可分离卷积层输出多尺度注意力特征图M _mam。

将特征图F ₃₁经过一个深度可分离卷积层进行卷积操作后，得到特征图F ₃₂，对特征图F ₃₂进行双线性上采样得到特征图F₃₃，其表达式如下所示：

特征图F ₃₁通过深度可分离卷积层将特征通道数降至像素的类别数空间，随后进行双线性上采样得到与多尺度注意力特征图M _mam尺寸一致的特征图F ₃₃。最后通过多尺度注意力特征图M _mam与F ₃₁进行像素级相乘，对图像空间中感兴趣的区域进行加权关注，对非重要部分像素进行抑制，将特征图恢复至原始输入图像分辨率，得到像素类别矩阵F _out作为图像语义分割结果，其表达式如下所示：

。

第一融合特征图和第二融合特征图已经包含了足够的信息来恢复原始的待处理图像的空间信息，并且具有更好的准确性。因此，在融合不同深度的特征生成多尺度注意力特征图时，仅采用了中层特征图F ₁₁和深层特征图F ₂₁。因此，多尺度注意力解码器可以在参数大小为0.09M的基础上很好地恢复的特征图的空间细节。

此外，本实施例采用的1×1卷积层降低特征图通道数、分组卷积和深度可分离卷积层降低卷积核参数量方法，有效地减少了图像语义分割网络的参数并提升了网络的实时性。

实施例4

本实施例在实施例3提出的轻量级多尺度特征融合的实时图像语义分割方法的基础上作出改进。

本实施例分别使用Cityscapes数据集、CamVid数据集、KITTI数据集和WildDash2数据集4个数据集对图像语义分割网络LMFFNet进行评估。

本实施例在训练图像语义分割网络LMFFNet时，采用小批量梯度下降（SGD）作为训练阶段的优化策略，批量大小设置为0.9，权重衰减设置为

。此外，本实施例使用的学习速率衰减策略为“poly”，将初始学习率设置为

，幂次为0.9，其表达式如下所示：

其中，lr表示当前学习率，lr _init表示初始学习率，iter表示迭代次数，max_iter表示最大迭代次数， power表示学习率衰减曲线形状控制参数。

当使用Cityscapes数据集和CamVid数据集对LMFFNet进行训练时，采用随机尺度和水平翻转等数据增强技术，将最大训练周期设置为1000，将随机参数分别设置为0.75、1.0、1.25、1.5、1.75和2.0，将训练图像转换到不同的尺度。对于Cityscapes数据集，由于GPU显存大小的限制，在训练阶段将训练图像随机裁剪为512×1024的分辨率。对于CamVid数据集，使用720×960和360×480两种分辨率进行消融实验。在Cityscapes数据集上采用在难负样本损失函数(OHEM)损失，以及在CamVid数据集上采用类别加权方案来处理类别不平衡问题。类权重Wclass的表达式如下表示：

其中，c为一个设置为1.10的超参数，P _class表示类样本的分布。

本实施例中，通过贝叶斯算法自动确定LMFFNet的深度。定义了一种贝叶斯优化方法来指定FFM-B1和FFM-B2的深度，同时引入一种新的评价指标I_auto，I_auto的数学模型表示如下：

其中，w为mIoU的权重系数，m_i为贝叶斯优化算法第i次迭代中模型对应的mIoU，m_b为mIoU的基线，f_i贝叶斯优化算法第i次迭代中模型对应的fps，f_b为fps的基线，p_i为贝叶斯优化算法第i次迭代中模型对应的参数量，d为对参数量的敏感性抑制系数。m_b和f_b分别用于测量搜索过程中最低可容忍的mIoU和fps。在本实施例中，设置w、m_b和f_b为65，d为20。

使用指标I_i来衡量LMFFNet的mIoU、fps和参数量，其表达式如下所示：

其中

，

，

。m_max，f_max和p_max分别为比较表中网络的最大mIoU、fps和参数量。

SEM-B Block对网络性能的影响如表2、表3和表4所示。

表2 在Cityscapes数据集上使用贝叶斯优化搜索SEM-B Block中不同M和N值的实验结果

表3 在Cityscapes数据集上对SEM-B Block深度进行消融实验的实验结果

表4 在Cityscapes数据集上评估不同瓶颈结构的实验结果

如表2所示，M和N两个参数分别表示LMFFNet中SEM-B Block1和SEM-B Block2中SEM-B的数量。本实施例利用贝叶斯优化算法自动确定SEM-B Block1和SEM-B Block2的最优网络深度M和N，表2为使用贝叶斯优化寻找权衡mIoU、前向推理速度和参数量三者最佳的I_auto。根据实验结果，自定义的评价指标I_auto在M和N分别为3和8时最大，表明当M=3和N=8时，LMFFNet能够在参数和精度之间做出最适当的权衡。因此，设置M = 3和N = 8来构建LMFFNet- 3-8的主干。

在FFM-B1和FFM-B2中，SEM-B Block的深度始终影响着网络的整体性能。本实施例设置参数α分别控制SEM-B Block1和SEM-B Block2中SEM-B的数量M和N，探索参数α对LMFFNet的参数性能的影响。如表3所示，首先设置M=α，将N固定设置为8。从表中可以看出，随着α的增加，LMFFNet的mIoU一直保持不变，直至α=6时才出现提升。而当α=8时，mIoU又下降，其原因是SEM-B Block1中的SEM-B的空洞率均设计为2，随着SEM-B数量增加，感受野提升不大，因此mIoU基本没有提升；当SEM-B深度增加到一定深度时，由于叠加在后面的SEM-B已处于深层网络，捕获更多全局语义信息，mIoU提升。当深度继续增加时，由于出现过拟合而导致mIoU下降，因此，通过表3的分析，M=3时是SEM-B Blcok1最能权衡mIoU、参数量和前向推理速度性能的SEM-B数量。当设置M=3，N=α时，可以明显看到随着α的不断增加，LMFFNet的mIoU不断增加，当增加至8时达到最大值。因为SEM-B Block2中的SEM-B的空洞率设置规则为2,2,4,4,......,16,16,32,32，空洞率成倍增加并且基本维持较大的空洞率，具有更大的感受野，故其mIoU不断增加。因此将N设置为8时能够达到最好的参数性能。

因此，当M=3，N=8时，LMFFNet的参数性能能够在mIoU、前向推理速度和参数量三者保持较好的权衡，这和贝叶斯优化自动搜素M和N深度得到的结论是一致的，验证了通过自定义一个平衡指标使用贝叶斯自动优化最佳M、N深度的有效性。

为了评估SEM-B的有效性，本实施例使用ResNet的bottleneck瓶颈结构、ERFNet的非瓶颈结构Non-bt-1D、LEDNet的瓶颈结构SS-nbt和DABNet的DAB模块来代替LMFFNet中的SEM-B，分别构建了四个分割网络。根据表4的实验结果，使用ResNet瓶颈结构构建的语义分割网络使得分割网络的参数量最少，推理速度最快，但准确性损失较大。使用Non-bt-1D构建的语义分割网络具有74.3% mIoU的精度，但参数规模最大。与其它4个瓶颈相比，使用SEM-B构建的语义分割网络在只有1.35 M模型参数的情况下，以118.9 fps的高推理速度获得了74.9% mIoU的最佳分割精度，在分割精度、推理速度和模型参数之间实现了最好的权衡。

PMCA模块对网络性能的影响如表5所示。

表5 无注意力与采用不同注意力机制下的FFM结构性能表现

为了证明PMCA的有效性，本实施例中，在FFM中***不同的注意力模块来评估其参数性能，如表5所示，可以看出，PMCA比SENet提出的通道注意力模块高0.7%，推理速度损失很小。这表明，在实时语义分割应用场景中，PMCA可以取代当前流行的SENet通道注意模块。

FFM模块对网络性能的影响如表6和表7所示。

表6 在Cityscapes数据集上对FFM-B进行消融实验的实验结果

表7 在Cityscapes数据集上评估不同数量的FFM-B的实验结果

如表6所示，在FFM-B中添加一个或多个短程、中程和长程连接能够大大提高了模型的准确性。同时，在Cityscapes验证集上，短程和长程特征连接模型的mIoU达到74.9%，而在此基础上添加中程连接使模型的mIoU降低了1.2%。结果表明，FFM-B融合了短程连接的浅层特征和远程连接的下采样原始图像，取得了较好的性能。中间连接的特征与SEM-B的输出特征图接近，导致两个特征图的尺度相似。因此，FFM-B在使用中程连接进行多尺度融合时存在损害模型准确率的问题。

为了探究FFM-B的数量对网络的影响，本实施例在LMFFNet中使用了不同数量的FFM-B模块，并对其性能进行了评估，如表7所示。随着SEM-B数目的增加，模型的mIoU不断增加。但当FFM-B数量增加到4个时，mIoU开始下降。可能的原因是FFM-B数目的增加导致模型下采样次数增多，影响了空间细节信息的恢复，导致精度受损。此外，随着FFM-B数量的增加，模型参数的数量迅速增加，不利于轻量级应用场景。因此，本实施例将FFM-B的数量设置为2来构建实时语义分割网络。

FFM模块对网络性能的影响如表8和表9所示。

表8 在Cityscapes数据集上评估的MAD的实验结果

表9 在Cityscapes数据集上对MAD进行消融实验的实验结果

如表8所示，本实施例通过融合不同深度的特征生成注意力特征图，探究注意力特征图对解码器性能的影响。从表8中可以看出，仅使用浅层、中层或者深层特征图生成注意力特征图都损害了模型的表现，这是由于仅仅使用单尺度特征生成注意力特征图容易导致解码器在进行特征恢复过程中只关注单尺度特征，对于包含多尺度特征的图像，解码不能同时关注各个尺度的特征恢复，因此导致模型表现下降。而使用包含两种或者两种以上的特征时，若包含浅层特征，也会导致精度损失，这是因为浅层特征都是物体的局部激活而中层以及深层包含特征的语义激活，将仅包含局部激活的浅层特征与包含语义激活的中层和深层特征融合生成多尺度注意力特征图会对语义激活产生干扰，影响了解码器的特征恢复。

因此，当MAD采用中层和深层特征融合生成多尺度特征图时，能够对多尺度特征图中各个尺度的物体产生较好的分割结果。

为了验证MAD和FFM算法的有效性，本实施例进行了一系列的实验。首先，用一定数量的SEM-B构建LMFFNet的基础网络（Base网络），然后把FFM添加到“Base”网络，构建“Base+FFM”作为LMFFNet的骨干网络。把MAD、PAD和ERFD分别加入到“Base+FFM”骨干网络中，以进一步观察LMFFNet的性能变化。对比实验结果如表9所示，将FFM添加到“Base”网络构成“Base+FFM”骨干网络可以提高约1.1%的mIoU，但代价是模型参数增大，推理速度更慢。组合网络“Base+FFM+PAD”获得74.0% mIoU，另一个组合网络“Base+FFM+ERFD”获得74.3% mIoU。“Base+FFM+MAD”网络的精度达到74.9% mIoU，比“Base+FFM”网络提高了1.3% mIoU。结果表明，FFM和MAD结合在提高实时分割精度的同时，模型尺寸的增加是在可接受范围的。与PAD或ERFD相比，由FFM和MAD构建的LMFFNet在分割网络的准确率、推理速度和模型大小等方面取得了更好的平衡。

LMFFNet与现有最先进的方法的比较结果如表10、表11、表12、表13、表14和表15所示。

表10 在Cityscapes数据集上不同模型的预分类结果

表11 在Cityscapes数据集上LMFFNet与最先进语义分割方法的性能比较结果

表12 在CamVid数据集上LMFFNet与最先进的语义分割方法的性能比较结果

表13 在Cityscapes数据集上LMFFNet与最先进的语义分割方法的召回率、精度和F1分数的比较结果

表14 在KITTI数据集上LMFFNet与最先进的语义分割方法的性能比较结果

表15 在WildDash2数据集上LMFFNet与最先进的语义分割方法的性能比较结果

如表10所示，本实施例的LMFFNet-3-8在Cityscapes数据集上的分割精度比现有方法更高。另外，LMFFNet-3-8在交通灯和交通标志等小目标以及地形和植被等形状不确定对象的分割上比其它大多数网络表现更好。

如表11所示，表11给出了LMFFNet-3-8与其他最为流行的模型在Cityscapes数据集上的实验结果。LMFFNet-3-8实现了约75.1%的mIoU。与其他高质量的实时语义分割网络如BiSeNetV1_R(BiSeNetV1_ResNet18)、SwiftNet和ShelfNet相比，LMFFNet-3-8在没有任何预训练的情况下，获得了相当好的准确率。BiSeNetV1_R获得了74.7%的mIoU，但参数量高达49.0M。LMFFNet-3-8在稍微小一点的图像分辨率上获得了更高的精度，比BiSeNetV1_R高0.4%，而且模型的参数量非常少，比BiSeNetV1_R少大约44倍的参数量。SwiftNet在使用预训练时，在Cityscape验证集和测试集的分割精度更高。而在Cityscape验证集上，SwiftNet在未进行预训练的情况下仅获得70.4% mIoU，且SwiftNet的模型大小是LMFFNet-3-8的10倍以上。使用自定义的权衡mIoU、前向推理速度、参数量三者的权衡指标I_i来衡量各网络平衡性，LMFFNet-3-8的I_i高达1.60，达到最好的平衡，这说明了LMFFNet-3-8在mIoU、前向推理速度和参数量三者中获得比其他网络更好的权衡。表11还给出了每个模型推理速度和FLOPs的结果，其中，FLOPs@1024*表示将输入的待处理图像的分辨率标准化为1024×1024的尺寸后的FLOPs（浮点操作数）值。为了对速度进行公平的比较，本实施例在相同的3090GPU显卡上使用Pytorch平台对所有网络的推理速度进行评估。显然，与其它高精度网络，如SwiftNet、ESNet、BiSeNetV1_R相比，LMFFNet-3-8在GFLOPs@1024方面的数据相对较小。

此外，本实施例在CamVid数据集上评估了模型在两种分辨率图像上的性能。在CamVid数据集上进行的实验结果总结如表12所示，LMFFNet-3-8在精度上具有非常大优势，360×480和720×960图像的精度分别达到69.1%和72.0%的mIoU。而且，LMFFNet-3-8的推理速度远超实时分割的要求。

表13展示了各个网络在Cityscapes和CamVid数据集的召回率、精确率和F1-score，从表13可以明显看出LMFFNet-3-8在这个指标下均达到最好效果。

为了验证LMFFNet-3-8的稳健性，本实施例还在KITTI和WildDash2数据集上对其进行了评估。本实施例使用在Cityscapes数据集中训练过的模型，分别对KITTI数据集和WildDahs2数据集进行预测。结果如表14和表15所示，在KITTI数据集中，LMFFNet-3-8的mIoU高达49.3%，比ERFNet高6.4%，达到最好效果，并且权衡指数I_i是最高的。在WildDash2数据集中，LMFFNet-3-8获得了最高的精度和最快的推理速度，而权衡指数I_i也获得了最好的结果。

如图8所示，图8中的(a)为在评估Cityscapes数据集上评估不同语义分割网络在综合准确率与计算效率的性能结果对比图，图8中的(b)为在评估Cityscapes数据集上上评估不同语义分割网络的综合准确率与参数量的性能结果对比图，与现有技术框架相比，LMFFNet-3-8在精度上有明显的优势，并对实时分割任务保持了良好的推理速度。此外，图8中的(b)表明，对于具有有限硬件资源的边缘计算平台，LMFFNet-3-8在精度和参数大小之间获得了足够的权衡。

如图9和图10所示，图9为部分现有语义分割网络与LMFFNet-3-8在Cityscapes数据集的分割效果可视化对比图，图10为另一部分现有语义分割网络与LMFFNet-3-8在Cityscapes数据集的分割效果可视化对比图，从图9和图10中的方框框出部分可见，LMFFNet-3-8在交通标志、大巴前视镜、交通灯、离拍摄地点比较远的骑行者等等小尺度物体均有较好的分割，而其他网络通常会直接忽略这些物体或者把这些物体误分成其它类别，这从实际的分割可视化方面证明了LMFFNet-3-8相比于目前流行的语义分割网络的优越性。

如图11所示，图11为不同实时语义分割网络在CamVid数据集的分割效果可视化对比图，从图中可以看出，LMFFNet-3-8在行李箱和行人之间能够实现清晰的分割而不是像其它网络一样直接把行李箱也当成人的一部分，这说明了LMFFNet-3-8能够清晰地确定物体的边界，实现良好的分割效果。此外，在CamVid数据集中，LMFFNet-3-8对远处的行人和交通灯等较小尺度的目标也有良好地分割，这进一步说明了LMFFNet-3-8非常适合车道场景下的语义分割。

综上所述，LMFFNet以1.35M的参数量在Cityscapes数据测试集上达到75.1%的mIoU，在输入分辨率为512×1024时，前向推理速度高达118.9 fps。在CamVid数据集的实验中，在输入分辨率为360×480时，LMFFNet达到了69.1%的mIoU，在输入分辨率为720×960时，LMFFNet达到了72.0%，在两种输入分辨率下，前向推理速度分别为120.8 fps和116.4fps。LMFFNet在KITTI数据集和WildDash2数据集上分别达到49.3%和23.1%，与流行的语义分割网络相比均达到最好效果。

本发明提出的图像语义分割方法，能够在参数量相对较小的轻量级LMFFNet模型中保证模型的精度（Precision）和准确率（Accuracy），提高模型的推理速度（InferenceSpeed），实现图像的实时语义分割。

实施例5

请参阅图12，本实施例提出一种轻量级多尺度特征融合的实时图像语义分割***，应用于上述实施例所述的轻量级多尺度特征融合的实时图像语义分割方法中，包括：图像语义分割网络，所述图像语义分割网络包括初始化模块1、分离-提取-合并瓶颈模块2、分区-融合通道注意力模块3、特征融合模块4和多尺度注意力解码器5；所述分离-提取-合并瓶颈模块2包括若干个依次连接的分离-提取-合并瓶颈结构。

所述初始化模块1对待处理图像进行特征提取，得到待处理图像的初始特征图。

所述分离-提取-合并瓶颈模块2采用分离特征通道提取待处理图像的多尺度特征，得到多尺度特征图。本实施例中，分离-提取-合并瓶颈模块2中的分离-提取-合并瓶颈结构遵循分离-提取-合并的思想，首先使用一个3×3标准卷积层对待处理图像的初始特征图的有用的信息进行了压缩，然后采用Split特征通道分离，利用有感受野差异的并行双分支对压缩后的特征图进行特征处理，产生不同尺度的特征图，最后再次使用3×3标准卷积层对不同尺度的特征图融合多尺度信息，得到多尺度特征图，有效提升了图像语义分割网络的多尺度特征捕获能力，提高图像语义分割网络对不同尺度目标的分割能力。

所述分区-融合通道注意力模块3提取并融合初始特征图的全局通道信息和局部通道信息，得到通道信息特征图。本实施例中，分区-融合通道注意力模块3中包括全局注意力生成支路和局部注意力融合支路。在局部注意力融合支路中，以分区的方式先获取初始特征图的区域通道注意力权重，再以自适应学习的方式融合每个区域通道注意力权重，从分区角度考虑了特征图子区域的联系。全局注意力支路通过获取初始特征图的全局信息生成全局通道注意力权重。最后通过融合区域通道注意力权重和全局通道注意力权重，得到最终的通道注意力权重。同时融合了全局信息和局部信息生成通道注意力权重同时考虑了特征图的区域联系以及全局信息，提高了图像语义分割网络的准确率。

所述特征融合模块4将多尺度特征图、通道信息特征图和原始的待处理图像进行特征融合，得到融合特征图。本实施例中，将多尺度特征图、通道信息特征图和原始的待处理图像进行特征融合，融合和补充图像的有效信息和细节信息，提高了图像语义分割网络的准确率。

所述多尺度注意力解码器5根据融合特征图进行图像精度恢复，得到图像语义分割结果。本实施例中，通过融合了多尺度特征的融合特征图指导多尺度注意力解码器5进行图像精度恢复，对图像空间区域中重要的信息进行加权关注，对非重要信息进行抑制，有效地提升解码器对不同尺度物体的恢复精度。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.轻量级多尺度特征融合的实时图像语义分割方法，其特征在于，包括以下步骤：

S1：构建图像语义分割网络，所述图像语义分割网络包括初始化模块、分离-提取-合并瓶颈模块、分区-融合通道注意力模块、特征融合模块和多尺度注意力解码器；所述分离-提取-合并瓶颈模块包括若干个依次连接的分离-提取-合并瓶颈结构；

S2：将待处理图像输入所述图像语义分割网络，图像语义分割网络输出图像语义分割结果；

其中，所述初始化模块对待处理图像进行特征提取，得到待处理图像的初始特征图，具体包括以下步骤：

将待处理图像经过卷积层进行卷积操作，得到第一特征图；

将所述第一特征图与原始的待处理图像进行并行拼接，将拼接结果经过一个1×1卷积层进行卷积操作后，得到第二特征图；

所述分离-提取-合并瓶颈模块采用分离特征通道提取初始特征图的多尺度特征，得到多尺度特征图，具体包括以下步骤：

将第二特征图输入第一个分离-提取-合并瓶颈结构，所述第二特征图经过一个3×3的标准卷积层进行卷积操作后，将卷积操作结果通过通道分离生成两个特征图分别经过一个3×3的深度可分离卷积层和经过一个3×3的深度可分离空洞卷积层进行卷积操作；

将两个卷积操作结果进行合并，然后将合并结果经过一个3×3的标准卷积层进行卷积操作后与输入当前分离-提取-合并瓶颈结构的特征图进行特征映射，将特征映射结果输入下一个分离-提取-合并瓶颈结构进行处理；

经过若干个分离-提取-合并瓶颈结构处理后，得到多尺度特征图；

所述分区-融合通道注意力模块提取并融合初始特征图的全局通道信息和局部通道信息，得到通道信息特征图；

所述特征融合模块将多尺度特征图、通道信息特征图和原始的待处理图像进行特征融合，得到融合特征图；

所述多尺度注意力解码器基于融合特征图进行图像精度恢复，得到图像语义分割结果。

2.根据权利要求1所述的轻量级多尺度特征融合的实时图像语义分割方法，其特征在于，在一个分离-提取-合并瓶颈结构中，所述3×3的标准卷积层、3×3的深度可分离卷积层和3×3的深度可分离空洞卷积层的输出端均依次连接有PReLU激活层和BN层。

3.根据权利要求1所述的轻量级多尺度特征融合的实时图像语义分割方法，其特征在于，所述分区-融合通道注意力模块包括全局注意力生成支路和局部注意力融合支路；所述分区-融合通道注意力模块提取并融合初始特征图的全局通道信息和局部通道信息，得到通道信息特征图的步骤包括：

将所述分离-提取-合并瓶颈模块中第一个分离-提取-合并瓶颈结构输出的特征图A输入分区-融合通道注意力模块后分别进入全局注意力生成支路和局部注意力融合支路；

对输入全局注意力生成支路的特征图A₁进行全局平均池化并学习特征图A₁的通道权值，得到学习特征图A₁的全局通道信息；

对输入局部注意力融合支路的特征图A₂进行分区处理，将特征图A₂分为k个区域；对特征图A₂的k个区域分别进行全局平均池化并学***均池化值，得到特征图A₂的局部通道信息；

将所述全局通道信息和所述局部通道信息进行加权融合，根据加权融合结果对输出特征图进行特征提取，得到通道信息特征图。

4.根据权利要求3所述的轻量级多尺度特征融合的实时图像语义分割方法，其特征在于，所述特征融合模块将多尺度特征图、通道信息特征图和原始的待处理图像进行特征融合，得到融合特征图的步骤模块的步骤包括：

所述特征融合模块对多尺度特征图、通道信息特征图和原始的待处理图像进行通道方向上的拼接，将拼接结果经过一个1×1卷积层进行卷积操作，得到融合特征图。

5.根据权利要求1所述的轻量级多尺度特征融合的实时图像语义分割方法，其特征在于，将待处理图像经过卷积层进行卷积操作，得到第一特征图的步骤包括：

将待处理图像输入初始化模块，待处理图像经过一个步长为2的3×3的标准卷积层进行卷积操作，然后将卷积操作连续经过两个3×3的标准卷积层进行卷积操作，得到第一特征图。

6.根据权利要求1所述的轻量级多尺度特征融合的实时图像语义分割方法，其特征在于，所述分离-提取-合并瓶颈模块包括第一分离-提取-合并瓶颈模块和第二分离-提取-合并瓶颈模块；所述分区-融合通道注意力模块包括第一分区-融合通道注意力模块和第二分区-融合通道注意力模块；所述特征融合模块包括第一特征融合模块和第二特征融合模块；则将待处理图像输入图像语义分割网络，图像语义分割网络输出图像语义分割结果的步骤包括：

将待处理图像经过卷积层进行卷积操作，得到第一特征图；将所述第一特征图与原始的待处理图像进行并行拼接特征融合得到第二特征图；

将所述第二特征图进行下采样后输入第一分离-提取-合并瓶颈模块，第二特征图经过若干个分离-提取-合并瓶颈结构进行多尺度特征提取，得到第一多尺度特征图；将第一分离-提取-合并瓶颈模块中的第一个分离-提取-合并瓶颈结构的输出特征图传输至第一分区-融合通道注意力模块，所述第一分区-融合通道注意力模块提取并融合所述输出特征图的全局通道信息和局部通道信息，得到第一通道信息特征图；将所述第一多尺度特征图、第一通道信息特征图和待处理的原始图像输入第一特征融合模块，第一特征融合模块将第一多尺度特征图、第一通道信息特征和原始的待处理图像进行特征融合，得到第一融合特征图；

将所述第一融合特征图进行一次下采样后输入第二分离-提取-合并瓶颈模块，第一融合特征图经过若干个分离-提取-合并瓶颈结构进行多尺度特征提取，得到第二多尺度特征图；将第二分离-提取-合并瓶颈模块中的第一个分离-提取-合并瓶颈结构的输出特征图传输至第二分区-融合通道注意力模块，所述第二分区-融合通道注意力模块提取并融合所述输出特征图的全局通道信息和局部通道信息，得到第二通道信息特征图；将所述第二多尺度特征图、第二通道信息特征图和原始的待处理图像输入第二特征融合模块，第二特征融合模块将第二多尺度特征图、第二通道信息特征和原始的待处理图像进行特征融合，得到第二融合特征图；

将所述第一融合特征图和第二融合特征图输入所述多尺度注意力解码器，多尺度注意力解码器根据第一融合特征图和第二融合特征图进行图像精度恢复，得到图像语义分割结果。

7.根据权利要求6所述的轻量级多尺度特征融合的实时图像语义分割方法，其特征在于，所述第一融合特征图包括特征图F ₁₁，所述第二融合特征图包括特征图F ₂₁和特征图F ₃₁；将第一融合特征图和第二融合特征图输入所述多尺度注意力解码器，得到图像语义分割结果的步骤包括：

将特征图F ₁₁经过一个1×1标准卷积层进行卷积操作，得到特征通道数为C₁的特征图F ₁₂，将特征图F ₂₁经过一个1×1标准卷积层进行卷积操作后得到特征通道数为C₂的特征图F ₂₂，对特征图F ₂₂进行双线性上采样得到特征图F ₂₃，其表达式如下所示：

其中，

表示1×1的卷积计算，

表示双线性上采样；

将所述特征图F ₁₂和特征图F ₂₃进行通道方向上的拼接，然后将拼接结果经过一个深度可分离卷积层和一个Sigmoid激活函数，得到多尺度注意力特征图M _mam，其表达式如下所示：

其中，

表示Sigmoid激活函数，

表示深度可分离卷积层的逐点卷积，

表示深度可分离卷积层的深度卷积，

表示对若干个特征图进行通道方向上的拼接；

将多尺度注意力特征图M _mam和特征图F ₃₃进行像素级别的相乘，并对F ₃₃的空间特征信息进行加权关注，得到像素类别矩阵F _output作为图像语义分割结果，其表达式如下所示：

。

8.轻量级多尺度特征融合的实时图像语义分割***，应用于权利要求1-7任一项所述的轻量级多尺度特征融合的实时图像语义分割方法，其特征在于，包括：

图像语义分割网络，所述图像语义分割网络包括初始化模块、分离-提取-合并瓶颈模块、分区-融合通道注意力模块、特征融合模块和多尺度注意力解码器；所述分离-提取-合并瓶颈模块包括若干个依次连接的分离-提取-合并瓶颈结构；

所述初始化模块对待处理图像进行特征提取，得到待处理图像的初始特征图；

所述分离-提取-合并瓶颈模块采用分离特征通道提取待处理图像特征图的多尺度特征，得到多尺度特征图；

所述多尺度注意力解码器根据融合特征图进行图像精度恢复，得到图像语义分割结果。