CN116310324A

CN116310324A - 一种基于语义分割的金字塔跨层融合解码器

Info

Publication number: CN116310324A
Application number: CN202310169764.2A
Authority: CN
Inventors: 张颂扬; 任歌; 张亮; 林鸿
Original assignee: Zhengzhou Institute Of Advanced Measurement Technology
Current assignee: Zhengzhou Institute Of Advanced Measurement Technology
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-06-23

Abstract

本发明公开了一种基于金字塔跨层融合解码器的图像语义分割方法，通过对解码器结构进行优化，利用RCE能够从特征金字塔中生成丰富的上下文信息，提升模型的表征能力，并通过Fusion Block将ViT Adapter编码器中的跨层融合扩展应用到解码器中，实现上下文信息和空间信息的交互融合，从而提升语义分割的效果。

Description

一种基于语义分割的金字塔跨层融合解码器

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于语义分割的金字塔跨层融合解码器。

背景技术

按照日常生活中对事物的分类标准(即语义标准)，对输入图像的每一个像素点进行分类，并根据分类的结果赋予图像每个像素各自所属分类的颜色，即给图像上色。由于同一分类被标记上同一颜色，相对于输入图像而言，像是从输入图像中分离(或分割)出来，故该技术被称为语义分割。至于如何产生语义分割图像，则是语义分割模型的任务，标准的语义分割模型具有编码器-解码器架构，编码器用于特征表示学习，而解码器用于进行编码器产生的特征表示的像素级分类。现有的语义分割模型可分为两类：基于CNN和基于Transformer的语义分割模型。

基于CNN的语义分割模型：基于CNN的分割模型从卷积的特性来看可以分为两类：基于膨胀卷积和基于普通卷积。

其中，基于膨胀卷积的模型有：PSPNet^[13]对金字塔层进行常规卷积，捕捉多尺度语义信息；DeepLab系列^[3-6]采用不同膨胀率的并行扩张卷积(不同膨胀卷积捕捉不同尺度的上下文信息)。最近的工作^[17-20]提出了多种扩展解码器，例如，DenseASPP^[14]采用更大膨胀率的膨胀卷积，覆盖更大感受野，其他一些研究^[6,18]构建编解码器结构，利用多分辨率特征作为多尺度上下文。DANet^[2]和OCNet^[17]通过聚合上下文像素的表示来增强每个像素的表示，其中上下文由所有像素组成，与全局的上下文不同，这些工作考虑了基于自注意力方案^[27]的像素之间的关系或相似度，并以相似性为权重进行加权聚合，且其中依旧是通过膨胀卷积来获取更大的感受野，融合语义信息。

基于普通卷积的模型有：FCN^[1]、FPN^[8]和UperNet^[7]等，其中FCN是语义分割模型的开山之作，通过金字塔特征图之间的上采样、拼接操作实现各层之间特征的融合；而FPN则是通过金字塔特征图之间的上采样、特征线性相加实现各层之间的融合；UperNet是通过金字塔池化模块实现特征的自适应聚合，来提升模型的表征能力。

基于Transformer的分割模型已经彻底改变神经语言处理技术，并在计算机视觉方面非常成功。ViT^[26]是第一个用于图像分类的端到端视觉变压器，它通过将输入的图像转化成一个序列，并将其附加到一个类标记上。DeiT^[18]通过蒸馏的方式，引入了一种教师-学生的训练策略，提高ViT的训练效率。除了序列到序列的模型结构外，PVT^[19]和SwinTransformer^[11]的出现，引起了人们对Vision Transformer的兴趣。ViT也被应用到解决下游任务和密集型预测的问题中，特别是由ViT驱动的并行语义分割方向有着不错的性能。SETR^[21]将ViT作为编码器，并对输出的Patch Embedding进行上采样，以对像素进行分类。与SETR不同，Swin Transformer和ViT Adapter^[9]是将CNN的思想运用到Transformer上(模型的主体依旧是Transformer)；SwinTransformer保留了传统的卷积神经网络编码器输出特征图的金字塔结构，金字塔结构的保留能够结合传统神经网络的解码器，从而实现基于Transformer的视觉下游任务；ViT Adapter作为卷积神经网络和ViT Transformer融合的产物，用于弥补ViT和视觉特异性变压器之间的性能差距。在不改变ViT结构的情况下，通过设计空间先验模块(Spatial Prior Module)和两个特征交互模块(Spatial FeatureInjector和Multi-Scale Feature Extractor)提取多尺度特征信息。

基于CNN的语义分割模型中，基于膨胀卷积的模型中膨胀卷积的出现会导致语义分割模型的解码器特征图的尺寸增加，进而导致模型后续注意力机制的计算量增加。而基于普通卷积的模型中，FCN和FPN由于深层和浅层之间特征信息的差异，简单的连续上采样并不能够使得深层特征与浅层特征更好的融合，且该融合并未引入注意力机制，缺乏全局的特征信息。而UperNet的模型模型复杂度受编码器特征金字塔的特征通道限制，导致模型本身的计算量和浮点运算量增加。

基于Transformer的语义分割模型中，由于CNN和Transformer是两种不同的模型结构，很多基于膨胀卷积的模型架构无法在Transformer上使用。由于ViT Transformer关注的是特征之间的相似性，缺乏空间上连续性的先验知识，导致模型的表征能力降低。而Swin Transformer和ViT Adapter尽管将空间上连续性的先验知识考虑在内，但特征金字塔的特征维度过高，导致模型的参数量和浮点计算量增加。

参考文献：

[1]J.Long,E.Shelhamer and T.Darrell,"Fully convolutional networks forsemantic segmentation,"2015 IEEE Conference on Computer Vision and PatternRecognition(CVPR),2015,pp.3431-3440,doi:10.1109/CVPR.2015.7298965.

[2]J.Fu et al.,"Dual Attention Network for Scene Segmentation,"2019IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2019,pp.3141-3149,doi:10.1109/CVPR.2019.00326.

[3]Chen,L.,Papandreou,G.,Kokkinos,I.,Murphy,K.P.,&Yuille,A.L.(2015).Semantic Image Segmentation with Deep Convolutional Nets and Fully ConnectedCRFs.CoRR,abs/1412.7062.

[4]Chen,L.,Papandreou,G.,Kokkinos,I.,Murphy,K.P.,&Yuille,A.L.(2018).DeepLab:Semantic Image Segmentation with Deep Convolutional Nets,AtrousConvolution,and Fully Connected CRFs.IEEE Transactions on Pattern Analysisand Machine Intelligence,40,834-848.

[5]Chen,L.,Papandreou,G.,Schroff,F.,&Adam,H.(2017).Rethinking AtrousConvolution for Semantic Image Segmentation.ArXiv,abs/1706.05587.

[6]Chen,L.,Zhu,Y.,Papandreou,G.,Schroff,F.,&Adam,H.(2018).Encoder-Decoder with Atrous Separable Convolution for Semantic ImageSegmentation.ECCV.

[7]Xiao,T.,Liu,Y.,Zhou,B.,Jiang,Y.,Sun,J.(2018).Unified PerceptualParsing for Scene Understanding.In:Ferrari,V.,Hebert,M.,Sminchisescu,C.,Weiss,Y.(eds)Computer Vision–ECCV 2018.ECCV 2018.Lecture Notes in ComputerScience(),vol 11209.Springer,Cham.https://doi.org/10.1007/978-3-030-01228-1_26

[8]Lin,T.,Dollár,P.,Girshick,R.B.,He,K.,Hariharan,B.,&Belongie,S.J.(2017).Feature Pyramid Networks for Object Detection.2017 IEEE Conference onComputer Vision and Pattern Recognition(CVPR),936-944.

[9]Chen,Z.,Duan,Y.,Wang,W.,He,J.,Lu,T.,Dai,J.,&Qiao,Y.(2022).VisionTransformer Adapter for Dense Predictions.ArXiv,abs/2205.08534.

[10]K.He,X.Zhang,S.Ren and J.Sun,"Deep Residual Learning for ImageRecognition,"2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016,pp.770-778,doi:10.1109/CVPR.2016.90.

[11]Z.Liu et al.,"Swin Transformer:Hierarchical Vision Transformerusing Shifted Windows,"2021 IEEE/CVF International Conference on ComputerVision(ICCV),2021,pp.9992-10002,doi:10.1109/ICCV48922.2021.00986.

[12]M.Cordts et al.,"The Cityscapes Dataset for Semantic Urban SceneUnderstanding,"2016 IEEE Conference on Computer Vision and PatternRecognition(CVPR),2016,pp.3213-3223,doi:10.1109/CVPR.2016.350.

[13]H.Zhao,J.Shi,X.Qi,X.Wang and J.Jia,"Pyramid Scene ParsingNetwork,"2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017,pp.6230-6239,doi:10.1109/CVPR.2017.660.

[14]M.Yang,K.Yu,C.Zhang,Z.Li and K.Yang,"DenseASPP for SemanticSegmentation in Street Scenes,"2018 IEEE/CVF Conference on Computer Visionand Pattern Recognition,2018,pp.3684-3692,doi:10.1109/CVPR.2018.00388.

[15]J.He,Z.Deng,L.Zhou,Y.Wang and Y.Qiao,"Adaptive Pyramid ContextNetwork for Semantic Segmentation,"2019IEEE/CVF Conference on Computer Visionand Pattern Recognition(CVPR),2019,pp.7511-7520,doi:10.1109/CVPR.2019.00770.

[16]Z.Zhu,M.Xu,S.Bai,T.Huang and X.Bai,"Asymmetric Non-Local NeuralNetworks for Semantic Segmentation,"2019IEEE/CVF International Conference onComputer Vision(ICCV),2019,pp.593-602,doi:10.1109/ICCV.2019.00068.

[17]Yuan,Y.,&Wang,J.(2018).OCNet:Object Context Network for SceneParsing.ArXiv,abs/1809.00916.

[18]Touvron,H.,Cord,M.,Douze,M.,Massa,F.,Sablayrolles,A.,&J'egou,H.(2021).Training data-efficient image transformers&distillation throughattention.ICML.

[19]Wang,W.,Xie,E.,Li,X.,Fan,D.,Song,K.,Liang,D.,Lu,T.,Luo,P.,&Shao,L.(2021).Pyramid Vision Transformer:A Versatile Backbone for Dense Predictionwithout Convolutions.2021 IEEE/CVF International Conference on ComputerVision(ICCV),548-558.

[20]Zheng,S.,Lu,J.,Zhao,H.,Zhu,X.,Luo,Z.,Wang,Y.,Fu,Y.,Feng,J.,Xiang,T.,Torr,P.H.,&Zhang,L.(2021).Rethinking Semantic Segmentation from aSequence-to-Sequence Perspective with Transformers.2021 IEEE/CVF Conferenceon Computer Vision and Pattern Recognition(CVPR),6877-6886.

[21]J.Fu,J.Liu,J.Jiang,Y.Li,Y.Bao and H.Lu,"Scene Segmentation WithDual Relation-Aware Attention Network,"in IEEE Transactions on NeuralNetworks and Learning Systems,vol.32,no.6,pp.2547-2560,June 2021,doi:10.1109/TNNLS.2020.3006524.

[22]Bousselham,W.,Thibault,G.,Pagano,L.,Machireddy,A.,Gray,J.,&Chang,Y.H.,et al.(2021).Efficient self-ensemble framework for semanticsegmentation.

[23]Yuhui Yuan,Xiaokang Chen,Xilin Chen,and JingdongWang.Segmentation transformer:Object-contextual representations for semanticsegmentation,2021.

[24]Sixiao Zheng,Jiachen Lu,Hengshuang Zhao,Xiatian Zhu,Zekun Luo,Yabiao Wang,Yanwei Fu,Jianfeng Feng,Tao Xiang,Philip H.S.Torr,and LiZhang.Rethinking semantic segmentation from a sequence-to-sequenceperspective with transformers,2021.

[25]Cheng,B.,Misra,I.,Schwing,A.G.,Kirillov,A.,&Girdhar,R.(2021).Masked-attention Mask Transformer for Universal Image Segmentation.2022IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),1280-1289.

[26]Dosovitskiy,A.,Beyer,L.,Kolesnikov,A.,Weissenborn,D.,Zhai,X.,Unterthiner,T.,Dehghani,M.,Minderer,M.,Heigold,G.,Gelly,S.,Uszkoreit,J.,&Houlsby,N.(2020).An Image is Worth 16x16 Words:Transformers for ImageRecognition at Scale.ArXiv,abs/2010.11929.

[27]Lin,Zhouhan,Minwei Feng,Cícero Nogueira dos Santos,Mo Yu,BingXiang,Bowen Zhou and YoshuaBengio.“A Structured Self-attentive SentenceEmbedding.”ArXiv abs/1703.03130(2017):n.pag.

[28]Raghu,Maithra,Thomas Unterthiner,Simon Kornblith,Chiyuan Zhangand Alexey Dosovitskiy.“Do Vision Transformers See Like Convolutional NeuralNetworks？”Neural Information Processing Systems(2021).

发明内容

针对现有技术的不足，本发明旨在提供一种基于语义分割的金字塔跨层融合解码器。

为了实现上述目的，本发明采用如下技术方案：

一种基于金字塔跨层融合解码器的图像语义分割方法，具体过程为：

S1、输入图像；

S2、数据预处理；

S3、将经过步骤S2处理的图像送入编码器，产生原始的特征金字塔F₁、F₂、F₃、F₄；

S4、将步骤S2.4所得原始的特征金字塔送入金字塔跨层融合解码器；在金字塔跨层融合解码器中，原始的特征金字塔首先经过增强的上下文嵌入RCE和融合模块Fusionblock后产生特征金字塔F₁ ^*、F₂ ^*、F₃ ^*、F₄ ^*；然后F₁ ^*、F₂ ^*、F₃ ^*、F₄ ^*送入FCFPN，输出最终的语义分割结果；其中FCFPN为不带池化金字塔模块的UperNet解码器；具体过程为：

S4.1、构造空间信息：通过编码器本身具有的空间特征即F₂、F₃和F₄作为空间信息，即

其中H_i、W_i分别是特征图F_i，i＝2,3,4的高度和宽度，D是嵌入维度，该值与增强的上下文嵌入RCE形成的上下文信息维度相同；

S4.2、生成上下文信息：

直接利用编码器输出的特征图F_i,i＝(2,3,4)，先通过卷积核大小为1×1的卷积Conv来压缩通道；接着，将F₂、F₄分别上采样和下采样到F₃的尺寸，此时形成的F'₂、F'₃、F'₄的尺寸相同，再通过一个卷积核大小为1×1的卷积Conv，并执行Flatten操作，从而形成了上下文信息

其中D是嵌入维度；

S4.3、融合模块包括注射器、提取器、跨窗口注意力模块Swin Block三部分，其中注射器和提取器就是ViT Adapter中的空间特征注射器和多尺度特征提取器，注射器将空间信息的特征注意力融合到上下文信息中，而提取器将上下文信息的特征注意力赋予到空间信息中，跨窗口注意力模块用于实现跨窗口的注意力机制；

空间信息和上下文信息经过融合模块后产生得到F₂ ^*、F₃ ^*、F₄ ^*；

S4.4、步骤S4.3所得的F₂ ^*、F₃ ^*、F₄ ^*和F₁经过跨层融合模块CLGD后，得到F₁ ^*；

S4.5、最后，F₁ ^*、F₂ ^*、F₃ ^*、F₄ ^*送入不带池化金字塔模块的UperNet解码器，输出最终的语义分割结果。

进一步地，步骤S2的具体过程为：

S2.1、归一化：将RGB图像F₀三个通道上的数值进行归一化处理，即F₀ ⁿ＝F₀/255＝[F_R,F_G,F_B]/255，其中F_R,F_G,F_B的尺寸大小均为1024×2048；

S2.2、标准化：按照R、G、B三个通道维度方向进行标准化，即F₀ ^ns＝(F₀ ⁿ-mean)/std，其中mean＝[0.485,0.456,0.406]，std＝[0.229,0.224,0.225]。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述方法。

本发明还提供一种计算机设备，包括处理器和存储器，所述存储器用于存储计算机程序；所述处理器用于执行所述计算机程序时，实现上述方法。

本发明的有益效果在于：本发明方法中，通过对解码器结构进行优化，利用RCE能够从特征金字塔中生成丰富的上下文信息，提升模型的表征能力，并通过Fusion Block将ViT Adapter编码器中的跨层融合扩展应用到解码器中，实现上下文信息和空间信息的交互融合，从而提升语义分割的效果。

附图说明

图1为本发明实施例1方法实现的总体架构示意图；

图2为本发明实施例1中RCE的运行处理图；

图3为ViT Adapter编码器和Fusionblock的结构示意图；

图4为本发明实施例2中特征图可视化的示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

本实施例提供一种基于金字塔跨层融合解码器的图像语义分割方法，如图1所示，具体过程为：

S1、输入图像：所述图像为RGB图像F₀，F₀数字化表示的尺寸形状为3×1024×2048；其中3是R(red)、G(green)、B(blue)三个通道，1024×2048是图像的宽和高；

S2、数据预处理：

S2.1、归一化：为了便于模型提取特征，需要将RGB图像F₀三个通道上的数值进行归一化(normalization)处理，即F₀ ⁿ＝F₀/255＝[F_R,F_G,F_B]/255，其中F_R,F_G,F_B的尺寸大小均为1024×2048；

S2.2、标准化：为了使得模型加快收敛，本实施例按照R、G、B三个通道维度方向进行标准化(standardization)，即F₀ ^ns＝(F₀ ⁿ-mean)/std，其中mean＝[0.485,0.456,0.406]，std＝[0.229,0.224,0.225]；

S3、将经过步骤S2处理的图像送入编码器，产生原始的特征金字塔F₁、F₂、F₃、F₄。本实施例中，以Swin-Large作为编码器。

S4、将步骤S2.4所得原始的特征金字塔送入金字塔跨层融合解码器；在金字塔跨层融合解码器中，原始的特征金字塔首先经过增强的上下文嵌入RCE和融合模块Fusionblock后产生特征金字塔F₁ ^*、F₂ ^*、F₃ ^*、F₄ ^*；然后F₁ ^*、F₂ ^*、F₃ ^*、F₄ ^*送入FCFPN，输出最终的语义分割结果；其中FCFPN为不带池化金字塔模块(Pooling Pyramid Module，PPM)的UperNet解码器。

具体地，将图像场景中的物体分为N类，则模型的输出尺寸O＝[O₀,O₁,...,O_N-1]，其中O_i的尺寸大小为1024×2048，O_i表示图像位置[H_i,W_i]输出第i个分类的概率。选取[H_i,W_i]处概率最大值的通道下标作为该像素所属的分类标号，属于同一分类标号的都被标记为同一个颜色。

如图1所示，增强的上下文嵌入(RCE，Reinforce Context Embedding)用于获取特征图的语义信息(F_c)；融合模块Fusion Block用于上下文信息(Context Information)和空间信息(SpacialInformation)的融合；CLGD^[20]为语义信息F_c ^*和F₁的跨层融合模块；FCFPN是不带池化金字塔模块PPM的UperNet解码器。

在本实施例中，步骤S4的具体过程为：

S4.1、构造空间信息。空间信息的构造方法与视觉变换器适配器ViT Adapter中的空间先验模块(Spacial Prior Module)类似，不同的是，本实施例方法通过编码器本身具有的空间特征(即F₂、F₃和F₄)作为空间信息，即

其中H_i、W_i分别是特征图F_i(i＝2,3,4)的高度和宽度，D是嵌入维度(Embedding Dim)，该值与增强的上下文嵌入RCE形成的上下文信息F_c维度相同。

S4.2、生成上下文信息。

由于UperNet解码器自身的模型大小限制受限于编码器的特征金字塔的特征通道数，本实施例方法通过嵌入维度对编码器生成的特征进行特征压缩。

具体地，为了增强模型的表征能力，本实施例方法通过RCE压缩了原始的特征金字塔，形成了上下文信息，如图2所示。由于传统的卷积神经网络结构本身就具有补丁嵌入(Patch Embedding)的功能，即通过卷积和下采样实现网络在同一尺度下的信息提取，因此可以直接利用卷积神经网络本身的特征输出当作多尺度的补丁嵌入。此外，通道数通过嵌入维度来控制。

更具体地，通过RCE形成上下文信息的具体过程为，如图2所示，直接利用编码器输出的特征图F_i,i＝(2,3,4)，先通过卷积核大小为1×1的卷积Conv来压缩通道；接着，为了能够在通道维度拼接，将F₂、F₄分别上采样和下采样到F₃的尺寸，此时形成的F'₂、F'₃、F'₄的尺寸相同，再通过一个卷积核大小为1×1的卷积Conv，并执行Flatten操作，从而形成了上下文信息

其中D是嵌入维度。

S4.3、通过步骤S4.1和S4.2已经得到了上下文信息F_c和空间信息F_sp，接下来要实现两个信息的交互。本实施例中，融合模块Fusion Block的设计思想来源于ViT Adapter中的Cross Attention思想，与ViT Adapter不同的是，如图3(a)所示，ViT Adapter是以ViT为主体，但以ViT为主体的多个ViT Block会导致模型的计算复杂度增加，为了能够降低模型的复杂度，本实施例方法在设计解码器的融合模块Fusion Block时，内部不再通过多个VitBlock，而是仅通过一个ViT Block实现对语义信息的矫正，为了能够实现跨窗口的注意力，用Swin Block代替ViT Block，从而解决特征金字塔由于层与层之间的尺寸问题，难以在单一尺度上引入注意力机制的问题。

具体地，Fusion Block的结构如图3(b)所示，包括注射器Injector、提取器Extractor、跨窗口注意力模块Swin Block三部分，其中注射器Injector和提取器Extractor就是ViT Adapter中的空间特征注射器Spatial Feature Injector和多尺度特征提取器Multi-Scale Feature Extractor，注射器Injector将空间信息的特征注意力融合到上下文信息中，而提取器Extractor将上下文信息的特征注意力赋予到空间信息中，从而可以将特征金字塔的深层特征更好地作用于浅层特征；跨窗口注意力模块Swin Block用于实现跨窗口的注意力机制。

空间信息和上下文信息经过融合模块Fusion Block后产生得到F₂ ^*、F₃ ^*、F₄ ^*；

S4.4、步骤S4.3所得的F₂ ^*、F₃ ^*、F₄ ^*和F₁经过跨层融合模块CLGD后，得到F₁ ^*。

实施例2

为了证明实施例1方法的有效性，本实施例旨在Cityscapes数据集^[12]上进行如下消融实验：

1、模型的评价标准

本实施例通过三个标准实现对模型的评价，这三个标准分别是：平均交并比MeanIntersection over union(Mean IoU)、浮点运算量floating point operations(FLOPs)、参数量Parameters(Param)

①Mean IoU：

TP：事实上是正样本，模型预测结果也是正样本的样本数；

TN：事实上是负样本，模型预测结果也是负样本的样本数；

FP：事实上是负样本，但模型预测结果是正样本的样本数；

FN：事实上是正样本，但模型预测结果是负样本的样本数；所以

而Mean IoU则是该数据集中所有类别交并比的均值。值越大，模型的精度越高。

②FLOPs：指浮点运算数，可以理解为计算量，用于衡量模型的计算复杂度。值越大，模型的计算量越大。

③Param：指参数量，是一个模型可学习参数的数量，用于衡量模型的大小。值越大，模型占用的空间就越大。

2、RCE的消融实验

实施例1方法通过RCE来获取丰富的语义信息。为了证明RCE的作用，本实施例设计了不同层的融合策略，如表1所示。

表1

表1是RCE在Cityscapes验证集上的消融实验结果，其中RCE(*)指参与RCE的backbone网络输出层F_i。

正如表1所示，RCE对分割的精度有显著的提升。与FCFPN相比，F₂、F₃和F₄作为RCE特征输入的精度最终有1.97％(Res50)和1.91(Res101)的提升。由此可以看出，在不显著增加模型计算量和参数量的情况下，将F₂、F₃和F₄作为Embedding Layer是最好的选择。对于语义分割而言，Context Information是特征图信息表征的关键，不同尺度下的特征图能够关注到不同的上下文信息，更有利于提高模型的分割精度。在之后的，RCE默认将F₂、F₃和F₄作为Embedding Layer。

3、Fusion Block(FB)的消融实验

表2

表2为Fusion Block(FB)和RCE在Cityscapes数据集上的消融实验结果，由于FB本身的模型特性，即必须通过一个Patch Embedding将二维的特征图序列化，本实施例选择了最深层的特征F₄作为Patch Embedding的输入。

如表2所示，本实施例依旧将FCFPN作为基线(baseline)，首先，为了确定FB、RCE分别对模型精度的影响，单独做了上述实验，关于FB，与FCFPN相比，在backbone分别为Res50和Res101下，各自有5.71％、4.85％的提升；而同时使用FB和RCE，则分别有6.09％、5.24％的提升，从而说明FB和RCE对模型精度的影响。

4、模型的超参数设置

由于ViT Adapter中通过设置不同的Embedding Dim和head，设计了不同规模的编码器。基于该思想，本实施例也设定了五种不同模式下的解码器设置，来探讨不同模式下金字塔跨层融合解码器(以下简称PCFD)的性能。如下表3所示，将PCFD分为五种模式，分别是tiny、small、base和large，在之前的消融实验中，本实施例默认采用的设置是tiny模式。

表3

表3为PCFD的超参数设置；Embedding Dim表示上下文信息和空间信息的特征维度(特征通道数)，Head(Space,Context,Swin)表示注射器Injector、提取器Extractor、跨窗口注意力模块Swin Block中的注意力头数。

表4

表4所示为不同模式下，Cityscapes数据集上的实验结果，其中

表示该模型在训练时采用了OHEM^[17]的训练策略。

从上述实验结果可以看出，PCFD并没有随着模型模式的提升，模型的精度有明显的提升。所以在后续的实验中只选择tiny模式作为默认的模型超参数配置。

实施例3

为了证明PCFD的优点，本实施例旨在进行以下对比实验：该实验依旧是在Cityscapes数据集上进行。

表5

/>

表5所示为在Cityscapes数据集上的对比，其中FLOPs是在同一输入尺寸时模型的浮点运算数，*表示该模型结构在训练用到了其它数据集进行微调的方式，

该模型在训练时采用了OHEM^[26]的训练策略。#表示训练时模型的crop_size为896×896。OM表示Out ofMemory。

表5展示了Cityscapes上最先进方法的结果。其中分为两组，第一组是以CNN为backbone的测试，而第二组是以Tranformer为backbone的测试。在该数据集上，当选用标准Resnet为CNN的代表时，PCFD无论是模型参数量、浮点计算量上，还是在模型精度上，都优于其他方法。而在以Swin-L和ViT-Adapter-L作为backbone时，PCFD与最好的模型精度(mIoU)存在0.8％的差距，但与ViT-Adatper-UperNet相比，PCFD的参数量和浮点计算量分别降低了23％和68％。

特征可视化：由于不同编码器本身的特性不同，我们将编码器分为三类，分别是CNN、ViT、ViT Adapter，而PFD在这三类中的作用却略微不同。

如图4所示，本实施例可视化了ResNet、Swin Transformer和Vit Adapter这三种编码器的特征图F_i以及它们各自经过RCE和Fusion Block后得到的特征图F_i ^*，其中i∈[1,4]，其中分别以ResNet101、Swin Large和ViT Adapter为例。从图中可以看到，ResNet101和Swin Large的特征图可视化存在很大的差异，其根本原因在最近的工作^[28]中已经提到。

但二者对于F₁而言，经过特征融合之后，都能够清晰地映射出分割物体的边缘和减轻物体轮廓内部的纹理。

在R101中，由于卷积网络的关注的是空间局部特征，在经过PCFD之后，实现了特征通道的压缩、注意力机制的引入和深层特征与浅层特征的融合。

在Swin Transformer中，由于Transformer本身就注重全局特征的相似度，经过PCFD后，通过将经过RCE得到的上下文信息与空间信息的跨层融合，增强了浅层特征的语义区分。所以PCFD在Swin Transformer中的作用就是特征通道的压缩、深层特征与浅层特征的融合。

在ViT Adapter中，由于ViT Adapter本身的特性(输入图像的宽高必须一致)，本实施例选取了原始图像的部分作为模型的输入，并将特征图缩放到与R101-PCFD和Swin-PCFD特征图相同的大小。从可视化特征图可以看出，经过PCFD后，不同分类之间的特征区分度增加，且经过特征压缩后，特征并无太大的损失，浅层特征F₂也融合了深层的上下文信息。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种基于金字塔跨层融合解码器的图像语义分割方法，其特征在于，具体过程为：

S1、输入图像；

S2、数据预处理；

S4、将步骤S2.4所得原始的特征金字塔送入金字塔跨层融合解码器；在金字塔跨层融合解码器中，原始的特征金字塔首先经过增强的上下文嵌入RCE和融合模块Fusion block后产生特征金字塔F₁ ^*、F₂ ^*、F₃ ^*、F₄ ^*；然后F₁ ^*、F₂ ^*、F₃ ^*、F₄ ^*送入FCFPN，输出最终的语义分割结果；其中FCFPN为不带池化金字塔模块的UperNet解码器；具体过程为：

S4.2、生成上下文信息：

直接利用编码器输出的特征图F_i,i＝(2,3,4)，先通过卷积核大小为1×1的卷积Conv来压缩通道；接着，将F₂、F₄分别上采样和下采样到F₃的尺寸，此时形成的F′₂、F′₃、F′₄的尺寸相同，再通过一个卷积核大小为1×1的卷积Conv，并执行Flatten操作，从而形成了上下文信息

其中D是嵌入维度；

2.根据权利要求1所述的方法，其特征在于，步骤S2的具体过程为：

3.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-2任一所述的方法。

4.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序；所述处理器用于执行所述计算机程序时，实现权利要求1-2任一所述的方法。