CN117314938B

CN117314938B - 一种基于多尺度特征融合译码的图像分割方法及装置

Info

Publication number: CN117314938B
Application number: CN202311529949.6A
Authority: CN
Inventors: 马腾辉; 李叶; 许乐乐; 徐金中; 郭丽丽
Original assignee: Technology and Engineering Center for Space Utilization of CAS
Current assignee: Technology and Engineering Center for Space Utilization of CAS
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-04-05
Anticipated expiration: 2043-11-16
Also published as: CN117314938A

Abstract

本公开实施例的一种基于多尺度特征融合译码的图像分割方法及装置，所述方法包括：获取原始图像的多尺度特征图；对多尺度特征图进行上采样得到上采样特征图，将多尺度特征图与上采样特征图进行融合，得到多尺度融合特征图，对多尺度融合特征图依次进行编码生成多尺度嵌入张量；对多尺度嵌入张量进行译码，得到多尺度掩膜张量与多尺度关键角点张量；对多尺度嵌入张量进行再次译码，得到多尺度轮廓张量；将多尺度掩膜张量、多尺度关键角点张量、多尺度轮廓张量拼接为多尺度融合查询量，对多尺度融合查询量进行编码，得到最终的图像分割结果。本公开解析全局特征的掩膜、轮廓，和局部特征的关键角点，进行多尺度特征融合译码，提高图像实例分割精度。

Description

一种基于多尺度特征融合译码的图像分割方法及装置

技术领域

本公开实施例涉及计算机视觉技术领域，尤其涉及一种基于多尺度特征融合译码的图像分割方法、装置、计算机设备及计算机可读存储介质。

背景技术

图像实例分割是计算机视觉领域中的一项重要任务，旨在将图像中的不同对象实例分离并标记出来。这项技术在自动驾驶、医学图像处理、视频监控等领域具有广泛的应用前景。传统的图像实例分割方法通常使用手工设计的特征和分类器，这些方法在处理复杂的实例分割问题时效果有限。近年来，深度学习技术的发展已经推动了图像实例分割领域的快速进步。卷积神经网络(CNN)等深度学习模型可以从图像中提取高层次的特征，使得实例分割任务更加准确和鲁棒。然而，由于图像中的对象实例具有不同的尺寸、形状和复杂性，实例分割任务依然具有挑战性。现有的深度学习模型，基于单一尺度的特征提取往往不能捕捉到对象实例的所有细节和特征，其分割精度有待进一步提高。

发明内容

本公开实施例的目的在于提供一种基于多尺度特征融合译码的图像分割方法、装置、计算机设备及计算机可读存储介质，从而解决现有技术中存在的前述问题。

为了实现上述目的，本公开实施例采用的技术方案如下：

本公开实施例一方面提供了一种基于多尺度特征融合译码的图像分割方法，所述方法包括：

获取待分割图像的多尺度特征图；

对所述多尺度特征图中最小尺度特征图进行多次上采样得到多尺度上采样特征图，将多尺度特征图与相应尺度的上采样特征图进行融合，得到多尺度融合特征图，对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量；

根据可学习的查询量对所述多尺度嵌入张量进行译码，得到多尺度掩膜张量与多尺度关键角点张量；

将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码，得到多尺度轮廓张量；

将所述多尺度掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为多尺度融合查询量，对所述多尺度融合查询量进行编码，得到最终的图像分割结果。

示例性的，所述获取待分割图像的多尺度特征图，包括：

获取待分割的原始图像；

对所述原始图像依次进行卷积计算及采用最大池化法进行下采样，得到多尺度特征图。

示例性的，所述对所述多尺度特征图的最小尺度特征图进行多次上采样得到多尺度上采样特征图，将多尺度特征图与相应尺度的上采样特征图进行融合，得到多尺度融合特征图，包括：

对所述多尺度特征图的最小尺度特征图进行连续多次上采样得到与多尺度特征图数量相同的多尺度上采样特征图；

将多尺度特征图与相应尺度的上采样特征图分别进行叠加，对叠加后的多尺度特征图进行卷积平滑处理，得到多尺度融合特征图。

示例性的，所述对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量，包括：

对多尺度融合特征图分别进行自注意力计算，得到对应的初始嵌入张量；

对多尺度初始嵌入张量分别进行两次线性变换，两次线性变换中间进行非线性ReLU激活，生成最终的多尺度嵌入张量。

示例性的，所述根据可学习的查询量对所述多尺度嵌入张量进行译码，得到多尺度掩膜张量与多尺度关键角点张量，包括：

对多尺度嵌入张量分别进行自注意力计算，以及非线性变换，得到对应第一输出，其中，自注意力计算的查询量、键、值均为对应的嵌入张量；

再对所述第一输出进行交叉注意力计算，以及非线性变换，得到对应第二输出；其中，交叉注意力计算中查询量是可学习的参数量，键、值是对应多尺度嵌入张量进行自注意力计算的第一输出；

将所述第二输出分别与尺度最大的融合特征图进行点积运算，得到多尺度掩膜张量与多尺度关键角点张量。

示例性的，所述将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码，得到多尺度轮廓张量，包括：

分别以多尺度掩膜张量作为查询量，键、值是对应多尺度嵌入张量，对多尺度嵌入张量分别进行交叉注意力计算，对交叉注意力计算输出进行非线性变换，将非线性变换结果与尺度最大的融合特征图进行点积运算，得到多尺度轮廓张量。

示例性的，所述将所述多尺度掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为多尺度融合查询量，对所述多尺度融合查询量进行编码，得到最终的图像分割结果，包括：

分别将多尺度掩膜张量、多尺度关键角点张量、多尺度轮廓张量拼接得到多尺度融合查询量；

对所述多尺度融合查询量进行自注意力计算及非线性变换，并与尺度最大的融合特征图进行点积运算，得到不同尺度的分割结果，对不同尺度的分割结果累加得到最终图像实例分割结果。

本公开实施例的另一方面提供了一种基于多尺度特征融合译码的图像分割装置，所述装置包括：

所述特征提取网络，用于获取图像并提取多尺度特征图；

所述编码器，用于对所述多尺度特征图的进行多次上采样得到对应的上采样特征图，将多尺度特征图与相应尺度的上采样特征图进行融合，并对融合后的多尺度特征图依次进行编码生成多尺度嵌入张量；

所述多尺度特征译码器，用于根据可学习的查询量对所述多尺度嵌入张量进行译码，得到多尺度掩膜张量与多尺度关键角点张量；

所述轮廓译码器，用于将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码，得到多尺度轮廓张量；

所述融合译码器，用于将所述多尺度的掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为多尺度融合查询量，对所述多尺度融合张量进行编码，得到最终的图像分割结果。

本公开实施例的另一方面提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的方法。

本公开实施例的另一方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的方法。

本公开实施例的有益效果是：

本公开实施例的基于多尺度特征融合译码的图像实例分割方法，解析全局特征如掩膜、轮廓，和局部特征的关键角点，并进行多尺度特征融合译码，提高图像实例分割精度。本公开方法操作简单，方便，分割效果好。

附图说明

图1是本公开实施例的一种基于多尺度特征融合译码的图像分割方法流程示意图；

图2是本公开实施例的一种基于多尺度特征融合译码的图像分割装置的结构示意图；

图3是本公开实施例的一种基于多尺度特征融合译码的图像分割装置的工作流程图。

具体实施方式

为了使本公开实施例的目的、技术方案及优点更加清楚明白，以下结合附图，对本公开实施例进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本公开实施例，并不用于限定本公开实施例。

如图1所示，本公开实施例提出了一种基于多尺度特征融合译码的图像分割方法，所述方法包括：

步骤S1、获取待分割图像的多尺度特征图。

作为一个示例，所述获取待分割图像的多尺度特征图，包括：

步骤S11、获取待分割的原始图像。

步骤S12、对所述原始图像依次进行卷积计算及采用最大池化法进行下采

样，得到多尺度特征图，具体公式如下：

D_n+1＝f_downsample(f_Conv(D_n),n＝0,1,2,3

其中，f_downsample()表示下采样过程，f_Conv表示卷积过程，D₀为原始图像，D₁～D₄为分别进行连续四次的下采样过程得到尺寸大小逐渐降低的特征图。

本公开实施例在步骤S12中的最大池化法通过下采样输入特征图中的局部区域，将这些局部区域的信息进行汇总，从而减少了参数的数量，这有助于减小计算的复杂度，降低训练和推理的计算成本，减小过拟合风险，保留输入特征图中的关键信息，能够更好地识别和学习重要特征。

步骤S2、对所述多尺度特征图中最小尺度特征图进行多次上采样得到多尺度上采样特征图，将多尺度特征图与相应尺度的上采样特征图进行融合，得到多尺度融合特征图，对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量。

作为一个示例，所述对所述多尺度特征图的最小尺度特征图进行多次上采样得到多尺度上采样特征图，将多尺度特征图与相应尺度的上采样特征图进行融合，得到多尺度融合特征图，包括：

步骤21、对所述多尺度特征图的最小尺度特征图进行连续多次上采样得到与多尺度特征图数量相同的多尺度上采样特征图，具体如下：

U_n+1＝f_upsample(U_n),n＝0,1,2,3

其中,f_upsample()表示上采样过程，U₀为多尺度特征图中尺寸最小的特征图D₄，U₁～U₄为进行连续四次上采样，得到尺寸逐渐增大的上采样特征图；

步骤22、将多尺度特征图与相应尺度的上采样特征图分别进行叠加，对叠加后的多尺度特征图进行卷积平滑处理，得到多尺度融合特征图，具体如下：

C_n＝f_Conv3×3(U_n+D_5-n),n＝1,2,3,4

其中,f_Conv3×3表示3×3的卷积计算，C₁～C₄为多尺度特征图与相应尺度的上采样特征图叠加平滑处理后，得到的融合特征图。

本公开实施例中在对多尺度特征图与对应的上采样特征图进行叠加过程中分别使用具有横向连接的上采样操作，同时为了消除两个特征图对应元素直接相加可能带来的融合不充分的问题，在融合之后的特征图上使用一个3×3卷积进行平滑处理，从而得到一个融合得更加充分的融合特征图。

作为一个示例，所述对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量，包括：

步骤23、对多尺度融合特征图C_n(n＝1,2,3,4)分别进行自注意力计算，得到对应的初始嵌入张量Z₁～Z₄，自注意力函数公式为：

其中，Attention()为注意力函数，d_k表示查询量Q_n、键K_n、值V_n维度大小；查询量Q_n、键K_n、值V_n均为第n张融合特征图C_n的张量。注意力函数Attention()可以描述为将查询量Q和一组键值K-V对映射到输出，得出融合特征图C_n每个像素位置的得分，即为对应的初始嵌入张量Z_n，以捕获图像不同位置之间的长距离依赖关系。

步骤24、对多尺度初始嵌入张量Z_n分别进行两个线性变换，中间经过非线性ReLU激活，生成最终的嵌入张量Z’_n，具体为：

FFN(Z_n)＝max(0,Z_nW₁+b₁)W₂+b₂，(n＝1,2,3,4)

其中，FFN()表示两次线性变换及两次线性变换中间非线性ReLU激活计算，W₁、b₁、W₂、b₂均表示参数。

本公开实施例中初始嵌入张量Z₁～Z₄经过两个线性变换，并且两个线性变换中间经过非线性ReLU激活，用于对初始嵌入张量Z₁～Z₄进行非线性变换和映射，以生成最终输出嵌入张量Z’₁～Z’₄，增加模型表达与泛化能力，从而提高性能。

步骤S3、根据可学习的查询量对所述多尺度嵌入张量进行译码，得到多尺度掩膜张量与多尺度关键角点张量。

本公开实施例的步骤S3用于对不同尺度的特征进行交互和整合以捕获全局上下文信息。

作为一个示例，所述根据可学习的查询量对所述多尺度嵌入张量进行译码，得到多尺度掩膜张量与多尺度关键角点张量，包括：

步骤S31、对多尺度嵌入张量Z’_n分别进行自注意力计算，以及非线性变换，得到对应第一输出Z_sn，具体公式为：

Z_sn＝FFN(Attention(Z’_n,Z’_n,Z’_n)) n＝1,2,3,4

本公开实施例的步骤S31自注意力计算中查询量Q’_n、键K’_n、值V’_n均为嵌入张量Z’_n，对应生成Z_s1～Z_s4。

步骤S32、对第一输出Z_sn分别进行交叉注意力计算，以及非线性变换，得到对应第二输出Z_c1～Z_c4，具体公式为：

Z_cn＝FFN(Attention(Q_sn,Z_sn,Z_sn)) n＝1,2,3,4

其中,查询量Q_sn为[100,b,256]的可学习的参数量、键K_sn、值V_sn为对应多尺度嵌入张量Z’_n进行自注意力计算的输出Z_sn。

本公开实施例中查询量Q_sn为[100,b,256]的可学习的参数，其中,b为每个批次输入图像的数量，每个256维的向量代表了检测的检测框box信息，这个信息是由类别和空间信息(box坐标)组成，其中类别信息用于区别类别，而空间信息则描述了目标在图像中的位置。

步骤S33、将第二输出Z_c1～Z_c4分别与尺度最大的融合特征图C₄进行点积运算，得到多尺度掩膜张量V_mn与多尺度关键角点张量V_pn，具体为：

V_mn,V_pn＝torch.mul(Z_cn,C₄)n＝1,2,3,4

其中，torch.mul()表示点积运算。

步骤S4、将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码，得到多尺度轮廓张量。

作为一个示例，所述将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码，得到多尺度轮廓张量，包括

分别以多尺度掩膜张量V_mn作为查询量，对多尺度嵌入张量Z’₁～Z’₄分别进行交叉注意力计算，对交叉注意力计算输出进行非线性变换，将非线性变换结果与尺度最大的融合特征图C₄进行点积运算，得到多尺度轮廓张量V_rn，具体为：

V_rn＝torch.mul(FFN(Attention(V_mn,Z’_n,Z’_n)),C₄)n＝1,2,3,4

其中，交叉注意力计算的键、值是对应多尺度嵌入张量。

本公开实施例的步骤S4以多尺度的掩膜作为查询量，提高查询量的质量，增加对全局特征的感知，提升译码能力。

步骤S5、将所述多尺度掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为多尺度融合查询量，对所述多尺度融合查询量进行编码，得到最终的图像分割结果。

作为一个示例，所述将所述多尺度掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为多尺度融合查询量，对所述多尺度融合查询量进行编码，得到最终的图像分割结果，包括：

分别将多尺度掩膜张量V_mn、多尺度关键角点张量V_pn、多尺度轮廓张量V_rn拼接得到多尺度融合查询量B_n，拼接公式具体为：

B_n＝Contact(V_mn,V_pn,V_rn)，n＝1,2,3,4

其中，Contact表示张量拼接。

对所述多尺度融合查询量B_n进行自注意力计算及非线性变换，在全局特征与局部特征之间建立关联和交互，并与尺度最大的融合特征图进行点积运算，得到不同尺度的分割结果M_n，对M_n累加得到最终的图像实例分割结果，具体为：

M_n＝torch.mul(FFN(Attention(B_n,Z’_n,Z’_n)),C₄) n＝1,2,3,4

result＝torch.add(M_n) n＝1,2,3,4

其中，torch.add()表示累加计算。

本公开实施例涉及一种基于多尺度特征融合译码的图像实例分割方法，从输入的图像中获取多尺度特征图；将多尺度特征图进行跨层叠加并编码生成多尺度嵌入张量；通过被学习出的查询量从多尺度嵌入张量中译码得到多尺度掩膜张量与多尺度关键角点张量；以多尺度掩膜张量作为查询量对多尺度嵌入张量进行再次译码，得到多尺度的轮廓张量；将多尺度的掩膜张量、关键角点张量、轮廓张量拼接为融合张量，对融合张量进行编码，得到最终的图像实例分割结果。本公开实施例提出的基于多尺度特征融合译码的图像实例分割方法，解析全局特征(掩膜、轮廓)和局部特征(局部关键角点)并进行多尺度特征融合译码，去除误分割区域，填补缺失部分掩膜，减小分割边界的锯齿状效应，提高图像实例分割精度。

如图2和图3所示，本公开实施例的另一方面提供了一种基于多尺度特征融合译码的图像分割装置所述装置包括：特征提取网络100、编码器200、多尺度特征译码器300、轮廓译码器400和融合译码器500。

所述特征提取网络100，用于获取待分割图像的多尺度特征图。所述特征提取网络可以包括至少1个卷积层以及1个池化层；所述特征提取网络中的卷积层用于获取待分割的原始图像，对所述原始图像进行卷积计算后池化层采用最大池化法进行下采样，得到多尺度特征图特征图，具体实现方法如下：

D_n+1＝f_downsample(f_Conv(D_n),n＝0,1,2,3

下采样实现对特征图的降维处理；池化层通过采样输入特征图中的局部区域，将这些局部区域的信息进行汇总，从而减少了参数的数量，这有助于减小模型的复杂度，降低训练和推理的计算成本，减小过拟合风险，保留输入特征图中的关键信息，使本公开的分割装置能够更好地识别和学习重要特征。

在本公开实施实例中所述特征提取网络可以是残差网络或者Transformer特征提取网络。

所述特征提取网络作为骨干网络用于获取图像的多尺度特征图，处理图像实例分割中的多尺度问题。

所述编码器200，用于对所述多尺度特征图中最小尺度特征图进行多次上采样得到多尺度上采样特征图，将多尺度特征图与相应尺度的上采样特征图进行融合，得到多尺度融合特征图，对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量。

所述编码器可以是多尺度可变形自注意力编码器，包括至少1层基础Transformer层、1个上采样层、1个叠加层，采用自注意力机制；所述编码器的上采样层用于对图像小尺度特征图进行上采样，可以采用最邻近插值、双线性插值、转置卷积等上采样方法中的一种或多种进行上采样；上采样层对所述多尺度特征图的最小尺度特征图进行连续多次上采样得到与多尺度特征图数量相同的多尺度上采样特征图，具体如下：

U_n+1＝f_upsample(U_n),n＝0,1,2,3

其中,f_upsample()表示上采样过程，U₀为多尺度特征图中尺寸最小的特征图D₄，U₁～U₄为连续进行四次上采样，得到尺寸逐渐增大的上采样特征图。

所述编码器的叠加层用于将多尺度特征图与相应尺度的上采样特征图分别进行叠加和平滑处理，得到图像多尺度特征融合特征图；具体如下：

C_n＝f_Conv3×3(U_n+D_5-n),n＝1,2,3,4

其中,f_Conv3×3表示3×3的卷积计算，C₁～C₄为多尺度特征图与对应的上采样特征图叠加平滑处理后，得到的融合特征图。

每个叠加层分别使用具有横向连接的上采样层，上采样层增加网络层数，增大感受野，增加模型的表达能力，同时增大特征图的尺寸；同时为了消除两个特征图对应元素直接相加可能带来的融合不充分的问题，在融合之后的特征图上使用一个3×3卷积进行平滑处理，从而得到一个融合得更加充分的融合特征图。

所述编码器的基础Transformer层包括至少1个自注意力模块以及1个前馈神经网络，基础Transformer层中头的数量至少1个，其中自注意力模块用于捕获图像不同位置之间的长距离依赖关系，自注意力模块对多尺度融合特征图C_n分别进行自注意力计算，得到对应的初始嵌入张量Z_n，自注意力计算公式为：

其中，Attention()为注意力函数，查询量Q_n、键K_n、值V_n均为第n张融合特征图C_n的张量，d_k表示查询量Q_n、键K_n、值V_n维度大小。

编码器的前馈神经网络对多尺度初始嵌入张量Z_n进行两次线性变换，两次线性变换中间经过非线性ReLU激活，生成最终的多尺度嵌入张量Z’_n，具体为：

FFN(Z_n)＝max(0,Z_nW₁+b₁)W₂+b₂

其中，FFN()表示两次线性变换及两次线性变换中间非线性ReLU激活计算，W₁、b₁、W₂、b₂均表示是参数。

前馈神经网络用于对初始嵌入张量Z₁～Z₄进行非线性变换和映射，以生成最终的输出，增加模型表达与泛化能力，从而提高性能；所述编码器使用自注意力模块及前馈神经网络对多尺度特征融合特征图进行编码，生成多尺度嵌入张量。

本公开实施例的编码器通过上采样层对小尺度特征图进行上采样，然后利用叠加层对上采样后的特征图与多尺度特征图进行叠加，实现多尺度特征图的融合，而后针对融合后的多尺度特征图利用自注意力模块计算多尺度嵌入张量，以捕获不同位置之间的长距离依赖关系，使得方法可以更好地处理图像中不同尺度和形状的对象实例。

所述多尺度特征译码器300，用于根据可学习的查询量对所述多尺度嵌入张量进行译码，得到多尺度掩膜张量与多尺度关键角点张量。

所述多尺度特征译码器可以包括至少1层DetrTransformer译码层，DetrTransformer译码层中头的数量至少为1个，DetrTransformer译码层包括至少1个自注意力模块、1个交叉注意力模块以及1个前馈神经网络，所述译码器的自注意力模块根据被学习出的查询量从多尺度嵌入张量中译码，自注意力模块及前馈神经网络对多尺度嵌入张量Z’_n分别进行自注意力计算以及非线性变换，得到对应第一输出Z_sn，具体公式为：

Z_sn＝FFN(Attention(Z’_n,Z’_n,Z’_n)) n＝1,2,3,4

本公开实施例的自注意力计算中查询量Q’_n、键K’_n、值V’_n均为嵌入张量Z’_n，对应生成Z_sn。

多尺度特征译码器的交叉注意力模块及前馈神经网路对第一输出Z_sn进行交叉注意力计算以及非线性变换，得到对应第二输出Z_cn，具体公式为：

Z_cn＝FFN(Attention(Q_sn,Z_sn,Z_sn)) n＝1,2,3,4

其中,查询量Q_sn为[100,b,256]的可学习的查询量、键K_sn、值V_sn为对多尺度嵌入张量Z’_n进行自注意力计算的输出Z_sn。

多尺度特征译码器的交叉注意力模块将第二输出Z_cn与尺度最大的融合特征图C₄进行点积运算，得到多尺度掩膜张量V_mn与多尺度关键角点张量V_pn，具体为：

V_mn,V_pn＝torch.mul(Z_cn,C₄) n＝1,2,3,4

其中，torch.mul()表示点积运算。

本公开实施例的多尺度特征译码器通过将交叉注意力约束(交叉注意力模块)在每个查询量的预测掩码的前景区域内来提取局部特征，得到多尺度掩膜张量和多尺度关键角点张量。

本公开实施例的所述多尺度特征译码器根据被学习出的查询量从多尺度嵌入张量中译码，得到多尺度掩膜张量与多尺度关键角点张量；所述多尺度特征译码器的自注意力模块与交叉注意力模块用于对不同尺度的特征进行交互和整合，捕获全局上下文信息。查询量是一个可学习的嵌入张量，它可以将目标类别的信息注入到自注意力模块中，使方法得到更快的收敛速度和更好的性能。

所述轮廓译码器400，用于将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码，得到多尺度轮廓张量。

所述轮廓译码器可以包括至少1层DetrTransformer译码层，DetrTransformer译码层中头的数量至少为1个，DetrTransformer译码层包括至少1个自注意力模块、1个交叉注意力模块以及1个前馈神经网络，轮廓译码器以多尺度掩膜张量作为查询量对多尺度嵌入张量进行再次译码，具体的，所述轮廓译码器的交叉注意力模块以分别多尺度的掩膜V_mn作为查询量，对多尺度嵌入张量Z’₁～Z’₄分别进行交叉注意力计算，对交叉注意力计算输出输入到前馈神经网络进行非线性变换，将非线性变换结果与尺度最大的融合特征图C₄在交叉注意力模块进行点积运算，得到多尺度轮廓张量V_rn，具体为：

V_rn＝torch.mul(FFN(Attention(V_mn,Z’_n,Z’_n)),C₄) n＝1,2,3,4

其中，交叉注意力计算的键、值是对应多尺度嵌入张量。

所述轮廓译码器以多尺度的掩膜张量作为查询量，提高查询量的质量，增加模型对全局特征的感知，提升译码能力。

本公开实施例的轮廓译码器以多尺度掩膜张量作为查询量对多尺度嵌入张量进行再次译码，得到多尺度轮廓张量；交叉注意力模块以多尺度的掩膜作为查询量，提高查询量的质量，增加模型对全局特征的感知，提升译码能力。前馈神经网络用于对交叉注意力计算结果进行非线性变换和映射，以生成最终的输出，帮助模型学习任务特定的表示，从而提高性能。

所述融合译码器500，用于将所述多尺度的掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为融合查询量，利用编码器网络结构对融合张量进行编码，得到最终的图像分割结果。

所述融合译码器可以是自注意力编码器，包括至少1层基础Transformer层，采用自注意力编码机制；基础Transformer层中头的数量至少1个，包括至少1个自注意力模块以及1个前馈神经网络。所述融合译码器的自注意力模块分别将多尺度的掩膜张量V_mn、关键角点张量V_pn、轮廓张量V_rn拼接为多尺度融合查询量B_n，拼接公式具体为：

B_n＝Contact(V_mn,V_pn,V_rn)，n＝1,2,3,4

其中，Contact表示张量拼接。

融合译码器的自注意力模块用于在融合查询量的基础上建立查询-键-值关系，捕获图像中多尺度、多类型的信息，得到最终的图像实例分割结果。

融合译码器的自注意力模块和前馈神经网络对所述多尺度融合查询量B_n进行自注意力计算及非线性变换，在全局特征与局部特征之间建立关联和交互，并与尺度最大的融合特征图进行点积运算，得到不同尺度的分割结果M_n，对M_n累加得到最终的图像实例分割结果，具体为：

M_n＝torch.mul(FFN(Attention(B_n,Z’_n,Z’_n)),C4) n＝1,2,3,4

result＝torch.add(M_n) n＝1,2,3,4

其中，torch.add()表示累加计算。

本公开实施例的所述融合译码器将多尺度的掩膜张量、关键角点张量、轮廓张量拼接为融合查询量，自注意力模块用于在全局特征与局部特征之间建立关联和交互，帮助模型更好地理解输入数据的语义关联和相关性。融合译码器利用编码器网络结构对融合张量进行编码，得到最终的图像实例分割结果。

本公开实施例涉及一种基于多尺度特征融合译码的图像实例分割装置，包括特征提取网络、编码器、多尺度特征译码器、轮廓译码器、融合译码器；特征提取网络用于从输入的图像中获取多尺度特征图；编码器将多尺度特征图进行跨层叠加并编码生成多尺度嵌入张量；多尺度特征译码器通过被学习出的查询量从多尺度嵌入张量中译码得到多尺度掩膜张量与多尺度关键角点张量；轮廓译码器以多尺度掩膜张量作为查询量对多尺度嵌入张量进行再次译码，得到多尺度的轮廓张量。融合译码器，将多尺度的掩膜张量、关键角点张量、轮廓张量拼接为融合张量，融合译码器利用编码器网络结构对融合张量进行编码，得到最终的图像实例分割结果。

本公开实施例的另一方面提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的图像分割方法。

本公开实施例的另一方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的图像分割方法。

其中，计算机可读存储介质可以是任何包含或存储程序的有形介质，其可以是电、磁、光、电磁、红外线、半导体的***、装置、设备，更具体的例子包括但不限于：具有一个或多个导线的相连、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或它们任意合适的组合。其中，计算机可读存储介质也可以包括在基带中或作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码，其具体的例子包括但不限于电磁信号、光信号，或它们任意合适的组合。

以上所述仅是本公开实施例的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本公开实施例的保护范围。

Claims

1.一种基于多尺度特征融合译码的图像分割方法，其特征在于，所述方法包括：

获取待分割图像的多尺度特征图；

所述对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量，包括：对多尺度融合特征图分别进行自注意力计算，得到对应的初始嵌入张量；

对多尺度初始嵌入张量分别进行两次线性变换，两次线性变换中间进行非线性ReLU激活，生成最终的多尺度嵌入张量；

根据可学习的查询量对所述多尺度嵌入张量进行译码，得到多尺度掩膜张量与多尺度关键角点张量，具体包括：对多尺度嵌入张量分别进行自注意力计算，以及非线性变换，得到对应第一输出，其中，自注意力计算的查询量、键、值均为对应的多尺度嵌入张量；

将所述第二输出分别与尺度最大的融合特征图进行点积运算，得到多尺度掩膜张量与多尺度关键角点张量；

将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码，得到多尺度轮廓张量，具体包括：分别以多尺度掩膜张量作为查询量，键、值是对应多尺度嵌入张量，对多尺度嵌入张量分别进行交叉注意力计算，对交叉注意力计算输出进行非线性变换，将非线性变换结果与尺度最大的融合特征图进行点积运算，得到多尺度轮廓张量；

将所述多尺度掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为多尺度融合查询量，对所述多尺度融合查询量进行编码，得到最终的图像分割结果，具体包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待分割图像的多尺度特征图，包括：

获取待分割的原始图像；

3.根据权利要求1或2所述的方法，其特征在于，所述对所述多尺度特征图的最小尺度特征图进行多次上采样得到多尺度上采样特征图，将多尺度特征图与相应尺度的上采样特征图进行融合，得到多尺度融合特征图，包括：

4.一种基于多尺度特征融合译码的图像分割装置，其特征在于，所述装置包括：

特征提取网络，用于获取图像并提取多尺度特征图；

编码器，用于对所述多尺度特征图的进行多次上采样得到对应的上采样特征图，将多尺度特征图与相应尺度的上采样特征图进行融合，并对融合后的多尺度特征图依次进行编码生成多尺度嵌入张量；所述对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量，包括：对多尺度融合特征图分别进行自注意力计算，得到对应的初始嵌入张量；

多尺度特征译码器，用于根据可学习的查询量对所述多尺度嵌入张量进行译码，得到多尺度掩膜张量与多尺度关键角点张量，具体包括：对多尺度嵌入张量分别进行自注意力计算，以及非线性变换，得到对应第一输出，其中，自注意力计算的查询量、键、值均为对应的多尺度嵌入张量；

轮廓译码器，用于将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码，得到多尺度轮廓张量，具体包括：分别以多尺度掩膜张量作为查询量，键、值是对应多尺度嵌入张量，对多尺度嵌入张量分别进行交叉注意力计算，对交叉注意力计算输出进行非线性变换，将非线性变换结果与尺度最大的融合特征图进行点积运算，得到多尺度轮廓张量；

融合译码器，用于将所述多尺度的掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为多尺度融合查询量，对所述多尺度融合张量进行编码，得到最终的图像分割结果，具体包括：

5.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～3中任意一项所述的方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～3中任意一项所述的方法。