CN116168197A

CN116168197A - 一种基于Transformer分割网络和正则化训练的图像分割方法

Info

Publication number: CN116168197A
Application number: CN202310042766.5A
Authority: CN
Inventors: 魏云超; 丁皓杰; 王斌; 康国梁; 赵耀
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2023-01-28
Filing date: 2023-01-28
Publication date: 2023-05-26

Abstract

本发明提供的一种基于Transformer分割网络和正则化训练的图像分割方法。该方法包括：通过骨干网络对原始图像进行渐进式特征提取，生成特征图；通过金字塔特征提取结构的多级特征提取层对特征图进行优化重构，通过Transformer解码器以金字塔特征提取结构输出的高维特征作为输入，通过对特征图进行优化和压缩，得到特征向量；将特征向量与金字塔特征提取结构输出的特征图进行矩阵运算，得到与原始图像大小一致的初步掩码预测图像，利用正则化训练方法对初步掩码预测图像进行质量优化训练，获取掩码图像；利用掩码图像对原始图像进行图像分割处理。本发明中图像特征被端到端地采样和优化，依托于Transformer网络的正则化训练方法使图像分割掩码的质量和鲁棒性得到明显的提升。

Description

一种基于Transformer分割网络和正则化训练的图像分割方法

技术领域

本发明涉及图像分割技术领域，尤其涉及一种基于Transformer分割网络和正则化训练的图像分割方法。

背景技术

图像分割技术目的在于将图像根据所属物体的类别或实例划分成不同的区域，属于一种像素级别的分类任务。因图像分割技术在图像编辑等领域的应用，受到了人们的广泛关注。传统的图像分割技术依托于图像的颜色、纹理等浅层特征，采用像素聚类的方法对图像进行划分。

传统的像素聚类方法由于无法适用于划分图片中指定的实例个体和类别，因此已经被各类深度学习算法所淘汰。有方案利用全卷积神经网络(Fully ConvolutionalNetworks,FCN)将图像分类网络应用于像素级图像语义分割任务。在数学上，语义分割网络的目标是将图片中的每个像素点{p_ij}∈R^H×W×3，通过全连接层映射到一个具体的类别

这里，P_ij表示图像中具体的像素点，C表示类别个数。

随着更强大的网络结构Transformer在深度学习领域被广泛应用，一些新的深度学习分割方法被提出。有学者提出通过将图像特征压缩为特征向量的方法，通过矩阵运算将上述两种方法进行了统一。该方法不同于像素级的分类方法，而是通过计算特征向量和高维特征直接的相似度

最终预测结果表示为

上述现有技术中的图像分割方法的缺点包括：忽略了在不同的任务中特征向量的差异，并存在Transformer分割网络结构训练难以收敛的问题。

发明内容

本发明的实施例提供了一种基于Transformer分割网络和正则化训练的图像分割方法，以实现有效地进行图像分割处理。

为了实现上述目的，本发明采取了如下技术方案。

一种基于Transformer分割网络和正则化训练的图像分割方法，包括：

通过骨干网络对原始图像进行渐进式特征提取，生成特征图；

通过金字塔特征提取结构的多级特征提取层对所述特征图进行优化重构，通过Transformer解码器以金字塔特征提取结构输出的高维特征作为输入，通过对特征图进行优化和压缩，得到一组特征向量；

将所述一组特征向量与金字塔特征提取结构输出的特征图进行矩阵运算，得到与原始图像大小一致的初步掩码预测图像，利用正则化训练方法对所述初步掩码预测图像进行质量优化训练，获取掩码图像；

利用所述掩码图像对所述原始图像进行图像分割处理。

优选地，所述的通过骨干网络对原始图像进行渐进式特征提取，生成特征图，包括：

由多个卷积层和下采样层组成骨干网络，通过骨干网络在原始图像上进行分类任务预训练，对原始图像进行渐进式特征提取，生成满足给定的测量率下的对应数量的低维的特征图。

优选地，所述的通过金字塔特征提取结构的多级特征提取层对所述特征图进行优化重构，包括：

将骨干网络低维特征提取模块输出的低维的特征图输入到金字塔式高维特征提取模块，金字塔特征提取结构中的多级特征提取层采用多级CNN或Transformer结构对低维的特征图进行优化重构，对低分辨率特征逐步上采样，所述金字塔式高维特征提取模块输出高分辨率的高维特征。

优选地，所述的通过Transformer解码器以金字塔特征提取结构输出的高维特征作为输入，通过对特征图进行优化和压缩，得到一组特征向量，包括：

将一组初始化的特征向量和所述金字塔特征提取结构输出的高维特征输入到Transformer解码器，通过Transformer解码器中的交叉注意力机制对初始化的特征向量进行更新，利用多次迭代处理过程通过对高维特征进行优化和压缩，得到一组包含高维信息的特征向量。

优选地，所述的将所述一组特征向量与金字塔特征提取结构输出的特征图进行矩阵运算，得到与原始图像大小一致的初步掩码预测图像，包括：

将所述特征向量与金字塔特征提取结构输出的特征图进行矩阵点乘运算，对于每个特征向量生成唯一的掩码预测结果及分类概率，对全部特征向量的预测结果进行上采样操作，最终得到与原始图像大小一致的初步掩码预测图像。

优选地，所述的利用正则化训练方法对所述初步掩码预测图像进行质量优化训练，获取掩码图像，包括：

利用正则化训练方法对初步掩码预测图像进行质量优化训练，通过对模型训练过程中的匹配机制进行优化，随机对初步掩码预测图像进行固定比例的丢弃操作，保证在不同特征向量中产生类似的预测结果，在语义分割应用场景下通过添加新型训练方法进行端到端的训练和预测，获取优化的掩码图像。

优选地，所述的利用所述掩码图像对所述原始图像进行图像分割处理，包括：

对所述优化掩码图像进行argmax运算产生概率图，将所述概率图中的每个像素分配到具体的类别，完成原始图像的分割处理。

由上述本发明的实施例提供的技术方案可以看出，本发明方法利用Transformer分割网络结构进行图像分割结果预测，保证了在不同任务场景下模型结构的通用性和高性能；通过在模型训练过程中添加正则化手段，优化了模型收敛，直接提升了模型在不同分割场景下的预测性能。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于Transformer分割网络和正则化训练的图像分割方法的实现原理图。

图2为为本发明实施例提供的一种基于Transformer分割网络和正则化训练的图像分割方法的处理流程图。

图3为本发明实施例所述的是否使用新型正则化技术预测结果的对比图(图左为不使用正则化方法在若干图片预测结果的均值，图右相反)。

图4为本发明实施例所述的是否使用新型正则化技术单张预测结果的对比图(图上为不适用正则化方法的预测结果，图下相反)。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提供的一种基于Transformer分割网络和正则化训练的图像分割方法的实现原理图如图1所示，具体处理流程如图2所示，包括如下处理步骤：

步骤S1:通过多个由卷积层和下采样层组成的骨干网络对原始图像进行渐进式特征提取，生成满足给定的测量率下的对应数量的特征图。

步骤S2:通过金字塔特征提取结构的多级特征提取层对所述特征图进行优化重构，通过Transformer解码器以金字塔特征提取结构输出的高维特征作为输入，通过对特征图进行优化和压缩，得到一组特征向量。

步骤S3:将上述特征向量与金字塔特征提取结构输出的特征图进行矩阵点乘运算，对于每个特征向量生成唯一的掩码预测结果及分类概率。对全部特征向量的预测结果进行上采样操作，最终得到与原始图像大小一致的初步掩码预测图像。

利用正则化训练方法对初步掩码预测图像进行质量优化训练，通过对模型训练过程中的匹配机制进行优化，随机对初步掩码预测图像进行固定比例的丢弃操作，保证在不同特征向量中产生类似的预测结果。在语义分割应用场景下通过添加新型训练方法进行端到端的训练和预测，直接提升了模型性能，获取优化的掩码图像。

在未采用正则化训练方法的模型中，模型将采用最优选择的优化策略。具体来说，优化算法将仅依靠全部初步预测结果中的最优项对模型进行更新，再通过对初步预测结果进行加权得到优化的掩码图像，因此模型预测将带有严重的偏好性和局限性。本发明所采用的正则化技术，通过约束优化算法的选取策略，扩大影响模型更新的样本数量，使得初步预测结果产生的权重更加合理，并且在模型的泛化性能和最终预测结果上表现更佳。

步骤S4：对所述优化掩码图像进行argmax运算产生概率图，将所述概率图中的每个像素分配到具体的类别，完成原始图像的分割处理。

从图2中可以看出，本发明的特征提取网络包括：骨干网络低维特征提取模块、金字塔式高维特征提取模块和Transformer解码器模块。下面我们将有序地介绍它们的详细结构。

骨干网络低维特征提取模块，用于从原始RGB图像中提取低维特征信息，常用的骨干网络模型有ResNet系列和Swin Transformer系列模型，分别采用CNN网络结构或Transformer结构在图像上进行分类任务预训练。是深度学习中常用的一种网络结构。

金字塔式高维特征提取模块，用于以骨干网络低维特征提取模块输出的低维特征信息作为输入，采用多级CNN或Transformer结构对低维特征信息进行重构，并对低分辨率特征逐步上采样，最终输出高分辨率的高维特征。

Transformer解码器，用于以一组初始化的特征向量和高维特征作为输入，通过Transformer特有的交叉注意力机制对初始化的特征向量进行更新。在经过多次迭代后，通过对高维特征进行优化和压缩，最终输出一组包含高维信息的特征向量。

对于本发明方法产生的多个预测结果和多个真实结果，使用匈牙利算法进行匹配。利用匹配好的结果直接分别计算分类损失和掩码损失。其中分类损失使用交叉熵损失(Cross Entropy Loss)，掩码损失使用Dice Loss 和交叉熵损失。

算法步骤：

1.输入：输入图片X

2.本发明方法的图像分割模型预测输出Y＝{y₀,...,y₉₉}

3.按照比例r对Y进行随机丢弃：

4.将预测结果与真实结果进行匹配，并计算损失函数更新模型参数

对比试验

(1)训练与测试过程

实验在pytorch框架上进行，同样使用了ADE20K、Cityscapes、COCOStuff以及VSPW等多种数据集。为促进网络收敛，我们针对不同的训练集进行裁剪，对原始图像使用了了翻转、颜色变换等手段进行数据增强，使用0.0001的学习率进行训练。对所有数据采用16的批量大小进行训练。在测试中，我们使用对应数据集的验证集进行结果检验，不需要进行额外处理，模型可以端到端地直接得到预测结果。

(2)实验结果比较

首先，我们将本方法与当前最先进的图像分割方法进行比较，即MaskFormer和Mask2Former。在表1中，我们给出了平均IoU值的客观性能比较，其中最好的结果以粗体突出显示。

表1不同数据集的平均IoU性能比较

如表1所示，Transformer模型+DQ正则化在四种数据集和两种不同Transformer模型下均获得最高的平均IoU值。一方面，我们可以看到使用新型正则化方法效果更好。其中，在ADE20K数据集和Cityscapes数据集上，模型性能的提升幅度大于0.5％ mIoU。在COCOStuff与VSPW数据集上，提升幅度甚至超过了1％ mIoU。另一方面，正则化方法可以简单地应用于若干Transformer分割模型，而无需对原始网络结构进行任何调整。

表2表示正则化方法的超参数选择依据。其中基础模型选用Mask2Former模型，并根据实验结果的平均IoU值进行选择。

表2不同测量随机丢弃比例下的平均IoU比较

如图3所示，我们展示了现有模型100个特征向量在5000张图片上预测结果的平均分布，左右分别表示使用正则化操作前后的预测结果。从图3中可以观察到，正则化技术显著提升了有效激活的特征向量占全部特征向量的比例，从而达到增强模型的分割性能和鲁棒性。

如图4所示，我们展示在单张图片预测场景下，最好的4个预测结果及其分类得分。上下分别表示使用正则化操作前后的预测结果。从图4中可以看出使用正则化增加了有效预测结果的数目，从而减少了模型犯错的可能性。

综上所述，本发明实施例方法利用Transformer网络结构进行图像分割结果预测，保证了在不同任务场景下模型结构的通用性和高性能；通过在模型训练过程中添加正则化手段，优化了模型收敛，直接提升了模型在不同分割场景下的预测性能。

本发明中图像特征被端到端地采样和优化，依托于Transformer网络架构的正则化训练技术，使图像分割掩码的质量和鲁棒性得到明显的提升。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于Transformer分割网络和正则化训练的图像分割方法，其特征在于，包括：

利用所述掩码图像对所述原始图像进行图像分割处理。

2.根据权利要求1所述的方法，其特征在于，所述的通过骨干网络对原始图像进行渐进式特征提取，生成特征图，包括：

3.根据权利要求1或者2所述的方法，其特征在于，所述的通过金字塔特征提取结构的多级特征提取层对所述特征图进行优化重构，包括：

4.根据权利要求3所述的方法，其特征在于，所述的通过Transformer解码器以金字塔特征提取结构输出的高维特征作为输入，通过对特征图进行优化和压缩，得到一组特征向量，包括：

5.根据权利要求4所述的方法，其特征在于，所述的将所述一组特征向量与金字塔特征提取结构输出的特征图进行矩阵运算，得到与原始图像大小一致的初步掩码预测图像，包括：

6.根据权利要求5所述的方法，其特征在于，所述的利用正则化训练方法对所述初步掩码预测图像进行质量优化训练，获取掩码图像，包括：

7.根据权利要求6所述的方法，其特征在于，所述的利用所述掩码图像对所述原始图像进行图像分割处理，包括：