CN117372701A

CN117372701A - 基于Transformer的交互式图像分割方法

Info

Publication number: CN117372701A
Application number: CN202311667809.5A
Authority: CN
Inventors: 何一凡; 陈盼盼; 王大寒; 江楠峰; 吴芸; 王驰明; 朱顺痣; 于金喜
Original assignee: Xiamen Ruiwei Information Technology Co ltd; Xiamen University of Technology
Current assignee: Xiamen Ruiwei Information Technology Co ltd; Xiamen University of Technology
Priority date: 2023-12-07
Filing date: 2023-12-07
Publication date: 2024-01-09
Anticipated expiration: 2043-12-07
Also published as: CN117372701B

Abstract

本发明公开基于Transformer的交互式图像分割方法，选取想要标注的图像，载入到交互式图像分割标注软件中；选择分割目标，根据用户点击行为生成点击记录，在对应位置生成点击标记；确认交互完成后，根据点击记录将其转换为圆盘图，作为相对应的正负点击指导再和原始掩码拼接，在与原图相加后作为分割模型输入；利用预训练分割模型对图像中的指定目标进行分割，返回初始的分割掩码；根据初始的分割掩码结果，选择添加合适的正负点击对错误区域进行再次标记；将新的标记再次送入分割模型，并返回修正后的结果。如此往复，对分割结果进行细化，以得到满意的结果。本发明能提高交互式图像分割标注性能，以更少的交互次数得到更好的分割结果。

Description

基于Transformer的交互式图像分割方法

技术领域

本发明涉及计算机视觉与交互式分割标注的技术领域，特别是指一种基于Transformer的交互式图像分割方法。

背景技术

在大模型蓬勃发展的时代背景下，深度学习技术经历了革命性的发展，主要得益于大规模和高性能的计算机资源以及庞大的数据量。大模型展现出在处理复杂任务和提取高层次特征方面的卓越能力，这种能力的表现在很大程度上归因于大量训练数据的深度学习方法的成功应用。随着大模型的兴起，在如语义分割、实例分割以及显著性目标检测等领域，对高质量训练数据集的需求也呈现出指数级增长。然而，这些数据集的标注工作变得愈发繁琐和昂贵，特别是在像素级别的标注任务中。因此，交互式图像分割算法彰显出重要的研究和应用价值，也有更多的研究者在对这一领域进行广泛探索。交互式图像分割算法成为降低人工标注成本的最优选择，这些算法的引入使得标注训练数据集更为便捷且高效，从而可以促进大模型的迅速发展。在追求高精度和智能化操作的同时，这些算法为应对标注数据规模的挑战提供了实用的解决方案。交互式图像分割技术经过数十年的发展，积累了丰富的理论和方法，形成了相对完备的算法体系和交互框架。交互方式主要包括：点击、涂鸦、边界框和轮廓。交互式分割方法可分为传统和基于深度学习的两大类。传统的方法一般会利用像素值以及它们之间的关系等这一类的底层特征来进行交互。传统的方法不需要进行训练模型，因此无法学习已有的经验。因此，这类方法需要大量的人力成本才能获得较好的分割效果。随着深度学习的快速发展，卷积神经网络取代了传统方法，但基于Transformer的交互式分割模型相比卷积神经网络展现更加优越的性能。尽管上述算法在交互式图像分割任务中取得了显著的成功，但现有的分割方法仍然存在一些局限性。其中包括交互方式的不够灵活，对用户意图的反映不够准确，分割精度不够高以及需要较多用户交互等问题。因此，在面对具有复杂背景的自然图像、轮廓模糊的医学图像，这些交互式图像分割方法存在不足。基于此，本发明从这些方面入手对交互式分割模型进行改进。

发明内容

本发明的目的在于克服现有技术的不足，提供一种能够提高交互式图像分割标注性能，在医院图像上能够表现出良好的泛化性，能够以更少的交互次数得到更好的分割结果的基于Transformer的交互式图像分割方法。

为了达成上述目的，本发明的解决方案是：

基于Transformer的交互式图像分割方法，包括以下步骤：

步骤S1、选取想要标注的图像，载入到交互式图像分割标注软件中；

步骤S2、用户选择分割目标，以左键单击为开始，开始后根据用户点击行为生成记录，且在对应位置生成点击标记；

步骤S3、确认交互完成后，根据点击记录将其转换为圆盘图，作为相对应的正负点击指导再和原始掩码拼接，最后与原图相加后作为分割模型输入；

步骤S4、利用预训练分割模型对图像中的指定目标进行分割，返回初始的分割掩码；

步骤S5、根据初始的分割掩码结果，选择添加合适的正负点击对错误区域进行再次标记；

步骤 S6、将新的标记再次送入分割模型，并返回修正后的结果，如此往复，对分割结果进行细化，以得到满意的结果。

进一步，在步骤S1中，待标记的图像大小为任意尺寸，载入到交互式图像分割标注软件中，交互式图像分割标注软件在交互完成后，自适应调整图片大小到统一尺寸448 x448，确保符合分割模型输入的尺寸要求。

进一步，在步骤S2中，用户在点击菜单栏开始按钮后，交互端会持续的监听鼠标事件，当用户在某一位置按下左键时，会记录该位置的坐标信息，且在对应位置生成绿色小圆点表示该位置位于分割物体内部，即分割的目标对象（前景）；当释放时，表示一次标记过程结束，同样，当用户在某一位置按下右键时，会进行同样的操作，不同的是此时生成红色小圆点，用于表示该位置位于分割物体外部，即非分割的目标对象（背景）。

进一步，步骤S2中，小圆点的半径大小为5像素。当半径过大时，位于前景边缘的正/负点击会被误认为负/正点击，对交互信息产生歧义从而造成模型识别错误产生较差的分割结果，而当半径过小时，点击所涵盖的范围太小难以提供丰富信息，导致用户可能需要提供更多的交互信息，这违背了交互式分割的初心。

步骤S3中，步骤S2生成的点击记录会被视为分割目标的内部区域/外部区域，根据点击坐标转换生成半径为5像素的圆盘图分别作为正负点击指导，如果是初次分割，会生成一个大小为448 x 448像素值都为0的图像作为初始分割掩码，将正负点击指导和初始分割掩码做拼接形成3 x 448 x 488的三通道图像。

进一步，将大小为448 x 448的3通道原始RGB图像与正负点击和初始分割掩码形成的3 x 448 x 448图像进行逐元素相加，再将其作为分割模型输入。

进一步，步骤S4中，在训练分割模型时，由于深度学习模型需要大量的标注数据，动辄上百万张，如果采用人工进行点击交互标注，成本太大，所以，我们采用模拟采样策略来生成正负点击指导。

进一步，步骤S4中，分割模型是以Transformer为骨干的重构点击模型（Interactive Segmentation with Reconstruct Click Vision Transformers），该重构点击模型主要包括重构点击图像嵌入模块和多尺度自适应融合模块，用于增强模型的学习能力得到精准的分割结果。

进一步，所述重构点击图像嵌入模块会根据不同点击的重要性进行特征分离并重构，以增强重要点击的特征表示，具体方法为：

首先，用组归一化（Group Normalization）层中的缩放因子对不同点击的贡献程度进行评估，对于给定特征图像，其中R为四维张量，/>为批次数量，/>为通道数量，/>为图像大小；

首先通过简单的归一化操作来标准化输入特征,如公式1-1所示：

其中分别表示均值和方差，/>为可训练参数，/>值的大小反映了空间像素信息的贡献程度，/>为值较小且大于零的常数，确保除法的合理性；/>表示对特定特征图像/>进行组归一化操作；

归一化相关权重表示不同特征图的重要性，如公式1-2所示：

其中为第/>个通道的归一化权重，/>为第/>个通道的权值，/>对所有通道的权值进行加权求和；

然后，将归一化后的权重通过Sigmoid函数控制在0-1范围内，然后利用门控机制（阈值设置为0.5）将以上权重进行区分。其中，权重大于等于阈值（0.5）的认为是贡献较大的记为，小于阈值（0.5）的认为是贡献较小的记为/>，如公式1-3所示：

其中为关于参数/>的阈值门控，其中默认阈值大小为0.5。通过比较/>和阈值大小来区分其贡献程度；

接着，将输入特征X分别乘以和/>，得到具有不同贡献程度的特征/>和/>；

最后，将加权后的两个不同的信息特征进行融合，如公式1-4所示：

进一步，所述多尺度自适应融合模块，学习如何在其他级别上对特征空间进行过滤，以便保留有用的空间信息自适应组合，具体方法为：

首先，将金字塔产生的不同分辨率的特征表示为，其中/>表示层次，令/>表示位于特征图/>处的特征向量从层次/>调整大小到层次/>，在层次/>的融合方式如公式1-5所示：

其中表示融合后空间位置/>处的特征向量，其中/>、/>为模型自适应学习的四个不同层次到层次/>的空间重要性权重，令/>且，如公式1-6所示：

进一步，在步骤S5中，分割模型将第一次分割的掩码结果返回到前端展示，可以根据分割结果进行进一步修改，对分割掩码错误地方添加正负点击进行标记，这里主要是对分割物体的边缘附近进行标记，完成标记后，重复S3的步骤重新将新的正负点击进行转换生成正负点击指导。

进一步，在步骤S6中，将新生成的正负点击指导与刚才返回给前端的分割掩码进行拼接操作，再与原图进行逐元素相加后送入模型重新进行预测，最后将修正后的分割掩码返回给前端，如此迭代交互修正直到获得满意的分割掩码。

采用上述方案后，本发明提出的基于Transformer的交互式图像分割方法，针对交互式分割模型忽略不同点击对分割结果的贡献程度，且在多尺度融合时引起的不一致冲突，设计了重构点击模型（Interactive Segmentation with Reconstruct Click VisionTransformers），使模型能够充分利用点击交互信息，提高特征的尺度不变性。在交互式图像分割标注任务上达到了最先进的性能，也在医学图像上也表现出了良好的泛化性能。通过更少的交互次数得到更好的分割结果，具有商业应用价值。

相较于现有技术，本发明还具有以下有益效果：

（1）本发明设计了一种全新的基于Transformer的交互式分割模型。

（2）本发明有效地使分割模型能够充分利用点击交互信息，加强了交互指导对分割结果的影响。

（3）本发明有效地解决了多尺度特征在融合时引起的不一致性，提高了特征的尺度变形。

（4）本发明提出的基于Transformer的交互式图像分割方法针医学数据集上表现出良好的泛化性能。

附图说明

图1是本发明基于Transformer的交互式图像分割方法的流程框图。

图2是本发明基于Transformer的交互式图像分割方法的模型图。

图3是本发明关于重构点击图像嵌入的结构示意图。

图4是本发明关于多尺度自适应融合的结构示意图。

图5是本发明基于Transformer的交互式图像分割方法的分割结果示意图。

具体实施方式

为了进一步解释本发明的技术方案，下面通过具体实施例来对本发明进行详细阐述。

如图1至图5所示，本发明提出了一种基于Transformer的交互式图像分割方法，用于交互式分割的图像标注人物，包括以下步骤：

步骤S1、选取想要标注的图像，载入到交互式图像分割标注软件中。用户可以选择任意尺寸图片大小，载入到交互式图像分割软件，软件在交互完成后，自适应调整图片大小到统一尺寸448 x 448，确保符合模型输入的尺寸要求。

步骤S2、用户选择分割目标，以左键单击为开始，开始后根据用户点击行为生成记录，且在对应位置生成点击标记。

用户在点击右侧菜单栏开始按钮后，交互端会持续的监听鼠标事件，当用户在某一位置按下左键时，会记录该位置的坐标信息，且在对应位置生成绿色小圆点表示该位置位于分割物体内部，即分割的目标对象（前景）。当释放时，表示一次标记过程结束。同样，当用户在某一位置按下右键时，会进行同样的操作，不同的是此时生成红色小圆点，用于表示该位置位于分割物体外部，即非分割的目标对象（背景）。

根据实验和统计，小圆点的半径大小为5像素。当半径过大时，位于前景边缘的正/负点击会被误认为负/正点击，对交互信息产生歧义从而造成模型识别错误产生较差的分割结果。而当半径过小时，点击所涵盖的范围太小难以提供丰富信息，导致用户可能需要提供更多的交互信息，这违背了交互式分割的初心。

步骤S3、确认交互完成后，根据点击记录将其转换为圆盘图，作为相对应的正负点击指导再和原始掩码拼接，最后与原图相加后作为分割模型输入。

之前的点击记录会被视为分割目标的内部区域/外部区域，根据点击坐标转换生成以为半径为5像素的圆盘图分别作为正负点击指导。如果是初次分割，会生成一个大小为448 x 448像素值都为0的图像作为初始分割掩码。将正负点击指导和初始分割掩码做拼接形成3 x 448 x 488的三通道图像。

将大小为448 x 448的3通道原始RGB图像与正负点击和初始分割掩码形成的3 x448 x 448图像进行逐元素相加。再将其作为分割模型输入。

步骤S4、利用预训练分割模型对图像中的指定目标进行分割，返回初始的分割掩码。

在训练分割模型时，由于深度学习模型需要大量的标注数据，动辄上百万张，如果采用人工进行点击交互标注，成本太大。所以，我们采用模拟采样策略来生成正负点击点击指导。

我们设计了以Transformer为骨干的重构点击模型（Interactive Segmentationwith Reconstruct Click Vision Transformers），如图2所示。该模型主要包括重构点击图像嵌入模块和多尺度自适应融合模块，用于增强模型的学习能力得到精准的分割结果。

重构点击图像嵌入模块会根据不同点击的重要性进行特征分离并重构它们，以增强重要点击的特征表示，如图3所示。首先，我们用组归一化（Group Normalization）层中的缩放因子对不同点击的贡献程度进行评估，对于给定特征图像，R为四维张量,其中/>为批次数量，/>为通道数量，/>为图像大小。我们首先通过简单的归一化操作来标准化输入特征/>,如公式1-1所示。

其中分别表示均值和方差，/>为可训练参数，/>值的大小反映了空间像素信息的贡献程度，/>为值较小且大于零的常数，确保除法的合理性；/>表示对特定特征图像/>进行组归一化操作。

归一化相关权重表示不同特征图的重要性，如公式1-2所示。

然后将归一化后的权重通过Sigmoid函数控制在0-1范围内，然后利用门控机制（阈值设置为0.5）将以上权重进行区分。其中，权重大于等于0.5的认为是贡献较大的记为，小于0.5的人为是贡献较小的记为/>，如公式1-3所示。

最后，我们将输入特征X分别乘以和/>，得到具有不同贡献程度的特征/>和/>。最后将加权后的两个不同的信息特征进行融合，如公式1-4所示。

多尺度自适应融合模块，学习如何在其他级别上对特征空间进行过滤，以便保留有用的空间信息自适应组合，如图4所示。首先，我们将金字塔产生的不同分辨率的特征表示为，其中/>表示层次。令/>表示位于特征图/>处的特征向量从层次/>调整大小到层次/>。在层次/>的融合方式如公式1-5所示。

其中表示融合后空间位置/>处的特征向量。其中/>、/>为模型自适应学习的四个不同层次到层次/>的空间重要性权重。我们令且/>，如公式1-6所示。

其中，使用softmax函数来定义，其中采用了控制参数/>、/>、/>、/>，控制参数可以通过1x1卷积得到。

步骤S5、根据初始的分割掩码结果，选择添加合适的正负点击对错误区域进行再次标记。

模型将第一次分割的掩码结果返回到前端展示，可以根据分割结果进行进一步修改，对分割掩码错误地方添加正负点击进行标记。这里主要是对分割物体的边缘附近进行标记，完成标记后，会重复S3的步骤重新将新的正负点击进行转换生成正负点击指导。

将新生成的正负点击指导与刚才返回给前端的分割掩码进行拼接操作，再与原图进行逐元素相加后送入模型重新进行预测，最后将修正后的分割掩码返回给前端。如此迭代交互修正直到获得满意的分割掩码，如图5所示。

本发明提出的基于Transformer的交互式图像分割方法，针对交互式分割模型忽略不同点击对分割结果的贡献程度，且在多尺度融合时引起的不一致冲突，设计了重构点击模型（Interactive Segmentation with Reconstruct Click Vision Transformers），使模型能够充分利用点击交互信息，提高特征的尺度不变性。在交互式图像分割标注任务上达到了最先进的性能，也在医学图像上也表现出了良好的泛化性能。通过更少的交互次数得到更好的分割结果，具有商业应用价值。

上述实施例和图式并非限定本发明的产品形态和式样，任何所属技术领域的普通技术人员对其所做的适当变化或修饰，皆应视为不脱离本发明的专利范畴。

Claims

1.基于Transformer的交互式图像分割方法，其特征在于，包括以下步骤：

步骤S1、选取待标注的图像，载入到交互式图像分割标注软件中；

步骤S2、选择分割目标，以左键单击为开始，开始后根据点击行为生成点击记录，且在对应位置生成点击标记；

步骤S4、利用预训练分割模型对图像中的指定目标进行分割，返回初始的分割掩码；在训练分割模型时采用模拟采样策略来生成正负点击指导，所述分割模型是以Transformer为骨干的重构点击模型，该重构点击模型主要包括重构点击图像嵌入模块和多尺度自适应融合模块，用于增强模型的学习能力得到精准的分割结果；

所述重构点击图像嵌入模块会根据不同点击的重要性进行特征分离并重构，以增强重要点击的特征表示，具体方法为：

首先，用组归一化层中的缩放因子对不同点击的贡献程度进行评估，对于给定特征图像，其中R为四维张量，/>为批次数量，/>为通道数量，/>为图像大小；

通过简单的归一化操作来标准化输入特征,具体公式为：

归一化相关权重表示不同特征图的重要性，公式为：

其中为第/>个通道的归一化权重，/>为第/>个通道的权值，/>表示对所有通道的权值进行加权求和；

然后，将归一化后的权重通过Sigmoid函数控制在0-1范围内，再利用门控机制将以上权重进行区分；其中，权重大于等于阈值的认为是贡献较大的记为，小于阈值的认为是贡献较小的记为/>，公式为：

最后，将加权后的两个不同的信息特征进行融合，公式为：

所述多尺度自适应融合模块，学习如何在其他级别上对特征空间进行过滤，以便保留有用的空间信息自适应组合，具体方法为：

首先，将金字塔产生的不同分辨率的特征表示为，其中/>表示层次，令表示位于特征图/>处的特征向量从层次/>调整大小到层次/>，在层次/>的融合方式的公式为：

其中表示融合后空间位置/>处的特征向量，其中/>、/>为模型自适应学习的四个不同层次到层次/>的空间重要性权重，令/>且，则公式为：

其中，使用softmax函数来定义，采用了控制参数/>、/>、/>、/>，控制参数通过1x1卷积得到；

2.如权利要求1所述的基于Transformer的交互式图像分割方法，其特征在于：步骤S1中，待标记的图像大小为任意尺寸，载入到交互式图像分割标注软件中，交互式图像分割标注软件在交互完成后，自适应调整图片大小到统一尺寸448 x 448，确保符合分割模型输入的尺寸要求。

3.如权利要求1所述的基于Transformer的交互式图像分割方法，其特征在于：在步骤S2中，用户在点击菜单栏的开始按钮后，交互端会持续的监听鼠标事件，当用户在某一位置按下左键时，会记录该位置的坐标信息，且在对应位置生成绿色小圆点表示该位置位于分割物体内部，即分割的目标对象；当释放时，表示一次标记过程结束；当用户在某一位置按下右键时，会记录该位置的坐标信息，且在对应位置生成红色小圆点表示该位置位于分割物体外部，即非分割的目标对象。

4.如权利要求3所述的基于Transformer的交互式图像分割方法，其特征在于：步骤S2中，所述绿色小圆点及红色小圆点的半径大小为5像素，步骤S3中，将步骤S2生成的点击记录视为分割目标的内部区域/外部区域，根据点击坐标转换生成半径为5像素的圆盘图分别作为正负点击指导，如果是初次分割，会生成一个大小为448 x 448像素值都为0的图像作为初始分割掩码，将正负点击指导和初始分割掩码做拼接形成3 x 448 x 488的三通道图像，将大小为448 x 488的三通道原始RGB图像与正负点击和初始分割掩码形成的3 x 448x 448图像进行逐元素相加，再将其作为分割模型输入。

5.如权利要求1所述的基于Transformer的交互式图像分割方法，其特征在于：在步骤S5中，分割模型将第一次分割的掩码结果返回到前端展示，可以根据分割结果进行进一步修改，对分割掩码错误地方添加正负点击进行标记，这里主要是对分割物体的边缘附近进行标记，完成标记后，重复S3的步骤重新将新的正负点击进行转换生成正负点击指导。

6.如权利要求5所述的基于Transformer的交互式图像分割方法，其特征在于：在步骤S6中，将新生成的正负点击指导与刚才返回给前端的分割掩码进行拼接操作，再与原图进行逐元素相加后送入模型重新进行预测，最后将修正后的分割掩码返回给前端，如此迭代交互修正直到获得满意的分割掩码。