CN117372701A - 基于Transformer的交互式图像分割方法 - Google Patents
基于Transformer的交互式图像分割方法 Download PDFInfo
- Publication number
- CN117372701A CN117372701A CN202311667809.5A CN202311667809A CN117372701A CN 117372701 A CN117372701 A CN 117372701A CN 202311667809 A CN202311667809 A CN 202311667809A CN 117372701 A CN117372701 A CN 117372701A
- Authority
- CN
- China
- Prior art keywords
- segmentation
- click
- image
- model
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000003709 image segmentation Methods 0.000 title claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 107
- 230000003993 interaction Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000004088 simulation Methods 0.000 claims 1
- 238000002372 labelling Methods 0.000 abstract description 13
- 230000009471 action Effects 0.000 abstract description 2
- 239000003550 marker Substances 0.000 abstract 1
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开基于Transformer的交互式图像分割方法,选取想要标注的图像,载入到交互式图像分割标注软件中;选择分割目标,根据用户点击行为生成点击记录,在对应位置生成点击标记;确认交互完成后,根据点击记录将其转换为圆盘图,作为相对应的正负点击指导再和原始掩码拼接,在与原图相加后作为分割模型输入;利用预训练分割模型对图像中的指定目标进行分割,返回初始的分割掩码;根据初始的分割掩码结果,选择添加合适的正负点击对错误区域进行再次标记;将新的标记再次送入分割模型,并返回修正后的结果。如此往复,对分割结果进行细化,以得到满意的结果。本发明能提高交互式图像分割标注性能,以更少的交互次数得到更好的分割结果。
Description
技术领域
本发明涉及计算机视觉与交互式分割标注的技术领域,特别是指一种基于Transformer的交互式图像分割方法。
背景技术
在大模型蓬勃发展的时代背景下,深度学习技术经历了革命性的发展,主要得益于大规模和高性能的计算机资源以及庞大的数据量。大模型展现出在处理复杂任务和提取高层次特征方面的卓越能力,这种能力的表现在很大程度上归因于大量训练数据的深度学习方法的成功应用。随着大模型的兴起,在如语义分割、实例分割以及显著性目标检测等领域,对高质量训练数据集的需求也呈现出指数级增长。然而,这些数据集的标注工作变得愈发繁琐和昂贵,特别是在像素级别的标注任务中。因此,交互式图像分割算法彰显出重要的研究和应用价值,也有更多的研究者在对这一领域进行广泛探索。交互式图像分割算法成为降低人工标注成本的最优选择,这些算法的引入使得标注训练数据集更为便捷且高效,从而可以促进大模型的迅速发展。在追求高精度和智能化操作的同时,这些算法为应对标注数据规模的挑战提供了实用的解决方案。交互式图像分割技术经过数十年的发展,积累了丰富的理论和方法,形成了相对完备的算法体系和交互框架。交互方式主要包括:点击、涂鸦、边界框和轮廓。交互式分割方法可分为传统和基于深度学习的两大类。传统的方法一般会利用像素值以及它们之间的关系等这一类的底层特征来进行交互。传统的方法不需要进行训练模型,因此无法学习已有的经验。因此,这类方法需要大量的人力成本才能获得较好的分割效果。随着深度学习的快速发展,卷积神经网络取代了传统方法,但基于Transformer的交互式分割模型相比卷积神经网络展现更加优越的性能。尽管上述算法在交互式图像分割任务中取得了显著的成功,但现有的分割方法仍然存在一些局限性。其中包括交互方式的不够灵活,对用户意图的反映不够准确,分割精度不够高以及需要较多用户交互等问题。因此,在面对具有复杂背景的自然图像、轮廓模糊的医学图像,这些交互式图像分割方法存在不足。基于此,本发明从这些方面入手对交互式分割模型进行改进。
发明内容
本发明的目的在于克服现有技术的不足,提供一种能够提高交互式图像分割标注性能,在医院图像上能够表现出良好的泛化性,能够以更少的交互次数得到更好的分割结果的基于Transformer的交互式图像分割方法。
为了达成上述目的,本发明的解决方案是:
基于Transformer的交互式图像分割方法,包括以下步骤:
步骤S1、选取想要标注的图像,载入到交互式图像分割标注软件中;
步骤S2、用户选择分割目标,以左键单击为开始,开始后根据用户点击行为生成记录,且在对应位置生成点击标记;
步骤S3、确认交互完成后,根据点击记录将其转换为圆盘图,作为相对应的正负点击指导再和原始掩码拼接,最后与原图相加后作为分割模型输入;
步骤S4、利用预训练分割模型对图像中的指定目标进行分割,返回初始的分割掩码;
步骤S5、根据初始的分割掩码结果,选择添加合适的正负点击对错误区域进行再次标记;
步骤 S6、将新的标记再次送入分割模型,并返回修正后的结果,如此往复,对分割结果进行细化,以得到满意的结果。
进一步,在步骤S1中,待标记的图像大小为任意尺寸,载入到交互式图像分割标注软件中,交互式图像分割标注软件在交互完成后,自适应调整图片大小到统一尺寸448 x448,确保符合分割模型输入的尺寸要求。
进一步,在步骤S2中,用户在点击菜单栏开始按钮后,交互端会持续的监听鼠标事件,当用户在某一位置按下左键时,会记录该位置的坐标信息,且在对应位置生成绿色小圆点表示该位置位于分割物体内部,即分割的目标对象(前景);当释放时,表示一次标记过程结束,同样,当用户在某一位置按下右键时,会进行同样的操作,不同的是此时生成红色小圆点,用于表示该位置位于分割物体外部,即非分割的目标对象(背景)。
进一步,步骤S2中,小圆点的半径大小为5像素。当半径过大时,位于前景边缘的正/负点击会被误认为负/正点击,对交互信息产生歧义从而造成模型识别错误产生较差的分割结果,而当半径过小时,点击所涵盖的范围太小难以提供丰富信息,导致用户可能需要提供更多的交互信息,这违背了交互式分割的初心。
步骤S3中,步骤S2生成的点击记录会被视为分割目标的内部区域/外部区域,根据点击坐标转换生成半径为5像素的圆盘图分别作为正负点击指导,如果是初次分割,会生成一个大小为448 x 448像素值都为0的图像作为初始分割掩码,将正负点击指导和初始分割掩码做拼接形成3 x 448 x 488的三通道图像。
进一步,将大小为448 x 448的3通道原始RGB图像与正负点击和初始分割掩码形成的3 x 448 x 448图像进行逐元素相加,再将其作为分割模型输入。
进一步,步骤S4中,在训练分割模型时,由于深度学习模型需要大量的标注数据,动辄上百万张,如果采用人工进行点击交互标注,成本太大,所以,我们采用模拟采样策略来生成正负点击指导。
进一步,步骤S4中,分割模型是以Transformer为骨干的重构点击模型(Interactive Segmentation with Reconstruct Click Vision Transformers),该重构点击模型主要包括重构点击图像嵌入模块和多尺度自适应融合模块,用于增强模型的学习能力得到精准的分割结果。
进一步,所述重构点击图像嵌入模块会根据不同点击的重要性进行特征分离并重构,以增强重要点击的特征表示,具体方法为:
首先,用组归一化(Group Normalization)层中的缩放因子对不同点击的贡献程度进行评估,对于给定特征图像,其中R为四维张量,/>为批次数量,/>为通道数量,/>为图像大小;
首先通过简单的归一化操作来标准化输入特征,如公式1-1所示:
其中分别表示均值和方差,/>为可训练参数,/>值的大小反映了空间像素信息的贡献程度,/>为值较小且大于零的常数,确保除法的合理性;/>表示对特定特征图像/>进行组归一化操作;
归一化相关权重表示不同特征图的重要性,如公式1-2所示:
其中为第/>个通道的归一化权重,/>为第/>个通道的权值,/>对所有通道的权值进行加权求和;
然后,将归一化后的权重通过Sigmoid函数控制在0-1范围内,然后利用门控机制(阈值设置为0.5)将以上权重进行区分。其中,权重大于等于阈值(0.5)的认为是贡献较大的记为,小于阈值(0.5)的认为是贡献较小的记为/>,如公式1-3所示:
其中为关于参数/>的阈值门控,其中默认阈值大小为0.5。通过比较/>和阈值大小来区分其贡献程度;
接着,将输入特征X分别乘以和/>,得到具有不同贡献程度的特征/>和/>;
最后,将加权后的两个不同的信息特征进行融合,如公式1-4所示:
进一步,所述多尺度自适应融合模块,学习如何在其他级别上对特征空间进行过滤,以便保留有用的空间信息自适应组合,具体方法为:
首先,将金字塔产生的不同分辨率的特征表示为,其中/>表示层次,令/>表示位于特征图/>处的特征向量从层次/>调整大小到层次/>,在层次/>的融合方式如公式1-5所示:
其中表示融合后空间位置/>处的特征向量,其中/>、/>为模型自适应学习的四个不同层次到层次/>的空间重要性权重,令/>且,如公式1-6所示:
进一步,在步骤S5中,分割模型将第一次分割的掩码结果返回到前端展示,可以根据分割结果进行进一步修改,对分割掩码错误地方添加正负点击进行标记,这里主要是对分割物体的边缘附近进行标记,完成标记后,重复S3的步骤重新将新的正负点击进行转换生成正负点击指导。
进一步,在步骤S6中,将新生成的正负点击指导与刚才返回给前端的分割掩码进行拼接操作,再与原图进行逐元素相加后送入模型重新进行预测,最后将修正后的分割掩码返回给前端,如此迭代交互修正直到获得满意的分割掩码。
采用上述方案后,本发明提出的基于Transformer的交互式图像分割方法,针对交互式分割模型忽略不同点击对分割结果的贡献程度,且在多尺度融合时引起的不一致冲突,设计了重构点击模型(Interactive Segmentation with Reconstruct Click VisionTransformers),使模型能够充分利用点击交互信息,提高特征的尺度不变性。在交互式图像分割标注任务上达到了最先进的性能,也在医学图像上也表现出了良好的泛化性能。通过更少的交互次数得到更好的分割结果,具有商业应用价值。
相较于现有技术,本发明还具有以下有益效果:
(1)本发明设计了一种全新的基于Transformer的交互式分割模型。
(2)本发明有效地使分割模型能够充分利用点击交互信息,加强了交互指导对分割结果的影响。
(3)本发明有效地解决了多尺度特征在融合时引起的不一致性,提高了特征的尺度变形。
(4)本发明提出的基于Transformer的交互式图像分割方法针医学数据集上表现出良好的泛化性能。
附图说明
图1是本发明基于Transformer的交互式图像分割方法的流程框图。
图2是本发明基于Transformer的交互式图像分割方法的模型图。
图3是本发明关于重构点击图像嵌入的结构示意图。
图4是本发明关于多尺度自适应融合的结构示意图。
图5是本发明基于Transformer的交互式图像分割方法的分割结果示意图。
具体实施方式
为了进一步解释本发明的技术方案,下面通过具体实施例来对本发明进行详细阐述。
如图1至图5所示,本发明提出了一种基于Transformer的交互式图像分割方法,用于交互式分割的图像标注人物,包括以下步骤:
步骤S1、选取想要标注的图像,载入到交互式图像分割标注软件中。用户可以选择任意尺寸图片大小,载入到交互式图像分割软件,软件在交互完成后,自适应调整图片大小到统一尺寸448 x 448,确保符合模型输入的尺寸要求。
步骤S2、用户选择分割目标,以左键单击为开始,开始后根据用户点击行为生成记录,且在对应位置生成点击标记。
用户在点击右侧菜单栏开始按钮后,交互端会持续的监听鼠标事件,当用户在某一位置按下左键时,会记录该位置的坐标信息,且在对应位置生成绿色小圆点表示该位置位于分割物体内部,即分割的目标对象(前景)。当释放时,表示一次标记过程结束。同样,当用户在某一位置按下右键时,会进行同样的操作,不同的是此时生成红色小圆点,用于表示该位置位于分割物体外部,即非分割的目标对象(背景)。
根据实验和统计,小圆点的半径大小为5像素。当半径过大时,位于前景边缘的正/负点击会被误认为负/正点击,对交互信息产生歧义从而造成模型识别错误产生较差的分割结果。而当半径过小时,点击所涵盖的范围太小难以提供丰富信息,导致用户可能需要提供更多的交互信息,这违背了交互式分割的初心。
步骤S3、确认交互完成后,根据点击记录将其转换为圆盘图,作为相对应的正负点击指导再和原始掩码拼接,最后与原图相加后作为分割模型输入。
之前的点击记录会被视为分割目标的内部区域/外部区域,根据点击坐标转换生成以为半径为5像素的圆盘图分别作为正负点击指导。如果是初次分割,会生成一个大小为448 x 448像素值都为0的图像作为初始分割掩码。将正负点击指导和初始分割掩码做拼接形成3 x 448 x 488的三通道图像。
将大小为448 x 448的3通道原始RGB图像与正负点击和初始分割掩码形成的3 x448 x 448图像进行逐元素相加。再将其作为分割模型输入。
步骤S4、利用预训练分割模型对图像中的指定目标进行分割,返回初始的分割掩码。
在训练分割模型时,由于深度学习模型需要大量的标注数据,动辄上百万张,如果采用人工进行点击交互标注,成本太大。所以,我们采用模拟采样策略来生成正负点击点击指导。
我们设计了以Transformer为骨干的重构点击模型(Interactive Segmentationwith Reconstruct Click Vision Transformers),如图2所示。该模型主要包括重构点击图像嵌入模块和多尺度自适应融合模块,用于增强模型的学习能力得到精准的分割结果。
重构点击图像嵌入模块会根据不同点击的重要性进行特征分离并重构它们,以增强重要点击的特征表示,如图3所示。首先,我们用组归一化(Group Normalization)层中的缩放因子对不同点击的贡献程度进行评估,对于给定特征图像,R为四维张量,其中/>为批次数量,/>为通道数量,/>为图像大小。我们首先通过简单的归一化操作来标准化输入特征/>,如公式1-1所示。
其中分别表示均值和方差,/>为可训练参数,/>值的大小反映了空间像素信息的贡献程度,/>为值较小且大于零的常数,确保除法的合理性;/>表示对特定特征图像/>进行组归一化操作。
归一化相关权重表示不同特征图的重要性,如公式1-2所示。
其中为第/>个通道的归一化权重,/>为第/>个通道的权值,/>对所有通道的权值进行加权求和;
然后将归一化后的权重通过Sigmoid函数控制在0-1范围内,然后利用门控机制(阈值设置为0.5)将以上权重进行区分。其中,权重大于等于0.5的认为是贡献较大的记为,小于0.5的人为是贡献较小的记为/>,如公式1-3所示。
其中为关于参数/>的阈值门控,其中默认阈值大小为0.5。通过比较/>和阈值大小来区分其贡献程度;
最后,我们将输入特征X分别乘以和/>,得到具有不同贡献程度的特征/>和/>。最后将加权后的两个不同的信息特征进行融合,如公式1-4所示。
多尺度自适应融合模块,学习如何在其他级别上对特征空间进行过滤,以便保留有用的空间信息自适应组合,如图4所示。首先,我们将金字塔产生的不同分辨率的特征表示为,其中/>表示层次。令/>表示位于特征图/>处的特征向量从层次/>调整大小到层次/>。在层次/>的融合方式如公式1-5所示。
其中表示融合后空间位置/>处的特征向量。其中/>、/>为模型自适应学习的四个不同层次到层次/>的空间重要性权重。我们令且/>,如公式1-6所示。
其中,使用softmax函数来定义,其中采用了控制参数/>、/>、/>、/>,控制参数可以通过1x1卷积得到。
步骤S5、根据初始的分割掩码结果,选择添加合适的正负点击对错误区域进行再次标记。
模型将第一次分割的掩码结果返回到前端展示,可以根据分割结果进行进一步修改,对分割掩码错误地方添加正负点击进行标记。这里主要是对分割物体的边缘附近进行标记,完成标记后,会重复S3的步骤重新将新的正负点击进行转换生成正负点击指导。
步骤 S6、将新的标记再次送入分割模型,并返回修正后的结果,如此往复,对分割结果进行细化,以得到满意的结果。
将新生成的正负点击指导与刚才返回给前端的分割掩码进行拼接操作,再与原图进行逐元素相加后送入模型重新进行预测,最后将修正后的分割掩码返回给前端。如此迭代交互修正直到获得满意的分割掩码,如图5所示。
本发明提出的基于Transformer的交互式图像分割方法,针对交互式分割模型忽略不同点击对分割结果的贡献程度,且在多尺度融合时引起的不一致冲突,设计了重构点击模型(Interactive Segmentation with Reconstruct Click Vision Transformers),使模型能够充分利用点击交互信息,提高特征的尺度不变性。在交互式图像分割标注任务上达到了最先进的性能,也在医学图像上也表现出了良好的泛化性能。通过更少的交互次数得到更好的分割结果,具有商业应用价值。
上述实施例和图式并非限定本发明的产品形态和式样,任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应视为不脱离本发明的专利范畴。
Claims (6)
1.基于Transformer的交互式图像分割方法,其特征在于,包括以下步骤:
步骤S1、选取待标注的图像,载入到交互式图像分割标注软件中;
步骤S2、选择分割目标,以左键单击为开始,开始后根据点击行为生成点击记录,且在对应位置生成点击标记;
步骤S3、确认交互完成后,根据点击记录将其转换为圆盘图,作为相对应的正负点击指导再和原始掩码拼接,最后与原图相加后作为分割模型输入;
步骤S4、利用预训练分割模型对图像中的指定目标进行分割,返回初始的分割掩码;在训练分割模型时采用模拟采样策略来生成正负点击指导,所述分割模型是以Transformer为骨干的重构点击模型,该重构点击模型主要包括重构点击图像嵌入模块和多尺度自适应融合模块,用于增强模型的学习能力得到精准的分割结果;
所述重构点击图像嵌入模块会根据不同点击的重要性进行特征分离并重构,以增强重要点击的特征表示,具体方法为:
首先,用组归一化层中的缩放因子对不同点击的贡献程度进行评估,对于给定特征图像,其中R为四维张量,/>为批次数量,/>为通道数量,/>为图像大小;
通过简单的归一化操作来标准化输入特征,具体公式为:
其中分别表示均值和方差,/>为可训练参数,/>值的大小反映了空间像素信息的贡献程度,/>为值较小且大于零的常数,确保除法的合理性;/>表示对特定特征图像/>进行组归一化操作;
归一化相关权重表示不同特征图的重要性,公式为:
其中为第/>个通道的归一化权重,/>为第/>个通道的权值,/>表示对所有通道的权值进行加权求和;
然后,将归一化后的权重通过Sigmoid函数控制在0-1范围内,再利用门控机制将以上权重进行区分;其中,权重大于等于阈值的认为是贡献较大的记为,小于阈值的认为是贡献较小的记为/>,公式为:
其中为关于参数/>的阈值门控,其中默认阈值大小为0.5。通过比较/>和阈值大小来区分其贡献程度;
接着,将输入特征X分别乘以和/>,得到具有不同贡献程度的特征/>和/>;
最后,将加权后的两个不同的信息特征进行融合,公式为:
所述多尺度自适应融合模块,学习如何在其他级别上对特征空间进行过滤,以便保留有用的空间信息自适应组合,具体方法为:
首先,将金字塔产生的不同分辨率的特征表示为,其中/>表示层次,令表示位于特征图/>处的特征向量从层次/>调整大小到层次/>,在层次/>的融合方式的公式为:
其中表示融合后空间位置/>处的特征向量,其中/>、/>为模型自适应学习的四个不同层次到层次/>的空间重要性权重,令/>且,则公式为:
其中,使用softmax函数来定义,采用了控制参数/>、/>、/>、/>,控制参数通过1x1卷积得到;
步骤S5、根据初始的分割掩码结果,选择添加合适的正负点击对错误区域进行再次标记;
步骤 S6、将新的标记再次送入分割模型,并返回修正后的结果,如此往复,对分割结果进行细化,以得到满意的结果。
2.如权利要求1所述的基于Transformer的交互式图像分割方法,其特征在于:步骤S1中,待标记的图像大小为任意尺寸,载入到交互式图像分割标注软件中,交互式图像分割标注软件在交互完成后,自适应调整图片大小到统一尺寸448 x 448,确保符合分割模型输入的尺寸要求。
3.如权利要求1所述的基于Transformer的交互式图像分割方法,其特征在于:在步骤S2中,用户在点击菜单栏的开始按钮后,交互端会持续的监听鼠标事件,当用户在某一位置按下左键时,会记录该位置的坐标信息,且在对应位置生成绿色小圆点表示该位置位于分割物体内部,即分割的目标对象;当释放时,表示一次标记过程结束;当用户在某一位置按下右键时,会记录该位置的坐标信息,且在对应位置生成红色小圆点表示该位置位于分割物体外部,即非分割的目标对象。
4.如权利要求3所述的基于Transformer的交互式图像分割方法,其特征在于:步骤S2中,所述绿色小圆点及红色小圆点的半径大小为5像素,步骤S3中,将步骤S2生成的点击记录视为分割目标的内部区域/外部区域,根据点击坐标转换生成半径为5像素的圆盘图分别作为正负点击指导,如果是初次分割,会生成一个大小为448 x 448像素值都为0的图像作为初始分割掩码,将正负点击指导和初始分割掩码做拼接形成3 x 448 x 488的三通道图像,将大小为448 x 488的三通道原始RGB图像与正负点击和初始分割掩码形成的3 x 448x 448图像进行逐元素相加,再将其作为分割模型输入。
5.如权利要求1所述的基于Transformer的交互式图像分割方法,其特征在于:在步骤S5中,分割模型将第一次分割的掩码结果返回到前端展示,可以根据分割结果进行进一步修改,对分割掩码错误地方添加正负点击进行标记,这里主要是对分割物体的边缘附近进行标记,完成标记后,重复S3的步骤重新将新的正负点击进行转换生成正负点击指导。
6.如权利要求5所述的基于Transformer的交互式图像分割方法,其特征在于:在步骤S6中,将新生成的正负点击指导与刚才返回给前端的分割掩码进行拼接操作,再与原图进行逐元素相加后送入模型重新进行预测,最后将修正后的分割掩码返回给前端,如此迭代交互修正直到获得满意的分割掩码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311667809.5A CN117372701B (zh) | 2023-12-07 | 2023-12-07 | 基于Transformer的交互式图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311667809.5A CN117372701B (zh) | 2023-12-07 | 2023-12-07 | 基于Transformer的交互式图像分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117372701A true CN117372701A (zh) | 2024-01-09 |
CN117372701B CN117372701B (zh) | 2024-03-12 |
Family
ID=89393288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311667809.5A Active CN117372701B (zh) | 2023-12-07 | 2023-12-07 | 基于Transformer的交互式图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117372701B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118096797A (zh) * | 2024-04-28 | 2024-05-28 | 江苏艾玮得生物科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN118229700A (zh) * | 2024-05-23 | 2024-06-21 | 厦门大学 | 实时的交互式图像分割方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021150017A1 (en) * | 2020-01-23 | 2021-07-29 | Samsung Electronics Co., Ltd. | Method for interactive segmenting an object on an image and electronic computing device implementing the same |
CN115115830A (zh) * | 2022-05-17 | 2022-09-27 | 西北农林科技大学 | 一种基于改进Transformer的家畜图像实例分割方法 |
CN115359254A (zh) * | 2022-07-25 | 2022-11-18 | 华南理工大学 | 基于Vision Transformer网络的弱监督实例分割方法、***及介质 |
CN115482241A (zh) * | 2022-10-21 | 2022-12-16 | 上海师范大学 | 一种跨模态双分支互补融合的图像分割方法及装置 |
CN116071553A (zh) * | 2023-02-16 | 2023-05-05 | 之江实验室 | 基于朴素VisionTransformer的弱监督语义分割方法与装置 |
CN116258976A (zh) * | 2023-03-24 | 2023-06-13 | 长沙理工大学 | 一种分层次Transformer的高分辨率遥感图像语义分割方法及*** |
US20230368508A1 (en) * | 2022-05-12 | 2023-11-16 | Hitachi, Ltd. | Area extraction method and area extraction system |
-
2023
- 2023-12-07 CN CN202311667809.5A patent/CN117372701B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021150017A1 (en) * | 2020-01-23 | 2021-07-29 | Samsung Electronics Co., Ltd. | Method for interactive segmenting an object on an image and electronic computing device implementing the same |
US20230368508A1 (en) * | 2022-05-12 | 2023-11-16 | Hitachi, Ltd. | Area extraction method and area extraction system |
CN115115830A (zh) * | 2022-05-17 | 2022-09-27 | 西北农林科技大学 | 一种基于改进Transformer的家畜图像实例分割方法 |
CN115359254A (zh) * | 2022-07-25 | 2022-11-18 | 华南理工大学 | 基于Vision Transformer网络的弱监督实例分割方法、***及介质 |
CN115482241A (zh) * | 2022-10-21 | 2022-12-16 | 上海师范大学 | 一种跨模态双分支互补融合的图像分割方法及装置 |
CN116071553A (zh) * | 2023-02-16 | 2023-05-05 | 之江实验室 | 基于朴素VisionTransformer的弱监督语义分割方法与装置 |
CN116258976A (zh) * | 2023-03-24 | 2023-06-13 | 长沙理工大学 | 一种分层次Transformer的高分辨率遥感图像语义分割方法及*** |
Non-Patent Citations (1)
Title |
---|
李国庆: "交互式图像分割方法研究", 中国博士学位论文全文数据库-信息科技辑, no. 2, pages 138 - 188 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118096797A (zh) * | 2024-04-28 | 2024-05-28 | 江苏艾玮得生物科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN118096797B (zh) * | 2024-04-28 | 2024-07-12 | 江苏艾玮得生物科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN118229700A (zh) * | 2024-05-23 | 2024-06-21 | 厦门大学 | 实时的交互式图像分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117372701B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117372701B (zh) | 基于Transformer的交互式图像分割方法 | |
Gokaslan et al. | Improving shape deformation in unsupervised image-to-image translation | |
CN109344701B (zh) | 一种基于Kinect的动态手势识别方法 | |
CN112784736B (zh) | 一种多模态特征融合的人物交互行为识别方法 | |
WO2023138062A1 (zh) | 图像处理方法及装置 | |
CN111325750B (zh) | 一种基于多尺度融合u型链神经网络的医学图像分割方法 | |
WO2022042348A1 (zh) | 医学影像标注方法和装置、设备及存储介质 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别***及方法 | |
CN111753802A (zh) | 识别方法及装置 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、***及设备 | |
CN114782694A (zh) | 无监督异常检测方法、***、设备及存储介质 | |
CN110827304A (zh) | 一种基于深度卷积网络与水平集方法的中医舌像定位方法和*** | |
CN114511502A (zh) | 一种基于人工智能的胃肠道内窥镜图像息肉检测***、终端及存储介质 | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及*** | |
Zhang et al. | Hierarchical attention aggregation with multi-resolution feature learning for GAN-based underwater image enhancement | |
CN111368733B (zh) | 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端 | |
CN114926858B (zh) | 一种基于特征点信息的深度学习的猪脸识别方法 | |
CN116434033A (zh) | 面向rgb-d图像稠密预测任务的跨模态对比学习方法及*** | |
CN112070181B (zh) | 一种基于图像流的协同检测方法及装置、存储介质 | |
CN112801238B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN116129417A (zh) | 一种基于低质量图像的数字仪表读数检测方法 | |
CN112862840B (zh) | 图像分割方法、装置、设备及介质 | |
Chen et al. | Application of generative adversarial network in image color correction | |
CN114972965A (zh) | 一种基于深度学习的场景识别方法 | |
CN114387489A (zh) | 电力设备识别方法、装置和终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |