CN117710671A - 一种基于分割大模型微调的医学图像分割方法 - Google Patents

一种基于分割大模型微调的医学图像分割方法 Download PDF

Info

Publication number
CN117710671A
CN117710671A CN202311719723.2A CN202311719723A CN117710671A CN 117710671 A CN117710671 A CN 117710671A CN 202311719723 A CN202311719723 A CN 202311719723A CN 117710671 A CN117710671 A CN 117710671A
Authority
CN
China
Prior art keywords
image
mask
segmentation
decoder
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311719723.2A
Other languages
English (en)
Inventor
武蓉桂
曹家乐
庞彦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Shanghai AI Innovation Center
Original Assignee
Tianjin University
Shanghai AI Innovation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University, Shanghai AI Innovation Center filed Critical Tianjin University
Priority to CN202311719723.2A priority Critical patent/CN117710671A/zh
Publication of CN117710671A publication Critical patent/CN117710671A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于分割大模型微调的医学图像分割方法,基于SAM网络模型实现,包括图像编码器,提示编码器和掩码解码器,其中,图像编码器部分,包括分块嵌入层,嵌入多尺度特征融合适配器MSFFA的每个block;所述多尺度特征融合适配器MSFFA,在主干网络的每一层都进行特征融合,以增强图像的语义信息,其输入的特征图包含经过标准化和多头注意力机制处理后的特征信息;对于每个输入特征图,通过三个分支分别在两个不同尺度及原尺度上提取特征;通过双线性插值将两种不同尺度的特征图上采样到与输入特征图相同尺寸,将三个尺度的特征图在通道维度上进行拼接;掩码解码器部分,采用两个级联的掩码解码器。

Description

一种基于分割大模型微调的医学图像分割方法
技术领域
本发明涉及医学图像分析中的图像分割方法,特别是基于分割大模型的图像分割的方法。
背景技术
图像分割是计算机视觉和图像处理技术之一,具体指将图像划分为多个不同且有意义的区域或片段。其目标是将图像分割成语义上或感知上有意义的部分,例如具有相似特征(如颜色、纹理或强度)的物体或区域。这个过程中计算机通过深度学习等方法隔离和识别图像中的单个物体或感兴趣的区域来更好地理解和分析图像的内容。目前,图像分割在物体识别、医学图像分析、自动驾驶等领域被广泛应用。
在医学图像分析方面,医学图像分割具体指将超声波、CT、MRI等成像中的器官,病变和组织等进行识别和分割。实现准确的分割对于临床医学中的疾病诊断,治疗过程和监测具有重大意义。在各种分割方法中,基于深度学习的分割方法由于强大的学习能力和鲁棒性提供了准确的分割效果,使其具有巨大优势和发展前景。
其中,最具有代表性应用最广泛的是U-Net[1]。近年来,基于Transformer[2]的模型在自然语言处理和计算机视觉领域都取得了巨大的成功。在这个背景下,涌现了一批各个领域的大型模型。其中,在计算机视觉方向,基于Transformer的分割大模型SegmentAnything[3]应运而生。SAM模型主要包括三个部分:图像编码器,提示编码器和掩码解码器。然而,SAM模型所采用的训练集基于自然图像,这与医学图像在特性上存在显著差异。针对此问题,Jun Ma等研究者[4]提出了MedSAM模型,该模型主要对SAM模型中的掩码解码器部分进行了微调,以适应医学图像分割的需求。此外,Ke L等人[5]提出了分割效果更好的HQ-SAM模型。HQ-SAM是为实现高质量分割效果对SAM优化的模型。它在原有模型基础上在图像编码器部分提取了层间的图像特征。这部分是用于掩码解码器生成高质量掩码的关键,这些层间特征包括了更丰富的图像的浅层特征。这部分特征信息和经过图像编码器的特征进行融合,在掩码解码器的指导下生成掩码进行分割预测。
在Wu J等人[6]的研究中,他们提出了Medical SAM Adapter模型,该模型针对二维和三维医学图像分割场景进行了优化,在图像编码器部分加入了适配器。在Paranjape J N等人[7]提出的Adaptive SAM模型中,采用了bias-tunning的方式对图像编码器部分进行微调,类似于VPT方法[8],从而显著提高了图像分割的效果。实验结果显示这些改编后的SAM模型比原始模型更适合医学图像分割。近期,SAM-Med2D模型[9]的出现进一步推动了该领域的发展。该模型在图像编码器部分引入了新的适配器,并支持点、边界框和掩码三种提示方式进行微调。但其适配器的设计仅在通道尺度上进行变换,没有涉及改变图像的分辨率用于提取医学图像更多的特征信息。
参考文献:
[1]Ronneberger O,Fischer P,Brox T.U-net:Convolutional networks forbiomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015:18th International Conference,Munich,Germany,October5-9,2015,Proceedings,Part III 18.Springer InternationalPublishing,2015:234-241.
[2]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[J].Advances in neural information processing systems,2017,30.
[3]Kirillov A,Mintun E,Ravi N,et al.Segment anything[J].arXivpreprint arXiv:2304.02643,2023.
[4]Ma J,Wang B.Segment anything in medical images[J].arXiv preprintarXiv:2304.12306,2023.
[5]Ke L,Ye M,Danelljan M,et al.Segment Anything in High Quality[J].arXiv preprint arXiv:2306.01567,2023.
[6]Wu J,Fu R,Fang H,et al.Medical sam adapter:Adapting segmentanything model for medical image segmentation[J].arXiv preprint arXiv:2304.12620,2023.
[7]Paranjape J N,Nair N G,Sikder S,et al.Adaptivesam:Towardsefficient tuning of sam for surgical scene segmentation[J].arXiv preprintarXiv:2308.03726,2023.
[8]Jia M,Tang L,Chen B C,et al.Visual prompt tuning[C]//EuropeanConference on Computer Vision.Cham:Springer Nature Switzerland,2022:709-727.
[9]Cheng J,Ye J,Deng Z,et al.SAM-Med2D[J].arXiv preprint arXiv:2308.16184,2023.
发明内容
本发明旨在解决大模型背景下,现有图像分割大模型未能适配于医学图像以获取充分的图像特征用于准确分割的问题。本发明基于SAM模型,提供一种医学图像分割方法。本发明提出多尺度特征融合适配器(Multi-Scale Feature Fusion Adapter,简称MSFFA)和级联掩码解码器(Cascade Mask Decoder),可有效改善原始SAM模型在医学图像上的分割效果不佳的现象。在SAM的图像编码器部分每层加入MSFFA,用于提取不同尺度上的图像特征;掩码解码器部分使用了两个解码器进行级联,中间传递特征信息。技术方案如下:
一种基于分割大模型微调的医学图像分割方法,基于SAM网络模型实现,包括三个主模块:图像编码器,提示编码器和掩码解码器,其中,
图像编码器部分,包括分块嵌入层,嵌入多尺度特征融合适配器MSFFA的每个block,以及Neck;所述多尺度特征融合适配器MSFFA,在主干网络的每一层都进行特征融合,以增强图像的语义信息,其输入的特征图包含经过标准化和多头注意力机制处理后的特征信息;对于每个输入特征图,通过三个分支分别在两个不同尺度及原尺度上提取特征,将特征图的通道数降低到原来的三分之一;通过双线性插值将两种不同尺度的特征图上采样到与输入特征图相同尺寸,将三个尺度的特征图在通道维度上进行拼接;通过一个全连接层对拼接后的特征图进行变换后与输入特征图相加,得到最终的输出特征图;
掩码解码器部分,采用两个级联的掩码解码器,第一掩码解码器为原始SAM的掩码解码器,第二个掩码解码器为HQ-SAM掩码解码器;第一掩码解码器接收图像编码器生成图像特征和提示编码器生成稀疏位置信息和紧密位置信息,生成第一掩码;第二掩码解码器接收图像编码器生成的层间嵌入层以及上一个掩码解码器生成的图像嵌入层和跨解码器token,生成第二掩码;利用第二掩码解码器生成的掩码进行分割预测。
进一步的,在第二掩码解码器中,图像嵌入层经过多层感知机MLP处理,并与图像编码器生成的图像特征进行相加,以此作为第二个掩码解码器的图像特征进行计算;两个掩码解码器通过图像嵌入层和跨解码器token进行级联。
进一步的,对于两个掩码都进行监督学习,通过反向传播算法优化模型参数。
本发明的有益效果:所提出的模块MSFFA可以有效地提取图像的多尺度特征并在各层间传递,这种特性使得模型能够充分提取到更多的图像全局和局部信息。此外,级联的掩码解码器可以实现对医学图像更加可靠的预测,进一步提升了图像分割的准确度和鲁棒性,从而可以获得分割准确率较高的医学图像分割器。
附图说明
图1多尺度特征融合适配器MSFFA
图2级联掩码解码器示意图
图3基于SAM的医学图像微调分割模型结构图
图4步骤流程图
图5分割结果示意图
具体实施方式
下面首先对本发明的基本方案进行说明。
首先说明所提出的多尺度特征融合适配器和级联掩码解码器部分,然后说明如何将这些模块应用于医学图像的分割。
(1)多尺度特征融合适配器和级联掩码解码器
如图1所示,本发明提出了一种多尺度特征融合适配器,该适配器嵌入在SAM的图像编码器部分。MSFFA在主干网络的每一层都进行特征融合,以增强图像的语义信息。MSFFA的输入是经过标准化和多头注意力机制处理后的特征信息。对于每个输入特征图,MSFFA通过三个分支分别在16×16,32×32,64×64三个尺度上提取特征,并将特征图的通道数降低为原来的三分之一。随后,MSFFA通过双线性插值将两种尺度的特征图上采样到与输入特征图相同的64×64尺寸,并将三个尺度的特征图在通道维度上进行拼接。接着,MSFFA通过一个全连接层对拼接后的特征图进行进一步的变换。最后,MSFFA将变换后的特征图与输入特征图相加,得到最终的输出特征图。
在级联掩码解码器部分,如图2所示,该部分使用了两个级联掩码器进行级联。前面是原始的SAM的掩码解码器,后面使用的是优化后的HQ-SAM掩码解码器,有关HQ-SAM掩码解码器的具体设计,可以参见文献5。在本专利的设计中,对掩码解码器部分采用了如下的设计:使用两个掩码解码器进行级联,后面的解码器中应用了上一个掩码解码器生成的图像嵌入层(output embedding)和跨解码器token(trans token)。应用于第二个掩码解码器的层间嵌入层(interm embedding)由图像编码器在生成图像特征(image embedding)的过程中生成。第一个掩码解码器生成的图像嵌入层和跨解码器token被传递给下一个掩码解码器。这些图像嵌入层经过多层感知机(MLP)处理,并与图像编码器生成的图像特征进行相加,以此作为第二个掩码解码器的图像特征进行计算。同时token被传递给第二个掩码解码器,并与高质量token进行合并计算。在整个过程中,两个解码器通过图像嵌入层和跨解码器token进行级联。
所提出的模块MSFFA可以有效地提取图像的多尺度特征并在各层间传递,这种特性使得模型能够充分提取到更多的图像全局和局部信息。此外,级联的掩码解码器可以实现对医学图像更加可靠的预测,进一步提升了图像分割的准确度和鲁棒性。
(2)基于多尺度特征融合适配器和级联掩码解码器的医学图像分割
本部分,说明如何将所提出的多尺度特征融合适配器和级联掩码解码器应用到医学图像分割中。图3给出了基于多尺度特征融合适配器和级联掩码解码器网络的结构示意图。网络模型有三个主模块:图像编码器,提示编码器和掩码解码器。在图像编码器部分,包括了分块嵌入层,嵌入MSFFA的每个block,以及Neck;掩码解码器部分,展示了两个级联的掩码解码器。对于给定的一张医学图像,网络测试的流程如下:首先根据图像编码器生成图像特征和层间嵌入层;基于提示编码器生成稀疏位置信息和紧密位置信息;将生成的图像特征和提示编码器生成的信息传递给第一个掩码解码器;第一个掩码解码器输出图像嵌入层和跨解码器token传入第二个掩码解码器,这个过程中生成第一个掩码;第二个掩码解码器将传入的图像嵌入层经过MLP和图像编码器生成的图像特征相加形成新的图像特征,并且直接使用跨解码器token。第二个掩码解码器将图像编码器生成的层间嵌入层和新的图像特征继续融合成高质量分割特征用于后续预测,这里生成第二个掩码;本发明对于两个掩码都进行监督学习,通过反向传播算法优化模型参数。然后,利用第二个掩码解码器生成的掩码进行分割预测。
将构建的医学图像分割模型用于图像分割的两个不同的步骤:训练阶段和测试阶段。训练阶段用于网络学习图像分割的模型参数;测试阶段使用训练之后的模型对于医学图像进行预测,用于分割图像中特定器官或者病变区域。首先,说明一些训练步骤:
步骤1:准备用于分割的医学图像数据集。这些数据集通常收集难度较大,通常医学分割挑战赛会使用一些公开的数据集。这些数据通常有二维、三维的格式。模型使用的是三维的数据格式。
步骤2:构建基于SAM的医学图像微调分割模型,包括图像编码器,提示编码器和掩码解码器,以及所提出的多尺度特征融合适配器和级联掩码解码器部分。同时选定训练的损失函数。
步骤3:初始化模型各个部分的初始参数以及训练过程中的超参数。模型参数的初始化取决于所选取的主干网络的大小和预处理之后的医学图像的大小。有关训练过程中的超参数包括学习率、迭代次数、批处理大小等。
步骤4:利用反向传播算法更新分割模型的权重。模型经过所预设的迭代次数得到最终的模型。
接下来,说明测试过程:
步骤1:准备测试的医学图像。图像经过不再更新权重的分割模型,使用第二个掩码解码器生成掩码对图片进行分割预测。
步骤2:将生成的掩码进行后处理,并计算Dice和NSD,同时生成分割效果图。
本发明所提出的方法适用于一般图像分割、医学图像分割等图像分割任务。同时,所提出的MSFFA模块可以嵌入不同的分割方法的主干网络。在这里,具体介绍以将MSFFA嵌入到Vision Transformer的实施例。图4给出了本发明所提出方法的具体实施方式的简要说明,具体实施步骤如下:
步骤1:根据所需要应用的分割目标收集目标分割数据集,包括若干图像以及相应的掩码信息,具体地需要分割的区域的准确信息。我们以MedSAM所使用的公开医学图像数据集为例,该数据集包含33个分割任务,包括腹部肿瘤,COVID-19感染,胆囊,头颈肿瘤,肝脏,胰腺,胸腔积液,CT图像中的胃分割等。数据集标注出了具体器官的分割图像和位置信息。我们利用全部数据集(约160000张图像)信息进行分割模型的训练,并且使用测试数据集进行测试。
步骤2:构建基于SAM的医学图像微调分割模型,包括图像编码器,提示编码器和掩码解码器,以及所提出的多尺度特征融合适配器和级联掩码解码器部分,同时选定训练的损失函数。主干网络选取的是Vision Transformer的base尺寸,包括12个Transformer编码块,用于提升模型提取图像特征的能力。我们所提出的多尺度特征融合适配器嵌入在每一个编码块内,用于在多头注意力之后继续在多尺度上提取图像特征并进行融合。损失函数设定为Dice损失和交叉熵损失之间的未加权和。
步骤3:初始化网络各个部分的初始参数以及训练过程中的超参数。主干网络的初始化权重采用SAM模型的base尺寸。训练总的迭代次数为50次,学习率设置为0.00001,批处理大小设置为1。但对于医学图像,不同数据集图像的大小不一样且强度值跨越范围较大。因此需要对图像进行预处理,首先将所有CT图像强度值设置在[-500,1000]的范围内。其他类型的图像也做相应的标准化处理,最后强度值均在[0,255]范围内。所有图像调整为256×256×3的尺寸。
步骤4:利用反向传播算法更新分割网络的权重。使用损失函数对于两个解码器生成的掩码进行监督,通过反向传播更新图像编码器的多尺度特征融合模块和级联掩码解码器部分的权重。经过预设的迭代次数后,此时的学习权重为分割模型的最终权重,得到一个可以实现分割准确率较高的医学图像分割器。
步骤5:准备测试的医学图像。图像经过不再更新权重的模型,利用加入多尺度特征融合适配器的主干网络生成的图像特征和层间嵌入层,在掩码解码器里对图像生成进行高质量的掩码。
步骤6:生成的掩码经过sigmoid函数进行后处理,计算Dice和NSD,最终生成分割效果示意图。图5给出了分割效果示意图。

Claims (4)

1.一种基于分割大模型微调的医学图像分割方法,基于SAM网络模型实现,包括三个主模块:图像编码器,提示编码器和掩码解码器,其特征在于,
图像编码器部分,包括分块嵌入层,嵌入多尺度特征融合适配器MSFFA的每个block,以及Neck;所述多尺度特征融合适配器MSFFA,在主干网络的每一层都进行特征融合,以增强图像的语义信息,其输入的特征图包含经过标准化和多头注意力机制处理后的特征信息;对于每个输入特征图,通过三个分支分别在两个不同尺度及原尺度上提取特征,将特征图的通道数降低到原来的三分之一;通过双线性插值将两种不同尺度的特征图上采样到与输入特征图相同尺寸,将三个尺度的特征图在通道维度上进行拼接;通过一个全连接层对拼接后的特征图进行变换后与输入特征图相加,得到最终的输出特征图;
掩码解码器部分,采用两个级联的掩码解码器,第一掩码解码器为原始SAM的掩码解码器,第二个掩码解码器为HQ-SAM掩码解码器;第一掩码解码器接收图像编码器生成图像特征和提示编码器生成稀疏位置信息和紧密位置信息,生成第一掩码;第二掩码解码器接收图像编码器生成的层间嵌入层以及上一个掩码解码器生成的图像嵌入层和跨解码器token,生成第二掩码;利用第二掩码解码器生成的掩码进行分割预测。
2.根据权利要求1所述的基于分割大模型微调的医学图像分割方法,其特征在于,在第二掩码解码器中,图像嵌入层经过多层感知机MLP处理,并与图像编码器生成的图像特征进行相加,以此作为第二个掩码解码器的图像特征进行计算;两个掩码解码器通过图像嵌入层和跨解码器token进行级联。
3.根据权利要求1所述的基于分割大模型微调的医学图像分割方法,其特征在于,对于两个掩码都进行监督学习,通过反向传播算法优化模型参数。
4.根据权利要求1所述的基于分割大模型微调的医学图像分割方法,其特征在于,主干网络选取Vision Transformer的base尺寸,包括12个Transformer编码块;损失函数设定为Dice损失和交叉熵损失之间的未加权和。
CN202311719723.2A 2023-12-14 2023-12-14 一种基于分割大模型微调的医学图像分割方法 Pending CN117710671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311719723.2A CN117710671A (zh) 2023-12-14 2023-12-14 一种基于分割大模型微调的医学图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311719723.2A CN117710671A (zh) 2023-12-14 2023-12-14 一种基于分割大模型微调的医学图像分割方法

Publications (1)

Publication Number Publication Date
CN117710671A true CN117710671A (zh) 2024-03-15

Family

ID=90158369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311719723.2A Pending CN117710671A (zh) 2023-12-14 2023-12-14 一种基于分割大模型微调的医学图像分割方法

Country Status (1)

Country Link
CN (1) CN117710671A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118135425A (zh) * 2024-05-07 2024-06-04 江西啄木蜂科技有限公司 一种自然保护地中关注区域的变化检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118135425A (zh) * 2024-05-07 2024-06-04 江西啄木蜂科技有限公司 一种自然保护地中关注区域的变化检测方法

Similar Documents

Publication Publication Date Title
CN113077471B (zh) 一种基于u型网络的医学图像分割方法
CN112927240B (zh) 一种基于改进的AU-Net网络的CT图像分割方法
CN113012172B (zh) 一种基于AS-UNet的医学图像分割方法及***
CN113674281B (zh) 一种基于深度形状学习的肝脏ct自动分割方法
CN116309650B (zh) 基于双分支嵌入注意力机制的医学图像分割方法与***
CN111080657A (zh) 基于卷积神经网络多维度融合的ct图像器官分割方法
CN114092439A (zh) 一种多器官实例分割方法及***
CN112215844A (zh) 基于ACU-Net的MRI多模态图像分割方法和***
CN117710671A (zh) 一种基于分割大模型微调的医学图像分割方法
CN112465754B (zh) 基于分层感知融合的3d医疗图像分割方法、装置及存储介质
CN116051945A (zh) 一种基于CNN-Transformer并行融合方法
CN116012581A (zh) 一种基于双重注意力融合的图像分割方法
CN115471470A (zh) 一种食管癌ct图像分割方法
CN117611601B (zh) 基于文字辅助的半监督3d医学图像分割方法
WO2024104035A1 (zh) 基于长短期记忆自注意力模型的三维医学图像分割方法及***
CN117808834A (zh) 一种基于sam的跨模态域泛化医学图像分割方法
CN111667488B (zh) 一种基于多角度U-Net的医学图像分割方法
CN117333497A (zh) 一种基于掩码监督策略的高效建模的三维医学影像分割方法
CN114298979B (zh) 一种局灶性病变征象描述指导的肝核磁影像序列生成方法
CN115496732A (zh) 一种半监督心脏语义分割算法
CN115222748A (zh) 一种基于并联深度u形网络和概率密度图的多器官分割方法
CN112967295A (zh) 一种基于残差网络和注意力机制的图像处理方法及***
Do Hong et al. Medical image segmentation using deep learning and blending loss
CN116645336B (zh) 一种mri脑图像分割腺垂体方法
CN118037791A (zh) 多模态三维医学图像分割配准模型的构建方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination