CN115482241A - 一种跨模态双分支互补融合的图像分割方法及装置 - Google Patents

一种跨模态双分支互补融合的图像分割方法及装置 Download PDF

Info

Publication number
CN115482241A
CN115482241A CN202211297966.7A CN202211297966A CN115482241A CN 115482241 A CN115482241 A CN 115482241A CN 202211297966 A CN202211297966 A CN 202211297966A CN 115482241 A CN115482241 A CN 115482241A
Authority
CN
China
Prior art keywords
branch
image segmentation
module
double
complementary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211297966.7A
Other languages
English (en)
Inventor
袁非牛
张正骁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Normal University
Original Assignee
Shanghai Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Normal University filed Critical Shanghai Normal University
Priority to CN202211297966.7A priority Critical patent/CN115482241A/zh
Publication of CN115482241A publication Critical patent/CN115482241A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种跨模态双分支互补融合的图像分割方法及装置,属于医学影像处理技术领域。包括:获取初始图像数据集,并对初始图像数据集进行预处理,得到训练集;构建双分支互补融合的图像分割网络,包括由卷积神经网络CNN以及Transformer模型构成的双分支的编码器结构,将两种模态相融合的特征互补模块以及由Transformer模型构成的解码器结构;设置训练参数,使用训练集进行训练,得到训练好网络;将待分割的目标图像输入网络中,得到分割结果。此方法不仅利用CNN的优势提取局部细节信息,又利用Transformer模型的优势建模长距离依赖关系,两者结合使得本方法能够得到更精准的分割结果,提升用户体验。

Description

一种跨模态双分支互补融合的图像分割方法及装置
技术领域
本发明涉及医学影像处理技术领域,特别涉及一种跨模态双分支互补融合的图像分割方法及装置。
背景技术
不同种类的医学图像都能够清晰的反映出人体的内部结构,在现代医学诊断中广泛使用。为了能够更好的服务和协助疾病诊断的专家或者医生,医学图像分割方法被提出用来将特定的器官同其他的器官分辨开来。这些分割后的器官图像能够在计算机辅助的诊断中发挥重要的作用。医学图像分割也包含许多不同方面的应用,例如多器官的分割和心脏分割。通过准确的逐像素分类对病变部分进行精准定位对临床治疗有着重要的意义,这项技术也已经成为了一种重要的辅助诊断工具。
近年来,深度学习在图像处理领域的应用取得了显著的研究成果。在许多任务中,通过深度学习得到的特征被证明比传统方法构造的特征具有更强的表示能力。当前的深度学习方法主要包括CNN和Transformer两大类模型,其中CNN模型方法擅长于捕获局部特征中的细节信息,而在建模长距离依赖关系能力上有所不足;与此相反,Transformer模型方法擅长于建模长距离依赖关系,而在捕获细节信息方面能力有所不足。尽管目前已有研究开始尝试将两者结合,但是这种早期的尝试并未充分考虑到由于CNN和Transformer模型间学习范式差异而产生的语义鸿沟问题,因此如何充分利用CNN和Transformer模型各自优势,赋予深度学习模型更强大的特征表达能力,仍是摆在我们面前的难题。
发明内容
为了解决现有技术存在的上述技术问题,本发明提供一种新的医学图像分割方法,这种方法不仅能够利用CNN的优势提取局部细节信息,对器官的边缘细节部分进行特征提取,又能利用Transformer模型的优势建模长距离依赖关系,这两者的结合使得本方法能够得到更精准的分割结果,起到辅助医生诊断的作用,减轻医生工作量,提升用户体验。
为了达到上述目的,本发明提出了一种跨模态双分支互补融合的图像分割方法,包括:
(1)获取初始图像数据集,并对所述初始图像数据集进行预处理,得到训练集;
(2)构建双分支互补融合的图像分割网络,所述双分支互补融合的图像分割网络包括由卷积神经网络CNN以及Transformer模型构成的双分支的编码器结构;将两种模态相融合的特征互补模块以及由Transformer模型构成的解码器结构;
(3)设置训练参数,将所述训练集数据送入该双分支互补融合的图像分割网络中进行训练,得到训练好的双分支互补融合的图像分割网络;
(4)将待分割的目标图像输入到所述训练好的双分支互补融合的图像分割网络中,得到所述目标图像的分割结果。
进一步的,所述步骤1对所述初始图像数据集进行预处理包括:
将所述初始图像数据的三维图像沿高度轴上进行切片,得到二维平面图片;
将所述二维平面图片转换为numpy格式,分别作剪裁、归一化操作,对图片进行翻转、旋转,再进行去噪、感兴趣区域选择,达到数据增强的效果,得到所述训练集。
进一步的,所述双分支互补融合的图像分割网络具体为:
编码部分,将预处理后的数据分别输入到所述卷积神经网络CNN以及Transformer模型中进行特征提取,并将同一层次的卷积神经网络CNN以及Transformer模型分支编码特征输入到所述两种模态相融合的特征互补模块,生成双分支互补融合的编码特征;
解码部分,将编码部分中获取的不同层次双分支互补融合的编码特征输入对应层次解码分支,完成图像分割。
进一步的,所述卷积神经网络CNN编码器以ResNet34为主体构成,包括3个三个下采样块;
第一下采样块是ResNet34中的Conv1x和Conv2x,Conv1x的输出作为Conv2x的输入;其中Conv1x包括依次连接的一个卷积层、一个批归一化层和一个ReLU激活层;Conv2x依次由三组级联的两个卷积层构成;
第二个下采样块由四组级联的两个卷积层构成;
第三个下采样块由六组级联的两个卷积层构成。
进一步的,所述Transformer模型编码器以Swin Transformer为主体构成,包括4个下采样块;
第一个下采样块先通过嵌入层将输入图片的通道数扩展为嵌入维度,再将三维图片拉伸为二维向量输入到Swin Transformer模块进行自注意力计算,再将所述二维向量重新还原为一张三维图片;
第二、第三以及第四个下采样块结构相同,先经过一个块合并层将图片的分辨率减小为一半,将通道数变为原来的两倍,再经过Swin Transformer模块进一步进行自注意力计算,进一步建立长距离依赖关系。
进一步的,所述特征互补模块包括跨模态融合模块、关联性增强模块、通道注意力模块以及特征融合模块;
所述跨模态融合模块包含全局平均池化提取和聚合输入信息,包含两个SwinTransformer块来融合来自两个分支的信息;
所述关联性增强模块将来自两个模态的信息作点乘建立两者的关联性;
所述通道注意力模块对来自所述Transformer模型编码器的特征沿通道方向提取注意力信息;
所述特征融合模块将上述三个模块的输出拼接在一起,使用残差连接和级联的卷积层的方式将这些信息作融合。
进一步的,所述Transformer模型解码器以Swin Transformer块为主体构成,由所述Transformer模型编码器最后一层的输出作为输入,先经过一个块扩展层,分辨率扩展两倍,通道数减半,之后连续经过三个相同结构的上采样块;
每个上采样块包含一个块扩展层和Swin Transformer块,所述双分支互补融合特征通过跳跃连接与上采样特征两者拼接再卷积成对应的通道数之后,首先经过SwinTransformer模块,通过自注意力的计算建立图片中的长距离依赖关系;再进入块扩展层中将图片的分辨率扩展为原来的两倍,将通道数减小为原来的一半。
进一步的,所述步骤3中使用随机梯度下降法进行训练,损失函数采用Dice损失函数和交叉熵损失函数的加权求和。
进一步的,所述步骤3中设置参数包括:网络的初始学习率设置为0.01,批处理个数为24,动量大小为0.99,权重衰减为3e-5,所述Dice损失函数和交叉熵损失函数的加权权重分别设置为0.6和0.4。
本发明还提供了一种跨模态双分支互补融合的图像分割装置,包括:
获取单元:用于获取初始图像数据集,并对所述初始图像数据集进行预处理,得到训练集;
建模单元:用于构建双分支互补融合的图像分割网络,所述双分支互补融合的图像分割网络包括由卷积神经网络CNN以及Transformer模型构成的双分支的编码器结构;将两种模态相融合的特征互补模块以及由Transformer模型构成的解码器结构;
训练单元:用于设置训练参数,将所述训练集数据送入该双分支互补融合的图像分割网络中进行训练,得到训练好的双分支互补融合的图像分割网络;
分割单元:用于将待分割的目标图像输入到所述训练好的双分支互补融合的图像分割网络中,得到所述目标图像的分割结果。
本发明的有益效果:
1、构建的分割网络的编码器部分采用双分支的结构。其中CNN分支采用了以ResNet34为主体的结构用来提取局部细节信息,Transformer分支采用了以SwinTransformer为主体的结构捕捉长距离依赖关系,两个分支信息互补。
2、将来自CNN和Transformer分支对应分辨率和通道数大小的三组特征图接入一个特征互补模块。从实际效果上看,它是一种十分有效的结合CNN和Transformer特征的跨模态的融合方式。
3、通过点乘计算CNN和Transformer特征之间的相关性,在Transformer自注意力机制得到的特征上使用通道注意力,在拥有了空间上的全局信息之后弥补通道上注意力的不足以进一步提高分割精度
4、设计一个拥有多尺度跳跃连接的以Swin Transformer为主体的解码器结构,对跳跃连接传来的互补融合的特征和逐级上采样的特征进行自注意力的计算提取全局上下文信息以及长距离依赖关系。
附图说明
图1是本发明实施例图像分割方法的流程示意图。
图2是本发明实施例跨模态双分支互补融合分割网络的整体示意图。
图3是本发明实施例Swin Transformer的示意图。
图4是本发明实施例模型中特征互补模块的示意图。
图5是本发明实施例的分割结果与人工标签图的对比示意图。
具体实施方式
下面结合附图和实施例详细描述本发明。
所述实施例的示例在附图中展示,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
下面以多个分割好的腹部多器官的三维CT图像的分割为例来说明本发明,本发明公开了一种跨模态双分支互补融合的图像分割方法,在一种优选实施方式中,方法的整体示意图如图1所示,该方法包括:
S101、获取初始图像数据集,并对所述初始图像数据集进行预处理,得到训练集;
本实施例中,获取腹部多器官数据集,数据集中包含多个已经事先标注好的三维图像的原图和分割图以及待分割的多器官原图,分割后的区域分为9类,分别是主动脉、胆囊、左肾、右肾、肝脏、胰腺、脾脏、胃和背景,作为训练集时将每一张三维图片沿高度轴上进行切片,得到二维平面图片。将图片转换为numpy格式后分别作剪裁、归一化操作。为了增强图像分割模型的泛化能力,还可以进行数据增强,再对图片进行翻转、旋转。此外,构建数据集时还包括图像的去噪、感兴趣区域选定(在图像中选定脑部图像区域)等,在此不再赘述,本实施例中最终得到2212张二维图片作为训练集;
S102、构建双分支互补融合的图像分割网络,所述双分支互补融合的图像分割网络包括由卷积神经网络CNN以及Transformer模型构成的双分支的编码器结构;将两种模态相融合的特征互补模块以及由Transformer模型构成的解码器结构;
如图2所示,对模型的编码器部分来说:主要分为以ResNet34为主体的CNN架构第一分支以及以Swin Transformer为主体的Transformer架构第二分支构成;对模型的特征互补模块来说:主要分为四大板块:分别是跨模态融合模块、关联性增强模块、通道注意力模块以及特征融合模块。对模型的解码器来说:主要是以Swin Transformer块为主体构成解码器。
在以ResNet34为主干的CNN分支里,图片将依次经过三个下采样块。第一个下采样块是ResNet34中的Conv1x和Conv2x。在Conv1x中,图片依次经过一个卷积层、一个批归一化层、一个ReLU激活层。Conv1x的输出f1作为Conv2x的输入,Conv2x依次又由三组级联的两个卷积层构成。总的来说,图片经过第一个采样块后,分辨率变为原始数据的四分之一,表示为H/4×W/4×C;第二个下采样块由四组级联的两个卷积层构成,图片经过第二个采样块后的输出f2分辨率变为原先的一半,通道数变为原先的两倍,表示为H/8×W/8×2C;第三个采样块由六组级联的两个卷积层构成,图片经过第三个采样块后的输出f3同样分辨率变为原先的一半,通道数变为原先的两倍,表示为H/16×W/16×4C。CNN分支按照下采样块的位置总共分为三层结构,分别对应三个特征图f1,f2和f3,这些特征图包含丰富的空间细节信息以及上下文语义信息,这些由CNN得到的特征图能够提高Transformer解码器的特征表示能力。
在以Swin Transformer为主干的Transformer分支里,图片将依次经过四个下采样块。第一个下采样块将输入图片拉伸为二维向量输入到Swin Transformer模块进行自注意力计算,Swin Transformer结构如图3所示。计算之后将二维向量再重新还原为一张三维图片,图片经过第一个采样块后的输出g1,分辨率变为原先数据的四分之一,表示为H/4×W/4×C,其分辨率大小与CNN分支的第一个下采样块的输出相对应f1。第二、第三以及第四个下采样块结构相同,先经过一个块合并层将图片的分辨率减小为一半,再将通道数变为原来的两倍,输出分别表示为g2(H/8×W/8×2C)、g3(H/16×W/16×4C)和g4(H/32×W/32×8C)。Transformer分支充分利用自注意力机制的特点,建立了图片的长距离依赖关系和全局信息,使得模型的分割精度进一步提高。
整个特征互补模块如图4所示,由四大板块构成,分别是跨模态融合模块、关联性增强模块、通道注意力模块以及特征融合模块。跨模态融合模块首先对来自两个不同分支不同模态的输入fi和gi进行全局平均池化,聚合生成两者的特征向量。然后将各自得到的特征向量交叉的拼接到对方上,于是得到新的特征向量
Figure BDA0003902159300000101
和fi 1。随后对
Figure BDA0003902159300000102
和fi 1分别使用SwinTransformer模块来融合两个模态的特征得到
Figure BDA0003902159300000103
和fi 2并重构为新的特征图
Figure BDA0003902159300000104
和fi 3。最后将
Figure BDA0003902159300000105
和fi 3互相拼接通过1×1卷积调整通道数之后得到最终的跨模态融合模块的输出si。特征关联性增强模块将
Figure BDA0003902159300000106
和fi点乘建立两者的关联性,得到跨模态关联性特征ei。对于通道注意力模块,由于跨模态融合模块中已经将包含局部细节信息的特征与包含全局信息和长距离依赖关系的特征作了融合,在空间的维度上具有了出色的特征表示能力的情况下,所以对来自Transformer模块的特征仅沿通道方向提取注意力信息,以弥补模型在通道维度特征提取能力上的不足,具体来说就是将特征
Figure BDA0003902159300000107
输入一个SE-Block得到双重注意力特征ai。最后特征融合模块将上述三个模块的输出si、ei和ai拼接在一起,使用残差连接和级联的卷积层的方式将这些信息作融合。
解码器中的Swin Transformer模块与编码器的模块结构相同,通过自注意力的计算建立图片中的长距离依赖关系。块扩展层中将图片的分辨率扩展为原来的两倍,将通道数减小为原来的一半。解码器部分,图片由Transformer编码器最后一层的输出g4作为输入,特征图先经过一个块扩展层,分辨率扩展两倍,通道数减半,得到输出u3,之后连续经过三个相同结构的上采样块。每个上采样块包含一个块扩展层和Swin Transformer块,每层结构的输出依次为v3、u2、v2、u1和v1。其中第三个上采样块将特征图还原为原始图片数据的分辨率大小和图片类数大小的通道数,得到模型最终的输出y。
S103、设置训练参数,将所述训练集数据送入该双分支互补融合的图像分割网络中进行训练,得到训练好的双分支互补融合的图像分割网络;
在分割网络训练时,设置训练参数包括:
输入图像的尺寸为H×W×3,H,W,3分别是二维图像的高、宽、通道数,本实施例中,输入图像数据的大小格式分别为224*224*3;网络的初始学习率设置为0.01,学习率大小随着迭代次数的增加而逐渐减小,批处理个数为24,动量大小为0.99,权重衰减为3e-5,使用随机梯度下降法进行训练,损失函数采用了Dice损失函数和交叉熵损失函数的加权求和,权重分别设置为0.6和0.4,其余网络参数的设置可以按常规理解,在此不再赘述。当分割网络的模型性能达到预设置的精度要求时,将分割网络作为图像分割模型。模型性能可以用预测精度等常用的评估参数进行判断,或人为判断分割效果。
S104、将待分割的目标图像输入到所述训练好的双分支互补融合的图像分割网络中,得到所述目标图像的分割结果。
在目标多器官图像原图输入到图像分割模型之前,还需要对目标三维图像进行预处理,包括裁剪和去噪等操作,在此不再赘述,然后送入训练好的图像分割网络,得到分割结果。
本申请中,使用了一种双分支并行的编码器结构,传统的CNN模型能够有效的提取图像中的上下文信息和空间细节信息,但是受限于感受野不够大的固有局限难以高效建模远距离依赖关系,而另一分支的Transformer模型可以通过自注意力机制的特性在浅层部分即可提取输入图像的全局信息,弥补了CNN的固有弊端,而Transformer所不擅长的局部细节信息提取能力又能够由CNN来加以弥补,所以我们又通过一个特征互补模块来将两个分支的多尺度特征进行互补和融合,最后再次使用Transformer模型建模互补后的特征以及上采样编码信息,得到最终图像分割的结果。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种跨模态双分支互补融合的图像分割方法,其特征在于,包括:
(1)获取初始图像数据集,并对所述初始图像数据集进行预处理,得到训练集;
(2)构建双分支互补融合的图像分割网络,所述双分支互补融合的图像分割网络包括由卷积神经网络CNN以及Transformer模型构成的双分支的编码器结构;将两种模态相融合的特征互补模块以及由Transformer模型构成的解码器结构;
(3)设置训练参数,将所述训练集数据送入该双分支互补融合的图像分割网络中进行训练,得到训练好的双分支互补融合的图像分割网络;
(4)将待分割的目标图像输入到所述训练好的双分支互补融合的图像分割网络中,得到所述目标图像的分割结果。
2.根据权利要求1所述的跨模态双分支互补融合的图像分割方法,其特征在于,所述步骤1对所述初始图像数据集进行预处理包括:
将所述初始图像数据的三维图像沿高度轴上进行切片,得到二维平面图片;
将所述二维平面图片转换为numpy格式,分别作剪裁、归一化操作,对图片进行翻转、旋转,再进行去噪、感兴趣区域选择,达到数据增强的效果,得到所述训练集。
3.根据权利要求1所述的跨模态双分支互补融合的图像分割方法,其特征在于,所述双分支互补融合的图像分割网络具体为:
编码部分,将预处理后的数据分别输入到所述卷积神经网络CNN以及Transformer模型中进行特征提取,并将同一层次的卷积神经网络CNN以及Transformer模型分支编码特征输入到所述两种模态相融合的特征互补模块,生成双分支互补融合的编码特征;
解码部分,将编码部分中获取的不同层次双分支互补融合的编码特征输入对应层次解码分支,完成图像分割。
4.根据权利要求1所述的跨模态双分支互补融合的图像分割方法,其特征在于:所述卷积神经网络CNN编码器以ResNet34为主体构成,包括3个三个下采样块;
第一下采样块是ResNet34中的Conv1x和Conv2x,Conv1x的输出作为Conv2x的输入;其中Conv1x包括依次连接的一个卷积层、一个批归一化层和一个ReLU激活层;Conv2x依次由三组级联的两个卷积层构成;
第二个下采样块由四组级联的两个卷积层构成;
第三个下采样块由六组级联的两个卷积层构成。
5.根据权利要求1所述的跨模态双分支互补融合的图像分割方法,其特征在于:所述Transformer模型编码器以Swin Transformer为主体构成,包括4个下采样块;
第一个下采样块先通过嵌入层将输入图片的通道数扩展为嵌入维度,再将三维图片拉伸为二维向量输入到Swin Transformer模块进行自注意力计算,再将所述二维向量重新还原为一张三维图片;
第二、第三以及第四个下采样块结构相同,先经过一个块合并层将图片的分辨率减小为一半,将通道数变为原来的两倍,再经过Swin Transformer模块进一步进行自注意力计算,进一步建立长距离依赖关系。
6.根据权利要求1所述的跨模态双分支互补融合的图像分割方法,其特征在于:所述特征互补模块包括跨模态融合模块、关联性增强模块、通道注意力模块以及特征融合模块;
所述跨模态融合模块包含全局平均池化提取和聚合输入信息,包含两个SwinTransformer块来融合来自两个分支的信息;
所述关联性增强模块将来自两个模态的信息作点乘建立两者的关联性;
所述通道注意力模块对来自所述Transformer模型编码器的特征沿通道方向提取注意力信息;
所述特征融合模块将上述三个模块的输出拼接在一起,使用残差连接和级联的卷积层的方式将这些信息作融合。
7.根据权利要求1所述的跨模态双分支互补融合的图像分割方法,其特征在于:所述Transformer模型解码器以Swin Transformer块为主体构成,由所述Transformer模型编码器最后一层的输出作为输入,先经过一个块扩展层,分辨率扩展两倍,通道数减半,之后连续经过三个相同结构的上采样块;
每个上采样块包含一个块扩展层和Swin Transformer块,所述双分支互补融合特征通过跳跃连接与上采样特征两者拼接再卷积成对应的通道数之后,首先经过SwinTransformer模块,通过自注意力的计算建立图片中的长距离依赖关系;再进入块扩展层中将图片的分辨率扩展为原来的两倍,将通道数减小为原来的一半。
8.根据权利要求1所述的跨模态双分支互补融合的图像分割方法,其特征在于:所述步骤3中使用随机梯度下降法进行训练,损失函数采用Dice损失函数和交叉熵损失函数的加权求和。
9.根据权利要求8所述的跨模态双分支互补融合的图像分割方法,其特征在于,所述步骤3中设置参数包括:网络的初始学习率设置为0.01,批处理个数为24,动量大小为0.99,权重衰减为3e-5,所述Dice损失函数和交叉熵损失函数的加权权重分别设置为0.6和0.4。
10.一种跨模态双分支互补融合的图像分割装置,其特征在于,包括:
获取单元:用于获取初始图像数据集,并对所述初始图像数据集进行预处理,得到训练集;
建模单元:用于构建双分支互补融合的图像分割网络,所述双分支互补融合的图像分割网络包括由卷积神经网络CNN以及Transformer模型构成的双分支的编码器结构;将两种模态相融合的特征互补模块以及由Transformer模型构成的解码器结构;
训练单元:用于设置训练参数,将所述训练集数据送入该双分支互补融合的图像分割网络中进行训练,得到训练好的双分支互补融合的图像分割网络;
分割单元:用于将待分割的目标图像输入到所述训练好的双分支互补融合的图像分割网络中,得到所述目标图像的分割结果。
CN202211297966.7A 2022-10-21 2022-10-21 一种跨模态双分支互补融合的图像分割方法及装置 Pending CN115482241A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211297966.7A CN115482241A (zh) 2022-10-21 2022-10-21 一种跨模态双分支互补融合的图像分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211297966.7A CN115482241A (zh) 2022-10-21 2022-10-21 一种跨模态双分支互补融合的图像分割方法及装置

Publications (1)

Publication Number Publication Date
CN115482241A true CN115482241A (zh) 2022-12-16

Family

ID=84395202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211297966.7A Pending CN115482241A (zh) 2022-10-21 2022-10-21 一种跨模态双分支互补融合的图像分割方法及装置

Country Status (1)

Country Link
CN (1) CN115482241A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
CN115984296A (zh) * 2023-03-21 2023-04-18 译企科技(成都)有限公司 一种应用多注意力机制的医学图像分割方法及***
CN116091842A (zh) * 2023-02-23 2023-05-09 中国人民解放军军事科学院***工程研究院 一种Vision Transformer模型结构优化***、方法、介质
CN116188435A (zh) * 2023-03-02 2023-05-30 南通大学 一种基于模糊逻辑的医学图像深度分割方法
CN116188431A (zh) * 2023-02-21 2023-05-30 北京长木谷医疗科技有限公司 基于CNN与Transformer的髋关节分割方法及装置
CN116453121A (zh) * 2023-06-13 2023-07-18 合肥市正茂科技有限公司 一种车道线识别模型的训练方法及装置
CN116561254A (zh) * 2023-05-05 2023-08-08 重庆大学 结合CNN和Transformer的多特征融合对联生成方法
CN116681895A (zh) * 2023-06-15 2023-09-01 南京航空航天大学 一种飞机网格模型部件分割方法、***、设备及介质
CN116739992A (zh) * 2023-05-17 2023-09-12 福州大学 一种甲状腺被膜侵犯智能辅助判读方法
CN116958556A (zh) * 2023-08-01 2023-10-27 东莞理工学院 用于椎体和椎间盘分割的双通道互补脊柱图像分割方法
CN117095447A (zh) * 2023-10-18 2023-11-21 杭州宇泛智能科技有限公司 一种跨域人脸识别方法、装置、计算机设备及存储介质
CN117115444A (zh) * 2023-09-08 2023-11-24 北京卓视智通科技有限责任公司 一种多任务图像分割方法、***、计算机设备和存储介质
CN117372701A (zh) * 2023-12-07 2024-01-09 厦门瑞为信息技术有限公司 基于Transformer的交互式图像分割方法
CN117726633A (zh) * 2024-02-07 2024-03-19 安徽大学 基于特征融合的双分支冠状动脉图像的分割方法、***
CN117726822A (zh) * 2024-02-18 2024-03-19 安徽大学 基于双分支特征融合的三维医学图像分类分割***及方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
CN116188431A (zh) * 2023-02-21 2023-05-30 北京长木谷医疗科技有限公司 基于CNN与Transformer的髋关节分割方法及装置
CN116188431B (zh) * 2023-02-21 2024-02-09 北京长木谷医疗科技股份有限公司 基于CNN与Transformer的髋关节分割方法及装置
CN116091842A (zh) * 2023-02-23 2023-05-09 中国人民解放军军事科学院***工程研究院 一种Vision Transformer模型结构优化***、方法、介质
CN116091842B (zh) * 2023-02-23 2023-10-27 中国人民解放军军事科学院***工程研究院 一种Vision Transformer模型结构优化***、方法、介质
CN116188435B (zh) * 2023-03-02 2023-11-07 南通大学 一种基于模糊逻辑的医学图像深度分割方法
CN116188435A (zh) * 2023-03-02 2023-05-30 南通大学 一种基于模糊逻辑的医学图像深度分割方法
CN115984296A (zh) * 2023-03-21 2023-04-18 译企科技(成都)有限公司 一种应用多注意力机制的医学图像分割方法及***
CN115984296B (zh) * 2023-03-21 2023-06-13 译企科技(成都)有限公司 一种应用多注意力机制的医学图像分割方法及***
CN116561254A (zh) * 2023-05-05 2023-08-08 重庆大学 结合CNN和Transformer的多特征融合对联生成方法
CN116739992A (zh) * 2023-05-17 2023-09-12 福州大学 一种甲状腺被膜侵犯智能辅助判读方法
CN116739992B (zh) * 2023-05-17 2023-12-22 福州大学 一种甲状腺被膜侵犯智能辅助判读方法
CN116453121A (zh) * 2023-06-13 2023-07-18 合肥市正茂科技有限公司 一种车道线识别模型的训练方法及装置
CN116453121B (zh) * 2023-06-13 2023-12-22 合肥市正茂科技有限公司 一种车道线识别模型的训练方法及装置
CN116681895A (zh) * 2023-06-15 2023-09-01 南京航空航天大学 一种飞机网格模型部件分割方法、***、设备及介质
CN116958556A (zh) * 2023-08-01 2023-10-27 东莞理工学院 用于椎体和椎间盘分割的双通道互补脊柱图像分割方法
CN116958556B (zh) * 2023-08-01 2024-03-19 东莞理工学院 用于椎体和椎间盘分割的双通道互补脊柱图像分割方法
CN117115444A (zh) * 2023-09-08 2023-11-24 北京卓视智通科技有限责任公司 一种多任务图像分割方法、***、计算机设备和存储介质
CN117115444B (zh) * 2023-09-08 2024-04-16 北京卓视智通科技有限责任公司 一种多任务图像分割方法、***、计算机设备和存储介质
CN117095447A (zh) * 2023-10-18 2023-11-21 杭州宇泛智能科技有限公司 一种跨域人脸识别方法、装置、计算机设备及存储介质
CN117095447B (zh) * 2023-10-18 2024-01-12 杭州宇泛智能科技有限公司 一种跨域人脸识别方法、装置、计算机设备及存储介质
CN117372701A (zh) * 2023-12-07 2024-01-09 厦门瑞为信息技术有限公司 基于Transformer的交互式图像分割方法
CN117372701B (zh) * 2023-12-07 2024-03-12 厦门瑞为信息技术有限公司 基于Transformer的交互式图像分割方法
CN117726633A (zh) * 2024-02-07 2024-03-19 安徽大学 基于特征融合的双分支冠状动脉图像的分割方法、***
CN117726633B (zh) * 2024-02-07 2024-04-19 安徽大学 基于特征融合的双分支冠状动脉图像的分割方法、***
CN117726822A (zh) * 2024-02-18 2024-03-19 安徽大学 基于双分支特征融合的三维医学图像分类分割***及方法
CN117726822B (zh) * 2024-02-18 2024-05-03 安徽大学 基于双分支特征融合的三维医学图像分类分割***及方法

Similar Documents

Publication Publication Date Title
CN115482241A (zh) 一种跨模态双分支互补融合的图像分割方法及装置
CN110992270A (zh) 基于注意力的多尺度残差注意网络图像超分辨率重建方法
CN111260653B (zh) 一种图像分割方法、装置、存储介质和电子设备
Wang et al. Laplacian pyramid adversarial network for face completion
CN110544297A (zh) 一种单幅图像的三维模型重建方法
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
CN113205096B (zh) 一种基于注意力的联合图像与特征自适应的语义分割方法
JP7337268B2 (ja) 三次元エッジ検出方法、装置、コンピュータプログラム及びコンピュータ機器
CN113706545A (zh) 一种基于双分支神经判别降维的半监督图像分割方法
CN112330724A (zh) 一种基于集成注意力增强的无监督多模态图像配准方法
CN116433914A (zh) 一种二维医学图像分割方法及***
CN116012581A (zh) 一种基于双重注意力融合的图像分割方法
CN112634438A (zh) 基于对抗网络的单帧深度图像三维模型重建方法及装置
CN110570394A (zh) 医学图像分割方法、装置、设备及存储介质
CN109948575A (zh) 超声图像中眼球区域分割方法
CN115170622A (zh) 基于transformer的医学图像配准方法及***
CN116128898A (zh) 一种基于Transformer双分支模型的皮肤病变图像分割方法
CN114821100A (zh) 基于结构组稀疏网络的图像压缩感知重建方法
CN113837941A (zh) 图像超分模型的训练方法、装置及计算机可读存储介质
CN116091762A (zh) 一种基于rgbd数据和视锥体的三维目标检测方法
CN116152060A (zh) 一种双特征融合引导的深度图像超分辨率重建方法
CN113554655B (zh) 基于多特征增强的光学遥感图像分割方法及装置
CN114331894A (zh) 一种基于潜在特征重构和掩模感知的人脸图像修复方法
CN115953296B (zh) 一种基于transformer和卷积神经网络联合的人脸超分辨率重建方法和***
CN118261922A (zh) 一种基于分离卷积与注意力的鼻咽癌靶区分割方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination