CN115482241A

CN115482241A - 一种跨模态双分支互补融合的图像分割方法及装置

Info

Publication number: CN115482241A
Application number: CN202211297966.7A
Authority: CN
Inventors: 袁非牛; 张正骁
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2022-12-16

Abstract

本发明公开了一种跨模态双分支互补融合的图像分割方法及装置，属于医学影像处理技术领域。包括：获取初始图像数据集，并对初始图像数据集进行预处理，得到训练集；构建双分支互补融合的图像分割网络，包括由卷积神经网络CNN以及Transformer模型构成的双分支的编码器结构，将两种模态相融合的特征互补模块以及由Transformer模型构成的解码器结构；设置训练参数，使用训练集进行训练，得到训练好网络；将待分割的目标图像输入网络中，得到分割结果。此方法不仅利用CNN的优势提取局部细节信息，又利用Transformer模型的优势建模长距离依赖关系，两者结合使得本方法能够得到更精准的分割结果，提升用户体验。

Description

一种跨模态双分支互补融合的图像分割方法及装置

技术领域

本发明涉及医学影像处理技术领域，特别涉及一种跨模态双分支互补融合的图像分割方法及装置。

背景技术

不同种类的医学图像都能够清晰的反映出人体的内部结构，在现代医学诊断中广泛使用。为了能够更好的服务和协助疾病诊断的专家或者医生，医学图像分割方法被提出用来将特定的器官同其他的器官分辨开来。这些分割后的器官图像能够在计算机辅助的诊断中发挥重要的作用。医学图像分割也包含许多不同方面的应用，例如多器官的分割和心脏分割。通过准确的逐像素分类对病变部分进行精准定位对临床治疗有着重要的意义，这项技术也已经成为了一种重要的辅助诊断工具。

近年来，深度学习在图像处理领域的应用取得了显著的研究成果。在许多任务中，通过深度学习得到的特征被证明比传统方法构造的特征具有更强的表示能力。当前的深度学习方法主要包括CNN和Transformer两大类模型，其中CNN模型方法擅长于捕获局部特征中的细节信息，而在建模长距离依赖关系能力上有所不足；与此相反，Transformer模型方法擅长于建模长距离依赖关系，而在捕获细节信息方面能力有所不足。尽管目前已有研究开始尝试将两者结合，但是这种早期的尝试并未充分考虑到由于CNN和Transformer模型间学习范式差异而产生的语义鸿沟问题，因此如何充分利用CNN和Transformer模型各自优势，赋予深度学习模型更强大的特征表达能力，仍是摆在我们面前的难题。

发明内容

为了解决现有技术存在的上述技术问题，本发明提供一种新的医学图像分割方法，这种方法不仅能够利用CNN的优势提取局部细节信息，对器官的边缘细节部分进行特征提取，又能利用Transformer模型的优势建模长距离依赖关系，这两者的结合使得本方法能够得到更精准的分割结果，起到辅助医生诊断的作用，减轻医生工作量，提升用户体验。

为了达到上述目的，本发明提出了一种跨模态双分支互补融合的图像分割方法，包括：

(1)获取初始图像数据集，并对所述初始图像数据集进行预处理，得到训练集；

(2)构建双分支互补融合的图像分割网络，所述双分支互补融合的图像分割网络包括由卷积神经网络CNN以及Transformer模型构成的双分支的编码器结构；将两种模态相融合的特征互补模块以及由Transformer模型构成的解码器结构；

(3)设置训练参数，将所述训练集数据送入该双分支互补融合的图像分割网络中进行训练，得到训练好的双分支互补融合的图像分割网络；

(4)将待分割的目标图像输入到所述训练好的双分支互补融合的图像分割网络中，得到所述目标图像的分割结果。

进一步的，所述步骤1对所述初始图像数据集进行预处理包括：

将所述初始图像数据的三维图像沿高度轴上进行切片，得到二维平面图片；

将所述二维平面图片转换为numpy格式，分别作剪裁、归一化操作，对图片进行翻转、旋转，再进行去噪、感兴趣区域选择，达到数据增强的效果，得到所述训练集。

进一步的，所述双分支互补融合的图像分割网络具体为：

编码部分，将预处理后的数据分别输入到所述卷积神经网络CNN以及Transformer模型中进行特征提取，并将同一层次的卷积神经网络CNN以及Transformer模型分支编码特征输入到所述两种模态相融合的特征互补模块，生成双分支互补融合的编码特征；

解码部分，将编码部分中获取的不同层次双分支互补融合的编码特征输入对应层次解码分支，完成图像分割。

进一步的，所述卷积神经网络CNN编码器以ResNet34为主体构成，包括3个三个下采样块；

第一下采样块是ResNet34中的Conv1x和Conv2x，Conv1x的输出作为Conv2x的输入；其中Conv1x包括依次连接的一个卷积层、一个批归一化层和一个ReLU激活层；Conv2x依次由三组级联的两个卷积层构成；

第二个下采样块由四组级联的两个卷积层构成；

第三个下采样块由六组级联的两个卷积层构成。

进一步的，所述Transformer模型编码器以Swin Transformer为主体构成，包括4个下采样块；

第一个下采样块先通过嵌入层将输入图片的通道数扩展为嵌入维度，再将三维图片拉伸为二维向量输入到Swin Transformer模块进行自注意力计算，再将所述二维向量重新还原为一张三维图片；

第二、第三以及第四个下采样块结构相同，先经过一个块合并层将图片的分辨率减小为一半，将通道数变为原来的两倍，再经过Swin Transformer模块进一步进行自注意力计算，进一步建立长距离依赖关系。

进一步的，所述特征互补模块包括跨模态融合模块、关联性增强模块、通道注意力模块以及特征融合模块；

所述跨模态融合模块包含全局平均池化提取和聚合输入信息，包含两个SwinTransformer块来融合来自两个分支的信息；

所述关联性增强模块将来自两个模态的信息作点乘建立两者的关联性；

所述通道注意力模块对来自所述Transformer模型编码器的特征沿通道方向提取注意力信息；

所述特征融合模块将上述三个模块的输出拼接在一起，使用残差连接和级联的卷积层的方式将这些信息作融合。

进一步的，所述Transformer模型解码器以Swin Transformer块为主体构成，由所述Transformer模型编码器最后一层的输出作为输入，先经过一个块扩展层，分辨率扩展两倍，通道数减半，之后连续经过三个相同结构的上采样块；

每个上采样块包含一个块扩展层和Swin Transformer块，所述双分支互补融合特征通过跳跃连接与上采样特征两者拼接再卷积成对应的通道数之后，首先经过SwinTransformer模块，通过自注意力的计算建立图片中的长距离依赖关系；再进入块扩展层中将图片的分辨率扩展为原来的两倍，将通道数减小为原来的一半。

进一步的，所述步骤3中使用随机梯度下降法进行训练，损失函数采用Dice损失函数和交叉熵损失函数的加权求和。

进一步的，所述步骤3中设置参数包括：网络的初始学习率设置为0.01，批处理个数为24，动量大小为0.99，权重衰减为3e-5，所述Dice损失函数和交叉熵损失函数的加权权重分别设置为0.6和0.4。

本发明还提供了一种跨模态双分支互补融合的图像分割装置，包括：

获取单元：用于获取初始图像数据集，并对所述初始图像数据集进行预处理，得到训练集；

建模单元：用于构建双分支互补融合的图像分割网络，所述双分支互补融合的图像分割网络包括由卷积神经网络CNN以及Transformer模型构成的双分支的编码器结构；将两种模态相融合的特征互补模块以及由Transformer模型构成的解码器结构；

训练单元：用于设置训练参数，将所述训练集数据送入该双分支互补融合的图像分割网络中进行训练，得到训练好的双分支互补融合的图像分割网络；

分割单元：用于将待分割的目标图像输入到所述训练好的双分支互补融合的图像分割网络中，得到所述目标图像的分割结果。

本发明的有益效果：

1、构建的分割网络的编码器部分采用双分支的结构。其中CNN分支采用了以ResNet34为主体的结构用来提取局部细节信息，Transformer分支采用了以SwinTransformer为主体的结构捕捉长距离依赖关系，两个分支信息互补。

2、将来自CNN和Transformer分支对应分辨率和通道数大小的三组特征图接入一个特征互补模块。从实际效果上看，它是一种十分有效的结合CNN和Transformer特征的跨模态的融合方式。

3、通过点乘计算CNN和Transformer特征之间的相关性，在Transformer自注意力机制得到的特征上使用通道注意力，在拥有了空间上的全局信息之后弥补通道上注意力的不足以进一步提高分割精度

4、设计一个拥有多尺度跳跃连接的以Swin Transformer为主体的解码器结构，对跳跃连接传来的互补融合的特征和逐级上采样的特征进行自注意力的计算提取全局上下文信息以及长距离依赖关系。

附图说明

图1是本发明实施例图像分割方法的流程示意图。

图2是本发明实施例跨模态双分支互补融合分割网络的整体示意图。

图3是本发明实施例Swin Transformer的示意图。

图4是本发明实施例模型中特征互补模块的示意图。

图5是本发明实施例的分割结果与人工标签图的对比示意图。

具体实施方式

下面结合附图和实施例详细描述本发明。

所述实施例的示例在附图中展示，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

下面以多个分割好的腹部多器官的三维CT图像的分割为例来说明本发明，本发明公开了一种跨模态双分支互补融合的图像分割方法，在一种优选实施方式中，方法的整体示意图如图1所示，该方法包括：

S101、获取初始图像数据集，并对所述初始图像数据集进行预处理，得到训练集；

本实施例中，获取腹部多器官数据集，数据集中包含多个已经事先标注好的三维图像的原图和分割图以及待分割的多器官原图，分割后的区域分为9类，分别是主动脉、胆囊、左肾、右肾、肝脏、胰腺、脾脏、胃和背景，作为训练集时将每一张三维图片沿高度轴上进行切片，得到二维平面图片。将图片转换为numpy格式后分别作剪裁、归一化操作。为了增强图像分割模型的泛化能力，还可以进行数据增强，再对图片进行翻转、旋转。此外，构建数据集时还包括图像的去噪、感兴趣区域选定(在图像中选定脑部图像区域)等，在此不再赘述，本实施例中最终得到2212张二维图片作为训练集；

S102、构建双分支互补融合的图像分割网络，所述双分支互补融合的图像分割网络包括由卷积神经网络CNN以及Transformer模型构成的双分支的编码器结构；将两种模态相融合的特征互补模块以及由Transformer模型构成的解码器结构；

如图2所示，对模型的编码器部分来说：主要分为以ResNet34为主体的CNN架构第一分支以及以Swin Transformer为主体的Transformer架构第二分支构成；对模型的特征互补模块来说：主要分为四大板块：分别是跨模态融合模块、关联性增强模块、通道注意力模块以及特征融合模块。对模型的解码器来说：主要是以Swin Transformer块为主体构成解码器。

在以ResNet34为主干的CNN分支里，图片将依次经过三个下采样块。第一个下采样块是ResNet34中的Conv1x和Conv2x。在Conv1x中，图片依次经过一个卷积层、一个批归一化层、一个ReLU激活层。Conv1x的输出f₁作为Conv2x的输入，Conv2x依次又由三组级联的两个卷积层构成。总的来说，图片经过第一个采样块后，分辨率变为原始数据的四分之一，表示为H/4×W/4×C；第二个下采样块由四组级联的两个卷积层构成，图片经过第二个采样块后的输出f₂分辨率变为原先的一半，通道数变为原先的两倍，表示为H/8×W/8×2C；第三个采样块由六组级联的两个卷积层构成，图片经过第三个采样块后的输出f₃同样分辨率变为原先的一半，通道数变为原先的两倍，表示为H/16×W/16×4C。CNN分支按照下采样块的位置总共分为三层结构，分别对应三个特征图f₁，f₂和f₃，这些特征图包含丰富的空间细节信息以及上下文语义信息，这些由CNN得到的特征图能够提高Transformer解码器的特征表示能力。

在以Swin Transformer为主干的Transformer分支里，图片将依次经过四个下采样块。第一个下采样块将输入图片拉伸为二维向量输入到Swin Transformer模块进行自注意力计算，Swin Transformer结构如图3所示。计算之后将二维向量再重新还原为一张三维图片，图片经过第一个采样块后的输出g₁，分辨率变为原先数据的四分之一，表示为H/4×W/4×C，其分辨率大小与CNN分支的第一个下采样块的输出相对应f₁。第二、第三以及第四个下采样块结构相同，先经过一个块合并层将图片的分辨率减小为一半，再将通道数变为原来的两倍，输出分别表示为g₂(H/8×W/8×2C)、g₃(H/16×W/16×4C)和g₄(H/32×W/32×8C)。Transformer分支充分利用自注意力机制的特点，建立了图片的长距离依赖关系和全局信息，使得模型的分割精度进一步提高。

整个特征互补模块如图4所示，由四大板块构成，分别是跨模态融合模块、关联性增强模块、通道注意力模块以及特征融合模块。跨模态融合模块首先对来自两个不同分支不同模态的输入f_i和g_i进行全局平均池化，聚合生成两者的特征向量。然后将各自得到的特征向量交叉的拼接到对方上，于是得到新的特征向量

和f_i ¹。随后对

和f_i ¹分别使用SwinTransformer模块来融合两个模态的特征得到

和f_i ²并重构为新的特征图

和f_i ³。最后将

和f_i ³互相拼接通过1×1卷积调整通道数之后得到最终的跨模态融合模块的输出s_i。特征关联性增强模块将

和f_i点乘建立两者的关联性，得到跨模态关联性特征e_i。对于通道注意力模块，由于跨模态融合模块中已经将包含局部细节信息的特征与包含全局信息和长距离依赖关系的特征作了融合，在空间的维度上具有了出色的特征表示能力的情况下，所以对来自Transformer模块的特征仅沿通道方向提取注意力信息，以弥补模型在通道维度特征提取能力上的不足，具体来说就是将特征

输入一个SE-Block得到双重注意力特征a_i。最后特征融合模块将上述三个模块的输出s_i、e_i和a_i拼接在一起，使用残差连接和级联的卷积层的方式将这些信息作融合。

解码器中的Swin Transformer模块与编码器的模块结构相同，通过自注意力的计算建立图片中的长距离依赖关系。块扩展层中将图片的分辨率扩展为原来的两倍，将通道数减小为原来的一半。解码器部分，图片由Transformer编码器最后一层的输出g₄作为输入，特征图先经过一个块扩展层，分辨率扩展两倍，通道数减半，得到输出u₃，之后连续经过三个相同结构的上采样块。每个上采样块包含一个块扩展层和Swin Transformer块，每层结构的输出依次为v₃、u₂、v₂、u₁和v₁。其中第三个上采样块将特征图还原为原始图片数据的分辨率大小和图片类数大小的通道数，得到模型最终的输出y。

S103、设置训练参数，将所述训练集数据送入该双分支互补融合的图像分割网络中进行训练，得到训练好的双分支互补融合的图像分割网络；

在分割网络训练时，设置训练参数包括：

输入图像的尺寸为H×W×3，H，W，3分别是二维图像的高、宽、通道数，本实施例中，输入图像数据的大小格式分别为224*224*3；网络的初始学习率设置为0.01，学习率大小随着迭代次数的增加而逐渐减小，批处理个数为24，动量大小为0.99，权重衰减为3e-5，使用随机梯度下降法进行训练，损失函数采用了Dice损失函数和交叉熵损失函数的加权求和，权重分别设置为0.6和0.4，其余网络参数的设置可以按常规理解，在此不再赘述。当分割网络的模型性能达到预设置的精度要求时，将分割网络作为图像分割模型。模型性能可以用预测精度等常用的评估参数进行判断，或人为判断分割效果。

S104、将待分割的目标图像输入到所述训练好的双分支互补融合的图像分割网络中，得到所述目标图像的分割结果。

在目标多器官图像原图输入到图像分割模型之前，还需要对目标三维图像进行预处理，包括裁剪和去噪等操作，在此不再赘述，然后送入训练好的图像分割网络，得到分割结果。

本申请中，使用了一种双分支并行的编码器结构，传统的CNN模型能够有效的提取图像中的上下文信息和空间细节信息，但是受限于感受野不够大的固有局限难以高效建模远距离依赖关系，而另一分支的Transformer模型可以通过自注意力机制的特性在浅层部分即可提取输入图像的全局信息，弥补了CNN的固有弊端，而Transformer所不擅长的局部细节信息提取能力又能够由CNN来加以弥补，所以我们又通过一个特征互补模块来将两个分支的多尺度特征进行互补和融合，最后再次使用Transformer模型建模互补后的特征以及上采样编码信息，得到最终图像分割的结果。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种跨模态双分支互补融合的图像分割方法，其特征在于，包括：

2.根据权利要求1所述的跨模态双分支互补融合的图像分割方法，其特征在于，所述步骤1对所述初始图像数据集进行预处理包括：

3.根据权利要求1所述的跨模态双分支互补融合的图像分割方法，其特征在于，所述双分支互补融合的图像分割网络具体为：

4.根据权利要求1所述的跨模态双分支互补融合的图像分割方法，其特征在于：所述卷积神经网络CNN编码器以ResNet34为主体构成，包括3个三个下采样块；

第二个下采样块由四组级联的两个卷积层构成；

第三个下采样块由六组级联的两个卷积层构成。

5.根据权利要求1所述的跨模态双分支互补融合的图像分割方法，其特征在于：所述Transformer模型编码器以Swin Transformer为主体构成，包括4个下采样块；

6.根据权利要求1所述的跨模态双分支互补融合的图像分割方法，其特征在于：所述特征互补模块包括跨模态融合模块、关联性增强模块、通道注意力模块以及特征融合模块；

7.根据权利要求1所述的跨模态双分支互补融合的图像分割方法，其特征在于：所述Transformer模型解码器以Swin Transformer块为主体构成，由所述Transformer模型编码器最后一层的输出作为输入，先经过一个块扩展层，分辨率扩展两倍，通道数减半，之后连续经过三个相同结构的上采样块；

8.根据权利要求1所述的跨模态双分支互补融合的图像分割方法，其特征在于：所述步骤3中使用随机梯度下降法进行训练，损失函数采用Dice损失函数和交叉熵损失函数的加权求和。

9.根据权利要求8所述的跨模态双分支互补融合的图像分割方法，其特征在于，所述步骤3中设置参数包括：网络的初始学习率设置为0.01，批处理个数为24，动量大小为0.99，权重衰减为3e-5，所述Dice损失函数和交叉熵损失函数的加权权重分别设置为0.6和0.4。

10.一种跨模态双分支互补融合的图像分割装置，其特征在于，包括：