CN115170582A

CN115170582A - 基于多尺度特征融合和网格注意力机制的肝脏影像分割方法

Info

Publication number: CN115170582A
Application number: CN202210666323.9A
Authority: CN
Inventors: 张晓龙; 郑帅; 邓鹤; 任宏伟; 邵赛; 边小勇; 李波
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2022-10-11

Abstract

本发明涉及一种基于多尺度特征融合和网格注意力机制的肝脏影像分割方法，包括如下步骤：选取需要进行肝脏分割的肝脏影像数据集，将其划分为训练集和测试集；对训练集中的肝脏影像进行预处理；在编码器阶段，利用多尺度特征融合模块、卷积网络得到肝脏的特征图；在解码器阶段，利用多尺度特征融合模块、网格注意力机制、注意力引导连接模块、转置卷积和深度监督机制得到肝脏的分割图像；对分割后得到的肝脏图像进行形态学后处理。该方法具有提高三维肝脏影像分割效果的特点，实现了对三维肝脏影像的较为精确的分割，为医生的医疗诊断提供了极大的辅助作用。

Description

基于多尺度特征融合和网格注意力机制的肝脏影像分割方法

技术领域

本发明涉及三维医学影像分割方法，特别是涉及一种基于多尺度特征融合和网格注意力机制的三维肝脏影像分割方法。

背景技术

近些年来，计算机断层扫描(Computed Tomography,CT)和磁共振成像 (MagneticResonance Imaging,MRI)是医生诊断和评估肝癌的主要成像方法。在医学图像中，对肝脏精确地分割在肝癌的定性分析和治疗计划中具有重要的意义。在临床诊断中，肝脏的分割通常是由有经验的专家按照解剖结构将肝脏的边缘手工勾勒出来，十分枯燥且耗时耗力，而且对专家的要求非常高。分割的结果会受到专家的主观经验、认知能力等因素的影响，这就使得肝脏的分割成为一项具有挑战性的任务。

一般来说，医学图像的分割方法可以分为三类：手动分割、半自动分割和自动分割。手动分割是一种极为依靠主观经验、可重复性差且耗时的方法。它在很大程度上依赖于人类可识别的特征，并且需要具有高级技术技能的人来执行此类任务。这些因素使其在实际应用中变得不切实际。半自动分割是一种由人工和计算机结合的方式，人工操作提供一些有用的信息，然后计算机在这些信息的基础上进行分割处理，人工的干预可能会导致分割的偏差。自动分割方式就是完全依靠计算机进行分割。通过近些年的发展，医学影像分割领域的研究主要是自动分割，即设计计算机可执行的算法进行自动分割。目前肝脏的分割算法主要为传统方法和深度学习的方法。传统的方法主要有基于阈值的方法、区域生长法、主动轮廓模型、基于边缘检测的方法。这些方法主要基于灰度、纹理、边缘等信息，但是由于肝脏结构的变异、肝脏与其邻近脏器的相似性、三维空间特征的复杂性和噪声的影响，使得自动化分割变得十分困难。

近年来，深度神经网络(Deep Neural Networks,DNN)方法在计算机视觉和图像处理领域取得的快速发展。深度学习的方法尤其是卷积神经网络 (Convolution NeuralNetworks,CNN)在医学图像分割的领域取得了巨大的成就。该方法通过对大量标注的样本进行学习，其突出的特征学习能力实现了图像精确的自动分割。后来的全卷积神经网络(Fully Convolutional Networks,FCN)可以对图像进行像素级的分类，从而解决了语义级别图像分割问题。以及最经典的 Unet和Vnet网络模型。两者都是一种类似U型的网络结构，使用skip- connection连接低层特征和高层特征。两者的不同点在于Unet是用于处理二维数据，Vnet用于处理三维数据，Vnet中还加入了残差块。上述方法在肝脏分割领域取得了一定的进展，但肝脏三维影像切片间的空间信息没有被充分利用，高层特征和低层特征只是简单连接，融合不够充分。

发明内容

本发明为了克服现有技术的不足，提供了一种基于多尺度特征融合和网格注意力机制的肝脏影像分割方法，采用如下技术方案实现：

一种基于多尺度特征融合和网格注意力机制的肝脏影像分割方法，包括如下步骤：

S1、选取需要进行肝脏分割的医疗影像数据集，将其划分为训练集和测试集；

S2、对选取的训练集中的三维肝脏影像进行预处理，初始化网络模型参数，并将预处理后的图像输入网络模型中，所述网络模型包括编码器网络和解码器网络；

S3、在编码器阶段，利用多尺度特征融合模块、卷积网络得到肝脏的特征图；

S4、在解码器阶段，利用多尺度特征融合模块、网格注意力机制、注意力引导连接模块、转置卷积和深度监督机制得到肝脏的分割图像。

进一步的，步骤S2中，对选取的训练集中的三维肝脏影像进行预处理具体包括：

S21、对训练集中的CT图像窗口选择合适的窗口，将窗口的CT值设置为预设区间；

S22、对训练集进行降采样和重采样，将图像数据的层间间距调整到1mm；

S23、找到肝脏区域的开始和结束切片，并在两个方向上各扩张20个切片；

S24、对获取的切片图像进行直方图均衡化；

S25、随机选择32个连续的切片作为网络模型的输入，输入图像尺寸为 1×32×256×256。

进一步的，步骤S2中，初始化网络模型参数具体包括：

S26、初始化网络模型参数，包括批处理大小、学习率、迭代次数、学习率衰减策略、深度监督衰减系数；

S27、使用kaiming权重初始化方法初始化网络模型权重。

进一步的，步骤S3具体包括：

S31、在编码器网络的每一层中加入多尺度特征融合模块，

S32、通过最大池化操作下采样进行特征提取，得到肝脏的特征图；

其中，所述编码器网络包括四个下采样层，每个下采样层由一个多尺度特征融合模块、两个卷积核大小为3×3×3的卷积、一个批量归一化以及一个 ReLU激活函数构成，每个卷积的过滤器数量为[32,64,128,256,512]；每一层最后接上一个步长为2的最大池化操作，最终得到肝脏的特征图。

进一步的，在多尺度特征融合模块中，输入的特征图经过一个卷积核大小为1×1×1的三维卷积来调整通道数，将特征图按通道数均分为四个不同的特征图，记为x_i，i＝1,2,3,4，每组特征通道数为输入特征图通道数的四分之一，特征图的大小不变；除x₁外，每个x_i都进行一个卷积核大小为3×3×3的卷积操作，接着进行批量归一化和ReLU激活得到四个不同尺度的特征x_i'；将四个不同尺度的特征进行逐元素相加再经过卷积核大小为1×1×1的卷积操作得到h，然后采用类似残差的思想将h与x_i'各自进行逐元素相加得到四个特征x_i”(x＝1,2,3,4)；将四个不同尺度特征x_i”进行concat操作，得到的特征图通道数与输入特征图通道数一致；通过卷积核大小为1×1×1的卷积层得到最终输出的特征图。

进一步的，所述多尺度特征融合模块公式如下：

x″_i＝x′_i+h,i＝1,2,3,4

O＝Conv1(Concat(x″₁,x″₂,x″₃,x″₄))

其中，Conv3表示卷积核大小为3×3×3的卷积操作，x_i”(x＝1,2,3,4)代表了四个不同尺度的特征信息，Conv1表示卷积核大小为1×1×1的卷积操作，O为多尺度特征融合模块的输出特征图。

进一步的，步骤S4中，所述解码器网络包括四个上采样层，每一层包含一个步长为2的反卷积再接上两个卷积核大小为3×3×3的卷积、一个批量归一化、一个ReLU激活函数和一个多尺度特征融合模块。

进一步的，步骤S4具体包括：

S41、基于在解码器网络每层最后通过多尺度特征融合模块得到的特征与对应的编码器网络上一层卷积最后得到的特征，分别作为高层特征和低层特征通过注意力引导连接模块得到注意力图；

S42、将每一层通过注意力引导连接模块得到的注意力图进行一系列的卷积操作提取特征；其中，解码器网络中除了最底层，其他的每一层的结果都通过不同尺度的上采样恢复图像尺寸得到一个输出，最终得到四个输出，前三个输出会作为深度监督机制中的辅助损失，最后的输出作为输出的最终的掩码图；

S43、在网络模型迭代训练中的反向传播过程中，通过计算网络模型预测的分割结果与标签值之间的差异来计算损失值，进而在损失值的基础上不断更新迭代参数值，使网络模型预测的分割结果接近标签值，进而得到肝脏的分割图像。

进一步的，在注意力引导连接模块中，分别有高层特征和低层特征输入，首先将高层特征用转置卷积操作进行上采样，将两个特征分别输入到网格注意力模块中得到注意力特征图，然后将生成的注意力特征图与低层特征进行逐元素相乘，将得到的结果与高层特征转置卷积得到的特征图进行concat操作，输出特征图；

在网格注意力机制中，分别输入高层特征和低层特征；首先，高层特征和低层特征通过卷积核大小为1×1×1的三维卷积调整通道数，通过步长为2的三维卷积操作来进行一次下采样，然后将其进行简单的相加操作；对相加融合得到的特征进行ReLU激活非线性变换，通过Sigmoid激活函数生成注意力系数，运用转置卷积对其进行上采样以匹配上层输入低层特征的维度，最后将其与低层特征逐元素相乘得到最后的注意力图。

进一步的，所述网格注意力机制的公式如下：

其中，Ψ，W_f，W_g为卷积操作，

为ReLU激活函数，

为Sigmoid激活函数, c_i为网格注意力系数；

所述注意力引导连接模块的公式如下：

其中，G为网格注意力机制，

为逐元素乘法。

本发明的有益技术效果如下：

本发明的方法首先利用多尺度特征融合模块和卷积块对三维肝脏影像进行训练，扩大了神经网络的感受野和增强特征的表示能力，充分利用三维肝脏影像中切片间和切片内的信息，得到更具有代表性特征信息的肝脏特征图；再利用跳跃结构中的注意力引导连接模块和网格注意力机制，突出分割区域的特征，抑制其他的噪音部分；利用深度监督机制降低训练和验证误差，减轻梯度消失、梯度***和收敛速度过慢等问题，最终得到肝脏的分割图像。其中在编码器和解码器的连接处多次使用多尺度特征融合模块、注意力引导连接模块、网格注意力机制，获取了多尺度语义信息和重要的上下文信息。最后，利用形态学后处理的方法对模型分割结果进行优化。

因此，本发明利用多尺度特征融合模块、注意力引导连接模块、网格注意力机制和三维卷积神经网络训练及其融合，提取三维肝脏影像的语义信息并进行分割，该方法具有提高三维肝脏影像分割效果的特点，实现了对三维肝脏影像的较为精确的分割，为医生的医疗诊断提供了极大的辅助作用。

附图说明

图1是本发明实施例方法的流程示意图。

图2是本发明实施例中肝脏预处理前后对比图。

图3是本发明实施例中网络整体架构图。

图4是本发明实施例中多尺度特征融合模块的结构设计图。

图5是本发明实施例中注意力引导连接模块的结构设计图。

图6是本发明实施例中注意力机制的结构设计图。

图7是本发明的方法在测试集3Dircadb上分割结果可视化图。

具体实施方式

为了便于本领域人员更好的理解本发明，下面结合附图和具体实施例对本发明做进一步详细说明，下述仅是示例性的不限定本发明的保护范围。

术语解释：

1、kaiming：表示神经网络的一种初始化方法。

2、ReLU：表示神经网络一种激活函数，将拟合曲线最后的结果转换到 [0,+∞)的区间上。

3、skip-connection：表示U型网络中间的跳跃连接部分。

4、concat：表示沿着通道维度连接两个张量。

5、Sigmoid：表示神经网络的一种激活函数，将拟合曲线最后的结果转换到(0,1)区间。

本实施例公开了一种基于多尺度特征融合和网格注意力机制的三维肝脏影像分割方法(简称MAGNet方法)，以在LiTS(来自于 https://competitions.codalab.org/competitions/17094发布的医学肝脏公共数据集)， 3Dircadb(来自于https://www.ircad.fr/research/3dircadb/发布的医学肝脏公共数据集)，Sliver07(来自于https://sliver07.grand-challenge.org/Download/发布的医学肝脏公共数据集)为例子，其中LITS为三维肝脏影像，带有标签的有131 个序列，其中28-47序列为3Dircadb数据集，Sliver07数据集为三维肝脏影像全为20个序列，像素都为512×512，本实施例以去除了3Dircadb数据集的 LITS数据集为训练集，以3Dircadb，Sliver07数据集为测试集。

如图1所示，本实施例所述的基于多尺度特征融合和网格注意力机制的三维肝脏影像分割方法具体包括如下步骤：

步骤1)数据集划分；

选取需要进行肝脏分割的医疗影像数据集，将其划分为训练集和测试集；

步骤2)数据预处理，预处理前后肝脏的对比如图2(a)(处理前)和图2 (b)(处理后)所示；

2.1)对训练集中CT图像窗口选择合适的窗口，将窗口的CT值设置在[- 200,200]之间；

2.2)对训练集进行降采样和重采样，将图像数据的层间间距调整到1mm；

2.3)找到肝脏区域的开始和结束切片，并在两个方向上向外扩张20个切片；

2.4)对训练集中的图像进行直方图均衡化；

2.5)随机选择32个连续的切片作为网络模型的输入，此时网络的输入尺寸为1×32×256×256。

步骤3)在编码器阶段，利用多尺度特征融合模块、卷积网络得到肝脏的特征图，整体网络结构如图3所示；

3.1)初始化网络参数，包括批处理大小、学习率、迭代次数、学习率衰减策略、深度监督衰减系数；

3.2)使用kaiming权重初始化方法初始化网络权重；

3.3)将预处理后的三维图像输入到网络模型的卷积神经网络中。

3.4)在编码器阶段和解码器阶段的每一层中加入了多尺度特征融合模块，在编码器阶段，通过最大池化操作下采样进行特征提取。在编码器路径中包含四个下采样层，每个下采样层由一个多尺度特征融合模块、两个卷积核大小为 3×3×3的卷积、一个批量归一化以及一个ReLU激活函数构成。每一层最后接上一个步长为2的最大池化操作，最终得到肝脏的特征图，整体网络结构如图 3所示。

其中每个卷积的过滤器数量为[32,64,128,256,512]。在多尺度特征融合模块中，输入的特征图经过一个卷积核大小为1×1×1的三维卷积来调整通道数，将特征图按通道数均分为四个不同的特征图，记为x_i，i＝1,2,3,4。每组特征通道数为输入特征图通道数的四分之一，特征图的大小不变。除x₁外，每个x_i都进行一个卷积核大小为3×3×3的卷积操作，接着进行批量归一化和ReLU激活得到四个不同尺度的特征x_i'。将四个不同尺度的特征进行逐元素相加再经过卷积核大小为1×1×1的卷积操作得到h，然后采用类似残差的思想将h与x_i'各自进行逐元素相加得到四个特征x_i”(x＝1,2,3,4)。将四个不同尺度特征x_i”进行concat操作，得到的特征图通道数与输入特征图通道数一致。通过卷积核大小为1×1×1 的卷积层得到最终输出的特征图，如图4所示。

步骤3.4)中，多尺度特征融合模块公式如下：

x″_i＝x′_i+h,i＝1,2,3,4 (3)

O＝Conv1(Concat(x″₁,x″₂,x″₃,x″₄)) (4)

其中，Conv3表示卷积核大小为3×3×3的卷积操作。x_i”(x＝1,2,3,4)代表了四个不同尺度的特征信息。Conv1表示卷积核大小为1×1×1的卷积操作。O为多尺度特征融合模块的输出特征图。

步骤4)利用多尺度特征融合模块、网格注意力机制、注意力引导连接模块、转置卷积和深度监督机制得到肝脏的分割图像；

4.1)在解码器阶段，有四个上采样层，每一层包含一个步长为2的反卷积再接上两个卷积核大小为3×3×3的卷积块、一个批量归一化、一个ReLU激活函数和一个多尺度特征融合模块。

4.2)利用在解码器阶段每层最后通过多尺度特征融合模块得到的特征与对应的编码器上一层卷积最后得到的特征，分别作为高层信息和低层信息来通过注意力引导连接模块得到注意力图，如图5所示。

4.3)在注意力引导连接模块中，分别有高层特征和低层特征输入，首先将高层特征用转置卷积操作进行上采样，将两个特征分别输入到网格注意力模块中得到注意力特征图，然后将生成的注意力特征图与低层特征进行逐元素相乘，将得到的结果与高层特征转置卷积得到的特征图进行concat操作，输出特征图。在网格注意力模块中，分别输入高层特征和低层特征。首先，高层特征和低层特征通过卷积核大小为1×1×1的三维卷积调整通道数，通过步长为2的三维卷积操作来进行一次下采样，然后将其进行简单的相加操作。对相加融合得到的特征进行ReLU激活非线性变换，通过Sigmoid激活函数生成注意力系数，运用转置卷积对其进行上采样以匹配上层输入低层特征的维度，最后将其与低层特征逐元素相乘得到最后的特征图，如图6所示。

步骤4.3)网格注意力公式如下：

其中，Ψ，W_f，W_g为卷积操作，

为ReLU激活函数，

为Sigmoid激活函数,c_i为网格注意力系数；

注意力引导连接模块公式如下：

其中G为网格注意力机制，

为逐元素乘法。

4.4)将每一层通过注意力引导连接模块得到的特征图进行一系列的卷积操作提取特征；其中，解码器中除了最底层，其他的每一层的结果都会经过不同尺度的上采样恢复图像尺寸得到一个输出，最终会得到四个输出，前三个输出会作为深度监督机制中的辅助损失，最后的输出作为最终的分割图；

4.5)在神经网络迭代训练中的反向传播过程中，通过计算网络预测的分割结果与标签值之间的差异来计算损失值，进而在损失值的基础上不断更新迭代参数值，使网络预测的分割结果接近标签值。

步骤4.4)、4.5)中计算损失采用TverskyLoss具体公式如下：

其中A和B分别表示预测值和标签值，α和β为超参数。通过调整α和β我们可以控制假阳性和假阴性之间的平衡；

深度监督网络联合损失函数如下：

loss＝(loss1+loss2+loss3)*ε+loss4 (8)

其中loss1-loss4为解码器每层输出结果上采样结果的损失函数，ε为深度监督系数。

步骤5)对经过模型分割后得到的肝脏图像进行形态学后处理。

5.1)对肝脏分割区域进行最大连通域提取；

5.2)移除分割的细小区域,并进行内部的空洞填充。

采用本发明所述的基于多尺度特征融合和网格注意力机制的三维肝脏影像分割方法(MAGNet)在3Dircadb测试集上分割可视化结果如图7所示，可以看出本发明所述的MAGNet方法得到的分割结果已经十分接近标签结果。另外，采用本发明所述的基于多尺度特征融合和网格注意力机制的三维肝脏影像分割方法(MAGNet)在3Dircadb测试集分割结果与其他先进方法分割结果对比如下表1(本发明方法(MAGNet)在3Dircadb数据集的分割结果与其他先进方法的分割结果对比(mean±std))所示，采用本发明所述的基于多尺度特征融合和网格注意力机制的三维肝脏影像分割方法(MAGNet)在Sliver07分割结果与其他先进方法分割结果对比如下表2(本发明方法(MAGNet)在Sliver07的分割结果与其他先进方法分割结果对比(mean±std))所示。

表1

如表1所示，我们将本实施例所述方法MAGNet在3DIRCADb数据集上预测的结果与其他先进的模型进行对比。MAGNet在DSC指标上的表现与 UNet、ResNet相比有了显著的提升，与其他先进的模型相比也有一定的提升。例如，与在DSC指标上表现最好的模型U³-Net+DC相比提升了0.1个百分点。在ASD和RMSD指标上，MAGNet与其他先进模型对比有了大幅的降低。在 RVD指标上也有一定的降低，在VOE指标上略高于U³-Net+DC模型。

表2

从表2中可以看出，本文提出的方法预测结果在DSC指标上达到了97.3％，本文提出的方法与其他先进方法相比在DSC、VOE和RVD指标上效果都有一定的提升，证明本实施例方法具有较好的优越性和泛化能力。

以上仅描述了本发明的基本原理和优选实施方式，本领域人员可以根据上述描述做出许多变化和改进，这些变化和改进应该属于本发明的保护范围。

Claims

1.一种基于多尺度特征融合和网格注意力机制的肝脏影像分割方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多尺度特征融合和网格注意力机制的肝脏影像分割方法，其特征在于，步骤S2中，对选取的训练集中的三维肝脏影像进行预处理具体包括：

S24、对获取的切片图像进行直方图均衡化；

S25、随机选择32个连续的切片作为网络模型的输入，输入图像尺寸为1×32×256×256。

3.根据权利要求2所述的基于多尺度特征融合和网格注意力机制的肝脏影像分割方法，其特征在于，步骤S2中，初始化网络模型参数具体包括：

S27、使用kaiming权重初始化方法初始化网络模型权重。

4.根据权利要求3所述的基于多尺度特征融合和网格注意力机制的肝脏影像分割方法，其特征在于，步骤S3具体包括：

S31、在编码器网络的每一层中加入多尺度特征融合模块，

其中，所述编码器网络包括四个下采样层，每个下采样层由一个多尺度特征融合模块、两个卷积核大小为3×3×3的卷积、一个批量归一化以及一个ReLU激活函数构成，每个卷积的过滤器数量为[32,64,128,256,512]；每一层最后接上一个步长为2的最大池化操作，最终得到肝脏的特征图。

5.根据权利要求4所述的基于多尺度特征融合和网格注意力机制的肝脏影像分割方法，其特征在于：在多尺度特征融合模块中，输入的特征图经过一个卷积核大小为1×1×1的三维卷积来调整通道数，将特征图按通道数均分为四个不同的特征图，记为x_i，i＝1,2,3,4，每组特征通道数为输入特征图通道数的四分之一，特征图的大小不变；除x₁外，每个x_i都进行一个卷积核大小为3×3×3的卷积操作，接着进行批量归一化和ReLU激活得到四个不同尺度的特征x_i'；将四个不同尺度的特征进行逐元素相加再经过卷积核大小为1×1×1的卷积操作得到h，然后采用类似残差的思想将h与x_i'各自进行逐元素相加得到四个特征x_i”(x＝1,2,3,4)；将四个不同尺度特征x_i”进行concat操作，得到的特征图通道数与输入特征图通道数一致；通过卷积核大小为1×1×1的卷积层得到最终输出的特征图。

6.根据权利要求5所述的基于多尺度特征融合和网格注意力机制的肝脏影像分割方法，其特征在于，所述多尺度特征融合模块公式如下：