CN114494322B

CN114494322B - 一种基于图像融合技术的多模态图像分割方法

Info

Publication number: CN114494322B
Application number: CN202210128620.8A
Authority: CN
Inventors: 刘羽; 牧富豪; 成娟; 李畅; 宋仁成; 陈勋
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-02-11
Filing date: 2022-02-11
Publication date: 2024-03-01
Anticipated expiration: 2042-02-11
Also published as: CN114494322A

Abstract

本发明公开了一种基于图像融合技术的多模态图像分割方法，包括：第一步，融合多模态图像：数据获取及预处理，建立基于像素级的融合网络，训练网络和输出融合模态图像；第二步，分割多模态图像：数据获取及预处理，建立基于特征级融合的多模态特征选择模块与分割网络，分割网络训练和分割图像后处理。本发明从像素级融合和特征级融合两个角度提升了图像分割的精度，为图像的进一步分析处理提供了有力的支持。

Description

一种基于图像融合技术的多模态图像分割方法

技术领域

本发明涉及多模态图像分割及深度学习技术领域，具体涉及一种基于图像融合技术的多模态图像分割方法。

背景技术

图像分割是将图像分成若干个特定的、感兴趣的且具有独特性质的区域。图像分割是图像处理到图像分析的关键步骤。随着信息技术的飞速发展，数据资源迎来了井喷式的增长，其形式也日益多样化，多模态数据已成为数据资源的主流形式。多模态数据具有更多的信息，更强的特征表达能力。不同模态数据能反应出不同的数据特点，多模态数据更易于寻找规律，解决问题。利用不同模态之间的互补信息，剔除冗余信息，这对图像分割过程中分割目标效果的提升具有重要作用。因此，研究同时涉及到多种输入模态的多模态学习方法，增强图像分割技术理解多源异构海量数据的能力，这具有巨大的应用前景和广泛的研究价值。

医学图像数据中多模态磁共振成像(magnetic resonance imaging，MRI)技术经常生成多种模态图像，以更好的反应组织的病理信息与组织结构信息。比较常见的3D MRI模态包括T1加权成像(T1)，对比后T1加权成像(T1ce)，T2加权成像(T2)和T2液体衰减反转恢复成像(FLAIR)。T1、T2是用于测量电磁波的物理量，它们可以作为成像的数据。T1图像能很好地反应出各种断层解剖结构，T2图像能很好地反应出水肿等病理区域的位置及大小。T1ce能很好地反应出血流丰富的区域，也就是病理内部区域，其对鉴定是否为病变区域有重要作用。FLAIR图像能清晰地表现出浮肿区域，其能更好地反应病理区域周遭的情况。单个模态的MR图像只能重点反应出个别图像特征，多模态图像可以得到更细致的组织结构和病理信息。

与自然图像相比，医学图像更加复杂抽象。这是由于人体的解剖结构和组织较为复杂，不同个体之间差异比较大。成像设备也可能会受噪音、局部体效应、场偏移效应和组织运动等因素影响成像质量。医学图像在正样本像素和负样本像素之间存在不平衡问题，类不平衡的问题会为基于深度学习的图像分割方法带来不利影响。近年来，已经提出了很多图像分割的方法。传统的基于阈值、区域和像素聚类的图像分割方法很难在图像分割问题中取得令人满意的结果。深度学习方法凭借其在图像分割上的显著优势逐渐成为图像分割技术的主流方式，其通过识别原始图像中潜在的规律，提取图像特征，以达到准确高效的图像分割效果。一些方法采用2D切片或者3D块方式，建立卷积神经网络来预测中心体素类别。但是这种方式忽略了不同切片或者块之间的联系，为了更好的利用全局信息，Encoder-Decoder的网络结构表现出的性能更加优异，比如U-Net，V-Net等。现存方法大多是直接将多模态图像或者提取的浅层特征在一个维度上连接起来输入至分割网络中，没有考虑到多个模态之间的差异性与互补性，对多模态图像的使用不充分不精细，这对图像分割的效果提升显然是不利的。

发明内容

本发明为了克服多模态图像分割对多模态图像信息使用不充分不精细的问题，提供一种基于图像融合技术的多模态图像分割方法，以期能从像素级融合与特征级融合两个角度提升图像分割精度，从而为图像分析提供可靠支持。

本发明为解决上述问题采用如下技术方案：

本发明一种基于图像融合技术的多模态图像分割方法的特点包括以下步骤：

步骤1：融合多模态图像：

步骤1.1：数据获取及预处理：

根据分割需求选取第一模态图像S₁和第二模态图像S₂并作为源模态图像后对其随机裁剪成尺寸为L×H×W的图像样本后再进行归一化处理，从而得到预处理后的第一模态图像S′₁和第二模态图像S′₂；

步骤1.2：建立基于像素级的融合网络：

所述像素级的融合网络包含两个结构相同的分支，每个分支均包含一个卷积层Conv_x和一个残差层Res-conv_x，x＝1或2；其中，残差层是由两个卷积层跳跃连接组成；其中，卷积层包括：1个三维卷积层，1个批量归一化层以及1个ReLU激活函数层；

每个分支接收一种模态图像集，从而将预处理后的第一模态图像集S₁′和第二模态图像集S₂′分别经过两个分支的处理后，相应输出第一模态特征图F₁和第二模态特征图F₂；

将第一模态特征图F₁和第二模态特征图F₂拼接后依次输入第三个残差层Res-conv₃的处理后再经过两个卷积层Conv₃和Conv₄以及一个激活函数层的处理，并得到权重图m，从而利用式(1)得到所述像素级的融合网络输出的融合模态图像F：

F＝mS₁+(1-m)S₂ (1)

步骤1.3：构建如式(2)所示的损失函数L_fusion：

L_fusion＝L_pixel+αL_ssim (2)

式(2)中，α是平衡两项损失在同一数量级的参数，L_pixel与L_ssim分别代表训练的像素损失和结构相似性损失，并有：

L_ssim＝γ(1-SSIM(F,S₁))+(1-SSIM(F,S₂)) (4)

式(3)中，β表示权重系数，表示F范数；

式(4)中，γ表示权重系数，SSIM(·)表示结构相似度；

步骤1.4：基于预处理后的第一模态图像S′₁和第二模态图像S′₂训练像素级的融合网络，并采用反向传播算法对所述损失函数L_fusion进行优化求解，从而调整所述融合网络中所有参数，当训练迭代次数达到设定的次数或损失函数L_fusion的值达小于所设定的阈值时，训练停止，从而得到最优融合模型及其输出的融合图像，并将输出的融合图像还原至源模态图像的尺寸，得到最优融合图像F^*；

步骤2：分割多模态图像：

步骤2.1：数据预处理：

将源模态图像与最优融合图像F^*拼接后随机裁剪成尺寸为L₁×H₁×W₁的图像块并进行归一化处理，得到预处理后的N个图像块，且每个图像块对应一个模态；获取源模态图像对应的真实标签图像g；

步骤2.2：建立基于特征级融合的多模态特征选择模块：

根据图像块的模态数量N，设置所述多模态特征选择模块包含的并行分支个数为N，使得每个并行分支对应一种模态图像；

第n个并行分支使用一个卷积层来提取对应第n种模态的图像块的浅层特征U_n，从而得到N个尺寸为L₁×H₁×W₁×C的浅层特征U₁,U₂,…,U_n…,U_N，n＝1,2,…,N，C为通道数；

将不同并行分支提取的浅层特征U₁,U₂,…,U_n…,U_N相加得到中间融合特征U，再将中间融合特征U通过一个全局平局池化层的处理后得到尺寸为1×1×1×C的通道特征向量s_C；

使用一个卷积层对所述通道特征向量s_C进行下采样操作以降低通道数量，从而得到尺寸为1×1×1×C/r的特征向量z；

N个并行分支对所述特征向量z使用N个卷积层的上采样处理，得到N个尺寸为1×1×1×C的特征向量并使用softmax层的激活处理，得到N个分支上的权重向量t₁,t₂,…,t_n,…,t_N，从而利用式(5)得到多模态特征选择模块输出的融合特征V：

式(5)中，t_n表示第n个分支上的权重向量，U_n表示第n个分支上的浅层特征；

步骤2.3：建立分割网络，并将融合特征V输入所述分割网络中进行处理，得到分割结果图像p；

步骤2.4：构建如式(6)所示的损失函数L_seg：

L_seg＝L_dice+λL_bce (6)

式(6)中，λ是权重系数，L_dice与L_bce分别代表训练的Dice损失与BCE损失，并有：

式(7)和式(8)中，p_i代表分割结果图像p中第i个像素点的预测值，g_i代表真实标签图像g中第i个像素点的真实标签值，v代表图像像素点的数量；

步骤2.4.2：基于源模态图像S₁，S₂，融合模态图像F及真实标签图像g对所述分割网络进行训练，并采用反向传播算法对所述损失函数L_seg进行优化求解，从而调整所述分割网络中所有参数，当训练迭代次数达到设定的次数或损失函数L_seg的值达小于所设定的阈值时，训练停止，从而得到最优分割模型；

步骤2.5：将待分割的多模态图像输入至所述最优分割模型中，并得到分割结果后还原至原始尺寸，从而得到最终的分割图像。

与现有的分割方法相比，本发明更加充分地利用了多个模态图像信息之间的互补性与差异性，其有益效果体现在：

1、本发明利用像素级融合网络融合3D的多模态图像，得到的融合模态图像具有更丰富的组织结构信息与病理信息；融合模态图像本质上是一种模态增强技术，它加强了不同模态图像之间的联系，结合了不同模态之间的特点，包含更有利于图像分割的信息；且融合模态图像与原始的多模态图像连接在一起，输入至分割网络中，这种输入方式能起到数据扩充的作用，为图像分割提供了更丰富的模态信息，有效提高了分割网络的特征学习能力。

2、本发明提出了基于特征级融合的多模态特征选择模块，能为分割网络提供更加精细的融合特征；在分割某一特定的区域时，不同模态的信息对其重要性也不同，若平等地对待每一个模态显然是不合理的；多模态特征选择模块能自动地给各模态分配权重，得到更利于分割目标的多模态图像特征，其本质上是一种注意力机制；多模态特征选择模块对重要模态特征的关注使分割过程更加精细，提高了特征的学习能力和利用效率。

3、本发明整体网络采用多级级联的结构，将多目标分割问题简化为多个二分类的问题，降低分割问题的难度；且采用级联结构，能充分利用不同分割目标之间的联系；上一级的分割结果定位下一级分割目标的位置，缓解了图像分割过程中的类不平衡问题，进一步提高了分割结果的精度。

附图说明

图1为本发明的整体网络结构示意图，以两级级联为例；

图2为本发明的像素级融合网络结构示意图；

图3为本发明的多模态图像像素级融合方法流程图；

图4为本发明的多模态特征选择模块结构示意图；

图5为本发明的基于图像融合技术的单级多模态图像分割方法流程图。

具体实施方式

本实施例中，以两级级联为例，具体网络框架如图1所示，一种基于图像融合技术的多模态图像分割方法包括以下步骤：

步骤1：融合多模态图像：

步骤1.1：数据获取及预处理：

数据集来自于多模式脑肿瘤分割挑战赛(BraTS)，所有BraTS多模式扫描均以NIfTI文件(.nii.gz)形式提供，每例样本包含了4种模态：T1加权成像(T1)，T2加权成像(T2)，对比后T1加权成像(T1c)和T2液体衰减反转恢复成像(FLAIR)。实验中选取BraTS2019数据集，使用包括335个患者样本的训练集进行训练，训练集由259个高胶质肿瘤(HGG)患者样本与76个低胶质肿瘤(LGG)患者样本组成，数据集中每个核磁共振图像的大小为155×240×240。根据分割目标的需求，主要融合T2-FLAIR(T2与FLAIR作为输入)，T1c-T2(T1c与T2作为输入)，T1c-FLAIR(T1c与FLAIR作为输入)三组图像。利用滑动窗口的方式将每例样本随机裁剪成80×80×80的尺寸，并将每例样本的像素值除以2047进行归一化处理。

步骤1.2：建立基于像素级的融合网络：

如图2所示，像素级的融合网络包含两个结构相同的分支，每个分支均包含一个卷积层Conv_x和一个残差层Res-conv_x，x＝1或2；其中，残差层是由两个卷积层跳跃连接组成；其中，卷积层包括：1个三维卷积层，1个批量归一化层以及1个ReLU激活函数层；

在具体实施中，所有三维卷积层的卷积核大小都为3×3×3，步长为1。

每个分支接收一种模态图像集，从而将预处理后的第一模态图像集S′₁和第二模态图像集S′₂分别经过两个分支的处理后，相应输出第一模态特征图F₁和第二模态特征图F₂；

将第一模态特征图F₁和第二模态特征图F₂拼接后依次输入第三个残差层Res-conv₃的处理后再经过两个卷积层Conv₃和Conv₄以及一个激活函数层的处理，并得到权重图m，从而利用式(1)得到像素级的融合网络输出的融合模态图像F：

F＝mS₁+(1-m)S₂ (1)

步骤1.3：构建如式(2)所示的损失函数L_fusion：

L_fusion＝L_pixel+αL_ssim (2)

式(2)中，α是平衡两项损失在同一数量级的参数，具体实施中，α设置为450。L_pixel与L_ssim分别代表训练的像素损失和结构相似性损失，并有：

L_ssim＝γ(1-SSIM(F,S₁))+(1-SSIM(F,S₂)) (4)

式(3)中，β表示权重系数，表示F范数；

式(4)中，γ表示权重系数，SSIM(·)表示结构相似度；

具体实施中，由于T2与Flair这两种模态具有相对相似的病理和结构信息，所以在T2，Flair融合时，β与γ均设置成1。当S₁，S₂分别代表T1c，T2/Flair模态的图像时。考虑到T2/Flair图像包含更多关于水肿区域的病变信息，本实施例中在L_pixel中增加了T2/Flair图像的权重。同时，由于T1c图像包含了更多的组织结构信息，因此在L_ssim中赋予T1c图像更大的权重。因此在对T1c与T2，T1c与FLAIR融合时，将β与γ均设置成2。

步骤1.4：基于预处理后的第一模态图像S′₁和第二模态图像S′₂训练像素级的融合网络，具体流程图如图3，并采用反向传播算法对损失函数L_fusion进行优化求解，从而调整融合网络中所有参数，当训练迭代次数达到设定的次数或损失函数L_fusion的值达小于所设定的阈值时，训练停止，从而得到最优融合模型及其输出的融合图像，并将输出的融合图像还原至源模态图像的尺寸，得到最优融合图像F^*；

训练过程中学习率设置为10^-4，采用Adam优化，迭代次数为10。实验选取BraTS2019与BraTS2020两组数据集中的训练集输入像素级融合网络模型中，最终得到两组数据集的三组融合模态图像。

步骤2：分割多模态图像：

步骤2.1：数据预处理：

实验中选取BraTS2019与BraTS2020数据集，包含四种模态：T1，T1c，T2，FLAIR；三种标签：坏死性和非增强性肿瘤核心(NCR/NET-标签1)，肿瘤周围水肿(ED-标签2)以及增强型肿瘤(ET-标签4)。在三个区域上评价分割效果：增强肿瘤(ET)，肿瘤核心(TC＝ET+NCR/NET)和整个肿瘤(WT＝TC+ED)。在第一级网络中，每个样本被随机裁剪为192×160×128的尺寸。在第一级网络中，选用T2，FLAIR及T2-FLAIR融合等三组模态图像作为输入，输出分割的WT区域。第二级网络的输入为T1，T1c，T2，FLAIR，T1c-T2及T1c-FLAIR等六组模态图像，输出TC，ET区域。在第二级网络中，根据第一级网络的分割结果确定分割目标区域的位置，并将样本裁剪为128×128×128的尺寸，这种方式可以减轻类不平衡问题的影响。在图像的非零区域做Z-Score归一化处理，即对每组模态图像的像素值减去其均值，除以方差，得到强度值范围为[0,1]的标准化图像。

步骤2.2：建立基于特征级融合的多模态特征选择模块，如图4所示：

根据图像块的模态数量N，设置多模态特征选择模块包含的并行分支个数为N，使得每个并行分支对应一种模态图像；

第n个并行分支使用一个卷积层来提取对应第n种模态的图像块的浅层特征U_n，从而得到N个尺寸为L₁×H₁×W₁×C的浅层特征U₁,U₂,…,U_n…,U_N，n＝1,2,...,N，C为通道数；

使用一个卷积层对通道特征向量s_C进行下采样操作以降低通道数量，从而得到尺寸为1×1×1×C/r的特征向量z；

N个并行分支对特征向量z使用N个卷积层的上采样处理，得到N个尺寸为1×1×1×C的特征向量并使用softmax层的激活处理，得到N个分支上的权重向量t₁,t₂,…,t_n,…,t_N，从而利用式(5)得到多模态特征选择模块输出的融合特征V：

在具体实施中，将C设置为16，r设置为4。

步骤2.3：建立分割网络，并将融合特征V输入分割网络中进行处理，得到分割结果图像p；在具体实施中，选取V-Net作为基础的分割网络。

步骤2.4：构建如式(6)所示的损失函数L_seg：

L_seg＝L_dice+λL_bce (6)

式(6)中，λ是权重系数，具体实施中，λ设置为0.5。L_dice与L_bce分别代表训练的Dice损失与BCE损失，并有：

步骤2.4.2：图5展示了单级分割网络的训练流程图。基于源模态图像，融合模态图像F及真实标签图像g对分割网络进行训练，并采用反向传播算法对损失函数L_seg进行优化求解，从而调整分割网络中所有参数，当训练迭代次数达到设定的次数或损失函数L_seg的值达小于所设定的阈值时，训练停止，从而得到最优分割模型；

训练过程中采用Adam优化，学习速率按照以下规则逐步衰减：

式(9)中，初始学习率l₀设置为10^-4，迭代N次数为300，i代表当前迭代次数。

步骤2.5：将待分割的多模态图像输入至最优分割模型中，并得到分割结果后还原至原始尺寸，从而得到最终的分割图像。

采用去除小区域的方式进行后处理，主要是对ET区域进行处理。若ET区域的体素数量少于500，则将NCR/NET代替ET。将两级网络的分割结果结合在一起，最终得到WT，TC，ET的分割结果。

实验环境采用Pytorch框架，实验GPU选择NVIDIATITAN RTX GPU。为了定量评价分割结果，采用评价指标为Dice值以及Hausdorff距离(％95)。主要进行了四组实验验证图像融合技术对分割的有效性。实验一：融合模态图像不作为分割网络输入，也不使用多模态特征选择模块。整体网络结构为两个级联的V-Net，是最基础的实验；实验二：将多模态特征选择模块嵌入分割网络V-Net中，融合模态图像不作为分割网络的输入。实验三：将融合模态图像作为分割网络的输入，不使用多模态特征选择模块。实验四：将融合模态图像作为分割网络的输入，并使用多模态特征选择模块，是最全面的实验。

表1四组实验在Brats2019验证集上的分割结果：

	实验一	实验二	实验三	实验四
					Dice_WT	0.8635	0.8771	0.8832	0.8942
Hausdorff_WT	7.1211	7.7784	7.1654	5.3490
					Dice_TC	7.1211	7.7784	7.1654	5.3490
Hausdorff_TC	15.7345	10.1822	14.4599	10.8988
					Dice_ET	0.7682	0.7698	0.7692	0.7710
Hausdorff_ET	9.1385	5.3155	6.4719	5.8548

表2四组实验在Brats2020验证集上的分割结果：

	实验一	实验二	实验三	实验四
					Dice_WT	0.8678	0.8725	0.8878	0.8950
Hausdorff_WT	11.5732	9.6274	7.8896	5.3117
					Dice_TC	0.8025	0.8153	0.8139	0.8178
Hausdorff_TC	11.6728	10.4340	10.9337	9.4285
					Dice_ET	0.7631	0.7730	0.7678	0.7745
Hausdorff_ET	6.9469	5.9442	7.1674	4.4715

根据表1，表2所示四组实验结果，说明本发明的像素级融合网络与多模态特征选择模块能有效地提高分割精度。由像素级融合网络得到的融合模态图像对WT区域的分割更有利，多模态特征选择模块对TC、ET区域的分割更有利。

Claims

1.一种基于图像融合技术的多模态图像分割方法，其特征包括以下步骤：

步骤1：融合多模态图像：

步骤1.1：数据获取及预处理：

步骤1.2：建立基于像素级的融合网络：

F＝mS₁+(1-m)S₂ (1)

步骤1.3：构建如式(2)所示的损失函数L_fusion：

L_fusion＝L_pixel+αL_ssim (2)

L_ssim＝γ(1-SSIM(F,S₁))+(1-SSIM(F,S₂)) (4)

式(3)中，β表示权重系数，表示F范数；

式(4)中，γ表示权重系数，SSIM(·)表示结构相似度；

步骤2：分割多模态图像：

步骤2.1：数据预处理：

步骤2.2：建立基于特征级融合的多模态特征选择模块：

步骤2.4：构建如式(6)所示的损失函数L_seg：

L_seg＝L_dice+λL_bce (6)