CN114119515A

CN114119515A - 一种基于注意力机制和mri多模态融合的脑肿瘤检测方法

Info

Publication number: CN114119515A
Application number: CN202111343977.XA
Authority: CN
Inventors: 蒋宗礼; 李聪; 张津丽; 顾问
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-11-14
Filing date: 2021-11-14
Publication date: 2022-03-01

Abstract

本发明公开了一种基于注意力机制和MRI多模态融合的脑肿瘤检测方法，基于Multi‑Unet模型，将编码器的普通卷积块，替换成混合空洞卷积块。参考Inception模型的多分支编码器结构，自主设计多分支输出卷积块简称MB‑OutConv；设计一个基于通道的注意力模块CB‑Attention，捕获原始分割图各个通道之间的像素点关联，并对通道做注意力加权。适当改进神经网络，并独立设计新的注意力模块来进一步完善其分割结果，该注意力模块是基于图像通道的，在像素点级别完成注意力加权。最终将大脑MRI图像中的肿瘤和其他病变区域分割出来。基于多模态卷积神经网络Multi‑Unet，对其部分编码器分支进行改进，并在它后面添加注意力模块，共同改善脑肿瘤的分割效果。

Description

一种基于注意力机制和MRI多模态融合的脑肿瘤检测方法

技术领域

本发明涉及到深度学习，医学图像处理领域，是计算机和医学的交叉领域。基于多模态卷积神经网络，结合目前所遇到的挑战，适当改进神经网络，并独立设计新的注意力模块来进一步完善其分割结果，该注意力模块是基于图像通道的，可以在像素点级别完成注意力加权。最终目的是将大脑MRI图像中的肿瘤和其他病变区域分割出来。

背景技术

图像分割，是用像素级掩模覆盖目标轮廓的过程，由于病变区域的形状是无规则的，而医生在诊断时，必须要对疾病的位置有尽可能准确地判断，否则，健康的组织会被当成疾病区域来实施手术，这会使病人出现生命危险，因此图像分割相比目标检测来说意义更大。通常经验丰富的医生可以准确地判断影像中的病变位置,但现实问题是医院每天都在产生大量的影像，医生的数量和精力又不太充足，因此就迫切需要计算机来快速识别图像中的病变区域，供医生参考。如今深度学习在自然图像分析领域的发展已经比较完善，这些研究表明，计算机完全有能力在短期内学会医生的诊断经验，并用于分析医学图像。

MRI医学成像技术，常用于观察大脑、脊髓等软组织。扫描完成后，首先会生成155层2D-Slice，然后再沿着深度轴将它们整合成3D图像，这样才能反映大脑的立体结构。由MRI生成的3D图像序列[T1,T2,T1c,Flair]，也被称为多模态图像序列。虽然MRI图像包含了软组织的众多细节特征，有些图像确实能较清晰地呈现肿瘤区域，但经过研究人们发现，起源于脑部的疾病，通常还伴随着其他的附加症状；比如神经胶质瘤在生长的过程中，必然会压迫周围组织，导致水肿现象，而被肿瘤包围的组织区域，因为长期供血不足，往往导致坏死等症状，所以病变区域应该是这些症状的总和，而并非肿瘤本身。正是由于MRI图像的复杂性，再加上医生的精力是有限的，所以才需要计算机辅助，用于脑肿瘤的诊断；而计算机分割MRI图像，也应该能较为准确地区分出每一种病变类型的位置和轮廓信息，才能辅助医生进行诊断。基于此，经过研究，设计出此模型，专用于改善分割不精准的问题。

大脑病变类型有多种，因此分割MRI图像中的脑肿瘤，从计算机的角度看，其本质是像素点的多分类问题，即分辨出图像中每个像素点所归属的类别。图像分类最初基于CNN来实现，FCN将它的全连接层替换成反卷积层，使其能用于分割。此后为了提高性能，很多模型基于FCN做了改进。SegNet增加了多个反卷积层，并添加池化索引连接。VGG使用多个小卷积核替代原有大卷积核，保持感受野的同时减少参数量。Unet改进SegNet，将下采样特征图直接传递给解码器，以恢复编码时丢失的细节特征。DenseNet参考ResNet，设计出密集连接，使每一层都有指向其它层的残差连接，加强了特征重用。Mask-RCNN先用目标检测框截取图像，后将裁剪图做上采样，避免了无关区域的干扰。

MRI图像是由多个2D扫描层组成的3D图像，每一个扫描层也可以理解为 2D横切面，因此如何处理3D-MRI图像是首要问题。现有的模型大体有两种思路，一是用大小不同的3D卷积核直接处理3D图像，比如DeepMedic；二是采用2D切分重组法，用2D卷积网络按时间顺序处理源3D图像的每一层2D横切面，生成分割图像后，再重组成3D结构，这种方法适合于大多数成熟的2D卷积网络，比如Unet、Attention-Unet等。3D卷积核本身参数量就比较大，而且这仅仅是一个通道的数量，若用它提取源3D MRI图像，并将特征分散存储到多个通道，整体的数据量将非常庞大，内存和显存都将无法支撑。因此，这种情况下，无论是3D-MRI还是3D-CT图像，都需要将它们切分成多个小立方体，再输入到3D卷积网络中，但这样会破坏源3D图像的2D横切面结构。既然MRI图像的多数特征都分布在2D横切面上，那么选择2D切分重组法则是处理3D-MRI 图像的更好选择，也更符合MRI图像的生成原理。

此外，MRI设备通常会从四个角度去扫描大脑，它们分别是基本结构T1、组织含水量T2、组织供血量T1c，以及组织的结合水含量Flair。不同模态反映的信息不同，如果不将它们融合起来，则会严重影响分割的精确度。因此需要在 Unet的基础上做进一步的改进，目前主流的方法是，将编码器设计为多分支卷积架构，并在网络深层次做融合，比如MultiPath Dense Unet，以及IVD-Net，后者相比前者，增加了密集连接，他们都适合多模态MRI图像的分割。

虽然大多数特征都分布在2D横切面上，但也需要基于序列的模型来捕捉这些2D图像之间的关联。随着深度学习的发展，起源于Transformer的注意力机制，逐渐用于图像分割。比如AutoFocus用注意力机制自动聚焦与图像每个区域相关的全局最佳尺度；OzanOktay等人将Attention Gate嵌入到Unet解码器，以专注目标区域的特征恢复，抑制不相关区域；DAnet将注意力机制用于图像上，从通道和位置两个方面提升分割效果，之后该思想被广泛应用；CAnet将DAnet 注意力块嵌入Unet编解码器之间，用于恢复医学图像中的树状细节特征；Ashish Sinha等人使用DAnet分析ResNet每一级特征层与所有特征层加和之间的联系，即捕获了长距离依赖，又捕获通道特征依赖。上述模型给带来很多启发。另一方面，与注意力类似的1×1卷积，最初用于调整通道间的特征分布，以替代全连接层用于分类；因此Self-Attention和1×1卷积的本质有所不同，本文的注意力模块结合了两者的优点。

衡量模型分割性能好坏的重要指标，正是它能否把绝大多数像素点进行正确地分类。现有的分割网络，无论模型基于2D还是3D，都能将病变区域的大体轮廓分割出来，除了需要考虑2D图像之间的联系，在卷积方面，仍然有一些需要改进的地方，比如在T1、T1c图像中，大多数轮廓都不太清晰，特别是水肿区域，而这种现象也导致网络在提取特征时，容易出现过量分割的问题。此外，坏死区域和肿瘤区域，在MRI图像上可区分性也不是很大，这两个区域分割错乱的现象也是比较常见，针对这些问题提出，用HDC卷积块替换Multi-Unet原有的部分下采样分支，以扩大其感受野，提取更多的特征，这些特征组合起来，可以改变原本的分布。

发明内容

本发明的目的是，对基于多模态的卷积神经网络做出改进，使其能从2D横切面和3D深度轴空间上都捕捉到之前没有考虑的特征，从而提升分割的准确度。为实现上述目的，本发明基于多模态卷积神经网络Multi-Unet，对其部分编码器分支进行改进，并在它后面添加注意力模块，共同改善脑肿瘤的分割效果，整个模型的结构如图1所示，它具体包含以下三个关键结构。

关键结构一：基于Multi-Unet模型，将编码器的普通卷积块，替换成混合空洞卷积块Hybrid Dilated Convolution Block(简称HDC-Block)，用于扩大感受野，提取到边界轮廓之外的更多细节，并将改进后的模型命名为HDC-MUnet。

关键结构二：参考Inception模型的多分支编码器结构，自主设计多分支输出卷积块Multi-Branch Output Convolution Block(简称MB-OutConv)，用1×1 和3×3卷积核同时处理HDC-MUnet生成的分割图，此后将特征归纳整理，生成可用于分类的原始分割图Origin-Segment。

关键结构三：参考Transformer里面的Self-Attention模型，自主设计一个基于通道的注意力模块Channel-BasedAttention-Block(简称CB-Attention)，捕获原始分割图各个通道之间的像素点关联，并对通道做注意力加权。下面将结合数据的预处理，以及上述关键结构，来说明本发明的具体阶段设计。

本发明采用的技术方案为一种基于注意力机制和MRI多模态融合的脑肿瘤检测方法，该脑肿瘤检测方法包括如下步骤

S1：关键输入数据的预处理。

由于每个样本由四个3D-MRI图像组成，因此整体维度是(4,155,240,240)，分别表示模态、深度、长和宽。一个3D-MRI图像可以看做由155层2D图像组成的序列，之前提到，这些2D图像也被称为2D横切面，在图1中有所体现，因此第二维度也称为时间序列维度。从时间序列维度来考虑，距离相近的两个 2D横切面之间，具有较强的特征关联度，为了减少无用的计算，首先在时间维度把3D-MRI切分成维度为(4,temp,240,240)的多个3D-Slice(temp<<155)，此后按时间顺序将3D-Slice的每一层2D横切面逐个传入HDC-MUnet来处理。其中 N是HDC-MUnet第一个卷积层的输出通道数，若取值太小则无法充分提取特征，若取值太大，容易导致特征冗余，甚至过拟合。

由于Brats数据集的标签分布不均衡，导致某些情况下，模型难以收敛到全局最优值，使用中值平衡策略来解决此问题，其基本原理是，将交叉熵损失的每个类别权重，重定义为下述公式。

其中Freq(c)是属于类别c的像素数量，占所有类别像素数量的比重，即当前像素类型出现的频率。上述处理方法是经过科学验证的，在IVD-Net、 LSTM-MUnet也都有采用。

S2：改进Multi-Unet并生成HDC-MUnet结构。

由于T1图像只反映基本结构，因此它对细节的区分不太好，存在边界模糊的现象。另外，随着肿瘤的生长，一是周围的软组织被挤压，造成组织水肿；二是肿瘤的生长，会充分争夺营养，导致其包围的软组织坏死。但即使组织已经水肿或坏死，他们的供血量也没有太大的变化，因此在T1c图像上，两种病变的差异也不太明显。若用普通3×3卷积块去扫描T1、T1c图像，由于感受野较小，模糊边界经过卷积后，特征区分度仍然不太大，这就需要较长的训练次数，才能达到较为精确的分割效果。此外，这种差异不太明显，但标签不同的像素点，使模型很容易将坏死和肿瘤区域混淆，阻碍准确率的提升，针对这种问题，观察到在模糊边界周围存在一些差异较为明显的像素点，因此扩大感知域，即可捕捉到更多的像素点。

空洞卷积，可以在不增加卷积核大小的前提下扩大感受野，更适合分割较大的物体，或者是边界较为模糊的物体。因此，用混合空洞卷积块(HDC-Block) 来替换原有T1、T1c下采样分支里面的普通卷积块，该模块如图2所示。在 HDC-Block中，第一个3×3卷积核不使用空洞卷积，保持原有的扩张率为1，用于全面提取细节特征；第二个3×3卷积核使用扩张率为2的空洞卷积，将感受野由3×3扩展到5×5大小。如果继续向前追溯，输出特征图中的一个像素值，对应的输入感受野由5×5扩大到7×7大小。此外由于T2和Flair模态本身就反映了含水量，因此这两种图像的水肿区域边界则较为明显，无需使用空洞卷积扩大感受野。

S3：生成可供注意力加权的原始分割图。

图1还展示了多分支输出卷积块MB-OutConv的结构图，它由1×1和3×3 卷积并行组成，在图1中有体现，它与MUnet的串行卷积块有不同流程结构。1 ×1卷积和3×3卷积的感受野不同，功能也就有明显的差异。其中1×1卷积的作用是特征的重分布与整合，它类似于线性加权的过程，可以对N个通道的特征进行整合，以压缩通道的数量。3×3卷积的作用是特征的提取和归纳，因为它的感受野适中，可以全方位地扫描图像，用于提取有用的特征并做融合。

HDC-MUnet输出的特征图(temp,N,240,240)，包含N个内部通道，但图像分割的本质是像素点的分类，每个像素点都有C种分类可能性，因此还需要把特征图的通道数由N转变为最后的类别数量C，这也是MB-OutConv卷积块的作用。为了同时考虑两种卷积的优点，将3×3卷积和1×1卷积并行处理 HDC-MUnet的输出特征图，并将他们生成的特征图相加，以生成维度为 (temp,C,240,240)的原始分割图Origin-Segment，其中C是最终的病变类型数。该原始分割图是长度为temp的图像时间序列[OS₁,OS₂,...,OS_temp]，其下标是当前分割图OS所处的时间片，公式表示如下。

[OS₁,OS₂,...,OS_temp]＝MBOutConv{HdcMUnet([img₁,img₂,...,img_temp])}

多分支输出卷积块的思想来源于Google提出的Inception多分支架构。由于 S3的CB-Attention需要计算Origin-Segment的每两个时间片之间的关联度，然后对Origin-Segment做注意力加权，因此将它作为CB-Attention的输入。

S4：用注意力机制，进一步改善分割效果。

对于每个3D-Slice，只看其中一个模态，其维度是(temp,240,240)，那么两个空间距离较近的2D横切面之间必然拥有较强的关联度，所以捕捉这种2D横切面图像之间的像素点关联则是非常重要的。3D MRI图像的每一层横切面也可以看做一个通道，为此提出了基于图像通道的注意力模块CB-Attention专用于解决此问题，整个模块图3所示。CB-Attention的思想来源于Self-Attention，它使用基于点乘的注意力机制，因为基于点乘相比基于加法来说，效率更高。

首先需要明确，注意力模块的输入图像是原始分割图Origin-Segment，它来源于3D-Slice输入，是其每一层2D横切面图像按时间顺序依次经过了 HDC-MUnet、MB-OutConv的分割处理才得到，它的维度是(temp,C,240,240)。下面要计算Origin-Segment中的第i(1≤i≤temp)个元素OSeg_i与其他元素的注意力权重。令Query_i＝OSeg_i，其他的图像作为Key，具体以公式表示如下。

[Key₁,Key2,...,Key_i-1]＝[OSeg₁,OSeg₂,...,OSeg_i-1]；

[Key_i,Key_i+1,...,Key_temp-1]＝[OSeg_i+1,OSeg_i+2,...,OSeg_temp]

当Key的下标小于i时，Key_i＝OSeg_i，反之则有Key_i＝OSeg_i+1的对应关系。

下面执行Query和Key的点乘操作，得到temp-1个关联度矩阵。

......

......

在时间通道上拼接起来，得到三维的关联度矩阵RelevMatrix。

计算Query和Key之间的关联度。从某种意义上讲，获取注意力权值，也是特殊的分类问题，因为分析通道之间的关联度，就相当于分析这些Key属于 Query类型的概率。为了能找出与Query关联度最大的Key，使用1×1×1卷积处理RelevMatrix，将其通道数由C融合成1，该3D卷积核用于对通道进行线性组合，以调整其特征分布，用于分类过程。它类似于全连接层，但参数量比全连接层小很多，而且能直接处理图像数据，因此用它实现该过程。

经过上述调整，特征图已经能反映Query和Key之间的像素点关联度，为了能得到注意力权重，将全局平均池化，直接作用于RelevMatrix的每个时间通道上，将特征图转化为一个数值。此后用Softmax将全局平均池化的结果转化为 0～1之间的概率值，整体公式如下。

weight_x＝AvgPooling{Conv^1×1×1(RelevMatrix_x)}

其中概率最大的时间步所对应的通道Max-Key，就是与Query关联度最大的通道。最后执行注意力加权。将Max-Key与它所对应的注意力权重Max-weight 做点乘，然后直接和Query相加得到AttenQuery，完成对像素点的注意力加权过程，公式表示如下。

经过注意力加权，AttenQuery反映了MaxKey与Query在像素级融合的结果，这改变了源Query的部分像素值。将视野扩展到整个原始分割图Origin-Segment 上，经过注意力加权，它变成了新的注意力分割图Attention-Segment，其维度仍然是(temp,C,240,240)。虽然Attention-Segment已经较为完善，但它的像素点仍然是灰度值，并不能反映每个像素点的分类情况，而且它的通道数仍然是C。因此最后还需要把Attention-Segment的通道数转化为1，以此来完成对像素点的分类过程，具体描述如下。

考虑Attention-Segment中的某个时间片，它的维度是(C,240,240)，设二维平面上某个像素点为Pixel(a)，它的平面坐标为(x,y)。在Attention-Segment中，与 Pixel(a)直接相关的其他像素点，只能是(x,y,0),(x,y,1),......,(x,y,C)这几个坐标点。因为图像分割是像素点的分类问题，针对像素点(x,y)，按照标准的分类法，先将坐标序列(x,y,0),(x,y,1),......,(x,y,C)经过Log-Softmax处理，得到C个概率值，分别为(P₀,P₁,......,P_C)；然后用交叉熵损失函数计算(P₀,P₁,......,P_C)与真实标签Y_i的之间的损失。其他的像素点也是这种处理方法。

注意力模块的最后一步，是生成最终分割图Final-Segment。这一步主要是通过扫描Attention-Segment的C个通道来实现。若2D平面上某个像素值(x,y)，在第ch个通道上的数值(x,y,ch)最大(ch∈(0,C))，则表示该位置的像素应该被分类为ch。添加CB-Attention的目的是为了进一步调整这些通道的像素分布，使这些属于病变类型ch的像素点，尽可能准确地分布到通道ch上面，进一步提升准确度。

最后，纵观整个过程，即从输入3D-Slice图像开始，到输出Final-Segment 分割图为止。将这之间的数据名称、数据维度变化，以及所经过的模型组件名称，在图4所示的流程图中详细展示出来，其中T表示时间片temp，C表示最终的分类个数，即病变类型的数量。

附图说明

图1：整个模型的结构图。

图2：HDC-Block混合空洞卷积块图。

图3：CB-Attention模块图。

图4：数据格式变化流程图。

图5：计算评估指标所参考的区域图。

图6：实际分割图与基础模型的比较结果。

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

一种基于注意力机制和MRI多模态融合的脑肿瘤检测方法，该方法包括如下步骤，

步骤S1：数据集介绍。

为了验证模型的性能，选择Brats2015作为数据集。整个数据集包含274个样本，其中有220个样本是HGG病例，医学称为高级别胶质瘤，是低分化型的恶性肿瘤；剩下54个样本是LGG病例，医学称为低级别胶质瘤，这些是分化性能较好的良性肿瘤。数据集中的每个样本，包含5个3D Volume，每个3D Volume 由155层2D图像组成。前四个3D图像是MRI扫描结果[T1,T2,T1c,Flair]，分别表示基本结构、组织含水量、组织供血量、组织结合水含量。最后一个3D图像是标签label，即人工标注的实际分割图。在本场景中，label的每个像素值都只有[0,1,2,3,4]五种可能性，表示五种不同的病变类型。其他场景，统一概括为C 中分类可能性，即每个像素值有[0,1,......,C]种可能性。

步骤S2：确定评估指标和区域。

图5表示计算评估指标时，需要参考的区域，其中T1表示真实疾病区域， P1表示预测疾病区域，T0表示真实健康区域，P0表示预测健康区域。在这四种区域之上，分别执行IoU,Dice,Sensitivity,PPV这四个评估指标，可以全方位反映模型的分割性能，下面逐个介绍。

IoU是交并比，给定预测图与真实图像，IoU可以测量两个图像上，同一个目标部位的重叠度。重叠度从0～1，越高表示预测越精准。

Dice用于衡量两个集合分布之间的相似度，给定预测图与真实图，Dice可以从像素级测量两个图像的整体相似度，其值域为0～1，表示从最差到最好。

敏感度Sensitivity，表示真正的肿瘤区域中，有多少被预测为肿瘤区域。

阳性预测率PPV，用于表示预测为肿瘤的区域中，有多少是真正的肿瘤区域。

对肿瘤区域进行分割，其本质是像素点的多分类过程。比如，处理的就是五分类问题，每个像素值会有[0,1,2,3,4]这五种可能性，分别代表健康区域、坏死、水肿、肿瘤、增强肿瘤。在验证和测试时，将[0,1,2,3,4]划分为下述三种组合方式。用IoU、Dice、Sensitivity、PPV分别对它们进行测试。

[1,2,3,4]表示整个病变区域，即Entire LesionArea

[1,3,4]表示整个肿瘤区域，即Entire TumorArea

[3,4]表示核心肿瘤区域，即Core TumorArea

此外，为了测试在每一种病变类型上的分割性能，还单独对01234进行了测试，也是使用上述评估指标。

步骤S3：训练和测试模型。

为了让模型同时学习不同肿瘤的特征，将HGG和LGG样本混合起来训练。在这274个样本中，选取224个样本作为训练集，20个样本作为验证集，30个样本作为测试集。需要说明的是，训练集、验证集、测试集完全都是随机选取，不存在因为数据分布规律差不多，而导致模型的测试结果偏高的情况。在训练过程中，为了实时检查当前epoch的训练情况是否最优，每完成一轮epoch训练，都要将模型在验证集上测试一遍，并获取它在[1,2,3,4]区域上的Dice验证结果。若Dice结果比之前的更优，则保存当前模型，并立即更新全局最优Dice，否则不更新模型与Dice。在训练阶段，若训练epoch增加，但验证损失在逐渐上升，表示模型逐渐走向过拟合状态，在这种情况下，再看Dice是否有突破性的提升，若基本不变则立即停止训练。

使用的训练服务器，有四个NVIDIA Geforce RTX2080Ti显卡，每个GPU可以容纳的batchsize为2，因此将batchsize设置为8。若只有一个或两个2080Ti，也可以正常训练此模型，但需要将训练batchsize减少到2或4。如果GPU算力低于2080Ti，还需要减少HDC-MUnet的内部通道数N，才能正常训练此模型，但这样大概率会降低分割性能。此外，服务器的CPU性能也要强大，至少是 i9-9900K级别以上的，内存96GB，才可以支撑起batchsize为8的模型进行训练。

训练模型，是为了通过反向传播更新所有的参数，使所有的参数都能尽可能准确地完成任务，因此选择合适的优化器很重要，由于Adam效率更高，同时考虑了一阶二阶动量，对梯度的伸缩具有鲁棒性，因此选择它。除此之外，通过控制变量法，对其他超参数来说，得出了其最佳选择，比如内部通道数N、learning rate分别是32、1e-4。经过训练，模型在IoU、Dice、PPV指标上表现良好，均优于现有的Unet、Attention-Unet、Vnet等经典模型。

步骤S4：输出分割图。

为了直观展示本发明对分割效果的改善，将基础模型，以及的模型所输出的分割图在图6中展示，其中红色、绿色、蓝色、黄色，分别表示标签1,2,3,4，即坏死、水肿、肿瘤、增强肿瘤类型。第f列是的模型的分割效果，最后一列是真实标签，前面6列是基础模型的分割图。可以直观看出，的发明从整体上，可以改善分割效果，对噪音和错误分割有一定的抑制作用。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内；不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于注意力机制和MRI多模态融合的脑肿瘤检测方法，其特征在于：该脑肿瘤检测方法包括如下步骤

S1：关键输入数据的预处理；

每个样本由四个3D-MRI图像组成，整体维度是(4,155,240,240)，分别表示模态、深度、长和宽；一个3D-MRI图像看做由155层2D图像组成的序列，2D图像也被称为2D横切面，第二维度也称为时间序列维度；在时间维度把3D-MRI切分成维度为(4,temp,240,240)的多个3D-Slice，按时间顺序将3D-Slice的每一层2D横切面逐个传入HDC-MUnet来处理，N是HDC-MUnet第一个卷积层的输出通道数；

将交叉熵损失的每个类别权重，重定义为下述公式；

其中Freq(c)是属于类别c的像素数量，占所有类别像素数量的比重，即当前像素类型出现的频率；

S2：改进Multi-Unet并生成HDC-MUnet结构；

在模糊边界周围存在差异明显的像素点，扩大感知域捕捉更多像素点；

用混合空洞卷积块HDC-Block来替换原有T1、T1c下采样分支里面的普通卷积块，在HDC-Block中，第一个3×3卷积核不使用空洞卷积，保持原有的扩张率为1，用于全面提取细节特征；第二个3×3卷积核使用扩张率为2的空洞卷积，将感受野由3×3扩展到5×5大小；如果继续向前追溯，输出特征图中的一个像素值，对应的输入感受野由5×5扩大到7×7大小；由于T2和Flair模态本身反映含水量，这两种图像的水肿区域边界则较为明显，无需使用空洞卷积扩大感受野；

S3：生成可供注意力加权的原始分割图；

1×1和3×3卷积并行组成注意力加权卷积网络，1×1卷积的作用是特征的重分布与整合，对N个通道的特征进行整合，以压缩通道的数量；

HDC-MUnet输出的特征图(temp,N,240,240)，包含N个内部通道，但图像分割的本质是像素点的分类，每个像素点都有C种分类可能性，把特征图的通道数由N转变为最后的类别数量C，这也是MB-OutConv卷积块的作用；为了同时考虑两种卷积的优点，将3×3卷积和1×1卷积并行处理HDC-MUnet的输出特征图，并将他们生成的特征图相加，以生成维度为(temp,C,240,240)的原始分割图Origin-Segment，其中C是最终的病变类型数；原始分割图是长度为temp的图像时间序列[OS₁,OS₂,...,OS_temp]，其下标是当前分割图OS所处的时间片，公式表示如下；

[OS₁,OS₂,...,OS_temp]＝MBOutConv{HdcMUnet([img₁,img₂,...,img_temp])}

对Origin-Segment做注意力加权，因此将它作为CB-Attention的输入；

S4：用注意力机制改善分割效果；

对于每个3D-Slice，维度是(temp,240,240)，那么两个空间距离较近的2D横切面之间必然拥有关联度；3D MRI图像的每一层横切面看做一个通道，使用基于点乘的注意力机制；

计算Origin-Segment中的第i(1≤i≤temp)个元素OSeg_i与其他元素的注意力权重；令Query_i＝OSeg_i，其他的图像作为Key，具体以公式表示如下；

[Key₁,Key2,...,Key_i-1]＝[OSeg₁,OSeg₂,...,OSeg_i-1]；

[Key_i,Key_i+1,...,Key_temp-1]＝[OSeg_i+1,OSeg_i+2,...,OSeg_temp]

当Key的下标小于i时，Key_i＝OSeg_i，反之则有Key_i＝OSeg_i+1的对应关系；下面执行Query和Key的点乘操作，得到temp-1个关联度矩阵；

在时间通道上拼接起来，得到三维的关联度矩阵RelevMatrix；

计算Query和Key之间的关联度；分析这些Key属于Query类型的概率；为了能找出与Query关联度最大的Key，使用1×1×1卷积处理RelevMatrix，将其通道数由C融合成1，该3D卷积核用于对通道进行线性组合，以调整其特征分布，用于分类过程；

至此，特征图已能反映Query和Key之间的像素点关联度，为了能得到注意力权重，将全局平均池化，直接作用于RelevMatrix的每个时间通道上，将特征图转化为一个数值；用Softmax将全局平均池化的结果转化为0～1之间的概率值，整体公式如下；

weight_x＝AvgPooling{Conv^1×1×1(RelevMatrix_x)}

其中，概率最大的时间步所对应的通道Max-Key，就与Query关联度最大的通道；最后执行注意力加权；将Max-Key与它所对应的注意力权重Max-weight做点乘，然后直接和Query相加得到AttenQuery，完成对像素点的注意力加权过程，公式表示如下；

经过注意力加权，AttenQuery反映了MaxKey与Query在像素级融合的结果，这改变了源Query的部分像素值；将视野扩展到整个原始分割图Origin-Segment上，经过注意力加权，变成新的注意力分割图Attention-Segment，其维度仍然是(temp,C,240,240)；最后把Attention-Segment的通道数转化为1，以此来完成对像素点的分类过程。

2.根据权利要求1所述的一种基于注意力机制和MRI多模态融合的脑肿瘤检测方法，其特征在于：像素点的分类过程中，考虑Attention-Segment中的某个时间片，维度是(C,240,240)，设二维平面上某个像素点为Pixel(a)，平面坐标为(x,y)；在Attention-Segment中，与Pixel(a)直接相关的其他像素点，只能是(x,y,0),(x,y,1),......,(x,y,C)这几个坐标点；因为图像分割是像素点的分类问题，针对像素点(x,y)，按照标准的分类法，先将坐标序列(x,y,0),(x,y,1),......,(x,y,C)经过Log-Softmax处理，得到C个概率值，分别为(P₀,P₁,......,P_C)；然后用交叉熵损失函数计算(P₀,P₁,......,P_C)与真实标签Y_i的之间的损失。

3.根据权利要求2所述的一种基于注意力机制和MRI多模态融合的脑肿瘤检测方法，其特征在于：生成最终分割图Final-Segment是通过扫描Attention-Segment的C个通道来实现；若2D平面上某个像素值(x,y)，在第ch个通道上的数值(x,y,ch)最大(ch∈(0,C))，则表示该位置的像素应该被分类为ch。

4.根据权利要求3所述的一种基于注意力机制和MRI多模态融合的脑肿瘤检测方法，其特征在于：添加CB-Attention是为了调整通道的像素分布，使这些属于病变类型ch的像素点，准确地分布到通道ch上面，提升准确度。