CN113139627B

CN113139627B - 纵隔肿物识别方法、***及装置

Info

Publication number: CN113139627B
Application number: CN202110691215.2A
Authority: CN
Inventors: 杜强; 高泽宾; 郭雨晨; 聂方兴
Original assignee: Beijing Xiao Bai Century Network Technology Co ltd
Current assignee: Beijing Xiao Bai Century Network Technology Co ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-11-05
Anticipated expiration: 2041-06-22
Also published as: CN113139627A

Abstract

本发明公开了一种纵隔物识别方法、***及装置，所述方法包括如下步骤：S1、对纵隔肿物的CT图像进行预处理；S2、对预处理后的CT图像取连续的多个切片，并将每个切片处理成多个窗宽窗位的矩阵；S3、将处理成多个窗宽窗位的矩阵的多个切片输入两级自注意力机制的2.5DUNet前，对所述多个切片分组卷积，然后输入两级自注意力机制模块进行融合，得到识别结果。本发明使用了深度学习并结合注意力机制，同时利用了2D和3D的优势，因此模型精度较高、推理速度快；此外，由于数据库规模较大，其泛化性能可以得到保障。

Description

纵隔肿物识别方法、***及装置

技术领域

本发明涉及人工智能领域，尤其是涉及一种纵隔物识别方法、***及装置。

背景技术

在医学上，纵隔指的是前到胸骨，后到脊椎，上到颈部，下到隔肌的一块区域。它包含心脏，胸腺，某些***和部分气道(气管)等，不包括肺。长在纵隔区域的肿瘤按部位分可以分为：前纵隔，中纵隔和后纵隔肿瘤。

纵隔肿物包含多种疾病类型。以胸腺肿肿瘤为例，胸腺肿瘤中90％为胸腺瘤，其余是胸腺癌、淋巴瘤及类癌等。纵隔肿物具有发病率低的特点，例如胸腺瘤在全部成人恶性肿瘤中不足1％；同时在发病位置上也有特点，例如在成人前纵隔肿瘤中胸腺瘤约占30％，据美国国家癌症研究所报告，美国胸腺瘤的发病率为0.15/10万，因此可学习样本较少。

影像学检查可以辅助医生诊断纵隔肿物。以胸腺瘤为例，近80％胸腺瘤患者在正位胸片上表现为纵隔轮廓异常或肿物。胸部增强CT是诊断前纵隔肿物的首选影像检查方法，CT不仅能显示病变大小、密度、边缘，而且能提示病变与胸腔内周围器官包括大血管、肺、心包、心脏、胸膜等的关系。在增强CT序列中，血管等会呈现高密度特征，此时纵隔肿物呈低密度特征，较易识别。

综合上述特点，CT可以帮助医生快速诊断纵隔肿物，但其中存在两个难点。一是是由于发病率低，可学习的影像样例少，再加上个别类型在整体发病率中所占更少，其样本就更少；二是疾病分型很多。通过CT诊断纵隔肿物对于经验较少的影像科医生是一个很大的挑战，很容易出现漏诊现象。

随着计算机和数字图像处理技术的发展，出现了许多计算机图像算法用于处理CT图像，帮助医生诊断癌症。但是一方面这些算法有相当一部分基于传统机器学习，取得的诊断精度有限；另一方面，受限于纵隔肿物发病率低，可学习样本较难收集，因此其泛化性能收到限制。

发明内容

本发明的目的在于提供一种纵隔物识别方法、***及装置，旨在解决纵隔物识别方法。

本发明提供一种基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法，包括如下步骤：

S1、对纵隔肿物的CT图像进行预处理；

S2、对预处理后的CT图像取连续的多个切片，并将每个切片处理成多个窗宽窗位的矩阵；

S3、将处理成多个窗宽窗位的矩阵的多个切片输入两级自注意力机制的2.5DUNet前，对所述多个切片分组卷积，然后输入两级自注意力机制模块进行融合，得到识别结果。

本发明还提供一种基于两级自注意力机制的2.5DUNet的纵隔肿物识别***，包括：

预处理模块：用于对纵隔肿物的CT图像进行预处理；

切片模块：对预处理后的CT图像取连续的多个切片，并将每个切片处理成多个窗宽窗位的矩阵；

融合模块：将处理成多个窗宽窗位的矩阵的多个切片输入两级自注意力机制的2.5DUNet前，对所述多个切片分组卷积，然后输入两级自注意力机制模块进行融合，得到识别结果。

本发明实施例还提供一种基于两级自注意力机制的2.5DUNet的纵隔肿物识别***，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现上述方法的步骤。

采用本发明实施例，结合注意力机制开发兼顾2D和3D信息的算法，从而实现对纵隔肿物的分割。由于使用了深度学习并结合注意力机制，同时利用了2D和3D的优势，因此模型精度较高、推理速度快；此外，由于数据库规模较大，其泛化性能可以得到保障。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法的流程图；

图2是本发明实施例的基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法的网络结构示意图；

图3是本发明实施例的基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法的分组卷积示意图；

图4是本发明实施例的基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法的切片间位置注意力示意图；

图5是本发明实施例的基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法的切片间融合注意力示意图；

图6是本发明实施例的基于两级自注意力机制的2.5DUNet的纵隔肿物识别***的示意图；

图7是本发明实施例的基于两级自注意力机制的2.5DUNet的纵隔肿物识别装置的示意图。

附图标记说明：

610：预处理模块；620切片模块；630：融合模块。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。此外，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

方法实施例

根据本发明实施例，提供了一种基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法，图1是本发明实施例的基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法的流程图，如图1所示，具体包括：

S1、对纵隔肿物的CT图像进行预处理；

S1具体包括：

将图像重采样统一分辨率，对重采样后的图像灰度化，对灰度后的图像采用大津算法得到二值图，对二值图进行开运算处理噪声，对处理噪声后的二值图进行边缘检测得到身体区域范围，去除大部分图像中无关区域。

S2具体包括：

对预处理后的CT图像取连续的多个切片，并将每个切片处理成2个窗宽窗位的矩阵，得到W×H×(2×n)的数据，其中W和H代表矩阵的宽度和高度，2代表2个窗宽窗位，n代表连续的n个切片。

S3具体包括：

将处理成多个窗宽窗位的矩阵的多个切片输入两级自注意力机制的2.5DUNet前，对得到的多个切片按通道维度进行分组，得到C个组，将分组后的切片先输入切片间位置注意力结构提取特征，后输入融合注意力结构进行融合，得到识别结果。

将分组后的切片先输入切片间位置注意力结构提取特征具体包括：将分组卷积后的切片使用带步长的卷积，将特征图由H×W×C处理为N×N×C的分辨率，其中N与整个网络结构中最小特征图尺寸的分辨率相同，然后对N×N×C分辨率的特征分别使用三个权重提取Query特征向量、Key特征向量和Value特征向量，Query特征向量和Key特征向量做矩阵乘法，得到不同位置的特征之间的影响因子，将此结果作为加权因子与Value特征向量相乘即得到经过位置信息加权的特征。

后输入融合注意力结构进行融合，得到识别结果具体包括：将特征图划分网格，将网格内的特征展开为1维向量后，每个通道可以得到N×N个特征向量，将所有特征向量输入线性映射器进行映射，将不同通道中的相同位置的网格对应的向量作为一组特征送入1D的线性映射结构从而得到第i个位置不同通道间的自注意力加强后的特征，再将得到的结果拼接起来得到特征图，作为加权因子与原始特征相乘，不同通道间的特征融合，之后再通过一次位置注意力结构，实现了切片不同空间位置间特征的融合。

本发明实施例共收集890例纵隔肿物相关数据，每例数据包含至少一个增强序列。训练集和验证集划分：

训练集：来自703位病人的703个CT序列；

测试集：187位病人的187个CT序列。

每一例数据均有两名专家使用标注工具勾画病灶区域的边界，标注结果以JSON的格式存储，进而通过处理得到分割级别的标注。

本发明实施例提出的使用的纵隔肿物图像分割方法，其工作流程如下：首先对数据做预处理和数据增广。预处理操作由裁剪和重采样构成。裁剪操作指将肺部区域从整体影像中裁剪出来，重采样将不同类型的影像数据重采样到空间分辨率为1mm×1mm×1mm。数据增广方法包括：像素偏移、上下或左右翻转、任意角度的旋转。预处理完成后，数据将被输入到本发明实施例提出的深度学习网络提取特征。输入时为了利用CT的3D空间信息，并不是只输入单张图像，而是取连续n张slice.

本发明实施例提出的基于两级自注意力机制的2.5DUNet的纵隔肿物CT图像识别方法，其具体实施方式如下：

图像预处理：

由于数据时间跨度比较长，来自于同医院的不同型号设备，因此CT图像的空间分辨率不一致，为了便于网络训练，首先将图像重采样到空间分辨率为1mm×1mm×1mm，之后使用图像图形学的方法处理得到身体区域。具体地，

图像图形学的操作流为：图像灰度化，OTSU算法得到二值图，对二值图进行开运算处理噪声，进行边缘检测得到身体区域范围。经过图像图形学处理之后可以去除大部分图像中无关区域。

输入图像处理：

本发明实施例中，为了更好的利用2D图像的快速处理优势和3D空间结构带来的信息增益，使用了2D结合注意力机制的方式。因此需要对输入到模型的图像做一定处理。包括数据增广和多通道连接。数据增广的目的是为提高模型性能，提升模型对边缘的分割效果。数据增广的处理方式包括以下操作：上下翻转、左右翻转、任意角度旋转和像素偏移等。为了利用3D空间信息，本专利要求输入包含连续的多个slice,进一步包括：每个slice会处理成2个窗宽窗位的矩阵，最后的输入数据就是W×H×(2×n)，其中W和H代表图像的宽度和高度，2代表2个窗宽窗位，n代表连续的n个slice.

提取图像特征并分割：

UNet是广泛采用的图像语义分割方法，其改良版本很多。本发明实施例专利针对2D UNet无法利用3D空间信息从而造成假阳分割和漏检的问题以及3DUNet需要大量的计算资源的问题，结合自注意力机制设计了2.5D UNet的纵隔肿物识别(2.5D-DLSAUNet)方法。

图2是本发明实施例的基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法的网络结构示意图：如图2所示：

UNet的常见基本单元为Conv2D-BN-RELU-Conv2D-BN-RELU，并结合上采样和下采样提取特征，使用跳连融合特征。本发明实施例的整体框架与UNet一致，即采用上下采样和跳连等构建数据流。但基本单元为GroupConv-BN-RELU-Dual Level Self Attention-BN-RELU。其中Dual Level Self Attention模块是本发明实施例针对3D空间特征融合而进行设计的。

图3是本发明实施例的基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法的分组卷积示意图：如图3所示：

由于2.5D-DLSAUNet的输入数据为多个slice的CT图像数据，如果直接使用正常的卷积运算，则不同slice间的特征会发生混淆，实验结果显示这样并不能使深度学习模型更好的利用3D空间的信息。因此，本发明实施例采用了分组卷积。其结构如图3所示。分组卷积会将输入的特征或者图像按channel维度进行分组，这样就实现了不同slice间的特征提取过程互不干扰的目的。经过分组卷积提取的特征将被输入到Dual Level Attention模块，Dual Level Attention包括Internal Slices Location Attention和Fusion Attention。

图4是本发明实施例的基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法的切片间位置注意力示意图：如图4所示：

本发明实施例所设计的Dual Level Attention模块有两级结构。第一级为Internal Slices Location Attention(切片间位置注意力)结构，第二级为FusionAttention(融合注意力)结构。Internal Slices Location Attention结构采用了Transformer的思想，如图4所示。当特征图的尺寸很大的时候，Transformer方法需要消耗很多计算资源，因此对于特征图尺寸较大的时候，先使用带步长的卷积，将特征图由H×W×C处理为N×N×C的分辨率，其中N与整个网络结构中最小特征图尺寸的分辨率相同，即图1中的N。然后对降低分辨率的特征分别使用三个权重提取Query特征向量、Key特征向量和Value特征向量。Query特征向量和Key特征向量做矩阵乘法，则得到不同位置的特征之间的影响因子，将此结果作为加权因子与Value特征向量相乘即得到经过位置信息加权的特征。

由于分组卷积的使用，不同slice间的特征需要通过一种方式进行融合，才能更好的利用3D空间信息。因此经过第一级Internal Slices Location Attention结构后，特征将被送入第二级Fusion Attention(融合注意力)结构。

图5是本发明实施例的基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法的切片间融合注意力示意图：如图5所示：

与第一级结构类似，为了降低高分辨特征图情况下的计算资源消耗，首先对特征图划分Patch，将Patch内的特征展开为1维向量后，每个通道可以得到N×N个特征向量。将所有特征向量输入Liner Projection进行映射。为了融合3D空间信息，需要将不同通道间的特征进行融合。本发明实施例将不同通道中的相同位置的Patch对应的向量作为一组特征送入1D的Transformer结构，如图5所示即将通道1、2、3中第i个位置的向量作为一组输入Transformer结构，从而得到第i个位置不同通道间的自注意力加强后的特征。再将得到的结果拼接起来得到特征图，作为加权因子与原始特征相乘。至此就完成了不同通道间的特征融合，即不同slice间的特征融合，也就利用了3D空间的信息，之后在通过一次LocationAttention结构，则间接实现了3D中不同空间位置间特征的耦合。

下面为训练超参数及策略设置：

不同的超参数会导致不同的模型性能，手动调节超参数依赖于算法工程人员的经验，本发明实施例采用网格搜索方式自动搜索超参数。搜索超参数包括初始学习率、权重衰退参数等。

训练共100个epoch，训练时使用两个loss：

具体地，前10个epoch loss函数为：

loss＝0.001×diceloss+bceloss 公式3；

后90个epoch loss函数为：

loss＝0.1×diceloss+bceloss 公式4；

训练时优化器使用AdaBound。

评价指标

对于实验结果，本文使用Dice Score进行评价，Dice公式为：

本发明实施例采用结合注意力机制开发兼顾2D和3D信息的算法，从而实现对纵隔肿物的分割。由于使用了深度学习并结合注意力机制，同时利用了2D和3D的优势，因此模型精度较高、推理速度快；此外，由于数据库规模较大，其泛化性能可以得到保障。

***实施例

根据本发明实施例，提供了一种基于两级自注意力机制的2.5DUNet的纵隔肿物CT图像识别装置，图6是本发明实施例的基于两级自注意力机制的2.5DUNet的纵隔肿物CT图像识别方法的示意图，如图6所示，根据本发明实施例的基于两级自注意力机制的2.5DUNet的纵隔肿物CT图像识别方法具体包括：

预处理模块610：用于对纵隔肿物的CT图像进行预处理；

预处理模块610具体用于：

将图像重采样统一分辨率，对重采样后的图像灰度化，对灰度后的图像采用大津算法得到二值图，对二值图进行开运算处理噪声，对处理噪声后的二值图进行边缘检测得到身体区域范围，去除大部分图像中无关区域；

切片模块620：对预处理后的CT图像取连续的多个切片，并将每个切片处理成多个窗宽窗位的矩阵；

切片模块具体用于：对预处理后的CT图像取连续的多个切片，并将每个切片处理成2个窗宽窗位的矩阵，得到W×H×(2×n)的数据，其中W和H代表矩阵的宽度和高度，2代表2个窗宽窗位，n代表连续的n个切片；

融合模块630：将处理成多个窗宽窗位的矩阵的多个切片输入两级自注意力机制的2.5DUNet前，对所述多个切片分组卷积，然后输入两级自注意力机制模块进行融合，得到识别结果。

融合模块630具体用于：

将处理成多个窗宽窗位的矩阵的多个切片输入两级自注意力机制的2.5DUNet前，对得到的多个切片按通道维度进行分组，得到C个组，将分组后的切片先输入切片间位置注意力结构提取特征，后输入融合注意力结构进行融合，得到识别结果，

融合模块630具体用于：

将分组卷积后的切片使用带步长的卷积，将特征图由H×W×C处理为N×N×C的分辨率，其中N与整个网络结构中最小特征图尺寸的分辨率相同，然后对N×N×C分辨率的特征分别使用三个权重提取Query特征向量、Key特征向量和Value特征向量，Query特征向量和Key特征向量做矩阵乘法，得到不同位置的特征之间的影响因子，将此结果作为加权因子与Value特征向量相乘即得到经过位置信息加权的特征，

融合模块630具体用于：

后输入融合注意力结构进行融合，得到识别结果具体包括:将特征图划分网格，将网格内的特征展开为1维向量后，每个通道可以得到N×N个特征向量，将所有特征向量输入线性映射器进行映射，将不同通道中的相同位置的网格对应的向量作为一组特征送入1D的线性映射结构从而得到第i个位置不同通道间的自注意力加强后的特征，再将得到的结果拼接起来得到特征图，作为加权因子与原始特征相乘，不同通道间的特征融合，之后再通过一次位置注意力结构，实现了切片不同空间位置间特征的融合。

本发明实施例是与上述方法实施例对应的***实施例，各个模块的具体操作可以参照方法实施例的描述进行理解，在此不再赘述。

装置实施例二

本发明实施例提供一种基于两级自注意力机制的2.5DUNet的纵隔肿物CT图像识别装置，如图7所示，包括：存储器70、处理器72及存储在存储器70上并可在处理器72上运行的计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

装置实施例三

本发明实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有信息传输的实现程序，程序被处理器72执行时实现上述方法实施例中的步骤。

本实施例所述计算机可读存储介质包括但不限于为：ROM、RAM、磁盘或光盘等。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替本发明各实施例技术方换，并不使相应技术方案的本质脱离案的范围。

Claims

1.一种基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法，其特征在于，包括如下步骤：

S1、对纵隔肿物的CT图像进行预处理；

S3、将处理成多个窗宽窗位的矩阵的多个切片输入两级自注意力机制的2.5DUNet前，对所述多个切片分组卷积，然后输入两级自注意力机制模块进行融合，得到识别结果；

所述S3具体包括：

将处理成多个窗宽窗位的矩阵的多个切片输入两级自注意力机制的2.5DUNet前，对得到的多个切片按通道维度进行分组，得到C个组，将分组后的切片先输入切片间位置注意力结构提取特征，后输入融合注意力结构进行融合，得到识别结果；

所述将分组后的切片先输入切片间位置注意力结构提取特征具体包括：将分组卷积后的切片使用带步长的卷积，将特征图由H×W×C处理为N×N×C的分辨率，其中N与整个网络结构中最小特征图尺寸的分辨率相同，然后对N×N×C分辨率的特征分别使用三个权重提取Query特征向量、Key特征向量和Value特征向量，Query特征向量和Key特征向量做矩阵乘法，得到不同位置的特征之间的影响因子，将此结果作为加权因子与Value特征向量相乘即得到经过位置信息加权的特征；

所述后输入融合注意力结构进行融合，得到识别结果具体包括:将特征图划分网格，将网格内的特征展开为1维向量后，每个通道可以得到N×N个特征向量，将所有特征向量输入线性映射器进行映射，将不同通道中的相同位置的网格对应的向量作为一组特征送入1D的线性映射结构从而得到第i个位置不同通道间的自注意力加强后的特征，再将得到的结果拼接起来得到特征图，作为加权因子与原始特征相乘，不同通道间的特征融合，之后再通过一次位置注意力结构，实现了切片不同空间位置间特征的融合。

2.根据权利要求1所述的一种基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法，其特征在于，所述S1具体包括：

3.根据权利要求1所述的一种基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法，其特征在于，所述S2具体包括：

4.一种基于两级自注意力机制的2.5DUNet的纵隔肿物识别***，其特征在于，包括：

预处理模块：用于对纵隔肿物的CT图像进行预处理；

融合模块：将处理成多个窗宽窗位的矩阵的多个切片输入两级自注意力机制的2.5DUNet前，对所述多个切片分组卷积，然后输入两级自注意力机制模块进行融合，得到识别结果；

预处理模块具体用于：

融合模块具体用于：

将分组卷积后的切片使用带步长的卷积，将特征图由H×W×C处理为N×N×C的分辨率，其中N与整个网络结构中最小特征图尺寸的分辨率相同，然后对N×N×C分辨率的特征分别使用三个权重提取Query特征向量、Key特征向量和Value特征向量，Query特征向量和Key特征向量做矩阵乘法，得到不同位置的特征之间的影响因子，将此结果作为加权因子与Value特征向量相乘即得到经过位置信息加权的特征；

将特征图划分网格，将网格内的特征展开为1维向量后，每个通道可以得到N×N个特征向量，将所有特征向量输入线性映射器进行映射，将不同通道中的相同位置的网格对应的向量作为一组特征送入1D的线性映射结构从而得到第i个位置不同通道间的自注意力加强后的特征，再将得到的结果拼接起来得到特征图，作为加权因子与原始特征相乘，不同通道间的特征融合，之后再通过一次位置注意力结构，实现了切片不同空间位置间特征的融合。

5.一种基于两级自注意力机制的2.5DUNet的纵隔肿物识别装置，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现如权利要求1至3中任一项所述的基于两级自注意力机制的2.5DUNet的纵隔肿物识别方法的步骤。