CN116542921A

CN116542921A - 一种结肠息肉分割方法、装置及存储介质

Info

Publication number: CN116542921A
Application number: CN202310481889.9A
Authority: CN
Inventors: 朴永日; 吴岚虎; 张淼; 李智玮
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-08-04

Abstract

本发明公开了一种结肠息肉分割方法、装置及存储介质，包括：将结肠镜影像图片输入特征编码器，得到多层级的编码特征；针对编码特征，通过上下文丰富模块得到各层级的增强特征；同时，本发明设计了一个边界提取器，通过多层级的编码特征来生成边界注意力图；增强特征通过一系列的边界引导双向注意力残差模块按照从高层至低层的准则进行动态融合，同时对边界进行增强，得到最终结肠息肉分割预测结果。本发明构建了基于边界引导双向注意力残差网络的结肠息肉分割模型，利用边界引导双向注意力残差模块和上下文丰富模块，在很多有挑战性的场景下都能取得准确的分割结果。

Description

一种结肠息肉分割方法、装置及存储介质

技术领域

本发明涉及到计算机辅助医疗领域，具体为一种基于边界引导双向注意力残差网络的结肠息肉分割方法、装置及存储介质。

背景技术

当前，结肠癌已成为世界范围内的第三大癌症，同时也是致死率第二高的癌症。超过90％的结肠癌病例是由结肠息肉演变而来的，息肉形成于结肠内壁，是小而非癌性的良性细胞团块，随着时间推移，存在转变为结肠癌的风险。因此，防治结肠癌最有效的办法便是在结肠息肉转变为结肠癌前对其进行检测和切除。目前，结肠镜是检测结肠息肉最常用的方法，但是这一过程需要大量昂贵的人工劳动力，同时存在较高的误诊率。因此，自动且准确的息肉分割方法具有重要的实用价值与广阔的应用前景。

传统的息肉分割方法主要依赖于手动选取特征，例如颜色、纹理、形状等。尽管这些方法对息肉分割有一定的效果，但是由于它们缺乏对高级语义信息的表达能力，往往导致很高的漏判和误判概率。近年来，随着深度学习技术在医学图像分析领域的广泛应用，出现了许多基于深度学习的息肉分割方法。早期的方法通常在FCN的基础上增加模块来提高结肠息肉分割的精度，但由于FCN过于依赖高层特征，而忽略了低层特征所包含的丰富的细节特征，导致分割的结果比较粗糙。随着U-Net在生物医学图像领域取得巨大成功，更多的方法采用了U-Net的设计思想，即使用深度卷积神经网络作为编码器来提取多层级的特征，然后按照自上而下的准则设计解码器来融合多层级特征并预测最终的分割结果。

虽然这些方法取得了很大的进步，但是针对结肠息肉的分割依然是一项具有挑战性的任务，主要原因有以下两点：

首先，结肠息肉的颜色和纹理与周围的粘膜组织十分相近，边界十分模糊，导致结肠息肉具有很高的伪装性，很难被识别出来；第二，结肠息肉的尺寸、形状、位置等差异很大，使得模型很难完整地分割出所有不同形态的息肉。由于以上两个问题的存在，结肠息肉分割方法的准确率仍然有待提升。因此，本发明旨在解决以上两个结肠息肉分割任务中的难题。

发明内容

针对结肠息肉与周围粘膜组织的高相似度导致的伪装性和边界模糊问题，本发明提供了一种基于边界引导双向注意力残差网络的结肠息肉分割方法、装置及存储介质，使用双向注意力机制同步地增强前景区域并且抑制背景中的高相似度噪声，从而增大前景与背景的对比度，同时引入边界引导模块增强边界区域。此外，本发明还提出了一个上下文丰富模块，通过自适应地提取全局信息、局部信息、多尺度信息，从而提高初始编码特征的表达能力，进而提高对不同形态和尺寸的息肉的检测能力，最终实现了不同场景下高质量的结肠息肉分割。

为此，本发明提供了以下技术方案：

本发明提供了一种基于边界引导双向注意力残差网络的结肠息肉分割方法，包括如下步骤：

A、将结肠镜影像图片输入特征编码器，得到多层级的编码特征(F_i，i＝2，3，4，5)，在特征编码器的最后一层之后串联一个平均池化层得到顶级特征F₆；

B、将步骤A中所得特征输入上下文丰富模块得到更加丰富的特征表示(B_i，i＝2，3，4，5，6)，包括：

B1、针对各层级特征(F_i，i＝2，3，4，5)，分别采用全局-局部特征提取器来同步地提取全局特征和局部特征并进行融合得到(B_i，i＝2，3，4，5)，从而提高对息肉的定位能力和细节刻画能力；

B2、针对顶层特征F₆，采用U形膨胀卷积空间金字塔池化模块来提取多尺度特征B₆，从而提高对多尺寸息肉的检测能力；

C、同时，将步骤A中所得到的多层级编码特征(F_i，i＝2，3，4，5)输入一个设计好的边界提取器，用于生成边界注意力图E，受边界真值的监督；

D、通过一系列边界引导双向注意力残差模块对步骤B中所得的更加丰富的特征表示按照从高到低的准则逐步进行特征解码得到融合特征(R_i，i＝2，3，4，5)，将融合特征和B₆分别通过预测层得到多阶段预测图(S_i，i＝2，3，4，5，6)并用真值进行监督，选择S₂作为最终的分割结果，其中边界引导双向注意力残差模块包括：

D1、采用双向注意力机制对相邻两层的特征进行互补增强，使其中高层特征的前景区域更加完整，并尽可能地抑制低层特征背景区域中的噪声干扰。

D2、对经过双向注意力机制处理后的相邻特征首先通过多尺度通道注意力模块处理进行动态区域加权，之后分别输入边界增强模块，利用步骤C中收集到的边界线索对其进行边界区域的增强，最后将两路特征融合得到当前阶段的融合特征。

D3、将融合特征通过一个洗牌注意力模块进行通道和空间上的权重再分配，之后通过残差结构加上高层特征即为当前边界引导双向注意力残差模块的输出。

进一步地，步骤A包括：

所述特征编码器为Res2Net架构，并丢弃最后两层以保留空间结构；所述特征编码器针对每一张图像生成4个具有不同空间分辨率和通道数的特征图(F_i，i＝2，3，4，5)。

进一步地，所述Res2Net架构为Res2Net-50架构，使用Res2Net-50在ImageNet上的预训练权重初始化编码器，在删除最后的全连接层的同时在最后一个卷积层后新增一个池化核为3×3，步长为2的平均池化层，将F₅下采样得顶级特征F₆。

进一步地，步骤B1包括：

将多层级编码特征(F_i，i＝2，3，4，5)通过一个transformer支路以获取全局特征同时，将多层级编码特征(F_i，i＝2，3，4，5)通过一个全局引导的CNN支路以获取局部特征。最后，全局特征与局部特征通过通道叠加和3×3卷积层融合生成增强特征(B_i，i＝2，3，4，5)。

进一步地，步骤B2包括：

U形膨胀卷积空间金字塔池化引入了从小感受野到大感受野的补充路径和从大感受野到小感受野的引导路径。前者使顶级特征F₆在经过某一特定空洞率的膨胀卷积层时，都会先叠加空洞率小一级的膨胀卷积层的输出结果；后者使经过不同空洞率膨胀卷积层处理得到的特征在融合前，受到空洞率大一级的膨胀卷积层输出结果的引导，引导方式为通道叠加与空间注意力机制的结合。

进一步地，膨胀卷积层的空洞率d分别取1，2，3，4。

进一步地，步骤C包括：

对每一个层级的编码特征(F_i，i＝2，3，4，5)采用1×1卷积层与上采样操作变换到相同的空间分辨率，然后在通道方向进行叠加，之后采用3×3卷积层进行融合，最后通过1×1卷积层得到边界注意力图。

进一步地，步骤D1包括：

首先将相邻两层增强特征通过3×3卷积层进行融合，然后通过1×1卷积层和sigmoid激活函数生成前景注意力图，然后用1逐像素减去前景注意力图得到背景注意力图，分别使用前景注意力图和背景注意力图来增强高级特征的前景和滤除低级特征的背景噪声。

进一步地，步骤D2中的边界引导机制为：利用边界注意力图对待增强特征进行加权，之后与原未加权特征进行逐像素相加，并通过一个3×3卷积层得到最终的边界增强特征。

本发明提供的上述技术方案具有以下有益效果：

本发明提出了一种基于边界引导双向注意力残差网络的结肠息肉分割方法，该方法考虑了结肠息肉分割任务中结肠息肉的伪装性与多样性。首先将结肠镜影像图片输入特征编码器，得到多层级的编码特征；紧接着，针对编码特征，通过上下文丰富模块得到更加丰富的特征表示以适应不同尺寸、形状、位置的息肉分割场景，其中针对顶层特征，采用U形膨胀卷积空间金字塔池化模块来提取多尺度特征，从而提高对多尺寸息肉的检测能力，针对各层级特征，分别采用全局-局部特征提取器来同步地提取全局特征和局部特征并进行融合，从而提高对息肉的定位能力和细节刻画能力；同时，本发明设计了一个边界提取器，通过多层级的编码特征来生成边界用于之后边界引导双向注意力残差模块中的边界增强；接下来，经过上下文丰富模块得到的增强特征通过一系列的边界引导双向注意力残差模块按照从高层至低层的准则进行动态融合，同时对边界进行增强，从而增强对伪装息肉的捕获能力，同时提升对边界区域的分割精度。实验结果表明，本发明提出的基于边界引导双向注意力残差网络的结肠息肉分割方法在很多有挑战性的息肉分割场景下都能取得准确的分割结果。

基于上述理由本发明可在计算机辅助医疗领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是息肉分割场景示意图；

图2是本发明实施例一种基于边界引导双向注意力残差网络的结肠息肉分割方法的流程图；

图3是本发明实施例中全局-局部特征提取器的结构示意图。

图4是本发明实施例中U形膨胀卷积空间金字塔池化模块的结构示意图。

图5是本发明实施例中边界引导双向注意力残差模块的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图2，其示出了本发明实施例中一种基于边界引导双向注意力残差网络的结肠息肉分割方法的流程图，该方法包括如下步骤：

输入的结肠镜影像图片如图1所示。

B、将步骤A中所得特征输入上下文丰富模块得到更加丰富的特征表示(B_i，i＝2，3，4，5，6)。

在具体实施中，步骤B包括：

B1、针对各层级特征(F_i，i＝2，3，4，5)，分别采用全局-局部特征提取器来同步地提取全局特征和局部特征并进行融合得到(B_i，i＝2，3，4，5)，从而提高对息肉的定位能力和细节刻画能力，具体如图3所示：

将多层级编码特征(F_i，i＝2，3，4，5)通过一个transformer支路以获取全局特征，表示如下：

其中MHSA(·)代表多头自注意力机制，LN(·)代表层归一化，MLP(·)代表多层感知机。同时，将多层级编码特征(F_i，i＝2，3，4，5)通过一个全局引导的CNN支路以获取局部特征，表示如下：

其中GSC(·)代表组归一化、SiLU激活函数、3×3卷积层，是全局注意力图，由经过1×1卷积层和sigmoid激活函数获得。最后，全局特征与局部特征通过通道叠加和3×3卷积层融合生成增强特征(B_i，i＝2，3，4，5)。

B2、针对顶层特征F₆，采用U形膨胀卷积空间金字塔池化模块来提取多尺度特征B₆，从而提高对多尺寸息肉的检测能力，具体如图4所示：

U形膨胀卷积空间金字塔池化在经典的膨胀卷积空间金字塔池化方法的基础上引入了两条路径：从小感受野到大感受野的补充路径和从大感受野到小感受野的引导路径。前者使顶级特征F₆在经过某一特定空洞率的膨胀卷积层时，都会先叠加空洞率小一级的膨胀卷积层的输出结果，可表示为：

其中代表膨胀率为d的3×3膨胀卷积，C₁(·)代表1×1卷积，t代表支路的索引。后者使经过不同空洞率膨胀卷积层处理得到的特征f′_t在融合前，受到空洞率大一级的膨胀卷积层输出结果的引导，引导方式为通道叠加与空间注意力机制的结合，可表示为：

其中，Cat(·)代表通道维度上的级联，SA(·)代表空间注意力机制，f_t代表通过引导生成的多支路特征。最后，多尺度特征B_b通过以下步骤生成：

B₆＝C₁(Cat(f₁，f₂，f₃，f₄，f₅))+C₁(F₆)；

C、将步骤A中所得到的多层级编码特征(F_i，i＝2，3，4，5)输入一个设计好的边界提取器，用于生成边界注意力图E，受边界真值的监督。

在具体实施中，步骤C包括：

对每一个层级的编码特征(F_i，i＝2，3，4，5)采用1×1卷积层与上采样操作变换到相同的空间分辨率，然后在通道方向进行叠加，之后采用3×3卷积层进行融合，最后通过1×1卷积层得到边界注意力图，可表示为：

其中，Up(·)代表上采样，σ(·)代表Sigmoid激活函数。

D、通过一系列边界引导双向注意力残差模块对步骤B中所得的更加丰富的特征表示按照从高到低的准则逐步进行特征解码得到融合特征(R_i，i＝2，3，4，5)，将融合特征和B₆分别通过预测层得到多阶段预测图(S_i，i＝2，3，4，5，6)并用真值进行监督，选择S₂作为最终的分割结果。

其中边界引导双向注意力残差模块包括：

D1、采用双向注意力机制对相邻两层的特征进行互补增强，使其中高层特征的前景区域更加完整，并尽可能地抑制低层特征背景区域中的噪声干扰，具体如图5所示。

首先将相邻两层增强特征(R_i+1和B_i，其中R_i+1为上一个边界引导双向注意力残差模块的输出)通过3×3卷积层进行融合得到融合特征然后通过1×1卷积层和Sigmoid激活函数生成前景注意力图/>并用1逐像素减去前景注意力图得到背景注意力图/>过程可表示为：

接着，分别使用前景注意力图和背景注意力图来增强高级特征R_i+1的前景和滤除低级特征B_i的背景噪声，过程可表示为：

D2、对经过双向注意力机制处理后的相邻特征与/>首先通过多尺度通道注意力模块处理进行动态区域加权，之后分别输入边界增强模块，利用步骤C中收集到的边界线索E对其进行边界区域的增强。

其中EG_i(·)代表边界引导机制，具体如下：

D3、将边界引导之后的特征和/>融合并通过一个洗牌注意力模块(SHA)进行通道和空间上的加权调整，之后通过残差结构加上高层特征即为当前边界引导双向注意力残差模块的输出R_i，过程可表示为：

E、边界引导双向注意力残差网络的训练及优化：

本方法整体可分为训练和推理两个阶段，在训练时以训练集的张量作为输入，得到训练好的网络参数；在推理阶段使用训练阶段保存的参数进行测试，得到最终的结肠息肉分割结果。

本发明实施例在Pytorch框架下实现，其中训练阶段时使用Adam优化器，学习率为5e^-5，β₁＝0.9，β₂＝0.999，并且批处理大小8。在训练期间，图像的空间分辨率为352×352，且模型在测试时也必须以352×352的分辨率输入。

本发明实施例提出的基于边界引导双向注意力残差网络的结肠息肉分割方法，使用双向注意力机制同步地增强前景区域并且抑制背景中的高相似度噪声，从而增大前景与背景的对比度，同时引入边界引导模块增强边界区域。此外，本发明还提出了一个上下文丰富模块，通过自适应地提取全局信息、局部信息、多尺度信息，从而提高初始编码特征的表达能力，进而提高对不同形态和尺寸的息肉的检测能力。实验结果表明，本发明提出的基于边界引导双向注意力残差网络的结肠息肉分割方法对于很多具有挑战性的结肠息肉分割场景都能取得准确的预测结果。

对应于上述实施例中的一种基于边界引导双向注意力残差网络的结肠息肉分割方法，本发明实施例中还提供了一种基于边界引导双向注意力残差网络的结肠息肉分割装置，包括：

编码单元，用于将结肠镜影像图片输入特征编码器，得到多层级的编码特征，在特征编码器的最后一层之后串联一个平均池化层得到顶级特征；

特征增强单元，用于将编码单元得到的多层级的编码特征和顶级特征进行上下文特征增强，得到丰富特征表示和多尺度特征；

边界提取单元，用于将编码单元得到的多层级的编码特征输入边界提取器，生成受边界真值的监督的边界注意力图；

预测单元，用于通过一系列边界引导双向注意力残差模块对特征增强单元得到的丰富特征表示按照从高到低的准则逐步进行特征解码，得到融合特征，将融合特征和多尺度特征分别通过预测层得到多阶段预测图，并用真值进行监督，选择第二层预测图作为结肠息肉分割结果；

其中，边界引导双向注意力残差模块包括：采用双向注意力机制对相邻两层的特征进行互补增强；对经过双向注意力机制处理后的相邻特征通过多尺度通道注意力机制进行动态区域加权，之后利用边界提取单元得到的边界注意力图进行边界区域的增强，最后将两路特征融合得到当前阶段的融合特征；将融合特征通过洗牌注意力机制进行通道和空间上的权重再分配，之后通过残差结构加上高层特征，即为当前边界引导双向注意力残差模块的输出。

对于本发明实施例的基于边界引导双向注意力残差网络的结肠息肉分割装置而言，由于其与上面实施例中的基于边界引导双向注意力残差网络的结肠息肉分割方法相对应，所以描述的比较简单，相关相似之处请参见上面实施例中基于边界引导双向注意力残差网络的结肠息肉分割方法部分的说明即可，此处不再详述。

本发明实施例中还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行如上述基于边界引导双向注意力残差网络的结肠息肉分割方法。最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于边界引导双向注意力残差网络的结肠息肉分割方法，其特征在于，包括如下步骤：

将结肠镜影像图片输入特征编码器，得到多层级的编码特征，在特征编码器的最后一层之后串联一个平均池化层得到顶级特征；

将所述多层级的编码特征和所述顶级特征进行上下文特征增强，得到更加丰富的特征表示，从而提高对多尺寸息肉的定位能力和细节刻画能力；

将所述多层级的编码特征输入边界提取器，生成受边界真值的监督的边界注意力图；

通过一系列边界引导双向注意力残差模块对所述丰富特征表示按照从高到低的准则逐步进行特征解码，得到融合特征，将所述融合特征和所述多尺度特征分别通过预测层得到多阶段预测图，并用真值进行监督，选择第二层预测图作为结肠息肉分割结果；

其中，所述边界引导双向注意力残差模块包括：

采用双向注意力机制对相邻两层的特征进行互补增强；

对经过双向注意力机制处理后的相邻特征通过多尺度通道注意力机制进行动态区域加权，之后利用所述边界注意力图进行边界区域的增强，最后将两路特征融合得到当前阶段的融合特征；

将融合特征通过洗牌注意力机制进行通道和空间上的权重再分配，之后通过残差结构加上高层特征，即为当前边界引导双向注意力残差模块的输出。

2.根据权利要求1所述的基于边界引导双向注意力残差网络的结肠息肉分割方法，其特征在于，将所述多层级的编码特征和所述顶级特征输入上下文丰富模块，得到丰富特征表示和多尺度特征，包括：

针对所述多层级的编码特征，分别采用全局-局部特征提取器同步提取全局特征和局部特征，并对所述全局特征和所述局部特征进行融合，得到各层级的编码特征对应的丰富特征；

针对所述顶层特征，采用U形膨胀卷积空间金字塔池化模块提取多尺度特征。

3.根据权利要求1所述的基于边界引导双向注意力残差网络的结肠息肉分割方法，其特征在于，所述特征编码器为Res2Net架构，并丢弃最后两层以保留空间结构；所述特征编码器针对每一张图像生成4个具有不同空间分辨率和通道数的特征图。

4.根据权利要求2所述的基于边界引导双向注意力残差网络的结肠息肉分割方法，其特征在于，所述全局-局部特征提取器包括：多层级的编码特征通过一个transformer支路，以获取全局特征；

多层级的编码特征通过一个全局引导的CNN支路，以获取局部特征；

全局特征与局部特征通过通道叠加和3×3卷积层融合生成增强特征。

5.根据权利要求2所述的基于边界引导双向注意力残差网络的结肠息肉分割方法，其特征在于，所述U形膨胀卷积空间金字塔池化模块中，引入了从小感受野到大感受野的补充路径和从大感受野到小感受野的引导路径，包括：

前者使不同空洞率膨胀卷积层在提取特征时，接收低一级的膨胀卷积层输出结果的补充，补充方式为像素级加；

后者使经过不同空洞率膨胀卷积层处理得到的特征在融合前，受到空洞率高一级的膨胀卷积层输出结果的引导，引导方式为通道叠加与空间注意力机制的结合。

6.根据权利要求1所述的基于边界引导双向注意力残差网络的结肠息肉分割方法，其特征在于，所述边界提取器生成受边界真值的监督的边界注意力图，包括：

对每一个层级的编码特征采用1×1卷积层与上采样操作变换到相同的空间分辨率，然后在通道方向进行叠加，之后采用3×3卷积层进行融合，最后通过1×1卷积层得到边界注意力图。

7.根据权利要求1所述的基于边界引导双向注意力残差网络的结肠息肉分割方法，其特征在于，采用双向注意力机制对相邻两层的特征进行互补增强，包括：

首先将相邻两层增强特征通过3×3卷积层进行融合，然后通过1 1卷积层和sigmoid激活函数生成前景注意力图，然后用1逐像素减去前景注意力图得到背景注意力图，分别使用前景注意力图和背景注意力图来增强高级特征的前景和滤除低级特征的背景噪声。

8.根据权利要求1所述的基于边界引导双向注意力残差网络的结肠息肉分割方法，其特征在于，利用所述边界注意力图进行边界区域的增强，包括：利用边界注意力图对待增强特征进行加权，之后与原特征进行逐像素相加，并通过一个3×3卷积层得到最终的边界增强特征。

9.一种基于边界引导双向注意力残差网络的结肠息肉分割装置，其特征在于，包括：

特征增强单元，用于将所述编码单元得到的所述多层级的编码特征和所述顶级特征进行上下文特征增强，得到丰富特征表示和多尺度特征；

边界提取单元，用于将所述编码单元得到的所述多层级的编码特征输入边界提取器，生成受边界真值的监督的边界注意力图；

预测单元，用于通过一系列边界引导双向注意力残差模块对所述特征增强单元得到的丰富特征表示按照从高到低的准则逐步进行特征解码，得到融合特征，将所述融合特征和所述多尺度特征分别通过预测层得到多阶段预测图，并用真值进行监督，选择第二层预测图作为结肠息肉分割结果；

其中，所述边界引导双向注意力残差模块包括：采用双向注意力机制对相邻两层的特征进行互补增强；对经过双向注意力机制处理后的相邻特征通过多尺度通道注意力机制进行动态区域加权，之后利用所述边界提取单元得到的所述边界注意力图进行边界区域的增强，最后将两路特征融合得到当前阶段的融合特征；将融合特征通过洗牌注意力机制进行通道和空间上的权重再分配，之后通过残差结构加上高层特征，即为当前边界引导双向注意力残差模块的输出。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行如权利要求1-8任意一项所述的基于边界引导双向注意力残差网络的结肠息肉分割方法。