CN116468887A

CN116468887A - 一种具有普适性的结肠息肉分割方法

Info

Publication number: CN116468887A
Application number: CN202310304320.5A
Authority: CN
Inventors: 邓赵红; 王园园; 肖志勇; 胡曙东; 王士同
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-07-21

Abstract

本发明属于智能医疗计算机辅助诊断应用领域，涉及一种具有普适性的结肠息肉分割方法。该方法基于编解码网络结构，编码器采用具有多尺度输出和高效自注意力机制的Mix Transformer结构；解码器是依据编码器的多尺度输出设计的一种新型结构，其中利用结构简单而有效的卷积神经网络作用于编码器的低层输出，然后利用多尺度特征融合模块作用于编码器的较低层、中层、高层输出，接着对卷积神经网络和多尺度融合后的结果分别输入到CBAM注意力机制和SE BLock中，最后将其结果一并输入到相似性聚合模块中，目的是为了增强特征表示。本发明相较于现存的深度学习方法在多个数据集上的性能表现更佳，具有良好的普适性和有效性。

Description

一种具有普适性的结肠息肉分割方法

技术领域

本发明属于智能医疗计算机辅助诊断应用领域，具体涉及一种具有普适性的结肠息肉分割方法。

技术背景

2018年世界癌症患者统计结果显示，结直肠癌的死亡率和确诊率在所有癌症中位居第三位，并且呈现一个逐年上升的趋势，其中发达国家的结直肠癌患者人数居多，这是因为发达国家生活水平较高，人们长期保持高脂肪低纤维的饮食习惯，导致肠道纤维摄入不足。纵观各个年龄阶段来看，中老年男性患者人数居多，这是因为中老年人群运动量变少导致整体质变差，肠道性能也由此变弱而易发生疾病。大部分男性具有抽烟、嗜酒、高盐饮食等不良生活习惯，所以发病率更高。中国结直肠癌的发病率和死亡率也呈现一个上升趋势，因此，预防结直肠癌是全球人民需要去关注的一个问题。

临床治疗显示，结直肠癌的产生与结肠息肉(Colon polyps)有着十分密切的关系。结肠息肉是结肠内部的良性(非癌性)组织，但是若没有及时发现治疗，可能会引起组织病变，从组织病变到结直肠癌大约需要五到十年的时间，但是大多数患者发现时已经是癌症中晚期。因为结直肠癌的早期临床症状并不明显，随着病情的进展，开始出现头晕、头痛、体重下降、腹胀腹痛等症状，但此时病情基本已经到达中晚期时期。结肠息肉是结直肠癌的前期表现，越早筛查到结肠息肉，结直肠癌患者的存活率越高。

现如今筛查结肠息肉的关键手段是结肠镜检测。通过结肠镜检测可以观察到息肉组织的形状、范围、大小，进而取出部分组织进行检查来判断息肉组织是否发生病变，以便进一步诊治。但是由于结肠息肉大小不一、形状各异以及息肉颜色和背景对比度较低等原因，导致在进行结肠镜检测时会造成部分息肉的漏检。漏检的息肉或许会影响病情的诊断，最终导致病情恶化进而死亡。所以利用计算机辅助技术提高结肠息肉的检出率对于结直肠癌的诊治是非常有意义的。

目前，在结肠息肉分割任务中深度学习方法的使用已较为广泛。现有的基于深度学习的结肠息肉分割方法主要分为三类：基于卷积神经网络、基于Transformer、基于卷积神经网络和Transformer相结合。这些基于深度学习的结肠息肉分割模型的主要任务依然是提高分割精度。特别地，基于卷积神经网络和Transformer相结合的方法展现了一定的优势。但是，目前的融合方法中所用到的Transformer大多数是基于ViT(VisionTransformer)结构，这使得它们存在两个比较大的局限性：1)输出局限性：基于ViT的Transformer只输出一个尺度的特征图并且是低分辨率，所以这就有可能导致提取到的特征图缺少丰富的上下文语义信息。2)计算局限性：ViT中的自我注意力机制的计算量与输入的token的数量成二次方关系，这对于一些分辨率较大的图像来说会产生巨大的计算成本。此外，卷积神经网络和Transformer相结合时，并行的融合方式也会增加整体模型的计算量。

发明内容

根据现有技术的不足，本发明提供一种具有普适性的结肠息肉分割方法。本发明依据结肠息肉的外观、深度学习方法的特点，提出一种基于编解码结构的结肠息肉分割方法，旨在提高网络模型在多种数据集上的分割精度，实现更好的普适性。

一种具有普适性的结肠息肉分割方法，包括以下步骤：

第一步：统一训练数据集分辨率：本发明采用的数据集中的结肠镜图像分辨率各有不同，而编码器Mix Transformer需要固定尺寸，所以本发明在模型训练前对训练数据集进行统一处理。

第二步：将训练集输入到MixFormNet的编码器中，MixFormNet的编码器采用MixTransformer编码器。具体操作如下：首先将输送到MixTransformer中的图像划分成尺寸大小为4×4的补丁，利用细粒度的补丁对语义分割是有帮助的。接着将这些补丁作为输入输送到Mix Transformer编码器中，得到多级特征图其中i＝{1,2,3,4}。

第三步：利用解码器将编码器得到的多尺度特征转化为目标，解码器对MixTransformer的输出F_i分别进行处理。具体来说，Mix Transformer的低层输出分辨率大，包含丰富几何空间信息，但是语义信息较弱，所以将其输入到PreNet中利用卷积操作进行进一步处理输出F₁′，后将F₁′输送到CBAM注意力机制中建模空间和通道之间依赖性；对于Mix Transformer的较低层、中层、高层输出F_i,其中i＝{2,3,4}，此时三种尺度的特征图的语义和几何空间信息各有不同。考虑到低层特征图包含丰富的细节、边缘信息，高层特征图包含详细的语义信息，所以对Mix Transformer的三个尺度的输出进行多尺度特征融合，目的是为了获得丰富的特征信息，增强信息表征能力。多尺度特征融合输出F′，然后将F′输入到SE Block模块中建立特征图通道之间的相关性。最后将CBAM和SE BLock的输出一同输入到相似聚合模块中，目的是为了建模CBAM输出的低级特征和SE Block输出的高级特征之间的信息关系。

所述的PreNet网络的处理过程如下：首先借助其Conv、Batch Normalization、ReLU和MaxPooling对输入的F₁进行初始处理，然后将其输入到3个由卷积层堆叠的块中进行局部细节信息的提取。

第四步：综合决策：第三步的输出包含一个主要输出预测图P_main和一个辅助输出预测图P_ass。在训练过程中，利用P_main与真实标签之间的预测损失和P_ass与真实标签之间的预测损失之和作为网络的总损失，反向更新参数不断优化模型。在测试时，最终以P_main和P_ass相加作为最终的分割结果，通过该方式可以尽可能优化最终的分割结果。P_ass不仅可以与P_main一起优化整体模型，还可以监督多尺度特征融合的中间输出。

进一步的，为了增加模型对不同分辨率图像的鲁棒性，本发明在训练过程中加入了多尺度训练策略，尺度范围为{0.75,1,1.25}倍原始输入图像。

进一步的，MixFormNet模型中的参数利用AdamW优化器进行更新，学习率设为1e-4，epoch设为200，每10个epoch便保存一组网络权重。

进一步的，所述第四步中的综合决策中，采用加权二进制交叉熵损失函数与加权IoU损失函数的结合作为整体的损失函数L。

进一步的，所述步骤1中分辨率的统一。本发明对结肠镜图像分辨率统一的大小做了实验测试，由于采用的数据集中图像分辨率大小不一，而分辨率过小会导致信息遗漏，分辨率过大会带来较大的计算量，所以对于一个调整一个合适的分辨率对于MixFormNet性能的发挥也是十分重要的。最终实验验证，统一分辨率为384×384是较为合适的。

本发明的优点包括以下几点：

(1)模型结构的设计：现存的分割结肠息肉的深度学习方法有基于卷积神经网络的、基于Transformer方法的，基于卷积神经网路和Transformer相结合的，其中基于卷积神经网络和Transformer相结合的方法在性能上展现了一定的优势，但是大部分都是先进行并行计算然后再融合，然而该方式较大的增加了模型的计算量。本发明采用MixTransformer进行特征提取，然后利用卷积神经网络对Mix Transformer输出的低层特征图作进一步处理，同时利用多尺度特征融合模块对较低层、中层、高层进行处理，MixTransformer和后续处理形成一种编解码结构，从而避免了并行计算带来的较大计算量问题。

(2)编码器的构建，为了避免单一尺寸的输出对分割结果带来的影响，所以本发明将具有多尺度输出和高效自注意力机制的Mix Transformer作为MixFormNet的编码器。

(3)解码器的构建：针对编码器的多尺度输出，本发明设计了一种新型解码器结构。由于编码器输出的低层特征图分辨率大，包含丰富的空间信息，但是语义信息较为缺乏，所以在解码器中设计一种结构简单而有效的卷积神经网络作用于低层特征图，目的是为了提取详细的细节信息。对于较低层、中层、高层特征图，由于其对于特征信息的贡献不一，所以在解码器中利用多尺度特征融合模块对其进行融合，目的是为了增强特征表示。

(4)大量的实验表明本发明设计的MixFormNet模型较之已有的相关方法在较多数据集上的分割精度有了显著的提升，从而证实了MixFormNet的有效性和良好的普适性。

附图说明

图1为实施例1中的算法总体框架图；

图2为实施例1中的结肠镜图像预处理框架图；

图3是Mix Transformer结构图；

图4是Prenet结构图；

图5是多尺度特征融合模块；

图6相似聚合模块；

图7为实施例1中的流程图；

图8为实施例1中的预测图与其它方法预测图的对比图；

图9为实施例2中的没有PreNet网络的总体框架图；

图10为实施例3中的解码器为UNet方法解码器的网络总体框架图；

图11为实施例3中的解码器为CaraNet方法解码器的网络总体框架图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述：

如图1～图8所示，本发明实现了一种具有普适性的结肠息肉分割方法。该方法包括编码器、解码器、综合决策三部分，其中编码器选择具有多尺度输出和高效自注意力机制的Mix Transformer结构，目的是为了减少单尺度输出和自注意力机制所带来的输出局限性和计算局限性；解码器是本发明依据Mix Transformer多尺度输出设计的一种新型结构，其中在解码器中设计一种结构简单而有效的卷积神经用于编码器的低层输出，然后利用多尺度特征融合模块对编码器的较低层、中层、高层特征图进行多尺度融合，目的是为了增强特征表示，之后将卷积神经网络的输出和多尺度特征的输出分别输入到CBAM注意力机制和SE Block中，最后在将其结果共同输出到相似性聚合模块中；综合决策是对相似性聚合模块的输出和SE Block的输出直接进行相加，作为最终预测图。

以下结合附图和实施例对本发明作进一步说明。

实施例1：

一种具有普适性的结肠息肉分割方法，其特征在于包括以下步骤：

(1)统一训练数据集的分辨率：本发明采用的数据集中的结肠镜图像分辨率各有不同，而编码器Mix Transformer的输入需要固定尺寸，并且若分辨率各有不同，对后续的进一步处理也会带来一定的影响。因此，本发明在模型训练前统一处理训练数据集为384×384分辨率。

(2)将训练集输入到MixFormNet网络中。

(3)编码器：给定输入图像大小为由于在训练过程中有多尺度训练策略，即训练过程中的图像尺寸为{288×288×3,384×384×3,480×480×3}，对三种尺度的图像分别进行处理。首先将训练图像分成尺寸大小为4×4的补丁，这一点区别于ViT16×16尺寸的补丁，利用细粒度的补丁对语义分割是有帮助的。接着将这些补丁作为输入输送到Mix Transformer编码器中，得到多级特征图F₁(96×96×64)/(72×72×64)/(120×120×64),F₂(36×36×128)/(48×48×128)/(60×60×128),F₃(18×18×320)/(24×24×320)/(30×30×320)，F₄＝(9×9×512)/(12×12×512)/(15×15×512)。

(4)解码器：在解码器中对编码器的低层输出F₁进行进一步提取局部细节特征信息，输出F₁′，同时，对于F₂、F₃、F₄利用解码器中多尺度特征融合模块对其进行融合得到F₂′，然后将F₁′输入到CBAM注意力机制中，对其增加通道和空间方向上的关注，将F₂′输入到SEBlock中，该模块的作用是用来建立融合后的特征图通道之间的相关性。最后将CBAM和SEBlock的输出一并输入到相似聚合模块中，目的是为了建模CBAM输出的低级特征和SEBlock输出的高级特征之间的信息关系。

(5)损失函数：本发明选择加权二进制交叉熵损失函数与加权IoU损失函数相加作为MixFormNet网络整体的损失函数，这是因为加权二进制交叉熵损失函数与加权IoU损失函数通过增加目标像素的权重，实现对目标像素的着重学***等学习。

其中G为真实标签，O为模型的预测输出。

(7)综合决策：本发明网络结构中有两个预测图的输出，其包含一个主要输出预测图P_main和一个辅助输出预测图P_ass。在训练过程中，利用P_main与真实标签之间的预测损失和P_ass与真实标签之间的预测损失之和作为网络的总损失，反向更新参数不断优化模型。在测试时，最终以P_main和P_ass相加作为最终的分割结果，通过该方式可以尽可能的优化最终的分割结果。

Out＝P_main+P_ass

其中，Out代表综合决策后的输出结果。

本发明在对结肠息肉进行分割时，首先令MixFormNet在Kvasir和CVC-ClinicDB数据集上进行训练，使得模型掌握一定的学习能力，然后再使用测试集进行测试，验证该模型的学习能力。在实施例1中所使用的到数据集如表1中的测试集所示：

表1：实施例1中用到的数据集信息：

表2总结了与本发明作对比的一系列方法，对比的相关方法包括：6个基于CNN机制的结肠息肉分割方法，1个基于Transformer的结肠息肉分割方法、2个基于CNN与Transformer混合的结肠息肉分割方法，具体信息如表2所示：

表2对比方法介绍

表3总结了本发明在实施例1测试数据集中的分割结果，本发明使用两种语义分割常用的评价指标：平均Dice系数(mDice)、平均交并比(mIoU)；为了更深层次地分析模型，引入了目标检测领域中常用的4种评价指标：加权F-measureS-measure(S_α)、max-E-measure/>和平均绝对误差(MAE)。除此之外，还加入了计算模型复杂度时所用到的度量指标：模型总参数量params和模型计算量即浮点运算次数(Flopating-pointOperations，FLOPs)，用来衡量模型的复杂度。根据各项指标值得知，本算法在五个公开数据集上取得了优异的分割结果。

表3：本发明在实施例1中的各个数据集上的性能度量值

表4-8总结了近几年关于结肠息肉分割的研究结果，从表中结果可以看出，在公开的五个数据集上，我们的发明均获得了较好的分割准确度。在CVC-ClinicDB和Kvasir数据集上的结果得知，MixFormNet的各项性能指标值均优于其它三类方法的最优值，实现了最佳性能。具体来说，MixFormNet在CVC-ClinicDB数据集上的mDice值高于FCBFormer网络4.3％，高于ColonFormer 2.4％，高于次优HardNet-DFUS网络0.1％；MixFormNet在Kvasir数据集上的mDice值高于FCBFormer网络0.2％，高于Fu-TransHNet网络1.7％。虽然MixFormNet在其他几个数据集上的结果并不是最优，但至少是可比的，衡量模型的有效性并不是看重在某一个数据集上的分割结果，其更注重的是在多个数据集上的分割性能，所以综合衡量，本发明是有效的并且具有良好普适性的。

表4CVC-ClinicDB数据集度量结果

表5CVC-ColonDB数据集度量结果

表6CVC-EndoScene数据集度量结果

表7ETIS-LaribPolypDB数据集度量结果

表8 Kvasir数据集度量结果

实施例2

为验证PreNet对于提升结肠息肉的分割精度是有帮助的，在该实例中分别对没有PreNet(图9)和拥有PreNet(图1)做对比。最后分别计算出各类方法的分割结果绘制成表9。由表9得知包含PreNet的方法在各个数据集上度量值都是优于未加入PreNet的方法，由此证明了本发明提出的PreNet是有效的。

表9 PreNet有效性

实施例3

为验证本发明中的解码器对于提升结肠息肉的分割精度是有帮助的，在该实例中将UNet和CaraNet中的解码器作用于Mix Transformer的多尺度输出与本文提出的解码器形成对比。本小节设置的三组实验除解码器不同，其它网络参数均保持一致，实验结果如表10-11所示。由表10-11得知本发明设计的新型解码器应用于Mix Transformer编码器后而成的MixFormNet网络在分割精度和模型复杂度上都要优于其它两种方法，从而证实了该解码器不仅对提升分割精度是有帮助的，而且相比于其它方法需要更少的计算机资源。

表10不同解码器方法对比结果

表11不同解码器方法复杂度分析

/>

Claims

1.一种具有普适性的结肠息肉分割方法，其特征在于，步骤如下：

第一步：统一训练数据集分辨率：本发明采用的数据集中的结肠镜图像分辨率各有不同，而编码器MixTransformer需要固定尺寸，所以本发明在模型训练前对训练数据集进行统一处理；

第二步：将训练集输入到MixFormNet的编码器中，MixFormNet的编码器采用MixTransformer编码器；

具体操作如下：首先将输送到MixTransformer中的图像划分成尺寸大小为4×4的补丁，利用细粒度的补丁对语义分割是有帮助的；接着将这些补丁作为输入输送到MixTransformer编码器中，得到多级特征图其中i＝{1,2,3,4}；

第三步：利用解码器将编码器得到的特征信息转化为目标，解码器对Mix Transformer的输出F_i分别进行处理；

具体来说，Mix Transformer的低层输出分辨率大，包含丰富几何空间信息，但是语义信息较弱，所以

3.1将F₁输入到PreNet中进一步处理得到输出F₁ ^′，然后将F₁ ^′输送到CBAM注意力机制中得到Z₂；

所述的PreNet网络的处理过程如下：首先借助其Conv、Batch Normalization、ReLU和MaxPooling对输入的F₁进行初始处理，然后将其输入到3个由卷积层堆叠的块中进行局部细节信息的提取；

3.2将Mix Transformer的较低层、中层、高层输出F_i,其中i＝{2,3,4}输入到多尺度特征融合模块中得到输出特征图F^′，然后将F^′输入到SE BLock模块中建立特征图通道之间的相关性，最后对SEBlock的输出Z₁进行卷积处理得到辅助输出预测图P_ass；

3.3接着将Z₁和Z₂一同输入到相似聚合模块中得到主预测图P_main，其目的是为了建模CBAM输出的低级特征和SE Block输出的高级特征之间的信息关系；

第四步：综合决策：第三步的输出包含一个主要输出预测图P_main和一个辅助输出预测图P_ass；在训练过程中，利用P_main与真实标签之间的预测损失和P_ass与真实标签之间的预测损失之和作为网络的总损失，反向更新参数不断优化模型；在测试时，最终以P_main和P_ass相加作为最终的分割结果，通过该方式可以尽可能优化最终的分割结果；P_ass不仅可以与P_main一起优化整体模型，还可以监督多尺度特征融合的中间输出。

2.如权利要求1所述的一种具有普适性的结肠息肉分割方法，其特征在于：所述步骤1中，为了增加模型对不同分辨率图像的鲁棒性，本发明在训练过程中加入了多尺度训练策略，尺度范围为{0.75,1,1.25}倍原始输入图像。

3.如权利要求1或2所述的一种具有普适性的结肠息肉分割方法，其特征在于：所述步骤一中分辨率的统一，统一分辨率为384×384。

4.如权利要求1或2所述的一种具有普适性的结肠息肉分割方法，其特征在于：所述步骤二中的MixFormNet模型中的参数，利用AdamW优化器进行更新，学习率设为1e-4，epoch设为200，每10个epoch便保存一组网络权重。

5.如权利要求3所述的一种具有普适性的结肠息肉分割方法，其特征在于：所述步骤二中的MixFormNet模型中的参数，利用AdamW优化器进行更新，学习率设为1e-4，epoch设为200，每10个epoch便保存一组网络权重。

6.如权利要求1或2或5所述的一种具有普适性的结肠息肉分割方法，其特征在于：所述第四步中的综合决策中，采用加权二进制交叉熵损失函数与加权IoU损失函数的结合作为整体的损失函数L。

7.如权利要求3所述的一种具有普适性的结肠息肉分割方法，其特征在于：所述第四步中的综合决策中，采用加权二进制交叉熵损失函数与加权IoU损失函数的结合作为整体的损失函数L。

8.如权利要求4所述的一种具有普适性的结肠息肉分割方法，其特征在于：所述第四步中的综合决策中，采用加权二进制交叉熵损失函数与加权IoU损失函数的结合作为整体的损失函数L。