CN116468887A - 一种具有普适性的结肠息肉分割方法 - Google Patents
一种具有普适性的结肠息肉分割方法 Download PDFInfo
- Publication number
- CN116468887A CN116468887A CN202310304320.5A CN202310304320A CN116468887A CN 116468887 A CN116468887 A CN 116468887A CN 202310304320 A CN202310304320 A CN 202310304320A CN 116468887 A CN116468887 A CN 116468887A
- Authority
- CN
- China
- Prior art keywords
- output
- encoder
- universality
- loss function
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 208000014081 polyp of colon Diseases 0.000 title claims abstract description 26
- 230000011218 segmentation Effects 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 230000002776 aggregation Effects 0.000 claims abstract description 7
- 238000004220 aggregation Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 19
- 208000035984 Colonic Polyps Diseases 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 8
- 206010051589 Large intestine polyp Diseases 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 238000004195 computer-aided diagnosis Methods 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 239000000203 mixture Substances 0.000 description 17
- 206010009944 Colon cancer Diseases 0.000 description 10
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 208000037062 Polyps Diseases 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 206010028980 Neoplasm Diseases 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 238000002052 colonoscopy Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000000968 intestinal effect Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 208000004998 Abdominal Pain Diseases 0.000 description 1
- 206010000060 Abdominal distension Diseases 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- 108700019146 Transgenes Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 235000006694 eating habits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005713 exacerbation Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 235000021197 fiber intake Nutrition 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 230000002962 histologic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 208000016261 weight loss Diseases 0.000 description 1
- 230000004580 weight loss Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/032—Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Processing (AREA)
Abstract
本发明属于智能医疗计算机辅助诊断应用领域,涉及一种具有普适性的结肠息肉分割方法。该方法基于编解码网络结构,编码器采用具有多尺度输出和高效自注意力机制的Mix Transformer结构;解码器是依据编码器的多尺度输出设计的一种新型结构,其中利用结构简单而有效的卷积神经网络作用于编码器的低层输出,然后利用多尺度特征融合模块作用于编码器的较低层、中层、高层输出,接着对卷积神经网络和多尺度融合后的结果分别输入到CBAM注意力机制和SE BLock中,最后将其结果一并输入到相似性聚合模块中,目的是为了增强特征表示。本发明相较于现存的深度学习方法在多个数据集上的性能表现更佳,具有良好的普适性和有效性。
Description
技术领域
本发明属于智能医疗计算机辅助诊断应用领域,具体涉及一种具有普适性的结肠息肉分割方法。
技术背景
2018年世界癌症患者统计结果显示,结直肠癌的死亡率和确诊率在所有癌症中位居第三位,并且呈现一个逐年上升的趋势,其中发达国家的结直肠癌患者人数居多,这是因为发达国家生活水平较高,人们长期保持高脂肪低纤维的饮食习惯,导致肠道纤维摄入不足。纵观各个年龄阶段来看,中老年男性患者人数居多,这是因为中老年人群运动量变少导致整体质变差,肠道性能也由此变弱而易发生疾病。大部分男性具有抽烟、嗜酒、高盐饮食等不良生活习惯,所以发病率更高。中国结直肠癌的发病率和死亡率也呈现一个上升趋势,因此,预防结直肠癌是全球人民需要去关注的一个问题。
临床治疗显示,结直肠癌的产生与结肠息肉(Colon polyps)有着十分密切的关系。结肠息肉是结肠内部的良性(非癌性)组织,但是若没有及时发现治疗,可能会引起组织病变,从组织病变到结直肠癌大约需要五到十年的时间,但是大多数患者发现时已经是癌症中晚期。因为结直肠癌的早期临床症状并不明显,随着病情的进展,开始出现头晕、头痛、体重下降、腹胀腹痛等症状,但此时病情基本已经到达中晚期时期。结肠息肉是结直肠癌的前期表现,越早筛查到结肠息肉,结直肠癌患者的存活率越高。
现如今筛查结肠息肉的关键手段是结肠镜检测。通过结肠镜检测可以观察到息肉组织的形状、范围、大小,进而取出部分组织进行检查来判断息肉组织是否发生病变,以便进一步诊治。但是由于结肠息肉大小不一、形状各异以及息肉颜色和背景对比度较低等原因,导致在进行结肠镜检测时会造成部分息肉的漏检。漏检的息肉或许会影响病情的诊断,最终导致病情恶化进而死亡。所以利用计算机辅助技术提高结肠息肉的检出率对于结直肠癌的诊治是非常有意义的。
目前,在结肠息肉分割任务中深度学习方法的使用已较为广泛。现有的基于深度学习的结肠息肉分割方法主要分为三类:基于卷积神经网络、基于Transformer、基于卷积神经网络和Transformer相结合。这些基于深度学习的结肠息肉分割模型的主要任务依然是提高分割精度。特别地,基于卷积神经网络和Transformer相结合的方法展现了一定的优势。但是,目前的融合方法中所用到的Transformer大多数是基于ViT(VisionTransformer)结构,这使得它们存在两个比较大的局限性:1)输出局限性:基于ViT的Transformer只输出一个尺度的特征图并且是低分辨率,所以这就有可能导致提取到的特征图缺少丰富的上下文语义信息。2)计算局限性:ViT中的自我注意力机制的计算量与输入的token的数量成二次方关系,这对于一些分辨率较大的图像来说会产生巨大的计算成本。此外,卷积神经网络和Transformer相结合时,并行的融合方式也会增加整体模型的计算量。
发明内容
根据现有技术的不足,本发明提供一种具有普适性的结肠息肉分割方法。本发明依据结肠息肉的外观、深度学习方法的特点,提出一种基于编解码结构的结肠息肉分割方法,旨在提高网络模型在多种数据集上的分割精度,实现更好的普适性。
一种具有普适性的结肠息肉分割方法,包括以下步骤:
第一步:统一训练数据集分辨率:本发明采用的数据集中的结肠镜图像分辨率各有不同,而编码器Mix Transformer需要固定尺寸,所以本发明在模型训练前对训练数据集进行统一处理。
第二步:将训练集输入到MixFormNet的编码器中,MixFormNet的编码器采用MixTransformer编码器。具体操作如下:首先将输送到MixTransformer中的图像划分成尺寸大小为4×4的补丁,利用细粒度的补丁对语义分割是有帮助的。接着将这些补丁作为输入输送到Mix Transformer编码器中,得到多级特征图其中i={1,2,3,4}。
第三步:利用解码器将编码器得到的多尺度特征转化为目标,解码器对MixTransformer的输出Fi分别进行处理。具体来说,Mix Transformer的低层输出分辨率大,包含丰富几何空间信息,但是语义信息较弱,所以将其输入到PreNet中利用卷积操作进行进一步处理输出F1′,后将F1′输送到CBAM注意力机制中建模空间和通道之间依赖性;对于Mix Transformer的较低层、中层、高层输出Fi,其中i={2,3,4},此时三种尺度的特征图的语义和几何空间信息各有不同。考虑到低层特征图包含丰富的细节、边缘信息,高层特征图包含详细的语义信息,所以对Mix Transformer的三个尺度的输出进行多尺度特征融合,目的是为了获得丰富的特征信息,增强信息表征能力。多尺度特征融合输出F′,然后将F′输入到SE Block模块中建立特征图通道之间的相关性。最后将CBAM和SE BLock的输出一同输入到相似聚合模块中,目的是为了建模CBAM输出的低级特征和SE Block输出的高级特征之间的信息关系。
所述的PreNet网络的处理过程如下:首先借助其Conv、Batch Normalization、ReLU和MaxPooling对输入的F1进行初始处理,然后将其输入到3个由卷积层堆叠的块中进行局部细节信息的提取。
第四步:综合决策:第三步的输出包含一个主要输出预测图Pmain和一个辅助输出预测图Pass。在训练过程中,利用Pmain与真实标签之间的预测损失和Pass与真实标签之间的预测损失之和作为网络的总损失,反向更新参数不断优化模型。在测试时,最终以Pmain和Pass相加作为最终的分割结果,通过该方式可以尽可能优化最终的分割结果。Pass不仅可以与Pmain一起优化整体模型,还可以监督多尺度特征融合的中间输出。
进一步的,为了增加模型对不同分辨率图像的鲁棒性,本发明在训练过程中加入了多尺度训练策略,尺度范围为{0.75,1,1.25}倍原始输入图像。
进一步的,MixFormNet模型中的参数利用AdamW优化器进行更新,学习率设为1e-4,epoch设为200,每10个epoch便保存一组网络权重。
进一步的,所述第四步中的综合决策中,采用加权二进制交叉熵损失函数与加权IoU损失函数的结合作为整体的损失函数L。
进一步的,所述步骤1中分辨率的统一。本发明对结肠镜图像分辨率统一的大小做了实验测试,由于采用的数据集中图像分辨率大小不一,而分辨率过小会导致信息遗漏,分辨率过大会带来较大的计算量,所以对于一个调整一个合适的分辨率对于MixFormNet性能的发挥也是十分重要的。最终实验验证,统一分辨率为384×384是较为合适的。
本发明的优点包括以下几点:
(1)模型结构的设计:现存的分割结肠息肉的深度学习方法有基于卷积神经网络的、基于Transformer方法的,基于卷积神经网路和Transformer相结合的,其中基于卷积神经网络和Transformer相结合的方法在性能上展现了一定的优势,但是大部分都是先进行并行计算然后再融合,然而该方式较大的增加了模型的计算量。本发明采用MixTransformer进行特征提取,然后利用卷积神经网络对Mix Transformer输出的低层特征图作进一步处理,同时利用多尺度特征融合模块对较低层、中层、高层进行处理,MixTransformer和后续处理形成一种编解码结构,从而避免了并行计算带来的较大计算量问题。
(2)编码器的构建,为了避免单一尺寸的输出对分割结果带来的影响,所以本发明将具有多尺度输出和高效自注意力机制的Mix Transformer作为MixFormNet的编码器。
(3)解码器的构建:针对编码器的多尺度输出,本发明设计了一种新型解码器结构。由于编码器输出的低层特征图分辨率大,包含丰富的空间信息,但是语义信息较为缺乏,所以在解码器中设计一种结构简单而有效的卷积神经网络作用于低层特征图,目的是为了提取详细的细节信息。对于较低层、中层、高层特征图,由于其对于特征信息的贡献不一,所以在解码器中利用多尺度特征融合模块对其进行融合,目的是为了增强特征表示。
(4)大量的实验表明本发明设计的MixFormNet模型较之已有的相关方法在较多数据集上的分割精度有了显著的提升,从而证实了MixFormNet的有效性和良好的普适性。
附图说明
图1为实施例1中的算法总体框架图;
图2为实施例1中的结肠镜图像预处理框架图;
图3是Mix Transformer结构图;
图4是Prenet结构图;
图5是多尺度特征融合模块;
图6相似聚合模块;
图7为实施例1中的流程图;
图8为实施例1中的预测图与其它方法预测图的对比图;
图9为实施例2中的没有PreNet网络的总体框架图;
图10为实施例3中的解码器为UNet方法解码器的网络总体框架图;
图11为实施例3中的解码器为CaraNet方法解码器的网络总体框架图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述:
如图1~图8所示,本发明实现了一种具有普适性的结肠息肉分割方法。该方法包括编码器、解码器、综合决策三部分,其中编码器选择具有多尺度输出和高效自注意力机制的Mix Transformer结构,目的是为了减少单尺度输出和自注意力机制所带来的输出局限性和计算局限性;解码器是本发明依据Mix Transformer多尺度输出设计的一种新型结构,其中在解码器中设计一种结构简单而有效的卷积神经用于编码器的低层输出,然后利用多尺度特征融合模块对编码器的较低层、中层、高层特征图进行多尺度融合,目的是为了增强特征表示,之后将卷积神经网络的输出和多尺度特征的输出分别输入到CBAM注意力机制和SE Block中,最后在将其结果共同输出到相似性聚合模块中;综合决策是对相似性聚合模块的输出和SE Block的输出直接进行相加,作为最终预测图。
以下结合附图和实施例对本发明作进一步说明。
实施例1:
一种具有普适性的结肠息肉分割方法,其特征在于包括以下步骤:
(1)统一训练数据集的分辨率:本发明采用的数据集中的结肠镜图像分辨率各有不同,而编码器Mix Transformer的输入需要固定尺寸,并且若分辨率各有不同,对后续的进一步处理也会带来一定的影响。因此,本发明在模型训练前统一处理训练数据集为384×384分辨率。
(2)将训练集输入到MixFormNet网络中。
(3)编码器:给定输入图像大小为由于在训练过程中有多尺度训练策略,即训练过程中的图像尺寸为{288×288×3,384×384×3,480×480×3},对三种尺度的图像分别进行处理。首先将训练图像分成尺寸大小为4×4的补丁,这一点区别于ViT16×16尺寸的补丁,利用细粒度的补丁对语义分割是有帮助的。接着将这些补丁作为输入输送到Mix Transformer编码器中,得到多级特征图F1(96×96×64)/(72×72×64)/(120×120×64),F2(36×36×128)/(48×48×128)/(60×60×128),F3(18×18×320)/(24×24×320)/(30×30×320),F4=(9×9×512)/(12×12×512)/(15×15×512)。
(4)解码器:在解码器中对编码器的低层输出F1进行进一步提取局部细节特征信息,输出F1′,同时,对于F2、F3、F4利用解码器中多尺度特征融合模块对其进行融合得到F2′,然后将F1′输入到CBAM注意力机制中,对其增加通道和空间方向上的关注,将F2′输入到SEBlock中,该模块的作用是用来建立融合后的特征图通道之间的相关性。最后将CBAM和SEBlock的输出一并输入到相似聚合模块中,目的是为了建模CBAM输出的低级特征和SEBlock输出的高级特征之间的信息关系。
(5)损失函数:本发明选择加权二进制交叉熵损失函数与加权IoU损失函数相加作为MixFormNet网络整体的损失函数,这是因为加权二进制交叉熵损失函数与加权IoU损失函数通过增加目标像素的权重,实现对目标像素的着重学***等学习。
其中G为真实标签,O为模型的预测输出。
(7)综合决策:本发明网络结构中有两个预测图的输出,其包含一个主要输出预测图Pmain和一个辅助输出预测图Pass。在训练过程中,利用Pmain与真实标签之间的预测损失和Pass与真实标签之间的预测损失之和作为网络的总损失,反向更新参数不断优化模型。在测试时,最终以Pmain和Pass相加作为最终的分割结果,通过该方式可以尽可能的优化最终的分割结果。
Out=Pmain+Pass
其中,Out代表综合决策后的输出结果。
本发明在对结肠息肉进行分割时,首先令MixFormNet在Kvasir和CVC-ClinicDB数据集上进行训练,使得模型掌握一定的学习能力,然后再使用测试集进行测试,验证该模型的学习能力。在实施例1中所使用的到数据集如表1中的测试集所示:
表1:实施例1中用到的数据集信息:
表2总结了与本发明作对比的一系列方法,对比的相关方法包括:6个基于CNN机制的结肠息肉分割方法,1个基于Transformer的结肠息肉分割方法、2个基于CNN与Transformer混合的结肠息肉分割方法,具体信息如表2所示:
表2对比方法介绍
表3总结了本发明在实施例1测试数据集中的分割结果,本发明使用两种语义分割常用的评价指标:平均Dice系数(mDice)、平均交并比(mIoU);为了更深层次地分析模型,引入了目标检测领域中常用的4种评价指标:加权F-measureS-measure(Sα)、max-E-measure/>和平均绝对误差(MAE)。除此之外,还加入了计算模型复杂度时所用到的度量指标:模型总参数量params和模型计算量即浮点运算次数(Flopating-pointOperations,FLOPs),用来衡量模型的复杂度。根据各项指标值得知,本算法在五个公开数据集上取得了优异的分割结果。
表3:本发明在实施例1中的各个数据集上的性能度量值
表4-8总结了近几年关于结肠息肉分割的研究结果,从表中结果可以看出,在公开的五个数据集上,我们的发明均获得了较好的分割准确度。在CVC-ClinicDB和Kvasir数据集上的结果得知,MixFormNet的各项性能指标值均优于其它三类方法的最优值,实现了最佳性能。具体来说,MixFormNet在CVC-ClinicDB数据集上的mDice值高于FCBFormer网络4.3%,高于ColonFormer 2.4%,高于次优HardNet-DFUS网络0.1%;MixFormNet在Kvasir数据集上的mDice值高于FCBFormer网络0.2%,高于Fu-TransHNet网络1.7%。虽然MixFormNet在其他几个数据集上的结果并不是最优,但至少是可比的,衡量模型的有效性并不是看重在某一个数据集上的分割结果,其更注重的是在多个数据集上的分割性能,所以综合衡量,本发明是有效的并且具有良好普适性的。
表4CVC-ClinicDB数据集度量结果
表5CVC-ColonDB数据集度量结果
表6CVC-EndoScene数据集度量结果
表7ETIS-LaribPolypDB数据集度量结果
表8 Kvasir数据集度量结果
实施例2
为验证PreNet对于提升结肠息肉的分割精度是有帮助的,在该实例中分别对没有PreNet(图9)和拥有PreNet(图1)做对比。最后分别计算出各类方法的分割结果绘制成表9。由表9得知包含PreNet的方法在各个数据集上度量值都是优于未加入PreNet的方法,由此证明了本发明提出的PreNet是有效的。
表9 PreNet有效性
实施例3
为验证本发明中的解码器对于提升结肠息肉的分割精度是有帮助的,在该实例中将UNet和CaraNet中的解码器作用于Mix Transformer的多尺度输出与本文提出的解码器形成对比。本小节设置的三组实验除解码器不同,其它网络参数均保持一致,实验结果如表10-11所示。由表10-11得知本发明设计的新型解码器应用于Mix Transformer编码器后而成的MixFormNet网络在分割精度和模型复杂度上都要优于其它两种方法,从而证实了该解码器不仅对提升分割精度是有帮助的,而且相比于其它方法需要更少的计算机资源。
表10不同解码器方法对比结果
表11不同解码器方法复杂度分析
/>
Claims (8)
1.一种具有普适性的结肠息肉分割方法,其特征在于,步骤如下:
第一步:统一训练数据集分辨率:本发明采用的数据集中的结肠镜图像分辨率各有不同,而编码器MixTransformer需要固定尺寸,所以本发明在模型训练前对训练数据集进行统一处理;
第二步:将训练集输入到MixFormNet的编码器中,MixFormNet的编码器采用MixTransformer编码器;
具体操作如下:首先将输送到MixTransformer中的图像划分成尺寸大小为4×4的补丁,利用细粒度的补丁对语义分割是有帮助的;接着将这些补丁作为输入输送到MixTransformer编码器中,得到多级特征图其中i={1,2,3,4};
第三步:利用解码器将编码器得到的特征信息转化为目标,解码器对Mix Transformer的输出Fi分别进行处理;
具体来说,Mix Transformer的低层输出分辨率大,包含丰富几何空间信息,但是语义信息较弱,所以
3.1将F1输入到PreNet中进一步处理得到输出F1 ′,然后将F1 ′输送到CBAM注意力机制中得到Z2;
所述的PreNet网络的处理过程如下:首先借助其Conv、Batch Normalization、ReLU和MaxPooling对输入的F1进行初始处理,然后将其输入到3个由卷积层堆叠的块中进行局部细节信息的提取;
3.2将Mix Transformer的较低层、中层、高层输出Fi,其中i={2,3,4}输入到多尺度特征融合模块中得到输出特征图F′,然后将F′输入到SE BLock模块中建立特征图通道之间的相关性,最后对SEBlock的输出Z1进行卷积处理得到辅助输出预测图Pass;
3.3接着将Z1和Z2一同输入到相似聚合模块中得到主预测图Pmain,其目的是为了建模CBAM输出的低级特征和SE Block输出的高级特征之间的信息关系;
第四步:综合决策:第三步的输出包含一个主要输出预测图Pmain和一个辅助输出预测图Pass;在训练过程中,利用Pmain与真实标签之间的预测损失和Pass与真实标签之间的预测损失之和作为网络的总损失,反向更新参数不断优化模型;在测试时,最终以Pmain和Pass相加作为最终的分割结果,通过该方式可以尽可能优化最终的分割结果;Pass不仅可以与Pmain一起优化整体模型,还可以监督多尺度特征融合的中间输出。
2.如权利要求1所述的一种具有普适性的结肠息肉分割方法,其特征在于:所述步骤1中,为了增加模型对不同分辨率图像的鲁棒性,本发明在训练过程中加入了多尺度训练策略,尺度范围为{0.75,1,1.25}倍原始输入图像。
3.如权利要求1或2所述的一种具有普适性的结肠息肉分割方法,其特征在于:所述步骤一中分辨率的统一,统一分辨率为384×384。
4.如权利要求1或2所述的一种具有普适性的结肠息肉分割方法,其特征在于:所述步骤二中的MixFormNet模型中的参数,利用AdamW优化器进行更新,学习率设为1e-4,epoch设为200,每10个epoch便保存一组网络权重。
5.如权利要求3所述的一种具有普适性的结肠息肉分割方法,其特征在于:所述步骤二中的MixFormNet模型中的参数,利用AdamW优化器进行更新,学习率设为1e-4,epoch设为200,每10个epoch便保存一组网络权重。
6.如权利要求1或2或5所述的一种具有普适性的结肠息肉分割方法,其特征在于:所述第四步中的综合决策中,采用加权二进制交叉熵损失函数与加权IoU损失函数的结合作为整体的损失函数L。
7.如权利要求3所述的一种具有普适性的结肠息肉分割方法,其特征在于:所述第四步中的综合决策中,采用加权二进制交叉熵损失函数与加权IoU损失函数的结合作为整体的损失函数L。
8.如权利要求4所述的一种具有普适性的结肠息肉分割方法,其特征在于:所述第四步中的综合决策中,采用加权二进制交叉熵损失函数与加权IoU损失函数的结合作为整体的损失函数L。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310304320.5A CN116468887A (zh) | 2023-03-27 | 2023-03-27 | 一种具有普适性的结肠息肉分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310304320.5A CN116468887A (zh) | 2023-03-27 | 2023-03-27 | 一种具有普适性的结肠息肉分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116468887A true CN116468887A (zh) | 2023-07-21 |
Family
ID=87174335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310304320.5A Pending CN116468887A (zh) | 2023-03-27 | 2023-03-27 | 一种具有普适性的结肠息肉分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468887A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036714A (zh) * | 2023-10-09 | 2023-11-10 | 安徽大学 | 融合混合注意力机制的肠息肉分割方法、***及介质 |
-
2023
- 2023-03-27 CN CN202310304320.5A patent/CN116468887A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036714A (zh) * | 2023-10-09 | 2023-11-10 | 安徽大学 | 融合混合注意力机制的肠息肉分割方法、***及介质 |
CN117036714B (zh) * | 2023-10-09 | 2024-02-09 | 安徽大学 | 融合混合注意力机制的肠息肉分割方法、***及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112489061B (zh) | 一种基于多尺度信息与并行注意力机制的深度学习肠道息肉分割方法 | |
Dai et al. | Ms RED: A novel multi-scale residual encoding and decoding network for skin lesion segmentation | |
CN111627019A (zh) | 一种基于卷积神经网络的肝脏肿瘤分割方法及*** | |
Zhao et al. | M $^{2} $ SNet: Multi-scale in multi-scale subtraction network for medical image segmentation | |
CN113674253A (zh) | 基于U-Transformer的直肠癌CT影像自动分割方法 | |
CN113034505B (zh) | 一种基于边缘感知网络的腺体细胞图像分割方法及装置 | |
CN113658201B (zh) | 基于增强型多尺度特征的深度学习结直肠癌息肉分割装置 | |
CN113888466A (zh) | 一种基于ct图像的肺结节图像检测方法及*** | |
CN111260639A (zh) | 多视角信息协作的乳腺良恶性肿瘤分类方法 | |
Azad et al. | Enhancing medical image segmentation with TransCeption: A multi-scale feature fusion approach | |
CN115375711A (zh) | 基于多尺度融合的全局上下文关注网络的图像分割方法 | |
CN116468887A (zh) | 一种具有普适性的结肠息肉分割方法 | |
Pei et al. | Alzheimer’s disease diagnosis based on long-range dependency mechanism using convolutional neural network | |
CN116258732A (zh) | 一种基于pet/ct图像跨模态特征融合的食管癌肿瘤靶区分割方法 | |
CN116864103A (zh) | 一种基于多模态对比学习的肌少症诊断方法 | |
CN115526829A (zh) | 基于ViT与上下文特征融合的蜂窝肺病灶分割方法及网络 | |
CN114998615A (zh) | 一种基于深度学习的协同显著性检测方法 | |
Jana et al. | Liver fibrosis and nas scoring from ct images using self-supervised learning and texture encoding | |
Ma et al. | LCAUnet: A skin lesion segmentation network with enhanced edge and body fusion | |
Qiu | A new multilevel feature fusion network for medical image segmentation | |
CN117036288A (zh) | 一种面向全切片病理图像的肿瘤亚型诊断方法 | |
Iqbal et al. | LDMRes-Net: Enabling real-time disease monitoring through efficient image segmentation | |
CN116206105A (zh) | 一种深度学习相融合的协同学习增强的结肠息肉分割方法 | |
Zhang et al. | ETUNet: Exploring efficient transformer enhanced UNet for 3D brain tumor segmentation | |
CN111932486A (zh) | 一种基于3d卷积神经网络的脑胶质瘤分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |