CN117576383A - 一种基于注意力解码的可信息肉分割方法及*** - Google Patents
一种基于注意力解码的可信息肉分割方法及*** Download PDFInfo
- Publication number
- CN117576383A CN117576383A CN202311381929.9A CN202311381929A CN117576383A CN 117576383 A CN117576383 A CN 117576383A CN 202311381929 A CN202311381929 A CN 202311381929A CN 117576383 A CN117576383 A CN 117576383A
- Authority
- CN
- China
- Prior art keywords
- module
- attention
- segmentation
- model
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 47
- 235000013372 meat Nutrition 0.000 title claims description 38
- 230000006870 function Effects 0.000 claims abstract description 63
- 208000037062 Polyps Diseases 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000005457 optimization Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 3
- 238000009826 distribution Methods 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000003902 lesion Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000003631 expected effect Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000003709 image segmentation Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000002052 colonoscopy Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 206010009944 Colon cancer Diseases 0.000 description 4
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000002429 large intestine Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000004877 mucosa Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/72—Data preparation, e.g. statistical preprocessing of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/032—Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于医学影像分割技术领域,本发明所述方法包括,对数据集进行预处理,构建基于注意力解码的可信的息肉分割模型架构;对构建的息肉分割架构模型采用交叉熵损失函数和KL散度损失函数以及Dice损失函数的组合计算损失函数;采用Adam优化算法训练构建的息肉分割架构模型;采用DiceScore和mIou指标衡量分割准确性。本发明将证据深度学习应用于端到端的息肉分割模型,旨在量化像素级的不确定性,得到可信的息肉分割模型。同时,当处理模糊边界息肉和小尺寸息肉时,本发明采用边缘引导特征模块,来挖掘与边界相关的边缘语义,能够获得更好的分割结果。
Description
技术领域
本发明属于医学影像分割技术领域,具体地涉及一种基于注意力解码的可信息肉分割方法。
背景技术
结直肠癌是一种始于大肠的癌症,是全球第三大最常见的癌症。通常情况下,结直肠癌最初表现为在结肠内产生的息肉,所以早期发现和切除息肉对于直结肠癌的预防和治疗至关重要。结肠镜检查可以提供息肉的外观特征以及位置信息,定期筛查,可以在息肉转变为癌症之前发现并清除息肉,从而预防结直肠癌。然而,由于息肉的形状、大小、颜色和纹理的多样性,以及息肉与其周围黏膜之间的边界通常是模糊的,对比度低,从而导致息肉分割不准确,出现漏检错检的问题。所以在临床上,设计一种精确且可信的息肉分割算法对于辅助医生对于疾病的诊断和降低医疗代价具有重要意义。
随着深度学习的发展,使用卷积神经网络的医学图像分割极大地促进了定量病理评估、诊断支持***和肿瘤分析。其中大多是基于编码器-解码器结构,最具代表性的方法是UNet,它通过跳过连接来捕获上下文信息;后面人们又提出一些Unet变体,例如UNet++、DC-UNet,在医学图像分割领域表现出良好的性能。但是基于CNN的方法,由于其卷积核感受野的限制,它们在学习像素之间的全局关系方面存在局限性。为了解决这一问题,一些工作如:ParNet、UACANet,在其架构中加入了注意力模块,使网络能够更加聚焦对分类任务更有用的像素区域,从而更好地进行像素级别的医学图像分类。尽管这些基于注意力的方法实现了更好的性能,但是他们仍然不能捕获足够的长程依赖关系。最近的视觉Transformer改进了在捕获长程依赖关系上的限制,在医学影像分割方面也取得了巨大的成功。
虽然上述方法已经可以获得精确的分割结果,但是在面对模糊的边界和小目标的时候,它们的性能可能不够鲁棒。并且,目前的息肉分割方法忽略了人工智能所做出决策的可靠性分析。在临床实践中,模型可能会遇到无法预测的数据,所以临床安全应用需要量化不确定性的原则机制。在分割准确度提升的同时,应保证模型的可靠性,使临床医生对人工智能技术更加信任。
发明内容
鉴于上述现有存在的问题,提出了本发明。旨在解决目前的息肉分割方法对于模糊边界和小目标分割不准以及缺乏对分割结果可靠性的度量的问题。
因此,提供了一种基于注意力解码的可信息肉分割方法。
为解决上述技术问题,本发明提供如下技术方案,一种基于注意力解码的可信息肉分割方法,包括:
对数据集进行预处理,构建基于注意力解码的可信的息肉分割模型架构;对构建的息肉分割架构模型采用交叉熵损失函数和KL散度损失函数以及Dice损失函数的组合计算损失函数;采用Adam优化算法训练构建的息肉分割架构模型;采用DiceScore和mIou指标衡量分割准确性。
作为本发明所述的基于注意力解码的可信息肉分割方法的一种优选方案,其中:所述构建基于注意力解码的可信的息肉分割模型架构包括编码器模块(100)、解码器模块(200)、不确定性估计模块(300)。
所述编码器模块(100),采用PVTv2作为编码器,用于多层次特征映射,输入数据经过PVTv2解码器生成四个阶段的特征X1~X4,X1包含目标的详细的纹理信息,X2、X3和X4包含了高级的语义信息。
所述解码器模块(200),级联注意力解码模块由三部分组成:用于级联特征融合的注意力门模块、用于增强边界表示的边缘引导特征模块和用来鲁棒地增强特征图的卷积注意模块,编码器模块所获得的X1~X4的特征,经过解码器模块,逐步挖掘关键信息,抑制背景信息。
所述不确定性估计模块(300),将解码器模块获得的结果经过非负激活函数得到证据输出,再通过狄利克雷分布构建不同类别的概率和不确定性。
作为本发明所述的基于注意力解码的可信息肉分割方法的一种优选方案,其中:所述解码器模块(200)包括卷积注意模块(201)、注意力门模块(202)、边缘引导特征模块(203)。
所述卷积注意模块(201)包括一个通道注意、一个空间注意和一个卷积块,通道注意确定需要关注的通道,空间注意决定了在特征图中需要关注的位置,卷积块用于进一步增强通过通道注意和空间注意的特征。
对编码器模块生成的四个阶段X1~X4的特征进行解码操作:高级语义信息的X4特征经过1×1卷积,调整通道数,输入卷积注意模块(201)来细化特征映射,经过上述操作的特征一条路径会上采样32倍得到最终分割结果,另一条路径则是上采样2倍和编码器模块生成的X3阶段特征通过注意力门模块(202)进行特征融合,特征融合后再输入到边缘引导特征模块(203)中,使用一种局部通道注意力机制与初始融合特征相乘,并减少通道数,增强边界特征表示。
其中,边缘引导特征模块(203)给定输入特征fi和前一层上采样特征fe,我们首先在它们之间进行元素级乘法,附加跳跃连接和3×3卷积,得到初始融合特征为了增强特征表示,使用一个通道级的全局平均池化来聚合卷积特征,通过一维卷积和Sigmoid函数得到相应的通道注意,将通道注意与输入特征/>相乘,并通过1×1卷积减少通道数,得到最终的输出/>
其中,为最终输出的特征融合,Fconv1为1×1卷积,σ为Sigmoid函数,/>为卷积核为k的1维卷积,最终再经过一个卷积注意模块(201),一条路径上采样16倍得到最终分割结果,另一条路径继续和更低层次特征进行上述操作,最后得到四个阶段的输出。
作为本发明所述的基于注意力解码的可信息肉分割方法的一种优选方案,其中:所述不确定性估计模块(300)包括通过主观逻辑理论定义了一个可信的分割框架,并以此推导分割问题的概率和不确定性:将解码器模块(200)得到的四个阶段的输出结果经过非负激活函数softplus,得到四个阶段的证据输出,每个阶段的输出结果都得到一个狄利克雷分布,并看作是多项分布的共轭先验,然后主观逻辑理论将具有狄利克雷分布的证据与参数α联系起来:
从此分布中推导出不确定性,把每个像素的信念质量和不确定性表示出来:
第(i,j)像素获得第n类证据越多,第(i,j)像素的概率就提高,相反,第(i,j)像素的不确定性就增大,其中,为狄利克雷参数,/>为证据输出,/>为信念质量,ui,j为不确定性。
作为本发明所述的基于注意力解码的可信息肉分割方法的一种优选方案,其中:所述计算损失函数包括对于构建的息肉分割架构模型输出的结果,首先将得到的预测概率和图像标签进行交叉熵损失的计算,由于预测概率服从狄利克雷分布,在证据理论的框架下,将狄利克雷分布与信念分布联系起来,基于从主干中收集的证据,获得不同类别的概率和不同体素的不确定性得到改进后的交叉熵损失函数,使用正则化技术,引入KL散度损失,使不正确的标签会产生更少的证据,甚至缩小到0,保证真实的类别不被认为是0:
此外,使用一个Dice损失来优化网络,网络的总体损失就是上述三个损失的和:
L=Lice+λpLKL+λsLDice
其中,λp、λs为平衡因子、设置为0.2和0.1,ψ(·)为数字矩阵函数,Lice为交叉熵损失函数,LKL为KL散度损失函数,LDice为Dice损失函数,为狄利克雷分布的校正参数,Γ(·)为伽马函数。
作为本发明所述的基于注意力解码的可信息肉分割方法的一种优选方案,其中:所述Adam优化算法训练构建的息肉分割架构模型包括使用经过构建的息肉分割架构模型所构造的网络结构和经过优化算法训练的损失函数对网络进行训练,并使用多尺度训练策略,Adam优化算法学习率设置为1e-4,批量处理量设置为16,迭代次数设置为100。
作为本发明所述的基于注意力解码的可信息肉分割方法的一种优选方案,其中:所述DiceScore和mIou指标包括将测试数据输入经过Adam优化算法训练完成的网络中,得到每个图像的分割结果以及不确定性,然后采用DiceScore和mIou指标衡量分割准确性,具体定义如下式所示:
其中,A代表医生标注的息肉病变区域,B为本发明中分割出的息肉病变区域,loUi为第i个测试图像的loU。
本发明的另外一个目的是提供了一种基于注意力解码的可信息肉分割方法的***,本发明***实现对可信息肉中不同部分的分割和识别,该***通过对肉品图像进行预处理和特征提取,然后使用基于注意力解码的深度学习模型进行分割和识别,最终输出分割结果和相关信息。该***的目标是提高分割准确率和效率,减少人工干预和错误率。
一种基于注意力解码的可信息肉分割***,其特征在于,包括数据预处理模块、模型架构构建模块、损失函数统计模块、优化算法训练模块及分割性能评估模块。
所述数据预处理模块,使用五个公开数据集,将原始的图像数据转换成模型接受的格式,并将数据集分为训练集和预测集。
所述模型架构构建模块,在预处理后构建基于注意力解码的肉分割模型,构建不同类别的概率和不确定性。
所述损失函数统计模块,计算网络的整体损失函数,帮助模型训练过程中找到最优的参数,使得模型的预测结果更加准确。
所述优化算法训练模块,使用优化算法来更新模型并使用多尺度训练策略,使得模型的预测结果更加准确。
所述分割性能评估模块,评估模型的分割性能,确定模型是否达到预期效果,以及确定模型的优缺点和改进方向。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现一种基于注意力解码的可信息肉分割所述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现一种基于注意力解码的可信息肉分割所述的方法的步骤。
本发明的有益效果:本发明提供了一种基于注意力解码的可信息肉分割方法,使用一种边界引导特征模块,增强语义,更好地分割前景和背景对比度低的样本。将狄利克雷分布与Dempster-Shafer理论相结合,构建了一个可信的息肉分割网络,可以准确的估计每个分割像素的不确定性,从而提高分割的可靠性和鲁棒性,在诊断支持和疾病定量评估的息肉分割方面具有优越的性能和易于解释性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1为本发明一个实施例提供的一种基于注意力解码的可信息肉分割方法的流程示意图。
图2为本发明一个实施例提供的一种基于注意力解码的可信息肉分割方法的模型结构图。
图3为本发明一个实施例提供的一种基于注意力解码的可信息肉分割方法的边界引导特征单元结构图。
图4为本发明一个实施例提供的一种基于注意力解码的可信息肉分割方法的不确定性估计单元结构图。
图5为本发明一个实施例提供的一种基于注意力解码的可信息肉分割方法的可信息肉分割网络得到的分割结果及不确定性可视化结果示意图。
图6为本发明一个实施例提供的一种基于注意力解码的可信息肉分割***的工作流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细地说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独地或选择性地与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1-图4,为本发明的第一个实施例,该实施例提供了一种基于注意力解码的可信息肉分割方法,包括:
S1:对数据集进行预处理,构建基于注意力解码的可信的息肉分割模型架构。
更进一步的,我们使用五个公开数据集,其中,从CVC-ClinicDB和Kvasir中选取的1450张图像作为训练集。CVC-ClinicDB,又称CVC-612,包含了来自25个结肠镜检查视频中的612张图像,图像大小是384×288。其中550张图像用于训练,其余的用于测试。Kvasir数据集包含1000张息肉图像,900张图像用于训练,100张图像用于测试。为了评估模型的泛化性能,我们使用其余三个没见过的数据集作为测试集,它们分别是:CVC-300,是一个来自EndoScene的测试数据集,EndoScene包含来自36例患者的44条结肠镜检查序列的912张图像。由于EndoScene数据集是CVC-ClinicDB和CVC-300的组合,我们使用CVC-300作为一个测试集,包含60张图片。CVC-ColonDB数据集来自15个不同的结肠镜检查序列,并从这些序列中取样380张图像。ETIS数据集包含从34张结肠镜检查视频中收集的196张图像。图像的大小为1225×966,是这些数据集中最大的,这个数据集中的息肉大多都很小,很难辨认,这使得这个数据集更具有挑战性。
应说明的是,构建基于注意力解码的可信的息肉分割模型架构包括编码器模块(100)、解码器模块(200)、不确定性估计模块(300).
编码器模块(100):采用PVTv2作为编码器,用于多层次特征映射,输入数据经过PVTv2解码器生成四个阶段的特征X1~X4,X1包含目标的详细的纹理信息,X2、X3和X4包含了高级的语义信息。
解码器模块(200):级联注意力解码模块由三部分组成:用于级联特征融合的注意力门模块、用于增强边界表示的边缘引导特征模块和用来鲁棒地增强特征图的卷积注意模块,编码器模块所获得的X1~X4的特征,经过解码器模块,逐步挖掘关键信息,抑制背景信息。
不确定性估计模块(300):将解码器模块获得的结果经过非负激活函数得到证据输出,再通过狄利克雷分布构建不同类别的概率和不确定性。
解码器模块(200)包括卷积注意模块(201)、注意力门模块(202)、边缘引导特征模块(203);
应说明的是,卷积注意模块(201)包括一个通道注意、一个空间注意和一个卷积块,通道注意确定需要关注的通道,空间注意决定了在特征图中需要关注的位置,卷积块用于进一步增强通过通道注意和空间注意的特征;
对编码器模块生成的四个阶段X1~X4的特征进行解码操作:高级语义信息的X4特征经过1×1卷积,调整通道数,输入卷积注意模块(201)来细化特征映射:
CAM(x))=ConvBlock(SA(CA((x)))
其中,x为输入数据,SA为空间注意力,CA为通道注意力。
构建本发明使用的边缘引导特征模块(203)结构如图3所示,经过上述操作的特征一条路径会上采样32倍得到最终分割结果,另一条路径则是经过一个上采样层,上采样2倍和编码器模块生成的X3阶段特征通过注意力门模块(202)进行特征融合,特征融合后再输入到边缘引导特征模块(203)中挖掘边界信息。
其中,边缘引导特征模块(203)给定输入特征fi和前一层上采样特征fe,我们首先在它们之间进行元素级乘法,附加跳跃链接和3×3卷积,得到初始融合特征
其中,Fconv为3×3卷积,是元素乘法,/>是元素加法。然后,为了增强特征表示,我们使用局部注意力来探索关键的特征通道。具体来说,我们使用一个通道级的全局平均池化(GAP)来聚合卷积特征,然后通过一维卷积核Sigmoid函数得到相应的通道注意。然后,我们将通道注意力与输入特征/>相乘,并通过1×1卷积减少通道数,得到最终的输出/>
K=|(1+log2(C))/2|odd
其中,为最终输出的特征融合,Fconv1为1×1卷积,σ为Sigmoid函数,/>为卷积核为k的1维卷积,|*|odd表示最近的奇数,C表示/>的通道数,最终再经过一个卷积注意模块(201)对像素进行分组,一条路径上采样16倍得到最终分割结果,另一条路径继续和更低层次特征进行上述操作,最后得到四个阶段的输出。
还应说明的是,构建不确定性估计模块(300)通过主观逻辑理论定义了一个可信的分割框架,并以此推导分割问题的概率和不确定性:将解码器模块(200)得到的四个阶段的输出结果经过非负激活函数softplus,得到四个阶段的证据输出:得到证据其中/>H、W代表输入数据的高和宽,然后主观逻辑理论将具有狄利克雷分布的证据与参数α联系起来:
把每个像素(i,j)的信念质量和不确定性表示出来:
第(i,j)像素获得第n类证据越多,第(i,j)像素的概率就提高,相反,第(i,j)像素的不确定性就增大,其中,为狄利克雷参数,/>为证据输出,/>为信念质量,ui,j为不确定性。
S2:对构建的息肉分割架构模型采用交叉熵损失函数和KL散度损失函数以及Dice损失函数的组合计算损失函数。
更进一步的,对于构建的息肉分割架构模型输出的结果,首先将得到的预测概率和图像标签进行交叉熵损失的计算:
由于预测概率服从狄利克雷分布,在证据理论的框架下,将狄利克雷分布与信念分布联系起来,基于从主干中收集的证据,获得不同类别的概率和不同体素的不确定性得到改进后的交叉熵损失函数:
使用正则化技术,引入KL散度损失,使不正确的标签会产生更少的证据,甚至缩小到0,通过退火系数逐步增加KL散度对损失的影响,使神经网络探索参数空间,避免对错误分类的样本过早收敛到均匀分布,使其可以在未来被分类正确:
此外,使用一个Dice损失来优化网络:
最后,网络的总体损失就是上述三个损失的和:
L=Lice+λpLKL+λsLDice
其中,λp、λs为平衡因子、设置为0.2和0.1,ψ(·)为数字矩阵函数,Pm为在一个单纯形上的类分配概率,B(αm)是第m的样本参数αm的多项式贝塔函数,Sm为m维单位单纯形,Lice为交叉熵损失函数,为第n类第m个样本的标签值和预测概率,LKL为KL散度损失函数,LDice为Dice损失函数,/>为狄利克雷分布的校正参数用来确保真实的类别证据不会被误认成0,Γ(·)为伽马函数。
S3:采用Adam优化算法训练构建的息肉分割架构模型。
更进一步的,息肉分割网络基于Pytorch框架实现,使用NVIDIA GeForce RTX3090显卡进行加速。对于骨干网络,使用在ImageNet上预训练好的权值。使用了AdamW优化器,学习率和权重衰减设置为1e-4,批量处理量设置为16,迭代次数设置为100,我们将图像的大小调整为352×352,并使用多尺度训练策略{0.75,1.0,1.25}。
S4:采用DiceScore和mIou指标衡量分割准确性。
更进一步的,将测试数据输入经过Adam优化算法训练完成的网络中,得到每个图像的分割结果以及不确定性,然后采用DiceScore和mIou指标衡量分割准确性,具体定义如下式所示:
其中,A代表医生标注的息肉病变区域,B为本发明中分割出的息肉病变区域,loUi为第i个测试图像的loU。
实施例2
参照图5,为本发明的一个实施例,提供了一种基于注意力解码的可信息肉分割方法,为了验证本发明的有益效果,通过实验进行科学论证。
将本发明构建的息肉分割网络与其他5种具有代表性的息肉分割网络(UNet、UNet++、ParNet、SANet、PVT-CASCADE)进行对比实验。定量比较实验结果如表1所示。
表1息肉分割网络的定量比较结果表(最好结果加粗表示)
由表1可知,本发明网络的大多数结果都优于经典医学图像分割基线和其余3种先进的息肉分割方法,本发明构建的息肉分割网络与其他5种具有代表性的息肉分割网络的定性比较实验结果如图5所示,可以发现本发明的息肉分割网络效果最佳,尤其是对边界对比度低的小息肉,并且可以可视化出分割结果的不确定性。
应说明的是,以上实施例仅用于说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
实施例3
本发明第三个实施例,其不同于前两个实施例的是:
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术作出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
实施例4
参照图6,为本发明的第四个实施例,该实施例提供了一种基于注意力解码的可信息肉分割***,包括数据预处理模块、模型架构构建模块、损失函数统计模块、优化算法训练模块及分割性能评估模块。
数据预处理模块使用五个公开数据集,将原始的图像数据转换成模型接受的格式,并将数据集分为训练集和预测集。
模型架构构建模块在预处理后构建基于注意力解码的肉分割模型,构建不同类别的概率和不确定性。
损失函数统计模块计算网络的整体损失函数,帮助模型训练过程中找到最优的参数,使得模型的预测结果更加准确。
优化算法训练模块使用优化算法来更新模型并使用多尺度训练策略,使得模型的预测结果更加准确。
分割性能评估模块评估模型的分割性能,确定模型是否达到预期效果,以及确定模型的优缺点和改进方向。
应说明的是,以上实施例仅用于说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于注意力解码的可信息肉分割方法,其特征在于:包括,
对数据集进行预处理,构建基于注意力解码的可信的息肉分割模型架构;
对构建的息肉分割架构模型采用交叉熵损失函数和KL散度损失函数以及Dice损失函数的组合计算损失函数;
采用Adam优化算法训练构建的息肉分割架构模型;
采用DiceScore和mIou指标衡量分割准确性。
2.如权利要求1所述的一种基于注意力解码的可信息肉分割方法,其特征在于:所述构建基于注意力解码的可信的息肉分割模型架构包括编码器模块100、解码器模块200、不确定性估计模块300;
所述编码器模块100,采用PVTv2作为编码器,用于多层次特征映射,输入数据经过PVTv2解码器生成四个阶段的特征X1~X4,X1包含目标的详细的纹理信息,X2、X3和X4包含了高级的语义信息;
所述解码器模块200,级联注意力解码模块由三部分组成:用于级联特征融合的注意力门模块、用于增强边界表示的边缘引导特征模块和用来鲁棒地增强特征图的卷积注意模块,编码器模块所获得的X1~X4的特征,经过解码器模块,逐步挖掘关键信息,抑制背景信息;
所述不确定性估计模块300,将解码器模块获得的结果经过非负激活函数得到证据输出,再通过狄利克雷分布构建不同类别的概率和不确定性。
3.如权利要求2所述的一种基于注意力解码的可信息肉分割方法,其特征在于:所述解码器模块200包括卷积注意模块201、注意力门模块202、边缘引导特征模块203;
所述卷积注意模块201包括一个通道注意、一个空间注意和一个卷积块,通道注意确定需要关注的通道,空间注意决定了在特征图中需要关注的位置,卷积块用于进一步增强通过通道注意和空间注意的特征;
对编码器模块生成的四个阶段X1~X4的特征进行解码操作:高级语义信息的X4特征经过1×1卷积,调整通道数,输入卷积注意模块201来细化特征映射,经过上述操作的特征一条路径会上采样32倍得到最终分割结果,另一条路径则是上采样2倍和编码器模块生成的X3阶段特征通过注意力门模块202进行特征融合,特征融合后再输入到边缘引导特征模块203中,使用一种局部通道注意力机制与初始融合特征相乘,并减少通道数,增强边界特征表示;
其中,边缘引导特征模块203给定输入特征fi和前一层上采样特征fe,我们首先在它们之间进行元素级乘法,附加跳跃连接和3×3卷积,得到初始融合特征为了增强特征表示,使用一个通道级的全局平均池化来聚合卷积特征,通过一维卷积和Sigmoid函数得到相应的通道注意,将通道注意与输入特征/>相乘,并通过1×1卷积减少通道数,得到最终的输出/>
其中,为最终输出的特征融合,Fconv1为1×1卷积,σ为Sigmoid函数,/>为卷积核为k的1维卷积,最终再经过一个卷积注意模块201,一条路径上采样16倍得到最终分割结果,另一条路径继续和更低层次特征进行上述操作,最后得到四个阶段的输出。
4.如权利要求3所述的一种基于注意力解码的可信息肉分割方法,其特征在于:所述不确定性估计模块300包括通过主观逻辑理论定义了一个可信的分割框架,并以此推导分割问题的概率和不确定性:将解码器模块200得到的四个阶段的输出结果经过非负激活函数softplus,得到四个阶段的证据输出,每个阶段的输出结果都得到一个狄利克雷分布,并看作是多项分布的共轭先验,然后主观逻辑理论将具有狄利克雷分布的证据与参数α联系起来:
从此分布中推导出不确定性,把每个像素的信念质量和不确定性表示出来:
第(i,j)像素获得第n类证据越多,第(i,j)像素的概率就提高,相反,第(i,j)像素的不确定性就增大,其中,为狄利克雷参数,/>为证据输出,/>为信念质量,ui,j为不确定性。
5.如权利要求4所述的一种基于注意力解码的可信息肉分割方法,其特征在于:所述计算损失函数包括对于构建的息肉分割架构模型输出的结果,首先将得到的预测概率和图像标签进行交叉熵损失的计算,由于预测概率服从狄利克雷分布,在证据理论的框架下,将狄利克雷分布与信念分布联系起来,基于从主干中收集的证据,获得不同类别的概率和不同体素的不确定性得到改进后的交叉熵损失函数,使用正则化技术,引入KL散度损失,使不正确的标签会产生更少的证据,甚至缩小到0,保证真实的类别不被认为是0:
此外,使用一个Dice损失来优化网络,网络的总体损失就是上述三个损失的和:
L=Lice+λpLKL+λsLDice
其中,λp、λs为平衡因子、设置为0.2和0.1,ψ(·)为数字矩阵函数,Lice为交叉熵损失函数,LKL为KL散度损失函数,LDice为Dice损失函数,为狄利克雷分布的校正参数,Γ(·)为伽马函数。
6.如权利要求5所述的一种基于注意力解码的可信息肉分割方法,其特征在于:所述Adam优化算法训练构建的息肉分割架构模型包括使用经过构建的息肉分割架构模型所构造的网络结构和经过优化算法训练的损失函数对网络进行训练,并使用多尺度训练策略,Adam优化算法学习率设置为1e-4,批量处理量设置为16,迭代次数设置为100。
7.如权利要求6所述的一种基于注意力解码的可信息肉分割方法,其特征在于:所述DiceScore和mIou指标包括将测试数据输入经过Adam优化算法训练完成的网络中,得到每个图像的分割结果以及不确定性,然后采用DiceScore和mIou指标衡量分割准确性,具体定义如下式所示:
其中,A代表医生标注的息肉病变区域,B为本发明中分割出的息肉病变区域,loUi为第i个测试图像的loU。
8.一种采用如权利要求1~7任一所述的基于注意力解码的可信息肉分割***,其特征在于:包括数据预处理模块、模型架构构建模块、损失函数统计模块、优化算法训练模块及分割性能评估模块;
所述数据预处理模块,使用五个公开数据集,将原始的图像数据转换成模型接受的格式,并将数据集分为训练集和预测集;
所述模型架构构建模块,在预处理后构建基于注意力解码的肉分割模型,构建不同类别的概率和不确定性;
所述损失函数统计模块,计算网络的整体损失函数,帮助模型训练过程中找到最优的参数,使得模型的预测结果更加准确;
所述优化算法训练模块,使用优化算法来更新模型并使用多尺度训练策略,使得模型的预测结果更加准确;
所述分割性能评估模块,评估模型的分割性能,确定模型是否达到预期效果,以及确定模型的优缺点和改进方向。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311381929.9A CN117576383A (zh) | 2023-10-24 | 2023-10-24 | 一种基于注意力解码的可信息肉分割方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311381929.9A CN117576383A (zh) | 2023-10-24 | 2023-10-24 | 一种基于注意力解码的可信息肉分割方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117576383A true CN117576383A (zh) | 2024-02-20 |
Family
ID=89887067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311381929.9A Pending CN117576383A (zh) | 2023-10-24 | 2023-10-24 | 一种基于注意力解码的可信息肉分割方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576383A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974634A (zh) * | 2024-03-28 | 2024-05-03 | 南京邮电大学 | 一种基于证据深度学习的无锚框表面缺陷可信检测方法 |
-
2023
- 2023-10-24 CN CN202311381929.9A patent/CN117576383A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974634A (zh) * | 2024-03-28 | 2024-05-03 | 南京邮电大学 | 一种基于证据深度学习的无锚框表面缺陷可信检测方法 |
CN117974634B (zh) * | 2024-03-28 | 2024-06-04 | 南京邮电大学 | 一种基于证据深度学习的无锚框表面缺陷可信检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10496884B1 (en) | Transformation of textbook information | |
US10499857B1 (en) | Medical protocol change in real-time imaging | |
CN111784671B (zh) | 基于多尺度深度学习的病理图像病灶区域检测方法 | |
US11282205B2 (en) | Structure correcting adversarial network for chest x-rays organ segmentation | |
US10991093B2 (en) | Systems, methods and media for automatically generating a bone age assessment from a radiograph | |
Pinaya et al. | Unsupervised brain imaging 3D anomaly detection and segmentation with transformers | |
US10853449B1 (en) | Report formatting for automated or assisted analysis of medical imaging data and medical diagnosis | |
US10692602B1 (en) | Structuring free text medical reports with forced taxonomies | |
EP3803687A1 (en) | Methods and systems for utilizing quantitative imaging | |
US11263744B2 (en) | Saliency mapping by feature reduction and perturbation modeling in medical imaging | |
CN112396605B (zh) | 网络训练方法及装置、图像识别方法和电子设备 | |
CN117576383A (zh) | 一种基于注意力解码的可信息肉分割方法及*** | |
CN113205524A (zh) | 基于U-Net的血管图像分割方法、装置和设备 | |
Sirjani et al. | Automatic cardiac evaluations using a deep video object segmentation network | |
Rondinella et al. | Boosting multiple sclerosis lesion segmentation through attention mechanism | |
Pal et al. | A fully connected reproducible SE-UResNet for multiorgan chest radiographs segmentation | |
Pang et al. | 2D medical image segmentation via learning multi-scale contextual dependencies | |
US20210174154A1 (en) | Interpretable deep machine learning for clinical radio;ogy | |
Pramanik et al. | DBU-Net: Dual branch U-Net for tumor segmentation in breast ultrasound images | |
Rajesh et al. | Prostate gland segmentation using semantic segmentation models u-net and linknet | |
UmaMaheswaran et al. | Enhanced non-contrast computed tomography images for early acute stroke detection using machine learning approach | |
Wang et al. | Sbcnet: Scale and boundary context attention dual-branch network for liver tumor segmentation | |
Janeczko et al. | The use of deep learning in image analysis for the study of oncology | |
Priya et al. | An intellectual caries segmentation and classification using modified optimization-assisted transformer denseUnet++ and ViT-based multiscale residual denseNet with GRU | |
Mittal et al. | CoviSegNet-Covid-19 Disease Area Segmentation using Machine Learning Analyses for Lung Imaging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |