CN116128898A - 一种基于Transformer双分支模型的皮肤病变图像分割方法 - Google Patents
一种基于Transformer双分支模型的皮肤病变图像分割方法 Download PDFInfo
- Publication number
- CN116128898A CN116128898A CN202310128980.2A CN202310128980A CN116128898A CN 116128898 A CN116128898 A CN 116128898A CN 202310128980 A CN202310128980 A CN 202310128980A CN 116128898 A CN116128898 A CN 116128898A
- Authority
- CN
- China
- Prior art keywords
- module
- feature
- branch
- transducer
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 206010040882 skin lesion Diseases 0.000 title claims abstract description 21
- 231100000444 skin lesion Toxicity 0.000 title claims abstract description 21
- 238000003709 image segmentation Methods 0.000 title claims abstract description 9
- 230000011218 segmentation Effects 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 230000002776 aggregation Effects 0.000 claims abstract description 14
- 238000004220 aggregation Methods 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract 1
- 210000003491 skin Anatomy 0.000 description 16
- 201000001441 melanoma Diseases 0.000 description 5
- 208000017520 skin disease Diseases 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 208000035250 cutaneous malignant susceptibility to 1 melanoma Diseases 0.000 description 4
- 230000003902 lesion Effects 0.000 description 3
- 208000000453 Skin Neoplasms Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 210000004204 blood vessel Anatomy 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004195 computer-aided diagnosis Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 206010008570 Chloasma Diseases 0.000 description 1
- 201000004624 Dermatitis Diseases 0.000 description 1
- 208000003351 Melanosis Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000024780 Urticaria Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 208000010668 atopic eczema Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000002752 melanocyte Anatomy 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 201000000849 skin cancer Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30088—Skin; Dermal
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于计算机视觉技术领域,具体涉及一种基于Transformer双分支模型的皮肤病变图像分割方法;该方法构建并训练Transformer双分支模型,将待处理图像输入到训练好的Transformer双分支模型中得到分割结果;所述Transformer双分支模型包括主分支网络、辅助分支网络和信息聚合模块;本发明提出了一种新的皮肤病变图像分割方法,解决了传统深度学习方法提取全局上下文信息的不足,利用高效的多尺度视觉Transformer作为编码器,从而提取更强大且更好鲁棒性的特征,同时引入低级特征模块和高级特征融合模块,有效地提升网络的特征学习能力和分割性能。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于Transformer双分支模型的皮肤病变图像分割方法。
背景技术
皮肤病(dermatosis)是发生在皮肤和皮肤附属器官疾病的总称,常见的皮肤病有湿疹、荨麻疹、黄褐斑、水痘、色素障碍性皮肤病等。其中,恶性黑色素瘤是由皮肤和其他器官黑素细胞产生的肿瘤,它是导致皮肤肤色素性病变中最致命的一种皮肤癌。恶性黑色素瘤的发生率和死亡率逐年升高,根据皮肤癌基金会的统计数据,它的致死率甚至高达75%。恶性黑色素瘤除早期手术切除外,缺乏特效治疗,因此恶性黑色素瘤的早期诊断和治疗极其重要,但是由于皮肤的表面存在很多不可控因素,比如毛发、血管、颜色以及病变皮肤和未病变皮肤之间的对比度低等,经验丰富的专业医生不仅无法准确地判断出皮肤上的病变区域,还可能在判断时带有主观看法。因此需要借助计算机辅助诊断***提高对黑色素瘤的检测,而对皮肤病图像的分割就是计算机辅助诊断里十分重要的环节。
传统的医学分割方法主要依赖于低级特征,如纹理、几何特征、简单的线性迭代聚类超像素等。这些方法实现起来程序繁琐,并且泛化能力较差,不能满足实际应用的复杂场景分割精度要求。近年来,深度学习在医学图像分割领域得到了广泛的应用,特别是U型网络结构,其采用多尺度特征进行重建的能力引起了极大的关注。这些方法在准确性和泛化能力上都取得了相当不错的效果。但是皮肤病图像存在大量噪声,图像本身边界区域模糊,皮肤的颜色不同,血管的模糊等都会影响模型对特征的提取,在皮肤病的边界区域也很难准确定位。基于CNN的模型在特征提取过程中执行下采样,以减少计算量,这样很容易导致细节信息丢失。因此,需要更多的全局上下文信息进行推理。但是由于卷积运算的局限性,很难直接在全局上下文信息上建模。
发明内容
为解决上述问题,本发明提供了一种基于Transformer双分支模型的皮肤病变图像分割方法,该方法构建并训练Transformer双分支模型,将待处理图像输入到训练好的Transformer双分支模型中得到分割结果;所述Transformer双分支模型包括主分支网络、辅助分支网络和信息聚合模块;
所述Transformer双分支模型的训练过程包括:
S1.获取皮肤病变图像数据集并进行预处理得到训练图像集;
S2.将训练图像输入到辅助分支网络提取低级特征并输出第二分割图;
S3.将辅助分支网络提取的低级特征输入到主分支网络提取出多尺度的高级特征,并输出第一分割图;
S4.采用信息聚合模块融合第一分割图和第二分割图得到最终分割图;
S5.通过最终损失函数计算损失并反向传播训练Transformer双分支模型,直至模型收敛。
进一步的,基于ResT架构搭建Transformer双分支模型,所述ResT架构包括依次级联的Steam模块、stage1模块、stage2模块、stage3模块和stage4模块;每个stage模块均包括一个块嵌入模块、一个位置编码模块和多个高效transformer模块,每个高效transformer模块均由EMSA、FFN以及残差链接构成;从ResT架构中的Steam模块处延伸出一条分支构建辅助分支网络;从ResT架构中的stage1模块到stage4模块各延伸出一条分支,通过这四条分支构建主分支网络。
进一步的,主分支网络中设有一个高级特征融合模块,用于将stage1模块、stage2模块、stage3模块和stage4模块输出的不同尺度的高级特征在解码过程中进行级联融合和跳转连接,具体包括:
S11.stage1模块输出高级特征X1,stage2模块输出高级特征X2,stage3模块输出高级特征X3,stage4模块输出高级特征X4;
S13.对融合特征图X′3上采样后经过卷积单元得到特征X″31,对特征和高级特征X3的乘积上采样后与高级特征X2相乘得到特征X″32,将特征X″32与特征X″31进行拼接后经过卷积单元得到融合特征图X′2;
S14.对融合特征图X′2上采样后经过卷积单元得到特征X″21,对特征X″32上采样后与高级特征X1相乘得到特征X″22,将特征X″22与特征X″21进行拼接后依次经过卷积单元和卷积单元得到第一分割图T1。
进一步的,辅助分支网络中设有组合注意力模块,用于提取Steam模块输出的低级特征X0的细节信息,所述组合注意力模块包括空间注意力机制和通道注意力机制;辅助分支网络的具体处理过程包括:
S21.将训练图像输入到Steam模块提取得到低级特征X0;
S22.通过通道注意力机制处理低级特征X0得到通道特征,将通道特征依次通过ReLU层和1×1卷积层得到原始维度通道特征;
S23.通过空间注意力机制处理原始维度通道特征得到第二分割图。
进一步的,通道注意力机制的处理公式表示为:
Atc(X0)=σ(M1(AvgPool(X0))+M2(MaxPool(X0))
其中,σ(·)表示softmax激活函数,AvgPool(·)表示自适应平均池化,MaxPool(·)表示自适应最大池化,M1、M2表示核大小为1×1的卷积层;
空间注意力机制的处理公式表示为:
进一步的,步骤S4采用信息聚合模块融合第一分割图T1和第二分割图T2得到最终分割图的过程包括:
S32.对经过卷积单元Wg(·)的第二分割图T2应用softmax函数得到特征T′2,计算特征映射K与特征T′2间的Hadamard乘积并进行池化得到特征V;
S33.通过内积建立特征映射K和特征V之间的像素相关性,得到相关注意图F;计算相关注意图F与特征映射Q的乘积并送入图卷积网络得到特征G;
S34.计算相关注意图F与特征G的内积得到重构特征X`,将重构特征X`经过卷积层Wz(·)后与第一分割图T1拼接得到最终分割图。
本发明的有益效果:
本发明提供了一种基于Transformer双分支模型的皮肤病变图像分割方法,该方法基于ResT构建了一个Transformer双分支模型,实现对多尺度高级特征和低级特征地有效挖掘,该模型学习到的多尺度特征更强大、更具鲁棒性,且其能够保持较快的推理速度。
本发明设计的模型包括主分支网络、辅助分支网络和信息聚合模块,辅助分支网络通过空间注意力机制和通道注意力机制,分别学习了空间和通道的重要性,更加关注皮肤病灶区域的细节信息,抑制了无用信息。为了更好地利用多尺度上下文信息,在主分支网络设计了级联融合的方式从高级特征中收集皮肤病灶的语义和位置信息,从而增强解码器的解码能力。最后采用信息聚合模块实现不同级别的特征融合方式,提升了模型对多样、复杂的皮肤病灶图像的表达能力。
本发明还考虑到不同级别特征之间的贡献差异,对双分支网络生成的不同级别的特征图采用了图卷积方法,并且在图卷积下引用了非局部操作,实现信息聚合模块,从而有效地提升了对皮肤病灶区域的分割性能。
附图说明
图1为本发明实施例的ResT架构图;
图2为本发明基于Transformer双分支模型的皮肤病变图像分割方法的流程图;
图3为本发明的Transformer双分支模型的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
南京大学团队在文献ResT:An efficient transformer for visualrecognition[J]中提出了一种高效Transformer架构:ResT,如图1所示,其包括一个Steam模块和4个stage模块,每个stage模块均包括一个块嵌入模块、一个位置编码模块和多个高效transformer模块,每个高效transformer模块均由EMSA、FFN以及残差链接构成;ResT架构采用了类似ResNet的设计思想:Steam模块提取底层特征信息,多个stage模块捕获多尺度特征信息。与此同时,为解决MSA存在的计算量与内存占用问题,提出了EMSA模块进一步降低计算量与内存消耗。所提ResT在图像分类、目标检测以及实例分割等任务均取得了显著的性能提升,比如在ImageNet数据上,在同等计算量前提下,所提方法取得了优于PVT、Swin的优异性能,是一种强力骨干网络。
同时考虑到依赖于低级特征(如纹理、几何特征、简单的线性迭代聚类超像素等)的分割方法往往分割性能低质量、泛化能力较差,且传统的神经网络CNN学习全局上下文信息能力有限。本发明实例提出了一种基于Transformer双分支模型的皮肤病变图像分割方法,该方法中将ResT和U-net结构网络作为基本框架搭建Transformer双分支模型,训练Transformer双分支模型,将待处理图像输入到训练好的Transformer双分支模型中得到分割结果。
具体地,如图2所示,所述Transformer双分支模型的训练过程包括:
S1.获取皮肤病变图像数据集,如ISBI2017数据集,并进行预处理得到训练图像集;
S2.将训练图像输入到辅助分支网络提取低级特征并输出第二分割图;
S3.将辅助分支网络提取的低级特征输入到主分支网络提取出多尺度的高级特征,并输出第一分割图;
S4.采用信息聚合模块融合第一分割图和第二分割图得到最终分割图;
S5.通过最终损失函数计算损失并反向传播训练Transformer双分支模型,直至模型收敛。
在一实施例中,Transformer双分支模型的具体结构如图3所示,本实施例采用ResT架构作为主干编码器,该ResT架构包括依次级联的Steam模块、stage1模块、stage2模块、stage3模块和stage4模块;然后从Steam模块处延伸出一条分支构建辅助分支网络;从stage1模块到stage4模块各延伸出一条分支,通过这四条分支构建主分支网络。
具体地,主分支网络中设有一个高级特征融合模块AFFM,用于将stage1模块、stage2模块、stage3模块和stage4模块输出的不同尺度的高级特征在解码过程中进行级联融合和跳转连接,具体包括:
S11.输入大小为H×W×C的训练图像,H表示训练图像的高,W表示训练图像的宽,C表示训练图像的通道数。stage1模块输出大小为的高级特征X1,stage2模块输出大小为的高级特征X2,stage3模块输出大小为的高级特征X3,stage4模块输出大小为的高级特征X4;
S12.将高级特征X4上采样得到大小为的上采样结果,将该上采样结果分别经过卷积单元和得到特征和特征将特征和高级特征X3的乘积与特征进行拼接,通过卷积单元平滑处理该拼接结果得到大小为的融合特征图X3′,用公式表示为:
其中,表示Hadamard乘积运算,Contact表示沿特征通道维度进行拼接,Upsample(·)表示上采样,卷积单元和都是卷积核大小为3×3、padding设置为1、含有批归一化和ReLU的卷积层。
S13.将融合特征图X′3上采样放大到后经过卷积单元得到特征X″31,对特征和高级特征X3的乘积上采样放大到后与高级特征X2相乘得到特征X″32,将特征X″32与特征X″31进行拼接后经过卷积单元得到大小为的融合特征图X′2,用公式表示为:
S14.将融合特征图X′2上采样放大到后经过卷积单元得到特征X″21,对特征X″32上采样放大到后与高级特征X1相乘得到特征X″22,将特征X″22与特征X″21进行拼接后依次经过卷积单元卷积单元得到大小为的第一分割图T1,用公式表示为:
具体地,为了充分提取皮肤病变区域的细节信息,辅助分支网络中设有组合注意力模块LFM,用于提取Steam模块输出的低级特征X0各个维度的细节信息,所述组合注意力模块LEM包括空间注意力机制和通道注意力机制,主要在空间和通道两个维度上推断出注意力权重系数;辅助分支网络的具体处理过程包括:
S22.通过通道注意力机制处理低级特征X0得到通道特征,将通道特征依次通过ReLU层和1×1卷积层来恢复原始通道维度得到原始维度通道特征;通道注意力机制的处理公式表示为:
Atc(X0)=σ(M1(AvgPool(X0))+M2(MaxPool(X0)) (10)
其中,σ(·)表示softmax激活函数,AvgPool(·)表示自适应平均池化,MaxPool(·)表示自适应最大池化;M1、M2表示核大小为1×1的卷积层,用于将通道数降低16倍。
S23.通过空间注意力机制处理原始维度通道特征得到第二分割图T2;空间注意力机制的处理公式表示为:
具体地,信息聚合模块IAM采用图卷积去挖掘来自双分支网络中不同语义级别的信息的关联性,同时为了更好地融合不同语义级别的信息,本实施例在图卷积中引用了非局部操作来实现信息聚合,通过全局注意力将皮肤病的细节信息注入到高级信息中,具体过程包括:
Q=Wθ(T1) (12)
这里的线性映射函数选用核大小为1×1的卷积运算。
S32.采用卷积单元Wg(·)将第二分割图T2的通道维度减少到32,然后在通道维度上应用softmax函数得到大小为的特征T′2,计算特征映射K与特征T′2间的Hadamard乘积,这是为不同像素分配不同权重,从而增加边缘像素权重,最后进行池化得到特征V;用公式表示为:
其中,AP(·)表示池化。
S33.通过内积建立特征映射K和特征V之间的像素相关性,得到相关注意图F;计算相关注意图F与特征映射Q的乘积并送入图卷积网络得到特征G;公式表示为:
S34.计算相关注意图F与特征G的内积得到重构特征X`,通过核大小为1×1的卷积层Wz(·)将重构特征X`的通道维度调整到与第一分割图T1相同,然后与第一分割图T1拼接得到大小为的最终分割图Z,公示表示为:
Z=T1+Wz(X`) (17)
其中,表示加权交并比(IoU)损失,表示加权二元交叉熵(BCE)损失,G1表示预测的第二分割图所对应的真实值,G2表示预测的最终分割图所对应的真实值,P1和P2分别表示预测的第一分割图和最终分割图。加权BCE损失函数考虑每个像素的重要性,并为硬像素分配更高的权重,而加权IoU损失函数更关注硬像素,使得最终损失函数在全局结构和局部细节方面约束预测图。
本发明设计的Transformer双分支模型有助于对多样、复杂的皮肤病灶图像进行有效地特征提取。具体来说,主分支网络注重于对上下文信息的学习,全局信息的关注,由于不同尺度的高级特征存在级别差异,在主分支网络中设计了高级特征融合模块,实现对高级特征的级联融合,增强了解码器的解码能力。同时辅助分支网络侧重于挖掘皮肤病灶区域的细节信息,并对来自辅助分支网络的低级特征采用了空间注意力机制和通道注意力机制,从而分别学习了空间和通道的重要性,更加关注皮肤病灶区域的细节信息,抑制无用信息,一定程度上解决图像噪声的问题。最后本发明设计了信息聚合模块,采用图卷积方法实现,探索来自主分支网络较高级别特征和辅助分支网络较低级别特征间的关系,该模块能有效地将皮肤病灶区域的低级信息和高级信息进行融合,提升了模型的分割性能。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种基于Transformer双分支模型的皮肤病变图像分割方法,其特征在于,构建并训练Transformer双分支模型,将待处理图像输入到训练好的Transformer双分支模型中得到分割结果;所述Transformer双分支模型包括主分支网络、辅助分支网络和信息聚合模块;
所述Transformer双分支模型的训练过程包括:
S1.获取皮肤病变图像数据集并进行预处理得到训练图像集;
S2.将训练图像输入到辅助分支网络提取低级特征并输出第二分割图;
S3.将辅助分支网络提取的低级特征输入到主分支网络提取出多尺度的高级特征,并输出第一分割图;
S4.采用信息聚合模块融合第一分割图和第二分割图得到最终分割图;
S5.通过最终损失函数计算损失并反向传播训练Transformer双分支模型,直至模型收敛。
2.根据权利要求1所述的一种基于Transformer双分支模型的皮肤病变图像分割方法,其特征在于,基于ResT架构搭建Transformer双分支模型,所述ResT架构包括依次级联的Steam模块、stage1模块、stage2模块、stage3模块和stage4模块;每个stage模块均包括一个块嵌入模块、一个位置编码模块和多个高效transformer模块,每个高效transformer模块均由EMSA、FFN以及残差链接构成;从ResT架构中的Steam模块处延伸出一条分支构建辅助分支网络;从ResT架构中的stage1模块到stage4模块各延伸出一条分支,通过这四条分支构建主分支网络。
3.根据权利要求2所述的一种基于Transformer双分支模型的皮肤病变图像分割方法,其特征在于,主分支网络中设有一个高级特征融合模块,用于将stage1模块、stage2模块、stage3模块和stage4模块输出的不同尺度的高级特征在解码过程中进行级联融合和跳转连接,具体包括:
S11.stage1模块输出高级特征X1,stage2模块输出高级特征X2,stage3模块输出高级特征X3,stage4模块输出高级特征X4;
S13.对融合特征图X3′上采样后经过卷积单元得到特征X3″1,对特征和高级特征X3的乘积上采样后与高级特征X2相乘得到特征X3″2,将特征X3″2与特征X3″1进行拼接后经过卷积单元得到融合特征图X2′;
4.根据权利要求1或2任一一项所述的一种基于Transformer双分支模型的皮肤病变图像分割方法,其特征在于,辅助分支网络中设有组合注意力模块,用于提取Steam模块输出的低级特征X0的细节信息,所述组合注意力模块包括空间注意力机制和通道注意力机制;辅助分支网络的具体处理过程包括:
S21.将训练图像输入到Steam模块提取得到低级特征X0;
S22.通过通道注意力机制处理低级特征X0得到通道特征,将通道特征依次通过ReLU层和1×1卷积层得到原始维度通道特征;
S23.通过空间注意力机制处理原始维度通道特征得到第二分割图。
6.根据权利要求1所述的一种基于Transformer双分支模型的皮肤病变图像分割方法,其特征在于,步骤S4采用信息聚合模块融合第一分割图T1和第二分割图T2得到最终分割图的过程包括:
S32.对经过卷积单元Wg(·)的第二分割图T2应用softmax函数得到特征T2′,计算特征映射K与特征T2′间的Hadamard乘积并进行池化得到特征V;
S33.通过内积建立特征映射K和特征V之间的像素相关性,得到相关注意图F;计算相关注意图F与特征映射Q的乘积并送入图卷积网络得到特征G;
S34.计算相关注意图F与特征G的内积得到重构特征X`,将重构特征X`经过卷积层Wz(·)后与第一分割图T1拼接得到最终分割图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310128980.2A CN116128898A (zh) | 2023-02-17 | 2023-02-17 | 一种基于Transformer双分支模型的皮肤病变图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310128980.2A CN116128898A (zh) | 2023-02-17 | 2023-02-17 | 一种基于Transformer双分支模型的皮肤病变图像分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116128898A true CN116128898A (zh) | 2023-05-16 |
Family
ID=86306153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310128980.2A Pending CN116128898A (zh) | 2023-02-17 | 2023-02-17 | 一种基于Transformer双分支模型的皮肤病变图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116128898A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116721112A (zh) * | 2023-08-10 | 2023-09-08 | 南开大学 | 基于双分支解码器网络的水下伪装物体图像分割方法 |
CN116934754A (zh) * | 2023-09-18 | 2023-10-24 | 四川大学华西第二医院 | 基于图神经网络的肝脏影像识别方法及装置 |
CN117994279A (zh) * | 2024-04-07 | 2024-05-07 | 齐鲁工业大学(山东省科学院) | 一种全面特征融合的闭合轮廓提取的方法 |
-
2023
- 2023-02-17 CN CN202310128980.2A patent/CN116128898A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116721112A (zh) * | 2023-08-10 | 2023-09-08 | 南开大学 | 基于双分支解码器网络的水下伪装物体图像分割方法 |
CN116721112B (zh) * | 2023-08-10 | 2023-10-24 | 南开大学 | 基于双分支解码器网络的水下伪装物体图像分割方法 |
CN116934754A (zh) * | 2023-09-18 | 2023-10-24 | 四川大学华西第二医院 | 基于图神经网络的肝脏影像识别方法及装置 |
CN116934754B (zh) * | 2023-09-18 | 2023-12-01 | 四川大学华西第二医院 | 基于图神经网络的肝脏影像识别方法及装置 |
CN117994279A (zh) * | 2024-04-07 | 2024-05-07 | 齐鲁工业大学(山东省科学院) | 一种全面特征融合的闭合轮廓提取的方法 |
CN117994279B (zh) * | 2024-04-07 | 2024-06-07 | 齐鲁工业大学(山东省科学院) | 一种全面特征融合的闭合轮廓提取的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112329800B (zh) | 一种基于全局信息引导残差注意力的显著性目标检测方法 | |
Xia et al. | A novel improved deep convolutional neural network model for medical image fusion | |
CN113888744B (zh) | 一种基于Transformer视觉上采样模块的图像语义分割方法 | |
CN116128898A (zh) | 一种基于Transformer双分支模型的皮肤病变图像分割方法 | |
CN112258526B (zh) | 一种基于对偶注意力机制的ct肾脏区域级联分割方法 | |
CN115482241A (zh) | 一种跨模态双分支互补融合的图像分割方法及装置 | |
CN112949838B (zh) | 基于四分支注意力机制的卷积神经网络及图像分割方法 | |
CN110969124A (zh) | 基于轻量级多分支网络的二维人体姿态估计方法及*** | |
CN112819910A (zh) | 基于双鬼注意力机制网络的高光谱图像重建方法 | |
CN116309648A (zh) | 一种基于多注意力融合的医学图像分割模型构建方法 | |
Chen et al. | MICU: Image super-resolution via multi-level information compensation and U-net | |
CN111583285A (zh) | 一种基于边缘关注策略的肝脏影像语义分割方法 | |
CN113706545A (zh) | 一种基于双分支神经判别降维的半监督图像分割方法 | |
CN111161271A (zh) | 一种超声图像分割方法 | |
CN116935044B (zh) | 一种多尺度引导和多层次监督的内镜息肉分割方法 | |
CN114399510B (zh) | 结合图像和临床元数据的皮肤病灶分割和分类方法及*** | |
CN116452930A (zh) | 降质环境下基于频域增强的多光谱图像融合方法与*** | |
Zhang et al. | Remote sensing image generation based on attention mechanism and vae-msgan for roi extraction | |
Tang et al. | HTC-Net: A hybrid CNN-transformer framework for medical image segmentation | |
Dinh et al. | 1M parameters are enough? A lightweight CNN-based model for medical image segmentation | |
Zhou et al. | Super-resolution image visual quality assessment based on structure–texture features | |
Li et al. | Low-light hyperspectral image enhancement | |
Gao et al. | LEGAN: A Light and Effective Generative Adversarial Network for medical image synthesis | |
CN116434343B (zh) | 基于高低频双支路的视频动作识别方法 | |
CN117828333A (zh) | 一种基于信号混合增强和cnn的电缆局放特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |