CN115526829A - 基于ViT与上下文特征融合的蜂窝肺病灶分割方法及网络 - Google Patents

基于ViT与上下文特征融合的蜂窝肺病灶分割方法及网络 Download PDF

Info

Publication number
CN115526829A
CN115526829A CN202210907330.3A CN202210907330A CN115526829A CN 115526829 A CN115526829 A CN 115526829A CN 202210907330 A CN202210907330 A CN 202210907330A CN 115526829 A CN115526829 A CN 115526829A
Authority
CN
China
Prior art keywords
convolution
channel
layer
feature
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210907330.3A
Other languages
English (en)
Inventor
张玲
李钢
卫建建
贺艺斌
孙梦霞
孙源瑾
李智超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN202210907330.3A priority Critical patent/CN115526829A/zh
Publication of CN115526829A publication Critical patent/CN115526829A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30061Lung

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了基于ViT与上下文特征融合的蜂窝肺病灶分割方法及网络,属于图像处理技术领域;本发明网络可实现更高精度分割蜂窝肺病灶部位;利用通道混合卷积块增加不同通道之间信息的交互,充分提取病灶部位特征信息;采用Transformer架构作为编码器与解码器的特征连接器,增强全局信息的特征表达,扩大网络的感受野;采用CFB模块融合多阶段的特征,减少高级特征与低级特征之间的语义差距,提高病灶部位与目标边缘的分割精度;本发明应用于蜂窝肺病灶分割。

Description

基于ViT与上下文特征融合的蜂窝肺病灶分割方法及网络
技术领域
本发明提供了基于ViT与上下文特征融合的蜂窝肺病灶分割方法及网络,属于图像处理技术领域。
背景技术
间质性肺疾病是一种致死率高、隐匿性强且具破坏性的弥漫性肺疾病,因其在CT图像表现为部分肺间质蜂窝状且高密度影,因此也称“蜂窝肺”。目前,临床上对间质性肺疾病的诊断大部分还是依靠专业放射科医生完成,对患者的肺部CT影像分析是否有蜂窝肺。随着临床影像数据的大量增加,我国放射科专业医生相较庞大的人口数量出现严重短缺;在病情诊断过程中,专业医生根据已具备的知识经验对CT影像进行人工肉眼识别,但大量的脑力劳动与长时间的工作容易产生视觉疲劳和视觉误差,导致诊断结果具有较高的主观性,甚至出现误诊、漏诊的情况,从而增加病患后期治疗的难度。因此,利用图像分割方法对蜂窝肺进行自动分割,辅助医生对患者的病情程度进行精准诊断,提高医生在诊疗中的准确率和阅片效率,从而为指导临床决策和预后治疗提供合适的方案,具有十分重要的临床价值。
近年来,得益于深度学习强大的特征表达能力和对复杂任务建模能力,基于CNN的方法广泛地用于医学图像处理领域,尤其是由跳跃连接和编码器-解码器组成的 U 形卷积神经网络,在医学图像分割方面取得了显著的性能。Ronneberger等人采用“全卷积”的思想,首次提出一种用于医学影像分割的编码器-解码器网络模型——UNet,使用跳跃连接将上采样阶段的高级特征与下采样阶段的低层特征融合,在三个医学数据集上获得较好的分割结果。为解决医学图像不同尺度的问题,IBTEHAZ等人提出MultiResUNet网络用于皮肤病的分割,采用残差学习的思想,构建多残差卷积模块、残差路径引入UNet网络,提高训练效果。Sharp U-Net应用锐化的卷积核生成中间特征图代替U型网络中的跳跃连接,解决语义差距导致的过分割问题,在肺、新冠肺炎等数据集上表现出更佳的分割性能。为了获取更精确的边缘信息,ALOM等人提出一种基于循环神经网络的R2U-Net模型,使用循环残差卷积层进行特征积累,网络参数量不变的同时,在视网膜分割任务中具备更好的性能。HDA-ResUNet网络采用包含通道注意力机制的扩张卷积层替换UNet中的底部的卷积层,融合不同大小感受野的信息,解决网络中多尺度信息缺失的问题。在UNet的基础上,UNet++采用改进的密集跳跃连接融合深浅层不同层次的特征信息,减小编码器与解码器特征图之间的语义差距。Chen等人提出Encoder-Decoder结构的DeepLabv3+模型,通过引入空洞卷积、空间金字塔池化增大图像感受野,提取更加丰富的上下文信息。为了解决卷积过程中空间特征信息易丢失的问题,GU等人提出用于医学图像分割的CE-Net模型,利用融合稠密卷积块的上下文连接器生成更多的语义特征图。同样地,基于编码器-解码器结构的CA-Net提出联合空间注意力模块和尺度注意模块,利用注意力机制重新校准通道特征响应,增强相关特征通道的表达。以上基于CNN的方法都属于基于UNet网络的变体,且在众多医学数据集上出色的分割表现已充分证明UNet网络在医学分割领域的适用性,因此,本发明将UNet网络作为基础模型用于分割蜂窝肺。
上述工作主要解决网络特征提取过程中特征提取不充分、多尺度信息缺失问题,虽然基于编码器-解码器结构的CNN方法在图像局部特征的提取方面具有很大的优势,但全卷积网络中传统的卷积堆积操作导致特征冗余,影响分割效果;且大多数编码器-解码器结构的网络只对编码器特征图进行重新校准操作,没有考虑到解码器特征图中包含的深层语义信息对边缘信息提取的重要性,丢失细节信息。同时,由于单个卷积核的感受野有限,网络只关注图像中的某个子区域,很难对图像中上下文关系进行建模。卷积操作的限制对于学习图像中全局信息提出了挑战,尤其是对于语义分割等像素级任务至关重要。
最近,Transformer的出现打破了CNN在计算机视觉任务中的绝对地位,其中,ViT属于Transformer的众多变体之一,其在医学图像分割任务中表现出色。Chen等人提出TransUNet网络用于多器官的分割,使用ViT替代普通卷积块作为分割网络的编码器基础模块,利用Transformer优秀的全局信息建模能力,实现病灶部位的精确定位。为了更加精准地分割目标边缘,Medical Transformer使用门控轴向Transformer模块获取更加精确的位置信息。因此,基于Transformer架构的医学分割网络能够通过建立图像中的全局关系,充分提取全局特征,高质量地完成医学目标的分割任务。
发明内容
本发明为了克服现有技术中存在的不足,所要解决的技术问题为:提供一种基于ViT与上下文特征融合的蜂窝肺病灶分割方法的改进。
为了解决上述技术问题,本发明采用的技术方案为:基于ViT与上下文特征融合的蜂窝肺病灶分割方法,包括如下步骤:
S1:获取蜂窝肺CT影像数据,对原始图像进行数据预处理,并将预处理后的数据集分为训练集与测试集;
S2:构建基础UNet网络,包括下采样的编码器、上采样的解码器、跳跃连接与瓶颈层;
S3:对构建的基础UNet网络进行改进,改变网络上采样层、下采样层中的卷积操作,利用通道混合卷积块代替传统卷积结构;
其中通道混合卷积块对特征图分离后分为两个分支S1、S2,分支S1保持特征图与通道数不变,对分支S2进行卷积,之后,对经过卷积操作的特征图与分支S1的特征图进行融合;最后,采取通道混合操作交换特征图各个通道之间的信息,获得的特征图与上层特征图大小相同,对获取的特征图再次进行通道分离、分支卷积、通道拼接与通道混合操作;
S4:在网络的瓶颈层中,利用基于ViT的上下文连接器对图像中各个像素点之间的全局关系进行建模,使用ViT代替高通道的卷积模块;
S5:使用上下文感知融合模块改进跳跃连接部分低级与高级特征的特征融合方案,对特征重新学习;
S6:定义分割模型的超参数,利用S1处理后的数据集进行训练,得到损失函数的损失值和分割结果;
S7:根据结果调整网络参数,生成并保存训练好的病灶分割模型,将测试集数据输入至训练好的病灶分割模型,对蜂窝肺CT图像病灶进行分割,输出分割结果。
所述基于ViT的上下文连接器中采用六个Transformer编码块提取图像中的全局信息,其中,ViT包括四个部分:
(1)切片嵌入:通过将原始的二维图像转化为一维的序列数据,根据编码器的输出图像,设置切片的尺寸,图像转化为多个切片,算出切片的维度;
(2)位置编码:给每个切片标记其相对应的位置信息以便恢复图像的维度,位置信息与切片嵌入的输出保持一致,保存每个切片正确的位置信息,计算其维度;
(3)Transformer编码块中的多头注意力机制:经过图像切片化与位置编码信息的建立阶段后,将图像的切片信息输入Transformer 编码块中,学习切片与切片之间、每个切片中的每个像素之间的关系,对全局信息进行上下文建模;该部分的多头注意力层接收切片与位置编码信息,通过使用多个注意力头在不同的子空间学习更多相关的信息,利用不同的权重矩阵对每一个注意力头中的Q、K初始化,对多头注意力层学习的全局特征采取Dropout操作,使用归一化层修改特征维度适应后续输出,加速模型的收敛速度;
(4)Transformer编码块中的多层感知机层:这一部分采用MLP块学习特征之间的非线性关系;在每个子层均使用残差连接和层归一化操作。
所述上下文感知融合模块接收来自编码器的低级特征与解码器的高级特征,第一步,先采用GAP(全局平均池化操作)生成具有全局空间信息的特征图,通过利用共享权重的多层感知机对低级与高级特征图中的上下文信息进行建模生成向量h与l,其中,h、l分别表示高级、低级特征图中的权重向量;第二步,采用残差学习的思想,权重向量与两个特征图相乘生成重分布的特征图,接着按通道维度进行拼接操作,生成包含局部和高层次阶段的全局上下文信息的特征图;第三步,采用两个3*3卷积用于实现加权特征融合,使用残差连接接受来自高级特征的信息。
所述编码器包含四个通道混合卷积块,用于提取图像的高层特征与低层特征信息,每个通道混合卷积块包含2个卷积层、批归一化层和修正线性单元ReLU,每个通道混合卷积块提取的特征图包含两个通路,第一条通路接最大池化层对特征图进行下采样操作传入下一个卷积块;另一条通路进入跳跃连接路径。
所述解码器包含4个与编码器相同的通道混合卷积块,每个通道混合卷积块包含2层卷积计算,批归一化与Relu激活函数,每个通道混合卷积块之后利用反卷积对特征图进行上采样,经过转置卷积操作的特征图扩充至2倍大小。
基于ViT与上下文特征融合的蜂窝肺病灶分割网络,包括编码器、解码器和设置在网络瓶颈层的基于ViT的上下文连接器、设置在跳跃连接阶段的四个上下文感知融合模块,编码器包括四个下采样模块,解码器包括四个上采样模块,下采样模块与上采样模块中均包括通道混合卷积块,每个通道卷积混合块包含2个卷积层、批归一化层和修正线性单元ReLU,下采样模块中的每个通道混合卷积块提取的特征图包含两个通路,第一条通路接最大池化层对特征图进行下采样操作传入下一个卷积块;另一条通路进入跳跃连接路径,上采样模块中的每个通道混合卷积块之后利用反卷积对特征图进行上采样,经过转置卷积操作的特征图扩充至2倍大小;
在网络的瓶颈层,采取ViT将特征图切片化,计算特征图中的全局关系;
在跳跃连接阶段,将编码器中四个通道卷积混合块得到的特征图与上采样后的特征图分别输入含有上下文感知融合模块的路径进行特征增强操作。
所述通道卷积混合块包括通道分离模块、通道拼接模块和通道混合模块,其中通道分离模块包括两个分支S1、S2,分支S1保持特征图与通道数不变,对分支S2进行卷积,两个分支输出的特征图经过通道拼接模块和通道混合模块,每个通道卷积混合块进行两次的通道分离、通道拼接、通道混合操作输出特征图。
所述基于ViT的上下文连接器包括切片嵌入模块、位置编码模块、六个Transformer编码块,每个Transformer编码块包含多头注意力机制模块和多层感知机模块,所述切片嵌入模块和位置编码模块位于ViT模块的开始部分,切片嵌入模块将原始二维图像转化为多个切片的一维序列数据,位置编码模块给每个切片标记相对应的位置信息,所述多头注意力机制模块位于Transformer编码块的前半部分,接收切片与位置编码信息,包括多个注意力头、Dropout操作和归一化层,所述多层感知机模块位于Transformer编码块的后半部分,包括多层感知机层和归一化层。
所述上下文感知融合模块包括并行的两个全局平均池化层、多层感知机层、卷积块,两个并行的全局平均池化层分别接收来自编码器的低级特征与解码器的高级特征生成具有全局空间信息的特征图,多层感知机利用共享权重对低级与高级特征图中的上下文信息进行建模生成权重向量,权重向量与两个特征图相乘生成重分布的特征图并按通道维度进行拼接操作,生成包含局部和高层次阶段的全局上下文信息的特征图,采用卷积块中的两个3*3卷积实现加权特征融合。
本发明相对于现有技术具备的有益效果为:本发明基于深度学习技术,提出了一种结合通道混合卷积块、ViT与上下文感知融合模块的U型图像分割网络(CSC-UTNet)用于蜂窝肺分割,有效改善病灶部位边缘信息的丢失问题,减少过分割现象的发生。模型利用通道混合卷积块增加不同通道之间信息的交互,充分提取蜂窝肺病灶部位的特征信息;采用ViT作为编码器与解码器的特征连接器,增强全局信息的特征表达,扩大网络的感受野;采用上下文感知融合模块融合多阶段的特征,减少高级特征与低级特征之间的语义差距,提高病灶边缘的分割精度。通过在蜂窝肺数据集上进行消融实验,CSC-UTNet在相似交并比、Dice系数、mIoU、mDice等评价指标上均达到较优的效果,泛化性更强,具有更高的分割精度。
附图说明
下面结合附图对本发明做进一步说明:
图1为本发明的流程示意图;
图2为本发明的网络结构示意图;
图3为本发明通道混合卷积块在上采样阶段的结构示意图;
图4为本发明基于ViT的上下文连接器的结构示意图;
图5为本发明Transformer编码块中多头注意力机制的计算过程示意图;
图6为本发明上下文感知融合模块的结构示意图。
具体实施方式
如图1至图6所示,本发明基于ViT与上下文特征融合的蜂窝肺病灶分割方法主要改进点在于:
(1)提出一种轻型的通道混合卷积块,减少部分特征通道的卷积计算,防止过多的冗余特征降低分割准确性;
(2)在网络瓶颈层引入ViT作为编码器与解码器的特征连接器,增强全局信息的特征表达,提高病灶区域的分割精度;
(3)采用上下文感知融合模块重建编码器中的特征分布,减少由于接受域的不匹配而产生的语义间隙,增强编码器与解码器语义关联性,实现语义匹配的上下文特征融合。
本发明采用UNet网络作为蜂窝肺分割的基准分割网络,该网络由编码器与解码器组成,瓶颈层与跳跃连接模块分别采用高通道卷积与特征相加的方式连接着编码器与解码器。本发明提出的医学图像分割网络CSC-UTNet结构如图2所示。具体地,编码器包含四个通道混合卷积块,用于提取图像的高层特征与低层特征信息。每个卷积块包含2个卷积层、批归一化层(Batch Normalization)和修正线性单元ReLU,每个卷积块提取的特征图包含两个通路,第一条通路接最大池化层对特征图进行下采样操作传入下一个卷积块;另一条通路进入跳跃连接路径。与编码器类似,在解码器中,有4个相同的卷积块,每个卷积块包含2层卷积计算,批归一化与Relu激活函数。每个卷积块之后利用反卷积对特征图进行上采样,经过转置卷积操作的特征图扩充至2倍大小。在网络的瓶颈层,采取ViT将特征图切片化,提高切片特征中全局信息的交互。在跳跃连接阶段,将编码器中四个卷积块得到的特征图与上采样后的特征图一一对应,分别输入含有上下文感知融合模块的路径进行特征增强操作,通过改进低级和高级特征的特征融合方案,弥补特征之间的语义差距。在特征融合过程中,使用拼接操作保留更多有利的特征,避免直接相加操作造成原始特征的丢失,影响分割结果。
下面依次介绍本发明改进的网络部分。
通道混合卷积块:在目前的主流分割模型中,许多网络使用高层通道卷积提取图像深层的抽象特征,以获取更好的分割结果。但大量的卷积层堆叠会增加模型的计算量,尤其通道数的增加会导致参数量过大。因此,本发明提出了新的通道混合卷积块,其结构如图3所示。该模块在对特征图分离后分为两个分支S1、S2,分支S1保持特征图与通道数不变,对分支S2进行卷积,此时分支S2的卷积计算量相比原有网络中的普通卷积减少了1/1-r倍;之后,对经过卷积操作的特征图与分支S1的特征图进行融合;最后,对其采取通道混合操作交换特征图各个通道之间的信息,增强特征图不同组之间信息的交互。此时,获得的特征图与上层特征图大小相同,对获取的特征图再次进行通道分离、分支卷积、通道拼接与通道混合操作。最后,使用平均池化层对特征图M进行图像的下采样操作,输出的特征图作为下一个通道混合卷积块的输入。通道混合与通道spilt操作不但能够有效减少卷积过程中的计算量,还可以增加不同信道之间信息的交互,有效地提取病灶部位的局部特征信息,防止特征冗余造成计算资源的浪费。
基于ViT的上下文连接器:当前,许多现有分割模型使用卷积操作进行特征提取,虽然其局部特征提取能力较强,但其固定的卷积核大小会影响图像的感受野,且多次的卷积操作导致全局信息丢失和局部特征冗余的情况发生;同时,由于蜂窝肺病灶边缘不规则且模糊,导致CNN对其特征提取不充分,边缘信息容易丢失。针对上述问题,为了构建更加关注全局信息、感受野更大的特征提取器,本发明将ViT引入U型网络的瓶颈层,通过丰富网络不同子空间中的编码表示信息,扩大图像的全局感受野,将获取的全局信息与编码器的局部信息进行融合,提取更多有效的特征信息。
为了保证不增加过多的计算消耗的同时提高模型的性能,本发明的基于ViT的上下文连接器中采用六个Transformer编码块提取图像中的全局信息,为U型网络解码器部分的学习提供更加有利的特征。基于ViT的上下文连接器的模型结构如图4和图5所示,主要包含四个部分:
(1)切片嵌入。通过将原始的二维图像转化为一维的序列数据,将视觉任务转化为NLP问题。由于ViT的位置在U型网络的瓶颈层,此时编码器的输出图像大小为X∈RC×H×W,设置切片的尺寸为patch∈Rp×p,图像转化为(H/p×W/p)个切片,此时切片的维度大小为xp i∈RN×(p×p×C)(此处N指切片数量)。
(2)位置编码。该部分是给每个切片标记其相对应的位置信息以便恢复图像的维度,保证图像的结构不被破坏。同样的,位置信息与切片嵌入的输出保持一致,保存每个切片正确的位置信息,维度为Epos∈R(p2∙C)×D)(此处D表示线性映射层的维度)。
(3)Transformer编码块中的多头注意力机制。经过图像切片化与位置编码信息的建立阶段后,将图像的切片信息输入Transformer 编码块中,学习切片与切片之间、每个切片中的每个像素之间的关系,对全局信息进行上下文建模。该部分的多头注意力层接收切片与位置编码信息,本发明设置4个注意力头,通过使用多个注意力头在不同的子空间学习更多相关的信息,利用不同的权重矩阵对每一个注意力头中的Q、K初始化,表达出更多不同的特征;为防止过拟合现象的发生,对多头注意力层学习的全局特征采取Dropout操作,使用归一化层修改特征维度适应后续输出,加速模型的收敛速度。
(4)Transformer编码块中的多层感知机层。这一部分采用MLP块学习特征之间的非线性关系;同样地,为防止梯度消失或者梯度***并加快模型收敛,在每个子层均使用残差连接和层归一化操作。因此,Transformer编码块的计算过程如公式(1)至(3)所示。
Figure 429836DEST_PATH_IMAGE002
(1)
Figure 596244DEST_PATH_IMAGE004
(2)
Figure 94091DEST_PATH_IMAGE006
(3)
上式中:
Figure DEST_PATH_IMAGE007
和E分别表示切片大小与线性投射的输出层,
Figure 145809DEST_PATH_IMAGE008
表示表示各个切片的位置信息,
Figure 101127DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
分别表示多头注意力层与MLP层的输出。
上下文感知融合模块:在传统的U型网络中,对编码器、解码器的特征直接连接进行低级语义信息与高级抽象特征融合,忽略特征之间的上下文关系,弱化重要特征的表达。本发明的网络引入上下文感知融合模块,重构跳跃连接结构,该模块利用残差学***均池化操作)对生成具有全局空间信息的特征图,通过利用共享权重的多层感知机对低级与高级特征图中的上下文信息进行建模生成向量h与l,其中,h、l分别表示高级、低级特征图中的权重向量;第二步,采用残差学习的思想,权重向量与两个特征图相乘生成重分布的特征图Fl、Fh,接着按通道维度进行拼接操作,生成包含局部和高层次阶段的全局上下文信息的特征图;第三步,采用两个3*3卷积用于实现加权特征融合,使用残差连接接受来自高级特征的信息,从而捕获更多的有效特征。
关于本发明具体结构需要说明的是,本发明采用的各部件模块相互之间的连接关系是确定的、可实现的,除实施例中特殊说明的以外,其特定的连接关系可以带来相应的技术效果,并基于不依赖相应软件程序执行的前提下,解决本发明提出的技术问题,本发明中出现的部件、模块、具体元器件的型号、相互间连接方式以及,由上述技术特征带来的常规使用方法、可预期技术效果,除具体说明的以外,均属于本领域技术人员在申请日前可以获取到的专利、期刊论文、技术手册、技术词典、教科书中已公开内容,或属于本领域常规技术、公知常识等现有技术,无需赘述,使得本案提供的技术方案是清楚、完整、可实现的,并能根据该技术手段重现或获得相应的实体产品。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.基于ViT与上下文特征融合的蜂窝肺病灶分割方法,其特征在于:包括如下步骤:
S1:获取蜂窝肺CT影像数据,对原始图像进行数据预处理,并将预处理后的数据集分为训练集与测试集;
S2:构建基础UNet网络,包括下采样的编码器、上采样的解码器、跳跃连接与瓶颈层;
S3:对构建的基础UNet网络进行改进,改变网络上采样层、下采样层中的卷积操作,利用通道混合卷积块代替传统卷积结构;
其中通道混合卷积块对特征图分离后分为两个分支S1、S2,分支S1保持特征图与通道数不变,对分支S2进行卷积,之后,对经过卷积操作的特征图与分支S1的特征图进行融合;最后,采取通道混合操作交换特征图各个通道之间的信息,获得的特征图与上层特征图大小相同,对获取的特征图再次进行通道分离、分支卷积、通道拼接与通道混合操作;
S4:在网络的瓶颈层中,利用基于ViT的上下文连接器对图像中各个像素点之间的全局关系进行建模,使用ViT代替高通道的卷积模块;
S5:使用上下文感知融合模块改进跳跃连接部分低级与高级特征的特征融合方案,对特征重新学习;
S6:定义分割模型的超参数,利用S1处理后的数据集进行训练,得到损失函数的损失值和分割结果;
S7:根据结果调整网络参数,生成并保存训练好的病灶分割模型,将测试集数据输入至训练好的病灶分割模型,对蜂窝肺CT图像病灶进行分割,输出分割结果。
2.根据权利要求1所述的基于ViT与上下文特征融合的蜂窝肺病灶分割方法,其特征在于:所述基于ViT的上下文连接器采用六个Transformer编码块提取图像中的全局信息,其中,ViT包括四个部分:
(1)切片嵌入:通过将原始的二维图像转化为一维的序列数据,根据编码器的输出图像,设置切片的尺寸,图像转化为多个切片,算出切片的维度;
(2)位置编码:给每个切片标记其相对应的位置信息以便恢复图像的维度,位置信息与切片嵌入的输出保持一致,保存每个切片正确的位置信息,计算其维度;
(3)Transformer编码块中的多头注意力机制:经过图像切片化与位置编码信息的建立阶段后,将图像的切片信息输入Transformer 编码块中,学习切片与切片之间、每个切片中的每个像素之间的关系,对全局信息进行上下文建模;该部分的多头注意力层接收切片与位置编码信息,通过使用多个注意力头在不同的子空间学习更多相关的信息,利用不同的权重矩阵对每一个注意力头中的Q、K初始化,对多头注意力层学习的全局特征采取Dropout操作,使用归一化层修改特征维度适应后续输出,加速模型的收敛速度;
(4)Transformer编码块中的多层感知机层:这一部分采用MLP块学习特征之间的非线性关系;在每个子层均使用残差连接和层归一化操作。
3.根据权利要求1所述的基于ViT与上下文特征融合的蜂窝肺病灶分割方法,其特征在于:所述上下文感知融合模块接收来自编码器的低级特征与解码器的高级特征,第一步,先采用GAP(全局平均池化操作)生成具有全局空间信息的特征图,通过利用共享权重的多层感知机对低级与高级特征图中的上下文信息进行建模生成向量h与l,其中,h、l分别表示高级、低级特征图中的权重向量;第二步,采用残差学习的思想,权重向量与两个特征图相乘生成重分布的特征图,接着按通道维度进行拼接操作,生成包含局部和高层次阶段的全局上下文信息的特征图;第三步,采用两个3*3卷积用于实现加权特征融合,使用残差连接接受来自高级特征的信息。
4.根据权利要求1所述的基于ViT与上下文特征融合的蜂窝肺病灶分割方法,其特征在于:所述编码器包含四个通道混合卷积块,用于提取图像的高层特征与低层特征信息,每个通道混合卷积块包含2个卷积层、批归一化层和修正线性单元ReLU,每个通道混合卷积块提取的特征图包含两个通路,第一条通路接最大池化层对特征图进行下采样操作传入下一个卷积块;另一条通路进入跳跃连接路径。
5.根据权利要求1所述的基于ViT与上下文特征融合的蜂窝肺病灶分割方法,其特征在于:所述解码器包含4个与编码器相同的通道混合卷积块,每个通道混合卷积块包含2层卷积计算,批归一化与Relu激活函数,每个通道混合卷积块之后利用反卷积对特征图进行上采样,经过转置卷积操作的特征图扩充至2倍大小。
6.基于ViT与上下文特征融合的蜂窝肺病灶分割网络,其特征在于:包括编码器、解码器和设置在网络瓶颈层的基于ViT的上下文连接器、设置在跳跃连接阶段的四个上下文感知融合模块,编码器包括四个下采样模块,解码器包括四个上采样模块,下采样模块与上采样模块中均包括通道混合卷积块,每个通道卷积混合块包含2个卷积层、批归一化层和修正线性单元ReLU,下采样模块中的每个通道混合卷积块提取的特征图包含两个通路,第一条通路接最大池化层对特征图进行下采样操作传入下一个卷积块;另一条通路进入跳跃连接路径,上采样模块中的每个通道混合卷积块之后利用反卷积对特征图进行上采样,经过转置卷积操作的特征图扩充至2倍大小;
在网络的瓶颈层,采取ViT将特征图切片化,计算特征图中的全局关系;
在跳跃连接阶段,将编码器中四个通道卷积混合块得到的特征图与上采样后的特征图分别输入含有上下文感知融合模块的路径进行特征增强操作。
7.根据权利要求6所述的基于ViT与上下文特征融合的蜂窝肺病灶分割网络,其特征在于:所述通道卷积混合块包括通道分离模块、通道拼接模块、通道混合模块,其中通道分离模块包括两个分支S1、S2,分支S1保持特征图与通道数不变,对分支S2进行卷积,两个分支输出的特征图经过通道拼接模块和通道混合模块,每个通道卷积混合块进行两次的通道分离、通道拼接、通道混合操作输出特征图。
8.根据权利要求6所述的基于ViT与上下文特征融合的蜂窝肺病灶分割网络,其特征在于:所述基于ViT的上下文连接器包括切片嵌入模块、位置编码模块、六个Transformer编码块,每个Transformer编码块包含多头注意力机制模块和多层感知机模块,所述切片嵌入模块和位置编码模块位于ViT模块的开始部分,切片嵌入模块将原始二维图像转化为多个切片的一维序列数据,位置编码模块给每个切片标记相对应的位置信息,所述多头注意力机制模块位于Transformer编码块的前半部分,接收切片与位置编码信息,包括多个注意力头、Dropout操作和归一化层,所述多层感知机模块位于Transformer编码块的后半部分,包括多层感知机层和归一化层。
9.根据权利要求6所述的基于ViT与上下文特征融合的蜂窝肺病灶分割网络,其特征在于:所述上下文感知融合模块包括并行的两个全局平均池化层、多层感知机层、卷积块,两个并行的全局平均池化层分别接收来自编码器的低级特征与解码器的高级特征生成具有全局空间信息的特征图,多层感知机利用共享权重对低级与高级特征图中的上下文信息进行建模生成权重向量,权重向量与两个特征图相乘生成重分布的特征图并按通道维度进行拼接操作,生成包含局部和高层次阶段的全局上下文信息的特征图,采用卷积块中的两个3*3卷积实现加权特征融合。
CN202210907330.3A 2022-07-29 2022-07-29 基于ViT与上下文特征融合的蜂窝肺病灶分割方法及网络 Pending CN115526829A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210907330.3A CN115526829A (zh) 2022-07-29 2022-07-29 基于ViT与上下文特征融合的蜂窝肺病灶分割方法及网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210907330.3A CN115526829A (zh) 2022-07-29 2022-07-29 基于ViT与上下文特征融合的蜂窝肺病灶分割方法及网络

Publications (1)

Publication Number Publication Date
CN115526829A true CN115526829A (zh) 2022-12-27

Family

ID=84695650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210907330.3A Pending CN115526829A (zh) 2022-07-29 2022-07-29 基于ViT与上下文特征融合的蜂窝肺病灶分割方法及网络

Country Status (1)

Country Link
CN (1) CN115526829A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579616A (zh) * 2023-07-10 2023-08-11 武汉纺织大学 一种基于深度学习的风险识别方法
CN117275681A (zh) * 2023-11-23 2023-12-22 太原理工大学 基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法及装置
CN117523203A (zh) * 2023-11-27 2024-02-06 太原理工大学 一种基于Transformer半监督算法的蜂窝肺病灶图像分割识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579616A (zh) * 2023-07-10 2023-08-11 武汉纺织大学 一种基于深度学习的风险识别方法
CN116579616B (zh) * 2023-07-10 2023-09-29 武汉纺织大学 一种基于深度学习的风险识别方法
CN117275681A (zh) * 2023-11-23 2023-12-22 太原理工大学 基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法及装置
CN117275681B (zh) * 2023-11-23 2024-02-09 太原理工大学 基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法及装置
CN117523203A (zh) * 2023-11-27 2024-02-06 太原理工大学 一种基于Transformer半监督算法的蜂窝肺病灶图像分割识别方法

Similar Documents

Publication Publication Date Title
CN111145170B (zh) 一种基于深度学习的医学影像分割方法
CN111242288B (zh) 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法
CN115526829A (zh) 基于ViT与上下文特征融合的蜂窝肺病灶分割方法及网络
CN111369565A (zh) 一种基于图卷积网络的数字病理图像的分割与分类方法
CN112330724B (zh) 一种基于集成注意力增强的无监督多模态图像配准方法
CN114283158A (zh) 一种视网膜血管图像分割方法、装置及计算机设备
CN113888412B (zh) 一种用于糖尿病视网膜病变分类的图像超分辨率重建方法
CN113393469A (zh) 基于循环残差卷积神经网络的医学图像分割方法和装置
CN112132878B (zh) 基于卷积神经网络的端到端大脑核磁共振图像配准方法
CN112734755A (zh) 基于3d全卷积神经网络与多任务学习的肺叶分割方法
CN114066913B (zh) 一种心脏图像分割方法及***
CN114359292A (zh) 一种基于多尺度和注意力的医学图像分割方法
Li et al. Deep recursive up-down sampling networks for single image super-resolution
CN115375711A (zh) 基于多尺度融合的全局上下文关注网络的图像分割方法
CN117078941B (zh) 一种基于上下文级联注意力的心脏mri分割方法
CN112288749A (zh) 一种基于深度迭代融合深度学习模型的颅骨图像分割方法
CN115409846A (zh) 一种基于深度学习的结直肠癌病灶区域轻量级分割方法
CN112420170A (zh) 一种提高计算机辅助诊断***图片分类准确度的方法
CN112465754A (zh) 基于分层感知融合的3d医疗图像分割方法、装置及存储介质
CN116883341A (zh) 一种基于深度学习的肝脏肿瘤ct图像自动分割方法
CN117611599B (zh) 融合中心线图和增强对比度网络的血管分割方法及其***
CN116468732A (zh) 基于深度学习的肺部ct影像分割方法及成像方法
WO2024104035A1 (zh) 基于长短期记忆自注意力模型的三维医学图像分割方法及***
Zhou et al. GA-Net: Ghost convolution adaptive fusion skin lesion segmentation network
Liu et al. MRL-Net: multi-scale representation learning network for COVID-19 lung CT image segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination