CN116128898A

CN116128898A - 一种基于Transformer双分支模型的皮肤病变图像分割方法

Info

Publication number: CN116128898A
Application number: CN202310128980.2A
Authority: CN
Inventors: 李永红; 李梓歆; 赵志强; 周诚; 胡晋武; 张合龙
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-05-16

Abstract

本发明属于计算机视觉技术领域，具体涉及一种基于Transformer双分支模型的皮肤病变图像分割方法；该方法构建并训练Transformer双分支模型，将待处理图像输入到训练好的Transformer双分支模型中得到分割结果；所述Transformer双分支模型包括主分支网络、辅助分支网络和信息聚合模块；本发明提出了一种新的皮肤病变图像分割方法，解决了传统深度学习方法提取全局上下文信息的不足，利用高效的多尺度视觉Transformer作为编码器，从而提取更强大且更好鲁棒性的特征，同时引入低级特征模块和高级特征融合模块，有效地提升网络的特征学习能力和分割性能。

Description

一种基于Transformer双分支模型的皮肤病变图像分割方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于Transformer双分支模型的皮肤病变图像分割方法。

背景技术

皮肤病(dermatosis)是发生在皮肤和皮肤附属器官疾病的总称，常见的皮肤病有湿疹、荨麻疹、黄褐斑、水痘、色素障碍性皮肤病等。其中，恶性黑色素瘤是由皮肤和其他器官黑素细胞产生的肿瘤，它是导致皮肤肤色素性病变中最致命的一种皮肤癌。恶性黑色素瘤的发生率和死亡率逐年升高，根据皮肤癌基金会的统计数据，它的致死率甚至高达75％。恶性黑色素瘤除早期手术切除外，缺乏特效治疗，因此恶性黑色素瘤的早期诊断和治疗极其重要，但是由于皮肤的表面存在很多不可控因素，比如毛发、血管、颜色以及病变皮肤和未病变皮肤之间的对比度低等，经验丰富的专业医生不仅无法准确地判断出皮肤上的病变区域，还可能在判断时带有主观看法。因此需要借助计算机辅助诊断***提高对黑色素瘤的检测，而对皮肤病图像的分割就是计算机辅助诊断里十分重要的环节。

传统的医学分割方法主要依赖于低级特征，如纹理、几何特征、简单的线性迭代聚类超像素等。这些方法实现起来程序繁琐，并且泛化能力较差，不能满足实际应用的复杂场景分割精度要求。近年来，深度学习在医学图像分割领域得到了广泛的应用，特别是U型网络结构，其采用多尺度特征进行重建的能力引起了极大的关注。这些方法在准确性和泛化能力上都取得了相当不错的效果。但是皮肤病图像存在大量噪声，图像本身边界区域模糊，皮肤的颜色不同，血管的模糊等都会影响模型对特征的提取，在皮肤病的边界区域也很难准确定位。基于CNN的模型在特征提取过程中执行下采样，以减少计算量，这样很容易导致细节信息丢失。因此，需要更多的全局上下文信息进行推理。但是由于卷积运算的局限性，很难直接在全局上下文信息上建模。

发明内容

为解决上述问题，本发明提供了一种基于Transformer双分支模型的皮肤病变图像分割方法，该方法构建并训练Transformer双分支模型，将待处理图像输入到训练好的Transformer双分支模型中得到分割结果；所述Transformer双分支模型包括主分支网络、辅助分支网络和信息聚合模块；

所述Transformer双分支模型的训练过程包括：

S1.获取皮肤病变图像数据集并进行预处理得到训练图像集；

S2.将训练图像输入到辅助分支网络提取低级特征并输出第二分割图；

S3.将辅助分支网络提取的低级特征输入到主分支网络提取出多尺度的高级特征，并输出第一分割图；

S4.采用信息聚合模块融合第一分割图和第二分割图得到最终分割图；

S5.通过最终损失函数计算损失并反向传播训练Transformer双分支模型，直至模型收敛。

进一步的，基于ResT架构搭建Transformer双分支模型，所述ResT架构包括依次级联的Steam模块、stage1模块、stage2模块、stage3模块和stage4模块；每个stage模块均包括一个块嵌入模块、一个位置编码模块和多个高效transformer模块，每个高效transformer模块均由EMSA、FFN以及残差链接构成；从ResT架构中的Steam模块处延伸出一条分支构建辅助分支网络；从ResT架构中的stage1模块到stage4模块各延伸出一条分支，通过这四条分支构建主分支网络。

进一步的，主分支网络中设有一个高级特征融合模块，用于将stage1模块、stage2模块、stage3模块和stage4模块输出的不同尺度的高级特征在解码过程中进行级联融合和跳转连接，具体包括：

S11.stage1模块输出高级特征X₁，stage2模块输出高级特征X₂，stage3模块输出高级特征X₃，stage4模块输出高级特征X₄；

S12.对高级特征X₄上采样后分别经过卷积单元

和

得到特征

和特征

将特征

和高级特征X₃的乘积与特征

进行拼接，通过卷积单元

处理该拼接结果得到融合特征图X′₃；

S13.对融合特征图X′₃上采样后经过卷积单元

得到特征X″₃₁，对特征

和高级特征X₃的乘积上采样后与高级特征X₂相乘得到特征X″₃₂，将特征X″₃₂与特征X″₃₁进行拼接后经过卷积单元

得到融合特征图X′₂；

S14.对融合特征图X′₂上采样后经过卷积单元

得到特征X″₂₁，对特征X″₃₂上采样后与高级特征X₁相乘得到特征X″₂₂，将特征X″₂₂与特征X″₂₁进行拼接后依次经过卷积单元

和卷积单元

得到第一分割图T₁。

进一步的，辅助分支网络中设有组合注意力模块，用于提取Steam模块输出的低级特征X₀的细节信息，所述组合注意力模块包括空间注意力机制和通道注意力机制；辅助分支网络的具体处理过程包括：

S21.将训练图像输入到Steam模块提取得到低级特征X₀；

S22.通过通道注意力机制处理低级特征X₀得到通道特征，将通道特征依次通过ReLU层和1×1卷积层得到原始维度通道特征；

S23.通过空间注意力机制处理原始维度通道特征得到第二分割图。

进一步的，通道注意力机制的处理公式表示为：

At_c(X₀)＝σ(M₁(AvgPool(X₀))+M₂(MaxPool(X₀))

其中，σ(·)表示softmax激活函数，AvgPool(·)表示自适应平均池化，MaxPool(·)表示自适应最大池化，M₁、M₂表示核大小为1×1的卷积层；

空间注意力机制的处理公式表示为：

其中，

表示7×7卷积层，C_max(·)表示沿着通道维度得到的最大值，C_avg(·)表示表示沿着通道维度得到的平均值。

进一步的，步骤S4采用信息聚合模块融合第一分割图T₁和第二分割图T₂得到最终分割图的过程包括：

S31.将第一分割图T₁分别通过线性映射函数W_θ(·)和

得到特征映射Q和特征映射K；

S32.对经过卷积单元W_g(·)的第二分割图T₂应用softmax函数得到特征T′₂，计算特征映射K与特征T′₂间的Hadamard乘积并进行池化得到特征V；

S33.通过内积建立特征映射K和特征V之间的像素相关性，得到相关注意图F；计算相关注意图F与特征映射Q的乘积并送入图卷积网络得到特征G；

S34.计算相关注意图F与特征G的内积得到重构特征X`，将重构特征X`经过卷积层W_z(·)后与第一分割图T₁拼接得到最终分割图。

进一步的，最终损失函数

包括主损失函数

和辅助损失函数

表示为：

其中，

表示加权交并比损失，

表示加权二元交叉熵损失，G1表示预测的第二分割图所对应的真实值，G2表示预测的最终分割图所对应的真实值，P₁和P₂分别表示预测的第一分割图和最终分割图。

本发明的有益效果：

本发明提供了一种基于Transformer双分支模型的皮肤病变图像分割方法，该方法基于ResT构建了一个Transformer双分支模型，实现对多尺度高级特征和低级特征地有效挖掘，该模型学习到的多尺度特征更强大、更具鲁棒性，且其能够保持较快的推理速度。

本发明设计的模型包括主分支网络、辅助分支网络和信息聚合模块，辅助分支网络通过空间注意力机制和通道注意力机制，分别学习了空间和通道的重要性，更加关注皮肤病灶区域的细节信息，抑制了无用信息。为了更好地利用多尺度上下文信息，在主分支网络设计了级联融合的方式从高级特征中收集皮肤病灶的语义和位置信息，从而增强解码器的解码能力。最后采用信息聚合模块实现不同级别的特征融合方式，提升了模型对多样、复杂的皮肤病灶图像的表达能力。

本发明还考虑到不同级别特征之间的贡献差异，对双分支网络生成的不同级别的特征图采用了图卷积方法，并且在图卷积下引用了非局部操作，实现信息聚合模块，从而有效地提升了对皮肤病灶区域的分割性能。

附图说明

图1为本发明实施例的ResT架构图；

图2为本发明基于Transformer双分支模型的皮肤病变图像分割方法的流程图；

图3为本发明的Transformer双分支模型的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

南京大学团队在文献ResT:An efficient transformer for visualrecognition[J]中提出了一种高效Transformer架构:ResT，如图1所示，其包括一个Steam模块和4个stage模块，每个stage模块均包括一个块嵌入模块、一个位置编码模块和多个高效transformer模块，每个高效transformer模块均由EMSA、FFN以及残差链接构成；ResT架构采用了类似ResNet的设计思想：Steam模块提取底层特征信息，多个stage模块捕获多尺度特征信息。与此同时，为解决MSA存在的计算量与内存占用问题，提出了EMSA模块进一步降低计算量与内存消耗。所提ResT在图像分类、目标检测以及实例分割等任务均取得了显著的性能提升，比如在ImageNet数据上，在同等计算量前提下，所提方法取得了优于PVT、Swin的优异性能，是一种强力骨干网络。

同时考虑到依赖于低级特征(如纹理、几何特征、简单的线性迭代聚类超像素等)的分割方法往往分割性能低质量、泛化能力较差，且传统的神经网络CNN学习全局上下文信息能力有限。本发明实例提出了一种基于Transformer双分支模型的皮肤病变图像分割方法，该方法中将ResT和U-net结构网络作为基本框架搭建Transformer双分支模型，训练Transformer双分支模型，将待处理图像输入到训练好的Transformer双分支模型中得到分割结果。

具体地，如图2所示，所述Transformer双分支模型的训练过程包括：

S1.获取皮肤病变图像数据集，如ISBI2017数据集，并进行预处理得到训练图像集；

在一实施例中，Transformer双分支模型的具体结构如图3所示，本实施例采用ResT架构作为主干编码器，该ResT架构包括依次级联的Steam模块、stage1模块、stage2模块、stage3模块和stage4模块；然后从Steam模块处延伸出一条分支构建辅助分支网络；从stage1模块到stage4模块各延伸出一条分支，通过这四条分支构建主分支网络。

具体地，主分支网络中设有一个高级特征融合模块AFFM，用于将stage1模块、stage2模块、stage3模块和stage4模块输出的不同尺度的高级特征在解码过程中进行级联融合和跳转连接，具体包括：

S11.输入大小为H×W×C的训练图像，H表示训练图像的高，W表示训练图像的宽，C表示训练图像的通道数。stage1模块输出大小为

的高级特征X₁，stage2模块输出大小为

的高级特征X₂，stage3模块输出大小为

的高级特征X₃，stage4模块输出大小为

的高级特征X₄；

S12.将高级特征X₄上采样得到大小为

的上采样结果，将该上采样结果分别经过卷积单元

和

得到特征

和特征

将特征

和高级特征X₃的乘积与特征

进行拼接，通过卷积单元

平滑处理该拼接结果得到大小为

的融合特征图X₃′，用公式表示为：

其中，

表示Hadamard乘积运算，Contact表示沿特征通道维度进行拼接，Upsample(·)表示上采样，卷积单元

和

都是卷积核大小为3×3、padding设置为1、含有批归一化和ReLU的卷积层。

S13.将融合特征图X′₃上采样放大到

后经过卷积单元

得到特征X″₃₁，对特征

和高级特征X₃的乘积上采样放大到

后与高级特征X₂相乘得到特征X″₃₂，将特征X″₃₂与特征X″₃₁进行拼接后经过卷积单元

得到大小为

的融合特征图X′₂，用公式表示为：

其中，卷积单元

和

S14.将融合特征图X′₂上采样放大到

后经过卷积单元

得到特征X″₂₁，对特征X″₃₂上采样放大到

后与高级特征X₁相乘得到特征X″₂₂，将特征X″₂₂与特征X″₂₁进行拼接后依次经过卷积单元

卷积单元

得到大小为

的第一分割图T₁，用公式表示为：

具体地，为了充分提取皮肤病变区域的细节信息，辅助分支网络中设有组合注意力模块LFM，用于提取Steam模块输出的低级特征X₀各个维度的细节信息，所述组合注意力模块LEM包括空间注意力机制和通道注意力机制，主要在空间和通道两个维度上推断出注意力权重系数；辅助分支网络的具体处理过程包括：

S21.将训练图像输入到Steam模块提取得到大小为

的低级特征X₀；

S22.通过通道注意力机制处理低级特征X₀得到通道特征，将通道特征依次通过ReLU层和1×1卷积层来恢复原始通道维度得到原始维度通道特征；通道注意力机制的处理公式表示为：

At_c(X₀)＝σ(M₁(AvgPool(X₀))+M₂(MaxPool(X₀)) (10)

其中，σ(·)表示softmax激活函数，AvgPool(·)表示自适应平均池化，MaxPool(·)表示自适应最大池化；M₁、M₂表示核大小为1×1的卷积层，用于将通道数降低16倍。

S23.通过空间注意力机制处理原始维度通道特征得到第二分割图T₂；空间注意力机制的处理公式表示为：

其中，

表示7×7卷积层，填充设置为3；C_max(·)表示沿着通道维度得到的最大值，C_avg(·)表示表示沿着通道维度得到的平均值。

具体地，信息聚合模块IAM采用图卷积去挖掘来自双分支网络中不同语义级别的信息的关联性，同时为了更好地融合不同语义级别的信息，本实施例在图卷积中引用了非局部操作来实现信息聚合，通过全局注意力将皮肤病的细节信息注入到高级信息中，具体过程包括：

S31.将包含高级信息的第一分割图T₁分别通过线性映射函数W_θ(·)和

进行降维映射，得到大小均为

的特征映射Q和特征映射K；用公式表示为：

Q＝W_θ(T₁) (12)

这里的线性映射函数选用核大小为1×1的卷积运算。

S32.采用卷积单元W_g(·)将第二分割图T₂的通道维度减少到32，然后在通道维度上应用softmax函数得到大小为

的特征T′₂，计算特征映射K与特征T′₂间的Hadamard乘积，这是为不同像素分配不同权重，从而增加边缘像素权重，最后进行池化得到特征V；用公式表示为：

其中，AP(·)表示池化。

S33.通过内积建立特征映射K和特征V之间的像素相关性，得到相关注意图F；计算相关注意图F与特征映射Q的乘积并送入图卷积网络得到特征G；公式表示为：

其中，

表示内积，K^T表示特征映射K的转置。

S34.计算相关注意图F与特征G的内积得到重构特征X`，通过核大小为1×1的卷积层W_z(·)将重构特征X`的通道维度调整到与第一分割图T₁相同，然后与第一分割图T₁拼接得到大小为

的最终分割图Z，公示表示为：

Z＝T₁+W_z(X`) (17)

在一实施例中，Transformer双分支模型训练过程中的损失函数分为主损失函数

和辅助损失函数

两部分，主损失函数

是计算第一分割图T₁与其真实值之间的主损失，公式为：

辅助损失函数

是计算LFM模块的输出结果T₂与其真实值之间的损失，公式为：

其中，

表示加权交并比(IoU)损失，

表示加权二元交叉熵(BCE)损失，G1表示预测的第二分割图所对应的真实值，G2表示预测的最终分割图所对应的真实值，P₁和P₂分别表示预测的第一分割图和最终分割图。加权BCE损失函数考虑每个像素的重要性，并为硬像素分配更高的权重，而加权IoU损失函数更关注硬像素，使得最终损失函数在全局结构和局部细节方面约束预测图。

本发明设计的Transformer双分支模型有助于对多样、复杂的皮肤病灶图像进行有效地特征提取。具体来说，主分支网络注重于对上下文信息的学习，全局信息的关注，由于不同尺度的高级特征存在级别差异，在主分支网络中设计了高级特征融合模块，实现对高级特征的级联融合，增强了解码器的解码能力。同时辅助分支网络侧重于挖掘皮肤病灶区域的细节信息，并对来自辅助分支网络的低级特征采用了空间注意力机制和通道注意力机制，从而分别学习了空间和通道的重要性，更加关注皮肤病灶区域的细节信息，抑制无用信息，一定程度上解决图像噪声的问题。最后本发明设计了信息聚合模块，采用图卷积方法实现，探索来自主分支网络较高级别特征和辅助分支网络较低级别特征间的关系，该模块能有效地将皮肤病灶区域的低级信息和高级信息进行融合，提升了模型的分割性能。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于Transformer双分支模型的皮肤病变图像分割方法，其特征在于，构建并训练Transformer双分支模型，将待处理图像输入到训练好的Transformer双分支模型中得到分割结果；所述Transformer双分支模型包括主分支网络、辅助分支网络和信息聚合模块；

所述Transformer双分支模型的训练过程包括：

S1.获取皮肤病变图像数据集并进行预处理得到训练图像集；

2.根据权利要求1所述的一种基于Transformer双分支模型的皮肤病变图像分割方法，其特征在于，基于ResT架构搭建Transformer双分支模型，所述ResT架构包括依次级联的Steam模块、stage1模块、stage2模块、stage3模块和stage4模块；每个stage模块均包括一个块嵌入模块、一个位置编码模块和多个高效transformer模块，每个高效transformer模块均由EMSA、FFN以及残差链接构成；从ResT架构中的Steam模块处延伸出一条分支构建辅助分支网络；从ResT架构中的stage1模块到stage4模块各延伸出一条分支，通过这四条分支构建主分支网络。

3.根据权利要求2所述的一种基于Transformer双分支模型的皮肤病变图像分割方法，其特征在于，主分支网络中设有一个高级特征融合模块，用于将stage1模块、stage2模块、stage3模块和stage4模块输出的不同尺度的高级特征在解码过程中进行级联融合和跳转连接，具体包括：

S12.对高级特征X₄上采样后分别经过卷积单元