CN117496323B

CN117496323B - 基于Transformer的多尺度二阶病理图像分类方法及***

Info

Publication number: CN117496323B
Application number: CN202311810060.5A
Authority: CN
Inventors: 刘明霞; 王琳琳; 陶体伟; 康振环; 褚园园
Original assignee: Taishan University
Current assignee: Taishan University
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-03-29
Anticipated expiration: 2043-12-27
Also published as: CN117496323A

Abstract

本公开提出一种基于Transformer的多尺度二阶病理图像分类方法及***，涉及图像处理领域。方法包括：获取待分类病理图像，进行预处理；将预处理后的待分类病理图像输入至Swin网络中，提取待分类病理图像的多尺度特征；将多尺度特征包含的单尺度特征分别输入至二阶池化模块和一阶池化模块，提取单尺度二阶特征、一阶特征；分别对单尺度二阶特征、一阶特征进行类别预测并联合，获得单尺度预测分数；融合多个单尺度预测分数，输出待分类病理图像类别预测结果。本公开通过考虑不同阶段的二阶特征，并融合一阶、二阶特征，充分挖掘了特征之间的细节信息，克服了传统方法无法捕获详细信息的缺陷，从而提高乳腺癌病理图像分类的准确性。

Description

基于Transformer的多尺度二阶病理图像分类方法及***

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于Transformer的多尺度二阶病理图像分类方法及***。

背景技术

目前，乳腺癌已成为女性癌症死亡的第二大常见原因，尽管有经验的医生可以使用组织病理学图像进行诊断，但传统方法主观性强，效率低且不可重复。计算机辅助诊断（CAD）通过采用深度学习（DL）、计算机视觉等技术对病理图像进行分析，取得了可靠的结果，获得了组织病理学家的认可，显著减轻了医生的工作负担。

基于深度学***均池化（GAP）在神经网络末端建模全局信息的表示，然而这种方式忽略了特征之间的详细关系和复杂性。相较于一阶池化方法，二阶池化能够捕捉更多的信息并提供更丰富的特征表示，有助于更好地理解数据的结构以及特征之间的相互关系，从而增强算法的鲁棒性。基于此，部分研究将上述方法中的全局平均池化替换为二阶池化，但由于仍仅在神经网络末端采用二阶池化，忽略了不同尺度下的二阶特征表示，从而忽略了特征的详细信息。此外，它们在进行最终类别预测时只考虑了二阶统计量，而忽略了一阶特征中可能包含的额外信息。

发明内容

针对现有技术存在的问题，本发明提供了一种基于Transformer的多尺度二阶病理图像分类方法及***，所述方法使用Swin Transformer作为主干，在Swin Transformer的不同阶段之后进行二阶池化，以此来获得多尺度的二阶特征。并在单个尺度下联合一阶特征进行单个尺度下的分类，最后融合多个阶段的多尺度类别预测分数作为乳腺癌病理图像的最终预测得分。通过考虑不同阶段下的多尺度的二阶特征，充分挖掘了特征之间的细节信息，并融合了一阶、二阶池化特征，进一步获取有用信息，从而提高乳腺癌病理图像分类的准确性。

为了实现上述目的，本发明是通过如下的技术方案来实现：

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于Transformer的多尺度二阶病理图像分类方法，包括：获取待分类病理图像，对待分类病理图像进行预处理；

将预处理后的待分类病理图像输入至Swin Transformer网络中，提取待分类病理图像的多尺度特征；所述多尺度特征包含来自不同阶段的单尺度特征；

将多个单尺度特征分别输入至二阶池化模块和一阶池化模块，提取单尺度二阶特征和单尺度一阶特征；

分别对所述单尺度二阶特征和单尺度一阶特征进行类别预测，并联合预测结果，获得单尺度预测分数；

融合多个单尺度预测分数，输出待分类病理图像的类别预测结果。

进一步的技术方案，所述预处理包括：

使用随机水平翻转图像、随机垂直翻转图像以及随机旋转图像的数据增强方式，统一待分类病理图像的尺寸。

进一步的技术方案，所述提取待分类病理图像的多尺度特征，不包含SwinTransformer网络第一阶段提取的特征。

进一步的技术方案，所述将多个单尺度特征分别输入至二阶池化模块和一阶池化模块，提取单尺度二阶特征和单尺度一阶特征，包括：将每个单尺度特征分别输入至二阶池化模块，采用二阶池化处理，提取单尺度二阶特征；具体过程为：

将单尺度特征输入至二阶池化模块，对单个尺度的特征维度进行特征映射；

通过重塑操作对单尺度特征的维数进行分组，并计算相邻组之间的协方差矩阵；

拼接各协方差矩阵获得整体协方差矩阵，对整体协方差矩阵进行展平操作获得单尺度二阶特征。

进一步的技术方案，所述将多个单尺度特征分别输入至二阶池化模块和一阶池化模块，提取单尺度二阶特征和单尺度一阶特征，还包括：将每个单尺度特征分别输入至一阶池化模块，采用一阶池化处理，提取单尺度一阶特征；具体过程为：

将单尺度特征输入至一阶池化模块，通过全局平均池化计算单尺度一阶特征。

进一步的技术方案，所述分别对所述单尺度二阶特征和单尺度一阶特征进行类别预测，并联合预测结果，获得单尺度预测分数，包括：

其中，和/>表示用于分类的全连接层，/>和/>分别表示单尺度一阶特征和单尺度二阶特征，/>表示Swin Transformer的第i个阶段；通过计算均值获得单尺度预测分数。

进一步的技术方案，所述融合多个单尺度预测分数，输出待分类病理图像的类别预测结果，包括：通过对多个单尺度预测分数进行求和，得到最终类别预测结果。

第二方面，本发明提供一种基于Transformer的多尺度二阶病理图像分类***，包括：

图像获取及预处理模块，用于获取待分类病理图像，对待分类病理图像进行预处理；

多尺度特征提取模块，用于将预处理后的待分类病理图像输入至SwinTransformer网络中，提取待分类病理图像的多尺度特征；所述多尺度特征包含来自不同阶段的单尺度特征；

单尺度特征池化模块，用于将多个单尺度特征分别输入至二阶池化模块和一阶池化模块，提取单尺度二阶特征和单尺度一阶特征；

单尺度预测分数计算模块，用于分别对所述单尺度二阶特征和单尺度一阶特征进行类别预测，并联合预测结果，获得单尺度预测分数；

最终分类预测模块，用于融合多个单尺度预测分数，输出待分类病理图像的类别预测结果。

第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的基于Transformer的多尺度二阶病理图像分类方法中的步骤。

第四方面，本发明提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的基于Transformer的多尺度二阶病理图像分类方法中的步骤。

与现有技术相比，本公开的有益效果为：

（1）本发明使用Swin Transformer作为主干，通过保存不同阶段的特征作为多尺度特征，对来自不同尺度的特征分别进行二阶池化，在单个尺度的特征空间中捕获特征之间的详细关系和复杂性；之后对各单尺度二阶特征分别进行类别的预测，并联合一阶池化特征进行类别预测的分数作为单个阶段的预测分数，即单个尺度的类别预测分数；最后，通过相加的方式融合多个尺度的类别预测分数作为最终的预测结果。通过考虑不同阶段的多尺度二阶特征，充分挖掘了特征之间的细节信息，克服了传统方法仅在神经网络末端进行池化操作无法捕获详细信息的缺陷；并且，融合了一阶池化特征和二阶池化特征，进一步获取额外信息，避免遗漏相关信息，从而提高乳腺癌病理图像分类的准确性。

（2）与现有传统方法仅仅采用网络末端的特征作为图像表示不同，本发明充分利用网络不同阶段的多尺度特征，以更全面的方式表达特征在不同网络阶段的信息。通过巧妙整合这些多尺度信息，能够更准确地捕捉和呈现乳腺癌图像的关键特征，为提高辅助诊断的精确性和可靠性提供了有效手段。

（3）与仅采用一阶或二阶池化来整合全局特征的方法不同，本发明所述方法在每个尺度的特征上通过联合一阶和二阶特征的类别预测分数来进行类别预测。通过在每个尺度上融合这些预测分数，最终得到了全局类别预测。这一独特的方法不仅提高了对每个尺度上关键特征的敏感性，还通过综合多个尺度的信息，使得最终的类别预测更加全面和准确。

（4）本发明舍弃网络第一阶段提取的尺度特征，专注于后续阶段的多尺度特征，能够更有效地捕捉和利用更丰富、更有代表性的图像信息，从而提高对乳腺癌病理图像的分类性能。

（5）本发明采用分组策略计算二阶特征，将多尺度特征包含的不同特征进行分组，通过计算不同组之间的协方差来表示二阶统计量，这种分组的形式可以降低计算消耗，提高计算效率，且在不同组之间计算二阶可以有效增强不同组间信息的交互性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的限定。

图1为本公开提供的一种基于Transformer的多尺度二阶病理图像分类方法的整体流程图；

图2为本公开提供的一种基于Transformer的多尺度二阶病理图像分类方法的算法整体结构图；

图3为本公开提供的一种基于Transformer的多尺度二阶病理图像分类方法的单尺度下一阶二阶联合预测流程示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

实施例一

如图1所示，本实施例公开了一种基于Transformer的多尺度二阶病理图像分类方法，包括：

S1：获取待分类病理图像，对待分类病理图像进行预处理；

S2：将预处理后的待分类病理图像输入至Swin Transformer网络中，提取待分类病理图像的多尺度特征；所述多尺度特征包含来自不同阶段的单尺度特征；

S3：将多个单尺度特征分别输入至二阶池化模块和一阶池化模块，提取单尺度二阶特征和单尺度一阶特征；

S4：分别对所述单尺度二阶特征和单尺度一阶特征进行类别预测，并联合预测结果，获得单尺度预测分数；

S5：融合多个单尺度预测分数，输出待分类病理图像的类别预测结果。

在本实施例中，使用公开的数据集BACH（BreAst Cancer Histology）获取待分类病理图像。BACH数据集是一个广泛应用于乳腺癌病理图像分析的数据集，包含来自不同患者的乳腺组织切片图像，主要用于评估计算机视觉和深度学习方法在乳腺癌相关任务上的性能。该数据集包含了四个主要的乳腺癌组织类别，分别是正常、良性、原位癌和浸润性癌，每个类别有100个样本。在训练和验证阶段的样本数量按照7:3的比例进行划分。

获取待分类病理图像后，对待分类病理图像进行预处理。由于使用数据增强技术可以增加数据的多样性，提高模型的鲁棒性，因此本实施例使用随机水平翻转图像、随机垂直翻转图像以及随机旋转图像三种数据增强方式，将图像的输入大小调整为输入到主干网络中以提取特征，同时将输入记为/>。

在一种具体的实施方式中，将预处理后的待分类病理图像输入至SwinTransformer网络中，提取待分类病理图像的多尺度特征；所述多尺度特征包含来自不同阶段的单尺度特征。

具体过程为，通过Swin Transformer进行特征的提取，保存多个阶段（Stage）的输出作为二阶池化模块的输入，如图2上半部分所示：

式中，是第/>个阶段的输出，/>是视觉主干。本实施例使用Swin Transformer的Tiny版本，仅使用网络第2、3、4阶段输出的特征，并不使用第1个阶段的特征。这是因为第一个阶段生成的特征相对不足，通过专注于后续阶段的多尺度特征，能够更有效地捕捉和利用更丰富、更有代表性的图像信息，从而提高对乳腺癌病理图像的分类性能。

经过主干的特征提取，各个尺度特征的大小分别为：、/>、，其中384和768代表维度，/>和/>表示当前尺度下的空间分辨率。/>和的形状大小一致，这是因为Swin Transformer本身第4阶段并未使用下采样操作。

获取多个单尺度特征后，如图2下半部分所示，将每个单尺度特征分别输入至二阶池化模块，采用二阶池化处理，提取单尺度二阶特征；并将每个单尺度特征分别输入至一阶池化模块，采用一阶池化处理，提取单尺度一阶特征。

对于提取单尺度二阶特征，具体过程如图3虚线框内所示，对每个尺度的特征分别计算二阶特征：包括：

S311：将单尺度特征输入至二阶池化模块，对单个尺度的特征维度进行特征映射；

S312：通过重塑操作对单尺度特征的维数进行分组，并计算相邻组之间的协方差矩阵；

S313：拼接各协方差矩阵获得整体协方差矩阵，对整体协方差矩阵进行展平操作获得单尺度二阶特征。

具体的，在S311中，计算二阶之前首先通过一个特征维度的映射操作对特征维度进行降维：

是一个可学习的线性层，其输入维度是特征的维度，输出维度记为/>，在实际的实现中，对于不同尺度下特征的降维操作均设置/>，这个降维操作可以在一定程度上减少计算消耗。

在S312中，对每个尺度上的特征计算二阶，本实施例以协方差矩阵表示二阶池化处理，其过程首先可以通过以下公式概述，为了方便表示，将二阶池化后的特征记为：

为了进一步减少计算消耗，使用一个重塑操作来对特征的维度进行分组，在这里，以符号来表示特征的大小，即，重塑操作的计算过程如下：

式中，通过重塑（式中以表示）操作，将/>进行了分组，分组后的特征记为，其中M是分组的数量，在具体的实现中M=4。

然后通过相邻组之间计算协方差矩阵来获得二阶表示，计算过程如下式所示：

其中、/>分别表示第/>组和第/>组的特征，/>第/>组和第/>组特征之间的协方差矩阵/> 和/>分别表示/>的单位矩阵和全1矩阵。然后使用L2归一化方法对协方差矩阵/>进行归一化操作，以此来保证特征尺度一致性并降低噪声敏感度。

在S313中，不同组之间计算协方差矩阵后可以得到个协方差矩阵，然后将这些协方差矩阵进行拼接来获得整体的协方差矩阵/>：

其中，经过/>操作之后/>，然后通过两个卷积核大小为，步距为/>，输入与输出维度均为/>的卷积操作进行下采样以进一步提高计算效率。然后通过展平操作将特征拉伸为一个一维的向量，在具体的实现中，最终的二阶表示是一个长度为675的向量，该向量表示单个尺度下最终的二阶表达。

对于提取单尺度一阶特征，具体过程如图3上半部分所示，对每个尺度的特征分别计算一阶特征：包括：

S321：将单尺度特征输入至一阶池化模块，通过全局平均池化计算单尺度一阶特征。

具体的，，其中H=W分别代表高度和宽度，C代表通道数。全局平均池化的公式为：

对于每个通道，将该通道上的所有元素相加，然后除以输入特征图的总像素数（H× W）来获得该通道的平均值，其中，c来自C的某一个维度，h、w表示在通道c下的某一个元素的位置。这将为每个通道生成一个标量值。最终，得到一个形状为C的特征向量，其中每个元素代表一个通道的平均值。这个特征向量可以用作分类器的输入或其他后续层的特征表示。

在获取单尺度二阶特征和单尺度一阶特征后，分别对单尺度二阶特征和单尺度一阶特征进行类别预测，并联合预测结果，获得单尺度预测分数。

具体在联合类别预测模块中，通过均值计算获得，如下所示：

其中和/>表示用于分类的全连接层，/>和/>分别表示单个尺度下一阶和二阶的特征，通过这种相加的方式来生成单尺度预测/>。

通过对多个单尺度预测分数进行求和，得到最终类别预测结果。具体为，通过相加的方式融合来自不同尺度的预测分数以获得最终的类别预测：

通过反向传播更新网络参数进行学习，在网络学习过程中，初始学习率设置为5e-4，批量大小为32。网络在100个epoch内进行学习，使用带有5个epoch预热的余弦学习率调整策略的AdamW优化器来优化网络的可学习参数。

模型验证，在每个训练的epoch结束后，使用验证集进行验证，通过准确率来评估模型的效果，最后本实施例所述的方法在所使用的数据集上实现了91.67%的识别准确率。本实施例将模型中所有的可学习参数保存为权重文件，用于对新收集的乳腺癌病理图像数据进行处理。

与现有技术相比，首先，本发明方案考虑了此前乳腺癌病理图像分类方法中未曾考虑的多尺度信息，并在多个尺度信息上进行二阶建模以及联合一阶信息进行预测，最后整合多个尺度的信息来获得最终的类别预测。在二阶建模时通过分组的策略来降低协方差计算带来的计算消耗，与简单的分组不同，本发明使用的方法在不同组之间进行协方差的计算，以此来增强不同组之间的联系，并在计算协方差池化之前和之后分别利用降维和下采样的操作来进一步降低计算消耗，提升效率。最后，本发明所述方法在乳腺癌病理图像上实现了91.67%的识别准确率，这相比于仅使用Swin Transformer的方法取得86.67%的准确率提升了5%的准确率。将本具体实施例的方法应用于实践中，对乳腺癌病理图像进行分类，可为相关从业医生提供真实可靠、科学的临床诊断参考，提高诊断准确率。

实施例二

本实施例提供一种基于Transformer的多尺度二阶病理图像分类***，包括：

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于Transformer的多尺度二阶病理图像分类方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于Transformer的多尺度二阶病理图像分类方法中的步骤。

以上实施例二至四中涉及的各步骤或模块与实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Transformer的多尺度二阶病理图像分类方法，其特征在于，包括：

获取待分类病理图像，对待分类病理图像进行预处理；

将预处理后的待分类病理图像输入至Swin Transformer网络中，提取待分类病理图像的多尺度特征；所述多尺度特征包含来自不同阶段的单尺度特征，不包含SwinTransformer网络第一阶段提取的特征；

将多个单尺度特征分别输入至二阶池化模块和一阶池化模块，提取单尺度二阶特征和单尺度一阶特征；具体过程为，将每个单尺度特征分别输入至二阶池化模块，采用二阶池化处理，提取单尺度二阶特征：将单尺度特征输入至二阶池化模块，对单个尺度的特征维度进行特征映射；通过重塑操作对单尺度特征的维数进行分组，并计算相邻组之间的协方差矩阵；拼接各协方差矩阵获得整体协方差矩阵，对整体协方差矩阵进行展平操作获得单尺度二阶特征；将每个单尺度特征分别输入至一阶池化模块，通过全局平均池化计算单尺度一阶特征；

分别对所述单尺度二阶特征和单尺度一阶特征进行类别预测，并联合预测结果，获得单尺度预测分数；具体为：

其中，和/>表示用于分类的全连接层，/>和/>分别表示单尺度一阶特征和单尺度二阶特征，/>表示Swin Transformer的第/>个阶段；通过计算均值获得单尺度预测分数/>；

融合多个单尺度预测分数，输出待分类病理图像的类别预测结果；具体为，通过对多个单尺度预测分数进行求和，得到最终类别预测结果。

2.如权利要求1所述的基于Transformer的多尺度二阶病理图像分类方法，其特征在于，所述预处理包括：

3.一种基于Transformer的多尺度二阶病理图像分类***，其特征在于，包括：

多尺度特征提取模块，用于将预处理后的待分类病理图像输入至Swin Transformer网络中，提取待分类病理图像的多尺度特征；所述多尺度特征包含来自不同阶段的单尺度特征，不包含Swin Transformer网络第一阶段提取的特征；

单尺度特征池化模块，用于将多个单尺度特征分别输入至二阶池化模块和一阶池化模块，提取单尺度二阶特征和单尺度一阶特征；具体过程为，将每个单尺度特征分别输入至二阶池化模块，采用二阶池化处理，提取单尺度二阶特征：将单尺度特征输入至二阶池化模块，对单个尺度的特征维度进行特征映射；通过重塑操作对单尺度特征的维数进行分组，并计算相邻组之间的协方差矩阵；拼接各协方差矩阵获得整体协方差矩阵，对整体协方差矩阵进行展平操作获得单尺度二阶特征；将每个单尺度特征分别输入至一阶池化模块，通过全局平均池化计算单尺度一阶特征；

单尺度预测分数计算模块，用于分别对所述单尺度二阶特征和单尺度一阶特征进行类别预测，并联合预测结果，获得单尺度预测分数；具体为：

最终分类预测模块，用于融合多个单尺度预测分数，输出待分类病理图像的类别预测结果；具体为，通过对多个单尺度预测分数进行求和，得到最终类别预测结果。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-2中任一项所述的基于Transformer的多尺度二阶病理图像分类方法中的步骤。

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-2中任一项所述的基于Transformer的多尺度二阶病理图像分类方法中的步骤。