CN114783604A

CN114783604A - 一种乳腺癌前哨转移的预测方法、及存储介质

Info

Publication number: CN114783604A
Application number: CN202210420290.XA
Authority: CN
Inventors: 余晋刚; 吴锦全; 吴梓浩
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-07-22

Abstract

本发明公开了一种乳腺癌前哨***转移的预测方法、***及存储介质，方法为：获取带标签的WSI作为训练数据集，进行预处理得到图像块集；构建WSI分类模型；使用图像块集对特征提取器进行预训练，获得特征向量集；将特征向量集输入原型聚类模块中，通过聚类提取多个原型；对乳腺癌前哨***WSI划分图像块后输入特征提取器中提取图像块特征；将图像块特征和原型输入特征融合模块进行匹配，生成软分配直方图，构造乳腺癌前哨***WSI的特征向量；将乳腺癌前哨***WSI的特征向量送入全连接层获取WSI分类分数并进行转移判断。本方法在保持对宏转移精确识别的同时，能够更好的解决微转移识别的问题，从而对乳腺癌前哨***转移进行精确地诊断。

Description

一种乳腺癌前哨***转移的预测方法、***及存储介质

技术领域

本发明属于病理数字图像处理的技术领域，具体涉及一种乳腺癌前哨***转移的预测方法、***及存储介质。

背景技术

乳腺癌是女性的主要癌症，会诊时需要病理医生在显微镜下观察用苏木精和伊红(H&E)染色的组织标本玻片来对乳腺癌前哨***转移进行诊断，这是一个乏味，繁琐和容易出错的过程。近些年来，随着计算病理的兴起，通过使用数字扫描仪对H&E染色玻片进行扫描并存储为数字病理全切片图像(WSI)，然后利用计算机视觉算法，特别是深度学习算法，来自动分析这些WSI帮助诊断乳腺癌，有效的改善了诊断流程。计算病理具有高效、客观和可重复的好处，但是计算病理在对WSI进行分析时，面临着问题：首先是WSI具有超高的分辨率，通常拥有千兆个像素，使得无法将一张完整的WSI直接输入到普通的卷积神经网络中；其次由于肿瘤组织通常只占WSI的一小部分，因此需要对肿瘤区域进行精细标注才能进行全监督深度学习，但这种精细标注的成本极高，尤其是在合格的病理医生稀缺的情况下。

针对上述问题，一种比较有前景的方法是多示例学习方法，在只给定整张WSI的标签作为弱监督信息的情况下，将一个WSI(包)切分成许多小的图像块(示例)来进行处理，然后通过常见的instance-space(IS)范式或者embedding-space(ES)范式来打通图像块和WSI之间的信息差。但是应用多示例学习方法时还有存在其他挑战：一是WSI通常表现出显著的肿瘤间异质性，这意味着患者之间的病理特征差异很大，给多示例学习带来了困难；二是在临床上，乳腺癌前哨***转移分为宏转移和微转移，前者是指肿瘤转移区域直径大于2毫米，后者则是指肿瘤转移区域直径是在0.2到2毫米之间；由于微转移的肿瘤转移区域很小，这也使得识别微转移要比识别宏转移更为困难。

在现有WSI分类中，一种最直接的多示例学***均的方式来融合每个示例的特征。还有一种基于自监督对比学***衡；同时，现有方法都是利用预训练的特征提取网络来提取图像块的特征，导致了图像块的判别能力不是很强，使得阳性图像块中的判别信息会在融合过程中被阴性图像块所覆盖，从而导致错误的预测。二是上述现有技术是在通过卷积神经网络(CNN)提取每个图像块特征之后，将这些特征做加权组合得到整个WSI的特征，然后用于最后的预测；但通过CNN提取的特征是没有明确的物理意义，导致无法明确WSI特征中每个维度的物理意义，缺乏可解释性。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种乳腺癌前哨***转移的预测方法、***及存储介质，该方法在保持对宏转移精确识别的同时，能够更好的解决微转移识别的问题，从而能够精确地对乳腺癌前哨***转移进行诊断。

为了达到上述目的，本发明采用以下技术方案：

一方面，本发明提供一种乳腺癌前哨***转移的预测方法，其特征在于，包括下述步骤：

获取带标签的WSI作为训练数据集，进行预处理得到图像块集；

构建WSI分类模型，所述WSI分类模型包括特征提取器、原型聚类模块、特征融合模块及全连接层；

使用图像块集对特征提取器进行预训练，获得特征向量集，并固定特征提取器的参数；

将特征向量集输入原型聚类模块中，通过聚类提取多个原型；

对乳腺癌前哨***WSI划分图像块后输入固定参数的特征提取器中提取图像块特征；

将图像块特征和原型输入特征融合模块进行匹配，生成软分配直方图，构造乳腺癌前哨***WSI的特征向量；

将乳腺癌前哨***WSI的特征向量送入全连接层获取WSI分类分数并进行转移判断。

作为优选的技术方案，所述训练数据集表示为：

其中，X_i表示第i张带标签的WSI，|S|表示为训练数据集S中带标签WSI的张数；

所述标签表示为Y∈{0,1}，当Y＝1时表示乳腺癌前哨***发生转移；当Y＝0时表示乳腺癌前哨***未发生转移；

所述预处理是指将训练数据集中带标签的WSI进行二值化处理，再划分为多个长宽一致的图像块，表示为：

其中，

表示第i张带标签WSI划分后的第n个图像块，|X_i|表示第i张带标签WSI划分为图像块的块数。

作为优选的技术方案，所述特征提取器基于卷积神经网络构建，使用最大池化多示例学习方法进行预训练，将输入的图像块转换为特征向量，表示为：

其中，

表示第i张带标签WSI划分后第n个图像块的特征向量，g_θ表示预训练的特征提取器，参数为θ；

所述将图像块集输入特征提取器中获得特征向量集，表示为：

作为优选的技术方案，所述将特征向量集输入原型聚类模块中，通过聚类提取多个原型，具体为：

原型聚类模块使用AP聚类算法对任一WSI中图像块的特征向量进行聚类，得到第一阶段聚类中心：

其中，

表示对X_i中图像块的特征向量进行AP聚类得到的第一阶段聚类中心集合，M_i表示第一阶段聚类中心的数量；

使用AP聚类算法对第一阶段聚类中心进行聚类，得到第二阶段聚类中心作为原型：

其中，

表示对第一阶段聚类中心进行AP聚类得到的第二阶段聚类中心集合，M表示第二阶段聚类中心的数量；

所述AP聚类算法的相似性度量定义为：

其中，S_ab表示图像块a与图像块b的特征之间的相似性度量值，λ为超参数，

为图像块a的特征，

为图像块b的特征，‖·‖_F表示弗罗贝尼乌斯-范数。

作为优选的技术方案，所述乳腺癌前哨***WSI表示为X；提取得到的图像块特征表示为

所述将图像块特征和原型输入特征融合模块进行匹配，生成软分配直方图，具体为：

引入度量学习机制，使用可学习全连接层FC2将图像块特征映射到新的特征空间，通过余弦相似性来度量第n个图像块特征和第m个原型的相似性，公式为：

其中，

表示相似性，W₂为可学习全连接层FC2的参数，

为W₂的转置矩阵；

根据计算得到的相似性生成软分配直方图{h_n}_n，其中x轴表示原型，y轴表示相似性。

作为优选的技术方案，所述构造乳腺癌前哨***WSI的特征向量，具体为：

引入TOP-K选择机制，使用全连接层FC3为每个图像块特征分配一个分数r_n来量化其与乳腺癌前哨***阳性的相关性，公式为：

其中，W₃为可学习全连接层FC3的参数，

为W₃的转置矩阵；

按照降序对分数{r_n}_n进行排序，选择前K个最相关的图像块特征I_K＝{n₁,…,n_K}；

使用选择池化来聚合K个最相关图像块特征的相似度分数，获得乳腺癌前哨***WSI的特征向量h＝[h⁽¹⁾,…,h^(M)]，

其中，M表示WSI特征向量的维度，h^(m)表示WSI特征向量第m维的数值。

作为优选的技术方案，所述获取WSI分类分数，具体为：

将乳腺癌前哨***WSI的特征向量送入全连接层FC1中，计算得到WSI分类分数：

其中，W₁为全连接层FC1的参数，o为softmax输出的分数，

表示W₁的转置矩阵。

作为优选的技术方案，所述WSI分类模型的损失函数为：

其中，

为全连接层FC1的损失函数，

为全连接层FC3的损失函数，Y为真实的WSI标签，[o,1-o]^T是WSI分类分数，r^*＝max_n{r_n}为与乳腺癌前哨***阳性最大的相关性分数。

另一方面，本发明提供一种乳腺癌前哨***转移的预测***，其特征在于，包括数据获取模块、模型构建模块、向量提取模块、原型提取模块、特征提取模块、特征向量构造模块及分类分数获取模块；

所述数据获取模块用于获取带标签的WSI作为训练数据集，进行预处理得到图像块集；

所述模型构建模块用于构建WSI分类模型；所述WSI分类模型包括特征提取器、原型聚类模块、特征融合模块及全连接层；

所述向量提取模块用于使用图像块集对特征提取器进行预训练，获得特征向量集，并固定特征提取器的参数；

所述原型提取模块用于将特征向量集输入原型聚类模块中，通过聚类提取多个原型；

所述特征提取模块用于对乳腺癌前哨***WSI划分图像块后输入固定参数的特征提取器中提取图像块特征；

所述特征向量构造模块用于将图像块特征和原型输入特征融合模块进行匹配，生成软分配直方图，构造乳腺癌前哨***WSI的特征向量；

所述分类分数获取模块用于将乳腺癌前哨***WSI的特征向量送入全连接层获取WSI分类分数并进行转移判断。

还一方面，本发明提供一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现上述的一种乳腺癌前哨***转移的预测方法。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明原型聚类模块采用两段式的无监督聚类方式提取原型，在第一阶段对WSI内部进行聚类，在第二阶段对WSI之间进行聚类；通过该方式可以自动获取整个病理数据集中的原型，不需要事先指定原型数量，并且由于这些原型是在整个病理数据集中提取的，所以这些原型代表了病理数据集中典型的病理特征，可以有效的对肿瘤间异质性进行建模，直接捕获有意义的病理模式，表示病理数据在特征空间的多模态分布；同时，通过利用这些原型来构造WSI的整体特征，使得本方法更加具有解释性，因为WSI的特征向量中每一个维度都代表了一种原型在WSI中出现的频率。

2、本发明为了在识别微转移方面表现更好，通过引入度量学习机制，使用可学习全连接层来度量图像块特征与原型的相似性，生成软分配直方图；由于全连接层可学习，可以通过训练来学习一个更具辨别力的度量空间，将图像块和原型的特征向量映射到该度量空间后，可以增强图像块的判别能力，以实现更好的匹配；同时引入TOP-K选择机制，使用全连接层量化与乳腺癌前哨***阳性的相关性，使用选择池化来获得乳腺癌前哨***WSI的特征向量，排除了不相关的图像块的干扰，缓解了阴性图像块过多的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种乳腺癌前哨***转移的预测方法的流程图；

图2为本发明实施例中WSI分类模型的结构示意图；

图3为本发明实施例中原型聚类模块的结构示意图；

图4为本发明实施例中特征融合模块的结构示意图；

图5为本发明实施例中一种乳腺癌前哨***转移的预测***的结构图；

图6为本发明实施例中计算机可读存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

本发明提出了一种新的弱监督方法来实现对乳腺癌前哨***转移的预测，叫基于原型的多示例学习(PMIL)，是一种vocabulary-based(VS)范式的多示例学习；VS范式即先得到一批原型，然后利用这些原型来对图像块所提取出来的特征进行融合，然后利用融合后的特征来WSI对进行预测。

在本发明中，给定一组带有标签的WSI作为训练数据集

任务是从

中学习到一个二分类器Y＝F(X)，从而能够从一张输入的WSI中预测乳腺癌前哨***的转移，使用的是基于CNN的模型。由于WSI具有超高分辨率，所以无法直接将WSI输入到CNN中，常用的做法是使用多示例学习，将一个WSI(包)切分成许多小的图像块

(示例)，在只需要给定WSI的标签而不需这些示例标签的情况下，通过对这些图像块进行处理来学习个WSI分类器F(X)。

如图1所示，本实施例提供了一种乳腺癌前哨***转移的预测方法，包括下述步骤：

S1、获取带标签的WSI作为训练数据集，进行预处理得到图像块集；

具体的，训练数据集表示为：

标签Y∈{0,1}为一个弱监督二分类标签，当Y＝1时表示乳腺癌前哨***发生转移；当Y＝0时表示乳腺癌前哨***未发生转移；

将训练数据集中带标签的WSI进行二值化处理，再划分为多个长宽一致的图像块，表示为：

其中，

本实施例在20倍率下，将训练数据集中每一带标签WSI划分为2000～8000个256×256大小的图像块。

S2、构建WSI分类模型，包括特征提取器、原型聚类模块、特征融合模块及全连接层；

如图2所示，本实施例的目标就是构建一个WSI分类模型F(X)，实现对乳腺癌前哨***转移的预测，其中特征提取器表示为g_θ，用于提取输入图像块的特征向量；原型聚类模块表示为PD，用于学习多个原型，便于对病理数据中的肿瘤间异质性进行建模；特征融合模块表示为PSE，用于构造整张WSI的特征向量；全连接层表示为FC1，用于输出分类分数，预测乳腺癌前哨***的转移。

S3、使用图像块集对特征提取器进行预训练，获得特征向量集，并固定特征提取器的参数；

具体的，本发明中的特征提取器基于卷积神经网络(CNN)构建，使用最大池化多示例学习方法(MAX_MIL)进行预训练，将输入的图像块转换为特征向量，表示为：

其中，

表示第i张带标签WSI划分后第n个图像块的特征向量，g_θ表示预训练的特征提取器，θ为预训练特征提取器的参数；

将图像块集输入特征提取器中获得特征向量集，表示为：

S4、将特征向量集输入原型聚类模块中，通过聚类提取多个原型；

由于在整个训练集中有太多的图像块，很难直接应用传统的聚类算法(比如K-means)，故如图3所示，原型聚类PD模块采用无监督聚类的方式，分为两个阶段来聚集多个原型：

第一阶段是在WSI内部进行聚类(ISC)，即：PD模块使用AP聚类算法对任一WSI中图像块的特征向量进行聚类，得到第一阶段聚类中心：

其中，

第二阶段是在WSI之间进行聚类(XSC)，即：使用AP聚类算法对第一阶段聚类中心进行聚类，得到第二阶段聚类中心作为原型：

其中，

由于采用的是无监督的AP聚类算法(Affinity Propagation Clustering)，所以可以自动的决定类别数量；同时该算法还要求两图像块(如a和b)的特征之间要有明确的相似性度量，故将AP聚类算法的相似性度量定义为：

为图像块a的特征，

为图像块b的特征，‖·‖_F表示弗罗贝尼乌斯-范数。

通过捕获典型的病理模式，原型有望以更细致的方式表示具有较大类内方差(在本任务中为前哨***转移阳性和前哨***转移阴性)的语义类，从而使WSI分类模型F(X)能够有效地对病理学数据中的肿瘤间异质性进行建模。

S5、对乳腺癌前哨***WSI划分图像块后输入固定参数的特征提取器中提取图像块特征；

S6、将图像块特征和原型输入特征融合模块进行匹配，生成软分配直方图，构造乳腺癌前哨***WSI的特征向量；

设乳腺癌前哨***WSI表示为X，通过特征提取器得到的图像块特征表示为

在PD模块得到的原型的基础上，通过PSE模块为输入的乳腺癌前哨***WSI构造WSI特征向量，具体为：

为了使WSI分类模型能够适应计算病理的任务，特别是在乳腺癌前哨***转移预测中识别微转移，如图4所示，在PSE模块中引入了两个机制：

第一引入度量学习机制；在现有的VS范式MIL方法中，通常使用预定义的相似性度量来匹配图像块和原型，例如余弦距离或马氏距离，但本发明引入了度量学习机制来学习相似性度量，具体而言：

使用可学习全连接层FC2将图像块特征映射到新的特征空间，通过余弦相似性来度量第n个图像块特征和第m个原型的相似性，公式为：

其中，

表示相似性，W₂为可学习全连接层FC2的参数，

为W₂的转置矩阵；

第二引入TOP-K选择机制，只选择与感兴趣类别(前哨***阳性)最相关的K个图像块进行聚合，具体为：

使用全连接层FC3为每个图像块特征分配一个分数r_n来量化其与乳腺癌前哨***阳性的相关性，公式为：

其中，W₃为可学习全连接层FC3的参数，

为W₃的转置矩阵；

S7、将乳腺癌前哨***WSI的特征向量送入全连接层获取WSI分类分数并进行转移判断，计算WSI分类分数的公式为：

其中，W₁为全连接层FC1的参数，o为softmax输出的概率值，范围为[0,1]；

表示W₁的转置矩阵。

计算得到的WSI分类分数为0到1，当WSI分类分数大于等于0.5时，判断乳腺癌前哨***转移，否则判断为乳腺癌前哨***未转移。

由于图像块的数量过于巨大，这使得将g_θ和网络中的其余参数一起进行训练在算力上是负担不起的(因为它需要并行存储所有图像块的众多中间特征图以进行反向传播)；因此遵循通用的做法：先使用IS范式的最大池化(max-pooling)多示例学习(MAX-MIL)单独预训练特征提取器g_θ，然后在模型训练过程中将特征提取器的参数固定。为了学习WSI分类模型中的参数{W₁,W₂,W₃}，使用下列损失函数：

其中，

为全连接层FC1的损失函数，是二分类中常见的交叉熵损失函数；

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的一种乳腺癌前哨***转移的预测方法相同的思想，本发明还提供一种乳腺癌前哨***转移的预测***，该***可用于执行上述一种乳腺癌前哨***转移的预测方法。为了便于说明，一种乳腺癌前哨***转移的预测***实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图5所示，本发明另一个实施例提供了一种乳腺癌前哨***转移的预测***，包括下述几个模块：

数据获取模块用于获取带标签的WSI作为训练数据集，进行预处理得到图像块集；

模型构建模块用于构建WSI分类模型；所述WSI分类模型包括特征提取器、原型聚类模块、特征融合模块及全连接层；

向量提取模块用于使用图像块集对特征提取器进行预训练，获得特征向量集，并固定特征提取器的参数；

原型提取模块用于将特征向量集输入原型聚类模块中，通过聚类提取多个原型；

特征提取模块用于对乳腺癌前哨***WSI划分图像块后输入固定参数的特征提取器中提取图像块特征；

特征向量构造模块用于将图像块特征和原型输入特征融合模块进行匹配，生成软分配直方图，构造乳腺癌前哨***WSI的特征向量；

分类分数获取模块用于将乳腺癌前哨***WSI的特征向量送入全连接层获取WSI分类分数并进行转移判断。

需要说明的是，本发明的一种乳腺癌前哨***转移的预测***与本发明的一种乳腺癌前哨***转移的预测方法一一对应，在上述一种乳腺癌前哨***转移的预测方法的实施例阐述的技术特征及其有益效果均适用于一种乳腺癌前哨***转移的预测***的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的一种乳腺癌前哨***转移的预测***的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述一种乳腺癌前哨***转移的预测***的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

如图6所示，在一个实施例中，提供了一种计算机可读存储介质，存储有程序于存储器中，所述程序被处理器执行时，实现所述的一种乳腺癌前哨***转移的预测方法，具体为：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。