CN114155399A

CN114155399A - 基于多特征融合递进式判别的乳腺病理全切片分类方法

Info

Publication number: CN114155399A
Application number: CN202111456073.8A
Authority: CN
Inventors: 郑魁; 丁维龙; 赵樱莉; 朱峰龙; 朱筱婕
Original assignee: Shanghai Paiying Medical Technology Co ltd
Current assignee: Shanghai Paiying Medical Technology Co ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-08

Abstract

本发明披露一种基于多特征融合递进式判别的乳腺病理全切片分类方法。考虑到病理图像块与周围图像块之间存在空间相关性，利用多种特征融合方法聚合其和周围图像块的特征得到全局描述符。从全局描述符中，选择具有代表性的特征和热力图的特征进行连接，得到具有代表性和解释性的全切片特征。同时采用多特征融合递进式判别的方法对全切片图像进行最终的识别。所述方法可以避免离群点的产生，消除对最终全切片性质判断的消极影响。上述两种类型的特征的连接，可以提高全切片特征描述符的整体表示能力，使训练出的识别模型具有较高的准确性，同时递进式判别方法减少在分类过程中假阴性的产生，使其更加适应于临床诊断，提高医生的诊断质量和效率。

Description

基于多特征融合递进式判别的乳腺病理全切片分类方法

技术领域

本发明涉及医学影像诊断技术以及电子信息领域的图形和图像处理软件领域，具体涉及一种基于多特征融合递进式判别的乳腺病理全切片分类方法。

背景技术

乳腺癌，不仅是全球女性健康的敌人，也是我国女性发病率第一的恶性肿瘤，近年来乳腺癌患者呈现年轻化的趋势。乳腺癌的诊断需要显微水平的图像评估，以便早期发现肿瘤，并基于病理学诊断结果设计治疗方法。

随着显微摄影和全切片扫描技术的发展，病理切片能以数字图像的形式保存下来，使得计算机视觉的方法可以应用于病理领域^[1]。全视野数字切片(Whole SlideImages，WSIs)是利用全自动显微镜扫描***将传统玻璃切片进行扫描拼接生成的一整张全视野的数字切片，包含从组织到细胞层面丰富而详尽的信息。数字病理的出现有效节省了医院病理科的人力、时间成本，提高病理诊断的质量和效率，在一定程度上缓解了病理科的发展困境。

近年来，诸多学者对病理图像的识别进行了研究。早期的乳腺组织图像处理方法多采用传统机器学习算法。该类算法基于人工设计的特征进行分类。基于人工特征和机器学习的方法存在一定的局限性，由于不同类别的细胞具有极大的相似性，给特征提取带来极大的困难，并且无法设计高层抽象的特征。目前，随着以卷积神经网络为主的深度学习方法得到广泛应用，组织病理学数字切片的计算机辅助诊断技术研究取得了明显的进展。

分块采样方法是基于深度学习的全切片分类法的一种方法。这种方法先把全切片图像切割成多个小尺寸的分块，再将这些小尺寸分块输入卷积神经网络中提取特征，然后聚合这些特征作为全切片的特征，最终使用分类器对全切片特征进行分类得到最终分类结果。比如，Wang^[2]等人将乳腺癌前哨***切片使用滑动窗口方法提取出256×256像素的分块，将其送入训练好的GoogLeNet模型中，将所有分块的恶性程度概率组合起来得到全切片的癌变热力图，提取热力图中包括肿瘤区域面积、肿瘤区域个数等28种特征，最后送入随机森林中进行全片的分类。Hou^[3]等人提出一种新的基于EM的方法，自动识别具有高判别性的小块用于CNN模型的训练，并训练一个决策融合模型来聚合CNN给出的图像块预测。

上述方法都是直接将小尺寸图像块作为CNN模型的输入，未考虑到这些图像块之间存在空间相关性。一般来说，全切片的肿瘤区域比切割的图像块大，使得肿瘤概率高的图像块在空间上相对聚集。当斑块位于肿瘤区域时，其相邻斑块也很有可能被标记为肿瘤，因为它们位于相邻区域。为了明确建模相邻图像块之间的空间相关性，Kong^[4]等人提出了一种使用长短时记忆网络(Long Short-term Memory，LSTM)的空间网络，该网络基于从CNN分类器提取的图像块特征来捕获空间相关性。为检测全切片图像中的癌症转移，Li^[5]等人提出了一个神经条件随机场(NCRF)深度学习框架，通过将CNN模型和一个完全连接的条件随机场(Conditional Random Field，CRF)集成来考虑相邻图像块之间的空间相关性。然而上述两种方法使用了两阶段方法来获取空间相关性，CNN阶段无法获取图像块之间的空间相关性，导致两个阶段分离，没有实现端到端的计算。

在获得众多小图癌变性质判定后，为获取整张图片的癌变类型，需要汇总小图的性质以获取全切片特征。目前，全切片特征的提取方法主要分为两类：一类是基于肿瘤区域热力图的方法^[2]，它关注全切片图像的预测的肿瘤区域的整体形态特征以及它占整个组织区域的特征，但是热力图的特征是人工设计提取的，存在效率低和精确度不足的局限性；另一类是基于CNN特征聚合的方法^[6]，它从CNN模型中提取每一个图像块的N维特征向量，将有辨别力的图像块的特征聚合为全切片图像的特征，但是最终获取的特征是经过多次卷积操作后提取的高层抽象特征，解释性不强。考虑到上述两种全切片特征提取方法各有优缺点，本发明通过特征连接的方式取二者的优点，把基于热力图的特征和基于CNN的特征进行拼接，以使全切片图像的特征更具有代表性，同时增加可解释性。

在病理图像诊断过程中，临床上对于假阴性和假阳性的容忍是不同的。一般对于假阴性更为敏感，认为假阴性比假阳性严重的多，因为假阴性会导致误判和漏判，错过最佳治疗时机，为病人带来更大的风险。

现有的全切片分类方法大多对得到的一种特征进行判断，如Wang等人^[7]在多种特征融合方法得到的全切片特征中，选择分类正确率最高的一种作为最后的分类特征。但单纯依靠任意一个特征给出的结果都存在假阴性比例比较高的问题，同时每个特征所关注的图像的细节是不同的。因此逐一使用这些特征对上一次判断结果为阴性的WSI图像进行判别，可以最大程度降低假阴性的比例。通过文献调研发现，目前国内外还没有这种思路的相关报导。

发明内容

为了克服现有技术的缺陷，本发明采用一种多特征融合递进式判别的方法，对多种特征进行递进式地判定，以减少或避免病理图像识别过程中假阴性的产生。

1)针对上述提出的将小尺寸图像块作为CNN模型的输入，未考虑到这些图像块之间存在空间相关性，本发明将多个病理图像块作为整体输入到CNN模型中，过滤掉其中不同类型的图像块，有效避免异常离群点的出现。

2)针对最终用于分类的全切片特征存在局限性、解释性不强等问题，本发明将全局描述符和热力图特征进行聚合，使全切片的特征更具有代表性，在对全切片图像进行分类的同时检测出癌变区域，使其识别结果更具有解释性。

3)针对病理图像诊断过程中，假阴性比假阳性会带来更大的危害且单一特征判断容易造成假阴性的问题，本发明采用一种多特征递进式判别的方法，通过对判定为阴性的图像逐一使用各个特征进行判定，以减少病理图像识别过程中假阴性的产生。

本发明基于多特征融合递进式判别的乳腺病理全切片分类方法的技术方案包括以下步骤：

S1：使用Ostu方法去除全切片中空白区域，提取病理图像中的组织区域，并在组织区域中使用随机取点的方法制作CNN模型训练的训练集和测试集；

S2：选择改进的ResNet34网络作为图像块识别模型，并进行训练；

S3：制作全切片图像分类的数据集输入已训练的图像块识别模型中，从CNN模型中提取图像块的特征向量和癌变概率，对每个块进行特征聚合形成块描述符，同时将每个块的坐标和癌变概率进行保存得到肿瘤区域热力图；

S4：使用(平均值、最大值、加权)三种特征融合手段聚合病理图像的块描述符分别得到三种类型的类描述符，将所有类描述符聚合得到最终的全局描述符；

S5：使用人工设计的特征提取肿瘤区域热力图特征；

S6：从全局描述符选择具有代表性的特征，与热力图的特征进行连接得到最终全切片图像的特征描述符；

S7：使用多特征递进式决策的方法对所获得的三种全切片特征描述符进行最终的判定。

步骤S1具体包括以下步骤：

S1.1：对乳腺病理图像中的癌变区域进行人工标记；进行人工标记通常邀请专业病理专家参与；

S1.2：使用Ostu分割法去除乳腺病理图像中的空白区域，提取组织区域，提高计算的效率；

S1.3：以随机取点的方式，在标记为癌变的乳腺病理全切片的肿瘤区域中提取244×244像素大小的图像块作为阳性数据集，在标记为癌变的乳腺病理全切片和标记为非癌变的乳腺病理全切片的正常组织区域中，分别提取244×244像素大小的图像块作为阴性数据集；

S1.4：使用Reinhard色彩迁移方法将所有图像块进行颜色归一化，并将数据集进一步分为训练集和测试集。

步骤S2采用一个改进的ResNet34网络作为图像块的预测模型，该模型以ResNet34为基础，为了使网络能适应不同尺寸的输入，将最后一层全连接层替换成两个全卷积层，同时将ResNet34中所有卷积层的填充操作删除，避免预测时出现边界效应。随后使用训练集对ResNet34进行训练。具体包括以下步骤：

S2.1：使用翻转、旋转、裁剪等数据增强的方法增加训练集的多样性；

S2.2：设定模型中的学习率、权重等参数；

S2.3：通过改进的网络结构处理输入的数据，计算损失值，反向传播梯度到神经网络的参数中；

S2.4：根据更新规则来更新网络中的权重值。

在具体的实施例中，S3具体包括：

S3.1：制作全切片分类的数据集，使用滑动窗口方式在病理图像的组织区域提取896×896像素大小的图像块，并使用Reinhard对图像块进行颜色归一化。我们将896×896像素大小的图像块称为Block，Block可以看作是由n×n个图像块组成的大网格。在本发明中n＝4；

S3.2：直接将Block输入到已训练的卷积神经网络进行图像块癌变性质的预测。在预测过程中，对于每一个图像块，从改进的ResNet34的倒数第二个卷积层输出一个512维的特征f，并在最后一个卷积层输出其患癌概率p。再通过三种特征融合方法聚合Block内图像块特征得到Block特征描述符B_m，其中m∈[1,M]，M为特征融合方法的数量；

S3.3：获取Block的概率值。对于每一个Block，通过取其所包含的每一个图像块的患癌概率的平均值，作为整个Block的患癌概率(这是一个0到1之间的恶性肿瘤概率值，代表该Block患恶性肿瘤的概率)。

S3.4：根据所有的Block的患癌概率值，绘制全切片图像肿瘤区域热力图，并以高亮显示恶性肿瘤所在位置。

在具体的实施例中，S3.2所述三种特征融合手段包括：

1)加权：考虑同一个Block内所有图像块的特征，并设每一个图像块特征对Block特征的贡献与其患癌概率成正比，计算公式如下：

2)取最大值：将概率最高的图像块的特征作为Block的特征，计算公式如下：

3)取平均值：将Block中所有图像块的特征取平均作为Block的特征，计算公式如下：

其中B表示Block描述符，n为Block每行(列)中的图像块的个数，p_i,j，f_i,j分别为Block内第i行j列的图像块的患癌概率和特征。

步骤S4具体包括以下步骤：

S4.1：通过判断Block的概率是否超过某一阈值α来辨别Block是否具有判别力，本发明选取阈值α＝0.3。

S4.2：在全切片图像中分别将所有判别力的Block的特征B_m进行聚合，形成类特征C_m。

所述类特征为：

其中B_k,m是步骤S3中B_m取得的Block特征描述符，N表示判别Block的数量。

步骤S5具体包括以下步骤：

得到全切片组织病理图像的恶性肿瘤热力图之后，从热力图中提取恶性肿瘤区域的几何和形态学特征信息，将其组合形成热力图的特征H；

所述提取的热力图的特征包括：

如癌细胞区域的数量、恶性肿瘤区域面积和周长的最值、平均值和方差、恶性肿瘤区域占整个组织区域的百分比和密度值、最大恶性肿瘤区域中最长轴的大小、恶性肿瘤区域偏心率大小等31个形态和几何特征。

所述提取的热力图的特征如表1所示。

表1热力图特征

步骤S6具体包括以下步骤：

S6.1：利用特征选择的方法剔除S4获取的类描述符C_m中不相关或冗余的特征得到类特征子集D_m，从而达到减少特征个数，提高模型精确度，减少运行时间的目的；

S6.2：将特征选择之后的类特征子集D_m与S5提取的热力图的特征H连接形成最终的全切片图像的特征G_m。

所述特征选择是指根据阳性样本和阴性样本之间的特征差异来选择特征。令pos和neg分别表示表示训练集中癌变图像和正常图像，N_pos和N_neg分别表示癌变图像和正常图像的数量，v_i,k表示第i个图像的第k维特征，则第k个特征的差值diff_k为：

然后将所有的特征差值从最大到最小排序，选择特征差值最大的前100个特征，从而得到类特征子集D_m。

步骤S7具体包括以下步骤：

S7.1：提取训练集的三种全切片图像的特征(G₁、G₂、G₃)，将三种特征合集分别输入进随机森林中，对随机森林进行训练，获得决策器(RF₁、RF₂、RF₃)；

S7.2：将测试的全切片图像的特征G₁输入进随机森林决策器RF₁中进行全切片类型的判定，即有癌和无癌两种类型。若RF_m判定该全切片图像的类型为有癌，则结束步骤，输出该全切片最终判定类型为有癌；否则，执行步骤S7.3；

S7.3：将特征G₂输入进随机森林决策器RF₂中进行全切片类型的判定，若RF₂判定该全切片图像的类型为有癌，则结束步骤，输出该全切片最终判定类型为有癌；否则，执行步骤S7.4；

S7.4：将特征G₃输入进随机森林决策器RF₃中进行全切片类型的判定，若RF₃判定该全切片图像的类型为有癌，则输出该全切片最终判定类型为有癌；若随机森林决策器RF₃判定该全切片图像为无癌，则输出该全切片最终判定类型为无癌。

附图说明

图1为本发明基于多特征融合递进式判别的乳腺病理全切片分类方法的流程图；

图2为本发明基于多特征融合递进式判别的乳腺病理全切片分类方法中递进决策的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明基于多特征融合递进式判别的乳腺病理全切片分类方法的技术方案包括以下步骤：

S2：选择改进的ResNet34网络作为图像块识别模型，并使用CNN模型训练的训练集采用随机梯度下降算法对网络参数进行训练；

S3：将全切片图像以滑动窗口的方式切割成分块输入已训练的图像块识别模型中，从识别模型中提取图像块的特征向量和癌变概率，对每个块进行特征聚合形成块描述符，同时将每个块的坐标和癌变概率进行保存得到肿瘤区域热力图；

S4：使用取平均值、取最大值、加权三种特征融合手段聚合病理图像的块描述符分别得到三种类型的类描述符，将所有类描述符聚合得到最终的全局描述符；

S5：从热力图中提取恶性肿瘤区域的31个几何和形态学特征，将其组合形成热力图的特征；

S6：从全局描述符选择具有代表性的特征，与热力图的特征进行连接得到最终三种全切片图像的特征描述符；S7：使用多特征递进式决策的方法对所获得的三种全切片特征描述符进行最终的判定。

步骤S1具体包括以下步骤：

S1.1：邀请专业病理专家对乳腺病理图像中的癌变区域进行人工标记；

S2.2：设定模型中的学习率、权重等参数；

S2.4：根据更新规则来更新网络中的权重值。

在具体的实施例中，S3具体包括：

在具体的实施例中，S3.2所述三种特征融合的方法包括：

1)加权方法：该方法考虑同一个Block内所有图像块的特征，并设每一个图像块特征对Block特征的贡献与其患癌概率成正比，计算公式如下：

2)最大值方法：该方法将概率最高的图像块的特征作为Block的特征，计算公式如下：

4)平均值方法：该方法将Block中所有图像块的特征取平均作为Block的特征，计算公式如下：

步骤S4具体包括以下步骤：

在具体的实施例中，所述类特征聚合方法包括：

步骤S5具体包括以下步骤：

所述提取的热力图的特征如表1所示：

表1热力图特征

步骤S6具体包括以下步骤：

如图2所示，步骤S7具体包括以下步骤：

本领域普通技术人员可以理解：附图只是便于读者理解，附图中的模块或流程不一定是实施本发明所必须的。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

参考文献

[1]金旭,文可,吕国锋,等.深度学习在组织病理学中的应用综述[J].中国图象图形学报,2020,25(10):1982-1993。

[2]Wang D,Khosla A,Gargeya R,et al.Deep Learning for IdentifyingMetastatic Breast Cancer[J].2016。

[3]Hou L,Samaras D,Kurc T M,et al.Patch-Based Convolutional NeuralNetwork for Whole Slide Tissue Image Classification[J].2016 IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR),2016,2424-2433。

[4]Kong B,Xin W,Li Z,et al.Cancer Metastasis Detection via SpatiallyStructured Deep Network[C].International Conference on Information Processingin Medical Imaging.Springer,Cham,2017。

[5]Li Y,Ping W.Cancer Metastasis Detection With Neural ConditionalRandom Field[J].2018。

[6]Yan X,Jia Z,Wang L B,et al.Large scale tissue histopathology imageclassification,segmentation,and visualization via deep convolutionalactivation features[J].BMC Bioinformatics,2017,18(1):1-17。

[7]Wang X,Chen H,Gan C,et al.Weakly Supervised Deep Learning forWhole Slide Lung Cancer Image Analysis[J].IEEE Transactions on Cybernetics,2019,99:1-13。

Claims

1.一种基于多特征融合递进式判别的乳腺病理全切片分类方法，其特征在于，包括以下步骤：

S1：使用Ostu方法去除全切片中空白区域，提取病理图像中的组织区域，并在组织区域中使用随机取点制作CNN模型训练的训练集和测试集；

S4：使用取平均值、取最大值、加权三种手段聚合病理图像的块描述符分别得到三种类型的类描述符，将所有类描述符聚合得到最终的全局描述符；

S6：从全局描述符选择具有代表性的特征，与热力图的特征进行连接得到最终三种全切片图像的特征描述符；

S7：使用多特征递进式决策对所获得的三种全切片特征描述符进行最终的判定。

2.如权利要求1所述的基于多特征融合递进式判别的乳腺病理全切片分类方法，其特征在于，步骤S1具体包括以下步骤：

S1.1：对乳腺病理图像中的癌变区域进行人工标记；

3.如权利要求1所述的基于多特征融合递进式判别的乳腺病理全切片分类方法，其特征在于，步骤S2采用一个改进的ResNet34网络作为图像块的预测模型，该模型以ResNet34为基础，将最后一层全连接层替换成两个全卷积层，同时将ResNet34中所有卷积层的填充操作删除，避免预测时出现边界效应；随后使用训练集对ResNet34进行训练；步骤S2具体包括以下步骤：

S2.1：使用包括翻转、旋转、裁剪的数据增强手段增加训练集的多样性；

S2.2：设定模型中的学习率、权重；

S2.3：通过改进的ResNet34处理输入的数据，计算损失值，反向传播梯度到神经网络的参数中；

S2.4：根据更新规则来更新网络中的权重值。

4.如权利要求1所述的基于多特征融合递进式判别的乳腺病理全切片分类方法，其特征在于，步骤S3具体包括以下步骤：

S3.1：制作全切片分类的数据集，使用滑动窗口方式在病理图像的组织区域提取896×896像素大小的图像块，并使用Reinhard对图像块进行颜色归一化；将896×896像素大小的图像块称为Block，Block可以看作是由n×n个图像块组成的大网格；

S3.2：直接将Block输入到已训练的卷积神经网络进行图像块癌变性质的预测；在预测过程中，对于每一个图像块，从改进的ResNet34的倒数第二个卷积层输出一个512维的特征f，并在最后一个卷积层输出其患癌概率p；再通过加权、取最大值、以及取平均值来聚合Block内图像块特征得到Block特征描述符B_m，其中m∈[1,M]，M为特征融合方法的数量；

S3.3：获取Block的概率值：对于每一个Block，通过取其所包含的每一个图像块的患癌概率的平均值，作为整个Block的患癌概率；

S3.4：根据所有的Block的患癌概率值，绘制全切片图像肿瘤区域热力图，并以高亮显示恶性肿瘤所在位置；