CN111985536A

CN111985536A - 一种基于弱监督学习的胃镜病理图像分类方法

Info

Publication number: CN111985536A
Application number: CN202010690425.5A
Authority: CN
Inventors: 丁偕; 张敬谊; 刘全祥; 王瑜; 韦金江; 刘鸣
Original assignee: Shanghai Fugao Computer Technology Co ltd; WONDERS INFORMATION CO Ltd
Current assignee: Shanghai Fugao Computer Technology Co ltd; WONDERS INFORMATION CO Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-11-24
Anticipated expiration: 2040-07-17
Also published as: CN111985536B

Abstract

本发明提供了一种基于弱监督学习的胃镜病理图像分类方法。针对胃镜数字病理图像标注成本高昂，难以获得大型标注数据集的问题，本发明利用易于获取的粗粒度标签构建的大型胃镜病理图像数据集训练得到弱监督网络模型。通过获得的弱监督网络模型提取胃镜病理图像特征，进一步融合胃镜病理图像全局和局部的定性特征，最后通过随机森林分类器实现对整张胃镜病理图像的阴性和阳性分类。利用本发明提供的基于弱监督的胃镜病理图像分类方法，可以为病理医生提供病理数据的筛查信息，辅助临床病理医生的诊断工作，提升其工作效率。

Description

一种基于弱监督学习的胃镜病理图像分类方法

技术领域

本发明涉及一种基于弱监督学习的胃镜病理图像分类方法，属于医学图像计算机辅助诊断技术领域。

背景技术

全视野数字病理切片(Whole Slide Image，WSI)是利用全自动显微镜扫描平台把传统玻璃切片进行高精度的全面扫描，并无缝拼接，生成的整张全视野数字图像。原始的数字病理切片图像尺寸十分庞大，一张40倍放大的电子病理切片通常由超过十亿个像素点组成。这使得病理医生必须花费大量的时间检查数字病理图像，在上亿级像素的图片中识别微小的癌细胞，工作强度非常的大。

深度学习(Deep Learning，DL)是一种近年来非常热门的机器学习方法，尤其是卷积神经网络(Convolutional Neural Network，CNN)近年来在医学影像领域有着广泛的应用，其在医学图像的目标分类与设别、定位与检测、组织器官与病灶的分割等方面取得了很大进展，为临床医学中各种重大疾病的筛查、诊断、治疗计划、疗效评估和随访提供了科学的方法和先进的技术。当前医疗领域的深度学习主要使用监督学习的方式进行模型的训练和后期的测试应用，且已经取得了巨大的成功，但其严重地依赖于数据资源，需要大量标注的数据样本才能发挥作用。然而，对于数字病理图像，大型标注数据集的获取非常困难，需要在40倍放大的数字病理图像上面寻找并标注感兴趣区域，同时为了满足模型学习的有效性，这些数据集需要具有病例的广泛特异性，这将使得时间和人力成本非常高昂。

弱监督学习(Weakly Supervised Learning)是为了解决标注样本不足而产生的一种机器学习方法，通常可以分为三类：

第一类：不完全监督(incomplete supervision)：训练数据只有一部分具有标签。

第二类：不确切监督(inexact supervision)：训练数据只具备粗粒度标签。

第三类：不准确监督(inaccurate supervision)：训练数据的标签并不总是真值。

其中，不确切监督学习仅需要图像级别的粗粒度标签作为训练数据的标注，就可以让深度学习模型从足够大的数据集上学习到有效特征，从而保证模型的广泛特异性。胃癌病理图像具有显著的特异性特征，有明显的腺体或者细胞畸变表现，其特征信息明显区别于阴性病理图像。

发明内容

本发明的目的是：利用弱监督学习对特异信息敏感的特点，通过合理的算法模型设计，解决标注样本不足问题，实现胃镜数字病理图像的自动分类判别。

为了达到上述目的，本发明的技术方案是提供了一种基于弱监督学习的胃镜病理图像分类方法，其特征在于，包括以下步骤：

步骤1、获取病理图像并构建数据库

采集获取胃镜活检数字病理图像，并对采集到的数据进行清洗，通过临床专家对胃镜活检数字病理图像进行粗粒度标注，粗粒度标注只涉及胃镜活检数字病理图像的良、恶性分类，形成胃镜病理图像数据库；

步骤2、从胃镜病理图像数据库中获得若干用于对特征提取网络模型进行训练的胃镜活检数字病理图像及相应的标注结果后进入步骤3；

步骤3、图像预处理：

提取每张胃镜活检数字病理图像的组织部分、剔除无效区域，对提取出的图像进行小块切图处理，对切出的图像小块进行颜色标准化及数据增强处理；

步骤4、步骤2获得的胃镜活检数字病理图像经过步骤3的图像预处理过程后，获得由一组具有分类标签的多示例包bag组成的训练数据集，其中，每例胃镜活检数字病理图像视为一个多示例包bag，每个多示例包bag含有若干个没有分类标签的示例instance，每个示例instance为经过步骤3得到的图像小块；若多示例包bag至少含有一个正示例instance，则该多示例包bag被标记为正类多示例包，如果多示例包bag的所有示例都是负示例，则该多示例包bag被标记为负类多示例包；

步骤5、基于弱监督学习的特征提取网络模型获取：

构建特征提取网络模型架构，设计相应的特征输出，训练特征提取网络模型并且得到训练好的特征提取网络模型，其中：

特征提取网络模型采用多示例学习算法，通过该特征提取网络模型学习训练数据集中多示例包bag中示例instance和多示例包bag的标签之间的映射关系，具体的图像数据经过一个编码器和多个特征提取的卷积层进行特征提取，最后实现结果输出，特征提取网络模型同时输出图像小块的特征向量和概率值：

特征向量信息：图像小块经过特征提取网络模型中的特征提取模块后，实现维度降低并自动提取小块图像的特征，最终输出一个维度为一的特征向量；

概率值：由上述步骤得到图像小块的特征向量，再经过全连接压缩为一个长度为二的向量，该长度为二的向量第一位置元素值代表该图像小块为阴性图像小块的权重，第二位置元素值代表该图像小块为阳性图像小块的权重，最后通过归一化指数函数，将上述长度为二的向量元素值映射到(0,1)区间，得到图像小块为阴性和阳性的概率值并输出；

步骤6、获得实时输入的胃镜活检数字病理图像后，通过上述步骤3对该胃镜活检数字病理图像进行预处理，并将预处理后获得的多示例包bag通过步骤5构建并训练的特征提取网络模型，由特征提取网络模型输出相应的特征向量信息和概率值；

步骤7、特征提取以及特征融合，包括以下步骤：

步骤701、第一特征提取：

获取全视野胃镜活检数字病理图像的热力图并根据热力图提取可疑组织区域，然后提取病理图像可疑组织区域的特征信息作为第一特征，具体包括以下步骤：

步骤7011生成热力图：利用特征提取网络模型输出的概率值的集合，通过重叠图像小块的逆向过程，拼接得到整张胃镜活检数字病理图像的热力图heatmap；

步骤7012、确定病变可疑区域掩码：将热力图中大于等于预先设定的阈值一的像素值重置为1，小于阈值一的像素值重置为0，获得可疑区域的掩码mask；

步骤7013、可疑组织区域提取：从胃镜活检数字病理图像中选取分辨率最低层的图像，转换为灰度图像，结合可疑区域的掩码mask，提取可疑区域的病理图像，其中，可疑区域的掩码mask经过最邻近插值算法，将掩码mask尺寸重采样到最低分辨率病理图像尺寸大小；

步骤7014、可疑组织区域特征提取；

步骤702、第二特征提取：

利用每例多示例包bag中图像小块的概率值，筛选其中概率值最高的N例图像小块，按照索引获得特征提取网络模型输出的当前图像小块对应的特征向量信息，作为第二特征；

步骤703、第三特征提取：

利用每例多示例包bag中图像小块的概率值，筛选其中概率值最高的N例小块图像，提取这N例图像小块的细胞特征作为第三特征，包括以下步骤：

步骤7031、细胞数量计算：将选取的图像小块转为灰度图像，再根据相应阈值转化为二值图像，并设定目标区域像素值为1，背景区域像素值为0，作为有效区域掩膜mask，对获得的二值图像进行基于数学形态的图像处理操作，先进行形态学开运算，即先腐蚀后膨胀，以去除细小的杂质区域，再使用分水岭算法，分离存在粘黏情况的细胞，得到离散细胞掩膜mask图像，对离散细胞掩膜mask中的细胞进行计数；

步骤7032、细胞周长面积计算：近似地将细胞轮廓视为标准椭圆，统计上述步骤得到的离散细胞掩膜mask中每个细胞的像素点数作为细胞面积，同时统计细胞的最长轴和最短轴，利用椭圆周长计算公式，得到细胞轮廓的周长；

步骤7033、细胞纹理特征统计：将选取的图像小块转为灰度图像，利用离散细胞掩膜mask在灰度图像上定位细胞区域，在当前细胞区域，利用灰度共生矩阵，提取细胞纹理特征，其中灰度共生矩阵定义的常用纹理特征如下：

纹理二阶矩阵ASM：对应纹理均匀性，ASM值越小，说明细胞核呈现的染色越均匀；

熵ENT：是细胞图像具有的信息量的度量，纹理信息是图像信息的一种，图像纹理丰富度和熵值呈正相关关系；

逆差分矩IDM：描述细胞图像纹理局部变化的多少，值越大，则细胞纹理的不同区域变化越小，即局部非常均匀；

对比度CON：反映细胞图像清晰度和纹理沟纹深浅度，CON值越大，则对比度大的像素点越多；

步骤7034、特征融合：

将选取的每个图像小块提取的第二、第三特征与整张病理图像提取的第一特征按行进行拼接，得到当前小块图像的特征向量，再将N张图像小块的特征向量按列进行拼接，得到当前胃镜活检数字病理图像的特征矩阵；对特征矩阵进行归一化处理，将不同属性的特征映射到相同的分布空间，使得不同属性的特征具有相同的初始权重；对经过归一化处理的特征矩阵按列求平均值，将特征矩阵压缩为一维特征向量；

步骤8、胃镜病理图像判别分类：

将步骤7034获得的一维特征向量输入预训练的随机森林分类器得到当前胃镜活检数字病理图像的良恶性分类。

优选地，所述步骤1包括以下步骤：

步骤101、数据采集筛选：

确定统一的染色方式，采集胃镜活检数字病理图像，对采集到的胃镜活检数字病理图像进行筛选，剔除图像错误或者信息不准确的病理数据；

步骤102、数据脱敏：

对采集到的每一例胃镜活检数字病理图像进行脱敏处理；

步骤103、数据标注：

由专业病理医生对经过步骤101筛选及经过步骤102脱敏处理的胃镜活检数字病理图像进行图像级别的粗粒度标注，粗粒度标注只涉及胃镜活检数字病理图像的良、恶性分类，不需要在病变区域进行像素级别图像分割的标注；判断为阳性的胃镜活检数字病理图像的标注结果为‘1’，判断为阴性的胃镜活检数字病理图像的标注结果为‘0’；原始的胃镜活检数字病理图像和对应的标注结果共同形成所述胃镜数字病理图像数据库。

优选地，所述步骤3包括以下步骤：

步骤301、背景及无效区域移除：

通过大津法和质量控制的方法提取胃镜活检数字病理图像的组织区域，并过滤无效组织区域；

步骤302、切图处理：

对经过步骤301处理的胃镜活检数字病理图像，采取同等尺寸下重叠切图的方式，将病理图像转存为固定大小的图像小块，图像小块的大小与基于弱监督学习的特征提取网络模型的输入图像的大小相匹配；

步骤303、颜色标准化处理：

使用颜色标准化算法，将与有效的组织相对应的图像小块映射到相同的色域空间，保证相同的组织结构的图像小块的素值分布服从正太分布，消除不可控差异造成的胃镜病理图像成像不一致所带来的潜在影响；

步骤304、图像增强：

采用随机图像增强技术，在保证空间平移不变性的基础上，对经过颜色标准化处理的图像小块进行随机旋转、随机平移、随机镜像、随机扭曲的操作，从而模仿不同视野下的胃镜病理图像，保证图像小块的特征能够充分地被模型所学习提取。

优选地，所述步骤5中，将训练数据集按照一定的比例划分为训练集、验证集和测试集三组子数据集进行模型训练，并获得最终的训练后的特征提取网络模型，其中，训练集用于特征提取网络模型的训练，验证数据集确定特征提取网络模型的超参数和训练停止位置，测试数据集检验特征提取网络模型的最终效果。

针对胃镜数字病理图像标注成本高昂，难以获得大型标注数据集的问题，本发明利用易于获取的粗粒度标签构建的大型胃镜病理图像数据集训练得到弱监督网络模型。通过获得的弱监督网络模型提取胃镜病理图像特征，进一步融合胃镜病理图像全局和局部的定性特征，最后通过随机森林分类器实现对整张胃镜病理图像的阴性和阳性分类。利用本发明提供的基于弱监督的胃镜病理图像分类方法，可以为病理医生提供病理数据的筛查信息，辅助临床病理医生的诊断工作，提升其工作效率。

附图说明

图1为本发明的整体框架流程图；

图2为数据库构建流程；

图3为图像预处理流程；

图4为基于CNN的特征提取流程；

图5为特征提取以及特征融合流程。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供的一种基于弱监督学习的胃镜病理图像分类方法利用病理图像粗粒度标注易获得的优点，采集胃镜病理图像形成大型胃镜病理数据库，然后结合弱监督方法和随机森林分类器进行胃镜病理图像分类。首先通过图像预处理对整张病理图像进行切块处理，进而利用弱监督学习自动提取图像小块特征，进一步融合胃镜病理图像全局和局部的定性特征，最后经过随机森林分类器，实现对整张胃镜病理图像的阴性和阳性分类。

具体而言，如图1所示，本发明包括以下步骤：

步骤S1、获取病理图像并构建数据库

采集获取胃镜活检数字病理图像，并对采集到的数据进行清洗，通过临床专家对胃镜活检数字病理图像进行标注，形成胃镜病理图像数据库。

如图2所示，步骤S1具体包括以下步骤：

步骤101、数据采集筛选：

确定统一的染色方式，采集胃镜活检数字病理图像。对采集到的胃镜活检数字病理图像进行筛选，剔除图像错误或者信息不准确的病理数据。

步骤102、数据脱敏：

病理数据以及病理报告通常涉及到患者的隐私信息，使用不经脱敏的病理数据将会造成患者的个人隐私泄露。因此，对采集到的每一例病理数据通过匿名化、信息转换等方式对敏感信息进行脱敏处理；

步骤103、数据标注：

由专业病理医生对经过步骤101筛选及经过步骤102脱敏处理的胃镜活检数字病理图像进行图像级别的粗粒度标注。粗粒度标注只涉及胃镜活检数字病理图像的良、恶性分类，不需要在病变区域进行像素级别图像分割的标注。判断为阳性的胃镜活检数字病理图像的标注结果为‘1’，判断为阴性的胃镜活检数字病理图像的标注结果为‘0’。原始的胃镜活检数字病理图像和对应的标注结果共同形成胃镜数字病理图像数据库。

步骤S2、图像预处理：

从胃镜病理图像数据库中获得若干胃镜活检数字病理图像，提取每张胃镜活检数字病理图像的组织部分、剔除无效区域，对提取出的图像进行小块切图处理。对切出的图像小块进行颜色标准化及数据增强处理，所有经过处理的胃镜活检数字病理图像所对应的图像小块用于组成训练特征提取网络模型的训练数据集。

如图3所示，步骤S2具体包括以下步骤：

步骤201、背景及无效区域移除：

从胃镜病理图像数据库中获得若干胃镜活检数字病理图像后，通过大津法(OTSU)和质量控制的方法提取每张胃镜活检数字病理图像的组织区域，并过滤存在笔迹、重叠、污痕、对焦模糊的无效组织区域。其目的是，去除与胃镜病理图像组织和病变纹理形态无关的无效信息区域，降低模型在定位病理图像畸变区域过程中产生的误差。

步骤202、切图处理：

对经过步骤201处理的胃镜活检数字病理图像，采取同等尺寸下重叠切图的方式，将亿级像素级别的病理图像转存为固定大小的图像小块，图像小块的大小与基于弱监督学习的特征提取网络模型的输入图像的大小相匹配。重叠地切图赋予了相邻图像小块之间空间特征的连续性，提高弱监督模型对图像小块边缘特征的利用率。

步骤203、颜色标准化处理：

使用颜色标准化算法，将与有效的组织相对应的图像小块映射到相同的色域空间，保证相同的组织结构的图像小块的素值分布服从正太分布，消除不同采片仪器、染色深浅等不可控差异造成的胃镜病理图像成像不一致所带来的潜在影响。

步骤204、图像增强：采用随机图像增强技术，在保证空间平移不变性的基础上，对经过颜色标准化处理的图像小块进行随机旋转、随机平移、随机镜像、随机扭曲的操作，从而模仿不同视野下的胃镜病理图像，保证图像小块的特征能够充分地被模型所学习提取。

步骤S3、基于弱监督学习的特征提取网络模型获取：

构建特征提取网络模型架构，设计相应的特征输出，训练特征提取网络模型并且得到训练好的网络模型。

多示例学习(Multiple Instance Learning，MIL)算法是一种非常有效的不确切监督算法，能够使用简单的粗粒度标注数据，结合深度学习网络实现对若干千兆像素的图像特征进行统计分析。在多示例学习中，训练集由一组具有分类标签的多示例包bag组成，每个多示例包bag含有若干个没有分类标签的示例instance。如果多示例包bag至少含有一个正示例instance，则该多示例包bag被标记为正类多示例包(正包)。如果多示例包bag的所有示例都是负示例，则该多示例包bag被标记为负类多示例包(负包)。

整个模型的处理过程如图4所示，包括以下步骤：

步骤301、构建训练数据集：

经过步骤S2处理后的胃镜病理图像数据库中的每例胃镜活检数字病理图像可视为一个多示例包bag，多示例包bag里包含当前一例胃镜活检数字病理图像的所有图像小块，每一个图像小块作为一个示例instance。这样得到以多示例包bag为单位的训练数据集，训练数据集中多示例包bag的标签是原始的胃镜活检数字病理图像的标签。

步骤302、网络模型设计：

搭建采用多示例学习算法的特征提取网络模型，通过该特征提取网络模型学习训练数据集中多示例包bag中示例instance和多示例包bag的标签之间的映射关系。具体的图像数据经过一个编码器(Encoder)和多个特征提取的卷积层进行特征提取，最后实现结果输出。

步骤303、结果输出：

为了保证后续特征提取的分析需求，特征提取网络模型同时输出图像小块的特征向量和概率值。

特征向量信息：图像小块经过特征提取网络模型中的特征提取模块后，实现维度降低并自动提取小块图像的纹理、组织、性状等特征，最终输出一个维度为一的特征向量；

概率值：由上述步骤得到图像小块的特征向量，再经过全连接压缩为一个长度为二的向量。该向量第一位置元素值代表该图像小块为阴性图像小块的权重，第二位置元素值代表该图像小块为阳性图像小块的权重。最后通过归一化指数函数(Soft MaxFunction)，将上述长度为二的向量元素值映射到(0,1)区间，得到图像小块为阴性和阳性的概率值并输出。

步骤304、模型训练：将训练数据集按照一定的比例划分为训练集、验证集和测试集三组子数据集进行模型训练，并获得最终的训练后的特征提取网络模型。其中，训练集用于特征提取网络模型的训练，验证数据集确定特征提取网络模型的超参数和训练停止位置，测试数据集检验特征提取网络模型的最终效果。

步骤S4、特征提取以及特征融合

为了保证分类模型的可靠性，在弱监督学习自动提取特征的基础上，加入定性分析的特征提取，包括整张胃镜病理图像的全局特征以及疑似病变区域小块图像的局部特征。特征提取的流程图如图5所示。

获得实时输入的胃镜活检数字病理图像后，通过上述步骤S2对该胃镜活检数字病理图像进行预处理，并将预处理后获得的多示例包bag通过上述步骤S3构建并训练的特征提取网络模型，由特征提取网络模型输出相应的特征向量信息和概率值，随后包括以下步骤：

步骤401、第一特征提取：

获取全视野胃镜活检数字病理图像的热力图并根据热力图提取可疑组织区域，然后提取病理图像可疑组织区域的特征信息作为第一特征。具体包括以下步骤：

a、生成热力图：利用特征提取网络模型输出的概率值的集合，通过重叠图像小块的逆向过程，拼接得到整张胃镜活检数字病理图像的热力图heatmap。

b、确定病变可疑区域掩码：设定阈值，将热力图中大于等于阈值的像素值重置为1，小于阈值的像素值重置为0，获得可疑区域的掩码mask。

c、可疑组织区域提取：从胃镜活检数字病理图像中选取分辨率最低层的图像，转换为灰度图像，结合可疑区域掩码，提取可疑区域的病理图像。其中，可疑区域的掩码mask需要经过最邻近插值算法，将掩码mask尺寸重采样到最低分辨率病理图像尺寸大小。

d、可疑组织区域特征提取：包括但不限于可疑区域中最大像素值、平均像素值、像素值的方差、像素值分布的偏度和峰度，可疑区域边界中最大像素值、平均像素值、像素值的方差、像素值分布的偏度和峰度，以及可疑区域与整个组织区域的面积比、可疑区域最大连通域的最长直径、可疑区域像素个数等13个特征参数。其中，可疑区域边界定义为：以可疑区域边线上的像素点中心，周围上下左右相邻四个像素点构成的像素点集合。

步骤402、第二特征提取：

利用每例多示例包bag中图像小块的概率值，筛选其中概率值最高的5例图像小块，按照索引获得特征提取网络模型输出的当前图像小块对应的特征向量信息，作为第二特征。其中，图像小块筛选数量可以根据分类性能要求相应地增加或者减少。

步骤403、第三特征提取：

利用每例多示例包bag中图像小块的概率值，筛选其中概率值最高的5例小块图像，提取这5例图像小块的细胞特征作为第三特征。

定量的细胞特征信息对于病理图像的处理与分析有重要作用。临床中，快速、准确、可靠、客观的参数分析可以避免一些主观因素带来的影响。基于此，本发明进行细胞特征提取，较常提取的特征参数有细胞面积、周长、质心、长短轴长度、色彩、纹理等。

步骤403具体包括以下步骤：

a、细胞数量计算：将选取的图像小块转为灰度图像，再根据相应阈值转化为二值图像，并设定目标区域像素值为1，背景区域像素值为0，作为有效区域掩膜mask。对获得的二值图像进行基于数学形态的图像处理操作，先进行形态学开运算，即先腐蚀后膨胀，以去除细小的杂质区域，再使用分水岭算法，分离存在粘黏情况的细胞，得到离散细胞掩膜mask图像，对离散细胞掩膜mask中的细胞进行计数。

b、细胞周长面积计算：近似地将细胞轮廓视为标准椭圆，统计上述步骤得到的离散细胞掩膜mask中每个细胞的像素点数作为细胞面积，同时统计细胞的最长轴和最短轴，利用椭圆周长计算公式，得到细胞轮廓的周长。椭圆近似周长的计算公式如下：

其中，a代表椭圆的短轴半径，b代表椭圆的长轴半径，C为椭圆的近似周长。

c、细胞纹理特征统计：将选取的图像小块转为灰度图像，利用离散细胞掩膜mask在灰度图像上定位细胞区域。在当前细胞区域，利用灰度共生矩阵，提取细胞纹理特征，其中灰度共生矩阵定义的常用纹理特征如下：

纹理二阶矩阵(ASM)：对应纹理均匀性，ASM值越小，说明细胞核呈现的染色越均匀。

熵(ENT)：是细胞图像具有的信息量的度量，纹理信息是图像信息的一种，图像纹理丰富度和熵值呈正相关关系。

逆差分矩(IDM)：描述细胞图像纹理局部变化的多少，值越大，则细胞纹理的不同区域变化越小，即局部非常均匀。

对比度(CON)：反映细胞图像清晰度和纹理沟纹深浅度，CON值越大，则对比度大的像素点越多。

步骤404、特征融合：

将选取的每个图像小块提取的第二、第三特征与整张病理图像提取的第一特征按行进行拼接，得到当前小块图像的特征向量，再将5张图像小块的特征向量按列进行拼接，得到当前胃镜活检数字病理图像的特征矩阵。对特征矩阵进行归一化处理，将不同属性的特征映射到相同的分布空间，使得不同属性的特征具有相同的初始权重。对经过归一化处理的特征矩阵按列求平均值，将特征矩阵压缩为一维特征向量，该一维特征向量融合了当前胃镜活检数字病理图像全局以及局部的特征，能够很好地描述整张病理图像。

步骤S5、胃镜病理图像判别分类：

利用已经训练好的随机森林分类器对当前胃镜活检数字病理图像进行判别分类。分类器选取随机森林(Random Forest)是因为随机森林用强大数定律证明了其收敛性，不会因为树的增加而过拟合，对噪音数据不敏感，同时保持了泛化误差小的特性。由于可以随机选择决策树节点划分特征，在样本特征维度很高的时候，仍然能高效的训练模型，获得稳定的模型。

具体的，将步骤404获得的一维特征向量输入预训练的随机森林分类器得到当前胃镜活检数字病理图像的良恶性分类。

Claims

1.一种基于弱监督学习的胃镜病理图像分类方法，其特征在于，包括以下步骤：

步骤1、获取病理图像并构建数据库

步骤3、图像预处理：

步骤5、基于弱监督学习的特征提取网络模型获取：

步骤7、特征提取以及特征融合，包括以下步骤：

步骤701、第一特征提取：

步骤7014、可疑组织区域特征提取；

步骤702、第二特征提取：

步骤703、第三特征提取：

步骤7034、特征融合：

步骤8、胃镜病理图像判别分类：

2.如权利要求1所述的一种基于弱监督学习的胃镜病理图像分类方法，其特征在于，所述步骤1包括以下步骤：

步骤101、数据采集筛选：

步骤102、数据脱敏：

对采集到的每一例胃镜活检数字病理图像进行脱敏处理；

步骤103、数据标注：

3.如权利要求1所述的一种基于弱监督学习的胃镜病理图像分类方法，其特征在于，所述步骤3包括以下步骤：

步骤301、背景及无效区域移除：

步骤302、切图处理：

步骤303、颜色标准化处理：

步骤304、图像增强：

4.如权利要求1所述的一种基于弱监督学习的胃镜病理图像分类方法，其特征在于，所述步骤5中，将训练数据集按照一定的比例划分为训练集、验证集和测试集三组子数据集进行模型训练，并获得最终的训练后的特征提取网络模型，其中，训练集用于特征提取网络模型的训练，验证数据集确定特征提取网络模型的超参数和训练停止位置，测试数据集检验特征提取网络模型的最终效果。