CN115601307A

CN115601307A - 一种细胞自动检测方法

Info

Publication number: CN115601307A
Application number: CN202211159811.7A
Authority: CN
Inventors: 张成浩; 王月; 周忠娇; 谢海琼
Original assignee: Chongqing Biological Intelligent Manufacturing Research Institute
Current assignee: Chongqing Biological Intelligent Manufacturing Research Institute
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2023-01-13

Abstract

本发明涉及医学图像处理技术领域，具体涉及一种细胞自动检测方法，在YOLOV7的基础上使用了主动学习协同半监督学习的算法框架与采样策略，通过主动学习策略选择样本识别效果差的样本给人工专家进行标注，再根据半监督学习策略选择样本识别效果好的样本和生成的伪标签作为真实值扩充已标注样本；在选择策略中，针对具体分类场景，融合了伪标签的信息熵和相似度信息来计算伪标签的不确定性，相比其他机器学习方法，本发明的基于深度学习的YOLOV7目标检测框架能够更精确地检测与识别多种尺度大小以及各种形态视角的细胞，有效避免了传统细胞形态学算法在视角和细胞尺寸问题所造成的漏检和识别率低的状况。

Description

一种细胞自动检测方法

技术领域

本发明涉及医学图像处理技术领域，具体涉及一种细胞自动检测方法。

背景技术

当前细胞的检测主要依赖于专家的人工镜检，所以标准不一，检测过程费时费力，价格又贵；而细胞自动检测技术又分为人工特征法和深度学习法两类，其中人工特征法是通过数据库比对，来检测识别细胞，这就需要人工建立庞大的特征数据库，代价高昂；深度学习法虽然避免了人工特征法需要人为提取特征的缺点，但是依赖于大规模标注数据集训练模型，由于标记代价高，实际中也无法获取这么多标记数据。而且在检测时，容易出现漏检，识别标记不全，准确率不高、检测时间长等情况。

发明内容

本发明的目的在于提供一种细胞自动检测方法，提出了一种细胞自动检测方法，改善现有基于深度学习的细胞自动检测技术中因过分依赖于大规模标注数据集出现漏检、识别标记不全、准确率低和检测时间长的技术问题。

为实现上述目的，本发明提供了一种细胞自动检测方法，包括下列步骤：

步骤1：采集大量细胞显微图像作为样本集，每张图片为一个样本；

步骤2：在所述样本集中选择少量样本并进行人工标注及定义，其中获得有标签的样本集为L集，剩余所有无标签的样本集为U集，初始为空的伪标签集为P集，初始为空的未标签样本侯选集为UP集，通过主动学习策略采集到的样本集为E集，通过半监督采样集F集；

步骤3：将P、L、F数据集作为训练样本，通过YOLO V7目标检测模型训练半监督检测模型；

步骤4：判断F集是否为空，若是跳转至步骤11执行；若否，则继续向下执行；

步骤5：首先更新未标签样本侯选集UP＝UP∪F，然后清空F集中的所有样本，将半监督学习策略筛选的样本加入到UP集；

步骤6：通过YOLO模型和主动学习策略S1，从U集中选取s1个样本作为E集，进行人工标注，并更新U集，其中L＝L∪s1，U＝U/s1；

步骤7：搭建Faster R-CNN模型，通过上一步骤扩充后的L集训练Faster R-CNN分类器，获得检测模型；

步骤8：通过步骤7中已训练的FasterR-CNN模型对未标签样本侯选集UP进行检测，获得预测结果label1；

步骤9：使用步骤3获得的YOLO模型，对UP集中的所有样本进行检测，获得预测结果label2；

步骤10：选取步骤8和步骤9这两个步骤中所获预测结果相同的样本，定义为p1集，并补充到伪标签集P集中去；

步骤11：根据步骤3获得的YOLO模型，结合半监督学习采样策略S2，从U集中查找s2个样本，供下一次训练YOLO模型使用；

步骤12：将U集更新为U＝U/F；

步骤13：判断U集是否为空集，若是，程序结束；若不是，则回到步骤3继续运行。

其中，在步骤2中的L集包含白细胞WBC、单个真菌孢子SMB、发芽真菌孢子MMB、真菌孢子团TMB、上皮细胞SPC、红细胞RBC、线索细胞XSC、滴虫D、真菌菌丝MS和杆菌XJ共10个类别。

其中，首次训练时只有L集有样本数据，YOLO模型为主要检测模型，最终迭代结果为最终的细胞检测模型。

其中，所述细胞自动检测方法通过YOLO模型获得样本池U中所有未标记样本的预测值，包括所有细胞各类别的概率以及边界框。

其中，所述细胞自动检测方法采用信息熵的度量方法来表示伪标签结果的不确定性，从而选择信息量大的样本。

其中，所述细胞自动检测方法引入相似度信息，针对具体分类场景融合了伪标签的信息熵和相似度信息来计算伪标签的不确定性。

本发明提供了一种细胞自动检测方法，在YOLO V7的基础上使用了主动学习协同半监督学习的算法框架与采样策略，通过主动学习策略选择样本识别效果差的样本给人工专家进行标注，再根据半监督学习策略选择样本识别效果好的样本和生成的伪标签作为真实值扩充已标注样本；在选择策略中，针对具体分类场景，融合了伪标签的信息熵和相似度信息来计算伪标签的不确定性，这种方法选择的样本质量更高，减少了冗余样本，使人工标记时间更少，模型准确率更高，检测性能更好，相比其他机器学习方法，本发明的基于深度学习的YOLO V7目标检测框架能够更精确地检测与识别多种尺度大小以及各种形态视角的细胞，有效避免了传统细胞形态学算法在视角和细胞尺寸问题所造成的漏检和识别率低的状况。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种细胞自动检测方法的流程示意图。

图2是本发明具体实施例中的上皮细胞与霉菌的尺度大小对比示意图。

图3是本发明具体实施例中的白细胞与红细胞对比示意图。

图4是本发明与现有的机器学习检测方法的效果对比图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1，本发明提供了一种细胞自动检测方法，包括下列步骤：

步骤2：在上述步骤1的样本中选择部分进行人工标注，获得有标签的样本集定义为L集，剩余所有无标签的样本集定义为U集，定义初始为空的伪标签集为P集，初始为空的未标签样本侯选集为UP集，通过主动学习策略采集到的样本集为E集，通过半监督采样集F集；

步骤3：将P、L、F数据集作为训练样本，通过YOLO V7目标检测模型训练半监督检测模型，其中首次训练时只有L集有样本数据，YOLO模型为主要检测模型，最终迭代结果为我们的最终模型；

步骤4：判断F集是否为空，若F为空，此时表示半监督学习没有提取到样本，此时UP数据与上一次循环的数据一样，所以直接跳转至步骤11执行；若否，则继续向下执行；

步骤5：首先更新未标签样本侯选集UP＝UP∪F，然后清空F集中的所有样本，将半监督学习策略筛选的样本加入到UP集，以供后续对这些样本和预测结果进行复筛；

步骤6：通过YOLO模型和主动学习策略S1，从U集中选取s1个样本作为E集，进行人工标注，并更新样本池U，其中L＝L∪E，U＝U/E，通过主动学习策略选取YOLO模型识别效果差且与训练样本差异大的s1个样本，交给人工专家标注，能够有效扩充训练集样本数；

步骤8：通过上一步已训练的Faster R-CNN模型对未标签样本侯选集UP进行检测，获得预测结果label1；

步骤9：使用步骤3获得的YOLO模型，对UP中的所有样本进行检测，获得预测结果label2；

步骤10：为了提高YOLO模型预测的准确性，我们另外引进了Faster R-CNN模型，对YOLO模型预测结果做第二次预测，因为Faster R-CNN模型训练数据全部由人工标注，所以将步骤8和步骤9这两个步骤中所获预测结果相同的样本视为最接近人工标注的结果，并将其定义为p1集，补充到伪标签集P集中去；

步骤11：根据步骤3获得的YOLO模型，结合半监督学习采样策略S2，从样本池U中查找s2个样本，供下一次训练YOLO模型使用；

步骤12：将U更新为U＝U/F；

步骤13：判断U是否为空集，若是，此时我们已经完成对未标注样本集U集的标注工作，并且训练出最终检测模型，所以程序结束；若不是，则回到步骤3继续运行，通过不断循环迭代训练YOLO模型，最终我们仅需较少的标注成本就能够获得高精度的细胞检测模型。

本发明中可进行检测的样品包括但不限于血液、尿液、粪便、骨髓和白带等，这里以白带白细胞为例。

具体的，本发明中所采用的主动学习和半监督学习采样策略为：

1、通过YOLO模型获得U池所有未标记样本的预测值，其包括所有细胞各类别的概率以及边界框；

2、在主动学习和半监督学习算法框架中，选择策略是至关重要的。从几何层面来看，预测结果不确定性最大的样本往往位于分类边界处附近，本发明中场景的细胞检测涉及10分类，因此信息熵更容易推广到当前场景，采用了信息熵的度量方法来表示伪标签结果的不确定性，从而选择信息量大的样本，算法具体用公式表现为：

信息熵：

其中p^m(y|x_i)表示样本在c类下的模型预测概率，H(y|x_i)表示样本的信息熵，其数值越大表示该样本越混乱，其不确定性就越高，num(U)是常数表示类别个数，通过计算每张图所有类别信息熵之和。

相似度：

其中i表示已标注样本，j表示未标注样本，

表示已标注类别概率，

表示预测类别概率，C是常数表示类别个数，num(U)表示U中标签数量，R_i表示U池中第i个样本与已标注样本的相似度相似度。

最后结合信息熵和相似度信息，因此设为：

如上式所示，信息熵包含了样本自身的独立信息，考虑到伪标签样本与已标签样本的差异性，还引入了相似度信息，通过自身对照和对标签数据对照，将伪标签的综合结果进行排序，其中

越大，表示样本识别越差，越小则识别效果越好；因此在主动学习采样策略中，通过选择s1个

值最大的样本，交由人工专家标注，以此来提升模型的精度，而在半监督学习中，选择s2个

值最小的样本，认为其伪标签结果接近人工标注，送入已标签训练样本集L中。

本发明提供的技术方案带来的有益效果是：无需对样本染色处理，降低工作量和成本；能够在少量标注样本情况下通过协同主动学习与半监督学习增加样本量，优化模型；能够识别尺度差异大和不同视角的细胞，在目标密集的复杂环境下具有很高的识别速度和精度。

本发明还结合了具体实施例对不同检测方法的精度差别原因进行说明，如图2所示，上皮细胞的体积大小约是霉菌尺度大小的10-20倍，巨大的差异，会导致训练出的模型忽略体积小的霉菌细胞。

如图3所示，由于白带在载玻片上需要静置一段时间，样本会蒸发导致细胞形态破坏和细胞堆叠，而且液体样本中的细胞时刻都是在运动的，所以会呈现不同的视角形态，种种原因导致传统的细胞形态学识别方式对破裂的细胞以及不同视角的细胞无法识别或者识别错误，最终导致模型识别精度低。

进一步的，请参阅图4，可以了解本发明与现有的深度学习检测方法比较后的优势。

如图4所示，本发明能够识别多种细胞类别，在细胞种类多样，数量繁多，环境变化明显的复杂场景都有很好的识别精度，并且速度达到100ms/张，拥有非常良好的识别速度。左侧图片为传统识别种类少容易漏检，精度低，右侧图片为本发明检测方法。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种细胞自动检测方法，其特征在于，包括下列步骤：

步骤12：将U集更新为U＝U/F；

2.如权利要求1所述的细胞自动检测方法，其特征在于，

在步骤2中的L集包含白细胞WBC、单个真菌孢子SMB、发芽真菌孢子MMB、真菌孢子团TMB、上皮细胞SPC、红细胞RBC、线索细胞XSC、滴虫D、真菌菌丝MS和杆菌XJ共10个类别。

3.如权利要求1所述的细胞自动检测方法，其特征在于，

首次训练时只有L集有样本数据，YOLO模型为主要检测模型，最终迭代结果为最终的细胞检测模型。

4.如权利要求1所述的细胞自动检测方法，其特征在于，

所述细胞自动检测方法通过YOLO模型获得样本池U中所有未标记样本的预测值，包括所有细胞各类别的概率以及边界框。

5.如权利要求1所述的细胞自动检测方法，其特征在于，

所述细胞自动检测方法采用信息熵的度量方法来表示伪标签结果的不确定性，从而选择信息量大的样本。

6.如权利要求5所述的细胞自动检测方法，其特征在于，

所述细胞自动检测方法引入相似度信息，针对具体分类场景融合了伪标签的信息熵和相似度信息来计算伪标签的不确定性。