CN114494197A

CN114494197A - 一种复杂性小样本脑脊液细胞识别与分类方法

Info

Publication number: CN114494197A
Application number: CN202210094305.8A
Authority: CN
Inventors: 屈剑锋; 万亚辉; 刘金卓; 满石林
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-05-13

Abstract

本发明公开了一种复杂性小样本脑脊液细胞识别与分类方法，具体方法步骤如下：S1：利用显微镜拼接成像平台获得玻片样本下的细胞图像，包括单核细胞、淋巴细胞和中性粒细胞的图像；S2：对所得图像集进行预处理。针对采集到的细胞样本中存在着由于镜头污染或操作不当等带来的背景杂质，以及出现个别细胞重叠粘连的问题，主要是对图像进行滤波去噪，剔除图片中不相关的因素，并且对粘连的细胞进行分离处理；S3：针对小样本集进行模型的迁移训练；S4：根据所得模型，使用BP算法对模型的权重和阈值进行反向微调；S5：利用训练好的模型对测试集进行脑脊液细胞图像的识别，并进一步优化算法。本发明能够有效地识别人体脑脊液细胞的不同种类。

Description

一种复杂性小样本脑脊液细胞识别与分类方法

技术领域

本发明涉及医学细胞识别与分类技术领域，尤其涉及一种复杂性小样本脑脊液细胞识别与分类方法。

背景技术

脑脊液(Cerebrospinal fluid，CSF)细胞学，是神经科医生的最重要工具之一，包含总体细胞计数和细胞学分类，为中枢神经***及其涵盖的一系列病理状况提供重要的第一手信息。CSF样本需要立即处理，尽可能在收集后1小时内处理。在正常CSF细胞以T淋巴细胞为主，少量单核巨噬细胞，偶见B淋巴细胞；细胞数明显增加，镜下以中性粒细胞为主时多见于细菌性脑膜炎，需进一步寻找胞内细菌证据；以淋巴细胞和单核细胞为主的细胞背景多见于病毒感染和慢性炎症；以混杂细胞反应为背景时，可发生于结核性脑膜炎；吞噬红细胞或含血红蛋白降解产物片段的巨噬细胞(后者称为含铁血黄素细胞)，均提示陈旧性的蛛网膜下腔出血；镜下发现异型细胞怀疑肿瘤时，需结合临床及免疫细胞化学染色综合判断。

近年来宏基因组测序技术受到了广泛的关注，在中枢神经***感染性疾病病原体检测中具有一定的价值但仍存在一些不足：标本易受污染，影响检测结果，限制病原体检测的总体敏感性；容易出现假阴性和假阳性结果，甚至导致检测结果无法分析；检测费用高，限制其广泛运用等。所以，宏基因组测序尚不能取代传统的诊断方法。

迄今为止，大多数临床实验室仍采用手工法对脑脊液中的细胞进行计数及分类，该分析采用的是直接在显微镜下根据细胞核形态分别计数单个核(包括淋巴和单核细胞)和多个核细胞，共计数100个。此方法存在操作繁琐，耗时费力，不同操作者之间由于熟练程度、规范程度不同，具有很大的主观性，结果重复性低、误差较大，无法进行室内或室间质控，并且结果回报时间又长，无法较好地满足临床需要，不适于现代化医院大规模临床工作的开展。与血液和尿液相比，脑脊液样本量少。手工计数时取样量少，不能保证计数的精确度。如果能实现或部分实现脑脊液标本自动化细胞检测，可在一定程度上解决上述问题。目前尚无专用的计数及分类脑脊液细胞的自动分析仪器。

随着自动化细胞检测技术的发展，近年来许多研究者尝试使用各类细胞分析仪(如全自动尿沉渣分析仪和血液分析仪)对脑脊液细胞进行计数和分析。现在一些新型号的血细胞分析仪增加了体液细胞分析的功能，使实验室对胸水、腹水等中的细胞进行自动计数和分类成为可能。但因脑脊液因其特殊性，样本量较少，且各类仪器本身的原理和内部设计等问题限制了其在脑脊液标本检测中的应用，加之从脑脊液细胞的取样来看，样本玻片存在一定的细菌杂质以及细胞粘连的情况，这对脑脊液细胞识别分类的影响存在着巨大影响。

基于深度学***医疗机构资源相互融合，让整体诊断模式趋为规范、统一，极大地提高优质医疗资源向基层医疗机构的辐射作用，提高基层医院的鉴别诊断水平。因此，构建基于深度学习的脑脊液细胞自动识别***，对于提升中枢神经***感染性疾病的诊断率、解决地区医疗差异、低年资及基层医师误诊等问题具有重大意义，从而最终使广大患者受益。

发明内容

1.要解决的技术问题

本发明的目的是为了解决现有技术中因脑脊液因其特殊性，样本量较少，且各类仪器本身的原理和内部设计等问题限制了其在脑脊液标本检测中的应用，加之从脑脊液细胞的取样来看，样本玻片存在一定的细菌杂质以及细胞粘连的情况，这对脑脊液细胞识别分类的影响存在着巨大影响的问题，而提出的一种复杂性小样本脑脊液细胞识别与分类方法。

2.技术方案

为了实现上述目的，本发明采用了如下技术方案：

一种复杂性小样本脑脊液细胞识别与分类方法，包括以下步骤：

S1：使用显微镜自动扫描平台进行样本玻片的图像获取，得到具有多个细胞的脑脊液细胞玻片的完整图像集；

S2：对所得图像集进行预处理，对图像进行滤波去噪，剔除图片中不相关的因素，并且对相互粘连的细胞进行分离处理，将所得样本图像集分批次形成训练集和测试集；

S3：针对小样本集进行模型的迁移训练，利用相近领域训练好的深度学习网络对小样本数据集进行迁移学习；

S4：将训练好的模型，利用BP算法进行权重和阈值的反向微调，进一步优化模型；

S5：将测试集输入到模型中，输出结果即为脑脊液细胞识别结果。

优选地，所述S1中将脑脊液细胞玻片放置显微镜的电动平移台上，利用软件***对玻片的扫描范围进行对角线的坐标点定位，确定图像的扫描范围，并记下扫描的图像范围大小，利用软件***平台进行采集图像的拼接，得到一张完整的细胞样本图片，对后面的玻片图像采集重复此步骤。

优选地，所述S2中对图像集进行预处理的具体步骤为：

步骤1：针对样本背景中的无关杂质，首先对图像进行背景分离，通过最大类间方差法获取二值图像，利用形态学开操作对二值图像中目标的轮廓进行平滑处理，这一部分在形态学的开操作中，就能将背景中的不是目标的杂质去除，最后用Canny边界检测算法获取目标的轮廓边缘信息；

步骤2：采用凹点检测来对粘连细胞进行分割，粘连细胞凹点指的是由于两个至多个类圆形目标，因相互重叠而产生粘连后所形成的凹区域中的局部曲率最大点，对于近圆性的图像来说，不存在曲率突变的情况，除非是两个或者多个细胞；

步骤3：椭圆拟合，为了获取粘连目标因粘连而丢失掉的轮廓边界，该算法利用目标一般呈现为类圆形的先验知识，使用基于最小二乘法的椭圆拟合方法进行拟合以完成粘连分割。

优选地，所述S3中采用已在其他领域训练好的多层ResNet模型，截取模型的全连接层前面的部分，输出部分根据所需要的分类种类设置三个输出节点，再利用预训练的迁移方式，将当前多层ResNet的参数作为本发明的初始参数，再用S2中所处理过的图片数据进行网络的训练，具体过程为：

1)根据输入数据的维数确定第一层网络的节点数，也就是输入层节点数；

2)输入数据到残差网络单元，根据ResNet网络的特性，即残差网络的恒等映射函数，每个模块的输出都是当前输入加上残差，利用训练数据对网络进行层层训练；

3)使用已训练好的ResNet网络进行网络的迁移学习，利用其训练得很好的参数作为本模型的训练初始参数，省去了一部分的训练时间以及训练样本，十分适合小样本的训练学习。

优选地，所述S4中优化模型的具体步骤为：

1)当训练完成后，通过在ResNet的最顶层添加标签数据，对模型进行有监督训练，即使用反向传播算法(BP)对网络的相关参数进行微调；

2)分别将所分类别的带标签数据，输入到ResNet的最顶层中，通过BP算法微调ResNet的权重和阈值，通过有监督的训练将进一步减少训练误差和提高迁移学习识别模型的准确率。

优选地，所述S5中将测试集数据输入到训练好的分类模型中，经过多层ResNet映射后，输出层节点数为识别状态的数量，输入向量在输出层成功激活相应类别节点。

优选地，所述S5中类别节点中单核细胞为节点0、淋巴细胞为节点1、中性粒细胞为节点2。

3.有益效果

相比于现有技术，本发明的优点在于：

(1)本发明中，能够有效解决采集到的图像中由于背景杂质的存在而导致特征提取困难的问题，能够很好地适应复杂背景下的脑脊液细胞识别；由于采用已训练好的模型参数为本发明的初始训练参数，一定程度上是减少了部分训练时间，训练好的模型参数一般来说是比随机选取的参数更加有可靠性，所以适用于小样本的学习训练；针对有细胞粘连的样本，本发明也利用其细胞的近圆性，对其进行了中心点的预测来进行分割，使得本发明的适用情况多样化。

(2)本发明中，基于深度学***医疗机构资源相互融合，让整体诊断模式趋为规范、统一，极大地提高优质医疗资源向基层医疗机构的辐射作用，提高基层医院的鉴别诊断水平，因此，构建基于深度学习的脑脊液细胞自动识别***，对于提升中枢神经***感染性疾病的诊断率、解决地区医疗差异、低年资及基层医师误诊等问题具有重大意义，从而最终使广大患者受益。

附图说明

图1为本发明提出的一种复杂性小样本脑脊液细胞识别与分类方法的技术流程框图；

图2为本发明提出的一种复杂性小样本脑脊液细胞识别与分类方法的凹点示意图；

图3为本发明中迁移学习的ResNet模型；

图4为本发明中迁移学习示例。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1：

参照图1，一种复杂性小样本脑脊液细胞识别与分类方法，包括以下步骤：

将脑脊液细胞玻片放置显微镜的电动平移台上，利用软件***对玻片的扫描范围进行对角线的坐标点定位，确定图像的扫描范围，并记下扫描的图像范围大小，利用软件***平台进行采集图像的拼接，得到一张完整的细胞样本图片，对后面的玻片图像采集重复此步骤；

对图像集进行预处理的具体步骤为：

步骤3：椭圆拟合，为了获取粘连目标因粘连而丢失掉的轮廓边界，该算法利用目标一般呈现为类圆形的先验知识，使用基于最小二乘法的椭圆拟合方法进行拟合以完成粘连分割；

采用已在其他领域训练好的多层ResNet模型，截取模型的全连接层前面的部分，输出部分根据所需要的分类种类设置三个输出节点，再利用预训练的迁移方式，将当前多层ResNet的参数作为本发明的初始参数，再用S2中所处理过的图片数据进行网络的训练，具体过程为：

3)使用已训练好的ResNet网络进行网络的迁移学习，利用其训练得很好的参数作为本模型的训练初始参数，省去了一部分的训练时间以及训练样本，十分适合小样本的训练学习；

优化模型的具体步骤为：

将测试集数据输入到训练好的分类模型中，经过多层ResNet映射后，输出层节点数为识别状态的数量，输入向量在输出层成功激活相应类别节点，类别节点中单核细胞为节点0、淋巴细胞为节点1、中性粒细胞为节点2。

本发明中，能够有效解决采集到的图像中由于背景杂质的存在而导致特征提取困难的问题，能够很好地适应复杂背景下的脑脊液细胞识别；由于采用已训练好的模型参数为本发明的初始训练参数，一定程度上是减少了部分训练时间，训练好的模型参数一般来说是比随机选取的参数更加有可靠性，所以适用于小样本的学习训练；针对有细胞粘连的样本，本发明也利用其细胞的近圆性，对其进行了中心点的预测来进行分割，使得本发明的适用情况多样化。

本发明中，基于深度学***医疗机构资源相互融合，让整体诊断模式趋为规范、统一，极大地提高优质医疗资源向基层医疗机构的辐射作用，提高基层医院的鉴别诊断水平，因此，构建基于深度学习的脑脊液细胞自动识别***，对于提升中枢神经***感染性疾病的诊断率、解决地区医疗差异、低年资及基层医师误诊等问题具有重大意义，从而最终使广大患者受益。

实施例2：

参照图1-4，一种复杂性小样本脑脊液细胞识别与分类方法，包括以下步骤：

对图像集进行预处理的具体步骤为：

1)凹点检测：

首先，通过一种改进的曲率尺度空间算法(Curvature Scale Space,CSS)对目标轮廓进行角点检测。这种改进的CSS算法以相对较低的尺度保留所有真实角点，然后将所有候选角点的曲率与自适应局部阈值进行比较以移除冗余角点。通常，候选角点的自适应局部阈值是根据其邻域区域的曲率确定的，绝对曲率低于其局部阈值的候选角点将被消除。在角点的候选者中，尽管一些点在曲率数值上被检测为局部最大值，但是它们在支持区域(Region of Support,ROS)中，相邻的点之间的差异却非常小，在选择支持区域的时候，也要选择合适的区域。

自适应局部阈值的设定方法为：

其中，

是邻域区域的曲率均值，p代表候选角点的位置，R₁与R₂为支持区域的尺寸大小，C为系数；

2)轮廓段分组：

使用1)中获得的凹点将粘连区域的轮廓分割为多个轮廓段。由于每个轮廓段并非都对应于一个单独的目标，可能存在多个轮廓段都属于同一个目标的情况。因此，需要将属于同一个目标的轮廓段分为一组。对于某个轮廓段，对于在其一定邻域范围内的另一个轮廓段s_j，若s_i和s_j满足分为一组的条件，则将其分为同一组，这种分组方法包括以下三个条件约束：

条件1：若分为一组后拟合出的椭圆产生的平均距离偏差(Average DistanceDeviation,ADD)小于组合前任意一个轮廓段单独拟合出的椭圆产生的平均距离偏差，则将这些轮廓段分为同一组。

条件2：若分为同组后拟合出的椭圆的重心与每个轮廓段分别单独拟合出的椭圆重心的距离都较为接近，则可分为一组。

条件3：如果任意两个轮廓段s_i和s_j分别拟合出的椭圆间的重心相距很近，则可分为一组；

采用已在其他领域训练好的多层ResNet模型，截取模型的全连接层前面的部分，输出部分根据所需要的分类种类设置三个输出节点，再利用预训练的迁移方式，即，将当前多层ResNet模型的参数作为本发明的初始参数，再用权利要求3步骤二所处理过的图片数据进行网络的训练，迁移学习的示例如图4。具体实施方式如下：

ResNet是由多个串联在一起的卷积模块构成，每一个卷积模块都包括一层卷积一层池化，图3为一个ResNet模块。在训练时，将该单元目标映射(即要趋近的最优解)假设为F(x)+x，而输出为：y+x，那么训练的目标就变成了使y趋近于F(x)。即去掉映射前后相同的主体部分x，从而突出微小的变化(残差)。

用数学表达式表示为：

y＝F(x,{W_i})+W_sx (2)

x是残差单元的输入，y是残差单元的输出，F(x)是目标映射，{W_i}是残差单元中的卷积层。W_s是一个1×1卷积核大小的卷积，作用是给x降维或升维，从而与输出y大小一致(因为需要求和)。

具体过程为：

2)输入数据到残差网络单元，根据ResNet网络的特性，即，残差网络的恒等映射函数，每个模块的输出都是当前输入加上残差，利用训练数据对网络进行层层训练。

3)本发明中的训练数据的采集并未达到深度学习要求的几十万的训练集样本，但由于使用已训练好的ResNet网络进行网络的迁移，利用其训练得很好的参数作为本模型的训练初始参数，省去了一部分的训练时间以及训练样本，十分适合小样本的训练学习；

具体实施措施如下：

(1)模型预训练将迁移过来的权重视作新网络的初始权重，在训练过程中会被梯度下降算法改变数值。

梯度下降算法：

1)从0开始到训练集数据数量结束：

①计算第i个训练数据的权重w和偏差b相对于损失函数的梯度。于是我们最终会得到每一个训练数据的权重和偏差的梯度值。

②计算所有训练数据权重w的梯度的总和。

③计算所有训练数据偏差b的梯度的总和。

2)做完上面的计算之后，我们开始执行下面的计算：

①使用上面第②、③步所得到的结果，计算所有样本的权重和偏差的梯度的平均值。

②使用下面的式子，更新每个样本的权重值和偏差值。

重复上面的过程，直至损失函数收敛不变。

(2)反向微调也就是对ResNet网络进行有监督训练来减少训练误差和提高分类模型的准确率，BP算法步骤：

1)输入训练集；

2)对于训练集中的每个样本x，设置输入层对应的激活值a¹：

前向传播：

3)由于输出结果与实际结果有误差，则计算输出层产生的错误：

δ^L＝Δ_aCeσ'(z^L) (6)

4)将上步所求的误差从输出层向隐藏层反向传播：

δ^l＝((w^l+1)^Tδ^l+1)eδ'(z^l) (7)

5)使用梯度下降，训练参数，不断迭代直至收敛：

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种复杂性小样本脑脊液细胞识别与分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种复杂性小样本脑脊液细胞识别与分类方法，其特征在于，所述S1中将脑脊液细胞玻片放置显微镜的电动平移台上，利用软件***对玻片的扫描范围进行对角线的坐标点定位，确定图像的扫描范围，并记下扫描的图像范围大小，利用软件***平台进行采集图像的拼接，得到一张完整的细胞样本图片，对后面的玻片图像采集重复此步骤。

3.根据权利要求1所述的一种复杂性小样本脑脊液细胞识别与分类方法，其特征在于，所述S2中对图像集进行预处理的具体步骤为：

4.根据权利要求1所述的一种复杂性小样本脑脊液细胞识别与分类方法，其特征在于，所述S3中采用已在其他领域训练好的多层ResNet模型，截取模型的全连接层前面的部分，输出部分根据所需要的分类种类设置三个输出节点，再利用预训练的迁移方式，将当前多层ResNet的参数作为本发明的初始参数，再用S2中所处理过的图片数据进行网络的训练，具体过程为：

5.根据权利要求1所述的一种复杂性小样本脑脊液细胞识别与分类方法，其特征在于，所述S4中优化模型的具体步骤为：

6.根据权利要求1所述的一种复杂性小样本脑脊液细胞识别与分类方法，其特征在于，所述S5中将测试集数据输入到训练好的分类模型中，经过多层ResNet映射后，输出层节点数为识别状态的数量，输入向量在输出层成功激活相应类别节点。

7.根据权利要求6所述的一种复杂性小样本脑脊液细胞识别与分类方法，其特征在于，所述S5中类别节点中单核细胞为节点0、淋巴细胞为节点1、中性粒细胞为节点2。