CN117496276B - 肺癌细胞形态学分析、识别方法及计算机可读存储介质 - Google Patents

肺癌细胞形态学分析、识别方法及计算机可读存储介质 Download PDF

Info

Publication number
CN117496276B
CN117496276B CN202311857682.3A CN202311857682A CN117496276B CN 117496276 B CN117496276 B CN 117496276B CN 202311857682 A CN202311857682 A CN 202311857682A CN 117496276 B CN117496276 B CN 117496276B
Authority
CN
China
Prior art keywords
cell
model
data
self
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311857682.3A
Other languages
English (en)
Other versions
CN117496276A (zh
Inventor
李胜男
卢成煜
杨漫纯
潘威君
苏永健
尚滨
彭铃淦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Rongyuan Fangqing Medical Technology Co ltd
Original Assignee
Guangzhou Rongyuan Fangqing Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Rongyuan Fangqing Medical Technology Co ltd filed Critical Guangzhou Rongyuan Fangqing Medical Technology Co ltd
Priority to CN202311857682.3A priority Critical patent/CN117496276B/zh
Publication of CN117496276A publication Critical patent/CN117496276A/zh
Application granted granted Critical
Publication of CN117496276B publication Critical patent/CN117496276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了肺癌细胞形态学分析、识别方法及计算机可读存储介质,所述方法包括以下步骤:没有带标签的未标注数据划分为待自监督数据和待辅助标注数据;待辅助标注数据进行预处理后执行辅助标注,输出完整标签的数据;将待自监督数据进行预处理后执行自监督预训练,输出自监督训练模型;带有完整标签的数据输入细胞检测模型中,进行模型训练;训练完成后的细胞检测模型,检测细胞样本是否为可疑阳性细胞:若是,则输入到细胞分类模型中进行分类,同时输出数据中每个细胞的类别;通过决策树判断最终诊断类别。本发明在加速细胞数据从标注到实现细胞检测的过程,减少人工标注的时间,提高辅助诊断流程中标注数据的速度和效率,从而提高工作效率。

Description

肺癌细胞形态学分析、识别方法及计算机可读存储介质
技术领域
本发明涉及数字病理学领域,特别涉及肺癌细胞形态学分析、识别方法及计算机可读存储介质。
背景技术
数字病理学是病理学的一个分支,它使用数字化技术来获取、管理和解释生物学和临床信息。与传统的病理学相比,数字病理学可以提供更加精确、快速和高效的病理分析。
在数字病理学中,细胞检测技术是核心技术之一。它涉及识别和分类组织切片上的细胞,包括判断细胞是否为恶性。这项技术需要高分辨率扫描仪、图像分析软件和大量的存储空间。
现有技术中主要依靠传统显微镜来检查组织样本,高度依赖病理医生的主观判断,在速度、效率和准确性上都存在局限性:每张涂片有上万个细胞,细胞病理医生需要在显微镜下逐一鉴别是否发生癌变及鉴别癌变类型,每位细胞病理学医生一天最多诊断200张涂片;基层医院甚至没有病理医生,呼吸道脱落细胞学筛查技术无法下沉到基层医院,影响基层医疗水平。
肺癌细胞学诊断是通过纤支镜刷检、肺泡灌洗液、痰液获得脱落细胞,由病理医生观察细胞形态和判断疾病类型,在肺癌诊断中的价值包括以下几个方面:一、早期肺癌在临床上没有明显的结节,异性鳞状上皮细胞脱落后可随着痰液混合排除体外,因此痰脱落细胞学或纤支镜刷片是诊断早期肺鳞状细胞癌的一种简单有效而无创的方法,此外肺泡灌洗液可以采集腺癌细胞,发现早期肺腺癌。二、肺癌常见的病理学类型有小细胞肺癌和非小细胞肺癌,后者又分为肺鳞癌和肺腺癌,不同的病理学类型具有不同的治疗方案和预后,细胞学标本大多数可以通过形态学观察而能正确分型,对于患者的治疗和预后评估具有重要价值。三、晚期肺癌患者由于无法进行组织学活检或手术切除标本,此时进行细胞学检查是肺癌诊断、病理分型以及提供治疗方案的理想方法。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供肺癌细胞形态学分析、识别方法。
本发明的目的通过以下的技术方案实现:
肺癌细胞形态学分析、识别方法,包括以下步骤:
S1、没有带标签的未标注数据根据预设比例划分为待自监督数据和待辅助标注数据;
S2、待辅助标注数据进行预处理后执行辅助标注,输出完整标签的数据;
同时,将待自监督数据进行预处理后执行自监督预训练,输出自监督训练模型;
S3、将辅助标注完成的带有完整标签的数据,输入细胞检测模型中,进行模型训练;其中模型训练的初始化参数为自监督训练模型的参数;
S4、训练完成后的细胞检测模型,检测细胞样本是否为可疑阳性细胞;
S5、将可疑肺癌阳性细胞输入到细胞分类模型中进行分类,同时输出数据中每个细胞的类别,此共输出9个类别:Adeno、SCC、SCC3、SCLC、SC、Columar、Garbage、Trash、WN;
Adeno、SCC、SCC3、SCLC、SC、Columar、Garbage、Trash、WN的含义分别为:单个腺癌细胞及腺癌细胞团、非角化单个鳞癌细胞及非角化鳞癌细胞团、角化鳞癌细胞、小细胞癌、正常鳞状上皮细胞、纤毛柱状上皮细胞、检测异常的团状混合细胞、非细胞对象、肺泡细胞。
S6、对于细胞分类模型一张细胞图片会输出其对于9个类别的置信度,单一图片的权重进行方差计算,对于病例的所有检测出的细胞图片计算完方差后,去方差最大的前若干个图片类别进行投票,投票类别为最终诊断类别,最终诊断类别包括:疑似腺癌、疑似鳞癌、疑似小细胞癌、疑似异型细胞、阴性。
步骤S2中,所述辅助标注的具体过程为:
S201、将标注数据进行预处理,预处理包含剔除质量不合格的数字病理图像,质量不合格的情形包括:空白内容、细胞数量少于第一预设值、成像模糊、曝光度不在第一预设范围、色彩偏离程度超过第二预设值;
S202、将预处理后的少量数据,提交给人工标注,人工标注需要在完整的数字病理图像中标注出阳性细胞;
S203、将人工标注的少量数据提供给辅助标注模型进行训练;
S204、生成给辅助标注模型预测可疑的待标注的细胞候选框,其需要先对数字病理图像进行切分;
S205、对于切分后的所有Patch都要进行Patch预处理,包括剔除空白Patch,颜色归一化;
S206、使用辅助标注模型预测预处理后的Patch,在每张Patch中生成待标注的细胞候选框;
S207、人工在标注工具中查看待标记的候选,筛选候选框操作为去掉尺寸不在第二预设范围的候选框;
S208、人工在标注可疑的候选框中标注出指定的细胞类别,以此完成候选框的标注操作;
S209、将所有人工标注的候选框和未标注完成的候选框生成数据集,完成标注。
所述辅助标注模型采用Swin Transformer V2 + RetinaNet,Swin TransformerV2与RetinaNet之间采用金字塔结构连接。
步骤S2中,所述自监督预训练模型的训练流程为:
(1)将没有标注图片数据进行统一的缩放,并切分为若干个网格;
(2)将划分后的网格按照75%的比例进行随机掩码,掩码填充值为0;
(3)将包含已经掩码的数据的每个网格数据按照一维向量方式排列,并且通过余弦编码的方式,融入其在图像上的位置信息;
(4)将掩码数据和未掩码数据嵌入类别标记,类别标记包括掩码网格、未掩码网格;
(5)将编码后的一维向量输入到自监督训练模型的编码器、解码器中;
(6)将自监督训练模型输出的特征进行层级规范化,输出预测的每个被掩码网格的像素值,再利用RGB图像三通道的原理复原完整图像;
(7)将自监督训练模型预测的复原后的图像与原图像进行像素差值计算损失,再根据损失优化模型参数;
(8)完成前面步骤(1)至(7)后,判断是否完成T次迭代,如果完成,则输出自监督训练模型;如果不完成,则进行下一次迭代;T为训练开始时设置的总迭代次数。
所述自监督训练模型为Swin Transformer V2。
步骤S4中,所述细胞检测模型,采用Swin Transformer V2 + RetinaNet,SwinTransformer V2与RetinaNet之间采用金字塔结构连接;细胞检测模型基于SwinTransformer 自注意力机制,包括特征提取器,以及检测头;特征提取器包括编码器及解码器,检测头将解码器输出的特征映射为类别、目标框的尺寸、位置;类别有阴性细胞和可疑阳性细胞,并且给每个类别赋予一个范围在0到1之间的置信度。
步骤S5中,所述细胞分类模型,采用Swin Transformer V2 ;细胞分类模型基于Swin Transformer 自注意力机制,包括特征提取器,以及分类头;特征提取器包括编码器及解码器,分类头将特征映射为若干个细胞类别,并且给每个细胞类别赋予一个范围在0到1之间的置信度。
所述Swin Transformer V2包括编码器及解码器,编码器与解码器都由多头注意力机制模型和同层规范化交替连接组成,所述多头注意力机制模型的表达式如下:
其中,、/>、/>是一张3通道的细胞图像进过分块操作后的映射矩阵,含义分别为是查询矩阵、键矩阵、值矩阵;/>是矩阵/>的转置运算;/>是每个矩阵的相对位置偏移项;/>是可学***衡权重;SoftMax是多分类问题的激活函数;Attention 是输出多头自注意力参数,后接同层规范化与全连接层进行特征提取或分类。
所述RetinaNet的Focal Loss用在目标检测场景,在该场景中,训练期间前景和背景类别之间存在极端的不平衡;
二元分类的交叉熵CE损失开始引入焦点损失,二元分类的交叉熵CE的计算公式如下:
其中,是估计该候选框的类别概率;/>为真实标签值,/>取值为-1或1,当/>为正确分类是1,类别不正确为-1;
代表的是模型结合类别正负标签的最终输出类别概率;
为最终交叉熵,/>的含义为:对于输入模型的样本t,神经网络中交叉熵的各个细胞类别权重参数;通过学习该/>的权重值,可以解决在数字病理切片中,不同种类的细胞分布不均衡的问题。
步骤S6中,所述9个类别的置信度的阈值通过下式获取:
其中,为指定类别的类别置信度,/>为模型预测出该类别的所有细胞,/>为该类别下的第/>张细胞图片,/>代表该细胞类别的最大概率值,/>表示在该细胞模型预测方差。
同时,本发明提供:
一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一段程序,所述程序由所述处理器加载并执行以实现上述肺癌细胞形态学分析、识别方法。
一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述程序由处理器加载并执行以实现上述肺癌细胞形态学分析、识别方法。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明通过引入先进的图像分析技术和人工智能算法,降低细胞检测中的主观性,从而提高诊断的准确性和一致性。
2、本发明在加速细胞数据从标注到实现细胞检测的过程,减少人工标注与时间,提高辅助诊断流程中标注数据的速度和效率,从而提高工作效率。
3、本发明能够实现更高程度的自动化,使细胞检测变得更加智能化,减轻病理医生的工作负担。
附图说明
图1为本发明所述肺癌细胞形态学分析、识别方法的流程图。
图2为本发明所述辅助标注流程图。
图3为本发明所述自监督模型训练流程图。
图4为本发明所述细胞检测模型的结构示意图。
图5为本发明所述细胞分类模型的结构示意图。
图6为本发明所述最终诊断类别对应的决策树示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1至6,肺癌细胞形态学分析、识别方法,其完整流程通过“辅助标注模型(半自动标注)+自监督学习+细胞检测模型+细胞分类模型+诊断决策树”来完成。其中:
辅助标注模型:采用的是Swin Transformer V2 + RetinaNet 两者使用金字塔结构连接。
自主监督学习:采用Swin Transformer V2。
细胞检测模型:采用Swin Transformer V2 + RetinaNet,两者使用金字塔结构连接。
细胞分类模型:采用Swin Transformer V2。
诊断决策树:采用决策树。
所述Swin Transformer V2包括编码器及解码器,编码器与解码器都由多头注意力机制模型和同层规范化交替连接组成,所述多头注意力机制模型的表达式如下:
其中,、/>、/>是一张3通道的细胞图像进过分块操作后的映射矩阵,含义分别为是查询矩阵、键矩阵、值矩阵;/>是矩阵/>的转置运算;/>是每个矩阵的相对位置偏移项;是可学***衡权重;SoftMax是多分类问题的激活函数;Attention 是输出多头自注意力参数,后接同层规范化与全连接层进行特征提取或分类。
所述RetinaNet的Focal Loss用在目标检测场景,在该场景中,训练期间前景和背景类别之间存在极端的不平衡(例如,1:1000);
二元分类的交叉熵CE损失开始引入焦点损失,二元分类的交叉熵CE的计算公式如下:
其中,是估计该候选框的类别概率;/>为真实标签值,/>取值为-1或1,当/>为正确分类是1,类别不正确为-1;
代表的是模型结合类别正负标签的最终输出类别概率;
为最终交叉熵,/>的含义为:对于输入模型的样本t,神经网络中交叉熵的各个细胞类别权重参数;通过学习该/>的权重值,可以解决在数字病理切片中,不同种类的细胞分布不均衡的问题。
最后的决策树如图6,决策树中的置信度的阈值通过下式获取:
其中,为指定类别的类别置信度,/>为模型预测出该类别的所有细胞,/>为该类别下的第/>张细胞图片,/>代表该细胞类别的最大概率值,/>表示在该细胞模型预测方差。
具体地,如图1,肺癌细胞形态学分析、识别方法,包括以下步骤:
S1、没有带标签的未标注数据根据9:1比例划分为待自监督数据和待辅助标注数据;
S2、待辅助标注数据进行预处理后执行辅助标注,输出完整标签的数据;
同时,将待自监督数据进行预处理后执行自监督预训练,输出自监督训练模型;
S3、将辅助标注完成的带有完整标签的数据,输入细胞检测模型中,进行模型训练;其中模型训练的初始化参数为自监督训练模型的参数;
S4、训练完成后的细胞检测模型,检测细胞样本是否为可疑阳性细胞;
S5、将可疑肺癌阳性细胞输入到细胞分类模型中进行分类,同时输出数据中每个细胞的类别,此共输出9个类别:Adeno、SCC、SCC3、SCLC、SC、Columar、Garbage、Trash、WN;
Adeno、SCC、SCC3、SCLC、SC、Columar、Garbage、Trash、WN的含义分别为:单个腺癌细胞及腺癌细胞团、非角化单个鳞癌细胞及非角化鳞癌细胞团、角化鳞癌细胞、小细胞癌、正常鳞状上皮细胞、纤毛柱状上皮细胞、检测异常的团状混合细胞、非细胞对象、肺泡细胞。
S6、对于细胞分类模型一张细胞图片会输出其对于9个类别的置信度,单一图片的权重进行方差计算,对于病例的所有检测出的细胞图片计算完方差后,去方差最大的前16个图片类别进行投票,投票类别为最终诊断类别,最终诊断类别包括:疑似腺癌、疑似鳞癌、疑似小细胞癌、疑似异型细胞、阴性。
由此实现完整的支气管细胞学数字病理图像辅助诊断,在减少人工标注数据量,降低标注细胞数据的成本。同时使用未标注数据进行模型的预训练,减少模型训练时间,提高验证数据集的准确率。最终实现包含半自动数据采集训练的支气管细胞学数字病理图像辅助诊断***。
如图2,步骤S2中,所述辅助标注的具体过程为:
S201、将标注数据进行预处理,预处理包含剔除质量不合格的数字病理图像,质量不合格的情形包括:空白内容、细胞数量少于第一预设值、成像模糊、曝光度不在第一预设范围、色彩偏离程度超过第二预设值;
空白内容:指在扫描仪或显微镜下观察到的区域没有任何细胞或物质。这可能是由于样本制备不当或显微镜设置不正确导致的。
细胞数量少于第一预设值:指在扫描仪或显微镜下观察到的细胞数量少于预期。这可能是由于样本制备不当、显微镜设置不正确或者观察的区域不够大导致的。一般设置为一张数字切片中细胞数量应大于1000个。
成像模糊:指在扫描仪或显微镜下观察到的图像模糊不清。这可能是由于样本制备不当、显微镜设置不正确、镜头污染或者焦距不正确导致的。
曝光度不在第一预设范围,表现为过度曝光或者过低曝光。
过度曝光:指在扫描仪或显微镜下观察到的图像过亮,细胞或物质的细节无法清晰地观察到。这可能是由于显微镜设置不正确或者曝光时间过长导致的。过度曝光程度以图片无法识别细胞边界或细胞核轮廓为准。通常表现为图片亮白。
过低曝光:指在扫描仪或显微镜下观察到的图像过暗,细胞或物质的细节无法清晰地观察到。这可能是由于显微镜设置不正确或者曝光时间过短导致的。过低曝光程度以图片无法识别细胞边界或细胞核轮廓为准。通常表现为图片黑暗。
色彩偏离程度超过第二预设值:指在扫描仪或显微镜下观察到的图像颜色与实际颜色不符。这可能是由于显微镜设置不正确或者光源的颜色温度不正确导致的。色彩偏离程度以细胞图片红色通道均值超过220,蓝色通道均值超过200,绿色通道200为标准。
S202、将预处理后的少量数据,提交给人工标注,人工标注需要在完整的数字病理图像中标注出阳性细胞;
S203、将人工标注的少量数据提供给辅助标注模型进行训练;
S204、生成给辅助标注模型预测可疑的待标注的细胞候选框,其需要先对数字病理图像进行切分,切分尺寸有1024x1024、2048x2048、4096x4096。根据不同的扫描仪放大倍率选择不同的尺寸。
S205、对于切分后的所有Patch都要进行Patch预处理,包括剔除空白Patch,颜色归一化;
S206、使用辅助标注模型预测预处理后的Patch,在每张Patch中生成待标注的细胞候选框;
S207、人工在标注工具中查看待标记的候选,筛选候选框操作为去掉尺寸不在第二预设范围的候选框;
尺寸不在第二预设范围,表现为尺寸过大或者过小:指在数字观察到的细胞或物质大小与实际大小不符。这可能是由于显微镜设置不正确或者放大倍数不正确导致的。默认扫描倍率为20倍,大于20倍扫描的细胞图片为过大,小于20倍扫描的细胞图片为过小。
S208、人工在标注可疑的候选框中标注出指定的细胞类别,以此完成候选框的标注操作;
S209、将所有人工标注的候选框和未标注完成的候选框生成数据集,完成标注。
所述辅助标注模型采用Swin Transformer V2 + RetinaNet,Swin TransformerV2与RetinaNet之间采用金字塔结构连接。
本发明的辅助标注有以下优点:
1、提高效率:半自动标注方法可以显著提高细胞目标检测任务的标注效率。与完全手动标注相比,标记人员只需参与部分工作,例如选择感兴趣的区域或标注一些关键点,这可以节省大量时间和人力资源。
2、减少标注错误:人工标注可能存在标注错误,而半自动标注方法可以通过利用计算机视觉算法来减少这些错误,可以更准确地检测细胞或目标,从而降低了标注的误差率。
3、一致性和准确性:半自动标注方法有助于提高标注的一致性和准确性,因为计算机算法会在不同图像之间保持一致的标注规则。这有助于确保在数据集中的不同样本之间具有一致的标注,提高了模型的训练和性能评估的可靠性。
4、节省成本:半自动标注方法可以减少标注的人力成本。尤其是在大规模数据集的情况下,使用半自动标注可以显著降低标注的经济成本。
5、加速模型训练:标注是训练深度学习模型的关键步骤之一。通过半自动标注方法,可以更快地生成大规模标记的数据集,从而加速模型的训练过程,有助于更快地开发和优化细胞目标检测模型。
6、应对大规模数据:在细胞目标检测任务中,通常需要处理大规模图像数据。半自动标注方法使处理大规模数据变得可行,因为它可以更快速地生成标注数据,而无需过多的人力和时间。
半自动标注方法在细胞目标检测任务中具有显著的优势,可以提高效率、准确性,降低成本,并加速模型训练过程,有助于更好地应对大规模数据标注的需求。然而,需要注意的是,半自动标注方法通常需要仔细的设计和验证,以确保生成的标注仍然具有高质量。
如图3,步骤S2中,所述自监督预训练模型的训练流程为:
(1)将没有标注图片数据进行统一的缩放,缩放成448x448的大小,并切分为NxN个网格;其中N可以是14,19的。根据模型训练效果调整。
(2)将划分后的网格按照75%的比例进行随机掩码,掩码填充值为0;
(3)将包含已经掩码的数据的每个网格数据按照一维向量方式排列,并且通过余弦编码的方式,融入其在图像上的位置信息;
(4)将掩码数据和未掩码数据嵌入类别标记,类别标记包括掩码网格、未掩码网格;
(5)将编码后的一维向量输入到自监督训练模型的编码器、解码器中;
(6)将自监督训练模型输出的特征进行层级规范化,输出预测的每个被掩码网格的像素值,再利用RGB图像三通道的原理复原完整图像;
(7)将自监督训练模型预测的复原后的图像与原图像进行像素差值计算损失,再根据损失优化模型参数;
(8)完成前面步骤(1)至(7)后,判断是否完成T次迭代,如果完成,则输出自监督训练模型;如果不完成,则进行下一次迭代;T为训练开始时设置的总迭代次数。
所述自监督训练模型为Swin Transformer V2。
本发明的自监督学习是一种无监督学习方法,其中模型从未标记的数据中学习表征,而无需外部标签。
1. 数据效益:自监督学习通过最大化数据的利用,使得可以利用大规模未标记数据进行预训练。在生物医学领域,细胞图像和数据通常是昂贵和耗时的收集,因此使用自监督学习可以充分利用已有的未标记数据,从而降低数据收集成本。
2. 特征学习:自监督模型预训练有助于学习丰富和通用的特征表示。这些表示可以捕捉图像中的关键信息,如细胞形状、纹理、颜色等,从而有助于细胞检测和分类任务。模型可以在预训练阶段学习到对图像中不同细胞特征的敏感性,这有助于提高后续任务的性能。
3. 数据增强:自监督学习通常涉及到多种数据增强技术,这有助于使模型更加鲁棒,并提高其对不同光照、尺度和噪声等变化的适应能力。这对于细胞检测和分类任务尤其有用,因为生物图像可能受到各种干扰因素的影响。
5. 多任务学习: 自监督模型可以用于多任务学习,同时处理多个相关任务,如细胞检测和分类。这有助于模型学习更全面的知识,从而在多个任务上表现良好。
总的来说,自监督模型预训练为细胞检测和分类任务提供了多方面的益处,包括更好的特征学习、数据效益、迁移学习和数据增强。这些效益可以提高模型的性能,减少对标记数据的依赖,并有助于应对生物医学图像分析中的挑战。
如图4,步骤S4中,所述细胞检测模型,采用Swin Transformer V2 + RetinaNet,Swin Transformer V2与RetinaNet之间采用金字塔结构连接;细胞检测模型基于SwinTransformer 自注意力机制,包括特征提取器,以及检测头;特征提取器包括编码器及解码器,检测头将解码器输出的特征映射为类别、目标框的尺寸、位置;类别有阴性细胞和可疑阳性细胞,并且给每个类别赋予一个范围在0到1之间的置信度。
如图5,步骤S5中,所述细胞分类模型,采用Swin Transformer V2 ;细胞分类模型基于Swin Transformer 自注意力机制,包括特征提取器,以及分类头;特征提取器包括编码器及解码器,分类头将特征映射为若干个细胞类别,并且给每个细胞类别赋予一个范围在0到1之间的置信度。
同时,本发明提供:
一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一段程序,所述程序由所述处理器加载并执行以实现上述肺癌细胞形态学分析、识别方法。
一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述程序由处理器加载并执行以实现上述肺癌细胞形态学分析、识别方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.肺癌细胞形态学分析、识别方法,其特征在于,包括以下步骤:
S1、没有带标签的未标注数据根据预设比例划分为待自监督数据和待辅助标注数据;
S2、待辅助标注数据进行预处理后执行辅助标注,输出完整标签的数据;
所述辅助标注的具体过程为:
S201、将标注数据进行预处理,预处理包含剔除质量不合格的数字病理图像,质量不合格的情形包括:空白内容、细胞数量少于第一预设值、成像模糊、曝光度不在第一预设范围、色彩偏离程度超过第二预设值;
S202、将预处理后的少量数据,提交给人工标注,人工标注需要在完整的数字病理图像中标注出阳性细胞;
S203、将人工标注的少量数据提供给辅助标注模型进行训练;
S204、生成给辅助标注模型预测可疑的待标注的细胞候选框,其需要先对数字病理图像进行切分;
S205、对于切分后的所有Patch都要进行Patch预处理,包括剔除空白Patch,颜色归一化;
S206、使用辅助标注模型预测预处理后的Patch,在每张Patch中生成待标注的细胞候选框;
S207、人工在标注工具中查看待标记的候选,筛选候选框操作为去掉尺寸不在第二预设范围的候选框;
S208、人工在标注可疑的候选框中标注出指定的细胞类别,以此完成候选框的标注操作;
S209、将所有人工标注的候选框和未标注完成的候选框生成数据集,完成标注;
同时,将待自监督数据进行预处理后执行自监督预训练,输出自监督训练模型;
所述自监督预训练模型的训练流程为:
(1)将没有标注图片数据进行统一的缩放,并切分为若干个网格;
(2)将划分后的网格按照75%的比例进行随机掩码,掩码填充值为0;
(3)将包含已经掩码的数据的每个网格数据按照一维向量方式排列,并且通过余弦编码的方式,融入其在图像上的位置信息;
(4)将掩码数据和未掩码数据嵌入类别标记,类别标记包括掩码网格、未掩码网格;
(5)将编码后的一维向量输入到自监督训练模型的编码器、解码器中;
(6)将自监督训练模型输出的特征进行层级规范化,输出预测的每个被掩码网格的像素值,再利用RGB图像三通道的原理复原完整图像;
(7)将自监督训练模型预测的复原后的图像与原图像进行像素差值计算损失,再根据损失优化模型参数;
(8)完成前面步骤(1)至(7)后,判断是否完成T次迭代,如果完成,则输出自监督训练模型;如果不完成,则进行下一次迭代;T为训练开始时设置的总迭代次数;
S3、将辅助标注完成的带有完整标签的数据,输入细胞检测模型中,进行模型训练;其中模型训练的初始化参数为自监督训练模型的参数;
S4、训练完成后的细胞检测模型,检测细胞样本是否为可疑阳性细胞;
S5、将可疑肺癌阳性细胞输入到细胞分类模型中进行分类,同时输出数据中每个细胞的类别,此共输出9个类别:Adeno、SCC、SCC3、SCLC、SC、Columar、Garbage、Trash、WN;
S6、对于细胞分类模型一张细胞图片会输出其对于9个类别的置信度,单一图片的权重进行方差计算,对于病例的所有检测出的细胞图片计算完方差后,去方差最大的前若干个图片类别进行投票,投票类别为最终诊断类别,最终诊断类别包括:疑似腺癌、疑似鳞癌、疑似小细胞癌、疑似异型细胞、阴性。
2.根据权利要求1所述肺癌细胞形态学分析、识别方法,其特征在于,步骤S4中,所述细胞检测模型,采用Swin Transformer V2 + RetinaNet,Swin Transformer V2与RetinaNet之间采用金字塔结构连接;细胞检测模型基于Swin Transformer 自注意力机制,包括特征提取器,以及检测头;特征提取器包括编码器及解码器,检测头将解码器输出的特征映射为类别、目标框的尺寸、位置;类别有阴性细胞和可疑阳性细胞,并且给每个类别赋予一个范围在0到1之间的置信度。
3.根据权利要求1所述肺癌细胞形态学分析、识别方法,其特征在于,步骤S5中,所述细胞分类模型,采用Swin Transformer V2 ;细胞分类模型基于Swin Transformer 自注意力机制,包括特征提取器,以及分类头;特征提取器包括编码器及解码器,分类头将特征映射为若干个细胞类别,并且给每个细胞类别赋予一个范围在0到1之间的置信度。
4.根据权利要求2或3所述肺癌细胞形态学分析、识别方法,其特征在于,所述SwinTransformer V2包括编码器及解码器,编码器与解码器都由多头注意力机制模型和同层规范化交替连接组成,所述多头注意力机制模型的表达式如下:
其中,、/>、/>是一张3通道的细胞图像进过分块操作后的映射矩阵,含义分别为是查询矩阵、键矩阵、值矩阵;/>是矩阵/>的转置运算;/>是每个矩阵的相对位置偏移项;/>是可学***衡权重;SoftMax是多分类问题的激活函数;Attention 是输出多头自注意力参数,后接同层规范化与全连接层进行特征提取或分类。
5.根据权利要求2所述肺癌细胞形态学分析、识别方法,其特征在于,所述RetinaNet的Focal Loss用在目标检测场景,在该场景中,训练期间前景和背景类别之间存在极端的不平衡;
二元分类的交叉熵CE损失开始引入焦点损失,二元分类的交叉熵CE的计算公式如下:
其中,是估计该候选框的类别概率;/>为真实标签值,/>取值为-1或1,当/>为正确分类是1,类别不正确为-1;
代表的是模型结合类别正负标签的最终输出类别概率;
为最终交叉熵,/>的含义为:对于输入模型的样本t,神经网络中交叉熵的各个细胞类别权重参数;通过学习该/>的权重值,可以解决在数字病理切片中,不同种类的细胞分布不均衡的问题。
6.根据权利要求1所述肺癌细胞形态学分析、识别方法,其特征在于,步骤S6中,所述9个类别的置信度的阈值通过下式获取:
其中,为指定类别的类别置信度,/>为模型预测出该类别的所有细胞,/>为该类别下的第/>张细胞图片,/>代表该细胞类别的最大概率值,/>表示在该细胞分类模型预测的方差。
7.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一段程序,所述程序由所述处理器加载并执行以实现权利要求1至6任一权利要求所述肺癌细胞形态学分析、识别方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述程序由处理器加载并执行以实现权利要求1至6任一权利要求所述肺癌细胞形态学分析、识别方法。
CN202311857682.3A 2023-12-29 2023-12-29 肺癌细胞形态学分析、识别方法及计算机可读存储介质 Active CN117496276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311857682.3A CN117496276B (zh) 2023-12-29 2023-12-29 肺癌细胞形态学分析、识别方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311857682.3A CN117496276B (zh) 2023-12-29 2023-12-29 肺癌细胞形态学分析、识别方法及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN117496276A CN117496276A (zh) 2024-02-02
CN117496276B true CN117496276B (zh) 2024-04-19

Family

ID=89681465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311857682.3A Active CN117496276B (zh) 2023-12-29 2023-12-29 肺癌细胞形态学分析、识别方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN117496276B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020081504A1 (en) * 2018-10-15 2020-04-23 Upmc Systems and methods for specimen interpretation
WO2022233916A1 (en) * 2021-05-05 2022-11-10 The Institute Of Cancer Research: Royal Cancer Hospital Analysis of histopathology samples
CN115761342A (zh) * 2022-11-21 2023-03-07 中国科学院微电子研究所 一种肺部ct影像肺炎分类方法、装置及设备
WO2023051377A1 (zh) * 2021-09-30 2023-04-06 北京地平线信息技术有限公司 图像数据的脱敏方法和装置
CN116612351A (zh) * 2023-05-24 2023-08-18 西南交通大学 基于多尺度掩码特征自编码器的城轨车底异常检测方法
CN116883994A (zh) * 2023-05-31 2023-10-13 温州医科大学 基于自监督学习识别非小细胞肺癌周组织病理类型的方法、装置及存储介质
CN117173232A (zh) * 2023-07-27 2023-12-05 北京邮电大学 深度图像的获取方法、装置及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8077958B2 (en) * 2006-06-30 2011-12-13 University Of South Florida Computer-aided pathological diagnosis system
US11545237B2 (en) * 2017-09-26 2023-01-03 Visiongate, Inc. Morphometric genotyping of cells in liquid biopsy using optical tomography
US11893482B2 (en) * 2019-11-14 2024-02-06 Microsoft Technology Licensing, Llc Image restoration for through-display imaging

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020081504A1 (en) * 2018-10-15 2020-04-23 Upmc Systems and methods for specimen interpretation
WO2022233916A1 (en) * 2021-05-05 2022-11-10 The Institute Of Cancer Research: Royal Cancer Hospital Analysis of histopathology samples
WO2023051377A1 (zh) * 2021-09-30 2023-04-06 北京地平线信息技术有限公司 图像数据的脱敏方法和装置
CN115761342A (zh) * 2022-11-21 2023-03-07 中国科学院微电子研究所 一种肺部ct影像肺炎分类方法、装置及设备
CN116612351A (zh) * 2023-05-24 2023-08-18 西南交通大学 基于多尺度掩码特征自编码器的城轨车底异常检测方法
CN116883994A (zh) * 2023-05-31 2023-10-13 温州医科大学 基于自监督学习识别非小细胞肺癌周组织病理类型的方法、装置及存储介质
CN117173232A (zh) * 2023-07-27 2023-12-05 北京邮电大学 深度图像的获取方法、装置及设备

Also Published As

Publication number Publication date
CN117496276A (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
US11756318B2 (en) Convolutional neural networks for locating objects of interest in images of biological samples
CN108364288B (zh) 用于乳腺癌病理图像的分割方法和装置
CN109903284B (zh) 一种her2免疫组化图像自动判别方法及***
CN110245657B (zh) 病理图像相似性检测方法及检测装置
Pan et al. Cell detection in pathology and microscopy images with multi-scale fully convolutional neural networks
CN110796661B (zh) 基于卷积神经网络的真菌显微图像分割检测方法及***
CN115088022A (zh) 用于训练机器学习算法和维护患者隐私的联邦学习***
US20210214765A1 (en) Methods and systems for automated counting and classifying microorganisms
CN113470041B (zh) 免疫组化细胞图像细胞核分割与计数方法和***
CN112990214A (zh) 一种医学图像特征识别预测模型
CN111047559A (zh) 一种数字病理切片异常区域快速检测的方法
CN115170518A (zh) 基于深度学习和机器视觉的细胞检测方法及***
CN115526834A (zh) 免疫荧光图像检测方法及装置、设备、存储介质
CN115909006A (zh) 基于卷积Transformer的乳腺组织图像分类方法及***
CN117036288A (zh) 一种面向全切片病理图像的肿瘤亚型诊断方法
CN111583226A (zh) 细胞病理感染评估方法、电子装置及存储介质
CN114387596A (zh) 细胞病理涂片自动判读***
CN116912240B (zh) 基于半监督学习的突变tp53免疫学检测方法
CN113313678A (zh) 一种基于多尺度特征融合的***形态学自动分析方法
CN116468690B (zh) 基于深度学习的浸润性非粘液性肺腺癌的亚型分析***
CN117496276B (zh) 肺癌细胞形态学分析、识别方法及计算机可读存储介质
CN116309333A (zh) 一种基于深度学习的wsi图像弱监督病理分析方法及装置
Galton et al. Ontological levels in histological imaging
Taher et al. Morphology analysis of sputum color images for early lung cancer diagnosis
CN114897823A (zh) 一种细胞学样本图像质量控制方法、***及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant