CN112868024A

CN112868024A - 用于细胞分类的***和方法

Info

Publication number: CN112868024A
Application number: CN201980068267.5A
Authority: CN
Inventors: 聂垚; S·优塞菲
Original assignee: Ventana Medical Systems Inc
Current assignee: Ventana Medical Systems Inc
Priority date: 2018-10-15
Filing date: 2019-10-10
Publication date: 2021-05-28
Also published as: JP2023065441A; EP3867803A1; JP7228031B2; US11922681B2; WO2020081343A1; JP2022504870A; US20240161485A1; US20210216746A1

Abstract

本公开涉及适于快速且准确地训练神经网络以对细胞和/或细胞核进行检测和/或分类的自动化***和方法。本公开还涉及使用诸如包含神经网络的经训练的细胞检测和分类引擎来对未标记的图像内的细胞进行分类的自动化***和方法。

Description

用于细胞分类的***和方法

相关专利申请的交叉引用

本申请要求于2019年4月8日提交的美国专利申请No.62/830,823的申请日的权益；且还要求于2018年10月15日提交的美国专利申请No.62/745,953的申请日的权益，上述专利申请的全部公开内容通过引用整体并入本文。

背景技术

数位病理学是将整个组织病理或细胞病理载玻片扫描成可在计算机屏幕上解读的数字图像。随后，这些图像使用成像算法处理或由病理医生解读。为了检查组织切片(其几乎透明)，使用选择性地与细胞组分结合的彩色组织化学染色剂来制备组织切片。临床医生或计算机辅助诊断(CAD)算法利用彩色增强或染色的细胞结构，识别疾病的形态标记物以及相应地继续进行治疗。通过在测定时进行观察，可实现各种过程，包括疾病诊断、评定对治疗的应答以及开发用于对抗疾病的新药物。

免疫组化(IHC)载片染色可以用来识别组织切片细胞中的蛋白质，因此被广泛用于研究不同类型的细胞，如生物组织中的癌细胞和免疫细胞。因此，IHC染色可用于研究了解免疫细胞(如T细胞或B细胞)差异表达的生物标志物在癌组织中的分布和定位，用于免疫应答研究。例如，肿瘤中通常含有免疫细胞的浸润物，这可能会阻止肿瘤的发展或促进肿瘤生长。

原位杂交(ISH)可用于确定是否存在遗传畸形或致癌基因在显微镜下观察时形态上呈恶性的细胞中特异性扩增等情况。原位杂交(ISH)采用与靶基因序列或转录物反义的标记的DNA或RNA探针分子来检测或定位细胞或组织样品内的被靶向的核酸靶基因。通过将固定在载玻片上的细胞或组织样品暴露在标记的核酸探针上完成ISH，所述探针能够与所述细胞或组织样品中给定的靶基因进行特异性杂交。可通过将细胞或组织样品暴露在多个核酸探针上来同时分析多个靶基因，所述核酸探针已经由多个不同的核酸标签标记。利用具有不同发射波长的标记，可在单一步骤中，对单个靶细胞或组织样品执行同时的多色分析。例如，来自Ventana Medical Systems,Inc.的INFORM HER2 Dual ISH DNA探针混合物测定旨在通过计算HER2基因与17号染色体的比率来确定HER2基因的状态。在***固定的、石蜡包埋的人乳腺癌组织标本中的双色显色ISH检测HER2和17号染色体探针。

发明内容

细胞和/或核检测是数字病理学的核心任务，并且通常是指染色的癌组织图像中的单个细胞的识别和定位。癌症组织学图像的大小、分辨率、染色剂类型各不相同，并且充斥着视觉上异质的重叠的细胞。从这些图像中检测细胞和/或核时，通常面临的挑战是难以并且有时候不可能：获得真实值(ground truth)标注；以及将针对特定分辨率或染色剂调整的模型应用于具有不同分辨率或不同染色剂的数据集。事实上，真实值标记的过程通常很麻烦，需要投入大量的时间。因此，期望开发出促进针对细胞和/或核分类进行真实值标注的***和方法。

鉴于前述内容，申请人已经开发了以快速且稳健的方式促进生成真实值数据的***和方法，从而解决了真实值标注费时费力的问题。为了实现这一点，并且如本文中所详细描述的，所述***和方法促进样品图像中的细胞和/或细胞核的同质簇的生成，其中所生成的同质簇本身就可以被标注(而不是单个细胞和/或细胞核)。这减轻了对从数据集中的细胞数量到数据集中识别出的簇的数量的排序进行真实值标记的负担。细胞和/或细胞核的同质簇的生成是非常规的，因此将***输入转换为能够实现快速且准确的真实值生成的输出。这样，通过使用适于快速且准确地生成同质簇的***来解决真实值标注的技术问题，所述***诸如：使用与组织学图像和/或细胞学家图像无关的图像数据集预先训练好的***，和/或仅利用组织学和/或细胞学图像进行最低限度调整的***。本文所述的***和方法还能够实现利用细胞检测和分类引擎来快速且准确地检测测试图像中的细胞和/或细胞核，从而有助于疾病诸如癌症的准确诊断，因此有助于加强对患病受试者(例如人患者)的治疗。本文所述的***和方法依赖于有形的数据源，即对应于生物学标本的图像数据，诸如源自需要治疗的患者的生物学标本。

本公开的一个方面是一种***，该***用于识别针对一种或多种生物标志物的存在而被染色的生物学标本的样品图像内的细胞簇，该***包括：(i)一个或多个处理器，以及(ii)一个或多个存储器，所述一个或多个存储器与所述一个或多个处理器联接，所述一个或多个存储器存储计算机可执行指令，所述计算机可执行指令当由所述一个或多个处理器执行时使所述***执行包括以下各项的操作：(a)使用经训练的对象检测引擎来检测样品图像中的细胞，其中经训练的对象检测引擎包含适于检测样品图像内的细胞特征的卷积神经网络；(b)从卷积神经网络的一层或多层中提取细胞特征；以及(c)基于提取的细胞特征，对样品图像中检测到的细胞进行聚类，以提供检测到的细胞的一个或多个同质簇。

在某些实施例中，经训练的对象检测引擎包含基于区域的卷积神经网络。在某些实施例中，基于区域的卷积神经网络改编自Fast-RCNN。在某些实施例中，经训练的对象检测引擎改编自Faster-RCNN。在某些实施例中，经训练的对象检测引擎进一步包含区域候选网络。

在某些实施例中，经训练的对象检测引擎的卷积神经网络改编自LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16和DenseNet或其任何变体中的一者。在某些实施例中，经训练的对象检测引擎的卷积神经网络为深度残差网络。在某些实施例中，深度残差网络改编自ResNet。在某些实施例中，神经网络为自编码神经网络。

在某些实施例中，卷积神经网络包含至少一个缩放层。在某些实施例中，该至少一个缩放层以常量因子缩放样品图像。在某些实施例中，对检测到的细胞的聚类包括执行凝聚式层次聚类。

在某些实施例中，使用包含多个训练图像的数据集来训练卷积神经网络，其中多个训练图像中的每个训练图像均源自经初染剂染色或针对一种或多种生物标志物的存在而被染色的生物学标本(例如，针对HER2的存在而被染色的多个训练图像)。在某些实施例中，多个训练图像中的每个训练图像包含至少一个类别标签。在某些实施例中，多个训练图像中的每个训练图像均不包含任何类别标签。在某些实施例中，多个训练图像中的每个训练图像均不包含任何病理医生标注。在其中使用包含至少一个类别标签的训练图像来训练对象检测引擎的那些实施例中，***可进一步包含用于对检测到的细胞进行分类的指令。在某些实施例中，样品图像包括与用于训练对象检测引擎的多个训练图像的任何一个图像中的染色剂不同的染色剂。

在某些实施例中，该***适于接收对应于样品图像中的细胞的一个或多个所提供的同质簇的至少一个的标注。在某些实施例中，标注由病理医生提供。

在某些实施例中，该***进一步包含用于使用接收到的标注来训练细胞检测和分类引擎的指令。在某些实施例中，该***进一步包含用于使用经训练的细胞检测和分类引擎来检测测试图像中的细胞的指令。在某些实施例中，该***进一步包含用于使用经训练的细胞检测和分类引擎对测试图像中的细胞进行分类的指令。在某些实施例中，测试图像包含至少一种染色剂。在某些实施例中，测试图像的至少一种染色剂为细胞染色剂。在某些实施例中，测试图像的至少一种染色剂为膜染色剂。在某些实施例中，测试图像中的至少一种染色剂不同于用于训练细胞检测和分类引擎的染色剂。

在某些实施例中，细胞检测和分类引擎包含神经网络。在某些实施例中，神经网络改编自LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16、DenseNet或ResNet。在某些实施例中，神经网络为自编码神经网络。在其他实施例中，细胞检测和分类引擎包含分类器。在某些实施例中，分类器是支持向量机或集成学习方法，例如随机森林有监督学习算法。在某些实施例中，细胞检测和分类模块包含神经网络和分类器。在某些实施例中，细胞检测和分类模块的神经网络适于从输入的测试图像中提取特征。

在某些实施例中，该***进一步包含用于使用接收到的标注来微调经训练的对象检测引擎以提供微调的对象检测引擎的指令。在某些实施例中，该***进一步包含用于使用微调的对象检测引擎来检测测试图像中的细胞的指令。在某些实施例中，该***进一步包含用于使用微调的对象检测引擎对测试图像中的细胞进行分类的指令。

本公开的另一方面是一种非暂时性计算机可读介质，其存储用于识别针对一种或多种生物标志物的存在而被染色的生物学标本的样品图像内的细胞簇的指令，其包括：(a)使用经训练的对象检测引擎来检测样品图像中的细胞，其中经训练的对象检测引擎包含第一部分和第二部分，其中第一部分配置成识别样品图像内的细胞特征，并且其中第二部分配置成基于识别出的细胞特征来检测细胞；(b)从经训练的对象检测引擎的一层或多层中提取识别出的细胞特征的至少一部分；以及(c)基于提取的细胞特征，对样品图像中中检测到的细胞进行聚类，以提供检测到的细胞的一个或多个同质簇。

在某些实施例中，第一部分包括神经网络。在某些实施例中，神经网络为卷积神经网络。在某些实施例中，卷积神经网络改编自LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16和DenseNet。在某些实施例中，卷积神经网络为深度残差网络。在某些实施例中，深度残差网络改编自ResNet。在某些实施例中，第二部分包括区域候选网络。在某些实施例中，使用包含源自经初染剂染色或针对一个或多个生物标志物的存在而被染色的生物学标本的多个训练图像的数据集来训练对象检测引擎。在某些实施例中，使用包含多个训练图像的数据集来训练对象检测引擎，其中多个训练图像中的每个训练图像均经初染剂染色或针对一种或多种生物标志物的存在而被染色，并且多个训练图像中的每个训练图像均不包含任何类别标签或病理医生标注。

本公开的另一方面是一种非暂时性计算机可读介质，其存储用于识别针对一种或多种生物标志物的存在而被染色的生物学标本的样品图像内的细胞簇的指令，其包括：(a)使用经训练的对象检测引擎来检测样品图像中的细胞，其中经训练的对象检测引擎包含适于检测样品图像内的细胞特征的卷积神经网络；(b)从卷积神经网络的一层或多层中提取细胞特征；以及(c)基于提取的细胞特征，对样品图像中检测到的细胞进行聚类，以提供检测到的细胞的一个或多个同质簇。

在某些实施例中，使用包含源自经初染剂染色或针对一个或多个生物标志物的存在而被染色的生物学标本的多个训练图像的数据集来训练对象检测引擎。在某些实施例中，使用包含多个训练图像的数据集来训练对象检测引擎，其中多个训练图像中的每个训练图像均经初染剂染色或针对一种或多种生物标志物的存在而被染色，并且多个训练图像中的每个训练图像均不包含任何类别标签或病理医生标注。

在某些实施例中，卷积神经网络改编自LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16和DenseNet。在某些实施例中，卷积神经网络为深度残差网络。在某些实施例中，深度残差网络改编自ResNet。在某些实施例中，经训练的对象检测引擎包含改编自Faster-RCNN的网络架构。在某些实施例中，神经网络为自编码神经网络。

在某些实施例中，非暂时性计算机可读介质进一步包含用于使用病理医生标注来训练细胞检测和分类引擎的指令，所述病理医生标注对应于样品图像中的细胞的一个或多个同质簇中的至少一者。在某些实施例中，非暂时性计算机可读介质进一步包含用于使用经训练的细胞检测和分类引擎来检测测试图像中的细胞的指令。在某些实施例中，非暂时性计算机可读介质进一步包含用于使用经训练的细胞检测和分类引擎对测试图像中检测出的细胞进行分类的指令。在某些实施例中，细胞检测和分类引擎包含神经网络。在某些实施例中，细胞检测和分类引擎包含支持向量机。

在某些实施例中，非暂时性计算机可读介质进一步包含用于使用针对样品图像中的细胞的一个或多个同质簇中的至少一者所接收到的标注来对经训练的对象检测引擎进行微调的指令，以提供微调的对象检测引擎。在某些实施例中，非暂时性计算机可读介质进一步包含用于使用微调的对象检测引擎来检测测试图像中的细胞的指令。

本公开的另一方面是一种识别针对一种或多种生物标志物的存在而被染色的生物学标本的样品图像内的细胞簇的方法，该方法包括：使用经训练的对象检测引擎来检测样品图像中的细胞，其中经训练的对象检测引擎包含卷积神经网络和区域候选网络，其中卷积神经网络配置成识别细胞特征，并且其中区域候选网络配置成基于识别出的细胞特征来检测细胞；从卷积神经网络的一层或多层中提取识别出的细胞特征；以及，基于提取的细胞特征，对样品图像中检测到的细胞进行聚类，以提检测到的细胞的一个或多个同质簇。

在某些实施例中，经训练的对象检测引擎包含基于区域的卷积神经网络。在某些实施例中，基于区域的卷积神经网络改编自Fast-RCNN。在某些实施例中，经训练的对象检测引擎改编自Faster-RCNN。在某些实施例中，卷积神经网络改编自LeNet、AlexNet、ZFNet、DetectNet、GoogleNet、VGGNet、VGG16和DenseNet。在某些实施例中，卷积神经网络为深度残差网络。在某些实施例中，深度残差网络改编自ResNet。在某些实施例中，卷积神经网络为自编码神经网络。

本公开的另一方面是一种检测针对一种或多种生物标志物的存在而被染色的生物学标本的测试图像中的细胞的方法，该方法包括：通过将测试图像输入到经训练的细胞检测和分类引擎的第一部分内来确定生物学标本的测试图像内的细胞特征，其中第一部分包含配置成用于检测细胞特征的卷积神经网络；以及，通过将测试图像的所确定的特征输入到经训练的细胞检测和分类引擎的第二部分中，基于所确定的细胞特征来检测测试图像中的细胞，其中第二部分至少包含区域候选网络。在某些实施例中，卷积神经网络为深度残差网络。在某些实施例中，深度残差网络改编自ResNet。

在某些实施例中，该方法进一步包括对测试图像中的检测到的细胞进行分类。在某些实施例中，使用真实值数据来训练细胞检测和分类引擎，其中真实值数据包括病理医生标注，所述病理医生标注对应于源自一个或多个样品图像的一个或多个识别出的细胞同质簇。在某些实施例中，通过以下方法识别源自一个或多个样品图像的细胞同质簇：(i)向经训练的对象检测引擎提供样品图像；(ii)使用经训练的对象检测引擎检测样品图像中的细胞；(iii)从经训练的对象检测引擎内的至少一个卷积层中提取多个细胞特征；以及(iv)基于提取的细胞特征，对测试图像中检测到的细胞进行聚类。在某些实施例中，使用包含多个训练图像的数据集来训练对象检测引擎，多个训练图像中的每个训练图像均源自经初染剂染色或针对一种或多种生物标志物的存在而被染色的生物学标本。

本公开的另一方面是一种检测针对一种或多种生物标志物的存在而被染色的生物学标本的测试图像中的细胞的方法，该方法包括：通过将测试图像输入到经训练的细胞检测和分类引擎的第一部分内来确定生物学标本的测试图像内的细胞特征，其中第一部分包含配置成用于检测细胞特征的神经网络；以及，通过将测试图像的所确定的特征输入到经训练的细胞检测和分类引擎的第二部分中，基于所确定的细胞特征来检测测试图像中的细胞，其中第二部分包含经训练的分类器。在某些实施例中，经训练的分类器包括支持向量机或随机森林集成学习方法。

附图说明

参考附图来总体理解本公开的特征。在附图中，相同的附图标号始终用于识别相同的元件。

图1示出了根据本公开的一个实施例的代表性数字病理学***，该***包括图像采集装置和计算机***。

图2A列出了各种模块，这些模块可根据本公开的一个实施例在数字病理学***中或在数字病理学工作流程中用以检测样品图像中的细胞。

图2B列出了各种模块，这些模块可根据本公开的一个实施例在数字病理学***中或在数字病理学工作流程中用以检测样品图像中的细胞。

图2C列出了各种模块，这些模块可根据本公开的一个实施例在数字病理学***中或在数字病理学工作流程中用以对测试图像中的细胞进行检测和/或分类。

图3A提供了示出根据本公开的一个实施例的生成细胞簇的步骤的流程图。

图3B提供了示出根据本公开的一个实施例的生成细胞簇的步骤的流程图。

图4提供了示出根据本公开的一个实施例的调整预先训练好的神经网络的步骤的流程图。

图5提供了示出根据本公开的一个实施例的对测试图像中的细胞进行检测和/或分类的步骤的流程图。

图6A提供了根据本公开的一个实施例的基于区域的卷积神经网络(RCNN)的方法论的概述。

图6B提供了根据本公开的一个实施例的Fast-RCNN的方法论的概述。

图6C提供了根据本公开的一个实施例的Faster-RCNN的方法论的概述。

图7示出了在样品图像上进行细胞检测的结果，随后识别检测出的细胞的同质簇。在某些实施例中，使用最小的有标注的数据集来训练神经网络。在某些实施例中，然后将经训练的神经网络用于检测大图像中的细胞，并用于提取这些细胞的相关特征。在某些实施例中，然后基于细胞的特征将其聚类，从而为病理医生提供细胞的同质簇，其可以分批标记而不是一个接一个地标记，从而显著减少真实值相关任务的工作量。在某些实施例中，可以由病理医生对识别出的同质簇进行标注，并且可以将所标注的簇用作真实值数据。据信，采用Faster-RCNN使病理医生能够仅向经检测的簇中细胞候选物的检测到的边界框提供标签，该标签可以通过不同的颜色来区分。

图8提供了在Her2 Dual ISH图像上使用模型A进行细胞检测的结果的实例(顶部)。该图还为对应的图像块(底部)相对提供了真实值标注。

图9A示出了使用经训练的对象检测引擎进行聚类的结果，该对象检测引擎基于Faster-RCNN架构。

图9B示出了使用检测到的细胞的RGB值的细胞的聚类。边界框可以由Matlab图像Labeler APP生成。使用诸如K-均值的方法来计算簇。在某些实施例中，如本文进一步所述，在scikit-learn中实现凝聚式聚类。

图10A提供了显示基于模型A的代表BB数据(即1822苏木精和DAB染色的细胞的两类标注)的聚类评估的图。

图10B提供了显示基于模型B的代表BBYP数据的聚类评估的图(即，含有1340个标注的IHC Duplex染色的图像，这些标注分为具有成员数量范围从10到1828的5个不平衡类别)。

图11提供了BBYP数据集中的T细胞(右)和肿瘤细胞(左)的实例。Ki67+和Ki67-肿瘤细胞分别具有与Ki68+和Ki67-T细胞相同的颜色。可以基于细胞的大小、形状和环境来区分这些细胞。

具体实施方式

还应当理解，除非有明确的相反指示，否则在本文要求权利的包括多于一个步骤或动作的任何方法中，该方法的步骤或动作的顺序不必限于叙述该方法的步骤或动作的顺序。

如本文所用，除非上下文另有明确指示，否则单数术语“一个”、“一种”和“该”包括多个指代物。类似地，除非上下文另有明确指示，否则词语“或”旨在包括“和”。术语“包括”被定义为包括性的，使得“包括A或B”表示包括A、B，或A和B。

如本文在说明书和权利要求书中所用，“或”应当理解为具有与如上所定义的“和/或”相同的含义。例如，当将清单中的项目分开时，“或”或者“和/或”应当解释为包括性的，即，包括多个要素或要素清单以及任选地附加的未列出项目中的至少一个，但也包括多于一个。仅在明确指出相反意思的术语时，诸如“……中的仅一者”或“……中的恰好一者”，或当在权利要求书中使用时，“由……组成”将指包括多个要素或要素清单中的恰好一个要素。一般来讲，当后置有排他性术语，诸如“……中的任一者”、“……中的一者”、“……中的仅一者”或“……中的恰好一者”时，如本文所用的术语“或”仅应当解释为指明排他性的替代方案(即，“一者或另一者，但并非两者”)。当在权利要求书中使用时，“基本上由……组成”应当具有其在专利法领域中所使用的普通含义。

如本文所用，“包括”、“包含”、“具有”等术语可互换使用，且含义相同。类似地，“包括”、“包含”、“具有”等可互换使用并且具有相同的含义。具体而言，每个术语的定义都与普通美国专利法对“包括”的定义一致，因此每个术语都可理解为一个开放性术语，其含义为“至少以下”，并且也可理释为不排除额外的特征、限制、方面等。因此，例如“具有组件a、b和c的装置”是指所述装置至少包括组件a、b和c。同样，短语：“涉及步骤a、b和c的方法”意味着该方法至少包括步骤a、b和c。此外，尽管本文可以以特定的顺序概述步骤和过程，但是本领域技术人员将认识到，所述顺序步骤和过程可能有所不同。

如本文在说明书和权利要求书中所用，在提及一个或多个要素的清单时，短语“至少一个”应当理解为意味着从该要素列表中的任何一个或多个要素中选择的至少一个要素，但不一定包括该要素列表中具体列出的每一个要素中的至少一个，并且不排除该要素列表中的要素的任何组合。该定义还允许除了短语“至少一个”所指代的要素列表中具体识别的要素之外，可以任选地存在别的要素，无论与那些具体识别的要素有关还是无关。因此，作为一个非限制性示例，在一个实施例中，“A和B中的至少一个”(或换句话讲，“A或B中的至少一个”，或换句话讲，“A和/或B中的至少一个”)可以指至少一个(任选地包括多于一个)A，且不存在B(并且任选地包括除B以外的要素)；在另一个实施例中，可以指至少一个(任选地包括多于一个)B，且不存在A(并且任选地包括除A以外的要素)；在又一个实施例中，可以指至少一个(任选地包括多于一个)A和至少一个(任选地包括多于一个)B(并且任选地包括其他要素)；等等。

如本文所用，术语“生物学标本”、“样品”或“组织样品”是指从任何生物体(包括病毒)获得的包括生物分子(例如蛋白质、肽、细胞酸、脂质、碳水化合物或其组合)的任何样品。其他生物体的实例包括哺乳动物(例如人类；兽类动物，如猫、狗、马、牛和猪；以及实验室动物，如小鼠、大鼠和灵长类动物)、昆虫、环节动物、蛛形纲动物、有袋类动物、爬行类动物、两栖类动物、细菌和真菌。生物学标本包括组织样品(诸如组织切片和组织的穿刺活检)、细胞样品(诸如细胞学涂片，诸如子宫颈涂片或血液涂片或通过显微解剖获得细胞样品)、或细胞级分、片段或细胞器(诸如通过裂解细胞并通过离心或其他方式分离其组分获得)。生物学标本的其他实例包括血液、血清、尿液、***、粪便物、脑脊液、间质液、粘液、眼泪、汗液、脓液、活检组织(例如，通过手术活检或穿刺活检获得)、***抽吸物、耵聍、乳汁、***分泌物、唾液、拭子(例如口腔拭子)或任何含有源自第一生物学标本的生物分子的材料。在某些实施例中，本文使用的术语“生物学标本”是指从受试者获得的肿瘤或其一部分制备的样品(诸如均质化或液化的样品)。

如本文所用，术语“生物标志物”或“标志物”是指某些生物学状态或状况的可测量的指示剂。特别地，生物标志物可以是蛋白质或肽，例如表面蛋白，可以被特异性染色并且其指示细胞的生物学特征，例如细胞类型或细胞的生理状态。免疫细胞标志物是一种生物标志物，其选择性地指示与哺乳动物的免疫应答相关的特征。生物标志物可用于确定身体对疾病或病症的治疗的应答程度或受试者是否易患疾病或病症。在癌症的情况下，生物标志物是指指示体内癌症存在的生物学物质。生物标志物可以是由肿瘤或身体对癌症存在的特异性应答所分泌的分子。遗传学、表观遗传学、蛋白质组学、糖组学和影像学生物标志物可用于癌症的诊断、预后和流行病学。可以在非侵入性收集的生物流体(如血液或血清)中测定此类生物标志物。几种基于基因和蛋白质的生物标志物已用于患者护理，其包括但不限于AFP(肝癌)、BCR-ABL(慢性髓样白血病)、BRCA1/BRCA2(乳腺癌/卵巢癌)、BRAF V600E(黑色素瘤/大肠癌)、CA-125(卵巢癌)、CA19.9(胰腺癌)、CEA(大肠癌)、EGFR(非小细胞肺癌)、HER-2(乳腺癌)、KIT(胃肠道间质瘤)、PSA(***特异性抗原)、S100(黑色素瘤)等。生物标志物可用作诊断(鉴定早期癌症)和/或预后(预测癌症的侵袭性和/或预测受试者对特定治疗的应答方式和/或癌症复发的可能性)。

如本文所用，术语“图像”、“图像扫描”或“扫描的图像”涵盖从生物组织样品采集的原始图像数据，例如通过光学传感器或传感器阵列，或预处理的图像数据。特别地，所述图像数据可以包括像素矩阵。

如本文所用，术语“图像数据”涵盖从生物组织样品采集的原始图像数据，例如通过光学传感器或传感器阵列，或预处理的图像数据。特别地，所述图像数据可以包括像素矩阵。

如本文所用，术语“免疫组织化学”是指通过检测抗原与特定结合剂，诸如抗体的相互作用来确定抗原在样品中的存在或分布的方法。在允许抗体-抗原结合的条件下使样品与抗体接触。可以借助于与抗体缀合的可检测标签(直接检测)或借助于与一级抗体特异性结合的二级抗体缀合的可检测标签(间接检测)来检测抗体-抗原结合。

如本文所用，术语“多通道图像”或“多路图像”涵盖从生物组织样品中获得的数字图像，在所述样品中使用特定的荧光染料、量子点、色原体等同时对细胞核、细胞和组织结构的不同生物结构进行染色，其中每一者都发出荧光或可以其他方式在不同的光谱带中检测到，从而构成多通道图像的通道之一。

如本文所用，术语“载片”是指任何合适尺寸的、可将生物学标本置于上面进行分析的任何基质(例如，全部或部分由玻璃、石英、塑料、硅等制成的基质)，更特别地是指标准3x 1英寸显微镜载片或标准75mm x25mm显微镜载片等“显微镜载片”。可以置于载片上的生物学标本的实例包括但不限于细胞学涂片、薄的组织切片(例如来自活检)和生物标本阵列，例如组织阵列、细胞阵列、DNA阵列、RNA阵列、蛋白质阵列或其任何组合。因此，在一个实施例中，将组织切片、DNA样品、RNA样品和/或蛋白质置于载片的特定位置上。在一些实施例中，术语“载片”可指SELDI和MALDI芯片，以及硅片。

概述

尽管最近取得了成功，但由于难以提供细胞水平的监控，现代的计算机视觉技术(例如卷积神经网络(CNN))应用于癌症组织学图像中的细胞水平预测问题的费用很高。本公开提供了以下***和方法，其通过在某些实施例中使用深度学习来检测生物学标本的大图像中的细胞，并使用检测到的细胞的学习表示来将它们聚类为同质子集，从而促进对细胞分类的真实值标记，从数据集中的细胞数到数据集中识别出的簇的数量的顺序减少了真实值标记的负担。在某些实施例中，本公开提供了使用针对小的有标注的图像块而训练的模型来检测生物学标本的图像(例如组织学图像、细胞学图像)中的细胞的***和方法，并且其中该***和方法进一步利用代表检测到的细胞的神经网络对它们进行聚类和/或分类。申请人意外地发现，即使使用小的训练图像集，所提出的***和方法也可以实现优异的细胞检测和分类性能，并甚至可以推广到看不见的染色剂类型。事实上，申请人证明了开发的模型检测具有混合大小和分辨率的数据集中的细胞的能力，并且证明了开发的模型能够概括训练期间未见的染色剂类型的能力。

因此，本文描述的统一深度学习分类和检测框架的实施例具有优于先前使用的方法的多个优点。例如，本文描述的实施例具有许多“易用性”和成本优势。在一个此类实例中，本文描述的实施例显著减少了用户为检测网络学习而在像素级别标注细胞的负担。换言之，本文描述的实施例使得能够进行边界框标记以用于检测，其显著减少了用户标注负担。以这种方式，实施例为标注、训练和测试提供“易用性”。

在某些实施例中，本公开描述了使用多个训练图像以提供调谐的卷积神经网络调整预先训练好的神经网络(例如卷积神经网络)的***和方法。在某些实施例中，用于调整预先训练好的网络的训练图像是针对一种或多种生物标志物的存在而被染色的生物学标本的图像。在某些实施例中，训练图像包含一个或多个类别标签。在其他实施例中，训练图像不包含类别标签。本公开还提供了一种经训练的对象检测引擎，其包含调谐神经网络和区域候选网络。如本文所述，经训练的对象检测引擎可以用于检测细胞。

在某些实施例中，本公开涉及用于使用经训练的对象检测引擎来检测样品图像中的细胞(并且任选地对细胞进行分类)的***和方法。在某些实施例中，本文描述的***和方法促进了样品图像中检测到的细胞的聚类，从而在每个样品图像中提供了检测到的细胞的一个或多个同质簇。每个样品图像中识别出的检测到的细胞的同质簇可以例如由病理医生进一步标注，并且在某些实施例中，可以使用此类标注来训练分类器或神经网络。换言之，有标注的同质簇可以用作真实值数据。

在某些实施例中，本公开提供了用于使用细胞检测和分类引擎来对测试图像(例如，源自受试者(例如人类患者)的生物学标本的未标记的图像)内的细胞进行检测和/或分类的自动化***和方法，其中使用真实值数据来训练单元检测和分类引擎。在某些实施例中，真实值数据源自在一个或多个样品图像中检测到的细胞的同质簇的病理医生标注。在某些实施例中，细胞检测和分类引擎包含神经网络，例如与上述对象检测引擎所包含的神经网络不同的神经网络。

本公开的至少某些实施例涉及用于分析从生物学标本(包括组织样品)中捕获的数字图像的计算机***和方法，所述标本用一种或多种初染剂(如苏木精和曙红(H&E))以及一种或多种检测探针(如含有特异性结合实体的探针，所述实体有助于标记所述样品内的靶标)染色。尽管本文的实例可指特定的组织和/或应用特定的染色剂或检测探针用于检测特定标记物，但本领域技术人员将认识到，可以应用不同的组织和不同的染色剂/检测探针来检测不同的标志物。

在图1和图2A至2C中示出了用于对样本进行成像和分析的数字病理***200。数字病理***200可以包括成像设备12(如具有用于扫描承载标本的显微镜载片的方式的设备)和计算机14，据此，所述成像设备12和计算机可以通信地偶联在一起(如直接地，或通过网络20间接地偶联)。计算机***14可以包括台式计算机、笔记本电脑、平板电脑或类似物、数字电子电路、固件、硬件、存储器201、计算机存储介质(240)、计算机程序或指令集(如所述程序存储在所述存储器或存储介质内)、一个或多个处理器(209)(包括编程处理器)，以及任何其他硬件、软件或固件模块或其组合(如本文进一步所述)。例如，所述图1中示出的计算***14可以包括一台具有显示装置16和外壳18的计算机。所述计算机***可以以二值形式存储数字图像(存储在本地，诸如在存储器中、在服务器或另一个网络连接装置上)。所述数字图像也可以分为像素矩阵。所述像素可以包括由比特深度定义的一个或多个比特的数字值。本领域技术人员将认识到，可以利用其他计算机设备或***，并且本文所述的计算机***可以通信的形式与附加组件(如标本分析仪、显微镜、其他成像***、自动化载片制备设备等)联接。本文将进一步对这些附加组件中的一些附加组件以及各种可利用的计算机、网络等进行说明。

一般来说，成像设备12(或包括存储于存储器中的预扫描的图像的其他图像源)可以包括但不限于一个或多个图像捕获装置。图像捕捉装置可以包括但不限于照相机(如模拟相机、数字相机等)、光学器件(如一个或多个透镜、传感器聚焦透镜组、显微镜物镜等)、成像传感器(如电荷耦合器件(CCD)、互补金属氧化物半导体(CMOS)图像传感器等)、感光胶片等。在数字实施例中，所述图像捕捉装置可以包括多个镜头，这些镜头可协作证明具备即时对焦功能。图像传感器，例如，CCD传感器可以捕获所述标本的数字图像。在一些实施例中，所述成像设备12是明视野成像***、多光谱成像(MSI)***或荧光显微镜***。所述数字化组织数据可以例如由图像扫描***生成，例如通过VENTANA MEDICAL SYSTEMS，Inc.(Tucson,Arizona)的VENTANA DP200扫描仪或其他合适的成像设备。本文将进一步描述其他成像设备和***。本领域技术人员将认识到，由成像设备12采集的数字彩色图像通常是由基本彩色像素组成。每个彩色像素均可以在三个数字分量上进行编码，每个分量均包含相同数量的比特数，且每个分量均对应于一种原色，一般是红、绿或蓝，也用术语“RGB”分量表示。

图2A至2C提供了本公开的***200和250以及在每个***内使用的各种模块的概述。在某些实施例中，两个数字病理学***200和250采用具有一个或多个处理器209以及一个或多个存储器201的计算机装置或计算机实现的方法，所述一个或多个存储器201存储了用于由一个或多个处理器执行的非暂时性计算机可读指令，以使所述一个或多个处理器执行如本文所述的特定指令。

图2A和2B中描绘的***200各自包含可被训练用于检测样品图像中的细胞(并且任选地对细胞进行分类)的对象检测引擎210：。***200还包含使得检测到的细胞的同质簇可被识别的组件。在某些实施例中，对象检测引擎包含神经网络212。在某些实施例中，对象检测引擎210包括包含神经网络212的第一部分和包含区域候选网络214的第二部分(见图2B)。在某些实施例中，对象检测引擎210包括源自基于区域的卷积神经网络的架构。在某些实施例中，神经网络212可以独立于区域候选网络214进行操作。例如，可以如本文所述地训练神经网络212(也参见图4)。训练神经网络212之后，就可以将经训练的神经网络212与区域候选网络214结合使用，用于对输入图像中的细胞进行检测和/或分类。

在某些实施例中，该***适于检测样品图像中的细胞并任选地对其进行分类。参考图2A、2B、3A和图3B，在某些实施例中，从成像设备12或存储模块240中接收一个或多个样品图像。在某些实施例中，样品图像经初染剂染色或针对一种或多种生物标志物的存在而被染色，例如苏木精、DAPI、DAB等。在某些实施例中，对象检测引擎210用于检测所接收的样品图像内的细胞并任选地对其进行分类(步骤310)。在某些实施例中，对象检测引擎包含神经网络212，例如卷积神经网络和区域候选网络214。在某些实施例中，神经网络212用于识别所接收的样品图像中的细胞特征(步骤340)。在某些实施例中，区域候选网络214用于基于由神经网络212识别出的细胞特征来检测所接收的样品图像中的细胞(步骤341)。在细胞被检测后，特征提取模块202用于从网络212的至少一层中提取识别出的细胞特征的至少一部分(步骤311或341)。基于提取的细胞特征，聚类模块204随后可以用于生成细胞的同质簇(步骤312或342)。然后可以例如由病理医生使用标注模块206对生成的同质簇进行标注。在某些实施例中，病理医生标注可以用作真实值数据，其中真实值数据可以用于训练分类器(例如支持向量机)，或另一个单独的神经网络(其中单独的神经网络可以是与对象检测引擎212中的类型相同或不同)；或可用于微调对象检测引擎210的经训练的神经网络212。

图2C提供了用于***250中对测试图像中的细胞进行检测和/或分类的模块的概述。在某些实施例中，***250包括细胞检测和分类模块255。在某些实施例中，细胞检测和分类模块包含神经网络。在某些实施例中，细胞检测和分类模块包含分类器，例如，支持向量机。在其中细胞检测和分类模块包括神经网络的实施例中，该神经网络可以与对象检测引擎210的神经网络212相同或不同。在某些实施例中，***250还包括评分模块，以对检测到的和/或分类的细胞进行评分，例如确定H评分或阳性百分比。

技术人员还将意识到，可以将附加模块并入工作流程或并入***200和250中。在某些实施例中，可以运行图像处理或预处理模块，以将某些滤波器应用于采集的图像或识别所述组织样品内的某些组织学和/或形态学结构或特征。同样地，可以利用目标区域选择模块来选择样品图像或测试的特定部分用于分析。另外，可以运行解混模块以在进一步处理之前对多路图像进行解混。

图像采集模块

参考图2A至2C，在某些实施例中，数字病理***200和250运行图像采集模块202以捕获生物学标本的图像(例如，使用成像设备12)，包括具有一种或多种染色剂的生物学标本，例如初染剂或指示生物标志物存在的染色剂。在某些实施例中，图像为单路图像。在其他实施例中，图像为多路图像。在某些实施例中，所接收或采集的图像为RGB图像或多光谱图像。在某些实施例中，所捕获的图像存储于存储器201中(或在存储模块240内)。

在某些实施例中，所采集的图像或存储于存储模块240中的图像为“训练图像”。在某些实施例中，训练图像是生物学标本的图像，并且可以是组织学样本或细胞学样本或其任何组合。在某些实施例中，训练图像用于调整预先训练好的神经网络。在这方面，训练图像用于训练目的。在某些实施例中，训练图像包含至少一种染色剂。在某些实施例中，训练图像包含多种染色剂。在某些实施例中，训练图像包括一个或多个类别标注。在某些实施例中，多个训练图像被用于调整预先训练好的神经网络。在某些实施例中，训练图像可以是包括多含训练图像的数据集的一部分，其中多个训练图像中的每个训练图像可以包含相同或不同的染色剂，并且其中多个训练图像中的每个训练图像均可能包含类别标签。

在某些实施例中，所采集的图像或存储于存储模块240中的图像为“样品图像”。在某些实施例中，样品图像是生物学标本的图像，并且可以是组织学标本或细胞学标本。在某些实施例中，样品图像被提供给经训练的神经网络，使得细胞可以被检测(并且任选地对细胞进行分类)，并且使得可以对检测到的细胞进行聚类(例如，参见图7)。最终可以从样品图像中得出真实值数据，即真实值数据包括样品图像中生成的检测到的细胞的同质簇的病理医生标注。所生成的真实值数据可用于训练分类器或神经网络。

在某些实施例中，所采集的图像或存储于存储模块240中的图像为“测试图像”。在某些实施例中，测试图像是生物学标本的图像，并且可以是组织学标本或细胞学标本。将测试图像提供给经训练的分类器或神经网络，例如已经使用生成的真实值数据(包括病理医生标注)进行过训练的分类器或神经网络，如上所述。以这种方式，可以对测试图像内的细胞进行检测和/或分类。测试图像可以被认为是源自受试者(例如人患者)的样品的图像，其中基于对测试图像内的细胞(或其他细胞特征)的检测和/或分类可以达到病理印象或诊断。

训练图像、样品图像或测试图像中的任何一个(在本文中统称为“输入图像”)可以是整个载片图像或其任何部分(例如，预定的视野)。此外，并且不管图像是训练图像、样品图像还是测试图像，都可以通过使用任何成像设备来采集输入图像。可以使用成像设备12诸如实时地采集输入图像。在某些实施例中，如本文所述，输入图像是从显微镜或其他能够捕获承载标本的显微镜载片的图像数据的仪器中采集。在某些实施例中，使用诸如能够扫描图像贴片的扫描仪等二维扫描仪，或者诸如VENTANA DP200扫描仪等能够逐行扫描图像的线型扫描仪来采集输入图像。

相机平台还可以包括明视场显微镜，一个实例是Ventana Medical Systems，Inc.的VENTANA iScan HT产品，或者任何具有一个或多个物镜和数字成像器以及一组光谱滤波器的显微镜。可以使用其他技术捕获不同波长的图像。进一步地，适用于染色生物学标本成像的照相机平台是本领域中已知的，并且可从Zeiss、Canon、Applied Spectral Imaging等公司商购获得，并且这种平台可容易地适于在本主题公开的***、方法和设备中使用。

通常，输入图像各自包含对应于染色剂(包括色原体、荧光团、量子点等)的信号。在某些实施例中，输入图像已经用至少一种初染剂(苏木精或曙红)染色。在其他实施例中，至少一个图像已经在IHC测定法或ISH测定法中的至少一者中染色以用于识别特异性生物标志物(本文称为“生物标志物”图像)。在某些实施例中，将多个单路图像用作输入，并且那些图像可以源自连续的组织切片，即源自相同的异种移植组织块中的连续切片。在某些实施例中，输入图像可以是多路图像，即根据本领域普通技术人员已知的方法在多路测定中针对多个不同的标志物进行染色。

典型的生物学标本在对所述样品进行染色的染色/测定平台中进行处理。在某些实施例中，标本处理设备是自动化设备，诸如Ventana Medical Systems,Inc.销售的BENCHMARK XT仪器、SYMPHONY仪器和BENCHMARK ULTRA仪器。Ventana Medical Systems,Inc.是多项美国专利的代理人，这些专利公开了执行自动分析的***和方法，包括美国专利第5,650,327号、第5,654,200号、第6,296,809号、第6,352,861号、第6,827,901号和第6,943,029号，以及美国已公布的专利申请第20030211630号和第20040052685号，其中每项专利公开的内容均通过引用整体合并于本文。替代地，还可以人工处理标本。

市售的H&E染色器的实例包括来自Roche的VENTANA SYMPHONY(单个载片染色器)和VENTANA HE 600(单个载片染色器)系列H&E染色器；来自Agilent Technologies的DakoCoverStainer(批量染色器)；来自Leica Biosystems Nussloch GmbH的Leica ST4020小型线性染色器(批量染色器)、Leica ST5020多功能染色器(批量染色器)和Leica ST5010自动染色器XL系列(批量染色器)H&E染色器。市场上适合用作染色/测定平台的其他商用产品，Ventana Medical Systems,Inc.(Tucson,AZ)的Discovery^TM产品就是其中一个实例。

如技术人员将理解的，可以对生物学标本进行针对不同类型的和/或细胞膜生物标志物的染色。针对组织结构染色的方法和选择适合各种目的的染色剂的指南进行了讨论，例如在“Sambrook等人，Molecular Cloning:ALaboratory Manual,Cold SpringHarbor Laboratory Press(1989)”和“Ausubel等人，Current Protocols in MolecularBiology,Greene Publishing Associates and Wiley-Intersciences(1987),”中，其公开内容通过引用并入本文。

作为一个非限制性实例，并且在检测乳腺癌的情况下，在某些实施例中，在IHC测定中针对一种或多种生物标志物(包括***受体标志物、孕激素受体标志物、Ki-67标志物或HER2标志物)的存在对组织样品进行染色。这样，在某些实施例中，用作输入的生物标志物图像是IHC图像，其包括对应于至少一种***受体(ER)标志物、孕激素受体(PR)标志物、Ki-67标志物或HER2标志物的存在的信号(对应于可能是例如发色或发荧光的染色剂的信号)。在某些实施例中，可以分析样品以检测或测量样品中ER、HER2、Ki-67和PR蛋白的存在，例如定性或定量测量。作为另一非限制性实例，并且在检测非小细胞肺癌的情况下，在某些实施例中，在IHC测定中针对一种或多种生物标志物(包括PD-L1生物标志物)的存在对组织样品进行染色。这样，在某些实施例中，用作输入的生物标志物图像是IHC图像，其包括对应于PD-L1标志物、CD3标志物和CD8标志物的存在的信号。

是否将采集的图像用作训练图像或用于真实值的样品图像；或作为用于细胞检测和/或分类的测试图像，输入图像可以包括需要掩盖的信息。在某些实施例中，输入图像任选地被本文所述的组织掩蔽模块所掩蔽。在一些实施例中，对所述输入图像进行掩蔽，使得所述图像中只存在组织区域。在一些实施例中，生成组织区域掩模以从组织区域中掩蔽非组织区域。在一些实施例中，可以通过识别所述组织区域并自动或半自动地(即以最小的用户输入)排除背景区域(如对应于无样品玻璃的整个切片图像区域，例如仅存在来自成像源白光的区域)来创建组织区域掩模。

本领域技术人员将认识到，除了从组织区域掩蔽非组织区域外，所述组织掩蔽模块还可以根据需要掩蔽其他目标区域，例如识别为属于某种组织类型或属于疑似肿瘤区域的组织的一部分。在一些实施例中，使用分割技术通过从所述输入图像中的非组织区域对组织区域进行掩蔽来生成组织区域掩蔽图像。同样，合适的分割技术在现有技术中也是已知的，(参见Digital Image Processing，第三版，Rafael C.Gonzalez、Richard E.Woods，第10章，第689页和Handbook of Medical Imaging，Processing and Analysis，IsaacN.Bankman Academic Press，2000，第2章)。与组织区域掩模的生成有关的附加信息和实例在题为“An Image Processing Method and System for Analyzing a Multi-ChannelImage Obtained from a Biological Tissue Sample Being Stained by MultipleStains”的PCT/EP/2015/062015中公开，其公开内容据此通过引用整体并入本文。

对象检测引擎

本公开的***200包括对象检测引擎210，该对象检测引擎210至少包括神经网络212。在某些实施例中，对象检测引擎210包括第一部分，该第一部分包括神经网络212(包括以下描述的任何神经网络)和区域候选网络214。在某些实施例中，经训练的对象检测引擎210，即包含经训练的神经网络212的引擎，用于对样品图像中的细胞进行检测和/或分类，使得细胞的同质簇可以在样品图像中被识别出。在某些实施例中，神经网络212配置成确定特征并生成用于样品图像的特征图。在某些实施例中，对象检测引擎210包括如下所述的源自基于区域的卷积神经网络的架构。

对象检测是在图像中查找和对对象进行分类的过程。一种深度学习方法，基于区域的卷积神经网络(RCNN)，将矩形区域提案与卷积神经网络特征(本文所述)结合在一起。RCNN为一种两阶段检测算法。第一阶段识别图像中可能含有对象的区域子集。第二阶段对每个区域中的对象进行分类。使用具有CNN的区域进行对象检测的模型基于以下三个过程：(a)在图像中找到可能含有对象的区域。这些区域称为区域提案；(b)从区域提案中提取CNN特征；以及(c)使用提取的特征对对象进行分类。

RCNN有几种变体。每种变体都试图优化、加快或增强一个或多个这些过程的结果。RCNN检测器(Girshick，R.，J.Donahue，T.Darrell和J.Malik.“Rich Feature Hierarchiesfor Accurate Object Detection and Semantic Segmentation.”2014IEEE计算机视觉和模式识别会议的CVPR'14会议记录。第580-587页，2014年)首先使用诸如Edge Box(Zitnick、C.Lawrence和P.Dollar)的算法生成区域提案。"Edge boxes:从边缘定位对象提案。”Computer Vision-ECCV.Springer International Publishing.第391-4050页。2014)。提案区域从图像中裁剪出来并调整大小。然后，CNN对裁剪和调整大小的区域进行分类。最终，区域提案边界框由使用CNN特征训练的支持向量机(SVM)完善。图6A示出了区域检测、CNN特征的计算以及区域分类的过程。

与在RCNN检测器中一样，Fast RCNN检测器(Girshick，Ross."Fast RCNN."Proceedings of the IEEE International Conference on Computer Vision.2015)还使用如“Edge Box”之类的算法来生成区域提案。与RCNN检测器可以裁剪区域提案并调整其大小不同，Fast RCNN检测器处理整个图像。然而RCNN检测器必须对每个区域进行分类，FastRCNN则将对应于每个区域提案的CNN特征池化。Fast RCNN比RCNN更有效，因为在Fast RCNN检测器中，重叠区域的计算是共享的。图6B示出了使用卷积特征图和目标区域(ROI)特征向量的检测。

由Ren、Shaoqing、Kaiming He、Ross Girshick和Jian Sun.描述了Faster RCNN检测器。“Faster RCNN：通过区域候选网络实现实时对象检测。”神经信息处理***进展，第28卷，2015年。代替使用如Edge Box之类的外部算法，Faster RCNN添加了区域候选网络214以直接在网络中生成区域提案。区域候选网络使用Anchor Boxes用于对象检测。据信，在网络中生成区域建案可以更快且更有效地检测样品图像中的细胞，特别是考虑到提供给对象检测引擎210的输入图像的尺寸较大时。在某些实施例中，区域候选网络和分类网络共享相同的特征提取层。图6C示出了基于Faster-RCNN架构的对象检测引擎210，该对象检测引擎210包括多含卷积层和区域候选网络。

Mask-RCNN通过与用于边界框识别的现有分支并行添加一个用于预测对象淹模的分支来扩展Faster R-CNN。Mask-RCNN完善了ROI池化的步骤。在ROI中，将变形数字化，并迫使目标特征图的细胞边界与输入特征图的边界重新对齐。Mask-RCNN使用的ROI Align不对细胞边界进行数字化处理，而是使每个目标细胞具有相同的大小。它还应用插值来计算特征图值。

在美国公开号2018/0268292、2018/0018535和2016/034288中描述了RCNN的特定实施方案，包括Fast-RCNN和Faster-RCNN，其公开内容各自通过引用整体并入本文。而在美国专利号9,971,953中描述了RCNN的其他特定实施方案，包括Fast-RCNN和Faster-RCNN，其公开内容通过引用整体并入本文。这些实施方案中的任何一种都可以适于对细胞进行检测和/或分类。

区域候选网络214通常可以被定义为检测图像中的对象并提出对应于那些所检测的对象的区域的全卷积网络。候选网络对于本文所述的实施例中的使用是有吸引力的，因为它们相对较快并且能够检测不同大小的对象。候选网络可以在由生成k锚框的一个或多个卷积层生成的特征图上覆盖滑动窗口。将滑动窗口覆盖在特征图上的结果可以输入到候选网络的中间层，该中间层可以经由cls层生成2k评分，并经由reg层生成4k坐标(请参见Ren、Shaoqing、Kaiming He、Ross Girshick和Jian Sun.“Faster RCNN：通过区域候选网络实现实时对象检测。”神经信息处理***进展，第28卷，2015年)。

在某些实施例中，区域候选网络214配置成用于细胞检测。换言之，区域候选网络214基于所确定的特征使用来自所生成的特征图的特征来检测样品图像中的细胞。在某些实施例中，区域候选网络214配置成生成边界框检测结果。

神经网络

在某些实施例中，本公开针对训练诸如卷积神经网络的神经网络212，并然后利用该经训练的神经网络来对输入图像中的细胞进行检测和/或分类。可以在细胞的检测和/或分类中的训练和/或使用的合适的神经网络如下所述。

在某些实施例中，神经网络212被配置为深度学习网络。通常，“深度学习”是机器学习的一个分支，它基于一组试图对数据中的高级抽象建模的算法。深度学习是基于学习数据表示的更广泛的机器学习方法系列的一部分。观察(例如输入图像)可以通过多种方式表示，诸如每个像素的强度值矢量，或者以更抽象的方式表示为一组边缘、特定形状的区域等。某些表示在简化学习任务上优于其他表示。深度学习的前景之一是用高效的算法替换手工特征，以实现无监督或半监督的特征学习和分层特征提取。

在某些实施例中，神经网络212为机器学习网络。机器学习通常可以定义为一种类型的人工智能(AI)，它为计算机提供了无需明确编程即可学习的能力。机器学习专注于计算机程序的开发，当暴露于新数据时，计算机程序可以教自身成长和变化。换言之，机器学习可以定义为计算机科学的子领域，它给予计算机无需进行显式编程即可学习的能力。机器学习探索了可以学习和预测数据的算法的研究和构建，此类算法通过作出数据驱动的预测或决策，通过从样品输入中建立模型，克服了严格遵循静态程序指令的问题。可以在“Introduction to Statistics Machine Learning,”由Sugiyama，Morgan Kaufmann，2016，534页；“Discriminative,Generative,and Imitative Learning,”Jebara，MITThesis，2002，212页；以及“Principles of Data Mining(Adaptive Computation andMachine Learning),”Hand等人，MIT出版社，2001，578页中所述来进一步进行本文描述的机器学习；其通过引用将其并入，如同本文完全阐述一样。本文描述的实施例可以如这些参考文献中所描述的那样被进一步配置。

在某些实施例中，神经网络212为生成网络。“生成”网络通常可以定义为本质上是概率性的模型。换言之，“生成”网络不是进行正向仿真或基于规则的方法的网络。相反，可以基于合适的训练数据集(例如，从多个训练图像，诸如针对一种或多种生物标志物的存在而被染色的生物学标本的训练图像)来学习生成网络(因为可以学习其参数)。在某些实施例中，神经网络被配置为深度生成网络。例如，网络可以被配置为具有深度学习架构，因为网络可以包括进行许多算法或变换的多层。

在某些实施例中，神经网络212可以是具有一组权重的深层神经网络，所述的一组权重根据已经被馈送来训练世界的数据来对世界进行建模，如本文所述。神经网络通常由多层组成，并且信号路径在介于各层之间从前到后遍历。可以为此目的实现任何神经网络。合适的神经网络包括由Yann LeCun提出的LeNet；由Alex Krizhevsky等人提出的AlexNet；由Matthew Zeiler等人提出的ZF Net；由Szegedy等人提出的GoogLeNet；由KarenSimonyan等人提出的VGGNet；以及由Kaiming He等人提出的ResNet。在某些实施例中，神经网络为VGG16(Simonyan，2014)。在其他实施例中，多层神经网络为DenseNet(参见Huang等人，"Densely Connected Convolutional Networks,"arXiv：1608.06993)。在某些实施例中，利用了完全卷积神经网络，例如由Long等人所述，"Fully Convolutional Networksfor Semantic Segmentation,"计算机视觉和模式识别(CVPR)，2015IEEE会议，2015年6月(INSPEC登录号：15524435)，其公开内容据此通过引用合并于此。

在某些实施例中，神经网络212被配置为AlexNet。例如，分类网络结构可以为AlexNet。本文使用术语“分类网络”来指代CNN，其包括一个或多个完全连接的层。通常，AlexNet包含多个卷积层(例如5个)，其后是以组合方式配置和训练用于对图像进行分类的多个完全连接的层(例如3)。配置为AlexNet的神经网络的实例在Krizhevsky等人，NIPS2012的“ImageNet Classification with Deep Convolutional Neural Networks”中进行了描述，其通过引用将其并入，如同本文完全阐述一样。本文所述的神经网络可以进一步配置为该参考文献中所述。

在其他实施例中，神经网络212被配置为GoogleNet。例如，分类网络结构可以为GoogleNet。GoogleNet可以包含诸如卷积层、池化层和完全连接层的层，完全连接层诸如本文进一步所述的被配置和训练用于对图像进行分类的那些层。尽管GoogleNet架构可能包含数量相对较多的层(特别是与本文所述的一些其他神经网络相比)，但其中一些层可能并行运行，并且相互平行运行的层组通常称为初始模块。其他层可以顺序地操作。因此，GoogleNet与本文所述的其他神经网络的不同之处在于，并非所有的层都以顺序结构排列。被配置为GoogleNet的神经网络的实例在“Going Deeper with Convolutions,”Szegedy等人，CVPR 2015中进行了描述，其通过引用将其并入，如同本文完全阐述一样。本文所述的神经网络可以进一步配置为该参考文献中所述。

在其他实施例中，神经网络212被配置为VGG网络。例如，分类网络结构可以是VGG。VGG网络是通过增加卷积层的数量同时固定架构的其他参数来创建的。通过在所有层中使用基本小的卷积滤波器，可以添加卷积层以增加深度。像本文所述的其他神经网络一样，VGG网络已创建并经过训练以对图像进行分类。VGG网络还包含卷积层，然后是完全连接层。被配置为VGG的神经网络的实例在“Very Deep Convolutional Networks for Large-Scale Image Recognition,”Simonyan等人，ICLR 2015中进行了描述，其通过引用将其并入，如同本文完全阐述一样。本文所述的神经网络可以进一步配置为该参考文献中所述。

在某些实施例中，神经网络212包含自编码器。自编码神经网络是一种无监督的学习算法，该算法应用反向传播，将目标值设置为等于输入值。自编码器的目的是通过训练网络忽略信号“噪声”来学习一组数据的表示(编码)，通常用于降维。连同简化的一面，学习了重构方面，其中自编码器尝试从简化编码中生成尽可能接近其原始输入的表示形式。关于自编码器的附加信息可以在http://ufldl.stanford.edu/tutorial/unsupervised/Autoencoders/中找到，其公开内容据此通过引用整体并入本文。

在其他实施例中，神经网络212被配置为深度残差网络。例如，分类网络结构可以为深度残差网络或ResNet。像本文所述的一些其他网络一样，深度残差网络可以包含卷积层，然后是完全连接层，这些层以组合方式被配置和训练用于图像分类。在深度残差网络中，将各层配置为参考层输入学习残差功能，而不是学习未引用的功能。特别地，不是希望每个少数堆叠的层都直接适合所需的基础映射，而是明确允许这些层适合残差映射，这是通过具有快捷连接的前馈神经网络实现的。快捷连接是跳过一层或多层的连接。可以通过采用包含卷积层的普通神经网络结构并且***快捷连接来创建深层残差网络，其从而采用普通神经网络并且将其转换为残差学习副本。在“Deep Residual Learning for ImageRecognition”He等人，NIPS 2015中所述的深度残差网络的实例，其通过引用将其并入，如同本文完全阐述一样。本文所述的神经网络可以进一步配置为该参考文献中所述。

调整预先训练好的神经网络

在某些实施例中，首先诸如使用多个训练图像或使用包含多个训练图像的一个或多个数据集来训练对象检测引擎210的神经网络212。神经网络通常在大型且公开可用的自然图像的图像数据档案库上进行训练(诸如ImageNet、Russakovsky等，2015，ImageNet大规模视觉识别挑战赛。IJCV，2015年)。鉴于通常用于生物学标本(例如肿瘤样品)的训练图像较少，因此采用了转移学习方法。

在某些实施例中，可以使用“转移学习”方法，其中将诸如上述的那些预先训练好的网络连同其学习的权重一起用于在新的训练图像集上初始化训练过程，并进行训练以适应于手头的具体应用的权重(请参见Pan,S.J.,&Yang,Q.(2010)。A Survey on TransferLearning.IEEE Transactions on Knowledge and Data Engineering,22(10),1345-1359.doi:10.1109/tkde.2009.191，其公开内容据此通过引用整体并入本文)。在某些实施例中，预先训练好的网络在可能与或可能与目标应用不直接相关并且本质上可能是或不是生物学的现有公共或私有数据集上进行训练。在某些实施例中，最终层的权重是随机初始化的，以避免陷入次优的局部最小值，而在其他实施例中，最终层的权重被不变地导入。

在某些实施例中，获得预先训练好的神经网络(步骤410)。在某些实施例中，预先训练好的神经网络是已经使用数据库训练的神经网络，该数据库包括包含大量图像(例如超过100,000张图像、超过200,000张图像或超过300,000张图像)的数据集。在某些实施例中，预先训练好的神经网络是使用Microsoft Coco数据集进行预先训练好的神经网络(Tsung-Yi Lin，等人，“Microsoft coco：Common objects in context,”in Europeanconference on computer vision,Springer，2014，第740-755页)。在其他实施例中，预先训练好的神经网络是使用ImageNet数据集(J.Deng,W.Dong,R.Socher,L.-J.Li,K.Li和L.Fei-Fei,“ImageNet:A Large-Scale Hierarchical Image Database,”在CVPR中，2009)、PASCAL VOC(M.Everingham,L.Van Gool,C.K.I.Williams,J.Winn和A.Zisserman,“The PASCAL visual object classes(VOC)challenge,”IJCV，第88卷，第2期，第303-338页，2010年6月)或SUN数据集(J.Xiao,J.Hays,K.A.Ehinger,A.Oliva,和A.Torralba,“SUNdatabase:Large-scale scene recognition from abbey to zoo,”在CVPR中，2010年)进行预训练的神经网络。

Microsoft背景中的公共对象(MS COCO)数据集含有91个公共对象类别，其中82个具有超过5,000个标记的实例。数据集总共有328,000张图像中的2,500,000个标记的实例。与ImageNet数据集相比，COCO的类别较少，但每个类别的实例更多。据信，这可以帮助学习能够进行精确2D定位的详细对象模型。与PASCAL VOC和SUN数据集相比，每个类别的数据集的实例数量也明显更大。据信，与ImageNet(3.0)和PASCAL(2.3)相比，MS COCO每个图像(7.7)含有相当多的对象实例。相反，SUN数据集，其含有重要背景信息，具有超过17个对象和每个图像“填充”，但总体上对象实例相当少。美国公开号2019/0073568进一步描述了训练神经网络的方法，其公开内容据此通过引用整体并入本文。

在获得预先训练好的神经网络之后，获得多个训练图像(步骤411)，其可以用于调整预先训练好的神经网络(步骤412)。为了使预先训练好的模型熟悉具有生物学标本图像的独特特征的唯一神经网络，在某些实施例中，使用经初染剂染色或针对一种或多种生物标志物的存在而被染色的生物学标本的训练图像来调整预先训练好的神经网络。仅作为实例，表1中列示出五个不同的训练图像数据集。在某些实施例中，对生物学标本的训练图像进行标注。在其他实施例中，未标注生物学标本的训练图像，即它们不包含任何类别标签。在某些实施例中，每个训练图像可以具有相同的分辨率或不同的分辨率。在某些实施例中，每个训练图像可以具有相同的放大率或不同的放大率(例如10x训练图像、20x训练图像、40x训练图像等)。在某些实施例中，训练图像在每个维度上是数千个像素。在某些实施例中，为了能够标注，随机地提取图像块，例如，具有64x64像素或128x128像素大小的图像块。

表1：合适的训练图像数据集的实例。

<u>数据集</u>	<u>图像块数量</u>	<u>细胞数量</u>	<u>图像块大小</u>	<u>分辨率</u>
					Her2	118	560	64x64像素	20x
Dual ISH	143	1296	128x128像素	40x
					组合式	268	1822	混合的	混合的
BB	200	7162	128x128像素	20x
					BBYP	104	1340	128x128像素	20x

有关表1中列示的每个数据集的附加信息如下面所指出：

Her2：Her2膜染色的细胞的560个标注。

Dual ISH：双原位杂交染色的细胞的1269个标注。

组合式：Her2和Dual ISH数据集的组合。

BB：苏木精和DAB染色的细胞的1822个两类标注。

BBYP：IHC Duplex染色的图像含有1340个标注，分为5个不平衡类别，这些类别的成员数量范围从10到1828个。

对于“Her2”、“Dual ISH”和“组合式”数据集，标注是类别不可知细胞的边界框；对于BB数据集，标注是带有“蓝色”或“棕色”细胞标签的边界框；对于BBYP数据集，标注是带有“蓝色肿瘤细胞”、“紫色肿瘤细胞”、“黄色T细胞”、“紫色T细胞”和“黄色和紫色T细胞”标签的边界框，其对应于“ki67-肿瘤”、“ki67+肿瘤”、“cd8+T细胞”、“ki67+T细胞”和“cd8+ki67+T细胞”，这些类别是互斥的

使用表1中列示的数据集对预先训练好的神经网络进行调整(步骤412)可提供以下经训练的神经网络。如本文的实例部分中详述的，这些不同的经训练的神经网络被用于特定实验中。

模型Zero：具有针对COCO数据集预先训练好的Resnet-50特征提取器的FasterRCNN模型。

HER2:关于Her2数据针对细胞检测进行了调整的模型Zero。

DUALISH：关于Dual ISH数据针对细胞检测进行了调整的模型Zero。

模型A：关于组合式数据针对细胞检测进行了调整的模型Zero。

模型B：关于BB数据针对检测和分类进行了调整的模型Zero。

模型C：关于BB数据针对检测和分类进行了调整的模型A。

利用经训练的对象检测引擎生成检测到的细胞的同质簇

在调整预先训练好的神经网络之后，诸如通过使用针对一种或多种生物标志物的存在而被染色的生物学标本的多个训练图像来调整预先训练好的神经网络，经调整的神经网络212(与其他模块结合使用)用于对样品图像中的细胞进行检测和/或分类，使得检测到的细胞的同质簇可以在样品图像中被识别出(参见图3A)。在其他实施例中，经调整的神经网络212与区域候选网络214(共同提供经训练的对象检测引擎210)结合用于对样品图像中的细胞进行检测和/或分类，使得检测到的细胞的同质簇可以在样品图像中被识别出(参见图3B)。然后可以诸如由病理医生对这些样品图像进行标注。本领域技术人员将理解，如果对象检测引擎210是已经用包括一个或多个类别标签的训练图像进行了训练的对象检测引擎，则经训练的对象检测引擎210可适于对检测到的细胞进行分类。

参考图3A，在某些实施例中，获得一个或多个样品图像并将其提供给经训练的对象检测引擎210，使得细胞可以被检测到(步骤310)。在某些实施例中，经训练的对象检测引擎210源自基于区域的卷积神经网络。在某些实施例中，RCNN架构基于Fast-RCNN架构。

在其他实施例中，并参考图3B，神经网络212用于识别一个或多个样品图像内的细胞特征(步骤340)，然后区域候选网络214用于基于识别出的细胞特征来检测一个或多个样品图像中的细胞(步骤341)。在其他实施例中，经训练的对象检测引擎210源自Faster-RCNN。在又一些其他实施例中，经训练的对象检测引擎210基于Faster-RCNN架构，并且其中神经网络212包含深度残差网络，例如ResNet。

在某些实施例中，对象检测引擎210包含缩放层。尽管经训练的对象检测引擎是在小的人可标注图像(64x 64像素、128x 128像素等)上被训练的，但样品图像的尺寸较大，例如，尺寸大100倍。在某些实施例中，并且代替通常在基于区域的卷积神经网络架构之一者中使用的图像缩放器，将缩放层引入经训练的对象检测引擎210中，该缩放层以常量因子缩放图像，而与大小无关。

在某些实施例中，使用在Tensorflow对象检测API中建议的超参数，针对固定数目的步骤(例如，约30000)训练对象检测引擎。在某些实施例中，提议的最大数量在推理过程期间增加以容纳更大的图像。检测性能通过阈值0.50(mAP@50)处的平均精密度规来测量。

表2提供了检测(以及训练图像中存在的类别标签的分类)性能的摘要。mAP@50是指平均精度，它是不同召回值处最大精度的平均值。在测量mAP@50时，如果检测与IoU大于50％的真实值标注匹配，则认为检测正确。在此，精度是指真正阳性/完全阳性检测。IoU测量介于两个区域之间的重叠。在图8中示出了与对应图像块的真实值标注相比较，使用模型A在Her2和Dual ISHM图像上的细胞检测结果。表2中列示的模型用于下文的实例。

表2：使用经训练的对象检测引擎进行细胞检测和分类性能。

表2示出了针对不同的染色剂类型进行了微调的Faster-RCNN(如以上实施例中所述)，对于每种染色剂类型都能运行良好，即便是以下情况亦是如此：对于Her2，染色剂类型为膜染色剂；或对于Dual ISH，染色剂类型为DNA染色剂；或对于BB，染色剂类型为细胞染色剂。据信，性能的差异取决于训练以及测试的真实值标注的质量

如本文所述，神经网络212可包含多个层，例如卷积层。在某些实施例中，神经网络被设计为确定一个或多个样品图像内的特定特征。由神经网络确定的特征可以包括本文进一步描述的或本领域已知的任何合适的特征，其可以从输入推断并用于生成本文进一步描述的输出。例如，特征可以包括每个像素的强度值的向量。这些特征还可以包括本文所述的任何其他类型的特征，例如，标量值的向量，独立分布、联合分布或本领域已知的任何其他合适的特征类型的向量。

在生物学标本的情况下，神经网络可以确定针对一种或多种生物标志物的存在而被染色的所提供的生物学标本的一个或多个样品图像内的特定细胞或细胞特征。在细胞特征识别(步骤340)和/或基于识别出的细胞特征对细胞进行检测(步骤341)之后，可以使用特征提取器模块202(步骤311或342)从神经网络212的一层或多层中提取至少一部分细胞特征。在某些实施例中，深度残差网络，例如ResNet或ResNet-50用作基于区域的卷积神经网络的第一阶段的特征提取器。作为非限制性实例，可以提取来自ResNet-50架构的块1、块2、块3和在块1(称为块0)之前的卷积层的特征，并将其用于下游聚类操作中。

从神经网络的一层或多层提取至少一部分细胞特征之后，生成检测到的细胞的同质簇(步骤312或343)。任何聚类方法都可以用于该任务。例如，可以使用凝聚式聚类技术来进行聚类。在某些实施例中，利用凝聚式层次聚类。凝聚式层次聚类是一种自下而上的聚类方法，其中聚类具有子聚类，子聚类依次又具有子聚类等。凝聚式层次聚类始于单个簇中的每个单一对象。然后，在每个逐次迭代中，它通过满足一些相似性标准来凝聚(合并)最接近的一对集群，直到所有数据都在一个簇中。

在某些实施例中，从经训练的基于区域的卷积神经网络的不同中间层提取细胞特征，并且如在scikit-learn中所实施的那样进行凝聚式聚类(参见F.Pedregosa等人，“Scikit-learn:Machine learning in Python,”Journal of Machine LearningResearch，第12卷，第2825–2830页，2011年)。

在其他实施例中，可以根据美国专利号10,162,878、9,411,632和6,625,585中描述的任何方法来进行凝聚式聚类；或如美国公开号2016/0342677、2018/0329989或2014/0359626中的任何一个，其公开内容通过引用整体并入本文。

然后，病理医生可以使用标注模块206，使得可以标记每个样品图像中检测到的细胞的同质簇中的一个或多个。合适的标注模块的实例在美国专利号9,818,190中所述，其公开内容据此通过引用整体并入本文。

然后可以将每个样品图像中一个或多个同质簇的标注用作真实值数据，例如用于训练细胞检测和分类引擎(参见图7)。

用于对测试图像中的细胞进行检测和/或分类的***

在某些实施例中，本公开提供了一种用于对测试图像中的细胞进行检测和/或分类的***250。图2C和图5提供了对测试图像中的细胞进行检测和/或分类的***和方法的概述。在某些实施例中，***250包括细胞检测和分类引擎255，其已经使用本文导出的真实值数据(即，样品图像中所识别的细胞的同质簇的病理医生标注)进行了训练。在某些实施例中，细胞检测和分类引擎255包括分类器，例如，支持向量机或其他类似的集成学习方法。合适的分类器的实例在本文中进一步描述。在其中细胞检测和分类引擎255包括分类器的实施例中，细胞检测和分类引擎255可以包括自动细胞检测模块和/或神经网络(例如适于特征提取的神经网络)。

在某些实施例中，细胞检测和分类引擎255包含神经网络，该神经网络包括本文描述的任何类型的神经网络。在某些实施例中，细胞检测和分类引擎255包括基于区域的卷积神经网络。在那些实施例中，细胞检测和分类引擎255可以包括对象检测引擎210，该对象检测引擎210已经使用生成的真实值数据进行了进一步的微调。

图5阐述了示出对测试图像中的细胞进行检测和/或分类的各个步骤的流程图。在某些实施例中，首先获得经训练的细胞检测和分类引擎5(步骤510)。另外，还获得一个或多个测试图像(步骤511)。然后，细胞检测和分类引擎255用于对一个或多个获得的测试图像中的细胞进行检测和/或分类(步骤512)。在对一个或多个获得的测试图像中的细胞进行检测和/或分类之后，可以对测试图像进行评分(步骤513)。

自动化细胞检测模块

本文所述的程序和自动算法可适应于基于所述输入图像内的特征识别和分类各种类型的细胞或细胞核，包括识别和分类肿瘤细胞、非肿瘤细胞、基质细胞和淋巴细胞。本领域技术人员将认识到，所述细胞核、细胞质和细胞膜具有不同的特征，以及不同染色的组织样品可显示出不同的生物学特征。事实上，本领域技术人员将认识到，某些细胞表面受体可以具有定位到细胞膜或细胞质的染色模式。因此，“细胞膜”染色模式与“细胞质”染色模式在分析上是不同的。同样，“细胞质”染色模式与“细胞核”染色模式在分析上是不同的。这些不同的染色模式中的每一者都可以用作识别细胞和/或细胞核的特征。

美国专利第7,760,927号(“'927专利”)描述了在具有一种或多种染色剂的生物学样品的图像中对细胞核、细胞膜和细胞质进行识别、分类和/或评分的方法，其公开内容据此通过引用整体并入本文。例如，US7,760,927描述了一种用于在以生物标志物染色的生物组织的输入图像中同时识别多个像素的自动化方法，其包括考虑所述输入图像的前景中的多个像素的第一彩色平面，从而同时识别细胞质和细胞膜像素，其中所述输入图像已经过处理去除其背景部分和复染成分；确定所述数字图像前景中的细胞质和细胞膜像素之间的阈值水平；以及使用所确定的阈值水平通过所述前景中选定的像素及其八个相邻像素来同时确定所选像素是数字图像中的细胞质像素、细胞膜像素还是过渡像素。

美国专利公开第2017/0103521号也描述了用于自动识别生物学样品图像中的生物标志物阳性细胞的合适***和方法，其公开内容通过引用整体并入本文。例如，US2017/0103521描述了(i)将第一数字图像和第二数字图像读取到一个或多个存储器中，所述第一数字图像和第二数字图像描绘了第一载片的相同区域，所述第一载片包括多个已被第一染色剂和第二染色剂染色的肿瘤细胞；(ii)通过分析所述第一数字图像中的光强度来识别多个细胞核和所述细胞核的位置信息；(iii)通过分析所述第二数字图像中的光强度和分析所述已识别的细胞核的位置信息来识别包含所述生物标志物的细胞膜；以及(iv)识别区域中的生物标志物阳性肿瘤细胞，其中生物标志物阳性肿瘤细胞是一个已识别的细胞核和一个围绕所述已识别的细胞核的已识别的细胞膜的组合。在US2017/0103521内公开了检测使用HER2蛋白生物标志物或EGFR蛋白生物标志物进行染色的方法。

在一些实施例中，首先通过识别候选细胞核，然后自动区分肿瘤细胞核与非肿瘤细胞核来自动识别肿瘤细胞核。现有技术中已知有多种识别组织图像中候选细胞核的方法。例如，通过应用基于径向对称的方法自动检测候选细胞核，例如在解混后的苏木精图像通道或生物标志物图像通道上进行检测(参见Parvin、Bahram等人，“Iterative votingfor inference of structural saliency and characterization of subcellularevents”(迭代表决推理的结构显著性和亚细胞事件的表征)Image Processing,IEEETransactions on 16.3(2007):615-623，其公开内容通过引用整体并入本文)。

更具体地，在一些实施例中，对接收到的作为输入的图像进行处理，例如检测细胞核中心(种子)和/或分割细胞核。例如，可提供指令以使用Parvin(如上所述)的技术基于径向对称表决来检测细胞核中心。在一些实施例中，使用径向对称性检测细胞核以检测细胞核的中心，然后基于细胞中心周围的染色强度对细胞核进行分类。在一些实施例中，如共同受让和共同在审的专利申请WO/2014/140085A1所述进行基于径向对称性的细胞核检测操作，该申请通过引用整体并入本文。例如，可以在图像内计算图像大小，并通过将选定区域内的大小之和相加累积每个像素处的一个或多个表决。均值漂移聚类可用于寻找所述区域的局部中心，所述局部中心代表实际的细胞核位置。基于径向对称性表决的细胞核检测可在彩色图像强度数据上执行，并明确使用了细胞核是大小不一、偏心性不同的椭圆状斑点的先验域知识。为了完成上述操作，除了所述输入图像中的颜色强度，图像梯度信息还被用于径向对称性表决，并与适应性分割过程相结合，以精确检测和定位细胞核。例如，本文使用的“梯度”是指在考虑所述特定像素周围一组像素的强度值梯度情况下计算出的特定像素的强度梯度。每个梯度相对于坐标系可以有一个特定的“方向”，该坐标系的x轴和y轴由所述数字图像的两个正交边缘定义。例如，细胞核种子的检测包括将种子定义为被假定为位于细胞核内的点，并且作为定位细胞核的起点。第一步是使用一种基于径向对称性的非常稳定的方法检测与每个细胞核相关的种子点，进而检测类似于细胞核的椭圆状斑点结构。在径向对称性方法中，可使用基于内核的表决程序对所述梯度图像进行处理。处理每个通过表决内核来累积表决数的像素，由此创建一个表决响应矩阵。所述内核基于在该特定像素处计算出的梯度方向、最小和最大细胞核尺寸的预期范围，以及表决内核角度(通常在[π/4,π/8]范围内)。在由此产生的表决空间中，将具有表决值高于预定阈值的局部极大值位置保存为种子点。在随后的分割或分类过程中，将无关联的种子丢弃。美国专利公开第2017/0140246号讨论了其他方法，其公开内容通过引用整体并入本文。

细胞核可以使用本领域普通技术人员已知的其他技术识别。例如，可以从H&E或IHC图像之一的特定图像通道计算出图像大小，并且可以为每个指定大小周围的像素分配多个以所述像素周围区域内的大小之和为准的表决的数量。替代地，还可以进行均值漂移聚类操作，以定位代表细胞核实际位置的表决图像内的局部中心。在其他实施例中，细胞核分割可用于基于目前已知的细胞核中心，通过形态操作和局部阈值来分割整个细胞核。在又一些其他其他实施例中，可利用基于模型的分割来检测细胞核(即，从训练数据集学习细胞核的形状模型，并将其作为先验知识来分割所述测试图像中的细胞核)。

在一些实施例中，随后使用为每个细胞核单独计算的阈值，对所述细胞核进行分割。例如，由于据信所述细胞核区域中的像素强度可变化，因此Otsu的方法可用于在已识别的细胞核周围的区域中进行分割操作。正如本领域普通技术人员将认识到的，Otsu的方法用于通过最小化类内方差来确定最佳阈值，并且所述方法对本领域技术人员而言是已知的。更具体地，Otsu的方法用于自动执行基于聚类的图像阈值化，或者将灰度级图像还原为二值图像。所述算法假设图像包含两类遵循双模态直方图的像素(前景像素和背景像素)。然后，计算出分隔所述两类像素的最佳阈值，这样可实现最小或相等的组合式扩散(类内方差)(因为成对平方距离之和是常数)，进而使它们的类间方差最大。

在一些实施例中，所述***和方法还包括自动分析图像中识别的细胞核的光谱和/或形状特征，从而识别非肿瘤细胞的细胞核。例如，可在第一步骤的第一数字图像中识别斑点。本文所用的“斑点”可以是例如数字图像的区域，其中一些属性(如强度或灰度值)保持恒定或在规定的数值范围内变化。在某种意义上，一个斑点中的所有像素可认为彼此相似。例如，可以使用基于数字图像上位置函数的导数的微分方法和基于局部极值的方法来识别斑点。细胞核斑点是一个像素和/或轮廓形状表明其可能由一个以第一染色剂进行染色的细胞核产生的斑点。例如，可以评估一个斑点的径向对称性，以确定是否应该将所述斑点识别为细胞核斑点或任何其他结构，如染色假象。例如，在斑点为长条形状并且不具有径向对称性的情况下，所述斑点可能不会被识别为细胞核斑点，而是会被识别为染色假象。根据实施例，识别为“细胞核斑点”的斑点可以代表一组被识别为候选细胞核并且可以进一步分析以确定所述细胞核斑点是否代表细胞核的像素。在一些实施例中，任何种类的细胞核斑点均被直接用作“识别的细胞核”。在一些实施例中，对已识别的细胞核或细胞核斑点进行过滤操作，以识别不属于生物标志物阳性的肿瘤细胞的细胞核，并从已识别的细胞核的列表中去除所述已识别的非肿瘤细胞核，或者从开始就不将所述细胞核添加到所述已识别的细胞核列表中。例如，可以分析所述识别的细胞核斑点的附加光谱和/或形状特征，以确定所述细胞核或细胞核斑点是否为肿瘤细胞的细胞核。例如，淋巴细胞的细胞核比其他组织细胞(如肺细胞)的细胞核大。在所述肿瘤细胞是从肺组织导出的情况下，通过识别所有最小尺寸或直径显著大于正常肺细胞的细胞核平均尺寸或直径的细胞核斑点来识别淋巴细胞的细胞核。与淋巴细胞核有关的已识别的细胞核斑点可以从已识别的细胞核的集合中去除(即“过滤”)。通过过滤非肿瘤细胞的细胞核，可以提高所述方法的准确性。由于根据所述生物标志物，非肿瘤细胞在一定程度上也可以表达所述生物标志物，因此可以在所述第一数字图像中产生非源于肿瘤细胞的强度信号。通过从已识别的细胞核总数中识别和过滤不属于肿瘤细胞的细胞核，可以提高识别生物标志物阳性肿瘤细胞的准确性。美国专利公开2017/0103521描述了这些方法和其他方法，这些方法的公开内容通过引用整体并入本文。在一些实施例中，一旦检测到种子，可以使用局部适应性阈值化方法，并在检测的中心周围来创建斑点。在一些实施例中，还可以引入其他方法，例如也可以使用基于标记物的分水岭算法来识别所述检测的细胞核中心周围的细胞核斑点。PCT公开第WO2016/120442号描述了这些方法和其他方法，这些方法的公开内容通过引用整体并入本文。

在检测到所述细胞核后，从所述输入图像中导出特征(或度量)。从细胞核特征导出度量是现有技术中众所周知的，任何已知的细胞核特征均可在本公开的背景下使用。可计算的度量的非限制性实例包括：

(A)从形态特征导出的度量

例如，本文所用的“形态特征”是指示细胞核形状或尺寸的特征。在不希望被任何特定理论约束的情况下，据信形态特征提供了一些关于细胞或其细胞核大小和形状的重要信息。例如，可以通过对细胞核斑点或种子中包含的或其周围的像素应用各种图像分析算法来计算形态特征。在一些实施例中，所述形态特征包括面积、短轴和长轴长度、周长、半径、体积等。在细胞水平上，这样的特征用于将细胞核分类为健康细胞类或病变细胞类。在组织水平上，在组织上充分利用这些统计的特征，从而将组织分类为病变组织或非病变组织。

(B)从颜色导出的度量

在一些实施例中，从颜色导出的度量包含颜色比，R/(R+G+B)或颜色的主成分。在其他实施例中，从颜色导出的度量包含局部图像窗口中每个颜色的局部统计(平均值/中间值/方差/标准偏差)和/或颜色强度相关性。

(C)从强度特征导出的度量

在组织病理切片图像中表示的灰色细胞的黑色和白色阴影之间，设置了具有某些特定属性值的相邻细胞组。由于所述颜色特征的相关性定义了尺寸分级的示例，因此通过这种方式，这些彩色细胞的强度可从其周围的暗细胞簇中确定受影响的细胞。

(D)从空间特征导出的度量

在一些实施例中，空间特征包含细胞的局部密度；两个相邻检测的细胞之间的平均距离；和/或从细胞到分割区域的距离。

当然，本领域普通技术人员已知的其他特征也可以认为是并用作特征计算的依据。

分类器模块

在其中细胞检测和分类引擎255包括分类器的实施例中，分类器可以是本领域技术人员已知的任何分类器。例如，在某些实施例中，学***面)以分离类别，以最大程度地分离类别。然后，将测试数据通过K投影到高维空间中，并且基于测试数据相对于超平面的下落位置对测试数据(例如下面列举的特征或度量)进行分类。核函数K定义了将数据投影到高维空间的方法。

在其他实施例中，学习的监督分类器是随机森林分类器。例如，可以通过以下方式训练随机森林分类器：(i)创建肿瘤和非肿瘤细胞的训练集，(ii)为每个细胞提取特征，以及(iii)训练随机森林分类器，基于提取的特征(例如从细胞检测和分类引擎255的神经网络部分提取的特征)来区分肿瘤细胞和非肿瘤细胞。然后可以将经训练的随机森林分类器应用于将测试图像中的细胞分类为肿瘤细胞和非肿瘤细胞。任选地，可以进一步训练随机森林分类器以区分不同类别的非肿瘤细胞核，诸如淋巴细胞核和基质核(以及甚至不同类型的淋巴细胞之间)。

评分模块

在某些实施例中，可以使用评分模块260，将获得的染色强度值、特定细胞的计数或其他分类结果用于确定各种标志物表达评分，例如阳性百分比、Allred评分或H评分。评分方法在2013年12月19日提交的共同转让和共同待决的申请WO/2014/102130A1“Imageanalysis for breast cancer prognosis”和2104年3月12日提交的WO/2014/140085A1“Tissue object-based machine learning system for automated scoring of digitalwhole slides,”中有更详细的描述，每一份的内容据此通过引用整体并入本文。例如，至少部分地基于生物标志物阳性的肿瘤细胞/生物标志物阳性的非肿瘤细胞的数量，可确定评分(例如整个载片评分或图像的带标注区域的评分，例如可以确定由病理医生或组织学家标注的区域)。在某些实施例中，对于每个检测到的细胞斑点，可以计算平均斑点强度、颜色和几何特征，诸如检测到的细胞斑点的面积和形状，并且将细胞斑点分类为肿瘤细胞和非肿瘤细胞的细胞。如所计数的肿瘤细胞的数量所证明的，输出的识别出的细胞的数量对应于在一个区域中检测到的生物标志物阳性肿瘤细胞的总数。对样品评分的其他方法在PCT公开号WO/2017/093524以及美国专利公开号2017/0103521和2017/0270666中所述，其公开内容据此通过引用整体并入本文。

在一些实施例中，所述表达评分是H-Score评分H评分是例如评估细胞免疫反应性程度的方法。取决于生物标志物，可以使用用于H评分计算的不同方法。举一个说明性的实例，类固醇受体细胞的H评分可通过下式获得：3×强染色细胞的百分比+2×中度染色细胞的百分比+弱染色细胞的百分比，范围为0到300。

在一些实施例中，所述“H”评分用于评定细胞膜染色等级为“弱”、“中等”或“强”的肿瘤细胞的百分比。将等级相加，总评分最高为300分，区分“阳性”和“阴性”的分界点为100分。例如，确定固定视野中的每个细胞(或此处为肿瘤或细胞簇中的每个细胞)的膜染色强度(0、1+、2+或3+)。H-score评分可以简单地以一个主要的染色强度为准，或者更复杂地，可以包括每个看到的强度水平的单独H-score评分的总和。通过一种方法，计算出细胞在每个染色强度水平下的百分比，最后，用下面的公式分配一个H-score评分。[1x(％细胞1+)+2x(％细胞2+)+3x(％细胞3+)]。最终的介于0到300范围的评分在一个给定的肿瘤样品中对较高强度的膜染色提供了更多的相对权重。然后，可以根据特定的判别阈值，将所述样品视为阳性或阴性。美国专利公开第2015/0347702号描述了计算H-score评分的附加方法，其公开内容通过引用整体并入本文。

仅作为示例，在其中针对淋巴细胞生物标志物的存在以及也针对PD-L1的存在对样品进行染色的实施例中，可以通过以下方式对PD-L1表达进行评分：(a)识别肿瘤样品中的肿瘤细胞和淋巴细胞；(b)确定表达PD-L1的肿瘤细胞和淋巴细胞的数量和/或在所述细胞中表达PD-L1的相对强度；以及(c)根据(b)中确定的PD-L1表达对肿瘤进行分类。在某些实施例中，通过特异性检测肿瘤中的PD-L1蛋白和/或PD-L1 mRNA来确定PD-L1的表达。在某些实施例中，当细胞具有通过IHC检测到的PD-L1蛋白的至少部分膜染色时，细胞被认为表达PD-L1。在某些实施例中，根据修改的H评分(MHS)或修改的比例评分(MPS)之一者或两者将肿瘤分类，所述修改的H评分或修改的比例评分均从步骤(b)计算(参见美国公开号2017/0372117以获取附加信息)，其公开内容据此通过引用整体并入本文。

在某些实施例中，分配MHS包括(i)在所有被检查的肿瘤巢中的所有存活的肿瘤细胞和染色的单核炎性细胞中，对无染色、弱染色(+1)、中染色(+2)和强染色(+3)的细胞估计四个单独的百分比，其中细胞必须至少具有部分膜染色才能包括在弱、中或强染色百分比中，并且其中所有四个百分比的总和等于100；以及(ii)将估计的百分比输入到公式1×(弱染色细胞的百分比)+2×(中染色细胞的百分比)+3×(强染色细胞的百分比)中，并将该公式的结果分配给组织切片作为MHS；其中分配MPS包括在所有检查的肿瘤巢中的所有存活的肿瘤细胞和单核炎性细胞中估计至少具有任何强度的部分膜染色的细胞的百分比，并将所得百分比分配给组织切片作为MPS；并且其中如果分配MHS和MPS两者，则可以按顺序或同时进行分配。例如，可以将四个类别“无”、“弱”、“中”和“强”定义为例如不重叠强度阈值范围；例如，如果平均强度值小于5％，则可以将细胞像素区域视为“无染色”细胞，如果平均强度值>5％且<25％，则视为“弱染色”细胞，如果平均强度值>＝25％且<75％，则视为“中染色”细胞，以及如果平均强度值>＝75％，则视为“强染色”细胞。

在一些实施例中，所述表达评分是Allred评分。所述Allred分是一个评分***，用于显示激素受体测试呈阳性的细胞的百分比，以及所述受体在染色后的呈现程度(称之为“强度”)。然后，将结合该信息对所述样品进行0到8分的评分。评分越高、受体越多且在所述样品中越容易看到。

实例

细胞聚类

在学习对细胞进行检测和定位的过程期间，模型A学习可以促进细胞聚类的特征。尽管模型A没有提供任何类别标签，但是与细胞的原始RGB值(参见图9B)相比，这些特征产生了更好的聚类结果(参见图9A)。定性细胞聚类性能在图9A和9B中示出。在图9A中，蓝色框主要放置在Her2阳性细胞上，而绿色框放置在Her2阴性细胞上，这意味着通过使用源自Faster-RCNN的特征进行聚类，可以将两种类型的细胞很好地分开。即使我们没有提供用于微调Faster-RCNN的细胞类别标签，但预先训练好的Faster-RCNN已经提供了更丰富的特征表示，这些特征表示已“转移”到微调的Faster-RCNN。研究发现这改善了聚类性能。从模型A的块1中提取的特征可以实现有意义的细胞聚类(请参见图9A)。

在图9B中，将蓝色框放置在一些Her2阳性细胞上，而将绿色框放置在Her2阳性细胞和阴性细胞两者上，表明通过使用RGB进行聚类两种类型细胞的分离不良。基于其原始RGB像素值的细胞的聚类看起来没有意义(请参见图9B)。在对HER2图像中有意义的簇模式进行定性观察后，我们对具有两个类别的数据集BB进行了标注，以实现对使用Faster-RCNN特征进行聚类的优势的定量评估。图10A使用来自模型A的不同卷积层的表示以及检测到的细胞的原始RGB表示来总结聚类性能。如果将簇数限制为两个，则Faster-RCNN特征比RGB表示具有8％的明显优势。换言之，如果我们使用Faster-RCNN特征将细胞聚类为两个簇，并将簇标签分配给每个簇中的所有细胞，则可以达到98％的分类精度，而如果我们使用RGB表示，则相同的过程可以达到90％的精度。另外，从block0、block1和block2提取的特征对于BB数据集具有相似的性能；以及block0特征对不同数量的簇具有非常一致的性能。

接下来，确定训练对象检测引擎以对稍后将要聚类的相同类型的细胞进行分类是否与仅训练以检测细胞的对象检测引擎相比，提高了学习特征对于聚类任务的有用性。为了回答这个问题，我们使用从模型A、模型B、模型C和模型Zero中提取的特征来测量聚类的性能。尽管使用这些模型中的任何一个学习到的表示都比细胞的原始RGB表示至少提高了7％，但我们并未观察到这些模型的结果之间有任何显着差异。这表明即使从模型Zero中提取的特征(仅在COCO数据集上进行了训练)也可以用于有意义地对细胞进行聚类，并因此甚至进一步改善真实值标记。

看不见的类别聚类

BBYT图像含有五个类别的细胞。这些类别中的一些可以通过RGB值轻松区分，而其他类别则通过RGB和形态学两者或环境来定义。一类肿瘤细胞类似于一类常规细胞以蓝色表示，而另一类肿瘤细胞与一类T细胞共享紫色表示。可以基于细胞的密度、形状和环境来区分这些类别。在本节中，我们研究了将模型B学习表示与BBYP细胞的原始RGB表示相比较的效用，以将它们聚类为同质簇。我们假设由于与原始图像像素相比，由于CNN特征具有多层次的抽象性，因此它们提供了更全局的对象视图，因此它们应该更好地区分看上去在个体外观上相似但可以通过环境信息区分的细胞类别(请参见图10B)。在这种情况下，使用两个类别标签(来自BB数据集)从源自经过微调的Faster-RCNN的特征通过聚类能够很好地区分五种类型的细胞，即使只有很少的簇(例如5个)，与原始RGB值相比，性能提高了15％。据信，block0特征对于所有数量的簇都具有最佳性能。

进一步转移

BBYP图像用Discovery Yellow和Discovery Purple色原体染色，以识别5类目标细胞，即ki67+/-肿瘤细胞、Ki67+/-T细胞和CD8+T细胞。这些类别中的一些可以通过颜色容易地区分，而其他类别则通过颜色和形态学两者或环境来定义(参见图11)。我们假设由于与原始图像像素相比，由于CNN特征具有多层次的抽象性，因此它们提供了更全局的对象视图，因此它们应该更好地区分看上去在个体外观上相似但可以通过环境信息区分的细胞类别。如图10B所示，使用模型B的特征对BBYT细胞进行聚类比使用这些细胞的原始RGB表示具有15％的优势，并且随着我们增加簇的数量而继续超越它们，从而支持了我们的最初假设。使用其他模型的特征会产生相似的结果。

结论

我们表明，对公开可用的大规模对象检测数据集进行预培训可以减少监管的需要。最接近的现有技术(Rene Bidart等人，"Localization and classification of cellnuclei in post-neoadjuvant breast cancer surgical specimen using fullyconvolutional networks,"在Medical Imaging 2018:DigitalPathology.International Society for Optics and Photonics，2018年，第10581期)，我们的工作使用了病理医生提供的27K点标注，而我们仅使用1800个边界框标注来训练模型A。

我们还演示了Faster R-CNN的效用，以同时处理不同分辨率的组织学图像，并在100倍于训练图像块大小的测试图像上进行推理。这里的限制不是算法而是存储器相关的。

我们建议通过提出可以由病理医生进行微调的标注框(如果需要)来促进真实值标记，并将检测到的细胞聚类为几个同质子集，从而将真实值标记的负担从数据集中的细胞数量的顺序降低到簇的数量。

如图8所示，有时因检测到标注器遗漏的细胞对模型进行惩罚。由于组织学图像中存在的对象的性质含混不清，因此需要采用多个标注器来标注相同的数据集，并且应该将检测和分类模型的性能与标注器一致率进行比较。

践行本公开实施例的其他组件

下面描述了可以与本公开的***和方法结合使用的其他组件(例如，***或模块)。

解混模块

在某些实施例中，作为输入接收的图像可以是多路图像，即接收的图像是被多于一种染色剂染色的生物学标本的图像。在这些实施例中，并在进一步处理前，首先将多路图像解混成其组成通道，其中每个解混通道对应于特定的染色剂或信号。在某些实施例中，解混图像(通常称为“通道图像”或“图像通道图像”)并且可用作本文所述的每个模块的输入。例如，可以利用针对多个分化标志物(CD3、CD8等)的簇而被染色的第一H&E图像、第二多路图像以及针对特定生物标志物(例如ER、PR、Ki67等)而各自被染色的多个单路图像来确定标记间的异质性。在此实例中，首先将多路图像解混到其组成的通道图像中，并且可以将那些通道图像与H&E图像和多个单路图像一起使用，以确定标志物间的异质性。

在某些实施例中，在包含一种或多种染色剂和苏木精的样品中，可以为一种或多种染色剂和苏木精的每个通道产生单个图像。不希望受任何特定理论的束缚，据信这些通道在组织图像中突出显示了不同的组织结构，因此，它们可以被称为结构图像通道。在某些实施例中，解混至少提供苏木精图像通道图像。在某些实施例中，将采集的图像解混到代表苏木精的局部量并突出显示图像内的细胞区域的单独通道中。本领域技术人员将认识到，从这些通道中提取的特征可用于描述存在于组织的任何图像中的不同生物结构。

由所述成像***202提供的多光谱图像是与单个生物标志物和噪声分量相关联的基础光谱信号的加权混合物。在任何特定像素处，混合权重与所述组织中特定位置的基础同定位生物标志物的标记物表达和该位置的背景噪声成正比。因此，不同像素之间的混合权重不同。本文公开的光谱解混方法将多通道像素值矢量在每个像素处分解成组成生物标志物端员或组分的集合，并估计所述每个生物标志物的单个组成染色剂的比例。

解混是指将一个混合像素的测量光谱分解为表示所述像素中每个端员比例的一组组成光谱或端员，以及一组对应的级分或丰度的程序。具体而言，所述解混过程可以提取染色剂特异性通道，从而可使用对于标准类型的组织和染色剂组合来说公知的参照光谱来确定单个染色剂的局部浓度。所述解混可以使用从控制图像中检索或从观察中的图像估计的参照光谱。解混每个输入像素的分量信号可以检索和分析染色特异性通道，例如H&E图像中的苏木精通道和曙红通道，或IHC图像中的二氨基联苯胺(DAB)通道和复染(如苏木精)通道。术语“解混”和“颜色反卷积”(或“解卷积”)或类似的术语(如“去卷积”、“解混”)在现有技术中可互换使用。

在一些实施例中，所述多路图像与解混模块205以线性解混方式进行解混。例如，在“Zimmermann‘Spectral Imaging and Linear Unmixing in Light Microscopy’AdvBiochem Engin/Biotechnol(2005)95:245-265'和在C.L.Lawson和R.J.Hanson，‘Solvingleast squares Problems’，PrenticeHall，1974，第23章，第161页”中描述了线性解混，其公开内容通过引用整体并入本文。在线性染色解混中，任何像素处的测量光谱(S(λ))被认为是染色剂光谱分量的线性混合物，并且等于所述像素处表示的每个单个染色剂的彩色基准(R(λ))的比例或权重(A)之和。

S(λ)＝A₁·R₁(λ)+A₂·R₂(λ)+A₃·R₃(λ).......A_i·R_i(λ)

更普遍地，可以矩阵形式表示为

S(λ)＝ΣA_i·R_i(λ)或S＝R·A

如果具有M个采集到的通道图像和N个单个染色剂，则所述M x N矩阵R的列是本文导出的最佳表色系，所述N x 1向量A为单个染色剂比例的未知数，并且M x 1向量S为像素处测量的多通道光谱向量。在这些方程中，在采集多路图像期间测量每个像素(S)中的信号，并导出本文所述的参照光谱，即最佳表色系。通过计算各种染色剂(A_i)对测量光谱中每个点的贡献来确定它们的贡献。在一些实施例中，使用反最小二乘方拟合法求解，该方法通过求解以下方程组来最大程度地减小测量和计算光谱间的平方差。

在该方程中，j代表检测通道的数量，i等于染色剂的数量。所述线性方程的解通常允许受约束的解混，迫使权重(A)相加到一起。

在其他实施例中，使用2014年5月28日提交的题为“Image AdaptivePhysiologically Plausible Color Separation”的WO2014/195193中所述的方法来完成解混，其公开内容通过引用整体并入本文。通常，WO2014/195193描述了一种通过使用迭代优化的参照向量来分离所述输入图像的分量信号的解混方法。在一些实施例中，将测定中的图像数据与特定于所述测定的特征的预期或理想结果相关联以确定质量度量。在图像质量较低或与理想结果相比相关性较差的情况下，调整矩阵R中的一个或多个参照列向量，利用调整后的参照向量迭代重复解混，直到所述相关性显示出满足生理和解剖要求的高质量图像。所述解剖学、生理学和测定信息可用于定义应用于测量的图像数据以确定质量度量的规则。该信息包括如何对组织进行染色，组织内的哪些结构打算或不打算进行染色，以及结构、染色剂与特定于待处理测定的标记物之间的关系。迭代过程会产生可以生成图像的染色特异性向量，所述图像可准确识别目标结构和生物相关信息，并且没有任何噪声或不需要的光谱，因此所述过程适合分析。所述参照向量调整到搜索空间内。所述搜索空间定义了参照向量可以代表染色剂的取值范围。所述搜索空间的确定可以通过扫描包括已知或通常发生的问题在内的各种代表性的训练测定，并确定训练测定的高质量参照向量集来实现。

在其他实施例中，使用2015年2月23日提交的题为“Group Sparsity Model forImage Unmixing,”的WO2015/124772中所述的方法来完成解混，其公开内容据此通过引用整体并入本文。通常，WO2015/124772描述了使用一组稀疏性框架进行的解混，其中在“同一组”内对来自多个共置标志物的染色剂贡献的分数进行建模，以及对来自多个非共置标志物的染色剂贡献的分数进行建模，向建模的组稀疏性框架提供多个共置标志物的共定位信息，使用组套索求解建模的框架以在每个组内得到最小二乘解，其中最小二乘解对应于共置标志物的解混，并在对应于非共置标志物的解混的组中得到稀疏解。此外，WO2015124772描述了一种通过输入从生物组织样品获得的图像数据、从电子存储器读取参考数据(参考数据描述了多个染色剂中的每一个的染色剂颜色)、从电子存储器读取共置数据(共置数据描述了染色剂的组)来进行解混的方法，每组包括可以共置在生物组织样品中的染色剂，并且每组构成用于组套索标准的组，组中的至少一个具有两个或两个以上的大小，并使用参考数据作为参考矩阵来计算用于获得解混图像的组套索准则的解。在某些实施例中，用于对图像解混的方法可以包括生成组稀疏模型，其中来自共置标志物的染色剂贡献的分数被分配在单个组内，而来自非共置标志物的染色剂贡献的分数被分配在单独组内，并使用解混算法求解组稀疏模型，以在每个组内得到最小二乘解。

其他***组件

本公开的***200可绑定至能对所述组织标本执行一个或多个制备过程的标本处理设备。所述制备过程可以包括但不限于标本去石腊化、调理标本(如细胞调理)、标本染色、执行抗原检索、执行免疫组化染色(包括标记)或其他反应，和/或执行原位杂交(如SISH、FISH等)染色(包括标记)或其他反应，以及其他制备用于显微镜检查、显微分析、质谱方法或其他分析方法的标本的过程。

所述处理设备可以将固定剂涂在所述标本上。固定剂可以包括交联剂(例如醛类，如甲醛、聚甲醛和戊二醛，以及非醛类交联剂)、氧化剂(如金属离子和络合物，例如四氧化二锇和铬酸)、蛋白质变性剂(如乙酸、甲醇和乙醇)、机理不明的固定剂(如氯化汞、丙酮和苦味酸)、组合试剂(如Carnoy固定剂、Methacarn、Bouin液、B5固定剂、Rossman液和Gendre液)、微波以及其他固定剂(如排除体积固定和蒸汽固定)。

如果所述标本是嵌入石蜡中的样品，可使用相应的去石蜡液对所述样品进行去石蜡。去除石蜡后，可在所述标本上连续涂抹任意数量的化学物质。这些物质可以用于预处理(如逆转蛋白质交联、暴露细胞酸等)、变性、杂交、洗涤(如严格洗涤)、检测(如将显示或标志物分子与探针连接)、扩增(如扩增蛋白质、基因等)、复染色、盖玻片等。

所述标本处理设备可以将各种不同的化学物质应用到所述标本。这些化学物质包括但不限于染色剂、探针、试剂、漂洗剂和/或调节剂。这些化学物质可以是流体(如气体、液体或气体/液体混合物)或类似物质。所述流体可以是溶剂(如极性溶剂、非极性溶剂等)、溶液(如水溶液或其他类型的溶液)或类似物质。试剂可以包括但不限于染色剂、润湿剂、抗体(如单克隆抗体、多克隆抗体等)、抗原回收液(如水基或非水基抗原修复液、抗原回收缓冲液等)或类似物质。探针可以是分离的细胞酸或分离的合成寡核苷酸，附接到可检测标签或报道分子上。标记可以包括放射性同位素、酶底物、辅助因子、配体、化学发光或荧光剂、半抗原和酶。

标本处理完毕后，用户可以将标本载片运送到成像设备上。在一些实施例中，所述成像设备是明视野成像器载片扫描仪。一种明视野成像器是由Ventana Medical Systems,Inc.销售的iScan Coreo明视野扫描仪。在自动化实施例中，所述成像设备是题为IMAGINGSYSTEM AND TECHNIQUES的国际专利申请第PCT/US2010/002772号(专利公开号：WO/2011/049608)中所公开的数字病理装置；或如在美国公开2014/0377753或国际专利申请号PCT/US2010/002772中所公开，其公开内容据此通过引用整体并入本文。

所述成像***或设备可以是多光谱成像(MSI)***或荧光显微镜***。本文所用的成像***是MSI。一般来说，MSI通过访问像素层上图像的光谱分布，为病理标本的分析配备了基于计算机化显微镜的成像***。尽管存在各种多光谱成像***，但是这些***在操作上有一个共同点，即能够形成多光谱图像。多光谱图像是指在电磁波谱的特定波长或特定光谱带宽上捕获图像数据的图像。这些波长可以通过光学滤波器或使用其他能够选择预设光谱分量的仪器选出，包括波长超出可见光范围的电磁辐射，例如，红外线(IR)。

MSI***可包括光学成像***，其一部分包含可调整为定义预先确定数量的N个离散光学波段的光谱选择***。所述光学***可适应于组织样品的成像，所述组织样品通过宽带光源传输照射到光学检测器上。在一个实施例中，所述光学成像***可以包括一个放大***，例如显微镜，其具有一般在空间上与所述光学***的单一光输出对齐的单一光轴。当调整或调谐光谱选择***(例如用计算机处理器)时，所述***形成所述组织的图像序列，从而例如确保在不同的离散光谱带中采集图像。所述设备可额外包含一个可从所采集的图像序列中显示所述组织的至少一个在视觉上可感知图像的显示器。所述光谱选择***可以包括光学分散元件，例如衍射光栅、一组光学滤波器，例如薄膜干扰滤波器或任何其他适应于为响应用户输入或预编程处理器命令而从光源通过样品向检测器透射的光的光谱中选择一个特定的通带。

替代的实施方式，光谱选择***定义了多个对应于N个离散光谱带的光输出。这种类型的***从光学***引入透射光的输出，并在空间上将该光输出的至少一部分沿着N条空间不同的光路重新定向，这样便可以沿着对应于该已识别的光谱带的光路将一个已识别的光谱带中的所述样品成像到一个检测器***上。

本说明书中描述的主题和操作的实施例可以在数字电子电路中或在计算机软件、固件或硬件(包括本说明书中公开的结构及其等同结构)中实施，或以他们的一种或多种的组合来实施。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即计算机程序指令的一个或多个模块，其编码在计算机存储介质上以由数据处理设备执行或控制数据处理装置的操作。本文所述的任何模块可包括由处理器执行的逻辑。如本文中所使用的，“逻辑”是指具有指令信号和/或数据的形式的任何信息，其可以应用来影响处理器的操作。软件是逻辑的示例。

计算机存储介质可以是计算机可读存储设备、计算机可读存储基板、随机或串行访问存储器阵列或设备、或它们中的一个或多个的组合，或可以包含在其中。此外，虽然计算机存储介质不是传播信号，但是计算机存储介质可以是以人工生成的传播信号编码的计算机程序指令的来源或目的地。计算机存储介质还可以是一个或多个分开的物理部件或介质(例如多个CD、磁盘或其它存储设备)，或可以包含在其中。本说明书中描述的操作可以实现为由数据处理设备对存储在一个或多个计算机可读存储设备上或从其它来源接收到的数据执行的操作。

术语“可编程处理器”涵盖用于处理数据的所有种类的装置、设备和机器，包括作为示例的可编程微处理器、计算机、片上***、或前述的多个或组合。装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理***、操作***、跨平台运行时环境、虚拟机或其中一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础架构，诸如Web服务、分布式计算和网格计算基础架构。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言(包括编译或解释语言、声明性或过程语言)编写，并且可以以任何形式进行部署，包括作为独立程序或作为模块、部件、子例程、对象或其它适合在计算环境中使用的单元。计算机程序可以但不必对应于文件***中的文件。程序可以存储在保存其它程序或数据的文件的一部分中(例如存储在标记语言文档中的一个或多个脚本)，专用于所讨论程序的单个文件中或多个协调文件中(例如存储一个或多个模块、子程序或部分代码的文件)。可以部署计算机程序，以在位于一个站点或分布于多个站点、并通过通信网络互连的一个计算机或多个计算机上执行。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器执行，所述可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行动作。过程和逻辑流程也可以由专用逻辑电路执行，并且装置也可以实现为专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

作为示例，适合于执行计算机程序的处理器包括通用微处理器和专用微处理器，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于根据指令执行动作的处理器和用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括或可操作地联接以从一个或多个用于存储数据的大容量存储设备(例如磁盘、磁光盘或光盘)接收数据、或向其传输数据、或从其接收数据和向其传输数据。但是，计算机不必具有此类设备。此外，计算机可以嵌入到另一设备中，仅举几例，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位***(GPS)接收器或便携式存储设备(例如通用串行总线USB闪存驱动器)。适用于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储设备，作为示例，包括半导体存储设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动磁盘)、磁光盘、以及CD-ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，可以在具有显示设备和键盘和点选设备(例如鼠标或轨迹球)的计算机上实现本说明书中描述的主题的实施例，所述显示设备例如为LCD(液晶显示器)、LED(发光二极管)显示器或OLED(有机发光二极管)显示器，用于向用户显示信息，用户可以通过键盘和点选设备向计算机提供输入。在一些实施方式中，触摸屏可以用于显示信息并从用户接收输入。其它种类的设备也可以用于提供与用户的交互。例如，提供给用户的反馈可以是任何形式的感觉反馈(诸如视觉反馈、听觉反馈或触觉反馈)，并且可以以任何形式接收来自用户的输入(包括声音、语音或触觉输入)。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户进行交互；例如，通过将Web页面发送到用户客户端设备上的Web浏览器而响应于从Web浏览器收到的请求。

本说明书中描述的主题的实施例可以在包括后端部件(例如数据服务器)、或者包括中间件部件(例如应用服务器)、或者包括前端部件(例如具有图形用户界面或Web浏览器的客户端计算机，用户可以通过图形用户界面或网络浏览器与本说明书中描述的主题的实施方式进行交互)、或者一个或多个此类后端、中间件或前端部件的任何组合的计算***中实现。***的部件可以通过数字数据通信的任何形式或介质(例如通信网络)互连。通信网络的示例包括局域网("LAN")和广域网("WAN")、网际网络(例如互联网)和对等网络(例如ad hoc对等网络)。例如，图1的网络20可以包括一个或多个局域网。

计算***可以包括任意数量的客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器之间的关系是通过在各自计算机上运行并彼此具有客户端-服务器关系的计算机程序产生的。在一些实施例中，服务器将数据(例如HTML页面)发送到客户端设备(例如，出于向与客户端设备交互的用户显示数据并从中接收用户输入的目的)。可以从服务器处的客户设备接收在客户端设备处生成的数据(例如用户交互的结果)。

附加实施例

附加实施例1.一种用于识别生物学标本的样品图像内的细胞簇的***，生物学标本经初染剂染色或针对一种或多种生物标志物的存在而被染色，该***包括：(i)一个或多个处理器，以及(ii)一个或多个存储器，所述一个或多个存储器与所述一个或多个处理器联接，所述一个或多个存储器存储计算机可执行指令，所述计算机可执行指令当由所述一个或多个处理器执行时使所述***执行包括以下各项的操作：

a.使用经训练的对象检测引擎来检测所述样品图像中的细胞，其中所述经训练的对象检测引擎包含适于检测在样品图像内的细胞特征的卷积神经网络；

b.从所述卷积神经网络的一层或多层中提取细胞特征；以及

c.基于提取的细胞特征，对样品图像中的检测到的细胞进行聚类，以提供检测到的细胞的一个或多个同质簇。

附加实施例2.根据附加实施例1所述的***，其中经训练的对象检测引擎包含基于区域的卷积神经网络。

附加实施例3.根据附加实施例2所述的***，其中基于区域的卷积神经网络包含Fast-RCNN。

附加实施例4.根据附加实施例2所述的***，其中经训练的对象检测引擎进一步包含区域候选网络。

附加实施例5.根据附加实施例4所述的***，其中经训练的对象检测引擎包含Faster-RCNN。

附加实施例6.根据附加实施例1所述的***，其中卷积神经网络包含LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16或DenseNet。

附加实施例7.根据附加实施例1所述的***，其中卷积神经网络是深度残差网络。

附加实施例8.根据附加实施例7所述的***，其中深度残差网络包含ResNet。

附加实施例9.根据附加实施例1所述的***，其中训练的对象检测引擎包括使用包含多个训练图像的数据集训练的卷积神经网络，其中所述多个训练图像中的每个训练图像均源自经初染剂染色或针对一种或多种生物标志物的存在而被染色的生物学标本。

附加实施例10.根据附加实施例9所述的***，其中多个训练图像中的每个训练图像不包含类别标签。

附加实施例11.根据附加实施例9所述的***，其中多个训练图像中的每个训练图像不包含任何病理医生标注。

附加实施例12.根据附加实施例9所述的***，其中多个训练图像中的每个训练图像包含至少一个类别标签。

附加实施例13.根据附加实施例12所述的***，其中所述操作进一步包含对检测到的细胞进行分类。

附加实施例14.根据附加实施例1所述的***，其中卷积神经网络包含至少一个缩放层。

附加实施例15.根据附加实施例14所述的***，其中所述至少一个缩放层以常量因子缩放所述样品图像。

附加实施例16.根据附加实施例1所述的方法，其中检测到的细胞的聚类包括进行凝聚式层次聚类。

附加实施例17.根据附加实施例1所述的***，其中该***适于接收一个或多个对应于样品图像中的细胞的一个或多个同质簇的至少一个的标注。

附加实施例18.根据附加实施例17所述的***，其中所述操作进一步包括使用所接收的标注来训练细胞检测和分类引擎。

附加实施例19.根据附加实施例18所述的***，其中细胞检测和分类引擎包含神经网络。

附加实施例20.根据附加实施例19所述的***，其中细胞检测和分类引擎的神经网络改编自LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16、DenseNet或ResNet。

附加实施例21.根据附加实施例18所述的***，其中所述操作进一步包括使用经训练的细胞检测和分类引擎来检测测试图像中的细胞。

附加实施例22.根据附加实施例21所述的***，其中所述操作进一步包括对测试图像中的细胞进行分类。

附加实施例23.根据附加实施例21所述的***，其中测试图像包含至少一种染色剂。

附加实施例24.根据附加实施例23所述的***，其中测试图像的至少一种染色剂为细胞染色剂。

附加实施例25.根据附加实施例23所述的***，其中测试图像的至少一种染色剂为膜染色剂。

附加实施例26.根据附加实施例17所述的***，其中所述操作进一步包括使用所接收的标注来对所述经训练的对象检测引擎进行微调，以提供经过微调的对象检测引擎。

附加实施例27.根据附加实施例26所述的***，其中所述操作进一步包括使用微调的对象检测引擎来对测试图像中的细胞进行检测和/或分类。

附加实施例28.一种非暂时性计算机可读介质，其存储用于识别针对一种或多种生物标志物的存在而被染色的生物学标本的样品图像内的细胞簇的指令，其包括：

(a)使用经训练的对象检测引擎来检测所述样品图像中的细胞，其中所述经训练的对象检测引擎包含适于检测在样品图像内的细胞特征的卷积神经网络；

(b)从所述卷积神经网络的一层或多层中提取细胞特征；以及

(c)基于提取的细胞特征，对样品图像中的检测到的细胞进行聚类，以提供检测到的细胞的一个或多个同质簇。

附加实施例29.根据附加实施例28所述的非暂时性计算机可读介质，其中卷积神经网络改编自LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16和DenseNet。

附加实施例30.根据附加实施例28所述的非暂时性计算机可读介质，其中卷积神经网络为深度残差网络。

附加实施例31.根据附加实施例30所述的非暂时性计算机可读介质，其中深度残差网络改编自ResNet。

附加实施例32.根据附加实施例28所述的非暂时性计算机可读介质，其进一步包括用于使用病理医生标注来训练细胞检测和分类引擎的指令，所述病理医生标注对应于样品图像中的细胞的一个或多个同质簇中的至少一者。

附加实施例33.根据附加实施例32所述的非暂时性计算机可读介质，其进一步包括用于使用经训练的细胞检测和分类引擎来检测测试图像中的细胞的指令。

附加实施例34.根据附加实施例28所述的非暂时性计算机可读介质，其进一步包括用于使用所接收的标注对样品图像中的细胞的一个或多个同质簇中的至少一者来对经训练的对象检测引擎进行微调以提供微调的对象检测引擎的指令。

附加实施例35.根据附加实施例34所述的非暂时性计算机可读介质，其进一步包括用于使用微调的对象检测引擎来检测测试图像中的细胞的指令。

附加实施例36.根据附加实施例28所述的非暂时性计算机可读介质，其中使用包括针对一种或多种生物标志物的存在而被染色的来自生物学标本的多个训练图像的数据集来训练对象检测引擎。

附加实施例37.根据附加实施例28所述的非暂时性计算机可读介质，其中使用包含多个训练图像的数据集来训练对象检测引擎，其中多个训练图像中的每个训练图像不包含任何类别标签。

附加实施例38.根据附加实施例28所述的非暂时性计算机可读介质，其中所述卷积神经网络包含至少一个缩放层。

附加实施例39.一种检测针对一种或多种生物标志物的存在而被染色的生物学标本的测试图像中的细胞的方法，其包括：

(a)通过将测试图像输入经训练的细胞检测和分类引擎的第一部分中来确定生物学标本的测试图像内的细胞特征，其中第一部分包括配置成用于检测细胞特征的卷积神经网络；以及

(b)通过将确定的测试图像的特征输入到经训练的细胞检测和分类引擎的第二部分中，基于确定的细胞特征来检测测试图像中的细胞，其中第二部分至少包括区域候选网络。

附加实施例40.根据附加实施例39所述的方法，其进一步包括对测试图像中的检测到的细胞进行分类。

附加实施例41.根据附加实施例39所述的方法，其中使用真实值数据训练细胞检测和分类引擎，其中真实值数据包括对应于样品图像中的细胞的一个或多个识别出的同质簇的病理医生标注。

附加实施例42.根据附加实施例41所述的方法，其中通过以下方法识别细胞的同质簇：(i)向经训练的对象检测引擎提供样品图像；(ii)使用经训练的对象检测引擎检测样品图像中的细胞；(iii)从经训练的对象检测引擎内的至少一个卷积层中提取多个细胞特征；以及(iv)基于提取的细胞特征，对测试图像中检测到的细胞进行聚类。

附加实施例43.根据附加实施例39所述的方法，其中卷积神经网络为深度残差网络。

附加实施例44.根据附加实施例39所述的方法，其中深度残差网络改编自ResNet。

附加实施例45.一种识别针对一种或多种生物标志物的存在而被染色的生物学标本的样品图像内的细胞簇的方法，其包括：

a.使用经训练的对象检测引擎来检测样品图像中的细胞，其中经训练的对象检测引擎包含卷积神经网络和区域候选网络，其中所述卷积神经网络配置成识别细胞特征，并且其中所述区域候选网络配置成基于识别出的细胞特征来检测细胞；

b.从所述卷积神经网络的一层或多层中提取识别出的细胞特征；以及

附加实施例46.根据附加实施例45所述的方法，其中经训练的对象检测引擎包含基于区域的卷积神经网络。

附加实施例47.根据附加实施例46所述的方法，其中基于区域的卷积神经网络改编自Fast-RCNN。

附加实施例48.根据附加实施例46所述的方法，其中经训练的对象检测引擎进一步包含区域候选网络。

附加实施例49.根据附加实施例48所述的方法，其中经训练的对象检测引擎改编自Faster-RCNN。

附加实施例50.根据附加实施例45所述的方法，其中卷积神经网络改编自LeNet、AlexNet、ZF Net、DetectNet、GoogleNet、VGGNet、VGG16和DenseNet。

附加实施例51.根据附加实施例45所述的方法，其中卷积神经网络为自编码神经网络。

附加实施例52.根据附加实施例45所述的方法，其中卷积神经网络为深度残差网络。

附加实施例53.根据附加实施例52所述的方法，其中深度残差网络改编自ResNet。

附加实施例54.根据附加实施例45所述的方法，其中使用包括针对一种或多种生物标志物的存在而被染色的生物学标本的多个训练图像的数据集来训练卷积神经网络。

附加实施例55.根据附加实施例54所述的方法，其中多个训练图像中的每个训练图像不包含类别标签。

附加实施例56.根据附加实施例54所述的方法，其中多个训练图像中的每个训练图像不包含任何病理医生标注。

附加实施例57.根据附加实施例54所述的方法，其中多个训练图像中的每个训练图像包含至少一个类别标签。

附加实施例58.一种针对一种或多种生物标志物的存在而被染色的生物学标本的测试图像中的细胞进行检测和分类的方法，其包括：

(a)通过将测试图像输入经训练的细胞检测和分类引擎的第一部分中来确定生物学标本的测试图像内的细胞特征，其中第一部分包括配置成用于检测细胞特征的神经网络；以及

(b)通过将确定的测试图像的特征输入到经训练的细胞检测和分类引擎的第二部分中，基于确定的细胞特征来检测测试图像中的细胞，其中第二部分包含经训练的分类器。

附加实施例59.根据附加实施例58所述的方法，其中经训练的分类器包括支持向量机或随机森林集成学习方法。

本说明书中提及的和/或在申请数据表中列出的所有美国专利、美国专利申请公布、美国专利申请、外国专利、外国专利申请和非专利出版物均全文以引用方式并入本文。如有必要，可对实施例的各个方面进行修改，从而采用各类专利、应用和公开的概念来提供其他进一步的实施例。

尽管已经参考多个说明性实施例描述了本公开，但是应当理解，本领域技术人员可以设计出许多其他修改和实施例，它们将落入本公开原理的实质和范围内。更特别地，在前述公开内容、附图和所附权利要求书的范围内，主题组合布置的组成部分和/或布置中的合理变化和修改是可能的，而不脱离本公开的实质。除了组成部分和/或布置的变化和修改之外，替代性的用途对于本领域技术人员也将是显而易见的。

Claims

1.一种用于识别生物学标本的样品图像内的细胞簇的***，所述生物学标本经初染剂染色或针对一种或多种生物标志物的存在而被染色，所述***包括：(i)一个或多个处理器，以及(ii)与所述一个或多个处理器联接的一个或多个存储器，所述一个或多个存储器存储计算机可执行指令，所述计算机可执行指令当由所述一个或多个处理器执行时使所述***进行包括以下各项的操作：

a.使用经训练的对象检测引擎来检测所述样品图像中的细胞，其中所述经训练的对象检测引擎包含适于检测所述样品图像内的细胞特征的卷积神经网络；

b.从所述卷积神经网络的一层或多层中提取细胞特征；以及

c.基于提取的细胞特征，对所述样品图像中检测到的细胞进行聚类，以提供所述检测到的细胞的一个或多个同质簇。

2.根据权利要求1所述的***，其中所述经训练的对象检测引擎包含Fast-RCNN或Faster-RCNN中的一者。

3.根据权利要求1所述的***，其中所述经训练的对象检测引擎进一步包含区域候选网络。

4.根据权利要求1所述的***，其中所述卷积神经网络为深度残差网络。

5.根据前述权利要求中任一项所述的***，其中使用包含多个训练图像的数据集来完成对所述经训练的对象检测引擎的训练，其中所述多个训练图像中的每个训练图像均源自经初染剂染色或针对一种或多种生物标志物的存在而被染色的生物学标本。

6.根据权利要求5所述的***，其中所述多个训练图像中的每个训练图像均不包含任何病理医生标注。

7.根据权利要求5所述的***，其中所述多个训练图像中的每个训练图像均包含至少一个类别标签。

8.根据前述权利要求中任一项所述的***，其中所述卷积神经网络包含至少一个缩放层。

9.根据前述权利要求中任一项所述的***，其中述检测到的细胞的聚类包括执行凝聚式层次聚类。

10.根据前述权利要求中任一项所述的***，其中所述操作进一步包括：使用与所述样品图像中的所述细胞的一个或多个同质簇相关联的一个或多个类别标签训练细胞检测和分类引擎。

11.根据权利要求10所述的***，其中所述细胞检测和分类引擎包含神经网络。

12.根据权利要求10所述的***，其中所述操作进一步包括：使用经训练的细胞检测和分类引擎对包含至少一种染色剂的测试图像中的细胞进行检测和/或分类。

13.一种非暂时性计算机可读介质，所述非暂时性计算机可读介质存储用于识别针对一种或多种生物标志物的存在而被染色的生物学标本的样品图像内的细胞簇的指令，其包括：

a.使用经训练的对象检测引擎来检测所述样品图像中的细胞，其中所述经训练的对象检测引擎包含第一部分和第二部分，其中所述第一部分配置成识别所述样品图像内的细胞特征，并且其中所述第二部分配置成基于识别出的细胞特征来检测所述细胞；

b.从所述经训练的对象检测引擎的所述第一部分的一层或多层中提取所述识别出的细胞特征的至少一部分；以及

14.根据权利要求13所述的非暂时性计算机可读介质，其中所述第一部分包含卷积神经网络。

15.根据权利要求13所述的非暂时性计算机可读介质，其中所述第一部分包含深度残差网络。

16.根据权利要求13至15中任一项所述的非暂时性计算机可读介质，其中所述第二部分包含区域候选网络。

17.根据权利要求13至16中任一项所述的非暂时性计算机可读介质，其中使用包含多个训练图像的数据集来训练所述对象检测引擎，其中所述多个训练图像中的每个训练图像均源自经初染剂染色或针对一种或多种生物标志物的存在而被染色的生物学标本。

18.一种识别针对一种或多种生物标志物的存在而被染色的生物学标本的样品图像内的细胞簇的方法，所述方法包括：

a.使用经训练的对象检测引擎来检测所述样品图像中的细胞，其中所述经训练的对象检测引擎包含卷积神经网络和区域候选网络，其中所述卷积神经网络配置成识别细胞特征，并且其中所述区域候选网络配置成基于识别出的细胞特征来检测细胞；

b.从所述卷积神经网络的一层或多层中提取所述识别出的细胞特征；以及

19.根据权利要求18所述的方法，其中所述卷积神经网络包括深度残差网络。

20.根据权利要求18至19中任一项所述的方法，其中使用包含多个训练图像的数据集来训练所述对象检测引擎，其中所述多个训练图像中的每个训练图像均源自经初染剂染色或针对一种或多种生物标志物的存在而被染色的生物学标本。

21.根据权利要求20所述的方法，其中所述多个训练图像中的每个训练图像均不包含任何病理医生标注。

22.根据权利要求20所述的方法，其中所述多个训练图像中的每个训练图像均包含至少一个类别标签。

23.根据权利要求18至22中任一项所述的方法，其中所述卷积神经网络包含至少一个缩放层。

24.根据权利要求18至23中任一项所述的方法，其中所述检测到的细胞的聚类包括执行凝聚式层次聚类。

25.根据权利要求18至24中任一项所述的方法，其进一步包括：使用与所述样品图像中的所述细胞的一个或多个同质簇相关联的一个或多个类别标签训练细胞检测和分类引擎。

26.根据权利要求25所述的方法，其中所述细胞检测和分类引擎包含神经网络。

27.根据权利要求25所述的方法，其进一步包括：使用经训练的细胞检测和分类引擎对包含至少一种染色剂的测试图像中的细胞进行检测和/或分类。