CN114945941A

CN114945941A - 用于支持肿瘤检测和分析的非肿瘤分割

Info

Publication number: CN114945941A
Application number: CN202180008998.8A
Authority: CN
Inventors: A·洛萨库尔; K·阮; Z·赵
Original assignee: Ventana Medical Systems Inc
Current assignee: Ventana Medical Systems Inc
Priority date: 2020-01-19
Filing date: 2021-01-19
Publication date: 2022-08-26
Also published as: JP7422235B2; WO2021146705A1; EP4091135A1; US20220351379A1; JP2023510915A

Abstract

本公开涉及用于分割样本图像中的非肿瘤区域以支持肿瘤检测和分析的机器学习技术。特别地，本公开的各方面涉及访问包括非靶标区域(例如，非肿瘤区域)和靶标区域(例如，肿瘤区域)的一个或多个图像；基于从所述一个或多个图像编码的判别特征，由二维分割模型预测所述非靶标区域的分割图；基于所述分割图的所述一个或多个图像的分割掩膜；将所述分割掩膜应用于所述一个或多个图像以生成将所述非靶标区域从所述一个或多个图像排除的经非靶标区域掩蔽的图像；以及基于从所述非靶标区域掩膜图像提取的特征组，由图像分析模型对所述靶标区域内的生物材料或结构进行分类。

Description

用于支持肿瘤检测和分析的非肿瘤分割

相关专利申请的交叉引用

本申请要求于2020年1月19日提交的美国临时专利申请号62/963,145的权益和优先权，该美国临时专利申请出于所有目的通过引用将其整体被并入本文。

技术领域

本公开涉及数字病理学，并且特别地涉及用于分割样本图像中的非肿瘤区域以支持或改进肿瘤检测和分析的机器学习技术。

背景技术

数字病理学涉及将包含组织和/或细胞的病理学载玻片(例如组织病理学或细胞病理学玻璃载玻片)扫描成数字图像。出于包括疾病诊断、对治疗的反应的评估以及药物制剂的开发以对抗疾病的多种原因，数字图像内的组织和/或细胞可以随后通过数字病理学图像分析进行检查和/或由病理学家进行解释。为了检查数字图像(其几乎是透明的)内的组织和/或细胞，可以使用选择性结合到组织和/或细胞组分的彩色染色剂(例如免疫染色剂)来制备病理学载玻片。免疫组织化学(IHC)是免疫染色的一种常见应用，并且其通过利用抗体和其他化合物(或化学物质)与生物组织中的抗原特异性结合的原理，选择性地标识组织切片的细胞中的抗原(蛋白质)的过程。在一些测定中，样本中染色的靶抗原可称为生物标记物。此后，可以在染色组织和/或细胞的数字图像上进行数字病理学图像分析，以识别和量化生物组织中针对抗原(例如指示肿瘤细胞的生物标记物)的染色。

机器学习技术在数字病理学图像分析中(诸如在肿瘤区域识别、转移检测和患者预后中)已显示出巨大的前景。许多配备有机器学习技术的计算***，包括卷积神经网络(CNN)，已被提议用于图像分类和数字病理学图像分析(诸如肿瘤区域和转移检测)。例如，CNN可以具有一系列卷积层作为隐藏层，并且这种网络结构能够提取用于对象/图像分类和数字病理学图像分析的代表性特征。除了对象/图像分类之外，用于图像分割的机器学习技术也已实现。图像分割是将数字图像分割成多个片段(像素集，也称为图像对象)的过程。分割的目标是简化和/或将图像的表示更改为更有意义且更易于分析的内容。例如，图像分割通常用于定位图像中的对象，诸如肿瘤和边界(线、曲线等)。为了对大数据(例如整个载玻片病理学图像)执行图像分割，首先将图像分为许多小块。训练配备有机器学习技术的计算***以对这些块进行分类，并将同一类别中的所有块组合成一个分割区域。此后，基于与分割区域相关联的代表性特征，机器学习技术可以被进一步实现以对分割区域(例如阴性肿瘤细胞或没有染色表达的肿瘤细胞)进行预测或分类。

发明内容

在各种实施例中，提供了一种计算机实现方法，该方法包括：访问样本的多个图像，其中多个图像中的一个或多个图像包含非靶标区域和靶标区域；基于从一个或多个图像编码的判别特征，由二维分割模型预测非靶标区域的分割图，其中判别特征与第一生物材料或结构相关联；基于分割图生成一个或多个图像的分割掩膜；将分割掩膜应用于一个或多个图像以生成将非靶标区域从一个或多个图像排除的经非靶标区域掩蔽的图像；基于从经非靶标区域掩蔽的图像提取的特征组，由图像分析模型将靶标区域内的第二生物材料或结构分类为细胞或细胞核的类型；以及为靶标区域提供针对第二生物材料或结构分类的细胞或细胞核的类型

在一些实施例中，样本针对一种或多种生物标记物进行染色，第一生物材料或结构为淋巴聚集体或免疫细胞簇，并且第二生物材料或结构为肿瘤细胞或肿瘤细胞簇。

在一些实施例中，计算机实现方法进一步包括：将一个或多个图像划分为具有预定大小的图像块；由二维分割模型将图像块编码成判别特征；由二维分割模型将判别特征投影到像素空间上；以及由二维分割模型基于预定阈值确定每个像素空间的第一生物材料或结构的分类。

在一些实施例中，计算机实现方法进一步包括：由图像分析模型，从经非靶标区域掩蔽的图像提取特征组；以及基于该特征组计算第二生物材料或结构的一个或多个度量，其中提供针对第二生物材料或结构分类的细胞或细胞核的类型进一步包括提供第二生物材料或结构的一个或多个度量。

在一些实施例中，二维分割模型是修改的U-Net模型，其包括收缩路径和扩展路径，收缩路径和扩展路径中的每一者具有最多256个通道，并且收缩路径的一个或多个层实现空间随机失活。

在各种实施例中，提供了一种计算机实现方法，其包括：访问样本的多个图像，其中多个图像中的一个或多个图像包括非靶标区域和靶标区域；基于从一个或多个图像编码的判别特征，由二维分割模型预测非靶标区域的分割图，其中判别特征与第一生物材料或结构相关联；基于非靶标区域的分割图生成一个或多个图像的第一分割掩膜；基于从一个或多个图像提取的第二组特征，由图像分析模型将靶标区域内的第二生物材料或结构分类为细胞或细胞核的类型；基于靶标区域内的第二生物材料或结构的分类，生成一个或多个图像的第二分割掩膜；将第一分割掩膜和第二分割掩膜应用于一个或多个图像以生成将非靶标区域从一个或多个图像排除的经靶标区域和非靶标区域掩蔽的图像；以及提供经靶标区域和非靶标区域掩蔽的图像和针对第二生物材料或结构分类的细胞或细胞核的类型。

在一些实施例中，计算机实现方法进一步包括：由图像分析模型从一个或多个图像提取特征组；以及基于该特征组计算第二生物材料或结构的一个或多个度量，其中提供经靶标区域和非靶标区域掩蔽的图像以及针对第二生物材料或结构分类的细胞或细胞核的类型进一步包括提供第二生物材料或结构的一个或多个度量。

在各种实施例中，提供了一种计算机实现方法，该方法包括：访问样本的多个瓦片图像，其中多个瓦片图像中的一个或多个瓦片图像包括对分割非靶标区域和靶标区域的注释；在一个或多个瓦片图像上训练二维分割模型，其中该训练包括：执行迭代操作以找到二维分割模型的参数组，该参数使二维分割模型的损失函数最小化，其中每次迭代都涉及找到二维分割模型的参数组，使得使用该参数组的损失函数的值小于在先前迭代中使用另一参数组的损失函数的值，并且其中损失函数被构造以测量使用二维分割模型预测的输出与包含在一个或多个瓦片图像中的注释之间的差异；以及提供经训练的二维分割模型。

在一些实施例中，计算机实现方法进一步包括将一个或多个瓦片图像划分为大小为256像素×256像素的块，其中在小块上对二维分割模型进行训练。

在一些实施例中，训练进一步包括通过根据预定义的时间表降低修改的U-Net的学习率来调整学习率。

在一些实施例中，预定义的时间表为步进衰减时间表，该步进衰减时间表每隔预定数量的时期将学习率降低预定的因数，以用于优化损失函数，并且其中该损失函数为二元交叉熵损失函数。

在一些实施例中，提供了一种***，其包括：一个或多个数据处理器；以及包含指令的非暂态计算机可读存储介质，该指令在一个或多个数据处理器上被执行时使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部。

在一些实施例中，提供了一种计算机程序产品，其有形地体现在非暂态机器可读存储介质中，并且其包括指令，该指令被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部。

本公开的一些实施例包括一种***，该***包括一个或多个数据处理器。在一些实施例中，***包括非暂时性计算机可读存储介质，该非暂时性计算机可读存储介质包含指令，其指令当在一个或多个数据处理器上执行时，促使一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部以及/或者一种或多种过程的一部分或全部。本公开的一些实施例包括有形地体现在非暂时性机器可读存储介质中的计算机程序产品，其包括被配置为促使一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部以及/或者一种或多种过程的一部分或全部的指令。

已采用的术语和表达被用作描述性而非限制性的术语，并且在使用这些术语和表达时，无意排除所示出和描述的特征或其部分的任何等同物，但是应当认识到，在所要求保护的本发明的范围内，各种修改是可能的。因此，应当理解，尽管所要求保护的本发明已通过实施例和任选特征具体地公开了，但是本文所公开的概念的修改和变化可被本领域内的技术人员采用，并且这样的修改和变化被认为是在由所附权利要求限定的本发明的范围内

附图说明

结合附图描述本公开：

图1示出了根据各种实施例的同一图像内的非靶标区域(例如淋巴聚集区域或免疫细胞组)和靶标区域(例如阴性肿瘤细胞)；

图2示出了根据各种实施例的用于使用深度卷积神经网络进行非肿瘤分割和图像分析的计算环境的框图；

图3示出了根据各种实施例的代表用于非靶标区域分割的模型架构的示例性示意图300；

图4示出了根据各种实施例的真实值生成和预测模型训练；

图5A示出了根据各种实施例的关于各批次在修改的U-Net训练期间的损失；

图5B示出了根据各种实施例的在修改的U-Net训练期间实现最佳性能的准确性；

图6示出了根据各种实施例的示例性U-Net；

图7示出了根据各种实施例的用于训练预测模型的过程；

图8A示出了根据各种实施例的用于生成图像数据中的非靶标区域的分割掩膜的过程；

图8B示出了根据各种实施例的原始图像的示例；

图8C示出了根据各种实施例的预测的瓦片掩膜的示例；

图9A示出了根据各种实施例的用于应用分割掩膜以支持或改进图像分析的过程；

图9B示出了根据各种实施例的具有重叠分析结果的原始图像的示例；并且

图9C示出了根据各种实施例的利用本文所述分割框架实现的具有重叠分析结果的原始图像的示例。

在附图中，相似部位和/或特征可具有相同的参考标记。此外，可通过在参考标号后面加上破折号和区分相似部位的第二标号来区分相同类型的各种部位。如果说明书中仅使用第一参考标号，则该描述适用于任何一个具有相同的第一参考标号的相似部位，而与第二参考标号无关。

具体实施方式

I.概述

本公开描述了用于自动化非肿瘤分割的技术。更具体地，本公开的一些实施例提供用于分割样本图像中的非肿瘤区域以支持或改进肿瘤检测和分析的机器学习技术。

免疫组化(IHC)载片染色可以用来识别组织切片细胞中的蛋白质，因此被广泛用于研究不同类型的细胞，如生物组织中的癌细胞和免疫细胞。可以在高倍率显微镜下对组织切片的IHC染色细胞进行评估和/或使用数字病理学算法自动分析生物样本的数字图像。通常，在整个载玻片分析中，染色生物样本的评估需要对染色生物样本的区域进行分割，包括识别靶标区域(例如阳性和阴性肿瘤细胞)和排除非靶标区域(例如正常组织或空白载玻片区域)。在一些情况下，要排除的非靶标区域包括生物材料或结构，这些生物材料或结构很难与靶标区域的其他生物材料或结构区分开来，因此被从生物样本的评估排除。例如，淋巴聚集体为免疫细胞簇，并且它们的形态和染色特征可能与阴性肿瘤细胞非常相似。图1示出了染色的病理学载玻片的区域100，该区域100包括位于阴性染色肿瘤细胞簇110旁边的免疫细胞簇(例如淋巴聚集体)105。免疫细胞簇105具有与阴性染色肿瘤细胞簇110非常相似的形态和染色特征，因此很难将淋巴聚集体与阴性染色肿瘤细胞区分开来。因此，在这种情况下，病理学家通常会提供人工肿瘤注释，同时排除非靶标区域。然而，由于在高放大倍率下整个载玻片图像的尺寸大和要处理的数据量大，所以人工肿瘤注释容易出错、病理医师偏倚、且费力。

肿瘤和子结构从数字图像的自动化分割具有针对肿瘤进行精确和可再现的描绘的潜力，这可有助于肿瘤的更高效和更好的诊断、手术计划和治疗评估。大多数自动化肿瘤分割方法使用手工设计的特征，其聚焦于肿瘤细胞的特征。这些方法实现了经典的机器学习流水线，根据该流水线，首先提取图像的特征，然后将其提供给分类器，该分类器的训练程序不会影响这些特征的性质。用于设计任务自适应特征表示的另一种方法是直接从域内数据中学习越来越复杂的特征的层次结构。然而，在这两种情况下，出于多种原因，肿瘤或肿瘤细胞从整个载玻片图像的准确自动化分割是一项具有挑战性的任务。首先，肿瘤和正常组织(尤其是淋巴聚集区域)之间的边界通常是不明确的，这是由于特异性和非特异性染色、低分辨率图像中的异质性、稀疏信号(例如小于图像的约1％)以及在整个载玻片图像内需要区分的生物材料或结构的绝对数量。其次，肿瘤和肿瘤细胞在大小、形状和位置方面因患者而大为不同。这阻碍了在许多其他应用(诸如面部识别或导航)中使用通常用于稳健图像分析的形状和定位的强先验。因此，传统的图像分析算法通常将这些困难区域(例如淋巴聚集区域)作为阴性肿瘤细胞提供不期望的检测结果(例如过度检测或错误分类)。

为了解决这些限制和问题，本发明实施例的用于自动化肿瘤分割的技术包括使用机器学***衡的性质。本公开的一个说明性实施例涉及一种计算机实现方法，用于在整个载玻片图像上自动地检测和排除非靶标区域(例如淋巴聚集区域)或对这些非靶标区域进行掩膜。在一些情况下，该方法在执行图像分析算法以分割和分类图像内的靶标区域(例如肿瘤细胞)之前作为预处理的一部分执行。在其他情况下，该方法在执行图像分析算法以分割和分类图像内的靶标区域(例如肿瘤细胞)之后作为后处理的一部分执行。然而，如本领域内的普通技术人员应当理解的，本文讨论的概念不限于预处理或后处理程序，而是还可以根据各种实施例集成到整体图像分析处理中。

计算机实现方法可以包括卷积神经网络(CNN)架构或模型的使用，该架构或模型利用二维分割模型(修改后的U-Net)以自动地检测和排除生物结构或非肿瘤细胞(诸如免疫细胞簇或淋巴聚集区域)或在执行标准图像分析算法以学习和识别靶标区域之前，对整个载玻片图像上的这些非靶标区域进行掩膜。然而，本公开不限于仅分割出免疫细胞簇或淋巴聚集区域，本文所述技术还可应用于区分其他非靶或非肿瘤区域，例如扫描仪伪影、麻醉等。可以使用非靶标区域(例如淋巴聚集区域、坏死、伪影和其他细胞)和靶标区域(例如肿瘤细胞或染色表达靶)的预标记图像来训练神经网络架构或模型。因此，可以使用训练后的卷积神经网络架构或模型来分割非靶标区域，然后可以在将图像输入到图像分析算法之前、期间或之后，从整个载玻片分析对非目标区域进行掩膜。图像分析算法执行分类任务以及输出靶标区域的肿瘤读数。有利地，这种提议的架构和技术可以经由图像分析算法提高肿瘤细胞分类的准确性，以及减少过度检测或将这些困难的非靶标区域(例如淋巴聚集区域)错误分类为靶标区域(例如阴性肿瘤细胞)的可能性。

II.定义

如本文所用，当动作“基于”某物时，这意味着该动作至少部分地基于某物的至少一部分。

如本文所用，术语“基本上”、“大约”和“约”被定义为在很大程度上但不必完全是所规定的(并且包括完全是所规定的)，如本领域普通技术人员所理解的。在任何公开的实施例中，术语“基本上”、“大约”或“约”可以用对于所指定的“在[某个百分比]内”替代，其中百分比包括0.1％、1％、5％和10％。

如本文所用，术语“样品”、“生物样品”或“组织样品”是指从包括病毒在内的任何生物体获得的包括生物分子(诸如蛋白质、肽、核酸、脂质、碳水化合物或它们的组合)在内的任何样品。其他生物体的实例包括哺乳动物(诸如人类；兽类动物，如猫、狗、马、牛和猪；以及实验室动物，如小鼠、大鼠和灵长类动物)、昆虫、环节动物、蛛形纲动物、有袋类动物、爬行类动物、两栖类动物、细菌和真菌。生物样品包括组织样品(例如组织切片和组织的穿刺活检)、细胞样品(例如细胞学涂片，如子宫颈涂片或血液涂片或通过显微解剖获得的细胞样品)，或细胞级分、碎片或细胞器(例如通过裂解细胞并通过离心或其他方式分离其组分获得)。生物样品的其他实例包括血液、血清、尿液、***、粪便、脑脊液、间质液、粘液、眼泪、汗液、脓液、活检组织(例如，通过手术活检或穿刺活检获得)、***抽吸物、耵聍、乳汁、***分泌物、唾液、拭子(例如口腔拭子)、或任何含有从第一生物样品导出的生物分子的材料。在某些实施例中，本文使用的术语“生物样品”是指从受试者获得的肿瘤或其一部分制备的样品(例如经均质或液化处理的样品)。

如本文所用，术语“生物材料或结构”是指天然材料或结构，其包含整个或部分的活体结构(例如细胞核、细胞膜、细胞质、染色体、DNA、细胞、细胞簇等)。

如本文所用，术语“非靶标区域”是指具有图像数据的图像的区域，其图像数据不打算在图像分析处理中评估。非靶标区域可以包括对应于基底(如没有样品的玻璃)的图像的非组织区域，例如其中只存在来自成像源的白光。非靶标区域可以附加地或替代地包括图像的组织区域，该图像的组织区域对应于不打算在图像分析过程中分析或难以与靶标区域内的生物材料或结构(例如淋巴聚集体、免疫细胞簇、坏死、基质细胞、正常细胞、扫描伪影)区分开来的生物材料或结构。

如本文所用，术语“靶标区域”是指包括图像数据的图像的区域，其图像数据打算在图像分析处理中评估。靶标区域包括如图像的组织区域的打算在图像分析过程中分析的任何区域(例如肿瘤细胞或染色表达)。

如本文所用，术语“瓦片”或“瓦片图像”是指对应于整个图像或整个载玻片的一部分的单个图像。在一些实施例中，“瓦片”或“瓦片图像”是指整个载玻片扫描的区域或具有(x、y)像素维度(例如1000像素x 1000像素)的目标区域。例如，考虑将整个图像分成M列的瓦片和N行的瓦片，其中M x N拼接中的每个瓦片包含整个图像的一部分，即在位置MI，NI处的瓦片包含图像的第一部分，而在位置M3，N4处的瓦片包含图像的第二部分，第一部分和第二部分是不同的。在一些实施例中，瓦片可以各自具有相同的维度(像素尺寸x像素尺寸)。

如本文所用，术语“块”或“图像块”是指对应于瓦片图像、整个图像或整个载玻片的一部分的像素容器。在一些实施例中，“块”或“图像块”是指瓦片图像的区域或具有(x、y)像素维度(例如256像素x 256像素)的目标区域。例如，一个1000像素x 1000像素的瓦片图像被分成100像素x 100像素的块，该瓦片图像将包含100个块(每个块包含1000个像素)。在其他实施例中，块与每个具有(x、y)像素维度的“块”或“图像块”重叠并与另一个“块”或“图像块”共享一个或多个像素。

III.用于自动化非肿瘤分割的技术

图像分割是一种分离图像之相似部分的程序，这些部分在形状、大小、颜色等不同特征上表现出相似性。肿瘤和肿瘤细胞的分割使机体的某个区域(例如大脑或肺)内的肿瘤或肿瘤细胞的大小、质量和位置可视化，也可以为分析数字图像中的染色吸收提供基础。长期以来，肿瘤和肿瘤细胞分割的黄金标准是人工分割，人工分割费时费力，因此不适用于临床应用及大规模研究和发展工作。已有大量研究致力于尝试使肿瘤分割的过程完全或部分自动化。例如，诸如阈值化、区域生长、模糊聚类、使用分水岭算法等图像分割技术已被用于将异常组织(例如，肿瘤块)与正常组织(诸如脑的白质(WM)、灰质(GM)和脑脊液(CSF))分离。尽管如此，分割的过程仍然具有挑战性，这不仅是因为包含肿瘤或肿瘤细胞的靶标区域的多样性，而且还因为区分靶标区域和非靶标区域(例如正常组织或空白载玻片区域)的困难。

本文所述的是一种端到端方法，该方法结合了一个模型，该模型使用二维CNN从标本载玻片的图像对非靶标区域(例如淋巴聚集体)进行分割和掩膜，并且图像分析算法从样本载玻片的图像分析靶标区域(例如肿瘤细胞)。所开发的模型计算量小，并且旨在适应整个载玻片图像的大小、肿瘤或肿瘤细胞与健康组织之间的极端不平衡以及输入图像的异质性质。与依赖人工干预的传统算法相比，该模型针对非肿瘤和肿瘤分割具有与其相当的性能。

III.A.示例计算环境

图2示出了根据各种实施例的用于使用深度卷积神经网络进行非肿瘤分割和图像分析的计算环境200的框图。计算环境200可以包括分析***205以训练和执行预测模型，例如二维CNN模型。更具体地，分析***205可以包括训练子***210a-n(‘a’和‘n’代表任何自然数)，这些训练子***构建和训练它们各自的预测模型215a-n(在本文中可以单独称为预测模型215或统称为预测模型215)以供计算环境200的其他组件使用。预测模型215可以是机器学习(“ML”)模型，如深度卷积神经网络(CNN)，例如起始神经网络、剩余神经网络(“Resnet”)或递归神经网络，例如长短期记忆(“LSTM”)模型或门控递归单元(“GRUs”)模型。预测模型215也可以是任何其他合适的ML模型，训练来分割非靶标区域(例如淋巴聚集区域)、分割靶标区域或提供靶标区域的图像分析，诸如二维CNN(“2DCNN”)、Mask R-CNN、特征金字塔网络(FPN)、动态时间规整(“DTW”)技术、隐马尔可夫模型(“HMM”)等，或此类技术中一种或多种技术的组合——例如CNN-HMM或MCNN(多尺度卷积神经网络)。计算环境200可以采用相同类型的预测模型或不同类型的预测模型，训练来分割非靶标区域、分割靶标区域或提供靶标区域的图像分析。例如，计算环境200可以包括用于分割非靶标区域(例如淋巴聚集区域)的第一预测模型(例如U-Net)。计算环境200还可以包括用于分割靶标区域(例如肿瘤细胞区域)的第二预测模型(例如2DCNN)。计算环境200还可以包括用于靶标区域的图像分析的第三模型(例如CNN)。计算环境200还可以包括第四模型(例如HMM)，用于对疾病诊断的治疗、或对受试者(如患者)的预后。在根据本公开的其他示例中，还有其他类型的预测模型可以实现。

在各种实施例中，基于一组或多组输入图像元素220a-n，分别训练对应于训练子***210a-n的每一个预测模型215a-n。在一些实施例中，输入图像元素220a-n中的每一者都包括来自一个或多个扫描的载玻片的图像数据。输入图像元素220a-n中的每一者可以对应于来自单个样本的图像数据和/或在对应于该图像的底层图像数据被收集的当天的图像数据。图像数据可以包括图像，以及与生成图像的成像平台相关的任何信息。例如，组织切片可能需要通过应用染色测定进行染色，该染色测定包含一种或多种与显色染色剂或荧光团相关的不同生物标记物，用于明场成像或荧光成像。染色测定可以使用显色染色剂用于明场成像，使用有机荧光团、量子点或有机荧光团与量子点一起用于荧光成像，或使用染色剂、生物标记物以及观察或成像装置的任何其他组合。此外，典型的组织切片是在自动化染色/平台中进行处理的，该平台将染色测定应用于组织切片，从而产生染色样品。市场上有多种适合用作染色/测定平台的商业产品，一个例子是受让方Ventana Medical Systems,Inc.的产品VENTANA SYMPHONY。染色的组织切片可以提供给成像***，例如显微镜或具有显微镜和/或成像组件的全载玻片扫描仪上，一个例子是受让方Ventana MedicalSystems,Inc.的产品VENTANA iScan Coreo。多路复用组织载玻片可在等效的多路复用载玻片扫描仪***上进行扫描。由成像***提供的附加信息可以包括与染色平台相关的任何信息，包括用于染色的化学物质的浓度、在染色中应用到组织的化学物质的反应时间和/或组织的预分析条件，诸如组织年龄、固定方法、持续时间、切片如何嵌入、切割等。

输入图像元素220a-n可包括一个或多个训练输入图像元素220a-d、验证输入图像元素220e-g和未标记的输入图像元素220h-n。应当理解，不需要同时访问对应于训练、验证和未标记组的输入图像元素220a-n。例如，可以首先访问训练和验证输入图像元素的初始集220a-n并将其用于训练预测模型215，以及后续可以访问或接收未标记的输入图像元素(例如在单个或多个后续的时间)并被训练的预测模型215用来提供期望的输出(例如，非靶标区域的分割)。在一些情况下，预测模型215a-n使用监督训练进行训练，并且训练输入图像元素220a-d和任选的验证输入图像元素220e-g中的每一者都与一个或多个标签225相关联，这些标签225识别训练输入图像元素220a-d和验证输入图像元素220e-g中非靶标区域、靶标区域以及各种生物材料和结构的识别的“正确”解释。关于与正常或异常的生物结构(例如肿瘤细胞)相关的染色的存在和/或解释，标签可替代地或附加地用于分类相对应的训练输入图像元素220a-d和验证输入图像元素220e-g或其中的像素。在某些情况下，标签可替代地或附加地用于分类相对应的训练输入图像元素220a-d和验证输入图像元素220e-g，其时间点与拍摄底层图像的时间点或后续的时间点(例如，这是在拍摄图像的时间之后的预定义的持续时间)相对应。

在一些实施例中，分类器子***210a-n包括特征提取器230、参数数据存储器235、分类器240和训练器245，它们共同用于基于训练数据(例如训练输入图像元素220a-d)来训练预测模型215并在监督或无监督训练期间优化预测模型215的参数。在一些情况下，训练过程包括迭代操作，以找到预测模型215的参数组，该参数组使预测模型215的损失函数最小化。每次迭代都可以涉及找到预测模型215的参数组，使得使用该参数组的损失函数的值小于在先前迭代中使用另一参数组的损失函数的值。可以构造损失函数以测量使用预测模型215预测的输出与使用包含在训练数据中的标签225预测的输出之间的差异。一旦识别出该参数组，预测模型215就已经被训练且可以按照设计用于分割和/或预测。

在一些实施例中，分类器子***210a-n在输入层访问来自训练输入图像元素220a-d的训练数据。特征提取器230可以预处理训练数据以提取在训练输入图像元素220a-d的特定部分检测到的相关特征(例如边缘)。分类器240可以接收提取的特征并且根据与一个或多个预测模型215中的一组隐藏层相关联的权重将特征转换成一个或多个输出度量，该输出度量分割非靶或靶标区域、提供图像分析、提供针对受试者(如患者)的用于治疗的疾病诊断和预后、或它们的组合。训练器245可以使用对应于训练输入图像元素220a-d的训练数据，通过促进一个或多个参数的学习来训练特征提取器230和/或分类器240。例如，训练器245可以使用反向传播技术来促进与分类器240所使用的预测模型215的一组隐藏层相关联的权重的学习。反向传播可使用例如随机梯度下降(SGD)算法来累积更新隐藏层的参数。学习到的参数可以包括例如权重、偏差和/或其他隐藏层相关参数，这些参数可以存储在参数数据存储区235中。

可以部署单独训练的预测模型或训练的预测模型的集合来处理未标记的输入图像元素220h-n以分割非靶或靶标区域、提供图像分析、提供针对受试者(如患者)的用于治疗的疾病诊断和预后、或它们的组合。更具体地，经训练版本的特征提取器230可以生成未标记的输入图像元素的特征表示，然后可以由经训练版本的分类器240来处理该特征表示。在一些实施例中，可以基于使分类器子***210a-n中的预测模型215的膨胀最优化的一个或多个卷积块、卷积层、残差块或锥体层，从未标记的输入图像元素220h-n提取图像特征。这些特征可以被组织在特征表示(如图像的特征向量)中。可以训练预测模型215以学习基于分类和隐藏层(包括预测模型215的全连接层)中参数的后续调整来学习特征类型。

在一些实施例中，通过卷积块、卷积层、残差块或锥体层提取的图像特征包括特征图，这些特征图是表示样本载玻片的一个或多个部分的值的矩阵，在这些部分上已经执行了一个或多个图像处理操作(例如边缘检测、锐化图像分辨率)。这些特征图可被展平以供预测模型215的全连接层处理，该全连接层输出非靶标区域掩膜、靶标区域掩膜或对应于与样本载玻片有关的当前或未来的预测的一个或多个度量。例如，可以将输入图像元素馈送到预测模型215的输入层。输入层可以包括与特定像素对应的节点。第一隐藏层可以包括隐藏节点的集，该隐藏节点的集中的每个隐藏节点都连接到多个输入层节点。后续隐藏层中的节点可以类似地被配置为接收对应于多个像素的信息。因此，隐藏层可以被配置为进行学习以检测跨越多个像素的特征。一个或多个隐藏层中的每个隐藏层可以包括卷积块、卷积层、残差块或锥体层。预测模型215可以进一步包括一个或多个全连接层(例如softmax层)。

训练输入图像元素220a-d、验证输入图像元素220e-g和/或未标记的输入图像元素220h-n中的至少一部分元素可以包括从来源直接或间接获得的数据或可能已经从该数据得出，该来源可能但不一定是分析***205的元素。在一些实施例中，计算环境200包括成像装置250，该成像装置250对样品进行成像以获得图像数据，例如具有多个(举例而言，如十到十个之间)通道的多通道图像(例如多通道荧光或明场图像)。成像装置250可以包括但不限于照相机(例如模拟相机、数字相机等)、光学器件(例如一个或多个透镜、传感器聚焦透镜组、显微镜物镜等)、成像传感器(例如电荷耦合器件(CCD)、互补金属氧化物半导体(CMOS)图像传感器等)、感光胶片等。在数字实施例中，图像捕捉装置可以包括多个镜头，这些镜头可协作证明具备即时对焦功能。图像传感器，例如，CCD传感器可以捕获样本的数字图像。在一些实施例中，成像装置250是明场成像***、多光谱成像(MSI)***或荧光显微镜***。成像装置250可以利用不可见的电磁辐射(例如UV光)或其他成像技术来捕捉图像。例如，成像装置250可以包括显微镜和被布置成捕捉由显微镜放大的图像的相机。由图像分析***205接收的图像数据可以与由成像装置250捕获的原始图像数据相同以及/或可以从该原始图像数据得出。

在一些情况下，与训练输入图像元素220a-d和/或验证输入图像元素220e-g相关联的标签225可能已经被接收或可从接受自一个或多个提供者***255的数据得出，其中每一个供应商***都可关联于(例如)与特定受试者相关联的医生、护士、医院、药剂师等。接收到的数据可以包括(例如)与特定受试者对应的一个或多个医疗记录。医疗记录可指示(例如)专业人士的诊断或表征，关于收集与受试者相关联的一个或多个输入图像元素的时间所对应的时间段或后续定义的时间段，该诊断或表征指示受试者是否患有肿瘤和/或受试者的肿瘤的进展阶段(例如，沿着标准尺度和/或通过识别度量，如总代谢性肿瘤体积(TMTV))。接收到的数据可以进一步包括位于与受试者相关联的一个或多个输入图像元素内的肿瘤或肿瘤细胞的像素。因此，医疗记录可包括或可用于识别关于每一个训练/验证输入图像元素220a-g的一个或多个标签。医疗记录可以进一步指示受试者已经接受的一种或多种治疗(例如，药物治疗)中的每种治疗以及受试者接受治疗的时间段。在一些情况下，从提供者***255接收被输入到一个或多个分类器子***的图像或扫描。例如，供应商***255可以从成像装置250接收图像，并且然后可以将图像或扫描(例如，连同受试者标识符以及一个或多个标签一起)传输到分析***205。

在一些实施例中，在成像装置250中的一个或多个成像装置处接收或收集的数据可以与在供应商***255中的一个或多个供应商***处接收或收集的数据聚合。例如，分析***205可识别受试者和/或时间段的对应或相同的标识符，以便将从成像装置250接收的图像数据与从供应商***255接收的标签数据相关联。分析***205可以进一步使用元数据或自动化图像分析来处理数据，以确定将特定数据分量馈送到哪个分类器子***。例如，从成像装置250接收的图像数据可对应于整个载玻片或载玻片或组织的多个区域。元数据、自动化比对和/或图像处理可针对每个图像指示该图像对应于载玻片或组织的哪个区域。例如，自动化比对和/或图像处理可包括检测图像是否具有对应于载玻片基底或与特定细胞(如白细胞)相关联的生物结构和/或形状的图像属性。从供应商***255接收的标签相关数据可以是特定于载玻片的、特定于区域的或特定于受试者的。当标签相关数据特定于载玻片或特定于区域时，元数据或自动化分析(例如，使用自然语言处理或文本分析)可用于识别特定的标签相关数据对应于哪个区域。当标签相关数据特定于受试者时，相同的标签数据(针对给定的受试者)可在训练期间被馈送到每个分类器子***210a-n。

在一些实施例中，计算环境200可以进一步包括使用者装置260，该使用者装置可与请求和/或协调分析***205的一次或多次迭代的执行(例如，其中每次迭代对应于模型的一次运行和/或模型的输出的一次产生)的使用者相关联。用户可以对应于医师、调查者(例如，与临床试验相关联)、受试者、医疗专业人员等。因此，应当理解，在一些情况下，供应商***255可以包括和/或充当用户设备260。每次迭代可与特定的受试者(例如，人)相关联，该特定的受试者可以(但是不必)不是使用者。对迭代的请求可以包括和/或伴随有关于特定受试者的信息(例如，受试者的姓名或其他标识符，诸如去识别的患者标识符)。对迭代的请求可以包括一个或多个其他***的标识符，从这些***收集数据，例如与受试者对应的输入图像数据。在一些情况下，来自使用者设备260的通信包括特定受试者的集中的每个受试者的标识符，该标识符与对该集中所表示的每个受试者执行迭代的请求相对应。

在接收到请求后，分析***205可以向一个或多个对应的成像***250和/或供应商***255发送针对未标记的输入图像元素的请求(例如包括受试者的标识符的请求)。然后训练的预测模型215可以处理未标记的输入图像元素以分割非靶或靶标区域、提供图像分析、提供针对受试者(如患者)的用于治疗的疾病诊断和预后、或它们的组合。每个识别的受试者的结果可包括或可基于分割和/或来自由分类器子***110a-n部署的训练的预测模型215的一个或多个输出度量。例如，分割和/或一个或多个输出度量可包括或可基于由一个或多个CNN的全连接层生成的输出。在一些情况下，可使用(例如)softmax函数进一步处理此类输出。此外，然后可以使用聚合技术(例如，随机森林聚合)来聚合输出和/或进一步处理的输出，以生成一个或多个受试者特定的度量。一个或多个结果(例如，其包括特定于平面的输出和/或一个或多个特定于受试者的输出和/或其处理后的版本)可被传输到使用者设备260和/或可被该使用者设备利用。在一些情况下，分析***205和使用者装置260之间的一些或全部通信经由网站发生。应当理解，CNN***205可基于授权分析来选通对结果、数据和/或处理资源的访问。

虽然未明确示出，但是应当理解，计算环境200可以还包括与开发者相关联的开发者装置。来自开发者装置的通信可以指示分析***205中的每个预测模型215要使用什么类型的输入图像元素、要使用的神经网络的数量、每个神经网络的配置(包括隐藏层的数量和超参数的数量)、以及如何格式化数据请求和/或使用哪些训练数据(例如，以及如何访问训练数据)。

III.B模型架构概述

图3示出了根据各种实施例的代表用于非靶标区域分割的模型架构(例如，关于图2所述分析***205的一部分)的示例性示意图300。模型架构可以包括预处理阶段305，该预处理阶段305包含图像采集模块310以生成或获得输入图像，该输入图像包括单路图像数据(例如，其中每个单路图像数据具有单一染色的图像)和/或多路复用图像数据(例如具有多种染色的图像)、任选的图像注释模块315以对输入图像的一部分(如用于进一步分析的部分)进行电子注释，例如，表示肿瘤区域或免疫细胞区域的部分，以及任选的解混模块320以生成对应于一个或多个染色通道的图像通道图像。模型架构可以进一步包括处理阶段325，该处理阶段325包含图像分析模块330，以基于输入图像内(例如，在苏木精和伊红染色图像、生物标剂物图像或解混图像通道图像内)的特征来检测和/或分类包括细胞或细胞核(诸如肿瘤细胞、基质细胞、淋巴细胞等)的生物材料或结构。

模型架构可以进一步包括后处理阶段335，该后处理阶段335包含任选的评分模块340以得出针对识别的区域或生物结构中每一个识别的区域或生物结构中的每一个生物标记物的表达预测和/或评分，以及包含任选的度量生成模块345以得出描述的度量，并任选地提供针对受试者(如患者)的用于治疗的疾病诊断和预后。该度量描述不同区域或生物结构中得出的表达预测和/或评分之间的可变性。模型架构可以进一步包含分割和掩膜模块350，以将输入图像中的区域或生物结构(诸如淋巴细胞聚集体或肿瘤细胞簇)分割，并生成基于分割的区域或生物结构的掩膜，以及包含任选的配准模块355，以将识别的区域或生物结构(例如肿瘤细胞或免疫细胞)从输入图像内的第一图像或第一组图像映射到至少一个附加图像或多个附加图像。分割和掩膜模块350和任选的配准模块355可以在预处理阶段305、处理阶段325、后处理阶段335或它们的任何组合中实现。

图像采集模块310生成或获得具有一种或多种染色的生物样品的图像或图像数据(例如，图像可以是单路图像或多路复用图像)。在某些实施例中，所生成或获得的图像为RGB图像或多光谱图像。在一些实施例中，，所生成或获得的图像存储在存储器装置中。图像或图像数据(在本文中可互换使用)可以使用成像装置(例如关于图2所述的成像装置250)(例如实时)生成或获得。在一些实施例中，如本文所述，图像是从能够捕获承载样本的显微镜载玻片的图像数据的显微镜或其他仪器中生成或获得。在一些实施例中，图像是使用2D扫描仪(如能够扫描图像瓦片的扫描仪)生成或获得的。替代地，图像可以是先前已经生成(例如扫描)并存储在存储器装置中(或者就此而言，经由通信网络从服务器检索)的图像。

图像采集模块310用于选择生物样品的一部分，其中一个或多个图像或图像数据应被采集。例如，图像采集模块310可以接收识别的目标区域或视野(FOV)。在一些实施例中，目标区域由本公开的***的使用者或通信地联接到本公开的***的另一***的使用者识别。替代地，并且在其他实施例中，图像采集模块305从存储/存储器装置检索目标区域的位置或识别。在一些实施例中，例如图像采集模块310经由PCT/EP2015/062015(其内容出于所有目的通过引用整体并入本文)中所述的方法自动生成视野或目标区域(ROI)。在一些实施例中，ROI由图像采集模块305基于图像中或图像的一些预定标准或特征自动确定(例如，对于用多于两种染色剂染色的生物样品，识别图像的仅包含两个污渍的区域)。在一些情况下，图像采集模块310输出ROI。

在一些实施例中，图像采集模块310生成或获得至少两个图像作为输入。在一些实施例中，作为输入而生成或获得的图像从连续组织切片得出，例如从相同组织样品的连续切片得出。通常，作为输入而接收的至少两个图像各自包含对应于染色剂(包括色原体、荧光团、量子点等)的信号。在一些实施例中，图像中的一个图像已经用至少一种初染剂(苏木精或伊红(H&E))染色，而图像中的另一个图像已经在用于识别特定的生物标记物的IHC测定或原位杂交(ISH)测定中的至少一种测定中染色。在一些实施例中，图像中的一个图像已经用苏木精和伊红两者染色，而图像中的另一个图像已经在用来识别特定的生物标记物的IHC测定或ISH测定中的至少一种测定中染色。在一些实施例中，输入图像为多路复用图像，例如根据本领域内的普通技术人员已知的方法在多路复用测定中针对多个不同的标记物进行染色。

生成或获得的图像可以由使用者(例如，如病理学家的医疗专业人员)使用图像注释模块315任选地注释到图像分析。在一些实施例中，使用者识别图像的适合用于进一步分析的部分(例如子区域)。被注释以生成载玻片评分的靶标区域或非靶标区域(例如肿瘤区域或免疫区域)可以是整个组织区域也可以是数字载玻片上的一组特定区域。例如，在一些实施例中，识别的部分代表特定的生物标记物(例如特定IHC标记物)的过度表达肿瘤区域。在其他实施例中，使用者、医疗专业人员或病理学家可以注释数字载玻片内的淋巴聚集区域。在一些实施例中，注释的代表性字段可以由病理学家选择以反映生物标记物表达，病理学家将该生物标记物表达用于整体载玻片解释。可以使用查看器应用程序中提供的注释工具(例如，VENTANA VIRTUOSO软件)绘制注释，并且可以以任何放大倍率或分辨率绘制注释。替代地，或此外，自动化图像分析操作可用来自动检测靶标区域和非靶标区域或使用自动化图像分析操作(诸如分割、阈值化、边缘检测等)的其他区域，以及基于检测区域自动生成的视野(FOV-具有预定的尺寸和/或形状的图像部分)。

在一些实施例中，生成或获得的图像可为多路复用图像，即接收的图像属于用一种以上的染色剂染色的生物样品。在这些实施例中，在进一步处理之前，首先将多路复用图像解混到其组成通道中(例如用解混模块320)，其中每个解混通道对应于特定的染色剂或信号。在某些实施例中，解混图像(通常称为“通道图像”或“图像通道图像”)并且可用作本文所述的每个模块的输入。例如，模型架构可以被实现以用于评估标记物之间的异质性(样品中生物标记物蛋白质表达异质性的量的指示)，该异质性由用针对多个分化标记物(CD3、CD8等)的簇而被染色的第一H&E图像、第二多路复用图像以及针对特定生物标记物(例如ER、PR、Ki67等)而各自被染色的多个单路图像确定。在此实例中，首先将多路复用图像解混到其组成的通道图像中，并且可以将那些通道图像与H&E图像及多个单路图像一起使用，以确定标记物之间的异质性。

在图像采集和/或解混之后，用由图像分析模块330提供的图像分析算法处理输入图像或解混图像通道图像，以识别和分类细胞和/或细胞核。本文所述的程序和算法可适应于基于输入图像内的特征识别和分类各种类型的细胞或细胞核，包括识别和分类肿瘤细胞、非肿瘤细胞、基质细胞、淋巴细胞、非靶染色剂等。本领域内的普通技术人员应该理解，细胞核、细胞质和细胞膜具有不同的特征，并且染色不同的组织样品可显示不同的生物学特征。事实上，本领域内的普通技术人员应当认识到，某些细胞表面受体可具有定位到细胞膜或定位到细胞质的染色模式。因此，“细胞膜”染色模式与“细胞质”染色模式在分析上是不同的。同样，“细胞质”染色模式与“细胞核”染色模式在分析上是不同的。这些不同的染色模式中的每一者都可以用作识别细胞和/或细胞核的特征。例如，基质细胞可由FAP强染色，但肿瘤上皮细胞可由EpCAM强染色，而细胞角蛋白可由panCK染色。因此，在图像分析期间，可以通过利用不同的染色剂区分不同的细胞类型以提供分类解决方案。

美国专利第7,760,927号(“‘927专利”)中描述了在具有一种或多种染色剂的生物样品的图像中对细胞核、细胞膜和细胞质进行识别、分类和/或评分的方法，该专利的内容出于所有目的整体并入本文。例如，‘927专利描述了一种用于在用生物标记物染色的生物组织的输入图像中同时识别多个像素的自动化方法，该方法包括考虑输入图像的前景中的多个像素的第一彩色平面，用于同时识别细胞质和细胞膜像素，其中输入图像经过处理以去除该输入图像的背景部分和复染成分；确定数字图像前景中的细胞质和细胞膜像素之间的阈值水平；以及使用确定的阈值水平用从该前景选定的像素及其八个相邻像素，来同时确定所选像素是数字图像中的细胞质像素、细胞膜像素还是过渡像素。在一些实施例中，首先通过识别候选细胞核，然后自动区分肿瘤细胞核与非肿瘤细胞核来自动识别肿瘤细胞核。现有技术中已知有多种识别组织图像中候选细胞核的方法。例如，通过应用基于径向对称的方法来执行自动的候选核检测，Parvin的基于径向对称的方法例如在解混后的苏木精图像通道或生物标记物图像通道上进行检测(参见Parvin,Bahram,et al.，“Iterativevoting for inference of structural saliency and characterization ofsubcellular events.”Image Processing,IEEE Transactions on 16.3(2007):615-623，其出于所有目的整体并入本文)。

更具体地，在一些实施例中，对获得的作为输入的图像进行处理，例如检测细胞核中心(种子)和/或分割细胞核。例如，可提供以及执行指令以使用Parvin(如上所述)的技术基于径向对称表决来检测细胞核中心。在一些实施例中，使用径向对称性检测细胞核以检测细胞核的中心，然后基于细胞中心周围的染色强度对细胞核进行分类。在一些实施例中，如共同受让和共同在审的专利申请WO2014140085A1中所述，使用基于径向对称的核检测操作，该专利申请通过引用整体并入本文。例如，可以在图像内计算图像大小，并通过将选定区域内的大小之和相加累积每个像素处的一个或多个表决。均值漂移聚类可用于寻找该区域的局部中心，该局部中心代表实际的细胞核位置。基于径向对称表决的核检测在彩色图像强度数据上执行，以及明确使用了细胞核是具有不同大小和偏心性的椭圆状斑点的先验域知识。为了完成上述操作，除了输入图像中的颜色强度，图像梯度信息还被用于径向对称性表决，并与适应性分割过程相结合，以精确检测和定位细胞核。例如，本文使用的“梯度”是指在考虑该特定像素周围一组像素的强度值梯度情况下计算出的特定像素的强度梯度。每个梯度相对于坐标系可以有一个特定的“方向”，该坐标系的x轴和y轴由数字图像的两个正交边缘定义。例如，核种子的检测包括将种子定义为被假定为位于细胞核内的点，并且作为定位细胞核的起点。第一步是使用一种基于径向对称的非常稳定的方法检测与每个细胞核相关联的种子点，进而检测类似于细胞核的椭圆状斑点结构。径向对称方法使用基于内核的表决程序对所述梯度图像进行操作。处理每个通过表决内核来累积表决数的像素，由此创建一个表决响应矩阵。该内核基于在该特定像素处计算出的梯度方向、最小和最大细胞核大小的预期范围，以及表决内核角度(通常在[p/4,p/8]范围内)。在由此产生的表决空间中，将具有表决值高于预定阈值的局部极大值位置保存为种子点。在随后的分割或分类过程中，将无关联的种子丢弃。美国专利公开第2017/0140246号讨论了其他方法，其公开内容通过引用整体并入本文。

在识别候选细胞核之后，可以进一步分析该候选细胞核以将肿瘤细胞核从其他候选细胞核区分开来。其他候选细胞核可以进一步分类(例如，通过识别淋巴细胞核和基质核)。在一些实施例中，如本文进一步所述，应用学习的监督分类器来识别肿瘤细胞核。例如，学习的监督分类器在细胞核特征上进行训练以识别肿瘤细胞核，并且随后应用于将测试图像中的候选细胞核分类为肿瘤细胞核或非肿瘤细胞核。任选地，可以进一步训练学习的监督分类器以在非肿瘤细胞核的不同类别(诸如淋巴细胞核和基质核)之间进行区分。在一些实施例中，用于识别肿瘤细胞核的学习的监督分类器为随机森林分类器。例如，可以通过以下方式训练随机森林分类器：(i)创建肿瘤和非肿瘤细胞核的训练集，(ii)提取每个细胞核的特征，以及(iii)训练随机森林分类器以基于提取的特征在肿瘤细胞核和非肿瘤细胞核之间进行区分。然后可以将训练的随机森林分类器应用于将测试图像中的细胞核分类为肿瘤细胞核和非肿瘤细胞核。任选地，可以进一步训练随机森林分类器以在非肿瘤细胞核的不同类别(诸如淋巴细胞核和基质核)之间进行区分。

细胞核可以使用本领域普通技术人员已知的其他技术识别。例如，可以从FI&E或IHC图像中的一种图像的特定图像通道来计算出图像大小，并且可以为特定大小周围的每个像素分配多个基于像素周围区域内的大小之和的表决。替代地，还可以进行均值漂移聚类操作，以定位代表细胞核实际位置的表决图像内的局部中心。在其他实施例中，细胞核分割可用于基于目前已知的细胞核的中心，通过形态操作和局部阈值来分割整个细胞核。在其他实施例中，可利用基于模型的分割来检测细胞核(即，从训练数据组学习细胞核的形状模型，并将其用作先验知识以分割测试图像中的细胞核)。

在一些实施例中，随后使用为每个细胞核单独计算的阈值，对该细胞核进行分割。例如，由于据信细胞核区域中的像素强度可变化，因此Otsu的方法可用于在识别的细胞核周围的区域中进行分割。正如本领域普通技术人员将认识到的，Otsu的方法用于通过最小化类内方差来确定最佳阈值，并且该方法对本领域技术人员而言是已知的。更具体地，Otsu的方法用于自动执行基于聚类的图像阈值化，或者将灰度级图像还原为二值图像。该算法假设图像包含两类遵循双模态直方图的像素(前景像素和背景像素)。然后，计算出分隔两类像素的最佳阈值，这样可实现最小或相等的组合式扩散(类内方差)(因为成对平方距离之和是常数)，进而使它们的类间方差最大。

在一些实施例中，***和方法还包括自动分析图像中识别的细胞核的光谱和/或形状特征，从而识别非肿瘤细胞的细胞核。例如，可在第一步骤的第一数字图像中识别斑点。本文所用的“斑点”可以是例如数字图像的区域，其中一些属性(如强度或灰度值)保持恒定或在规定的数值范围内变化。在某种意义上，一个斑点中的所有像素可认为彼此相似。例如，可以使用基于数字图像上位置函数的导数的微分方法和基于局部极值的方法来识别斑点。核斑点是一个像素和/或轮廓形状表明其可能由一个以第一染色剂进行染色的细胞核产生的斑点。例如，可以评估一个斑点的径向对称性，以确定是否应该将斑点识别为核斑点或任何其他结构，如染色假象。例如，在斑点为长条形状并且不具有径向对称性的情况下，该斑点可能不会被识别为核斑点，而是会被识别为染色假象。根据实施例，识别为“核斑点”的斑点可以代表一组被识别为候选细胞核并且可以进一步分析以确定该核斑点是否代表细胞核的像素。在一些实施例中，任何种类的核斑点均被直接用作“识别的细胞核”。在一些实施例中，对已识别的细胞核或核斑点进行过滤操作，以识别不属于生物标记物阳性的肿瘤细胞的细胞核，并从已识别的细胞核的列表中去除该已识别的非肿瘤细胞核，或者从开始就不将该细胞核添加到已识别的细胞核列表中。例如，可以分析识别的核斑点的附加光谱和/或形状特征，以确定该细胞核或细胞核斑点是否为肿瘤细胞的细胞核。例如，淋巴细胞的细胞核比其他组织细胞(如肺细胞)的细胞核大。在肿瘤细胞是从肺组织导出的情况下，通过识别所有最小尺寸或直径显著大于正常肺细胞的细胞核平均尺寸或直径的核斑点来识别淋巴细胞的细胞核。与淋巴细胞核有关的已识别的核斑点可以从已识别的细胞核的集合中去除(即“过滤”)。通过过滤非肿瘤细胞的细胞核，可以提高该方法的准确性。取决于生物标记物，非肿瘤细胞也可以在一定程度上表达生物标记物，以及因此可以在第一数字图像中产生强度信号，该强度信号并非源于肿瘤细胞的。通过从已识别的核总数中识别和过滤不属于肿瘤细胞的细胞核，可以提高识别生物标记物阳性肿瘤细胞的准确性。这些方法和其他方法在美国专利公开2017/0103521中有述，该专利的内容出于所有目的整体并入本文。在一些实施例中，一旦检测到种子，可以使用局部适应性阈值化方法，并在检测的中心周围来创建斑点。在一些实施例中，还可以引入其他方法，例如也可以使用基于标记物的分水岭算法来识别检测的细胞核中心周围的细胞核斑点。这些方法和其他方法在PCT/EP2016/051906中有述，公开为WO2016/120442，其内容出于所有目的整体并入本文。

在一些实施例中，使用评分模块340来计算针对每个图像(单路图像或来自多路复用图像的解混图像通道图像)内的每个细胞簇内的每个染色或生物标记物的各种标记物表达评分。在一些实施例中，评分模块340利用由图像分析模块330在细胞的检测和分类期间采集的数据。例如，如本文所述，细胞分析模块330可包括一系列图像分析算法，以及可用于确定在识别的细胞簇内是否存在细胞核、细胞壁、肿瘤细胞或其他结构中的一者或多者。在一些实施例中，评分模块340可以使用针对每个视野得出的染色强度值和特定核的计数以确定各种标记物表达评分，诸如阳性百分比或H-Score评分。评分方法在2013年12月19日提交的共同转让和共同待决的申请WO/2014/102130A1“Image analysis for breast cancerprognosis”和2014年3月12日提交的WO/2014/140085A1“Tissue object-based machinelearning system for automated scoring of digital whole slides,”中有进一步详细描述，每一份的内容据此通过引用整体并入本文。例如，图像分析模块330中的自动化图像分析算法可用于解释系列中的IFIC载玻片中的每一者，以检测针对特定生物标记物(诸如Ki67、ER、PR、FIER2等)染色呈阳性和呈阴性的肿瘤细胞核。基于检测到的阳性和阴性肿瘤细胞核，可以使用评分模块340计算各种载玻片级别评分，如标记物阳性百分比、H-Score评分等。

在一些实施例中，表达评分为H-score评分，其用于评定细胞膜染色等级为“弱”、“中等”或“强”的肿瘤细胞的百分比。将各等级相加，得出的总评分最高为300分，并且区分“阳性”和“阴性”的分界点为100分。例如，确定固定视野中的每个细胞(或此处为肿瘤或细胞簇中的每个细胞)的膜染色强度(0、1+、2+或3+)。H-score评分可以简单地以一个主要的染色强度为准，或者更复杂地，可以包括每个看到的强度水平的单独H-score评分的总和。在一些实施例中，表达评分为Allred评分。Allred分是一个评分***，用于显示激素受体测试呈阳性的细胞的百分比，以及受体在染色后的呈现程度(称之为“强度”)。在其他实施例中，表达评分是阳性百分比。在为针对PR和Ki-67生物标记物染色的乳腺癌样品评分的背景下，对于PR和Ki-67载玻片，在单一载玻片中计算阳性百分比(例如，将染色后在载玻片的数字图像内的每个视野中呈阳性的细胞(例如恶性细胞)的细胞核的总数相加并除以从数字图像的每个视野染色呈阳性和呈阴性的细胞核的总数)，如下所示：阳性百分比＝染色呈阳性的细胞的数量/(染色呈阳性的细胞的数量+染色呈阴性的细胞的数量)。在其他实施例中，表达评分为IHC组合评分，该组合评分是基于若干IHC标记物的预后评分，其中标记物的数量大于1。IHC4是基于乳腺癌样品中四种测量的IHC标记物(即ER、HER2、Ki-67和PR)的一种此类评分(例如参见Cuzick et al.，J.Clin.Oncol.29:4273-8,2011,and Barton etal.，Br.J.Cancer 1-6,Apr.24,2012，二者均以引用方式并入本文)。

在图像分析和任选地确定每个识别的簇或映射的簇中的每个标记物的表达评分之后，可以使用度量生成模块345从各种识别的簇和生物结构得出度量。再一些情况下，可以通过将各种图像分析算法应用于包含在核斑点或种子内或其周围的像素之上来计算形态度量。在一些实施例中，形态度量包括面积、短轴和长轴长度、周长、半径、体积等。在细胞水平上，这样的度量用于将细胞核分类为属于健康细胞或病变细胞。在组织水平上，在组织上充分利用这些统计的特征，从而将组织分类为病变组织或非病变组织。在一些情况下，可以通过比较包含在用于识别细胞核的核斑点或种子内或其周围的像素的像素强度值来计算特定细胞核的外观度量，其中比较的像素强度从不同的图像通道(例如背景通道、用于生物标记物的染色的通道等)得出。在一些实施例中，从外观特征得出的度量是从像素强度以及从不同图像通道计算的梯度幅值的百分位值(例如第10、第50和第95个百分位值)计算的。例如，首先在一个代表目标细胞核的核斑点内确定多个图像通道IC(例如三个通道：HTX、DAB、亮度)中的每一个IC的像素值的一个X-百分位值(X＝10、50、95)的数字P。计算外观特征度量可能是有利的，因为得出的度量可以描述细胞核区域的属性也可以描述细胞核周围的膜区域。

在一些情况下，可以计算背景度量，该背景度量指示细胞的细胞质和细胞膜特征中存在的外观和/或染色，该细胞包括从图像提取背景特征的细胞核。例如通过识别代表细胞核的核斑点或种子，可以计算出针对数字图像中描绘的细胞核和相应的细胞的背景特征和相应的度量；分析与识别的细胞组直接相邻的像素区域(例如核斑点边界周围20像素、约9微米厚度的带)，从而捕捉到存在于细胞的细胞质和细胞膜中的外观和染色以及与这个细胞核一起直接邻近于细胞的区域。在一些情况下，颜色度量可以从包括颜色比率、R/(R+G+B)或颜色主成分的颜色中得出。在其他实施例中，从颜色得出的颜色度量包括局部图像窗口中各颜色中的每个颜色的局部统计(平均值/中间值/方差/标准偏差)和/或颜色强度相关性。在一些情况下，强度度量可以从具有某些特定属性值的相邻细胞的组得出，该特定属性值设置在图像中表示的灰色细胞的黑色和白色阴影之间。由于颜色特征的相关性可以定义尺寸分级的示例，因此通过这种方式，这些彩色细胞的强度从其周围的暗细胞簇确定受影响的细胞。

在一些情况下，可以考虑以及使用其他特征作为用于计算度量的基础，诸如纹理特征或空间特征。再例如，表达评分可以被利用作为预测措施或指导治疗。例如，在乳腺癌和ER和PR生物标记物的背景下，检测呈阳性的样品可以指导治疗过程中提供激素疗法的决定。本领域技术人员还将理解，并非生物样品中的所有簇针对任何特定标记物都可以具有相同的评分。通过能够确定描述簇之间可变性的异质性评分或度量，可以提供额外的指导以做出明智的治疗决策。在一些实施例中，异质性被确定以测量不同簇如何相互比较。异质性可以通过可变性度量来测量，如WO2019110567A1中所述(其内容出于所有目的整体并入本文)，该可变性度量描述了例如，各种识别和映射的簇之间的蛋白质表达水平相较于彼此有何不同。在一些实施例中，测量所有识别的簇之间的异质性。在其他实施例中，异质性仅在识别的簇的子集(例如满足某些预定标准的簇)之间测量。

在一些实施例中，作为输入接收的图像可以由分割和掩膜模块350进行分割和掩膜。例如，训练的卷积神经网络架构或模型可用于分割非靶标区域和/或靶标区域，然后可以在将图像输入到图像分析算法之前、期间或之后对该非靶标区域和/或靶标区域进行掩膜以用于分析。在一些实施例中，对输入图像进行掩蔽，使得该图像中只存在组织区域。在一些实施例中，生成组织区域掩膜以从组织区域中掩蔽非组织区域。在一些实施例中，可以通过识别组织区域以及排除背景区域(例如对应于无样品的玻璃的整个载玻片图像的区域，如仅存在来自成像源的白光的区域)来创建组织区域掩膜。

在一些实施例中，使用分割技术通过从输入图像中的非组织区域对组织区域进行掩膜来生成组织区域掩膜图像。在一些实施例中，利用图像分割技术对所述图像中的数字化组织数据和载片进行区分，组织对应于前景并且载片对应于背景。在一些实施例中分割和掩膜模块350计算整个载玻片图像中的目标区域(AOI)，以检测AOI中的所有组织区域，同时限制所分析的背景非组织区域的量。多种不同的图像分割技术(例如，基于HSV颜色的图像分割、实验室图像分割、均值偏移彩色图像分割、区域生长、水平集方法、快速推进法等)可用于确定例如组织数据和非组织或背景数据的边界。基于至少部分分割技术，分割和掩膜模块350还可以生成可用于识别数字化载玻片数据的那些对应于组织数据的部分的组织前景掩膜。替代地，该组件可生成用于识别那些数字化载片数据中与组织数据不对应的部分的背景掩膜。

这种识别可以通过图像分析操作(例如边缘检测等)实现。组织区域掩膜可用于去除图像(例如非组织区域)中的非组织背景噪声。在一些实施例中，组织区域掩膜的生成包括以下操作中的一个或多个操作(但不限于以下操作)：计算低分辨率输入图像的亮度、生成亮度图像、将标准偏差滤波器应用到亮度图像、生成滤波后的亮度图像，并将阈值应用到滤波后的亮度图像，从而将亮度高于给定阈值的像素设置为1，并将低于阈值的像素设置为0、生成组织区域掩膜。与组织区域掩膜的生成相关的附加信息和实例在题为“An ImageProcessing Method and System for Analyzing a Multi-Channel Image Obtainedfrom a Biological Tissue Sample Being Stained by Multiple Stains”的PCT/EP/2015/062015中公开，其内容出于所有目的整体并入本文。

除了从组织区域掩膜非组织区域之外，分割和掩膜模块350还可以根据需要对其他目标区域进行掩膜，诸如被识别为属于非靶标区域或某些组织类型(例如，淋巴聚集区域的组织的一部分)的组织的一部分或者被识别为属于靶标区域或某些组织类型(例如疑似肿瘤区域)的组织的一部分。在各种实施例中，非靶标区域分割(如淋巴细胞聚集区域分割)由CNN模型(例如，与关于图2所示的分类器子***210a相关联的CNN模型)执行。在一些实施例中，CNN模型为二维分割模型。例如，CNN模型可为具有残差块、膨胀和深度卷积的U-Net。预处理或处理后的图像数据(例如二维区域或整个载玻片图像)可用作进入U-Net的输入。U-Net包括收缩路径以及扩展路径，其中用上采样运算子替换扩展路径中连续层的池化操作。因此，这些连续层增加了前一层输出的分辨率，并使U-Net的最终输出具有与输入图像相同的分辨率。基于至少部分分割技术，U-Net可以生成可用于识别数字化载玻片数据的那些对应于非靶标区域数据的部分的非靶标区域前景掩膜。替代地，该组件可生成用于识别数字化载玻片数据的那些与非靶标区域数据不对应的部分的背景掩膜。U-Net的输出可以是前景非靶标区域掩膜，表示底层图像中存在的非靶标区域的位置，或者是表示数字化载玻片数据的那些不对应于非靶标区域数据(例如靶标区域)的部分的背景非靶标区域掩膜。

在一些实施例中，使用配准模块355和配准过程将一个或多个图像中识别的诸如肿瘤细胞或细胞簇的生物材料或结构，映射到一个或多个附加图像。配准是将不同的数据集(这里指图像或图像内的细胞簇)转换为一个坐标系的过程。更具体地，配准是将两个或多个图像对齐的过程，一般来说，包括指定一个图像作为参考(也称为参考图像或固定图像)，并对其他图像进行几何变换，以使这些图像与参考对齐。几何变换将一个图像中的位置映射到另一个图像中的新位置。确定正确的几何变换参数的步骤是图像配准过程的关键所在。在一些实施例中，使用2014年9月30日提交的题为“Line-Based Image Registrationand Cross-Image Annotation Devices,Systems and Methods”的WO/2015/049233(其内容出于所有目的整体并入本文)中所述的方法执行图像配准。WO/2015/049233描述了一个配准过程，其包括单独使用或与精密配准过程结合的粗配准过程。在一些实施例中，所述粗配准过程可包含选择数字图像用于比对，从选定的数字图像的每一者中生成前景图像掩模，以及在因此生成的前景图像之间匹配组织结构。在进一步的实施例中，生成前景图像掩膜涉及从染色的组织切片的整个载玻片图像生成软加权前景图像，并将OTSU阈值化应用于该软加权前景图像以产生二值软加权图像掩膜。在其他进一步的实施例中，生成前景图像掩膜涉及从染色的组织切片的整个载玻片图像生成二值软加权图像掩膜，从同一整个载玻片图像单独生成梯度幅值图像掩膜，将OTSU阈值化应用于该梯度图像掩膜以产生二值梯度幅值图像掩膜，以及使用二进制OR操作将二值软加权图像和二值梯度幅值图像掩膜合并以生成前景图像掩膜。例如，本文使用的“梯度”是指在考虑该特定像素周围一组像素的强度值梯度情况下计算出的特定像素的强度梯度。每个梯度相对于坐标系可以有一个特定的“方向”，该坐标系的x轴和y轴由数字图像的两个正交边缘定义。“梯度方向特征”可以是指示该坐标系内梯度方向的数据值。

在一些实施例中，匹配组织结构包含从每个因此生成的前景图像掩模的边界计算基于线的特征，计算第一前景图像掩模上的第一组线特征和第二前景图像掩模上的第二组线特征之间的全局变换参数，以及基于该变换参数对所述第一图像和第二图像进行全局对齐。在又一个实施例中，粗配准过程包括基于全局变换参数将选定的数字图像映射到公共网格，该网格可以涵盖所述选定的数字图像。在一些实施例中，精密配准过程可以涉及识别对齐数字图像组中的第一数字图像的第一子区域；识别对齐数字图像组中的第二数字图像上的第二子区域，其中第二子区域大于第一子区域，并且第一子区域基本位于公共网格上的第二子区域内；以及计算第一子区域在第二子区域中的优化位置。

III.C.用于二维分割的示例性U-Net

二维分割单独使用基于瓦片的方法和修改的U-Net从输入图像(例如样本载玻片的一个或多个图像)提取特征，以生成具有高分辨率的二维非靶标区域图。如图4所示，瓦片图像400(例如IHC图像)可以用于训练具有人工注释405的修改的U-Net，以识别非靶标区域(例如淋巴聚集体)和靶标区域(例如肿瘤和其他细胞)。例如，修改的U-Net可以使用真实值分割掩膜410进行训练，并且输出为每个像素的前景/背景概率，其中损失函数被构造以测量使用U-Net和真实值分割掩膜410预测的每个像素的前景/背景概率之间的差异。真实值分割掩膜410可以从瓦片图像400生成，在瓦片图像400上具有人工注释405。瓦片图像400可以被分割成预定大小(例如针对原始黑白或彩色图像两者的256x 256的大小)的相对小的块415，以生成对应的真实值分割掩膜410。将黑白或彩色图像的一对小块415或对应的真实值分割掩膜410输入到修改的U-Net。在某些情况下，数据可能被分成80％的训练组和20％的测试组或验证组。在一些情况下，学习率时间表用于在训练期间通过根据预定义的时间表降低学习率来调整修改的U-Net的学习率。在某些情况下，学习率时间表为步进衰减时间表，该步进衰减时间表每隔几个时期将学习率降低预定的因数，以用于优化损失函数。例如，步进衰减时间表可以用于每15个时期将学习率降低四分之一。在某些情况下，二元交叉熵损失函数用于使用设置为：50个时期，块大小为2，以及学习率为1x10-5的超参数训练修改后的U-Net。可以使用两种不同的放大倍数(例如20倍和10倍)执行训练，以找到最佳的修改的U-Net。图5A示出了关于这些块在修改的U-Net训练期间的损失。图5B示出了修改的U-Net训练期间的准确性以实现最佳性能。

如图6所示，U-Net 600可以包括收缩路径605(编码器)和扩展路径610(解码器)，这使其具有u形架构。收缩路径605是包括卷积的重复应用(例如，3x3卷积(未填充的卷积))的CNN网络，每个卷积后跟修正线性单元(ReLU)和用于下采样的最大池化操作(例如步长为2的2x2最大池化)。在每个下采样步骤或池化操作中，特征通道的数量可以加倍。在收缩期间，图像数据的空间信息减少，而特征信息增加。扩展路径610是组合来自收缩路径605的特征和空间信息(来自收缩路径605的特征图的上采样)的CNN网络。特征图的上采样后跟一系列将通道的数量减半的上卷积(上采样运算子)、与来自收缩路径605的相应裁剪的特征图的串接、每个后跟修正线性单元(ReLU)的卷积(例如，两个3x3卷积)的重复应用、以及最终卷积(例如，一个1x1卷积)，以生成二维非靶标区域掩膜。为了定位，来自收缩路径605的高分辨率特征与来自扩展路径610的上采样的输出相组合。

在各种实施例中，U-Net 600实现了与传统U-Net架构相比总体上减少的通道的数量。具体地，中间激活输出层的通道的数量减少了预定的因数，例如两个或四个(参见例如收缩路径605和扩展路径610内的粗体数字)，例如在第二层中，通道的数量从64到16等，减少了4个因数，并且最大通道的数量也减少了4到256个因数，而非传统U-Net架构中使用的1024个。实现通道的这种减少是为了降低计算费用和模型复杂性。经验证据表明，与具有最大数量的1024个通道且通道数量没有减少的传统U-Net架构相比，这种压缩的U-Net架构提供了更好的结果。此外，U-Net600包括空间随机失活615以对抗过度拟合。空间随机失活615可以在收缩路径605的最后几层(即最后一层、二层、三层或四层)中实现。空间随机失活615使整个二维特征图失活，而不是如传统的失活所执行的那样使单独的元素失活。例如，如果特征图中的相邻像素是强相关的(如早期的卷积层中常见的情况)，那么传统的失活不会对激活进行正则化，否则会导致有效的学习率下降。相比之下，空间随机失活615将对激活进行正则化并帮助促进特征图之间的独立性，否则会导致有效的学习率提高。

III.D用于分割和分析的技术

图7示出了根据各种实施例的用于训练预测模型的过程700。

过程700开始于框705处，在框705处访问样本的多个瓦片图像。多个瓦片图像中的一个或多个瓦片图像包含注释以分割一个或多个瓦片图像的非靶标区域和靶标区域。在框710处，一个或多个瓦片图像被划分为预定大小的图像块。例如，瓦片图像通常具有随机大小，而二维分割模型(如U-Net)在归一化图像大小上学习得更好，并且因此可以将瓦片图像划分为具有特定大小的图像块以优化训练。在一些实施例中，一个或多个瓦片图像被划分成具有64像素×64像素、128像素×128像素、256像素×256像素或512像素×512像素的预定大小的图像块。在框715处，预测模型(如二维分割模型)在图像块上进行训练。在一些情况下，二维分割模型是修改的U-Net模型，其包括收缩路径和扩展路径，收缩路径和扩展路径中的每一者都具有最大预定数量的通道，并且收缩路径的一个或多个层实现空间随机失活。在一些实施例中，通道的最大预定数量为64、128、256或512。训练可以包括执行迭代操作以找到预测模型的参数组，该参数组使预测模型的损失函数最小化。每次迭代都可以涉及找到预测模型的参数组，使得使用该参数组的损失函数的值小于在先前迭代中使用另一参数组的损失函数的值。损失函数被构造以测量使用预测模型预测的输出与包含在一个或多个瓦片图像或图像块中的注释之间的差异。在一些情况下，训练进一步包括通过根据预定义的时间表降低修改的U-Net的学习率来调整学习率。预定义的时间表可以是步进衰减时间表，该步进衰减每隔预定数量的时期将学习率降低预定的因数以优化损失函数。在某些情况下，损失函数为二元交叉熵损失函数。在框720处，提供训练的预测模型。例如，如关于图2和图3所述，训练的预测模型可以被部署用于在图像分析环境中执行。

图8A示出了根据各种实施例的用于生成针对图像数据中的非靶标区域的分割掩膜的过程800。

过程800开始于框805处，在该处访问样本的多个图像。多个图像中的一个或多个图像包括非靶标区域和靶标区域。图8B示出了一个或多个图像的原始图像的示例。在一些情况下，样本会针对一种或多种生物标记物进行染色。在框810处，一个或多个图像(例如瓦片图像)被划分为预定大小的图像块。在一些实施例中，一个或多个瓦片图像被划分成具有64像素×64像素、128像素×128像素、256像素×256像素或512像素×512像素的预定大小的图像块。在框815处，图像块被编码成判别特征。判别特征(例如较低分辨率特征)可以与生物材料或结构(例如淋巴聚集体或免疫细胞组)相关联，该生物材料或结构为非靶标区域的至少一部分。可以通过预测模型(如二维分割模型)来执行编码。在一些情况下，二维分割模型是修改的U-Net模型，包括收缩路径和扩展路径，收缩路径和扩展路径中的每一者具有最多256个通道，并且收缩路径的一个或多个层实现空间随机失活。收缩路径可以执行图像块到多个不同级别的判别特征的编码。

在框820处，判别特征被投影到像素空间(例如更高的分辨率)，并且确定针对每个像素空间的生物材料或结构的分类。可以由预测模型(如二维分割模型)来执行投影以及确定分类。在一些情况下，二维分割模型为修改的U-Net模型。扩展路径可以在多个不同级别执行判别特征的投影和分类的确定。在某些情况下，多个不同的级别执行上采样(即将特征维度扩展到输入图像块的原始大小)和连接，后跟常规卷积操作以投影判别特征并确定分类。在一些情况下，判别特征被语义投影以将类别分配给图像块中的每个单个像素(密集预测)，并将生物材料或结构的分类确定为单个实例。图像块中每个像素的分类可以基于预定阈值来确定，并且在一些情况下，预定阈值是在预测模型的训练中被优化的超参数。

在框825处，基于生物材料或结构的分类来预测和输出非靶标区域的分割图。将分割图作为高分辨率图像块输出，其中所有像素都被分类(例如生物材料或结构的存在或缺失)。在一些实施例中，分割图以256像素×256像素的大小输出，其中每个像素具有0到1范围内的分类，其中0表示没有生物材料或结构，1表示存在生物材料或结构。该生成可由预测模型(如二维分割模型)来执行。在一些情况下，二维分割模型为修改的U-Net模型。

在框830处，非靶标区域的分割图被放大并组合以生成经非靶标区域掩蔽的图像，这些经非靶标区域掩蔽的图像为包含生物材料或结构的一个或多个图像的非靶标区域提供分割掩膜。例如，可以将包括非靶标区域的分割图的256×256块图像缝合在一起以创建为非靶标区域(参见图8C，其示出了相较于真实值瓦片掩膜图像的预测的瓦片掩膜图像)提供分割掩膜的瓦片掩膜图像。在一些情况下，经非靶标区域掩蔽的图像从一个或多个图像排除非靶标区域，使得非靶标区域可以从下游处理被排除(例如关于图9所讨论的图像分析)。在框835处，提供经非靶标区域掩蔽的图像。例如，可以将经非靶标区域掩蔽的图像提供给存储器存储装置、提供给计算装置的显示器、提供给一种或多种类型的介质中的使用者(如使用者界面等)。

图9A示出了根据各种实施例的用于将分割掩膜应用于支持或改进图像分析的过程900。

过程900开始于框905，在该处访问样本的多个图像。多个图像中的一个或多个图像包括非靶标区域和靶标区域，参见例如图8B。在一些情况下，样本会针对一种或多种生物标记物进行染色。在某些实施例中，访问的图像为RGB图像或多光谱图像。在一些实施例中，访问的图像存储在存储器装置中。可以使用成像装置(例如关于图2所示的成像装置250)，(如实时地)生成或获得图像。在一些实施例中，如本文所述，图像是从显微镜或其他能够捕获承载样本的显微镜载玻片的图像数据的仪器中采集。在一些实施例中，从例如能够扫描图像块的2D扫描仪访问图像。替代地，图像可以是先前已经生成(例如扫描)并存储在存储器装置中(或者就此而言，经由通信网络从服务器检索)的图像。在一些情况下，图像是为包含生物材料或结构的非靶标区域(诸如淋巴聚集体或免疫细胞组)提供分割掩膜的经非靶标区域掩蔽的图像。可以生成和/或获得用于访问的经非靶标区域掩蔽的图像，如关于图8A所示。

在一些实施例中，访问的输入图像为多路复用图像，即接收的图像是经一种以上的染色剂染色的生物样品的图像。在框910处的这些实施例中，以及在进一步处理前，将多路复用图像解混成其组成通道，其中每个解混通道对应于特定的染色剂或信号。在图像采集和/或解混后，用框915-945中的图像分析算法处理图像或解混图像通道图像以识别并分类细胞和/或细胞核。本文所述的过程和分析算法可适应于基于输入图像内的特征识别和分类各种类型的细胞或细胞核，包括识别和分类肿瘤细胞、非肿瘤细胞、基质细胞、淋巴细胞、非靶标染色等。

在框915处，识别候选细胞核。在一些实施例中，将图像输入到图像分析中以检测细胞核中心(种子)和/或分割细胞核。例如，可以识别用生物标记物染色的图像中的多个像素，包括考虑输入图像的前景中的多个像素的一个或多个彩色平面，用于同时识别细胞质和细胞膜像素。在一些情况下，对图像进行预处理以去除图像的不需要分析或不能确定为靶标区域的部分，例如载玻片背景、如关于图8所示的非靶标区域和/或图像的复染成分。此后，确定数字图像的前景中的细胞质和细胞膜像素之间的阈值水平，以及基于确定的阈值水平处理来自前景的选定的像素及其预定数量的相邻像素，以确定所选像素是数字图像中的细胞质像素、细胞膜像素还是过渡像素。在一些实施例中，肿瘤细胞核通过应用基于径向对称的方法(Parvin的基于径向对称的方法)，例如在解混合后的苏木精图像通道或生物标记物图像通道上自动识别。

在框920处，从候选细胞核中提取特征。至少一些特征可以与靶标区域内的另一种生物材料或结构相关，诸如肿瘤细胞或肿瘤细胞簇。提取可以通过图像分析预测模型来执行，例如能够进行语义或实例分割的Mask R-CNN。例如，在识别出候选细胞核后，可以通过图像分析预测模型进一步分析候选细胞核，以将肿瘤细胞核从其他候选细胞核(例如淋巴细胞核)区分开来。在某些情况下，其他候选细胞核可以是进一步的过程以识别特定类别的细胞核和/或细胞，例如识别淋巴细胞核和基质细胞核。在框925处，基于从候选细胞核提取的特征，靶标区域内的另一种生物材料或结构被分类为细胞或细胞核的类型。分类可由图像分析预测模型来执行。在一些实施例中，应用学习的监督分类器以从候选细胞核识别肿瘤细胞核。例如，学习的监督分类器可以在细胞核特征上进行训练以识别肿瘤细胞核，并且随后应用于将测试图像中的候选细胞核分类为肿瘤细胞核或非肿瘤细胞核。任选地，可以进一步训练学习的监督分类器以在非肿瘤细胞核的不同类别(诸如淋巴细胞核和基质核)之间进行区分。在一些实施例中，用于识别肿瘤细胞核的学习的监督分类器为随机森林分类器。例如，可以通过以下方式训练随机森林分类器：(i)创建肿瘤和非肿瘤细胞核的训练集，(ii)提取每个细胞核的特征，以及(iii)训练随机森林分类器以基于提取的特征在肿瘤细胞核和非肿瘤细胞核之间进行区分。然后可以将训练的随机森林分类器应用于将测试图像中的细胞核分类为肿瘤细胞核和非肿瘤细胞核。任选地，可以进一步训练随机森林分类器以在非肿瘤细胞核的不同类别(诸如淋巴细胞核和基质核)之间进行区分。

在框930处，基于另一种生物材料或结构的分类来预测和输出靶标区域的分割图。分割图可以由图像分析预测模型输出。在框935处，靶标区域的分割图被放大并组合以生成经靶标区域掩蔽的图像，这些经靶标区域掩蔽的图像为一个或多个图像的包含另一种生物材料或结构的靶标区域提供分割掩膜。在其他情况下，靶标区域的分割图和非靶标区域的分割图(从关于图8A所述的过程中获得)被按比例放大并组合以生成经靶标区域和非靶标区域掩蔽的图像，这些经靶标区域和非靶标区域掩蔽的图像为包含另一种生物材料或结构(例如肿瘤细胞)的靶标区域提供分割掩膜，以及为包含生物材料或结构(例如淋巴聚集体或免疫细胞组)的非靶标区域提供分割掩膜。以这种方式，观察者(人类使用者或计算装置)可以区分靶标区域和非靶标区域。

在任选的框935处，如本文中详细讨论，度量从各种识别的细胞核、细胞、细胞簇和/或生物材料或结构得出。在一些情况下，可以通过应用分类的细胞核、细胞、细胞簇和/或生物材料或结构中包含的或其周围的像素上的各种图像分析算法来计算一种或多种度量。在一些实施例中，度量包括疾病状态、面积、短轴和长轴长度、周长、半径、坚固度等。如图9B所示，具有重叠分析结果的原始图像可能倾向于提供肿瘤细胞的假阳性或过度检测，这些肿瘤细胞实际上是淋巴聚集体或免疫细胞组。然而，如图9C所示，具有重叠分析结果的原始图像和本文所述的分割框架的实现(即经非靶标区域掩蔽的图像)能够检测淋巴聚集体或免疫细胞组并去除肿瘤细胞的假阳性或过度检测。在框940处，提供经靶标区域掩蔽的图像或经靶标区域和非靶标区域掩蔽的图像。例如，可以将经靶标区域掩蔽的图像或经靶标区域和非靶标区域掩蔽的图像提供给存储器存储装置、提供给计算装置的显示器、提供给一种或多种类型的介质中的使用者(如用户界面等)，在一些情况下，提供经靶标区域掩蔽的图像或经靶标区域和非靶标区域掩蔽的图像包括提供相关联的度量，或者可以单独提供度量。

IV.附加考虑

已采用的术语和表达被用作描述性而非限制性的术语，并且在使用这些术语和表达时，无意排除所示出和描述的特征或其部分的任何等同物，但是应当认识到，在所要求保护的本发明的范围内，各种修改是可能的。因此，应当理解，虽然通过实施例和任选特征具体公开了要求保护的本发明，但是本领域技术人员可以对本文公开的概念进行修改和变化，并且此类修改和变化被认为是在所附权利要求书所限定的本发明范围内。

随后的描述仅提供优选的示例性实施例，并不旨在限制本公开的范围、适用性或配置。相反，优选示例性实施例的随后描述将为本领域技术人员提供用于实现各种实施例的可行描述。应当理解，在不脱离所附权利要求中阐述的精神和范围的情况下，可以对元件的功能和布置进行各种改变。

在以下描述中给出具体细节以提供对实施例的透彻理解。然而，应当理解，可以在没有这些具体细节的情况下实践这些实施例。例如，电路、***、网络、过程和其他部件可以展示为框图形式中的部件，以免不必要的细节使实施例晦涩难懂。在其他情况下，为了避免使实施例晦涩难懂，可以在没有不必要的细节的情况下示出公知的电路、过程、算法、结构和技术。

Claims

1.一种计算机实现方法，其包括：

访问样本的多个图像，其中所述多个图像中的一个或多个图像包含非靶标区域和靶标区域；

基于从所述一个或多个图像编码的判别特征，由二维分割模型预测所述非靶标区域的分割图，其中所述判别特征与第一生物材料或结构相关联；

基于所述分割图生成所述一个或多个图像的分割掩膜；

将所述分割掩膜应用于所述一个或多个图像以生成将所述非靶标区域从所述一个或多个图像排除的经非靶标区域掩蔽的图像；

基于从所述经非靶标区域掩蔽的图像提取的特征组，由图像分析模型将所述靶标区域内的第二生物材料或结构分类为细胞或细胞核的类型；以及

为所述靶标区域提供针对所述第二生物材料或结构分类的所述细胞或细胞核的类型。

2.根据权利要求1所述的计算机实现方法，其中所述样本针对一种或多种生物标记物进行染色，所述第一生物材料或结构为淋巴聚集体，并且所述第二生物材料或结构为肿瘤细胞或肿瘤细胞簇。

3.根据权利要求1或2所述的计算机实现方法，其进一步包括：

将所述一个或多个图像划分为具有预定大小的图像块；

由所述二维分割模型将所述图像块编码成所述判别特征；

由所述二维分割模型将所述判别特征投影到像素空间上；以及

由所述二维分割模型基于预定阈值确定每个像素空间的所述第一生物材料或结构的分类。

4.根据权利要求1、2或3所述的计算机实现方法，其进一步包括：

由所述图像分析模型从所述经非靶标区域掩蔽的图像提取所述特征组；以及

基于所述特征组计算所述第二生物材料或结构的一个或多个度量，

其中所述提供针对所述第二生物材料或结构分类的所述细胞或细胞核的类型进一步包括，提供所述第二生物材料或结构的所述一个或多个度量。

5.根据权利要求1、2、3或4所述的计算机实现方法，其中所述二维分割模型是修改的U-Net模型，其包括收缩路径和扩展路径，所述收缩路径和所述扩展路径中的每一者具有最多256个通道，并且所述收缩路径的一个或多个层实现空间随机失活(spatial drop out)。

6.一种包括计算机程序指令的非暂态计算机可读存储介质，所述计算机程序指令当由计算机处理器执行时使所述计算机处理器执行根据权利要求1-5中任一项所述的动作或操作。

7.一种包括处理器和非暂态存储器的计算机***，所述存储器包括计算机程序指令，所述计算机程序指令当由所述处理器执行时使所述处理器执行根据权利要求1-5中任一项所述的动作或操作。

8.一种计算机实现方法，其包括：

基于所述非靶标区域的分割图生成所述一个或多个图像的第一分割掩膜；

基于从所述一个或多个图像提取的第二组特征，由图像分析模型将所述靶标区域内的第二生物材料或结构分类为细胞或细胞核的类型；

基于所述靶标区域内的所述第二生物材料或结构的所述分类，生成所述一个或多个图像的第二分割掩膜；

将所述第一分割掩膜和所述第二分割掩膜应用于所述一个或多个图像以生成将所述非靶标区域从所述一个或多个图像排除的经靶标区域和非靶标区域掩蔽的图像；以及

提供所述经靶标区域和非靶标区域掩蔽的图像以及针对所述第二生物材料或结构分类的所述细胞或细胞核的类型。

9.根据权利要求8所述的计算机实现方法，其中所述样本针对一种或多种生物标记物进行染色，所述第一生物材料或结构为淋巴聚集体，并且所述第二生物材料或结构为肿瘤细胞或肿瘤细胞簇。

10.根据权利要求8或9所述的计算机实现方法，其进一步包括：

将所述一个或多个图像划分为具有预定大小的图像块；

由所述二维分割模型将所述图像块编码成所述判别特征；

11.根据权利要求8、9或10所述的计算机实现方法，其进一步包括：由所述图像分析模型从所述一个或多个图像提取所述特征组；以及

其中所述提供所述经靶标区域和非靶标区域掩蔽的图像以及针对所述第二生物材料或结构分类的所述细胞或细胞核的类型进一步包括提供所述第二生物材料或结构的所述一个或多个度量。

12.根据权利要求8、9、10或11所述的计算机实现方法，其中所述二维分割模型是修改的U-Net模型，其包括收缩路径和扩展路径，所述收缩路径和所述扩展路径中的每一者具有最多256个通道，并且所述收缩路径的一个或多个层实现空间随机失活。

13.一种包括计算机程序指令的非暂态计算机可读存储介质，所述计算机程序指令当由计算机处理器执行时使所述计算机处理器执行根据权利要求8-12中任一项所述的动作或操作。

14.一种包括处理器和非暂态存储器的计算机***，所述存储器包括计算机程序指令，所述计算机程序指令当由所述处理器执行时使所述处理器执行根据权利要求8-12中任一项所述的动作或操作。

15.一种计算机实现方法，其包括：

访问样本的多个瓦片图像，其中所述多个瓦片图像中的一个或多个瓦片图像包括对分割非靶标区域和靶标区域的注释；

在所述一个或多个瓦片图像上训练二维分割模型，其中所述训练包括：执行迭代操作以找到所述二维分割模型的参数组，所述参数组使所述二维分割模型的损失函数最小化，其中每次迭代都涉及找到所述二维分割模型的所述参数组，使得使用所述参数组的所述损失函数的值小于在先前迭代中使用另一参数组的所述损失函数的值，并且其中所述损失函数被构造为测量使用所述二维分割模型预测的输出与包含在所述一个或多个瓦片图像中的所述注释之间的差异；以及

提供经训练的二维分割模型。

16.根据权利要求15所述的计算机实现方法，进一步包括将所述一个或多个瓦片图像划分为块，其中在所述块上对所述二维分割模型进行训练。

17.根据权利要求15或16所述的计算机实现方法，其中所述二维分割模型是修改的U-Net模型，其包括收缩路径和扩展路径，所述收缩路径和所述扩展路径中的每一者具有最多256个通道，并且所述收缩路径的一个或多个层实现空间随机失活。

18.根据权利要求15、16或17所述的计算机实现方法，其中所述训练进一步包括通过根据预定义的时间表降低所述修改的U-Net的学习率来调整所述学习率。

19.根据权利要求18所述的方法，其中所述预定义的时间表为步进衰减时间表，所述步进衰减时间表每隔预定数量的时期将所述学习率降低预定的因数，以优化所述损失函数，并且其中所述损失函数为二元交叉熵损失函数。

20.一种包括计算机程序指令的非暂态计算机可读存储介质，所述计算机程序指令当由计算机处理器执行时使所述计算机处理器执行根据权利要求15-19中任一项所述的动作或操作。

21.一种包括处理器和非暂态存储器的计算机***，所述存储器包括计算机程序指令，所述计算机程序指令当由所述处理器执行时使所述处理器执行根据权利要求15-19中任一项所述的动作或操作。