CN113574534A - 使用基于距离的相似性标签的机器学习 - Google Patents

使用基于距离的相似性标签的机器学习 Download PDF

Info

Publication number
CN113574534A
CN113574534A CN202080020523.6A CN202080020523A CN113574534A CN 113574534 A CN113574534 A CN 113574534A CN 202080020523 A CN202080020523 A CN 202080020523A CN 113574534 A CN113574534 A CN 113574534A
Authority
CN
China
Prior art keywords
tiles
image
tissue
mlm
tile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080020523.6A
Other languages
English (en)
Inventor
E·克莱曼
J·吉尔登布拉特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Original Assignee
F Hoffmann La Roche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG filed Critical F Hoffmann La Roche AG
Publication of CN113574534A publication Critical patent/CN113574534A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种用于数字病理学的计算机实现的自监督学习方法。所述方法包括:接收(102)多个数字图像,每个数字图像描绘组织样品;将每个所接收的图像分割(104)成多个图块;自动生成(106)图块对(312、313、314、315、422),每个图块对分配有标签(403),所述标签指示在所述对的两个图块中描绘的两个组织图案的相似度,其中根据所述对中所述两个图块的空间接近度(d1、d2、d3、d4)来计算所述相似度,其中距离与相异性正相关;以及使用带标签的图块对作为训练数据来训练机器学习模块—MLM—(400、402、403、600)以生成经过训练的MLM,所述经过训练的MLM适于执行数字组织病理学图像的图像分析。

Description

使用基于距离的相似性标签的机器学习
技术领域
本发明涉及数字病理学领域,尤其涉及图像分析领域。
背景技术
在数字病理学领域中对数字组织图像的计算分析具有广泛的重要生物医学应用,例如组织检测、分割、形态测量、识别和分类疾病(例如,癌症)以及可能的治疗选择。目前,使用机器学习方法来解决图像分析问题的复杂性和多样性。
通常,使用监督机器学习方法来解决图像分析问题。因此,将机器学习模块(MLM)在一组由领域专家(特别是病理学家和临床医生)标记为基本事实的训练图像上进行训练。在训练阶段,MLM的统计模型学习将图像分析算法所计算的相关图像特征映射到训练数据集中所含的标签。
这些标签(也称为“注释”)可以包括所描绘的组织和/或提供组织的患者的元数据。例如,标签可以指示图像中描绘的组织样品是表示肿瘤组织还是健康组织,或者提供所描绘的样品的患者是否对特定药物有反应。标签可以指示特定的组织类型或亚型,例如,肿瘤组织是来自原发肿瘤还是来自微转移或大转移、来自基质组织、肌肉组织、脂肪组织、载玻片的背景切片等。带注释的训练数据集可用于训练机器学习模块(MLM),使得MLM学会基于在新的未知数字组织图像中描绘的组织图案自动标识/预测标签。
在数字病理学中,适合作为监督学习基础的带注释的训练数据很少,因为收集和注释价格高昂且很困难。通常,训练数据由检查和注释大量的数字组织图像的一个或多个领域专家手动创建。这需要花费很多时间。该问题在数字病理学领域中尤为重要,因为组织的形态可能在很大程度上取决于许多因素。例如,肺癌组织、乳腺癌组织和肝癌组织的形态可能彼此不同。因此,为了生成能够预测特定标签的MLM,可能需要为每种不同的癌症类型创建训练数据集。事实上,上述每种癌症类型都存在许多不同的亚型。为了正确处理各种不同的癌症亚型和其他类型的疾病,希望为每个所述疾病和疾病亚型提供带标签的训练数据集。然而,由于此类训练数据集的注释既耗时又昂贵,因此由于缺乏带注释的训练数据,目前可用的数字病理学方法无法解决许多生物医学问题。
在训练MLM来解决数字病理学问题的背景下,对预测特征的标识是一项重要但困难的任务,这一事实进一步加剧了上述问题。传统的手工制作的特征在很大程度上依赖于领域专家的知识。通常,即使是领域专家也很难或不可能明确定义可以被清楚标识的特征,该特征可用于注释图像数据集,此外还可以预测感兴趣的标签。
另一个问题与标签诸如特定组织类型的分配有时是主观的这一事实相关。当训练数据集被许多不同的病理学家添加注释时,标签可能会有一定程度的不一致。因此,在这种不一致的训练数据集上训练的MLM的预测准确性可能会因为很大一部分“注释不一致/注释噪声”而降低。
由于上述原因,缺乏足够大小和质量的带注释的训练数据集是目前许多开放的生物医学问题无法通过当今已经可用的机器学习算法处理和解决的主要原因。
发明内容
本发明的一个目的是提供一种用于数字病理学的改进的计算机实现的学习方法以及如独立权利要求中所指定的对应的存储介质和图像分析***。在从属权利要求中给出了本发明的实施方案。如果不相互排斥,则本发明的实施方案可以彼此自由组合。
在一方面,本发明涉及一种用于数字病理学的计算机实现的自监督学习方法。该方法包括接收多个数字图像,其中每个所接收的图像描绘组织样品;将每个所接收的图像分成多个图块;自动生成图块对,其中每个图块对分配有指示在该对的两个图块中描绘的两个组织图案的相似度的标签,其中根据该对中两个图块的空间接近度来计算相似度,其中距离与相异性正相关;使用带标签的图块对作为训练数据来训练机器学习模块(MLM)以生成经过训练的MLM。经过训练的MLM适于执行数字组织病理学图像的图像分析。
由于多种原因,这种方法可能是有益的:两个图像区域的空间接近度是组织样品的每个数字图像中始终并且固有地可用的特征。问题在于图像和相应的组织区域本身的空间接近度通常不会揭示与生物医学问题有关的任何相关信息,诸如组织类型分类、疾病分类、特定疾病的持久性的预测或图像分割任务。申请人惊奇地观察到,在两个图像区域(“图块”)的空间接近度中传达的信息是两个图像区域的相似性的准确指示,至少在MLM的训练阶段分析了大量的图块及其相应的距离的情况下。因此,通过利用两个图块的固有可用的信息“空间接近度”来为两个比较的图块自动分配组织图案相似性标签,可以自动提供可用于训练MLM的大的带注释的数据集。经过训练的MLM可用于自动确定作为输入接收的两个图像或图像图块是否描绘了相似或相异的组织图案。然而,该数据集还可以用于其他更复杂的任务,诸如图像相似性搜索、图像分割、组织类型检测和组织图案聚类。因此,申请人惊奇地观察到,在图块的空间接近度中传达的信息可用于自动创建带注释的训练数据,这允许训练可靠地确定图像相似性的MLM,此外还可以允许训练输出特征向量的MLM,该特征向量可以被附加数据处理单元用于数字病理学中的多个复杂图像分析任务。这些方法都不需要领域专家手动注释训练数据。
当包括许多不同组织图案(例如,“非肿瘤”和“肿瘤”)的组织样品的图像被分成许多不同的图块时,两个图块之间的距离越小,两个比较图块描绘相同组织图案(例如“非肿瘤”)的概率就越高。然而,在描绘不同组织图案的两个不同图案的边界旁边会有一些图块对(例如,第一图块“肿瘤”,另一个图块“非肿瘤”)。这些图块对产生噪声,因为它们描绘不同的组织图案,但是它们在空间上彼此非常接近。申请人惊奇地观察到,由跨越不同组织图案之间的边界的图块对产生的这种噪声与简化假设(即空间接近度指示所描绘的组织图案的相似性不会显著降低经过训练的MLM的准确性)相结合。事实上,申请人观察到根据本发明的实施方案训练的MLM的准确性能够高于现有的基准化分析方法的准确性。
在另一个有益的方面,现在可能快速且完全自动地为许多不同的图像集创建训练数据。目前,缺乏可用的注释数据集来捕获组织病理学图像中的自然和实际可变性。例如,即使现有的大型数据集(如Camelyon)也只包含一种类型的染色(苏木精和伊红)和一种类型的癌症(乳腺癌)。在来自不同癌症类型、不同组织染色类型和不同组织类型的图像中,组织病理学图像纹理和对象形状可能会有很大差异。此外,组织病理学图像包含具有不同的领域特定含义的许多不同纹理和对象类型(例如,基质、肿瘤浸润淋巴细胞、血管、脂肪、健康组织、坏死等)。因此,本发明的实施方案可以允许为多种不同癌症类型、癌症亚型、染色方法和患者组中的每一项自动创建带注释的数据集(例如,治疗/未治疗、男性/女性、大于/小于阈值年龄、生物标志物阳性/生物标志物阴性等)。因此,本发明的实施方案可以允许自动创建带注释的训练数据并且在经过训练的数据上训练相应的MLM,使得所得的经过训练的MLM适于以高度特定的方式准确解决多个不同组的患者中的每一位患者的生物医学问题。与在手动注释的乳腺癌数据集上训练的MLM为结肠癌患者提供次优结果的现有方法相反,本发明的实施方案可以允许分别为每一位不同的患者组创建MLM。
根据实施方案,指示两种组织图案的相似度的标签是二进制数据值,即可以具有两个可能选项中的一个选项的值。例如,标签可以是“1”或“相似的”,并且指示两个图块描绘相似的组织图案。另选地,标签可以是“0”或“相异的”,并且指示两个图块描绘相异的组织图案。
根据其他实施方案,标签可以是更细粒度的,例如,可以是从三个或更多个数据值的有限集合中选择的数据值,例如“相异的”、“相似的”和“高度相似的”。
根据其他实施方案,标签可以是更细粒度的,并且可以是数值,其中数值的量与相似度正相关。例如,可以将数值计算为将该对中的两个图块之间的空间距离线性和逆变换为表示组织图案相似性的数值的函数。空间距离越大,指示组织图案相似性的数值越小。
存在多种MLM架构,它们可以处理和使用训练数据集中不同类型的标签(例如,序数或数值)。选择MLM的类型,使其能够处理训练数据集的自动创建的标签。
根据实施方案,MLM适于根据监督学习算法进行学习。监督学习是关于找到将一组输入特征转换为一个或多个输出数据值的映射的。在训练期间将输出数据值作为标签提供,例如作为二元选项标签“相似的”或“相异的”或作为相似性的定量度量的数值。换句话讲,在训练过程中,将待预测的数据值以训练数据标签的形式显式地提供给MLM的模型。监督学习带来的问题是需要对训练数据进行标记,以便为每个样品定义输出空间。
根据实施方案,至少一些或所有图块对分别描绘包含在相同组织切片中的两个组织区域。每个组织切片被描绘在所接收的数字图像中的相应一个数字图像中。图块之间的距离是在2D坐标系内计算的,该坐标系由已经从中导出所述对中的图块的所接收的数字图像的x维度和y维度定义。
根据实施方案,通过在多个不同图像的每一个图像内随机选择图块对来生成图块对。基于随机的选择确保了每一对中的图块之间的空间距离会有所不同。计算例如具有与两个图块之间的距离成反比的数值形式的相似性标签并且将其分配给每一对。
根据其他实施方案,通过选择每个所接收的图像的至少一些或全部图块作为起始图块来生成图块对;对于每个起始图块,选择全部或预定义数量的“附近的图块”,其中“附近的图块”是以起始图块为中心的第一圆内的图块,由此该圆的半径与第一空间接近度阈值相同;对于每个起始图块,选择全部或预定义数量的“远处的图块”,其中“远处的图块”是在以起始图块为中心的第二圆之外的图块,由此圆的半径与第二空间接近度阈值相同;可以通过在相应的图像区域内随机选择该数量的图块来执行预定义数量的选择。第一接近度阈值和第二接近度阈值可以相同,但优选地,第二接近度阈值大于第一接近度阈值。例如,第一接近度阈值可以是1mm并且第二接近度阈值可以是10mm。然后,选择第一组图块对,由此每个图块对包括起始图块和位于第一圆内的附近的图块。第一组中的每个图块对被分配了“相似的”组织图案的标签。此外,选择第二组图块对,由此所述组中的每一对包括起始图块和“远处的图块”中的一者。第二集合中的每个图块对被分配“相异的”组织图案的标签。例如,该实施方案可用于创建“相似”或“相异”的“二进制”标签。
根据实施方案,组织样品包括一个或多个组织切片。例如,组织样品可以是固定到载玻片例如玻璃载玻片表面的组织切片。根据其他示例,组织样品可以是固定到载玻片表面的组织样品,由此组织样品的厚度(高度、z维度)允许获得z维度中的多层中的每一层的多个图像,每个图像对应并且描绘组织载玻片。
根据实施方案,多个图块中的图块是不重叠的图块。
根据实施方案,图块对包括相邻图块的图块对和远处图块的图块对。
根据实施方案,组织样品是IHC组织样品,即已经用一种或多种免疫组织化学(IHC)染色方法染色的组织样品。IHC通常涉及通过利用抗体与生物组织中的抗原特异性结合的原理,选择性地标识组织切片细胞中的抗原(蛋白质)的过程。免疫组织化学染色用于诊断异常细胞,诸如在癌性肿瘤中发现的那些细胞。特定的分子标志物是特定细胞事件诸如增殖或细胞死亡(细胞凋亡)所特有的。免疫组织化学还用于基础研究,以了解生物组织的不同部分中生物标志物和差异表达的蛋白质的分布和定位。
例如,在每个图像中描绘的组织样品可以是组织载玻片例如玻璃载玻片上的组织切片。
根据实施方案,在由从中导出图块的数字图像的x轴和y轴定义的2D坐标系内测量图块之间的距离。这些实施方案可用于以下情况:多个组织样品图像可用,所述多个组织样品图像描绘不同患者的组织样品和/或相同患者体内的不同区域的组织样品,由此所述不同区域彼此远离或者由此所述两个区域相对于彼此的确切位置是未知的。在这种情况下,图块之间的空间接近度仅在由数字图像定义的2D像素平面内测量。基于图像采集设备(例如,显微镜的相机或载玻片扫描仪)的已知分辨率因子,原始图像的图块之间的距离可用于计算由两个图块描绘的组织样品中的组织区域之间的距离。
根据实施方案,至少一些或所有图块对描绘包含在一堆相邻组织切片中的两个不同组织切片中的两个组织区域。每个组织切片被描绘在所接收的数字图像中的相应一个数字图像中。所接收的描绘一堆相邻组织切片中的组织切片的图像在3D坐标系中彼此对准。图块之间的距离是在3D坐标系内计算的。
例如,所接收的数字图像的子集或全部可以描绘作为相邻组织切片的组织块内的切片的组织样品。在这种情况下,数字图像可以在公共3D坐标系中彼此对准,使得数字图像在3D坐标系中的位置再现组织块内分别描绘的组织切片的位置。这可以允许在3D坐标系中确定图块距离。对“附近的”和“远处的”图块的选择可以如上文针对2D坐标系的情况所描述的那样执行,唯一的区别在于至少一些图块对中的图块是从不同的接收图像导出的。
根据一些实施方案,带注释的训练数据包括源自相同数字图像的图块对以及源自已经在公共3D坐标系中彼此对准的不同图像的图块对。这可能是有益的,由于对第三维度(表示不同组织样品中组织区域的图块的空间接近度)的考虑可极大地增加训练数据中的图块数量,以防相应的组织样品的图像数量很少,由此组织样品属于相同的细胞块,例如3D活检细胞块。
根据实施方案,图块对的至少另一个子集包括描绘相同组织切片的两个组织区域的图块对,其中另一个子集的图块对的图块之间的距离(d1、d2)基于与描绘不同组织切片的所导出的图块对的子集的图块对之间的距离相同的空间接近度函数来计算。换句话讲,用于计算空间接近度的函数可以对相同的单个组织样品的2D坐标系中的两个图块使用与3D坐标系中跨两个或多个相邻组织切片的两个图块相同的距离阈值。
根据实施方案,每个图块描绘具有小于0.5mm、优选地小于0.3mm的最大边缘长度的组织或背景区域。
小的图块尺寸可具有以下优点:描绘不同的组织图案的混合物的图块的数量和面积分数减少。这可以帮助减少由描绘两个或更多个不同的组织图案的图块和由描绘两个不同的组织图案的“组织图案边界”旁边的图块对产生的噪声。此外,小的图块尺寸可以允许生成和标记大量的图块对,从而增加带标签的训练数据的量。
根据实施方案,图块对的自动生成包括:使用第一空间接近度阈值生成图块对的第一集合;由第一组中的每个图块对的两个图块描绘的两个组织区域彼此分开小于第一空间接近度阈值的距离;使用第二空间接近度阈值生成第二组图块对;由第二组中的每个图块对的两个图块描绘的两个组织区域彼此分开大于第二空间接近度阈值的距离。例如,这可以通过选择多个起始图块、基于每个起始图块周围的第一空间接近度阈值和第二空间接近度阈值计算第一圆和第二圆,并且选择包括起始图块和“附近的图块”(第一组)或“远处的图块(第二组)”的图块对,如上文针对本发明的实施方案所述。
根据实施方案,该方法包括:从多个图块中选择起始图块;使用第一空间接近度阈值生成第一组图块对,其中由第一组中每个图块对的两个图块描绘的两个组织区域彼此分开小于第一空间接近度阈值的距离,并且其中第一组中的每个图块对包括起始图块;使用第二空间接近度阈值生成第二组图块对,其中由第二组中的每个图块对的两个图块描绘的两个组织区域彼此分开大于第二空间接近度阈值的距离,并且其中第二组中的每个图块对包括起始图块;从多个图块中选择不同的起始图块;并且重复生成第一组图块对、生成第二组图块对并且选择不同的起始图块,直到多个图块中的每个图块已经被选择为起始图块。
根据实施方案,第一空间接近度阈值和第二空间接近度阈值相同,例如1mm。
根据优选的实施方案,第二空间接近度阈值比第一空间接近度阈值大至少2mm。这可能是有利的,因为在组织图案从一种图案逐渐改变为另一种图案的情况下,“远处的图块”中描绘的组织图案与“附近的”图块中描绘的组织图案之间的差异可能更清楚并且学习效果可能会有所提高。
根据实施方案,第一空间接近度阈值是小于2mm、优选地小于1.5mm、特别是1.0mm的距离。
除此之外或另选地,第二空间接近度阈值是大于4mm、优选地大于8mm、特别是10.0mm的距离。
这些距离阈值是指在数字图像中描绘的组织区域(或切片背景区域)与相应图块的距离。基于图像采集设备的已知放大倍数和数字图像的分辨率,可以将该距离转换为数字图像的2D或3D坐标系内的距离。
例如,可以测量图块(以及其中描绘的组织区域)之间的距离,例如2d或3D坐标系中两个图块的中心之间的距离。根据另选的实施方式的变型形式,测量在2D或3D坐标系中彼此最靠近的两个图块边缘(图像区域边缘)之间的距离。
已经观察到上述阈值可提供带标签的训练数据,该带标签的训练数据允许自动生成经过训练的MLM,该MLM能够准确地标识乳腺癌患者的相似和相异的组织图案。在一些其他实施示例中,第一空间接近度阈值和第二空间接近度阈值可以具有其他值。特别是在使用示出不同的组织类型或癌症类型的一组不同的所接收数字图像的情况下,第一空间接近度和第二空间接近度阈值可以具有不同于上文提供的距离阈值的其他值。
根据实施方案,MLM是孪生神经元网络(或“孪生网络”)。孪生网络包括由公共的输出层连接的两个相同的神经元子网络。两个神经子网络中的每一个神经子网络都适于从作为输入提供给MLM的图块对的两个图块中的相应一个图块提取特征向量。经过训练的孪生神经元网络的输出层适于根据两个特征向量计算作为输入提供的每个图块对的标签。该标签指示作为输入提供的图块对中描绘的两个组织图案的预测的相似性。
根据实施方案,使用损失函数在图块对上训练孪生神经元网络,使得由两个子网络为该对的两个图块提取的特征向量的相似性分别与该对的两个图块中描绘的组织图案的相似性相关。
孪生网络可以是例如在Bromley等人的“Signature Verification using a‘Siamese’Time Delay Neural Network”,1994年,NIPS’1994中描述的孪生网络。孪生网络的每个子网络适于从作为输入提供的两个图像图块中的相应一个图像图块提取多维特征向量。该网络在已自动注释有基于接近度的组织图案相似性标签的多个图块对上进行训练,目标是描绘相似的组织图案的图块对应该具有彼此接近的(相似的)输出(特征向量),以及描绘相异的组织图案的图块对应该具有彼此远离的输出。根据一个实施方案,这通过执行如上所述的对比损失来实现,例如在Hadsell等人的“Dimensionality Reduction byLearning an Invariant Mapping”,2006年,CVPR`06中所述。在训练期间,对比损失被最小化。可以计算对比损失CL,例如,根据
CL=(1-)2(1-2)+*(0,-2(1-2)),
其中1、2是两个相同子网络的输出,而y是图块对的真实标签:如果它们被标记为“相似的”(第一组图块对),则为0,如果它们被标记为“相异的”(第二组图块对),则为1。
如上所述,在数字病理学领域中生成成对的相似和相异图像的直接方法可以是将不同的有意义的组织病理学类别的注释手动分配给相应的数字图像或图块。例如,如果存在不同类别的区域的注释,则可能对类别内的图像对以及不同类别之间的图像对进行采样。然而,生成这种足够多样化以捕获不同类型类别的数据集是昂贵且耗时的。因此,对于大多数相关组织类型和患者群体,没有合适的训练数据可用。然而,由于数字图块对的自动注释,孪生网络现在可以应用于大量不同的训练数据集,以解决许多不同的生物医学上的疑问和问题。
根据实施方案,MLM为向量输出MLM。“向量输出MLM”是适于接收单个数字图像或单个图块并且适于输出从所述图块提取的特征向量的MLM,由此特征向量包括该组织图案的极具特色的特征,并且允许基于特征向量与从另一个图像或图块中类似地提取的特征向量的比较来确定两个比较的图像或图块是否相似。包含在从两个不同的图像或图块中提取的两个特征向量中的每一个特征向量中的特征相对于所述两个图像或图块中描绘的特定组织图案是相似还是相异的问题具有高度的预测相关性。
在自动生成的训练数据上生成向量输出MLM可能是有利的,因为由经过训练的向量输出MLM生成的输出(特征向量)允许解决数字病理学中的大量不同的问题和疑问,诸如图像分割、聚类、图像相似性搜索等。在自动注释的训练数据上训练的经过训练的Simian网络期望接收一对图像或图块,并且适于自动计算(预测)两个不同图块或图像中描绘的组织图案的相似性。然而,数字病理学领域中的一些疑问和问题不涉及两个图像的相似性,而是涉及大量图像的相似性以及/或者不涉及图块相似性本身。申请人已经观察到,通过在自动标记的训练数据集上训练该MLM来提供特征向量MLM还能够解决数字病理学问题,如图像分割等,这些问题可能不直接对应于Simian网络架构所需的/强加的输入和输出数据结构。
在机器学习和图像处理中,特征提取从一组初始测量数据开始,并且构建旨在提供信息并且非冗余的派生值(特征),从而促进后续的学习和泛化步骤。在MLM的训练过程中,MLM执行降维过程,其中一组初始的原始特征被减小为一组更小、更易于管理的特征以供处理,同时仍然准确完整地描述原始数据集。优选地,从每个图块中导出大量的特征,例如强度梯度特征、对比度特征、源自颜色通道的特征、色调和/或饱和度等。可以采用现有的图像分析工具和库来执行从图块中提取特征。在MLM的训练期间,根据本发明的实施方案的MLM将原始提取的特征集合转换为减少的特征集合(也称为特征向量)。确定初始特征的子集被称为特征选择。预期所选择的特征包含来自输入数据的相关信息,即单个图块,使得所需任务(确定该图块中描绘的组织图案相对于在另一个图块中描绘的组织图案的相似性)可以通过使用在输出特征向量中表示的该减少的特征集而不是原始提取的完整特征集来执行。
根据实施方案,MLM包括用于提取作为低级描述符的多个特征的例程,这些低级描述符给出了颜色、形状、亮度、对比度、纹理和其他可以直接从图像中提取的特征的描述,而无需领域专家的知识。除此之外或另选地,所提取的特征可以包括域信息描述符,给出关于相应的生物医学领域中的对象和事件的信息。一个具体的示例是对象被自动标识为特定的细胞成分,例如细胞核、细胞膜或其他细胞内或细胞外结构,以及/或者特定类型的细胞,例如,“肿瘤细胞”、“基质细胞”或表达感兴趣的特定生物标志物的细胞。优选地,在所接收的数字图像中完全自动地标识这些域信息描述符,因此不需要对数字图像进行人工检查或注释。
根据实施方案,MLM是或包括向量输出MLM。向量输出MLM是适于接收单个数字图像(或图块,即小图像)作为输入并且适于输出从所述图像中提取的特征向量的MLM。在带标签的图块对上训练MLM包括反向传播操作。在反向传播期间,MLM的预测模型发生变化,使得由MLM提取的向量中的特征包括特定的组织图案所特有的以及实现相似和相异图像对的基于向量比较的标识的特征。换句话讲,在反向传播过程中,MLM的参数发生变化,为每个输入图像创建特征向量,该特征向量能够以相似的图像具有相似的特征向量并且相异的图像具有相异的特征向量的方式正确表示图像特征向量。例如,反向传播可以基于损失函数,该损失函数以两个特征向量之间的实际归一化距离的形式(例如,零距离为标签零,即相似,远距离为标签一,即相异)计算损失。
通过在自动标记的数据集上训练向量输出MLM来创建向量输出MLM可能是有利的,因为向量输出MLM的输入/输出结构可以支持数字病理学领域中的广泛应用,特别是基于向量的图像相似性搜索、基于向量的聚类和图像分割。
根据实施方案,向量输出MLM的训练包括:MLM从训练数据中带标签的图块对中的每一个图块中提取初始特征向量。最初提取的特征可以是光学特征,诸如亮度、对比度、颜色、梯度以及其他特征。例如,在通用图像数据库ImageNet上预训练的神经网络可用于从每个输入图像中提取一组初始特征。在反向传播过程中,成对的图块的相似性标签和特征向量用于调整MLM的预测模型,使得输出特征向量中的特征(可仅为最初提取的特征的子集)以相似的图像具有相似的特征向量并且相异的图像具有相异的特征向量的方式表示图像。
根据实施方案,向量输出MLM是包括至少一个瓶颈层的全卷积神经网络。
根据一个示例,向量输出MLM具有基于UNET的网络架构。它有一个具有512*512*3(512×512RGB)神经元的输入层和具有9*9*128神经元的瓶颈层。因此,瓶颈层中的神经元数量为输入层的神经元数量的约1.5%。
根据另一个示例,向量输出MLM的网络具有实施监督学习算法或非监督学习算法的残差网络架构。输入层包括512×512×3神经元,并且瓶颈层和由瓶颈层输出的对应的特征向量通常包括1024或2048元素(神经元/数字)。
根据实施方案,MLM为孪生网络,其包括具有其子网络之一的形式的向量输出MLM。该方法包括通过将经过训练的孪生网络的子网络中的一个子网络单独存储在存储介质上并且将所存储的子网络用作向量输出MLM来提供向量输出MLM。
这种方法可能是有利的,因为可能不需要对附加的MLM进行附加的训练。此外,除了孪生网络之外,可能没有必要熟悉实施和训练向量输出MLM所需的库和程序框架。相反,单个训练阶段足以返回经过训练的孪生网络作为结果。孪生网络可用于所有数字病理学问题,其中需要自动确定一对图像或一对图像图块中描绘的组织图案的相似性,因为孪生网络期望接收一对图像或图块作为输入并且返回指示两个所描绘的组织图案的相似性的所计算的标签。标签可以是定性的二元标签(“相似的”/“相异的”)或表示定量相似度的数值。然后,通过单独存储经过训练的孪生网络的子网络中的一者并且将该子网络用作向量输出MLM,向量输出MLM可用于解决更多的数字病理问题,例如仅提供单个搜索图像或搜索图块作为输入的图像相似性搜索问题,或者其他任务,如图像分割或基于图块的聚类问题。因此,通过单个训练阶段并且基于单个MLM架构,提供了两种不同类型的经过训练的MLM,它们适于接收不同的数据结构作为输入,并且适于解决数字病理学领域中的不同问题。
根据实施方案,计算机实现的方法还包括:提供数字搜索图像作为向量输出MLM的输入,该搜索图像描绘组织样品或其子区域;由向量输出MLM从搜索图像中提取搜索特征向量;由相似度搜索引擎在数字组织样品图像的图像数据库中执行相似性搜索,相似性搜索引擎针对图像数据库中的每个图像确定搜索特征向量与由向量输出MLM提取的特征向量的相似性;以及返回数据库中特征向量与搜索特征向量最相似的图像作为相似性搜索的结果。
根据实施方案,相似性搜索引擎在相似性搜索期间从数据库中的每个图像动态地提取特征向量。根据优选的实施方案,数据库中的图像的特征向量被预先计算并且与从中提取它们的图像相关联地存储在数据库中。这可具有以下优点:特征向量只计算一次,然后可以重新用于许多相似性搜索。这可以节省CPU和存储器容量。
根据一些实施方案,数据库中的图像是全载玻片图像,并且搜索图像也是全载玻片图像或图像图块。根据其他实施方案,数据库中的图像是图像图块,并且搜索图像也是图像图块。
这可能是有利的,因为提供了基于机器学习的图像相似性搜索,其涵盖用于提供训练数据集的图像的域特定光学特性并且不需要任何人工干预来创建训练数据集。
根据实施方案,计算机实现的方法还包括:提供数字图像作为向量输出MLM的输入,该数字图像描绘了全载玻片组织样品或其子区域;将所提供的数字图像分成多个图块;由向量输出MLM从每个图块中提取特征向量;由聚类引擎对从多个图块中提取的特征向量进行聚类,从而创建相似的特征向量的聚类;根据为图块的特征向量计算的聚类将多个图块分组为图块聚类;以及经由图形用户界面输出图块聚类。
根据为图块的特征向量计算的聚类将图块分组成图块聚类意味着特征向量相似的图块被分组到相同的聚类中。
这可能是有利的,因为提供了一种将图像区域聚类成描绘相似的组织图案的聚类的方法,该方法包括用于提供训练数据集的图像的特定领域光学特性,但不需要任何人类领域专家为相应的组织片段分配标签诸如“肿瘤组织”、“载玻片背景”、“基质组织”。也没有必要预先指定预期在数字图像中包含多少个以及什么类型的不同的组织图案。相反,聚类引擎可以基于已知的聚类算法和由自监督训练的MLM计算的特征向量完全自动标识相似的组织图案和相应的图块。
例如,聚类引擎可以使用k均值算法或层次聚类算法来执行基于向量的聚类。
根据实施方案,计算机实现的方法还包括:标识所提供的数字图像中的片段,其中每个片段是一组相邻的图块,并且其中每个片段内的所有图块都属于所标识的图块聚类中的相同的图块聚类;以及经由图形用户界面输出所提供的数字图像中所标识的片段的光学指示。
例如,可以在提供的数字图像中用不同的颜色或阴影线突出显示所标识的片段。可以示出所标识的图像片段,例如位于原始数字图像的左侧或右侧,或者可以呈现为数字图像顶部的半透明叠加层。因此,本发明的实施方案提供了不需要领域专家手动标识和标记感兴趣的组织片段类型的用于数字病理图像的图像分割方法。因此,提供了一种用于数字病理学领域中的图像分割的完全或大部分自动化的数据驱动的方法,该方法很容易适用于一组组织图像可用的任何类型的患者组或疾病组。
在另一方面,本发明涉及一种包括计算机可解释指令的非易失性存储介质,当由处理器执行时,所述指令实例化和/或执行由根据本文描述的实施方案和示例中的任一者的计算机实现的方法生成的经过训练的机器学习模块—MLM。
在另一方面,本发明涉及一种包括至少一个处理器和易失性或非易失性存储介质的图像分析***。存储介质包括通过根据本文描述的实施方案和示例中的任一者的计算机实现的方法生成的经过训练的机器学习模块—MLM。
如本文所用的术语“自监督学习”是指一种机器学习方法,其中自动生成训练数据集的标签。架构本身和学习过程可以完全受到监督,但不需要手动注释来创建带标签的训练数据。
术语“数字病理学”是一种基于图像的信息技术环境,其中计算机技术用于管理、提取和处理从数字载玻片生成的信息。数字病理学部分地通过虚拟显微镜实现,这是将载玻片转换为可以在计算机显示器上查看、管理、共享和分析的数字载玻片的实践。
如本文所用,“组织样品”是可通过本发明的方法进行分析的细胞集合。该集合可以是体内或体外细胞块的切片。例如,组织样品可以从收集自患者的组织制备,例如来自癌症患者的肝、肺、肾或结肠组织样品。样品可以是显微镜载玻片上的全组织或TMA切片。制备载玻片固定组织样品的方法是本领域中公知的并且适用于本发明。
可以使用任何试剂或生物标志物标记对组织样品进行染色,诸如与特定生物标志物或各种类型的细胞或细胞区室直接反应的染料或染剂、组织化学物质或免疫组织化学物质。并非所有染剂/试剂都相容。因此,应该充分考虑所用染剂的类型及其应用顺序,但本领域的技术人员可以容易地确定。此类组织化学物质可以是透射显微镜可检测的发色团或荧光显微镜可检测的荧光团。一般来讲,可以将含有细胞的样品与包括至少一种组织化学物质的溶液一起温育,所述组织化学物质将与靶标的化学基团直接反应或结合。一些组织化学物质通常与媒染剂或金属共同孵育以允许染色。可以将含有细胞的样品与对感兴趣成分进行染色的至少一种组织化学物质和用作复染剂并且结合感兴趣成分之外的区域的另一种组织化学物质的混合物一起温育。另选地,可以在染色中使用多种探针的混合物,并且提供一种标识特定探针的位置的方法。对包含细胞的样品进行染色的过程是本领域所公知的。
如本文所用,“组织图案”是组织样品中的规律性(并且因此也是描绘包括该组织图案的组织样品的区域的数字图像或图块中的规律性。因此,图案的元素以可预测的方式重复或具有一些其他特征性视觉特征(例如,允许将包含该图案的特定组织区域与示出另一图案的另一组织区域区别开的不同颜色和/或亮度。一些组织图案可以由人类领域专家直接观察和解释。其他组织图案可能非常复杂,以至于只有机器学***铺、裂缝以及由旋转和反射的对称性产生的结构)来表征。
如本文所用的“图像分析***”是一种***,例如计算机***,适于评估和处理数字图像,特别是组织样品的图像,以便帮助用户评估或解释图像并且/或者提取隐式地或显式地包含在图像中的生物医学信息。例如,计算机***可以是标准的台式计算机***或分布式计算机***,例如云***。通常,计算机化组织病理学图像分析将由相机捕获的单通道或多通道图像作为其输入,并且试图提供附加的定量信息以帮助诊断或治疗。
如本文所用的“数字图像”是二维图像的数字表示,通常是二进制的。通常,组织图像是光栅类型的图像,意味着该图像是分别分配有至少一个强度值的像素的光栅(“矩阵”)。一些多通道图像可具有像素,其中每个颜色通道具有一个强度值。数字图像包含固定数量的像素行和像素列。像素是图像中最小的单个元素,保存着表示给定颜色在任何特定点的亮度的过时值。通常,像素作为光栅图像或光栅地图(小整数的二维数组)存储在计算机存储器中。这些值通常以压缩形式传输或存储。数字图像可以通过例如数码相机、扫描仪、坐标测量机、显微镜、载玻片扫描设备等获取。
如本文所用的“标签”是分配给数据记录(例如一对图块)并且指示与该图块对相关联的属性的数据值(例如字符串或数值)。特别地,标签可以指示已分配标签的图块对中的两个图块的相似性或相异性。
如本文所用的“图像图块”是数字图像的子区域。一般来讲,根据数字图像创建的图块可以具有任何形状,例如圆形、椭圆形、多边形、矩形、正方形等,并且可以重叠或不重叠。根据优选的实施方案,从图像生成的图块是矩形的,优选地是不重叠的图块。
如本文所用的“特征向量”是包含描述对象的重要特征的信息的数据结构。数据结构可以是单维或多维数据结构,其中特定类型的数据值存储在数据结构内的相应位置。例如,数据结构可以是向量、数组、矩阵等。特征向量可以被认为是表示某个对象的数字特征的n维向量。在图像分析中,特征可以有多种形式。图像的一个简单特征表示是每个像素的原始强度值。然而,更复杂的特征表示也是可能的。例如,从图像或图像图块中提取的特征也可以是SIFT描述符特征(尺度不变特征变换)。这些特征捕获了不同的线条取向的普遍性。其他特征可以指示图像或图像图块的对比度、梯度取向、颜色组成和其他方面,或者可以描述更复杂的域特定对象的存在和/或分布,诸如细胞核、膜和/或一个或多个感兴趣的生物标志物。
如本文所用,“生物标志物特异性染剂”是对特定生物标志物(例如,特定蛋白质如HER)选择性染色,但一般不对其他生物标志物或组织成分进行染色的染剂。
如本文所用,“非生物标志物特异性染剂”是具有更一般的结合行为的染剂。非生物标志物特异性染剂不会选择性地对单个蛋白质或DNA序列进行染色,而是对具有特定的物理或化学特性的更大组的物质和亚细胞以及超细胞结构进行染色。例如,苏木精和伊红分别是非生物标志物特异性染剂。苏木精是一种呈碱性/阳性的深蓝色或紫色染剂。它与嗜碱性物质(诸如DNA和RNA,呈酸性并且带负电荷)结合。细胞核中的DNA/RNA和粗面内质网核糖体中的RNA都是酸性的,因为核酸的磷酸盐骨架带负电荷。这些骨架与含有正电荷的碱性染料形成盐。因此,像苏木精这样的染料会与DNA和RNA结合并且将它们染成紫色。伊红是一种呈酸性并且呈阴性的红色或粉红色染剂。它与嗜酸性物质结合,诸如带正电荷的氨基酸侧链(例如,赖氨酸、精氨酸)。某些细胞的细胞质中的大多数蛋白质是碱性的,因为精氨酸和赖氨酸氨基酸残基使它们带正电荷。它们与含有负电荷的酸性染料(如伊红)形成盐。因此,伊红与这些氨基酸/蛋白质结合并且将它们染成粉红色。这包括肌肉细胞中的细胞质丝、细胞内膜和细胞外纤维。
如本文所用,术语“强度信息”或“像素强度”是在数字图像的像素上捕获或由数字图像的像素表示的电磁辐射(“光”)量的量度。如本文所用的术语“强度信息”可以包括附加的、相关的信息,例如特定颜色通道的强度。MLM可以使用该信息用于以计算方式提取衍生信息,诸如包含在数字图像中的梯度或纹理,并且可以在训练期间以及/或者在由经过训练的MLM进行特征提取期间从数字图像中隐式或显式地提取衍生信息。例如,表述“数字图像的像素强度值与一种或多种特定染剂的强度相关”可以暗示强度信息(包括颜色信息)允许MLM并且还可以允许用户标识组织样品中已经被所述一种或多种染剂中的一种特定染剂染色的区域。例如,描绘被苏木精染色的样品区域的像素在蓝色通道中可具有高像素强度,描绘被快速红染色的样品区域的像素在红色通道中可具有高像素强度。
如本文所用的“机器学习模块(MLM)”是程序逻辑,例如一款软件,如神经元网络或支持向量机等,已经或可以在训练过程中进行训练,并且作为学习阶段的结果,已经学会了基于所提供的训练数据执行一些预测和/或数据处理任务。因此,MLM可以是至少部分未由程序员明确指定的程序代码,但在根据样品输入构建一个或多个隐式或显式模型的数据驱动学习过程中隐式地学习和修改。机器学习可以采用监督学习或非监督学习。有效的机器学习通常很困难,因为找到图案很困难,而且通常没有足够的训练数据可用。MLM可以是例如独立的应用程序或应用程序的子模块。它可以是本地安装的程序以及/或者可以实现为经由网络提供给多个客户端的服务。
如本文所用,术语“生物标志物”是可以在生物样品中作为组织类型、正常或致病过程或对治疗干预的反应的指示物进行测量的分子。在一个特定的实施方案中,生物标志物选自由以下各项组成的组:蛋白质、肽、核酸、脂质和碳水化合物。更具体地,生物标志物可以是特定的蛋白质,例如EGRF、HER2、p53、CD3、CD8、Ki67等。某些标志物是特定细胞所特有的,而其他标志物已被标识为与特定的疾病或病症相关联。
为了基于组织样品图像的图像分析确定特定肿瘤的阶段,可能需要用多个生物标志物特异性染剂对样品进行染色。组织样品的生物标志物特异性染色通常涉及使用选择性结合感兴趣的生物标志物的一抗。特别是这些一抗,以及染色方案的其他组成部分,可能很昂贵,因此在许多应用场景中,特别是高通量筛选,出于成本原因,可能无法使用可用的图像分析技术。
通常,组织样品用背景染剂(“复染剂”)例如苏木精染剂或苏木精和伊红染剂的组合(“H&E”染剂)进行染色,以便揭示大尺度组织形态以及细胞和细胞核的边界。除了背景染剂之外,可以根据待解决的生物医学疑问(例如肿瘤的分类和分期、对组织中某些细胞类型的数量和相对分布的检测等)应用多种生物标志物特异性染剂。
附图说明
在本发明的以下实施方案中,仅以举例的方式参考附图进行了更详细的解释,其中:
图1描绘了根据本发明的实施方案的方法的流程图;
图2描绘了描绘相应的组织样品的数字图像;
图3示出了图块在2D和3D坐标系中的空间距离;
图4描绘了根据本发明的实施方案的孪生网络的架构;
图5描绘了根据本发明的实施方案的经过训练的孪生网络的使用;
图6描绘了呈截断的孪生网络形式的向量输出MLM;
图7描绘了使用向量输出MLM在图像数据库中进行相似性搜索的计算机***;
图8描绘了使用向量输出MLM进行图像分割和/或聚类分析的计算机***;
图9描绘了计算机***,该计算机***使用经过训练的孪生网络来确定两个图像的组织图案的相似性;
图10示出了基于它们的空间接近度带标签的“相似的”和“相异的”图块对;并且
图11示出了由在自动标记的数据集上训练的MLM生成的相似性搜索结果。
图1描绘了根据本发明的实施方案的方法100的流程图。该方法可以用于例如用于提供经过训练的MLM,该经过训练的MLM适于自动确定两个输入图像中描绘的组织图案的相似性。除此之外或另选地,提供了一种经过训练的MLM,该经过训练的MLM适于从输入图像中提取该图像中描绘的该组织图案的极具特色的特征向量,并且可以用作数字病理学领域一系列应用的基础,诸如相似性图像搜索、基于相似性的图像区域聚类和图像分割。
方法100允许在感兴趣的生物医学领域中自动创建带注释的训练数据集,该带注释的训练数据集可以用作创建上述MLM的基础。
在第一步骤102中,图像分析***接收分别描绘患者的组织样品的多个数字图像。例如,可以直接从图像捕获设备,例如从明场显微镜、荧光显微镜或载玻片扫描设备的相机接收图像。除此之外或另选地,可以从本地的或远程数据存储设备读取图像。读取可以包括从数据库读取图像。例如,图像可以是多年以前的组织样品图像。旧图像数据集的优势在于许多相关事件的结果,例如治疗成功、疾病进展、副作用是同时已知的并且可用于创建训练数据集,该训练数据集包括将已知事件分配为附加标签的组织图像。
针对每一位患者,图像分析***可以接收一个或多个图像。例如,可以根据不同的染色方案对相同的组织样品进行多次染色,从而对于每个染色方案获取图像。除此之外或另选地,若干相邻组织样品切片可以分别用相同或不同的染色方案染色,并且对于每个组织样品载玻片获取图像。优选地,所有所接收的图像都描绘了已经根据相同的染色方案染色并且已经从共享相关生物医学属性的一组患者(例如“乳腺癌患者”或“结肠癌患者”)中获得的组织样品。
根据一个示例性实施方案,作为2016年“CAMELYON16”挑战的基础发布的数字组织样品图像可以用作创建自动标记的训练数据集的基础。CAMELYON16数据集由乳腺癌患者的H&E染色***组织切片的270张全载玻片图像组成,作为训练图像数据集提供(160张正常组织图像,110张肿瘤转移图像)。数据集可从以下链接获得https://camelyon16.grand-challenge.org/data/。
接下来在步骤104中,图像分析***将每个所接收的图像分成一组图像图块。例如,在CAMELYON16数据集的情况下,在10倍放大率下,该数据集的图像可用于从256×256像素大小的非背景区域生成1,113,403个RGB图块,每个区域不重叠。
接下来在步骤106中,图像分析***自动创建带注释的训练数据集。带注释的训练数据集的创建包括选择多对图块并且自动为每一对分配标签。标签是该对的两个图块所描绘的两种组织图案的相似度的指示符。标签自动计算为该对的两个图块的空间距离的函数(并且因此,隐式地,作为由该对的两个图块描绘的两个组织区域的距离的函数)。标签可以计算为定性值,例如作为“相似的”值或“相异的”值。当然,这两个选项同样可以用其他字符串或者一对数值诸如“0”和“1”来表示。该步骤基于以下观察,即组织切片的任何数字图像中固有的空间接近度信息可用于在训练数据集中自动创建注释,该注释对于可以通过机器学习算法解决的许多问题和数字病理具有重要的预测价值。
接下来在步骤108中,使用自动标记的图块对作为训练数据集来训练机器学习模块。例如,并且如参考图4、图5和图9所描述的,机器学习模块可以是神经网络,特别是孪生网络。经过训练的孪生网络适于接收一对图像(或一对图块,由此图块可以被认为是小图像)作为输入,并且基于经过训练的预测模型自动计算指示所接收的图像对中描绘的组织图案的相似度的标签。
除此之外或另选地,使用自动标记的图块对作为训练数据集来训练机器学习模块(本文中称为向量输出MLM),该训练数据集适于根据单个图像(或图块)计算特征向量,由此特征向量是图块中描绘的组织图案的特征,并且允许根据由训练向量输出MLM对相应的图像提取的两个特征向量的比较来计算图像的相似性/相异性。优选地,向量输出MLM被创建为经过训练的孪生网络的截断版本,并且可以用于各种不同的用例场景(参见图6、图7和图8的图形描述)。
图2A描绘了分别描绘三位不同患者P1、P2、P3的组织样品202、204、206的三个数字图像220、222、224。从患者获得组织样品之后,将它们设置在显微镜载玻片上并且用一种或多种组织学相关的染剂染色,例如H&E和/或各种生物标志物特异性染色。使用例如载玻片扫描仪显微镜从染色的组织样品中获取图像。由于组织样品来自不同的患者,因此无法将数字图像对准到3D坐标系中。在这种情况下,在由图像的x坐标和y坐标定义的2D空间内计算图块距离。在下文中,针对数字图像和图块描述图块距离的确定。
图2B描绘了分别描绘源自特定患者P4的单个组织块的组织样品208、210、212的三个数字图像226、228、230。所描绘的组织样品属于一堆多个相邻的组织切片。例如,这一堆组织切片可以从FFPET组织块离体制备。组织块被切片,并且切片设置在显微镜载玻片上。然后,如参考图2A所述对切片进行染色。
由于这一堆内的组织样品源自单个组织块,因此可能在公共3D坐标系内对准描绘组织切片208、210、212的数字图像226、228、230,由此z轴是与组织切片正交。类似地,三个数字图像232、234和236描绘了源自另一位患者P5的另一个单个组织块的三个相应的组织样品214、216、218。可能在公共3D坐标系内对准数字图像232、234和236,由此z轴与组织切片正交。
在这种情况下,如果一对中的两个图块源自相同的图像,则在2D空间内计算图块距离。此外,可以创建图块对,其中的图块源自在公共3D坐标系中彼此对准的不同图像。在这种情况下,使用3D坐标系计算一对中的两个图块的距离。
图3A示出了由数字组织样品图像300的x轴和y轴定义的2D坐标系中图块的空间距离。数字图像300已被分成多个图块。出于说明的目的,图3A中的图块尺寸大于典型的图块尺寸。
可以通过以下方法自动标记训练数据集:首先,选择起始图块302。然后,确定了围绕该起始图块的第一圆形区域。第一圆的半径也称为第一空间接近度阈值308。第一圆内的所有图块,例如图块306,被认为是起始图块302的“附近的”图块。此外,还确定了围绕该起始图块的第二圆形区域。第二圆的半径也称为第二空间接近度阈值310。第二圆之外的所有图块,例如图块304是相对于起始图块302的“远处的”图块。
然后,创建第一组图块对,其中第一组的每个图块对包括起始图块和起始图块的“附近的”图块。例如,该步骤可以包括创建与第一圆中包含的附近的图块一样多的图块对。另选地,该步骤可包括随机选择可用的附近的图块的子集并且通过将起始图块添加到所选择的附近的图块来为所选择的附近的图块中的每一个图块创建图块对。
创建第二组图块对。第二组的每个图块对包括起始图块和相对于起始图块的“远处的”图块。例如,该步骤可以包括创建与在第二圆之外的图像300中包含的远处的图块一样多的图块对。另选地,该步骤可包括随机选择可用的远处的图块的子集并且通过将起始图块添加到所选择的远处的图块来为所选择的远处的图块中的每一个图块创建图块对。
然后,图像300内的另一个图块可以用作起始图块并且可以类似地执行上述步骤。这意味着使用新的起始图块作为中心重新绘制第一圆和第二圆。从而,标识关于新的起始图块的附近的图块和远处的图块。第一组图块补充有基于新的起始图块标识的附近的图块对,而第二组图块补充有基于新的起始图块标识的远处的图块对。
然后,可以选择图像300内的又一个图块作为起始图块并且可以重复上述步骤,从而进一步用另外的图块对补充第一图块对集和第二图块对集。可以执行新的起始图块的选择,直到图像中的所有图块都已经被选择为起始图块或者直到已经选择了预定义数量的图块作为起始图块。
对于第一组中的每个图块对,例如对312,分配标签“相似的”。对于第二组中的每个图块对,例如对314,分配标签“相异的”。
图3B示出了根据由图像300、332、334分别描绘的组织块的组织切片的相对位置的、由数字组织样品图像300的x轴和y轴以及对应于彼此对准的一堆图像300、332、334的高度的z轴定义的3D坐标系中的图块的空间距离。图像在z方向上的距离对应于所述图像所描绘的组织切片的距离。每个对准的数字图像已经被分成多个图块。出于说明的目的,图3B中的图块尺寸大于典型的图块尺寸。
可以通过以下方法自动标记训练数据集:首先,选择起始图块302。然后,如下所述标识和标记包括起始图块和附近的图块的图块对以及包括起始图块和远处的图块的图块对。
确定围绕该起始图块的第一3D球体。出于说明的目的,仅示出了第一球体的横截面。第一球体的半径也称为第一空间接近度阈值336。第一球体内的所有图块,例如图像300中的图块306以及图像334中的图块340被认为是起始图块302的“附近的”图块。此外,还确定了围绕该起始图块的第二球体。第二球体的半径也称为第二空间接近度阈值338。第二球体之外的所有图块,例如图像300的图块304以及图像334的图块342是相对于起始图块302的“远处的”图块。
创建第一组图块对,其中第一组的每个图块对包括起始图块和起始图块的“附近的”图块。例如,该步骤可以包括创建与第一球体中包含的附近的图块一样多的图块对。另选地,该步骤可包括随机选择可用的附近的图块的子集并且通过将起始图块添加到所选择的附近的图块来为所选择的附近的图块中的每一个图块创建图块对。
创建第二组图块对。第二组的每个图块对包括起始图块和相对于起始图块的“远处的”图块。例如,该步骤可以包括创建与在第二球体外部的图像300、332、334中包含的远处的图块一样多的图块对。另选地,该步骤可包括随机选择可用的远处的图块的子集并且通过将起始图块添加到所选择的远处的图块来为所选择的远处的图块中的每一个图块创建图块对。
然后,图像300内或图像332、334内的另一个图块可以用作起始图块并且可以类似地执行上述步骤。这意味着第一球体和第二球体使用新的起始图块作为中心重新绘制。从而,标识关于新的起始图块的附近的图块和远处的图块。第一组图块补充有基于新的起始图块标识的附近的图块对,而第二组图块补充有基于新的起始图块标识的远处的图块对。
可以重复上述步骤,直到每个所接收的图像300、332、334中的每个图块都被选择为起始图块(或直到满足另一个终止标准),从而用另外的图块对进一步补充第一图块对集和第二图块对集。
对于第一组中的每个图块对,例如对312和对313,分配“相似的”标签。对于第二组中的每个图块对,例如对314和对315,分配“相异的”标签。
图3A和图3B中所示的基于圆和球的距离计算只是用于计算基于距离的相似性标签的示例,在这种情况下,二元标签要么是“相似的”,要么是“相异的”。可能会使用其他方法,例如计算2D或3D坐标系中的两个图块之间的欧几里得距离,并且计算与两个图块的欧几里德距离负相关的数值相似性值。
由于对应于一毫米组织的像素数量取决于各种因素,诸如图像捕获设备的放大倍数和数字图像的分辨率,因此本文中将相对于所描绘的真实物理对象指定所有距离阈值,即组织样品或被组织样品覆盖的载玻片。
图4描绘了根据本发明的实施方案的用作将在自动标记的训练数据上训练的MLM的孪生网络400的架构。
孪生网络400由在其输出层424处连接的两个相同的子网络402、403组成。每个网络包括适于接收单个数字图像(例如,图块)404、414作为输入的输入层405、415。每个子网络包括多个隐藏层406、416、408、418。通过两个子网络中的相应一个子网络从两个输入图像中的一个输入图像中提取一维特征向量410、420。因此,每个网络的最后一个隐藏层408、418适于计算特征向量并且将特征向量提供给输出层424。输入图像的处理是严格分开的。这意味着,该子网络仅处理输入图像404,并且子网络仅处理输入图像414。当输出层比较两个向量以确定向量相似性,并且因此确定两个输入图像中描绘的组织图案的相似性时,两个输入图像中传达的信息唯一结合的点在输出层中。
根据实施方案,每个子网络402、403基于经过修改的残差网络-50架构(He等人,“Deep Residual Learning for Image Recognition”,2015年,CVPR’15)。根据实施方案,残差网络-50预训练的子网络402、403在ImageNet上预训练。最后一层(通常输出1,000个特征)被大小具有特征向量的期望大小(例如大小128)的全连接层408、418替换。例如,每个子网络的最后一层408、418可以被配置为从倒数第二层提取特征,由此倒数第二层可以提供比最后一层408、418多得多的特征数量(例如,2048)。根据实施方案,在训练期间使用优化器,例如具有PyTorch中的默认参数(0.001的学***和竖直翻转和/或多达20度的随机旋转,和/或亮度、对比度饱和度和/或色调值为0.075的颜色抖动增强可以应用于图块以增加训练数据集。
当孪生网络在自动标记的图像对上进行训练时,学习过程的目标是相似图像应该具有彼此相似的输出(特征向量),并且相异的图像应该具有彼此不同的输出。这可以通过最小化损失函数来实现,例如测量对比度的函数。
孪生网络400的训练包括向网络400馈送多个自动标记的相似的312、313和相异的314、315图块对。每个输入训练数据记录428包括图块对的两个图块404、414及其自动分配的、基于空间接近度的标签407。基于接近度的标签407被提供为“基本事实”。输出层424适于根据两个比较的特征向量408、418的相似性来计算两个输入图像404、414的预测的相似性标签。孪生网络的训练包括反向传播过程。预测标签426与输入标签407的任何偏差都被视为以损失函数的形式测量的“错误”或“损失”。孪生网络的训练包括通过迭代地使用反向传播来最小化损失函数计算的误差。孪生网络400可以例如如Bromley等人在“SignatureVerification using a"Siamese"Time Delay Neural Network”,1994年,NIPS’1994中所描述的那样实施。
MLM预测精度的评估
根据一个示例性实施方案,自动标记的训练数据集是从Camelyon16数据集以x10的分辨率提取的。Camelyon16训练数据集包含270个乳腺***苏木精和伊红(H&E)染色的组织全玻片图像。最初,Camelyon16数据集中的图像被分成大小为224×224的不重叠的图块。两个图块之间1792像素的最大距离被用作第一空间接近度阈值,这意味着距离小于1792像素的图块对被自动标记为“相似的”图块对。9408像素的距离用作第二空间接近度阈值,这意味着距离超过9408像素的图块对被标记为“相异的”图块。对32对近处的图块和32对远处的图块进行采样,产生7000万对的数据集,其中3500万对被标记为“相似的”,并且3500万对被标记为“相异的”。这些自动标记的图块对用于训练Simian网络400。使用对比损失作为成对图像的训练损失。孪生网络400经过24小时的训练,到那时它已经成功迭代了超过3000万个图像对,大致相当于训练集中的图像对的40%。使用PyTorch DataParallel实施方式,使用8个V100 GPU在Roche Pharma HPC上完成训练。
然后,经过训练的孪生网络的准确性在包含130个乳腺癌组织的全载玻片图像的Camelyon16测试集上得到验证。经过训练的孪生网络的准确性是学***和竖直翻转、多达20度的随机旋转、亮度、对比度饱和度和色调值为0.075的颜色抖动增强来执行数据增强。这导致了1,385,288对相邻图块和1,385,288远处的图块。
然后为测试图块对计算全局平均描述符距离比(ADDR)。ADDR由所有远处的图块对(“相异的”对)的描述符之间的平均L2距离与增强测试数据集中所有相邻图块对(“相似的”对)的描述符之间的平均L2距离之间的比率组成。此外,计算每个图块ADDR的中值。每个图块ADDR的中值由该图块所属的所有远处的对的描述符之间的平均L2距离和该图块所属的所有相邻对的描述符之间的平均L2距离之间的比率的每个图块计算组成。结果如下表所示:
Figure BDA0003257187630000321
基于该实验的结果,似乎根据所要求保护的发明的实施方案训练的MLM在测试集的描述符空间中分离近处和远处的(或“相似的”和“相异的”)图块的任务中,与其他检查的基准方法相比,优于基准方法。
基于MLM的肿瘤切片检索的评估
此外,观察到根据本发明的实施方案训练MLM的方法另外可以实现更好的图像检索性能。在进一步的实验中,评估了学习的向量输出MLM402、403执行病理图像检索任务的能力。通过将经过训练的Simian网络400的子网络中的一者单独存储在数据存储单元上并且使用该子网络(“截断的孪生网络”)作为经过训练的MLM以用于图像相似性搜索来获得向量输出MLM。
对于从Camelyon16测试集中提取的每个图块,使用所提供的肿瘤转移注释来标记它们是否属于肿瘤区域。如果图块完全位于肿瘤区域内,则该图块被标记为“肿瘤”图块。3809图块被标记为肿瘤图块,占图块总量的3%。然后,对于每个肿瘤切片,执行基于由向量输出MLM 402、403输出的特征向量的最近邻搜索,将搜索限制为来自其他载玻片的切片,以便更稳健地评估跨不同图像的描述符泛化。检索任务的结果的示例如图11所示。
Figure BDA0003257187630000331
这两个测试表明,提供了一种用于训练MLM以生成视觉上有意义的图像描述符的新型自监督方法,相比于其他基准方法,该方法在Camelyon16数据集上产生了更好的图像检索结果。源自空间距离的相似性标签已被证明可以为组织图案相似性和图像检索提供非常有意义和准确的描述符。此外,提供了一种用于数字病理数据集的改进的特征提取算法,该算法也可以应用于数字病理问题,其中难以或不可能获得监督训练的标签。这两项测试表明,基于空间接近度的相似性标签提供了真实组织相似性(例如,肿瘤/非肿瘤)的有意义的描述符。
图5描绘了图4中所示的孪生网络400的经过训练的型式400’。经过训练的孪生网络400’期望接收一对502图像(例如,图块)504、506作为输入。网络400'的经过训练的子网络402、403适于从每个输入图像中提取特征向量,由此特征向量的提取特征是相对于两个比较的数字组织图像是否相似的问题具有特定预测相关性的特征。经过训练的孪生网络的输出层424比较两个特征向量,并且根据从输入图像504、506中提取的两个特征向量来预测和输出相似性标签508。因此,经过训练的孪生网络400’适于通过计算输入图像对502的预测的相似性标签508来完成数据记录510。
图6描绘了截断孪生网络形式的向量输出MLM 600。向量输出MLM 600可以例如通过单独存储经过训练的孪生网络400'的子网络402、403中的一者来获得。与经过训练的孪生网络相比,向量输出MLM仅需要单个图像602作为输入,并且不输出相似性标签,而是输出特征向量604,该特征向量选择性地包括一组有限特征的值,在孪生网络400'的训练过程中标识为特定组织图案的特别特征并且标识为特别适于通过从两个图像中提取并且比较该组特定的特征来确定两个图像中描绘的组织图案的相似性。
图7描绘了包括一个或多个处理器714和经过训练的向量输出MLM 600的计算机***700,例如图6中所描绘的。***700适于使用向量输出MLM执行图像相似性搜索。
计算机***可以是例如标准的计算机***或服务器,其包括或可操作地耦合到数据库710。例如,数据库可以是关系BDSM,包括描绘多个患者的组织样品的成百上千个全载玻片图像。优选地,对于数据库中的每个图像,数据库包括已经由特征输出MLM 600从数据库中的所述图像提取的相应特征向量。优选地,在接收到任何此类请求之前,在单个预处理步骤中执行数据库中每个图像的特征向量的计算。然而,也可能响应于搜索请求动态地计算和提取数据库中图像的特征向量。
计算机***包括使用户702能够选择或提供要用作搜索图像704的特定图像或图像图块的用户界面。经过训练的向量输出MLM 600适于从输入图像中提取特征向量706(“搜索特征向量”)。搜索引擎708从特征输出MLM600接收搜索特征向量706并且在图像数据库中执行基于向量的相似性搜索。相似性搜索包括将搜索特征向量与数据库中的图像的每个特征向量进行比较,以便根据两个比较的特征向量来计算作为的函数的相似性得分。相似性得分指示搜索特征向量与数据库中图像的特征向量的相似度,并且因此指示两个比较图像中描绘的组织图案的相似性。搜索引擎708用于向用户返回并且输出搜索结果712。搜索结果可以是,例如,计算出最高相似度得分的数据库的一个或多个图像。
例如,如果搜索图像704是已知的描绘乳腺癌组织的图像图块,则图7中描绘的***可用于标识描绘相似的乳腺癌组织图案的多个其他图块(或包括此类图块的全载玻片图像)。
***700是向量输出MLM的输入/输出结构比孪生网络的输入/输出结构更合适的应用场景的示例。
图8描绘了包括一个或多个处理器824和经过训练的向量输出MLM 600的计算机***800。***800适于执行数字病理学任务,诸如图像分割和/或聚类分析。
该***包括图像分割引擎806,该图像分割引擎适于接收输入图像,例如全载玻片图像804,并且从输入图像生成多个图像块808。在所描绘的示例中,图块索引的范围从1到100。事实上,从全载玻片图像生成的图块数量通常要大得多,例如在数千或10,000个图块的范围内。
经过训练的向量输出MLM 600接收所生成的图块808并且从每一个图块中提取相应的特征向量。由经过训练的MLM 600计算的多个810导向器被馈送到聚类引擎812。聚类引擎适于对所接收的特征向量进行聚类,例如K均值聚类。作为聚类的结果,自动标识相似的特征向量的多个聚类(组)814。在图8所示的示例中,已经标识了三个相似的特征向量聚类(A、B和C),并且可以将其用作进一步的处理步骤的基础。例如,图像分割引擎818可以使用聚类814来标识所接收的图像804中属于相同特征向量聚类的图块。属于相同聚类的所有图块可以被标识为图像片段,如在分割结果图像822中所描绘的,其中使用不同的颜色和/或阴影指示不同的图像片段。除此之外或另选地,所标识的特征向量的聚类814可用作标识输入图像中不同类型的组织图案的基础。例如,可以对每个聚类A、B或C的一个或多个特征向量执行相似性搜索,以标识显示已知的组织类型诸如“肿瘤组织”、“轻微的背景”、“健康的基质组织”等的相似的图像。分配给在相似性搜索中标识的最相似的数据库图像的组织类型被认为是由相应的聚类表示的组织图案。因此,提供了一种用于在输入图像中自动标识不同类型的组织图案的***和方法,该方法不需要创建大量的手动注释的训练数据。
分割引擎、聚类引擎和图像分割引擎可以分别实现为例如独立的软件应用程序。另选地,引擎806、814和/或818中的一个或多个引擎可以实现为单个集成软件应用程序的子模块或程序例程。
***800是向量输出MLM的输入/输出结构比孪生网络的输入/输出结构更合适的应用场景的又一示例。
图9描绘了计算机***900,该计算机***包括一个或多个处理器902和用于确定两个图像的组织图案的相似性的经过训练的孪生网络400’。例如,孪生网络可用于所有应用场景,其中提供两个图像或图块作为输入,并且其中需要快速确定所描绘的组织图案的相似性。
图10示出了两个图块矩阵,每个矩阵由三列组成,每一列包括六个图块对。第一矩阵示出了第一组图块对(A),由彼此靠近的图块组成,这些图块被自动分配有“相似的”图块对的标签。第二矩阵示出了第二组图块对(B),它们彼此相距很远,并且被自动分配有“相异的”图块对的标签。在某些情况下,标记为“相似的”图块看起来相异,并且标记为“相异的”图块看起来相似。这种噪声是由以下事实引起的:在两个不同组织图案相遇的边界处,两个附近的图块可描绘不同的组织图案,并且甚至远处的组织区域也可以描绘相同的组织图案。这是数据集生成过程中预期的固有噪声。
申请人已经观察到,尽管存在这种噪声,但在自动标记的数据集上训练的MLM的预测是高度准确的。申请人假设所观察到的经过训练的MLM对这种噪声的稳健性是基于这样一个事实,即区域边界的面积通常小于区域非边界的面积。
根据实施方案,自动生成的训练数据集的质量是在第一步中使用先前训练的相似性网络或ImageNet预训练的网络来评估图块对的相似性,然后第二步骤基于如本文针对本发明的实施方案所述的图块的空间接近度生成相似性标签,然后校正成对的标签,其中观察到一方面在第一步骤中确定并且在另一方面在第二步骤中确定的两个图块的相似性的巨大偏差。
图11示出了图像检索任务中5个肿瘤查询切片(A、B、C、D、E)的相似性搜索结果以及从查询载玻片(A1-A5、B1-B5、C1-C5、D1-D5、E1-E5)以外的载玻片中检索到的最近的5个图块,按照从低到高的距离排序,使用由在自动标记的数据集上训练的特征输出MLM提取的特征向量,如本文针对本发明的实施方案所述。目标类别(例如,肿瘤)仅占搜索到的图块的3%。即使一些检索到的图块看起来与查询图块(例如,C3和C)非常不同,但除A4之外的所有检索到的图块都已经由专家病理学家验证为包含肿瘤细胞(即,正确的类别检索)。
参考标号列表
------------------------------------
100 方法
102-108 步骤
202-203 不同患者的组织样品
208-212 一堆相邻组织样品中的组织样品
214-218 另一堆相邻组织样品中的组织样品
220-236 分别描绘组织样品的数字图像
300 数字组织图像被切成多个图块
302 图块T1
304 图块T2
306 图块T3
308 第一空间接近度阈值(2D)
310 第二空间接近度阈值(2D)
312 标记为“相似的”图块
313 标记为“相似的”图块
314 标记为“相异的”图块
315 标记为“相异的”图块
316 训练数据
332 与图像300对准的数字组织图像
334 与图像332对准的数字组织图像
336 第一空间接近度阈值(3D)
338 第二空间接近度阈值(3D)
340 图块T4
342 图块T5
400 (未经训练的)孪生网络
400’ (经过训练的)孪生网络
402 子网络
403 子网络
404 第一输入图块
405 第一网络N1的输入层
406 隐藏层
407 基于接近度的(“测量的”)相似性标签
408 隐藏层适于计算第一输入图块的特征向量
410 从第一输入图块中提取的特征向量404
414 第二输入图块
415 第二网络N2的输入层
416 隐藏层
418 隐藏层适于计算第二输入图块的特征向量
420 从第二输入图块中提取的特征向量414
422 成对的输入图块
424 输出层连接网络N1、N2
426 预测的相似性标签
428 训练数据集的单个数据记录
502 输入图块
504 第一输入图块
506 第二输入图块
508 预测的相似性标签
510 包括输入图块对502和预测的相似性标签508的完整的数据记录
600 向量输出MLM
602 单个输入图像/图块
604 特征向量
700 计算机***
702 用户
704 单个输入图像/图块
706 搜索特征向量
708 基于特征向量的搜索引擎
710 包括多个图像或图块的数据库
712 返回的相似性搜索结果
714 处理器
800 计算机***
802 用户
804 单个输入图像/图块
806 图像分割引擎
808 多个图块
810 多个特征向量
812 聚类引擎
814 所标识的相似的特征向量的聚类
816 聚类分析结果:标识的组织类型
818 图像分割引擎
820 用户界面
822 分割的图像
824 处理器
900 计算机***
902 处理器

Claims (15)

1.一种用于数字病理学的计算机实现的自监督学习方法,所述方法包括:
-接收(102)多个数字图像,每个数字图像描绘组织样品;
-将每个所接收的图像分割(104)成多个图块;
-自动生成(106)图块对(312、313、314、315、422),每个图块对分配有标签(403),所述标签指示在所述对的两个图块中描绘的两个组织图案的相似度,其中将所述相似度计算为所述对中的所述两个图块的空间接近度(d1、d2、d3、d4)的函数,其中距离与相异性正相关,其中所述图块对(313、315)的至少一个子集包括描绘包含在一堆相邻组织切片中的两个不同组织切片中的两个组织区域的图块对,所述组织切片中的每一个组织切片是在所接收的数字图像(300、332、334)中的相应一个数字图像中描绘的组织样品,其中描绘一堆相邻组织切片中的组织切片的所接收的图像在3D坐标系中彼此对准,并且其中在所述3D坐标系内计算所述子集的所述图块对的所述图块之间的距离(d3、d4);
-使用带标签的图块对作为训练数据来训练机器学习模块—MLM—(400、402、403、600)以生成经过训练的MLM,所述经过训练的MLM适于执行数字组织病理学图像的图像分析。
2.根据权利要求1所述的计算机实现的方法,
-其中所述图块对(312、314)中的至少一些图块对描绘包含在相同组织切片中的两个组织区域,所述组织切片中的每个组织切片被描绘在所接收的数字图像中的相应一个数字图像中,其中图块之间的距离在由已经从中导出所述对中的所述图块的所接收的数字图像(300)的x维度和y维度定义的2D坐标系内计算。
3.根据前述权利要求中任一项所述的计算机实现的方法,
-其中所述图块对(313、315)的至少另一个子集包括描绘相同组织切片的两个组织区域的图块对,其中所述另一个子集的图块对的图块之间的距离(d1、d2)基于与描绘不同组织切片的所导出的图块对的子集的图块对之间的距离相同的空间接近度函数来计算。
4.根据前述权利要求中任一项所述的计算机实现的方法,每个图块描绘具有小于0.5mm、优选地小于0.3mm的最大边缘长度的组织或背景区域。
5.根据前述权利要求中任一项所述的计算机实现的方法,所述图块对的所述自动生成包括:
-使用第一空间接近度阈值(308、336)生成第一组图块对(312、313),其中由所述第一组中的每个图块对的两个图块描绘的两个组织区域彼此分开小于所述第一空间接近度阈值的距离;
-使用第二空间接近度阈值(310、338)生成第二组图块对(314、315),其中由所述第二组中的每个图块对的两个图块描绘的两个组织区域彼此分开大于所述第二空间接近度阈值的距离。
6.根据权利要求5所述的计算机实现的方法,所述第二空间接近度阈值比所述第一空间接近度阈值大至少2mm。
7.根据前述权利要求5至6中任一项所述的计算机实现的方法,
-其中所述第一空间接近度阈值是小于2mm、优选地小于1.5mm、特别是1.0mm的距离,并且/或者
-其中所述第二空间接近度阈值是大于4mm、优选地大于8mm、特别是10.0mm的距离。
8.根据前述权利要求中任一项所述的计算机实现的方法,
-其中所述MLM为孪生神经元网络(400),其包括由公共输出层(424)连接的两个相同的神经元子网络(402、403),所述两个神经子网络中的每一个神经子网络都适于从作为输入提供给所述MLM的图块对(422)的两个图块(404、414)中的相应一个图块提取特征向量(410、420),
-其中经过训练的孪生神经元网络(400')的所述输出层适于作为所述两个特征向量(410、420)的函数计算作为输入提供的每个图块对(502)的标签(508),所述标签指示作为输入提供的所述图块对(502)中描绘的两个组织图案的预测的相似性。
9.根据前述权利要求中任一项所述的计算机实现的方法,
-其中所述MLM是或包括向量输出MLM(600),所述向量输出MLM是适于接收单个数字图像或图块作为输入并且适于输出从所述图像或图块提取的特征向量的MLM,
-由此在带标签的图块对上训练所述MLM包括反向传播操作,并且其中在反向传播期间,所述MLM的预测模型发生变化,使得由所述MLM提取的所述向量中的特征包括特定的组织图案所特有的以及实现相似和相异图像对的基于向量比较的标识的特征。
10.根据权利要求8和9所述的计算机实现的方法,其中所述MLM为孪生网络,所述方法还包括提供所述向量输出MLM(600),所述向量输出MLM的所述提供包括:
-将经过训练的孪生网络(400’)的子网络中的一个子网络(402)单独存储在存储介质上;以及
-使用所存储的子网络作为所述向量输出MLM(600)。
11.根据前述权利要求9至10中任一项所述的计算机实现的方法,其还包括:
-提供数字搜索图像作为所述向量输出MLM的输入,所述搜索图像描绘组织样品或其子区域;
-由所述向量输出MLM从所述搜索图像中提取搜索特征向量;
-由相似性搜索引擎(708)在数字组织样品图像的图像数据库(710)中执行相似性搜索,所述相似性搜索引擎针对所述图像数据库中的每个图像确定所述搜索特征向量与由所述向量输出MLM提取的特征向量的相似性;以及
-返回所述数据库中特征向量与所述搜索特征向量最相似的图像作为所述相似性搜索的结果。
12.根据前述权利要求9至11中任一项所述的计算机实现的方法,其还包括:
-提供数字图像(804)作为所述向量输出MLM的输入,所述数字图像描绘全载玻片组织样品或其子区域;
-将所提供的数字图像(804)分割成多个图块(808);
-由所述向量输出MLM从所述图块(808)中的每个图块中提取特征向量;
-由聚类引擎(812)对从所述多个图块中提取的所述特征向量进行聚类,从而创建相似的特征向量的聚类;
-根据为所述图块的特征向量计算的所述聚类将所述多个图块分组为图块聚类;以及
-经由图形用户界面输出所述图块聚类。
13.根据权利要求12所述的计算机实现的方法,其还包括:
-标识所提供的数字图像(804)中的片段,其中每个片段为一组相邻的图块,并且其中每个片段内的所有图块都属于所标识的图块聚类中的同一个图块聚类;以及
-经由所述图形用户界面输出所提供的数字图像(804)中的所标识片段的光学指示。
14.一种非易失性存储介质,其包括计算机可解译指令,所述计算机可解译指令在被执行时实例化和/或执行通过根据权利要求1至13中任一项所述的计算机实现的方法生成的经过训练的机器学习模块-MLM-(400、402、403、600)。
15.一种图像分析***(700、800、900),其包括:
-至少一个处理器(714、824、902);
-易失性或非易失性存储介质,所述存储介质包括通过根据权利要求1至13中任一项所述的计算机实现的方法生成的经过训练的机器学习模块-MLM-(400’、402、403、600)。
CN202080020523.6A 2019-03-28 2020-03-26 使用基于距离的相似性标签的机器学习 Pending CN113574534A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19165965.5 2019-03-28
EP19165965 2019-03-28
PCT/EP2020/058570 WO2020193708A1 (en) 2019-03-28 2020-03-26 Machine learning using distance-based similarity labels

Publications (1)

Publication Number Publication Date
CN113574534A true CN113574534A (zh) 2021-10-29

Family

ID=66001073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080020523.6A Pending CN113574534A (zh) 2019-03-28 2020-03-26 使用基于距离的相似性标签的机器学习

Country Status (4)

Country Link
US (1) US20220139072A1 (zh)
EP (1) EP3948651A1 (zh)
CN (1) CN113574534A (zh)
WO (1) WO2020193708A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648680A (zh) * 2022-05-17 2022-06-21 腾讯科技(深圳)有限公司 图像识别模型的训练方法、装置、设备、介质及程序产品

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3731154A1 (en) * 2019-04-26 2020-10-28 Naver Corporation Training a convolutional neural network for image retrieval with a listwise ranking loss function
WO2020227710A1 (en) * 2019-05-09 2020-11-12 H. Lee Moffitt Cancer Center And Research Institute, Inc. Systems and methods for slide image alignment
US11423678B2 (en) 2019-09-23 2022-08-23 Proscia Inc. Automated whole-slide image classification using deep learning
US11556848B2 (en) * 2019-10-21 2023-01-17 International Business Machines Corporation Resolving conflicts between experts' intuition and data-driven artificial intelligence models
US11861881B2 (en) 2020-09-23 2024-01-02 Proscia Inc. Critical component detection using deep learning and attention
CN112241452B (zh) * 2020-10-16 2024-01-05 百度(中国)有限公司 一种模型训练方法、装置、电子设备及存储介质
WO2022090205A1 (en) * 2020-10-30 2022-05-05 Genfit A method and a system for obtaining a training dataset usable for training a neural network to detect cells, using color deconvolutions and geometrical attributes
CN112381798A (zh) * 2020-11-16 2021-02-19 广东电网有限责任公司肇庆供电局 一种输电线路缺陷识别方法和终端
CN112819802B (zh) * 2021-02-09 2024-03-05 东北大学 基于风口信息深度学习的监督及预测高炉炉况异常的方法
CN117859123A (zh) * 2021-06-02 2024-04-09 基因泰克公司 全载玻片图像搜索
CN113838058B (zh) * 2021-10-11 2024-03-19 重庆邮电大学 一种基于小样本分割的医学图像自动标注方法及***
US20230215145A1 (en) * 2021-12-30 2023-07-06 Leica Biosystems Imaging, Inc. System and method for similarity learning in digital pathology
CN116681839B (zh) * 2023-08-02 2024-02-23 深圳市森歌数据技术有限公司 一种基于改进NeRF的实景三维目标重建与单体化方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9805248B2 (en) * 2014-08-29 2017-10-31 Definiens Ag Applying pixelwise descriptors to a target image that are generated by segmenting objects in other images
US10716457B2 (en) * 2015-10-14 2020-07-21 Siemens Aktiengesellschaft Method and system for calculating resected tissue volume from 2D/2.5D intraoperative image data
JP6960935B2 (ja) * 2016-03-01 2021-11-05 ベンタナ メディカル システムズ, インコーポレイテッド コントロールスライドを使用する改善された画像解析アルゴリズム
EP3488366B1 (en) * 2016-07-22 2022-01-05 Case Western Reserve University Methods and apparatus for predicting benefit from immunotherapy using tumoral and peritumoral radiomic features
CN109643450A (zh) * 2016-08-31 2019-04-16 皇家飞利浦有限公司 用于从组织活检物中检测管状物的装置
US11195274B2 (en) * 2017-08-03 2021-12-07 Nucleai Ltd Systems and methods for analysis of tissue images

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648680A (zh) * 2022-05-17 2022-06-21 腾讯科技(深圳)有限公司 图像识别模型的训练方法、装置、设备、介质及程序产品

Also Published As

Publication number Publication date
WO2020193708A1 (en) 2020-10-01
EP3948651A1 (en) 2022-02-09
JP2022525288A (ja) 2022-05-12
US20220139072A1 (en) 2022-05-05

Similar Documents

Publication Publication Date Title
CN113574534A (zh) 使用基于距离的相似性标签的机器学习
CN113454733B (zh) 用于预后组织模式识别的多实例学习器
JP7231631B2 (ja) 腫瘍空間異質性およびインターマーカ異質性の計算方法
US11756318B2 (en) Convolutional neural networks for locating objects of interest in images of biological samples
JP7250793B2 (ja) 生体画像における連帯的細胞および領域分類のための深層学習システムならびに方法
CN111448569B (zh) 存储和检索数字病理学分析结果的方法
CN114730463A (zh) 用于组织图像分类的多实例学习器
US10121245B2 (en) Identification of inflammation in tissue images
WO2019048954A1 (en) DETERMINATION OF COLORING QUALITY OF FABRIC
JP7422235B2 (ja) 腫瘍検出および分析を支援するための非腫瘍セグメンテーション
CN115088022A (zh) 用于训练机器学习算法和维护患者隐私的联邦学习***
CN114600155A (zh) 用于细胞检测和分割的弱监督多任务学习
JP6882329B2 (ja) Ihc画像解析のための空間インデックス作成
JP7504116B2 (ja) 距離ベース類似性ラベルを使用する機械学習
Sui et al. Point supervised extended scenario nuclear analysis framework based on LSTM-CFCN
Sabata Digital pathology imaging-The next frontier in medical imaging
Santamaria-Pang et al. Epithelial cell segmentation via shape ranking
Nandy Segmentation and informatics in multidimensional fluorescence optical microscopy images
Beaussart Cell type identification using Deep Learning Model trained with cell type information transferred from mIF to co-registered H&E images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40053751

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination