CN112106107A - 显微镜切片图像的聚焦加权的机器学习分类器误差预测 - Google Patents

显微镜切片图像的聚焦加权的机器学习分类器误差预测 Download PDF

Info

Publication number
CN112106107A
CN112106107A CN201880093264.2A CN201880093264A CN112106107A CN 112106107 A CN112106107 A CN 112106107A CN 201880093264 A CN201880093264 A CN 201880093264A CN 112106107 A CN112106107 A CN 112106107A
Authority
CN
China
Prior art keywords
classifier
image
defocus
tile
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880093264.2A
Other languages
English (en)
Inventor
M.斯顿普
T.科尔伯格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN112106107A publication Critical patent/CN112106107A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/693Acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Processing (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Microscoopes, Condenser (AREA)

Abstract

描述了用于生成对放大的数字显微镜切片图像(例如组织样本的图像)的分类误差的预测的方法。该图像包括像素图像数据的多个图块或拼块。使用机器学习失焦分类器计算每个图块的失焦度。检索表示机器学习分类器针对多个失焦度的预期的分类器误差统计信息的数据。基于每个图块的计算的失焦度,计算预期的分类器误差统计信息到数字显微镜切片图像的每个图块的映射,从而生成每个图块的分类器误差预测。如此生成的分类器误差预测被在所有图块上汇总。

Description

显微镜切片图像的聚焦加权的机器学习分类器误差预测
背景技术
本公开涉及用于生成对由机器学习分类器针对显微镜切片图像生成的分类误差的预测的方法。通过图像的各部分失焦(out-of-focus,“OOF”)的程度对预测的误差进行加权。
在组织病理学的医学领域中,人体组织样本(其被制备在玻璃切片上)的显微图像用于进行癌诊断。在经典组织病理学中,由专家使用显微镜视觉地诊断组织样本。相比之下,在数字病理学的较新子领域中,首先通过全切片扫描仪获取样本的高分辨率数字图像,然后在后续步骤中在计算机屏幕上进行诊断。替代地,可以通过机器学习算法(通常体现为深度卷积神经网络)来辅助识别组织图像中的癌性细胞,该机器学习算法被训练为在放大的组织图像中寻找癌细胞。这样的算法可以生成所谓的“热图(heat map)”图像,在该“热图”图像中,用对比色(例如,红色)示出切片的区域,以指示被预测包含癌细胞的区域。
来自全切片扫描仪的组织图像通常为千兆像素大小(例如,40X放大率下的100,000x 100,000像素)。然而,主要的技术问题之一是数字化图像的区域可能经常模糊和失焦,使得相应的图像区域无法用于人类病理学家和机器学***坦且不在同一焦平面内。
景深与放大率成反比,因此在高放大率下景深仅极浅。景深(也称为“聚焦范围”),尤其是在高放大率下,通常接近或甚至小于要被捕获的组织的厚度。而且,组织样本通常不是完美地平面的,而是不平坦的,并且其厚度也经常变化。因此,在以较小的条纹或拼块(tile)捕获图像时切片扫描仪通常采用局部自动聚焦方法,然后将条纹或拼块数字地拼接在一起以形成全切片图像。不同扫描仪制造商采用的自动聚焦解决方案都不是完美的,而是在某些图像区域可能无法将大部分组织保持在聚焦范围内,从而导致不同程度的失焦模糊。
因此,自动聚焦算法的主要挑战是区分(a)由具有光滑外观的组织导致的焦点对准图像区域中的模糊与(b)由不同程度的失焦导致的任何组织图案的模糊。次要挑战是防止聚焦在“盖玻片(cover slip)”(覆盖组织样本的塑料或玻璃切片)顶上的外来微粒(例如灰尘或碎屑)上,这些外来微粒通常导致组织远在聚焦范围之外。
有关量化组织图像的失焦程度的问题和相关主题的文献包括:G.Campanella等人的对于机器学习的质量控制:数字病理学中清晰度量化的基准(Towards machine learnedquality control:A benchmark for sharpness quantification in digitalpathology),计算机医学成像与图形学(Computerized Medical Imaging and Graphics)(2017)https://doi.org/10.1016/j.compmedimag,2017.09.001;K.Kayser等人的如何在基于组织的诊断(诊断外科病理学)中测量图像质量(How to measure image quality intissue-based diagnosis(diagnostic surgical pathology)),来自第9届欧洲远程病理学大会和第3届国际虚拟显微镜学大会,西班牙托莱多,诊断病理学2008 3(增刊1);J.Liao等人的对具有连续样本移动的全切片成像[sic]的快速聚焦图研究(Rapid focus mapsurveying for whole-slide imaging with continues[sic]sample motion),arXiv:1707.03039[cs.CV],2017年6月;S.Shakeri等人的用于数字病理学的全切片成像***的光学质量评估(Optical quality assessment of whole-slide imaging systems fordigital pathology),光学快报,第23卷,第2期,1319-1336页(2015);X.Lopex等人的用于组织学全切片成像的自动模糊检测方法(Automated Blur Detection Method forHistological Whole-slide Imaging),公共科学图书馆:PLOS one,(2013年12月13日),https://doi.org/10.1371/journal.pone.0082710;Samuel Yang等人的“通过深度学习评估显微镜图像聚焦质量(Assessing microscope image focus quality with deeplearning)”,BMC生物信息学(2018)19:77;和M.Gurcan等人的组织病理学图像分析:评论(Histopathological Image Analysis:A Review),IEEE生物医学工程评论,2009;2:147-171。
本发明人已经认识到,切片失焦的程度会影响机器学习诊断或癌细胞识别的准确性,并且需要对聚焦加权(focus-weighted)的机器学习疾病分类器中的误差(即,该误差具体地归因于显微镜切片图像的各部分失焦的程度)进行量化。本公开解决了该需求。
发明内容
在一个方面,公开了一种用于生成对样本的放大的数字显微镜切片图像的分类误差的预测的方法。样本可以采取组织样本(例如,***或***样本)的形式,但是可以使用其他类型的样本。该方法包括以下步骤:
(a)用切片扫描仪扫描包含样本的显微镜切片,并生成数字显微镜切片图像,该数字显微镜切片图像包括像素图像数据的多个图块;
(b)计算数字显微镜切片图像的每个图块的失焦度;
(c)检索(retrieve)表示机器学习分类器针对多个失焦度的预期的分类器误差统计信息的数据;
(d)基于在步骤(b)中计算出的每个图块的计算的失焦度和在步骤(c)中检索的数据,计算预期的分类器误差统计信息到数字显微镜切片图像的每个图块的映射,从而生成每个图块的分类器误差预测;和
(e)在所有图块上汇总在步骤(d)中生成的分类器误差预测。
在一种配置中,由失焦(OOF)分类器来执行每个图块的计算的失焦度。从合成地模糊的失焦图像来训练OOF分类器。通过模拟(a)数据压缩和噪声伪像、(b)平移抖动和(c)亮度扰动以及(d)应用计算散景滤波器中的一个或多个来生成失焦图像。在一种配置中,通过模拟(a)、(b)、(c)和(d)的全部来生成OOF图像。
在另一方面,公开了一种病理***,其组合包括:
a)适于生成显微镜切片的数字切片图像的切片扫描仪;
b)存储器,该存储器存储:
1)卷积神经网络(OOF分类器)的参数,该卷积神经网络经训练以计算由切片扫描仪生成的数字显微镜切片图像的每个图块的失焦度;
2)表示机器学习分类器针对多个失焦度的预期的分类器误差统计信息的数据;和
c)计算机,其被配置为用于(1)使用深度卷积神经网络计算数字显微镜切片图像的每个图块的失焦度,(2)基于每个图块的计算出的失焦度,计算预期的分类器误差统计信息到数字显微镜切片图像的每个图块的映射,从而生成每个图块的分类器误差预测;和(3)计算所有图块上的分类器误差预测的汇总。
OOF分类器可以采用浅层神经网络的形式,例如,具有三个卷积层的神经网络,或采用深度神经网络的形式,例如,具有10个或18个卷积层的神经网络。如上所述,从OOF图像训练OOF分类器,可以通过模拟以下中的一个或多个来生成OOF图像:(a)数据压缩和噪声伪像、(b)平移抖动和(c)亮度扰动以及(d)应用计算散景滤波器。在一种配置中,通过模拟(a)、(b)、(c)和(d)的全部来生成OOF图像。
在一种配置中,显微镜切片包含***组织样本。训练机器学习分类器以将格里森得分分配给***组织图像的各个部分。在另一种配置中,组织样本包含获自乳腺癌患者的***样本。在这种情况下,训练机器学习分类器以将癌/无癌标签分配给***组织图像的各个部分。
在一种配置中,存储器和计算机位于切片扫描仪的本地。替代地,存储器和计算机远离切片扫描仪,例如在局域网络上的计算资源中,该局域网络连接到云中的服务提供商计算资源上的切片扫描仪。
在另一方面,描述了一种用于生成对样本的放大的数字显微镜切片图像的分类误差的预测的方法。数字显微镜切片图像包括像素图像数据的多个图块。该方法包括以下步骤:
(a)计算数字显微镜切片图像的每个图块的失焦度;
(b)检索表示机器学习分类器针对多个失焦度的预期的分类器误差统计信息的数据;
(c)基于在步骤(a)中计算出的每个图块的计算的失焦度,计算预期的分类器误差统计信息到数字显微镜切片图像的每个图块的映射,从而生成每个图块的分类器误差预测;和
(d)汇总在所有图块上在步骤(c)中生成的分类器误差预测。
每个图块的失焦度的计算可以由卷积神经网络(例如,浅层或深度CNN)来执行,该卷积神经网络经训练以通过失焦程度对组织图像的图块进行分类。如上并且在具体实施方式中将详述地解释地,从合成地模糊的图像训练该CNN(此处为OOF分类器)。
在又一方面,公开了一种用于表征分类器的方法,该分类器被配置为生成组织样本或其部分的数字显微镜切片的分类标签。该方法包括以下步骤:
a)获取(例如,通过API调用接收)一组切片图像(图2的“主图像”),每个切片图像包括像素图像数据的图块,该像素图像数据的图块焦点对准并与每个图像图块的基准真相标签相关联;
b)定义一组失焦度,并且对于每个度:
1)将相应量的合成失焦应用于该组切片中图像的每个图块;
2)计算图像中每个图块的分类误差;和
3)计算图像中所有图块上的误差度量;
c)将针对在步骤b)中定义的所有度在步骤b)3)中计算出的误差度量存储为分类器针对在步骤b)中定义的失焦度的预期的误差;以及
d)对所述组中的每个切片图像重复步骤b1)、b2)、b3)和c)。
在步骤b)2)中计算的误差度量可以采取平均误差的形式。也可以将其计算为曲线(AUC)度量下的接收器操作特性(ROC)面积。该后一种方法需要首先计算所有图块上的ROC曲线,然后计算其下的面积(“曲线下面积”)。因此,它不是按单独的图块进行计算并随后汇总的度量。
因此,在一个变型中,在上述方法步骤b)中,定义了一组失焦度,并且对于每个度,该方法包括执行步骤1)-4):
1)将相应量的合成失焦应用于该组切片中图像的每个图块;
2)计算分类预测和概率。
3)在所有图块上针对基准真相标签计算接收器操作特性(ROC)曲线,以及
4)计算ROC曲线下的面积(=AUC)。
在一个实施例中,该方法可以进一步包括以下步骤:对该组中的切片图像在不同的放大率下重复步骤b)、c)和d)。这导致生成在不同放大率下切片图像的分类器误差统计信息。在一个实施例中,该方法可以进一步包括对于不同制造商的多个不同的切片扫描仪中的每一个至少重复步骤a)、b)、c)和d)一次的步骤。不同制造商的不同切片扫描仪可能会产生不同质量的图像,因此分类器误差统计信息可能因机器而异。在该实施例中,针对一组不同的切片扫描仪中的每一个获得分类器误差统计信息,使得本公开的方法可以一般地用于来自不同制造商的多种不同机器。
在一个实施例中,使用计算散景滤波器来获得应用于主图像的合成失焦度。可以使用其他用于人为地模糊主图像的方法。我们的实验表明,计算或数字散景(Bokeh)滤波是优选方法。例如,可以通过模拟在OOF分类器开发中使用的OOF方法来生成合成失焦度,如以下所解释的(模拟JPG压缩伪像、亮度扰动和平移抖动)。
在另一方面,描述了失焦(OOF)分类器和训练方法。OOF分类器是卷积神经网络(CNN)的形式,并且可以被配置为深度或浅层CNN。该方法包括合成地模糊一组训练图像的步骤。通过模拟以下中的一个或多个来产生合成地模糊的图像:(a)数据压缩(例如,JPG压缩)和噪声伪像、(b)平移抖动、(c)亮度扰动以及(d)计算散景滤波;并用合成地模糊的图像训练OOF分类器,以按失焦程度对合成地模糊的图像进行分类。在一个实施例中,使用(a)、(b)、(c)和(d)的全部来产生合成地模糊的图像。
附图说明
图1是示出对数字显微镜图像预测聚焦加权的疾病分类器误差的过程的流程图。
图2是示出用于生成和计算用于图1的方法的预期的疾病分类器误差统计信息的过程的流程图。该流程图在从特定制造商的特定全切片扫描仪获得的一组焦点对准的、基准真相标注图像(ground truth annotated image,本文中为“主图像(master image)”)上执行。该图像由多个(a multitude of)像素图像数据图块(patch)组成。可以重复该过程几次以为不同制造商或不同品牌和型号的不同全切片扫描仪生成预期的疾病分类器误差统计信息,因为预期的疾病分类器误差统计信息可能在不同品牌和型号的切片扫描仪之间不同。
图3是对于两个主图像、针对不同程度的失焦、每个图块计算出的平均疾病分类器误差的图示。
图4是表示在所有参考图像上进行平均的针对不同失焦度的预期的疾病分类器误差统计信息的数据的图示。图4中示出的数据存储在存储器中,并用于根据图1和图6的过程计算新切片的聚焦加权的疾病分类器误差。
图5是对于所有主图像针对失焦程度的疾病分类器误差的图示。
图6是使用图4的存储的误差统计信息并根据图2生成的、根据图1预测新切片的聚焦加权的疾病分类器误差的过程的更详细图示。
图7是根据图6计算的每个图像图块的预期的疾病分类器误差的图示。
图8是图1的方法在具有全切片扫描仪和联网的病理工作站的计算环境中的一种应用的图示。
图9是图1的方法在具有全切片扫描仪和联网的病理工作站的计算环境中的第二应用的图示,其中,聚焦加权的疾病分类器误差的生成发生在远程网络中的计算***中,并且结果被传输到病理工作站。
具体实施方式
数字病理学正在推进到临床工作流程,其主要受使用新机器学习技术的强大图像分析工具的潜力驱动,并且通过最近在美国对用于初步诊断的第一台全切片图像(WSI)扫描仪的监管批准以及用于处理千兆像素图像文件的云存储和大型IT基础设施的更广泛可用性而成为可能。但是,数字化过程将伪像源加入成像过程,包括颜色或对比度问题以及失焦区域。这些伪像,尤其是失焦区域,可能会负面地影响数字切片图像用于病理学家进行准确诊断的适合性或自动图像分析的准确性。人类病理学家通常会将这样的图像标记为低质量,并下令进行重新扫描,这可能会导致病例长期延误。更糟糕的是,在自动图像分析中,这样的图像伪像会直接转化为检测和分类误差。例如,一些研究发现***的假阳性可以追溯到不良的聚焦质量,例如失焦的生发中心被算法误认为是肿瘤转移。
减轻这些问题的一种选择是让技术人员预先筛查扫描仪产生的所有数字切片。然而,从时间和成本的角度来看,这种类型的人工质量控制是不切实际的,甚至对于彻底筛查小伪像也不可行。另一种选择是进行自动质量控制和对聚焦质量进行评估,这没有任何上述限制。尽管每个WSI扫描仪具有内置的聚焦评估,其可用于自动重新扫描受影响的区域或进行质量报告,但现有方法仍存在一些不足:(1)尽管有该内置的聚焦评估,但WSI扫描仪扫描的许多切片仍然具有失焦区域,(2)扫描仪之间的聚焦评估方法不同,妨碍在设备之间进行比较,(3)聚焦度量通常无法以足够的详细信息,例如聚焦质量的空间分布,导出给用户,以及(4)评估未考虑聚焦质量的临床相关性。例如,基于细胞特征的诊断(例如乳腺癌转移的检测)通常需要甚至比主要基于较大组织形态的诊断(例如***腺癌格里森分级)更高的聚焦质量。
本文引入解决所有这些缺点的聚焦质量评估-其提供了与人工评估的聚焦质量高度一致的普遍适用的度量,可以适用于任何WSI而与扫描设备无关,并提供WSI上的聚焦质量的空间信息。此外,我们研究了用于肿瘤检测的两种诊断模型的聚焦敏感性,并引入了一种质量度量,该质量度量考虑了对手头特定临床诊断任务的聚焦质量的影响,从而提供切片图像的相关性加权的质量得分。
方法在较高层次上在图1中示出。该方法利用深度卷积神经网络,其经训练以识别数字显微镜图像中的疾病或肿瘤细胞(在此为“分类器”或“疾病分类器”)。该深度卷积神经网络或机器学习模型未在图1中示出,但可以按照标题为“用于协助病理学家在放大组织图像中识别肿瘤细胞的方法和***(Method and System for Assisting PathologistIdentification of Tumor Cells in Magnified Tissue Images)”的PCT申请中所述地进行配置,该PCT申请的序列号为PCT/US17/019051,于2017年2月23日提交,公开号为WO2018/156133,其内容通过引用合并于此。深度卷积神经网络模式识别器在模式识别和机器视觉领域中是众所周知的,并且因此为了简洁起见省略了对其的详细描述。科学文献中描述了谷歌Inception-v3深度卷积神经网络架构,其是一个合适的架构。参见以下参考文献,其内容通过引用合并于此:C.Szegedy等人的深入卷积(Going Deeper with Convolutions),arXiv:1409.4842[cs.CV](2014年9月);C.Szegedy等人的重新思考计算机视觉的Inception架构(Rethinking the Inception Architecture for Computer Vision),arXiv:1512.00567[cs.CV](2015年12月);另见C.Szegedy等人的于2015年8月28日提交的序列号为14/839,452的美国专利申请“使用深度神经网络处理图像(Processing ImagesUsing Deep Neural Networks)”。被称为Inception-v4的***被认为是替代架构。参见C.Szegedy等人的Inception-v4、Inception-ResNet和剩余连接对学习的影响(Inception-v4,Inception-ResNet and the Impact of Residual Connections on Learning),arXiv:1602.0761[cs.CV](2016年2月)。另见于2016年12月30日提交的序列号为15/395,530的C.Vanhoucke的美国专利申请“图像分类神经网络(Image Classification NeuralNetworks)”。这些论文和专利申请中对卷积神经网络的描述通过引用合并于此。
基本上,在图1的方法中,在步骤100中,针对不同程度的失焦获得上一段中描述的疾病分类器神经网络的预期的疾病分类器误差统计信息。在图2中示出并且将在下文详细描述从呈聚焦的、基准真相标注图像的形式并且被人为地模糊到不同的失焦程度的一大组主图像获得这些统计信息的方式。替代方法是使用部分失焦扫描作为主图像,其通过运行OOF分类器(如下所述)来确定焦点对准的图块,并在这些图像图块上运行图2的“校准算法”的其余部分。一旦通过任何一种方法获得这些统计信息,就如102所示将其存储,然后如步骤104所示稍后对其进行使用。在某种意义上,步骤100可以被视为准校准步骤。基本上,我们进行对基于图块的误差的测量(对于二元疾病分类器通过AUC,并且对于多类别分类器通过科恩的Kappa(Cohen’Kappa)),并假设在将疾病模型应用于相同组织和染色类型(staintype)并且聚焦质量相似的其他数字化病理学图像时,这些测量是相似的。因此,可以说在步骤100中,我们将图块级别的误差度量(分别为AUC和科恩的kappa)校准到OOF度级别。
在步骤104,我们使用存储的误差统计信息(步骤102)来预测先前未见过(即“新”)的组织图像上的聚焦加权的疾病分类器误差。在使用时,即,当全切片扫描仪捕获新组织图像并且在将诊断或标签分配给该图像或其一部分之前用户希望理解疾病分类器误差时,执行步骤104。步骤104利用第二卷积神经网络(“OOF分类器”),该第二卷积神经网络经训练以识别新图像中的图块失焦的程度。该卷积神经网络可以是深度(例如,18个卷积层)或浅层(例如,3个卷积层)的,我们的研究表明具有3个卷积层的浅层神经网络表现良好。OOF分类器的架构也可以如先前所述。在一种可能的配置中,可以按照Samuel Yang等人的下述文献来对其进行配置和训练:“通过深度学习评估显微镜图像聚焦质量(Assessing microscopeimage focus quality with deep learning)”,BMC生物信息学(2018)19:77。步骤104在图6中更详细地示出。我们的方法(类似于Yang等人)与先前在背景技术中引用的Campanella等人的方法之间的一个显著差异在于后者在合成模糊之后不施加合成噪声(以模拟几乎被合成模糊完全消除的原始图像传感器像素噪声)。在我们的实验中,我们发现合成噪声对于根据合成训练数据来训练适当的OOF分类器非常重要。没有它,我们发现分类器无法检测到特别强的实际OOF,其中噪声非常明显。
我们的研究示出,在训练前一段中提及的OOF分类器时,优选执行附加的数据增强步骤。这些步骤包括模拟(a)数据压缩和噪声伪像、(b)平移抖动和(c)亮度扰动。除了计算散景滤波(computational Bokeh filtering,如下所述)或替代计算散景滤波,将所有这些在训练中进行组合是可能且有利的。现在将更详细地对这些进行描述。
(a)数据压缩和噪声伪像
在开发OOF分类器期间,通过在验证测试集上对预测的OOF热图进行定性评估来人工调整所有模型的超参数。在这些实验中,在散景式(Bokeh-style)或高斯模糊合成样例上被训练的CNN在实际的OOF图像上产生较差的预测准确性;错误地将几乎所有OOF测试图块预测为焦点对准。我们假设这是由人工平滑消除了实际伪像所导致的。例如,可以在人为模糊的图像中平滑掉在扫描道(scan lane)和JPEG块边缘的网格状伪像,但该网格状伪像会出现在实际的OOF图像中。因此,在合成模糊之后重新添加了几个类别的其他伪像类型,以探索其重要性。
在高放大率下将合成地模糊的实际焦点对准图像与实际OOF进行视觉比较显露除了OOF以外的其他伪像:像素噪声,其最可能源自于图像传感器;和JPEG压缩伪像,其可能起源于扫描仪后数字化(post digitization)所施加的有损JPEG压缩。我们发现后者已应用所有我们的训练和测试图像,压缩级别范围为40%至90%。大多数扫描仪型号采用后数字化。但是,在合成地模糊的图像中,这两个其他伪像都微弱或几乎不存在,这取决于合成模糊大小,即使它们存在于实际的焦点对准输入图像中也是如此。这是因为像素噪声和JPEG伪像两者通常包括高空间频率,这些高空间频率因模糊而减弱。
因此,将模拟的JPEG压缩伪像添加回到合成地模糊的图像中,这通过JPEG编码和解码以及在40%到90%之间选择的图像质量参数来实现,这些是从中获得我们的图像的扫描仪所使用的一般压缩设置。
关于模拟像素噪声,众所周知,图像传感器在数字化时产生泊松分布的噪声。因此,通过经由xc=P xc*s将每个颜色通道值xc∈[0,1],c∈{R,G,B}映射到带有噪声的版本xc′,来模拟逐像素泊松噪声,其中,P表示泊松分布,而s相反地控制信噪比。由于观察到后者在不同的扫描仪和物镜放大率之间显著不同,因此通过对于每个训练图块从区间[0.01,64.0]中随机采样s可以改变训练期间的噪声部分,与使用固定信噪比相比,这附加地显示了更好的实验结果。尽管JPEG伪像和泊松噪声这两种数据增强都显著降低了假焦点对准阳性,但仍可以提高整体准确性,因此探索了模拟(b)和(c)。
(b)平移抖动
通过向每个139×139训练图块添加+/-8像素(水平和垂直两者)范围内的平移扰动,观察到更明显的预测增益。这是通过首先获取155×155图像图块,然后在其中裁剪随机平移放置的139×139区域来实现的。
(c)亮度扰动
通过在扰动训练图块的亮度时实现另一更通用的数据增强,最终获得OOF分类器的整体准确性的大幅提高。在此步骤中,添加了对训练图块中所有像素的随机负/正强度偏移(即,对所有三个RGB颜色通道的固定正/负增量值)。更特别地,对于每个训练样例,使用从区间[-0.8,+0.8](随后是裁剪为[0,1])中随机选择的强度移位(shift)来偏移(offset)[0,1]范围内的RGB值。在Liu等人的在千兆像素病理学图像上检测癌转移(DetectingCancer Metastases on Gigapixel Pathology Images)、arXiv[cs.CV](2017)中提出了类似的方法,该文可在http://arxiv.org/abs/1703.02442获得,其支持OOF图像在亮度上会显著变化的假设,因此分类器对于亮度变化应当相对不变。
此外,添加了对训练图块的对比度、色相和色饱和度的随机扰动,但只有对比度扰动带来了较小的性能增益。
图2是更详细地示出图1的步骤100的流程图。图2中所示的过程是要计算分类器的预期的分类误差统计信息。如在200所示,我们获得给定组织类型(例如,乳腺癌患者的***或***组织)的多个(例如,100个左右,可能更多,例如1000个或数万个,并且可选地以不同的放大率级别)完全焦点对准的、基准真相标注的数字显微镜切片图像。这些图像200在本文中被称为“主图像”。这些图像可以从不同制造商的扫描仪获得。每个图像图块都存在基准真相标签,即(i)***乳腺转移的癌/无癌,或(ii)***组织的格里森得分。这些千兆像素图像包括多个矩形像素图块或拼块,在框208中以210示出图块。图块标注可以由经训练的病理学家或一队病理学家人工执行。图块的大小可以根据组织类型和所使用的特定疾病分类器而变化。在使用一队病理学家分配基准真相(图块标注)的情况下,基准真相是从同一图块的多个标注确定的。如果没有一致意见,则可以使用以下方法:(a)多数票决,(b)迫使病理学家/标注者对不同意票数高于阈值或大于零的每个图块进行裁定;(c)应用(a)并针对没有多数票决的图块(例如,对于如格里森的多类别标签),然后进行(b)。
在步骤202,我们将合成(人为)失焦模糊与水平固定的像素噪声一起添加到图像200,两者都以不同程度。模糊以模糊的不同程度或量添加,由参数Y指示,其中,Y可以取从0(无模糊)到N的整数值,其中,N可以是4、10或某个其他数字,例如29。与此相比,合成噪声(准确地说是乘法泊松噪声)的程度不取决于Y,而是从一个范围中随机选择,该范围之前根据测量(非模糊)原始图像的噪声水平而确定。如循环204所示,我们重复产生合成OOF模糊的过程,并对所有Y值执行步骤206和212。OOF模糊优选使用计算散景滤波器(computational Bokeh filter)来执行,该计算散景滤波器的细节在Tim McGraw的以下论文中进行了解释:使用低秩线性滤波器的快速散景效果(Fast Bokeh Effects Using Low-Rank Linear Filters),视觉计算机,第31卷第5期(2014年5月),其内容通过引用合并于此。在McGraw的论文第3页描述的加和面积表方法是用于本申请的合适方法。我们发现使用高斯模糊样例训练的模型高估了弱OOF区域,而低估了强OOF区域。因此,我们接下来用散景模糊(滤波)进行了实验,散景模糊是对底层光学器件在物理上更准确的表示。通过将图像与圆形阶跃函数(step-function)核进行卷积来实现散景模糊。
然后,对于每个失焦程度(Y=0...N),执行步骤206和212。在步骤206,我们使用疾病分类器执行推断,并将标签(例如,癌/无癌或格里森得分)分配给该OOF程度的图像之一中的图块中的每一个。步骤206的结果可以被表示为“热图”,其示出全切片200中每个图块的预测的疾病概率。该热图在208示出,其中,图块210未按比例显示。例如,组织团(tissueblob)中的小圆圈可以是红色的,以指示包含癌细胞的高概率。
在步骤212,我们首先使用在步骤206生成的预测和每个图块的基准真相标注来计算每个图块的疾病分类器误差。然后,我们将这些结果进行汇总,以计算针对该特定失焦度Y在所有图块预测上的平均误差=1–AUC。然后,我们将该结果存储为针对该合成模糊水平和该特定疾病分类器的预期误差。请注意:1-AUC误差度量适用于2类疾病分类器。对于多类别分类器,其他度量适用。在下面进一步详细描述这样的度量。
如步骤214所示,我们对具有基准真相的每个焦点对准图像200重复循环204。
通过针对每个OOF程度重复步骤206和212,我们得到如图3所示的表。针对每个OOF度(0、1、2...),我们在步骤212中针对每个主图像200(标识为病例1、病例2、...)计算了平均误差。
然后,在步骤216,我们在所有病例/主图像上对每个OOF度的误差进行了平均。如在循环218所示,我们针对不同的扫描放大率重复该过程,从而获得在不同放大率下所有图像的预期的疾病误差统计信息。可以从对图像200进行上采样或下采样或者通过获得物理组织切片而不是图像200并以不同放大率对其进行扫描来获得不同的放大率。然后,将结果存储在图4中所示的表220中。图4显示了在不同放大率水平下不同失焦度的预期疾病分类器误差统计信息。
将会理解,图2的过程可以针对不同类型的主图像200和疾病分类器执行多次,例如,针对一组焦点对准的***主图像和***转移分类器执行一次,并且针对一组焦点对准的***组织主图像和***格里森评分分类器执行一次。另外,可以重复执行图2的过程,以生成不同品牌和型号的全切片扫描仪的疾病分类器误差统计信息。例如,可以执行图2的过程一次,以生成Hamamatsu全切片扫描仪的疾病分类器误差统计信息,然后针对Aperio线扫描全切片扫描仪或当前商用的其他品牌和型号执行第二次。这是因为疾病分类器误差统计信息可能会因扫描仪的不同而有所不同,原因是扫描仪在图像和聚焦质量方面的表现有所不同。
图5在特定疾病分类器(在此示例中为对像素图块的***转移分类)在给定放大率本领下的疾病分类器性能(AUC度量)的图表方面示出图2的结果的示例。X轴指示失焦程度(0为完全焦点对准)以及在每个失焦程度下的图像500、502、504和506的示例。在图5中,仅显示了高达“3”的OOF度,但可以为其他OOF度绘制AUC性能的图表(图5中未显示)。从图5中将看出,按照预期的,疾病分类器对于OOF度0(完全焦点对准)具有最高的分类准确性,而对于OOF度1和2,分类准确性显著下降,并且对于OOF度3则分类准确性更低。从图4还将理解,尽管疾病误差统计信息表明疾病分类器在40X放大率下的性能比20X和10X放大率下高,但不一定对所有类型的疾病分类器都如此,并且对于某些疾病分类器,分类器的性能可能实际上在较低放大率(10X)下要比较高放大率下高,例如,当较大尺度结构和组织形态在生成在较低本领下最容易被理解的疾病分类时很重要时。
一旦根据图2的过程获得并存储了疾病分类器误差统计信息,就可以在使用时将它们用于新(先前未见过)的数字放大组织图像,以生成该图像的全部或部分的疾病分类器误差预测。该过程示出在图1中的104,并且更详细地在图6中示出。“新”组织图像在600示出。在步骤602,我们使用先前描述的OOF分类器(深度或浅层CNN)对图像600执行推断。如以上所解释的,从合成地模糊的训练图像训练该分类器,以使用在图2中所用的失焦度尺度(在此示例中,Y=0…29,其中,0为完全焦点对准,而29为完全失焦)来生成对图像600中的每个图块失焦程度的预测。推断步骤206的结果可以表示为图像600的热图,例如在604所示,其中,根据热图604右边的标尺,图像中失焦较多的图块着浅色,而焦点对准较多的区域被赋予较暗的颜色。
然后,在步骤606中,对于每个图块,我们使用从图2计算出的误差统计信息(见图4)将聚焦度映射到预期的分类器误差。该映射可以被概念化为图7中所示的第二热图,其中,来自热图604(图6)的OOF度被转换或映射到如图6中的606所示的分类器误差。请注意,图6的热图604中最失焦的图块具有最高的预期的分类器误差(较高程度的分类器误差在图7中也是浅色,而具有最小分类器误差的区域在图7中显示为较暗)。因此,此映射只是使用存储的误差统计信息基于图块的OOF度将分类器误差分配给图块,并对所有图块重复此算法。
然后在步骤608,我们将对图块误差的预测(图7中所示)汇总到全切片图像。在一个实施例中,该汇总可以采取计算全切片的分类器误差得分的形式。有几种可能的方法可用来计算此汇总。一种方法如下:
a.将疾病/组织类型特定阈值应用于每个图块的预测的分类器误差预测,例如1.3%,本质上产生预测误差高于或低于阈值的那些图块的二元掩模。
b.将连通分量分析(Connected Component Analysis)应用于a的二元掩模。
c.丢弃面积小于疾病/组织类型特定的最小面积A(例如200平方微米)的每个“连通分量”区域,
d.对剩余区域的面积求和以获得最终度量,在此示例中为面积度量,其指示切片中有多少疾病分类器误差低于阈值,并排除根据c而言过小的面积。该度量可以被表示为绝对面积度量,或者被表示为百分比度量,例如,疾病分类器度量低于阈值的组织区域在图像中的百分比。
将对图块误差的预测汇总到全切片的另一种简单方法将是:仅计数高于/低于误差阈值的像素,而不进行任何连通分量分析,并将结果报告为图像的组织部分的百分比。
在步骤608,我们然后报告全切片的聚焦加权的疾病分类器误差预测。例如,在由正在查看图6的图像600的病理学家使用的计算机工作站上,误差预测可以在图像旁边在工作站显示器上的弹出窗口中进行报告。替代地,疾病分类器误差预测可以在病理学家用于输入与组织图像相关联的发现或诊断的屏幕中进行报告。
上面的示例是在***转移检测器的背景下进行的,该检测器预测***组织图像中乳腺癌转移的概率,并且例如分类器将通常在40X或20X放大率下操作,生成图像中每个图块的癌/无癌类别标签,并用作误差度量1.0–AUC,其中,AUC是分类器性能的接收器操作特性图表。在图3和图4中示出了这样的误差度量。对于***癌分类器,该分类器对***组织图像中的每个像素图块预测格里森得分,并且通常在10X放大率下操作。分类器对每个图块分配的类别标签位于集合{无,1,2,3,4,5和6}中,其中,1…6是本领域已知的格里森得分。这样的分类器的误差度量可能采用不同的格式,例如加权科恩的Kappa(κ)、已知的统计度量或一相对于其他类AUC上的平均。疾病分类器中的预期误差可以被表示为1.0减去二元分类器的接收器操作特性曲线下的面积(AUC),或者在分类器是多类别分类器的情况下为1.0-科恩的Kappa。
图6中所示的计算可以在全切片扫描仪的计算资源中本地地实现,使得扫描仪扫描切片,并且然后生成疾病分类器误差统计信息,并将它们都报告给连接的病理工作站。在该实施例中,扫描仪包括处理单元和深度CNN聚焦分类器及存储图4的统计信息的数据存储(data store),以及用于实现图6中解释的过程的软件。
几种其他替代配置也是可能的,其中一种配置如图8中所示。在此实施方式中,全切片扫描仪802连接到局域网络806,病理工作站804也连接到该局域网络806。该网络806可以例如采用配备有扫描仪和病理工作站的医院或医疗诊所中的网络的形式。该网络还具有计算资源808,该计算资源也可以采用通用计算机的形式,该通用计算机连接到数据存储或存储器,该数据存储或存储器存储深度CNN聚焦分类器的参数和图4的疾病分类器误差统计信息以及用于实现图6的过程的代码。在使用中,当扫描仪802扫描切片(未显示)并生成图6的图像600时,该图像被传递到计算资源808,计算资源808随后实现图6的过程,并将疾病分类器误差度量转发到工作站804。疾病分类器误差预测的报告(图6的步骤610)可以采用例如图7中所示的热图以及对在步骤608计算的图块误差的汇总预测的形式。
图9是实现本公开的方法的***的另一示例。在该示例中,全切片扫描仪802和工作站804在连接至云820的网络806(互联网)上。云820中的服务提供商操作具有连接的数据存储810的计算资源808。服务提供商从扫描仪802接收图像(600,图6),并且通过将OOF分类器和疾病分类器误差统计信息存储在数据储存810中,生成图像的疾病分类器误差预测,并将它们报告回病理工作站804。图像600(图6)向服务提供商的传输伴随有该图像的元数据,该元数据指示全切片扫描仪的品牌/型号和放大率水平,使得适当的疾病分类器误差统计信息可以被检索到并适当地用于特定图像。服务提供商为多个分布式病理实验室、医院、诊所、大学等(其中之一由还连接到云820的单独的全切片扫描仪和病理工作站904指示)执行此服务。
其他考虑
图2的循环204中使用的标尺的OOF度的数可以变化,并且也可以使用浮点标尺。
图6的步骤608中对新图像的图块误差的预测的汇总可以采取其他形式,例如a)绝对组织面积和预测误差高于分类器相关阈值的总组织面积的百分比,或b)分别大于疾病特定大小且预测误差大于(或小于)疾病特定预测阈值的不同组织区域的总面积,或c)平均预期误差(即,所有组织图块的平均)或者最小/最大误差统计信息或某个其他格式。
汇总误差度量的主要用途是将其与切片级别的预测(例如,切片级别的格里森得分)一起报告。例如。自动化***可以向临床医生/病理学家报告格里森评分4+3,但与聚焦相关的预测误差为3%。然后,预测的误差可以触发(a)由病理学家进行的附加的基于显微镜的人工检查,或者(b)如果误差特别高,则其可以触发切片的重新扫描。此外,在情景(a)中,病理学家在进行附加的人工显微镜检查时,可以使用热图对具有高误差预测的区域进行优先排序。
根据前述内容,将会理解,我们已经描述了一种病理***,其组合包括:a)适于生成显微镜切片的数字切片图像的切片扫描仪(图8,802);b)存储器(图8,810),该存储器存储:
1)卷积神经网络(OOF分类器)的参数,该卷积神经网络经训练以计算由切片扫描仪生成的数字显微镜切片图像的每个图块的失焦度;优选地,使用先前详细描述的技术,用合成地模糊的图像训练该OOF分类器;
2)表示机器学习疾病分类器针对多个失焦度的预期的分类器误差统计信息的数据;以及c)计算机(图8,808),其被配置为用于(1)使用深度卷积神经网络计算数字显微镜切片图像的每个图块的失焦度(图6,602),(2)基于每个图块的计算出的失焦度,计算预期的分类器误差统计信息到数字显微镜切片图像的每个图块的映射,从而生成对每个图块的分类器误差预测(图6、606);和(3)计算所有图块上的分类器误差预测的汇总(图6、608)。
还将理解,我们已经描述了一种用于生成组织样本的放大的数字显微镜切片图像的分类误差的预测的方法(图6,600),该数字显微镜切片图像包括像素图像数据的多个图块。该方法包括步骤,所述步骤包括以下步骤:
(a)计算数字显微镜切片图像的每个图块的失焦度;(图6,602)。此步骤由经过如以上所解释地训练的OOF分类器执行。
(b)检索表示机器学习疾病分类器针对多个失焦度的预期的分类器误差统计信息的数据;(图2,220)
(c)基于在步骤(a)中计算出的每个图块的计算的失焦度,计算预期的分类器误差统计信息到数字显微镜切片图像的每个图块的映射,从而生成每个图块的分类器误差预测;和(图6,606)
(d)汇总在所有图块上在步骤(c)中生成的分类器误差预测。(图6,608)。
还将理解,我们已经描述了一种用于表征分类器的方法,该分类器被配置为生成组织样本或其部分的数字显微镜切片的分类标签,总体上请参见图2及其上面的描述。该方法包括以下步骤:获取一组切片图像(图2,200)(例如,通过对存储这样的图像的数据存储的应用编程接口(API)调用,或从用全切片扫描仪物理地扫描一组组织切片),每个切片图像包括像素图像数据的图块,这些像素图像数据的图块焦点对准并与每个图像图块的基准真相标签相关联;
b)定义一组失焦度(例如,0焦点对准到N的标尺上的失焦度Y,其中,N是1、2、3…N范围内的某个整数),并且对于每个度:
1)将相应量的合成失焦应用于该组切片中图像的每个图块;(图2,202)
2)计算图像中每个图块的分类误差;(图2,206)
3)计算图像中所有图块上的平均误差;(图2,212)
c)将针对在步骤b)中定义的所有失焦度在步骤b)3)中计算出的平均误差存储为分类器针对在步骤b)中定义的失焦度的预期的误差;(图2,用于所有合成失焦度的循环204)
d)对该组中的每个切片图像重复步骤b1)、b2)、b3)和c)。(循环图2,循环214)
在上述方法中,可以对于不同制造商的多个不同的切片扫描仪中的每一个,至少重复步骤a)、b)、c)和d)一次。
在步骤b)2)中计算出的误差度量可以采取平均误差的形式。也可以将其计算为曲线(AUC)度量下的接收器操作特性(ROC)面积。该后一种方法需要首先计算所有图块上的ROC曲线,然后计算其下的面积(“曲线下面积”)。因此,它不是按单独图块进行计算并随后汇总的度量。
因此,在一个变型中,在上述方法步骤b)中,定义了一组失焦度,并且对于每个失焦度,该方法包括执行步骤1)-4):
1)将相应量的合成失焦应用于该组切片中图像的每个图块;
2)计算疾病分类预测和概率。
3)在所有图块上针对基准真相标签计算接收器操作特性(ROC)曲线,以及
4)计算ROC曲线下的面积(AUC)。在该变型中,该方法继续步骤c)将针对在步骤b)中定义的所有度在步骤b)4)中计算出的AUC存储为疾病分类器针对在步骤b)中定义的失焦度的预期的误差;d)对该组中的每个切片图像重复步骤b1)、b2)、b3)、b4)和c)。
在一个实施例中,组织样本为***组织样本的形式。替代地,组织样本可以是***样本。在优选实施例中,使用计算的散景滤波器来应用在步骤b)1)应用的合成失焦。在一个实施例中,预期误差可以用1.0减去疾病分类器的接收器操作特性曲线下的面积(AUC)来表示。如图3和图4中所示,在步骤c)中存储的平均误差以失焦程度和相关联的预期疾病分类器误差的表格格式进行存储。
在再另一方面,我们已经描述了OOF分类器和训练OOF分类器的方法。OOF分类器为卷积神经网络的形式,可从合成地模糊的图像对该卷积神经网络进行训练。通过模拟以下中的一个或多个来生成合成地模糊的图像:(a)数据压缩和噪声伪像、(b)平移抖动以及(c)亮度扰动。除计算散景滤波之外或作为其替代,在训练中将所有这些进行组合是可能且有利的。
尽管已经在病理学显微镜图像(组织样本)的背景下提供了以上描述,但是该方法通常适用于其他类型的显微镜图像和为识别或分类显微镜图像内的对象而构建的分类器。

Claims (31)

1.一种用于生成对样本的放大的数字显微镜切片图像的分类误差的预测的方法,包括以下步骤:
(a)用切片扫描仪扫描包含所述样本的显微镜切片,并生成所述数字显微镜切片图像,所述数字显微镜切片图像包括像素图像数据的多个图块;
(b)计算所述数字显微镜切片图像的每个图块的失焦度;
(c)检索表示机器学习分类器针对多个失焦度的预期的分类器误差统计信息的数据;
(d)基于在步骤(b)中计算出的每个图块的计算的失焦度,计算预期的分类器误差统计信息到数字显微镜切片图像的每个图块的映射,从而生成每个图块的分类器误差预测;
(e)在所有图块上汇总在步骤(d)中生成的分类器误差预测。
2.根据权利要求1所述的方法,其中,所述样本包括组织样本。
3.根据权利要求1所述的方法,其中,所述组织样本包括***样本或***组织样本。
4.根据权利要求1至3中的任一项所述的方法,其中,步骤b)由深度卷积神经网络执行,所述深度卷积神经网络经训练以通过失焦程度对组织图像的图块进行分类。
5.根据权利要求1至3中的任一项所述的方法,还包括步骤(f):生成作为整体的所述数字显微镜切片图像的聚焦加权的分类器误差预测。
6.根据权利要求1至3中的任一项所述的方法,其中,步骤b)-e)是通过所述切片扫描仪中的计算资源在本地执行的。
7.一种病理***,组合包括:
a)切片扫描仪,适于生成显微镜切片的数字切片图像;
b)存储器,存储:
1)卷积神经网络的参数,所述卷积神经网络经训练以计算由所述切片扫描仪生成的数字显微镜切片图像的每个图块的失焦度;
2)表示机器学习分类器针对多个失焦度的预期的分类器误差统计信息的数据;
c)计算机,被配置为用于(1)使用所述卷积神经网络计算所述数字显微镜切片图像的每个图块的失焦度,(2)基于每个图块的计算出的失焦度,计算预期的分类器误差统计信息到所述数字显微镜切片图像的每个图块的映射,从而生成每个图块的分类器误差预测;和(3)计算所有图块上的分类器误差预测的汇总。
8.根据权利要求7所述的***,其中,所述显微镜切片包含组织样本。
9.根据权利要求8所述的***,其中,所述组织样本包括***样本或***组织样本。
10.根据权利要求7至9中的任一项所述的***,其中,所述存储器和计算机位于所述切片扫描仪的本地。
11.根据权利要求7至9中的任一项所述的***,其中,所述存储器和计算机远离所述切片扫描仪。
12.一种用于生成对放大的数字显微镜切片图像的分类误差的预测的方法,所述数字显微镜切片图像包括像素图像数据的多个图块,所述方法包括以下步骤:
(a)计算所述数字显微镜切片图像的每个图块的失焦度;
(b)检索表示机器学习疾病分类器针对多个失焦度的预期的分类器误差统计信息的数据;
(c)基于在步骤(a)中计算出的每个图块的计算的失焦度,计算预期的分类器误差统计信息到所述数字显微镜切片图像的每个图块的映射,从而生成每个图块的分类器误差预测;和
(d)汇总在所有图块上在步骤(c)中生成的所述分类器误差预测。
13.根据权利要求12所述的方法,其中,所述显微镜图像是组织样本的图像。
14.根据权利要求13所述的方法,其中,显微镜图像是***样本或***组织样本的图像。
15.根据权利要求12至14中的任一项所述的方法,其中,步骤(a)由卷积神经网络执行,该卷积神经网络经训练以通过失焦程度对组织图像的图块进行分类。
16.根据权利要求12至14中的任一项所述的方法,还包括步骤(e):生成作为整体的所述数字显微镜切片图像的聚焦加权的分类器误差预测。
17.一种用于表征分类器的方法,所述分类器被配置为生成数字显微镜切片图像的分类标签,所述方法包括以下步骤:
a)获取一组切片图像,每个切片图像包括像素图像数据的图块,所述像素图像数据的图块焦点对准并与每个图像图块的基准真相标签相关联;
b)定义一组失焦度,并且对于每个度:
1)将相应量的合成失焦应用于该组切片中图像的每个图块;
2)计算图像中每个图块的分类误差;
3)计算图像中所有图块上的平均误差;
c)将针对在步骤b)中定义的所有度在步骤b)3)中计算出的平均误差存储为分类器针对在步骤b)中定义的失焦度的预期的误差;
d)对所述组中的每个切片图像重复步骤b1)、b2)、b3)和c)。
18.根据权利要求17所述的方法,还包括以下步骤:对所述组中的数字显微镜切片图像在不同的放大率下重复步骤b)、c)和d)。
19.根据权利要求17所述的方法,还包括以下步骤:对于不同制造商的多个不同的切片扫描仪中的每一个,至少重复步骤a)、b)、c)和d)一次。
20.根据权利要求17所述的方法,其中,所述数字显微镜图像是组织样本的图像。
21.根据权利要求17所述的方法,其中,组织样本包括***样本或***组织样本。
22.根据权利要求17至21中的任一项所述的方法,其中,使用计算散景滤波器来应用在步骤b)1)应用的所述合成失焦。
23.根据权利要求17至21中的任一项所述的方法,其中,所述预期的误差用1.0减去所述分类器的接收器操作特性曲线下的面积(AUC)来表示,或者如果所述分类器是多类别分类器则用1.0-Cohen的Kappa来表示。
24.根据权利要求17至21中任一项所述的方法,其中,在步骤c)中存储的平均误差以失焦程度和相关联的预期分类器误差的表格格式进行存储。
25.根据权利要求1所述的方法,其中,每个图块的计算的失焦度是由失焦分类器执行的,并且其中,从合成地模糊的失焦图像对所述失焦分类器进行训练,并且其中,通过模拟以下中的一个或多个来生成所述失焦图像:(a)数据压缩和噪声伪像、(b)平移抖动和(c)亮度扰动以及(d)应用计算散景滤波器。
26.根据权利要求25所述的方法,其中,通过模拟(a)数据压缩和噪声伪像、(b)平移抖动、(c)亮度扰动和(d)计算散景滤波来生成所述合成地模糊的失焦图像。
27.根据权利要求7所述的***,其中,b)1)的卷积神经网络是失焦分类器,并且其中,从合成地模糊的失焦图像对所述失焦分类器进行训练,并且其中,通过模拟以下中的一个或多个来生成所述失焦图像:(a)数据压缩和噪声伪像、(b)平移抖动和(c)亮度扰动以及(d)应用计算散景滤波器。
28.根据权利要求12所述的方法,其中,每个图块的所述失焦度是由失焦分类器计算的,并且其中,从合成地模糊的失焦图像对所述失焦分类器进行训练,并且其中,通过模拟以下中的一个或多个来生成所述失焦图像:(a)数据压缩和噪声伪像、(b)平移抖动和(c)亮度扰动,以及(d)应用计算散景滤波器。
29.一种训练失焦(OOF)分类器的方法,其中,所述OOF分类器为卷积神经网络的形式,所述方法包括以下步骤:
合成地模糊一组训练图像,其中,通过模拟以下中的一个或多个来产生合成地模糊的图像:(a)数据压缩和噪声伪像、(b)平移抖动、(c)亮度扰动及计算散景滤波;
用所述合成地模糊的图像训练所述OOF分类器,以按照失焦程度对合成地模糊的图像进行分类。
30.根据权利要求30所述的方法,其中,步骤a)包括模拟以下全部:(a)数据压缩和噪声伪像、(b)平移抖动、(c)亮度扰动及计算散景滤波。
31.一种表征分类器的方法,所述分类器被配置为生成数字显微镜切片的分类标签,所述方法包括以下步骤:
a)获取一组切片图像,每个切片图像包括像素图像数据的图块,所述像素图像数据的图块焦点对准并与每个图像图块的基准真相标签相关联;
b)定义一组失焦度,并且对于每个度:
1)将相应量的合成失焦应用于该组切片中图像的每个图块;
2)计算分类误差预测和概率;
3)在所有图块上针对基准真相标签计算接收器操作特性(ROC)曲线,以及
4)计算ROC曲线下的面积(AUC),
c)将针对在步骤b)中定义的所有度在步骤b)4)中计算出的AUC存储为疾病分类器针对在步骤b)中定义的失焦度的预期的误差;
d)对所述组中的每个切片图像重复步骤b1)、b2)、b3)、b4)和c)。
CN201880093264.2A 2018-05-07 2018-12-17 显微镜切片图像的聚焦加权的机器学习分类器误差预测 Pending CN112106107A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/972,929 2018-05-07
US15/972,929 US10706328B2 (en) 2018-05-07 2018-05-07 Focus-weighted, machine learning disease classifier error prediction for microscope slide images
PCT/US2018/065918 WO2019216955A1 (en) 2018-05-07 2018-12-17 Focus-weighted, machine learning classifier error prediction for microscope slide images

Publications (1)

Publication Number Publication Date
CN112106107A true CN112106107A (zh) 2020-12-18

Family

ID=65024006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880093264.2A Pending CN112106107A (zh) 2018-05-07 2018-12-17 显微镜切片图像的聚焦加权的机器学习分类器误差预测

Country Status (5)

Country Link
US (3) US10706328B2 (zh)
EP (1) EP3788591B1 (zh)
JP (3) JP6900581B1 (zh)
CN (1) CN112106107A (zh)
WO (1) WO2019216955A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139568A (zh) * 2021-02-22 2021-07-20 杭州深睿博联科技有限公司 一种基于主动学习的类别预测模型建模方法及装置
CN117041531A (zh) * 2023-09-04 2023-11-10 无锡维凯科技有限公司 一种基于图像质量评估的手机摄像头聚焦检测方法和***

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10573003B2 (en) * 2017-02-13 2020-02-25 Amit Sethi Systems and methods for computational pathology using points-of-interest
US20220117544A1 (en) * 2018-08-31 2022-04-21 Seno Medical Instruments, Inc. Optoacoustic feature score correlation to ipsilateral axillary lymph node status
WO2021141757A1 (en) * 2020-01-06 2021-07-15 PAIGE.AI, Inc. Systems and methods for analyzing electronic images for quality control
CN111369553A (zh) * 2020-03-13 2020-07-03 上海杏脉信息科技有限公司 一种样本玻片扫描和图像处理方法及数字显微镜***
US20230085827A1 (en) * 2020-03-20 2023-03-23 The Regents Of The University Of California Single-shot autofocusing of microscopy images using deep learning
CN111462076B (zh) * 2020-03-31 2023-05-16 湖南国科智瞳科技有限公司 一种全切片数字病理图像模糊区域检测方法及***
CN111462075B (zh) * 2020-03-31 2023-12-15 湖南国科智瞳科技有限公司 一种全切片数字病理图像模糊区域的快速重聚焦方法及***
US20220139514A1 (en) 2020-11-03 2022-05-05 Nuance Communications, Inc. Communication System and Method
EP4241198A1 (en) * 2020-11-06 2023-09-13 Verily Life Sciences LLC Artificial intelligence prediction of prostate cancer outcomes
US20220199211A1 (en) * 2020-12-22 2022-06-23 Nuance Communications, Inc. AI Platform System and Method
US11893668B2 (en) 2021-03-31 2024-02-06 Leica Camera Ag Imaging system and method for generating a final digital image via applying a profile to image information
CN113610803A (zh) * 2021-08-06 2021-11-05 苏州迪美格智能科技有限公司 数字切片扫描仪的自动分层对焦方法及装置
US11514654B1 (en) * 2021-12-09 2022-11-29 Unity Technologies Sf Calibrating focus/defocus operations of a virtual display based on camera settings
JP2023176256A (ja) * 2022-05-31 2023-12-13 楽天グループ株式会社 画像からデータを予測する方法、コンピュータシステム、及びコンピュータ可読媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104704499A (zh) * 2012-06-21 2015-06-10 菲利普莫里斯生产公司 与基于网络的生物标记签名相关的***和方法
CN105450943A (zh) * 2014-09-25 2016-03-30 聚晶半导体股份有限公司 产生图像散景效果的方法及图像获取装置
US20170193175A1 (en) * 2015-12-30 2017-07-06 Case Western Reserve University Prediction of recurrence of non-small cell lung cancer
CN107077732A (zh) * 2014-08-27 2017-08-18 思迪赛特诊断有限公司 用于对数字显微镜计算聚焦变化的***及方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU3490695A (en) * 1994-09-20 1996-04-09 Neopath, Inc. Cytological slide scoring apparatus
US7456377B2 (en) 2004-08-31 2008-11-25 Carl Zeiss Microimaging Ais, Inc. System and method for creating magnified images of a microscope slide
SG187478A1 (en) 2009-10-19 2013-02-28 Ventana Med Syst Inc Imaging system and techniques
US20120271553A1 (en) * 2011-04-22 2012-10-25 Ge Global Research Analyzing the expression of biomarkers in cells with clusters
DE102013104277A1 (de) 2013-04-26 2014-10-30 Hella Kgaa Hueck & Co. Verfahren zur Ansteuerung eines Matrix-Beam Scheinwerfers mit adaptiven Licht-Funktionen
US9665460B2 (en) * 2015-05-26 2017-05-30 Microsoft Technology Licensing, Llc Detection of abnormal resource usage in a data center
US9836839B2 (en) 2015-05-28 2017-12-05 Tokitae Llc Image analysis systems and related methods
CN107506314B (zh) 2016-06-14 2021-05-28 伊姆西Ip控股有限责任公司 用于管理存储***的方法和装置
US10025902B2 (en) * 2016-08-12 2018-07-17 Verily Life Sciences Llc Enhanced pathology diagnosis
CN110337644A (zh) 2017-02-23 2019-10-15 谷歌有限责任公司 用于辅助病理学家标识放大的组织图像中的肿瘤细胞的方法和***
US10311573B2 (en) * 2017-05-02 2019-06-04 Techcyte, Inc. Training and machine learning classification of mold in digital microscopy images
US10552663B2 (en) * 2017-05-02 2020-02-04 Techcyte, Inc. Machine learning classification and training for digital microscopy cytology images
US10255693B2 (en) * 2017-05-02 2019-04-09 Techcyte, Inc. Machine learning classification and training for digital microscopy images
US11227386B2 (en) * 2017-08-15 2022-01-18 Siemens Healthcare Gmbh Identifying the quality of the cell images acquired with digital holographic microscopy using convolutional neural networks
CN111226257B (zh) * 2017-09-22 2024-03-01 豪夫迈·罗氏有限公司 组织图像中的伪像移除
US20210192721A1 (en) * 2017-10-26 2021-06-24 Konica Minolta, Inc. Image Processing Device, In-Focus Position Specifying Method, and In-Focus Position Specifying Program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104704499A (zh) * 2012-06-21 2015-06-10 菲利普莫里斯生产公司 与基于网络的生物标记签名相关的***和方法
CN107077732A (zh) * 2014-08-27 2017-08-18 思迪赛特诊断有限公司 用于对数字显微镜计算聚焦变化的***及方法
CN105450943A (zh) * 2014-09-25 2016-03-30 聚晶半导体股份有限公司 产生图像散景效果的方法及图像获取装置
US20170193175A1 (en) * 2015-12-30 2017-07-06 Case Western Reserve University Prediction of recurrence of non-small cell lung cancer

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JINSUN PARK等: "A Unified Approach of Multi-scale Deep and Hand-crafted Features for Defocus Estimation", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 28 April 2017 (2017-04-28), pages 4 - 6 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139568A (zh) * 2021-02-22 2021-07-20 杭州深睿博联科技有限公司 一种基于主动学习的类别预测模型建模方法及装置
CN113139568B (zh) * 2021-02-22 2022-05-10 杭州深睿博联科技有限公司 一种基于主动学习的类别预测模型建模方法及装置
CN117041531A (zh) * 2023-09-04 2023-11-10 无锡维凯科技有限公司 一种基于图像质量评估的手机摄像头聚焦检测方法和***
CN117041531B (zh) * 2023-09-04 2024-03-15 无锡维凯科技有限公司 一种基于图像质量评估的手机摄像头聚焦检测方法和***

Also Published As

Publication number Publication date
US11164048B2 (en) 2021-11-02
JP2021166062A (ja) 2021-10-14
EP3788591A1 (en) 2021-03-10
US10706328B2 (en) 2020-07-07
US20190340468A1 (en) 2019-11-07
US20200285908A1 (en) 2020-09-10
US11657487B2 (en) 2023-05-23
JP2022164718A (ja) 2022-10-27
JP2021518025A (ja) 2021-07-29
EP3788591B1 (en) 2023-10-18
JP7134303B2 (ja) 2022-09-09
WO2019216955A1 (en) 2019-11-14
US20220027678A1 (en) 2022-01-27
JP6900581B1 (ja) 2021-07-07
JP7422825B2 (ja) 2024-01-26

Similar Documents

Publication Publication Date Title
JP7422825B2 (ja) 顕微鏡スライド画像のための焦点重み付き機械学習分類器誤り予測
Campanella et al. Towards machine learned quality control: A benchmark for sharpness quantification in digital pathology
JP7466606B2 (ja) コンテキストフィーチャを用いた画像解析システム
Kohlberger et al. Whole-slide image focus quality: Automatic assessment and impact on ai cancer detection
CN109791693B (zh) 用于提供可视化全切片图像分析的数字病理学***及相关工作流程
US11941900B2 (en) Identifying regions of interest from whole slide images
US10346980B2 (en) System and method of processing medical images
US20110057946A1 (en) Image processing method, image processing apparatus, and computer-readable recording medium storing image processing program
JP4383352B2 (ja) 核多形性の組織学的評価
JP2023547169A (ja) 多重化免疫蛍光画像における自己蛍光アーチファクトの識別
CN111656393A (zh) 组织学图像分析
WO2022183078A1 (en) Computational refocusing-assisted deep learning
WO2020035514A1 (en) Generating annotation data of tissue images
CN116433695B (zh) 一种乳腺钼靶图像的乳腺区域提取方法及***
Jiménez et al. Image quality metrics applied to digital pathology
Totu et al. An objective scoring framework for histology slide image mosaics applicable for the reliable benchmarking of image quality assessment algorithms
Polejowska et al. Impact of Visual Image Quality on Lymphocyte Detection Using YOLOv5 and RetinaNet Algorithms
US20240233414A1 (en) Identifying regions of interest from whole slide images
EP4220573A1 (en) Multi-resolution segmentation for gigapixel images
Grimes Image processing and analysis methods in quantitative endothelial cell biology
Alawadhi Statistical image analysis and confocal microscopy
CN117597709A (zh) 用于记录训练数据的方法和设备
KR20240032031A (ko) 블러 강건성을 제공하도록 전자 이미지를 처리하는 시스템 및 방법
CN116797588A (zh) 异常细胞的诊断方法、装置、设备及存储介质
EP3803892A1 (en) Sensitivity analysis for digital pathology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination