CN113474844A - 用于数字病理学的人工智能处理***和自动化预诊断工作流程 - Google Patents

用于数字病理学的人工智能处理***和自动化预诊断工作流程 Download PDF

Info

Publication number
CN113474844A
CN113474844A CN202080011013.2A CN202080011013A CN113474844A CN 113474844 A CN113474844 A CN 113474844A CN 202080011013 A CN202080011013 A CN 202080011013A CN 113474844 A CN113474844 A CN 113474844A
Authority
CN
China
Prior art keywords
image
processing
tissue
histological
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080011013.2A
Other languages
English (en)
Inventor
W·杰奥尔杰斯库
K·萨利格拉玛
C·鲁那
D·劳勒
C·莱西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leica Biosystems Imaging Inc
Original Assignee
Leica Biosystems Imaging Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leica Biosystems Imaging Inc filed Critical Leica Biosystems Imaging Inc
Publication of CN113474844A publication Critical patent/CN113474844A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Urology & Nephrology (AREA)
  • Chemical & Material Sciences (AREA)
  • Hematology (AREA)
  • Bioethics (AREA)
  • Cell Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Hospice & Palliative Care (AREA)
  • Microbiology (AREA)
  • Analytical Chemistry (AREA)
  • Oncology (AREA)

Abstract

一种数字病理***包括AI处理模块,该AI处理模块被配置为调用AI处理应用的实例用于处理来自组织学图像的图像数据;以及应用模块,该应用模块被配置为调用应用的实例,该应用可操作以对与患者记录相关联的组织学图像执行图像处理任务,其中图像处理任务包括AI元素。应用创建处理作业以处置其任务的AI元素,这些元素由AI处理模块处置。AI处理模块可以是通过将图像像素分类为肿瘤组织或非肿瘤组织的多个组织类别中的一个组织类别来处理组织学图像以标识肿瘤的CNN。测试排序模块基于所标识的组织类别来自动确定是否应当在组织样本上执行附加测试。对于每个附加测试,会自动创建并且提交次序。有利地,在病理学家第一次核查时,患者记录包括组织学图像和来自经自动排序的附加测试的结果。

Description

用于数字病理学的人工智能处理***和自动化预诊断工作 流程
技术领域
本公开一般地涉及用于处理数字病理数据的分布式人工智能(“AI”)处理***,并且更具体地涉及用于在诊断评估之前从生物组织样本中获取和处理图像数据的自动化预诊断工作流程。
背景技术
相关技术
在数字病理学领域,卷积神经网络(CNN)和其他人工智能处理技术关注点在于乳腺癌和其他癌症的组织学图像的图像处理,这些图像作为全切片图像(WSI)被存储在虚拟载片中。原则上讲,用于分析组织学图像并且标识肿瘤的自动化AI处理方法应当比手动勾画要快得多,并且能够获得更准确和可重复的结果。AI和CNN处理能力可以在分布式网络(诸如云计算环境)中被托管并且递送。云计算是服务递送模型,用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的便捷按需网络访问,这些可配置计算资源可以通过最少的管理工作或与服务提供者的交互来迅速提供并且发布。因此,在数字病理学领域适配这种服务模型来处理组织学图像数据是个有意义的挑战。
例如来自活检的生物组织样本的图像分析通常包含:将组织样本切成多个相邻薄横截面,被称为连续切段,以可视化组织样本内感兴趣的结构。连续切段通常被安装在相应显微镜载片上。可以通过肉眼(粗略地)并且更详细地通过传统或数字显微镜对已安装的连续切段进行视觉分析。组织样本的相干(即,接连)连续切段通常由组织学家和病理学家以及其他相关卫生专业人员进行交叉比较,以通过连续切段标识并且定位相同的组织结构。每个连续切段都使用不同的染色剂染色,每个染色剂具有不同的组织亲和力,以突出显示不同组织类型的不同细胞或不同的细胞特征。例如,病理学家经常交叉比较经过不同染色的连续切段,以帮助标识并且定位感兴趣的组织结构,诸如形成肿瘤的癌症细胞组或癌前细胞组。
病理学家检查载片的传统方式是在显微镜下观察玻璃载片。病理学家开始使用低倍率物镜查看载片。当观察到具有潜在诊断价值的区域时,病理学家将切换到高倍物镜以更详细地查看该区域。随后,病理学家将切换回到低倍率以继续检查载片上的其他区域。这种低-高-低放大率观察顺序可以从连续切段开始在载片或载片组上重复多次,直至可以对载片组织样本做出明确并且完整的诊断。
在过去的二十年中,引入数字扫描仪改变了这种传统工作流程(Molin等人,2015年)。数字扫描仪可以获取整个玻璃载片的图像,即,所谓的全切片图像(WSI),并且在无需病理学家的高度自动化过程中将其保存为数字图像数据文件。所得图像数据文件通常被存储在载片数据库中,病理学家经由临床网络在具有高分辨率显示器的观察工作站处可以获得该图像数据文件,该工作站具有用于该目的的可视化应用。因此,病理学家不再需要在显微镜下工作,而是通过临床网络访问来自载片数据库的预先扫描的图像。
一种广泛使用的诊断途径使用苏木精和伊红对组织样本的第一连续切段进行染色,被称为H&E染色,其中苏木精和伊红以互补方式对组织进行染色。即,苏木精对细胞核具有相对较高的亲和力,而伊红对细胞质具有相对较高的亲和力。经H&E染色的组织给予病理学家关于组织的重要形态学和位置信息。例如,典型H&E染色为细胞核着蓝黑色,为细胞质着深浅不一的粉色,为肌纤维着深粉红色,为纤维蛋白着深粉色,并且为红细胞着橙色/红色。病理学家使用源自H&E染色组织的位置(例如,颜色)信息来估计组织的接连连续切段上对应组织区域的位置,这些组织通常使用特定标记物进行免疫组织化学(IHC)染色,以对癌症细胞和癌前细胞进行着色。以乳腺癌为例,基于某些基因的表达,乳腺癌所涉及的组织类型可以被划分为不同的分子亚型。常用分类方案如下:
1.Luminal A:ER+、PR+、HER2-
2.Luminal B:ER+、PR-、HER2+
3.三阴性乳腺癌(TNBC):ER-、PR-、HER2-
4.HER2富集:HER2+、ER-、PR-
5.正常样。
ER代表***受体。PR代表孕激素受体。HER2代表人表皮生长因子受体2。已经开发了对上述基因的表达具有特异性的IHC染色剂,这些IHC染色剂例如包括HER2蛋白(膜特异性标记物)、Ki67蛋白(细胞核特异性标记物)、以及ER标记和PR标记物。
一种广泛实践的工作流程是针对病理学家使用H&E染色对疑似癌变的组织执行初步诊断。如果经H&E染色的切段显示癌组织,则病理学家可能会对附加测试进行排序,其中病理学家所选择的特定附加测试将取决于所存在的癌症类型。例如,如果病理学家在H&E载片中检测到浸润性乳腺癌,则他或她可能会对HER2染色剂进行排序,以确定是否可以使用靶向HER2受体的诸如赫赛汀之类的药物治疗癌症(Wolff等人,2013年)。基于根据H&E染色图像对一种或多种特定类型癌症的临时诊断,存在标准协议,该标准协议指定应当执行哪些附加测试,这些附加测试包括但不限于使用相关标记物将其他连续切断染色并且从那些连续切段中获取组织学图像。一旦可获得这些附加测试结果,病理学家继而将在H&E染色图像旁边核查来自附加测试染色剂的新可用图像并且做出诊断。
因此,需要克服在如上文所描述的传统***中发现的这些显著问题的***和方法。
发明内容
根据本公开的一个方面,提供了一种分布式数字病理***。该***包括人工智能处理模块,该人工智能处理模块被配置为调用人工智能处理应用的实例,用于处理来自组织学图像或组织学图像的部分的图像数据。该***还包括应用模块,该应用模块能够操作地连接到人工智能处理模块并且被配置为调用应用的实例,该应用可操作以对与患者记录相关联的组织学图像执行图像处理任务,其中图像处理任务包括人工智能元素,应用实例被配置为创建处理作业来处置人工智能元素,将这些作业发送到人工智能处理实例用于处理,并且从人工智能处理模块接收回处理结果。该***还可以包括数据储存库,该数据储存库被配置为存储包括组织学图像或组织学图像的集合的患者数据的记录,并且能够操作地连接到应用模块以交换患者数据,诸如虚拟载片库或数据库。
在一些实施例中,人工智能处理模块被配置有数据保留策略,该数据保留策略在图像数据处理完成之后立即且永久地删除其接收的处理作业中包含的图像数据。而且,图像数据可以被分解成图块的子单元,这些图块可以例如使用基于分组的通信协议从应用模块顺序地或非顺序地被发送到人工智能处理模块。如果人工智能处理实例被配置为以补丁为单位处理图像数据,可能如同某些CNN算法一样,图像数据可以从应用模块以映射到补丁的图块为单位被供应给人工智能处理模块。例如,图块与补丁之间可能存在一对一映射或多对一映射,或一些更复杂的映射,例如,以提供相邻补丁之间的重叠边距。数据保留策略被配置为在处理每个补丁或图块之后逐补丁或逐图块尽快切实可行地立即且永久地删除处理作业中包含的图像数据。附加地,应用模块可以将图像图块与来自其他图像的图块混洗在一起,使得对于窥探应用模块与人工智能处理模块之间的通信通道的第三方而言看似完整的图像实际上并非完整的图像。
在一些实施例中,患者数据附加地包括元数据,该元数据将患者身份链接到图像数据,使得当图像数据从元数据分离时,图像数据是匿名的。数据储存库与应用模块之间的通信可以被配置为使得将图像数据链接到患者身份的元数据被保留在数据储存库中并且在实现处理作业中不被发送到应用模块,因此使由应用模块接收的图像数据匿名。
可以由数据储存库保留并且不被发送到应用模块的元数据可以包括载片的条形码、宏图像(即,全切片的低分辨率图像,用于高分辨率图块的取向)、与载片的非组织区域相关的图像数据。从应用模块中保留该元数据会使得提取任何可能使得能够推断出患者身份的信息变得极其困难。
通过这些措施,随着数据从数据储存库(其可以例如是虚拟载片库)移动到应用模块,并且继而移动到人工智能处理模块,数据变得越来越难以标识。数据储存库可以访问所有信息,应用模块仅接收图像数据以及源自患者数据但不会透露患者数据的其他一些参数,并且人工智能处理模块仅接收其信息内容可能进一步混淆的图像图块,例如,通过与来自其他图像的图块混洗或通过确保在任何时刻仅有图像数据中的小子集存在于人工智能处理模块中以及在应用模块与人工智能处理模块之间传输。
在一些实施例中,人工智能处理模块包括统计收集单元,该统计收集单元可操作以监测并且记录对人工智能元素的处理。
可以提供人工智能处理配置模块,该模块具有用户接口以及与人工智能处理模块的接口,从而使得用户能够在人工智能处理模块中配置人工智能处理资源。
应用模块还可以包括图像处理任务分配器,该图像处理任务分配器可操作以决定图像处理任务的人工智能元素在应用模块中内部地执行与由人工智能处理模块利用处理作业的执行之间的分配。继而,可以灵活决定在哪里执行人工智能任务(例如,机器学习分类器),因此可以在本地机器上、虚拟机上或通过诸如Azure函数之类的应用编程接口(API)运行,该API完全抽象硬件。这些决定可以基于用户设置和偏好以及对任何特定处理作业的任务执行所需的处理能力的自动估计以及不同计算资源的可用性和加载。
人工智能处理可以基于卷积神经网络。卷积神经网络可以是全卷积神经网络。例如,卷积神经网络可以被配置为标识来自组织学图像的图像数据中的肿瘤。
根据本公开的另一方面,提供了一种数字病理图像处理方法,包括:接收在与患者记录相关联的组织学图像上执行图像处理的请求,并且响应于该请求;调用应用的实例,该应用的实例可操作以在组织学图像上执行图像处理任务,其中图像处理任务包括人工智能元素;创建针对人工智能处理应用的处理作业,以便处理人工智能元素;建立到人工智能处理模块的通信连接;将处理作业发送到人工智能处理模块;从人工智能处理模块接收处理作业的结果;以及完成图像处理任务。
根据本公开的一个方面,提供了一种处理来自组织样本的数据的方法,如可以在实验室信息***或其他计算机网络环境中执行的,该方法包括:
从数据储存库中存储的患者记录中将组织样本的切段的组织学图像加载到卷积神经网络中,该组织学图像包括二维像素阵列;
应用卷积神经网络CNN以生成具有二维像素阵列的输出图像,其中二维像素阵列映射到组织学图像的二维像素阵列,输出图像通过将多个组织类别中的一个组织类别指派给每个像素而被生成,其中多个组织类别包括表示非肿瘤组织的至少一个类别和表示肿瘤组织的至少一个类别;
针对临床相关的每个组织类别,参考可以例如存储在实验室信息***中的该组织类别的所存储的协议来确定是否应当在组织样本上执行任何其他测试;以及
创建并且提交针对要执行的每个其他测试的次序。
在某些实施例中,一旦执行了任何其他测试,他们的测试结果就可以保存到患者记录中。
由于在病理学家第一次核查时,不仅可以查看H&E图像,而且还可以查看结果,具体地,响应于对初始图像的基于CNN的自动化图像处理而进行的附加测试的其他图像,所以通过所提出的自动化工作流程,可以消除病理学家对例如初始提供的H&E(苏木精和伊红)图像(或其他初始图像,诸如未染色图像)的中间检查。
由于在获得数字载片之后,可以立刻地执行数字H&E载片或其他经初始扫描的组织学图像的计算机自动化CNN处理,所以使提出的在病理学家首次核查之前的工作流程的自动化缩短了活检与诊断之间的时间。因此,可以消除通过数字扫描仪获得初始数字图像(例如,H&E染色载片的图像)与排序任何必要附加测试之间的大量等待时间。在传统工作流程中,这个等待时间可能很长,不仅由于它需要有病理学家来核查H&E载片,而且由于通常有其中病理学家对H&E载片的核查被链接到患者预约的工作流程,所以核查要等待该预约发生,并且仅在该患者预约期间或在该患者之后立刻地对附加测试排序。
组织学图像可以包括一个或多个其他二维像素阵列,并且因此包括多个二维像素阵列,视情况而定,例如,针对多个染色剂中的每个染色剂有一个二维像素阵列,或针对通过使显微镜的焦平面步进通过有限深度的透明样本或半透明样本而获得的样本中的不同深度中的每个深度(所谓z-堆叠)有一个二维像素阵列。由CNN生成的输出图像还将包括一个或多个二维像素阵列,其中(多个)(输入)组织学图像与(多个)输出图像之间存在经限定的映射,其中这可以为一对一映射、多对一映射或一对多映射。CNN所处理的组织学图像可以是H&E图像。在应用CNN的组织学图像是H&E图像的具体示例中,CNN处理将肿瘤发现和分类算法应用于H&E载片以标识肿瘤组织和组织类型。如果H&E载片包含肿瘤组织,该肿瘤组织的组织类型需要在可能进行可靠诊断之前进行附加测试,则附加测试通过次序放置算法被自动排序,该次序放置算法将CNN的输出作为输入。H&E载片的数字扫描、附加测试的CNN处理和后续排序、以及与附加测试相关联的任何其他载片的其他数字扫描可以由单个计算机程序在单个自动化工作流程中进行协调,因此可以被集成到实验室信息***和更广泛的临床网络(诸如医院网络)或另一类型的计算机网络(诸如研究实验室)中。
假设在来自CNN的输出图像中存在临床相关组织类别的至少一个像素,则可以应用过滤器来筛选该组织类别的像素以确定它们是否以显著丰度存在,其中是否为该组织类别创建任何其他测试的次序取决于确定该组织类别的像素的显著丰度。
自动排序的附加测试可以涉及例如从已经使用不同染色剂或标记物标记的同一样本的另一组织切段获得一个或多个另一组织学图像,或可以是通过协议设想为与特定类别的肿瘤相关的任何其他类型的测试。标记物可以选自组:ER(***受体)、PR(孕酮受体)和HER2(人表皮生长因子受体2)。组织学图像和另一组织学图像可以被显示在显示器上。
在一些实施例中,创建并提交每个次序还可以取决于检查该次序是否需要授权,并且如果尚未提供,则向用户发出请求以寻求这种授权。
可以在数据库中组织与相应组织类别相关联的所存储的协议。继而,可以通过提交包含由CNN在样本中所标识的至少一个组织类别的数据库查询来确定是否要执行任何其他测试。确定是否要执行任何其他测试还可以取决于对患者记录的引用,以检查这种其他测试的结果是否已经不可用。
工作流程可以与载片扫描仪中的原始图像获取整合。例如,可以在载片扫描仪获取图像后直接应用CNN。载片扫描仪可以自动将获取的图像保存到虚拟载片库,例如,位于医院或实验室网络中的数据库,并且继而新获取的某些类型的图像可以触发待执行的自动测试排序方法。
在我们目前的实现方式中,在每个接连的卷积阶段,随着维度的减小,深度增加,使得卷积层的深度不断增加,维度也不断减小,并且在每个接连的转置卷积阶段,随着维度增加,深度减小,使得反卷积层的深度不断减小,维度也不断增加。最后卷积层继而具有最大深度和最小维度。代替分别通过卷积阶段和反卷积阶段接连增加和减小深度的途径,备选方案可以为设计神经网络,其中除了输入层和输出层之外的每个层都具有相同的深度。
该方法还可以包括:用概率图在显示器上显示组织学图像或组织学图像的集合,例如,重叠在其上或彼此并排。概率图可以用于确定应当要使用任何免疫组织化学(IHC)评分算法对哪些区域进行评分。概率图还可以用于生成围绕肿瘤细胞的轮廓的集合,这些轮廓可以在显示器中呈现,例如,以允许病理学家评估CNN所生成的结果。
CNN可以被配置为以补丁形式接收组织学图像作为输入,在这种情况下,CNN将输出对应大小的补丁。继而,输出图像补丁随后被组装为覆盖组织学图像的概率图。在组装步骤之后,概率图可以被存储到数据储存库中的记录中,使得概率图被链接到组织学图像或组织学图像的集合。
在某些实施例中,卷积神经网络具有一个或多个跳跃连接。每个跳跃连接从卷积层中的维度比最终卷积层的维度大的至少一个卷积层中获取中间结果,并且根据需要将那些结果进行尽可能多的转置卷积,这些转置卷积可能没有、有一个或多于一个,以获得在尺寸上与输入图像补丁匹配的至少一个其他经恢复的层。然后,这些在将组织类别指派给每个像素的所述步骤之前与上文所提及的经恢复的层组合。其他处理步骤将经恢复的层与其他经恢复的层中的每个经恢复的层组合以便重新计算概率,从而把从跳跃连接获得的结果考虑在内。
在某些实施例中,softmax操作用于生成概率。
从(多个)组织学图像中提取的图像补丁可以覆盖(多个)图像的整个区域。补丁可以是非重叠图像图块或在其边缘处重叠以帮助拼接概率图的图像图块。虽然每个图像补丁在宽度和高度上都应当具有固定数目的像素来与CNN匹配,但是由于CNN被设计为仅接受固定大小的像素阵列,所以这并不意味着每个图像补丁必须与组织学图像上的相同物理区域对应,因为组织学图像中的像素可以被组合成覆盖更大区域的较低分辨率补丁,例如,邻居像素的每个2x2阵列可以被组合成一个“超级”像素以形成补丁,该补丁的物理面积是以组织学图像的原始分辨率提取的补丁的物理面积的四倍。
一旦CNN被训练,就可以执行该方法进行预测。训练的目的是为层间连接指派适当的权重值。对于训练,所使用的记录将包括将组织学图像或组织学图像的集合中的每个像素指派给组织类别中的一个组织类别的基础真实数据。基础真实数据将基于专家临床医生的使用来注释数目足够多的图像。训练通过迭代地应用CNN进行,其中每个迭代都涉及基于比较基础真实数据与输出图像补丁来调整权重值。在我们的当前实现方式中,权重在训练期间通过梯度下降进行调整。
存在多种用于设置组织类别的选项,但是大多数(如果不是全部)实施例的共同之处在于辨别非肿瘤组织与肿瘤组织之间的类别。非肿瘤组织类别可以包括一个、两个或更多个类别。类别还可以表示没有组织被标识的区域,即,载片上的空白区域,这对于组织微阵列样本可能特别有用。肿瘤组织类别还可以包括一个、两个或更多个类别。例如,在我们的当前实现方式中,我们有三个组织类别,一个组织类别用于非肿瘤组织,两个组织类别用于肿瘤组织,其中两个肿瘤组织类别用于浸润性肿瘤和原位肿瘤。
在一些实施例中,CNN一次性应用于一个组织学图像。在其他实施例中,CNN可以应用于通过组合从组织区域的不同染色的相邻切段获取的组织学图像集合而形成的复合组织学图像。在更进一步的实施例中,CNN可以并行地应用于从组织区域的不同染色的相邻切段获取的图像集合中的图像中的每个图像。
通过来自CNN的结果,该方法可以扩展到包括基于像素分类以及参考概率图从该分类限定的肿瘤的评分过程。例如,该方法还可以包括:根据概率图在组织学图像中限定与肿瘤相对应的区域;根据评分算法对每个肿瘤进行评分,来为每个肿瘤指派分数;以及将分数存储到数据储存库中的记录中。因此,评分发生在组织学图像上,但局限于由概率图标识为包含肿瘤组织的区域。
结果可以在显示器上被显示给临床医生。即,组织学图像可以与其关联的概率图一起被显示,例如,重叠在其上或彼此并排。肿瘤分数还可以以某个方便方式(例如,使用肿瘤上的或指向该肿瘤的文本标签)显示或与图像并排显示。
根据本公开的另一方面,提供了一种携载用于执行上文所描述的方法的机器可读指令的计算机程序产品。
本发明的另一方面涉及一种计算机网络***(诸如在医院、诊所、实验室或研究设施中),用于处理来自组织样本的数据,该***包括:
数据储存库,可操作以存储包含组织样本的切段的组织学图像的患者记录,该组织学图像包括二维像素阵列;
处理模块,加载有计算机程序,该计算机程序被配置为接收来自患者记录的组织学图像并且将卷积神经网络应用到该组织学图像,以生成具有二维像素阵列的输出图像,该二维像素阵列映射到组织学图像的二维像素阵列,输出图像通过将多个组织类别中的一个组织类别指派给每个像素而被生成,其中多个组织类别包括表示非肿瘤组织的至少一个表类别和表示肿瘤组织的至少一个类别;
测试排序模块,加载有计算机程序,该计算机程序被配置为:
参考计算机网络***中存储的组织类别的协议,针对组织类别中的至少一个组织类别,确定是否应当在组织样本上执行任何其他测试;
在计算机网络***内创建并且提交针对要执行的每个其他测试的次序;以及
从每个其他测试将测试结果保存到患者记录中。
在某些实施例中,处理模块包括:
输入,可操作以从数据储存库中存储的记录中接收组织学图像或组织学图像的集合;
预处理模块,被配置为从组织学图像或组织学图像的集合中提取图像补丁,该图像补丁是组织学图像或组织学图像的集合的区域部分,该区域部分具有在宽度和高度上由像素的数目限定的尺寸;以及
具有权重集合和多个通道的卷积神经网络,每个通道与多个待标识组织类别中的一个组织类别相对应,其中组织类别中的至少一个组织类别表示非肿瘤组织,并且组织类别中的至少一个组织类别表示非肿瘤组织,卷积神经网络可操作以:
接收作为输入图像补丁的每个图像补丁作为输入;
执行多级卷积以生成维度不断减小的卷积层,直到并且包括最小维度的最终卷积层,然后执行多级转置卷积以通过生成维度不断增加的反卷积层来反转卷积,直至层恢复与输入图像补丁在尺寸上匹配,经恢复的层中的每个像素包含属于组织类别中的每个组织类别的概率;以及
基于到达输出图像补丁处的所述概率来将组织类别指派给经恢复的层的每个像素。
该***还可以包括后处理模块,该后处理模块被配置为将输出图像补丁组装成用于组织学图像或组织学图像的集合的概率图。而且,该***还可以包括:输出,该输出可操作以将概率图存储到数据储存库中的记录中,使得概率图被链接到组织学图像或组织学图像的集合。该***还可以包括:显示器和显示器输出,该显示器输出可操作以将组织学图像或组织学图像的集合和概率图传输到显示器,使得组织学图像与概率图一起被显示,例如,重叠在其上或与概率图并排。
该***还可以包括图像获取装置,诸如显微镜,该图像获取装置可操作以获取组织学图像或组织学图像的集合并且将它们存储到数据储存库中的记录。
应当理解,在至少一些实施例中,(多个)组织学图像是通过显微镜(具体地,光显微镜)拍摄的切段组织样本的二维图像的数字表示,该显微镜可以是传统光学显微镜、共聚焦显微镜或任何其他类型的显微镜,适用于获得未染色组织样本或染色组织样本的组织学图像。在组织学图像集合的情况下,这些图像可以是所拍摄的组织区域的相邻切段(即,切片)的一系列显微镜图像,其中每个切段可以以不同方式进行染色。
在阅读以下具体实施方式和附图之后,对于本领域普通技术人员而言,本发明的其他特征和优点变得更加明显。
附图说明
本发明的结构和操作通过阅读以下具体说明书和附图来理解,其中相同附图标记是指相同的部件,并且其中:
图1是根据本公开的***的概览框图;
图2更详细地示出了图1的***元件中的一些***元件,具体地,AI处理模块及其配置模块;
图3更详细地示出了图1的***元件中的一些***元件,具体地,数字病理学应用模块;
图4示出了图3的数字病理学应用模块的输入和输出的更多细节;
图5A是用于本发明的一个实施例的神经网络架构的示意图;
图5B示出了在图5A的神经网络架构内全局和局部特征图如何组合以生成特征图,该特征图预测输入图像补丁中每个像素的单独类别;
图6A是示出了操作时为彩色图像的原始数字病理图像的图;
图6B是示出了操作时为彩色图像的图6A的CNN预测的图。CNN预测图像图示了非肿瘤区域(绿色)、浸润性肿瘤区域(红色)、以及非浸润性肿瘤(蓝色);
图7A是示出了操作时为彩色图像的输入RGB图像补丁的示例的图。该图像补丁示出了病理学家对浸润性肿瘤(红色)的手动概述,并且附加地示出了神经网络的预测(粉色和黄色)的重叠;
图7B是示出了操作时为彩色图像的最终输出肿瘤概率热图的图。热图示出了神经网络的预测(分别呈红棕色和蓝色)的重叠;
图8是示出了训练CNN时所涉及的步骤的流程图;
图9是示出了使用CNN进行预测时所涉及的步骤的流程图;
图10是根据本公开的实施例的方法的流程图;
图11是TPU的框图,该TPU可以用于执行实现图5A和图5B的神经网络架构时所涉及的计算;
图12示出了可以结合本发明的实施例使用的示例计算机网络;
图13是可以例如用作图11的TPU的主机计算机的计算装置的框图;
图14A是图示了可以与本文中所描述的各种实施例结合使用的示例性处理器使能设备550的框图;
图14B是图示了具有单个线性阵列的示例线扫描相机的框图;
图14C是图示了具有三个线性阵列的示例线扫描相机的框图;以及
图14D是图示了具有多个线性阵列的示例线扫描相机的框图。
具体实施方式
在以下具体实施方式中,出于解释而非限制的目的,对具体细节进行阐述,以提供对本公开的更好理解。对于本领域技术人员而言,显而易见的是,可以在背离这些具体细节的其他实施例中实践本公开。
图1是根据本公开的***的概览框图。该***便于并且协调将人工智能(AI)处理功能分发到处理实例。该***能够管理将AI处理作业委托给处理实例以及从这些处理作业接收结果数据,其包括将结果数据合并为连贯并且完整的结果集合。该***支持用户在他们自己的云处理区域内配置处理实例的吞吐量和处理能力特点。该***提供可以用于启动数字病理学应用的执行的机构,这些机构包括用户启动机构以及经由诸如另一应用之类的外部事件触发的机构。
该***包括实验室信息***(LIS),该LIS可以是更大的临床网络环境的一部分,诸如医院信息***(HIS)或图片存档和通信***(PACS)。在LIS中,WSI将作为虚拟载片保留在数据库中,通常,该数据库是包含单个患者的电子医疗记录的患者信息数据库。由于获取WSI的显微镜配备有条形码阅读器,所以WSI取自被安装在载片上的染色组织样本,载片承载打印条形码标签,WSI使用该打印条形码标签标记有合适的元数据标记。从硬件的角度来看,LIS为传统计算机网络,诸如具有有线连接和无线连接的局域网(LAN)。
该***还包括数字病理学应用模块,该数字病理学应用模块被配置为托管一个或多个数字病理学应用,在本申请的上下文中,该数字病理学应用包括依赖于人工智能(AI)处理(诸如使用卷积神经网络(CNN))的数字病理学应用。数字病理学应用模块具有用户接口,通过该用户接口,用户可以将任务分配给在数字病理学应用模块上运行的数字病理学应用。
该***还包括AI处理模块,下文对该AI处理模块的示例肿瘤发现CNN功能进行详细描述。AI处理模块与数字病理学应用模块操作连接,使得AI作业可以从数字病理学应用模块发送到其中对这些AI作业进行处理的AI处理模块,然后与AI处理结果一起返回到数字病理学应用模块。AI处理模块具有用于配置资源的用户接口,通过该用户接口,用户可以预留并配置AI处理能力,例如,如由处理能力或吞吐量配置指定的并且如下文参考服务模型所进一步描述的。
图2更详细地示出了图1的***元件中的一些***元件,具体地,AI处理模块。在用户与AI处理模块之间,提供了AI处理配置模块,该AI处理配置模块允许用户预留并配置AI处理容量,例如,如由处理能力或吞吐量配置所指定的并且如下文参考服务模型所进一步描述的。用户可以与配置模块交互,以在AI处理模块内预留并管理用户区域,该用户区域具有适当的安全性,并且可以为用户所专有。处理能力可以专为用户保留,或可以以与其他用户池化布置保留。该***便于每个用户或用户组在云端配置自己图像处理区域的执行特点。用户可用的配置选项将包括(并且可以不限于):
·每个处理实例的处理能力;
·可以同时运行或调用的处理实例的数量;
·在任何给定时间可以运行的最大处理实例数目;以及
·每个时段的最长执行时间(例如,每小时5小时的处理时间、每天100小时的处理时间等)。
示意性地图示了三个示例用户区域,每个示例用户区域保留不同数目的处理实例。用户区域的使用和吞吐量生成统计数据,这些统计数据可以由人工智能处理模块的监控单元收集。将收集有关用户/用户组的专有处理区域的处理特点的使用统计信息。这种统计信息可以包括关于每个处理实例处于活动和处理的时间或时长的数据。应当设想,使用统计信息不包括任何患者数据,具体地,可归因于个体患者的任何数据,诸如患者图像数据、执行初始化或元数据或病例可标识数据。监测单元可以例如定期(诸如每月)编译并且输出这些统计信息。
图3更详细地示出了图1的***元件中的一些***元件,具体地,如可以在对应模块上运行的数字病理学应用实例。示出了应用的示例内部工作流程。数字病理学应用的实例可以经由几个机构发起,例如:
·经由UI与应用模块的直接用户交互
·来自应用模块中的事件的内部触发器
·用户与LIS的交互
·LIS中的内部事件
可以如下寻求患者数据(诸如组织学图像数据)的来源。在应用初始化时,根据触发应用实例的条件寻求数据(图像数据、以及任何所需元数据或其他处理数据两者)的来源。例如,来自数字病理学应用模块的分析触发事件可能需要从内部寻求来源的数据,而来自LIS的分析触发事件可能需要从LIS寻求来源的数据。
应用实例无需提供有全面的患者数据。通常,图像分析应用实例只需图像数据本身,偶尔也需应用配置数据。应用可以评估图像数据的特点,以便标识并行化所需图像处理的机会,这些机会可能包括AI处理作业。可能并行处理可以基于处理不同的整体组织学图像,或并行处理组织学图像的不同子集,其中子集可以基于图像图块,或在多通道组织学图像的情况下基于通道。诸如用于荧光原位杂交(FISH)之类的特定协议还可以提供并行化机会,其中对于FISH,可以并行处理核区域和信号的发现。在准备分配给AI处理模块的AI处理作业时,应用可以仅选择AI处理实例所需的数据来完成对该作业的处理。从处理作业中省略多余数据。这样,可以从针对AI处理作业收集的数据集中省略机密患者数据。如果针对AI处理作业收集的数据集确实包括患者机密数据,则还可以修改AI处理作业以使在将作业发送到AI处理实例之前对这样的数据匿名化、混淆和/或加密。由于处理实例可以执行的可并行化作业的数目可能超过可用处理实例的数目,所以算法可能需要多于一个迭代云处理。出于这个原因,在流程实例开始处理作业、完成这些作业并且可供另一作业使用时,该算法可能会协调对流程实例的许多调用。
当处理工作时,在每个AI处理实例将其处理数据返回到应用模块时,该数据将由数字病理学应用内的数据合并单元合并。这便于构建粘聚力整体结果集合,以备将该结果集合返回到调用函数,该调用函数可以是数字病理学应用模块、LIS、或***内的某个其他模块。
图4示出了图3的数字病理学应用模块的输入和输出的更多细节。应用模块可以由用户配置以初始化图像处理。响应于来自用户或其他外部或内部请求源的请求,可以加载应用实例。来自虚拟载片的组织学图像数据被示为示意性地存储在LIS中,也存储在应用模块内。可以使从LIS向应用模块传送图像数据匿名和/或加密。如上文所描述的,用户能够指定他们需要提供的AI处理实例的数目和处理能力。AI处理实例在经由来自数字病理学应用实例的新到达的AI处理实例数据进行初始化时,解密作业数据。然后,AI处理实例将处理数据并且将其返回给调用函数。AI处理实例配置有数据保留策略,在已经结束了AI作业之后,该数据保留策略立即且永久地删除图像数据和其接收的AI作业中包含的任何其他潜在患者机密数据、以及发送回到调用函数的其输出数据。然而,每个处理实例将编译有关其初始化时间和处理时长的数据,并且这些数据在AI处理模块内进行整理,并且可以为用户和AI处理模块管理员两者提供使用情况的统计摘要。然后,如由其应用流程流所指定的,应用实例可以向例如用户或LIS输出任何AI处理作业或更广泛的任务(其内部或外部包括AI处理)的结果。
在上述的扩展中,应用实例还可以封装在不可知包装器中,该包装器提供了容器以标准化数据输入和输出,因此将应用实例束缚于特定数据输入或输出格式或标准解耦。不可知包装器提供应用实例与外部元素之间的接口,以处置外部功能(诸如初始化、接受处理数据、与外部AI处理实例的交互以及AI处理数据的返回)。在利用接口中指定的输入设施和输出设施时,不可知包装器便于不同的初始化场景,同时使数据输入和输出结构标准化。该***还支持外部托管的AI处理实例的设置和配置,这些AI处理实例可以存在于多种不同的云架构上。不可知包装器能够初始化,能够在***内运转和处理,并且能够将数据返回到***;所有这些都在经由***内限定的算法接口提供的结构内。本文中所描述的不可知包装器提供了限定接口的示例使用情况,以实现图像处理任务。初始化时要考虑关于不可知包装器和被包含在其中的应用实例在其中运行的环境的元数据、如果要使用并行处理则要使用的处理实例的指导以及其他元数据时。例如,基于来自应用实例的输出,还可以包括有关可能需要基于来自应用实例的输出数据而运行的其他处理任务或可以被包含在不可知包装器中的应用实例调用的其他应用的数据。
提供接口功能“向应用实例提供输入数据”以允许将必要输入数据路由到应用实例。该***有助于将输出数据从已完成应用实例路由到新应用实例的输入。该路由与在初始化期间指定二级、三级等应用实例的设施相结合可以用于实现应用实例的“菊花式链接”。所限定的接口还指定了可以用于将处理数据导出到AI处理实例的函数以及可以用于从AI处理实例接收分析数据的函数。所限定的接口指定了“接收结果数据”功能,在AI处理完成时可以将数据发送到该“接收结果数据”功能。
位于不可知包装器内但位于应用实例之外的测试和决策点确认是否需要以及在多大程度上需要应用实例内的本地处理,以及是否以及应当在多大程度上外包例如到AI处理模块。测试和决策点还可以提供可并行化AI处理作业的标识和外包。该算法已经评估了输入图像数据的图像特点,能够通过生成要发送到AI处理模块执行的AI处理作业来标识并行化图像处理的AI元素的机会。在准备不可知包装器(其包括包含的应用实例)将每个处理作业发送到处理实例时,不可知包装器可以选择AI处理实例完成对该作业的处理所需的数据,即,不包括不是执行处理作业所必需的任何数据,以使例如可以省略患者数据和宏图像。附加地,在发送到AI处理实例之前,可以加密去往AI处理实例的数据。
不可知包装器提供了在应用实例内迭代执行处理的可能性。存在决策点“需要附加分析”以允许本地处理和/或外部处理的迭代。在完成所需处理之后,从“分析数据累加器”中获取数据,以备导出。初始化可以包括用户当向AI处理实例发送定时中断(pit)AI处理作业时可能需要使用的用户区域的信息。这样,指令不可知包装器使得应用实例运行任务的用户还可以指定应用实例可以向哪些人工智能处理模块或实例发送AI处理作业。
应当理解,如下文所进一步更详细地描述的,如参考图1至图4所描述的***可以部分地或完全地在云计算环境中实现。而且,应当理解,上文所提及的模块中的任一模块以及LIS可以是分布式***中的网络节点,或与该网络节点相关联。
AI处理模块功能
可以由AI处理模块提供并且在其上运行的AI处理功能的一个示例是卷积神经网络(CNN)。CNN可以被设计为用于在数字病理组织学图像中发现肿瘤,例如,将每个图像像素分类为非肿瘤类别或多个肿瘤类别中的一个肿瘤类别。在下文中,我们通过示例提及乳腺癌肿瘤。我们的示例实现方式中的神经网络在设计上类似于VGG-16架构,该VGG-16架构可在http://www.robots.ox.ac.uk/~vgg/research/very_deep/获得并且在Simonyan和Zisserman 2014中进行了描述,其全部内容通过引用并入本文。我们在CNN肿瘤发现应用的上下文中描述了***的操作,该CNN肿瘤发现应用自动检测并勾画出浸润性乳腺癌细胞核和原位乳腺癌细胞核。该方法应用于单个输入图像(诸如WSI)或输入图像集合(诸如WSI集合)。每个输入图像都是经数字化的组织学图像,诸如WSI。在输入图像集合的情况下,这些输入图像可以是相邻组织切段的不同染色图像。我们广泛使用术语染色剂来包括使用生物标志物染色以及使用传统对比度增强染色剂染色。由于基于CNN的肿瘤自动勾画比手动勾画要快得多,所以其使得能够处理整个图像,而不仅仅是手动注释从图像中选择的提取图块。因此,自动肿瘤勾画应当使得病理学家能够计算图像中所有肿瘤细胞的阳性(或阴性)百分比,从而应当会产生更准确和可重复的结果。
输入图像是用几种传统染色剂中的任一染色剂染色的病理图像,如本文档别处所更详细讨论的。对于CNN,提取特定像素维度的图像补丁,例如,128×128个像素、256×256个像素、512×512个像素或1024×1024个像素。应当理解,图像补丁可以是任意尺寸的,不必是正方形,但是补丁的行和列中的像素数目符合2n,其中n是正整数,因为这样的数字通常为更适合通过合适单个CPU(中央处理单元)、GPU(图形处理单元)或TPU(张量处理单元)或其阵列进行直接数字处理。
我们注意到‘补丁’是用于是指通常具有正方形或矩形形状的取自WSI的图像部分的专门术语。就这点而言,我们注意到WSI可能包含10亿或更多个像素(千兆像素图像),因此图像处理通常应用于具有可管理大小(例如,约500×500像素)的补丁,用于CNN处理。因此,WSI将在将其拆分为补丁的基础上进行处理,从而使用CNN分析补丁,然后将输出(图像)补丁重新组装为与WSI大小相同的概率图。然后,概率图可以例如半透明地覆盖在WSI或其一部分上,以使可以一起查看病理图像和概率图。在这个意义上,概率图用作病理图像上的叠加图像。通过CNN分析的补丁可以具有相同的放大率,或可以具有不同放大率(例如,5×、20×、50×等)的混合,因此与样本组织的不同大小的物理区域相对应。通过不同的放大率,这些可能与获取WSI的物理放大率或通过以数字方式缩小放大率更高(即,分辨率更高)的物理图像获得的有效放大率相对应。
病理学的最近趋势是卷积神经网络(CNN)方法越来越受到关注。越来越多的报道称,CNN方法在从组织学图像中标识并且诊断肿瘤方面的表现与病理学家一样好,甚至更好。
Wang等人于2016年描述了一种CNN途径来检测乳腺癌向***的转移(metastasis)。
US2015213302A1描述了如何在癌组织区域中检测细胞有丝***。在训练CNN之后,基于自动核检测***来进行分类,该自动核检测***执行有丝***计数,然后用于对肿瘤进行分级。
Hou等人于2016年处理脑癌和肺癌图像。来自WSI的图像补丁用于进行补丁级CNN所给出的补丁级预测。
Liu等人于2017年使用CNN处理从十亿像素乳腺癌组织学图像中提取的图像补丁,以通过为图像中的每个像素指派肿瘤概率来检测并定位肿瘤。
Bejnordi等人于2017年应用两个堆叠CNN对从使用苏木精和伊红(H&E)染色剂染色的***组织的WSI提取的图像补丁中的肿瘤进行分类。性能被证明有利于这些病理图像中的对象检测和分割。我们还注意到,Bejnordi等人还提供了对适用于乳腺癌样本的其他基于CNN的肿瘤分类方法(参见参考文献10至文献13)。
Esteva等人于2017年应用深度CNN来分析皮肤病变,并且根据树结构分类法将病变分类为各种恶性类型、非恶性类型和非肿瘤性类型,这些非肿瘤性类型包括恶性类型肢端黑色素瘤、无黑色素黑色素瘤和雀斑黑色素瘤和非恶性类型的蓝痣、晕痣和蒙古斑。皮肤病变(例如,黑色素瘤)的图像按顺序扭曲成临床类别的概率分布以执行分类。
Mobadersany等人于2017年公开了一种基于生存CNN的计算方法,用于预测诊断为脑肿瘤的患者的总体生存率。来自组织活检的病理图像数据(组织学图像数据)馈送到模型与患者特定基因组生物标志物一起以预测患者预后。该方法使用自适应反馈同时学习与患者预后相关联的视觉模式和分子生物标志物。
在下文中,我们描述了一种基于CNN的计算机自动化肿瘤发现方法,其自动检测并且勾画浸润性乳腺癌细胞核和原位乳腺癌细胞核。该方法应用于单个输入图像(诸如WSI)或输入图像集合(诸如WSI集合)。每个输入图像都是经数字化的组织学图像,诸如WSI。在输入图像集合的情况下,这些输入图像可以是相邻组织切段的不同染色图像。我们广泛使用术语染色剂来包括使用生物标志物染色以及使用传统对比度增强染色剂染色。
由于计算机自动勾画肿瘤轮廓比手动勾画要快得多,因此它使得能够处理整个图像,而不仅仅是手动注释从图像中选择的提取图块。因此,所提出的自动肿瘤勾画应当使得病理学家能够计算图像中所有肿瘤细胞的阳性(或阴性)百分比,从而应当产生更准确和可重复的结果。
所提出的用于肿瘤发现、勾画和分类的计算机自动化方法使用卷积神经网络(CNN)在WSI上找到每个核像素,然后将每个这种像素分类为非肿瘤类别中的一个非肿瘤类别和多个肿瘤类别(在我们的当前实现方式中,为乳腺肿瘤类别)中的一个肿瘤类别。
我们实现方式中的神经网络在设计上类似于VGG-16架构,该VGG-16架构可以在http://www.robots.ox.ac.uk/~vgg/research/very_deep/获得并且在Simonyan和Zisserman 2014中进行了描述,其全部内容通过引用并入本文。
如本文档别处所更详细地讨论的,输入图像是使用几种传统染色剂中的任一传统染色剂染色的病理图像。对于CNN,提取特定像素维度的图像补丁,例如,128×128个像素、256×256个像素、512×512个像素或1024×1024个像素。应当理解,图像补丁可以是任意尺寸的,不必是正方形,但是补丁的行和列中的像素数目符合2n,其中n是正整数,因为这样的数字通常为更适合通过合适单个CPU(中央处理单元)、GPU(图形处理单元)或TPU(张量处理单元)或其阵列进行直接数字处理。
图5A是我们的神经网络架构的示意图。层C1、C2......C10是卷积层。层D1、D2、D3、D4、D5和D6是转置卷积(即,反卷积)层。互连某些层的线指示卷积C层与反卷积D层之间的跳跃连接。跳跃连接允许来自维度较大且深度较浅的层(其中“较大”和“浅”意味着较低索引的卷积层)的局部特征与来自最后一个(即,最小、最深)卷积层的全局特征相组合。这些跳跃连接提供了更准确的轮廓线。尽管最大池化层通过相应地减小了补丁的大小暗示示出,但是最大池化层(每个层都用于将补丁的宽度和高度减小2倍)出现在层C2、C4和C7之后,但是没有直接示意性地示出。在我们的神经网络的一些实现方式中,最大池化层替换为1×1卷积,从而形成完全卷积的网络。
神经网络的卷积部分依次具有以下几层:输入层(RGB输入图像补丁);两个卷积层,C1、C2;第一最大池化层(未示出);两个卷积层C3、C4;第二最大池化层(未示出);三个卷积层,C5、C6、C7;以及第三最大池化层(未示出)。除了分别与层C5和层C8的正常连接之外,来自第二最大池化层和第三最大池化层的输出还使用跳跃连接直接连接到反卷积层。
然后,最后一个卷积层C10、来自第二最大池化层(即,C4之后的层)的输出和来自第三跳过连接层(即,C7之后的层)的输出各自连接到单独“反卷积层”序列,该单独“反卷积层”序列将它们放大回到与输入(图像)补丁相同的尺寸,即,将卷积特征图转换为特征图,该特征图与输入图像补丁具有相同宽度和高度以及若干个通道(即,特征图数目)等于待检测组织类别的数目,即,非肿瘤类型和一个或多个肿瘤类型。对于第二最大池化层,我们看到与层D6的直接链接,由于只需要一个解卷积阶段。对于第三最大池化层,需要两个反卷积阶段经由中间反卷积层D4到达D5层。对于最深卷积层C10,需要三个反卷积阶段经由D1和D2到达D3层。结果是大小与输入补丁大小相同的三个阵列D3、D5、D6。
尽管表现可能不太好,但是图5A所图示的简化版本可以省略跳跃连接,在这种情况下,层D4、层D5和层D6不会存在,并且输出补丁仅从层D3计算。
图5B更详细地示出了图5A的神经网络架构中的最后步骤如何进行。即,组合全局特征映射层D3和局部特征映射层D5、D6以生成特征图,该特征图预测输入图像补丁的每个像素的单独类别。具体地,图5B示出了最后三个转置卷积层D3、D5、D6如何处理为肿瘤类别输出补丁。
我们现在讨论上文所描述的途径与目前在数字病理学中使用的已知CNN不同。这个已知CNN将从多个可用类别中选择的一个类别指派给每个图像补丁。这种类型的CNN的示例在Wang等人于2016年、Liu等人于2017年、Cruz-Roa等人于2017年和Vandenberghe等人于2017年的论文中。然而,我们刚刚描述的是,在给定图像补丁中,从多个可用类别中选择一个类别被指派给每一个像素。因此,我们的神经网络不是生成每个图像补丁的单个类别标签,而是输出给定补丁的每个单独像素的类别标签。我们的输出补丁与输入补丁具有一对一的像素到像素对应关系,使得输出补丁中的每个像素都为其指派了多个可用类别(非肿瘤、肿瘤1、肿瘤2、肿瘤3等)中的一个可用类别。
在这种已知CNN中,为了给每个补丁指派单个类别,采用一系列卷积层,然后采用一个或几个完全连接的层,然后采用输出向量,该输出向量具有与要检测的类别一样多的值。预测类别由输出向量中最大值的位置确定。
经训练的CNN将采用数字载片图像中的像素作为输入,并且返回每个像素的概率向量(Goodfellow、Bengio和Courville 2016)。向量的长度为N,其中N是CNN已被训练为检测的类别的数目。例如,如果CNN已经被训练来区分三个类别(浸润性肿瘤、原位肿瘤和非肿瘤),则向量v的长度为3。向量中的每个坐标指示像素属于特定类别的概率。所以v[0]可能指示像素属于浸润性肿瘤类别的概率,v[l]指示它属于原位类别的概率,而v[2]指示它属于非肿瘤类别的概率。每个像素的类别由概率向量确定。将像素指派给类别的简单方法是将像素指派给该像素具有最高概率的类别。
为了预测单独像素的类别,我们的CNN在卷积层之后使用了不同架构。我们在卷积层之后使用一系列转置卷积层,而非一系列完全连接层。完全连接层从该架构中删除。每个转置层都将特征图的宽度和高度加倍,同时将通道数目减半。以这种方式,特征图被放大回到输入补丁的尺寸。
另外,为了改进预测,我们使用了Long等人于2015年描述的跳跃连接,其全部内容通过引用并入本文。
跳跃连接使用较浅的特征来改进通过从最终卷积层C10进行放大而做出的粗略预测。来自包含在图5A的层D5和层D6中的跳跃连接的局部特征与通过放大来自最终卷积层的包含在图5A的层D3中的全局特征生成的特征连结。然后,如图5B所示,全局局部特征层和局部特征层D3、D5和D6连结为组合层。
来自图5B的经连结的层(或备选地,在不用跳跃连接的情况下,直接来自最终反卷积层D3),通道数目通过组合层的1×1卷积减少以与类别数目相匹配。然后,该分类层上的softmax操作将组合层中的值转换为概率。输出补丁层的尺寸为N×N×K,其中N是输入补丁的宽度和高度(以像素为单位),K是正在检测的类别的数目。因此,对于图像补丁中的任何像素P,都存在尺寸为K的输出向量V。然后,可以通过每个像素P的对应向量V中最大值的位置为该像素P指派唯一类别。
因此,CNN将每个像素标记为非癌性的或属于几种不同癌症(肿瘤)类型中的一种或多种癌症(肿瘤)类型。特别受关注的癌症是乳腺癌,但是该方法也可适用于其他癌症的组织学图像,诸如膀胱癌、结肠癌、直肠癌、肾癌、血液癌(白血病)、子宫内膜癌、肺癌、肝癌、皮肤癌、胰腺癌、***癌、脑癌、脊柱癌和甲状腺癌。
我们的特定神经网络实现方式被配置为对具有某些固定像素维度的输入图像进行操作。因此,作为用于训练和预测两者的预处理步骤,从WSI中提取具有期望像素尺寸的补丁,例如,N×N×n个像素,其中在当WSI是传统可见光显微镜所获取的彩色图像时,每个物理位置具有与三种原色(通常为RGB)相关联的三个像素的情况下,n=3。(如下文所进一步提及的,在组合两个或更多个彩色WSI的情况下,'n'可以是合成WSI的数目的3倍。)而且,在单个单色WSI的情况下,'n'的值为1。为了使训练更快,输入补丁也在这个阶段居中并且归一化。
我们的首选途径是处理整个WSI,或至少包含组织的WSI的整个区域,因此我们案例中的补丁是至少覆盖WSI的整个组织区域的图块。图块可以在没有重叠的情况下邻接,或具有重叠的边沿边缘区域,例如,1、2、3、4、5、6、7、8、9或10个像素宽,以便CNN的输出补丁可以拼接在一起,从而把任何差异考虑在内。然而,如果期望,如同在现有技术中一样或如可能由病理学家执行的,则我们的途径还可以应用于WSI上的放大率相同或不同的随机补丁样本。
我们的神经网络在设计上类似于Simonyan和Zisserman 2014的VGG-16架构。它在所有卷积过滤器中使用非常小的3×3内核。最大池化在小窗口为2×2且步幅为2的情况下执行。与在卷积层之后具有一系列完全连接层的VGG-16架构相比,我们在卷积层之后具有“反卷积”(更准确地,转置卷积)序列,以生成分割掩码。这种用于语义分割的上采样之前已被Long等人在2015年用于自然图像处理,其全部内容通过引用并入本文。
每个反卷积层将输入特征图在宽度维度和高度维度上放大两倍。这抵消了最大池化层的收缩效应,并且产生尺寸与输入图像的尺寸相同的类别特征图。每个卷积和反卷积层的输出由非线性激活层变换。目前,非线性激活层使用整流函数ReLU(x)=max(0,x)ReLU(x)=max(0,x)。可以根据期望使用不同的激活函数,诸如ReLU、leaky ReLU、eLU等。
所提出的方法无需修改即可以应用于任何期望数目的组织类别。约束仅仅是合适训练数据的可用性,这些数据已经按期望在神经网络中复制的方式进行分类。其他***病理学的示例是浸润性小叶癌或浸润性导管癌,即,前一示例的单一浸润性肿瘤类别可以使用多个浸润性肿瘤类别替换。神经网络的准确性主要由每个类别可用的图像数目、类别的相似程度以及在遇到存储器约束之前神经网络的深度指示。一般而言,每个类别的大量图像,更深的网络和不同的类别会导致更高的网络准确性。
softmax回归层(即,多项逻辑回归层)应用于通道补丁中的每个通道补丁,以将特征图中的值转换为概率。
在通过softmax回归进行最终转换后,最终特征图中通道C中位置(x、y)处的值可以包含输入图像补丁中的位置(x、y)处像素属于通过通道C检测的肿瘤类型的概率P(x、y)。
应当领会,卷积层和去卷积层的数目可以根据期望增加或减小,并且受到运行神经网络的硬件的存储器限制。
我们使用小批量梯度下降训练神经网络。使用指数衰减,学习率从0.1的初始率下降。我们通过使用Srivastava等人2014[2017]所描述的“dropout”程序来防止神经网络过度拟合,其全部内容通过引用并入本文。训练网络可以使用几种可用深度学习框架中的任一可用深度学习框架在GPU、CPU或FPGA上进行。对于我们的当前实现方式,我们正在使用Google Tensorflow,但是相同的神经网络也可以在诸如Microsoft CNTK之类的另一深度学习框架中实现。
神经网络输出尺寸为N×N×K的概率图,其中N是输入补丁的宽度和高度(以像素为单位),K是正在检测的类别的数目。这些输出补丁一起拼接回大小为W×H×K的概率图,其中W和H是原始WSI在被拆分为补丁之前的宽度和高度。
然后,通过在标签图像中的每个位置(x、y)处记录具有最大概率的类别索引,概率图可以被折叠为W×H标签图像。
在目前的实现方式中,我们的神经网络将每个像素指派为三个类别中的一个类别:非肿瘤、浸润性肿瘤和原位肿瘤。
当使用多个肿瘤类别时,输出图像可以后处理为更简单的非肿瘤和肿瘤二元分类,即,组合多个肿瘤类别。当从基本数据创建图像时,二元分类可以用作选项,同时多类肿瘤分类保留在所保存的数据中。
虽然我们的发明的特定实现方式的以上描述集中于使用CNN的特定途径,但是应当理解,我们的途径可以在广泛多种不同类型的卷积神经网络中实现。一般而言,使用卷积来检测越来越复杂的特征并随后使用转置卷积(“反卷积”)将特征图放大回到输入图像的宽度和高度的任何神经网络都应当是合适的。
示例1
图6A是操作时的彩色图像并且示出了原始图像。图6B是操作时的彩色图像,并且示出了CNN所生成的像素级预测。
图6A是来自H&E染色的WSI的补丁,其中右下象限中较大的深紫色细胞簇是肿瘤,而较小的深紫色细胞是淋巴细胞。
图6B是CNN所生成的肿瘤概率热图。可以看出,像素级预测的途径如何产生具有平滑周边轮廓线的区域。对于热图,不同(任意选取)的颜色指示不同的类别,即,绿色代表非肿瘤,红色代表第一肿瘤类型,而蓝色代表第二肿瘤类型。
示例2
图7A至图7B是操作时的彩色图像并且示出了输入RGB图像补丁(图7A)和最终输出肿瘤概率热图(图7B)的示例。
图7A附加地示出了病理学家对浸润性肿瘤的手动勾画(红色轮廓线)以及神经网络预测的叠加(粉色和黄色阴影区域)。
图7B是CNN所生成的肿瘤概率热图。对于热图,不同(任意选取)的颜色指示不同的类别,即,绿色代表非肿瘤,红棕色代表浸润性肿瘤(图7A中对应示为粉色),而蓝色代表原位肿瘤(图7A中对应示为黄色)。再者,可以看到像素级预测的途径如何产生具有平滑周边轮廓线的区域。而且,可以看出CNN预测如何与图7A所示的病理学家的手动标记兼容。另外,CNN提供了对病理学家未进行的浸润性组织与非浸润性(原位)组织之间的进一步区分,并且本质上是多通道CNN设计的一部分,可以对该部分进行编程和训练用于将组织根据期望和临床相关分类为任何数目的不同类型。
获取和图像处理
该方法的起点是已经对组织样本进行了切段,即,切片,并且相邻切段已经使用不同的染色剂染色。相邻切段具有非常相似的组织结构,由于切段很薄,但是由于它们具有不同的层,所以不会完全相同。
例如,可以有5个相邻切段,每个切段都有不同的染色剂,诸如ER、PR、p53、HER2、H&E和Ki-67。然后,获取每个切段的显微镜图像。尽管相邻切段的组织形状非常相似,但染色剂会突出显示不同的特征,例如,细胞核、细胞质、通过一般对比度增强获得的所有特征等。
然后,不同的图像对准、翘曲或以其他方式进行预处理,以将一个图像上的任何给定特征的坐标映射到其他图像上的相同特征。映射负责由诸如略有不同的放大率、由于显微镜中载片对准或将组织切片安装在载片上的差异而导致的方位差异等之类的因素引起的图像之间的任何差异。
应当指出,通过包括不同染色的相邻切段的集合的不同WSI之间的坐标映射,WSI可以合并为单个复合WSI,可以从中提取复合补丁用于CNN处理,其中这样的复合补丁的维度为N×N×3m,其中‘m’是形成集合的复合WSI的数目。
然后,对图像进行一些标准处理。这些图像处理步骤可以以WSI级别或以单独图像补丁的级别进行。如果CNN被配置为对单色图像而非彩色图像进行操作,则图像可以从彩色转换为灰度。可以通过应用对比度增强过滤器来修改图像。然后,可以执行一些分割以标识图像集合中的公共组织区域或简单拒绝与组织无关的背景。分割可能涉及以下图像处理技术中的任何或所有图像处理技术:
1.标识种子组织区域的基于方差的分析
2.自适应阈值化
3.形态学操作(例如,blob分析)
4.轮廓标识
5.基于邻近启发式规则的轮廓合并
6.图像不变矩的计算
7.边缘提取(例如,Sobel边缘检测)
8.曲率流过滤
9.消除连续切段之间的强度变化的直方图匹配
10.多分辨率刚性/仿射图像配准(梯度下降优化器)
11.非刚性变形/变换
12.超像素聚类
还应当理解,上述类型的图像处理步骤可以在WSI上或在补丁提取之后在单独补丁上进行。在一些情况下,在补丁提取之前和之后执行相同类型的图像处理可以很有用,即,分别作为CNN预处理和CNN后处理。也就是说,可以在补丁提取之前对WSI进行一些图像处理,并且在从WSI提取补丁之后可以对补丁进行其他图像处理。
这些图像处理步骤通过示例进行描述,而不应被解释为以任何方式限制本发明的范围。例如,如果可以获得足够处理能力,CNN可以直接处理彩色图像。
训练与预测
图8是示出了训练CNN所涉及的步骤的流程图。
在步骤S40中,取回包含已经由临床医生注释以发现、勾画和分类肿瘤的、用于处理的WSI的训练数据。临床医生的注释表示基础真实数据。
在步骤S41中,WSI被分解为图像补丁,它们是CNN的输入图像补丁。也就是说,图像补丁从WSI中提取。
在步骤S42中,如上文所描述的,对图像补丁进行预处理。(备选地或另外,WSI可以在步骤S41之前如上所述进行预处理。)
在步骤S43中,设置CNN权重的初始值,即,层之间的权重。
在步骤S44中,如上文参考图1A和图1B所进一步描述的,输入图像补丁的批次中的每个输入图像补丁输入到CNN中并且进行处理以在逐像素的基础上找到、勾画和分类补丁。本文中的术语“轮廓线”在技术上不一定是正确术语,由于我们的方法标识每个肿瘤(或肿瘤类型)像素,所以说CNN确定每个肿瘤类型的肿瘤区域可能更准确。
在步骤S45中,CNN输出图像补丁与基础真实数据进行比较。这可以在每个补丁的基础上进行。备选地,如果已经提取了覆盖整个WSI的补丁,则这可以以WSI级别进行,或在WSI的由连续补丁批次组成的子区域(例如,WSI的一个象限)中进行。在这样的变型中,输出图像补丁可以重新组装为整个WSI或其连续部分的概率图,并且如果概率图例如在显示器上呈现为与WSI半透明叠加,则概率图可以通过计算机和用户两者以视觉方式与基础真实数据进行比较。
在步骤S46中,CNN然后从该比较中获知并且例如使用梯度下降途径更新CNN权重。因此,该获知通过流程流中的返回循环反馈回到训练数据的重复处理中,如图8所示,从而可以优化CNN权重。
训练之后,CNN可以独立于任何基础真实数据应用于WSI,即,实时用于预测。
图9是示出了使用CNN进行预测所涉及的步骤的流程图。
在步骤S50中,例如从实验室信息***(LIS)或其他组织学数据储存库中检索一个或多个WSI用于处理。例如,如上文所描述的,对WSI进行预处理。
在步骤S51中,从该WSI或每个WSI中提取图像补丁。补丁可以覆盖整个WSI,或可以是随机选择或非随机选择。
在步骤S52中,例如,如上文所描述的,对图像补丁进行预处理。
在步骤S53中,输入图像补丁批次中的每个输入图像补丁输入到CNN中,并且进行处理以在逐像素的基础上查找、勾画和分类补丁,如上文参考图1A和图1B所进一步描述的。然后,输出补丁可以重新组装为WSI的概率图,从该WSI中提取输入图像补丁。例如,如果概率图在显示器上呈现为WSI上或与WSI并排的半透明叠加,则概率图可以通过数字处理中的计算机装置和用户两者以视觉方式与WSI进行比较。
在步骤S54中,对肿瘤区域进行过滤,从而排除可能是假阳性的肿瘤,例如,太小的区域或可能是边沿伪影的区域。
在步骤S55中,运行评分算法。评分具有细胞特异性,并且可以针对每个肿瘤对分数进行汇总,和/或还针对WSI(或WSI的子区域)进行汇总。
在步骤S56中,将结果呈现给病理学家或其他相关熟练的临床医生用于例如通过在合适高分辨率监视器上显示带注释的WSI进行诊断。
在步骤S57中,以链接到包含已经由CNN处理的WSI或WSI集合的患者数据文件的方式保存CNN的结果,即,概率图数据和可选地还有与CNN参数有关的元数据以及病理学家所添加的任何附加诊断信息。因此,LIS或其他组织学数据储存库中的患者数据文件使用CNN结果增补。
自动确定需要附加测试
图10是根据本公开的实施例的工作流程控制软件所提供的流程图。
步骤S71提供包含如可能已经由载片扫描仪生成的的WSI的图像数据的图像数据文件。应当领会,图像数据文件可以包括多个图像,例如,一个用于多个染色剂中的每个染色剂,或一个用于通过使显微镜的焦平面步进通过有限深度的透明或半透明样本而获得的样本(所谓z-堆叠)中的不同深度中的每个深度。在本工作流程的上下文中并且通过示例,起点是包含H&E染色剂图像的图像数据文件,或可能是来自同一H&E载片的z图像堆叠。在其他示例中,在步骤S71中提供的初始图像或图像集合可以来自未经染色的载片,或使用一些其他合适染色剂或染色剂组合染色的载片。
步骤S72是可选步骤,其中如上文还通过示例所描述的,可以执行一些图像预处理,诸如基于方差的分析、自适应阈值化、形态学操作等。
步骤S73运行上文所描述的CNN,具体如参考图9的步骤S51至S54所描述的。执行组织类型的逐像素分类以标记肿瘤像素,随后也可选地进行分割以勾画肿瘤(即,肿瘤区域)。组织类型是按癌性类型分类。对于可选分割,通常情况下是连续肿瘤像素(即,彼此接触或彼此接近的像素)属于共同肿瘤。然而,通常包括更复杂的分割准则以提高可靠性,例如,以标识两个不同像素分类的接触肿瘤,例如,与两种不同的癌性细胞分类相关联的两个接触肿瘤。CNN为每个像素指派概率,该概率为表示像素属于CNN已经被训练为检测的N个类别中的每个类别的概率的概率向量。例如,在被训练为区分浸润性区域、原位区域和非肿瘤区域的CNN的情况下,每个像素将被指派长度为3的向量。位置k处的像素可能具有概率向量[0.1、0.2、0.7],该概率向量[0.1、0.2、0.7]指示像素位于浸润性区域的概率为10%,像素位于原位区域的概率为20%,而像素位于非肿瘤区域的概率为70%。
在步骤S74中,在上文所描述的CNN已经将概率向量指派给图像中的每个像素的步骤S73之后执行的步骤S74中,基于传统图像处理技术(例如,如上文结合分割所进一步列出的)的二级算法计算每个图像中不同肿瘤类型的像素的存在和丰度。例如,可以通过概率图进行单个通过,从而将每个像素指派给它的类别并且计算总和以对计算WSI的每个类别中的像素进行计数。如果类别中的像素数高于该类别的预设显着阈值,则认为该类别所表示的肿瘤类型存在于组织样本中,即,呈现了诊断显着程度。可以以若干个不同方式指定阈值。例如,就绝对而言,阈值可以被限定为特定最小面积(或等同像素数),或就相对而言,被限定为WSI中组织的百分比(即,忽略WSI中的非组织区域)。WSI细分为组织区域和非组织区域可以通过单独的预处理算法来检测,该单独的预处理算法可以基于传统图像处理,或可以使用以与上文所描述的方式类似方式工作的CNN。备选地,将组织分类为非肿瘤类型和多种肿瘤类型的同一CNN还可以包括非组织类别。考虑到分割结果,还可以计算阈值,例如,以忽略不在低于特定尺寸的肿瘤中的像素,或如果肿瘤整体已经通过聚合计算存在哪些组织类别和肿瘤区域的绝对丰度或相对丰度确定为特定类别的肿瘤,则对肿瘤中的所有像素进行计数,而与类别无关。
用于标识是否超过了给定组织类别的显着性阈值的更复杂的途径为基于多因素评分的途径。例如,在步骤S73中通过肿瘤发现CNN生成的数据(即,肿瘤特异性数据)可以用于计算如由分割确定的每个肿瘤的概括统计数据。例如,对于每个肿瘤,分数可以计算为包含在该肿瘤(区域)中的所有像素的上文所提及的概率值的数学平均值。一些其他概括统计数据(诸如中值、加权平均值等)还可以用于计算分数。概括统计数据集合可以包括肿瘤(诸如如由肿瘤中的像素数目或肿瘤区域的形状或某个像素分类的流行度所测量的肿瘤区域,诸如浸润性肿瘤和原位肿瘤)的维度属性或形态学属性。通常对于每个肿瘤,都会包括肿瘤概率、肿瘤区域和肿瘤最大维度长度的平均值和标准偏差。肿瘤区域不一定来自单个载片;它们可以属于单独载片,例如,两个载片的组织样本可以使用不同的染色剂染色,从而突出显示不同类别的肿瘤细胞,以使在第一载片中标识出一些肿瘤,而在第二载片中标识出其他肿瘤。
更复杂的评分途径可以包括从CNN训练数据导出的其他参数。例如,可以使用在组织学图像数据(即,图像数据中标识的肿瘤)和患者特定基因(即,基因组)数据的组合上训练的CNN来预测患者风险。Mobadersany等人于2018年对这种类型的CNN进行描述。
在其他实现方式中,分数可以使用应用于由CNN标识的肿瘤的传统图像处理技术来计算。例如,形状和纹理度量可以与基因数据组合以创建统计度量集合以包括在概括统计数据中。该分数可以基于指示对患者存活的重要性的综合分数,例如,5年生存概率,或基于简单的单参数排序,例如,基于肿瘤的尺寸参数(诸如区域或最大维度)或形态参数(诸如圆度)。支持向量机或随机森林算法可以使用这些特征来预测转移风险。无论哪种方式,都会计算转移风险分数并且与每个肿瘤区域相关联。我们将转移风险限定为来自该肿瘤的细胞转移到身体的其他部位的概率。WSI中标识的显着存在的肿瘤类型作为列表返回。
代替或以及使用评分来限定给定肿瘤类型是否以显着量存在,可以应用肿瘤过滤来滤除被认为非显着的任何肿瘤,例如,非常小的肿瘤。例如,过滤可以基于上文所提及的概括统计数据。过滤器可以选取以仅通过最大维度(例如,100微米)高于阈值的肿瘤,这些肿瘤的平均概率高于阈值,例如,50%。
如果至少一个肿瘤类型的组织类别已经在步骤S74中标识为以临床显着量存在,则流程流继续到步骤S75。
在步骤S75中,针对所存储的协议限定的数据库,检查WSI中标识的每个显着存在的肿瘤类型,即,作为步骤S74的输出返回的列表中的每个肿瘤类型。每个协议限定将肿瘤类型与应当或可能对包含该肿瘤类型的样本执行的测试联系,并且可选地还与排序每个这种测试所需的许可联系。数据库可以由具有适当权限以添加、删除或修改测试和/或改变与测试排序相关联的许可的用户修改,该用户可以是具有超级用户或管理员权限的一个或多个人员。基于应用列表作为来自步骤S74的输出的数据库查询返回查询结果,该查询结果列出了进一步活检分析所需的附加测试和相关许可。任何特定测试的授权都可以在单独次序基础上例如由具有必要权限的用户或以一揽子方式授予,从而可能允许***对这种测试排序,而无需获取特定用户许可。还可以引用在患者记录中或经由患者记录中的指针可访问的患者简档以推断许可。根据用户在工作流程控制软件中的权利,还可以暗示来自当前登录的用户的许可。
只有当存在(例如,由特定测试的全面许可提供的或已经从适当授权的用户处获取的)必要授权时,则过程流进行到步骤S77。
在步骤S77中,工作流程控制软件连接到临床网络,例如,LIS,具体地连接到包括在步骤S71到S76中处理的WSI的患者记录。
在步骤S78中,工作流程控制软件为从步骤S76输出的测试创建并排序。(本文中使用复数是为了方便,并不排除只有一个测试次序的可能性。)例如,***可能使用健康水平-7(HL7)协议(Kush等人于2008年)连接到LIS并且提交该测试的次序。
在步骤S79中,进行经排序的测试。例如,进行排序可以在向用于H&E载片的切段的一个或多个连续切段施用一个或多个染色剂(例如,蛋白质特异性标记物)时会触发额外的手动实验室工作,以便准备一个或多个新载片,然后自动获取每个新载片的WSI。在其他示例中,进行附加测试可以完全自动化,因此在工作流程控制软件的控制下执行。图像获取之后可以是新载片的WSI的进一步自动化图像处理,这可以酌情包括传统图像处理和/或基于CNN的图像处理。而且,应当理解,每个新载片的WSI的图像处理可能会参考H&E WSI以及可能还参考来自其他染色剂的其他新载片WSI来联合进行。例如,可以在合适翘曲变换的帮助下合成来自同一活检的连续切段的不同WSI,以生成不同WSI之间的像素映射。
在步骤S710中,附加测试结果添加到包含原始(即,初始)H&E图像的活检记录,特别是包括具有新染色剂的WSI和对那些新WSI的任何后续图像处理。
在步骤S711中,现在包括在步骤S75至S79中标识、排序和进行的附加测试的患者记录加载到病理学家的工作站中,该工作站上运行着病理可视化应用,该病理可视化应用可操作以生成(多个)载片图像的可视化并且在形成工作站的一部分的显示器设备的图形用户接口(GUI)窗口中向用户显示每个这种图像。通常,所显示的图像将采用组合叠加视图或多图块视图的形式。在叠加视图中,原始数据(可以经处理)与叠加在顶部上的组织类型分类数据(其通常将与分割数据整合)一起显示。针对可视化,组织类型分类数据和/或分割数据可以转换为每个肿瘤的阴影和/或轮廓,例如,轮廓线可以代表分割,而阴影可以使用颜色或不同种类的影线描画以表示不同的组织类别。特别是在叠加图像的情况下,并入这种组织类别或肿瘤类别特定阴影描画和/或勾画对于可视化将是有益的。组织的非肿瘤区域可能根本没有标记或可以使用高透明度的颜色洗涤(例如,灰色或蓝色洗涤)进行阴影描画。在多图块视图中,叠加视图中的不同层并排显示为图块,因此图块示出了原始图像数据(可能经处理的)而图块示出了经过滤的肿瘤区域的组织类型分类数据和/或分割数据。如果期望,则可以显示每个组织类型或肿瘤类型分类显示单独图块。可视化还可以呈现尚未使用与该组织类别特别相关的染色剂进行特异性测试的组织类别的肿瘤,这些肿瘤与已经使用特定染色剂进行测试的肿瘤不同,例如,诸如灰色阴影描画或轮廓之类的单色可以用于与非测试类型的肿瘤类别和用于测试类型的肿瘤类别的相应颜色有关的肿瘤。
总而言之,CNN处理组织学图像以通过将图像像素分类为属于包括一个或多个肿瘤组织类别在内的多个组织类别中的一个组织类别来标识肿瘤。然后,基于CNN在图像中发现的组织类别并且参考组织类别特定协议来确定是否需要进行任何后续测试。对于所判定的每个这种后续测试,在实验室信息***内自动创建并且提交。这种自动化工作流程确保,在病理学家第一次核查时,患者记录不仅包括基本组织学图像(由CNN核查的图像),还包括根据CNN分析结果自动排序的附加测试的结果。
CNN计算平台
所提出的图像处理可以在多种计算架构上执行,具体地,针对神经网络而优化的计算架构,这些架构可以基于CPU、GPU、TPU、FPGA和/或ASIC。在一些实施例中,神经网络使用Google的Tensorflow软件库来实现,该Tensorflow软件库在来自加利福尼亚州圣克拉拉的Nvidia公司的Nvidia GPU上运行,诸如Tesla K80 GPU。在其他实施例中,神经网络可以在通用CPU上运行。通过专门设计的用于执行CNN计算的处理器可以获得更快的处理,例如,Jouppi等人于2017中所公开的TPU,其全部内容通过引用并入本文。
图11示出了Jouppi等人于2017年的TPU,该TPU是Jouppi的图1的简化复制。TPU100具有收缩矩阵乘法单元(MMU)102,该MMU 102包含256×256个MAC,这些MAC可以对有符号或无符号整数执行8位乘法和加法。MMU的权重通过权重FIFO缓冲器104供应,该权重FIFO缓冲器104继而经由合适存储器接口108从以片外8GB DRAM形式的存储器106读取权重。提供统一缓冲器(UB)110用于存储中间结果。MMU 102连接以接收来自权重FIFO接口104和UB110的输入(经由收缩数据设置单元112)并且将MMU处理的16位乘积输出到累加器单元114。激活单元116对累加器单元114中保存的数据执行非线性功能。在通过归一化单元118和池化单元120进行进一步处理后,中间结果发送到UB 110,以经由数据设置单元112被重新供应给MMU 102。池化单元120可以根据需要执行最大池化(即,最大池化)或平均池化。可编程DMA控制器122向或从TPU的主机计算机和UB 110传送数据。TPU指令经由主机接口124和指令缓冲器126从主机计算机发送到控制器122。
应当理解,用于运行神经网络的计算能力(无论是基于CPU、GPU还是TPU)都可以本地托管在临床网络(例如,如下文所描述的临床网络)或远程托管在数据中心中。
网络和计算扫描环境
所提出的计算机自动化方法在实验室信息***(LIS)的背景下操作,而该LIS通常是更大的临床网络环境的一部分,诸如医院信息***(HIS)或图片存档和通信***(PACS)。在LIS中,WSI保留在数据库(通常,包含个体患者的电子病历的患者信息数据库)中。WSI取自安装在载片上的染色组织样本,载片携载有打印的条形码标签,通过这些打印的条形码标签,WSI使用合适的元数据标记,因为获取WSI的显微镜配备有条形码阅读器。从硬件的角度来看,LIS为传统计算机网络,诸如具有有线连接和无线连接的局域网(LAN)。
图12示出了可以结合本发明的实施例使用的示例计算机网络。网络150包括医院152中的LAN。医院152配备有若干个工作站154,每个工作站都可以经由局域网访问具有关联存储设备158的医院计算机服务器156。LIS、HIS或PACS档案被存储在存储设备158上,以使可以从工作站154中的任何工作站访问档案中的数据。工作站154中的一个或多个工作站154可以访问图形卡和软件用于计算机实现生成如上文所描述的图像的方法。软件可以本地存储在工作站154或每个工作站154,或可以远程存储并且当需要时通过网络150下载到工作站154。在其他示例中,体现本发明的方法可以在具有作为终端操作的工作站154的计算机服务器上执行。例如,工作站可以被配置为接收限定期望组织学图像数据集合的用户输入,并且在***中的别处执行CNN分析的同时,显示结果图像。此外,若干个组织学和其他医学成像设备160、162、164、166连接到医院计算机服务器156。使用设备160、162、164、166收集的图像数据可以直接存储到存储设备156上的LIS、HIS或PACS存档。因此,可以在记录对应组织学图像数据之后立刻地查看并处理组织学图像。局域网通过医院互联网服务器170连接到互联网168,该互联网168允许远程访问LIS、HIS或PACS档案。这用于远程访问数据并且在医院之间传送数据(例如,如果移动患者),或允许进行外部研究。
图13是图示了可以结合本文中所描述的各种实施例使用的示例计算装置500的框图。例如,计算装置500可以用作上文所提及的LIS或PACS***中的计算节点,例如,结合合适GPU或图11所示的TPU进行CNN处理的主机计算机。
计算装置500可以是服务器或任何传统个人计算机,或能够进行有线数据通信或无线数据通信的任何其他处理器使能设备。还可以使用其他计算装置、***和/或体系结构,这些计算装置、***和/或体系结构包括不能进行有线数据通信或无线数据通信的设备,这对于本领域技术人员而言是显而易见的。
计算装置500优选地包括一个或多个处理器,诸如处理器510。处理器510可以是例如CPU、GPU、TPU或阵列或其组合,诸如CPU和TPU组合或CPU和GPU组合。可以提供附加处理器,诸如管理输入/输出的辅助处理器、执行浮点数学运算的辅助处理器(例如,TPU)、具有适合迅速执行信号处理算法的架构的专用微处理器(例如、数字信号处理器、图像处理器)、隶属于主处理***的从属处理器(例如,后端处理器)、用于双处理器***或多处理器***的附加微处理器或控制器、或协处理器。。这样的辅助处理器可以是分立处理器或可以与处理器510集成在一起。可以与计算装置500一起使用的CPU的示例是奔腾处理器、酷睿i7处理器、以及Xeon处理器,所有这些都可以从加利福尼亚州圣克拉拉的英特尔公司获得。可以与计算装置500一起使用的示例GPU是加利福尼亚州圣克拉拉的Nvidia公司的Tesla K80GPU。
处理器510连接到通信总线505。通信总线505可以包括用于促进存储装置与计算装置500的其他***部件之间的信息传送的数据通道。通信总线505还可以提供用于与处理器510(包括数据总线、地址总线和控制总线(未示出))通信的信号集合。通信总线505可以包括任何标准总线架构或非标准总线架构,诸如例如,符合工业标准架构(ISA)、扩展工业标准架构(EISA)、微通道架构(MCA)、***部件互连(PCI)本地总线、或由电气和电子工程师协会(IEEE)颁布的标准,该标准包括IEEE 488通用接口总线(GPIB)、IEEE 696/S-100等。
计算装置500优选地包括主存储器515,并且还可以包括辅助存储器520。主存储器515为在处理器510上执行的程序提供指令和数据的存储,诸如上文所讨论的功能和/或模块中的一个或多个功能和/或模块。应当理解,存储在存储器中并且由处理器510执行的计算机可读程序指令可以是汇编器指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路***的配置数据、或以一种或多种编程语言的任何组合编写和/或根据其编译的源代码或目标代码,该一种或多种编程语言包括但不限于Smalltalk、C/C++、Java、JavaScript、Perl、Visual Basic、.NET等。主存储器515通常是基于半导体的存储器,诸如动态随机存取存储器(DRAM)和/或静态随机存取存储器(SRAM)。其他基于半导体的存储器类型包括例如同步动态随机存取存储器(SDRAM)、Rambus动态随机存取存储器(RDRAM)、铁电随机存取存储器(FRAM)等,其包括只读存储器(ROM)在内。
计算机可读程序指令可以完全地在用户计算机上、部分地在用户计算机上、作为独立软件封装、部分在用户计算机上而部分在远程计算机上或完全在远程计算机或服务器上执行。在后一场景中,远程计算机可以通过任何类型的网络连接到用户的计算机,该网络包括局域网(LAN)或广域网(WAN),或可以连接到外部计算机(例如,通过使用互联网服务提供者的互联网)。
辅助存储器520可以可选地包括内部存储器525和/或可移除介质530。可移除介质530以任何众所周知方式读取和/或写入。可移除存储介质530可以是例如磁带驱动器、压缩盘(CD)驱动器、数字多功能盘(DVD)驱动器、其他光驱、闪存驱动器等。
可移除存储介质530是其上存储有计算机可执行代码(即,软件)和/或数据的非瞬态计算机可读介质。可移除存储介质530上存储的计算机软件或数据读入计算装置500用于处理器510执行。
辅助存储器520可以包括其他相似元件,用于允许将计算机程序或其他数据或指令加载到计算装置500中。这种器件可以包括例如外部存储介质545和通信接口540,该器件允许软件和数据从外部存储介质545传送到计算装置500。外部存储介质545的示例可以包括外部硬盘驱动器、外部光驱、外部磁光驱动器等。辅助存储器520的其他示例可以包括基于半导体的存储器,诸如可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除只读存储器(EEPROM)或闪存(与EEPROM相似的面向块的存储器)。
如上文所提及的,计算装置500可以包括通信接口540。通信接口540允许软件和数据在计算装置500与外部设备(例如,打印机)、网络或其他信息源之间传送。例如,计算机软件或可执行代码可以经由通信接口540从网络服务器传送到计算装置500。通信接口540的示例包括内置网络适配器、网络接口卡(NIC)、个人计算机存储卡国际协会(PCMCIA)网卡、卡总线网络适配器、无线网络适配器、通用串行总线(USB)网络适配器、调制解调器、网络接口卡(NIC)、无线数据卡、通信端口、红外接口、IEEE 1394火线、或能够将***550与网络或其他计算设备接口的任何其他设备。通信接口540优选地实现行业颁布的协议标准,诸如以太网IEEE 802标准、光纤通道、数字用户线(DSL)、异步数字用户线(ADSL)、帧中继、异步传送模式(ATM)、集成数字服务网络(ISDN)、个人通信服务(PCS)、传输控制协议/互联网协议(TCP/IP)、串行线路互联网协议/点对点协议(SLIP/PPP)等,而且还可以实现定制或非标准接口协议。
经由通信接口540传送的软件和数据的形式通常采用电通信信号555。这些信号555可以经由通信信道550提供给通信接口540。在一个实施例中,通信信道550可以是有线网络或无线网络、或任何其他多种通信链路。通信信道550携带信号555并且可以使用多种有线通信器件或无线通信器件来实现,这些通信器件包括电线或电缆、光纤、传统电话线、蜂窝电话链路、无线数据通信链路、射频(“RF”)链路,或红外链路,仅举几例。
计算机可执行代码(即,计算机程序或软件)存储在主存储器515和/或辅助存储器520中。计算机程序还可以经由通信接口540接收并且存储在主存储器515和/或辅助存储器520中。这样的计算机程序当被执行时,使得计算装置500能够执行如本文中别处所描述的所公开的实施例的各种功能。
在本文档中,术语“计算机可读介质”用于是指用于向计算装置500提供计算机可执行代码(例如,软件和计算机程序)的任何非瞬态计算机可读存储介质。这样的介质的示例包括主存储器515、辅助存储器520(包括内部存储器525、可移除介质530和外部存储介质545)、以及与通信接口540通信耦合的任何***设备(包括网络信息服务器或其他网络设备)。这些非瞬态计算机可读介质是用于向计算装置500提供可执行代码、编程指令和软件的器件。在使用软件实现的一个实施例中,软件可以存储在计算机可读介质上并且借助于可移除介质530、I/O接口535或通信接口540加载到计算装置中500。在这种实施例中,软件以电通信信号555的形式加载到计算装置500中。软件当由处理器510执行时,优选地使得处理器510执行本文中别处所描述的特征和功能。
I/O接口535提供计算装置500的一个或多个部件与一个或多个输入和/或输出设备之间的接口。示例输入设备包括但不限于键盘、触摸屏或其他触敏设备、生物特征传感设备、计算机鼠标、轨迹球、基于笔的指向设备等。输出设备的示例包括但不限于阴极射线管(CRT)、等离子显示器、发光二极管(LED)显示器、液晶显示器(LCD)、打印机、真空荧光显示器(VFD)、表面传导电子发射器显示器(SED)、场发射显示器(FED)等。
计算装置500还包括可选的无线通信部件,这些无线通信部件促进通过话音网络和/或数据网络的无线通信。无线通信部件包括天线***570、无线电***565和基带***560。在计算装置500中,无线电频率(RF)信号在无线电***565的管理下由天线***570通过空中传输和接收。
天线***570可以包括一个或多个天线和一个或多个多路复用器(未示出),其执行切换功能以向天线***570提供传输和接收信号路径。在接收路径中,所接收的RF信号可以从多路复用器耦合到低噪声放大器(未示出),该放大器放大所接收的RF信号并将经放大的信号传输到无线电***565。
无线电***565可以包括一个或多个无线电,该一个或多个无线电被配置为通过各种频率进行通信。在一个实施例中,无线电***565可以在一个集成电路(IC)中组合解调器(未示出)和调制器(未示出)。解调器和调制器也可以是独立部件。在传入路径中,解调器剥离RF载波信号,从而留下基带接收音频信号,该基带接收音频信号从无线电***565发送到基带***560。
如果所接收的信号包含音频信息,则基带***560对该信号进行解码并且将其转换为模拟信号。然后,放大该信号并且将经放大的信号发送到扬声器。基带***560还从麦克风接收模拟音频信号。这些模拟音频信号被转换为数字信号并且由基带***560编码。基带***560还编码数字信号用于传输并且生成路由到无线电***565的调制器部分的基带传输音频信号。调制器混合基带传输音频信号与RF载波信号,该RF载波信号生成路由到天线***570并且可以通过功率放大器(未示出)的RF传输信号。功率放大器放大RF发射信号并且将其路由到天线***570,在该天线***570中,信号切换到天线端口用于传输。
基带***560还与处理器510通信耦合,该处理器510可以是中央处理单元(CPU)。处理器510可以访问数据存储区域515和520。处理器510优选地被配置为执行可以存储在主存储器515或辅助存储器520中的指令(即,计算机程序或软件)。还可以从基带处理器接收计算机程序560并且将该计算机程序存储在主存储器510或辅助存储器520中或该计算机程序在接收时执行。这样的计算机程序当被执行时,使得计算装置500能够执行所公开的实施例的各种功能。例如,数据存储区域515或520可以包括各种软件模块。
计算装置还包括显示器575,该显示器575直接附接到通信总线505,代替连接到上文所指的I/O接口535的任何显示器或除此之外,还可以提供该通信总线505。
各种实施例还可以例如使用诸如专用集成电路(ASIC)、可编程逻辑阵列(PLA)或现场可编程门阵列(FPGA)之类的部件主要以硬件实现。能够执行本文中所描述的功能的硬件状态机的实现对于相关领域的技术人员而言也是显而易见的。还可以使用硬件和软件两者的组合来实现各种实施例。
更进一步地,本领域技术人员应当领会,结合上文所描述的附图和本文中所公开的实施例描述的各种说明性逻辑块、模块、电路和方法步骤通常可以实现为电子硬件、计算机软件、或两者的组合。为了清楚地说明硬件和软件的这种可互换性,上文已经根据它们的功能对各种说明性部件、块、模块、电路和步骤进行了大体描述。这种功能是作为硬件还是软件来实现取决于特定应用和对整个***施加的设计约束。技术人员可以针对每个特定应用以不同方式实现所描述的功能,但是这种实现决定不应被解释为导致偏离本发明的范围。另外,模块、块、电路或步骤内的功能分组是为了便于描述。在没有背离本发明的情况下,特定功能或步骤可以从一个模块、块或电路移动到另一模块、块或电路。
而且,结合本文中所公开的实施例所描述的各种说明性逻辑块、模块、功能和方法可以使用通用处理器、数字信号处理器(DSP)、ASIC、FPGA或其他可编程逻辑器件、分立门或晶体管逻辑、分立硬件部件、或被设计为执行本文中所描述的功能的其任何组合。通用处理器可以是微处理器,但在备选方案中,处理器可以是任何处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、与DSP核结合的一个或多个微处理器、或任何其他这种配置。
附加地,结合本文中所公开的实施例所描述的方法或算法的步骤可以直接体现以硬件、以由处理器执行的软件模块、或以两者的组合体现。软件模块可以驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除磁盘、CD-ROM或包括网络存储介质在内的任何其他形式的存储介质中。示例性存储介质可以耦合到处理器,使得处理器可以从存储介质读取信息和向存储介质写入信息。在备选方案中,存储介质可以与处理器集成在一起。处理器和存储介质也可以位于ASIC中。
如本文中所指,计算机可读存储介质不应被解释为瞬态信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤电缆的光脉冲)、或通过电线传输的电信号。
本文中所描述的任何软件部件都可以采用多种形式。例如,部件可以是独立软件封装,也可以是作为“工具”并入更大软件产品中的软件封装。该部件可以作为独立产品或作为用于安装在现有软件应用中的插件封装从网络(例如,网站)下载。该部件还可以用作客户端-服务器软件应用、网络使能软件应用和/或移动应用。
本文中参考根据本发明的实施例的方法、装置(***)和计算机程序产品的流程图和/或框图,对本发明的实施例进行描述。应当理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以通过计算机可读程序指令来实现。
计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机的处理器或其他可编程数据处理装置执行的指令,创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的器件。这些计算机可读程序指令还可以存储在计算机可读存储介质中,该计算机可读存储介质可以导引计算机、可编程数据处理装置和/或其他设备以特定方式运转,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的方面的指令。
计算机可读程序指令还可以加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
所图示的流程图和框图图示了根据本发明的各种实施例的***、方法和计算机程序产品的可能实现方式的架构、功能和操作。就这点而言,流程图或框图中的每个框可以表示模块、分段或指令的一部分,该部分包括用于实现(多个)指定逻辑功能的一个或多个可执行指令。在一些备选实现方式中,框中标注的功能可以不按图中标注的持续发生。例如,依据所涉及的功能,连续示出的两个框实际上可以基本上同时执行,或框有时可以按相反次序执行。还应当指出,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或进行专用硬件和计算机指令的组合的基于专用硬件的***来实现。
体现本发明的装置和方法能够托管在云计算环境中并且通过该云计算环境递送。云计算是服务递送模型,用于使得能够对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)共享池进行便捷的按需网络访问,这些可配置计算资源可以通过最少的管理工作或与服务提供者的交互来迅速配置和释放。该云模型可以包括至少五个特点、至少三个服务模型、以及至少四个部署模型。
特点如下:
按需自助服务:云消费者可以根据需要自动提供计算能力,诸如服务器时间和网络存储,而无需与服务提供者进行人工交互。
宽网络访问:能力可以通过网络获得,并且通过标准机构访问,这些标准机构促进异构瘦客户端或胖客户端平台(例如,移动电话、膝上型电脑和PDA)的使用。
资源池化:提供者的计算资源被池化以使用多租户模型为多个消费者提供服务,其中根据需求动态指派或重新指派不同的物理和虚拟资源。存在这样一种位置独立性的感觉,即,消费者通常无法控制或了解所提供的资源的确切位置,但可能能够以更高抽象级别指定位置(例如,国家、州或数据中心)。
迅速弹性:在一些情况下,可以自动地、迅速地并且弹性地提供能力,以迅速标出,并且可以迅速释放以迅速标入。对于消费者而言,可用于提供的能力通常看起来是不受限制的,并且在任何时间可以以任何数量被购买。
测量服务:云***通过以适合服务类型(例如,存储、处理、带宽和活动用户帐户)的某个抽象级别利用计量能力来自动控制和优化资源使用。可以监测、控制和报告资源使用情况,从而为所用服务的提供者和消费者提供透明性。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用提供者在云基础设施上运行的应用。这些应用可通过瘦客户端接口(诸如web浏览器(例如,基于web的电子邮件))从各种客户端设备访问。消费者不会管理或控制底层云基础设施,该底层云基础设施包括网络、服务器、操作***、存储装置、甚至单个应用能力,其中有限的用户特定应用配置设置可能除外。
平台即服务(PaaS):提供给消费者的能力是将消费者创建的或使用提供者所支持的编程语言和工具创建的获取应用部署到云基础设施上。消费者不会管理或控制底层云基础设施,这些底层云基础设施包括网络、服务器、操作***、或存储装置,但可以控制所部署的应用和托管环境配置的可能应用。
基础设施即服务(IaaS):提供给消费者的能力是消费者能够部署和运行可以包括操作***和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者不会管理或控制底层云基础设施,但可以控制操作***、存储装置、所部署的应用,并且可能具有对选定联网部件(例如,主机防火墙)的有限控制。
部署模型如下:
私有云:云基础设施***作单独用于一个组织。它可能由组织或第三方管理,可能存在于内部或外部。
社区云:云基础架构由多个组织共享,并且支持具有共享关注(例如,任务、安全需要、政策和符合性考虑)的特定社区。它可能由组织或第三方管理,可能存在于内部或外部。
公共云:云基础设施可供公众或大型行业集团使用,并且由销售云服务的组织拥有。
混合云:云基础设施是保持唯一实体但通过实现数据和应用便携性的标准化或私有技术绑定在一起的两个或更多个云(私人、社区或公共)的合成物(例如,用于云之间的负载均衡的云突发)。
云计算环境是通过关注无状态、低耦合、模块性和语义互用性取向的服务。本质上讲,云计算环境是包括互连节点的网络的基础设施。
本领域技术人员应当清楚,在没有背离本公开的范围的情况下,可以对前述示例性实施例做出许多改进和修改。
图14A是图示了可以结合本文中所描述的各种实施例所使用的示例处理器使能设备551的框图。本领域技术人员应当理解,还可以使用设备551的备选形式。在所图示的实施例中,设备551被呈现为包括一个或多个处理器556、一个或多个存储器566、一个或多个运动控制器571、一个或多个接口***576、每个都支撑带有一个或多个样本590的一个或多个玻璃载片585的一个或多个可移动台580、照亮样本的一个或多个照明***595、各自限定沿着光轴行进的光学路径605的一个或多个物镜600、一个或多个物镜***630、一个或多个可选落射照明***635(例如,包括在荧光扫描仪***中)、一个或多个聚焦光学器件610、一个或多个线扫描相机615和/或一个或多个面扫描相机620,其中每个在样本590和/或玻璃载片585上限定单独视场625。扫描仪***551的各种元件经由一个或多个通信总线560通信耦合。尽管扫描仪***551的各种元件中的每个元件都可以一个或多个,但是为了下面描述的简单起见,这些元件以单数形式描述,除非需要以复数以传达适当信息。
一个或多个处理器556可以包括例如能够并行处理指令的中央处理单元(“CPU”)和单独图形处理单元(“GPU”),或者一个或多个处理器556可以包括能够并行处理指令的多核处理器。还可以提供附加单独处理器来控制特定部件或执行特定功能,诸如图像处理。例如,附加处理器可以包括管理数据输入的辅助处理器、执行浮点数学运算的辅助处理器、具有适合于迅速执行信号处理算法的架构的专用处理器(例如,数字信号处理器)、从属于主处理器(例如,后端处理器)的从属处理器、附加处理器,该附加处理器用于控制线扫描相机615、台580、物镜225和/或显示器(未示出)。这种附加处理器可以是单独分立处理器或可以与处理器556整合。
存储器566向可以由处理器556执行的程序提供数据和指令的存储。存储器566可以包括存储数据和指令的一个或多个易失性和持久性计算机可读存储介质,例如,随机存取存储器、只读存储器、硬盘驱动器、可移除存储驱动器等。处理器556被配置为执行存储器566中存储的指令并且经由通信总线560与扫描仪***551的各种元件通信以进行扫描仪***551的整体功能。
一个或多个通信总线560可以包括被配置为传达模拟电信号的通信总线560;并且可以包括被配置为传达数字数据的通信总线560。因而,经由一个或多个通信总线560的来自处理器556、运动控制器571和/或接口***576的通信可以包括电信号和数字数据两者。处理器556、运动控制器571和/或接口***576还可以被配置为经由无线通信链路与扫描***551的各种元件中的一个或多个元件进行通信。
运动控制***571被配置为(例如,经由物镜***630)精确控制和协调台580和物镜600的XYZ移动。运动控制***571还被配置为控制扫描仪***551中任何其他运动零件的移动。例如,在荧光扫描仪实施例中,运动控制***571被配置为协调落射照明***635中的滤光器等的移动。
接口***576允许扫描仪***551与其他***和人类操作员接口。例如,接口***576可以包括用户接口以直接向操作员提供信息和/或允许来自操作员的直接输入。接口***576还被配置为促进扫描***551与直接连接的一个或多个外部设备(例如,打印机、可移除存储介质)或经由网络(未示出)连接到扫描仪***551的诸如图像服务器***、操作员站、用户站和管理服务器***之类的外部设备之间的通信和数据传送。
照明***595被配置为照明样本590的一部分。照明***可以包括例如光源和照明光学器件。光源可以是使光输出最大的带有凹面反射镜的可变强度卤素光源以及用于抑制热量的KG-1滤光片。光源还可以是任何类型的弧光灯、激光源或其他光源。在一个实施例中,照明***595在透射模式下照明样本590,使得线扫描相机615和/或面扫描相机620感测透射通过样本590的光能。备选地或组合地,照明***595还可以被配置为以反射模式照明样本590,使得线扫描相机615和/或面扫描相机620感测从样本590反射的光能。整体上,照明***595被配置为适合于以任何已知的光学显微镜模式询问微观样本590。
在一个实施例中,扫描仪***551可选地包括落射照明***635以优化用于荧光扫描的扫描仪***551。荧光扫描是包括对荧光分子的样本590的扫描,这些荧光分子是可以吸收特定波长(激发)的光的光子敏感分子。这些光子敏感分子还发射更高波长的光(发射)。因为这种光致发光现象的效率很低,所以所发射的光量往往很低。所发射的光量很少通常会阻碍用于扫描和数字化样本590的传统技术(例如,透射模式显微镜)。有利地,在扫描仪***551的可选荧光扫描仪***实施例中,使用包括多个线性传感器阵列(例如,时间延迟积分(“TDI”)线扫描相机)的线扫描相机615通过将样本590的相同区域暴露于线扫描相机615的多个线性传感器阵列中的每个线性传感器阵列增加了对线扫描相机的光的灵敏度。这当扫描具有低发射光的微弱荧光样本时特别有用。
因而,在荧光扫描仪***实施例中,线扫描相机615优选地是单色TDI线扫描相机。有利地,单色图像在荧光显微镜中是理想的,因为这些单色图像提供来自样本上存在的各种通道的实际信号的更准确表示。如本领域技术人员所理解的,荧光样本590可以使用多种荧光染料标记,这些荧光染料在不同波长下发射光,这些不同波长也称为“通道”。
更进一步地,因为各种荧光样本的低端和高端信号水平呈现出线扫描相机615感测的宽光谱波长,所以线扫描相机615能够感测的低端信号水平和高端信号水平感觉同样宽。因而,在荧光扫描仪实施例中,用于荧光扫描***551的线扫描相机615是单色10位64线性阵列TDI线扫描相机。应当指出,线扫描相机615的多种位深度可以用于与扫描***551的荧光扫描仪实施例一起使用。
可移动台580被配置为在处理器556或运动控制器571的控制下进行精确的XY移动。可移动台还可以被配置为在处理器556或运动控制器571的控制下在Z上移动。可移动台被配置为在由线扫描相机615和/或面扫描相机捕获图像数据期间将样本定位在期望位置中。可移动台还被配置为沿扫描方向将样本590加速到基本恒定的速度,然后在由线扫描相机615捕获图像数据期间维持基本恒定的速度。在一个实施例中,扫描仪***551可以采用高精度且紧密协调的XY网格以帮助样本590在可移动台580上的定位。在一个实施例中,可移动台580是基于线性电机的XY台,其中X轴和Y轴上均采用高精度编码器。例如,可以沿扫描方向的轴上和沿与扫描方向垂直的方向上且与扫描方向在同一平面上的轴上使用非常精确的纳米编码器。该载物台还被配置为支撑玻璃载片585,样本590设置在该玻璃载片585上。
样本590可以是可以通过光学显微镜询问的任何东西。例如,玻璃显微镜玻璃载片585经常用作标本的观察衬底,这些标本包括组织和细胞、染色体、DNA、蛋白质、血液、骨髓、尿液、细菌、珠、活检材料、或死或活、染色或未经染色、标记或未经标记的任何其他类型的生物材料或物质。样本590还可以是沉积在任何类型的载片或其他衬底上的任何类型的DNA或DNA相关材料(诸如cDNA或RNA或蛋白质)的阵列,该DNA或DNA相关材料包括通常称为微阵列的任何和所有样本。样本590可以是微量滴定板,例如,96孔板。样本590的其他示例包括集成电路板、电泳记录、培养皿、膜、半导体材料、法医材料、或经机加工零件。
物镜600安装在物镜***630上,在一个实施例中,该物镜***630可以采用非常精确的线性电机来沿着物镜600所限定的光轴移动物镜600。例如,物镜***630的线性电机可以包括50纳米编码器。台580和物镜600在XYZ轴上的相对位置在处理器556的控制下使用运动控制器571以闭环方式协调和控制,该处理器556采用存储器566来存储信息和指令,这些信息和指令包括用于整个扫描***551操作的计算机可执行的编程步骤。
在一个实施例中,物镜600是平面复消色差(“APO”)无限远校正物镜,其中数值孔径与可期望最高空间分辨率相对应,其中物镜600适用于透射模式照明显微镜、反射模式照明显微镜和/或落射照明模式荧光显微镜(例如,奥林巴斯40X、0.75NA或20X、0.75NA)。有利地,物镜600能够校正色差像差和球面像差。因为物镜600是无限远校正的,所以聚焦光学器件610可以放置在物镜600上方的光学路径605中,其中穿过物镜的光束变成准直光束。聚焦光学器件610将物镜600所捕获的光学信号聚焦到线扫描相机615和/或面扫描相机620的光响应元素上,并且可以包括诸如滤光片、放大率改变器透镜等之类的光学部件。与聚焦光学器件610组合的物镜600向扫描***551提供总放大率。在一个实施例中,聚焦光学器件610可以包含管透镜和可选的光学2X放大率改变器。有利地,2X放大率改变器允许原生20X物镜600以40X放大率扫描样本590。
线扫描相机615包括至少一个图片元素(“像素”)线性阵列。线扫描相机可以是单色或彩色的。彩色线扫描相机通常具有至少三个线性阵列,而单色线扫描相机可以具有单个线性阵列或多个线性阵列。还可以使用任何类型的单数或复数线性阵列,无论是作为相机的一部分封装还是定制集成为成像电子模块。例如,还可以使用3个线性阵列(“红-绿-蓝”或“RGB”)彩色线性阵列扫描相机或96线性阵列单色TDI。TDI线扫描相机通常通过汇总来自标本的先前成像区域的强度数据来在输出信号中提供明显更好的信噪比(“SNR”),从而SNR与积分阶段数目的平方根成比例增加。TDI线性阵列相机由多个线性阵列组成,例如,TDI线性阵列相机有24、32、48、64、96甚至更多个线性阵列可供选择。扫描仪***551还支持以多种格式制造的线性阵列,这些阵列包括具有512个像素的一些阵列、具有1024个像素的一些阵列、以及具有多达4096个像素的其他阵列。同样,在扫描仪***551中还可以使用具有多种像素尺寸的线性阵列。选择任何类型的线扫描相机615的突出要求是台580的运动可以与线扫描相机615的线速率同步,以使在样本590的数字图像捕获期间台580可以相对于线扫描相机615运动。
线扫描相机615所生成的图像数据存储在存储器566的一部分中,并且通过处理器556处理以生成样本590的至少一部分的连续数字图像。该连续数字图像还可以通过处理器556进行处理,并且经修订的连续数字图像还可以存储在存储器566中。
在具有两个或更多个线扫描相机615的实施例中,线扫描相机615中的至少一个线扫描相机可以被配置为用作聚焦传感器,该聚焦传感器与被配置为用作成像传感器的线扫描相机615中的至少一个线扫描相机组合操作。聚焦传感器可以逻辑定位在与成像传感器相同的光轴上,或聚焦传感器可以相对于扫描仪***551的扫描方向逻辑定位在成像传感器之前或之后。在具有用作聚焦传感器的至少一个行扫描相机615的这种实施例中,聚焦传感器所生成的图像数据存储在存储器566的一部分中并且由一个或多个处理器556处理以生成聚焦信息以允许扫描仪***551调整样本590与物镜600之间的相对距离以在扫描期间维持对样本的聚焦。附加地,在一个实施例中,用作聚焦传感器的至少一个线扫描相机615可以被定向为使得聚焦传感器的多个单独像素中的每个单独像素沿着光学路径605位于不同的逻辑高度。
操作时,扫描仪***551的各种部件和存储器566中存储的编程模块使得能够自动扫描和数字化玻璃载片585上设置的样本590。玻璃载片585牢固放置在用于扫描样本590的扫描仪***551的可移动台580上。在处理器556的控制下,可移动台580将样本590加速到基本恒定速度用于线扫描相机615进行感测,其中台的速度与线扫描相机615的线速率同步。在扫描图像数据的条带之后,可移动台580减速并且使样本590基本完全停止。然后,可移动台580垂直于扫描方向移动以定位样本590用于扫描图像数据的后续条带,例如,相邻条带。随后扫描附加条带,直至扫描样本590的整个部分或整个样本590。
例如,在对样本590的数字扫描期间,获取样本590的连续数字图像作为多个连续视场,这些连续视场组合在一起以形成图像条带。多个相邻图像条带同样组合在一起以形成部分或整个样本590的连续数字图像。对样本590的扫描可以包括获取垂直图像条带或水平图像条带。对样本590的扫描可以是自上而下、自下而上或两者(双向)并且可以从样本上的任何点开始。备选地,对样本590的扫描可以是从左到右、从右到左或两者(双向),并且可以从样本上的任何点开始。附加地,不必以相邻或连续方式获取图像条带。更进一步地,样本590的所得图像可以是整个样本590的图像或样本590的仅一部分的图像。
在一个实施例中,计算机可执行指令(例如,编程模块和软件)存储在存储器566中,并且当被执行时,使得扫描***551能够执行本文中所描述的各种功能。在本说明书中,术语“计算机可读存储介质”用于指用于存储计算机可执行指令并且将该计算机可执行指令提供给扫描***551以供处理器556执行的任何介质。这些介质的示例包括存储器566以及与扫描***551直接或例如经由网络(未示出)间接通信耦合的任何可移除介质或者外部存储介质(未示出)。
图14B图示了具有单个线性阵列640的线扫描相机,该单个线性阵列640可以实现为电荷耦合器件(“CCD”)阵列。单个线性阵列640包括多个单独像素645。在所图示的实施例中,单个线性阵列640具有4096个像素。在备选实施例中,线性阵列640可以具有更多或更少个像素。例如,线性阵列的常见格式包括512、1024和4096个像素。像素645以线性方式布置以限定线性阵列640的视场625。视场的尺寸按照扫描仪***551的放大率而发生变化。
图14C图示了具有三个线性阵列的线扫描相机,其中线性阵列中的每个线性阵列可以实现为CCD阵列。三个线性阵列组合以形成颜色阵列650。在一个实施例中,颜色阵列650中的每个单独线性阵列检测不同的颜色强度,例如,红色、绿色或蓝色。来自彩色阵列650中每个单独线性阵列的彩色图像数据组合以形成彩色图像数据的单个视场625。
图14D图示了具有多个线性阵列的线扫描相机,多个线性阵列中的每个线性阵列可以实现为CCD阵列。多个线性阵列组合以形成TDI阵列655。有利地,TDI线扫描相机通常通过汇总来自标本的先前成像区域的强度数据来在输出信号中提供明显更好的信噪比(“SNR”),从而SNR与线性阵列(还称为积分阶段)数目的平方根成比例增加。TDI线扫描相机由更广泛多种线性阵列组成,例如,TDI线扫描相机的常见格式包括24、32、48、64、96甚至更多个线性阵列。
提供所公开的实施例的上述描述以使得本领域技术人员能够制造或使用本发明。对这些实施例的各种修改对于本领域技术人员而言将是显而易见的,并且在没有背离本发明的精神或范围的情况下,本文中所描述的一般原理可以应用于其他实施例。因此,应当理解,本文中所呈现的描述和附图代表本发明的当前优选实施例,因此代表本发明所广泛涵盖的主题。还应当理解,本发明的范围完全涵盖对本领域技术人员而言非常明显的其他实施例,并且本发明的范围不受限制。

Claims (43)

1.一种数字病理***,包括:
人工智能处理模块,被配置为调用人工智能处理应用的实例,用于处理来自组织学图像或所述组织学图像的部分的图像数据;以及
应用模块,能够操作地连接到所述人工智能处理模块并且被配置为调用应用的实例,所述应用的实例可操作以在与患者记录相关联的组织学图像上执行图像处理任务,其中所述图像处理任务包括人工智能元素,所述应用实例被配置为创建处理作业来处置所述人工智能元素,被配置为将这些作业发送到所述人工智能处理实例用于处理,并且被配置为从所述人工智能处理模块接收回处理结果。
2.根据权利要求1所述的***,还包括数据储存库,所述数据储存库被配置为存储包括组织学图像或所述组织学图像的集合的患者数据的记录,并且所述数据储存库能够操作地连接到所述应用模块,以将患者数据传递到所述应用模块来支持所述处理作业。
3.根据权利要求1或2所述的***,其中所述人工智能处理模块被配置有数据保留策略,所述数据保留策略在处理所述图像数据完成之后尽快切实可行地立即且永久地删除其接收的所述处理作业中包含的所述图像数据。
4.根据权利要求3所述的***,其中所述人工智能处理实例被配置为以补丁为单位处理所述图像数据,其中所述图像数据以映射到所述补丁的图块为单位从所述应用模块被供应给所述人工智能处理模块,并且所述数据保留策略在处理每个补丁或图块后,逐补丁或逐图块尽快切实可行地立即且永久地删除所述处理作业中包含的所述图像数据。
5.根据前述权利要求中任一项所述的***,其中所述患者数据附加地包括元数据,所述元数据将患者身份链接到所述图像数据,使得当所述图像数据从所述元数据分离时,所述图像数据是匿名的,其中将所述图像数据链接到患者身份的所述元数据被保留在所述数据储存库中并且在所述处理作业的实现中不被发送到所述应用模块,因此使由所述应用模块所接收的所述图像数据匿名。
6.根据前述权利要求中任一项所述的***,其中所述人工智能处理模块包括统计收集单元,所述统计收集单元可操作以监测以及记录对所述人工智能元素的处理。
7.根据前述权利要求中任一项所述的***,还包括人工智能处理配置模块,所述人工智能处理配置模块具有用户接口以及与所述人工智能处理模块的接口,以使得用户能够在所述人工智能处理模块中配置人工智能处理资源。
8.根据前述权利要求中任一项所述的***,其中所述应用模块还包括图像处理任务分配器,所述图像处理任务分配器可操作以决定图像处理任务的人工智能元素在所述应用模块中内部地执行与由所述人工智能处理模块利用处理作业的执行之间的分配。
9.根据前述权利要求中任一项所述的***,其中所述应用实例还包括容器,所述容器封装所述应用实例并且提供应用实例与外部输入和输出之间的接口,所述接口被配置为处置多个数据输入和输出格式。
10.根据权利要求9所述的***,其中所述容器还被配置为初始化被包含在其中的应用实例。
11.根据前述权利要求中任一项所述的***,其中所述人工智能处理应用可操作以应用卷积神经网络。
12.根据权利要求11所述的***,其中所述卷积神经网络被配置为从所述组织学图像标识在图像数据中的肿瘤。
13.一种数字病理图像处理方法,包括:
接收在与患者记录相关联的组织学图像上执行图像处理的请求,并且响应于所述请求:
调用应用的实例,所述应用的实例可操作以在所述组织学图像上执行图像处理任务,其中所述图像处理任务包括人工智能元素;
创建针对人工智能处理应用的处理作业,以便处理所述人工智能元素;
建立到人工智能处理模块的通信连接;
将所述处理作业发送到所述人工智能处理模块;
从所述人工智能处理模块接收所述处理作业的结果;以及
完成所述图像处理任务。
14.一种携载机器可读指令的计算机程序产品,所述机器可读指令用于执行根据权利要求13所述的方法。
15.一种处理来自组织样本的数据的计算机自动化方法,所述方法包括:
从数据储存库中存储的患者记录中将组织样本的切段的组织学图像加载到卷积神经网络中,所述组织学图像包括二维像素阵列;
应用所述卷积神经网络以生成具有二维像素阵列的输出图像,其中所述输出图像的二维像素阵列映射到所述组织学图像的二维像素阵列,所述输出图像通过将多个组织类别中的一个组织类别指派给每个像素而被生成,其中所述多个组织类别包括表示非肿瘤组织的至少一个类别和表示肿瘤组织的至少一个类别;
针对临床相关的每一个组织类别,参考针对所述一个组织类别的所存储的协议,确定是否应当在所述组织样本上执行任何其他测试;以及
创建并且提交针对要执行的每个其他测试的次序。
16.根据权利要求1所述的方法,还包括:当在所述输出图像中存在临床相关组织类别的至少一个像素:
应用过滤器来筛选该组织类别的像素,以确定所述像素是否以显著丰度存在,其中针对该组织类别是否创建针对任何其他测试的次序取决于确定存在该组织类别的像素的显著丰度。
17.根据权利要求15或16所述的方法,其中所述组织学图像是H&E(苏木精和伊红)图像。
18.根据权利要求15、16或17所述的方法,其中所述测试结果包括来自已经被标记物染色的所述组织样本的另一切段的另一组织学图像。
19.根据权利要求18所述的方法,其中所述标记物选自组:ER(***受体)、PR(孕酮受体)和HER2(人表皮生长因子受体2)。
20.根据权利要求18或19所述的方法,还包括:显示所述组织学图像和所述另一组织学图像。
21.根据前述权利要求中任一项所述的方法,其中创建并且提交每一个次序还取决于检查所述一个次序是否需要授权,并且如果尚未提供,则向用户发出请求以寻求这种授权。
22.根据前述权利要求中任一项所述的方法,其中与相应组织类别相关联的所存储的所述协议被组织在数据库中,并且其中通过提交数据库查询来进行确定是否要执行任何其他测试,所述数据库查询包含由所述CNN所标识的至少一个所述组织类别。
23.根据前述权利要求中任一项所述的方法,其中确定是否要执行任何其他测试还取决于对所述患者记录的引用,以检查这种其他测试的结果是否已经不可用。
24.根据前述权利要求中任一项所述的方法,其中所述组织类别包括针对肿瘤组织的至少两个类别。
25.根据权利要求24所述的方法,其中针对肿瘤组织的所述组织类别至少包括针对浸润性肿瘤的第一类别和针对原位肿瘤的第二类别。
26.根据前述权利要求中任一项所述的方法,其中存在针对非肿瘤组织的一个组织类别。
27.根据前述权利要求中任一项所述的方法,其中存在表示没有组织被标识的区域的组织类别。
28.根据前述权利要求中任一项中项所述的方法,还包括:将来自每个其他测试的测试结果保存到所述患者记录。
29.根据前述权利要求中任一项所述的方法,还包括:在从所述患者记录加载之前,利用载片扫描仪获取所述组织学图像,并且将所述组织学图像保存到所述患者记录。
30.根据前述权利要求中任一项所述的方法,还包括:
从所述患者记录将所述组织学图像和所述测试结果加载到可视化应用中;以及
使用所述可视化应用在显示设备上显示所述组织学图像和所述测试结果,用于诊断分析。
31.根据前述权利要求中任一项所述的方法,其中应用所述卷积神经网络包括:
从所述组织学图像提取图像补丁,所述图像补丁是所述组织学图像的区域部分或所述组织学图像的区域部分的集合,所述组织学图像的区域部分或所述组织学图像的区域部分的集合具有由在宽度和高度上像素的数目限定的尺寸;
为所述卷积神经网络提供权重集合和多个通道,每个通道与待标识的所述多个组织类别中的一个组织类别相对应;
将每个图像补丁作为输入图像补丁输入到所述卷积神经网络中;
执行多级卷积以生成维度不断减小的卷积层,直至并且包括最小维度的最终卷积层,然后执行多级转置卷积以通过生成维度不断增加的反卷积层来反转所述卷积,直至层恢复为与所述输入图像补丁在尺寸上匹配,经恢复的所述层中的每个像素包含属于所述组织类别中的每个组织类别的概率;以及
基于所述概率来将所述组织类别指派给经恢复的所述层的每个像素,以实现输出图像补丁。
32.根据权利要求31所述的方法,还包括:根据概率图限定所述组织学图像中与肿瘤相对应的区域。
33.根据权利要求31所述的方法,还包括:将所述概率图存储到所述数据储存库中的所述记录中,使得所述概率图被链接到所述组织学图像。
34.根据权利要求31所述的方法,还包括:
为所述卷积神经网络提供至少一个跳跃连接,所述至少一个跳跃连接中的每个跳跃连接从所述卷积层中维度比最终卷积层的维度大的至少一个卷积层获取中间结果,并且根据需要将那些结果进行尽可能多的转置卷积,所述转置卷积能够没有、有一个或多于一个,以获得在尺寸上与所述输入图像补丁匹配的至少一个其他经恢复的层;以及
在将组织类别指派给每个像素的所述步骤之前,还对经恢复的所述层进行处理以将经恢复的所述层与所述至少一个其他经恢复的层组合以便重新计算所述概率,以考虑所述至少一个跳跃连接。
35.根据权利要求31所述的方法,其中softmax操作被用于生成所述概率。
36.根据权利要求31所述的方法,所述方法针对预测而被执行,其中所述卷积神经网络已经在先前训练期间被指派了所述卷积神经网络的权重值。
37.根据权利要求31所述的方法,所述方法针对训练而被执行,其中所述记录包括将所述组织学图像中的每个像素指派给所述组织类别中的一个组织类别的基础真实数据,根据权利要求31所述的方法以迭代方式被执行,其中每个迭代涉及:基于比较所述基础真实数据与所述输出图像补丁来调整针对所述卷积神经网络的所述卷积神经网络的权重值。
38.根据权利要求37所述的方法,其中在训练期间调整所述权重通过梯度下降来执行。
39.一种计算机程序产品,用于在实验室信息***中处理来自组织样本的数据,所述计算机程序产品携载机器可读指令,所述机器可读指令用于执行根据前述权利要求中任一项所述的方法。
40.一种用于处理来自组织样本的数据的计算机网络***,所述***包括:
数据储存库,可操作以存储患者记录,所述患者记录包含组织样本的切段的组织学图像,所述组织学图像包括二维像素阵列;
处理模块,加载有计算机程序,所述计算机程序被配置为接收来自所述患者记录的组织学图像并且将卷积神经网络应用到所述组织学图像,以生成具有二维像素阵列的输出图像,所述输出图像的二维像素阵列映射到所述组织学图像的二维像素阵列,所述输出图像通过将多个组织类别中的一个组织类别指派给每个像素而被生成,其中所述多个组织类别包括表示非肿瘤组织的至少一个类别和表示肿瘤组织的至少一个类别;
测试排序模块,加载有计算机程序,所述计算机程序被配置为:
针对所述组织类别中的至少一个组织类别,参考所述计算机网络***中存储的针对该组织类别的协议,确定是否应当在所述组织样本上执行任何其他测试;
在所述计算机网络***内创建并且提交针对要执行的每个其他测试的次序;以及
将来自每个其他测试的测试结果保存到所述患者记录。
41.根据权利要求40所述的***,还包括可视化应用,所述可视化应用包括计算机程序,所述计算机程序可操作以从选定患者记录加载所述选定患者记录的组织学图像和所述选定患者记录的测试结果,并且在显示设备上显示所述组织学图像和所述测试结果,以用于诊断分析。
42.根据权利要求41所述的***,还包括显示器,所述显示器能够结合所述可视化应用操作。
43.根据权利要求42所述的***,还包括图像获取装置,所述图像获取装置可操作以获取组织学图像并且将所述组织学图像存储到所述数据储存库中的患者记录。
CN202080011013.2A 2019-05-29 2020-05-29 用于数字病理学的人工智能处理***和自动化预诊断工作流程 Pending CN113474844A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962854030P 2019-05-29 2019-05-29
US201962854110P 2019-05-29 2019-05-29
US62/854,110 2019-05-29
US62/854,030 2019-05-29
PCT/US2020/035342 WO2020243583A1 (en) 2019-05-29 2020-05-29 Artificial intelligence processing system and automated pre-diagnostic workflow for digital pathology

Publications (1)

Publication Number Publication Date
CN113474844A true CN113474844A (zh) 2021-10-01

Family

ID=71787115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080011013.2A Pending CN113474844A (zh) 2019-05-29 2020-05-29 用于数字病理学的人工智能处理***和自动化预诊断工作流程

Country Status (6)

Country Link
US (1) US20220084660A1 (zh)
EP (1) EP3884498A1 (zh)
JP (1) JP2022534156A (zh)
KR (1) KR20220012214A (zh)
CN (1) CN113474844A (zh)
WO (1) WO2020243583A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116046647A (zh) * 2023-01-28 2023-05-02 深圳安侣医学科技有限公司 血液成像分析***和方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11941813B2 (en) * 2019-08-23 2024-03-26 Nantcell, Inc. Systems and methods for performing segmentation based on tensor inputs
CN114902279A (zh) * 2019-12-19 2022-08-12 奇手公司 基于机器视觉的自动化缺陷检测
US20210398282A1 (en) * 2020-06-18 2021-12-23 Steven Frank Digital tissue segmentation using image entropy
US11948297B1 (en) * 2020-07-15 2024-04-02 MedCognetics, Inc. Racially unbiased deep learning-based mammogram analyzer
KR102603525B1 (ko) * 2021-06-28 2023-11-16 전남대학교산학협력단 X-ray 이미지를 이용한 무릎 골 종양 검출 시스템 및 방법
WO2023018085A1 (ko) * 2021-08-10 2023-02-16 주식회사 루닛 병리 슬라이드 이미지와 관련된 정보를 출력하는 방법 및 장치
US20230050168A1 (en) * 2021-08-14 2023-02-16 Steven J Frank Digital tissue segmentation and mapping with concurrent subtyping
US20230334662A1 (en) 2022-03-08 2023-10-19 Seoul National University R&Db Foundation Methods and apparatus for analyzing pathology patterns of whole-slide images based on graph deep learning
US20230368894A1 (en) * 2022-05-13 2023-11-16 PAIGE.AI, Inc. Systems and methods for processing electronic images with updated protocols
DE102022116407A1 (de) * 2022-06-30 2024-01-04 Ali Eissing-Al-Mukahal System zur Unterstützung eines Nutzers bei der bildbasierten Erkennung einer Gewebeentartung
CN115294126B (zh) * 2022-10-08 2022-12-16 南京诺源医疗器械有限公司 一种病理图像的癌细胞智能识别方法
KR20240082452A (ko) * 2022-12-01 2024-06-11 주식회사 뷰노 이미지 데이터에 대한 분류 모델을 학습시키는 방법 및 이를 위한 장치
CN115661815B (zh) * 2022-12-07 2023-09-12 赛维森(广州)医疗科技服务有限公司 基于全局特征映射的病理图像分类方法、图像分类装置
CN116597988B (zh) * 2023-07-18 2023-09-19 济南蓝博电子技术有限公司 一种基于医疗信息的智慧医院运营方法及***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9430829B2 (en) 2014-01-30 2016-08-30 Case Western Reserve University Automatic detection of mitosis using handcrafted and convolutional neural network features
WO2016149468A1 (en) * 2015-03-18 2016-09-22 Proscia Inc. Computing technologies for image operations
US10573003B2 (en) * 2017-02-13 2020-02-25 Amit Sethi Systems and methods for computational pathology using points-of-interest
WO2019084697A1 (en) * 2017-11-06 2019-05-09 University Health Network Platform, device and process for annotation and classification of tissue specimens using convolutional neural network
US10629305B2 (en) * 2017-11-09 2020-04-21 General Electric Company Methods and apparatus for self-learning clinical decision support
US11521742B2 (en) * 2018-07-18 2022-12-06 SCA Robotics Methods of implementing an artificial intelligence based neuroradiology platform for neurological tumor identification and for T-Cell therapy initiation and tracking and related precision medical treatment predictive modeling

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116046647A (zh) * 2023-01-28 2023-05-02 深圳安侣医学科技有限公司 血液成像分析***和方法
CN116046647B (zh) * 2023-01-28 2023-06-09 深圳安侣医学科技有限公司 血液成像分析***和方法

Also Published As

Publication number Publication date
WO2020243583A1 (en) 2020-12-03
JP2022534156A (ja) 2022-07-28
EP3884498A1 (en) 2021-09-29
KR20220012214A (ko) 2022-02-03
US20220084660A1 (en) 2022-03-17

Similar Documents

Publication Publication Date Title
US20220084660A1 (en) Artificial intelligence processing system and automated pre-diagnostic workflow for digital pathology
US11893732B2 (en) Computer supported review of tumors in histology images and post operative tumor margin assessment
US20220076411A1 (en) Neural netork based identification of areas of interest in digital pathology images
US11164316B2 (en) Image processing systems and methods for displaying multiple images of a biological specimen
US10275880B2 (en) Image processing method and system for analyzing a multi-channel image obtained from a biological tissue sample being stained by multiple stains
JP2022119882A (ja) 腫瘍を識別するための畳み込みニューラルネットワークを用いた組織像の処理
JP2021506003A (ja) デジタル病理学分析結果の格納および読み出し方法
WO2022126010A1 (en) Systems and methods for generating histology image training datasets for machine learning models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination