CN101689220A - 用于治疗、诊断和预测医学病症发生的***和方法 - Google Patents

用于治疗、诊断和预测医学病症发生的***和方法 Download PDF

Info

Publication number
CN101689220A
CN101689220A CN200880011368A CN200880011368A CN101689220A CN 101689220 A CN101689220 A CN 101689220A CN 200880011368 A CN200880011368 A CN 200880011368A CN 200880011368 A CN200880011368 A CN 200880011368A CN 101689220 A CN101689220 A CN 101689220A
Authority
CN
China
Prior art keywords
model
morphometry
patient
value
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200880011368A
Other languages
English (en)
Inventor
M·特弗罗夫斯基
D·A·韦贝
O·赛义迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aureon Laboratories Inc
Original Assignee
Aureon Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aureon Laboratories Inc filed Critical Aureon Laboratories Inc
Publication of CN101689220A publication Critical patent/CN101689220A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

本发明提供在预测医学病症(例如癌症)发生(例如复发)的预测模型中利用临床信息、分子信息和计算机产生的形态测量信息的方法和***。在一个实施方案中,提供预测***癌复发的模型,其中所述模型以包括一个或多个(例如所有)以下特征为基础:活组织检查Gleason评分、精囊侵袭、囊外扩散、手术前PSA、主要***切除术Gleason等级、AR+上皮细胞核相对面积、上皮细胞核的形态测量值和上皮细胞质的形态测量值。在另一个实施方案中,提供预测***切除术后临床失败的模型,其中所述模型以包括一个或多个(例如所有)以下特征为基础:主要***切除术Gleason等级、***侵袭状况、一个或多个腔的形态测量值、胞质的形态测量值和AR+/AMACR-上皮细胞核中AR的平均强度。

Description

用于治疗、诊断和预测医学病症发生的***和方法
相关申请
本发明是2006年10月13日申请的美国专利申请号11/581,052的部分继续申请,美国专利申请号11/581,052要求2005年10月13日申请的美国临时专利申请号60/726,809的优先权并且是2005年3月14日申请的美国专利申请号11/080,360的部分继续申请,美国专利申请号11/080,360是以下美国专利申请的部分继续申请:2005年2月25日申请的美国专利申请号11/067,066(现为2008年1月22日授予专利权的美国专利号7,321,881)的部分继续申请,该美国专利申请号11/067,066要求2004年2月27日申请的美国临时专利申请号60/548,322和2004年6月4日申请的60/577,051的优先权;2004年11月17日申请的美国专利申请号10/991,897的部分继续申请,该美国专利申请号10/991,897要求2003年11月17日申请的美国临时专利申请号60/520,815的优先权;2003年7月21日申请的美国专利申请号10/624,233(现为2006年2月7日授予专利权的美国专利号6,995,020)的部分继续申请;2004年11月17日申请的美国专利申请号10/991,240的部分继续申请,该美国专利申请号10/991,240要求2003年11月18日申请的美国临时专利申请号60/520,939的优先权;并要求2004年3月12日申请的美国临时专利申请号60/552,497、2004年6月4日申请的60/577,051、2004年8月11日申请的60/600,764、2004年10月20日申请的60/620,514、2005年1月18日申请的60/645,158和2005年2月9日申请的60/651,779的优先权。本发明还要求2007年4月5日申请的美国临时专利申请号60/922,163、2007年4月5日申请的60/922,149、2007年4月13日申请的60/923,447和2008年1月9日申请的61/010,598的优先权。所有上述申请的公开内容均通过引用全部结合到本文中。
发明领域
本发明的实施方案涉及在预测医学病症发生(occurrence ofmedical conditions)(例如疾病或对治疗的有无反应性)的预测模型中利用临床信息、分子信息和计算机产生的形态测量信息(morphometricinformation)的方法和***。例如,在一个实施方案中,本发明包括利用临床信息、分子信息和形态测量信息治疗、诊断和预测***癌复发的方法和***。
发明背景
从例如患者是否很可能患上某种医学病症,何时可能患病,到一旦患者被确诊患有该病时应该如何治疗等,都需要医生做出许多医学决定。为患者确定合适的疗程可提高患者例如生存和/或痊愈的机会。同样,预测事件的发生有利于使个体能够对该事件作出计划。例如,预测患者是否很可能经历疾病发生(例如疾病复发),可供医生为该患者推荐合适的疗程。
传统上,医生十分依赖于他们的治疗、诊断和预测医学病症发生的专业知识和训练。例如,病理学家采用Gleason评分***(Gleasonscoring system)来评价***癌的发展和侵袭水平,其中根据医生在显微镜下观察到的***组织外观对癌症进行分级。***组织样品越无差别,则给予的Gleason评分(Gleason score)越高[1]。尽管病理学家普遍认为Gleason分级是可靠的,但是它却是一个主观评分***。特别是不同的病理学家观察同一组织样品可能会得到出相冲突的解释。
用于辅助医生进行医学诊断的常规工具受范围和应用的限制。例如,用于辅助医生在患者进行根治性***切除术后作出有关***癌治疗决策的工具限于基于血清的PSA筛选试验和广义列线图。Kattan等人研发的一种手术后列线图(美国专利号6,409,664)被泌尿科医生广泛采用,可供预测经根治性***切除术治疗的患者的7年疾病复发概率。这种列线图仅提供有关生物化学失败(biochemical failure)可能性的信息(即PSA水平升高),却无法预测临床失败(死亡)。此外,这种列线图仅预测患者的病症是否很可能在7年内复发,却无法预测患者的病症在该时间间隔内何时会复发。该列线图中所使用的预后变量包括治疗前血清PSA水平、Gleason评分和病理学家对***囊侵袭、手术切缘(surgical margin)、精囊侵袭和***状况的显微镜评价。当有疾病复发的临床证据、血清PSA升高或开始辅助疗法时,记录下治疗失败。然而,这些列线图有若干限制。最值得注意的限制是即使最好的这些列线图中,只比介于精确识别(一致性指数(concordanceindex)=1.0)的模型与无识别能力(一致性指数=0.5)的模型的中间程度略好。此外,列线图预测为中间范围(7年无进展生存期,30-70%)的患者中大约30%的结局并不确定,因为这种预测并不比掷硬币更准确。
在计算机执行的图像处理和分析中涌现的技术提供了显著提高的计算能力。在许多应用中,由单幅图像中自动提取大量的定量连续值的特征的能力已成为现实。如果对于某些A<B,特征的一套数值包括介于A和B之间的所有数值x,则特征X被认为是连续值。已经开发出癌症图像分析***用于由细胞学样本拍摄的图像[2][3]。然而,这类***只拍摄细胞,因此无法利用所有在组织水平上可观察到的结构信息,更不用说将该信息与临床信息和分子信息相结合。癌症图像分析***并非用来分析组织水平上不同病理部件的结构,比起单个细胞的外观,它常常在诊断(例如Gleason分析)中发挥更重要的作用。因此,病理学家借助手工技术以分析***的形状和大小以确定癌症的病理等级[4]。出于组织图像通常比细胞图像更复杂并且需要了解综合性领域专家知识的实际情况,使得常规癌症图像分析***更显不足。
按照前述观点,将需要提供预测能力得到提高的用于治疗、诊断和预测医学病症发生、反应和其它医学现象的***和方法。还将需要提供利用组织水平上的信息以治疗、诊断和预测医学病症发生的计算机执行***和方法。
发明概述
本发明的实施方案提供用于预测医学病症发生的自动化***和方法。本文所用医学病症发生的预测可包括例如预测是否和/或何时患者会经历疾病(例如癌症)发生(例如复发),预测患者是否很可能对一种或多种疗法(例如新药物)作出反应,并预测任何其它适当的医学病症的发生。例如,医生或其他个人可以应用本发明实施方案的预测法选择对于患者适当的疗程和/或诊断患者的医学病症。
本发明的一个方面,提供用于建立预测医学病症发生的模型的***和方法。建立预测模型可包括使用分析工具用患者组群数据训练支持向量机(support vector machine,SVM)或神经网络(neural network),所述患者的结局至少是部分已知的。在一个实施方案中,训练数据包括临床数据、分子数据和计算机生成的形态测量数据。本文所使用的特定类型的“数据”(例如临床、分子或形态测量数据)可包括该类型的一个或多个特征。此外,形态测量数据定义为包括与组织电子(数字)图像有关或从组织电子(数字)图像得到的任何计算机生成数据,包括但不限于有关以下方面的数据:组织或其部分的结构性质(例如面积、长度、宽度、致密度(compactness)和密度)、组织或其部分的光谱性质(例如红、绿、蓝(RGB)色信道值、亮度和信道直方图)和组织图像和/或鉴定出的组织组分的分形性质(fractal properties)(例如上皮内界面、腔轮廓的分形维数)、小波分解系数和/或其它图像数据转换的统计性质。在其它实施方案中,训练数据仅包括计算机生成的形态测量数据或临床数据和计算机生成的形态测量数据的组合。
在一个实施方案中,提供根据与以下组分有关的一个或多个计算机生成的形态测量特征以建立预测模型的***和方法:基质、胞质、上皮细胞核、基质细胞核、腔、红细胞、组织伪影(tissue artifact)或组织背景或其组合。可以根据计算机生成的形态测量特征单独或者结合表4中所列的一个或多个临床特征和/或表6中所列的一个或多个分子特征来建立预测模型。例如,可以将一个或多个特征输入分析工具,该分析工具将确定各特征对相关模型预测医学病症的能力的影响。可将提高模型预测能力的特征包括在最终模型中,而不提高(例如,或降低)预测能力的特征则可被排除在考虑之外。单独利用上述形态测量特征作为开发预测模型的基础,或与表4和/或表6中分别所列的临床特征和/或形态测量特征结合在一起利用上述形态测量特征作为开发预测模型的基础,可以将医生、其他个人和/或自动化处理仪器(例如组织图像分析***)的资源集中在获取更可能与结局有关并因此可用于最终预测模型的患者特征的数据上。
在本发明的另一个方面,提供评价患者的数据集以评价患者的医学病症发生风险的预测模型,其中预测模型单独以计算机生成的形态测量数据为基础,或者以计算机生成的形态测量数据结合临床数据和/或分子数据为基础。例如,预测模型可接收患者的数据集作为输入,可以输出表明患者将经历与医学病症相关的一种或多种结局的可能性的“评分”。
在一个具体的实施方案中,提供预测患者的***癌复发风险的预测模型,其中模型以包括以下一个或多个(例如所有)特征在内的特征为基础:活组织检查Gleason评分、精囊侵袭、囊外扩散、手术前PSA、主要***切除术Gleason等级(dominant Post-operative GleasonGrade)、AR+上皮细胞核的相对面积(例如根据对显示免疫荧光的组织图像进行计算机分析所产生)、上皮细胞核的形态测量值和上皮细胞质的形态测量值。
在另一个实施方案中,提供预测患者的***癌复发风险的预测模型,其中模型以包括下列特征在内的一个或多个特征为基础:精囊受累、手术切缘受累、***状况、肿瘤的雄激素受体(AR)染色指数、由组织图像得出的上皮细胞核的形态测量值(例如上皮细胞核所占面积除以组织总面积)和/或由组织图像得出的基质的形态测量值(例如基质所占面积除以组织总面积)。在一些实施方案中,模型还可以进一步以活组织检查Gleason评分和/或由组织图像得出的基质内质地(texture)测量值的特征为基础。模型可以评价患者的数据集,从而评价患者的***癌复发的风险。
在另一个实施方案中,提供用于预测疾病发生或复发的预测模型,其中模型以与以下特征有关的一个或多个计算机生成的形态测量特征为基础:基质、胞质、上皮细胞核、基质细胞核、腔、红细胞、组织伪影或组织背景或其组合。该预测模型可以单独以这些计算机生成的形态测量特征为基础,或者可以这些计算机生成的形态测量特征结合表4中所列的一个或多个临床特征和/或表6中所列的一个或多个分子特征为基础。
在另一个实施方案中,提供用于预测***癌复发的预测模型,其中模型以图6中所示的一个或多个临床和/或分子特征以及一个或多个下列病理对象的一个或多个形态测量特征为基础:红细胞、上皮细胞核、基质、腔、胞质和组织背景。
在又一个实施方案中,提供用于预测***癌复发的预测模型,其中模型以图9中所示的一个或多个临床和/或分子特征以及一个或多个下列病理对象的一个或多个形态测量特征为基础:红细胞、上皮细胞核、基质、腔和胞质。
在另一个实施方案中,提供用于预测***癌可生存性(survivability)的预测模型,其中模型根据的是图11中所示的一个或多个临床和/或分子特征及一个或多个下列病理对象的一个或多个形态测量特征:红细胞、上皮细胞核和基质。
在其它实施方案中,预测模型可确定组织样品是正常还是异常,或者可预测患者是否很可能遭受***切除术后的临床失败。在一个具体的实施方案中,提供预测***切除术后临床失败风险的预测模型,其中模型根据的是包括下列的一个或多个(例如所有、1、2、3、4个等)特征:主要***切除术Gleason等级、***侵袭状况、腔的至少一个形态测量值、胞质形态测量值和AR+/AMACR-上皮细胞核中AR信道的平均强度(例如根据对显示免疫荧光的组织图像的计算机分析得出)。该模型可以评价患者的数据集,从而评价患者的临床失败风险。
在另一个实施方案中,提供预测***切除术后临床失败风险的预测模型,其中模型以包括以下的一个或多个(例如1、2、3、4个,等)特征为基础:活组织检查Gleason评分、***受累、***切除术Gleason评分、由组织图像得出的上皮细胞质的形态测量值(例如上皮细胞质的平均强度)、由组织图像得出的上皮细胞核的形态测量值(例如上皮细胞核质地的变化)、由组织图像得出的基质的形态测量值(例如基质内质地的变化)和/或消旋酶(AMACR)阳性上皮细胞的雄激素受体(AR)强度(例如根据对显示免疫荧光的组织图像的计算机分析得出)。该模型可以评价患者的数据集,从而评价患者的临床失败风险。
另一方面,提供其中患者数据在多个时间点各点上进行测定并用本发明的预测模型进行评价的***和方法。患者的诊断或治疗可以对得自各个评价的结果的比较为基础。可以将这类比较汇总于例如由医生或其他个人使用的计算机输出的报告中。例如,可以提供用于筛选医学病症抑制剂化合物的***和方法。可以通过预测模型评价患者的第一批数据集,其中模型以临床数据、分子数据和计算机生成的形态测量数据为基础。可给予患者试验化合物。给予试验化合物之后,从患者中获得第二批数据集,并通过预测模型进行评价。可将第一批数据集的评价结果与第二批数据集的评价结果进行比较。第二批数据集的评价结果相对于第一批数据集发生的变化可表明试验化合物是抑制剂化合物。
在本发明的又个一方面,提供用于治疗、诊断和/或预测医学病症发生的测试盒。可以将这类测试盒放在医院、其它医学机构或任何其它合适的场所。测试盒可以接收患者的数据(例如包括临床数据、分子数据和/或计算机生成的形态测量数据),将患者数据与预测模型进行比较(例如在测试盒存储器中编程),并输出比较结果。在一些实施方案中,可以通过测试盒至少部分生成分子数据和/或计算机生成的形态测量数据。例如,可以在接收患者的组织样品之后通过分析方法生成分子数据。形态测量数据可如下生成:将组织样品的电子图像分割成一个或多个对象(object),再将一个或多个对象分成一个或多个对象类别(object class)(例如基质、腔、红细胞等),通过获取一个或多个对象类别的一个或多个测量值来确定形态测量数据。在一些实施方案中,测试盒可包括用于接收的输入端,例如,预测模型的更新资料。在一些实施方案中,测试盒可包括例如将数据(例如用于给患者发帐单和/或跟踪使用情况的数据)传送到其它装置或位置的输出端。
附图简述
为了更好地理解本发明的实施方案,下面结合附图进行下列描述以供参考,其中同类参考文献标号是指贯穿全文的同类部分,且其中:
图1A和图1B是应用预测模型治疗、诊断或预测医学病症发生的***方块图;
图1C是用于建立预测模型的***的方块图;
图2表示可通过预测模型输出的患者的示例性结果;
图3是涉及组织图像处理的示例性阶段的流程图;
图4是涉及医学病症的抑制剂化合物筛选的示例性阶段的流程图;
图5a和图5b分别显示图像分割和分类后健康和异常***组织样本的灰度数字图像;
图6表示***癌复发预测模型所采用的各种临床特征、分子特征和计算机生成的形态测量特征;
图7a和图7b显示染色的组织样本,表明存在2个分子特征,具体为雄激素受体(AR)和CD34;
图8是Kaplan-Meier曲线图,表明由基于图6特征的模型所预测,将患者分类为处于经历***癌复发低风险、中等风险或高风险中;
图9表示***癌复发预测模型所采用的各种临床特征、分子特征和计算机生成的形态测量特征;
图10是Kaplan-Meier曲线图,表明由基于图9特征的模型所预测将患者分类为处于经历***癌复发低风险、中等风险或高风险中;
图11表示***癌总体可生存性预测模型所采用的各种临床特征、分子特征和计算机生成的形态测量特征;
图12是Kaplan-Meier曲线图,表明由基于图11特征的模型所预测,将患者分类为处于经历***癌复发低风险、中等风险或高风险中;
图13表示患者进行***切除术之后侵袭性疾病(aggressivedisease)预测模型所采用的各种临床特征和计算机生成的形态测量特征;
图14和图15表示***癌复发预测模型所采用的各种临床特征、分子特征和计算机生成的形态测量特征;
图16表示根治性***切除术后患者的临床失败的预测模型所采用的各种临床特征和计算机生成的组织图像特征;
图17表示***癌复发预测模型所采用的各种临床特征和计算机生成的组织图像特征;
图18a-e说明用于定量测定***组织的细胞核AR的多重图像分割(multiplex image segmentation);
图19表示根治性***切除术后患者的临床失败的另一个预测模型所采用的各种临床特征和计算机生成的组织图像特征;
图20曲线图是已接受吉非替尼治疗的患有非小细胞肺癌(NSCLC)的个体的生存预测模型中51名患者的生存曲线,以39为分界点,按分界点以上或以下的模型评分分成2个组,其中评分为39.5或更高被预测为总生存时间缩短。
优选实施方案详述
本发明的实施方案涉及在用于预测医学病症发生的预测模型中单独利用计算机产生的形态测量信息,或与临床信息和/或分子信息结合在一起利用计算机产生的形态测量信息的方法和***。例如,在本发明的一个实施方案中,利用临床信息、分子信息和计算机产生的形态测量信息预测***癌的复发。在其它实施方案中,采用本文所提供的教导内容来预测其它医学病症的发生例如其它的疾病类型(例如上皮性混合性瘤(epithelial and mixed-neoplasm),包括乳腺、结肠、肺、膀胱、肝、胰腺、肾细胞和软组织肿瘤)及患者对一种或多种疗法(例如药物)有无反应性。这些预测可被医生或其他个人用来例如选择适于患者的合适疗程和/或诊断患者的医学病症。
在本发明的一个方面,可以提供包括支持向量机(SVM)和/或神经网络的分析工具来确定临床特征、分子特征和计算机生成的形态测量特征与医学病症间的关联性。关联特征可以建立可用来预测病症发生或复发的模型。例如,可以根据患者组群的数据,应用分析工具来建立预测模型,所述患者有关医学病症的结局(例如癌症复发时间)至少部分是已知的。然后应用该模型评价新患者的数据,以预测新患者医学病症的发生。在一些实施方案中,分析工具仅采用3种数据类型的子集(例如仅临床数据和形态测量数据)便可建立预测模型。
本发明的实施方案所采用的临床数据、分子数据和/或形态测量数据可包括任何与医学病症诊断、治疗和/或预测有关的临床数据、分子数据和/或形态测量数据。下面结合例如表1、表2、表4和/或表6介绍了与分析***癌复发和生存相关的特征以建立预测模型。应当了解的是,这些特征中至少一些(例如上皮性混合性肿瘤)可用作开发其它医学病症(例如乳腺、结肠、肺、膀胱、肝、胰腺、肾细胞和软组织肿瘤)的预测模型的基础。可以评价患有某些其它医学病症的患者的例如表1、表2、表4和/或表6中的一个或多个特征,然后输入分析工具,以确定该特征是否与该医学病症相关。可将提高模型预测医学病症发生的能力的特征包括在最终模型中,而不提高(或例如降低)模型预测能力的特征则可不予以考虑。采用表1、表2、表4和/或表6的特征作为开发预测模型的基础,可以将医生、其他个人和/或自动化处理仪器(例如组织图像分析***)的资源集中在获取更可能与结局有关因此可用于最终预测模型的患者数据上。此外,已确定的与***癌复发和生存相关的特征见图6、图9和图11。应当了解的是,这些特征可以直接包括在***癌复发和/或生存的最终预测模型中,和/或可以用于开发其它医学病症的预测模型。
形态测量数据可包括表示例如组织样本的各种结构和/或光谱性质的计算机生成数据。在一个实施方案中,形态测量数据可包括基质、胞质、上皮细胞核、基质细胞核、腔、红细胞、组织伪影、组织背景或其组合的形态测量特征数据。在本发明的一个方面,提供用于从组织图像中获取形态测量特征测量值的组织图像分析***。这类***可以是采用Definiens Cellenger软件的MAGICTM***。这类***可以接收H&E染色图像作为输入,并可输出图像中病理对象的各种形态测量特征测量值。下面结合图3介绍了用于从图像中获取形态测量特征的相关***和方法的其它详情。
临床特征可包括或基于一个或多个患者的数据,例如年龄、种族、体重、身高、病史、基因型和疾病状况,其中疾病状况是指临床和病理分期特征以及手头现有的为有关疾病进程专门收集的任何其它临床特征。临床数据一般由医生在检查患者和/或患者组织或细胞的过程中收集。临床数据还可以包括对于特定医学情况更为特异的临床数据。例如,在***癌的情况下,临床数据可包括表明***特异性抗原(PSA)血液浓度的数据、直肠指检结果、Gleason评分和/或对于***癌更为特异的其它临床数据。一般地讲,当表1、表2、表4和/或表6和/或图6、图9和/或图11的任何特征(即临床、形态测量和/或分子特征)应用于***以外的医学情况时,可以不考虑这些表格和/或图中对于***更为特异的特征。任选对所述医学情况更为特异的特征可以替换***特有的特征。例如,其它组织学疾病特异性特征(histologic disease-specific feature)/表现可包括坏死部位(例如乳腺原位导管癌)、大小、形状和上皮细胞区域模式/分布(例如乳腺、肺)、分化程度(例如非小细胞肺癌伴鳞状分化(NSCLC,存在于乳腺和结肠各种腺癌中所观察到的黏蛋白产生))、细胞形态/显微镜下的细胞分布(例如乳腺癌中的导管膜(lining duct)、NSCLC中的细支气管膜)以及炎症的程度和类型(例如与***相比,乳腺癌和NSCLC具有不同的特征)。
分子特征可包括或基于表明生物分子(包括核酸、多肽、糖、类固醇和其它小分子或上述分子的组合,例如糖蛋白和蛋白质-RNA复合物)的存在、不存在、相对增加或降低或者相对位置的数据。被测定的这些分子所处的位置可包括腺体、肿瘤、基质和/或其它位置,可取决于特定的医学情况。一般采用包括DNA印迹法、蛋白质印迹法和RNA印迹法、聚合酶链式反应(PCR)、免疫组织化学法和免疫荧光法在内的常用分子生物学技术和生物化学技术,来收集分子数据。此外,可以采用原位杂交以显示分子生物学特征的相对丰度和位置。组织原位杂交的示例性方法和***可参见以上引用的2003年7月21日申请的美国专利申请号10/624,233(现为美国专利号6,995,020),发明名称为“Methods and compositions for the preparation and use of fixed-treatedcell-lines and tissue in fluorescence in situ hybridization(荧光原位杂交中制备和应用固定化处理的细胞系和组织的方法和组合物)”。
图1A和1B表示利用预测模型预测患者医学病症发生的示例性***。例如,当医学诊断实验室为医生或涉足远程访问装置的其他个人提供医学决策上的支持时,可采用图1A的安排。例如,当提供包括预测模型的测试盒用于医院、其它医学机构或其它合适的场所等机构时,可以使用图1B的安排。
谈及图1A时,预测模型102被定位于诊断机构104内。预测模型102可包括任何合适的硬件、软件或其组合,用于接收患者数据,评价数据以预测患者医学病症的发生(例如复发)并输出评价结果。在另一个实施方案中,模型102可以用来预测患者对一种或多种特定疗法的反应性。诊断机构104可以通过因特网服务提供者(ISP)108和通信网络110和112从远程访问设备106接收患者数据,并可输入数据给预测模型102以进行评价。从远距离位置接收和评价患者数据的其它安排当然是可行的(例如通过其它联系,例如电话线或通过有形邮件)。位于遥远地区的医生或个人可以任何合适的方式获取患者数据,可利用远程访问设备106将数据传送到诊断机构104。在一些实施方案中,患者数据可以至少部分由诊断机构104或另外的机构生成。例如,诊断机构104可以从远程访问设备106或其它设备接收数字化形式的H&E染色图像,并可根据图像生成患者的形态测量数据。在另一个实施例中,诊断机构104可接收并处理实际的组织样品以生成形态测量数据。在其它实施例中,第三方可以接收新患者的图像或组织,根据图像或组织生成形态测量数据,并将形态测量数据提供给诊断机构104。下面结合图3介绍了用于从组织图像和/或样品生成形态测量数据的合适的图像处理工具。
诊断机构104可以经由ISP 108以及通信网络110和112或以另外的方式(例如有形邮件或打电话)通过例如传送到远程访问设备106,向医生或涉足远程访问设备106的个人提供评价结果。结果可包括诊断“评分”(例如患者将经历与医学病症有关的一种或多种结局的可能性的指标,例如预测的事件复发时间)、表示由预测模型102分析为与医学病症相关的一个或多个特征的信息、表示预测模型灵敏度(sensitivity)和/或特异度(specificity)的信息或者其它合适的诊断信息或其组合。例如,图2表示可由预测模型输出的虚拟患者的报告的实例。如图所示,该报告以患者的结局概率(例如***癌复发;即y轴)对单位为月数的时间(x轴)作图。在本实施例中,患者的评分为“520”,这将患者列入高危范畴。医生或其他个人可利用这类报告以助于确定更精确的临床诊断性肿瘤等级,研究出将患者分为亚类的有效方法,并最终产生用于各个患者的更准确的(及适当的)治疗选项。还可利用该报告,以协助医生或个人向患者解释患者的风险。
远程访问设备106可以是能够从诊断机构104传输和/或接收数据的任何远程设备,例如人个电脑、无线设备(例如笔记本电脑)、电话机或个人数字助理(PDA)或任何其它合适的远程访问设备。图1A***中可以包括多个远程访问设备106(例如供位于相应的多个遥远位置的多名医生或其他个人与诊断机构104进行数据通信),尽管为了避免附图过于复杂,图1A中仅包括了一台远程访问设备106。诊断机构104可包括能够接收和处理来往于远程访问设备106的通信的服务器。这类服务器可包括计算硬件和/或存储的独特组件,但是也可以是软件应用或硬软件的组合。服务器可以使用一台或多台计算机来执行。
通信链路110和112各自可为任何合适的有线或无线通信路径或各路径的结合,例如局域网、广域网、电话网、有线电视网、内联网或因特网。一些合适的无线通信网络可以是全球移动通信***(GSM)网、分时多址(TDMA)网、码分多址(CDMA)网、蓝牙网或任何其它合适的无线网络。
图1B表示提供用于机构124的***,其中包括本发明预测模型的测试盒122,该机构可以是医院、医生办公室或其它合适的场所。测试盒122可包括任何合适的硬件、软件或其组合(例如人个电脑),适于接收患者数据(例如至少一个临床、形态测量和分子数据),用预测模型(例如在测试盒存储器中编程)评价患者数据,并输出评价结果。例如,测试盒122可包括用计算机可执行指令(用于执行预测功能)编码的计算机可读取介质。预测模型可以是之前建立的预定模型(例如通过其它***或应用例如图1C***建立)。在一些实施方案中,测试盒122可任选包括图像处理工具,其能够从例如组织样品或图像中生成相应的形态测量特征数据。下面结合图3介绍了合适的图像处理工具。在其它实施方案中,测试盒122可以接收从例如输入装置(例如键盘)或其它装置或者位置输入的作为形态测量特征的预先打包的数据。测试盒122可任选包括以接收例如更新资料到预测模型的输入端。测试盒还可任选包括传送数据(例如用于给患者发帐单和/或跟踪使用情况)至主要机构或其它合适的装置或位置的输出端。帐单数据可包括例如用测试盒评价的患者医疗保险信息(例如姓名、保险供应商和帐号)。例如,当测试盒供应商以每次使用为基础对测试盒计费时,和/或当供应商需要患者保险信息向保险供应商索付时,便可使用这类信息。
图1C表示建立预测模型的示例性***。该***包括分析工具132(例如包括支持向量机(SVM)和/或神经网络)和其结局至少是部分已知的患者数据库134。分析工具132可包括任何合适的硬件、软件或其组合以确定数据库134的数据与医学病症之间的相关性。图1C中的***还可以包括图像处理工具136,它能够根据例如H&E染色组织图像、实际的组织样品或两者的数字化形式生成形态测量数据。工具136可以生成例如其数据已包括在数据库134中的已知患者的形态测量数据。下面结合图3介绍了合适的图像处理工具136。
数据库134可包括任何合适的患者数据,例如临床特征、形态测量特征、分子特征或其组合的数据。数据库134还可以包括表示患者结局的数据,例如患者是否或者何时经历疾病复发。例如,数据库134可包括患者的未截尾数据(uncensored data)(即其结局是完全已知的患者的数据),例如经历医学病症复发的患者的数据。数据库134可包括患者的截尾数据(censored data)(即其结局并非完全已知的患者的数据)作为选择,或可另外包括患者的截尾数据,例如一次或多次医生随访中未出现疾病复发征兆的患者的数据。分析工具132利用截尾数据可以增加可用来生成预测模型的数据量,因此,可有利地改善模型的可靠性和预测能力。可以同时利用截尾数据和未截尾数据的支持向量机(SVM)和神经网络(NNci)的实例见下文。
在一个实施方案中,分析工具132可包括支持向量机(SVM)。在这个实施方案中,工具132优选包括SVM能够执行截尾数据的支持向量回归(support vector regression on censored data,SVRc)。如同时待审的美国专利申请号10/991,240中所述一样,在SVRc中提供SVM内使用的一种新的经修饰的损失/惩罚函数,可供SVM利用截尾数据。可将包括得自数据库134的已知患者的临床、分子和/或形态测量特征在内的数据输入SVM,以测定预测模型参数。该参数可表示输入特征的相对重要性,并可以调整以使SVM预测已知患者结局的能力最大化。有关使用SVM确定有关医学病症的特征相关性的其它详情可参见[5]和[6]。
由分析工具132分析的SVRc的应用可包括从数据库134获取指示患者状况的信息的多维非线性向量,其中至少一个向量缺乏对于相应患者事件发生时间的指示。因此,分析工具132可用向量进行回归以建立基于核函数的模型,该模型根据包含在信息向量中至少一些信息,提供与预测事件时间有关的输出值。分析工具132可使用包含截尾数据的各向量的损失函数,该损失函数不同于工具132所使用的包含未截尾数据向量的损失函数。可对截尾数据样品进行不同的处理,因为它只可提供“单侧信息”。例如,在生存时间预测的情况下,截尾数据样品通常只表示事件在给定时间内不会发生,但是却没有在给定时间后何时将发生(如果发生的话)的指示。
对于截尾数据的分析工具132所采用的损失函数可见下式:
Loss ( f ( x ) , y , s = 1 ) = C s * ( e - &epsiv; s * ) e > &epsiv; s * 0 - &epsiv; s &le; e &le; &epsiv; s * C s ( &epsiv; s - e ) e < - &epsiv; s ,
其中e=f(x)-y;及
f(x)=WTФ(x)+b
是对特征空间F的线性回归函数。此外,W是F中的向量,Ф(x)将输入x映射到F中的向量。
相比之下,对于未截尾数据的工具132所使用的损失函数可为:
Loss ( f ( x ) , y , s = 0 ) = C n * ( e - &epsiv; n * ) e > &epsiv; n * 0 - &epsiv; n &le; e &le; &epsiv; n * C n ( &epsiv; n - e ) e < - &epsiv; n ,
其中e=f(x)-y
&epsiv; n * &le; &epsiv; n , C n * &GreaterEqual; C n .
以上述描述中,通过解决最优化问题得出W和b,其一般形式为:
Figure G2008800113680D00174
s.t.  yi-(WTφ(xi)+b)≤ε
(WTφ(xi)+b)-yi≤ε
然而,该方程假设凸最优化问题总是可行的,但情况却不是这样。此外,期望允许回归估算中有最小误差。出于这些原因,才将损失函数用于SVRc。对于回归估算损失允许一些误差。理想的是,构建的模型可以精确计算出所有结果,这并不可行。损失函数允许偏离理想一定范围的误差,其中该范围受松驰变量ξ的ξ*及惩罚C控制。计算出偏离理想但仍在ξ的ξ*限定的范围内的误差,但是它们的贡献被C削弱。实例错误越多,惩罚越大。错误实例越少(较接近理想),惩罚越小。惩罚随误差增加的概念的结果是斜率,C控制该斜率。对于ε不敏感损失函数,虽然可以使用各种损失函数,但一般方程转化为:
min W , b P = 1 2 W T W + C &Sigma; i = 1 l ( &xi; i + &xi; i * )
s.t.  yi-(WTФ(xi)+b)≤ε+ξi
( W T &Phi; ( x i ) + b ) - y i &le; &epsiv; + &xi; i *
&xi; i , &xi; i * &GreaterEqual; 0 , i=1…l
对于本发明的ε不敏感损失函数(其中不同的损失函数应用于截尾的和未截尾数据),该方程变为:
min W , b P c = 1 2 W T W + &Sigma; i = 1 l ( C i &xi; i + C i * &xi; i * )
s.t.  yi-(WTФ(xi)+b)≤εii
( W T &Phi; ( x i ) + b ) - y i &le; &epsiv; i * + &xi; i *
&xi; i ( * ) &GreaterEqual; 0 , i=1…l
其中 C i ( * ) = s i C s ( * ) + ( 1 - s i ) C n ( * )
&epsiv; i ( * ) = s i &epsiv; s ( * ) + ( 1 - s i ) &epsiv; n ( * )
优化标准惩罚其y值不同于f(x)超过ε的数据点。松驰变量ξ的ξ*,分别相当于该过度偏差大小的正偏差和负偏差。这种惩罚机制具有2个组成部分,一个用于未截尾数据(即未右截尾),一个用于截尾数据。在此两个组成部分代表被称为ε不敏感损失函数的损失函数的形式。
有关用于执行截尾数据的支持向量回归(SVRc)的有关***和方法的其它详细资料参见以上引用的2004年11月17日申请的美国专利申请号10/991,240,及2003年11月18日申请的美国临时专利申请号60/520,939。
在另一个实施方案中,分析工具132可包括神经网络。在这类实施方案中,工具132优选包括能够利用截尾数据的神经网络。此外,神经网络优选应用基本上与一致性指数(CI)逼近(例如导数)一致的目标函数训练相关模型(NNci)。虽然CI被长期用作生存分析的性能指标[7],但是之前未曾提出过使用CI训练神经网络。过去使用CI作为训练目标函数的困难在于CI是不可微的,并且不能用基于梯度的方法最优化。如同时待审的2005年2月25日申请的美国专利申请号11/067,066(现为美国专利号7,321,881)中所述,可以使用CI逼近作为目标函数来克服这个障碍。
例如,当分析工具132包括用来预测***癌复发的神经网络时,神经网络可以处理患者组群的输入数据以产生输出,所述患者有关***癌复发的结局是至少部分已知的。所选择的输入神经网络的具体特征,可通过应用上述SVRc(例如用分析工具132的支持向量机执行)或者应用其它合适的特征选择方法进行选择。工具132的误差模块(error module)可以测定与输入数据相应的输出与所需要的输出之间的误差(例如患者预测结局和已知结局之间的差异)。然后,分析工具132可应用基本上与CI逼近一致的目标函数,为神经网络性能评级。分析工具132可适应基于目标函数结果的神经网络的加权关联(weighedconnection)(例如特征的相对重要性)。有关神经网络的适应加权关联以便用预测结局调整特征相关性的其它详细资料参见[8]和[9]。
一致性指数可用下列形式表示:
CI = &Sigma; ( i , j ) &Element; &Omega; I ( t ^ i , t ^ j ) | &Omega; |
其中
Figure G2008800113680D00192
可基于分别对于患者i和j的预后估计值的两两比较。在本实施例中,Ω由符合下列条件的所有成对患者{i,j}组成:
·患者i和j都经历了复发,患者i的复发时间ti比患者j的复发时间tj短;或者
·仅患者i经历了复发,ti比患者j的随访时间(follow-up visit time)tj短。
CI的分子表示通过神经网络预测较早复发实际的确较早复发的患者的次数。分母是符合预定条件的成对患者的总数。
一般而言,当CI增加、优选最大化时,该模型更为准确。因此,优选通过基本上使CI最大化或CI逼近,使模型的性能得到改进。本发明的一个实施方案如下提供CI逼近:
C = &Sigma; ( i , j ) &Element; &Omega; R ( t ^ i , t ^ j ) | &Omega; |
其中
Figure G2008800113680D00196
且其中0<γ≤1且n>1。
Figure G2008800113680D00201
可视为逼近
Figure G2008800113680D00202
本发明提供的另一种CI逼近如下,已凭经验表明可使结果得到改进:
C &omega; = &Sigma; ( i , j ) &Element; &Omega; - ( t ^ i - t ^ j ) &CenterDot; R ( t ^ i , t ^ j ) D ,
其中
D = &Sigma; ( i , j ) &Element; &Omega; - ( t ^ i - t ^ j )
是归一化因子。在此各通过
Figure G2008800113680D00206
Figure G2008800113680D00207
之间的差异进行加权。使Cω(或C)最小化的方法试图移动Ω中的每对样品以满足 t ^ i - t ^ j > &gamma; , 因此使 I ( t ^ i , t ^ j ) = 1 .
当Ω中的一对输出值之间差异大于容限γ时,该对样品将停止对目标函数的贡献。该机制有效克服了模型训练期间数据的过拟合,并使最优化优选只集中移动Ω中的更多对样品以满足 t ^ i - t ^ j > &gamma; . 在训练期间,按照两两比较适应性地调整训练样品的影响。注意优选R中正容限(positive margin)γ用于改善泛化性能。换句话说,在训练期间,在录入所有患者数据之后通过计算CI来调整神经网络参数。神经网络进而调整其中目的是使目标函数最小化的参数,从而使CI最大化。上文所使用的过拟合一般是指神经网络的复杂性。准确地讲,如果网络太过复杂,则该网络将对“噪声”数据起反应。过拟合是危险的,因为易于导致预测远离训练数据的范围。
有关应用基本与CI逼近一致的目标函数训练神经网络的***和方法的其它详细资料可参见以上引用的2005年2月25日申请的美国专利申请号11/067,066(现为美国专利号7,321,881)以及2004年2月27日申请的美国临时专利申请号60/548,322和2004年6月4日申请的美国临时专利申请号60/577,051。
图3是合适的图像处理工具示例性功能的流程图。图3中的功能主要涉及组织图像分割,以便对图像中的病理对象进行分类(例如将对象归类为胞质、腔、细胞核、基质、背景、伪影和红细胞)。在一个实施例中,图像处理工具可包括使用SPOT Insight QE彩色数码照相机(KAI2000)的光学显微镜,以20X放大倍数拍摄组织图像,得到具有1600x1200像素的图像。以24比特(bit)/像素的图像按Tiff格式存储图像。这类设备仅是示例性的,在不偏离本发明范围的情况下,可以使用任何其它合适的拍摄图像的设备。图像处理工具还可以包括任何合适的硬件、软件或其组合,以对所拍摄的图像中的对象进行分割和分类,然后测定对象的形态测量特征。在一个实施方案中,图像处理工具可包括市售的Definiens Cellenger Developer Studio(v.4.0),它适于对例如上述各种病理对象进行分割和分类并测定这些对象的各种形态测量特征。有关Definiens Cellenger产品的其它详细资料可参见[10]。图像处理工具可测量各种对象的形态测量特征,包括基于光谱的特征(红色、绿色、蓝色(RGB)信道特征,例如平均值、标准偏差等)、位置、大小、周长、形状(不对称性、致密度、椭圆拟合(elliptic fit)等)以及与邻近对象(对照)的空间和强度关系。图像处理工具可以测量图像中每个已识别的病理对象的每个实例的这些特征,并可以输出这些特征用于例如通过预测模型102(图1A)、测试盒122(图1B)或分析工具132(图1C)进行评价。任选图像处理工具还可以输出图像每个已测量特征的统计汇总值。下文结合表1和表2介绍了有关测定分类病理对象的形态测量特征的其它详细资料。下面介绍图3所示的图像处理工具的功能。
初步分割。在初期,图像处理工具可以将图像(例如H&E染色组织微阵列(TMA)图像或H&E的完整组织切片)分割成被称为对象(object)的小批邻接像素。可以通过区域增长方法(region-growingmethod)获得这些对象,该方法根据颜色相似度和形状规整性搜索邻接区域。可以通过调整几个参数使对象大小发生改变[11]。在该***中,最小处理单位通常是对象而不是像素。因此,所有形态测量特征计算和操作均可根据对象来进行。例如,当将阈值应用于图像时,对象的特征值都受阈值支配。因此,对象内的所有像素都被分配到同一类别中。在一个实施方案中,对象大小可按最佳水平控制在10-20像素。根据该水平,通过在较低水平上由较小水平的对象形成较大的对象来构建随后较高较粗糙的水平。
背景提取。初步分割之后,图像处理工具可以利用强度阈值和凸包(convex hull)将图像组织核心从背景(载玻片的透明区)中分割出来。强度阈值是将图像像素分成2类的强度值:“组织核心”和“背景”。强度值大于或等于阈值的任何像素被归类为“组织核心”像素,否则像素被归类为“背景”像素。几何对象的凸包是含有该对象的最小凸集(多边形)。集S是凸的,如果无论何时2个点P和Q均在S内,则总线分割PQ也在S内。
粗分割。在下一阶段中,图像处理工具可以将前景(例如TMA核心)再分割成相当于细胞核和空白区(white space)的粗糙区。例如,H&E染色图像中细胞核主要的特有特征是与病理对象其余部分相比时被染为蓝色。因此,红色和蓝色信道(R-B)强度值的差异可用作辨别特征。特别对于初步分割步骤获得的每个图像对象,可以测定出红色和蓝色平均像素强度值之间的差异。还可使用长/宽比确定对象是否应归类为细胞核区。例如,落入(R-B)特征阈值以下和长/宽阈值以下的对象可被归类为细胞核区。同样,可以利用绿色信道阈值将组织核心中的对象归类为空白区。组织基质由红色占主导。可采用图像对象的强度差异d、“红色比率”r=R/(R+G+B)和红色信道标准偏差σR对基质对象进行分类。
空白区分类。在粗分割阶段,图像中的空白区域可相当于腔(病理对象)和伪影(遭破坏的组织区域)。较小的空白区对象(面积小于100像素)通常为伪影。因此,图像处理工具可应用面积过滤程序(area filter)将其归类为伪影。
细胞核去融合和分类。在粗分割阶段,所获得细胞核区常常是涵盖若干实际的细胞核的连续融合区。此外,细胞核区域还可包括周围错分类的胞质。因此,这些融合的细胞核区可能需要去融合(de-fuse)以获得单个细胞核。
图像处理工具可应用两种不同的方法使细胞核去融合。第一种方法可根据区域增长方法,其在形状约束(圆度)下融合构成细胞核区的图像对象。已确定当融合不严重时,此方法运作良好。
在严重融合的情况下,图像处理工具可采用基于监督学习的不同方法。此方法包括专业人员(病理学家)对用细胞核区进行人工标记。可利用属于标记细胞核的图像对象的特征设计统计分类器(statisticalclassifier)。
在一个实施方案中,为了减小特征空间维数,可以采用两种不同的分类器,对训练集进行特征选择:贝叶斯分类器(Bayesian classifier)和k最近邻分类器[12]。留一法(leave-one-out method)[13]可用于交叉验证,顺序向前查找法(sequential forward search method)可用来挑选最佳特征。最后,可设计特征数分别等于1和5的两种贝叶斯分类器。可以假定类条件分布(class-conditional distribution)是具有对角协方差矩阵的高斯模型。
在一些实施方案中,输入图像可包括不同种类的细胞核:上皮细胞核、成纤维细胞(fibroblast)、基底核、内皮细胞核、凋亡细胞核和红细胞。由于上皮细胞核数通常被视作肿瘤程度分级中的重要特征,所以将上皮细胞核与其它细胞核区分开来可能十分重要。图像处理工具可以通过将检测到的细胞核根据形状(偏心度)和大小(面积)特征分成以下两个类别来实现:上皮细胞核和“其余核”。
有关本发明图像分割和分类的其它详细资料可参见以上引用的2004年11月17日申请的美国专利申请号10/991,897及2003年11月17日申请的美国临时专利申请号60/520,815和2004年3月12日申请的美国临时专利申请60/552,497。
如上所述,图像处理工具可以在通过工具对图像中的对象进行分割和分类后,测量各种形态测量特征。这些形态测量特征可表示一个或多个性质和/或统计数据。对象性质可包括光谱性质(例如颜色信道平均值、标准偏差和亮度)和结构/形状性质(例如面积、长度、宽度、致密度、密度)两者。统计数据可包括最小值、最大值、平均值和标准偏差,并可以计算出图像对象的每个性质。表1和表2(本文附表)表示可按照本发明方法测量的各种形态测量特征的实例。采用表示由这些特征测量的各种性质和/或统计数据的惯常用法,来命名这些表中的形态测量特征。表1和表2中所示的具体的命名惯例改编自市售的上述Definiens软件产品,因此,应为本领域普通技术人员所了解。
应当了解的是,表1和表2中所示的计算机生成的形态测量特征仅是示例性的,在不偏离本发明范围的情况下,可以采用任何计算机生成的形态测量特征。例如,表1和表2包括不同的形态测量特征集。表2中减少和改进的特征集(即与表1特征相比减少和改进)是从进行涉及表1的研究时起,自***癌复发和生存领域的额外实验中获得的。特别是额外实验提供了有关更可能与结局有关的特征类型的新见解。本发明的发明人预期,继续实验和/或使用其它合适的硬件、软件或其组合都可得到各种其它可能与这些和其它医学病症相关的计算机生成特征集(例如表1特征的子集(参见表10和表11)或表2特征的子集)。
谈及表1和表2时,特征“Lumen.StdDevAreaPxl”、“腔(Lumen)”表示图像对象的一个类型,“StdDev”表示使用已识别腔的所有实例计算得出的统计值(标准偏差),“AreaPxl”表示经统计数据进行评价的对象实例的特征(像素值形式的面积)。图像处理工具可以测量图像中之前已分割和分类的所有对象的形态测量特征。例如,图像处理工具可以测量包括“背景(Background)”、“胞质(Cytoplasm)”、“上皮细胞核(Epithelial nuclei)”、“腔”、“基质(Stroma)”、“基质细胞核(Stroma nuclei)”和“红细胞(Red blood cell)”在内的对象的形态测量特征。“背景”包括数字图像没有被组织占据的部分。“胞质”是指细胞的胞质,它可以是无定型区(例如H&E染色组织图像中,围绕上皮细胞核周围的粉红色区域)。“上皮细胞核”是指存在于腺单元(glandular unit)的上皮细胞/腔和基细胞的细胞核,它看上去是被胞质包围的“圆形”对象。“腔”是指中央腺空间(central glandular space),其中贮存有上皮细胞的分泌物,它似乎被上皮细胞围绕白色区围绕。偶尔,腔充满***液(在H&E染色组织中通常呈粉红色)或其它“碎片”(例如巨噬细胞、死细胞等)。腔和上皮细胞质和细胞核合起来形成腺单元。“基质”是指保持***组织构造的具有不同密度的***形式。基质组织存在于腺单元之间,在H&E染色组织中呈红色至粉红色。“基质细胞核”是不含或具最低量的胞质的伸长细胞(成纤维细胞)。该类别还可以包括内皮细胞和炎性细胞,如果癌存在,则还可发现上皮细胞核散布在基质中。“红细胞”是通常位于血管(动脉或静脉)内的小红色圆形对象,但也可分散存在于整个组织中。
下表中的“C2EN”细胞核面积与胞质的相对比率。上皮细胞退行性/恶性越强,细胞核所占面积越大,且比率越大。“EN2SN”是数字化组织图像中存在的上皮细胞与基质细胞的百分比或相对量。“L2Core”是组织内存在的腔数或腔面积。Gleason等级越高,癌侵袭性越强,因此存在的腔的数量越少。这通常是因为当癌症发生时,上皮细胞以不受控制的方式复制,这就引起腔变得充满了上皮细胞。
在本发明的一个方面,提供用于筛选医学病症(例如疾病)的抑制剂化合物的***和方法。图4是涉及筛选本发明实施方案的抑制剂化合物的示例性阶段的流程图。在阶段402中,可以获取患者的第一批数据集,包括一个或多个临床数据、形态测量数据和分子数据。可以在阶段404给予患者试验化合物。阶段404之后,可以从阶段406的患者中获取第二批数据集。第二批数据集可包括或不包括第一批数据集中所包括的同一数据类型(即特征)。在阶段408,可以将第二批数据集与第一批数据集相比较,其中在给予试验化合物之后第二批数据集发生变化就表明试验化合物是抑制剂化合物。对数据集进行比较的阶段408可包括例如将本发明预测模型响应第一批数据集输入生成的输出与该预测模型响应第二批数据集输入生成的输出相比较。例如,抑制剂化合物可以是指定药物,本发明可测定药物是否可有效地用作医学病症的医学治疗。
下面将介绍本发明实施方案预测医学病症的各种示例性应用。在第一实施例中,本发明的实施方案利用临床和形态测量数据来预测***癌复发。在第二实施例中,本发明的实施方案利用临床、形态测量和分子数据来预测***癌复发和总体可生存性。在第三实施例中,本发明的实施方案被用来预测患者***切除术之后侵袭性疾病的发生。在第四实施例中,本发明的实施方案被用来预测肝脏毒理。在第五、第六和第八实施例中,本发明的实施方案被用来预测***癌复发。在第七和第九实施例中,本发明的实施方案被用来预测***切除术后临床失败。在第十实施例中,本发明的实施方案被用来预测患有非小细胞肺癌(NSCLC)已用吉非替尼(gefitinib)治疗的个体的生存。
***癌综述
***癌是美国男性死亡的主要病因,2004年,预计23万新确诊病例,几乎3万例死亡。用PSA筛查的基于血清的广泛应用赋予医生在早期(即T1a-c、T2)检测出局限于***或区域性扩散的***癌的能力,而在转移阶段被检测出来的仅为较小百分数。已报道的早期检测和诊断的益处,给患者和泌尿科医生在选择疗程时施加了巨大的压力。在选择最初治疗干预时,关键的是需要准确的预后,因为大多数肿瘤是无痛的,需要最小干预(即‘观察等待’),而其它肿瘤侵袭性强,建议早期干预(即放射疗法/激素/辅助性全身疗法/临床试验安排)。此外,在对观察等待与根治性***切除术进行比较的随机试验中,仅从手术获得不大的益处(***切除术后死亡率降低6.6%),这就表明需要更好的患者分层措施以指导个体化的患者护理[14]。
PCa自然史再次强调了患者在其诊断时面临的挑战[15]。即使早期***癌用局部疗法是可治愈的,但约25-40%的男性仍将发展成PSA/生化复发(biochemical recurrence,BCR)。使情况变得更加复杂的是,已发生过复发的***癌男性在PSA/BCR之后8年(平均8年;BCR后中位值5年)左右仍可能发生转移,这就表明早在患者治疗方案时鉴定出的这组患者(预测他们的BCR时间以及他们发生转移的倾向)对其总体生存至关重要。不幸的是,现有预测模型在其准确性方面有限,而且就患者肿瘤病理而言,对具体患者并无个体化。尽管各种遗传、环境和生活方式的改变参与PCa的发病机制,但是目前尚无可以预测给定患者结局的单一的生化途径、基因突变或临床生物标记。根治性***切除术后21年再次变流行,而且广泛使用PSA后15年,泌尿科医生仍无法告知患者哪种用于局部疾病的治疗可产生最佳的无临床疾病生存或总体生存。
仅基于临床特征数据的预后列线图实际上的确提供有用的临床状况和结局预测,但需要准确性和通用性两方面的改进[16]。本发明的实施方案提供‘***病理学’方法,成功地改进了***切除术后PSA/BCR预测模型的准确性。这就代表了对患者自身肿瘤样品的‘个体化’观察,包括细胞和微观解剖形态测量特征、临床特点和分子标记的定量评价以创建高度准确和综合性的预测模型。通过应用领域专业知识,已开发出用于预测PSA复发的高度准确的模型。这些努力证实了***病理学在建立预测和预后模型中的功效。此外,分析表明,有限的临床变量、分子生物标记和组织形态测量特征集可得自以及包括在预测试验中,该预测试验被泌尿科医生/病理学家用来制定基于指定临床结局的最佳患者治疗计划。所选择的与PSA复发有关的分子特征表明生长因子信号转导(通过下面介绍的雄激素受体(正文简称“AR”))和细胞偶联的的血管生成(通过CD34)机制的趋同作用。CD34是跨膜糖蛋白,它存在于使血管在人体内排成行的内皮细胞上。正在进行进一步的研究,以便更好地理解这些观察结果以及对预测***癌进程的潜在影响。除了在模型开发和准确性方面十分重要的若干新的组织描述符(descriptor)以外,值得注意的是所选择的图像分割和部分代表高度准确、非主观的定量Gleason评分的形态测量特征。与Gleason评分***有关的规定的形态测量特征部分包括腺结构的总体外观、上皮细胞的形状和大小(胞质组成)、上皮细胞细胞核和证实混合在基质中的单独的上皮细胞。
雄性激素在由男性***细胞合成之后,这些天然存在的雄激素(睾酮及其5.α.-还原代谢物二氢睾酮)便可被雄激素受体蛋白(AR)接受。特别是在合成之后,这些激素在整个体内循环并与AR结合。通过受体AR起作用的雄激素,刺激雄性生殖器和胎儿副性腺的发育、***男性的男性化和生长并维持雄性性征以及成人的生殖功能。雄激素受体连同其它类固醇激素受体一起,构成反式转录调节蛋白家族,通过与特定基因序列的相互作用控制基因转录。
有关***癌的对AR的研究表明,癌细胞中存在的雄激素受体与其对雄性激素刺激生长的依赖之间可能存在正相关。例如,Sovak等人的美国专利号6,472,415提出,早期***癌的生长是雄激素驱动的,可以至少短暂地通过雄激素剥夺而停止。French等人的美国专利号6,821,767提出用于测定AR的各种方法,便于医生在诊断评价***癌时采用雄激素受体实验。然而,这些研究均未提及本文所公开的测定AR结合预测发生***癌的自动化模型的应用。
实施例1:***癌复发的预测
临床和形态测量数据
使用基于Definiens Cellenger软件的MAGIC组织图像分析***,从每个***组织图像中提取最初多达500个的许多原始形态测量特征。不可知论地选择原始特征全集以避免忽略潜在有用的特征。然而,所有这些形态测量特征不可能提供等量信息,基于特征全集构建的预测模型由于“维数困扰(curse of dimensionality)”,预测性能很可能较差[13]。因此,采用了维数减少方法,最终选择了8个形态测量特征的集。
根据进行根治性***切除术的***癌患者组群中153名患者的子集进行了研究。手术后使用可测量的***特异性抗原(PSA)来界定***癌复发(亦称生化复发(BCR))。手术后对患者进行跟踪。记录他们最后一次就诊的复发状况,及其他们的随访时间,这就生成了右截尾数据集。同时在手术前由活组织检查样本和手术后使用切除的***测量Gleason评分。在本研究中考虑的4个特定的临床测量值或特征是:(1)活组织检查Gleason等级,(2)活组织检查Gleason评分,(3)手术后Gleason等级和(4)手术后Gleason评分。
分别从临床上得到的Gleason评分特征中对形态测量特征进行了分析,以同时预测PSA/BCR复发的概率和时间。然后,将图像和Gleason评分(特征)结合以确定复发和复发时间的时间预测。由这种联合特征集获得的预测准确性得到改进,表明了图像特征实际上提供了额外信息,因此提高了复发预测率并提升了整个预测模型。
由于该患者组群具有右截尾结局数据,所以只得构建用于预测复发的生存分析模型。为了避免对不同类型数据可能的偏倚,采用了两种生存分析方法:1)Cox回归模型[17];和2)上文介绍的应用于支持向量机的SVRc。使用5倍交叉验证分析(5-fold cross validation)估算的一致性指数被用来测量模型的预测准确性[13][18]。
两种方法都被用于3个数据集中:(1)仅Gleason评分临床特征;(2)仅选择的形态测量特征;和(3)形态测量特征和Gleason评分临床特征相结合。实验结果见表3。
在本实施例中选择的临床特征是BXGGTOT、BXGG1、GGTOT和GG1及与所选择的与下列有关的形态测量特征:上皮细胞核(Epithelial.Nuclei.MaxCompactness)、背景(Background.StdDevAreaPxl)和腔(Lumen.MaxBorderLengthPxl、Lumen.MinRadiusofsmallestenclosinge、Lumen.StdDevBorderLengthPxl,Lumen.SumBorderlengthPxl、Lumen.StdDevAreaPxl和Lumen.MinCompactness)。更具体地讲,在本实施例中,测定了与疾病进程相关的与腔面积、边缘长度(border length)和形状(致密度)有关的形态测量特征。腔越小越致密,则癌症越可能是晚期的。实际上,癌症侵袭性越强(Gleason等级4和5),则预期腔将基本或完全从组织中消失。同样测定了与癌症进程相关的上皮细胞核致密度的形态测量特征,其中由Definiens Cellenger软件计算出致密度,为上皮细胞核长度和宽度乘积与上皮细胞核面积的比率。这可能是因为随癌症发展,侵袭到基质中的上皮细胞核增加(即带有晚期癌的组织通常包括大量上皮细胞核)。已测定的与本实施例结局有关的基于背景的形态测量特征测量了用于本分析的组织核心的实际大小。
表3-预测准确性的比较
  Gleason   图像   Gleason+图像
  Cox   0.6952   0.6373   0.7261
  SVRc   0.6907   0.7269   0.7871
根据表3,形态测量特征的预测性能与Gleason评分的相当,形态测量特征和Gleason评分相结合获得较高的预测率,这就证实了由组织图像分析***提取的形态测量特征实际上提供Gleason评分以外的额外信息。因此,利用形态测量测定值可以提高总体复发预测。
实施例2:***癌复发和总体生存的预测
临床、形态测量和分子数据
进行了两项研究,成功地预测了***特异性抗原(PSA)复发,预测准确率分别为88%和87%。通过临床、分子和形态测量特征与机器学***台。进行了第三项研究以预测***癌患者的总体生存,其中目标结局是由任何原因所致的死亡。
结合由***切除术样本构建的高密度组织微阵列(TMA),对进行了根治性***切除术的539名患者的组群进行了研究。使用苏木精和伊红(H&E)染色组织切片,进行了形态测量研究,用免疫组织化学法(IHC),评价了分子生物学决定因素(determinant)。通过监督多变量学习(supervised multivariate learning)由选定的特征集中得到PSA复发和总体生存的预测模型。用已开发来处理截尾数据的回归用支持向量机(SVRc),对在各域有完全未删除数据的患者进行了评价。应用一致性指数(CI)与所产生的用于界定风险组的评分对模型预测性能进行了评估。
利用132名患者组群,选出41个预测PSA复发的特征(包括17个临床特征、14个分子特征和10个形态测量特征),准确率为88%。在268名患者的组群中,发现了预测PSA复发的10个特征(3个临床特征、1个分子特征和6个形态测量特征),其准确率为87%;此外,发现了预测总体生存的14个特征(2个临床特征,1个分子特征和11个形态测量特征),其准确率为80%。应用log-rank检验,观察了风险组间肿瘤复发和死亡的显著性差异(p<0.0001)。
本研究采用新***方法结合临床变量、分子标记和组织学,通过机器学习进行分析,揭示了***癌复发预测得到改进的增长趋势。
患者临床特征。对进行了根治性***切除术的539名患者的组群进行了研究。利用包括患者年龄、手术前PSA和Gleason等级在内的去-身份化的患者信息,追溯性收集了17个临床特征(见下表4)。
表4.所收集的临床特征
Figure G2008800113680D00311
Figure G2008800113680D00321
组织微阵列(TMA)由选定的***切除术样本块(block)构建。对各接受石蜡块(Beecher Instruments,Silver Spring,MD),将得自各样本直径为0.6mm的组织核心按一式三份随机排列。将这些TMA块的切片(5μm)放置于带电荷的聚赖氨酸包被的载玻片上,并用于形态测量和免疫组织化学(IHC)分析(见下文)。
用包括所有特征的柔性可加回归模型(flexible additive regressionmodel)估算临床特征的缺失值,从而无需参照结局来估计缺失特征值,仅对具有完整临床(估算后)数据、形态测量数据和分子数据以及非缺失结局信息的患者作进一步的研究。研究1(概念证明(proof ofconcept))的有效样品大小由132名患者组成。初步的目标分类是患者在***癌手术后是否会复发。两次观察到PSA连续升高>0.2ng/mL的患者被视为***癌复发。如果患者在其最后一次就诊时没有复发,或者患者结局在其最近一次就诊时未知(即由于错过随访),则患者结局视为截尾。复发时间定义为从根治性***切除术直到PSA(生物化学)复发时止的时间(单位:月)。
研究2用从最初的539名患者组群中的268名患者(包括研究1中132名患者中的129人)进行。对得自根治性***切除术的完整切片进行了分析,而不是使用得自TMA核心H&E图像。研究3研究了同一268名患者的组群,但是用来预测总体生存,其中目标结局是由任何原因所致的死亡。
图像分析和形态测量学研究。将从每名患者中提取的原始肿瘤组织的代表性区域(或得自组织核心或得自完整切片)数字化,并使用H&E染色的载玻片进行分析。使用SPOT Insight QE彩色数码照相机(KAI2000),用光学显微镜以20X放大倍数拍摄图像。只选择含有大于80%肿瘤的区域用于最佳图像分割和定量分析。
分子分析。用标准发色的免疫组织化学法,将一组12个生物标记应用在所有7个TMA块中,生物标记包括细胞角蛋白18(腔细胞)、细胞角蛋白14(基细胞)、CD45(淋巴细胞)、CD34(内皮细胞)、CD68(巨噬细胞)、Ki67(增殖)、PSA(hK-3,激肽释放酶)、PSMA(生长受体)、细胞周期蛋白D1(细胞周期)、p27(细胞周期)、雄激素受体(内分泌)和Her-2/neu(信号转导)。在高压锅中,用0.01M柠檬酸缓冲液(pH 6)进行抗原提取30分钟用于所有抗体。有关这类方法的示例性方法和***可参见以上引用的2003年7月21日申请的美国专利申请号10/624,233(现为美国专利号6,995,020)和发明名称为“荧光原位杂交中制备和应用固定化处理的细胞系和组织的方法和组合物”。第一抗体(见表5)用含0.1%吐温(Tween)的Tris缓冲盐溶液稀释并在4℃下使用16小时,接着用生物素化第二抗体(向量)按1∶1000稀释1小时。
表5.抗体列表
Figure G2008800113680D00331
P多克隆,其余为单克隆
阴性对照载玻片接受正常小鼠血清(DAKO)作为第一抗体。载玻片用Harris苏木精复染,由两位独立的病理学家作出评价,所有差异由第三位病理学家定夺。记录下来的得自所有539名患者及其相应的一式三份核心的IHC数据包括被所研究的特定抗原染色的细胞的百分比和强度(0-3+)。如果适用,将这两种测量值结合起来产生特定生物标记的染色指数(下表6,显示分子特征的示例性列表)。计算得到AR(雄激素受体)、CK14(细胞角蛋白14)、细胞周期蛋白D1、PSA(***特异性抗原)、PSMA(***特异性膜抗原)、p27和Her2/neu的染色指数,而其余标记(即Ki67、CK18(细胞角蛋白18)、CD45、CD68)则根据阳性细胞百分比用给定强度进行评价。这些生物标记详述如下。染色指数的范围为0-300,如下计算:1*(对于某一生物标记强度为1+的染色阳性细胞的百分比)+2*(对于该生物标记强度为2+的染色阳性细胞的百分比)+3*(对于该生物标记强度为3+的染色阳性细胞的百分比),其中染色阳性细胞的百分比是指每100个计数细胞已鉴定为阳性细胞的数目。有关染色指数的其它详细资料见[19]。这类染色指数只是示例性的,在不偏离本发明范围的情况下,可以使用任何测定分子特征的其它合适方式。
在以上生物标记的论述中,p27属于被称为细胞周期蛋白依赖性激酶抑制剂的细胞周期调节蛋白(cell cycle regulator)家族,该抑制剂与细胞周期蛋白-CDK复合物结合,在G1期引起细胞周期停滞。生物标记p27被假定为促进细胞凋亡,并在某些组织的终末分化中起作用。通过免疫组织化学法,细胞核p27表达丧失与较强侵袭性的表型有关。Her2/neu是受体酪氨酸激酶的EGFR家族的成员,在某些人类癌症的发病机制起重要作用。通过免疫组织化学法,Her2/neu在细胞膜上的过量表达与较强侵袭性的乳腺癌类型有关。Ki67是许多使细胞核按不同强度染色的增殖标记之一,被用来评价增殖指数或测定所述肿瘤样品的细胞活性。CD45是细胞表面抗原,用于鉴定终将成为免疫细胞例如淋巴细胞(T细胞、B细胞、NK细胞等)的细胞。一般认为强度不如其分布/存在一样重要,并与其它组织组分有关。CD68是与溶酶体密切相关的胞质抗原。它在整个单核细胞分化级联中表达,但是通常在巨噬细胞中比在单核细胞中强。
表6.分子特征
Figure G2008800113680D00351
Figure G2008800113680D00361
分析与统计研究。进行了三项研究:用132名患者的初步概念证明分析(研究1)和用268名患者的广泛深入性研究(研究2和研究3)。在研究1和研究2两项研究中,分析包括2个步骤:鉴定预测PSA复发的特征并开发基于这些特征的模型,其最终目标是应用模型预测未来根治性***切除术患者的生化(PSA)复发。研究3的目的是鉴定特征并开发用于预测***切除术后总体生存的模型。在这些研究的每项中,使用截尾数据的支持向量回归(SVRc)的上述类型开发出所得模型。
采用一致性指数(CI)对模型的预测准确率进行了评价。在处理截尾结局时,这常常是精选的度量。一致性指数以两个随机选择的患者的预后评分之间的两两比较为基础,所述患者符合以下任一标准:两名患者都经历了该事件,且第一名患者的事件时间比第二名患者的短,或者仅第一名患者经历了该事件且他的事件时间比第二名患者的随访时间短。CI可估算具有得自模型的较高预后评分的患者可比具有较低评分的患者在较短的时间内经历事件的概率,且该概率与ROC曲线下面积(AUC)密切相关。还可使用其它度量测量预测模型的性能。例如,灵敏度和特异度可用于评价诊断剂。如另一个实施例,可以使用“p值”,它代表机会单独造成例如所观察到的层间差异的概率(例如参见图8、图10和图12)。因此,p值越小,与结局的统计关联性越可能为真。标准通常是≤0.05的任何p值有统计显著性。
研究1.在本分析中,将上述SVRc模型相继应用于临床、分子和形态测量数据,其中临床特征首先用作“正向贪婪(greedy-forward)”特征选择(“FS”)方法通过SVRc运行分子数据的锚点(anchor)。该步骤之后,第二SVRc正向贪婪特征选择方法对形态测量数据进行运行,使用临床特征和所选的分子特征的组合为锚点。最后步骤包括使反向贪婪(greedy-backward)选择方法运行临床特征、所选的分子特征和所选的形态测量特征的组合以驱动最终模型。在特征选择期间,确定在模型中特征是否录入(或保留)的标准是以该特征的存在(或不存在)是否提高一致性指数,即附加预测信息为基础。
同时使用内部验证(internal validation)和外部验证(externalvalidation)来评价模型的预测准确率。应用5倍交叉验证进行内部验证。为了进行外部验证,从患者组群中创建一系列的患者测试集,并通过一致性指数将预测结局与这些患者的实际结局相比较。在应用该二水平验证设计时,患者子集是从患者记录全集中随机选择的,仅使用其余的患者应用刚才描述的方法建立预测模型。然后,使用保留的记录应用于训练模型,以获得预测准确率。这2个步骤重复B次以得到B个预测率,其中最终预测率是平均值。选出用于最终模型的特征是在所创建的独特B模型中出现足够次数的特征。
使用选出的特征集,通过直接使一致性指数最大化,开发出神经网络模型。特别是使用上述类型的神经网络(NNci),其中使用与一致性指数逼近基本一致的目标函数训练网络。使用该最终模型的输出来估计各患者未来PSA复发的风险。
研究2.本研究的目的与研究1的相同;然而,采用不同的特征选择和验证方法。所有特征都通过它们与PSA复发时间的关联(通过一致性指数测定)来排列,而不是采用锚定方法,选择超过某一预设定阈值(CI≥0.60)的特征。这可由本领域专业人员在减少成像特征数后完成,然后在一系列n-特征模型(例如1个特征、2个特征、3个特征等)中对这些特征进行评价。采用正向特征选择方法(forward featureselection process),使各n-特征模型一致性指数最大化的特征被用于下一个n+1-特征模型中。一旦通过预设定阈值无法改进CI时,便停止该方法。然后采用反向特征选择方法,在努力提高CI的情况下减除特征。当减除任何特征都无法改进CI时,便停止该方法。
一种简单自助技术(simple bootstrapping technique)被用于特征选择。在该方法中,对患者进行交替抽样,并用作训练集,而用未选择的患者对模型进行评价。作为比较,仅使用Kattan手术后列线图中存在的特征运行该特征选择方法,Kattan手术后列线图可参见Kattan等人的美国专利号6,409,664,该专利通过引用全部结合到本文中。最终模型的输出被用来评价各患者未来PSA复发的风险。
研究3.本研究的目的是应用研究2分析的相同组群和特征集以及相同特征选择方法,鉴定预测总体生存的特征。最终模型的输出被用于评价各患者未来由任何原因所致死亡的风险。
结果
一般方法是应用***病理学(形态测量分析、分子特征序列(molecular signature)和患者临床特点相结合)以开发用于***切除术后***癌患者身份组群中的PSA复发和总体生存的预测模型。重要的是注意,当仅研究1的临床病理特征被用于标准Cox模型分析中时,预测PSA复发的准确率仅为59%。只有在用SVRc整合形态测量和分子特征后,预测准确率水平才提高到88%。以下部分介绍了这种提高是如何实现的。
研究1.对于该组群的132名患者,诊断时年龄中位值为63岁(最小:40,最大:81),手术前PSA中位值为8.2ng/dl(最小:1.1,最大:81.9)。以***切除术样品为基础,32%的Gleason评分小于7,60%为Gleason 7,其余8%大于7。69名患者(52%)为pT2N0M0,40名患者(30%)为pT3aN0M0,其余23名患者(18%)为pT3bN0M0或pT1-3N+。(表7包括三项研究的临床特征汇总表)。
表7.临床信息
Figure G2008800113680D00391
Figure G2008800113680D00401
20名(15%)患者经历了PSA复发,而其余患者(85%)被截尾。对于截尾患者,随访时间中位值为60.8个月,或刚超过5年。未达到总体PSA复发时间中位值。选择所有17个临床特征以预测PSA复发,其中提供最多信息的注释如下(模型选择的临床病理特征和次数):活组织检查Gleason等级(112)、种族(112)、UICC临床分期(110)、倍性(110)和DRE结果(109)。
图像分析和形态测量学研究。图5a和图5b分别表示健康和异常***组织的数字化图像,根据本发明进行分割和分类后获得。已对组织中的各个病理对象进行标记以说明。通过图像分析软件生成共496个形态测量特征(见表1)。
496个形态测量特征中,选择图6中所示的10个形态测量特征来预测PSA复发。所选择的形态测量特征与下列病理对象有关,其中紧接特征之后的括号内的数字表示在建立最终模型期间下列特征有多少次被选为与结局有关:红细胞、上皮细胞核、腔、基质、胞质和组织背景(红细胞最小长度,单位为像素(20)、上皮细胞核最大致密度(17)、腔最小包围区(enclosure)的最小半径(14)、上皮细胞核最小宽度,单位为像素(11)、基质最大密度(10)、腔最大边缘长度,单位为像素(10)、上皮细胞核最小标准偏差信道2(10)、上皮细胞核最小包围区的最大半径(10)、胞质边缘长度的标准偏差,单位为像素(10)和背景面积标准偏差,单位为像素(10))。更准确地讲,在本实施例中,红细胞长度、腔最小包围区半径和腔边缘长度、胞质边缘长度、基质密度(例如被基质覆盖的面积的平方根除以其半径)和背景面积的形态测量特征被测出与结局相关。致密度、宽度、绿色信道值和上皮细胞核最小包围区的半径(例如具有与对象创建时相同面积的椭圆,然后扩展直到它将上皮细胞核完全包围,计算出最小包封椭圆的半径与最初椭圆半径的比率)的形态测量特征也被测出与结局相关。
上面结合实施例1介绍了这些相关性中至少一些的各种可能原因。例如,上皮细胞核致密度的形态测量特征可以反映出上皮细胞以环绕方式‘背对背(back to back)’的性质,这就可能意味着腺和腔的形成/分化丧失,因此与较高Gleason等级一致(即较快的疾病进程)。同样,腔最小包围区半径的形态测量特征与腔的总体大小相关,当Gleason等级提高时,它显著减小并消失。
另外,本研究中所测定的相关性可至少部分通过这种假设予以解释,即上皮细胞核侵入基质时,上皮细胞核形状的多样性通常变少(例如更圆,变化更小),大小(例如面积和边缘长度)通常变小,且颜色变化较少。这种基质的侵袭还可以解释基质形态测量特征被测出与疾病进程有关的原因。特别是,癌图像通常以少量基质为特征,因为随癌症发展,基质面积被上皮细胞胞质替换。这就引起基质密度值变得较高,因为基质致密度降低并且形状变得更分形(在对象变形并变得更薄时,对象半径增加超过面积增加)。本研究测定的相关性的其它推理可能是在组织间移动的大量红细胞可能影响血管生成或新血管生成形成的某些测量值,这作为细胞离开***并散播到外部的手段可能与疾病进程相关--因此影响PSA/BCR复发的临床结局。
如上所述,应当了解的是,通过本文提供的教导内容所确定的与结局有关的特定形态测量特征中的至少一些可取决于例如本发明用来计算形态测量特征的具体硬件、软件或其组合。Definiens Cellenger软件和通过本文所述软件测定的具体形态测量特征仅是示例性的,在不偏离本发明范围的情况下,可以采用任何其它硬件、软件或其组合。
分子分析。通过IHC评价的12个生物标记中,共记录了43个独特的特征(下表8a、表8b和表8c概括了所观察的生物标记--分子特征)。
Figure G2008800113680D00431
表8c.组织组分的染色指数(0-300)(研究1)
  标记   肿瘤   PIN   腺
  AR平均值±SD中位值范围 179.8±71.42000-300 64.3±75.1036.50-300 22.6±56.8600-300
  CK14平均值±SD中位值范围 2.6±5.8300-42 31.2±57.3500-285 4.7±20.4200-150
  细胞周期蛋白D1平均值±SD中位值范围 1.5±5.1500-33 0.0±0.2700-3 0.0±0.000-0
  PSA平均值±SD中位值范围 128.0±68.851000-300 135.7±97.881110-300 13.9±41.3200-201
  PSMA平均值±SD中位值范围 0.5±2.9700-21 9.5±26.9300-154 2.5±15.0000-99
  p27平均值±SD中位值范围 4.3±9.6100-80 7.0±19.4900-140 2.1±12.0300-120
  Her-2/neu平均值±SD中位值范围 4.1±18.5000-146 0.1±1.0000-10 0.0±0.0000-0
从这12种抗体中,选出作为与PSA复发有关8个生物标记,其包含14个选择性分子特征。更高选择性分子特征的一些实例注解如下(生物标记--模型选择次数),包括:AR染色指数-肿瘤(93)、AR染色指数-萎缩腺(54)、CD34相关肿瘤/PIN(22)、Ki-67-肿瘤(18)和CD45-与PIN相关(17),其中PIN是***上皮内瘤(prostatic intraepithelial neoplasm)的缩写。图7a和图7b显示分别表明AR和CD34表达谱的代表性视野。值得注意的是,生物标记表达谱的高度选择的以及在某种程度上AR和CD34的异源表达模式。这些标记及其与肿瘤、萎缩腺(对于AR)和肿瘤/PIN(对于CD34)的关系表明影响PSA复发临床结局的生物学和功能重要性。第二组选出的标记包括Ki-67和CD45,两者都具有重要性,但与AR和CD34相比,总体选择频率较低。
分析与统计研究。利用上述领域专业知识和领域特有的特征选择方法,其中创建120次随机分割用于训练(N=100)和测试(N=32)模型,将最终的特征集减为共41特征,其中17个为临床特征,10个为形态测量特征,14个为分子特征。图5表示选出特征的总表。上文中介绍了10个形态测量特征。下面进一步介绍临床和分子特征。
临床特征
1.活组织检查Gleason评分:汇总的Gleason等级(主要和次要),被分配给由病理学家接收的多个穿刺活组织检查样品(Needle Biopsy TissueSample)。Gleason评分***是开发来创建代表***腺癌组织构造的标准化方法,它在某种程度上是主观的,产生各个等级。根据腺单元和上皮细胞分化程度,等级范围从1到5。加上主要型和次要型一起构成Gleason总汇(Gleason Summary)。另外,在总体分级***中偶尔会考虑总体基质致密度特征、上皮细胞大小和细胞核特征。
2.种族(例如非裔美国人、高加索人等)。
3.UICC分期:国际抗癌联盟(International Union against Cancer)TNM分期***用来定义癌症的临床分期,其中“T”代表肿瘤大小,“N”代表***受累,“M”代表转移到远端部位。
4.倍性结果:反映***癌上皮细胞内DNA总含量的DNA含量。良性细胞和良性肿瘤细胞按有序方式生长***。在静息状态下,它们含有一整套染色体(即二倍体状态)。此整套染色体由23条来自母亲的染色体(或N)和23条(也为N)来自父亲的染色体(合计为2N)。所有细胞在其***之前必需使其染色体数加倍,形成两整套的染色体(即4N,或四倍体状态)。***完成后,每个新细胞接受一半遗传物质,因此再次变成二倍体(2N)。如果对这一群细胞进行DNA倍性分析,则可能发现大多数细胞可为二倍体,其中少部分(准备好要***的部分)可为四倍体。此外,在测定每个细胞遗传物质含量和绘制遗传物质含量图时,可发现一个主要的二倍体峰和一个次要的四倍体峰。可以通过用与遗传物质结合的染料染色来测定细胞中DNA的含量。可用图像分析显微镜测定该染料(福尔根染色)的浓度和分布。
当肿瘤恶化时,它们趋于不像以前一样有序地***。静息状态可能仅有一套半染色体,而不是一整套。这类细胞可能含有既不是二倍体也不是四倍体但介于中间的DNA内容物。将这些细胞绘制在上述曲线图中,可能在其它两个峰之间得到一个非整倍体峰。研究表明,具有显著非整倍体峰的肿瘤不像无显著非整倍体峰的细胞那样表现良好。这并不足为奇,因为在倍性状况与细胞核分级之间存在强相关。任何具有足够***癌经验的病理学家都可对细胞核分级进行评价。DNA倍性分析附加的数值是客观测量值,可以用标准化技术在实验室间进行比较,并且可用来对Gleason得分的大致准确率进行快速检查。例如,可能时应对具有非整倍体峰的任何Gleason评分2+2=4或2+3=5的肿瘤进行再评价,以对评分进行可能的调整。
5.DRE结果:直肠指检结果(例如阴性或阳性),它被用来通过触诊以确定***内以及***外延伸区的疾病程度。
6.***受累:***含有肿瘤细胞(例如***癌上皮细胞)的程度的测量值,它可以通过临床/手术检查评价或在***切除术期间进行评价。
7.主要活组织检查Gleason等级:参见上述活组织检查Gleason评分的说明。它反映了活检样品或***切除术样本中观察到的主要Gleason分级方式。
8.S期倍性百分比:代表在细胞周期的增殖期或S期细胞含量的百分数,反映了肿瘤的生长潜力。
9.手术后Gleason评分:手术后取自***切除术样品各区域的组织的得分。
10.TNM分期:基于***切除术后UICC标准及基于组织样品病理检查的肿瘤、结节和转移。
11.主要手术后Gleason等级:代表***切除术样本中存在的最重要的组织学特征的主要Gleason等级。
12.年龄。
13.精囊受累:肿瘤侵袭精囊。
14.手术前PSA:在手术之前观察到的PSA水平。
15.倍性分数百分比:参见上述的倍性结果说明。
16.手术切缘受累:肿瘤累及手术切缘,反映了床区(手术期间从中切除肿瘤/***)含有肿瘤细胞的程度。
17.囊外受累:***囊以外肿瘤的扩散。
分子特征
1.AR-肿瘤:肿瘤的雄激素受体(AR)染色指数,它是AR染色阳性细胞的百分比和强度的测量值。对于***癌,染色指数可代表反应褐色产物的程度,该产物检测自所评价的***样品的上皮细胞的细胞核。
2.AR-腺:肿瘤AR染色指数,表示腺结构内存在肿瘤。
3.CD34-肿瘤/PIN:与肿瘤和PIN有关的血管内皮细胞的CD34定位。
4.Ki67-肿瘤2:肿瘤上皮细胞细胞核鉴定出ki67阳性细胞核。
5.CD45-PIN 3:鉴定出与PIN有关的CD45阳性淋巴细胞。
6.CD34-肿瘤/基质:与肿瘤相关的血管的CD34定位。
7.Ki-67-肿瘤3:参见上文。
8.p27-肿瘤:肿瘤上皮细胞细胞核中鉴定出p27。
9.C14-PIN:在腺单元的(上皮)基细胞中鉴定出细胞角蛋白14。
10.CD34-肿瘤:与肿瘤相关的血管的CD34定位。
11.PSA-腺:腺单元腔上皮细胞的PSA鉴定。
12.PSMA-PIN:被鉴定为PIN区的腺/腔细胞的PSMA鉴定。
13.CD34-PIN/基质:与PIN有关的血管的CD34定位。
14.CD45-肿瘤3:与肿瘤有关的CD45阳性淋巴细胞的鉴定。
正如在该过程期间采用SVRc对各数据域进行的分析一样,模型的预测准确率提高。采用内部验证,当只查看临床数据时,一致性指数为0.79。通过增加分子域的特征,一致性指数提高到0.81。通过增加形态测量特征所形成的最终模型的一致性指数达到0.84。这些经内部验证的模型中的每一个也同样进行了外部验证(如上文材料与方法中所述),注意到有相同的趋势。采用基于最终选出的特征集的NNci,一致性指数达到0.88。
NNci和SVRc模型所输出的结果可解释为对各个患者的PSA复发的相对风险估值。利用该评分的四分位数(≤25%、>25%-75%、>75%),创建患者风险组;图8中表示根据NNci模型各风险组复发的Kaplan-Meier估值。各组在PSA复发时间上显示出统计显著性差异(log-rank检验,p值<0.0001)。p值代表机会单独造成所观察的层(这些实施例中的风险组)间差异的概率。因此,p值越低,统计关联性越可能为真。一般而言,任何≤0.05的p值都具有统计显著性。
研究2.对于这个组群的268名患者,其中包括研究1中分析的132名患者中的129人,诊断时年龄中位值为63岁(最小:38,最大:81),根治性***切除术前PSA中位值为7.8ng/dl(最小:0.9,最大:81.9)。基于***切除术样品,40%肿瘤的Gleason评分小于7,而55%***切除术的Gleason为7。其余5%%***切除术的Gleason评分大于7。157名患者(59%)被诊断为患有pT2N0M0疾病,72名患者(27%)为pT3aN0M0,其余39名患者(14%)为pT3bN0M0或pT1-3N+。(参见上表5,该组群所有经分析的临床病理特征的详情同上)。38名(14%)患者经历了PSA复发,而其余患者(86%)被截尾。对于截尾患者,随访时间中位值为58.7个月,或刚好5年以内。未达到总体PSA复发时间中位值。选出3个临床特征来预测PSA复发:TNM临床分期、手术切缘和***。
图像分析和形态测量学研究。采用图像分析软件最新版本但分析相同的H&E染色的载玻片,生成共350个形态测量特征(见上表2)。
图9显示,350个特征中,选出6个形态测量特征来预测PSA复发,其中这些形态测量特征与以下的病理对象有关:上皮细胞核、基质、胞质、红细胞和腔(即EpithelialNucleiMinCompactne0215、StromaMaxStddevChannel30569、CytoplasmStddevMaxDiff0148、RedBloodCellMeanAreaPxl0386、RedBloodCellStddevAreaPxl0388和LumenMinAsymmetry0295)。更具体地讲,在本研究中,上皮细胞核致密度、基质蓝色信道值、胞质最大差异(例如从胞质所有颜色信道的最大平均值中减去属于胞质的最小平均值,将其结果除以对象亮度)、红细胞面积和腔不对称性的形态测量特征被选为与结局相关。
上文中结合实施例1和/或研究1介绍了有关这些相关性至少一些的各种可能原因。例如,包括上皮细胞致密度、基质被浸润性上皮细胞改变和破坏和腔尺寸减小的证据在内形态测量特征都可为较高的Gleason等级(即较快疾病进程)提供组织学证据。Gleason等级越高表明***肿瘤侵袭性越强,这就可支持转移和/或支持手术后PSA复发的肿瘤扩散。另外,鉴定出各种形式的红细胞可表明有大量血管。额外血管的证据可为可能离开***上皮细胞并分布在产生PSA的外部位置创造了可能的途径。
研究2中所选择的临床和分子特征见图9并如下列出。上文中提供了这些临床和分子特征的说明。
临床特征
1.TNM分期
2.手术切缘受累
3.***受累
分子特征
1.AR染色指数(肿瘤)
图9中的每个数字代表一致性指数,它以与图9中具有较小数值的相应特征和所有其它特征的预测模型为基础。例如,0.8483是基于特征TNM临床分期、手术切缘、EpithelialNucleiMinCompactne0215、***和StromaMaxStddevChannel30569的模型的CI。基于相同5个特征加上AR染色指数(肿瘤)的模型的CI为0.8528。换句话说,向模型增加AR染色指数分子特征提高了模型的预测能力。
分子分析。没有必需进行额外的免疫组织化学研究。如材料与方法所述,使用最初收集的数据(对于分子特征总览参见表9a、表9b和表9c)。
Figure G2008800113680D00511
表9c.组织组分的染色指数(0-300)(研究2和研究3)
  标记   肿瘤   PIN   腺
  AR平均值±SD中位值范围 172.1±75.32000-300 79.6±82.7466.00-300 28.9±67.2500-300
  CK14平均值±SD中位值范围 2.1±6.3200-69 34.4±61.4600-300 8.5±32.6200-300
  细胞周期蛋白D1平均值±SD中位值范围 1.4±6.9900-90 0.0±0.2100-3 0.0±0.000-0
  PSA平均值±SD中位值范围 118.3±71.101000-300 139.4±97.161340-300 22.8±55.1400-300
  PSMA平均值±SD中位值范围 0.2±2.0900-21 6.4±21.0200-154 2.9±22.9400-300
  p27平均值±SD中位值范围 3.9±8.2000-48 6.4±18.8300-140 1.3±8.6500-120
  Her-2/neu平均值±SD中位值范围 3.4±16.6900-150 0.2±1.1200-10 0.0±0.0000-0
选出单一分子特征来预测PSA复发:AR染色指数-肿瘤。
分析与统计研究。应用领域专业知识和简单自助法,该方法查出一致性指数(CI)为0.87的10个特征(3个临床病理特征、6个形态测量特征,和1分子特征)的子集(图9表示所选择的特征总表)。SVRc模型的输出结果也可解释为各个患者PSA复发的相对风险估值。利用该评分的四分位数(<25%,>25%-75%,>75%),创建患者风险组;通过SVRc模型预测的各风险组复发的Kaplan-Meier估值见图10。各组在PSA复发时间上显示出有统计显著性差异(log-rank检验,p值<0.0001)。
研究3.本研究使用与研究2相同的组群,以使患者的临床病理特征相同。就结局而言,19名(7%)患者由任何原因导致死亡,而其余患者(93%)在其最后就诊时生存,被截尾。对于截尾患者,随访时间中位值为64.8个月,或刚好超过5年。未达到总体死亡时间中位值。选出2个临床特征来预测由任何原因所导致的死亡:TNM临床分期和患者年龄。
图像分析和形态测量学研究。在本研究中,使用来自研究2的同集350个形态测量特征。图11显示,350个特征中,选出11个形态测量特征来预测由任何原因所导致的死亡,其中这些特征与以下的病理对象有关:基质、红细胞和上皮细胞核(即StromaMinMeanChannel10535、RedBloodCellMeanStddevChann30474、StromaMinMeanChannel20539、RedBloodCellMinMeanChannel20443、RedBloodCellStddeStddeChann20472、StromaMaxMaxDiff0529、EpitheNucleMeanBordeLengtPxl0206、EpithelialNucleiMeanAreaPxl0194、EpithelNucleiStddevElliptFit0228、RedBloodCellStddeStddeChann30476和RedBloodCellStddevElliptiFit0420,其中“信道(channel)”是指图像的红色(R)、绿色(G)和蓝色(B)信道)。更具体地讲,在本研究中,测出红色信道平均值、蓝色信道平均值和基质最大差异的形态测量特征与结局相关。测出红色信道平均值和标准偏差、绿色信道平均值和标准偏差以及红细胞椭圆拟合的形态测量特征与结局相关。为了测定椭圆拟合的形态测量特征,建立与红细胞相同面积的椭圆,将椭圆以外红细胞的面积与未充满红细胞的椭圆以内的面积相比较,其中未拟合的,赋值为0,而完全拟合对象的赋值为1。测出边缘长度、上皮细胞核面积和椭圆拟合的形态测量特征与结局相关。
上面结合实施例1和/或研究1介绍了这些相关性中至少一些的各种可能原因。例如,上皮细胞核的总体形状反映了较高Gleason等级的组织外观。此外,在本研究中,在癌症发展时由于基质被上皮细胞阻断,基质的对比度(如最大差异形态测量特征所测量)将降低,理解了这一点就可以解释有关基质的关联性。
分子分析。在本研究中,使用来自研究2的同集的分子特征。选出单个特征来预测由任何原因所导致的死亡:PSA染色指数-萎缩腺。
分析与统计研究。在该组群中,选出共14个特征(2个临床病理特征,11个形态测量特征和1分子特征)。最终模型的一致性指数(CI)为0.80。所选择的特征的总表见图11并如下列出。下面列出选出的临床和分子特征。上文提供了临床特征的说明。
临床特征
1.TNM分期
2.年龄
分子特征
1.psapsi:是指***上皮内瘤(PIN)中***特异性抗原(PSA)的染色指数。
图11中的每个数代表基于图11中具有较小数值的相应特征和所有其它特征的预测模型的一致性指数。例如,0.6804是基于StromaMinMeanChannel10535的模型的CI,当模型同时以StromaMinMeanChannel10535和TNM为基础时,CI为0.7362。
SVRc模型的输出结果也可解释为各患者死亡的相对风险估值。利用该评分的四分位数(<25%,>25%-75%,>75%),创建患者风险组;通过SVRc模型预测的各风险组复发的Kaplan-Meier估值见图12。利用log-rank检验,观察到风险组间在生存上有显著性差异(p<0.0001)。
结果讨论(实施例2)
观察到选出的特征(组成)从研究1(41个)到研究2(10个)减少,同时保持了强调精确性和过滤特性的模型的预测准确率,这是通过不同的机器学习方法实现的。在268名患者组群中开发的模型的一致性指数为0.87;相比之下,当把Kattan列线图[20]应用到该组群时,其一致性指数达到0.78。或许更引人注目的是如研究2中所论述的上述模型正确地将早期PSA复发(5年内)患者归类的能力,其灵敏度为80%。相比之下,Kattan列线图能够作出同样预测的灵敏度仅为54%。这进一步强调了这类预测试验可在作出早期干预决策中起作用。最后,该模型提供的输出可用来估计患者随时间复发的可能性,与提供在给定年数内复发,但在该时间柜架内何时复发并无任何指示的患者复发概率的简单估计截然相反。
在研究3中,目的是利用从研究2得出的现有领域的知识,开发总体生存预测模型。成功的最终结果是利用共14个组合的域特征预测个体总体生存和死亡时间准确率为80%的能力。尽管受事件数量少的限制(任何原因的死亡率为7%),缺乏可供比较的已发表的列线图,但是结果进一步支持使用***方法以开发该类型的预测试验。
至于利用追溯性多机构人群(retrospective multi-institutionalpopulation)与独立的外部验证研究,将‘总体生存’分析扩大到包括不良结局(即由***癌引起的转移和/或死亡)的临床测量中的其它努力正在进行当中。另外,为了在手术之前对治疗结果产生影响,最近已启动了‘***病理学’方法对诊断性针刺活检提出询问。
上述实施例表明,已经成功开发出整合临床特征、肿瘤组织形态测量特征和分子分析的‘***病理学’平台。通过应用领域专业知识和截尾数据的支持向量回归(SVRc),从3个域选出特征,并用来开发PSA复发和总体生存预测模型。应当了解的是,这种新的‘***病理学’方法由于与肿瘤诊断剂、患者预后有关,因此在个人化机器领域中具有广泛应用,并用作预测对具体治疗药物的反应的工具。
实施例3:***切除术继发侵袭性疾病的预测
临床和形态测量数据
进行本研究以预测实施***切除术后患者继发的侵袭性疾病(即临床失败,用表示***癌骨转移的阳性骨扫描证实)。在本发明之前,不存在提供这类预测的准确分析工具。如上所述,本发明的***病理学方法已表明能准确地预测PSA复发。本研究表明,本发明还可用来精确预测***切除术之后的远端骨转移。
结合由***切除术样本构建的组织微阵列(TMA),对进行了根治性***切除术的119名患者的组群进行了研究。使用苏木精和伊红(H&E)染色组织切片进行了形态测量(即图像分析)研究,利用已选出的其对于***癌进程有潜在生物关联性的一系列生物标记,通过免疫组织化学法(IHC)对生物决定因素作出评价。通过监督多变量学习从选出的特征集中推导出临床失败(即阳性骨扫描)的预测模型。用开发出来处理截尾数据的回归用支持向量机(SVRc),对在各域中完全无缺失数据(n=116)的患者进行了评价。使用一致性指数(CI)评估了模型的预测性能,所得出的分数用来界定风险组。
基于患者的临床特征,从116名患者选出61名患者的子集,其中包括经骨转移鉴定为临床失败的20名个体。该组群用来创建预测***切除术5年内阳性骨扫描可能性的模型。选出图13中所示的7个特征(包括4个临床特征和3个形态测量特征),其预测临床失败的准确率为89%,灵敏度和特异度分别为86%和85%。选出的形态测量特征与胞质和腔的病理对象有关。更具体地讲,选出的形态测量特征为胞质面积除以组织总面积、腔面积除以组织总面积和胞质平均红色信道标准偏差。下面列出了临床特征。
临床特征
1.囊外扩散(ECE)
2.精囊侵袭(SVI)
3.主要***切除术Gleason等级(PGG1)
4.***侵袭(LNI)
结论
临床特征与形态测量特征的整合最先导致了预测***切除术5年内临床失败的准确的预后测试。如上所述,该测试可预测***切除术后5年内最可能发生临床失败的患者(以及何时最可能发生),准确率为89%。将分子特征增加到模型临床特征和形态测量特征中的结果目前尚无定论。
实施例4:肝脏毒理
形态测量数据
进行了本研究以表明在毒理学领域中的图像分析和统计建模能力。具体地讲,研究要求获得大鼠肝切片并进行分析,其总目的是将切片分为正常或异常。能够使该过程自动化同时又能够达到高水平的分类准确率,可供在临床前研究中创建用来客观筛选毒性的高流通量平台。
该研究被分成两期。初期使用100片大鼠肝切片集作为训练集;80片正常肝切片和20片异常。利用上述组织图像分析***,使用该切片集开展图像分析应用,以及进行特征和模型选择以对切片进行分类。然后将已确立的图像分析方法应用到二期研究的100片大鼠肝切片的未标记集中,其中对训练期设计的统计模型进行了检验。
分割准确率
通过病理学家评价测定的所有对象的总分割准确率为80%-90%。
统计数据
该研究的统计组成包括2步骤。第一步包括从通过切片图像分析生成的成像数据中选出特征。减少用于分类的特征数可提高切片分类的稳健性和可靠性。第二步包括用选出的特征集和各切片(异常,正常)的标记训练模型,然后通过预测其中标记是未知的大鼠肝切片独立集的分类,来检验模型。
特征选择
上述各对象所生成的统计测量值如下:
-对象数目
-相对面积(与图像总面积相比的百分比)
-最小尺寸(单位为像素)
-最大尺寸(单位为像素)
-平均尺寸(单位为像素)
-尺寸的标准偏差
由于分析了每张切片的多个图像,这些测量值本身是对遍及各大鼠肝切片所有图像所取的平均值。起始特征总数为378个。
特征选择也包括2步骤。第一步利用领域专业知识。病理学家从由切片图像分析生成的起始特征表中选出特征。包括或排除特征的决定取决于对肝脏病理学的认识及可能遇到的潜在异常情况/毒性。应用领域知识,从378个特征的起始集选出90个特征。
然后,采用逐步判别分析(stepwise discriminant analysis)对这些特征进行检查,以进一步减少分类特征数。假定构成每个类别的特征集呈具有常见协方差矩阵的多变量正态。根据得自协方差分析的F检验显著性水平选出进入或离开模型的特征,其中已选出的特征用作协变量(covariate),考虑中的特征为因变量。使用的显著性水平为0.15。
-在模型中从无特征开始逐步选择。在每个步骤中,检查模型。
-如果在模型中对模型判别能力贡献最小(通过维尔克λ(Wilksλ)(可能性标准)测定)的特征无法满足保留标准,则排除该特征。
-另外,使对模型判别能力贡献最大但不在模型中的特征进入。
-当模型中的所有特征都符合保留标准且其它特征都不符合进入标准时,便停止逐步选择方法。
分类/模型训练
然后将选出的特征加入将各肝切片归类为异常或正常的线性判别分析(linear discriminant analysis,LDA)中。通过交叉验证校正模型输出可能的偏倚。
同样利用神经网络作为分类器(classifier)。选出的特征用作神经网络模型的输入数据,该模型是隐单元为零以及输入层和输出层之间直接连接的标准多层感知机(standard multilayer perceptron,MLP)结构。通过试图直接使ROC曲线下面积的逼近最大化来训练模型,下面将予以解释。研究发现通过该标准训练的MLP模型达到的准确率比通过典型标准训练的MLP模型的好,例如均方误差和交叉熵。
通过选择不同的模型输出值作为分界点(cut point),计算各分界点的灵敏度和特异度,将其绘制于二维曲线图(沿y轴为灵敏度,沿x轴为特异度)中,从而将得自两个模型的输出值用来创建接收器工作特性(ROC)曲线。ROC曲线下面积(AUC)同时使用两种测量值评估各模型的准确率,并可以解释为模型准确将肝切片归类为异常或正常的能力。通常以真阳性率和真阴性率两方面来分别描述灵敏度和特异度。因此在本研究的情况下,异常类别被视为‘阳性’结果,而正常类别被视为‘阴性’结果。因此,灵敏度是真阳性率,即肝切片被正确归类为异常的比例;另一方面,特异度为真阴性率,即肝切片被正确归类为正常的比例。
在下面的结果部分提供了经ROC曲线从训练集选出的灵敏度和特异度。
模型测试
线性判别函数和神经网络两者的参数一经产生便将其锁定。在收到得自大鼠肝脏图像测试集的统计测量值时,将使用各个模型输出值的交叉验证结果估计的各分界点分别应用于两个分类器。对应于灵敏度100%和特异度90%(两者都基于交叉验证)的分界点用于未来的产业级应用。至于该肝脏的外部验证集的初步评价,由清楚肝切片真实分类的另一方对模型的准确率进行了评估。然后该方也提供了验证结果的测试键(testkey)。
结果
两个模型的ROC曲线下面积都非常接近1,这就表明在异常和正常肝切片之间几乎完满的辨别。使用LDA推导的函数的AUC为0.99;使用神经网络推导的函数的AUC为0.98。
在ROC曲线中还观察到的有各模型的灵敏度和特异度,这取决于应用模型输出值以将肝切片归类为异常或正常的分界点。表10概括了灵敏度-特异度对的选择。
Figure G2008800113680D00601
表10
测试
将测试键标记(test key label)与线性判别函数的预测分类和神经网络的预测分类进行了比较。根据测试键,将结果概括于下表11a和表11b中:
Figure G2008800113680D00611
灵敏度=TP/(TP+FN)x100=42/(42+7)x100=(42/49)x100=86%
特异度=TN/(FP+TN)x100=32/(19+32)x100=(32/51)x100=63%
表11a
Figure G2008800113680D00612
灵敏度=TP/(TP+FN)x100=36/(36+13)x100=(36/49)x100=73%
特异度=TN/(FP+TN)x100=32/(19+32)x100=(32/51)x100=63%
表11b
用于LDA分类器的分界点等于0.0031;用于NN分类器的分界点等于0.0002。两个都相当于***需要的100%灵敏度和90%特异度。
讨论
基于灵敏度和特异度的各种分类器在应用到测试集后,LDA的运行胜于NN。LDA分类器的灵敏度达到86%,这就意味着该分类器将异常大鼠肝切片正确标记为异常86%的次数,这与灵敏度达到73%的神经网络分类器截然相反。两种分类器的特异度均为63%。各模型的灵敏度和特异度均比之前所观察的低,但这不足为奇,因为将任一分类器归于外部集(external set)常常会导致其准确率下降。本研究表明成像和统计建模技术的成功应用。
实施例5:***癌复发的预测
临床、形态测量和分子数据
进行了另一项研究以建立预测进行根治性***切除术患者***癌复发时间的模型。同实施例2一样,复发时间被界定为从根治性***切除术直到PSA(生化)复发为止的时间(单位为月)。用于本研究的***组织切片主要由肿瘤组成,但也包括良性成分。
本研究以与实施例2评价的相同的17个临床特征(表4)和43分子特征(表6)的信息为基础。根据例如专业知识和***癌复发领域的附加实验,将该集的496个形态测量特征减少到表17(本文附表)所示的38个特征。在本研究中,结合实施例2评价了来自上述539名患者组群的262名患者的临床、分子和形态测量信息。除了形态测量特征数从496个减至38个的过滤外,本研究和实施例2之间的主要差别是本研究使用SVRc特征归约方法(SVRc Feature Reduction method)来选择特征。SVRc特征归约法可参见共同拥有的2006年5月22日申请的美国专利申请号11/438,789,该专利通过引用全文结合到本文中。
结果
作为本研究的结果,建立了基于6个特征(3个临床病理特征、1个分子特征和2个形态测量特征)且一致性指数(CI)为0.83的最终模型。模型中包括的6个特征连同其对最终模型相应的特征贡献如图14中所示。被选出的预测PSA复发的3个临床特征是精囊受累(特征贡献=-5.2103)、手术切缘受累(-7.3159)和***受累(-9.3742)。所选的1个分子特征是肿瘤中存在的雄激素受体(AR)染色指数(-3.5404)。上文中结合实施例2介绍了这些临床和分子特征。所选的2个形态测量特征是上皮细胞核所占面积除以组织总面积(3.2975)和基质所占面积除以组织总面积(-.34225)。例如,组织总面积可包括胞质、上皮细胞核、腔、红细胞、基质核、基质和伪影面积的总和(单位为像素,其中1920000为最大值,而图像大小为1200x1600像素)。下面还结合验证研究介绍了选择与上皮细胞核和基质细胞有关的形态测量特征的可能原因。
最终训练模型的灵敏度为82%,特异度为81%,用于正确预测5年内的***癌复发。SVRc模型的输出结果还可解释为各患者PSA复发的相对风险估值。利用该评分的四分位数(<25%,>25%-75%,>75%),创建患者风险组,并生成各风险组复发的Kaplan Meier估计值。各组在PSA复发时间上显示出有统计显著性差异(log-rank检验,p值<0.0001)。
验证研究
最终模型用61名患者组成的外部组群进行验证。最终模型生成的CI为0.80,灵敏度为91%,特异度为70%,用于验证患者头5年内经历***癌复发风险的患者的鉴定。
为了进一步了解最终模型中所选的2个形态测量特征的重要性,对各形态测量特征绘制了Kaplan-Meier曲线。观察到基质(p=0.004)和上皮细胞核(尽管无统计显著性,p=0.28)数量的增加独立地与有利结局相关。这就提高了由这些图像模式得到的定量测定值可代表Gleason分级***更客观决定因素的可能性。
本研究表明,可能仅需要有限的临床、分子和形态测量特征集创建临床上有益的预测试验。已实现了这种特征的减少而同时又保持了模型的预测准确率。
实施例6:***癌复发的预测
临床、形态测量和分子数据
进行了又一项研究以建立预测进行根治性***切除术患者的***癌复发时间的模型。与实施例2和实施例5一样,复发时间被界定为从根治性***切除术直到PSA(生化)复发为止的时间(单位为月)。用于本研究的***组织切片主要由肿瘤组成,但也包括良性成分。
本研究基于实施例2和实施例5中所评价的相同的17个临床特征(表4)和43个分子特征(表6)的信息。将该集的496个形态测量特征减少到表18(本文附表)中所示的33个特征。在本研究中,对得自实施例5的相同的262名患者的临床、分子和形态测量信息进行了评价。本研究采用上文实施例5中所述的同一SVRc特征归约方法。
结果
作为本研究的结果,建立了基于8个特征(同实施例5所选的6个特征加上另1个临床病理特征和另1个形态测量特征)且一致性指数(CI)为0.86的最终模型。模型中包括的8个特征连同其对最终模型的相应特征贡献如图15所示。本研究选择的另外的临床特征是活组织检查Gleason评分(-10.60),上文中结合实施例2作了介绍。本研究所选的另外的形态测量特征是基质内质地的改变,表示为红色信道(-11.26)。表示基质质地改变(基于染色性质)的该特征,最可能反映出与良性成分截然相反的肿瘤有关的基质的生化特性。
验证研究
最终模型用由366名患者组成的外部组群进行了验证。建立了CI为0.82,灵敏度为96%,特异度为72%用于验证头5年内经历***癌复发风险患者的鉴定的最终模型。下表12表示观察到的训练和验证组群的临床特征。表13a-c表示观察到的训练组群的生物标记分子特征。
表12.
Figure G2008800113680D00651
Figure G2008800113680D00661
Figure G2008800113680D00671
Figure G2008800113680D00681
表13c.组织组分的染色指数一练集)
Figure G2008800113680D00691
实施例7:临床失败的预测
根治性***切除术后
临床、形态测量和分子数据
本研究建立了用于预测进行根治性***切除术的***癌患者的临床失败的模型。在本研究中,临床失败被界定为发生转移性疾病和/或雄激素非依赖性疾病(例如骨扫描转移阳性或在手术后在ADT时PSA升高)。这与实施例2所述的临床失败研究形成对照,其中临床失败被界定为由任何原因所导致的死亡。
在本研究中,对345名患者的临床信息和形态测量信息进行了评价。对类似于表4和表6中所示临床和形态测量特征的十(10)个临床特征和27个形态测量特征进行了评价。还评价了十一(11)个分子特征。然而,这些分子特征是通过计算机从进行免疫荧光(IF)检测的组织图像中生成的,并非基于IHC,与实施例2中所述的分子特征的情形不同。
更具体地讲,在‘五重(quint-plex)’实验中,连同DAPI一起使用以用于雄激素受体(AR)、消旋酶(AMACR)、细胞角蛋白18(CK18)、TP73L(p63)和高分子量角蛋白的Alexa荧光染料标记抗体。根据荧光染料独特的光谱,获得抗原特异性灰度图像。生成用于Definiens Cellenger产品的脚本(Script)以确定单个抗原进行的定位。该脚本从抗原分布和强度中鉴定出细胞类型和细胞区室(例如腔上皮细胞、上皮/基质细胞核),并定量测定***肿瘤、良性腺和基质中的AR和AMACR。也就是说,建立用于Definiens Cellenger产品的脚本,分别将DAPI和CK18图像分割成有效的细胞核和胞质对象。这些脚本根据强度阈值将图像对象归类为细胞核或胞质,其中强度阈值是生物标记灰度图像特征(例如平均强度、标准偏差、分位数)的线性函数。每个脚本/线性函数对于给定生物标记都是特定的,使用监督学习(专家的阈值设置值(threshold setting))和专家阈值(expert threshold)与图像特征的线性回归来设计。鉴定出的胞质对象用作锚点对象,将细胞核分成上皮对象和基质对象。应用空间和强度共定位,同样将AR和AMACR生物标记分开。空间定位鉴定出规定区室内的生物标记:对于AR为上皮细胞核和基质细胞核,对于AMACR为上皮细胞(胞质)。与用于DAPI和CK18的阈值函数类似的阈值函数可供将区室内的生物标记信号进一步归类为有效或噪声。如果阵列中缺乏患者的核心,或者如果样品仅含有基质,则该患者被排除在外。
因为大部分患者具有从中提取IF特征的多个核心,所以设计了用于使每名患者和特征的遍及多个核心的特征值聚合的方法。考虑了4个候选函数(candidate function)(最小值、最大值、中位值和平均值)(例如,如果患者具有3个核心,则函数最小值返回3个核心的最小值)。对于给定特征,这些函数的每一个被应用来使训练集中每名患者的核心值聚合;然后对各聚合函数的一致性指数进行计算,以对其作为临床失败的预测因子进行评价。特征的最佳聚合函数被视作其一致性指数是距随机最远的聚合函数(0.5)。下表14列出了11个IF特征和相应选出的聚合函数,表15介绍了该特征。然后使用所选的聚合函数以生成对于每名患者每个IF特征的单值。有关多重免疫荧光的其它详细资料可参见共同拥有的2006年10月13日申请的美国专利申请号11/581,043,发明名称为“Multiplex In Situ Immunohistochemical Analysis(多重原位免疫组织化学分析)”(美国专利公布号2007/0154958),该专利通过引用全文结合到本文中。
表14.
表15
Figure G2008800113680D00712
Figure G2008800113680D00721
Figure G2008800113680D00731
除‘存在于AMACR阴性上皮细胞内的细胞核AR’以外,所有IF特征与基于一致性指数(CI≤0.4或CI≥0.6)的单变量分析的临床失败具有相关性。
结果
得自本研究的模型以7个特征(3个临床特征,1分子特征和3个形态测量特征)为基础,对于训练组群的一致性指数(CI)为0.91,灵敏度为95%和特异度为80%。模型中包括的7个特征见图16。被选择来预测***切除术后临床失败的3个临床特征是活组织检查Gleason评分、***受累和样本(***切除术)Gleason评分。3个形态测量特征是上皮细胞质的平均强度,用蓝色信道(CytoplasmMeanMeanChannel60060)表示;基质内质地的变化,用红色信道(StromaMeanStddevChannel40310)表示;以及上皮细胞核之间质地的变化,用红色信道(EpitheNucleiStddevMeanChann40157)表示。如上所述,与基质质地有关的特征以其染色性质为基础,最可能反映出与良性成分截然相反的肿瘤有关的基质的生化特性。此外,通常当胞质颜色由浅蓝色变为深蓝色时,反映出由癌症发生所引起的组织变化,也就是说上皮细胞侵入基质区。至于上皮细胞核内的质地变化(折叠/未折叠的染色质质地和核仁),癌症发生通常是以具有未折叠染色质质地以及核仁数目增加的上皮细胞核的数目增加为特征,它引起该特征的较高值。所选择的1个分子特征是AMACR为阳性的上皮细胞内的AR强度。
验证
最终模型用由319名患者组成的独立组群进行了验证。建立了用于验证最终模型,其CI为0.85,灵敏度为89%,特异度为77%,用于预测***切除术后的临床失败。下表16表示所观察的用于训练和验证组群的临床特征。
表16.临床信息
Figure G2008800113680D00741
Figure G2008800113680D00751
另一方面,根据对***切除术后用ADT治疗的患者子集的评价,已确定AR水平升高可与ADT治疗后临床失败时间缩短有关。因此,***切除术样本中AR含量的测量值可用来预测对雄激素抑制疗法类型的反应。总之,***切除术时的样本的AR含量和任何形式治疗之前的AR含量不仅可用来预测疾病进程,还可能预测对治疗的反应。
实施例8:***癌复发的预测
临床、形态测量和分子数据
进行了另一项研究以建立预测进行根治性***切除术患者的***癌复发时间的模型。与实施例2、实施例5和实施例6一样,复发时间被界定为从根治性***切除术直到PSA(生化)复发为止的时间(单位为月)。
对682名患者的扩大组群进行了评价。本研究使用与实施例6中所用的临床特征相当的临床特征(参见表19)。101名患者(14.8%)经历了PSA复发,定义为2个连续的PSA测量值>0.2ng/mL。所观察的未复发患者的随访中位值为74个月。未达到总体复发时间中位值。评价了与表18中所示的相同的形态测量特征,虽然在本研究中使用了AdobeImageready 7.0通过数字化绘出各核心内仅浸润性肿瘤区域的轮廓并进行彩色修饰用于随后的图像分割。一般如上所述结合实施例7,通过定量多重免疫荧光(IF)生成分子特征。下面提供了有关IF定量的其它详细资料。
该模型再次预测了PSA复发,其准确率高,一致性指数为0.77,灵敏度为72%,特异度为74%。如图17所示,选择了相当于AR+上皮细胞核相对面积的1个分子特征。还选择了包括精囊侵袭、活组织检查Gleason评分、囊外扩散、手术前PSA和主要***切除术Gleason等级在内的5个临床特征,以及仅肿瘤区的上皮细胞核质地和胞质质地的2个形态测量特征。图17中,负加权值表示存在的每个特征(或连续特征的较高值)与PSA复发时间较短有关,而正加权值则表示相反。这些加权值表明每个特征在整个模型中的相应贡献。
所选择的包括在模型中的形态测量特征利用颜色变化(强度标准偏差)描述了上皮细胞核和胞质区的质地性质。与癌症进程有关的生物学过程,例如未折叠的染色质质地和上皮细胞核中核仁的外观,引起细胞核图像对象的质地发生变化。后者增加颜色标准偏差值。胞质区的质地性质是当组织从良性发展成恶性阶段时组织中结构变化和上皮细胞侵入基质所引起的。
定量免疫荧光(IF)
表14和表15(参见实施例7)中显示和披露了本研究中通过免疫荧光图像分析测定定量的特征。值得注意的是,特征(例如AR强度)与抗原浓度有关,用与8比特截然相反的12比特表示(0-255),RGB-(红、绿色、蓝)极限值,因此便于扩展动态范围。在AR的测量值中,1个特征,即上皮细胞核(包括肿瘤和非肿瘤组分)中相对于所有上皮细胞核中DAPI总面积的AR量,与肿瘤中AR的IHC染色指数高度一致(斯皮尔曼秩(Spearman rank)相关系数=0.44;p=0.0011)。当进行单变量分析时,该特征还独立地与PSA复发相关。因此,定量免疫荧光数据支持AR IHC生物标记结果,并为在细胞区室中AR表达赋值提供了客观方法。
用对象-导向方法(object-oriented method),对高分辨率灰度tiff图像(1280x1024像素)进行个别处理,该法可鉴定TMA核心中上皮和基质细胞核内的AR强度水平。无法从正常组分中辨别出肿瘤组分;相反,仅分辨得出基质和上皮细胞。CK18表达用作拓扑标记(topographical marker)用于所有***上皮细胞。覆盖各个‘形态’层,即对于核为DAPI,对于上皮细胞和AR为CK18,并且通过采用不连续的Alexa荧光染料和预设定的阈值消除背景和非特异性结合,AR强度被精确限定。下面提供的补充说明有关通过多重荧光成像建立自动化定位和量化蛋白质多路(protein multiplexes)的阈值。该分析把蛋白质浓度等同于绝对正像素计数,其中各特征反映出一系列形态相互关联,所述特征包括AR所占细胞核(DAPI染色)面积及上皮细胞核和基质细胞核内存在的AR蛋白的相对量。使用AMACR阳性上皮细胞作为AR含量的补充描述符,推导出的特征被评为总体模型开发的组成部分。
图18a-e表示用于定量测定***组织的核AR的多重图像分割。图18a是标准多荧光染料图像,它被解构以生成代表不连续形态(即DAPI,CK18)映像和AR映像的3种灰度图像(图18b-d)。图18e是分割图像,代表由脚本定量的上皮细胞内细胞核的AR。出于再现性,所有这些图都用黑白显示。更具体地讲,图18a是对细胞核(未显示)用DAPI染色、对上皮细胞用Alexa 488标记的CK18染色(通常显示绿色)、在基质和上皮细胞中用Alexa 568标记的AR染色(通常显示红色)的***组织的多重免疫荧光图像。通过应用光谱光学以分离相应的荧光染料,生成了细胞核(图18b)、上皮细胞(图18c)和AR(图18d)的各个灰度图像。采用基于像素和对象分类的方法,提供了复合彩色图像(图18e;本文以黑白显示),它分割出存在于位于CK18阳性上皮细胞的DAPI染色细胞核中的AR以及存在于作为CK18阴性(基质)的细胞核内的AR。分割图像是定量测定上皮细胞核中的AR以及基质内的AR的基础。计算得到的参数包括涉及AR的细胞核总面积、平均值和最大强度以及分布(%阳性细胞)。
特征选择
在实施例8的扩展研究中,采用SVRc自助特征选择方法(SVRcBootstrap Feature Selection method)。最初的过滤步骤排除了与目标结局非单变量相关的特征。其次,由训练数据制成N个不同的***(split)(在本研究中,N=25);每个***中约总训练实例的2/3被随机分配给训练子集,约总训练实例的1/3被随机分配给测试子集。
该方法从“正向贪婪”特征选择方法开始,正向贪婪特征选择法始于所有通过初步过滤的特征。对于每个特征,在遍及所有***的训练子集上建立了N个模型,并在N个相应测试子集上进行了验证。对全部N轮的各特征的总体性能取平均值。选出具有最佳总体性能的特征。下一步,将各个特征加到之前选择的特征中,再次构建N个模型,并对全部***进行测试。选出其加入导致最佳总体性能的特征。该方法按此方式继续,直到无特征可改进性能为止。
随后,应用了“反向贪婪”特征选择方法。每个特征被排除,构建并测试遍及***但无该特征的N个模型。其排除导致最佳总体性能的特征被排除,重复该方法直到由排除特征引起的模型性能停止改进为止。该步骤降低模型复杂性,且排除了可能最初显示重要,但其信息贡献被包括在随后加入的特征内的特征。
最后,采用所有选出的特征,在完整训练数据上训练整个SVRc模型。
在其它实施方案中,可以在诊断性穿刺活检样品时或在根治性***切除术后,提供用于预测雄激素剥夺疗法后***癌发展到骨转移和/或PSA升高的概率的模型。
实施例9:临床失败的预测
根治性***切除术后
临床、形态测量和分子数据
进行了另一项研究以建立用于预测进行根治性***切除术的***癌患者的临床失败(CF)的模型。与实施例7一样,临床失败被界定为发生转移性疾病和/或雄激素非依赖性疾病。
对373名患者的训练集中32例临床失败事件进行了评价,以通过监督多变量机器学***的雄激素受体预测出雄激素剥夺疗法后较短时间去势PSA升高。
如图19所示,模型包括的临床特征是主要***切除术Gleason等级和***侵袭状况,形态测量特征是腔平均周长、腔相对面积和绿色信道中胞质内的质地变化。该模型还包括的分子特征是AR+/AMACR-上皮细胞核中AR信道的平均强度,它通过定量多重IF产生。图19中,负加权值表示存在的各特征(或连续特征的较高值)与临床失败的较短时间相关,而阳性加权值表示相反。这些加权值表明模型中每个变量的相应贡献。
本研究中,排除了在***切除术前或紧接手术后但在生化复发之前接受治疗的患者,在完整组群中留下881名患者。该组群被随机并平均地分成具有类似临床失败事件数的训练集和验证集。临床失败被预先规定为有明确的放射摄影或病理学的转移证据(包括骨骼疾病或***或实体器官中的软组织疾病)或去势状态下PSA升高,或***癌造成的死亡。CF时间被界定为从根治性***切除术到这些事件中第一例的时间。如果患者在最后就诊时没有经历CF,或患者结局在其最近一次就诊时未知,则该患者结局被视为截尾。
对仅具有全部临床、形态测量和分子数据以及非缺失结局信息的患者进行了进一步研究。因此,训练集中可评价的患者数为373人,验证集中为385人(参见表20和表21)。这758名患者的特征类似于881名患者完整组群的特征。一般结合实施例8中所述(例如标记工具(Adobe 7.0)对核心进行数字化修饰以只包括用于定量的肿瘤组分),从得自患者核心的图像提取形态测量特征。同样,一般结合实施例8中所述,用多重定量IF生成分子特征。
在373名患者的训练集中,33人(8%)***切除术后出现CF:24人在可能的辅助疗法之前呈阳性骨扫描,9人为去势PSA升高。除1名CF患者外,所有人都接受了激素疗法。未接受激素疗法的1名患者进行了挽救性放射疗法。另外,有1名同时接受放射疗法和激素疗法的患者。这373名患者***切除术后被跟踪的中位值为76个月;未达到总体CF时间中位值。该模型包括作为选择变量的9个临床特征(表20)。在由随访时间中位值为72个月的385名患者组成的验证组群中,29名(7.5%)患者出现CF,22人在可能的辅助疗法之前呈阳性骨扫描,7人为去势PSA升高。所有CF患者都接受了激素疗法,7人还接受了挽救性放射疗法。盲法结局数据应用于六特征模型。
从每名患者H&E染色肿瘤核心的肿瘤修饰数字化图像中,生成27个形态测量特征(表22),反映出染色的颜色和质地以及***组织样品中上皮和基质细胞的总面积。在单变量分析中,12个特征显示与基于各特征一致性指数的CF有关(CI≤0.4或CI≥0.6)(表20)。
利用光谱成像结合同时多个抗原评价和图像分析,对特定细胞类型(上皮肿瘤细胞)中的AR和AMACR进行定量测定以生成分子特征。与AR和AMACR水平有关的免疫荧光特征中,11个免疫荧光特征显示与单变量分析中的CF相关(CI≤0.4或CI≥0.6),并被包括在用于选择的模型中(表20)。
有关最终模型,值得注意的是在预测***癌进程时鉴定肿瘤分化(即Gleason等级)和转移证据(即***受累)的作用。该模型的3个形态测量特征说明组织化学染色作为不同细胞类型生化或代谢性质和与Gleason等级有关的总体组织构造的替代的重要性。病理学家传统上一直都承认当要将良性细胞类型与反应性或恶性细胞类型区分开来时颜色的重要性,但是却不能使之标准化并进行客观的定量测定。比起***切除术Gleason等级,用本发明的模型时,上皮细胞质的质地颜色性质与CF的相关性更强,这就表明细胞生化性质在疾病进程中的重要性。3个成像特征的每条Kaplan-Meier曲线说明了将患者准确分层的能力。有关分子特征,仅选出AMACR阴性上皮细胞内AR的归一化平均亮度/强度以包括在模型中。该特征的负加权值(图19)表示AR的增加量与较短的CF时间相关。值得注意的是,没有选择手术前PSA和Gleason汇总信息以包括在模型中。通过SVRc分析,这些变量被图像分析特征取代,所述图像分析特征反映了与***癌生化性质有关的分化和颜色特征。
一般认为该CF模型高度准确性的预测便于开发有更多信息和合适的治疗计划。这可包括给予以下疗法的可能性:ADT(目前是针对晚期***癌最好的全身性疗法)、放射疗法和/或早期具有复发高风险的化学疗法。另外,早期鉴定出高危患者为增加对进程的监视创造了机会。模型预测还可用于指导生化复发后的治疗决策。一些生化复发的患者可能不需要即时干预,因为在生化复发和临床重要事件之间的间隔通常为数年,并且变化无常。此外,许多被诊断有生化复发的男性现时的病程很可能不活跃。有关侵袭性疾病(例如手术5年内发展成CF的疾病)概率的知识可帮助患者及其医生决定生化复发是否应启动积极疗法。
考虑到AR在这个临床进程模型的重要性,我们进行了研究以确定***切除术样本中AR含量是否可用来预测雄激素剥夺疗法(ADT)后去势PSA升高的时间。881名患者中,63人未发生CF之前接受了ADT。这些患者中有32人(51%)随后发生CF。利用63名患者的结局数据,研究了是否与CF相关的任何免疫荧光特征也都与对ADT的反应有关。下列4个特征与去势PSA升高的缩短时间显著相关(p<0.05,χ2检验),所有特征都与肿瘤上皮细胞中细胞核AR水平提高有关:
特征                                    P值
AMACR(-)上皮细胞的AR强度                0.0021
AMACR(+)上皮细胞的AR强度                0.0003
AMACR(+)上皮细胞的AR平均强度            0.0285
所有上皮细胞AR总强度(归一化)            0.018
通过使用肿瘤样品的AR含量,泌尿科医生能够预测甚至是对于每位患者的ADT的功效,并相应调整治疗方案。在本发明的CF模型中具有高评分的患者和有高AR水平的患者面临特殊的两难困境:伴随临床进程概率增加的是对ADT以及可能对挽救性放射疗法的持久反应的可能性降低。这些患者可以是靶向AR或其辅因子的疗法(例如组蛋白脱乙酰酶抑制剂)的良好候选人。因此,我们认为雄激素受体的准确定量将有助于指导制定治疗决策。这类方法甚至可改进临床试验的选择,并可能用来衡量治疗效果,特别是靶向AR或AR辅因子(例如组蛋白脱乙酰酶抑制剂)疗法的效果。
通过多光谱荧光成像的蛋白质多路的自动化定位和量化
已开发出对免疫荧光(IF)显微图像中的蛋白质生物标记表达进行自动化定位和量化的***和方法。该***和方法从背景中辨别出生物标记信号,背景中信号可以是许多生物标记任一种的表达或用于IF的复染剂。该***和方法以监督学习为基础,代表了作为图像背景特征函数的生物标记强度阈值。在预测进行***切除术患者的***癌复发中证明了该***和方法的用法。准确地讲,在单变量分析中,代表雄激素受体(AR)表达的特征显示与不良结局在统计上有显著的关联性。AR特征还显示在多变量复发预测中颇具价值。
引言
蛋白质生物标记广泛用于癌症诊断、预后和治疗反应预测的组织病理学。它们提供有关细胞中蛋白质表达水平的信息,使得能够检测与疾病状况有关的特定细胞活性。
用于蛋白质表达定量测定的一种方法为IF,其中通过将荧光染料标记的抗体导入与靶蛋白结合的组织中来确定蛋白质的位置[21]。在荧光显微镜下,用具有特定波长的光源照射染色的载玻片。这种激发光被荧光染料吸收,引起荧光染料发射出较长波长的光。发射光的强度是靶蛋白浓度的度量。在多重标记(multiplexing)中,组织同时用若干抗体标记。抗体被具有独特光谱特征的荧光染料标记。通过组织多光谱成像,随后通过光谱解混合(spectral unmixing)获得代表各抗体表达的图像,来完成多个生物标记的分离。
通常,由病理学家根据他们观察的组织中的目标对象(例如细胞核)的强度水平解释IF图像。这种做法费力并且会受内、外部观察者变化的影响。自动化***的发展能够成为IF图像目测评分的价格便宜且客观的替代方法。
在两个步骤中实现了生物标记的定量测定。首先,检测与生物标记有关的区室。然后,从区室内的背景中分辨出信号。这些任务常常通过设定强度阈值来完成。交互阈值(Interactive threshold)[22]-[24]常常紧接着计算机测量以对生物标记表达定量。Gordon等人[23]鉴定单一细胞图像中蛋白质作为距背景3个标准偏差的阈值以上的邻接像素集。图像直方图方式连同交互阈值设定一起被用于鉴定AQUA***的背景像素[24]。Rao等人[25]利用手工勾画上皮细胞核来给用于定量的目标区室分界。具有低信号/背景比的图像中,交互方法有限的再现性和直方图阈值设定的不佳性能是现有技术的主要缺点。
本发明提出了克服上述局限性以用于生物标记定位和量化的***和方法。该***和方法是完全自动化的,因此是可再现的。该***和方法对其有关亚细胞区室内的生物标记信号进行定量,这使得该***和方法针对低的信号/背景比进行了强化。
该***和方法以从背景分辨出生物标记信号的方法为基础。使用监督学习来为信号区分建立强度阈值模型作为图像背景特征的函数。在***癌预后中,对所提出的***和方法的用法进行了说明,尽管应当了解的是,该***和方法还有许多其它的用途。
多重图像分析
结合上述IF多重实验介绍了所给出的***和方法,它包括4′-6-二脒基-2-苯基吲哚(DAPI)与细胞角蛋白18(CK18)、α-甲基酰基辅酶A消旋酶(AMACR)和雄激素受体(AR)一起的细胞核复染。
图像分析平台
利用Definiens Enterprise Image Intelligence SuiteTM设计量化***[26]。分割成有效生物对象(例如细胞核)的图像是一个基于对象导向的图像分割的多步方法。在该范例中,对象而不是像素是进行图像处理操作和特征计算的最小单位。例如,当将强度阈值应用于图像时,对象强度受阈值约束。对象强度是属于该对象的所有像素的平均强度。
使用两种方法以获得基元(primitive)[26]。多分辨率分割方法(multiresolution segmentation method)根据像素之间的颜色相似度与对象形状规整性求出基元。四叉树分割方法(quadtree segmentation method)只利用颜色相似度。在两种方法中,尺度参数控制对象的大小。
生物标记定位和量化
在开发的方法中,第一步是相应亚细胞区室内生物标记的空间共定位。例如,上皮细胞核和胞质分别为AR和AMACR的亚细胞区室。下一步是在相应的区室基元中从背景分辨出真实的生物标记信号。背景由自身荧光和荧光染料与组织的非特异性结合组成。如果亚细胞区室的对象含有一定量的真实信号,则亚细胞区室的对象对于生物标记而言被归类为阳性。生物标记量化是分析的最后步骤,其中我们测量了已分类对象的性质(例如面积)。
生物标记阈值模型
IF图像分析的下一阶段是利用强度阈值从背景中分辨出真实的生物标记信号。阈值T被视为生物标记背景特征的函数。为了求出该函数,将对象B分成两个不重叠的类别:共定位于区室的Bc和区室外的对象Bb。对象Bb被视为背景,它通过下列特征描述:平均μb,标准偏差σb和对象强度α-th四分位数qb,α,其中α=5、10、......、95。假设阈值T和背景特征之间为线性关系,则我们得到
T=βTX,                       (1)
其中β=[β0、β1、......、βp]Tβ为模型参数,X=[1,X1、......、Xp]T为背景特征。注意在(1)中,T随每幅图像的性质而变化。
应用多变量线性回归来确定β。选择图像集用于训练模型。对于每幅图像:a)鉴定出对象Bc和对象Bb;b)提取背景特征;和c)由病理学家确定专家强度阈值exp T。使用训练集训练模型以预测专家阈值。
为了避免模型过拟合(overfitting),从训练中排除冗余和统计上不显著的特征。如果两个特征的成对关联性系数r满足r≥0.85,则2个特征之一是冗余的。将与专家阈值有较强单变量关联性的特征用于多变量回归。计算出回归系数的置信区间,其置信区间含有零的系数被视为统计上不显著,并予以排除。用其余特征计算出参数β。
共定位的亚细胞区室
基本的亚细胞组织区室含有来自于靶AR和AMACR抗原的真实信号。上皮细胞核和胞质构成上述的基本区室。这些是分别从DAPI和CK18图像分割的阳性对象。下一步是通过用胞质将其覆盖以将细胞核对象分入上皮细胞和基质细胞。
在癌症复发预测中十分重要的是分辨出位于侵袭性癌区域的上皮细胞核。侵袭性癌区域被视为含有AMACR表达的胞质区域。与AMACR-的上皮细胞核相反,其上皮细胞核称为AMACR+。
通过CK18和AMACR图像的颜色四叉树分割法获得最初的原始对象。用多分辨率分割法将这些对象再分割成较粗糙的对象。应用表23的阈值(3)来鉴定最初的胞质对象或CK18+对象。注意,对于所有最初CK18对象,计算出(3)中的强度标准偏差bσ。一旦鉴定出最初的CK18+对象,便应用邻域分析法界定类别标记(class label)。其与胞质的边缘长度对总边缘长度之比为0.6或以上的小背景对象被重新归类为胞质。小的分离的胞质对象被标记为背景。
原始对象用DAPI图像覆盖。使用表23的阈值(2)对DAPI+和背景对象中的基元进行分类。通过类似于上述的邻域分析法进一步界定这种分类。DAPI+对象是DAPI图像中描绘的真实细胞核的小碎片。
应用由区域增长法和对象分类法组成的重复方法,将DAPI+基元合并到细胞核中。最后,根据细胞核对象与CK18+对象的共定位,将细胞核对象被分成上皮细胞核和基质细胞核。
阳性和阴性生物标记表达
分2步求出AMACR+胞质面积:a)AMACR图像上原始对象用CK18+区覆盖;b)应用表23中的阈值(5)对对象进行共定位。其强度超过(5)的胞质对象被归类为AMACR+。上皮细胞核还被标记为AMACR+和AMACR-,这分别取决于它们与阳性胞质和阴性胞质的关联性。
上皮细胞是AR表达的基本亚细胞区室。表23中的阈值模型(4)被用于共定位于上皮细胞核的AR对象。如果其AR+对象的面积大于其总面积的0.1%,则上皮细胞核被归类为AR阳性(AR+)。否则,被归类为AR阴性(AR-)。
生物标记量化
一旦生物标记被共定位及分类,从共定位的生物标记生成代表基于对象的强度面积特征的定量特征。代表性强度特征包括图像中被识别出来的AMACR阳性/阴性上皮细胞内的AR强度平均值和AR总强度。代表性面积特征包括相对于所有上皮细胞面积的AR+上皮细胞面积和所有AR+细胞中AMACR+上皮细胞的分数。
结果
在预测已进行***切除术患者的***癌复发中说明了所给出的IF图像分析***的用途。对于预测,要考虑两种类型的不利结局。一个结局是***特异性抗原(PSA)复发(PSAR),其对应于患者血清PSA水平显著升高。另一个结局是临床失败(CF),其对应于通过标准测定的明显的疾病进程(例如远端转移)。
在PSAR和CF预测任务中,分别由682名和758名患者中获得组织微阵列核心,组织微阵列核心中至少80%的组织区域被肿瘤覆盖。核心用DAPI复染剂及CK18、AR和AMACR生物标记标记,并使用CRINuanceTM多光谱成像***成像[27]。对于各核心,在DAPI复染剂的发射峰波长下获得单幅12比特1280×1024像素灰度图像。对于CK18、AR和AMACR生物标记的每一种,获得包括相应荧光染料发射光谱的波长范围的图像栈(image stack)。所得到的图像栈使用NuanceTM***解混合得到各对应于一种生物标记的3幅图像。
对于得自训练集的60个多重图像集,由合格的病理学家选出DAPI复染剂及CK18、AR和AMACR生物标记的专家阈值,如上所述训练阈值模型并显示于表23中。通过肉眼检查其专家阈值和预测阈值间具有最大差异的图像来验证模型。对图像中的AR和AMACR生物标记进行定量测定,获得代表相对于上皮细胞核总面积的AR+上皮细胞核面积及AR+上皮细胞核强度的特征。还计算出AR+AMACR+上皮细胞核和AR+AMACR-上皮细胞核的相似性特征。
将可利用的患者分成训练集和验证集,对于PSAR预测分别为342名和340名患者,对于CF预测分别为373名和385名患者。在PSAR预测中,训练集的AR+上皮细胞核相对面积具有0.37的最高(在所有AR特征中)单变量一致性指数(CI)(p值<0.001)。在CF预测中,AR+AMACR+上皮细胞核强度达到0.30的最高单变量CI(p值<0.001)。
此外,在***病理学范例方面,就两项预测任务对多变量模型进行了训练。在该范例中,将患者临床特征(例如年龄)、组织特征(由苏木精和伊红染色组织样本中提取的图像特征[28])和分子特征(测定由蛋白质生物标记表达的特征)中完全不同的信息谱结合到监督学习构架中来预测癌症复发。上文实施例8中介绍了所得到的PSAR模型。上文实施例9中介绍了所得到的CF模型。
因此,本文提供了用于IF多重显微图像中任何蛋白质生物标记表达的自动化定位和量化的***和方法。通过使生物标记图像接近设定为监督学习问题的阈值,建立作为图像背景特征的函数的阈值模型,从背景中分辨出真实生物标记信号。对例如***癌的IF多组分预后实验,说明了这个***的应用。代表AR表达面积和强度的特征显示具有显著的单变量相关性。另外,选出新的可再现的稳健特征作为在多变量环境中与其它预测因子竞争的信息,从而证实***在实际应用中的效用。
表23.多重生物标记的阈值模型
  生物标记   模型   等式
  DAPI   T=0.86σb+1.1qb,5-32.0   (2)
  CK18   T=0.55σb+220   (3)
  AR   T=5.1qb,5+0.39qb,95+1100   (4)
  AMACR   T=2.1μb-0.82qb,25+1800   (5)
实施例10:预测用吉非替尼治疗的非小细胞肺癌患者的生存;临床、形态测量和分子数据
进行了另一项研究以建立预测用吉非替尼治疗的患非小细胞肺癌(NSCLC)个体生存的模型。在本发明之前,不存在提供这类预测的准确的分析工具。如上所述,本发明的***病理学方法表明可准确地预测PSA复发和***切除术后临床失败。本研究证实,本发明还可用于准确地预测吉非替尼治疗后的生存期。
表皮生长因子受体(EGFR)在包括非小细胞肺癌(NSCLC)在内的多种实体瘤中大量表达,使它成为选择性分子治疗药、尤其是酪氨酸激酶抑制剂(例如吉非替尼(IRESSA)的颇具吸引力的靶标。尽管在预先治疗的患者中,吉非替尼的最初结果颇有前景,但是在吉非替尼与两种其它药物组合使用的两个关键性III期试验中,与安慰组相比,用吉非替尼治疗的NSCLC患者没有显示出明显更好的总体生存或无进展生存。此外,在III期安慰剂对照的肺癌IRESSA生存评价(IRESSA Survival Evaluationin Lung Cancer,ISEL)试验中,吉非替尼单一疗法与总体生存的一定改进有关;然而,数据没有达到统计显著性。对吉非替尼的阳性反应与EGFR的ATP口袋的活化突变有关,尽管具有临床-人口学特征,例如种族(亚洲人)、性别(女性)、吸烟史(不吸烟)、良好的性能状态和肿瘤病理学(腺癌-支气管肺泡变异)。这些结果表明,NSCLC患者的特定亚群很可能对吉非替尼有反应。然而,EGFR突变频率低(尤其是美国高加索人群;~10-15%)使得数据变得复杂,这与大约45-50%用吉非替尼治疗的患者(有限研究中)已体验到某些临床益处的观察结果形成对比。另一个难题是,缺少在随机用吉非替尼的患者对无治疗患者以及用吉非替尼的患者对化学疗法的患者中的EGFR突变的比较数据。此外,反应率似乎高度取决于受研究组的人口特征(例如性别比、种族特点和详细的吸烟史),这就表明响应标准比之前设想的更复杂。重要的是,得自安慰剂对照的ISEL试验的现有证据表明,EGFR基因高拷贝数是对临床益处和生存的预测。这些结果表示在试图理解响应标准时所观察到的某些复杂性。
对109名患者的组群进行了评价。准确地讲,对得自用吉非替尼治疗的晚期难治性NSCLC的诊断肿瘤样品进行了评价。通过EGFR DNA突变分析、EGFR免疫组织化学、组织形态测量学和15种标记的定量免疫荧光法对肿瘤样品进行了评价。利用支持向量回归数学模型将6个临床特征(性别、吸烟史、诊断时的年龄、肿瘤组织学和ECOG性能状态(ECOG performance status))与组织学和定量生物标记多重标记进行整合。
患者和组织
起始组群由284名用每天口服250mg吉非替尼治疗的晚期难治性NSCLC美国患者组成。按以下5个临床特征进行了分析:性别、吸烟史、诊断时的年龄、组织学、ECOG性能状态(从0(健康)到5(因疾病死亡)的评分范围(表24)。未染色的载玻片(包括细针穿刺抽吸物(fine needleaspirate)、细胞沉淀和细胞离心涂片(cytospin))和/或诊断样本的石蜡块用苏木精和伊红(H&E)对肿瘤内容物进行了评价。在不清楚临床结局的情况下分析了所有的生物标记。
EGFR酪氨酸激酶结构域突变分析
对每个石蜡块20μm厚的2片连续切片或最小8张石蜡载玻片的未染色切片进行了分析。在与蛋白酶K一起温育,接着氯仿提取和乙醇沉淀后,从脱蜡组织样品获得基因组DNA。首先通过外显子19、20和21的DNA测序,其次使用扩增受阻突变***(ARMS),分析了EGFR突变,具体地讲,等位基因特异性聚合酶链式反应(PCR)检测外显子21L858R点突变和最普遍的外显子19缺失(del G2235-A2249)。如果在至少2个来自肿瘤DNA的独立PCR产物中,通过ARMS或者正向和反向基因测序中检测到酪氨酸激酶结构域突变,则患者被视为突变阳性。
组织形态测量学
由最初的石蜡块或未染色切片制备H&E染色载玻片。使用SPOTInsight QE彩色数码照相机(KAI2000),用Olympus明视野显微镜以20X放大倍数获取肿瘤代表性区域的1-6幅图像。图像分析软件将图像对象分成显示红色、绿色和蓝色信道值、一般形状特征(例如面积、长度)和空间关系性质(例如相对于总体组织的腔的相对量)的组织病理细胞组分,从中产生统计数据。由于样品制备(即细胞离心涂片、穿刺活检样品和组织切除)、固定、染色和组织质量的差异,开发了若干不同的脚本用于图像分割。
EGFR免疫组织化学
使用EGFR pharmDX测试盒(DAKO,Glostrup,Denmark),通过免疫组织化学分析了EGFR蛋白。如果>10%的肿瘤细胞有染色,则样品被视为阳性。通过将各强度水平(0-3)乘以细胞在该强度水平下的百分比计算出每个样品的染色指数;因此,指数范围为0-300。
多重(M-Plex TM )生物标记评价
选出包括细胞角蛋白18、Ki67、活化胱冬蛋白酶3、CD34、磷酸化EGFR、磷酸化ERK、磷酸化AKT、PTEN、细胞周期蛋白D1、磷酸化mTOR、PI3-K、VEGF、VEGFR-2和磷酸化VEGFR-2的15种抗体,分成6个多重格式的小组。每个抗体代表对形态组分(morphologiccomponent)(例如细胞角蛋白18[CK18]、CD34)、信号转导途径或增殖、细胞凋亡和血管生成的生物学过程的评价。
通过免疫组织化学(IHC),评价了一系列细胞系和/或对照肺癌组织样品的每个抗体。采用免疫组织化学和免疫荧光标准操作程序,对每个抗体进行了滴定。然后使抗体经单重和多重免疫荧光格式进行提高。将15种抗体组织成基于抗原提取***、同种型和对于生物学应用优先化的6个多重格式。这些m-plex格式见下表27。
表27.抗体和多重免疫荧光分组。
Figure G2008800113680D00931
按照标准操作程序进行组织样品的脱蜡和再水化。通过将载玻片在1X显色溶液(Reveal Solution)(BioCare Medical)中用微波炉煮沸7.5分钟进行抗原提取。使载玻片在室温下冷却20分钟,然后在磷酸缓冲盐溶液(PBS)中洗涤两次达3分钟。
对组织样品进行了下列预杂交处理步骤。为了帮助渗入组织细胞结构中,将样品在PBT(PBS+0.2%曲通(Triton)X-100)中在室温下温育30分钟,接着在PBS中漂洗3次每次3分钟。为了帮助降低组织自身荧光,将样品在酸醇(1%HCl/70%乙醇)中在室温下温育20分钟,接着在PBS中漂洗3次每次3分钟。通过将载玻片在IF封闭试剂(0.5mg/ml BSA/PBS)中在室温下温育20分钟,对非特异性结合部位进行封闭。在封闭步骤和随后的杂交步骤之间不再进行洗涤。
使用之前在IF封闭试剂测定的效价,制备一种小鼠IgG1抗体和一种兔IgG抗体的混合物。将约100μl的该抗体混合物应用于组织样品中,使抗体和组织样品在潮湿箱内在室温下杂交1小时。杂交后在PBT中漂洗2次各5分钟后,在PBS中漂洗2次各3分钟。
对于标记步骤,在IF封闭试剂中按生产商推荐的浓度(对于各Fab片段1∶50稀释)制备用于上述杂交抗体的合适的Zenon Alexa Fluor兔IgG标记和合适的Zenon Alexa Fluor小鼠IgG1标记(Invitrogen/MolecularProbes)的混合物。将约100μl的该标记混合物加到组织样品中,将组织样品在潮湿箱内在室温下温育30分钟。标记反应后接着2次漂洗。对于包括在多重标记(multiplex)中各个后续抗体组,重复如上所述的杂交和标记步骤。多达2轮以上的抗体杂交和标记是可行的。必须注意的是,为了获得不同抗体之间的分辨力,不论是兔特异性或小鼠特异性,使用Zenon Alexa Fluor标记都不超过一次。
通过将样品在10%***中在室温下温育10分钟,接着在PBS中漂洗次2各3分钟,来进行固定步骤。将约25.0μl SlowFade Gold防褪色试剂(antifade reagent)与DAPI封固溶液施加到样品中,然后盖上盖片。将样品保存在-20℃下直到可进行分析。
使用安装在Nikon 90i自动化荧光显微镜上的CRI Nuance多光谱照相机(Cambridge Research and Instrumentation,Inc.),在MetaMorph在线软件控制下,获取多重荧光图像。将所得到的图像保存为定量灰度TIFF图像(1280x 1024像素)。对于所选择的目标区域,使用带通DAPI滤光片(Chroma),在480nm波长下记录DAPI细胞核复染。用FITC滤光片(Chroma)以10nm间隔在520nm和560nm之间拍摄Alexa 488。使用定制的长通滤光片(Chroma),以10nm间隔记录570nm和670nm之间的Alexa 555、568和594,同时使用第二种定制的长通滤光片(Chroma),以10nm间隔记录640nm和720之间的Alexa 647。对各种染料的代表性区域进行分配以创建光谱解混合法的光谱库(spectral library)。
使图像分析脚本覆盖形态学属性(即对于核为DAPI,对于上皮细胞为CK18),并在消除背景以优化信-噪比的同时,使用Alexa荧光染料标记(signature)以分辨各抗体。强度谱(intensity profile)生成特征,包括各标记抗体的平均值、最大值和标准偏差。通过脚本特征分析软件,生成各个标记与其活化形式(例如pKDR:KDR、pEGFR:EGFR)的特定关系和表达其它标记的细胞中特定标记的强度(例如pERK阳性上皮细胞中的磷酸化mTOR)。
抗体质量控制
为了证实pEGFR(Y1068)和pERK抗体的特异性,将A431NSCLC细胞系用表皮生长因子(EGF)处理。细胞用冰冷的PBS洗涤两次后,用含有苯甲基磺酰氟(1mmol/L)、亮抑酶肽(25μg/mL)、抑蛋白酶肽(25μg/mL)和抑胃酶肽A(3.5μg/mL)的裂解缓冲液(0.5%曲通X-100、50mmol/L Tris(pH 7.6)、300mmol/L NaCl、2mmol/L Na3VO4)在4℃下裂解25分钟。根据免疫沉淀标准方案,用EGF激活的细胞系和未激活的细胞系进行IP ECL加化学发光蛋白质印迹法。在用VEGF激活的HUVEC细胞系中用pKDR进行了类似的试验。另外,对于EGF和VEGF,对处理和未处理细胞进行处理用于常规IHC。
免疫荧光特征的生成
使用对照肺癌组织样品,使每个抗体:抗原对的免疫荧光脚本显现。根据预期的各个蛋白质的细胞分布设计脚本,并利用所获得的灰度图像来鉴定各个标记的面积及随后的荧光强度。初级脚本生成>400个特征(它们中许多是冗余的),将其减少到84个特征用于录入模型。
统计分析
死亡时间被界定为从用吉非替尼治疗开始到死亡日期或最后一次随访日期为止的时间,按周记录。在最后一次随访日期未记录到死亡的患者被截尾。将用于截尾数据的支持向量回归(SVRc-FR)与特征归约应用于临床变量和M-PlexTM、组织形态测量学和EGFR免疫组织化学生成的特征中。SVRc是对传统SVR的改编以适应截尾数据。为了实现这一点,规定了修正的损失/罚函数以供处理右截尾数据和未截尾数据之用。SVRc-FR算法具有基于一致性指数(CI)的初步过滤步骤,以排除与目标结局并非单变量相关的特征。CI是以正确顺序预测2名随机选择的患者死亡时间的概率,其中2人都死亡,或者1人在截尾患者最后一次随访前死亡。CI范围为0-1,其中0.5表明随机关联(random association)。因此,CI远离0.5表明与结局的关联性较强。仅保留CI<0.4或>0.6的特征。Cox模型用作多特征(包括通过SVRc-FR选出的特征)的比较器。采用逐步方法,特征录入标准为p值≤0.15。为了保留在模型中,特征的p值必须≤0.05。
结果
284名患者中,109人(38%)的组织样品有足够的肿瘤(>50%)用于进一步分析。109名患者样品中,从87人中获得EGFR突变结果,而51名患者具有完整数据(即临床、免疫组织化学和免疫荧光数据)包括在最终模型中。表24中包括总组群(284名患者)和最终模型(51名患者)的人口特征。
表24.最终预测模型中与患者总组群相比较的患者特征。
Figure G2008800113680D00971
注释:连续特征的平均值是可比较的
EGFR突变状况
根据外显子19-21、4、10中有突变的已公开序列,对87名具有临床结局数据和有足够材料用于DNA分析的患者进行了EGFR突变分析。4名患者(5%)在外显子19、20或21中具有EGFR酪氨酸激酶结构域突变。这些患者中2人在外显子19中具有符合读框的缺失(delL747-S752insV和delL747P753insS),1人在外显子20上具有体细胞突变(T790M),第4人在外显子21上具有L858R突变。带有EGFR突变的所有4名患者均为女性,被诊断患有腺癌。这些患者中2人达到部分反应,2人病情发展(表25)。之前有研究表明,生存期短(4周)的患者体内存在的T790M突变与抗药性有关。突变分析的所有患者的总体生存时间中位值为24周,1年总生存率为26%。因为EGFR突变的频率低,所以在随后模型开发中未使用突变情况作为变量。
表25.带有EGFR突变的患者的反应状况。
Figure G2008800113680D00981
EGFR免疫组织化学
对其中存在>50%肿瘤的60名患者的样品进行了免疫组织化学测定。简单地说,仅在肿瘤区对EGFR蛋白异质性进行了评价,其中14份样品(23%)的染色指数≥200,这就表明表达增加,而20份样品(30%)的染色指数为0。肿瘤染色指数是包括在预测模型中的唯一变量。
使用阳性细胞%乘以强度(0-3+)对EGFR蛋白的免疫组织化学进行了分析,得出样品可用于分析的患者的染色指数(H评分)(表28)。
表28.EGFR免疫组织化学的详细结果
Figure G2008800113680D00982
Figure G2008800113680D00991
Figure G2008800113680D01001
*H评分=(评为+++的%细胞)x3+(%细胞++)x2+(%细胞+)x1。最大值H评分为300。
H&E图像分析
用成像软件对109份H&E染色的患者样品中选出的数字化图像进行处理。软件对各个组织-细胞组分进行分割和分类,分开上皮细胞核、上皮细胞质、基质以及肺泡腔。利用光谱‘颜色’特征、形状和组织对象之间的空间关系对组分进行分类。例如,被肺泡‘肿瘤’上皮细胞包围的空白的整个联合区被归类为腔。生成39个成像特征,并被录入预测模型。
表29列举了从各患者包括完整切片、穿刺活检和抽吸物在内的样品中提取的39个H&E特征。
表29.组织形态测量学特征。
SD,标准偏差
定量M-Plex TM 免疫荧光
当使用对照组织样品评价时,所使用的所有15种抗体都具有预期的细胞定位和分布。采用方法部分所列的15种抗体,对得自59名患者的肿瘤样本进行了评价。根据样品中肿瘤的数量和质量,选出各抗体的代表性目标区域,避免了坏死和细胞碎片区。在各多重分析中,每个患者样品获得最少3个视野,运用免疫荧光软件处理所有图像以生成84个定量特征。发现活性胱冬蛋白酶-3和磷酸化mTOR局灶性位于浸润性淋巴细胞和肿瘤上皮细胞中。相比之下,细胞周期蛋白D1主要存在于肿瘤上皮细胞的细胞核内。有趣的是,发现pKDR散布在肿瘤上皮和内皮细胞岛内。
84个特征(表30)代表来自以下特征的算法输出值(平均值、最大值和标准偏差,当涉及强度和面积时):与其所存在的区室有关的各生物标记(即DAPI=细胞核;细胞核的细胞周期蛋白D1、Ki67、PTEN和磷酸化ERK(pERK)的;胞质的CK18、胱冬蛋白酶-3a和VEGF;细胞核/胞质的磷酸化AKT;膜的EGFR和KDR;以及胞质/膜的磷酸化KDR(pKDR)、磷酸化mTOR、PI3K和磷酸化EGFR)、信号分布(即作为几何Dot的像素对例如细胞核、胞质等对象内的像素)和彼此之间的关系(例如EGFR对于pEGFR;p-mTOR对于pERK)。
表30.定量免疫荧光特征。
Figure G2008800113680D01021
Figure G2008800113680D01031
Figure G2008800113680D01041
预测模型开发
应用综合的‘***病理学’方法,根据临床变量加上下列特征的不同组合,开发出8个总体生存模型:EGFR免疫组织化学(分子)、组织形态测量学(形态测量)和免疫荧光(分子)。注意,因为一些患者缺乏一些特征域的数据,所以当加入另外的域时,所包括的患者人数由最大284人减至51人的最小集。因为6个临床特征无一通过CI过滤程序,因此SVRc-FR不能应用于仅有临床特征的数据集(284名患者的组群)。
表31.由SVRc-FR构建的8个模型中选择的性能和特征。
Figure G2008800113680D01051
为了评价***病理学方法的效用,使用得自具有所有特征域全部信息的患者子集的数据(n=51),对上述8个模型进行了训练。由于IHC无法通过CI过滤程序,排除该特征不会改变模型(例如临床+IHC模型相当于临床模型)。表32表示51名患者组群的SVRc-FR结果。性能状态是通过CI过滤程序的唯一临床变量。所选择的唯一H&E特征是腔的相对面积。将IF特征加到临床特征中改进CI。将H&E特征加到临床数据中同样改进CI,但略小于IF的改进。
表32.由具有全部信息的51名患者的组群构建SVRc-FR模型。
不同模型的Cox结果见表33。这些是基于Cox模型逐步选择变量的多变量分析。将p值<=0.15的所有特征作为输入值录入Cox模型。为了保留在模型中,特征的p值必须<=0.05。
危险比大于1表示对生存的阴性作用(特征值越高,预示着生存时间越短);危险比小于1表示该特征具有保护作用(特征值越高,预示着生存时间越长)。根据这些结果,发现性能状态是生存的重要临床预测因子。IF特征中,在Cox结果中及在SVRc模型中常常选择相同的抗体;然而,所选的特征捕获的属性不同于使用SVRc-FR选择的属性。H&E特征中,Cox模型求出的上皮细胞核的平均面积和胞质的相对面积可预测生存。
表33.Cox结果。
Figure G2008800113680D01071
Figure G2008800113680D01081
DF,自由度;HR,危险比。
基于所有4个特征域的模型的详细说明见下文。可获得51名患者各输入域的全部数据。他们的人口学特征与总体组群的类似(表24)。
最终模型中所选的特征以其在模型中的重要性的顺序列于表26中。特征的阳性贡献是指数值越高,预测的结局越好(生存时间越长),阴性贡献是指数值越高,预测的结局越差。其贡献最远离零的特征被认为最重要。
执行了CI为0.74的最终模型。相比之下,仅利用临床数据的模型生成的CI为0.62;性能状态是选出的唯一临床特征。因此,增加免疫荧光和H&E特征将预测生存的能力提高12%。
通过基于log-rank检验的χ2统计分析了模型评分;此分析表明就患者实际生存经历而言,39.5的分界点最能将患者分开(χ2,21.39;调整p值,0.0002)。超过39.5的评分的危险比为5.26(95%置信区间:2.60,10.62),即评分超过39.5的患者与较低评分的患者相比,研究期间的死亡风险高5倍以上。死亡风险的这一危险比可能需要在回溯的独立组群中加以证实。绘制在分界点以上和以下的患者的Kaplan-Meier曲线,如图20所示。
通过Cox分析对各个特征的预测值作进一步检验。此分析证实,性能状态(危险比:4.4,95%置信区间1.96-9.92)是所有模型中生存的重要预测因子。对于IF特征(其运行不如性能状态稳健),常常选择相同的标记(即细胞周期蛋白D1、pKDR、胱冬蛋白酶-3),尽管在不同模型之间和不同模型内选出不同的反映标记不同属性的推导特征。
表26.从临床、组织形态测量学、免疫组织化学和免疫荧光特征域开发出的最终模型中所选择的特征
讨论
医学界一致同意,即使在成像研究中未见客观反应,鉴定出获益于吉非替尼的NSCLC患者十分重要。出于此原因,我们利用总体生存作为终点研究了对吉非替尼的反应。研究表明,用吉非替尼治疗的患者的总体生存预测模型通过在患者肿瘤样品中增加信息而得到改进。通过将定量生物标记特征和组织形态测量与临床数据整合,这类预测模型的准确率(CI)从62%(仅临床特征)提高到74%(所有域)。
有研究提出许多变量影响吉非替尼灵敏度,包括性别、肿瘤组织学(例如腺癌/支气管肺泡癌)、吸烟史、种族特点、EGFR基因拷贝数、EGFR激酶结构域突变,甚至EGFR突变的类型。近来,有报道指出EGFR外显子19缺失的患者比带有L858R突变的患者有较长生存期中位值。此外,EGFR启动子中种系多态性被认为是在没有酪氨酸激酶结构域突变的患者中对吉非替尼反应的潜在有关的因子。此外,在NSCLC患者中,不论肿瘤组织学或患者人口学特征,都观察到对吉非替尼的反应。
在本发明EAP组群中,在87名患者的4人中,在外显子19-21中鉴定出EGFR突变。尽管突变频率太低以致无法将这些突变包括在预测模型中,但是它却与以前主要涉及西方患者的研究一致。在该组群中,与以前的研究一样,EGFR突变的频率比获益于吉非替尼临床益处的可能频率低得多。在对得自本发明EAP组群的124名患者的分析中,45%的患者在第一次再评价时无发展证据,29%报道了当接受吉非替尼时肺癌相关症状得到改善。
始终被鉴定为与生存有关的唯一临床变量是性能状态。这与证实良好性能状态(ECOG状态0-2)与较长生存期有关的早期研究一致。在我们的预测模型中,没有选择与良好临床结局有关的支气管肺泡组织学特征;然而,可将所选择的组织学成像特征‘腔面积除以组织总面积’解释为这种腺癌亚型的替代形态特征。
尚未完全了解区分晚期NSCLC患者亚群的吉非替尼灵敏度的内在分子机制。除EGFR突变和EGFR基因拷贝数以外,已研究的其它分子变量包括完整EGFR、磷酸化EGFR及PI3K、pAkt和pERK等下游分子31,52-54。遗憾的是,在这些因子中每一个对吉非替尼灵敏度的作用(如存在的话)方面存在分歧,对它们对总体生存的重要性的意见也不一致。即使通过免疫组织化学评价的EGFR,也一直是在与吉非替尼反应相关性的相互矛盾的报告中的主题。
在本发明分析中,通过与总体生存相关的定量免疫荧光鉴定出若干标记。重要的是,通过最终模型选出2个细胞周期蛋白D1特征,其增量与较短的总体生存期有关。
由模型选出的其余生物标记,包括活性胱冬蛋白酶-3和磷酸化KDR,在肺癌临床样本中未曾经过广泛的研究。胱冬蛋白酶-3是将过量表达与生存期中位值联系在一起的相互矛盾的报告中的主题。然而,对于pKDR,没有最新发表的有关临床NSCLC样品中免疫组织化学或免疫荧光研究。Cox模型证实,VEGF过量表达(根据选出的特征)与生存期缩短有关,这与研究VEGF连同微血管(microvessel)密度和肿瘤侵袭的早期研究一致。在各种分模型中重复选出细胞周期蛋白D1、胱冬蛋白酶-3、pKDR和VEGF的事实表明,细胞周期调节和血管生成对于肿瘤生长、转移和存活的重要性。
因此,构建了一系列综合性基于***的模型,它成功地预测出用吉非替尼治疗的晚期NSCLC患者的总体生存。所选择的生物标记引起争议,因为它们代表细胞周期调节、细胞凋亡和血管生成的表现。
补充实施方案
因此可见,本文提供用于预测医学病症发生的方法和***。尽管本文详细公开了具体实施方案,但是以实施例的方式提供以仅用于说明目的,并无意限制随附权利要求书的范围。特别是本发明的发明人预期,可以在不偏离正如权利要求书所限定的本发明的精神和范围的情况下进行各种替换、变动和修改。其它方面、优势和修改都被视为落入所附权利要求书的范围内。权利要求书所提供的是本文所公开的本发明的代表。还包括其它未提出保护要求的发明。申请人保留在以后的权利要求书中提出这类发明的权利。
至于上述本发明的实施方案是至少部分应用计算机***可实施的,应当了解的是,设计出的用于实施至少部分所述方法和/或所述***的计算机程序作为本发明的方面。计算机***可以是任何合适的装置、***或设备。例如,计算机***可以是可编程的数据处理装置、通用计算机、数字信号处理器或微处理器。例如,计算机程序可以具体表现为源代码,并进行编译用于在计算机中运行,或者可以具体表现为目标代码。
还要了解的是,可以在硬件中执行归属于前述计算机程序或计算机***的一些或所有函数,例如通过一种或多种专用集成电路。
计算机程序可以适当的存储在计算机可用形式的载体介质中,载体介质也被视为本发明的方面。例如,载体介质可以是固态存储器、光学存储器或磁光存储器(例如可读和/或可写盘,例如紧致磁盘(CD)或数字通用光盘(DVD))或磁存储器(例如磁盘或磁带),可利用程序使计算机***进行配置以便运行。计算机程序也可由包括在载体介质中的远距离来源例如电子信号(包括射频载波或光载波)提供。
参考文献
下列参考文献(其中一些上文已提及)均通过引用全部结合到本文全文中:
[1]Scherr D.等,Urology.61(2增刊1):14-24,2003年2月,SwindleP.W.等,Urologic Clinics of North America.30(2):377-401,2003年5月。
[2]Wahlby C.等,Analytical Cellular Pathology 24,101-111,2002。
[3]Street W.N.,“Xcyt:A System for Remote Cytological Diagnosisand Prognosis of Breast Cancer(Xcyt:乳腺癌远程细胞学诊断和预后***)”,载于Soft Computing Techniques in Breast Cancer Prognosis and Diagnosis,L.C.Jain(编著),CRC Press,1999。
[4]Gleason D.F.,“The Veteran′s Administration CooperativeUrologic Research Group:Histologic Grading and Clinical Staging ofProstatic Carcinoma(美国退伍军人局泌尿科协作研究组:***癌的组织学分级和临床分期)”,Urologic Pathology:The Prostate,Tannenbaum M.(编著),171-198,Lea and Febiger,Philadelphia,1977。
[5]Cristianni等,An Introduction to Support Vector Machines,Cambridge,Cambridge University Press(2000)。
[6]Hastie,The Elements of Statistical Learning,Springer(2001)。
[7]F.E.Harrell等,“Evaluating the yield of medicaltests(医学试验结果的评价)”,JAMA,247(18):2543-2546,1982。
[8]Bishop,C.,Neural Networks for Pattern Recognition,OxfordUniversity Press(1995)。
[9]Fausett,L.,Fundamentals of Neural Networks,New York,Prentice Hall(1994)。
[10]Definiens Cellenger Architecture:A Technical Review,2004年4月。
[11]Baatz M.和
Figure G2008800113680D01141
A.,“Multiresolution Segmentation-AnOptimization Approach for High Quality Multi-scale Image Segmentation(多分辨率分割-高通量多尺度图像分割的优化方法)”,Angewandte Geographische Informationsverarbeitung XII,Strobl,J.,Blaschke,T.,Griesebner,G.(编著),Wichmann-Verlag,Heidelberg,12-23,2000。
[12]Fukunaga K.Introduction to Statistical Pattern Recognition,第2版,Boston:Academic Press,1990。
[13]Duda R.O.等,Pattern Classification,第2版,John Wiley & SonsInc.,2001。
[14]Holmberg  L.等,A randomized trial comparing radicalprostatectomy with watchful waiting in early prostate cancer(比较根治性***切除术与早期***癌观察等待的随机试验),N.Engl.M.Med.,347:781-789(2002)。
[15]Pound CR等,Natural history of progression after PSA elevationfollowing radical prostatectomy(根治性***切除术之后PSA升高后的自然进程史),JAMA 1999,281:1591-1597。
[16]Kumar-Sinha C.等,Molecular markers to identify patients at riskfor recurrence after primary treatment for prostate cancer(鉴定***癌初步后患者复发风险的分子标记),Urology2003;62增刊1:19-35。
[17]Cox D.R.,“Regression Models and Life Tables(回归模型和生存表)”,Journal of the Royal Statistical Society,B 34,187-220,1972。
[18]Harrell F.E.,Regression Modeling Strategies,Springer-Verlag2001。
[19]Tuxhorn等,“Reactive Stroma in Human Prostate Cancer:Induction of Myofibroblast Phenotype and Extracellular Matrix Remodeling(人***癌中的反应性基质:成肌纤维细胞表型和胞外基质重塑导论)”Clinical Cancer Research 2912,第8卷,2912-2923,2002年9月。
[20]Kattan等,“Postoperative Nomogram for Disease RecurrenceAfter Radical Prostatectomy for Prostate Cancer(***癌根治性***切除术后疾病复发的手术后列线图)”,Journal of Clinical Oncology,第17卷,第5期(5月),1999:第1499-1507页。
[21]C.Vonesch,F.Aquet,J.L.Vonesch和M.Unser,“The coloredrevolution of bioimaging(生物成像的彩色分辨率)”,IEEE Signal Proc.Mag.,第23卷,第3期,第20-31页,2006年5月。
[22]A.Krtolica,C.O.de Solorzano,S.Lockett和J.Campisi,“Quantification of epithelial cells in coculture with fibroblast by fluorescenceimage analysis(与成纤维细胞共培养物中通过荧光图像分析的上皮细胞的定量),Cytometry,第49页,第73-82页,2002。
[23]A.Gordon,A.Colman-Lerner,T.E.Chin,K.R.Benjamin,R.C.Yu和R.Brent,“Single-cell quantification of molecules and rates usingopen-source microscope-based cytometry(采用基于开放式源码显微镜的血细胞计数的单细胞分子定量和评价)”,Nature Methods,第4卷,第175-181页,2007。
[24]R.Camp,G.G.Chung和D.L.Rimm,“Automated subcellularlocalization and quantification of protein expression in tissue microarrays(组织微阵列中蛋白质表达的自动化亚细胞定位和定量)”,Nature Medicine,第8卷,第1323-1327页,2002。
[25]J.Y.Rao,D.Seligson和G.P.Hemstreet,“Protein expressionanalysis using quantitative fluorescence image analysis on tissue microarrayslides(采用组织微阵列载玻片的定量荧光图像分析对蛋白质表达进行分析)”,Bio Techniques,第32卷,第924-932页,2002。
[26]Definiens Understanding Images,Developer Version 6,2007.http://www.definiens.com。
[27]http://www.cri-inc.com。
[28]A.Tabesh,M.Teverovskiy,H.-Y Pang,V.P.Kumar,D.Verbel,A.Kotsianti和O.Saidi,“Multifeature prostate cancer diagnosis and Gleasongrading of histological images(组织图像的多特征***癌诊断和Gleason分级)”,IEEE Trans.Medical Imag.,第26卷,第1366-1378页,2007。
[29]Giaccone G,Herbst RS,Manegold C等:Gefitinib in combinationwith gemcitabine and cisplatin in advanced non-small-cell lung cancer:aphase III trial--INTACT 1(晚期非小细胞肺癌中吉非替尼与吉西他滨和顺铂的组合:III期试验--INTACT 1).J Clin Oncol 22:777-84,2004。
[30]Herbst RS,Giaccone G,Schiller JH等:Gefitinib in combinationwith paclitaxel and carboplatin in advanced non-sman-cell lung cancer:aphase III trial--INTACT 2(晚期非小细胞肺癌中吉非替尼与紫杉醇和卡铂的组合:III期试验--INTACT 2).J Clin Oncol 22:785-94,2004。
[31]Thatcher N,Chang A,Parikh P等,Gefitinib plus best supportivecare in previously treated patients with refractory advanced non-small-celllung cancer:results from a randomised,placebo-controlled,multicentre study(Iressa Survival Evaluation in Lung Cancer)(以前已接受治疗的难治性晚期非小细胞肺癌患者中的吉非替尼加最佳支持治疗:随机、安慰剂对照的多中心研究结果(肺癌中的Iressa生存评价))。Lancet 366:1527-37,2005。
[32]Lynch TJ,Bell DW,Sordella R等:Activating mutations in theepidermal growth factor receptor underlying responsiveness of non-small-celllung cancer to gefitinib(在非小细胞肺癌对吉非替尼的反应性基础上的表皮生长因子受体的活化突变)。N Engl J Med 350:2129-39,2004。
[33]Dudek AZ,Kmak KL,Koopmeiners J等:Skin rash andbronchoalveolar histology correlates with clinical benefit in patients treatedwith gefitinib as a therapy for previously treated advanced or metastaticnon-small cell lung cancer(皮疹和支气管肺泡组织学与吉非替尼用作之前治疗晚期或转移性非小细胞肺癌疗法来治疗的患者的临床益处有关)。Lung Cancer 51:89-96,2006。
[34]Cappuzzo F,Hirsch FR,Rossi E等:Epidermal growth factorreceptor gene and protein and gefitinib sensitivity in non-small-cell lungcancer(非小细胞肺癌中表皮生长因子受体基因和蛋白质与吉非替尼灵敏度)。J Natl Cancer Inst 97:643-55,2005。
[35]Oken MM,Creech RH,Tormey DC,Horton J,Davis TE,McFadden等:Toxicity and response criteria of the Eastern CooperativeOncology Group(东部肿瘤协作组的毒性与反应标准)。Am J Clin Oncol5:649-655,1982。Cordon-Cardo C,Kotsianti A,Donovan M等:Improvedprediction of PSA recurrence through systems pathology(通过***病理学改进对PSA复发的预测)。J Clin Oncol 22:4591,2004(摘要)。
[36]Zubek V,Verbel D,Saidi O:Censored time trees for predictingtime to PSA recurrence(预测PSA复发时间的截尾时间树),第四届国际机器学习和应用大会(the Fourth International Conference on MachineLearning and Applications(ICMLA 2005))会议记录。Washington,DC,IEEE Computer Society,2005,第221-226页。
[37]Paez JG,Janne PA,Lee JC等:EGFR mutations in lung cancer:correlation with clinical response to gefitinib therapy(肺癌中的EGFR突变:与吉非替尼疗法临床反应的关联性)。Science 304:1497-500,2004。
[38]Bell DW,Gore I,Okimoto RA等:Epidermal growth factorreceptor in non-small-celllung carcinomas:correlation between gene copynumber and protein expression and impact on prognosis(肺癌的遗传易感性可能与EGFR中的T790M抗药性突变有关)。Nat Genet 37:1315-6,2005。
[39]Hirsch FR,Varella-Garcia M,Bunn PA,Jr.等:Mutations of theepidermal growth factor receptor in non-small cell lung cancer--search anddestroy(非小细胞肺癌中的表皮生长因子受体:基因拷贝数与蛋白质表达之间的关联性以及对预后的影响)。J Clin Oncol 21:3798-807,2003。
[40]Chan SK,Gullick WJ,Hill ME:Mutations of the epidermalgrowth factor receptor in non-small cell lung cancer--search and destroy(非小细胞肺癌中表皮生长因子受体的突变-探查与破坏)。Eur J Cancer 42:17-23,2006。
[41]Riely GJ,Pao W,Pham D等:Clinical course of patients withnon-small cell lung cancer and epidermal growth factor receptor exon 19 andexon 21 mutations treated with gefitinib or erlotinib(用吉非替尼或埃罗替尼治疗的患有非小细胞肺癌并具有表皮生长因子受体外显子19和外显子21突变的患者的临床进程)。Clin Cancer Res:839-44,2006。
[42]Sequist LV,Bell DW,Lynch TJ等:Molecular predictors ofresponse to epidermal growth factor receptor antagonists in non-small-celllung cancer(非小细胞肺癌中对表皮生长因子受体拮抗剂起反应的分子预测因子)。J Clin Oncol 25:587-95,2007。
[43]Uchida A,Hirano S,Kitao H等:Activation of downstreamepidermal growth factor receptor(EGFR)signaling providesgefitinib-resistance in cells carrying EGFR mutation(下游表皮生长因子受体(EGFR)信号转导的活化在携带EGFR突变的细胞中提供吉非替尼抗性)。Cancer Sci 98:357-63,2007。
[44]Sugio K,Uramoto H,Ono K等:Mutations within the tyrosinekinase domain of EGFR gene specifically occur in lung adenocarcinomapatients with a low exposure of tobacco smoking(特异性发生在低暴露于吸烟的肺腺癌患者中EGFR基因酪氨酸激酶结构域的突变)。Br J Cancer94:896-903,2006。
[45]Edelman MJ:An update on the role of epidermal growth factorreceptor inhibitors in non-small cell lung cancer(对非小细胞肺癌中表皮生长因子受体抑制剂的作用的更新)。Semin Oncol 32:S3-8,2005。
[46]Kris MG,Natale RB,Herbst RS等:Efficacy of gefitinib,aninhibitor of the epidermal growth factor receptor tyrosine kinase,insymptomatic patients with non-small cell lung cancer:a randomized trial(表皮生长因子受体酪氨酸激酶抑制剂吉非替尼对具有非小细胞肺癌症状的患者的功效:随机试验)。Jama 290:2149-58,2003。
[47]Al-Kuraya K,Siraj AK,Bavi P等:High epidermal growth factorreceptor amplification rate but low mutation frequency in Middle East lungcancer population(中东部肺癌人群中表皮生长因子受体扩增率高但突变频率低)。Hum Pathol 37:453-7,2006。
[48]Hainsworth JD,Mainwaring MG,Thomas M等:Gefitinib in thetreatment of advanced,refractory non-small-cell lung cancer:results in 124patients(晚期难治性非小细胞肺癌治疗中的吉非替尼:124名患者的结果)。Clin Lung Cancer 4:347-55,2003。
[49]Su WP,Yang CH,Yu CJ等:Gefitinib treatment for non-smallcell lung cancer--a study including patients with poor performance status(非小细胞肺癌的吉非替尼治疗--包括性能状态不良患者在内的研究)。JFormos Med Assoc 104:557-62,2005。
[50]Erman M,Grunenwald D,Penault-Llorca F等:Epidermal growthfactor receptor,HER-2/neu and related pathways in lung adenocarcinomaswith bronchioloalveolar features(肺腺癌中表皮生长因子受体、HER-2/neu和相关途径与细支气管肺泡特征)。Lung Cancer 47:315-23,2005。
[51]Massion PP,Taflan PM,Shyr Y等:Early involvement of thephosphatidylinositol 3-kinase/Akt pathway in lung cancer progression(肺癌进程中早期涉及磷酯酰肌醇3-激酶/Akt途径)。Am J Respir Crit Care Med170:1088-94,2004。
[52]Cappuzzo F,Magrini E,Ceresoli GL等:Akt phosphorylation andgefitinib efficacy in patients with advanced non-small-cell lung cancer(Akt磷酸化和吉非替尼在晚期非小细胞肺癌患者中的功效)。J Natl Cancer Inst96:1133-41,2004。
[53]Han SW,Hwang PG,Chung DH等:Epidermal growth factorreceptor(EGFR)downstream molecules as response predictive markers forgefitinib(Iressa,ZD1839)in chemotherapy-resistant non-small cell lungcancer(化疗抗性非小细胞肺癌中作为吉非替尼(Iressa,ZD1839)反应预测标记的表皮生长因子受体(EGFR)下游分子)。Int J Cancer 113:109-15,2005。
[54]Bailey L,Kris M,Wolf M等:Tumor EGFR membrane stainingis not clinically relevant for predicting response in patients receiving gifitinib(Iressa,ZD 1839)monotherapy for pretreated advanced non-small-cell lungcancer:IDEAL 1 and 2(肿瘤EGFR膜染色在临床上与接受吉非替尼(Iressa,ZD 1839)单一疗法以预治疗晚期非小细胞肺癌的患者中的预测反应无关:IDEAL 1和IDEAL 2)。Proc Am Assoc Cancer Res 44:1362,2003(摘要)。
[55]Bailey L,Janas M,Schmidt K等:Evaluation of epidermal growthfactor receptor(EGFR)as a predictive marker in patients with non-small-celllung cancer(NSCLC)receiving first-line gefitinib combined withplatinum-based chemotherapy(对主要接受吉非替尼结合基于铂的化学疗法的非小细胞肺癌(NSCLC)患者中表皮生长因子受体(EGFR)作为预测标记的评价)。J Clin Oncol 22:7013,2004(摘要)。
[56]Jin M,Inoue S,Umemura T等:Cyclin D1,p16 andretinoblastoma gene product expression as  a predictor for prognosis innon-small celllung cancer at stages I and H(作为I期和II期非小细胞肺癌预后预测因子的细胞周期蛋白D1、p16和成视网膜细胞瘤基因产物表达)。Lung Cancer 34:207-18,2001。
[57]Keum JS,Kong G,Yang SC等:Cyclin D1 overexpression is anindicator of poor prognosis in resectable non-small cell lung cancer(细胞周期蛋白D1过量表达是在适宜切除非小细胞肺癌中预后差的标志)。Br JCancer 81:127-32,1999。
[58]Kalish LH,Kwong RA,Cole IE等:Deregulated cyclin D1expression is associated with decreased efficacy of the selective epidermalgrowth factor receptor tyrosine kinase inhibitor gefitinib in head and necksquamous cell carcinoma cell lines(细胞周期蛋白D1表达失调与头颈部鳞状细胞癌细胞系中选择性表皮生长因子受体酪氨酸激酶抑制剂吉非替尼功效降低有关)。Clin Cancer Res 10:7764-74,2004。
[59]Koomagi R,Volm M:Relationship between the expression ofcaspase-3 and the clinical outcome of patients with non-small cell lungcancer(胱冬蛋白酶-3表达与非小细胞肺癌患者临床结局之间的关系)。Anticancer Res 20:493-6,2000。
[60]Takata T,Tanaka F,Yamada T等:Clinical significance ofcaspase-3 expression in patholo gic-stage I,nonsmall-cell lung cancer(胱冬蛋白酶-3表达在非小细胞肺癌病理I期中的临床重要性)。Int J Cancer 96增刊:54-60,2001。
[61]Mineo TC,Ambrogi V,Baldi A等:Prognostic impact of VEGF,CD31,CD34,and CD105 expression and tumour vessel invasion after radicalsurgery for IB-IIA non-small cell lung cancer(IB-IIA非小细胞肺癌根治性手术后VEGF、CD31、CD34和CD105表达及肿瘤血管侵袭的预后作用)。J Clin Pathol 57:591-7,2004.
表1.形态测量特征
脚本v1.0(496个特征)
Figure G2008800113680D01221
Figure G2008800113680D01241
Figure G2008800113680D01251
Figure G2008800113680D01261
Figure G2008800113680D01271
Figure G2008800113680D01291
Figure G2008800113680D01311
Figure G2008800113680D01321
Figure G2008800113680D01331
Figure G2008800113680D01341
Figure G2008800113680D01351
表2.形态测量特征
脚本v2.0(350个特征)
Figure G2008800113680D01352
Figure G2008800113680D01371
Figure G2008800113680D01381
Figure G2008800113680D01391
Figure G2008800113680D01401
Figure G2008800113680D01411
Figure G2008800113680D01421
Figure G2008800113680D01431
Figure G2008800113680D01441
表17.形态测量特征
脚本v5.0(38个特征)
Figure G2008800113680D01451
Figure G2008800113680D01461
表18.形态测量特征
Figure G2008800113680D01462
Figure G2008800113680D01471
表19.实施例8临床信息
Figure G2008800113680D01472
表20.所评价和所选择的实施例9特征
Figure G2008800113680D01491
Figure G2008800113680D01501
表21.实施例9患者的临床特征
Figure G2008800113680D01502
Figure G2008800113680D01511
表22.形态测量特征-脚本v6.0(27特征)
Figure G2008800113680D01512
Figure G2008800113680D01521

Claims (35)

1.一种用于评价患者的***癌复发风险的装置,所述装置包括:
经构建以评价患者数据集从而评价患者的***癌复发风险的预测***癌复发的模型,其中所述模型以一个或多个选自以下特征组中的特征为基础:
活组织检查Gleason评分;
精囊侵袭;
囊外扩散;
手术前PSA;
主要***切除术Gleason等级;
AR+上皮细胞核相对面积;
由组织图像得出的上皮细胞核的形态测量值;和
由组织图像得出的上皮细胞质的形态测量值。
2.权利要求1的装置,其中所述上皮细胞核的形态测量值包括肿瘤上皮细胞核的质地测量值。
3.权利要求1的装置,其中所述上皮细胞质的形态测量值包括肿瘤上皮细胞质的质地测量值。
4.权利要求1的装置,其中所述模型以组中的2个特征为基础。
5.权利要求1的装置,其中所述模型以组中的3个特征为基础。
6.权利要求1的装置,其中所述模型以组中的4个特征为基础。
7.权利要求1的装置,其中所述模型以组中的5个特征为基础。
8.权利要求1的装置,其中所述模型以组中的6个特征为基础。
9.权利要求1的装置,其中所述模型以组中的7个特征为基础。
10.权利要求1的装置,其中所述模型以组中的所有8个特征为基础。
11.权利要求1的装置,其中所述模型经构建以生成指示患者医学病症发生风险的值。
12.权利要求1的装置,其中所述模型以AR+上皮细胞核相对面积特征为基础,所述特征以显示免疫荧光的组织图像的计算机分析为基础。
13.一种评价患者的***癌复发风险的方法,该方法包括:
用预测***癌复发的模型评价患者的数据集,其中所述模型以一个或多个选自以下特征组中的特征为基础:活组织检查Gleason评分、精囊侵袭、囊外扩散、手术前PSA、主要***切除术Gleason等级、AR+上皮细胞核相对面积、由组织图像得出的上皮细胞核的形态测量值和由组织图像得出的上皮细胞质的形态测量值,
从而评价患者的***癌复发风险。
14.权利要求13的方法,其中所述上皮细胞核的形态测量值包括肿瘤上皮细胞核的质地测量值。
15.权利要求13的方法,其中所述上皮细胞质的形态测量值包括肿瘤上皮细胞质的质地测量值。
16.权利要求13的方法,该方法进一步包括输出指示患者的***癌复发风险的值。
17.权利要求13的方法,该方法进一步包括根据对显示免疫荧光的组织图像的计算机分析,生成AR+上皮细胞核相对面积的特征。
18.一种计算机可读取介质,所述介质包括记录在其上用于执行所述方法的计算机可执行指令,该方法包括:
用预测***癌复发的模型评价患者的数据集从而评价患者的***癌复发风险,其中所述模型以一个或多个选自以下特征组中的特征为基础:活组织检查Gleason评分、精囊侵袭、囊外扩散、手术前PSA、主要***切除术Gleason等级、AR+上皮细胞核的相对面积、由组织图像得出的上皮细胞核的形态测量值和由组织图像得出的上皮细胞质的形态测量值。
19.一种评价患者进行根治性***切除术后患者的临床失败风险的装置,所述装置包括:
经构建以评价患者数据集从而评价患者临床失败风险的临床失败预测模型,其中所述模型以一个或多个选自以下特征组中的特征为基础:
主要***切除术Gleason等级;
***侵袭状况;
由组织图像得出的腔的形态测量值;
由组织图像得出的胞质的形态测量值;和
AR+/AMACR-上皮细胞核中AR的平均强度。
20.权利要求19的装置,其中所述腔的形态测量值包括腔的平均周长。
21.权利要求19的装置,其中所述腔的形态测量值包括腔的相对面积。
22.权利要求19的装置,其中所述模型以腔的至少2个的形态测量值为基础,所述形态测量值包括腔的平均周长和腔的相对面积。
23.权利要求19的装置,其中所述模型以AR+/AMACR-上皮细胞核中AR的平均强度特征为基础,所述特征以对显示免疫荧光的组织图像的计算机分析为基础。
24.权利要求19的装置,其中所述模型以组中的2个特征为基础。
25.权利要求19的装置,其中所述模型以组中的3个特征为基础。
26.权利要求19的装置,其中所述模型以组中的4个特征为基础。
27.权利要求19的装置,其中所述模型以组中的5个特征为基础。
28.权利要求19的装置,其中所述模型经构建以生成指示患者临床失败风险的值。
29.一种评价患者进行根治性***切除术后患者的临床失败风险的方法,该方法包括:
用预测***切除术后临床失败的模型评价患者数据集,其中所述模型以一个或多个选自以下特征组中的特征为基础:主要***切除术Gleason等级、***侵袭状况、由组织图像得出的腔的形态测量值、由组织图像得出的胞质的形态测量值和AR+/AMACR-上皮细胞核中AR的平均强度,
从而评价患者的临床失败风险。
30.权利要求29的方法,其中所述腔的形态测量值包括腔的平均周长。
31.权利要求29的方法,其中所述腔的形态测量值包括腔的相对面积。
32.权利要求29的方法,其中所述模型以腔的至少2个的形态测量值为基础,所述形态测量值包括腔的平均周长和腔的相对面积。
33.权利要求29的方法,该方法还包括输出指示患者临床失败风险的值。
34.权利要求29的方法,该方法还包括根据对显示免疫荧光的组织图像的计算机分析,生成AR+/AMACR-上皮细胞核中的AR平均强度的特征。
35.一种计算机可读取介质,所述介质包括记录在其上用于执行所述方法的计算机可执行指令,该方法包括:
用预测***切除术后临床失败的模型评价患者数据集从而评价患者的临床失败风险,其中所述模型以一个或多个选自以下特征组中的特征为基础:主要***切除术Gleason等级、***侵袭状况、由组织图像得出的腔的形态测量值、由组织图像得出的胞质的形态测量值和AR+/AMACR-上皮细胞核的AR平均强度。
CN200880011368A 2007-04-05 2008-04-07 用于治疗、诊断和预测医学病症发生的***和方法 Pending CN101689220A (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US92216307P 2007-04-05 2007-04-05
US92214907P 2007-04-05 2007-04-05
US60/922,163 2007-04-05
US60/922,149 2007-04-05
US92344707P 2007-04-13 2007-04-13
US60/923,447 2007-04-13
US1059808P 2008-01-09 2008-01-09
US61/010,598 2008-01-09
PCT/US2008/004523 WO2008124138A1 (en) 2007-04-05 2008-04-07 Systems and methods for treating, diagnosing and predicting the occurrence of a medical condition

Publications (1)

Publication Number Publication Date
CN101689220A true CN101689220A (zh) 2010-03-31

Family

ID=39591428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880011368A Pending CN101689220A (zh) 2007-04-05 2008-04-07 用于治疗、诊断和预测医学病症发生的***和方法

Country Status (9)

Country Link
US (1) US20100088264A1 (zh)
EP (1) EP2145276B1 (zh)
JP (1) JP2010523979A (zh)
CN (1) CN101689220A (zh)
AU (1) AU2008236634A1 (zh)
CA (1) CA2679436C (zh)
ES (1) ES2808569T3 (zh)
PT (1) PT2145276T (zh)
WO (1) WO2008124138A1 (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968558A (zh) * 2012-11-14 2013-03-13 叶定伟 一种预测初诊***癌骨转移风险的装置
CN103097889A (zh) * 2010-09-30 2013-05-08 日本电气株式会社 信息处理设备、信息处理***、信息处理方法、程序和记录介质
CN104182450A (zh) * 2013-05-20 2014-12-03 株式会社日立制作所 信息结构化***
CN105653858A (zh) * 2015-12-31 2016-06-08 中国科学院自动化研究所 一种基于影像组学的病变组织辅助预后***和方法
CN105683975A (zh) * 2013-10-23 2016-06-15 皇家飞利浦有限公司 使得能够有效管理处置计划以及其修正和更新的***和方法
CN106575318A (zh) * 2014-08-12 2017-04-19 皇家飞利浦有限公司 通过预测针对下一次检查的原因来增加价值并降低后续放射学检查率
CN107395675A (zh) * 2017-06-16 2017-11-24 康美健康云服务有限公司 一种基于互联网的肿瘤病患反馈方法及***
CN108595909A (zh) * 2018-03-29 2018-09-28 山东师范大学 基于集成分类器的ta蛋白靶向预测方法
CN109036571A (zh) * 2014-12-08 2018-12-18 20/20基因***股份有限公司 用于预测患有癌症的可能性或风险的方法和机器学习***
CN109069858A (zh) * 2015-12-21 2018-12-21 医科达股份有限公司 用于优化治疗计划的***和方法
CN109124660A (zh) * 2018-06-25 2019-01-04 南方医科大学南方医院 基于深度学习的胃肠间质瘤术后风险检测方法和***
CN109411015A (zh) * 2018-09-28 2019-03-01 深圳裕策生物科技有限公司 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
CN109559243A (zh) * 2018-12-13 2019-04-02 泰康保险集团股份有限公司 保险核保方法、装置、介质及电子设备
CN109791155A (zh) * 2016-08-31 2019-05-21 蒙彼利埃癌症区域研究所 用于预测放射治疗后发生***晚期效应的风险的体外方法
CN110033456A (zh) * 2019-03-07 2019-07-19 腾讯科技(深圳)有限公司 一种医疗影像的处理方法、装置、设备和***
CN110111882A (zh) * 2011-10-24 2019-08-09 哈佛大学校长及研究员协会 通过人工智能和移动健康技术、在不损害准确性的情况下对病症进行增强诊断
CN110760585A (zh) * 2019-11-07 2020-02-07 深圳市华启生物科技有限公司 ***癌生物标志物及其应用
CN111063453A (zh) * 2018-10-16 2020-04-24 鲁东大学 一种心力衰竭早期检测方法
CN111383761A (zh) * 2018-12-28 2020-07-07 医渡云(北京)技术有限公司 医疗数据分析方法、装置、电子设备及计算机可读介质
CN111613334A (zh) * 2020-06-01 2020-09-01 广东省心血管病研究所 主动脉弓置换术后急性肾损伤概率预测模型的建立方法
CN112020647A (zh) * 2018-04-26 2020-12-01 日本电气株式会社 信息处理装置、控制方法和程序
CN112292697A (zh) * 2018-04-13 2021-01-29 弗里诺姆控股股份有限公司 用于生物样品的多分析物测定的机器学习实施方式
CN112466464A (zh) * 2020-12-17 2021-03-09 四川大学华西医院 初诊转移性***癌患者的预后预测模型及其建立方法和应用
CN112837819A (zh) * 2021-01-20 2021-05-25 尹丽君 建立冠状动脉旁路移植术后急性肾损伤预测模型的方法
CN112868034A (zh) * 2018-10-18 2021-05-28 索尼公司 用于放大的增强颜色再现
CN113284619A (zh) * 2021-04-20 2021-08-20 四川大学华西医院 预测***癌患者术后出现生化复发的方法及设备
CN113317797A (zh) * 2021-04-05 2021-08-31 宁波工程学院 一种结合医疗领域知识的可解释心率失常诊断方法
CN113993475A (zh) * 2020-05-20 2022-01-28 康坦手术股份有限公司 通过图像分析来预测病变复发的方法
US11270785B1 (en) * 2019-11-27 2022-03-08 Clarify Health Solutions, Inc. Computer network architecture with machine learning and artificial intelligence and care groupings
CN114305324A (zh) * 2020-09-28 2022-04-12 台北医学大学 肿瘤复发预测装置与方法
CN114359899A (zh) * 2021-12-09 2022-04-15 首都医科大学附属北京天坛医院 细胞共培养模型及细胞模型构建方法、计算机设备及存储介质
US11605465B1 (en) 2018-08-16 2023-03-14 Clarify Health Solutions, Inc. Computer network architecture with machine learning and artificial intelligence and patient risk scoring
US11621085B1 (en) 2019-04-18 2023-04-04 Clarify Health Solutions, Inc. Computer network architecture with machine learning and artificial intelligence and active updates of outcomes
CN115919464A (zh) * 2023-03-02 2023-04-07 四川爱麓智能科技有限公司 肿瘤定位方法、***、装置及肿瘤发展预测方法
US11625789B1 (en) 2019-04-02 2023-04-11 Clarify Health Solutions, Inc. Computer network architecture with automated claims completion, machine learning and artificial intelligence
US11636497B1 (en) 2019-05-06 2023-04-25 Clarify Health Solutions, Inc. Computer network architecture with machine learning and artificial intelligence and risk adjusted performance ranking of healthcare providers
CN117275744A (zh) * 2023-11-22 2023-12-22 北京大学人民医院 一种综合基因突变特征与mIF图像特征的肺癌预后多模态预测模型构建方法

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8425418B2 (en) 2006-05-18 2013-04-23 Eigen, Llc Method of ultrasonic imaging and biopsy of the prostate
US8064664B2 (en) 2006-10-18 2011-11-22 Eigen, Inc. Alignment method for registering medical images
US7804989B2 (en) 2006-10-30 2010-09-28 Eigen, Inc. Object recognition system for medical imaging
US8175350B2 (en) 2007-01-15 2012-05-08 Eigen, Inc. Method for tissue culture extraction
US7856130B2 (en) 2007-03-28 2010-12-21 Eigen, Inc. Object recognition system for medical imaging
US8571277B2 (en) 2007-10-18 2013-10-29 Eigen, Llc Image interpolation for medical imaging
US7942829B2 (en) 2007-11-06 2011-05-17 Eigen, Inc. Biopsy planning and display apparatus
DE102008000038A1 (de) * 2008-01-11 2009-07-16 Robert Bosch Gmbh Vorrichtung
AU2009270856B2 (en) 2008-07-16 2013-07-25 Pharmacyclics Llc Inhibitors of Bruton's tyrosine kinase for the treatment of solid tumors
PT2332087T (pt) 2008-07-25 2020-06-05 Fund D Anna Sommer Champalimaud E Dr Carlos Montez Champalimaud Sistemas e métodos de tratamento, diagnóstico e previsão da ocorrência de uma condição médica
US9779213B2 (en) 2008-07-25 2017-10-03 Fundacao D. Anna Sommer Champalimaud E Dr. Carlos Montez Champalimaud System for evaluating a pathological stage of prostate cancer
US8488863B2 (en) * 2008-11-06 2013-07-16 Los Alamos National Security, Llc Combinational pixel-by-pixel and object-level classifying, segmenting, and agglomerating in performing quantitative image analysis that distinguishes between healthy non-cancerous and cancerous cell nuclei and delineates nuclear, cytoplasm, and stromal material objects from stained biological tissue materials
US8031201B2 (en) 2009-02-13 2011-10-04 Cognitive Edge Pte Ltd Computer-aided methods and systems for pattern-based cognition from fragmented material
CN113189342A (zh) 2009-03-12 2021-07-30 癌症预防和治疗有限公司 鉴定、评估、预防以及治疗肺疾病的方法及试剂盒
CA2762886A1 (en) * 2009-05-22 2010-11-25 British Columbia Cancer Agency Branch Selective excitation light fluorescence imaging methods and apparatus
GB0911007D0 (en) * 2009-06-25 2009-08-12 Univ Hospital Of North Staffordshire Analyzer apparatus and methods for lung disease
MX342405B (es) 2010-06-03 2016-09-28 Pharmacyclics Inc El uso de inhibidores de la tirosina quinasa de bruton (btk).
US20120004925A1 (en) * 2010-06-30 2012-01-05 Microsoft Corporation Health care policy development and execution
WO2015179868A2 (en) * 2014-05-23 2015-11-26 Dacadoo Ag Automated health data acquisition, processing and communication system
US9230063B2 (en) * 2011-01-05 2016-01-05 The Board Of Trustees Of The University Of Illinois Automated prostate tissue referencing for cancer detection and diagnosis
US9779283B2 (en) * 2011-01-05 2017-10-03 The Board Of Trustees Of The University Of Illinois Automated prostate tissue referencing for cancer detection and diagnosis
AU2012249288C1 (en) * 2011-04-29 2017-12-21 Cancer Prevention And Cure, Ltd. Methods of identification and diagnosis of lung diseases using classification systems and kits thereof
BR112014000653A2 (pt) 2011-07-13 2017-02-14 Pharmacyclics Inc inibidores de tirosina quinase de bruton
WO2013049153A2 (en) 2011-09-27 2013-04-04 Board Of Regents, University Of Texas System Systems and methods for automated screening and prognosis of cancer from whole-slide biopsy images
JP6144916B2 (ja) * 2012-01-30 2017-06-07 キヤノン株式会社 生体組織画像のノイズ低減処理方法及び装置
AU2013293087B2 (en) 2012-07-24 2017-08-31 Pharmacyclics Llc Mutations associated with resistance to inhibitors of Bruton's tyrosine kinase (BTK)
US20150241406A1 (en) * 2012-10-02 2015-08-27 Charité Universitätsmedizin Berlin Means and Methods for Diagnosing Recurrence of Prostate Cancer After Prostatectomy
US11361848B2 (en) * 2013-01-31 2022-06-14 Curelator, Inc. Methods and systems for determining a correlation between patient actions and symptoms of a disease
WO2014137892A1 (en) * 2013-03-04 2014-09-12 Board Of Regents Of The University Of Texas System System and method for determining triage categories
JP6004084B2 (ja) * 2013-03-29 2016-10-05 富士通株式会社 モデル更新方法、装置、およびプログラム
EP2997514A4 (en) * 2013-05-14 2017-03-01 The Regents of The University of California Context-aware prediction in medical systems
ES2709509T3 (es) 2013-08-12 2019-04-16 Pharmacyclics Llc Procedimientos para el tratamiento de cáncer amplificado por HER2
CN105579847B (zh) * 2013-09-19 2019-07-12 学校法人庆应义塾 疾病分析装置、控制方法和程序
WO2015054666A1 (en) 2013-10-10 2015-04-16 Board Of Regents, The University Of Texas System Systems and methods for quantitative analysis of histopathology images using multi-classifier ensemble schemes
WO2015143400A1 (en) 2014-03-20 2015-09-24 Pharmacyclics, Inc. Phospholipase c gamma 2 and resistance associated mutations
US20150347695A1 (en) 2014-05-29 2015-12-03 The Research Foundation For The State University Of New York Physician attribution for inpatient care
DE102014213828A1 (de) * 2014-07-16 2016-01-21 Siemens Aktiengesellschaft Prognosesystem und Prognoseverfahren
WO2016029175A1 (en) * 2014-08-21 2016-02-25 Pharmacyclics Llc Methods for treating egfr mutant disorders
CN104462866A (zh) * 2014-12-01 2015-03-25 金华市中心医院 气道侵袭性曲霉病评分模型及其建立方法
GB201504569D0 (en) * 2015-03-18 2015-05-06 Oxford Cancer Biomarkers Ltd Tissue sample analysis technique
US10716544B2 (en) 2015-10-08 2020-07-21 Zmk Medical Technologies Inc. System for 3D multi-parametric ultrasound imaging
US20170177822A1 (en) * 2015-12-18 2017-06-22 Pointright Inc. Systems and methods for providing personalized prognostic profiles
US20170235905A1 (en) * 2016-02-15 2017-08-17 REACH Health, Inc. Telemedicine Data and Video Management System
CN107180220B (zh) * 2016-03-11 2023-10-31 松下电器(美国)知识产权公司 危险预测方法
US11355245B2 (en) 2016-05-03 2022-06-07 International Business Machines Corporation Identifying and ranking risk factors using trained predictive models
US10542262B2 (en) * 2016-11-15 2020-01-21 City University Of Hong Kong Systems and methods for rate control in video coding using joint machine learning and game theory
JP7250693B2 (ja) 2017-04-04 2023-04-03 ラング キャンサー プロテオミクス, エルエルシー 初期ステージの肺がん診断のための血漿ベースのタンパク質プロファイリング
US10755408B2 (en) * 2017-05-09 2020-08-25 Canon Medical Systems Corporation Medical information processing system and medical information processing apparatus
US11080855B1 (en) 2017-06-06 2021-08-03 Path AI, Inc. Systems and methods for predicting tissue characteristics for a pathology image using a statistical model
US11645835B2 (en) 2017-08-30 2023-05-09 Board Of Regents, The University Of Texas System Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications
US11322259B2 (en) 2017-09-08 2022-05-03 The General Hospital Corporation Patient risk stratification based on body composition derived from computed tomography images using machine learning
EP3477659A1 (en) * 2017-10-27 2019-05-01 Koninklijke Philips N.V. A method and system of intelligent numeric categorization of noisy data
US11263230B2 (en) * 2017-09-29 2022-03-01 Koninklijke Philips N.V. Method and system of intelligent numeric categorization of noisy data
US11177024B2 (en) * 2017-10-31 2021-11-16 International Business Machines Corporation Identifying and indexing discriminative features for disease progression in observational data
WO2019108888A1 (en) * 2017-11-30 2019-06-06 The Research Foundation For The State University Of New York SYSTEM AND METHOD TO QUANTIFY TUMOR-INFILTRATING LYMPHOCYTES (TILs) FOR CLINICAL PATHOLOGY ANALYSIS
US10692605B2 (en) 2018-01-08 2020-06-23 International Business Machines Corporation Library screening for cancer probability
KR101923199B1 (ko) 2018-04-25 2018-11-28 주식회사 무진메디 펩스타틴 a를 함유하는 소변 내 en2 진단용 조성물
EP3573072A1 (en) * 2018-05-22 2019-11-27 Koninklijke Philips N.V. Performing a prognostic evaluation
CN112567378A (zh) * 2018-05-27 2021-03-26 易鲁希德生物成像公司 利用定量成像的方法和***
WO2020036571A1 (en) 2018-08-16 2020-02-20 RICHARDSON, Paul, Stephen Systems and methods for automatic bias monitoring of cohort models and un-deployment of biased models
WO2020077232A1 (en) * 2018-10-12 2020-04-16 Cambridge Cancer Genomics Limited Methods and systems for nucleic acid variant detection and analysis
US11195062B2 (en) * 2018-11-15 2021-12-07 Nantomics, Llc Classification based on characterization analysis methods and systems
CN113226157A (zh) * 2018-12-19 2021-08-06 匹兹堡大学高等教育联邦体系 用于原位或体外多参数细胞和亚细胞成像数据的计算***病理学空间分析平台
US11302423B2 (en) * 2019-01-23 2022-04-12 International Business Machines Corporation Predicting patients who can benefit from a clinical trial
US11302424B2 (en) * 2019-01-24 2022-04-12 International Business Machines Corporation Predicting clinical trial eligibility based on cohort trends
EP3935577A4 (en) * 2019-03-08 2022-11-16 University Of Southern California IMPROVED HISTOPATHOLOGY CLASSIFICATION THROUGH MACHINE SELF-LEARNING FROM TISSUE FINGERPRINTS
CA3134081A1 (en) * 2019-03-19 2020-09-24 Optina Diagnostics, Inc. Method and system for identifying subjects who are potentially impacted by a medical condition
KR102369717B1 (ko) * 2019-12-19 2022-03-03 인제대학교 산학협력단 조직학 섹션에서 전립선암 종의 다중 특성 분류 방법
JP2023512784A (ja) * 2020-02-07 2023-03-29 サノフイ 患者の反応を予測するためのシステムおよび方法
KR20220149727A (ko) * 2020-03-09 2022-11-08 나노트로닉스 이미징, 인코포레이티드 결함 검출 시스템
US10811138B1 (en) 2020-03-11 2020-10-20 Memorial Sloan Kettering Cancer Center Parameter selection model using image analysis
EP4193299A1 (en) 2020-08-04 2023-06-14 PAIGE.AI, Inc. Systems and methods to process electronic images to provide image-based cell group targeting
TWI775161B (zh) * 2020-09-28 2022-08-21 臺北醫學大學 腫瘤復發預測裝置與方法
US20220130542A1 (en) * 2020-10-22 2022-04-28 The Regents Of The University Of Michigan Using machine learning to assess medical information based on a spatial cell organization analysis
WO2022102748A1 (ja) * 2020-11-12 2022-05-19 株式会社GramEye 顕微鏡検査支援装置、顕微鏡検査支援方法、自動染色装置、自動染色物質推定システム、プログラム、及び記録媒体
CN113218848B (zh) * 2021-04-30 2022-08-12 天津深析智能科技发展有限公司 一种判断非特异细胞群的方法
US20220384036A1 (en) * 2021-06-01 2022-12-01 Vital Connect, Inc. Scalable architecture system for clinician defined analytics
TWI783907B (zh) * 2022-05-24 2022-11-11 華碩電腦股份有限公司 輔助診斷系統及其方法
WO2024054167A1 (en) * 2022-09-08 2024-03-14 Capar Abdulkerim Artificial intelligence supported archive inquiry system and method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7229774B2 (en) * 2001-08-02 2007-06-12 Regents Of The University Of Michigan Expression profile of prostate cancer
US7467119B2 (en) * 2003-07-21 2008-12-16 Aureon Laboratories, Inc. Systems and methods for treating, diagnosing and predicting the occurrence of a medical condition

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10115191B2 (en) 2010-09-30 2018-10-30 Nec Corporation Information processing apparatus, information processing system, information processing method, program, and recording medium
CN103097889A (zh) * 2010-09-30 2013-05-08 日本电气株式会社 信息处理设备、信息处理***、信息处理方法、程序和记录介质
CN103097889B (zh) * 2010-09-30 2015-03-18 日本电气株式会社 信息处理设备、信息处理***、信息处理方法、程序和记录介质
US9076198B2 (en) 2010-09-30 2015-07-07 Nec Corporation Information processing apparatus, information processing system, information processing method, program and recording medium
CN110111882A (zh) * 2011-10-24 2019-08-09 哈佛大学校长及研究员协会 通过人工智能和移动健康技术、在不损害准确性的情况下对病症进行增强诊断
CN110111882B (zh) * 2011-10-24 2024-03-15 哈佛大学校长及研究员协会 通过人工智能和移动健康技术、在不损害准确性的情况下对病症进行增强诊断
CN102968558B (zh) * 2012-11-14 2015-11-18 叶定伟 一种预测初诊***癌骨转移风险的装置
CN102968558A (zh) * 2012-11-14 2013-03-13 叶定伟 一种预测初诊***癌骨转移风险的装置
CN104182450A (zh) * 2013-05-20 2014-12-03 株式会社日立制作所 信息结构化***
CN105683975B (zh) * 2013-10-23 2019-12-03 皇家飞利浦有限公司 使得能够有效管理处置计划以及其修正和更新的***和方法
CN105683975A (zh) * 2013-10-23 2016-06-15 皇家飞利浦有限公司 使得能够有效管理处置计划以及其修正和更新的***和方法
CN106575318A (zh) * 2014-08-12 2017-04-19 皇家飞利浦有限公司 通过预测针对下一次检查的原因来增加价值并降低后续放射学检查率
CN109036571A (zh) * 2014-12-08 2018-12-18 20/20基因***股份有限公司 用于预测患有癌症的可能性或风险的方法和机器学习***
CN109036571B (zh) * 2014-12-08 2024-03-05 20/20基因***股份有限公司 用于预测患有癌症的可能性或风险的方法和机器学习***
US11056243B2 (en) 2015-12-21 2021-07-06 Elekta Ab (Publ) Systems and methods for optimizing treatment planning
CN109069858B (zh) * 2015-12-21 2021-04-06 医科达股份有限公司 一种放射治疗***及计算机可读存储装置
CN109069858A (zh) * 2015-12-21 2018-12-21 医科达股份有限公司 用于优化治疗计划的***和方法
CN105653858A (zh) * 2015-12-31 2016-06-08 中国科学院自动化研究所 一种基于影像组学的病变组织辅助预后***和方法
CN109791155A (zh) * 2016-08-31 2019-05-21 蒙彼利埃癌症区域研究所 用于预测放射治疗后发生***晚期效应的风险的体外方法
CN107395675A (zh) * 2017-06-16 2017-11-24 康美健康云服务有限公司 一种基于互联网的肿瘤病患反馈方法及***
CN108595909A (zh) * 2018-03-29 2018-09-28 山东师范大学 基于集成分类器的ta蛋白靶向预测方法
CN112292697A (zh) * 2018-04-13 2021-01-29 弗里诺姆控股股份有限公司 用于生物样品的多分析物测定的机器学习实施方式
CN112020647A (zh) * 2018-04-26 2020-12-01 日本电气株式会社 信息处理装置、控制方法和程序
CN109124660A (zh) * 2018-06-25 2019-01-04 南方医科大学南方医院 基于深度学习的胃肠间质瘤术后风险检测方法和***
CN109124660B (zh) * 2018-06-25 2022-06-10 南方医科大学南方医院 基于深度学习的胃肠间质瘤术后风险检测方法和***
US11763950B1 (en) 2018-08-16 2023-09-19 Clarify Health Solutions, Inc. Computer network architecture with machine learning and artificial intelligence and patient risk scoring
US11605465B1 (en) 2018-08-16 2023-03-14 Clarify Health Solutions, Inc. Computer network architecture with machine learning and artificial intelligence and patient risk scoring
CN109411015B (zh) * 2018-09-28 2020-12-22 深圳裕策生物科技有限公司 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
CN109411015A (zh) * 2018-09-28 2019-03-01 深圳裕策生物科技有限公司 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
CN111063453A (zh) * 2018-10-16 2020-04-24 鲁东大学 一种心力衰竭早期检测方法
CN111063453B (zh) * 2018-10-16 2024-01-19 鲁东大学 一种心力衰竭早期检测方法
CN112868034A (zh) * 2018-10-18 2021-05-28 索尼公司 用于放大的增强颜色再现
CN112868034B (zh) * 2018-10-18 2024-01-16 索尼公司 用于放大的增强颜色再现
CN109559243A (zh) * 2018-12-13 2019-04-02 泰康保险集团股份有限公司 保险核保方法、装置、介质及电子设备
CN111383761A (zh) * 2018-12-28 2020-07-07 医渡云(北京)技术有限公司 医疗数据分析方法、装置、电子设备及计算机可读介质
CN111383761B (zh) * 2018-12-28 2023-05-12 医渡云(北京)技术有限公司 医疗数据分析方法、装置、电子设备及计算机可读介质
CN110033456A (zh) * 2019-03-07 2019-07-19 腾讯科技(深圳)有限公司 一种医疗影像的处理方法、装置、设备和***
US11625789B1 (en) 2019-04-02 2023-04-11 Clarify Health Solutions, Inc. Computer network architecture with automated claims completion, machine learning and artificial intelligence
US11748820B1 (en) 2019-04-02 2023-09-05 Clarify Health Solutions, Inc. Computer network architecture with automated claims completion, machine learning and artificial intelligence
US11621085B1 (en) 2019-04-18 2023-04-04 Clarify Health Solutions, Inc. Computer network architecture with machine learning and artificial intelligence and active updates of outcomes
US11742091B1 (en) 2019-04-18 2023-08-29 Clarify Health Solutions, Inc. Computer network architecture with machine learning and artificial intelligence and active updates of outcomes
US11636497B1 (en) 2019-05-06 2023-04-25 Clarify Health Solutions, Inc. Computer network architecture with machine learning and artificial intelligence and risk adjusted performance ranking of healthcare providers
CN110760585A (zh) * 2019-11-07 2020-02-07 深圳市华启生物科技有限公司 ***癌生物标志物及其应用
US11270785B1 (en) * 2019-11-27 2022-03-08 Clarify Health Solutions, Inc. Computer network architecture with machine learning and artificial intelligence and care groupings
US11527313B1 (en) * 2019-11-27 2022-12-13 Clarify Health Solutions, Inc. Computer network architecture with machine learning and artificial intelligence and care groupings
CN113993475A (zh) * 2020-05-20 2022-01-28 康坦手术股份有限公司 通过图像分析来预测病变复发的方法
CN111613334A (zh) * 2020-06-01 2020-09-01 广东省心血管病研究所 主动脉弓置换术后急性肾损伤概率预测模型的建立方法
CN114305324A (zh) * 2020-09-28 2022-04-12 台北医学大学 肿瘤复发预测装置与方法
CN112466464A (zh) * 2020-12-17 2021-03-09 四川大学华西医院 初诊转移性***癌患者的预后预测模型及其建立方法和应用
CN112837819B (zh) * 2021-01-20 2024-04-16 中国医学科学院阜外医院 建立冠状动脉旁路移植术后急性肾损伤预测模型的方法
CN112837819A (zh) * 2021-01-20 2021-05-25 尹丽君 建立冠状动脉旁路移植术后急性肾损伤预测模型的方法
CN113317797B (zh) * 2021-04-05 2022-11-08 宁波工程学院 一种结合医疗领域知识的可解释心律失常分类方法
CN113317797A (zh) * 2021-04-05 2021-08-31 宁波工程学院 一种结合医疗领域知识的可解释心率失常诊断方法
CN113284619A (zh) * 2021-04-20 2021-08-20 四川大学华西医院 预测***癌患者术后出现生化复发的方法及设备
CN114359899A (zh) * 2021-12-09 2022-04-15 首都医科大学附属北京天坛医院 细胞共培养模型及细胞模型构建方法、计算机设备及存储介质
CN115919464B (zh) * 2023-03-02 2023-06-23 四川爱麓智能科技有限公司 肿瘤定位方法、***、装置及肿瘤发展预测方法
CN115919464A (zh) * 2023-03-02 2023-04-07 四川爱麓智能科技有限公司 肿瘤定位方法、***、装置及肿瘤发展预测方法
CN117275744A (zh) * 2023-11-22 2023-12-22 北京大学人民医院 一种综合基因突变特征与mIF图像特征的肺癌预后多模态预测模型构建方法
CN117275744B (zh) * 2023-11-22 2024-02-13 北京大学人民医院 一种综合基因突变特征与mIF图像特征的肺癌预后多模态预测模型构建方法

Also Published As

Publication number Publication date
CA2679436A1 (en) 2008-10-16
AU2008236634A1 (en) 2008-10-16
EP2145276A1 (en) 2010-01-20
JP2010523979A (ja) 2010-07-15
PT2145276T (pt) 2020-07-30
CA2679436C (en) 2018-10-23
WO2008124138A1 (en) 2008-10-16
US20100088264A1 (en) 2010-04-08
EP2145276B1 (en) 2020-06-10
ES2808569T3 (es) 2021-03-01

Similar Documents

Publication Publication Date Title
CN101689220A (zh) 用于治疗、诊断和预测医学病症发生的***和方法
Loeb et al. Evaluation of the 2015 Gleason grade groups in a nationwide population-based cohort
Abubakar et al. Prognostic value of automated KI67 scoring in breast cancer: a centralised evaluation of 8088 patients from 10 study groups
Xi et al. Large-scale tumor-associated collagen signatures identify high-risk breast cancer patients
Gould Rothberg et al. Melanoma prognostic model using tissue microarrays and genetic algorithms
EP1949285B1 (en) Systems and methods for treating, diagnosing and predicting the occurrence of a medical condition
Hodgson et al. Impact of patient and provider characteristics on the treatment and outcomes of colorectal cancer
Manak et al. Live-cell phenotypic-biomarker microfluidic assay for the risk stratification of cancer patients via machine learning
US7461048B2 (en) Systems and methods for treating, diagnosing and predicting the occurrence of a medical condition
US20170351837A1 (en) Systems and methods for treating, diagnosing and predicting the occurrence of a medical condition
US7467119B2 (en) Systems and methods for treating, diagnosing and predicting the occurrence of a medical condition
US9858389B2 (en) Method and system for determining the risk of occurrence of prostate cancer
US20160253469A1 (en) Systems and methods for predicting favorable-risk disease for patients enrolled in active surveillance
CA2559241C (en) Systems and methods for treating, diagnosing and predicting the occurrence of a medical condition
Liu et al. Is there a correlation between the presence of a spiculated mass on mammogram and luminal a subtype breast cancer?
Van den Broeck et al. Validation of the Decipher test for predicting distant metastatic recurrence in men with high-risk nonmetastatic prostate cancer 10 years after surgery
Chen et al. An accurate prostate cancer prognosticator using a seven-gene signature plus Gleason score and taking cell type heterogeneity into account
Peck et al. Validation of tumor protein marker quantification by two independent automated immunofluorescence image analysis platforms
TW200538734A (en) Systems and methods for treating, diagnosing and predicting the occurrence of a medical condition
Truesdale et al. Gleason score concordance on biopsy‐confirmed prostate cancer: is pathological re‐evaluation necessary prior to radical prostatectomy?
Na et al. The 70-gene prognostic signature for Korean breast cancer patients
US10444235B2 (en) Systems and methods for treating, diagnosing and predicting the response to therapy of breast cancer
Gul et al. Succinate dehydrogenase complex iron sulfur subunit B (SDHB) immunohistochemistry in pheochromocytoma, head and neck paraganglioma, thoraco-abdomino-pelvic paragangliomas: is it a good idea to use in routine work?
Yaghjyan et al. Reliability of CD44, CD24, and ALDH1A1 immunohistochemical staining: Pathologist assessment compared to quantitative image analysis
Klæstad et al. Long term trends of breast cancer incidence according to proliferation status

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100331