CN104024436B

CN104024436B - 用于***癌分类的标志物基因

Info

Publication number: CN104024436B
Application number: CN201280064273.1A
Authority: CN
Inventors: 李纯德; 彭卓淳; 兰伯特·斯科格
Original assignee: That Pharmaceuticals Of Pure Desay
Current assignee: That Pharmaceuticals Of Pure Desay
Priority date: 2011-10-24
Filing date: 2012-10-24
Publication date: 2016-10-19
Anticipated expiration: 2032-10-24
Also published as: DK2771481T3; US20140243433A1; SE1150982A1; JP2015501151A; SE536352C2; US9790555B2; US20180080088A1; ES2689547T3; WO2013060739A1; JP6049739B2; CA2852020A1; EP2771481A1; CA2852020C; CN104024436A; EP2771481B1; US20210017606A1

Abstract

本发明涉及用于对受试者中的***癌进行分类的方法，该方法包括以下步骤：a)确定基因F3和IGFBP3在来自受试者的样品中的基因表达水平或基因表达模式，以及b)通过将a)中所确定的基因表达水平与在已知分别患有高风险或低风险肿瘤的参考患者中相同基因的参考基因表达比较对肿瘤进行分类。此外，本发明涉及用于确定被诊断为***癌的受试者的预后的方法，用于为被诊断为***癌的受试者制定治疗决策的方法以及用于对被诊断为***癌的受试者中的肿瘤进行分类的固体支持体或试剂盒。

Description

用于***癌分类的标志物基因

发明领域

本发明涉及癌症，特别是***癌的分类、预后和治疗的领域。

发明背景

***癌诊断时的总生存和癌症特异性生存的精确预后和预测对改善在根治性***切除术、放射疗法、***疗法和观察等待之间的个性化治疗选择的目前状况是最重要的(Shariat等人,Cancer2008,113:3075-3099；Touijer等人,Cancer 2009,115:3107-3111；Freedland,Cancer 2011,117:1123-1153)。对于患有局限性***癌的男性，根治性***切除术和治愈性放射疗法可降低患有侵袭性癌症的患者的死亡率并延长生命。另一方面，对于患有较少侵袭性癌症的患者，其可能全然不需要根治性治疗或治愈性治疗，此类疗法可能会导致不必要的并发症和副作用。对于患有较少侵袭性癌症的患者，观察等待或主动监测可能是适合的选择。然而，基于常见临床参数，包括诊断时的年龄、血清PSA水平、活组织检查的Gleason评分和临床分期的当前预后和预测的方法，不能在局限性分期时准确地区分较少侵袭性癌症与侵袭性癌症。它们也不能鉴定当疾病变得危险时什么样的癌症仍然可以通过***疗法得到有效控制。

对于其癌症在诊断时已是晚期或在治愈性治疗后复发的患者，化学***或外科手术***可以缓和症状，并减缓疾病的进展。不幸地，***疗法的效果和副作用在患者中显示强烈的变化。有的患者可以以极小的副作用生存超过五年，然而其他患者可能在三年内死于***抵抗性转移或死于心血管疾病及***治疗的其他副作用。目前，不存在可以预测什么样的患者将会从***疗法中获益最多的方法。

大部分***癌进展如此缓慢，以至于其可从未达到危及生命的阶段，主要是由于老年期和其他竞争性疾病。然而，小部分的***癌进展非常迅速，并在不到五年的时间里导致患者死亡。在诊断时，通过常规的临床参数包括年龄、肿瘤分级、Gleason评分、临床分期和共存疾病，癌症特异性和总生存的预测可以达到高达60％-70％的准确度。甚至具有相同临床预后参数的患者可以显示生存以及治疗响应的强烈差异。因此***癌是病理学的(形态学的)诊断，其可以包括几种不同的生物学亚组或亚型。

存在对可以区分***癌患者的这些生物学亚组或亚型的方法的需要。还存在对可以将这些亚型分为侵袭性或高风险肿瘤和较少侵袭性或低风险肿瘤的方法，以及可预测患有相应亚型肿瘤的患者的生存的方法的需要。此外，存在对可用于为患有相应亚型的肿瘤的患者制定治疗决策的方法的需要，治疗决策可能还考虑临床参数。

现有技术

专利文献WO2008/013492 A1公开了用于鉴定表示为ES肿瘤预测因子基因(EStumor predictor gene，ESTP基因)的胚胎干细胞相关基因的方法，这些基因可能对癌症干细胞功能是重要的。鉴定了641个ESTP基因并发现其有助于***癌肿瘤的分类。

专利文献WO09021338A1公开了用于通过检测剪接事件的标签(signature)预后受试者中的癌症，例如***癌的方法。F3被记载为可以被使用的许多基因中的一个。

专利文献WO0171355公开了PSA、IGF-I和IGFBP-3在血浆中的同步分析以预测男性患有***癌的风险。

US2003054419A1公开了用于在治疗后确定***癌患者的进展的风险的方法，其中测量了TGF-β1、IGFBP-2、或IGFBP-3在血浆中的水平。

专利文献WO10006048A和US2009298082分别公开了用于预测***癌确诊患者的生存能力和具有PSA复发的患者是否稍后将形成为全身性疾病的方法。在这两个公开内容中，IGFBP3被记载为可以连同其他分子标志物一起被使用的许多基因中的一个。

文献WO09105154和WO06028867A公开了用于确定患有癌症的个体的预后的方法，和用于诊断多发性骨髓瘤的方法。c-MAF被记载为可以被使用的许多基因中的一个。

WO10101888A公开了用于干扰CTGF的活性的方法，其中CTGF的活性与***癌转移相关。

发明目的

本发明的目的是提供有助于受试者中的***癌分类、预后预测和治疗决策指导的分子标志物。

本发明的另一个目的是提供在受试者中用于对***癌进行分类，以及用于使用该分类用于预测受试者的预后和用于为受试者制定治疗决策的新方法。

本发明的另外的目的是提供基于受试者的肿瘤亚型来治疗患有***癌的受试者的方法。

本发明的又另一个目的是提供用于对受试者中的***癌或肿瘤进行分类的工具。

发明的公开内容

与***癌受试者中的生存显著相关的基因和基因标签的鉴定

为了支持生物学亚型的概念，使用全基因组cDNA微阵列的先前研究已将乳腺癌以及***癌分类为具有不同临床和病理特征的分子亚型。本公开内容进一步扩展了该概念和重要性。代替仅使用统计分析，在本研究中候选基因标志物的选择通过癌症干细胞(CSC)/胚胎干细胞(ESC)假说驱动，旨在有效鉴定仅少数最重要的ESC/CSC基因标志物。证明了此方法是有效的，因为在本研究中所鉴定的最显著的预测基因标志物是来自已鉴定的胚胎干细胞的基因预测因子(ESCGP)的列表。

本发明人假设，***癌的生物学侵袭性和对***疗法的反应能力主要通过主要基因在***癌干细胞(CSC)中的表达模式来确定(Visvader,Nature 2011,469:314-22；Ratajczak等人,Differentiation 2011,81:153-161；Lang等人,J Pathol 2009,217:299-306)。还假设，在胚胎干细胞(ESC)中具有重要功能的基因还可在***CSC中具有重要性。因此，ESC相关基因在***癌细胞中的表达模式的直接测量将反映癌症的生物学侵袭性，并能够预测***疗法的效果以及预测患者生存。

基于这一假设，本发明人先前已鉴定了在ESC系中具有一致性高水平或一致性低水平表达的基因，即胚胎干细胞基因预测因子(ESCGP)(WO2008/013492 A1)。简言之，ESCGP通过使用简单的一类SAM来分析先前公开的源自5个人ESC系和来自不同器官的115个人正常组织的全基因组cDNA微阵列数据来鉴定，据此基因根据其在ESC中的表达水平的一致性程度来排列顺序。这是基于在所有ESC系中具有一致性高表达水平或具有一致性低表达水平的基因在维持ESC状态中可具有重要的功能，并且其在不同模式中的表达变化可导致分化朝着不同方向的概念。这些ESC基因还可在维持CSC的不同状态中具有功能，并因此ESC基因在CSC中的不同表达模式可将肿瘤分为具有不同的生物学侵袭性和对不同类型的治疗具有不同灵敏度的不同的亚型。从ESCGP的这个列表开始，本研究鉴定了用于***癌的一些重要的预后和预测性基因标志物。

在本研究中，选择来自在WO2008/013492A1中鉴定的641个ESCGP的列表的33个ESCGP的亚集作为可以使得能够使用较少ESCGP对***癌进行分类的候选者。根据如实施例2A中描述的3个标准(还见图1)选择候选者：即根据其在ESCGP列表中的排序位置，以及根据其在来自先前的研究(Lapointe等人,Proc Natl Acad Sci USA 2004,101:811-816)的基因列表中的排序位置，该先前的研究鉴定了可以潜在地用于对***癌亚型进行分类的基因和可以区分***癌与正常组织的基因。

另外，根据第4个标准选择了不是来自ESCGP列表的5个基因；它们已被报道并已知在***癌中是重要的。报道的基因用作对照以评估在***癌的分类中ESCGP基因相对于非ESCGP基因的重要性。此外，它们可以潜在地被包括在用于在***癌分类中使用的分子标志物标签中。

通过RT-PCR研究了33个选择的ESCGP基因和5个报道的基因在3个不同的***癌细胞系中的表达(参见实施例2B)。在这33个基因中，鉴定了24个基因(19个ESCGP基因和5个报道的基因)在较少侵袭性细胞系LNCap中与在侵袭性细胞系DU145和PC3中相比具有不同的表达模式(参见图2)。认为这24个基因更可能有助于肿瘤分类以区分较少侵袭性癌症与较多侵袭性癌症。因此，选择这24个基因(25个基因标志物)用于优化多重qPCR并评估在来自具有已知临床结果的189例***癌患者的细针穿刺(fine needle aspiration，FNA)样品中对***癌进行分类的能力(参见实施例3A)。首先通过在训练集，即189例患者的全队列(full cohort)的子集中分析鉴定表达谱与生存相关的基因。然后通过在整个患者队列中分析来证实已鉴定的显著基因对肿瘤进行分类的能力。

在本队列中的所有患者患有临床上显著的***癌，并且当该疾病变成晚期时，病人中的大多数(80％)未通过根治性***切除术或全剂量放射疗法来治疗而仅通过***疗法来治疗。因此，生存数据并不受根治性治疗的治疗效果的影响，根治性治疗在患有生物学侵袭性癌症的某些患者的早期阶段使用时可以消除癌症并因此消除生命威胁。在本队列中，随访时间为7-20年，且患者中的大部分(94.5％)已故，使得能够完整分析真正的总生存时间而具有极少截尾数据(censored data)。这些特征保证了用于生存预测的新的生物标志物的发现，并且与大多数先前的研究相比是独特的，在大多数先前的研究中使用无PSA复发生存或无进展生存作为总生存和癌症特异性生存的替代。

在本研究中，使用总生存和肿瘤特异性生存两者来评估预后生物标志物的临床价值。癌症特异性生存主要通过癌细胞的生物学侵袭性来确定。然而，预后参数以及预测性参数(诸如临床参数和/或生物标志物的表达)与癌特异性生存之间的相关性的准确度和重要性可受以下的影响：如何定义癌特异性生存、如何收集数据以及多少数据由于死亡率的其他竞争原因而截尾。在另一方面，总生存是没有进行死因的任何截尾并包括所有死因的生存数据。因此，总生存不仅反映了癌细胞的生物学侵袭性，而且反映了很多其他因素，诸如竞争性疾病或共存疾病、治疗的并发症及副作用、年龄和预期寿命。对于***癌患者，总生存可能比癌症特异性生存具有更多的重要性，因为大多数患者在老年时被确诊，并且通常患有其他竞争性疾病，诸如心血管疾病、糖尿病或其他恶性疾病(Daskivich等人，Cancer2011,Apr8.doi:10.1002/cncr.26104.[印刷版之前的电子版])。

10个分子标志物基因在通过单变量分析进行分析时显示与总生存和/或癌特异性生存的显著相关性(参见表1)，并可以用于对***肿瘤进行分类，用于根据患者的肿瘤的分类进行预后预测，且还用于根据患者的肿瘤的分类为患者制定治疗决策。这些分子标志物基因是F3(凝固因子Ⅲ)、WNT5B(无翅型MMTV整合位点家族，成员5B)、VGLL3(退变样蛋白3(果蝇))、CTGF(***生长因子)、IGFBP3(***结合蛋白3)、c-MAF-a(v-maf肌肉腱膜纤维肉瘤癌基因同源物的长形式(禽))、c-MAF-b(v-maf肌肉腱膜纤维肉瘤癌基因同源物的短形式(禽))、AMACR(α-甲基酰基辅酶A消旋酶)、MUC1(粘蛋白1，细胞表面相关的)和EZH2(zeste的增强子同源物2(果蝇))。这10个基因中的5个(F3、WNT5B、CTGF、VGLL3和IGFBP3)是从在胚胎干细胞中具有一致性高表达或一致性低表达的基因的列表中鉴定的ESCGP。2个基因(c-MAF-a和c-MAF-b)是先前报道过的已知在骨髓瘤中具有重要的功能的基因。

3个显著基因(EZH2、AMACR和MUC1)是先前已报道过的与***癌相关的基因。一些先前的研究已鉴定了的生物标志物像AMACR、EZH2、MUC1和AZGP1和干性标签(stemnesssignature)(Varambally等人,Nature 2002,419:624-9；Rubin等人,JAMA 2002,287:1662-70；Oon等人,Nat Rev Urol 2011,8:131-8；Lapointe等人,Cancer Res 2007,67:8504-10；Rubin等人,Cancer Epidemiol Biomarkers Prev 2005,14:1424-32；Strawbridge等人,Biomark Insights2008,3:303-15；Glinsky等人,J Clin Oncol 2008,2846-53；Glinsky等人,J Clin Invest 2005,115:1503-21)。本结果显示，MUC1、AMACR和EZH2在***癌FNA样品中的表达水平确实与癌症特异性生存或与总生存相关。然而，在先前报道过的基因标志物中，仅通过c-MAF-a的相关性与通过本研究中鉴定的ESCGP F3、IGFBP3和VGLL3的相关性一样强。

*由于不是跨越所有样品剖析所有ESCGP，每个ESCGP都有自己的样品的数量。

使用肿瘤-***-转移(TNM)***和PSA值对临床分期组进行分类。晚期临床分期被定义为任何T≥3、N1、M1中的TNM分期或PSA>100.0ng/ml。局限性临床分期被定义为T1-2N0M0和PSA<100.0ng/ml。

年龄被建模为连续变量。风险比是针对年龄每增加1.0岁。

§PSA值被建模为连续变量。风险比是针对血清每增加1.0ng/ml PSA。

||基因的定心(centered)的ΔCt值被建模为连续变量。它反向对应于基因的表达水平。风险比是针对基因的定心的ΔCt值每增加1.0单位。

除了EZH2，所有这些显著基因的表达水平(与ΔCt值负相关)显示与生存时间正相关(表1，风险比>1)。仅EZH2在FNA样品中的表达水平与患者生存呈负相关。EZH2的这种负相关与记载的其作为癌基因的作用一致。EZH2、AMACR、IGFBP3和c-MAF-a基因的此结果均符合先前研究的相关结果(Varambally等人,Nature 2002,419:624-9；Rubin等人,CancerEpidemiol Biomarkers Prev 2005,14:1424-32；Mehta等人,Cancer Res 2011,71:5154-63；Li等人,Genes Chromosomes Cancer 1999,24:175-82)。IGFBP3具有已充分证明的在抑制***癌的转移进程中的功能(Mehta等人,Cancer Res 2011,71:5154-63)。

MUC1和F3与生存的正相关是意外的。F3和MUC1具有记载的促进癌症形成的功能(Strawbridge等人,Biomark Insights 2008,3:303-15；Kasthuri等人,J Clin Oncol2009,27:4834-8)。与生存的正相关可能指示，具有F3和MUC1的高表达水平的***癌细胞有很强的雄激素依赖性和对***疗法的敏感性(Strawbridge等人,Biomark Insights2008,3:303-15；Kasthuri等人,J Clin Oncol 2009,27:4834-8；Mitchell等人,Neoplasia2002,4:9-18；Brodin等人,Semin Thromb Hemost 2001,37:87-94)。在其他癌症中存在相似的具有双重方面的一些预后和预测性标志物，诸如在乳腺癌中的HER-2/neu/ERBB2扩增，其中具有HER-2/neu/ERBB2扩增的乳腺癌具有侵袭性生物学及临床特征，但显示响应于Tratsuzumab(赫赛汀)治疗，产生延长的生存。

VGLL3在***癌中的功能仍是未知的。

进一步进行多变量分析以鉴定显示独立于所有临床参数与生存相关的基因(参见实施例3A)。4个基因(F3、IGFBP3、CTGF和AMACR)显示独立于所有临床参数与总生存和癌症特异性生存两者相关(图4A-K)。所有4个基因，除了AMACR，均来自ESCGP的列表。两个基因(WNT5B和EZH2)显示独立于临床参数与癌症特异性生存相关，且一个基因(VGLL3)显示独立于临床参数与总生存相关。

为了研究多基因在生存预测中的可能的加性效应或协同效应，在一系列无监督层次聚类分析(unsupervised hierarchical clustering analysis)中测试了10个显著基因的不同组合(参见实施例3B和图6-7)。重要地，鉴定了可以以类似的方式将肿瘤分类成具有总生存和癌症特异性生存的显著差异的3种亚组或亚型的2个标签。第1个ESCGP标签(标签1)包括基因VGLL3、IGFBP3和F3。第2个ESCGP标签(标签2)包括基因c-MAF-a、IGFBP3和F3。分类具有很强的总生存和癌特异性生存相关性，并可以用于预测患者的总生存和癌特异性生存(参见图6-7和表2-3)。这种预后和预测性表达标签独立于年龄、PSA水平、肿瘤分级及临床分期。

*用于聚类分析的样品的数量是95例。87例样品具有所有临床信息包括诊断时的年龄、PSA值、肿瘤WHO分级和临床分期。跨越这87例样品进行单变量分析和多变量分析。

ESCGP标签1包括VGLL3、IGFBP3和F3的表达标签。其通过聚类分析将样品分成3种肿瘤亚型：第1组、第2组和第3组(图6，图A)。

使用肿瘤-***-转移(TNM)***和PSA值对临床分期组进行分类。晚期的临床分期被定义为任何T≥3、N1、M1中的TNM分期或PSA>100.0ng/ml。局限的临床分期被定义为T1-2N0M0和PSA<100.0ng/ml。

§年龄被建模为连续变量。风险比是针对年龄每增加1.0岁。

ESCGP标签2包括c-MAF-a、IGFBP3和F3的表达标签。其通过聚类分析将样品分成3种肿瘤亚型：第1组、第2组和第3组(图7)。

§年龄被建模为连续变量。风险比是针对年龄每增加1.0岁。

此外，测试了仅基因IGFBP3和F3(ESCGP标签3)的组合对肿瘤样品进行分类和预测生存的能力(参见实施例3D)。首先通过使用无监督层次聚类将肿瘤样品分为3组(图13)。如通过Cox比例风险分析确定的，分类具有很强的总生存和癌症特异性生存相关性，并可以用于预测患者的总生存和癌症特异性生存(参见表4-5)。

在本研究中发现的最重要的标志物基因显示与总生存和癌症特异性生存两者的相关性。这部分地是由于***癌或治疗的副作用也促成由其他疾病直接导致的死亡的可能性。这也可能部分地是由于ESCGP标签可以被癌症干细胞和某些类型的正常干细胞两者在体内共享的事实。因此，ESCGP标签可能在癌症和其他疾病两者的形成中具有重要性。例如，已鉴定了IGFBP3在癌症和糖尿病两者中具有重要的抑制功能(Yeap等人,Eur JEndocrinol 2011,164:715-23；Mehta等人,Cancer Res 2011,71:5451-63)。

本发明的实施方案

在第一方面，本发明提供对受试者中的***癌进行分类的方法，包括：

a)确定基因F3和IGFBP3在来自受试者的样品中的基因表达水平，换言之，确定所述基因的基因表达模式；

b)通过将在a)中确定的基因表达水平，即基因表达模式与已知分别患有高风险肿瘤或低风险肿瘤的参考患者中相同基因的参考基因表达比较对肿瘤进行分类；以及

c)推断，如果在a)中确定的基因表达水平/基因表达模式与患有高风险肿瘤的参考患者的参考基因表达匹配，则受试者中的肿瘤是高风险肿瘤，且如果在a)中确定的基因表达水平与患有低风险肿瘤的参考患者的参考基因表达匹配，则受试者中的肿瘤是低风险肿瘤。

在优选的实施方案中，基因F3和IGFBP3以及VGLL3和c-MAF中的任一个的表达水平在步骤a)中被确定，并且因此用于肿瘤的分类。优选地确定F3、IGFBP3和VGLL3的表达水平。

这些基因标签已被显示特别有助于对***癌肿瘤进行分类(图6-7)，并且产生的分类已被显示与***癌患者的生存显著相关(图6和图9-12，表2和表3)。

在一个实施方案中，步骤a)因此还包括确定基因VGLL3和c-MAF中的一个或多个，优选VGLL3的基因表达水平。

在另外的实施方案中，步骤a)还包括确定基因WNT5B和CTGF、EZH2、AMACR和MUC1中的一个或多个的基因表达水平。

在第二方面，本发明提供对受试者中的***癌进行分类的方法，包括以下步骤：

a)确定来自受试者的样品中选自F3、IGFBP3、VGLL3、c-MAF、WNT5B和/或CTGF的至少一个基因的基因表达水平；

b)通过将在a)中确定的基因表达水平与已知分别患有高风险肿瘤或低风险肿瘤的参考患者中相同基因的参考基因表达比较对肿瘤进行分类；以及

c)推断，如果在a)中确定的基因表达水平与患有高风险肿瘤的参考患者的参考基因表达匹配，则受试者中的肿瘤是高风险肿瘤，且如果在a)中确定的基因表达水平与患有低风险肿瘤的参考患者的参考基因表达匹配，则受试者中的肿瘤是低风险肿瘤。

本发明的此第二方面是基于本文所认可的事实，F3、IGFBP3、VGLL3、C-MAF、WNT5B和CTGF中的任一个在来自患有***癌的受试者的样品中的表达可作为所述受试者中疾病状态的指标。本发明人已发现了在所述基因中的任一个的基因表达水平和生存之间存在正相关。更具体地，本发明的发明人已发现在F3、IGFBP3、VGLL3、c-MAF、WNT5B和CTGF中的任一个的表达的高水平和较长的生存，因此低风险肿瘤之间的相关性。另一方面，所述基因中的任一个的表达的低水平与较短生存及因此高风险肿瘤相关。

在此第二方面的一个实施方案中，基因F3、IGFBP3、VGLL3、c-MAF、WNT5B和CTGF中的至少2个，诸如2个、3个或4个的表达水平在根据本发明的方法的步骤a)中被确定并因此用于对肿瘤进行分类。

在另外的实施方案中，所有基因F3、IGFBP3、VGLL3、c-MAF、WNT5B和CTGF的表达水平在根据本发明的方法的步骤a)中被确定并因此用于对肿瘤进行分类。

在又另一个实施方案中，还确定，即除了上述的任何组合之外确定，基因EZH2、AMACR和MUC1中的至少一个的表达水平，并因此在分类中使用。

所述基因中的一个在患有***癌的患者中的表达水平是高或低，可以通过将来自患者的样品中的基因表达水平与已知分别患有高风险肿瘤或低风险肿瘤的参考患者或参考患者的组中的相同基因的参考基因表达值比较来确定。如果选择的基因在患者样品中的表达水平与已知患有低风险肿瘤的参考患者中相同基因的表达水平一样高，或比已知患有低风险肿瘤的参考患者中相同基因的表达水平高，则受试者的肿瘤可以被分类为呈低风险。如果选择的基因在患者样品中的表达水平与已知患有高风险肿瘤的参考患者中相同基因的表达水平一样低，或比已知患有高风险肿瘤的参考患者中相同基因的表达水平低，则受试者的肿瘤可以被分类为呈高风险。当参考患者的组用作对照时，所选择的基因在组中的中等或中值表达水平可以被用作参考基因表达值。

当确定一个基因的基因表达水平时，将所选择的基因的基因表达水平与参考患者的参考基因表达匹配是指，当所选择的基因的表达水平与已知患有低风险的肿瘤的参考患者中的参考基因表达一样高或比之更高时，则基因表达水平与该参考基因表达匹配。同样，当所选择的基因的表达水平与已知患有高风险肿瘤的参考患者中的参考基因表达一样低或比之更低时，则基因表达水平与该参考基因表达匹配。

当确定2个或多个基因的基因表达水平时，将所选择的基因的基因表达水平与参考患者的参考基因表达匹配是指，2个或多个选择的基因的总基因表达模式必须与参考患者中该2个或多个选择的基因的总参考基因表达模式匹配。因此，当逐一地评价时，该2个或多个选择的基因的全部基因的表达不需要与参考基因表达逐一地完全匹配。而是，基因中的一个的基因表达的非常高的水平可以补偿其他一个或多个基因的较低的水平，并且表达模式将仍会被认为匹配。在选择2个或多个基因时，基因表达模式是指这些基因的基因表达水平。

分别获自受试者和参考患者的基因表达谱的匹配可以例如使用通过本领域已知的方法使用来自受试者和参考样品二者的基因表达数据的层次聚类来进行(参见例如Eisen等人,Proc Natl Acad Sci USA 1998,95:14863-8)。聚类方法适用于评估大型数据集的趋势。无监督聚类像层次聚类有利地用于检测不能通过仅仅浏览数据容易地识别的数据集中的组或类。如果其肿瘤待被分类的患者与已知患有低风险肿瘤的参考患者被聚类或分组在一起，则该患者的肿瘤也被分类为低风险肿瘤。如果其肿瘤待被分类的患者与已知患有高风险肿瘤的参考患者被聚类或分组在一起，则该患者的肿瘤也被分类为高风险肿瘤。

高风险肿瘤是指如通过使用具有已知肿瘤亚型和已知生存的患者的组确定的，肿瘤亚型与比低风险肿瘤短的总生存时间和/或癌症特异性生存时间相关。该亚型可以例如被定义为具有某些临床参数或具有某些基因的某种表达的肿瘤亚型。当确定具有已知亚型和已知生存时间的患者之间的生存时间是否存在显著差异时，人们可以使用本领域熟知的风险比的计算(Cox DR,J Royal Statist Soc B 1972,34:187-220)。组中的风险是事件诸如死亡发生的概率。一个组中的风险被假定是在另一个组中的风险的恒定比例。因此，如果风险比显著地高于或低于一，则一个组相比于另一个组存在较高风险。

肿瘤的分类也可以包括比高风险和低风险多的类，诸如一个或多个中间风险组。

来自受试者的样品可以是肿瘤样品，诸如通过细针穿刺(FNA)，穿刺活检(needlebiopsy)或通过手术获得的肿瘤样品。可选地，样品可以是获自受试者的血液样品、血浆、血清、脑液、尿液、***、渗出物或粪便样品。特别地，IGFBP3和F3的基因表达水平可有利地通过分析血液样品来确定。

在一个实施方案中，所选择的基因的基因表达水平通过对由该基因表达的RNA或mRNA的量进行定量来确定。RNA或mRNA的量可以例如通过使用选自以下的方法来确定：微阵列技术、RNA印迹和定量PCR(qPCR)，诸如实时定量PCR(qrt-PCR)，任选的多重PCR，或本领域中已知的用于测量基因表达的任何其他方法。

例如，本发明人在本研究中已开发了简单的多重定量PCR(qPCR)方法以测量几个选择的标志物基因在***细针穿刺(FNA)样品中的表达水平。所开发的方法也可用于测量采自患者的任何肿瘤或血液样品中的表达水平。

这种方法的一个重要的技术优势是，虽然本发明的标志物基因通过干细胞的方法来鉴定，并被认为对癌症干细胞功能是重要的，但人们不需要从肿瘤样品中直接分离CSC。在本研究中建立的简单而强大的多重qPCR方法可直接用于分析来自常规的穿刺活检或抽吸细胞学检查的新鲜样品以在诊断时预测生存和***疗法的效果。在本研究中分析的所有样品都是新鲜冰冻的细胞学细胞散布体(cytological cell spreads)，其能确保分离用于qPCR分析的高品质的纯的癌细胞RNA。然而，在某些情况下由于在FNA细胞学检查散布体的载玻片上的细胞太少，RNA分离并不成功。这个问题可以通过直接使用来自穿刺活检的新鲜的FNA细胞悬液或显微切割的肿瘤样品用于RNA的分离在未来的临床应用中被容易地解决。

因为本发明的标志物基因(F3、IGFBP3、VGLL3、c-MAF、WNT5B和CTGF)编码蛋白质，所以也可使用免疫化学或其他蛋白质分析方法来测量其蛋白表达作为其基因表达的估计或应变量(function)。因此，在本发明的一个实施方案中，基因表达水平可间接地通过测量由所述基因编码的蛋白的量来确定。蛋白的量可以通过例如使用方法诸如免疫组织化学、蛋白质印迹、酶免疫测定诸如ELISA、RIA和质谱法，以及本领域中已知的用于检测蛋白质的其他方法来确定。

本领域技术人员将认识到，本发明的实用性并不局限于对本发明的标志物基因的任何特定变体的基因表达进行定量。作为非限制性的实例，标志物基因可具有如表4中指定的编码序列和氨基酸序列。在一些实施方案中，其具有与所列的序列至少85％相同或相似的cDNA序列或氨基酸序列，诸如与表4中所列的序列至少90％、91％、92％、93％、94％、95％、96％、97％、98％或至少99％相同或相似的cDNA序列或氨基酸序列。

表4

如在整个说明书中所用的术语“％同一性”，如下计算。使用CLUSTAL W算法比对查询序列与靶序列(Thompson,J.D.,Higgins,D.G.和Gibson,T.J.,Nucleic AcidsResearch,22:4673-4680(1994))。比较在对应于比对序列中最短的序列的窗口上做出。比对的序列中最短的序列在某些情况下可以是靶序列。在其他情况下，查询序列可以构成比对的序列中最短的序列。比较每个位置上的氨基酸残基，并且在靶序列中具有相同的对应性的查询序列中的位置的百分比被报告为％同一性。

如在整个说明书中所用的术语“％相似性”，以下面的方式进行计算。序列比对和比较基本上如对于％同一性计算的描述来进行。然而，“相似性”解释如下。如果两个氨基酸残基属于同一氨基酸残基组，则其被认为是相似的。氨基酸残基的组的非限制性实例是疏水性组，包括氨基酸残基Ala、Val、Phe、Pro、Leu、Ile、Trp、Met和Cys；碱性组，包括氨基酸残基Lys、Arg和His；酸性组，包括氨基酸残基Glu和Asp；亲水性组，包括不带电荷的氨基酸残基Gln、Asn、Ser、Thr和Tyr；和天然组，包括氨基酸残基Gly。因此，比较在每个位置上的氨基酸残基，并且在靶序列中具有相似的对应性的查询序列中的位置的百分比被报告为％相似性。

根据本发明的用于对患有***癌的受试者中的肿瘤进行分类的方法可具有许多益处。例如，如在本发明的一个实施方案中，其可用于预测所述受试者的生存。对于患有被分类为低风险肿瘤的肿瘤的受试者，指示该受试者具有良好预后，而对于患有被分类为高风险肿瘤的肿瘤的受试者，指示该受试者具有不良预后。

受试者的不良预后可意指受试者与被预测具有良好预后的受试者相比具有减少的生存的可能性或减少的生存的时间。不良预后也可意指患者与具有良好预后的患者相比具有复发或转移的增加的风险。例如，患有低风险肿瘤的患者的5年生存的可能性可以是90％或更低，诸如85％、80％、75％、70％、60％或更低，而在高风险组中的5年生存的可能性可以是50％或更低，诸如45％、40％、30％、20％、10％或更低。同样，患有低风险肿瘤的患者的中位生存长度可能为6年或更长，诸如7年、8年、9年、10年或更长，而患有高风险肿瘤的患者中的中位生存长度可能是5年或更短，诸如4年、3年、2年、1年，或更短。

在本发明的一个实施方案中，肿瘤的分类可用于改善使用临床参数的生存预测。例如，本发明人已显示(实施例3C)，当使用标签1(VGLL3、IGFBP3和F3)的亚型分类被添加到使用仅临床参数的常规预测模型时，显著改善预测的准确度。

在一个方面中，本发明提供了用于为患者的未来的治疗采取决策的方法，该决策取决于根据本发明的分类。患有已被分类为高风险肿瘤的肿瘤的患者比患有低风险肿瘤的患者需要更加根治性或治愈性的治疗(more radical or curative treatment)并且还要在更早的阶段。根治性治疗或治愈性治疗包括选自***切除术、放射、化疗、***或其组合的治疗方案。患有已被分类为低风险肿瘤的肿瘤的患者需要较少或不需要根治性或治愈性治疗(less or no radical or curative treatment)，但可被分配到观察等待或主动监测。在本发明的某些实施方案中，患有高风险或中度风险肿瘤亚型的局限性癌症的患者需要不能延缓的根治性治疗或治愈性治疗，而患有低风险肿瘤亚型的局限性癌症的患者可以安全地被分配到具有最小焦虑的观察等待，因为万一疾病增进***疗法仍可保证长期生存。对于在诊断时患有晚期癌症的患者，低风险亚型的那些患者可以从***疗法或抗雄激素疗法得到最大的益处，而高风险和中度风险亚型的患者可需要通过化疗或其他新疗法来早日治疗。

在一个方面中，本发明还提供了根据如上述制定的治疗决策治疗已被诊断为***癌，并且已根据本发明对其肿瘤进行分类的受试者的方法。

在一个方面中，本发明提供了基因IGFBP3、F3、VGLL3、c-MAF、WNT5B和/或CTGF中的任何一个或由其编码的蛋白作为用于***癌的预后标志物的用途。在这方面的各种实施方案中，本发明提供了基因IGFBP3、F3、VGLL3、c-MAF、WNT5B和/或CTGF中的2个、3个或多个的组合或由其编码的蛋白作为用于***癌的预后标志物的用途。一个特别有用的实施方案提供了基因IGFBP3和F3以及任选地，VGLL3和c-MAF中的任一个的组合，或者由其编码的蛋白作为用于***癌的预后标志物的用途。

在一个方面，本发明提供了用于对诊断为***癌的受试者中的肿瘤进行分类的固体支持体或试剂盒，该固体支持体或试剂盒包括有助于确定基因IGFBP3、F3、VGLL3、c-MAF、WNT5B和CTGF中的至少两个的组合的基因表达并且对其特异的核酸探针或抗体。在其中一个实施方案中，所述固体支持体或试剂盒包括对IGFBP3和F3特异的核酸探针或抗体。在另一个实施方案中，固体支持体或试剂盒包括对IGFBP3和F3以及VGLL3和c-MAF中的任一个或两个特异的核酸探针或抗体。在又另一个实施方案中，固体支持体或试剂盒还包括对EZH2、AMACR和MUC1特异的核酸探针或抗体。

固体支持体可以是阵列，诸如cDNA微阵列，多核苷酸阵列或蛋白质阵列。

用于任何试剂盒实施方案的核酸探针可以例如选自表6中所公开的序列。此类试剂盒特别有助于使用多重PCR，例如，多重定量PCR确定基因表达水平。

试剂盒还可以包括对测量基因表达水平而言是必要的其他试剂，诸如取决于所选择的方法用于对结合的或扩增的核酸或抗体进行检测和/或定量的第二标记的探针或亲和配体。此类标记也可直接附着或连接到核酸探针或抗体。

试剂盒还可以包括各种辅助物质以使试剂盒能够容易和有效地被使用，例如溶剂、洗涤缓冲液等等。此外，试剂盒还可以有利地包括参考样品或通过使用相同方法从患有已知高风险或低风险肿瘤的患者获得的有关参考基因表达水平值的信息。

表6

附图说明

图1示出了用于鉴定***癌中的重要候选ESCGP的方法。A.逐步鉴定用于***癌预后预测的候选ESCGP。B.根据如实施例2A中公开的4个标准选择19个高排名的ESCGP和5个对照基因。C.通过qPCR验证这24个基因在***癌细胞系中的表达。通过使用Treeview软件以基因中值定心的ΔCt值可视化基因表达模式。基因表达水平从浅灰至黑色增加，而ΔCt值从浅灰色至黑色减少。白色代表丢失的数据。

图2示出通过RT-PCR的ESCGP在***癌细胞系中的表达，如实施例2B中所述的。用50ng cDNA作为用于每个反应的模板，通过RT-PCR验证34个ESCGP和5个对照基因(c-MAF、AZGP1、AMACR、MUC1和EZH2)在3个***癌细胞系(LNCaP、DU145和PC3)中的表达模式。甘油醛-3-磷酸脱氢酶(GAPDH)用作内部上样对照基因。

图3示出通过与单qPCR(single qPCR)比较验证4重qPCR的准确度。在一系列的cDNA稀释测定法(cDNA标准曲线法)中，比较单qPCR和4重qPCR的结果。4重qPCR的优化条件被定义为产生与单qPCR的结果最相似的结果的条件。

图4A-K显示为了鉴定独立于所有临床参数表现与生存的相关性的标志物基因而进行的多变量分析的结果的表(见实施例3A)。

图5示出了通过ESCGP标签1和ESCGP标签2对患者的训练集的肿瘤亚型分类。在训练集中，36个FNA样品中的28个具有对于4个显著基因(F3、IGFBP3、VGLL3和c-MAF-a)的表达数据。由不同基因组合的一系列聚类分析显示，2个基因组合或标签可以以相似的方式将样品分为与生存具有很强相关性的3个亚型。第一个组合(ESCGP标签1)包括F3、IGFBP3和VGLL3以及第二个组合(ESCGP标签2)包括F3、IGFBP3和c-MAF-a。基因表达水平随ΔCt值的减少而增加。

图6示出了，通过ESCGP标签1(F3、IGFBP3和VGLL3)分类的肿瘤亚型之间的生存差异。A.通过ESCGP标签1(VGLL3、IGFBP3和F3)将95例患者的FNA样品分为3种肿瘤亚型或组(第1组、第2组和第3组)，如实施例3B中描述的。每例患者的临床参数被标记为通过不同的正方形表示。空白正方形分别表示较长的生存、较低PSA水平、局限性临床分期或良好/中度分化的肿瘤分级。具有不同填充物的正方形表示较短的生存、较高的PSA水平、晚期临床分期、不良分化的肿瘤分级。基因表达水平随ΔCt值的减少而增加。B.3种亚组的总生存和癌症特异性生存分析通过Kaplan-Meier曲线来显示。C.诊断时具有PSA≤50ng/mL的患者的Kaplan-Meier生存曲线。D.诊断时具有年龄≤73的患者的Kaplan-Meier生存曲线。E和F为显示了3种亚型或组之间的生存差异的统计学盒形图。盒的端部为第25和第75个四分位数，并且跨越盒的中间的线表示具有95％置信区间(CI)的中位值。通过t检验计算p值并且在后面标记为星号的p值具有统计学显著性。

图7示出了ESCGP标签2对患者的完全集的肿瘤亚型分类。通过ESCGP标签2(F3、IGFBP3和c-MAF-a)将同一95个FNA样品分为3个主要的肿瘤亚型或组(第1组、第2组和第3组)。基因表达水平随ΔCt值的减少而增加。

图8示出了通过PSA、年龄、临床分期和肿瘤分级定义的患者组的Kaplan-Meier生存曲线。A.图6中的95例患者中的87例具有诊断时的血清PSA和生存的数据。将患者分为两组，一组具有PSA>50ng/mL而另一组具有PSA≤50ng/mL。B.图6中的95例患者中的92例具有诊断时的年龄和生存的数据。将患者分为两组，一组具有年龄≤73岁而另一组具有年龄>73岁。C.图6中的95例患者中的89例具有临床分期和生存的数据。通过临床分期将患者分为两组，一组具有局限性分期(T≤T2和N0和M0和PSA≤100ng/ml)而另一组具有晚期分期(T>T2或N1或M1或PSA>100ng/ml)。D.图6中的95例患者中的92例具有肿瘤分级和生存的数据。将患者分为两组，一组具有不良分化的癌症而另一组具有良好或中度分化的癌症信息。通过Log-Rank检验方法计算所有的p值。

图9示出了由临床参数定义的同一组内的患者通过ESCGP标签1分类的3种肿瘤亚型的Kaplan-Meier生存曲线。在图6中的95例患者中，95例患者中的48例具有PSA≤50ng/ml，39例具有PSA>50ng/ml(B)，40例为具有年龄≤73岁(C)，52例为具有年龄>73岁(D)，38例具有局限性分期(E)，51例具有晚期分期(F)，39例具有良好的或中度的分化的癌症(G)，以及53例具有不良分化的癌症(H)。在同一临床参数的组内的患者仍可以通过ESCGP标签1(F3、IGFBP3和VGLL3)分类为具有明显不同生存的高风险(第1组)，中度风险组(第2组)和低风险亚型(第3组)。每个图的上部、下部分别显示总生存和癌症特异性生存。log-rank检验用于计算在亚型或组之间的生存差异的显著性或p值。

图10示出了在仅通过***疗法主要治疗的患者中通过ESCGP标签1分类的3种肿瘤亚型的Kaplan-Meier生存曲线。在图6中的95例患者中，65例具有***疗法作为主要治疗。在通过ESCGP标签1分类的3种肿瘤亚型之间仍可见明显的生存差异。

图11示出了在仅通过***疗法主要治疗的并在由临床参数定义的同一组内的患者中通过ESCGP标签1分类的3种肿瘤亚型的Kaplan-Meier生存曲线。在图6中的95例患者中，65例具有***疗法作为主要治疗。在这65例患者中，29例具有PSA≤50ng/ml(A)、37例具有PSA>50ng/ml(B)、24例为具有年龄≤73岁(C)、41例为具有年龄>73岁(D)、22例具有局限性分期(E)、44例具有晚期分期(F)、26例具有良好或中度分化的癌症(G)和39例具有不良分化的癌症(H)。在临床参数的同一组内的患者中的高风险(第1组)和低风险(第3组)亚型之间仍可以见明显的生存差异。

图12示出了通过参数化模型进行的生存时间的预测。生存时间的预测通过使用假设Weibull分布下的参数化模型来建模。A.总生存(左边部分)和肿瘤特异性(右边部分)生存通过临床参数包括诊断时的PSA(>50ng/mL对≤50ng/ml)、临床分期(晚期的对局限的)、肿瘤分级(不良的对良好+中度分化的)和年龄来预测。B.总生存(左边部分)和肿瘤特异性(右边部分)生存通过临床参数和通过ESCGP标签1分类的肿瘤亚型或组在一起来预测。Y轴表示实际的生存时间，而X轴表示预测的生存时间。在图上分别标出5年生存和8年生存以简化解释。C.表呈现添加通过ESCGP标签1的肿瘤亚型分类的参数对生存预测的预计改善。D.表表示ESCGP标签1和临床参数分别在总生存和癌症生存的预测中的贡献。

图13示出ESCGP标签3(IGFBP3和F3)对患者的完全集的肿瘤亚型分类。在189例患者中，95例具有可用于评估ESCGP标签3的数据。使用在FNA样品中测量的2个基因F3和IGFBP3)的中值定心的ΔCt值通过无监督层次聚类方法分类为3种肿瘤亚型(第1组、第2组和第3组)。结果通过使用TreeView软件可视化。基因的表达水平由灰度来表示。基因表达水平随ΔCt值的减少而增加。

实施例

一般方法

生物信息学分析

先前已描述了用于鉴定胚胎干细胞基因预测因子(ESCGP)的生物信息学分析(WO2008/013492A1)。简言之，从斯坦福微阵列数据库(Stanford Microarray Database)(SMD，http://smd.stanford.edu/)检索了先前公开的cDNA微阵列基因表达数据集。用于数据检索的标准为如下：

基因/点选择：选择阵列上的所有基因或克隆，不包括对照点和空白点。

数据崩溃(Data Collapse)和检索：检索行数据和通过SUID来平均；UID列含有NAME。

数据检索：R/G标准化比值(平均值)的以2为底的对数。

选择的数据过滤器：点不由实验者标记。

用于GENEPIX结果集的数据过滤器：通道1平均强度/中值

背景强度>1.5和通道2标准化(平均强度/中值背景强度)>1.5。

使用聚类程序(版本3.0)以进行无监督层次平均连锁聚类，并且使用TreeView程序以可视化聚类结果(Eisen等人，Proc Natl Acad Sci USA 1998,95:14863-8)。如先前描述的进行了SAM(微阵列的显著分析)(Tusher等，Proc Natl Acad Sci USA 2001,98:5116-21)。

检索的cDNA微阵列数据集的数据定心：5个人ESC系(Sperger等人,Proc NatlAcad Sci USA 2003,100:13350-5)和来自不同器官的115个人正常组织(Shyamsundar等人,Genome Biol2005,6:R22)的cDNA微阵列数据从SMD根据上面描述的参数来检索。数据集按不同阵列批次分为子集。基因通过使用聚类程序的基因定心功能在每个阵列批次内被定心。再次合并子集，并且通过使用聚类程序的阵列定心功能定心阵列。定心后，数据集被保存并转换成Excel形式。

***癌细胞系

三个***癌细胞系LNCaP、DU145和PC3购自美国典型培养物保藏中心(ATCC)。细胞培养根据由ATCC说明书的培养基和方法来进行。LNCaP、DU145和PC3细胞通过Iscove氏改良的Dulbecco氏培养基来维持(IMDM,目录号21980-032,Invitrogen)，该培养基补充了10％胎牛血清(目录号10082-147,Invitrogen)和50单位/ml和50ug/ml青霉素/链霉素(目录号15140-163,Invitrogen)。

FNA样品

***FNA(细针穿刺)样品通过用于细胞学诊断的常规方法在Department ofClinical Cytology and Pathology,Karolinska Hospital,Stockholm,Sweden采集。FNA样品从在任何治疗之前的诊断时的241例患者中获得。来自每例患者的至少一个新鲜的细胞学散布体被姬姆萨染色剂染色(Giemsa stained)用于临床细胞学诊断。其余重复的新鲜散布体转移至冰柜(deep freezer)，并一直在-80℃保持新鲜冷冻，直到分离RNA样品。由于穿刺采样方法可以由于癌细胞降低的细胞粘附而富集癌细胞的熟知的选择效应，具有***癌诊断的大部分FNA细胞学散布体被估计含有超过80％的肿瘤细胞。在241例患者中，以优良的品质在来自193例患者的样品中成功地提取了RNA。那些患者中的189例被诊断患有***癌，而4例患者未患***癌。

队列的临床特征

总计来自189例***癌患者的新鲜冷冻FNA样品在本研究中被分析。这189例***癌患者在1986-2001年期间被确诊。全部189例患者具有导致***癌的诊断的临床症状。在肿瘤学家监督下实习医师收集相关临床数据诸如诊断时的年龄、诊断日期、细胞学诊断和活检诊断、诊断时的血清PSA、临床分期、初级治疗等等。表5呈现有关这189例患者的临床特征的详细内容。

所有患者的诊断日期、死亡日期和死因的数据首先获自区域登记处及国家登记处，并且然后通过可用的原医学杂志验证。数据截尾的日期为2008年12月31日。在此时，189例患者中的22人仍然活着，163人死亡且4人在登记处没有数据。***癌特异性死亡被定义为，死亡的主要或次要原因是***癌或转移。由于其他原因的死亡被定义为死亡的主要原因和次要原因不是***癌或转移。这些病例甚至包括因可能由于***癌而恶化或与治疗的副作用和并发症相关的疾病或病况而死的患者。

所有189例患者具有导致直肠指检、PSA检测和随后的***FNA的临床症状。当疾病变成晚期时，***疗法是大多数患者(77.9％)唯一主要的治疗。

RNA分离

AllPrep DNA/RNA Mini Kit(目录号80204,QIAGEN)用于***癌细胞系中总RNA的分离。用于分离少于100ng的总RNA的(目录号1931,Ambion)用于从来自***癌患者的新鲜冷冻的FNA样品中分离总RNA。通过使用Agilent RNA 6000Nano Kit(目录号5067-1511,Agilent)在2100 RNA生物分析仪(Agilent)上控制RNA的量和质量。具有比7大的RNA完整数(RIN)的RNA样品被认为是合格的。在本研究中，从241例FNA样品中的193例来分离合格的总RNA用于进一步cDNA合成和qPCR实验。

RT-PCR

对于逆转录(RT)反应，用于PCR(聚合酶链式反应)的cDNA合成通过根据制造商的说明书使用Cloned AMV First-Strand cDNA Synthesis Kit(目录号12328-032，Invitrogen)来进行。最多2ug总RNA在20ul反应体积中用于RT。***癌细胞系中的33个ESCGP和5个对照基因的表达模式使用基因特异性引物对通过RT-PCR进行验证(图2)。对于每个PCR反应，使用50ng cDNA并且实验重复3次。使用常规的引物设计方法和PCR循环条件。

4重实时qPCR

用于定量PCR(qPCR)的第一链cDNA的合成使用ReverseTranscription Kit(目录号205311，QIAGEN)来运行。高达1ug总RNA在20ul反应体积中用于每个qPCR。反应在可以实时地同时监测4种不同的荧光染料(4-重)的密度的ABI7500实时循环仪(ABI7500real time cycler)上进行。在这4种染料组合中不选择惰性参比(passivereference)。用于4重qPCR的条件为1个循环中50℃时进行2分钟；1个循环中94℃时进行10分钟；40个循环中94℃时进行1分钟和1个循环中60℃时进行1.5分钟。固定基线的起始值和结束值被选择用于Ct值分析(Schmittgen和Livak,Nat Protoc2008,3:1101-8；Wittwer等人,Methods 2001,25:430-42)。

优化4重实时qPCR

4重qPCR含有4对基因特异性引物和4种基因特异性Taqman探针，每一种基因特异性Taqman探针用5’末端上的荧光基团和3’末端上的猝灭剂进行双重标记。在我们的研究中，Cy5、FAM、德克萨斯红和VIC用于5’末端标记，而BHQ-3、BHQ-1、BHQ-2和TAMRA用作3’猝灭剂。荧光基团-猝灭剂对的4种不同的组合能够特异性检测4种不同基因的PCR产物。总体而言，对于19个ESCGP和5个对照基因，通过Beacon Designer 7.0软件(Primer Biosoft)设计了45个预测的4重探针和24对引物。用于本发明的基因的探针和引物的序列信息呈现在表6中。

为了验证4重qPCR是否与单探针qPCR具有相同的特异性和效率，使用cDNA标准曲线法。源自纯化自LNCap、DU145和PC3细胞的总RNA的cDNA以10pg、100pg、1000pg、10000pg、100000pg的一系列浓度稀释，分别均用作用于单探针qPCR和4重qPCR二者的模板。标准曲线基于每个探针的Ct值和cDNA的量制作。比较源自相同基因的单探针qPCR和4重qPCR的cDNA的标准曲线的斜率和r值。进行探针和引物对的浓度的优化直到这些值在单qPCR和4重qPCR之间不存在显著差异。结果显示0.2uM探针和0.2uM引物对是用于4重qPCR的最佳浓度。4重qPCR的验证结果呈现于图3中。

qPCR产生的Ct值的标准化和定心

Ct(循环阈值)是获得荧光信号或足够的PCR产物需要的PCR循环数(在实时PCR中)的量度。在本研究中，实时PCR后样品中的基因的Ct值通过使用7500软件(版本2.0.5，ABI)来生成。为了标准化每个基因的Ct值，ΔCt值根据方程式ΔCt＝Ct_基因x-Ct_GAPDH来计算，其中Ct_基因x为待分析的基因的Ct值，且Ct_GAPDH为看家基因GAPDH(甘油醛-3-磷酸脱氢酶)的Ct值(Schmittgen和Livak,Nat Protoc 2008,3:1101-8；Wittwer等人,Methods 2001,25:430-42)。因此，每个基因在样品中的表达水平通过GAPDH的表达水平来标准化。ΔCt与基因表达水平呈负相关。4重qPCR的每个板块(panel)分别含有一个特定的GAPDH探针。具有弱信号的样品被从分析中排除(GAPDH的Ct值>28)。具有待分析的基因的弱信号的样品，其Ct值设定为40(设置为Ct值的最大值)。基因在所有样品中的ΔCt值通过使用聚类程序(版本3.0)的基因中值中心功能来定心(Eisen等人,Proc Natl Acad Sci USA 1998,95:14863-8)。定心的ΔCt值用于统计学分析。

生存相关性的统计分析

总生存和***癌特异性生存分别用作与分子和临床参数的相关性的生存分析中的终末点。生存时间定义为从诊断日期至死亡日期的时间，并用作连续变量。为了简化解释，长生存、中生存、或短生存分别定义为存活时间>8年、5-8年或<5年。对于仅由***疗法主要治疗的患者，在治疗前的先导时间(leading time)定义为从诊断日期至***治疗开始的日期的时间并用作连续变量。每个基因的定心的ΔCt值，诊断时的年龄和诊断时的血清PSA值用作连续变量。通过无监督层次聚类分析，样品分为三个组或亚型并且分组用作非连续变量。PSA按两大类<50ng/ml或>50ng/ml也作为非连续变量进行分析。WHO肿瘤分级被整合为两大类：良好-中度分化的或低分化的。临床分期被整合为两大类：晚期的(任何T≥T3或N1或M1或PSA>100ng/ml)或局限性的(T<T3和N0和M0和PSA<100ng/ml)。Cox比例风险比和Cox回归的单变量以及多变量分析通过Stata(版本10.1，StataCorp LP)统计软件进行。Kaplan-Meier分析以及统计数据盒形图通过使用统计软件(版本8.0.1，SASInstitute Inc)进行。

研究设置

本研究以三个步骤来进行：

1)鉴定641个基因的胚胎干细胞基因预测因子(ESCGP)标签。

2)从ESCGP标签选择重要候选基因的子集用于在***癌细胞系中对***癌亚型进行分类并优化多重qPCR。

3)通过测量这些选择的基因在具有7-20年生存数据的***癌患者的FNA样品中的表达水平验证临床重要性。

这导致了表现或与总生存或与癌症特异性生存的显著相关性的基因标志物的子集的鉴定。

实施例1：鉴定ESCGP标签

用于对各种类型的癌症进行分类的ESCGP标签被鉴定，如专利文献WO2008/013492A1中所公开的。简言之，根据上面描述的参数从斯坦福微阵列数据库(SMD)检索源自5个人ESC系和来自不同器官的115个人正常组织的全基因组cDNA微阵列数据的先前公开的数据集。检索的数据集的数据定心也如上面描述的来进行。来自正常组织的数据被使用以帮助数据定心。定心后，ESC系的子数据集从整个数据集分离。一类SAM通过仅使用此ESC系数据集进行，据此将所有的基因根据其跨越5个ESC系的表达水平的一致性来排序。通过使用q-值<0.05作为截止，此分析在ESC系中鉴定了具有一致性高表达水平的328个基因和具有一致性低表达水平的313个基因。这641个基因命名为胚胎干细胞基因预测因子(ESCGP)。

实施例2A：选择***癌中的重要候选ESCGP

来自641个ESCGP的列表的33个ESCGP的子集以及5个对照基因被选为可以能够使用较少ESCGP对***癌进行分类的候选者。候选者根据4个标准来选择(见图1B)；i)在641个基因ESCGP列表中的排序位置(图S1B中标注的“ESCGP列表”)；ii)在由Lapointe等人(Proc Natl Acad Sci USA 2004,101:811-816)鉴定的包括用于对***癌亚型进行分类的显著基因的基因列表中的排序位置(图1B中标注的“PCa对PCa”)；iii)在由Lapointe等人(Proc Natl Acad Sci USA 2004,101:811-816)鉴定的包括区分***癌与正常组织的显著基因的基因列表中的排序位置(图1B中标注的“正常对PCa”)：以及iv)来自先前重要的出版物(Lapointe等人,Proc Natl Acad Sci USA 2004,101:811-816；Varambally等人,Nature 2002,419:624-629；Rubin等人,JAMA 2002,287:1662-70)的基因。在图1B中，基因在相应基因列表中如果存在则被标记为“1”，且如果不存在则标记为“0”。因此，一些基因符合所有4个标准，而其他基因符合4个标准中的1-3个。AZGP1、c-MAF、AMACR、MUC1和EZH在ESCGP的列表中没有被鉴定，但因为其通过先前的研究已被鉴定为在***癌中具有重要性已被包括为重要的对照基因。少数基因诸如c-MAF具有不同的RNA转录本(http://www.ncbi.nlm.nih.gov/gene/4094)。分别设计了靶向这些不同的RNA转录本的引物和探针。

实施例2B：选择的基因在***癌细胞系中的表达的验证

33个选择的ESCGP和5个对照基因在3个不同的***癌细胞系中的表达使用基因特异性引物对通过RT-PCR进行验证(参见图2)。用于分析的细胞系为LNCaP，其源自较少侵袭性癌症，以及DU145和PC3，二者都源自侵袭性癌症。在分析的38个基因中，14个在所有3个细胞系中具有相似的表达，并视为对肿瘤的分类不太可能是有价值的。剩余的24个基因在较少侵袭性细胞系LNCaP和侵袭性细胞系DU145和PC3中具有不同的表达模式，并因此被认为是更可能有助于肿瘤分类以区分较少侵袭性癌症与较多侵袭性癌症。因此，总计24个基因(25个基因标志物)被选择用于优化多重qPCR并评估它们对***癌进行分类的能力。

实施例3A：***癌FNA样品的聚焦基因表达谱分析和与生存相关的标签ESCGP的鉴定

24个基因(25个基因标志物)在来自189例***癌患者的细针穿刺(FNA)样品中的表达通过使用多重qPCR来分析，并且然后分析与生存数据的相关性。患者队列的临床特征以及统计分析如上所述。

由于来自大部分FNA样品的总RNA的少的量，不是所有的候选基因都能在每个FNA样品中进行分析。为了协调该限制，将189例患者的队列根据实验时间顺序分为三组。3组分别含有来自36、65和88例患者的样品(表5)。仅在第1个子集中显示与生存的显著相关性的基因被连同新的候选基因一起包括在随后的子集中。生存分析在3个子集的每个中以及在最终完整的队列中进行分析(表1，图5-7)。这种协调筛选方法保证了最显著的基因标志物的发现，但可能会错过具有适度显著性的一些基因标志物。

对患者的已知临床参数和选择的候选基因的基因表达两者与生存的相关性进行分析。在单变量分析中，所有临床参数显示与总生存和癌症特异性生存二者的显著相关性(表1)。25个基因标志物中的10个，F3(凝固因子Ⅲ)、WNT5B(无翅型MMTV整合位点家族，成员5B)、VGLL3(退变样蛋白3(果蝇))、CTGF(***生长因子)、IGFBP3(***结合蛋白3)、c-MAF-a(v-maf肌肉腱膜纤维肉瘤癌基因同源物的长形式(禽))、c-MAF-b(v-maf肌肉腱膜纤维肉瘤癌基因同源物的短形式(禽))、AMACR(α-甲基酰基辅酶A消旋酶)、MUC1(粘蛋白1，细胞表面相关的)和EZH2(zeste的增强子同源物2(果蝇))显示或与总生存和/或与癌症特异性生存的显著相关性(表1)。在整个研究中p值<0.05被认为显著。除了EZH2，所有这些显著基因的表达水平(与ΔCt值负相关的)显示与生存时间的正相关性(表1中的值<1)。

在单变量分析中与生存具有显著相关性的10个基因标志物中的每一个连同包括诊断时的年龄、两个类别的PSA、肿瘤分级和临床分期的临床参数一起在多变量分析中进行分析(图4A-K)。多变量分析指示基因变量的显著性受临床参数的影响有多大。由于不同参数的缺失的数据，包括在多变量分析中的患者的数量比单变量分析中的患者的数量少。综上所述，4个基因(F3、IGFBP3、CTGF和AMACR)显示独立于所有临床参数的与总生存和癌症特异性生存二者的相关性。所有4个基因，除了AMACR，来自ESCGP的列表。2个基因(WNT5B和EZH2)显示与癌症特异性生存的独立相关性，而1个基因(VGLL3)显示与总生存的独立相关性。

实施例3B：与生存相关的显著ESCGP标签的鉴定

为了研究多基因在预测生存中的可能的加性效应或协同效应，本发明人使用患者在第1集(训练集)中的数据在一系列的无监督层次聚类分析中测试了10个显著基因的不同组合。2个标签可以以相似的方式将肿瘤分为在总生存和肿瘤特异性生存中具有显著差异的3个亚组或亚型(图5)。第1个ESCGP标签(标签1)包括标志物基因VGLL3、IGFBP3和F3。第2个ESCGP标签(标签2)包括标志物基因c-MAF-a、IGFBP3和F3。使用各自标签分类的肿瘤亚型通过使用完整集中的患者数据来证实(图6和图7)。

ESCGP标签1(VGLL3、IGFBP3与F3)显示比ESCGP标签2(c-MAF-a、IGFBP3与F3)好的结果(表2和表3)。在189例患者中，87例具有所有临床参数和通过标签1分类的亚型二者的数据。总生存和癌症特异性生存的多变量分析显示通过标签1的亚型分类是最显著的参数并独立于年龄、PSA水平、肿瘤分级及临床分期(表2)。

中位总生存在高风险亚型中为2.60年，在中度风险亚型中为3.85年，且在低风险亚型中为7.98年(图6E)，相应于高风险亚型相比于低风险亚型的5.86的风险比(95％CI2.91-11.78，P<0.001)，和中度风险亚型相比于低风险亚型的3.45的风险比(95％CI 1.79-6.66，P<0.001)。总生存的差异归因于癌症特异性生存和非癌症特异性生存二者(图6E)。

有趣的是，非特异性死亡的中位生存时间在高风险亚型中为3.54年，在中度风险亚型中为3.70年，且在低风险亚型中为7.98年(图6E)。确诊后5年之内，并非直接因***癌的死亡在低风险亚型中仅为4/31例(12.9％)，相比之下分别为在高风险亚型中的9/31例(29％)和在中度风险亚型中的9/32例(28％)。在低风险亚型中具有最短生存时间的3个病例中(符号点(symbolized spots))，PC39和PC140在***癌诊断之后从未治疗且死于其他疾病，而PC234在81岁时确诊，仅通过***疗法治疗并死于***癌。

Kaplan-Meier曲线进一步呈现了通过肿瘤ESCGP标签1分类的3种亚型之间的明显的生存差异。高风险亚型(第1组)、中度险亚型(第2组)、和低风险亚型(第3组)的总生存率分别为5年时的20％、40％和80％，和8年时的10.3％、25.0％和64.4％(图6B)。

高风险亚型和低风险亚型之间的生存差异比通过任何临床参数的结果令人印象深刻得多，并且在每个患者组内仍被观察到或在通过PSA、临床分期、肿瘤分级或年龄所限定的相同组内还变得更明显(图6C-D)。例如，92例患者中的48例在诊断时具有血清PSA<50ng/ml。在这48例患者中，8年时总生存率分别为对高风险亚型的21.4％、对中度风险亚型的47.1％、和对低风险亚型的76.5％。最令人印象深刻地，92例患者中的40例为具有年龄<73。在这40例年轻的患者中，8年时的总生存率分别为对高风险亚型的7.1％、对中度风险亚型的44.4％和对低风险亚型的88.2％。此外，分类的组之间的生存差异在仅由***疗法治疗的患者组中也被观察到(图6-11)。

实施例3C：通过对临床参数添加ESCGP标签改善生存预测

参数化模型用于生存预测以评估通过VGLL3、IGFBP3和F3的标签(标签1)分类的亚型可以多大程度上改善使用所有临床参数的预测(图12)。与仅使用临床参数的预测模型相比，添加通过使用标签1的亚型分类将5年时的总生存的预测准确度从70.1％提高至高达78.2％并且将癌症特异性生存的预测准确度从65.5％提高至71.3％(图12C)。基于Cox回归分析，似然率(LR)嵌套检验显示，通过标签1的亚型分类显著有助于连同临床参数的多变量模型中回归程度的提高(图12D)。

实施例3D：根据基于ESCGP标签3(IGFBP3和F3)的肿瘤亚型分类的明显生存差异。

在189例患者中，95例具有可供评估ESCGP标签3(IGFBP3和F3)的数据。使用在FNA样品中测量的2个基因(F3和IGFBP3)的中值定心的ΔCt值通过无监督层次聚类方法分类出3种肿瘤亚型(第1组、第2组和第3组)。结果通过使用Treeview软件来可视化(图13)。基因的表达水平由灰度来表示。每例患者的临床参数由如图中呈现的各种符号来标注。如表4-5中呈现的，通过2个基因标签的3组分类显示比2个基因中任何一个单独时的相关性显著更强的与总生存和癌症特异性生存的相关性。

Claims

1.用于***癌的预后标志物，所述预后标志物为以下物质的组合：基因VGLL3和c-MAF中的一个或多个、F3以及IGFBP3，或由其编码的蛋白。

2.如权利要求1所述的预后标志物，其中，基因F3、IGFBP3和VGLL3用作所述预后标志物。

3.如权利要求1所述的预后标志物，其中，基因F3、IGFBP3和c-MAF用作所述预后标志物。

4.如权利要求1-3中任一项所述的预后标志物，其中，通过对由所述基因表达的RNA或mRNA的量进行定量来确定基因表达水平。

5.如权利要求4所述的预后标志物，其中，所述RNA或mRNA的量通过使用选自以下的方法来确定：微阵列技术、RNA印迹和定量PCR。

6.如权利要求5所述的预后标志物，其中，所述定量PCR为实时定量PCR。

7.如权利要求5所述的预后标志物，其中，所述定量PCR为实时定量PCR和多重PCR。

8.如权利要求1-3中任一项所述的预后标志物，其中，通过对由所述基因编码的蛋白的量进行定量确定基因表达水平。

9.如权利要求8所述的预后标志物，其中，所述蛋白的量通过使用选自以下的方法来确定：免疫组织化学、蛋白质印迹、ELISA、RIA和质谱法。

10.用于***癌的预后标志物，所述预后标志物为以下物质的组合：基因VGLL3和c-MAF中的一个或多个、基因WNT5B、CTGF、EZH2、AMACR和MUC1中的一个或多个、F3以及IGFBP3，或由其编码的蛋白。

11.如权利要求10所述的预后标志物，其中，通过对由所述基因表达的RNA或mRNA的量进行定量来确定基因表达水平。

12.如权利要求11所述的预后标志物，其中，所述RNA或mRNA的量通过使用选自以下的方法来确定：微阵列技术、RNA印迹和定量PCR。

13.如权利要求12所述的预后标志物，其中，所述定量PCR为实时定量PCR。

14.如权利要求12所述的预后标志物，其中，所述定量PCR为实时定量PCR和多重PCR。

15.如权利要求10所述的预后标志物，其中，通过对由所述基因编码的蛋白的量进行定量确定基因表达水平。

16.如权利要求15所述的预后标志物，其中，所述蛋白的量通过使用选自以下的方法来确定：免疫组织化学、蛋白质印迹、ELISA、RIA和质谱法。

17.一种固体支持体或试剂盒，用于对诊断为***癌的受试者中的肿瘤进行分类或者预测***癌患者的生存性，所述固体支持体或所述试剂盒包含有助于确定基因VGLL3和c-MAF中的一个或多个、F3以及IGFBP3的基因表达的核酸探针或抗体。

18.如权利要求17所述的固体支持体或试剂盒，其中，所述基因表达为RNA或蛋白表达。

19.如权利要求17所述的固体支持体或试剂盒，所述固体支持体还包含有助于确定基因WNT5B、CTGF、EZH2、AMACR和MUC1中的一个或多个的基因表达的核酸探针或抗体。

20.如权利要求17-19中任一项所述的固体支持体或试剂盒，其中所述固体支持体是阵列。

21.如权利要求17-19中任一项所述的固体支持体或试剂盒，其中所述固体支持体是微阵列或蛋白质阵列。

22.如权利要求17-19中任一项所述的固体支持体或试剂盒，其中所述核酸探针选自SEQ ID NO:21-68。

23.有助于确定基因VGLL3和c-MAF中的一个或多个、F3以及IGFBP3的基因表达的核酸探针或抗体在制备用于对***癌肿瘤进行分类或预测***癌患者的生存性的试剂盒中的用途。

24.根据权利要求23所述的用途，其中，对***癌肿瘤进行分类包括：

a)确定基因VGLL3和c-MAF中的一个或多个、F3以及IGFBP3在来自***癌肿瘤的样品中的基因表达水平；

b)通过将a)中所确定的基因表达水平与在已知是高风险肿瘤或低风险肿瘤的参考肿瘤中的相同基因的参考基因表达进行比较来对肿瘤进行分类；以及

c)如果a)中确定的基因表达水平与参考的高风险肿瘤的参考基因表达匹配，则推断肿瘤是高风险肿瘤，并且如果在a)中确定的基因表达水平与参考的低风险肿瘤的参考基因表达匹配，则推断肿瘤是低风险肿瘤。

25.根据权利要求23所述的用途，其中，预测***癌患者的生存性包括：

b)通过将a)中所确定的基因表达水平与在已知是高风险肿瘤或低风险肿瘤的参考肿瘤中的相同基因的参考基因表达进行比较来对所述生存性进行预测；以及

c)如果a)中确定的基因表达水平与参考的高风险肿瘤的参考基因表达匹配，则推断肿瘤是高风险肿瘤并且预测的生存性较短，如果在a)中确定的基因表达水平与参考的低风险肿瘤的参考基因表达匹配，则推断肿瘤是低风险肿瘤并且预测的生存性较长。

26.如权利要求24或25所述的用途，其中，a)还包括确定基因WNT5B、CTGF、EZH2、AMACR和MUC1中的一个或多个的基因表达水平。

27.如权利要求26所述的用途，其中，a)还包括确定WNT5B和/或CTGF的基因表达水平。

28.如权利要求24或25所述的用途，其中，所述基因表达水平通过对由所述基因表达的RNA或mRNA的量进行定量来确定。

29.如权利要求28所述的用途，其中，所述RNA或mRNA的量通过使用选自以下的方法来确定：微阵列技术、RNA印迹和定量PCR。

30.如权利要求29所述的用途，其中，所述定量PCR为实时定量PCR。

31.如权利要求29所述的用途，其中，所述定量PCR为实时定量PCR和多重PCR。

32.如权利要求24或25所述的用途，其中所述基因表达水平通过对由所述基因编码的蛋白的量进行定量来确定。

33.如权利要求32所述的用途，其中所述蛋白的量通过使用选自以下的方法来确定：免疫组织化学、蛋白质印迹、ELISA、RIA和质谱法。