CN110322924A

CN110322924A - 利用关于基因组模型的数据集成的途径识别方法(paradigm)

Info

Publication number: CN110322924A
Application number: CN201910120910.6A
Authority: CN
Inventors: C·J·瓦斯科; S·C·本茨; J·M·斯图尔特; D·豪斯勒
Original assignee: University of California
Current assignee: University of California
Priority date: 2010-04-29
Filing date: 2011-04-29
Publication date: 2019-10-11
Also published as: IL262909B; JP2019032849A; US20180011966A1; CN102985927A; JP6073217B2; JP2017111830A; US10770169B2; US10991448B2; AU2016219594A1; JP6717898B2; US10916329B2; CA3007805A1; CA2796272C; WO2011139345A3; US20190341123A1; JP2013528858A; KR20180108898A; US20180046752A1; EP2564340B1; KR20190120450A

Abstract

本发明的发明名称是利用关于基因组模型的数据集成的途径识别方法(PARADIGM)。本发明涉及评估用特定临床方案或疗法治疗患者的诊断的概率的方法。

Description

利用关于基因组模型的数据集成的途径识别方法(PARADIGM)

本申请是分案申请，原申请的申请日为2011年4月29日、申请号为201180032521.X、发明名称为“利用关于基因组模型的数据集成的途径识别方法(PARADIGM)”。

与其它申请的关系

本申请涉及并要求2010年4月29日提交的美国临时专利申请序列号 61/343,575、题目为“利用关于基因组模型的数据集成的途径识别算法 (PARADIGM)”的优先权，其通过引用其整体被并入本文。

本发明部分利用以下美国联邦机构的基金完成：美国国家科学基金会杰出青年教授奖(NSF CAREER)0845783、美国国家癌症研究所的合同/授权号码 5R21CA135937-02和1U24CA143858-01以及国立卫生培训研究院(National Institute of Health Training)授权号码T32GM070386-01。美国联邦政府对本发明具有一定的权利。

发明领域

本发明涉及鉴定个体或对象中生物学途径的成分并确定所述个体或对象是否是临床方案或治疗的候选者的方法。本发明还涉及利用该方法诊断对象是否容易患有癌症、自身免疫疾病、细胞周期病症或其它病症。

背景

现代癌症治疗的关键前提是患者诊断、预后、风险评估和治疗反应预测可以根据肿瘤的基因组、转录和外基因组特征和在诊断时搜集的相关临床信息(例如，患者病史、肿瘤组织学和阶段)以及随后的临床随访数据(例如，治疗方案和疾病复发事件)对癌症分层而被提高。

虽然可以用若干高通量技术来探查癌症的分子详细情况，但根据该 PARADIGM仅实现了少数成功。例如，表现为ERBB2生长因子受体酪氨酸激酶的特定扩增或过表达的25％的乳癌患者现在可以用曲妥珠单抗(trastuzumab)治疗，所述曲妥珠单抗是靶向受体的一种单克隆抗体(Vogel C,Cobleigh MA,Tripathy D, Gutheil JC,Harris LN,Fehrenbacher L,Slamon DJ,Murphy M,Novotny WF, Burchmore M,Shak S,StewartSJ.First-line,single-agent Herceptin(R)(trastuzumab) in metastatic breastcancer.A preliminary report.Eur.J.Cancer 2001Jan.；37Suppl 1:25-29)。

然而，即使该成功的情况被患有ERBB2-阳性乳癌的50％以下的患者实际上实现曲妥珠单抗的任何治疗益处的事实所遮盖，突出我们对该充分研究的癌途径以及ERBB2-阳性乳癌固有的许多治疗抵抗机制的不完全理解(Park JW,Neve RM, Szollosi J,BenzCC.Unraveling the biologic and clinical complexities of HER2.Clin. BreastCancer 2008Oct.；8(5):392-401)。

这种完全不能将现代进步转到基础癌症生物学中部分归于我们不能全面认识和结合现在针对实际上任何类型的癌症在技术上可获得的所有omic特征。尽管有充分的证据表明组织学上类似的癌症事实上是许多分子亚型的复合物(composite)，每一亚型具有明显不同的临床表现，但该知识很少应用于实际中，这是因为缺乏与预后和治疗选项充分相关的有力特征。

癌症是一种基因组疾病，其与导致细胞***失调的异常变化有关。现在还不清楚的是：基因组变化如何进入到构成癌症表型基础的遗传途径中。高通量功能基因组学研究在过去十年中已经取得巨大的进步(Alizadeh AA,Eisen MB,Davis RE,Ma C,Lossos IS,Rosenwald A,Boldrick JC,Sabet H,Tran T,Yu X,Powell JI, Yang L,Marti GE,MooreT,Hudson J,Lu L,Lewis DB,Tibshirani R,SHERLOCK G, Chan WC,Greiner TC,Weisenburger DD,Armitage JO,Warnke R,Levy R,Wilson W, Grever MR,Byrd JC,Botstein D,Brown PO,Staudt LM.Distinct types of diffuse large B-cell lymphomaidentified by gene expression profiling.Nature 2000 Feb.；403(6769):503-511.；Golub TR,Slonim DK,Tamayo P,Huard C,Gaasenbeek M, Mesirov JP,Coller H,Loh ML,Downing JR,Caligiuri MA,Bloomfield CD,Lander ES. Molecular classification ofcancer:class discovery and class prediction by gene expressionmonitoring.Science 1999Oct.；286(5439):531-537.；van de Vijver MJ,He YD,van tVeer LJ,Dai H,Hart AAM,Voskuil DW,Schreiber GJ,Peterse JL,Roberts C, MartonMJ,Parrish M,Atsma D,Witteveen A,Glas A,Delahaye L,van der Velde T, BartelinkH,Rodenhuis S,Rutgers ET,Friend SH,Bernards R.A Gene-Expression Signature asa Predictor of Survival in Breast Cancer.N Engl J Med 2002Dec.；347(25): 1999-2009)。

然而，集成多个数据源来鉴定肿瘤发生和发展的可再生和可解释分子特征的挑战仍然令人困惑。最近，由TCGA和其它进行的实验性研究弄清楚了需要对基因组干扰的途径水平理解来理解在癌细胞中观察到的变化。这些发现表明，即使在患者具有基因组变化或不同基因的异常表达时，这些基因仍常常参与共同的途径。另外，甚至更引人注目的是，观察到的变化(例如，缺失对比扩增)常常改变相同方向中的途径输出信息(output)——或者都提高或者都降低途径激活。(参见， Parsons DW,Jones S,Zhang X,Lin JCH,LearyRJ,Angenendt P,Mankoo P,Carter H, Siu I,Gallia GL,Olivi A,McLendon R,RasheedBA,Keir S,Nikolskaya T,Nikolsky Y, Busam DA,Tekleab H,Diaz LA,Hartigan J,Smith DR,Strausberg RL,Marie SKN, Shinjo SMO,Yan H,Riggins GJ,Bigner DD,Karchin R,Papadopoulos N,Parmigiani G, Vogelstein B,Velculescu VE,KinzlerKW.An Integrated Genomic Analysis of Human Glioblastoma Multiforme.Science2008Sep.；321(5897):1807-1812.；Cancer Genome Atlas ResearchNetwork.Comprehensive genomic characterization defines human glioblastomagenes and core pathways.Nature 2008Oct.；455(7216):1061-1068)。

用于解释全基因组癌症数据的方法着重于鉴定与特定表型或疾病状态高度相关的基因表达概况，并已经产生有希望的结果。已经提议利用方差分析、错误发现(false-discovery)的方法和非参数方法(参见Troyanskaya等,2002)。Allison DB,Cui X,PageGP,Sabripour M.Microarray data analysis:from disarray to consolidation and consensus.Nat.Rev.Genet.2006Jan.；7(l):55-65.；Dudoit S,Fridlyand J.Aprediction-based resampling method for estimating the number of clusters in adataset. Genome Biol 2002Jun.；3(7):RESEARCH0036-RESEARCH0036.21.；Tusher VG,Tibshirani R,Chu G.Significance analysis of microarrays applied to theionizing radiation response.Proc.Natl.Acad.Sci.U.S.A.2001Apr.；98(9):5116-5121；Kerr MX, Martin M,Churchill GA.Analysis of variance for gene expressionmicroarray data.J. Comput.Biol.2000；7(6):819-837；Storey JD,TibshiraniR.Statistical significance for genomewide studies.Proc.Natl.Acad.Sci.U.S.A.2003Aug.；100(16):9440-9445；和 Troyanskaya OG,Garber ME,Brown PO,Botstein D,Altman RB.Nonparametric methods for identifying differentially expressedgenes in microarray data. Bioinformatics 2002Nov.；18(l l):1454-1461)。

若干途径-水平方法根据基因集(geneset)的过分表达使用统计学检验来检测途径是否在疾病状况中被感染。在这些方法中，基因根据，例如通过差异表达或拷贝数变化检测到的其分化活性的程度被排序。然后指定概率分数，其反映途径的基因排序接近如在基因集富集分析(GSEA)中使用的分类列表末端的程度 (Subramanian A,Tamayo P,MoothaVK,Mukherjee S,Ebert BL,Gillette MA, Paulovich A,Pomeroy SL,Golub TR,LanderES,Mesirov JP.Gene set enrichment analysis:a knowledge-based approach forinterpreting genome-wide expression profiles. Proc.Natl.Acad.Sci.U.S.A.2005Oct.；102(43):15545-15550)。其它方法包括使用基于超几何检验的方法来鉴定基因本体论(Ashburner M,Ball CA,Blake JA,Botstein D,Butler H,Cherry JM,Davis AP,Dolinski K,Dwight SS,Eppig JT,Harris MA,Hill DP,Issel-Tarver L,Kasarskis A,Lewis S,Matese JC,Richardson JE,Ringwald M, Rubin GM,SHERLOCK G.Geneontology:tool for the unification of biology.The Gene Ontology Consortium.NatGenet 2000May；25(l):25-29.)或MIPS哺乳动物蛋白质-蛋白质相互作用(Pagel P,KovacS,Oesterheld M,Brauner B,Dunger-Kaltenbach I, Frishman G,Montrone C,Mark P,Stiimpflen V,Mewes H,Ruepp A,Frishman D.The MIPS mammalian protein-proteininteraction database.Bioinformatics 2005 Mar.；21(6):832-834.)差别表达的基因中富集的种类(Tamayo P,Slonim D,Mesirov J, Zhu Q,Kitareewan S,Dmitrovsky E,Lander ES,Golub TR.Interpreting patterns of gene expression with self-organizing maps:methods and application to hematopoietic differentiation.Proc.Natl.Acad.Sci.U.S.A.1999Mar.；96(6):2907-2912.)。

过分表达分析受其效力限制，因为它们并不结合能增加途径相关性检测信号的、途径中已知的基因之间的相互依赖性。另外，它们将所有基因变化都视为相等，这被预期对于许多生物***是没有效的。

更复杂的问题是这样的事实，即，许多基因(例如，微小RNA)是多效的，以不同的功能在若干途径中发挥作用(Maddika S,Ande SR,Panigrahi S,Paranjothy T,Weglarczyk K,Zuse A,Eshraghi M,Manda KD,Wiechec E,Los M.Cell survival,celldeath and cell cycle pathways are interconnected:implications for cancertherapy.Drug Resist.Updat.2007Jan.；10(l-2):13-29)。由于这些因素，过分表达分析常常错过功能-相关途径，而该途径的基因具有临界差别活性。当在小途径中只有单个基因被高度改变时，它们也可以产生许多假阳性。我们关于基因及其表型结果之间详细的相互作用的总体知识正在迅速增长。

虽然知识传统地分散在文献中，而且难以***地接近，但是新的尝试正在将途径知识编目成公众可得的数据库。包括途径拓扑的一些数据库是Reactome (Joshi-Tope G,Gillespie M,Vastrik I,D'Eustachio P,Schmidt E,de Bono B,Jassal B, GopinathGR,Wu GR,Matthews L,Lewis S,Birney E,Stein L.Reactome:a knowledgebase ofbiological pathways.Nucleic Acids Res.2005Jan.；33(Database issue):D428-32；Ogata H,Goto S,Sato K,Fujibuchi W,Bono H,Kanehisa M.KEGG: Kyoto Encyclopediaof Genes and Genomes.Nucleic Acids Res.1999 Jan.；27(1):29-34.))和NCI通路相互作用数据库(Pathway Interaction Database)。期望对这些数据库的更新通过明确地解码基因如何彼此调节和交流来提高我们对生物 ***的理解。关键的假设是这些途径的相互作用拓扑可以被采用，用于解释高通量数据集的目的。

直到现在，只有少数计算方法可用于结合途径知识来解释高通量数据集。然而，已经提议若干更加新的方法，其结合途径拓扑(Efroni S,Schaefer CF,Buetow KH.Identification of key processes underlying cancer phenotypes using biologicpathway analysis.PLoS ONE 2007；2(5):e425.)。有一种方法，称为信号转导途径影响分析 (Signaling Pathway Impact Analysis)(SPIA)，其利用类似于Google的网页级别(PageRank)的方法来测定基因在途径中的影响(Tarca AL,Draghici S,Khatri P, HassanSS,Mittal P,Kim J,Kim CJ,Kusanovic JP,Romero R.A novel signaling pathwayimpact analysis.Bioinformatics 2009Jan.；25(1):75-82.)。在SPIA中，更多的影响施加在与许多其它基因连接的基因上。SPIA被成功地应用到不同的癌症数据集(肺腺癌和乳癌)，并显示对于鉴定已知参与这些癌症的途径比过分表达分析和基因集富集分析好。虽然SPIA代表在利用途径拓扑解释癌症数据集中向前迈了一大步，但它限于仅使用单一类型的全基因组数据。

需要新的计算方法来联系多重基因组变化诸如拷贝数、DNA甲基化、体细胞突变、mRNA表达和微小RNA表达。期望结合的途径分析提高对大集合观察结果的因果解释的精确性和灵敏性，因为单一数据源本身不可能提供全貌。

在过去若干年中，已经开发了概率图模型中的方法(PGMs)，用于获知与多重观察水平一致的因果关系网络。可以利用有效的算法来从数据中自动获知途径(Friedman N,Goldszmidt M.(1997)Sequential Update of Bayesian Network Structure. In:Proceedings of the Thirteenth Conference on Uncertainty in ArtificialIntelligence (UAI'97),Morgan Kaufmann Publishers,pp.165-174；Murphy K,WeissY.Loopy belief propagation for approximate inference:An empirical study.In:Proceedings of Uncertainty in AI.1999)，并且所述算法非常适于遗传网络推理中的问题(Friedman N.Inferring cellular networks using probabilistic graphicalmodels.Science 2004 Feb.；303(5659):799-805.)。作为实例，图形模型已被用于鉴定在癌症生物学中形成 ‘模数’的基因集(Segal E,Friedman N,Kaminski N,Regev A,KollerD.From signatures to models:understanding cancer using microarrays.Nat Genet2005Jun.；37 Suppl:S38-45.)。它们也已被应用于阐明肿瘤基因型和表达表型之间的关系(Lee S, Pe'er D,Dudley AM,Church GM,Koller D.Identifying regulatorymechanisms using individual variation reveals key role for chromatin modification.Proc.Natl.Acad.Sci. U.S.A.2006Sep.；103(38):14062-14067.)和推测蛋白质信号网络(Sachs K,Perez O, Pe'er D,Lauffenburger DA,Nolan GP.Causal protein-signaling networks derived from multiparameter single-cell data.Science2005Apr.；308(5721):523-529.)以及重组基因调节代码(Beer MA,TavazoieS.Predicting gene expression from sequence.Cell 2004 Apr.；117(2):185-198.)。具体地，因子图(factor graph)已被用于模型表达数据 (Gat-Viks I,Shamir R.Refinementand expansion of signaling pathways:the osmotic response network inyeast.Genome Research 2007Mar.；17(3):358-367.；Gat-Viks I, Tanay A,Raijman D,Shamir R.The Factor Graph Network Model for Biological Systems.In:HutchisonD,Kanade T,Kittler J,Kleinberg JM,Mattern F,Mitchell JC, Naor M,Nierstrasz O,Pandu Rangan C,Steffen B,Sudan M,Terzopoulos D,Tygar D, Vardi MY,Weikum G,Miyano S,Mesirov J,Kasif S,Istrail S,Pevzner PA,Waterman M,editors.Berlin,Heidelberg:Springer Berlin Heidelberg；2005p.31-47.；Gat-Viks I, Tanay A,Raijman D,Shamir R.A probabilistic methodology for integrating knowledge andexperiments on biological networks.J.Comput.Biol.2006Mar.；13(2):165-181.)。

乳癌是临床上和基因组学上异质的，其由若干在病理上和分子上不同的亚型组成。患者对常规和靶向的治疗方法的反应在亚型之间不同，激发对标记物引导的治疗策略的开发。对乳癌细胞系的收集反映在肿瘤中发现的许多分子亚型和途径，这表明用候选治疗化合物治疗细胞系可以指导鉴定分子亚型、途径和药物反应之间的联系。在对77种治疗化合物的测试中，几乎所有的药物在这些细胞系均显示差别反应，并且，大约一半显示亚型-、途径和/或基因组异常-特异性反应。这些观察结果表明反应和抵抗的机制，其可以告知临床药物部署以及有效组合药物的努力。

以各种水平积累肿瘤的高通量分子概况是世界范围内一个长期且成本高的过程。以各种水平对基因调节的组合分析可以指出特定的生物学功能和分子途径，其在多种上皮癌中被下调，并为新的患者亚群显示定制(tailored)疗法和监测。从大约110个乳癌患者，我们已经收集了来自原发性肿瘤、匹配的血液和具有已知微转移状况的新冰冻样本的若干分子水平上的高通量数据(还被称为MicMa数据集)。这些患者是超过900个乳癌病例的同龄组的一部分，所述病例具有关于播散肿瘤细胞(DTC)的存在、对复发和总存活率长期随访的信息。MicMa集已被用于全基因组mRNA表达的平行试验研究中(1Naume,B等,(2007),Presence of bone marrow micrometastasis is associated with differentrecurrence risk within molecular subtypes of breast cancer,1:160-171)、微阵列-比较基因组杂交(arrayCGH)(Russnes HG, Vollan HKM,Lingjaerde OC,Krasnitz A,Lundin P,Naume B, T,Borgen E,Rye IH, A,Chin S,Teschendorff AE,Stephens PJ, S,Schlichting E, Baumbusch LO, R,Stratton MP,WiglerM,Caldas C,Zetterberg A,Hicks J, -Dale A.Genomic architecturecharacterizes tumor progression paths and fate in breast cancer patients.SciTransl Med 2010Jun.；2(38):38ra47)、DNA甲基化 ( JA,Fleischer T,SolvangHK,Nordgard SH,Edvardsen H,Potapenko I, Nebdal D,Daviaud C,Gut I,Bukholm I,Naume B,-Dale A,Tost J,Kristensen V.Methylation profiling with apanel of cancer related genes:association with estrogen receptor,TP53mutationstatus and expression subtypes in sporadic breast cancer.Mol Oncol 2011Feb.；5(1):61-76)、全基因组SNP和SNP-CGH(Van,Loo P.等.,(2010), Allele-specific copynumber analysis of tumors,107:16910-169154)、全基因组 miRNA表达分析(5Enerly,E.等,(2011),miRNA-mRNA Integrated Analysis Reveals Roles for miRNAs in PrimaryBreast Tumors,6:e16915-)、TP53突变状态依赖性途径和高通量配对末端测序(7Stephens,P.J.等,(2009),Complex landscapes of somatic rearrangement in humanbreast cancer genomes,462:1005-1010)。这是由单个实验室对***原发性肿瘤的相同集合进行的高通量分子数据全面收集。

癌症研究中极其重要的课题是鉴定驱使癌症发展的基因组异常。利用MicMa 同龄组的全基因组拷贝数和表达概况，我们限定若干过滤步骤，每一步骤均被设计成在前一步骤中选择的基因中鉴定最有前景的候选基因。最初两个步骤包括鉴定一般异常的以及与表达基因顺式相关的基因，即，拷贝数变化对表达具有实质影响的基因。随后，该方法考虑选择的基因的反式作用，进一步缩小潜在的新候选驱动基因的范围(Miriam Ragle Aure,Israel Steinfeld Lars Oliver Baumbusch Knut Doron Lipson NaumeVessela N.Kristensen Anne-Lise -Dale Ole-Christianand ZoharYakhini,(2011),A robust novel method for the integrated analysis of copynumber and expression reveals new candidate driver genes in breast cancer)。最近，我们已经发展了一种等位基因-特异性的拷贝数分析，其使我们能够精确地仔细分析实体肿瘤的等位基因-特异性拷贝数(ASCAT)，并同时估计和调整肿瘤倍性和非异常细胞混合物(Van,Loo P.等,(2010),Allele-specific copy number analysis of tumors,107:16910-169154)。这可以计算全基因组等位基因 -特异性拷贝数概况，从该拷贝数概况中可以精确地测定获得、丢失、拷贝数无关事件(neutral event)和杂合性丢失(LOH)。以等位基因特异性方式观察DNA异常使我们能构建乳癌中等位基因偏斜的全基因组图谱，这指示其中一个等位基因优先丢失而其它等位基因优先获得的位点。我们假定这些可选等位基因对乳癌发展具有不同的影响。我们也发现，与其它亚型相比，基底细胞样乳癌具有明显高的LOH 频率，并且，它们的ASCAT概况显示在肿瘤发展期间大规模丢失基因组材料，接下来是全基因组复制，产生近三倍体基因组(Van等(2010)，同上)。在正常***上皮细胞以及***肿瘤中已经报道了不同的通用DNA甲基化概况。

现在需要提供可用于表征、诊断、预防、治疗和测定疾病和病症结果的方法。

发明简述

在一个实施方式中，本发明提供产生动态途径图(DPM)的方法，该方法包括：提供对储存多个途径元素的途径元素数据库的访问，每一途径元素表征为其参与至少一个途径；提供对与途径元素数据库偶联的修正引擎(modification engine)的访问；利用所述修正引擎将第一途径元素与至少一个先验已知的属性关联；利用所述修正引擎将第二途径元素与至少一个假定属性关联；分别利用已知和假定属性，应用所述修正引擎交叉关联并指定至少一个途径的第一和第二途径元素的影响水平，以形成概率途径模型；和，利用概率途径模型，通过分析引擎，从患者样本的多个元素的多个测量的属性推导DPM，其具有针对特定途径的参考途径活性信息(reference pathway activity information)。在一个优选的实施方式中，途径元素是蛋白质。在更优选的优选实施方式中，蛋白质选自受体、激素结合蛋白、激酶、转录因子、甲基化酶、组蛋白乙酰酶和组蛋白脱乙酰酶。在可选的优选实施方式中，途径元素是核酸。在更优选的实施方式中，核酸选自蛋白质编码序列、基因组调节序列、调节RNA和反式激活序列。在另一更优选的实施方式中，参考途径活性信息对于正常组织、患病组织、衰老组织或恢复组织是特异的。在优选的实施方式中，已知属性选自化合物属性、种类属性、基因拷贝数、转录水平、翻译水平和蛋白质活性。在另一优选的实施方式中，假定属性选自化合物属性、种类属性、基因拷贝数、转录水平、翻译水平和蛋白质活性。在另一可选的实施方式中，测量的属性选自突变、差别遗传序列对象(differential genetic sequence object)、基因拷贝数、转录水平、翻译水平、蛋白质活性和蛋白质相互作用。在优选的实施方式中，途径在调节途径网络内。在更优选的实施方式中，调节途径网络选自衰老途径网络、调亡途径网络、稳态途径网络、代谢途径网络、复制途径网络和免疫应答途径网络。在再一更优选的实施方式中，途径在信号转导途径网络内。在可选的再一更优选的实施方式中，途径在不同途径网络的网络内。在最优选的实施方式中，信号转导途径网络选自钙/钙调蛋白依赖性信号转导途径网络、细胞因子介导的信号转导途径网络、趋化因子介导的信号转导途径网络、生长因子信号转导途径网络、激素信号转导途径网络、MAP激酶信号转导途径网络、磷酸酶介导的信号转导途径网络、Ras超家族介导的信号转导途径网络和转录因子介导的信号转导途径网络。

本发明还提供产生动态途径图(DPM)的方法，该方法包括：提供对储存概率途径模型的模型数据库的访问，所述概率途径模型包含多个途径元素；其中，第一数目的所述多个途径元素被交叉关联并根据已知属性指定至少一个途径的影响水平；其中，第二数目的所述多个途径元素被交叉关联，并根据假定属性指定至少一个途径的影响水平；和，利用患者样本的多个元素的多个测量的属性，通过分析引擎修正概率途径模型，以获得DPM，其中所述DPM具有针对特定途径的参考途径活性信息。

在一个优选的实施方式中，途径在调节途径网络、信号转导途径网络、或不同途径网络的网络内。在另一优选的实施方式中，途径元素是蛋白质，其选自受体、激素结合蛋白、激酶、转录因子、甲基化酶、组蛋白乙酰酶和组蛋白脱乙酰酶，或核酸，其选自基因组调节序列、调节RNA和反式激活序列。在进一步优选的实施方式中，参考途径活性信息对于正常组织、患病组织、衰老组织或恢复组织是特异的。在另一优选的实施方式中，已知属性选自化合物属性、种类属性、基因拷贝数、转录水平、翻译水平和蛋白质活性。在另一优选的实施方式中，假定属性选自化合物属性、种类属性、基因拷贝数、转录水平、翻译水平和蛋白质活性。在进一步优选的实施方式中，测量的属性选自突变、差别遗传序列对象、基因拷贝数、转录水平、翻译水平、蛋白质活性和蛋白质相互作用。

本发明还提供分析生物学相关信息的方法，包括：提供对存储动态途径图 (DPM)的模型数据库的访问，其中所述DPM通过用第一细胞或患者样本的多个元素的多个测量的属性修正概率途径模型而产生；获得第二细胞或患者样本的多个元素的多个测量的属性；和，利用DPM以及所述第二细胞或患者样本的多个元素的多个测量的属性，通过分析引擎，测定所述第二细胞或患者样本的预测的途径活性信息。在一个优选的实施方式中，所述第一细胞或患者样本的多个元素的测量的属性是健康细胞或组织、特定年龄的细胞或组织、特定疾病的细胞或组织、特定疾病阶段的患病细胞或组织、特定性别、特定人种群、特定职业群和特定种类所特有的。在另一优选的实施方式中，所述第二细胞或患者样本的多个元素的测量的属性选自突变、差别遗传序列对象、基因拷贝数、转录水平、翻译水平、蛋白质活性和蛋白质相互作用。在可选的优选实施方式中，第一和第二样本获自相同的细胞或患者，并且进一步包括在获得所述第二细胞或患者样本的多个元素的多个测量的属性之前，提供治疗给所述细胞或患者。在更优选的实施方式中，治疗选自放射、施用药物给所述患者和施用候选分子给所述细胞。在另一更优选的实施方式中，候选分子是候选分子文库中的成员。在另一优选的实施方式中，预测的途径活性信息将元素鉴定为至少一个途径中的分级主导 (hierarchical-dominant)元素。在更优选的实施方式中，预测的途径活性信息将元素鉴定为与疾病有关的至少一个途径中的疾病决定元素。在可选实施方式中，该方法还包括产生预测的途径活性信息的图形表示的步骤。在可选实施方式中，该方法还包括产生治疗建议的步骤，所述治疗建议至少部分基于预测的途径活性信息。在可选实施方式中，该方法还包括利用预测的途径活性信息表达对疾病的诊断、预后或对治疗选项的选择和饮食指导建议的步骤。在可选实施方式中，该方法还包括利用预测的途径活性信息来鉴定外遗传因子、胁迫适应、生物体的状态和修复或愈合状态的步骤。

在另一实施方式中，本发明提供变换方法，其生成集成途径活性(integratedpathway activities)(IPAs)的矩阵，以为需要的个体预测临床结果，所述方法包括以下步骤(i)提供策划的(curated)途径集合，其中所述途径包含多个实体；(ii)将每一策划的途径转换成不同的概率图模型(PGM)，其中所述PGM源自每一策划的途径的因子图；(iii)提供来自个体的生物样本，其中所述生物样本包含至少一个内源实体，其包含在策划的途径之一中；(iv)测定内源实体在生物样本中的水平；(v)将内源实体的水平与从另一个体的之前测定的对照样本中的实体的那些水平进行比较；(vi)测定内源实体的水平相对于对照实体水平是否是激活的、标称的或失活的； (vii)为所述内源实体指定数字状态，其中表示激活的状态是+1，表示标称活性的状态是0，和其中表示失活的状态是-1；(viii)针对另一内源实体重复步骤ii到(vi)；(x) 将每一内源实体的数字状态编辑成集成途径活性(IPAs)的矩阵；(x)其中所述集成途径活性的矩阵是A，其中A_ij表示生物样本j中实体i的推测的活性；该方法产生集成途径活性的矩阵，用于预测个体的临床结果。

在一个实施方式中，产生IPAs的矩阵的方法包括：预测临床结果、提供诊断、提供治疗、递送治疗、施用治疗、进行治疗、管理治疗或分配治疗给需要的个体。在另一实施方式中，策划的途径的集合来自对人生物学的分析。在另一可选实施方式中，策划的途径的集合来自对非人生物学的分析。在另一实施方式中，测定内源实体相对于对照实体水平的水平利用学生t检验进行。在可选实施方式中，测定内源实体相对于对照实体水平的水平利用ANOVA进行。在另一实施方式中，变换方法包括如下步骤：其中组合来自一个以上个体的集成途径活性的多个矩阵，所述组合的多个矩阵产生聚簇(cluster)，并且其中测定所得聚簇的单个矩阵之间的距离。在一个实施方式中，测定的距离用K-平均聚簇分析进行分析。在另一可选的实施方式中，测定的距离用K²-平均聚簇分析进行分析。在再一实施方式中，变换方法包括测定生物样本内源实体的水平的步骤，其包括通过抗体检测内源实体，从而测定内源实体的水平。在可选实施方式中，测定生物样本中内源实体的水平的步骤包括通过核酸探针检测内源实体，从而测定内源实体的水平。在另一可选的实施方式中，测定生物样本中内源实体的水平的步骤包括用有机试剂检测内源实体，其中所述有机试剂结合内源实体，从而产生可检测的信号，并从而测定内源实体的水平。

在再进一步的可选实施方式中，测定生物样本中内源实体的水平的步骤包括用无机试剂检测内源实体，其中所述无机试剂结合内源实体，从而产生可检测的信号，并从而测定内源实体的水平。在另一可选的实施方式中，测定生物样本中内源实体的水平的步骤包括用有机试剂检测内源实体，其中所述有机试剂与内源实体反应，从而产生可检测的信号，并从而测定内源实体的水平。在另一可选的实施方式中，测定生物样本中内源实体的水平的步骤包括用无机试剂检测内源实体，其中所述无机试剂与内源实体反应，从而产生可检测的信号，并从而测定内源实体的水平。在优选的实施方式中，测定生物样本中内源实体的水平的步骤包括在内源实体的最佳波长测量内源实体的吸光度，并从而测定内源实体的水平。在可选的优选实施方式中，测定生物样本中内源实体的水平的步骤包括在内源实体的最佳波长测量内源实体的荧光，并从而测定内源实体的水平。在再进一步可选的优选实施方式中，测定生物样本中内源实体的水平的步骤包括使内源实体与酶反应，其中所述酶选择性地消化所述内源实体，以产生至少一个产物，检测所述至少一个产物，并从而测定内源实体的水平。在更优选的实施方式中，使内源实体与酶反应的步骤导致产生至少两种产物。在再一更优选的实施方式中，使内源实体与酶反应的步骤产生至少两种产物，接下来是用另一酶处理产物的步骤，其中所述酶选择性地消化产物中的至少一个，以产生至少第三种产物，并从而测定内源实体的水平。

在另一优选的实施方式中，个体选自健康个体、无症状个体和有症状个体。在更优选的实施方式中，个体选自被诊断患有状况的个体，所述状况选自疾病和病症。在优选的实施方式中，状况选自获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、***反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、良性***增生、支气管炎、切-东二氏综合征、胆囊炎、克罗恩病、特应性皮炎、皮肌炎 (dermnatomyositis)、糖尿病、气肿、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、***、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、严重联合免疫缺陷病(SCID)、斯耶格伦氏综合佂、***性过敏症、***性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染；和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌，和具体地，肾上腺、膀胱、骨、骨髓、脑、***、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、***、***、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症、静坐不能症(akathesia)、阿尔茨海默病、健忘症、肌萎缩性侧索硬化症(ALS)、共济失调、双相性抑郁症、紧张症、大脑性麻痹、脑血管疾病、克- 雅二氏病、痴呆、抑郁症、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、杭廷顿氏病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森氏病、皮克氏病、色素性视网膜炎、精神***症、季节性情感障碍、老年性痴呆、中风、德拉图雷特综合征，和癌症，包括腺癌、黑素瘤和畸胎癌，尤其是脑癌。在可选的优选实施方式中，状况选自癌症诸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌，和具体地，肾上腺、膀胱、骨、骨髓、脑、***、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、 ***、***、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症；免疫病症诸如获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、*** 反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、发作性淋巴细胞减少伴淋巴细胞毒性因子 (episodic lymphopenia withlymphocytotoxins)、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、斯耶格伦氏综合佂、***性过敏症、***性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染、创伤、X连锁布鲁顿无丙种球蛋白血症(X-linked agammaglobinemia of Bruton)、普通可变性免疫缺陷(CVI)、迪乔治氏综合征(胸腺发育不全)、胸腺发育不全、单一性IgA缺乏症、严重联合免疫缺陷病(SCID)、免疫缺陷伴血小板减少和湿疹(威斯科特-奥尔德里奇综合征)、切-东二氏综合征、慢性肉芽肿性疾病、遗传性血管神经性水肿和与库兴病有关的免疫缺陷；和发育障碍诸如肾小管性酸中毒、贫血、库兴综合征、软骨发育不全性侏儒、杜兴和贝克尔肌肉萎缩症、癫痫、性腺发育不全、WAGR综合征(维尔姆斯氏肿瘤、无虹膜、生殖泌尿异常和智力迟钝)、史-马二氏(Smith-Magenis)综合征、骨髓增生异常综合征、遗传性粘膜上皮发育不良、遗传性皮肤角化病、遗传性神经病侏儒夏-马-图三氏病和神经纤维瘤、甲状腺功能减退、脑积水、癫痫病症诸如西登哈姆氏舞蹈病(Syndenham's chorea)和大脑性麻痹、脊柱裂、无脑畸形、颅脊柱裂、先天性青光眼、白内障、感觉神经性耳聋和与细胞生长和分化有关的任何病症、胚胎发生和涉及对象的任何组织、器官或***，例如脑、肾上腺、肾、骨骼或生殖***的形态发生。在另一优选的实施方式中，状况选自内分泌性病症诸如与脑下垂体机能减退有关的病症，包括性腺功能减退症、席汉氏(Sheehan)综合征、尿崩症、卡尔曼病、汉-许-克三氏病 (Hand-Schuller-Christian disease)、累-赛二氏病、肉样瘤病、空泡蝶鞍综合征和侏儒症；垂体功能亢进，包括肢端巨大症、巨人症和不适当的抗利尿激素(ADH)分泌综合征(SIADH)；和与甲状腺功能减退有关的病症，包括甲状腺肿、粘液性水肿、与细菌感染有关的急性甲状腺炎、与病毒感染有关的亚急性甲状腺炎、自身免疫性甲状腺炎(桥本氏病)和呆小病；与甲状腺功能亢进有关的病症，包括甲状腺毒症及其各种形式、格雷夫斯病、胫骨前粘液水肿、毒性多节性甲状腺肿、甲状腺癌和普鲁麦综合征；和与甲状旁腺功能亢进有关的病症，包括Conn病(慢性高钙血综合征(hypercalemia))；呼吸病症诸如***反应、哮喘、急性和慢性肺炎疾病、 ARDS、气肿、肺充血和水肿、COPD、间质性肺病和肺癌；癌症诸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌，和具体地，肾上腺、膀胱、骨、骨髓、脑、***、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、***、***、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症；和免疫学病症诸如获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、***反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、发作性淋巴细胞减少伴淋巴细胞毒性因子、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、斯耶格伦氏综合佂、***性过敏症、***性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染和创伤。

本发明还提供本文公开的变换方法，其中矩阵A然后可以替代原始构成数据集，以鉴定与临床结果的关联。在更优选的实施方式中，策划的途径选自生物化学途径、遗传途径、代谢途径、基因调节途径、基因转录途径、基因翻译途径。在另一更优选的实施方式中，实体选自核酸、肽、蛋白质、肽核酸、糖类、脂类、蛋白聚糖、因子、辅因子、生物化学代谢物、有机组合物、无机组合物和盐。在再其它优选的实施方式中，生物样本选自患者样本、对照样本、试验处理的动物样本、试验处理的组织培养物样本、试验处理的细胞培养物样本和试验处理的体外生物化学组合物样本。在更优选的实施方式中，生物样本是患者样本。

本发明还提供概率图模型(PGM)框架，其具有推断在患者样本中改变的分子途径的输出信息，所述PGM包含多个因子图，其中所述因子图代表集成的生物数据集，并且其中所述推断的、在患者样本中改变的分子途径包括由数据已知的分子途径，并且其中所述分子途径影响临床或非临床状况，已知其中所述推断的分子途径通过临床方案或治疗而被调整，和其中所述输出信息指示临床方案。在优选的实施方式中，数据选自试验数据、临床数据、流行病学数据和物候学数据。在另一优选的实施方式中，状况选自疾病和病症。在更优选的实施方式中，状况选自获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、***反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、良性***增生、支气管炎、切-东二氏综合征、胆囊炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多囊卵巢综合征、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、严重联合免疫缺陷病(SCDD)、斯耶格伦氏综合佂、***性过敏症、***性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染；和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌，和具体地，肾上腺、膀胱、骨、骨髓、脑、***、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、***、***、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症、静坐不能症、阿尔茨海默病、健忘症、肌萎缩性侧索硬化症(ALS)、共济失调、双相性抑郁症、紧张症、大脑性麻痹、脑血管疾病克-雅二氏病、痴呆、抑郁症、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、杭廷顿氏病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森氏病、皮克氏病、色素性视网膜炎、精神***症、季节性情感障碍、老年性痴呆、中风、德拉图雷特综合征和癌症，包括腺癌、黑素瘤和畸胎癌，尤其是脑癌。在可选的更优选实施方式中，状况选自癌症诸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌，和具体地，肾上腺、膀胱、骨、骨髓、脑、***、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、 ***、***、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症；免疫病症诸如获得性免疫缺陷综合征(ADDS)、阿狄森氏病、成人呼吸窘迫综合征、*** 反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、发作性淋巴细胞减少伴淋巴细胞毒性因子、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、斯耶格伦氏综合佂、***性过敏症、***性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染、创伤、X连锁布鲁顿无丙种球蛋白血症、普通可变性免疫缺陷(CVI)、迪乔治氏综合征(胸腺发育不全)、胸腺发育不全、单一性IgA缺乏症、严重联合免疫缺陷病(SCID)、免疫缺陷伴血小板减少和湿疹(威斯科特-奥尔德里奇综合征)、切-东二氏综合征、慢性肉芽肿性疾病、遗传性血管神经性水肿和与库兴病有关的免疫缺陷；和发育障碍诸如肾小管性酸中毒、贫血、库兴综合征、软骨发育不全性侏儒、杜兴和贝克尔肌肉萎缩症、癫痫、性腺发育不全、WAGR综合征(维尔姆斯氏肿瘤、无虹膜、生殖泌尿异常和智力迟钝)、史-马二氏综合征、骨髓增生异常综合征、遗传性粘膜上皮发育不良、遗传性皮肤角化病、遗传性神经病诸如夏-马-图三氏病和神经纤维瘤、甲状腺功能减退、脑积水、癫痫病症诸如西登哈姆氏舞蹈病和大脑性麻痹、脊柱裂、无脑畸形、颅脊柱裂、先天性青光眼、白内障、感觉神经性耳聋和与细胞生长和分化有关的任何病症、胚胎发生和涉及对象的任何组织、器官或***，例如脑、肾上腺、肾、骨骼或生殖***的形态发生。在再其它更优选的实施方式中，状况选自内分泌性病症诸如与脑下垂体机能减退有关的病症，包括性腺功能减退症、席汉氏综合征、尿崩症、卡尔曼病、汉-许-克三氏病、累-赛二氏病、肉样瘤病、空泡蝶鞍综合征和侏儒症；垂体功能亢进，包括肢端巨大症、巨人症和不适当的抗利尿激素(ADH) 分泌综合征(SIADH)；和与甲状腺功能减退有关的病症，包括甲状腺肿、粘液性水肿、与细菌感染有关的急性甲状腺炎、与病毒感染有关的亚急性甲状腺炎、自身免疫性甲状腺炎(桥本氏病)和呆小病；与甲状腺功能亢进有关的病症，包括甲状腺毒症及其各种形式、格雷夫斯病、胫骨前粘液水肿、毒性多节性甲状腺肿、甲状腺癌和普鲁麦综合征；和与甲状旁腺功能亢进有关的病症，包括Conn病(慢性高钙血综合征)；呼吸病症诸如***反应、哮喘、急性和慢性炎性肺疾病、ARDS、气肿、肺充血和水肿、COPD、间质性肺病和肺癌；癌症诸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌，和具体地，肾上腺、膀胱、骨、骨髓、脑、 ***、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、***、***、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症；和免疫学病症诸如获得性免疫缺陷综合征(ADDS)、阿狄森氏病、成人呼吸窘迫综合征、***反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、发作性淋巴细胞减少伴淋巴细胞毒性因子、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、斯耶格伦氏综合佂、***性过敏症、***性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染和创伤。

附图简介

图1图解PARADIGM方法的整体图。PARADIGM使用示意有功能基因组数据的途径，推断可用于进一步下游分析的遗传活性。NCI途径在TCGA GBM数据中相互作用。对于所有(n＝462)对，其中发现A是NCI-Nature途径数据库中基因B 的上游活化因子，通过TCGA GBM数据计算的皮尔森相关性(x-轴)以两种不同方式被计算。柱状图描绘A的拷贝数和B的表达之间(C2E，实心红色)以及A的表达与B的表达之间(E2E，实心蓝色)的相关性。针对C2E(虚线红色)和E2E(虚线蓝色)显示随机配对基因之间的相关性柱状图。箭头指向针对C2E(红色)和E2E(蓝色)相关性发现的正相关性富集。

图2图解将遗传途径图变换成PARADIGM模型。PARADIGM方法的整体图。 PARADIGM使用示意有功能基因组数据的途径，以推断可用于进一步下游分析的遗传活性。A.利用基因的一组四个不同生物实体针对单一基因集成关于单一患者的数据，其描述DNA拷贝、mRNA和蛋白质水平以及蛋白质活性。B.PARADIGM 模型各种类型的相互作用，包括靶的转录因子(上左)、聚集在复合体中的亚单位(上右)、翻译后修饰(下左)和执行冗余功能的家族中的基因集合(下右)。C.小亚途径的玩具实例(Toy example)，其包涉及P53、抑制剂MDM2和高水平的处理(high level process)、凋亡，如在模型中所表示的。

图3图解癌症基因组图集(Cancer Genome Atlas)(TCGA)项目 (http://cancergenome.nih.gov)多形性成胶质细胞瘤(GMB)数据中示例性NCI途径相互作用。对于所有(n＝462)对，其中发现A是NCI-Nature途径数据库中基因B的上游活化因子，通过TCGAGMB数据计算的皮尔森相关性(x-轴)以两种不同的方式被计算。柱状图绘制A的拷贝数和B的表达之间(C2E，实心红色)以及A的表达和B的表达之间(E2E，实心蓝色)的相关性。针对C2E(虚线红色)和E2E(虚线蓝色)显示随机配对基因之间相关性的柱状图。箭头指向针对C2E(红色)和E2E(蓝色)相关性发现的正相关性富集。

图4图解抗调亡丝氨酸-苏氨酸激酶1(AKTI)的示例性学***均IPA，和绿线表示空样本中的平均(man)IPA。

图5图解利用PARADIGM和信号转导途径影响分析(SPIA)区分诱饵(decoy) 与真实途径。通过指定新基因名称给途径中的每一基因产生诱饵途径。然后，用 PARADIGM和SPIA计算每一途径的干扰。每一条线均显示用于利用干扰排序区分真实与诱饵途径的接受者-操作者(receiver-operator)特征。在乳癌中，例如对于 PARADIGM和SPIA，曲线下的区域(AUCs)分别为0.669和0.602。在多形性成胶质细胞瘤(GBM)中，AUC分别为0.642和0.604。

图6针对由乳癌中的Akt介导的I类磷脂酰肌醇-3-激酶(PI3K)信号转导事件图解与置换内的IPA相比的示例性患者样本IPA。

生物实体通过患者样本中的平均IPA分类(红色)，并与置换样本的平均IPA比较。每一平均值周围的着色区域表示每一集合的标准差(SD)。右边的IPA包括 AKT1、CHUK和MDM2。

图7图解ErbB2途径的示例性CIRCLEMAP展示。对于每一个节点，*** 受体(ER)状态、IPA、表达数据和拷贝数数据从最里面到最外面分别被显示为同心圆。凋亡节点和ErbB2/ErbB3/神经调节蛋白2复合节点仅具有ER状态和IPA的圆，因为没有直接观察这些实体。每一患者的数据沿着从圆中心到边缘的一个角被展示。

图8图解TCGA GBM的IPA的示例性聚簇。每一柱对应于单一样本，并且每一行对应于生物分子实体。分级聚类树下的彩色条表示用于图9的聚簇。

图9图解图8聚簇的Kaplan-Meier存活图(survival plot)。

图10图解细胞系，其显示对治疗化合物的宽范围的应答。A.优先应答AKT 抑制的腔和ERBB2AMP细胞系。每一条均代表单一乳癌细胞系对Sigma AKT 1-2 抑制剂的应答。细胞系通过增加灵敏度被排序(–log₁₀(GI₅₀))并根据亚型进行着色。 B.具有相似机制的化合物的GI50值高度相关。热图(Heatmap)显示用各种化合物处理的乳癌细胞系的应答之间相关性的分级聚类。C.具有相似作用方式的化合物显示在一组细胞系中相似的应答式样。每一柱代表一个细胞系，每一行代表测试的化合物。GI50值被分级聚类。仅包括具有明显亚型作用的化合物。相似亚型的细胞系趋于聚类在一起，表明它们响应于相同的化合物。灰色代表缺失数据。D.CAN 与灵敏性关联。框图显示在标注的基因组位点具有异常(A)和正常(N)拷贝数的细胞系应答灵敏性的分布。标注药物反应和CAN之间关联的FDR p值。a.9p21(CDKN2A)缺失与对伊沙匹隆(ixabepilone)、长春瑞滨(vinerolbine)和fascaplysin的应答有关。b.20ql3(STK15/AURKA)扩增与VX-680和GSK1070916有关。c.在 llql3(CCND1)扩增与对卡铂和GSK1070916的应答有关。

图11显示细胞系和TCGA样本的非冗余PARADIGM活性的热图。聚簇树状图代表样本之间的欧几里得距离，其利用艾森聚簇(Eisen Cluster)产生并利用Java Treeview绘制。树状图下的彩色条代表样本亚型(顶部)和样本同龄组(底部)。

图12图解细胞系亚型具有独特的网络特征。在所有图中，图中的每一个节点代表不同的途径“概念”，其或者对应于蛋白质(圆)、多聚体复合体(六角形)或者对应于抽象细胞过程(方形)。按照与差别活性分数的比例绘制节点的大小，以便较大的节点对应于活性与基底细胞系对比非基底细胞系更相关的途径概念。颜色表示该概念是否与基底亚型正相关(红色)或负相关(蓝色)。连接代表不同的相互作用，包括蛋白质-蛋白质水平相互作用(虚线)和转录的相互作用(实线)。只有在它们相互连接差别活性的绝对水平高于平均绝对水平的概念时，相互作用才被包含在图谱中。A.MYC/MAX和ERK1/2子网优先在基底乳癌细胞系中被激活。B.CTTNBl 网络在密蛋白-低细胞系中被激活。C.FOXA1/FOXA2网络在腔亚型中被上调。D. The ERBB2AMP亚型显示对RPS6KB1途径的下调。

图13图解途径图如何被用于预测对治疗的应答。A.上部图。基底乳癌细胞系优先应答于DNA破坏剂(damaging agent)顺铂。下部图。基底细胞系显示在与DNA 破坏应答相关的途径中活性增强，提供顺铂借助于其在这些细胞系中发挥作用的可能机制。B.上部图。ERBB2AMP细胞系对HSP90抑制剂格尔德霉素敏感。下部图。ERBB2-HSP90网络在ERBBP2AMP细胞系中被上调。如在图12中的约定 (Convention)。

图14图解乳癌细胞系的示例性基因组和转录概况。A.43个乳癌细胞系的DNA 拷贝数异常通过y-轴上的GISTIC分析的log₁₀(FDR)和x-轴上的染色***置进行绘制。拷贝数增加以正log₁₀(FDR)显示为红色，和缺少以负log₁₀(FDR)显示为绿色。 B.55个乳癌细胞系的分级一致聚类矩阵(Hierarchical concensus clustering matrix)，其基于基因表达特征显示3个聚簇(密蛋白-低、腔、基底)。对于每一细胞系组合，颜色密度与一致性成比例。

图15图解GI50计算可高度再现。A.每一条表示对重复的药物/细胞系组合频率的计数。大部分细胞系针对特定化合物仅测试一次，但一些药物/细胞系组合被测试多次。B.每一框图代表具有3或4次重复的药物/细胞系对的中值平均偏差的分布。

图16显示倍增时间(doubling time)在细胞系亚型中不同。A.乳癌细胞系亚型的生长速率——作为中值倍增时间以小时被计算——显示为框图。与腔和 ERBB2^AMP亚型相比，基底和密蛋白-低亚型具有较短的中值倍增时间， Kruskal-Wallis p值(p＝0.006)。B.ANCOVA模型显示两种亚型和生长速率对于对 5'FU的应答的强烈影响。腔(黑色)和基底/密蛋白-低(红色)乳癌系均显示与生长速率明显相关，但具有不同的斜率。

图17显示推断的途径活性在亚型内比在同龄组内更强烈相关。显示的是相同亚型(红色)的细胞系和TCGA样本之间计算的由皮尔森相关性导出的t-统计数值 (t-statistic)与不同亚型(黑色)细胞系之间的皮尔森相关性的t-统计数值相比的柱状图。X-轴对应于皮尔森相关性t-统计数值；y-轴显示(细胞系，细胞系)或(细胞系， TCGA样本)对的密度。K-S检验(P<l×10^-22)表明相同亚型的细胞系和TCGA样本比其它亚型的细胞系更相似。

补充图18-21图解从超途径鉴定的4个子网络中每一个的示例性网络结构。

图18图解基底途径标记的网络图。图中每一个节点代表不同的途径“概念”，其或者对应于蛋白质(圆)、多聚体复合体(六角形)或者对应于抽象细胞过程(方形)。根据与差别活性分数的比例绘制节点的大小，以便较大的节点对应于活性与基底细胞系对比非基底细胞系更相关的途径概念。颜色表示该概念是否与基底亚型正相关(红色)或负相关(蓝色)。连接代表不同的相互作用，包括蛋白质-蛋白质水平相互作用(虚线)和转录的相互作用(实线)。只有在它们相互连接差别活性的绝对水平高于平均绝对水平的概念时，相互作用才被包含在图谱中。

图19图解密蛋白-低途径标记的示例性网络图。如在图18中的约定。

图20图解腔途径标记的示例性网络图。如在图18中的约定。

图21图解ERBB2AMP途径标记的示例性网络图。如在图18中的约定。

图22图解腔、密蛋白-低和基底细胞系中的示例性URKB-FOXM1-CCNB 1网络。A.在腔细胞系中围绕AURKB和FOXM1的网络。CCNB 1并不被明显下调，因而并不显示在途径图谱上。B.在密蛋白-低细胞系中，AURKB和FOXM1均被上调；CCNB 1的活性不明显。C.AURKB、FOXM1和CCNB 1在基底细胞系中均被上调。如在图18中的约定。

图23图解根据CAN、mRNA表达、DNA甲基化和miRNA表达的MicMa同龄组患者的无监督聚簇和存活曲线的示例性分布。对于每一类型的基因组水平，从左到右绘制每一聚簇的大小，显示存活曲线。通过两种方法(见实施例)评估不同存活率的显著性。

图24图解鉴定的PARADIGM聚簇和存活率的示例性分布。A.每一条代表每一聚簇的大小。B.MicMa数据集的PARADIGM IPL的热图。C.在映射(mapping) 到Chin-Naderi-Caldas数据集之后，MicMa PARADIGM聚簇的存活率曲线。

图25图解每一数据集的PARADIGM IPL的示例性热图。每一行显示所有三个同龄组中基因或复合体的IPL。顶部上着色的条显示MicMa推导的PARADIGM 聚簇，如在图2中。感兴趣途径的成员通过其途径被标记。红色代表激活的IPL，蓝色代表失活的IPL。

图26图解FOXM1转录因子网络。上部网络图概述来自聚簇pdgm.3的数据，而下部聚簇概述来自其它聚簇的数据。节点形状表示在每一聚簇中最常被干扰的数据类型，和节点颜色表示干扰的方向。边缘箭头表示相互作用的符号，而颜色表示相互作用的类型。

图27图解p53调亡途径的小片段的玩具实例。将NCI的途径图转换成因子图，其同时包括隐藏和观察到的状态。

图28图解推断的途径活性(IPA)的示例性热图。IPA代表被推断为激活(红色) 或失活(蓝色)的分子实体的1598个推断(行)，该IPA针对316个患者肿瘤样本(柱) 中的每一个被绘制。IPA通过途径实体和肿瘤样本被分级聚类，并且，右边的标记显示富含单个途径实体的热图部分。彩色条图例是以log₁₀计。

图29概述所有样本的FOXM1集成途径活性(IPA)。肿瘤样本中FOXM1转录因子网络中每一实体的IPA的算术平均数显示为红色，其中，较深的红色阴影指示两个标准差。灰线和阴影指示从1000个“零”样本中推导的IPA的平均值和两个标准差。

图30显示FOXM1的IPA与NCI途径相互作用数据库(Pathway InteractionDatabase)中其它测试的转录因子(TF)的那些IPA的比较。A.IPA的柱状图，其中非活性(零赋值)IPA被去除。FOXM1目标明显比其它NCITF更有活性(P<10^-267； Kolmogorov-Smirnov(KS)检验)。B.所有IPA——包括非活性IPA的柱状图。利用所有IPA，以稍微高的显著性(F<10^-301；KS检验)说明相对于其它TF的FOXMl 的活性。

图31图解与浆液性卵巢癌相比FOXMl不在法娄皮欧上皮细胞中表达。利用 Tone等(PMID:18593983)的数据将输卵管中FOXMl的表达水平与其在浆液性卵巢癌中的表达水平进行比较。FOXMl的表达在输卵管，包括在携带BRCA1/2突变的样本中低得多，这表明在TCGA浆液性卵巢癌中观察到的FOXMl’提高的表达不仅仅是由于上皮特征。

图32显示在高级癌与低级癌中FOXMl转录因子网络基因的表达。针对低级 (I；棕色框；26个样本)和高级(II/III；蓝色框；296个样本)卵巢癌，绘制FOXMl 和9个选择的FOXMl目标(基于NCI-PID)的表达水平的图。9个目标中的7个被显示在高级癌中具有明显高的FOXMl表达(学生t-检验；p值标注在框图下面)。 CDKN2A也可以被差异表达，但具有临界t-统计数值(P＝0.01)。XRCC1被检测为被差异表达。

图33显示细胞系，其显示对治疗化合物的宽范围的应答。A.腔和ERBB2AMP 细胞系优先应答AKT抑制。每一条均代表单一乳癌细胞系对Sigma AKT1-2抑制剂的应答。通过增加灵敏性(-log₁₀(GI₅₀))排序细胞系，并根据亚型着色。B.具有相似机制的化合物的GI50值高度相关。热图显示用各种化合物处理的乳癌细胞系的应答之间的相关性的分级聚类。C.在一组细胞系中，具有相似作用方式的化合物显示相似的应答式样。每一柱代表一个细胞系，每一行代表测试的化合物。GI50 值被分级聚类。仅包含具有明显亚型作用的化合物。相似亚型的细胞系趋于聚类在一起，表明它们响应于相同的化合物。灰色代表缺失数据。D.CAN与灵敏性相关。框图显示在标记的基因组位点具有异常(A)和正常(N)拷贝数的细胞系的应答灵敏性的分布。标注药物反应和CNA之间关联的FDR p值。a.9p21(CDKN2A)缺失与对伊沙匹隆、长春瑞滨和fascaplysin的应答有关。b.20ql3(STK15/AURKA)扩增与VX-680和GSK1070916有关。c.在llql3(CCND1)的扩增与对卡铂和 GSK1070916的应答有关。

图34。A.细胞系和TCGA样本的非冗余PARADIGM活性的热图。聚簇树状图代表样本之间的欧几里得距离，其利用艾森聚簇产生，并利用Java Treeview绘制。树状图下面着色的条代表样本亚型(顶部)和样本同龄组(底部)。

图35显示细胞系亚型具有独特的网络特征。在所有图中，图中的每一个节点均代表不同的途径“概念”，其或者对应于蛋白(圆)、多聚复合体(六角形)或者对应于抽象细胞过程(方形)。根据与差别活性分数的比例绘制节点的大小，以便较大的节点对应于活性与基底细胞系对比非基底细胞系更相关的途径概念。颜色表示该概念是否与基底亚型正相关(红色)或负相关(蓝色)。连接代表不同的相互作用，包括蛋白质-蛋白质水平相互作用(虚线)和转录的相互作用(实线)。只有在它们相互连接差别活性的绝对水平高于平均绝对水平的概念时，相互作用才被包含在图谱中。 A.MYC/MAX和ERK1/2子网在基底乳癌细胞系中被优先激活。B.CTTNBl网络在密蛋白-低细胞系中被激活。C.FOXA1/FOXA2网络在腔亚型中被上调。D.The ERBB2AMP亚型显示对RPS6KB1途径的下调。

图36显示途径图可用于预测对治疗的应答。A.上部图。基底乳癌细胞系优先应答DNA破坏剂顺铂。下部图。基底细胞系显示在与DNA破坏应答相关的途径中活性增强，这提供顺铂借助于其在这些细胞系中发挥作用的可能机制。B.上部图。 ERBB2AMP细胞系对HSP90抑制剂格尔德霉素敏感。下部图。ERBB2-HSP90网络在ERBBP2AMP细胞系中被上调。C.上部图。ERBB2AMP细胞系抵抗极光激酶抑制剂VX-680。下部图。通过AURKB和CCNB1的共同调节可以介导抵抗。如在图36中的约定。

图37图解基因组拷贝数异常。(a)489个HGS-OvCa的拷贝数概况，与197个多形性成胶质细胞瘤(GBM)肿瘤46的概况比较。拷贝数增加(红色)和减少(蓝色) 被绘制为沿正常基因组的函数，(b)显著的、集中扩增的(红色)和删除的(蓝色)区域沿着基因组被绘制。注释包括20个最显著扩增的和删除的区域、具有8个或更少基因的适当定位的区域和具有已知癌基因或通过全基因组功能缺失筛选鉴定的基因的区域。每一区域中包含的基因数目在括号中示出。(c)显著扩增的(红色)和删除的(蓝色)染色体臂。

图38图解分子亚型的基因和miRNA表达图谱以及HGS-OvCa中的结果预测。 (a)来自TCGA和Tothill等的肿瘤根据基因表达分成四个聚簇。(b)利用训练(training) 数据集，限定前兆基因特征并应用于测试数据集。(c)对四个独立表达概况数据集的Kaplan-Meier分析，比较预测的较高风险对比较低风险患者的存活率。包括风险指数的单变量Cox p-值。(d)根据miRNA表达将肿瘤分成三个聚簇，与所指出的基于基因的聚簇重叠。(e)三个基于miRNA的聚簇之中患者存活率的差异。

图39图解HGS-OvCa中改变的途径。(a)通过策划的分析鉴定的RB和PI3K RAS途径，和(b)通过HotNet分析鉴定的NOTCH途径通常被改变。通过体细胞突变、DNA拷贝数变化定义变化，或在一些情况下，通过与在二倍体肿瘤中的表达相比明显的上调或下调来定义变化。变化频率以所有情况下的百分比计；激活的基因是红色的，失活的基因为蓝色。(c)HR途径中的基因在高达49％的例子中被改变。针对BRCA突变例子(显示较好的总存活率)的BRCA状况的存活分析显示与BRCA野生型不同的结果，并且BRCA1表观遗传沉默的例子显示较差的存活率。(d)在87％的例子中，FOXM1转录因子网络被激活。每一基因被描述为多环圈，其中其拷贝数(外环)和基因表达(内环)被绘制，以便环中的每一“辐条(spoke)” 均代表单一的患者样本，其中样本以FOXM1表达的递增顺序分类。刺激性(红色箭头)和抑制性相互作用(蓝色线)取自NCI途径相互作用数据库。虚线指示转录调节。

发明详述

本文件中公开的实施方式是说明性和示例性的，而并不意图限制本发明。可以使用其它实施方式，并且可以进行结构变化而不背离本发明权利要求书的范围。

如本文和所附权利要求书中所使用的，单数形式“一(a,an)”和“该(the)”包括复数指代，除非上下文另有明确说明。因此，例如提及“一个miRNA”包括多个这样的miRNA和提及“一种药物载体”是指一种或多种药物载体及其等同物等等。

如本文所使用的，术语“策划的”意为利用本领域中悉知的方法诸如分子生物学、生物化学、生理学、解剖学、基因组学、转录物组学、蛋白质组学、代谢物组学、ADME和生物信息技术等等，根据科学和/或临床原理检测、分析和鉴定的一组生物分子和/或非生物分子之间的关系。该关系可以是生物化学关系诸如生物化学途径、遗传途径、代谢途径、基因调节途径、基因转录途径、基因翻译途径、miRNA-调节的途径、假基因调节的途径等等。

高通量数据为癌症组织中的分子变化提供全面的见解。新的技术允许对肿瘤样本和癌细胞系同时进行基因组拷贝数变化状态、基因表达、DNA甲基化和外因遗传学的全基因组分析。

针对一系列的肿瘤，在不久的将来计划进行研究诸如癌症基因组图谱(TheCancer Genome Atlas)(TCGA)、站起来对抗癌症(Stand Up To Cancer)(SU2C)和许多更多的研究。对当前数据集的分析发现患者之间的遗传变化可以不同，但常常涉及共同的途径。因此，鉴定癌症发展中涉及的相关途径并检测它们在不同的患者中如何发生改变是关键的。

我们提出一种新的方法，用于结合基因之中策划的途径相互作用推测患者特异性的遗传活性。基因通过因子图被模仿，作为编码基因及其产物的表达和已知活性的一组相互联系的变量，允许结合许多类型的omic数据作为证据。

该方法利用概率推理预测途径的活性(例如，基因内状态、相互作用或高水平 “输出信息”)在患者中被改变的程度。与竞争途径活性推断方法——称为SPIA— —相比，我们的方法以——但不限于——多形性成胶质细胞瘤(GBM)和乳癌数据集中较少的假阳性鉴定癌症相关途径中改变的活性。

利用关于基因组模型(PARADIGM)的数据集成的途径识别算法鉴定当认为基因处于隔离时而忽略的GBM患者子集的一致的途径-水平活性。此外，利用算法，根据其明显的途径干扰而使GBM患者分组将它们分成临床上相关的亚组，其具有明显不同的存活结果。

这些发现表明，可以选择治疗方法，其可靶向一组患者或个体的共同被干扰的途径(一个或多个)中关键点处的基因。

我们描述了基于因子图的概率图模型(PGM)框架(Kschischang:2001，同上)，其可以集成任何数目的基因组和功能基因组数据集，以推断在患者样本中改变的分子途径。我们针对恶性胶质瘤和乳癌数据集，利用拷贝数变化和基因表达数据检测模型。利用构成的途径模型推断的活性成功地将恶性胶质瘤患者分成临床上相关的亚型。结果表明，途径-报告的推断(informed inference)比利用孤立的基因水平数据更有教益。

除了提供较好的前兆和诊断之外，集成的途径激活作用还提供关于可用于消除疾病发展的可能治疗方法的重要线索。

我们发展了一种称作PARADIGM(利用关于基因组模型的数据集成的途径识别算法)的方法，以从集成的患者数据中推断遗传途径的活性。图1图解方法的整体图。对单一患者样本的多种基因组范围的测量结果被组合，以推断单一美国国家癌症研究所(National Cancer Institute)(NCI)途径的基因活性、产物和抽象过程 (abstractprocess)输入和输出信息。PARADIGM产生集成途径活性(IPA)的矩阵A，其中A_ij代表患者样本j中实体i的推测的活性。矩阵A可用于替代原始构成数据集，以鉴定与临床结果的关系。

我们首先将每一NCI途径转换成不同的概率模型。p53调亡途径的小片段的玩具实例显示在图2(c)中。将NCI的途径图转换成因子图，其同时包括隐藏的和观察的状态(图2)。因子图结合针对基因-和生物过程-相关的状态信息的观察结果与描述实体之中已知相互作用的结构。

为了用因子图表示生物学途径，我们使用变量来描述细胞中实体的状态，诸如特定的mRNA或复合体，并利用因子来代表这些实体之间的相互作用和信息流。这些变量代表与“对照”或正常水平而不是分子实体的直接浓度相比每一实体的差别状态。该表示允许我们模拟许多高通量数据集，诸如通过DNA微阵列检测的基因表达，所述DNA微阵列常常或者直接测量基因的差别状态或者将直接测量结果转换成相对于匹配的对照的测量结果。它也允许基因之中许多类型的调节关系。例如，描述介导p53的泛素-依赖性降解的MDM2的相互作用被模仿，作为抑制 p53蛋白质水平的激活的MDM2。

在一个实施方式中，该方法可用于提供可用于各种诊断和治疗应用的临床信息，所述诊断和治疗应用诸如检测癌组织、分期癌组织、检测转移性组织和类似应用；检测神经障碍诸如但不限于阿尔茨海默病、肌萎缩性侧索硬化症(ALS)、帕金森氏病、精神***症、癫痫及其并发症；发育障碍诸如迪乔治氏综合征、孤独症、自身免疫病症诸如多发性硬化症、糖尿病和类似病症；治疗感染诸如但不限于病毒感染、细菌感染、真菌感染、利什曼原虫、血吸虫病、疟疾、绦虫、象皮病、由线虫、nematine引起的感染和类似感染。

在一个实施方式中，该方法可用于提供临床信息，以检测和量化改变的基因表达、mRNA的不存在/存在对比过量表达，或在治疗性干预过程中监测mRNA水平。与改变的表达有关的状况、疾病或病症包括获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、***反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、良性 ***增生、支气管炎、切-东二氏综合征、胆囊炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、***、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、严重联合免疫缺陷病(SCID)、斯耶格伦氏综合佂、***性过敏症、***性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染；和，腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌，和具体地，肾上腺、膀胱、骨、骨髓、脑、***、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、***、***、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症。诊断分析可使用杂交或扩增技术，来比较在来自患者的生物样本中的基因表达与标准样本的基因表达，以检测改变的基因表达。用于这种比较的定性或定量方法在本领域中是悉知的。

在一个实施方式中，该方法可用于提供临床信息，以检测和量化改变的基因表达；mRNA的不存在、存在或过量表达；或在治疗性干预过程中监测mRNA水平。与改变的表达有关的病症包括静坐不能症、阿尔茨海默病、健忘症、肌萎缩性侧索硬化症(ALS)、共济失调、双相性抑郁症、紧张症、大脑性麻痹、脑血管疾病克-雅二氏病、痴呆、抑郁症、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、杭廷顿氏病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森氏病、皮克氏病、色素性视网膜炎、精神***症、季节性情感障碍、老年性痴呆、中风、德拉图雷特综合征和癌症，包括腺癌、黑素瘤和畸胎癌，尤其是脑癌。

在一个实施方式中，该方法可用于针对与改变的哺乳动物蛋白质的表达或活性有关的状况提供临床信息。这种状况的实例包括但不限于获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、***反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、良性***增生、支气管炎、切-东二氏综合征、胆囊炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、***、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、严重联合免疫缺陷病 (SCID)、斯耶格伦氏综合佂、***性过敏症、***性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染；和，腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌，和具体地，肾上腺、膀胱、骨、骨髓、脑、***、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、***、***、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症、静坐不能症、阿尔茨海默病、健忘症、肌萎缩性侧索硬化症、共济失调、双相性抑郁症、紧张症、大脑性麻痹、脑血管疾病克-雅二氏病、痴呆、抑郁症、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、杭廷顿氏病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森氏病、皮克氏病、色素性视网膜炎、精神***症、季节性情感障碍、老年性痴呆、中风、德拉图雷特综合征和癌症，包括腺癌、黑素瘤和畸胎癌，尤其是脑癌。

在一个实施方式中，本文公开的方法可用于检测、分期、诊断和/或治疗与核酸序列降低的表达或活性有关的病症。这种病症的实例包括但不限于癌症诸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌，和具体地，肾上腺、膀胱、骨、骨髓、脑、***、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、***、***、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症；免疫病症诸如获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、***反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、发作性淋巴细胞减少伴淋巴细胞毒性因子、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、斯耶格伦氏综合佂、***性过敏症、***性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染、创伤、 X连锁布鲁顿无丙种球蛋白血症、普通可变性免疫缺陷(CVI)、迪乔治氏综合征(胸腺发育不全)、胸腺发育不全、单一性IgA缺乏症、严重联合免疫缺陷病(SCID)、免疫缺陷伴随血小板减少和湿疹(威斯科特-奥尔德里奇综合征)、切-东二氏综合征、慢性肉芽肿性疾病、遗传性血管神经性水肿和与库兴病有关的免疫缺陷；和，发育障碍诸如肾小管性酸中毒、贫血、库兴综合征、软骨发育不全性侏儒、杜兴和贝克尔肌肉萎缩症、癫痫、性腺发育不全、WAGR综合征(维尔姆斯氏肿瘤、无虹膜、生殖泌尿异常和智力迟钝)、史-马二氏综合征、骨髓增生异常综合征、遗传性粘膜上皮发育不良、遗传性皮肤角化病、遗传性神经病诸如夏-马-图三氏病和神经纤维瘤、甲状腺功能减退、脑积水、癫痫病症诸如西登哈姆氏舞蹈病和大脑性麻痹、脊柱裂、无脑畸形、颅脊柱裂、先天性青光眼、白内障、感觉神经性耳聋和与细胞生长和分化有关的任何病症、胚胎发生和涉及对象的任何组织、器官或系统，例如脑、肾上腺、肾、骨骼或生殖***的形态发生。

在一个实施方式中，本文公开的方法可用于检测、分期、诊断和/或治疗与核酸序列的表达有关的病症。这种病症的实例包括但不限于内分泌性病症诸如与脑下垂体机能减退有关的病症，包括性腺功能减退症、席汉氏综合征、尿崩症、卡尔曼病、汉-许-克三氏病、累-赛二氏病、肉样瘤病、空泡蝶鞍综合征和侏儒症；垂体功能亢进，包括肢端巨大症、巨人症和不适当的抗利尿激素(ADH)分泌综合征 (SIADH)；和，与甲状腺功能减退有关的病症，包括甲状腺肿、粘液性水肿、与细菌感染有关的急性甲状腺炎、与病毒感染有关的亚急性甲状腺炎、自身免疫性甲状腺炎(桥本氏病)和呆小病；与甲状腺功能亢进有关的病症，包括甲状腺毒症及其各种形式、格雷夫斯病、胫骨前粘液水肿、毒性多节性甲状腺肿、甲状腺癌和普鲁麦综合征；和，与甲状旁腺功能亢进有关的病症，包括Conn病(慢性高钙血综合征)；呼吸病症诸如***反应、哮喘、急性和慢性炎性肺疾病、ARDS、气肿、肺充血和水肿、COPD、间质性肺病和肺癌；癌症诸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌，和具体地，肾上腺、膀胱、骨、骨髓、脑、***、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、***、***、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症；和，免疫学病症诸如获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、***反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、发作性淋巴细胞减少伴淋巴细胞毒性因子、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、斯耶格伦氏综合佂、***性过敏症、***性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染和创伤。多核苷酸序列可用于DNA或RNA分析、斑点印记或其它基于膜的技术；用于PCR技术中；用于试纸(dipstick)、插销(pin)和ELISA分析；和用于微阵列，其利用来自患者的液体或组织来检测改变的核酸序列表达。这种定性或定量方法在本领域中是悉知的。

本发明的表征和最佳方式

PARADIGM：利用PARADIGM，从多维癌基因组数据推断患者特异性途径活性。

基于途径方法的一个假设是在途径数据库中发现的遗传相互作用携带用于解释癌症中检测的基因表达变化之间的相关性的信息。例如，如果癌症相关途径包括转录活化因子A与目标基因T的连接，我们期望A的表达与T的表达正相关(E2E 相关)。类似地，我们也期望A的拷贝数和T的表达之间的正相关(C2E相关)。此外，我们期望C2E相关性比E2E相关性更弱，因为A中的扩增并不一定意味着A 以高水平被表达，这反过来对于上调B是必需的。以这种方式，途径中的每一连接提供关于数据的预期；具有许多一致连接的途径对于进一步的考虑可能是有意义的。我们测试这些假设，发现NCI途径包含许多预测最近的TCGAGBM数据的相互作用(The TCGA research network 2008)。

我们已经发展了一种称为PARADIGM(利用关于基因组模型的数据集成的途径识别算法)的方法，以从集成的患者数据中推断遗传途径的活性。

PARADIGM方法结合各种高通量基因组学信息与已知的信号转导途径，以提供关于基因活性的状态、复合体和细胞过程的患者特异性基因组学推断。该方法的核心是使用因子图来调整(leverage)推断，以组合各种数据源。将这种推断取代或结合原始高通量数据集使用提高我们将样本分类成临床上相关亚型的能力。根据PARADIGM-集成的活性聚类GBM患者揭示与不同存活概况相关的患者亚型。相反地，利用表达数据或拷贝数数据聚类样本并不揭示数据集中任何显著的聚簇。

PARADIGM产生对GBM和乳癌肿瘤样本中明显改变的基因活性的途径推断。与竞争途径活性推断方法——称为SPIA——相比，我们的方法以较少的假阳性鉴定癌症相关途径中改变的活性。为了计算效率，PARADIGM当前使用现在的NCI 途径。

虽然它利用EM推测隐藏量，但它不尝试推断尚未存在于NCI途径中的新相互作用。可以设想扩展该方法，以引进增加似然函数的新的相互作用。虽然该问题通常是难处理的，但启发式方法诸如结构EM(Friedman(1997)，同上)可利用计算搜索策略用于鉴定相互作用。

可以通过提出推导自蛋白质-蛋白质相互作用图谱的相互作用或相当数目的表达数据集中相关的基因对来显著加速搜索，而不是重新搜索新的联系(connection)。基于途径的方法的能力是它可以提供关于解释观察存活率中差异的可能机制的线索。有教益的IPA对于建议治疗目标或选择最合适的患者来进行临床试验可能是有用的。例如，ErbB2扩增是悉知的特性形式的乳癌的标记，该乳癌可由药物曲妥珠单抗治疗。然而，具有ErbB2扩增的一些患者具有难以治疗的肿瘤。观察CircleMap显示可以鉴定具有ErbB2扩增的、但其有由PARADIGM推断的失活的或未改变的IPA的患者。具有ErbB2扩增而不具有预测活性的患者可以考虑进行另外的治疗。

随着将来可以利用更多的多维数据集，检测这样的途径推断是否提供普及整个同龄组的有力的生物标记将是有趣的。

乳癌中对抗癌化合物的亚型和途径特异性应答

800种以上的小分子抑制剂和生物正在被开发，用于治疗人恶性肿瘤(NewMedicines Database|PHRMA.http://newmeds.phrma.org/(2010))。许多这些剂靶向被认为区分肿瘤和正常细胞的分子特征，并且，其范围从广义的特异性常规治疗剂，包括抗-代谢物和DNA交联剂诸如曲妥珠单抗和拉帕替尼(lapatinib)，其选择性地靶向分子事件(event)和在癌症子集中被下调的途径(见例如，Slamon,D.J.等. Use of chemotherapyplus a monoclonal antibody against HER2for metastatic breast cancer thatoverexpresses HER2.N Engl J Med 344,783-792(2001)；Vogel,C.L.等. Efficacy andsafety of trastuzumab as a single agent in first-line treatment of HER2-overexpressing metastatic breast cancer.J Clin Oncol 20,719-726(2002)；Rusnak,D.W.等.The effects of the novel,reversible epidermal growth factorreceptor/ErbB-2tyrosine kinase inhibitor,GW2016,on the growth of human normaland tumor-derived cell lines in vitro and in vivo.Mol Cancer Ther 1,85-94(2001))。 Effects of chemotherapy and hormonal therapy for early breast canceron recurrence and 15-year survival:an overview of the randomisedtrials.Lancet 365,1687-1717(2005)。

现在，药物开发的一般趋势正向显示比常规剂功效提高和较低毒性的靶向剂转移(Sawyers,C.Targeted cancer therapy.Nature 432,294-297(2004))。一些药物诸如ERBB2/EGFR抑制剂拉帕替尼显示高的靶向特异性，而其它药物诸如SRC抑制剂达沙替尼(dasatinib)抑制大范围的激酶(Karaman,M.W.等A quantitative analysis of kinaseinhibitor selectivity.Nat Biotechnol 26,127-132(2008))。

现在不断认识到临床试验必需包括应答预测器并将参与试验的患者分成不同的等级。虽然许多分子靶向的治疗剂提供明显的分子特征，根据该分子特征将患者分成不同的等级，但大部分分子并不这样作。此外，肿瘤之间的分子和生物学差异、复杂的交叉结合(cross-coupling)和对靶向途径的反馈调节以及不精确的靶向特异性常常使基本的机械预测变得复杂。虽然在基于分子标记的临床试验过程中可以鉴定响应子集，但该方法在逻辑上有困难、昂贵并且不允许试验化合物在选择的、最可能应答的亚群中进行初始测试。事实上，现在正在开发的大部分药物将不再在乳癌中被测试，所以仅在患有乳癌的患者亚群中非常有效的化合物被错过的概率比较高。一种有前景的方法是应用源自临床前模型的应答预测器将参与临床试验的患者分成不同的等级，这会降低开发成本并鉴定在患者子集中可能特别有效的那些药物。

在一组细胞系中进行的临床前测试有希望允许及早和有效鉴定应答分子亚型，作为早期临床试验的指导。该方法有用性的证据来自这样的研究，该研究显示细胞系组预测(a)具有响应吉非替尼(gefitinib)的EGFR突变的肺癌(Paez,J.G.等. EGFR mutationsin lung cancer:correlation with clinical response to gefitinib therapy.Science 304,1497-1500(2004))，(b)具有作为对曲妥珠单抗和/或拉帕替尼响应的 HER2/ERBB2扩增的乳癌(Neve,R.M.等.A collection of breast cancer cell lines for thestudy of functionally distinct cancer subtypes.Cancer Cell 10,515-527(2006)；Konecny,G.E.等.Activity of the dual kinase inhibitor lapatinib(GW572016)against HER-2-overexpressing and trastuzumab-treated breast cancercells.Cancer Res 66, 1630-1639(2006))，和(c)具有突变或扩增的BCR-ABL作为对甲磺酸伊马替尼的抵抗的肿瘤(Scappini,B.等.Changes associated with the developmentof resistance to imatinib(STI571)in two leukemia cell lines expressingp210Bcr/Abl protein.Cancer 100,1459-1471(2004))。NCI的发现治疗计划(NCI'sDiscovery Therapeutic Program) 已经大规模地实行该方法，在总计大约60个癌细胞系中鉴定分子特征和对>100,000种化合物的应答之间的联系(Weinstein,J.N.Spotlighton molecular profiling:"Integromic"analysis of the NCI-60cancer celllines.Mol Cancer Ther 5, 2601-2605(2006)；Bussey,K.J.等.Integrating data onDNA copy number with gene expression levels and drug sensitivities in theNCI-60cell line panel.Mol Cancer Ther 5,853-867(2006))。尽管对于检测具有各种应答的化合物有用，但有证据表明NCI60 组在检测亚型特异性应答中能力有限，这是由于在集合中对特定癌症亚型的表示相对稀少。例如，集合仅携带6个乳癌细胞系，这不足以充分表示已知的异质性。我们因此促进约50个乳癌细胞系的集合的应用，以在统计学上更有力地鉴定乳癌中体外治疗化合物应答和分子亚型以及激活的信号转导途径之间的联系。在本文中我们针对77种化合物报道对定量生长抑制应答和限定亚型的分子特征以及激活的途径之间的联系的评估，所述77种化合物包括FDA批准的药物和研究化合物。大约一半显示异常或亚型特异性。我们还通过对基因表达和拷贝数数据的集成分析显示，一些观察到的亚型-有关的应答可以通过特定途径活性进行解释。

集成分子概况揭示原位管癌中被曲解的(Distorted)白细胞介素信号转导和浸润性乳癌中提高的预后能力

各种水平的肿瘤高通量分子概况的积累在世界范围内是一个长期且高成本的过程。在各种水平对基因调节的组合分析可以表明特定的生物学功能和在多种上皮癌中被下调的分子途径，并揭示新的患者亚群，用于定制疗法和监测。我们已经从大约110个乳癌患者(还被称为MicMa数据集)中在若干分子水平收集了高通量数据，该数据源自来自原发性肿瘤、匹配的血液和具有已知微转移状况的新冰冻的样本。这些患者是900个以上乳癌病例的同龄组中的一部分，具有关于扩散肿瘤细胞(DTC)的存在、对复发和总存活率的长期随访的信息。MicMa集已经被用于全基因组mRNA表达的平行试验研究中(Naume,B.等,(2007),Presence of bone marrow micrometastasis is associated with differentrecurrence risk within molecular subtypes of breast cancer,1:160-17)、微阵列-比较基因组杂交(arrayCGH)(Russnes, H.G.等,(2010),Genomic architecturecharacterizes tumor progression paths and fate in breast cancer patients,2:38ra472)、DNA甲基化(Ronneberg,J.A.等,(2011), Methylation profiling with apanel of cancer related genes:association with estrogen receptor,TP53mutationstatus and expression subtypes in sporadic breast cancer,5: 61-76)、全基因组SNP和SNP-CGH(Van,Loo P.等,(2010),Allele-specific copy number analysis oftumors,107:16910-169154)、全基因组miRNA表达分析(Enerly E, Steinfeld I,KleiviK,Leivonen S,Aure MR,Russnes HG, JA,Johnsen H, Navon R, E,R,Naume B,M,Kallioniemi O,Kristensen VN, Yakhini Z,-DaleA.miRNA-mRNA integrated analysis reveals roles for miRNAs in primary breasttumors.PLoS ONE 2011；6(2):e16915)。TP53突变状态依赖性途径和高通量配对末端测序(Stephens,P.J.等,(2009),Complex landscapes of somatic rearrangement in humanbreast cancer genomes,462:1005-1010)。这是由单个实验室进行的对***原发性肿瘤的相同集合的高通量分子数据全面收集。

下面我们概述这些研究的发现，其中的每一个研究均试图结合mRNA表达与 DNA拷贝数、DNA甲基化中的下调或miRNA表达。虽然过去我们和其它人已经看到多种分子水平上的乳癌机制，但很少试图通过模拟途径背景下的mRNA、 CAN、miRNA和甲基化来结合这些观点。在本文中，我们已经分析了来自乳癌的这种数据，同时检测干扰的途径和具有不同表型特征的分子亚型。

在本文所述的MicMa数据集中，我们已经根据甲基化概况鉴定了三个较大的聚簇(和一个较小的)，较大的聚簇之一主要由肌上皮起源的肿瘤组成，而另外两个具有主要腔上皮起源的肿瘤。关于TP53突变和ER和ErbB2表达状况以及等级，聚簇是不同的。途径分析鉴定与规范的(策划的)途径的显著联系，包括基因如EGF、 NGFR和TNF、树突细胞成熟和NF-κΒ信号转导途径。对原位管癌和浸润性癌样本上的候选基因进行焦磷酸测序鉴定ABCB1、FOXCl、PPP2R2B和PTEN为原位管癌中甲基化的新基因。理解这些表观改变如何参与触发肿瘤发展对于更好地理解哪种病变处于变成浸润性的“风险”是重要的。

根据其彼此之间以及与临床特点的相关性，我们已经研究MicMa数据集中 miRNA和mRNA表达之间的关系。我们能够显示若干细胞过程，诸如增殖、细胞黏着和免疫应答与某些miRNA强相关。在分子固有亚型之间和具有不同增殖水平的样本之间观察到统计学上显著的miRNA的差异表达。我们利用关于细胞系的高通量溶胞产物-微阵列确认miRNA在调节增殖中的作用，并指出该过程的潜在驱动者(Enerly等(2001)，同上)。

根据该乳癌患者同龄组中10e-6的p-值截止水平处的TP53突变状况，鉴定了 40多个显示差别富集(differential enrichment)的KEGG途径。基于两个不同的微阵列平台，在由187个乳癌样本组成的跨平台(cross-platform)数据集上也观察到途径的差别富集。差别富集的途径包括若干已知的癌症途径诸如TP53信号转导和细胞周期、信号转导途径——包括免疫应答和细胞因子激活和代谢途径——包括脂肪酸代谢(Joshi等,2011，同上)。

之前描述的每一研究均试图以成对方式(CNA/mRNA、miRNA/rnRNA、DNA 甲基化/mRNA、TP53/mRNA)从高通量分子数据中推导生物相互作用。在本研究种，我们已经试图集中于下调的途径并发展集成的预后指数，同时考虑所有分子水平。我们利用关于基因组模型的数据集成的途径识别算法(PARADIGM)，来说明各种遗传途径的相对活性，并评价其联合预后潜力。通过PARADIGM鉴定的聚簇和下调的途径然后在另一数据集中被确认(Chin,S.F.等,(2007),Using array-comparative genomic hybridization to definemolecular portraits of primary breast cancers,26:26: 1959-1970)，并且，也在癌前期瘤形成诸如原位管癌(DCIS)的数据集中进行研究 (Muggerud,A.A.等,(2010),Molecular diversity in ductal carcinoma in situ(DCIS)and early invasivebreast cancer,4:357-368)。

浆液性卵巢癌中频繁改变的途径

为了通过对拷贝数和基因表达的集成分析来鉴定明显改变的途径，我们应用当前发展的途径活性推断方法PARADIGM(PMID:20529912)。计算模型结合拷贝数变化、基因表达数据和途径结构来针对途径数据库中存在的每一基因、复合体和遗传过程产生集成途径活性(IPA)。我们使用术语“实体”来指代途径中的任何分子，其可以是基因、复合体或小分子。实体的IPA仅指最终活性。对于基因，IPA 仅指蛋白质活性状态的推测的活性，这由途径中其它基因的拷贝数、基因表达和信号转导来推断。我们应用PARADIGM到卵巢样本，并且，发现美国国家癌症研究所的途径相互作用数据库(NCI-PID)包含的途径中存在许多不同基因和过程中的变化。我们利用1000次随机模拟来评估推断的变化的显著性，在所述随机模拟中使用具有相同结构的途径但任意基因(arbitrary gene)被指定在途径中的不同点处。换言之，给定途径的一次随机模拟保持相互作用的集合固定，以便任意基因集合与途径的相互作用联系在一起。针对相同的零分布评估所有样本的IPA的显著性，以获得每一样本中每一实体的显著性水平。标准差至少为0.1的IPA显示为图28 中的热图。

表3显示相对于PARADIGM发现的置换样本改变至少三个标准差的途径。在所有测试的途径中，在最大数量的样本中FOXMl转录因子网络被改变——当在样本中取平均值时，67％的实体具有改变的活性。相比较，在卵巢同龄组中具有下一个最高水平的改变活性的途径包括PLK1信号转导事件(27％)、Aurora B信号转导 (24％)和血栓烷A2受体信号转导(20％)。因此，在NCI-PDD中的途径中，关于卵巢样本，FOXMl网络具有比其它途径明显多的改变活性。

发现在最高比例的患者样本中，相比正常对照，FOXMl转录因子网络在肿瘤样本中被差异改变(图29)。FOXMl是多功能转录因子，具有三种已知的显性剪接形式，每一种均调节在细胞增殖和DNA修复中具有各种作用的不同的基因亚集。 FOXMlc同种型直接调节在细胞增殖中具有已知作用的若干目标，包括AUKB、 PLK1、CDC25和BIRC5(ΡΜID:15671063)。另一方面，FOXMlb同种型调节完全不同的基因亚集，所述基因亚集包括DNA修复基因BRCA2和XRCCl(PMID: 17101782)。由ATM间接控制的CHEK2直接调节FOXMl表达水平。

我们质疑FOXMl转录因子本身的IPA是否相比其它转录因子的IPA被高度改变。我们比较FOXMl的活性水平与NCI-PID中的所有其它203个转录因子的活性水平。甚至与NCI集合中的其它转录因子进行比较，FOXMl转录因子具有明显较高的活性水平(p<0.0001；K-S检验)，进一步表明它可能是重要的特征(图30)。

因为FOXMl也在许多上皮起源的不同正常组织中被表达，所以，我们质疑由PARADIGM鉴定的特征是否是归于在其它组织中被认为正常的上皮特征。为了回答该问题，我们从GEO(GSE10971)(PMID:18593983)中下载了独立数据集，在所述GEO，输卵管上皮细胞和卵巢肿瘤组织被显微解剖并且基因表达被分析。我们发现，与正常相比，肿瘤样本中的FOXMl水平明显更高，表明FOXMl调节在癌组织中确实被提高超出在正常上皮组织中观察到的(图31)。

由于TCGA卵巢的全部同龄组包含源自高级浆液性肿瘤的样本，我们质疑 FOXMl特征是否对于高级浆液是特有的。我们从其中低级和高级浆液性肿瘤均被转录概况化的Etemadmoghadam等(2009)(Etemadmoghadam D,deFazio A, Beroukhim R,Mermel C,George J,Getz G,Tothill R,Okamoto A,Raeder MB,AOCS Study Group,Harnett P,LadeS,Akslen LA,Tinker AV,Locandro B,Alsop K,Chiew YE,Traficante N,Fereday S,Johnson D,Fox S,Sellers W,Urashima M,Salvesen HB, Meyerson M,BowtellD.Integrated Genome-Wide DNA Copy Number and Expression Analysis IdentifiesDistinct Mechanisms of Primary Chemoresistance in Ovarian Carcinomas.ClinicalCancer Research 2009Feb.；15(4):1417-1427)的数据集中获得 FOXMl和其若干目标的对数表达。该独立数据证实，FOXMl和其若干目标在浆液性卵巢中相对于低级卵巢癌被明显上调(图32)。为了确定FOXMl转录因子网络中的25个基因在高级疾病中是否包含具有更高表达的明显比例的基因，我们利用 Etemadmoghadam的数据进行学生t-检验。发现基因组中723个基因(5.4％)在高级癌症对比低级癌症中以0.05的显著性水平被明显上调(利用Benjamini-Hochberg方法针对多重检验进行校正)。发现FOXMl网络的基因中有13个(52％)被差别调节，根据超几何检验(P<3.8*10^-l2)，这是相当大的比例。因此，当与基因组中的典型基因的表达比较时，FOXMl网络基因的高表达看起来并不与高级疾病特异关联。

FOXMl在许多不同癌症，包括乳癌和肺癌中的作用已经被很好地证明，但它在卵巢癌中的作用尚未被研究。FOXMl是多功能转录因子，具有三种已知的剪接形式，每一种均调节在细胞增殖和DNA修复中具有各种作用的不同的基因亚集。与该分析有关的FOXMl的相互作用网络的摘录显示在图27中。FOXMla同种型直接调节在细胞增殖中具有已知作用的若干目标，包括AUKB、PLK1、CDC25和 BIRC5。相反地，FOXMlb同种型调节完全不同的基因亚集，所述基因亚集包括 DNA修复基因BRCA2和XRCCl。由ATM间接控制的CHEK2直接调节FOXMl 表达水平。除了在大部分卵巢患者中提高的FOXMl表达之外，小的亚集也具有通过CBS检测的、提高的拷贝数扩增(在测量的基因组中，所有基因的前5％分位数中19％具有拷贝数增加)。因此，FOXMl的可选剪接调节可以参与DNA修复和细胞增殖之间的控制转换。然而，在这一点上，数据不足以支持该主张，因为区分同种型的外显子结构和外显子阵列探针的位置使其难以区分单个同种型活性。将来对这些样本的mRNA进行高通量测序可以帮助确定FOXMl同种型的差异水平。 PARADIGM检测以该转录因子为中心的最高水平的改变活性的观察表明，FOXMl 存在于细胞中的关键调节点处。

诊断

本文描述的方法可用于检测和量化改变的基因表达、mRNA的不存在/存在对比过量表达，以及在治疗性干预期间监测mRNA水平。与该改变的表达有关的状况、疾病或病症包括原发性肺动脉高压、继发性肺高血压、细胞增殖病症，尤其是间变性少突神经胶质瘤、星形细胞瘤、少突星形细胞瘤(oligoastrocytoma)、恶性胶质瘤、脑膜瘤、神经节瘤(ganglioneuroma)、神经元赘生物、多发性硬化症、杭廷顿氏病、乳腺癌、***癌、胃腺癌、转移性神经内分泌癌、非增殖性纤维囊肿和增殖性纤维囊肿***疾病、胆囊炎和胆石病、骨性关节炎和类风湿性关节炎；获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、***反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、良性***增生、支气管炎、切-东二氏综合征、胆囊炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多囊卵巢综合征、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、严重联合免疫缺陷病(SCID)、斯耶格伦氏综合佂、***性过敏症、***性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、血液透析、体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染；促乳素产生病症、***不育症，包括管疾病、***缺陷和子宫内膜组织异位、动情周期中断、***中断、***、卵巢过度刺激综合征、子宫内膜或卵巢肿瘤、子宫纤维瘤(uterinefibroid)、自身免疫病症、子***和畸形发生；乳癌、纤维囊肿***疾病和乳溢；***发生的中断、异常***生理学、良性***增生、 ***炎、佩罗尼病、性无能、男子女性型***；光化性角化症、动脉硬化、粘液囊炎、硬化、肝炎、混合性缔结组织疾病(MCTD)、骨髓纤维化、阵发性夜间血红蛋白尿、真性红细胞增多症、原发性血小板增多、癌症并发症、癌症，包括腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌，和具体地，肾上腺、膀胱、骨、骨髓、脑、***、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、***、***、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症。在另一方面，本发明的核酸。

本文描述的方法可用于检测和量化改变的基因表达；mRNA的不存在、存在或过量表达；或在治疗性干预期间监测mRNA水平。与改变的表达有关的病症包括静坐不能症、阿尔茨海默病、健忘症、肌萎缩性侧索硬化症、共济失调、双相性抑郁症、紧张症、大脑性麻痹、脑血管疾病克-雅二氏病、痴呆、抑郁症、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、杭廷顿氏病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森氏病、皮克氏病、色素性视网膜炎、精神***症、季节性情感障碍、老年性痴呆、中风、德拉图雷特综合征和癌症，包括腺癌、黑素瘤和畸胎癌，尤其是脑癌。

为了提供用于诊断与基因表达有关的状况、疾病或病症的基础，建立正常或标准表达概况。这可以通过在杂交或扩增条件下结合取自正常对象——动物或人 ——的生物样本与探针来实现。标准杂交可以通过比较利用正常对象获得的值与来自试验——其中使用已知量的基本上纯化的目标序列——的值来量化。以这种方式获得的标准值可以与获自对于特定状况、疾病或病症有症状的患者样本的值进行比较。从标准值偏向与特定状况有关的那些值被用于诊断该状况。

这种分析也可以用于评价特定治疗方案在动物研究和在临床试验中的功效，或用于监测对个体患者的治疗。一旦状况的存在被确定并且治疗方案开始进行，则可以有规律地重复诊断分析，以确定在患者中的表达水平是否开始接近于在正常对象中观察到的水平。通过连续分析获得的结果可用于显示在从若干天到数月的阶段中治疗的功效。

模型***

动物模型可被用作生物分析，其中它们显示类似于人的毒性应答，并且，其中暴露状况与人暴露相关。哺乳动物是最常见的模型，并且，因为成本低、可用性和丰富的参考毒理学，大部分毒性研究针对啮齿动物诸如大鼠或小鼠进行。近交(近亲交配)啮齿动物品系提供常规模型，用于研究感兴趣基因低表达或过表达的生理学结果和用于发展诊断和治疗疾病的方法。被近交以过表达特定基因(例如，乳中分泌的基因)的哺乳动物也可用作由该基因表达的蛋白质的常规来源。

毒理学

毒理学是研究剂对活体系的影响。大部分毒性研究是针对大鼠或小鼠进行的，以帮助预测这些剂对人健康的影响。对于生理学、行为、稳态过程和致死率的定性和定量变化的观察被用于产生毒性概况和用于评估在暴露于剂后对人健康的结果。

遗传毒理学鉴定和分析剂产生遗传突变的能力。基因毒性剂通过具有常见的促进与核酸相互作用的化学或物理性质，并且，在染色体异常传递给后代时是最有害的。如果在受孕前将剂施用给双亲之一、在怀孕期间施用给母亲或施用给发育的生物体，毒理学研究可以鉴定增加后代中结构或功能异常频率的剂。小鼠和大鼠最常被用于这些测试，因为它们产生满足统计学要求所需要的生物体数目的生殖周期短。

急性毒性试验基于给对象单一施用剂，以测定该剂的症状或致死率。进行了三个试验：(a)发现初始剂量范围的试验，(b)缩小有效剂量范围的试验，和(c)确定剂量-应答曲线的最终试验。

延长的毒性试验是基于重复施用剂。大鼠和狗通常被用于这些研究中，以提供不同科物种的数据。除了癌发生以外，有相当多的证据表明以高剂量浓度每日施用剂达3到4个月的阶段将揭示成年动物中的大部分毒性形式。

慢性毒性试验——持续时间为一年或更久——被用于证明剂的毒性不存在或致癌潜能。当针对大鼠进行研究时，使用最小的3个测试组加一个对照组，并在开始时和整个试验的间隔检查和监测动物。

转基因动物模型

过表达或低表达感兴趣基因的转基因啮齿动物可以被近交，并用于模拟人疾病或用于检验治疗剂或毒性剂。(见美国专利号4,736,866；5,175,383；和5,767,337；通过引用被并入本文)。在一些情况中，引入的基因可以在胎儿发育期间或出生后在特定的组织类型中在特定的时间被激活。在挑战药物治疗法之前、期间和之后，通过分析转基因动物中表型或组织-特异性mRNA表达来监测转基因的表达。

胚胎干细胞

分离自啮齿动物胚胎的胚胎干细胞(ES)保持形成胚胎的潜力。当将ES细胞放入到载体胚胎内部时，它们恢复正常发育并对活着出生的动物的所有组织有帮助。 ES细胞是用于产生试验敲除和敲入啮齿动物品系的优选细胞。小鼠ES细胞诸如小鼠129/SvJ细胞系衍生自小鼠早期胚胎，并且在本领域中悉知的培养条件下生长。用于敲除品系的载体包含疾病基因候选物，其被修饰成包括破坏体内转录和/ 或翻译的标记基因。载体通过本领域中悉知的转化方法诸如电穿孔法、脂质体递送、微注射和类似方法被引入ES细胞。内源啮齿动物基因在细胞***过程中通过同源重组和整合被破坏的疾病基因取代。转化的ES细胞被鉴定并优选微注射到小鼠细胞胚泡诸如来自C57BL/6小鼠品系的那些中。胚泡经手术被转移到假孕雌亲中，并且，所得嵌合后代被测基因型并杂交，以产生杂合或纯和品系。

ES细胞也被用于体外研究各种细胞类型和组织的分化，诸如神经细胞、造血谱系和心肌细胞(Bain等(1995)Dev.Biol.168:342-357；Wiles和Keller(1991) Development111:259-267；和Klug等(1996)J.Clin.Invest.98:216-224)。最近的发展表明，衍生自人胚泡的ES细胞也可以在体外***作，以分化成8个独立的细胞谱系，包括内胚层、中胚层和外胚层细胞类型(Thomson(1998)Science 282: 1145-1147)。

敲除分析

在基因敲除分析中，人疾病基因候选物的区域被酶促修饰成包括非哺乳动物基因诸如新霉素磷酸转移酶基因(neo；见，例如，Capecchi(1989)Science 244: 1288-1292)。***的编码序列中断目标基因的转录和翻译，并防止疾病候选蛋白质的生物化学合成。修饰的基因被转化到培养的胚胎干细胞(上述)中，转化的细胞被注入到啮齿动物囊胚，并且，囊胚被植入到假孕雌亲中。杂交转基因后代，以获得纯合近交系。

敲入分析

存在于胚胎发育的早期阶段的全能ES细胞可用于产生人疾病的敲入人源化动物(猪)或转基因动物模型(小鼠或大鼠)。通过敲入技术，人基因的区域被注入到动物ES细胞中，并且，人序列通过重组整合到动物细胞基因组中。含有整合的人基因的全能ES细胞被如上所述地处理。近交动物被研究和处理，以获得关于类似的人状况的信息。这些方法已经被用于模拟若干人疾病。(见，例如，Lee等(1998)Proc. Natl.Acad.Sci.95:11371-11376；Baudoin等(1998)Genes Dev.12:1202-1216；和 Zhuang等(1998)Mol.CellBiol.18:3340-3349)。

非人灵长类动物模型

动物实验领域处理基本科学诸如生理学、遗传性、化学、药理学和统计学的数据和方法。这些数据在评价治疗剂对非人灵长类动物的作用中极为重要，因为他们可能与人类健康相关。猴子在疫苗和药物评价中被用作人类替代者，并且，它们的反应与人暴露在类似条件下有关。食蟹猴(食蟹猴(Macaca fascicularis)、猕猴 (Macaca mulata))和普通狨(普通狨(Callithrix jacchus))是这些研究中使用的最常见的非人灵长类动物(NHP)。因为与发展和维持NHP群体有关的巨大成本，早期的研究和毒理学研究通常在啮齿动物模型中进行。在利用行为测量诸如药瘾的研究中，NHP是首选的测试动物。另外，NHP和独立的人对许多药物和毒素显示差别灵敏性，因而可以被分类为这些剂的“泛代谢者”和“乏代谢者”。

本发明的示例性应用

个体化药物(Personalized medicine)有希望给予很可能受益的那些患者特定的治疗。我们已经证明，大约一半的治疗化合物在一种或多种临床上相关的转录或基因组乳癌亚型中优先有效。这些发现支持在乳癌治疗中限定应答相关分子亚型的重要性。我们也证明，关于细胞系的转录和基因组数据的途径集成揭示子网络，其为观察到的亚型特异性应答提供机制解释。对细胞系和肿瘤之间子网活性的比较分析显示，大部分亚型特异性子网络在细胞系和肿瘤之间是保守的。这些分析支持这样的观点，即，在良好表征的细胞系组中进行试验化合物的临床前筛选可以鉴定与候选物应答有关的分子特征，其可以用于早期临床试验中的灵敏性富集。我们提出，该体外评估方法将提高反应性肿瘤亚型将在化合物的临床开发开始之前被鉴定的可能性，从而降低成本，提高最终FDA批准的概率并可能避免与治疗不太可能应答的患者有关的毒性。在该研究中，我们仅评估限定转录亚型的分子特征和选择的再发生的基因组CAN。我们预期，该方法的能力和精确性将随着另外的分子特征诸如遗传突变、甲基化和可选剪接被包括在该分析中而提高。同样地，增加细胞系组的大小将提高评估组内较不常见的分子式样的能力和提高表现人乳癌中存在的更完整的多样性范围的概率。

乳癌发展的特征在于在先天的和适应性免疫细胞同时存在下，随着代表肿瘤性基质中存在的最丰富的白细胞的B细胞、T细胞和巨噬细胞而显著增加(DeNardo DG,Coussens LM.Inflammation and breast cancer.Balancing immune response:crosstalk between adaptive and innate immune cells during breast cancerprogression. Breast Cancer Res.2007；9(4):212)。肿瘤基质(和血清)中的高免疫球蛋白(Ig)水平和原发性肿瘤或***中的滤泡外B细胞、T调节细胞和高比例的CD4/CD8或Τ′H2/Τ′H1 T淋巴细胞存在的增加已经显示与肿瘤等级、阶段和整体患者存活率有关(Bates,G.J.等,(2006),Quantification of regulatory T cells enables theidentification of high-risk breast cancer patients and those at risk of laterelapse,24:5373-5380)；一些白细胞显示抗肿瘤活性，包括细胞毒性T淋巴细胞(CTL)和天然杀伤(NK)细胞(34 Dunn,G.P.,Koebel,C.M.,and Schreiber,R.D.,(2006),Interferons,immunity and cancer immunoediting,6:836-848)，其它白细胞诸如肥大细胞、B细胞树突细胞、粒细胞和巨噬细胞通过其妨碍或加强肿瘤发展的能力显示更两极化的作用(35 de Visser,K.E.and Coussens,L.M.,(2006),The inflammatory tumormicroenvironment 和its impact on cancer development,13:118-137)。在这些研究中最突出的发现是鉴定免疫应答(TCR)中的干扰和导致用预后值对亚类进行分类的白细胞介素信号转导、IL4、IL6、IL12和IL23信号转导。我们在本文提供证据表明这些事件反映在高通量分子数据中，并用***肿瘤的分子亚分类进行强干预。

本公开内容还提供对HGS-OvCa中的异常的第一大规模的综合观点(the firstlarge scale integrative view)。总的来说，突变谱异常简单。TP53中的突变占优势，发生在至少96％的HGS-OvCa中，而BRCAl/2在22％的肿瘤中突变，这是由于种系和体细胞突变的组合。鉴定了7个其它明显突变的基因，但仅存在于2-6％的 HGS-OvCa中。相反地，HGS-OvCa显示显著程度地基因组混乱(genomic disarray)。频繁的SCNA与之前通过恶性胶质瘤46的TCGA发现形成强烈对比，其中存在更多再次突变的基因和少得多的染色体臂水平或焦点SCNA(图37A)。假定DNA修复基因——包括HR组分——中的高度普遍的突变和启动子甲基化块可以解释高度普遍的SCNA。突变谱将HGS-OvCa标记为与其它OvCa组织学亚型完全不同。例如，清楚细胞OvCa具有少量的TP53突变，但具有再发生的ARID 1A和PIK3CA47-49突变；子宫内膜样OvCa具有频繁的CTTNB1、ARIDIA和PIK3CA 突变和和较低速率的TP5348,49，而粘液性OvCa具有普遍的KRAS突变50。卵巢癌亚型之间的这些差异很可能反映病原和谱系作用的组合，并代表通过亚型-分层护理改进卵巢癌结果的机会。

新治疗方法的鉴定是TCGA的中心目标。具有HR缺陷的大约50％的 HGS-OvCa可以受益于PARP抑制剂。在此之外，通常被下调的途径，RB、 RAS/PI3K、FOXM1和NOTCH，提供用于治疗性攻击(therapeutic attack)的机会。最后，在频发扩增的区域中已经存在22个基因的抑制剂(见下面的实施例XIII)，确保其中目标基因被扩增的HGS-OvCa中的评估。总的来说，这些发现为治疗 HGS-OvCa的方法创造条件，在所述HGS-OvCa中，异常基因或网络被检测，并被选择用来有效抵抗这些特定异常的治疗方法所靶向。

在另外的实施方式中，多核苷酸核酸可用于尚待开发的任何分子生物学技术中，倘若新技术依赖于当前已知的核酸分子特性——包括但不限于这样的特性诸如三联遗传密码子和特定碱基对相互作用。

通过参考以下实施例，本发明将被更容易地理解，所述实施例被包括，仅为了阐释本发明的特定方面和实施方式的目的，而不是作为限制。

实施例

实施例I：数据源

从NCBI基因表达汇编(Gene Expression Omnibus)(GEO)以登录号GPL5737获得Chin(2007，同上)的乳癌拷贝数数据，具有来自GSE8757的相关阵列平台注释。

探针注释被转换成BED15格式，以在UCSC癌症基因组浏览器(Cancer GenomicsBrowser)(Zhu:2009，同上)中进行展示和随后分析。阵列数据通过探针ID 被映射到探针注释中。来自Naderi(2007，同上)的匹配的表达数据利用登录号 E-UCon-1获自EBI的MIAMIExpress。人lA(V2)的平台注释信息获自Agilent网站。表达数据为探针水平中值归一化的，并通过探针ID被映射到HUGO基因名称。

所有数据均利用排序程序——包括所有样本-探针值——进行非参数归一化，并且，每一基因-样本对基于排序被给予有符号的p值。最大p值0.05被用于确定被明显改变的基因-样本对。

来自TCGA的恶性胶质瘤数据获自TCGA Data Portal，其在Affymetrix U133A 平台上提供230个患者样本和10个邻近正常组织的基因表达。患者样本的探针通过减去每一探针的中值标准值被归一化成正常组织。另外，获得相同患者组的CBS 分段的(Olshen:2004，同上pl618)拷贝数数据。两个数据集均利用与乳癌数据相同的程序进行非参数归一化。

实施例II：途径概略(Compendium)

我们收集可从美国国家癌症研究所途径相互作用数据库(NCI PID) (Schaefer:2009，同上)得到的策划的途径的集合。每一途径均代表根据高水平生物分子过程逻辑上被分组在一起的相互作用的集合，所述高水平生物分子过程描述固有的和外在的亚细胞-、细胞-、组织-或生物体-水平的事件和表型。下载BioPAX 水平2格式化的途径。所有实体和相互作用利用Rasqal RDF引擎通过SPARQL查询来提取。

我们提取5种不同类型的生物实体(一种或多种)，包括3种物理实体(编码蛋白质的基因、小分子和复合体)、基因家族和抽象过程。当BioPAX蛋白质的交叉参考列出不同基因的蛋白质时，产生基因家族。基因家族代表基因的集合，其中任何单一基因均足以执行特定功能。例如，具有多余功能的同系物和被发现在功能上彼此补偿的基因被组成家族。

提取产生途径中应用的每一实体和相互作用的列表，其中注释描述它们的不同类型。我们还提取抽象过程诸如“凋亡”，其是指可以在NCI集合中发现的一般过程。例如，详细描述涉及p53肿瘤抑制基因的相互作用的途径包括向凋亡和衰老的连接，所述凋亡和衰老可作为机器学习分类的特征被调节(leveraged)。

如所期望的，C2E相关性是中等的，但比起由机会所预期的，其具有激活相互作用之间正相关的显著富集(图3)。E2E相关性甚至更强，并被类似地富集。因此，即使在具有困惑特性的该癌症实施例中，明显的途径亚集相互作用使基因组变化与基因表达中的调节联系起来，支持途径-水平方法值得追求的观点。

实施例III：建模和预测生物学途径

我们首先将每一NCI途径转换成不同的概率模型。小片段p53调亡途径的玩具实例显示在图2中。来自NCI的途径图被转换成因子图，其同时包括隐藏的和观察到的状态。因子图结合对基因-和生物过程-相关状态信息的观察与描述实体之中已知相互作用的结构。

为了用因子图表示生物学途径，我们应用变量来描述实体在细胞中的状态，诸如特定mRNA或复合体，并利用因子来代表这些实体之间的相互作用和信息流。这些变量代表每一实体与“对照”或正常水平而不是分子实体的直接浓度相比的 \textit{差别}状态。该表示允许我们模拟许多高通量数据集，诸如通过DNA微阵列检测的基因表达，其常常直接测量基因的差别状态或将直接测量结果转换成相对于匹配的对照的测量结果。它还允许基因之间许多类型的调节关系。例如，描述介导p53的泛素依赖性降解的MDM2的相互作用被模仿为抑制p53的蛋白质水平的激活的MDM2。

因子图利用每一实体的随机变量X＝{x₁,x₁,….,x_n,}编码细胞的状态和一组非负函数或因子，其限制实体采用生物学有意义的值作为彼此的函数。j-th因子φ_j在实体亚组上限定了概率分布。

实体和因子的整体图编码所有实体上的联合概率分布为：

其中，Z＝∏_j∑_{s xj}φ_j(S)是归一化常数，S X表示S是X中变量的‘合并(setting)’。

每一实体可以呈现三种状态中的一种，所述三种状态对应于相对于对照水平 (例如，如在正常组织中测量的)激活的、标称的或失活的状态，并分别被编码为1、 0或-1。根据实体的类型(例如，基于、蛋白质等)，可以不同地解释状态。例如，激活的mRNA实体代表过表达，而激活的基因组拷贝实体代表基因组中存在两个以上的拷贝。

图2显示单一蛋白质-编码基因的因子图的概念模型。对于途径中的每一蛋白质-编码基因G，实体被引入来代表基因组的拷贝数(G_DNA)、mRNA表达(G_mRNA)、蛋白质水平(G_蛋白质)和蛋白质活性(G_蛋白质)(图2中标记“DNA”、“mRNA”、“蛋白质” 和“激活”的椭圆)。对于途径中的每一化合物、蛋白质复合体、基因家族和抽象过程，我们包括具有分子类型“激活”的单一变量。

虽然图2中的实施例仅显示一个过程(“凋亡”)，但事实上，许多途径具有多个这样的过程，其代表从基因活性的输出信息(例如，“凋亡”和“衰老”)到输入信息(例如，“DNA损坏”)的任何事情。

为了简化因子的构建，我们首先将途径转换成有向图，其中图中的每一矢线(edge)标记有正或负影响。首先，对于每一蛋白质编码基因G，我们向矢线加入从 G_DNA到G_mRNA，从G_mRNA到G_蛋白质和从G_蛋白质到G_蛋白质的标记“正”，以从基因拷贝数到其蛋白质产物激活形式的存在反映基因的表达。途径中的每一相互作用被转换成有向图中的单一矢线。

利用该有向图，我们然后构建因子列表，以详细说明因子图。对于每一变量 x_i，我们加入单一因子φ(X_i)，其中X_i＝{x_i}∪{亲本}(x_i)}和亲本(x_i)是指有向图中所有x_i的亲本。由于亲本(x_i)的合并，所有值合并的因子的值依赖于x_i是否与其期望值一致。

对于该研究，期望的值被设置成亲本变量的多数投票(majority vote)。如果亲本由正矢线连接，它有助于+1次其自身状态的投票给因子值。相反地，如果亲本由负矢线连接，则变量投票-1次其自身状态。通过标记“最小”的矢线与x_i连接的变量得到一个投票，并且，该投票的值是这些变量的最小值，产生类似与的连接(AND-like connection)。类似地，通过标记“最大”的矢线与x_i连接的变量得到一个投票，并且，该投票的值是这些变量的最大值，产生类似或的连接(OR-like connection)。投票为零被处理为放弃的投票。如果没有投票，则期望的状态是零。否则，多数投票是期望的状态，并且1和-1之间的连接产生-1的期望状态，以给予抑制者(repressor)和删除更多的重视。考虑到期望状态的这种限定，φ_i(x_i,亲本(x_i)) 被规定为：

对于本文所显示的结果，ε被设为0.001，但在对ε的选择中的数量级差异并不明显地影响结果。最后，我们将观察变量和因子加入到因子图，以完成途径和多维功能基因组学数据的结合(图2)。每一离散功能基因组学数据集均与蛋白质编码基因的一种分子类型有关。

对拷贝数变化的阵列CGH/SNP评估与‘基因组’类型有关。基因表达数据与 ‘mRNA’类型有关。虽然没有表示在本文的结果中，但将来的扩充将包括具有 ‘mRNA’类型的DNA甲基化数据和具有‘蛋白质’和‘激活’类型的基因组学和基因重测序数据。每一观察变量也是三元值的(ternary valued)。与每一观察的数据类型有关的因子在所有实体中都有，并且是从数据中获得，如在后面描述的。

实施例IV：推断和参数估计

使赋值的集合D＝{x₁＝s₁,x₂＝s₂,x₂,….,x_k＝s_k,}表示针对下标为从1到 k的观察变量患者的完整数据集合。使{S _D X}表示与D中的赋值一致的变量X的集合的所有可能赋值的集合；即，任何观察变量x₁均被固定成其在D中的赋值，而隐藏变量可以变化。

考虑到患者数据，我们想评估特定隐藏实体x₁是否有可能处于状态a，例如， TP53的蛋白质活性为-1(失活的)或‘调亡’为+1(激活的)的可能性如何。为此，我们必需在观察患者数据之前计算事件的先验概率。如果A_i(a)表示单独的赋值集合{x₁＝a}和φ是完全指定的因子图，则该先验概率为：

其中，Z是引入到等式(1)中的归一化常数。类似地，x₁与患者的所有观察结果一起处于状态的概率是：

我们使用连接树推断(junction tree inference)算法和大部分途径的HUGIN更新。对于每个患者花费3秒以上进行推断的途径，我们使用置信传播(Belief Propagation)以及相继的更新、收敛公差为10^-9和最多10,000次迭代。所有推断均在实域而不是对数域中进行，并且利用libDAI(Mooij:2009，同上)执行。

为了学*** 均值，然后使用这些参数来计算每一变量的最终后验信念。

在推断之后，我们输出具有“激活”分子类型的每一变量的集成途径活性。我们利用来自等式2和3的量计算对数似然比，所述等式2和3反映患者数据增加我们的信念——实体i的活性上或下(uo or down)——的程度：

我们然后根据对数似然比计算基因i的单一集成途径活性(IPA)为：

直观地，IPA分数反映对数似然比的有符号的模拟，L。

如果基因更可能被激活，则IPA被设为L。可选地，如果基因更可能被失活的，则IPA被设为对数似然比的负数。如果基因最可能不变，则IPA被设为零。每一途径均独立于其它途径被分析。因此，基因可以与多重推断关联，每一其在其中出现的途径一个。相同基因的不同推断可被看做对作为基因途径背景的函数的数据的可选解释。

实施例V：显著性评估

我们通过数据的两种不同置换评估IPA分数的显著性。对于“内部”置换，置换的数据样本通过选择新的数据元组(即，匹配的基因表达和基因拷贝数)而产生，首先通过选择随机真实样本，然后从相同途径中选择随机基因，直到针对途径中的每一基因均选择了元组。对于“任何”置换，程序是相同的，但随机基因选择步骤可以从基因组中的任何地方选择基因。对于两种置换类型，产生1,000个置换的样本，并计算每一置换样本的干扰分数。置换样本的干扰分数的分布被用作零分布，以评估真实样本的显著性。

实施例VI：信号转导途径影响分析(SPIA)

Tarca(2009,，同上)的信号转导途径影响分析(SPIA)在C中实施，以减少运行时间并与我们的分析环境兼容。我们还增加能力来提供更详细的输出信息，以便我们可以直接比较SPIA和PARADIGM输出信息。我们的SPIA版本可以针对途径中的每一实体输出积累的干扰和干扰因子。此代码可应要求提供。

实施例VII：诱饵途径

针对每一癌症数据集产生诱饵途径集合。每一NCI途径均被用于产生诱饵途径，其由相同的结构组成，但其中途径中的每一基因在RefGene中被取代为随机基因。所有复合体和抽象过程保持相同，并且，PARADIGM和SPIA的显著性分析在同时含有真实途径和诱饵途径的途径集合上运行。途径在每一方法中被排序，并且真实途径对比总途径的分数被计算并可视化。

实施例VIII：聚类和Kaplan-Meier分析

利用Eisen(1998，同上，pl621)的方法，在恶性胶质瘤数据上执行具有形心连接(centroid linkage)的非中心相关分级聚类。仅在75个患者样本中具有至少0.25 信号的IPA被用于聚类。通过目视观察，出现四个明显的聚簇，其被用于 Kaplan-Meier分析。利用R计算Kaplan-Meier曲线，并且，通过对数秩统计获得 p-值。

实施例IX：PARADIGM的确认

为了评估EM训练程序的性质，我们利用相对于零数据集的实际患者数据比较EM的收敛，在零数据集中，基因表达和拷贝数(E,C)的元组在基因和患者中被置换。如所期望地，PARADIGM在真实数据集上相对于零数据集收敛快得多。作为实例，将基因AKT1的IPA作为EM迭代的函数绘图(图4)。可以看到，在第一对迭代中活性迅速收敛。当用实际患者数据训练时，EM迅速收敛到激活水平，然而，当给予随机数据时，它收敛到不变的活性。收敛表明途径结构和推断能够成功地鉴定集成的患者数据中的活性式样。

我们接下来在乳癌和GBM同龄组上同时运行PARADIGM。我们开发的统计模拟程序来测定哪个IPA明显不同于通过负分布预期的。我们通过在所有患者中和在途径的基因中进行置换建立负分布。根据经验，我们发现仅在途径中的基因之间进行置换对于帮助校正事实——每个基因具有由网络检测的不同拓扑背景— —是必要的。在乳癌数据集中，发现56,172个IPA(总计的7％)明显高于或低于匹配的阴性对照。平均，NCI途径每一患者具有497个明显的实体，并且，127个途径中的103个在20％或更多患者中具有至少一个改变的实体。在GBM数据集中，发现141,682个IPA(总计的9％)明显高于或低于匹配的阴性对照。平均，NCI途径每一患者具有616个明显的实体，并且，127个途径中的110个在20％或更多患者中具有至少一个改变的实体。

作为另一对照，我们质疑集成的活性是否可以获自以与NCI途径中的基因相同的方式连接的任意基因。为此，我们评估错误发现率(false discovery rate)，并将其与SPIA比较(Tarca:2009，同上)。由于发现许多遗传网络参与癌症，所以我们选择使用模拟的“诱饵”途径作为阴性对照的集合。对于每一NCI途径，我们通过利用与NCI途径相同的网络结构将基因组中的随机基因连接在一起来建立诱饵途径。

我们然后运行PARADIGM和SPIA，来推导NCI和诱饵途径的IPA。对于 PARADIGM，我们通过在借助于途径大小归一化后被发现在患者中明显的IPA数目来排序途径。对于SPIA，根据其计算的影响因子来排序途径。我们发现，与SPIA 相比，PARADIGM从最高激活的途径中排除更多的诱饵途径(图5)。例如，在乳癌中，PARADIGM在前10中排序1个诱饵，在前30中排序2个和在前50中排序4 个。相比较，SPIA在前10中排序3个诱饵，在前30中排序12个和在前50中排序22个。通过将排序的积累分布绘图观察到，NCIIPA的整体排序分布在PARADIGM中比在SPIA中高(P<$0.009，K-S检验)。

实施例X：乳癌和GBM中的顶部PARADIGM途径

我们根据由我们的置换分析检测的其每一实体的显著IPA的平均数来分类 NCI途径，并计算乳癌(表1)和GBM(表2)中的前15。

前15之中的若干途径之前已经在其各自的癌症中被暗示过了。在乳癌中，SPIA 和PARADIGM均能够检测***-和ErbB2-相关途径。在最近的主要元分析研究 (Wirapati P,Sotiriou C,Kunkel S,Farmer P,Pradervand S,Haibe-Kains B,Desmedt C, IgnatiadisM,Sengstag T,Schütz F,Goldstein DR,Piccart M,Delorenzi M. Meta-analysis ofgene expression profiles in breast cancer:toward a unified understanding ofbreast cancer subtyping and prognosis signatures.Breast Cancer Res. 2008；10(4):R65.)中，Wirapeti等发现***受体和ErbB2状况是乳癌中仅有的三个关键预后特征中的两个。PARADIGM也能够鉴定AKT1–相关的PI3K信号转导途径为最高的途径，在若干样本中具有明显的IPA(见图6)。

表1.乳癌中的顶部PARADIGM途径

^a其中每一实体被检测显著活性的样本平均数目。

^b如果途径也被排序在SPIA的前15中，则为是；否则为否。

表2.GBM中的顶部PARADIGM途径

^a其中每一实体被检测显著活性的样本平均数目。

^b如果途径也被排序在SPIA的前15中，则为是；否则为否

已知抗调亡AKT1丝氨酸-苏氨酸激酶包参与乳癌中并与ERBB2途径相互作用(JuX,Katiyar S,Wang C,Liu M,Jiao X,Li S,Zhou J,Turner J,Lisanti MP,Russell RG,Mueller SC,Ojeifo J,Chen WS,Hay N,Pestell RG.Aktl governs breast cancerprogression in vivo.Proc.Natl.Acad.Sci.U.S.A.2007May；104(18):7438-7443)。在GBM中，FOXM1和HIF-1-α转录因子网络均已被广泛研究并显示在高级恶性胶质瘤对比低级神经胶质瘤中过表达(Liu M,Dai B,Kang S,Ban K,Huang F,Lang FF, Aldape KD,Xie T,Pelloski CE,Xie K,Sawaya R,Huang S.FoxM1B is overexpressed in humanglioblastomas and critically regulates the tumorigenicity of glioma cells.Cancer Res.2006Apr.；66(7):3593-3602；Semenza GL.HIF-1and human disease:onehighly involved factor.Genes Dev.2000Aug.；14(16):1983-1991)。

实施例XI：数据集的可视化

为了显示PARADIGM推断的结果，我们发展了“CircleMap”可视化，来展示以途径中每一基因为中心的多个数据集(图7)。在该展示中，通过围绕基因绘制同心环，将每一基因均与同龄组中所有其数据关联，其中每一环对应于单种类型的测量结果或计算推断。环中的每一记号(tick)均对应于单一的患者样本，而颜色对应于激活的(红色)、失活的(蓝色)或不变的(白色)活性水平。我们绘制ErbB2途径亚集的CircleMap，并包括乳癌同龄组的ER状况、IPA、表达和拷贝数数据。

基因表达数据已经被成功地用于限定各种癌症的分子亚型。已经发现，癌症亚型与不同临床结果诸如药物灵敏性和总存活率相关。我们质疑我们是否可以利用PARADIGMIPA而不是原始表达数据鉴定GBM的有教益的亚型。利用IPA的优势是它们提供拷贝数、表达和基因之间已知相互作用的概述，并因而可以提供用于说明有意义的患者亚组的、更有力的特征。我们首先测定在GBM样本中至少被适度再次激活的所有IPA，发现在229样本中的至少75个中，1,755个实体具有 0.25的IPA。我们将这些实体的所有IPA收集在活性矩阵中。然后，样本和实体通过非中心皮尔森相关性和形心连接利用分级聚类进行聚类(图8)。

视觉检查揭示基于IPA的四个明显的亚型，其中第四个亚型明显与前三个不同。第四个聚簇显示HIF-1-α转录因子网络的明显下调以及E2F转录因子网络的过表达。HIF-1-α是主转录因子，其参与对缺氧条件应答的调节。相反地，前三个聚簇中的两个具有提高的EGFR特征和失活MAP激酶级联，其参与GATA白细胞介素转录级联。有趣地，EGFR中的突变和扩增与高级神经胶质瘤以及恶性胶质瘤有关(Kuan CT,Wikstrand CJ,Bigner DD.EGFmutant receptor vIII as a molecular target in cancertherapy.Endocr.Relat.Cancer 2001Jun.；8(2):83-96)。通过二聚物的自我激励或通过配体-独立性激活，扩增和某些突变可以产生构成型活性EGFR。 EGFR的构成型活化可以促进肿瘤发生和实体肿瘤的发展。吉非替尼——已知靶向 EGFR的分子——现在正被研究其在其它EGFR-驱动癌症中的功效。因此，在质量上，聚簇似乎深入(honing)可以对患者分级的生物学上有意义的主题中。

为了量化这些观察，我们想知道由PARADIGM鉴定的不同GBM亚型是否与不同存活概况一致。通过绘制存活患者的比例对比初始诊断后的月数，我们计算四个聚簇中每一个的Kaplan-Meier曲线。我们绘制四个聚簇中每一个的 Kaplan-Meier存活曲线，以了解是否与不同IPA特征有关的任何聚簇对于存活结果是可预测的(图9)。第四个聚簇明显不同于其它聚簇(P<2.11×10^-5；Cox比例风险检验)。前三个聚簇中有一半的患者存活超过18个月；存活率对于聚簇4患者明显提高，其中一半存活超过30个月。另外，在20到40个月的范围内，聚簇4中的患者是其它聚簇中的患者存活可能性的两倍。

实施例XII：聚簇的Kaplan-Meier存活图

存活率分析揭示，聚簇4中的患者具有明显更好的存活概况。发现聚簇4具有E2F的上调，其与成视网膜细胞瘤肿瘤抑制剂起作用。因此，E2F的上调与聚簇4患者的肿瘤样本中细胞周期发展的活性抑制一致。另外，聚簇4与HEF-1-α 转录因子的失活有关。第四聚簇中的失活可以是肿瘤被更多氧化的标记，表明它们可能是更小或更新的肿瘤。因此，PARADIGM IPA提供有意义的概况集合，用于描绘具有明显不同存活结果的亚型。

为了比较，我们还尝试仅利用表达数据或CNA数据来聚类患者，以推导患者亚型。利用任意一种这些数据源均没有从聚类中发现明显的组，这与在该数据集的原始TCGA分析中的发现一致(TCGA:2008)(见图14)。这表明，基因之间的相互作用和所得单个基因表达的组合输出信息可以提供作为患者结果的这种复合体表型的更好的预测者。

实施例XIII：卵巢癌的集成基因组分析：样本和临床数据。

该报告涵盖对489个临床上注释的II-IV阶段HGS-OvCa和相应的正常DNA 的分析。患者反映被诊断患有HGS-OvCa的个体的诊断时的年龄、阶段、肿瘤级别和手术结果。临床数据是2010年8月25日的当前数据。HGS-OvCa样本在*** 治疗前被经手术切除，但所有患者均接受铂剂和94％接受紫杉烷。同龄组的中位无进展存活率和总存活率类似于之前公布的试验11、12。25％的患者保持没有疾病和45％在最后随访时存活，而31％在完成基于铂的疗法后的6个月内发展。中位随访为30个月(范围从0到179)。用于TCGA分析的样本被选择具有>70％肿瘤细胞核和<20％坏死。

在独立位点利用多分子检验完成协调分子分析，如表4中两个等级(tier)中所列(数据可以在http://tcga.cancer.gov/dataportal获得)。等级1数据集是公开可得的，而等级2数据集包括可以鉴定个体的临床或基因组信息，因而需要如在 http:// tcga.cancer.gov/dataportal/data/access/closed/中所描述的资格。

实施例XIV：突变分析。针对分离自316个HGS-OvCa样本和每个个体的匹配的正常样本的DNA进行外显子捕获和测序。捕获试剂靶向～18,500个基因的～180,000个外显子，总计～33兆碱基的非冗余序列。在Illumina GAIIx平台上(236 个样本对)或ABI SOLiD 3平台上(80个样本对)进行大规模平行测序，每样本产生～14千兆碱基(总计～9×10⁹碱基)。平均，76％的编码碱基在肿瘤和匹配的正常样本中均被足够深地覆盖，以允许可靠的突变检测。注释了19,356个体细胞突变(每个肿瘤～61)，其在表4中被分类。在HGS-OvCa病理生理学中可能重要的突变通过如下被鉴定：(a)搜索相对于背景以明显提高的频率存在的非同义或剪接位点突变，(b)比较该研究中的突变与COSMIC和OMIM中的那些，和(c)预测对蛋白质功能的影响。

两种不同的算法鉴定了9个基因(表5)，其非同义或剪接位点突变的数目明显高于基于突变分布模型所预期的。与公布的结果13一致，TP53在316个样本的 303中发生突变(283通过自动化方法和20在人工检查后)，BRCA1和BRCA2分别在9％和8％的例子中具有种系突变，它们在另外3％的例子中均显示体细胞突变。鉴定6个其它统计学上再发生的突变基因；RB1、NF1、FAT3,CSMD3、GABRA6 和CDK12。CDK12包含在RNA剪接调节14中，并之前牵连在肺和大肠肿瘤15、 16中。9个CDK12突变中的5个是无义的或***/缺失缺失，表明可能丢失功能，而四个错义突变(R882L、Y901C、K975E和L996F)聚集在其蛋白质激酶结构域中。GABRA6和FAT3均随着明显的突变而出现，但是似乎并不在HGS-OvCa或输卵管组织中表达，所以这些基因的突变在HGS-OvCa中发挥重要作用较不可能。

将该研究中的突变与COSMIC 17和OMIM 18数据库中的突变进行比较，以鉴定通常较少突变的、另外的HGS-OvCa基因。这分别产生477个和211个配对，包括BRAF(N581S)、PIK3CA(E545K和H1047R)、KRAS(G12D)和NRAS(Q61R) 中的突变。已经表明这些突变显示转化活性，所以，我们相信这些突变是HGS-OvCa 中稀有而重要的驱动者。

我们结合蛋白质家族的序列比对的进化信息和脊椎动物全基因组，预测了居局部蛋白质结构，并选择人SwissProt蛋白质特征，在已知癌基因中的突变和肿瘤抑制剂上进行训练后利用CHASM 19、20鉴定假定的驱动突变。CHASM鉴定了被预测为致癌的122个错义突变。通过比较蛋白质家族序列比对和利用突变评价器(Assessor)在已知或基于同源的三维蛋白质结构中的残基替换，从所有确定的体细胞错义突变的进化信息中推断蛋白质功能中的突变-驱动变化。27％的错义突变被预测为影响蛋白质功能。

实施例XV：拷贝数分析。

489个HGS-OvCa基因组中存在的体细胞的拷贝数变化(SCNA)被鉴定，并与图37A中的多形性成胶质细胞瘤(glioblastome multiforme)数据进行比较。将SCNA 分成影响延伸的染色体区域的区域异常和较小的病灶性异常。对于区域异常的统计学分析鉴定8个再发生的获得(gain)和22个丢失(loss)，其均在之前被报道过22 (图37B)。5个获得和18个丢失发生在50％以上的肿瘤中。

GISTIC被用于鉴定再发生的病灶性SCNA。这产生63个病灶性扩充区域(图 37C)，包括编码8个或更少基因的26个区域。最常见的病灶性扩充编码CCNEl、 MYC和MECOM(图37C)，其均在20％以上的肿瘤中被高度扩增。HGS-OvCa中新紧密定位的扩增峰编码以下的受体：激活的C-激酶，ZMYND8；p53目标基因， IRF2BP2；DNA-结合蛋白抑制剂，ID4；胚胎发育基因，PAX8；和端粒末端转移酶催化亚单位，TERT。三个数据源：http://www.ingenuity.com/,http://clinicaltrials.gov和http://www.drugbank.ca被用于鉴定扩增的过表达基因的可能的治疗抑制剂。该搜索鉴定22个基因，其是治疗靶，包括在至少10％的例子中扩增的MECOM、MAPK1、 CCNEl和KRAS。

GISTIC也鉴定50个局灶性缺失。已知肿瘤抑制基因PTEN、RB1和NF1位于至少2％肿瘤的纯合子缺失的区域中。重要的是，RB1和NF1也属于明显突变的基因。一个缺失仅包括三个基因，包括必要细胞周期控制基因，CREBBP，其具有5 个非同义和2个移码突变。

实施例XVI：mRNA和miRNA表达和DNA甲基化分析

从三个不同平台(Agilent、Affymetrix HuEx、Affymetrix U133A)的11,864个基因的表达测量结果被结合，用于亚型鉴定和结果预测。单个平台测量结果具有有限的、但统计学上显著的批量效应，然而结合的数据集合没有。对结合数据集的分析鉴定～1,500固有的可变基因，其被用于NMF一致聚类。该分析产生四个聚簇 (图38a)。应用于Tothill等的公众可得的数据集的相同分析方法也产生四个聚簇。 Tothill和TCGA聚簇的比较显示明显的相关性。我们因此推断至少四个强表达亚型存在于HGS-OvCa中。

根据聚簇中的基因含量和之前的观察25，我们将四个HGS-OvCa亚型称为免疫反应性亚型、分化亚型、增殖亚型和间充质亚型。T细胞趋化因子配体，CXCL11 和CXCL10和受体，CXCR3表征免疫反应性亚型。转录因子诸如HMGA2和SOX11 的高表达、卵巢肿瘤标记(MUCl、MUC16)的低表达和增殖标记诸如MCM2和PCNA 的高表达限定增殖亚型。分化亚型与MUC16和MUCl的高表达和与分泌输卵管标记SLPI的表达有关，表明发育的更成熟阶段。暗示增加的基质成分诸如肌成纤维细胞(FAP)和微血管周细胞(ANGPTL2、ANGPTL1)的HOX基因和标记的高表达表征间充质亚型。

提高的DNA甲基化和降低的肿瘤表达暗示与输卵管对照26相比在 HGS-OvCa中被表观遗传沉默的168个基因。DNA甲基化与所有样本中降低的基因表达有关。AMT、CCL21和SPARCL1是值得注意的，因为它们在大部分肿瘤中显示启动子超甲基化。难以理解的是，RAB25——之前被报道在卵巢癌中被扩增和过表达——也似乎在肿瘤亚集中被表观遗传沉默。BRCA1启动子在489个肿瘤中的56个(11.5％)中被超甲基化和沉默，如之前报道的。肿瘤中的可变DNA甲基化的一致聚类鉴定四种亚型，其明显与年龄、BRCA失活事件和存活率差异有关。然而，聚簇仅显示适度的稳定性。

对于TCGA数据集中的转录亚型，存活持续时间并不明显不同。增殖组显示 MYC扩增和RB1缺失速率的下降，然而，免疫反应性亚型显示3q26.2(MECOM) 扩增的频率提高。注意到DNA甲基化聚簇和基因表达亚型之间中等而明显的重叠 (p<2.2*10-16，卡方检验、调整后的兰德指数(Adjusted Rand Index)＝0.07)。

利用来自215个样本的表达数据集合限定预测总存活率的193个基因的转录特征。在单变量Cox回归分析之后，108个基因与差的存活率有关和85个与好的存活率有关(p-值截止为0.01)。针对255个TCGA样本的独立集合以及三个独立表达数据集合25、29、30验证预测能力。每一确定样本被指定预后基因分数，反映其表达概况和预后基因特征31之间的相似性(图38c)。该特征的Kaplan-Meier存活分析显示与所有确认数据集合中存活率的统计学上显著的相关(图38d)。

miRNA表达数据的NMF一致聚类鉴定三个亚型。有趣的是，miRNA亚型1 与mRNA增殖亚型重叠和miRNA亚型2与mRNA间充质亚型重叠(图38d)。存活持续时间在iRNA亚型之间明显不同，其中miRNA亚型1肿瘤中的患者存活明显更长(图38e)。

实施例XVII：影响疾病的途径。

若干分析从316个充分分析的例子中集成数据，以鉴定有助于HGS-OvCa的生物学。对已知癌相关途径具有一个或多个突变、拷贝数变化或基因表达变化的频率的分析显示RBI和PI3K/RAS途径分别在67％和45％的例子中被下调(图39A)。利用HotNet33在大的蛋白质-蛋白质相互作用网络32中搜索改变的子网络鉴定若干已知途径，包括Notch信号转导途径，其在23％的HGS-OvCa样本中被改变(图 39B)。

公布的研究已经显示，具有突变或甲基化的BRCA1或突变的BRCA2的细胞具有有缺陷的同源重组(HR)，并对PARP抑制剂35-37高度应答。图39C显示， 20％的HGS-OvCa在BRCAl/2中具有种系或体细胞突变、11％通过DNA超甲基化已经失去BRCA1表达和BRCA1的表观遗传沉默彼此不包含BRCAl/2突变(P＝ 4.4×10-4，Fisher精确检验)。对BRCA状况的单变量存活分析(图39C)显示BRCA 突变例子比BRCA野生型例子更好的总存活率(OS)。有趣的是，表观遗传沉默的 BRCA1例子显示类似于BRCAl/2WT HGS-OvCa的存活率(中值OS41.5v.41.9月， P＝0.69，对数秩检验)。这表明，BRCA1通过彼此独有的基因组和外基因组机制被失活和患者存活率取决于失活机制。在该研究中发现的其它HR基因——可能导致细胞对PARP抑制剂敏感——中的基因组变化包括EMSY的扩增或突变(8％)、PTEN的局灶性缺失或突变(7％)；RAD51C的超甲基化(3％)、ATM/ATR的突变(2％) 和范康尼贫血基因的突变(5％)。总的来说，HR缺陷可以存在于大约一半的 HGS-OvCa中，为靶向肿瘤这些HR相关异常的PARP抑制剂的临床试验提供基础。

全部BRCA失活事件的集合与所有再次改变的拷贝数峰值的比较揭示在具有 BRCA失活的例子中意想不到的低频率的CCNE1扩增(8％的BRCA改变的例子具有CCNE1扩增对比26％的BRCA野生型例子，FDR调整的P＝0.0048)。如之前报道的39，与所有其它例子相比，总存活率对于具有CCNE1扩增的患者趋于更短 (P＝0.072，对数秩检验)。然而，当仅考虑BRCA野生型例子时，CCNE1-扩增的例子没有存活优势(P＝0.24,对数秩检验)是显而易见的，表明之前报道的CCNE1 存活差异可以通过BRCA-突变的例子的更好存活率来解释。

最后，概率图模型(PARADIGM40)搜索在NCI途径相互作用数据库——鉴定 FOXM1转录因子网络(图39D)在87％的例子中明显改变——中改变的途径。 FOXM1和其增殖相关目标基因；AURB、CCNB1、BIRC5、CDC25和PLK1一致地被过表达，但未通过DNA拷贝数变化而被改变，指示转录调节。TP53在在DNA 损坏42后阻抑FOXMl，表明在HGS-OvCa中高速率的TP53突变有助于FOXMl 过表达。在其它数据集中，FOXMl途径在肿瘤中相对于邻近上皮组织中被明显激活，并与HGS-OvCa相关。

实施例XVIII：浆液性卵巢癌中频繁改变的途径

为了通过对拷贝数和基因表达的集成分析来鉴定明显改变的途径，我们应用PARADIGM。计算模型结合拷贝数变化、基因表达数据和途径结构来产生途径数据库中存在的每一基因、复合体和遗传过程的集成途径活性(IPA)。我们使用术语 “实体”来指代途径中的任何分子，其可以是基因、复合体或小分子。实体的IPA 仅指最终活性。对于基因，IPA仅指对蛋白质活性状态的推测的活性，其由途径中其它基因的拷贝数、基因表达和信号转导来推断。我们将PARADIGM应用到卵巢样本中，发现美国国家癌症研究所的途径相互作用数据库(NCI-PID)中包含的途径中许多不同基因和过程中的变化。我们利用1000次随机模拟来评估推断的变化的显著性，在所述随机模拟中使用具有相同结构的途径但任意基因被指定在途径中的不同点处。换言之，给定途径的一次随机模拟保持相互作用的集合固定，以便任意基因集合与途径的相互作用联系在一起。针对相同的零分布评估所有样本的IPA的显著性，以获得每一样本中每一实体的显著性水平。IPA和其中它们是显著的样本百分比以及标准差至少为0.1的IPA显示为图28中的热图。

表3显示相对于由PARADIGM发现的置换样本通过至少三个标准差改变的途径。FOXMl转录因子网络在所有测试途径间的最大数目的样本中被改变——当在样本中取平均值时，67％的实体具有改变的活性。相比较，在卵巢同龄组中具有次最高水平的改变活性的途径包括PLK1信号转导事件(27％)、极光B信号转导(24％) 和血栓烷A2受体信号转导(20％)。因此，在NCI-PID的途径中，FOXMl网络就卵巢样本而言比其它途径具有明显更高的改变活性。

发现肿瘤样本与正常对照相比，FOXMl转录因子网络在最高比例的患者样本中被差别改变(图29)。FOXMl是多功能转录因子，具有三种已知的显性剪接形式，每一种均调节在细胞增殖和DNA修复中具有各种作用的不同的基因亚集。FOXMl c同种型直接调节在细胞增殖中具有已知作用的若干目标，包括AUKB、PLK1、 CDC25和BIRC5。另一方面，FOXMlb同种型调节完全不同的基因亚集，所述基因亚集包括DNA修复基因BRCA2和XRCCl。由ATM间接控制的CHEK2直接调节FOXMl表达水平。

我们想知道FOXMl转录因子本身的IPA是否相比其它转录因子的IPA被高度改变。我们比较FOXMl的活性水平与NCI-PID中的所有其它203个转录因子的活性水平。甚至与NCI集合中的其它转录因子进行比较，FOXMl转录因子具有明显较高的活性水平(p<0.0001；K-S检验)，进一步表明它可能是重要的特征(图30)。

因为FOXMl也在许多上皮起源的不同正常组织中被表达，所以，我们想知道由PARADIGM鉴定的特征是否是归于被认为在其它组织中正常的上皮特征。为了回答该问题，我们从GEO(GSE10971)中下载了独立数据集，在所述GEO中，输卵管上皮细胞和卵巢肿瘤组织被显微解剖并且基因表达被分析。我们发现，与正常相比，肿瘤样本中的FOXMl水平明显更高，表明FOXMl调节在癌组织中确实被提高超出在正常上皮组织中观察到的(图31)。

由于TCGA卵巢的全部同龄组包含源自高级浆液性肿瘤的样本，我们想知道 FOXMl特征是否对于高级浆液是特有的。我们从其中低级和高级浆液性肿瘤均均被制成转录概况的Etemadmoghadam等(2009)的数据集中获得FOXMl和其若干目标的对数表达。该独立数据证实，FOXMl和其若干目标在浆液性卵巢中相对于低级卵巢癌被明显上调(图32)。为了确定FOXMl转录因子网络中的25个基因是否包含在高级疾病中具有更高表达的明显比例的基因，我们利用Etemadmoghadam 的数据进行学生t-检验。发现基因组中723个基因(5.4％)在高级癌症对比低级癌症中以0.05的显著性水平被明显上调(利用Benjamini-Hochberg方法针对多重检验进行校正)。发现FOXMl网络的基因中有13个(52％)被差别调节，根据超几何检验(P <3.8*10^-l2)，这是相当大的比例。因此，当与基因组中的典型基因的表达比较时， FOXMl网络基因的高表达看起来并不与高级疾病特异关联。

FOXMl在许多不同癌症，包括乳癌和肺癌中的作用已经被很好地证明，但它在卵巢癌中的作用尚未被研究。FOXMl是多功能转录因子，具有三种已知的剪接变体，每一种均调节在细胞增殖和DNA修复中具有各种作用的不同基因亚集。与该分析有关的FOXMl的相互作用网络的摘录显示在图27中。FOXMla直接调节在细胞增殖中具有已知作用的若干目标，包括AUKB、PLK1、CDC25和BIRC5。相反地，FOXMlb同种型调节完全不同的基因亚集，所述基因亚集包括DNA修复基因BRCA2和XRCCl。由ATM间接控制的CHEK2直接调节FOXMl的表达水平。除了在大部分卵巢患者中提高的FOXMl表达之外，小的亚集也具有通过CBS 检测的、提高的拷贝数扩增(在测量的基因组中，所有基因的前5％分位数中19％具有拷贝数增加)。因此，FOXMl的可变剪接调整可以参与DNA修复和细胞增殖之间的控制转换。然而，在这一点上，数据不足以支持该主张，因为区分同种型的外显子结构和外显子阵列探针的位置使其难以区分单个同种型活性。将来对这些样本的mRNA进行高通量测序可以帮助确定FOXMl同种型的差异水平。 PARADIGM检测以该转录因子为中心的最高水平的改变活性的观察表明，FOXMl 存在于细胞中的关键调节点处。

实施例XIX：数据集合和途径相互作用

拷贝数和表达数据均被结合到PARADIGM推断中。因为具有8个正常组织对照的集合可以应用在表达数据中进行分析，所以通过减去在正常法娄皮欧对照中观察到的基因中值水平，每一患者的基因-值被归一化。拷贝数数据被归一化，以反映肿瘤中检测的基因水平对比正常血液(blood normal)的之间的拷贝数差异。为了输入到PARADIGM中，表达数据取自用于亚型分析的相同集成数据集，并且，拷贝数取自MSKCC Agilent 1M拷贝数数据的分段调用(segmented calls)。

途径的集合获自NCI-PID，其包含131个途径、11,563个相互作用和7,204个实体。实体是分子、复合体、小分子或在PARADIGM的图形模型中表示为“节点” 的抽象概念。抽象概念对应于一般的细胞过程(诸如“凋亡”或“光吸收”)和共有功能活性的基因家族诸如信号转导蛋白的RAS家族。我们收集相互作用，包括蛋白质-蛋白质相互作用、转录调节相互作用、蛋白质修饰诸如磷酸化和泛素化相互作用。

实施例XX：在途径背景中集成分子活性的推断。

我们使用PARADIGM，其指定反映每一实体的拷贝数、基因表达和途径背景的集成途径活性(IPA)。

利用基因-和患者-特有的数据剖面(cross-section)的置换评估IPA的显著性。通过随机选择基因组中每一基因的基因表达和拷贝数对的值产生1000个“零”患者的数据。为了评估PARADIGM IPA的显著性，通过指定随机基因给途径同时保留途径结构，我们建立了零分布。

实施例XXI：FOXMl途径的鉴定

虽然FOXMl网络中的所有基因均被用于在随机模拟过程中评估统计学显著性，但为了使FOXMl途径可视化，与根据图29具有明显改变的IPA的FOXMl 直接连接的实体被选择包含在图27中。在这些之中，发现对于与FOXMl相互作用具有文献支持的、在DNA修复和细胞周期控制中具有作用的基因被展示。BRCC 复合体成员——未在原始NCI-PED途径中被发现——与BRCA2一起被包含在绘图中，根据NCI-PID，所述BRCA2是FOXMl的靶。通过寻找其它NCI途径中 CHEK2的上游调节子(例如，在PLK3信号转导途径中发现与ATM的间接连接)，鉴定上游DNA修复靶。

实施例XXII：聚类

推断的活性——表示活性概率的变化而不是直接表示活性——的应用使得各种类型的实体被一起聚类到一个热图中。为了整体显示PARADIGM推断的结果，使用艾森聚簇3.0来执行特征过滤(feature filtering)和聚类。0.1的标准差过滤导致 7204个途径实体中的1598个保留，并且，对实体和样本均执行平均联结(average linkage)、非中心相关分级聚簇。

实施例XXIII：细胞系模拟许多重要的肿瘤亚型和特征。

用于鉴定临床相关的分子应答预测物的细胞系的有用性取决于决定在肿瘤中应答的不同分子机制在细胞系中有效的程度。我们之前同时以转录和基因组拷贝数水平9报道了细胞系模型和原发性肿瘤之间的相似性，并且，我们利用更高分辨率平台和分析技术改进本文中的这种比较。尤其地，我们应用基因表达概况的分级一致聚类(HCC)来将50个乳癌细胞系和5个非恶性***细胞系分类成三个转录亚型：腔、基底和新描述的密蛋白-低(图14A)。这些亚型是本文较早描述的改进形式，其中，基底和密蛋白-低分别映射到之前指定的基底A和基底B亚型，表 7。改进的高分辨率SNP拷贝数分析(图14B)确认，细胞谱系模拟在原发性肿瘤中发现的8q24(MYC)、1lql3(CCND1)、17ql2(ERBB2)、20ql3(STK15/AURKA)处的再发生扩增的区域和在9p21(CDKN2A)的纯合缺失。考虑到由曲妥珠单抗和拉帕替尼疗法测定的ERBB2肿瘤亚型的临床相关性，我们检查细胞系，其具有作为被指定为ERBB2^AMP的特定亚型的ERBB2的DNA扩增。总的来说，我们对腔、基底、密蛋白-低和ERBB2^AMP细胞系的鉴定与临床生物学一致。

实施例XIX：细胞系显示对大部分治疗化合物的差异灵敏性。

我们检查我们的细胞系组对77个治疗化合物的灵敏性。我们使用细胞生长分析，其中定量终点(quantitative endpoint)在以9种浓连续3天暴露于每一种剂之后被测量。测试的抗癌化合物包括常规细胞毒性剂(例如，紫杉烷、顺铂、蒽环类抗生素(anthracyline))和靶向剂(例如，SERM和激酶抑制剂)的混合。在许多情况下，若干剂靶向相同的蛋白质或分子作用机制。我们确定对于每一化合物的应答的定量测量为抑制生长50％(命名为GI₅₀)所需的浓度。在潜在的生长数据质量高但未达到50％抑制的情况下，我们将GI₅₀设置成测试的最高浓度。所有化合物的GI₅₀值提供在表8中。我们在进一步分析中排除三个化合物(PS1145、西妥昔单抗 (cetuximab)和黄芩苷元)，因为在细胞系应答中的可变性最小。

阐明对Sigma AKT1-2抑制剂应答的变化以及有关转录亚型的代表性瀑布图显示在图10A。对该化合物的灵敏性在腔和ERBB2^AMP中最高，而在基底和密蛋白- 低乳癌细胞系中较低。显示所有化合物在细胞系中的GI₅₀值分布的瀑布图提供在补充附录中。通过以3或4次重复计算229个化合物/细胞系组合的GI₅₀值的中值绝对偏差，我们确定全部数据集合的再现性。在这些重复中，中值平均偏差为0.15 (图15)。通过计算GI50值集合之间的成对皮尔逊相关性，我们评估对8种化合物应答的一致性(图15B)。具有相似作用机制的成对药物的敏感性高度相关，表明相似的作用方式。

实施例XX：许多化合物在细胞系亚集中优先有效。

该研究的重要前体是在应答和临床前细胞系分析中观察的分子亚型之间的关联将在临床中在其中细胞系中的预测分子特征反映在人肿瘤中的实例中重现。通过利用非参数ANOVA比较转录和基因组学亚型中的GI50值，我们建立了应答- 亚型关联。

总的来说，74个测试化合物中的33个显示转录亚型特异性应答(FDR p<0.2，表7和表9)。图10C显示与腔、基底、密蛋白-低和ERBB2^AMP亚型中的一个或多个有明显联系的34种剂的分级聚类。与亚型最强相关的11种剂是受体酪氨酸激酶信号转导和组蛋白脱乙酰酶的抑制剂，并且在腔和/或ERBB2^AMP细胞系中具有最高的功效。三个次最亚型特异性剂——依托泊苷、顺铂和多西紫杉醇——在基底和/或密蛋白-低细胞系中显示优先的活性，如在临床中观察到的。靶向有丝*** 器的剂，包括伊沙匹隆、GSK461364(polo激酶抑制剂)和GSK1070916(极光激酶抑制剂)针对基底和密蛋白-低细胞系也更有活性。AG1478、BIBW2992和吉非替尼——其均靶向EGFR和/或ERBB2——与ERBB2扩增正相关。格尔德霉素，一种HSP90的抑制剂，也与ERBB2扩增正相关。有趣的是，VX-680(极光激酶抑制剂)和CGC-11144(聚胺类似物)均与ERBB2扩增负相关，表明这些对于ERBB2^AMP肿瘤是相对差的治疗方法。

我们鉴定应答和再发生的局灶性高水平拷贝数异常之间的7个关联(6种独特化合物)(CAN；样本t-检验，FDR p<0.2，表10)。图10D显示(a)在9p21(CDKN2A 和CDKN2B)处的纯合缺失与对长春瑞宾,伊沙匹隆和fascalypsin的应答有关。 Fascalypsin抑制CDK4，并且，这种特异性与CDKN2A的pl6^INK4A产物在抑制 CDK4²⁰中的作用一致。(b)在20ql3(其编码AURKA)处的扩增与对靶向AURKB和 AURKC²³的GSK1070916和VX-680的抵抗而不是灵敏性有关。这表明，AURKA 的扩增提供AURKB和AURKC抑制剂的旁路机制。(c)在1lql3(CCND1)处的扩增与对卡铂和AURKB/C抑制剂GSK1070916的灵敏性有关。

实施例XXI：亚型特异性支配生长速率作用。

一般，我们发现腔亚型细胞系比基底或密蛋白-低细胞生长更慢(Kruskal-Wallis检验，p＝0.006，图16A和表7)，并且，倍增时间的范围较宽(18到300个小时)。这提高大部分灵敏性细胞系是生长最快速的那些的可能性。如果是这样，那么观察的与亚型的关联性可以表示与变量的关联性。通过利用协方差分析(ANCOVA) 同时评估亚型和倍增时间的作用，我们检测该假设，发现33个亚型特异性化合物中的22个与亚型比与倍增时间具有更好的关联性(p-值的平均对数比＝0.92，标准差1.11)。这支持亚型成员资格(membership)与生长速率相比是应答的更好的预测物的观点。此外，33个亚型特异性化合物中的15个在更缓慢生长的腔细胞系中更有效(表7)。一种剂，5-氟尿嘧啶，在单独的亚型检测中不显著，但在ANCOVA模型中对于类型和倍增时间均显示强的显著性。对5-氟尿嘧啶的应答在腔和基底细胞系中均随倍增时间增加而降低(图16B)。我们推断，在大部分情况下，3-天生长抑制分析检测未被生长速率强烈影响的分子特征-特异性应答。

实施例XXII：拷贝数和转录测量结果的集成鉴定亚型特异性应答的途径。

我们应用网络分析工具PARADIGM²⁴鉴定细胞系组中亚型之中途径活性的差异。通过策划的途径部分重叠的事实来完成分析。例如EGFR，PI3激酶和MEK 在实际上它们是单一较大途径的成分时常常被策划作为单独的途径。为了解决该问题，PARADIGM将大约1400个策划的信号转导、转录和代谢途径合并成单个叠加的途径(超途径)，以消除这种冗余。同时利用特定细胞系的拷贝数和基因表达数据，PARADIGM应用途径相互作用来推断每一基因、复合体和细胞过程的集成途径水平(IPL)。

我们通过其途径活化利用PARADIGM IPL比较细胞系与原发性***肿瘤。利用通过癌症基因组图谱(TCGA)项目(http://cancergenome.nih.gov)产生的数据进行细胞系-肿瘤数据的比较。图11显示每一肿瘤和细胞系在分级聚类之后的途径活性。每一亚型的前5个途径特征列于表11中。总的来说，肿瘤和细胞系亚型显示类似的途径活性，并且，被下调的途径与转录亚型比原来更好地相关联(图13)。然而，与密蛋白低细胞系亚型有关的途径在肿瘤中未被很好地表现——这可能是由于密蛋白-低亚型在细胞系集合中过表达和腔A亚型缺失(图12)。

实施例XXIII：鉴定亚型特异性途径标记。

我们想知道内在途径活性是否是否构成亚型之间差异的基础。为此，我们鉴定超途径的子网络，所述超途径包含在一个亚型的细胞系中与其余相比被差异上调或下调的基因活性。基底细胞系和集合中其余的之间的途径活性的比较鉴定这样的网络，其由通过941条矢线连接的965个节点组成，其中节点表示蛋白质、蛋白质复合体或细胞过程，矢线表示这些元素之间的相互作用诸如蛋白质磷酸化 (见图18-22)。图35A显示与增殖、血管发生和肿瘤发生有关的MYC/MAX子网络的上调；和控制细胞周期、黏附、侵入和巨噬细胞活化的ERK1/2子网络的上调。 FOXMl和DNA损坏子网络在基底细胞系中也被显著上调。密蛋白-低亚型与所有其它的比较显示许多与基底细胞系中相同的子网络的上调，以及一些例外，包括与基底细胞相比β-联蛋白(CTNNB1)网络在密蛋白低细胞系中的上调(图35B)。β- 联蛋白已经涉及肿瘤发生，并与差的预后有关。腔细胞系与所有其它的比较显示 ATF2网络的下调，这抑制黑素瘤中的致瘤性，和控制ER-调节的基因的转录和牵涉好的预后腔乳癌的FOXA1/FOXA2网络的上调(图35C)。ERBB2^AMP细胞系与所有其它的比较显示对于腔细胞常见的许多网络特征——这并不奇怪，因为大部分ERBB2^AMP细胞也被分类为腔细胞。然而，图35D显示在ERBB2^AMP细胞系中以RPS6KBP1为中心的下调。

利用IPL在细胞系之中进行的差别药物反应的比较分析揭示途径活性，其提供关于应答机制的信息。例如，基底细胞系优先对顺铂、DNA破坏剂敏感，并且也显示DNA-损坏应答子网络的上调，所述子网络包括ATM、CHEKl和BRCA1、与对顺铂³⁴的应答有关的关键因素(图36A)。类似地，ERBB2^AMP细胞系对格尔德霉素——HSP90的抑制剂——敏感，并在ERBB2-HSP90子网络中也显示上调(图 36B)。该观察与格尔德霉素的作用机制——它结合ERBB2，导致其降解——一致。我们发现，ERBB2^AMP细胞系抵抗极光激酶抑制剂VX-680和进一步发现对该化合物的灵敏性与在20q13(AURKA)处的扩增无关。这提高该抵抗能够通过CCNB1介导的可能性，所述CCNB1与AURKB通过FOXM1共调节。在我们的四种亚型中，ERBB2^AMP是显示CCNB1的实质下调的唯一一种亚型(图22A-22C)。这种主张的机制得到在原发性肿瘤中CCNB1基因表达与AURKB基因表达显著相关的观察结果的支持。

实施例XXIV：细胞生长抑制分析和生长速率

我们评估了77种化合物在我们的55个乳癌细胞系组中的功效。该分析如之前描述地被执行(Kuo,W.L.等,A systems analysis of the chemosensitivity of breastcancer cells to the polyamine analogue PG-11047.BMC Med 7,77,doi:1741-7015-7-77 [pii]10.1186/1741-7015-7-77(2009))。简言之，用每种化合物的9种以1:5连续稀释的剂量集合来处理细胞达72小时。利用Cell Titer Glo分析测定细胞生存力。通过未处理孔的72h到0h的比例估计倍增时间(DT)。

我们利用非线性最小二乘方使数据与Gompertz曲线拟合，用以下参数：上和下渐近线、斜率和拐点。利用NCI NIH DTP Human Tumor Cell Line Screen Process 描述的和之前描述的方法(Screening Services-NCI-60DTP Human Tumor Cell LineScreen.http://dtp.nci.nih.gov/branches/btb/ivclsp.html.；Monks,A.etal.Feasibility of a high-flux anticancer drug screen using a diverse panel ofcultured human tumor cell lines.J Natl Cancer Inst 83,757-766(1991))将拟合的曲线变换成GI曲线。

我们评估各种应答措施，包括抑制生长达50％(GI₅₀)所需要的化合物浓度、完全抑制生长必需的浓度(总生长抑制，TGI)和减少群体达50％必需的浓度(致死浓度 50％，LC₅₀)。在潜在的生长数据具有高质量但未达到终点应答(GI₅₀、TGI、LC₅₀) 的情况下，将值设置成测试的最高浓度。GI₅₀代表达到的第一阈值，因而包含最精确的测量结果集合。

将药物反应数据拟合，以满足如下标准：1)9个三重数据点中的中值标准差<0.20；2)特定细胞系的中值DT的DT+/-2SD；3)拟合曲线的斜率>0.25；4)最大浓度时的生长抑制<没有明确应答的数据集的50％。大约80％的药物板(drug plate)通过所有的筛选要求。我们使用中值绝对偏差(MAD)——标准差的强大形式 ——来评估我们对GI₅₀重复测量的可靠性。通过自定义编写的R包执行曲线拟合和筛选。

实施例XXV：药物筛选

统计学分析中包含的每一种药物均满足以下数据性质的筛选标准：1)缺失值：不超过40％的GI₅₀值在整个细胞系集合中可以缺失；2)可变性：对于至少3个细胞系，或者GI₅₀>1.5.mGI₅₀或者GI₅₀<0.5.mGI₅₀，其中，mGI₅₀是给定药物的中值GI₅₀。不满足这些标准的化合物从分析中排除。

实施例XXVI：SNP阵列和DNA拷贝数分析

Affymetrix Genome-Wide Human SNP Array 6.0被用于测量DNA拷贝数数据。阵列性质和数据处理利用基于R统计框架(http://www.r-project.org)的aroma.affymetrix执行。乳癌细胞系SNP阵列利用如所述的20个正常样本阵列(Bengtsson,H.,Irizarry,R.,Carvalho,B.&Speed,T.P.Estimation and assessment ofraw copy numbers at the single locus level.Bioinformatics(Oxford,England)24,759-767(2008))归一化。利用bioconductor软件包DNAcopy的循环二元分割(circularbinary segmentation)(CBS)(Olshen,A.B.,Venkatraman,E.S.,Lucito,R.&Wigler,M.Circular binary segmentation for the analysis of array-based DNA copy numberdata. Biostatistics(Oxford,England)5,557-572(2004))来分段数据。利用基于MATLAB的癌症中显著靶标的基因组鉴定(Genomic Identification of Significant Targets inCancer)(GISTIC)(Beroukhim,R.等,Assessing the significance of chromosomalaberrations in cancer:methodology and application to glioma.Proc Natl AcadSci U S A 104,20007-20012(2007))分析明显的DNA拷贝数变化。原始数据可在欧洲基因型档案馆(The European Genotype Archive)(EGA)以登录号EGAS00000000059获得。

为了确保检测明显拷贝数变化的最大机会，我们忽略GISTIC分析中的非恶性细胞系。使用每一同基因细胞系对的一个成员的GISTIC分数来推断另一个中的基因组变化：AU565推断自SKBR3；HCC1500推断自HCC1806；LY2推断自MCF7； ZR75B推断自ZR751。

实施例XXVII：外显子阵列分析

细胞系的基因表达数据推导自Affymetrix GeneChip Human Gene 1.0ST外显子阵列。利用aroma.affymetrix R软件包，通过分位数归一化和基于 "HuEx-_0-st-v2,core"芯片类型的对数加法(log-additive)探针水平模型(PLM)计算对表达的基因水平概述。转录物标识符(Transcript identifier)通过询问Ensembl数据库利用BioMart R软件包被转换成HGNC基因符号。所得表达概况随后被筛选，以仅捕获在所有细胞系中在log₂-规模上表达标准差大于1.0的那些基因。原始数据可从ArrayExpress(E-MTAB-181)得到。

实施例XXVIII：一致聚类

利用分级一致聚类(Monti,S.,Tamayo,P.,Mesirov,J.P.&Golub,T.A. ConsensusClustering:A Resampling-Based Method for Class Discovery and Visualization ofGene Expression Microarray Data.Machine Learning 52,91-118(2003) 鉴定细胞系亚型。利用细胞系的500次取样，每细胞80％的细胞系、凝聚分级聚类、欧几里得距离度量和平均联，结计算一致性。

实施例XXIX：临床相关亚型和对治疗剂应答的联系

我们使用三个方案来比较GI50：1)腔对比基底对比密蛋白-低；2)腔对比基底+密蛋白-低；和3)ERBB2-AMP对比非-ERBB2-AMP。根据秩(on the ranks)，组的GI50之间的差异在合适的时候通过非参数ANOVA或t-检验计算。我们组合三组测试的p-值，并利用错误发现率(FDR)来校正多重检测。对于三样本检测，通过比较每一组与所有其它的以确定哪一组最灵敏，我们对具有明显类别效应的化合物执行事后分析(post-hoc analysis)。事后检验的p-值一起进行FDR-校正。在所有情况下，FDR p<0.20被视为是显著的。如果是这种情况：即，发现基底+密蛋白-低组在方案2中显著，但这些组中只有一组在方案1中显著，那么我们在指定类别特异性时给予3样本例子优先。在R中进行分析。

实施例XXX：基因组变化和对治疗剂的应答之间的联系

我们应用t-检验来评估再发生的拷贝数变化(在8q24(MYC)、llql3(CCND1)、20ql3(STK15/AURKA))和药物敏感性之间的联系。我们组合成一组具有低扩增或不扩增的细胞系，并将它们与具有高扩增的细胞系比较。对于缺失区域进行比较分析。GI50等于测试的最大浓度的细胞系在分析中被忽略。我们忽略其中任意组少于5个样本的化合物。

实施例XXXI：生长速率和对治疗剂的应答之间的联系

为了评估细胞系类别和生长速率对药物灵敏性的影响，我们执行一组双向协方差分析(ANCOVA)检验，上述三个细胞系分类方案中的每一个作一次检验。这产生6组p-值(2个主要影响×3个分类方案)；我们使用单一FDR校正来评估显著性，并公布可能有兴趣的FDR p值<0.20。我们通过函数lm和ANOVA在R中执行这些分析，其可以作为car软件包的一部分获得。

实施例XXXII：集成途径分析

拷贝数、基因表达和途径相互作用数据的集成利用PARADIGM软件执行。简言之，该程序利用来自单一细胞系或患者样本的途径相互作用和基因组和功能基因组数据推断基因、复合体和过程的集成途径水平(IPL)。详见实施例XL。

实施例XXXIII：TCGA和细胞系聚类

我们想知道TCGA肿瘤样本中细胞系的活性推断是否与其各自亚型聚类。为了避免由高度连接的中心(hub)基因和高度相关的活性引起的偏差，利用通过相关性分析(见补充方法)测定的2351个非冗余活性来聚类细胞系和肿瘤样本。利用 Kolmogorov-Smirnov检验计算细胞系与相同亚型的肿瘤样本聚类的程度，以比较从细胞系和相同亚型的肿瘤样本对之间的相关性计算的t-统计量的分布与从不同亚型的细胞系对计算的分布(见补充方法)。详见实施例XLI。

实施例XXXIV：亚型途径标记的鉴定

我们搜索相互连接的基因，其针对特定亚型共同显示差别活性。每一亚型被处理为将细胞系二分成两组：一组包含属于该亚型的细胞系和第二组包含剩余的细胞系。我们应用两因素微阵列显著性分析的R执行(SAM)算法(Tusher,V.G., Tibshirani,R.&Chu,G.Significance analysis of microarrays applied to the ionizing radiationresponse.Proc Natl Acad Sci U S A 98,5116-5121, doi:10.1073/pnas.091062498[pii](2001))来计算超途径中每一概念的差别活性(DA) 分数。对于亚型，与其它细胞系相比，正DA对应于在亚型中较高的活性。

超途径中密切连接的基因的协调上调和下调加强通过PARADIGM推断的活性。如果邻近基因的活性也与特定表型相关，则我们期望发现具有高DA分数的全部子网络。我们鉴定超途径中的区域，其中，高绝对DA的概念通过仅保留连接两个概念——其中两个概念的DA分数均高于平均绝对DA——的那些连接而相互连接。

实施例XXXV：集成途径分析

拷贝数、基因表达和途径相互作用数据的集成利用PARADIGM软件²⁴执行。简言之，该程序利用来自单一细胞系或患者样本的途径相互作用和基因组和功能基因组数据推断基因、复合体和过程的集成途径水平(IPL)。TCGA BRCA数据在 2010年11月7日获自TCGADCC。TCGA和细胞系基因表达数据分别是在每一数据集合中心的中值探针。全部数据集中的所有值(细胞系或TCGA肿瘤样本)在提供给PARADIGM之前被秩变换和转换成-log 10秩比。途径以BioPax Level 2格式获自http://pid.nci.nih.gov/，并包括NCI-PID、Reactome和BioCarta数据库。相互作用被组合成合并的叠加途径(超途径)。基因、复合体和抽象过程(例如，“细胞周期”) 被保留作为途径概念。在合并基因概念之前，将所有基因识别符翻译成HUGO术语。所有相互作用均被包括，并且不试图解决不一致的影响。执行从P53(最连接的分量)开始的广度优先无向遍历(breadth-first undirected traversal)，以建立单一分量(component)。所得合并的途径结构包含总计8768个概念，代表3491个蛋白、 4757个复合体和520个过程。PARADIGM的最大期望参数针对细胞系数据被训练，然后应用到TCGA样本。然后，来自细胞系和肿瘤样本的数据被组成单一数据矩阵。在细胞系或肿瘤样本任意之一的数据中没有高于0.5IPL至少1个值的通路在进一步分析中被排除。

实施例XXXVI：TCGA和细胞系聚类

利用PARADIGM IPL，将细胞系与TCGA肿瘤样本聚类在一起，以确定细胞系是否类似于相同亚型的肿瘤样本。超途径的充分研究的区域包含具有许多相互作用(中心)的基因和不能获得直接数据的许多中间复合体和抽象过程的大的信号转导链。为了避免偏向于中心，在细胞系和肿瘤样本中具有高度相关向量的途径概念(皮尔森相关系数>0.9)在聚类之前被一致化成单一向量。这种一致化从原始的8939个途径概念中产生2351个非冗余向量。

利用所得非冗余概念的集合来聚类样本。47个细胞系和183个TCGA肿瘤样本的推断的途径活性矩阵利用在艾森聚簇软件软件包3.0版中实施的全链分级凝聚聚类(hierarchical agglomerative clustering)进行聚类。非中心皮尔森相关性被用作途径概念的度量，欧几里得距离被用于样本度量。

为了量化细胞系与相同亚型肿瘤样本聚类的程度，我们比较源自皮尔森相关性的t-统计量的两种分布。使C_s为亚型_s的细胞系集合。类似地，使T_s为亚型_s的TCGA肿瘤样本集合。例如，C_基底和T_基底分别是所有基底细胞系和基底肿瘤样本的集合。第一分布由源自含有细胞系和相同亚型肿瘤样本的每一可能的对之间的皮尔森相关性的t-统计量组成；即，对于所有亚型_s，每一成对相关性t-统计量在对(a,b)之间计算，以便a∈C_s和b∈T_s。第二分布由不同亚型细胞系之间的相关性t-统计量形成；即，在(a,b)内进行计算，以便a∈C_s和b∈C_s’和s≠s’。我们执行Kolmogorov-Smirnov检验，以比较分布。

实施例XXXVII：集成途径分析

拷贝数、基因表达和途径相互作用数据的集成利用PARADIGM软件²⁴执行。简言之，该程序利用来自单一细胞系或患者样本的途径相互作用和基因组和功能基因组数据推断基因、复合体和过程的集成途径水平(IPL)。TCGA BRCA数据在 2010年11月7日获自TCGADCC。TCGA和细胞系基因表达数据分别是在每一数据集合中心的中值探针。全部数据集中的所有值(细胞系或TCGA肿瘤样本)在提供给PARADIGM之前被秩变换和转换成-log 10秩比。途径以BioPax Level 2格式在 2010年10月13日获自http://pid.nci.nih.gov/，并包括NCI-PID、Reactome和BioCarta 数据库。相互作用被组合成合并的叠加途径(超途径)。基因、复合体和抽象过程(例如，“细胞周期”)被保留作为途径概念。在合并基因概念之前，将所有基因识别符翻译成HUGO术语。所有相互作用均被包括，并且没有试图解决不一致影响。执行从P53(最连接的分量)开始的广度优先无向遍历，以建立单一分量。所得合并的途径结构包含总计8768个概念，代表3491个蛋白、4757个复合体和520个过程。 PARADIGM的最大期望参数针对细胞系数据被训练，然后应用到TCGA样本。然后，来自细胞系和肿瘤样本的数据被组成单一数据矩阵。在细胞系或肿瘤样本任意之一的数据中没有高于0.5IPL至少1个值的任何通路从进一步分析中被排除。

实施例XXXVIII：TCGA和细胞系聚类

利用PARADIGM IPL，将细胞系与TCGA肿瘤样本聚类在一起，以确定细胞系是否类似于相同亚型的肿瘤样本。超途径的充分研究的区域包含具有许多相互作用(中心)的基因和不能获得直接数据的许多中间复合体和抽象过程的大的信号转导链。为了避免偏向于中心，在细胞系和肿瘤样本中具有高度相关的向量的途径概念(皮尔森相关系数>0.9)在聚类之前被一致化成单一向量。这种一致化从原始的8939个途径概念中产生2351个非冗余向量。利用所得非冗余概念的集合来聚类样本。47个细胞系和183个TCGA肿瘤样本的推断的途径活性矩阵利用在艾森聚簇软件软件包3.0⁴⁵版中实施的全链分级凝聚聚类被聚类。非中心皮尔森相关性被用作途径概念的度量，欧几里得距离被用于样本度量。

实施例XXXIX：各种遗传分子水平的肿瘤分子亚型

对***肿瘤进行的全基因组基因表达分析的开拓性研究用临床结果中的差异(14Sorlie,T.等,(2001),Gene expression patterns of breast carcinomasdistinguish tumor subclasses with clinical implications,98:10869-10874)已经鉴定了不同的亚类，其最显著地属于***受体(ER)阴性基底细胞样和ER阳性腔亚组(Perou,C.M.等, (2000),Molecular portraits of human breast tumours,406:747-752)。若干分子亚型的存在也已经通过DNA拷贝数分析(2Russnes等(2007)，同上)、DNA甲基化 (Ronneberg等(2011)，同上)和miRNA表达分析(Enerly等(2011)，同上)被观察。然而，问题是通过在各种新分子水平的分子分析获得的这些新概况重演通过mRNA 表达最初发现的亚类达到什么程度和这些新分类鉴定临床上重要的新患者亚组的潜力如何？为了解决这些问题，我们首先根据每一研究的分子水平(图23)利用无偏、无监督的方法将MicMa数据集的乳癌患者聚类。通过每一分子水平分别聚类患者的柱状图和每一患者亚组的存活KM图显示在图23中。有趣的是，该聚类程序导致鉴定mRNA表达的7个聚簇，其与源自Pam50分类的聚簇高度相关。它与 Pam50一致，但在试验l-4mRNA聚簇之间***腔A聚簇，以及最后三个(试验5-7) 聚簇之间的基底和ERBB2。在miRNA水平，三个不同聚簇如之前在(Enerly等 (2011)，同上)中所述地被获得。在甲基化水平，如所述地观察到三个主要聚簇，并且一个小得多的第四聚簇也被观察到，但在Ronneberg等(2011,，同上)中没有进一步论述。在CAN水平，出现6个不同聚簇。显然，在每一水平，不同的患者聚簇与特定式样的存活率式样有关(图23)。然后，评价相同患者在不同分子水平是否形成相应的聚簇。实际上，不同水平聚类之间存在很大程度的良好一致性，最显著的是在DNA甲基化和mRNA表达和DNA拷贝数之间(表12)。然而，虽然一些样本常常在任何水平聚类在一起，但其它的根据研究中的每个特定分子终点聚类在不同组中。

表12

通过根据另一个聚类对推导自一个分子水平的一个亚类的一致***可以揭示重要的生物学暗示。例如，如在(3)中论述的，虽然基于甲基化和mRNA表达之间良好相关性的分类被观察到(p＝2.29·10-6)，但腔-A类别(通过mRNA表达)仍在两个不同甲基化聚簇之间***。同样应用于基底细胞样肿瘤，表明尽管与mRNA表达聚簇的强协调性，但通过根据DNA甲基化的聚类提供额外的信息。具有不同 DNA甲基化概况的腔A样本在存活率方面不同(3Ronneberg,J.A.等,(2011), Methylation profiling with a panel of cancerrelated genes:association with estrogen receptor,TP53mutation status andexpression subtypes in sporadic breast cancer,5: 61-76)。我们和其它人的越来越多的新数据集在将来会揭示这些聚簇是否会收敛成若干最和许多不太常见的组合。

尽管在不同分子水平进行重新分类值得进一步研究，因为它可以指出影响不同水平的新的感兴趣的生物学途径，但从类别到类别的样本这种水平重新安排的信息内容可能受到限制。考虑每一途径中这些聚簇内差异表达/改变的基因依赖于先验知识和对已知相互作用的选择，并且不能鉴定新的途径。此外，这些方法将不同数据集中的基因和测量结果处理为独立变量，而且，并不考虑基因在途径中的位置或其相互作用伴侣的数目(即，途径的拓扑)，因而易受基因集中一个或少数基因表达的大的波动的影响。通常观察到，特定途径在许多癌症肿瘤中可能被下调，但特定的基因和下调方法在不同肿瘤中不同(Cancer Genome Atlas Research Network.Comprehensive genomic characterizationdefines human glioblastoma genes and core pathways.Nature 2008Oct.；455(7216):1061-1068)。因此，接下来我们应用基于途径的建模方法——模拟针对单一基因的不同数据类型测量结果之间的相互作用以及基因之间的已知相互作用，以在途径和相关数据的背景下表征肿瘤中每一基因的活性水平。我们应用每一基因的集成途径水平(IPL)来根据这些下调的途径直接鉴定和分类患者(在分子数据类型中)，然后研究新聚簇与之前描述的类别在各种分子水平的关系。

实施例XL：用预后显著性(prognostic significance)对浸润性癌症进行分类的PARADIGM

为了理解基因组变化如何干扰可以解释肿瘤表型的、不同生物学功能并使肿瘤易受靶向治疗的影响，我们需要理解在途径水平的干扰。PARADIGM鉴定患者亚集中的一致活性途径，如果以单一水平研究基因，所述途径是不可区分的。方法将从概率图模型(PGM)到集成功能基因组数据的技术应用到已知途径结构上。它之前已被应用于TCGA恶性胶质瘤和卵巢数据集的拷贝数和mRNA表达数据的分析。PARADIGM分析也可用于将多种水平的基因组变化诸如DNA甲基化或拷贝数、mRNA和miRNA表达联系起来，并因而可以集成每一单个样本中的任意数目的数据组学(omics)层。尽管DNA甲基化和miRNA表达有助于在本文中观察的下调的途径，并似乎均以其自身的能力对MicMa同龄组中乳癌的预后和分子概况有贡献(图23)，通过加入这两种分子概况类型，我们没有发现PARADIGM聚簇的预后值的提高。对此，一种解释是miRNA和DNA甲基化分析的预后值通过mRNA 表达被重现，这是由于其高的相关性。然而，这种推断需要进一步分析关于例如，对分析平台(用于甲基化的有限Illumina 1505CpG癌症组)的选择和我们对于真正miRNA靶的有限知识是否可能是限制我们全面测量和有效模拟miRNA和DNA甲基化信息的能力的因素。

基于MicMa同龄组的mRNA表达和拷贝数变化的PARADIGM分析鉴定5个不同聚簇的存在(图24A)，并显示组合mRNA表达和DNA拷贝数就预后而言导致比任意分别研究的分子水平更好地区分患者(图24B和图23)。其干扰最有助于这种分类的途径是血管生成素受体Tie2-介导的信号转导的那些，最显著的是免疫应答(TCR)和白细胞介素信号转导的那些，其中几乎途径中的每一基因或复合体偏离正常(图25A)。最突出的是IL4、EL6、IL12和EL23信号转导。其它突出的途径是内皮素、FoxMl转录，其在卵巢和恶性胶质瘤TCGA数据集和ERBB4中也被下调，并且之前发现在***和卵巢癌中被下调。根据该分析，我们已经鉴定具有明显不同预后的以下患者组，其可以被粗略地表征如下：

pdgm.l＝高FOXM1、高免疫信号转导，

pdgm.2＝高FOXM1、低免疫信号转导、巨噬细胞支配的，

pdgm.3＝低FOXM1、低免疫信号转导，

pdgm.4＝高ERBB4、低血管蛋白信号转导，

pdgm.5＝高FOXM1、低巨噬细胞特征。

对PARADIGM聚簇的鉴定在两个之前公布的数据集中得到确认，一个数据集来自Chin等2007(Chin,S.F.等,(2007),Using array-comparative genomic hybridizationto define molecular portraits of primary breast cancers,26:1959-1970)，其与MicMa数据集比较，具有更高频率的ER-和高级肿瘤，在另一集合中甚至更有趣，其富含非恶性原位管癌(Ductal carcinoma in situ)(12Muggerud,A.A.等, (2010),Moleculardiversity in ductal carcinoma in situ(DCIS)and early invasive breast cancer,4:357-368)(图25B、25C)。纯原位管癌肿瘤的热图显示在图25D 27中。

在MicMa，pdgm.2中具有最差预后的聚簇中，IL4信号转导与STAT6一起被强下调，这已经在人乳癌细胞中被显示来防止生长抑制(16Gooch,J.L.,Christy,B., and Yee,D.,(2002),STAT6mediates interleukin-4growth inhibition in human breast cancercells,4:324-331)。IL4信号转导的下调也促进可以支持较大肿瘤生长的肥大细胞活化(17de Visser,K.E.,Eichten,A.and Coussens,L.M.,(2006),Paradoxical roles of theimmune system during cancer development,6:24-37)。相反地，在pdgm.5 中，巨噬细胞活化被降低，并且天然杀伤细胞活性被提高，这是由于DL23信号转导。一方面，免疫应答朝向Th-2和B细胞补充的癌症依赖性极化，和另一方面， Th-1增殖，已经被论述(1Ursini-Siegel,J.et al.,(2010),Receptor tyrosine kinase signaling favors aprotumorigenic state in breast cancer cells by inhibiting the adaptive immuneresponse,70:7776-7787)。假设在某些条件下Thl/CTL免疫应答可以防止小鼠中超常增生向腺瘤的转变，而Th2应答可以借助于使具有慢性炎症状态而促进向癌症的转变。IL4是Th-2衍生的细胞因子，其刺激B细胞分化和癌细胞中的慢性炎症。此外，Th-2细胞分泌IL10，其介导这些癌症中的免疫抑制。该免疫抑制被显示主要发生在基底和ERBB2癌症中。为了支持该假设，最近已经证明“抗肿瘤获得性免疫程序可以在前-肿瘤微环境中被侵占(usurped)，并反而通过使先天免疫***的细胞成分在功能上参与调节上皮细胞行为而促进恶性肿瘤”(DeNardo, D.G.等,(2009),CD4(+)T cells regulate pulmonarymetastasis of mammary carcinomas by enhancing protumor properties ofmacrophages,16:91-102)。

在这种本文提出的免疫分类和通过mRNA表达(腔A、B、基底、ERBB2、正常样)建立的分类之间存在相当的协调性(图24.属于基底和ERBB2聚簇的样本主要为prgml(较差的预后)、腔A-prgm 3(最佳预后)。然而，范例聚类提供腔A(prgm3) 和腔B(prgm4)聚簇之间相当显著的区别，以及通过非常差的预后鉴定基底肿瘤亚集(prgm2)。

实施例XLI:其干扰特异性影响PARADIGM聚类的鉴定的途径

FOXM1转录。

FOXM1是细胞周期进程的关键调节子，并且，其内源FOXM1表达根据细胞周期的阶段而波动。FOXM1被确认为人原癌基因，其被发现在大多数实体人癌症中被上调，包括肝、***、肺、***、子宫的子宫颈、结肠、胰腺、脑以及基底细胞癌，其是最常见的人癌症。FOXM1被认为通过其在细胞周期和染色体/基因组维持中的多种作用而促进肿瘤发生(Wonsey,D.R.and Follettie,M.T.,(2005), Loss of the forkhead transcriptionfactor FoxM1causes centrosome amplification and mitotic catastrophe,65:5181-5189)。FOXM1在人原代皮肤角质形成细胞中的异常上调可以以杂合性丢失(LOH)和拷贝数异常的形式直接引起基因组不稳定(Teh M, Gemenetzidis E,Chaplin T,Young BD,Philpott MP.Upregulation of FOXM1induces genomic instability in humanepidermal keratinocytes.Mol.Cancer 2010；9:45)。最近的报道显示FOXM1在成年人上皮干细胞中的异常上调在三维器官型组织再生*** 中引起前癌症表型——类似于人超常增生的状况(Gemenetzidis,E.等,(2010), Induction of human epithelial stemprogenitor expansion by FOXMl,70:9515-952)。作者证明FOXMl的过度表达通过干扰分化途径而应用干细胞固有的自我更新增殖潜能，从而扩大祖细胞区室。因而，猜测FOXMl通过干/祖细胞扩张而引起癌症开始。我们清楚地看到两组乳癌患者，其具有该途径的高和低活性，主要根据白细胞介素信号转导活性而患病。图26图解与具有较差存活率的剩余聚簇相反的聚簇 pdgm 3(最佳存活率)的该途径的相对激活形式(被激活的红色对比失活的蓝色)和有助于它的分子水平(根据图的形状，mRNA、CAN、miRNA或DNA甲基化)。可以注意到，MMP2在pdgm3中的下调归于DNA甲基化，而在剩余的肿瘤中，则归于DNA缺失。在miRNA中，已经使7-b在pgm3中被上调和在其余中被下调，与其目标——AURKB互补。DNA扩增和mRNA表达均被视为表达异常的原因。

血管蛋白受体tie2-介导的信号转导。

Ang家族在人癌症发展和生长过程中在血管发生中发挥重要的作用。Ang2在血管发生中的作用通过被认为是Angl的拮抗剂，抑制Angl-促进的Tie2信号转导，这对于血管成熟和稳定化是重要的(23)。Ang2以与另一重要的血管因子——血管内皮生长因子A(VEGFA)合作的方式调节血管发生(Hashizume,H.等,(2010), Complementary actions ofinhibitors of angiopoietin-2and VEGF on tumor angiogenesis and growth,70:2213-2223)。新数据表明Ang2在人癌症发展过程中在癌细胞的浸润性表型中的血管发生中的更复杂的作用。某些血管蛋白(Ang)家族成员可以激活Tiel，例如，Angl引起Tiel在内皮细胞中的磷酸化(2Yuan,H.T.等,(2007), Activation of the orphan endothelialreceptor Tie1modifies Tie2-mediated intracellular signaling and cellsurvival,21:3171-3183)。然而，Tiel磷酸化是Tie2依赖性的，因为当Tie2在内皮细胞中被下调时Angl不能引起Tiel磷酸化，并且，Tiel磷酸化在 Angl不存在的情况下由组成型活性形式的Tie2或Tie2拮抗抗体引起(25Yuan等 (2007)，同上)。Angl-介导的AKT和42/44MAPK磷酸化主要是Tie2介导的，并且， Tiel下调该途径。因此，由于其下调Tie2-驱动信号转导和内皮存活的能力，Tiel 的主要作用是调节血管形态发生。Tie2介导的信号转导以及VEGFRl和2介导的信号转导和特定信号均在该数据集中被观察到。

ERBB4

ERBB4有助于乳腺形态发生中的增殖和细胞运动以及表达Erbb4的乳腺原上皮细胞的定向细胞运动，同时促进乳腺细胞命运。Nrg3/Erbb4信号转导的候选效应子已经被鉴定，并在此显示与其它与早期乳腺发育和癌症有关的信号转导途径相互作用。ErbB4在体内的主要功能之一是在怀孕和哺乳感应(induction)期间在乳腺成熟中的作用。怀孕和延长的哺乳持续时间与乳癌风险的降低有关，并且ErbB4 在肿瘤抑制中的作用可以因此与其在哺乳中的作用有关。大部分报道与ErbB4在逆转***期间由其它ErbB家族成员触发的生长刺激中的作用一致，但是，尚未确定存活率与ERBB4表达的明显相关性(2Sundvall,M.等,(2008),Role of ErbB4in breast cancer,13:259-268)。

实施例XLII：在原位管癌(DCIS)中用于分类的PARADIGM

考虑到在小鼠模型中癌前期增生腺体中牵涉免疫应答(18Ursini-Siegel,J.等,(2010),Receptor tyrosine kinase signaling favors a protumorigenic state inbreast cancer cells by inhibiting the adaptive immune response,70:7776-7787)，我们分析之前公布的、由原位管癌例子组成的数据集，以查明在浸润性肿瘤中观察到的强免疫应答和白细胞介素信号转导是否也存在于癌前期阶段。原位管癌(DCIS)是非浸润性形式的乳癌，其中一些病变据信快速转变成浸润性管癌(IDC)，而其它的保持不变。我们之前已经研究31个纯原位管癌、36的纯浸润性癌症和42例混合诊断(浸润性癌症与原位部分)(lMuggerud等(2010)，同上)的基因表达方式，并在高组织学级别的原位管癌之间的转录物组中发现异质性，从而鉴定不同的原位管癌亚组，其基因表达特征更类似于晚期肿瘤。PARADIGM的热图产生图25C中该全部同龄组(包括IDC和ILC)和图25D中纯原位管癌样本。纯原位管癌肿瘤没有prgm2类型——以高巨噬细胞活性典型的信号转导为特征(图25)。一致的是，试验研究已经显示，原发性乳腺癌中的巨噬细胞由于其管生成前(proangiogenic)性质而调节晚期癌发生(Lin,E.Y.and Pollard,J.W.,(2007),Tumor-associated macrophages press the angiogenic switch in breast cancer,67:5064-5066；Lin,E.Y.et al.,(2007),Vascular endothelial growth factor restoresdelayed tumor progression in tumors depleted of macrophages,1:288-302)，以及通过提供表皮生长因子(EGF)给恶性乳腺上皮细胞而促进肺部转移。再次，在由原位管癌中PARDIGM分析鉴定的顶部异常途径之中是包括IL2、4、6、12、23和23信号转导的那些。

在两个数据集(原位管癌、MicMa)中，幼稚CD8+T细胞中的TCR信号转导与已知补充CD8+T细胞的大量趋化因子一起位于列表顶部。一个是IL-12，其由抗原递呈细胞产生，所述抗原递呈细胞被显示刺激从NK和T细胞中产生IFN-γ。 IFN-γ途径是下调途径之一，在原位管癌中的列表上更高。IFNγ产生自Thl细胞和 NK细胞，并被显示发动抗肿瘤免疫应答。I阶段临床试验已经显示，曲妥珠单抗(赫赛汀)的临床效应通过共同施用IL-12给患有HER2-过表达肿瘤的患者被加强，并且，该效应由在NK细胞中刺激IFNγ产生而介导(29)。在原位管癌中，其它最强的贡献者(表8)是84_NOX4。NOX4，一种氧敏感性NAPHD氧化酶和A型吞噬细胞氧化酶，类似于造成在嗜中性粒细胞——初次免疫应答中大量反应性氧种类(ROS)产生的酶。同样地，FN1(纤连蛋白)和PDGFRB——血小板衍生的生长因子受体——尤其在原位管癌中与COL1A2、IL12/IL12R/TYK2/JAK2/SPHK2、ESR1 和KRT14一起反复出现。

这些基因/途径似乎全都有助于细胞外基质中的功能、细胞-细胞相互作用和纤维化以及角化。例如，FN1纤连蛋白-1属于高分子量糖蛋白家族，其存在于细胞表面上、细胞外液体、***和基膜中。纤连蛋白与其它细胞外基质蛋白和细胞配体诸如胶原蛋白、血纤蛋白和整联蛋白相互作用。纤连蛋白与细胞的粘附和迁移过程有关。PDGFR——血小板衍生的生长因子受体——与表皮生长因子(EGF) 一起通过EGF和PDGF受体发信号，所述EGF和PDGF受体是重要的受体酪氨酸激酶(RTK)。重要地是，本文中发现的在某些原位管癌中过表达的PDGFR是舒尼替尼的靶(30Fratto,M.E.等,(2010),New perspectives:roleof sunitinib in breast cancer,161:475-482)和甲磺酸伊马替尼(Gleevec)的初级靶(Weigel,M.T.等,(2010), In vitro effects of imatinib mesylate onradiosensitivity and chemosensitivity of breast cancer cells,10:412)。与上述通过增加的INFγ产生而介导的曲妥珠单抗(赫赛汀) 的免疫刺激作用不同，伊马替尼被显示通过TCR-激活的CD4(+)T细胞而抑制干扰素-γ。这些观察对于我们关于它们阐释呈现在原位管癌和恶性细胞表面上的生长因子受体和免疫组成之间的相互作用程度的争论是有影响的。显示PDGFR的刺激性自身抗体表现出触发包括Ras、ERK1/ERK2和反应性氧种类(ROS)的细胞内环，其导致I型胶原表达的增加。这与COL1A2表达一致，其在我们的研究中也被观察到在原位管癌中下调。

实施例XLIII：材料和方法

分析被应用于收集自ca 110个乳癌的数据，其中通过Agilent人全基因组 4×44K单色寡核苷酸阵列分析mRNA表达。利用Illumina Human-1 109K BeadChip 分析拷贝数变化(CNA)。该SNP阵列是以基因为中心的，其包含以30kb的平均物理距离覆盖整个基因组的标记并代表15,969个独特基因(2004年5月组装，hgl7， NCBI Build 35)。每一样本均进行全基因组扩增。基因型报告和logR值利用 BeadStudio(v.2.0，Illumina)通过参考dbSNP(构造(build)125)的正向等位基因方向 (forward allele orientation)被提取，并且，logR值针对CAN被调整。

利用Agilent技术“人miRNA微阵列试剂盒(V2)”根据制造商的方案进行总 RNA的miRNA序型分析(profiling)。在Agilent扫描仪G2565A和特征提取(Feature Extraction)(FE)v9.5上的扫描被用于提取信号。利用对不同阵列和时间点的双重杂交(99个样本)进行试验。两个样本仅被分析一次。重复探针的miRNA信号强度在平台中被平均、被log2变换并归一化成75个百分位数。通过在FE v9.5中的默认设置，每一基因的miRNA表达状况被评价为存在或不存在。

DNA甲基化。DNA的一张微观图是利用EpiTect 96Bisulfite Kit(Qiagen GmbH,Germany)进行二亚硫酸盐(bisulphite)处理的。500ng二亚硫酸盐处理的DNA利用GoldenGate Methylation Cancer Panel I(Illumina Inc,CA,USA)——其同时分析807个癌相关基因中的1505CpG位点——进行分析。每个基因至少分析2个CpG位点，一个CpG位点位于启动子区域中和一个CpG位点位于第一外显子中。根据制造商的方案，Bead studio软件被用于甲基化数据的初始处理。每一CpG位点的检测p值被用于确认样本性能，并且，数据集基于检测p值被过滤，检测p值>0.05 的CpG位点在进一步分析中被忽略。

数据预处理和PARADIGM参数。拷贝数利用CBS被分段，然后通过采用所有区段——跨越hgl8中RefSeq基因的坐标——的中值映射到基因水平测量结果。对于mRNA表达，通过减去每一探针的中值表达值，测量结果首先被探针-归一化。利用UCSCs liftOver工具，将制造商的每一探针的基因组位置从hgl7转换到hgl8。然后，通过采用与RefSeq基因重叠的所有探针的中值值获得每一基因的测量结果。利用制造商的描述使甲基化探针与基因匹配。通过分位数分别变换每一数据集，像之前一样运行范例(10)，但是数据被离散到相等大小的收集器(bin)中而不是 5％和95％分位数。途径文件来自ΡID(36)，如之前解析的。通过计数数据类型中的上或下收集器中观察的分数(fraction)然后用在任何数据类型中具有最高分数的收集器标记每一节点，图26显示离散的输入数据而不是IPL值的概要。

HOPACH无监督聚类。利用在R版本2.12上运行的HOPACH R执行版本2.10 (37)推导聚簇。相关距离度量与所有数据类型一起使用，除了PARADIGM IPL之外，其由于非正态分布和零值的普遍而使用cosangle。对于样本的任何聚簇——包含5个以下的样本，每一样本作为较大聚簇中最类似的样本被映射到相同的聚簇。通过测定MicMa数据集中每一聚簇的mediod(利用中值函数)，然后将另一数据集中的每一样本分配到根据cosangle距离最近的任何一个聚簇mediod，将MicMa数据集中的PARADIGM聚簇映射到其它数据类型。

Kaplain-Meier，聚簇富集。利用R版本2.12测定Kaplan-Meier统计学、图和聚簇富集。利用coxph()比例风险模型的Wald检验和survdiff()函数的卡方检验的对数秩p-值测定Cox p-值。通过ANOVA测定聚簇的基因值或途径成员值的整体富集，并且，通过特定聚簇中基因值对比所有其它聚簇中基因值的T检验测定特定聚簇标签的基因的富集。利用关于p调节(p.adjust)的Benjamini&Hochberg方法测定FDR。

实施例XLIV：数据集和途径相互作用

拷贝数和表达数据均被结合到PARADIGM推断中。因为可以应用具有8个正常组织对照的集合在表达数据中进行分析，所以通过减去在正常法娄皮欧对照中观察到的基因中值水平，每一患者的基因-值被归一化。拷贝数数据被归一化，以反映肿瘤对比正常血液中检测的基因水平之间的拷贝数差异。为了输入到 PARADIGM中，表达数据取自用于亚型分析的相同集成数据集，并且，拷贝数取自MSKCC Agilent 1M拷贝数数据的分段调用。

实施例XLV：在途径背景中集成分子活性的推断。

利用基因-和患者-特有的数据剖面的置换来评估IPA的显著性。通过随机选择基因组中每一基因的基因表达和拷贝数对的值，产生1000个“零”患者的数据。为了评估PARADIGM IPA的显著性，通过指定随机基因到途径同时保留途径结构，我们建立了零分布。

实施例XLVI：FOXMl途径的鉴定

实施例XL VII：聚类

推断活性——其代表活性概率的变化而不是直接代表活性——的应用使得各种类型的实体被一起聚类到一个热图中。为了整体显示PARADIGM推断的结果，使用艾森聚簇3.0来执行特征过滤和聚类。0.1的标准差过滤导致7204个途径实体中的1598个保留，并且，对实体和样本均执行平均联结、非中心相关分级簇。

实施例XL VIII：基因组DNA的分离

从患者采集血液样本(2-3ml)并于-80℃存储于含有EDTA的管中直到使用。利用DNA分离试剂盒根据制造商的指示(PUREGENE,Gentra Systems,Minneapolis MN)从血液样本中提取基因组DNA。利用Beckman分光光度计，作为在260和280 nmD吸光度比率(1cm光程；A₂₆₀/A₂₈₀)测量DNA纯度。

实施例XLIX：SNP的鉴定

利用针对区域特异设计的引物，通过PCR扩增来自患者DNA样本的基因区域。利用本领域中技术人员悉知的方法，如上述方法，将PCR产物测序。利用 Phred/Phrap/Consed软件验证在测序迹线(trace)中鉴定的SNP，并将其与存储在 NCBI SNP数据库中的已知SNP进行比较。

实施例L：统计学分析

值被表示为平均值±SD。χ2分析(Web Chi Square Calculator,GeorgetownLinguistics,Georgetown University,Washington DC)被用于评估正常对象和患有病症的患者基因型频率之间的差异。如所指示地执行单向ANOVA与事后|(post-hoc) 分析，以比较不同患者组之间的血流动力学。

本领域的技术人员将理解，可以对刚刚描述的实施方式进行各种改编和修饰而不背离本发明的范围和精神。本领域中已知的其它合适的技术和方法可以被本领域的技术人员并通过借鉴本文描述的对本发明的描述以许多具体形式被应用。因此，应该理解，除了如本文中具体描述地之外，还可以实施本发明。上述说明意图是说明性的而不是限制性的。在回顾上述描述之后，许多其它实施方式对于本领域的技术人员来说将变得显而易见。因此，本发明的范围应该通过参考所附权利要求书结合这些权利要求被给予的全部等同范围来确定。

！

表5.HGS-OvCa中明显突变的基因

确认的突变是已经通过独立检验被证实的那些突变。它们中的大部分是利用相同肿瘤的第二独立WGA样本被确认的。未确认的突变已经被独立地证实，但具有高的可能性是真正的突变。TP53中的另外25个突变通过手动策划(hand curation)被观察。

表6.显示明显的亚型特异性的治疗化合物。每一栏代表一个AN0VA检验的FDR-相关的p-值。通过在三个检验中达到的最小p值来对化合物进行排序。

Claims

1.途径活性分析计算***，包括：

途径模型数据库，其储存代表细胞过程的多个概率途径模型，其中所述概率途径模型编码细胞状态为假定基因组属性和测量基因组属性的函数；和

分析引擎，其与所述途径模型数据库偶联并且具有非暂时性计算机可读内存存储软件和处理器，所述处理器被配置为执行软件指令：

获得与患者的患者组织样品相关的测量患者基因组属性；

通过将所述测量患者基因组属性集成到所述概率途径模型的至少一个中，从所述途径模型数据库的所述概率途径模型的至少一个中生成与特定途径相关和与患者组织样品相关的动态途径图；

利用所述特定途径的所述动态途径图预测所述患者组织样品的改变的途径活性；和

展示所述患者组织样品的所述改变的途径活性。

2.权利要求1所述的***，其中所述测量患者基因组属性包括测量自所述患者组织样品的下述信息类型中的至少一种：突变、差别遗传序列、对象、基因拷贝数、转录水平、翻译水平、蛋白质活性和蛋白质相互作用。

3.权利要求1所述的***，其中所述概率途径模型包括代表所述细胞过程的因子图。

4.权利要求1所述的***，其中所述概率途径模型包括有向图。

5.权利要求1所述的***，其中所述细胞过程包括基因活性途径。

6.权利要求5所述的***，其中所述基因活性途径的所述概率途径模型包括至少四个途径实体。

7.权利要求6所述的***，其中所述途径实体包括下述中的至少一种：所述患者基因组的拷贝数、mRNA表达、蛋白质水平和蛋白质活性。

8.权利要求1所述的***，其中所述患者组织样品包括健康组织样品。

9.权利要求1所述的***，其中所述患者组织样品包括恢复组织样品。

10.权利要求1所述的***，其中所述患者组织样品包括患病组织样品。

11.权利要求10所述的***，其中所述患病组织样品包括肿瘤组织样品。

12.权利要求1所述的***，其中所述改变的途径活性包括代表假定患者基因组属性的患者组织样品的隐藏途径实体。

13.权利要求12所述的***，其中所述假定患者基因组属性包括下述的至少一种：化合物属性、种类属性、基因拷贝数、转录水平、翻译水平和蛋白质活性。

14.权利要求12所述的***，其中所述隐藏途径实体包括至少一种途径活性状态。

15.权利要求14所述的***，其中所述至少一种途径活性状态选自：失活的状态、标称的状态和激活的状态。

16.权利要求1所述的***，其中所述特定途径选自：衰老途径网络、调亡途径网络、稳态途径网络、代谢途径网络、复制途径网络、免疫应答途径网络、钙/钙调蛋白依赖性信号转导途径网络、细胞因子介导的信号转导途径网络、趋化因子介导的信号转导途径网络、生长因子信号转导途径网络、激素信号转导途径网络、MAP激酶信号转导途径网络、磷酸酶介导的信号转导途径网络、RAS超家族介导的信号转导途径网络和转录因子介导的信号转导途径网络。

17.权利要求1所述的***，其中所述预测的途径活性指示治疗建议。

18.权利要求1所述的***，其中所述预测的途径活性指示关于临床试验的患者分层。

19.权利要求1所述的***，其中所述预测的途径活性指示诊断或预后。

20.权利要求1所述的***，其中所述预测的途径活性指示外遗传因子、胁迫适应、患者的状态、修复状态、或愈合状态。