CN108350507B

CN108350507B - 对疾病进行组织学诊断和治疗的方法

Info

Publication number: CN108350507B
Application number: CN201680063963.3A
Authority: CN
Inventors: 郭晟; H·Q·李
Original assignee: Crown Bioscience Inc Taicang
Current assignee: Crown Bioscience Inc Taicang
Priority date: 2015-09-10
Filing date: 2016-09-09
Publication date: 2021-08-20
Anticipated expiration: 2036-09-09
Also published as: CN108350507A; EP3347492A1; US11640849B2; WO2017041746A9; WO2017041746A1; HK1255691A1; EP3347492A4; JP6895971B2; JP2018532422A; EP3347492B1; US20180247014A1

Abstract

本公开内容提供了一种基于对癌症使用转录组表达数据的成对比较的诊断方法。在一个实施方式中，该方法包括下述步骤：获得具有第一癌症类型的第一癌症样品的第一基因表达谱；获得具有第二癌症类型的第二癌症样品的第二基因表达谱，其中所述第二癌症类型不同于所述第一癌症类型；对所述第一基因表达谱与所述第二基因表达谱进行比较；以及选择在所述第一基因表达谱和所述第二基因表达谱中表达差异最大的N个基因以产生成对差异表达基因(DEG)，其中N是10至100之间的整数。

Description

对疾病进行组织学诊断和治疗的方法

相关申请的交叉引用

本申请要求2015年9月10提交的国际申请PCT/CN2015/089349和2016年4月21日提交的国际申请PCT/CN2016/079859的优先权，其全部内容均通过引用并入本申请。

发明领域

本发明大致涉及诊断和治疗疾病，如癌症。

背景技术

癌症是异质性的，具有多种多样的发病机制。癌症的准确诊断有助于了解疾病的发展和预后，从而指导精确治疗。目前的临床诊断主要基于解剖位置(器官)和组织病理学(癌组织和细胞的形态学)，这可能是不准确的。例如，如果形态学不足以识别来源，则可能对转移误诊。因此，需要改进的诊断方法。转录组测序(RNA-seq或微阵列)将基因表达成谱，其可以用于描述癌症的分子病理学并诊断疾病。癌症基因组图谱(TCGA)项目为各种组织病理学类型的人类癌症产生了丰富的基因组数据，并使得通过大数据分析探索癌症分子病理学成为可能。然而，将差异表达的基因与癌症病理学(如癌症的组织来源)相关联仍是一个挑战。因此，需要开发基于组织病理学与分子病理学之间***性确认的相关性的用于诊断癌症的新方法。

发明简述

在一个方面，本公开内容提供了一种方法，所述方法包含下述步骤：

获得具有第一癌症类型的第一癌症样品的第一基因表达谱；

获得具有第二癌症类型的第二癌症样品的第二基因表达谱，其中所述第二癌症类型不同于第一癌症类型；

对所述第一基因表达谱与所述第二基因表达谱进行比较；以及

选择在所述第一基因表达谱和所述第二基因表达谱中表达差异最大的N个基因以产生成对差异表达基因(DEG)，其中N是10至100之间的整数。

在某些实施方式中，在本申请中使用的癌症样品不是癌症细胞系。

在某些实施方式中，在本申请中使用的癌症样品是来自癌症患者或患者来源移植瘤(PDX)的手术切除样品或组织活检样品。

在某些实施方式中，N在20至80之间。在某些实施方式中，N为约50。

在某些实施方式中，本申请所述的基因表达谱通过转录组RNA测序或微阵列获得。在某些实施方式中，本申请所述的基因表达谱由癌症基因组图谱(TCGA)数据集获得。

在某些实施方式中，通过使用t-检验、Mann-Whitney U检验或者比较2个或多个组之间的平均值和中位数的其他检验对各基因的表达差异排序，选择所述表达差异最大的N个基因。

在某些实施方式中，本申请所述的癌症类型是结肠腺癌(COAD)、直肠腺癌(READ)、肺腺癌(LUAD)、肺鳞状细胞癌(LUSC)、头颈部鳞状细胞癌(HNSC)、肝脏肝细胞癌(LIHC)或胰腺腺癌(PAAD)。

在某些实施方式中，上文所述的方法还包括根据成对DEG的表达诊断癌症。

在另一个方面，本公开内容提供了一种方法，所述方法包括：

获得具有第一癌症类型的第一癌症样品的第一基因表达谱；

获得具有第二癌症类型的第二癌症样品的第二基因表达谱，其中第二癌症类型不同于所述第一癌症类型；

获得具有第三癌症类型的第三癌症样品的第三基因表达谱，其中所述第三癌症类型不同于所述第一癌症类型和所述第二癌症类型；

对所述第一基因表达谱与所述第二基因表达谱进行比较；

选择在所述第一基因表达谱和所述第二基因表达谱中表达差异最大的N₁个基因以产生第一成对DEG，其中N₁是10至100之间的整数；

对所述第一基因表达谱与所述第三基因表达谱进行比较；

从基因集中选择在所述第一基因表达谱和所述第三基因表达谱中表达差异最大的N₂个基因以产生第二成对DEG，其中N₂是10至100之间的整数；

对所述第二基因表达谱与所述第三基因表达谱进行比较；

从基因集中选择在第二基因表达谱和第三基因表达谱中表达差异最大的N₃个基因以产生第三成对DEG，其中N₃是10至100之间的整数；以及

产生包含所述第一、第二和第三成对DEG的标志基因。

在某些实施方式中，所述标志基因具有m个基因，其中m是5至5000之间的整数。

在某些实施方式中，上文所述的方法还包括根据所述标志基因的表达诊断癌症。

在又一个方面，本公开内容提供了一种用于治疗对象中癌症的方法，所述方法包括通过如本申请所述的方法诊断对象中的癌症类型，以及施用能够有效治疗这种癌症类型的药物。

在又一个方面，本公开内容提供了一种用于治疗对象中第一癌症类型的方法，其中所述第一癌症类型与第二癌症类型具有相同的成对DEG表达谱，所述方法包括向所述对象施用能够有效治疗所述第二癌症类型的药物。

在一个实施方式中，所述第一癌症类型是结肠腺癌(COAD)，并且所述第二癌症类型是直肠腺癌(READ)。在一个实施方式中，所述第一癌症类型是直肠腺癌(READ)，并且所述第二癌症类型是结肠腺癌(COAD)。

在一个实施方式中，所述第一癌症类型是头颈部鳞状细胞癌(HNSC)，并且所述第二癌症类型是肺鳞状细胞癌(LUSC)。在一个实施方式中，所述第一癌症类型是肺鳞状细胞癌(LUSC)，并且所述第二癌症类型是头颈部鳞状细胞癌(HNSC)。

附图说明

图1A显示了对通过RNA-seq成谱的TCGA患者样品、通过RNA-seq成谱的PDX(PDX)、通过微阵列成谱的PDX(PDXU219)以及通过微阵列成谱的癌细胞系(CCLE)的基因表达进行的比较。成对DEG数为50，其中有686个独特基因。在热图中，两个样品之间的皮尔逊相关系数是颜色编码的；在顶部或左侧的颜色条的长度与数据集中的样本量成正比。

图1B显示了对TCGA与其他3个数据集之间的基因表达进行的比较。成对DEG数为50，其中有686个独特基因。在热图中，两个样品之间的皮尔逊相关系数是颜色编码的；在顶部或左侧的颜色条的长度与数据集中的样本量成正比。

图2A显示了在TCGA数据集中不同成对DEG数下每种癌症类型内的基因表达相似性。对于该数据集中的每种癌症类型，基于归一化的基因表达值计算所有样品对的皮尔逊相关系数。数值为平均值加SEM。

图2B显示了在PDX数据集中不同成对DEG数下每种癌症类型内的基因表达相似性。对于该数据集中的每种癌症类型，基于归一化的基因表达值计算所有样品对的皮尔逊相关系数。数值为平均值加SEM。

图2C显示了在PDXU219数据集中不同成对DEG数下每种癌症类型内的基因表达相似性。对于该数据集中的每种癌症类型，基于归一化的基因表达值计算所有样品对的皮尔逊相关系数。数值为平均值加SEM。

图2D显示了在CCLE数据集中不同成对DEG数下每种癌症类型内的基因表达相似性。对于该数据集中的每种癌症类型，基于归一化的基因表达值计算所有样品对的皮尔逊相关系数。数值为平均值加SEM。

图3A显示了4个数据集中不同成对DEG数下平均类型内基因表达的相似性。计算数据集中相同癌症类型内所有样品对的皮尔逊相关系数。在计算中使用归一化的基因表达值。数值为平均值加SEM。

图3B显示了4个数据集中不同成对DEG数下平均类型间基因表达的相似性。计算数据集中属于不同癌症类型的所有样品对的皮尔逊相关系数。在计算中使用归一化的基因表达值。数值为平均值加SEM。

图4A显示了在TCGA和PDX中的结直肠癌和肺癌样品的多维标度(MDS)图。在PDX数据集中，标记了4个错误分类的样品。括号中的数字是样本量。当成对DEG数为50时，MDS图使用了188个基因。LogFC代表对数倍数变化。在两个轴上使用前两个主要logFC。

图4B显示了在TCGA和PDXU219中的结直肠癌和肺癌样品的多维标度(MDS)图。在PDX数据集中，标记了4个错误分类的样品。括号中的数字是样本量。当成对DEG数为50时，MDS图使用了188个基因。LogFC代表对数倍数变化。在两个轴上使用前两个主要logFC。

图4C显示了在TCGA和CCLE中的结直肠癌和肺癌样品的多维标度(MDS)图。在PDX数据集中，标记了4个错误分类的样品。括号中的数字是样本量。当成对DEG数为50时，MDS图使用了188个基因。LogFC代表对数倍数变化。在两个轴上使用前两个主要logFC。

图4D显示了在PDX中的结直肠癌和肺癌样品的多维标度(MDS)图。在PDX数据集中，标记了4个错误分类的样品。括号中的数字是样本量。当成对DEG数为50时，MDS图使用了188个基因。LogFC代表对数倍数变化。在两个轴上使用前两个主要logFC。

图5A显示了当成对DEG数为3000时对TCGA患者样品进行的癌症类型内和癌症类型之间的基因表达比较，其中有6651个独特基因，占成谱基因的约三分之一。TCGA患者样品的基因表达通过RNA-seq成谱、PDX的基因表达通过RNA-seq成谱(PDX)、PDX的基因表达通过微阵列成谱(PDXU219)，以及癌细胞系的基因表达通过微阵列成谱(CCLE)。在热图中，两个样品之间的皮尔逊相关系数是颜色编码的；在顶部或左侧的颜色条的长度与数据集中的样本量成正比。

图5B显示了当成对DEG数为3000时对TCGA与其他3个数据集之间的基因表达进行的比较，其中有6651个独特基因，占成谱基因的约三分之一。在热图中，两个样品之间的皮尔逊相关系数是颜色编码的；在顶部或左侧的颜色条的长度与数据集中的样本量成正比。

图6显示了TCGA数据集中独特基因数与成对DEG数之间的关系。当成对DEG数为50时，有686个独特基因。当成对DEG数达7000时，有16798个独特基因，占TCGA数据集中的17288个适于成对比较的基因的约97.1％。

发明详述

在上文所述的发明简述以及在下文所述的发明详述和权利要求，以及附图中，提到了本发明的特定特征(包括方法步骤)。应当理解的是，在本说明书中的发明公开内容包括了这些特定特征所有可能的组合。例如，在本发明的特定方面或实施方式或者特定权利要求的上下文中公开了特定特征的情况下，该特征还可以尽可能地用于与本发明的其他特定方面和实施方式组合和/或在其背景下，以及总体上用于本发明中。

在本申请中使用术语“包括”及其在语法上的等效词表示任选地存在其他组分、成分、步骤等。例如，“包括”(或“其包含”)组分A、B和C的物品可以由组分A、B和C组成(即，仅含有)或者可以不仅含有组分A、B和C，而且还含有一种或多种其他组分。

当本申请中提及包括两个或多个限定的步骤的方法时，限定的步骤可以以任意顺序或同时进行(除非上下文排除该可能性)，并且该方法可以包括在任意限定的步骤之前，在两个限定的步骤之间或者在所有限定的步骤之后进行的一个或多个其他步骤(除非上下文排除该可能性)。

当提供了数值范围时，应当理解的是，受限于所述范围内任何特别排除的界限值，在该范围的上限和下限之间的每个中间值(至下限单位的十分之一，除非上下文另有明确规定)以及在该所述范围中的任意其他规定的值或中间值均包括在该公开内容中。当所述范围包括一个或全部两个界限值时，排除这些被包括的界限值中的任意一个或全部两个的范围也包括在本公开内容中。

应当意识到的是，为了说明的简单和清楚起见，在适当的情况下，在不同附图中重复使用参考编号来指示相应的或类似的元素。此外，列出了很多具体细节以便提供对本申请所述的实施方式的透彻理解。然而，可以在没有这些具体细节的情况下实施本申请所述的实施方式。在其他情况下，未对方法、步骤和组分进行详细描述以免模糊描述中的有关的相关功能。而且，不应将该描述认为是对本申请所述的实施范围的限制。应当理解的是，除非另有说明，否则对本公开内容中列出的实施方式的描述和表征不应当被认为是相互排斥的。

利用来自多个基因组图谱平台的癌症基因组图谱(TCGA)数据集，开发和检测了分子分类学的方法(Hoadley KA,Yau C,Wolf DM,Cherniack AD,Tamborero D,Ng S等，“Multiplatform analysis of 12cancer types reveals molecular classificationwithin and across tissues of origin”Cell(2014)158(4):929-44；癌症基因组图谱研究网络，“Comprehensive molecular characterization of gastric adenocarcinoma”Nature(2014)513(7517):202-9)。很多这样的方法同时分析来自多种癌症类型的样品，并且可能对某些类型存在偏倚。

本公开内容提供了基于每个成对比较的最大差异表达基因(DEG)对癌症进行诊断的新方法。本申请公开的方法基于成对DEG表达在类型内高度相关，而在类型之间相关较低这一发现，从而确立了癌症类型的分子特异性以及建立了一种在很大程度上与组织病理学相当的替代的诊断方法。本申请公开的方法还基于对来自患者的手术切除或尸体解剖样品或者来源于患者的移植物(PDX)样品，但不是来自于癌细胞系的样品进行成对DEG，提供了用于癌症诊断的可靠的生物标志物指标这一发现。我们发现PDX与患者样品之间的类型内和类型之间的相关性具有高度相似的模式，证实了PDX作为人类疾病替代实验模型的高度相关性。相比之下，癌细胞系与PDX和患者样品的表达相似性均明显著更低。

在一个方面，本公开内容提供了一种基于使用转录组表达数据对癌症进行成对比较的新的诊断方法，这是一种不同于更常用的使用多种类型的基因数据和复杂的算法的方法(参见Hoadley KA,Yau C,Wolf DM,Cherniack AD,Tamborero D,Ng S等，“Multiplatform analysis of 12cancer types reveals molecular classificationwithin and across tissues of origin”Cell(2014)158(4):929-44；癌症基因组图谱研究网络，“Comprehensive molecular characterization of gastric adenocarcinoma”Nature(2014)513(7517):202-9)。与这些方法和算法相比，本申请公开的方法具有在评估和描述癌症类型特异性时简单和不偏倚的优点。本申请公开的方法能够特异性地定义癌症类型并根据肿瘤来源和组织学建立所得到的分子分类与传统疾病分类之间的近似等同性，从而为诊断癌症提供一种替代传统组织病理学的更加准确和精密的分子方法。因为本申请所公开的分子病理学方法对分类水平的限制较小，所以其能够达到显著超出基于现有组织病理学的方法的程度，并且可以更加准确、更加可靠并且具有更好的客观性。这种分子诊断方法的优点可以通过其纠正医院做出的错误诊断的能力来举例说明。还可以将其用于分子诊断，这是对现有的基于组织病理学的方法的补充，具有一定的优越性。

在某些实施方式中，本申请公开的方法包括下述步骤：

获得具有第一癌症类型的第一癌症样品的第一基因表达谱；

获得具有第二癌症类型的第二癌症样品的第二基因表达谱，其中第二癌症类型不同于第一癌症类型；

选择在第一基因表达谱和第二基因表达谱中表达差异最大的N个基因以产生成对差异表达基因(DEG)，其中N是10至100之间的整数。

用于本申请中的术语“基因”泛指与生物功能相关的任意核酸。基因通常包括编码序列和/或表达此类编码序列所需的调控序列。可以将术语基因用于特定的基因组序列以及由该基因组序列编码的cDNA或mRNA。“基因表达”指将来自基因的信息用于合成功能性产物(包括蛋白质和功能性RNA(例如tRNA、snRNA和微RNA))的过程。在某些实施方式中，可以通过基因或其衍生物(例如，cDNA)的转录物(例如，mRNA)测量基因的表达水平。

用于本申请中的“基因表达谱”指测量多个(例如，多于100个、多于500个、多于1,000个、多于2,000个、多于5,000个、多于10,000个、多于20,000个)基因的表达水平，以形成一个细胞(或多个细胞)中基因表达的全图。如本申请中所公开的，可以使用本领域公知的方法获得基因表达谱，如DNA微阵列技术(参见例如Pollack JR等，“Genome-wide analysisof DNA copy-number changes using cDNA microarrays”Nat Genet(1999)23(1):41-46)。用于基因表达谱的基于测序的技术包括但不限于基因表达系列分析(SAGE)和RNA-seq。此前已描述了用于基因表达谱分析的方法(参见例如Yang M等，“Overcomingerlotinib resistance with tailored treatment regimen in patient-derivedxenografts from naive Asian NSCLC patients”.International journal of cancer(2013)132(2):E74-84；Chen D等，“A set of defined oncogenic mutation allelesseems to better predict the response to cetuximab in CRC patient-derivedxenograft than KRAS 12/13mutations”Oncotarget(2015)6(38):40815-21)。

比较两种基因表达谱的方法是本领域公知的(参见例如，Robinson MD和SmythGK,“Small-sample estimation of negative binomial dispersion,with applicationsto SAGE data”Biostatistics(2008)9(2):321-32)。在某些实施方式中，选择N个表达差异最大的基因并将其称为成对差异表达基因(DEG)。在某些实例中，识别DEG并通过t-检验、Mann-Whitney U检验或者比较2个或多个组之间的平均值和中位数的其他检验进行排序。

在某些实施方式中，N在20至80之间。在某些实施方式中，N为约30、40、50、60、70、80、90或100。在某些实施方式中，N为约50。

在某些实施方式中，本申请所述的基因表达谱通过转录组RNA测序或微阵列获得。在某些实施方式中，本申请所述的基因表达谱从癌症基因组图谱(TCGA)数据集获得。

在某些实施方式中，本申请所述的方法是使用计算机实现的，即所述方法在计算机中进行，例如由CPU执行的计算机程序。用于本申请中的计算机指可以被编程以自动进行一系列算法或逻辑操作的设备(用于一般或特定目的)。用于本申请中的计算机包括但不限于个人电脑、工作站、服务器、大型机和超级计算机。计算机可以是独立***、网络***或驻于云计算中的虚拟机。可以使用多线程或其它并行计算方法实施本申请所述的方法。

用于本申请中的术语“癌症”指涉及异常细胞生长和***的一组疾病。在通常情况下，可以根据癌症所位于或来源于的组织或器官以及癌症组织和细胞的形态对癌症分类。用于本申请中的癌症类型包括但不限于急性淋巴细胞白血病(ALL)、急性骨髓性白血病、肾上腺皮质癌、***癌、星形胶质细胞瘤、儿童小脑或大脑基底细胞癌、胆管癌、膀胱癌、骨肿瘤、脑癌、小脑星形胶质细胞瘤、大脑星形胶质细胞瘤/恶性胶质瘤、室管膜瘤、髓母细胞瘤、幕上原始神经外胚层肿瘤、视路和下丘脑胶质瘤、乳腺癌、伯基特氏淋巴瘤、***、慢性淋巴细胞白血病、慢性粒细胞白血病、结肠癌、肺气肿、子宫内膜癌、室管膜瘤、食道癌、尤因氏肉瘤、视网膜母细胞瘤、胃(胃)癌、胶质瘤、头颈癌、心脏癌、霍奇金氏淋巴瘤、胰岛细胞癌(内分泌胰腺)、卡波西氏肉瘤、肾癌(肾细胞癌)、喉癌、白血病、肝癌、肺癌、神经母细胞瘤、非霍奇金氏淋巴瘤、卵巢癌、胰腺癌、咽癌、***癌、直肠癌、肾细胞癌(肾癌)、视网膜母细胞瘤、尤因家族肿瘤、皮肤癌、胃癌、睾丸癌、喉癌、甲状腺癌、***癌。

用于本申请中的术语“癌症样品”包括从癌症患者中直接或间接获得的任何样品。作为非限制性实例，样品可以包括脑脊液(CSF)、血液、羊水、血清、尿液、粪便、表皮样品、皮肤样品、颊拭子、***、羊水、培养的细胞、骨髓样品和/或绒毛膜绒毛。还可以使用癌细胞培养物作为样品。癌症样品还可以是例如从任何器官或组织(包括手术切除、组织活检或尸体解剖标本)获得的样品，可以包含细胞(无论是原代细胞还是培养细胞)，培养有任何细胞、组织或器官的培养基，组织培养物。在一些实施方式中，适用于本发明的生物样品是经处理以释放或以其他方式使核酸可用于本申请所述的检测的样品。适宜的生物样品可以从如胎儿、青年、成人(例如，妊娠妇女)等生命阶段获得。还可以使用固定的或冷冻的组织。

在某些实施方式中，本申请中使用的癌症样品不是癌细胞系。用于本申请中的术语“癌细胞系”指分离自癌症患者并且在体外培养以及永生化的细胞群体，其细胞从而避免了正常的细胞衰老并且可以无限增殖。在某些实施方式中，本申请中使用的癌症样品直接来自癌症患者，即不经过细胞培养。在某些实施方式中，癌症样品是手术切除样品或组织活检样品。

在某些实施方式中，本申请中使用的癌症样品来自患者来源的移植瘤(PDX)。用于本申请中的“患者来源的移植瘤”指采集自人患者供体并植入动物模型(例如，小鼠、大鼠、家兔等)的组织或细胞移植物。在一些实施方式中，移植瘤组织或细胞是肿瘤组织或细胞，或者癌组织或细胞。在一些实施方式中，移植瘤在植入动物模型前经过预处理。用于组织时，术语“预处理”通常涉及本领域公知的在移植前处理组织的任何处理方法，如洗涤、匀浆、重悬以及使用溶液(例如，盐水、PBS等)或基质(例如，胶原)混合。用于细胞时，术语“预处理”包括本领域公知的在移植前处理细胞的任何处理方法，如培养、传代培养、活化、使用试剂处理、离心、重悬、过滤以及用溶液(例如，盐水、PBS等)或基质(例如，胶原)混合。植入移植瘤后，给予动物模型足够长的时间发展人类疾病病变以供进一步使用。可以使用本领域公知的任何适宜方法向动物模型植入移植物，例如通过注射皮下、腹腔内或静脉内移植细胞；或者通过手术植入部分组织。在一些实施方式中，移植物是肿瘤细胞或癌细胞，并通过皮下注射植入动物模型。

在某些实施方式中，上文所述的方法还包括基于成对DEG的表达诊断癌症。术语“诊断(diagnosing)”或“诊断(diagnosis)”指对疾病(例如，癌症)的性质的识别。可以单独使用本申请所述的方法或者与其他方法(例如，基于组织病理学的方法)联合进行癌症的诊断。在一个实施方式中，为了诊断第一类型而非第二类型的癌症，获得疑似患有第一癌症类型的对象的样品。测定第一癌症类型和第二癌症类型之间的成对DEG的基因表达水平，据此可以确定癌症是否是第一类型。

获得具有第一癌症类型的第一癌症样品的第一基因表达谱；

对所述第一基因表达谱与所述第二基因表达谱进行比较；

选择在所述第一基因表达谱和第二基因表达谱中表达差异最大的N₁个基因以产生第一成对DEG，其中N₁是10至100之间的整数；

对所述第一基因表达谱与所述第三基因表达谱进行比较；

选择在所述第一基因表达谱和所述第三基因表达谱中表达差异最大的N₂个基因以产生第二成对DEG，其中N₂是10至100之间的整数；

对所述第二基因表达谱与所述第三基因表达谱进行比较；

选择在所述第二基因表达谱和所述第三基因表达谱中表达差异最大的N₃个基因以产生第三成对DEG，其中N₃是10至100之间的整数；以及

产生包含第一、第二和第三成对DEG的标志基因。

在某些实施方式中，N₁＝N₂＝N₃。在一个实施方式中，N₁、N₂和N₃为约50。

在一个实施方式中，通过将第一、第二和第三成对DEG组合产生标志基因。可以理解的是，所述第一、第二和第三成对DEG可能有重叠，因此标志基因数可能小于N₁、N₂和N₃之和。

可以将上文所述的方法扩展至分析具有3种以上癌症类型的数据集。例如，对于具有P种癌症类型的数据集而言，癌症类型之间的每个成对比较产生n个DEG。在总体比较中，可以产生共计P(P-1)/2个成对DEG。可以通过组合全部P(P-1)/2个成对DEG获得标志基因。标志基因数最多为P(P-1)n/2个，但是由于存在成对DEG重叠，因而通常少于此数量。任意癌症类型对中的样品可以通过其n个DEG区分，而上限为P(P-1)n/2个但由于重叠而通常少于此数量的其他DEG可以视为背景噪音。

在某些实施方式中，标志基因具有m个基因，其中m为5至5000之间的整数。在某些实施方式中，m在100-1000之间。在某些实施方式中，m在100-500之间。

在某些实施方式中，上文所述的方法还包括基于标志基因的表达诊断癌症。在一个实施方式中，为了诊断某种癌症，从疑似患有癌症的对象中获得样品。测定标志基因的表达水平(例如，通过使用微阵列或RNA-seq的基因表达谱)，根据其可以识别癌症的性质。

在又一个方面，本公开内容提供了一种用于治疗对象中癌症的方法，所述方法包括通过本申请所述的方法诊断对象中的癌症类型，以及施用能够有效治疗该癌症类型的药物。

用于治疗结肠癌的药物包括但不限于阿瓦斯汀、贝伐单抗、开普拓、卡培他滨、西妥昔单抗、雷莫芦单抗(Cyramza)、奥沙利铂(Eloxatin)、爱必妥、5-FU、氟尿嘧啶注射液、盐酸依立替康、亚叶酸钙、三氟尿苷复方片(Lonsurf)、奥沙利铂、帕尼单抗、雷莫芦单抗、瑞戈非尼、瑞戈非尼(Stivarga)、三氟尿苷和盐酸替比嘧啶、维克替比、亚叶酸钙(Wellcovorin)、希罗达、Zatrap、阿柏西普。

用于治疗直肠癌的药物包括但不限于阿瓦斯汀、贝伐单抗、开普拓、卡培他滨、西妥昔单抗、雷莫芦单抗(Cyramza)、奥沙利铂(Eloxatin)、爱必妥、5-FU、氟尿嘧啶注射液、盐酸依立替康、亚叶酸钙、三氟尿苷复方片(Lonsurf)、奥沙利铂、帕尼单抗、雷莫芦单抗、瑞戈非尼、瑞戈非尼(Stivarga)、三氟尿苷和盐酸替比嘧啶、维克替比、亚叶酸钙(Wellcovorin)、希罗达、Zatrap、阿柏西普。

在一个实施方式中，第一癌症类型是颈部鳞状细胞癌(HNSC)，并且第二癌症类型是肺鳞状细胞癌(LUSC)。在一个实施方式中，第一癌症类型是肺鳞状细胞癌(LUSC)，并且第二癌症类型是颈部鳞状细胞癌(HNSC)。

用于治疗头颈癌的药物包括但不限于甲氨蝶呤(Abitrexate)、博来霉素(Blenoxane)、博来霉素、西妥昔单抗、多西他赛、爱必妥、甲氨蝶呤(Folex)、甲氨蝶呤(Folex PFS)、羟基脲(Hydrea)、羟基脲、齐求达、甲氨蝶呤、甲氨蝶呤LPF、甲氨蝶呤(Mexate)、甲氨蝶呤(Mexate-AQ)、派姆单抗、泰索帝。

用于治疗肺癌的药物包括但不限于甲氨蝶呤(Abitrexate)、Araxane、马来酸阿法替尼、飞尼妥、阿雷替尼(Alecensa)、阿雷替尼、力比泰、阿瓦斯汀、贝伐单抗、卡铂、色瑞替尼、雷莫芦单抗(Cyramza)、多烯紫杉醇、厄洛替尼、依维莫司、甲氨蝶呤(Folex)、甲氨蝶呤(Folex PFS)、吉非替尼、阿法替尼(Gilotrif)、盐酸吉西他滨、健择、易瑞沙、齐求达、盐酸氮芥、甲氨蝶呤、甲氨蝶呤-AQ、氮芥、诺维本、耐昔妥珠单抗、纳武单抗、纳武单抗(Opdivo)、奥西替尼、紫杉醇、卡铂(Paraplat)、卡铂(Paraplatin)、派姆单抗、培美曲塞二钠、耐昔妥珠单抗(Protrazza)、雷莫芦单抗、塔格瑞斯、特罗凯、紫杉酚、泰索帝、酒石酸长春瑞滨、克唑替尼、色瑞替尼(Zykadia)。

提供下述实施例以说明本发明。其并非旨在以任何方式进行限制。

实施例1

本实施例显示了组织病理学癌症类型之内和之间的表达相似性。

材料和方法

移植瘤组织的植入和分子表征

此前已描述了关于患者组织移植(Crown Bioscience SPF实验室)的方法和参数(Yang M等，“Overcoming erlotinib resistance with tailored treatment regimen inpatient-derived xenografts from naive Asian NSCLC patients”Internationaljournal of cancer(2013)132(2):E74-84；Zhang L等，“A subset of gastric cancerswith EGFR amplification and overexpression respond to cetuximab therapy”SciRep(2013)3:2992；Jiang J等，“Comprehensive characterization of chemotherapeuticefficacy on metastases in the established gastric neuroendocrine cancerpatient derived xenograft model”Oncotarget(2015)6(17):15639-51；Bladt F等，“Thec-Met Inhibitor MSC2156119J Effectively Inhibits Tumor Growth in Liver CancerModels”Cancers(Basel)(2014)6(3):1736-52.)。根据此前所述的方法使用速冻样品提取RNA用于PDX肿瘤组织的转录组测序(Yang M等，“Overcoming erlotinib resistance withtailored treatment regimen in patient-derived xenografts from naive AsianNSCLC patients”International journal of cancer(2013)132(2):E74-84；Zhang L等，“A subset of gastric cancers with EGFR amplification and overexpressionrespond to cetuximab therapy”Sci Rep(2013)3:2992)。进行RNA测序前通过安捷伦生物分析仪确保RNA样品的纯度和完整性。仅将RIN>7和28S/18S>1的RNA样品继续用于文库构建和RNA测序。通过经认证的Illumina HiSeq平台服务提供商(中国武汉BGI)将RNA样品(小鼠组分<50％)用于转录组测序。通常在Illumina HiSeq2500平台或等效物上在6GB，PE125条件下进行转录组测序。对于AffymetrixU219基因芯片谱，如此前所述对来自肿瘤的RNA样品进行处理和测定(Yang M等，“Overcoming erlotinib resistance with tailoredtreatment regimen in patient-derived xenografts from naive Asian NSCLCpatients”International journal of cancer(2013)132(2):E74-84；Zhang L等，“Asubset of gastric cancers with EGFR amplification and overexpression respondto cetuximab therapy”Sci Rep(2013)3:2992)。如此前所述使用标准免疫组化(IHC)分析选定的FFPE PDX肿瘤组织(Yang M等，“Overcoming erlotinib resistance withtailored treatment regimen in patient-derived xenografts from naive AsianNSCLC patients”International journal of cancer(2013)132(2):E74-84；Zhang L等，“A subset of gastric cancers with EGFR amplification and overexpressionrespond to cetuximab therapy”Sci Rep(2013)3:2992)。用于IHC的抗体为：抗人单克隆抗体TTF1(ZM-0250，小鼠)、CDX2(ZA-0520，家兔)、CK7(ZM-0071，小鼠)、CK20(ZM-0075，小鼠)，其均来自中国中杉金桥公司。

TCGA数据集和CCLE数据集

从TCGA数据门户(2015年2月发布)下载7种癌症类型(COAD、READ、LUAD、LUSC、HNSC、LIHC、PAAD)的3级TCGA RNA-seq数据。我们仅使用Illumina HiSeq平台生成的RNA-seq数据，并使用RNAseqV2流水线进行处理，该流水线使用MapSplice进行读取比对，以及使用RSEM进行定量。TCGA数据集含有285个COAD、94个READ、515个LUAD、501个LUSC、519个HNSC、371个LIHC和178个PAAD。

从CCLE数据门户(2012年10月发布)下载癌细胞系基因表达数据。在AffymetrixU133Plus2基因芯片上将表达成谱。通过具有自定义CDF文件(ENTREZF v15)的耐用多阵列平均(RMA)算法将原始Affymetrix CEL文件转换成基因表达值。共计使用了210个细胞系，包括47个CRAD、52个LUAD、28个LUSC、30个HNSC、25个LIHC和28个PAAD(表1)。

PDX转录组测序数据的生物信息学分析

根据此前所述的方法通过Affymetrix U219基因芯片和RNA-seq将PDX中的基因表达成谱(Yang M等，“Overcoming erlotinib resistance with tailored treatmentregimen in patient-derived xenografts from naive Asian NSCLC patients”.International journal of cancer (2013)132(2):E74-84；Chen D等，“A set ofdefined oncogenic mutation alleles seems to better predict the response tocetuximab in CRC patient-derived xenograft than KRAS 12/13mutations”Oncotarget(2015)6(38):40815-21)。使用与用于CCLE数据的相同的方法处理AffymetrixCEL文件。首先通过去除比对到小鼠参照基因组(UCSC MM9)的小鼠读数，对RNA-seq原始数据进行清理。平均小鼠含量为约10％。使用TCGA RNAseqV2流水线估计基因表达。使用具有Affymetrix U219数据的共计175个PDX，包括58个CRAD、11个LUAD、40个LUSC、10个HNSC、24个LIHC和32个PAAD。使用具有RNA-seq数据的共计241个PDX，包括82个CRAD、12个LUAD、54个LUSC、14个HNSC、30个LIHC和49个PAAD。

转录组表达数据集的比较

使用来自Bioconductor(3.1版)的edgeR软件包(Robinson MD和Smyth GK,“Small-sample estimation of negative binomial dispersion,with applications toSAGE data”Biostatistics(2008)9(2):321-32)(3.10.2版)分析TCGA RNA-seq数据。保留在至少94个样品(全部7种癌症中最少的)中每100万个中至少有一个计数的基因。识别差异表达基因(DEG)并通过精确检验功能排序。对于7种TCGA癌症类型，进行21个成对比较，并保留一定数量的最大DEG。将DEG的表达值归一化为具有零均值和单位方差，并用于计算样品之间的皮尔逊相关系数。在图1A-D中，通过随机取样，TCGA中的7种癌症各使用94个样品。对于其他3个数据集，在计算类型内和类型间皮尔逊相关系数时也将表达值归一化。在相关性计算和热图中，所有表达值均以对数形式表示。图4A-D中的图是使用edgeR软件包(3.10.2版)中的plotMDS函数生成的，并且前两个主要对数倍数变化(logFC)用于2个轴。

结果

我们开始探究，与不同组织病理学类型相比，组织病理学诊断相同的癌症是否具有相似的表达谱。我们考察了4个转录组表达数据集：a)对于通过手术切除或组织活检获得的患者肿瘤样品的TCGA转录组测序(RNA-seq)数据集(“Comprehensive molecularcharacterization of gastric adenocarcinoma”Nature(2014)513(7517):202-9；“Comprehensive genomic characterization defines human glioblastoma genes andcore pathways”Nature(2008)455(7216):1061-8；Ge L等，“Integrated analysis ofgene expression profile and genetic variations associated with ovariancancer”Eur Rev Med Pharmacol Sci(2015)19(14):2703-10)；针对不同疾病的患者来源移植瘤的b)RNA-seq数据集(称为PDX)和c)微阵列数据集(称为PDXU219)；d)来自癌细胞系百科全书(CCLE)项目的癌细胞系的微阵列数据集(Barretina J等，“The Cancer CellLine Encyclopedia enables predictive modelling of anticancer drugsensitivity”Nature(2012)483(7391):603-7)。首先，我们旨在建立一种通过转录组表达来定义人类疾病类型的算法，假设不同的基因表达标记是正常和肿瘤组织(或定义的类型)的分子标志。为此，我们对7种TCGA癌症进行了21个转录组表达的成对比较：结肠腺癌(COAD)、直肠腺癌(READ)、肺腺癌(LUAD)、肺鳞状细胞癌(LUSC)、头颈部鳞状细胞癌(HNSC)、肝脏肝细胞癌(LIHC)和胰腺腺癌(PAAD)。对于每个成对比较，我们保留了相同数量的最大差异表达基因(DEG)，通过来自R中edgeR软件包中的精确检验函数的p值排序(见方法)。通过将去除冗余的所有成对比较求和得到的总DEG，用于计算TCGA数据集的类型内(组织病理学类型)和类型间相关系数。使用相关系数对癌症的相似性进行定量(图1A)。在图1A-D中的图示中使用了共计686个基因，当成对DEG数为50时，这686个基因是非冗余集合。相似性模式适用于其他DEG数，直至整个转录组(图5A-B)。与通过同时比较所有癌症类型选择基因的方法(例如，单因素ANOVA)相比，这种成对比较的方法旨在最小化对某些癌症类型的偏倚。

我们观察到，随着DEG数量的增加，TCGA中所有癌症类型的类型内相关系数最初迅速下降，然后趋于稳定(图2A)，这是因为在高数量的DEG中加入了相对较少的新基因(图6)。当成对DEG的数量达到7000时，有16798个独特基因，占在TCGA数据集中适用于成对比较的17288个基因中的约97.1％。相对较高的类型内系数(而不是类型间系数，见下文)显示了癌症类型特异性，其在很大程度上与组织病理学分类一致。同时，任何给定DEG下的类型内相关系数在不同的癌症类型中不同，反映了其不同的同质性程度。例如，LIHC似乎比其他类型具有更高的同质性。

患者来源移植瘤疾病极大程度地反映了原始患者疾病，在组织病理学、细胞类型、分化表型方面(Tentler JJ等，“Patient-derived tumour xenografts as models foroncology drug development”Nat Rev Clin Oncol(2012)9(6):338-50；Ding L等，“Genome remodelling in a basal-like breast cancer metastasis and xenograft”Nature(2010)464(7291):999-1005；Yang M等，“Overcoming erlotinib resistance withtailored treatment regimen in patient-derived xenografts from naive AsianNSCLC patients”.International journal of cancer(2013)132(2):E74-84；Zhang L等，“A subset of gastric cancers with EGFR amplification and overexpressionrespond to cetuximab therapy”.Sci Rep(2013)3:2992；Akashi Y等，“Histologicaladvantages of the tumor graft:a murine model involving transplantation ofhuman pancreatic cancer tissue fragments”Pancreas(2013)42(8):1275-82)，以及还在如多项独立的研究中所报道的分子病理学方面(Tentler JJ等，“Patient-derivedtumour xenografts as models for oncology drug development”Nat Rev Clin Oncol(2012)9(6):338-50；Ding L等，“Genome remodelling in a basal-like breast cancermetastasis and xenograft”Nature(2010)464(7291):999-1005)。为了***研究这种相关性，我们随后使用与来源于上述TCGA成对比较相同的DEG，进行了针对PDX(RNA-seq)和PDXUS19数据集的相关系数计算(Yang M等，“Overcoming erlotinib resistance withtailored treatment regimen in patient-derived xenografts from naive AsianNSCLC patients”.International journal of cancer(2013)132(2):E74-84；Zhang L等，“A subset of gastric cancers with EGFR amplification and overexpressionrespond to cetuximab therapy”.Sci Rep(2013)3:2992)。我们做出了几项观察(图2B，2C)：1)在这两个数据集中，我们在所有癌症类型中同样观察到，平行于TCGA，相关系数随着DEG的增加而最初迅速下降。这种平行表明相同的DEG也可以描述PDX中如TCGA中所见的中的癌症类型特异性，并且因而显示了TCGA与PDX之间的相似性。2)PDX中总体的相关系数值低于TCGA中的，这可能归因于两个因素：PDX失去了一些肿瘤特异性(下面进一步讨论)，以及以TCGA为中心的方法可能导致PDX中的数值降低，尤其是在DEG数较低时。3)在任何给定的DEG下的类型内相关系数在不同PDX癌症类型中也显著不同，反映了不同的同质性程度，如TCGA中所见。特别是，其在数值上可能与TCGA中的数值不一值。例如，HNSC而非LIHC在PDX中具有最高的类型内相关性。这表明相同的癌症类型可以在PDX中具有不同于在人类中的同质性，并且这种差异可能反映了PDX自人类肿瘤漂变的距离。但是其也可能是由于HNSCPDX的样本量较小所致(在PDXU219数据集中为10个和在PDX数据集中为14个)。4)值得注意的是，PDXU219和PDX(RNA-seq)彼此之间几乎平行，其具有相似的相关系数值，表明这两种表达谱方式几乎是等效的(图3)。总之，我们的观察结果与个例报道一致，即PDX与其所来源的肿瘤具有相似的分子谱(5，6)。

传统的癌细胞系在塑料培养瓶中永生化生长，通常是无性生长，并且具有未分化表型的一致形态。很多细胞可以在移植物中生长，但是具有极少分化的紧密且均匀的形态，这些均与PDX形成了鲜明的对比。因此，认为其与PDX相比与人类癌症具有较低的相关性(5)。类似地，我们还对CCLE数据集进行了类型内相关系数的计算。有趣的是，对于除了HNSC之外的所有癌症类型，我们几乎观察不到随着DEG增加的任何平行的系数减少，这表明选自TCGA的DEG在CCLE中几乎没有相关性(图2D)。而且，与在TCGA、PDX和PDXU219中相比，在CCLE中的类型内相关系数显著降低(图3)。这种减少不太可能归因于以TCGA为中心的方法。在CCLE中观察到的较弱的癌症类型特异性与细胞系与人类癌症在组织病理学和分子病理学上存在相当大的偏离这一观点一致。然而，类型内相关系数尽管总体上较低，但会因类型而异。例如，HNSC细胞系显示出相对较高的系数(图2D)。在任何数量的DEG下，类型内相关系数在TCGA数据集中最高，在CCLE数据集中最低，并且在PDX和PDXU219数据集中居中而接近。

接下来，我们使用相同的DEG进行了类型间相关系数计数。我们发现系数均为负值且接近零，反映了在全部4个数据集中不同癌症类型之间总体上几乎没有相似性。与类型内相关性类似，TCGA具有表现出初始下降的相关系数的最大绝对值，PDX和PDXU219具有平行下降的居中值，而在CCLE中，这些数值最小并且呈水平(图3A和3B)。总之，患者肿瘤具有最显著的癌症类型特异性基因表达谱，并且通常在相同的组织学癌症类型之间具有高度相关性。来自患者的移植瘤(皮下移植肿瘤)仍保持了合理的特异性，尽管其程度不及人类肿瘤，但是显著优于癌细胞系。综上所述，我们在两种诊断方法之间建立了程度良好的等效性，一种是基于组织形态学和肿瘤来源的方法，另一种是基于转录组表达的方法。

实施例2

本实施例描述了不同癌症类型之间的表达相似性和相同类型内的表达差异。

方法和材料如实施例1中所述。

除了实施例1中证实的总体上的类型内相关性和较低的类型间相关性以外，我们对患者的肿瘤和PDX还做了一些其他值得关注的观察(图1A-1D)。首先，结肠腺癌(COAD)和直肠腺癌(READ)几乎没有区别，表明它们可能基本上是相同的疾病。其次，肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)虽然都属于非小细胞肺癌(NSCLC)，但这两者具有非常不同的表达谱，这与其具有独特形态和发病机制的事实相一致。第三，与患者样品的中的报道结果一致，HNSC的表达谱与LUSC具有高度的相似性(Hoadley KA等，“Multiplatform analysis of12cancer types reveals molecular classification within and across tissues oforigin”Cell(2014)158(4):929-44)。考察这两种鳞状细胞癌之间的共同发病机制将是值得关注的。

这些观察结果再次证明了PDX与人类肿瘤之间密切相关。而相反的是，在CCLE数据集中，不能将LUAD与LUSC彼此之间分离。事实上，当成对DEG数为50时，其具有最低的型内相关系数(0.067至0.080之间)。我们对肺细胞系来源的移植物进行的病理学检查未发现在LUAD细胞系内(例如，A459、NCI-H1975、LU0682、LU6912，数据未显示)和在LUSC细胞系内(LU0357，数据未显示)的形态学相关性。在CCLE数据集中，我们没有观察到HNSC与LUSC之间的高度相似性，当成对DEG数为50时，其类型间相关系数仅为0.052，同时HNSC的类型内相关系数为0.36。

实施例3

本实施例描述了来自TCGA的用于癌症分类的分子病理学标志。

方法和材料如实施例1中所述。

通过使用来自TCGA癌症类型之间的成对比较的DEG，我们能够对人类肿瘤和PDX的未知癌症类型的恶性疾病进行分类和诊断，但是对细胞系是不太可能的。这种分子病理学方法与传统的组织病理学方法得到的结果良好吻合，因此形成了新的分子诊断的基础。作为示例，我们使用了来自4种TCGA癌症(LUAD、LUSC、COAD和READ)的成对比较的188个标志基因，将成对DEG设置为50。按照设计并与预期一致，这些标志基因将TCGA中的结直肠癌与肺癌相区分(图4A)。当应用于PDX和PDXU219数据集时，我们观察到结直肠PDX和肺PDX与对应的TCGA癌症样品簇集(图4A和4B)。然而，在CCLE数据集中，3种癌症(CRAD、LUAD和LUSC)未显示出很好的分离，并且其似乎在TCGA肺癌和结直肠癌样品之间自身形成了广泛分布的簇(图4C)。由于PDXU219和CCLE均是通过Affymetrix微阵列成谱的，因此CCLE样品的错位不太可能是技术误差，而是反映了其来自人与PDX肿瘤的转录组表达漂变。

为了证实我们的方法的分类能力，我们将标志DEG应用于PDX数据集并通过数据集对样品绘图。我们再次观察到癌症类型的清楚分离(图4D)。我们还观察到了4个异常值，肺癌组中的1个结直肠PDX模型(CR2215)和结直肠癌组中的3个肺癌PDX模型(LU1207、LU1245、LU3099)。我们使用组织特异性生物标记物(表2-3)进行免疫化学(IHC)分析以确认其身份。IHC结果表明3个错误分类的肺癌模型确实是结肠直肠腺癌(CRAD)。唯一错误分类的CRAD实际上是胰腺腺癌(PAAD)。我们目前的解释是原始的医院的诊断是错误的。尽管LU1245、LU3099和LU1207来自取自肺部的肿瘤，并且具有腺癌形态，但是其实际上是原发CRAD的转移。因为其均是具有相似形态的腺癌，此前的组织病理学检查未能对其正确识别。

我们的基于DEG的方法可以用于构建机器学习分类器来诊断肿瘤。为了说明这一点，我们将2463个TCGA患者样品按照80:20的分配比划分成训练数据集和验证数据集。基于686个DEG的支持向量机(SVM)进行训练，在训练数据集中用5重交叉验证训练，随后在验证数据集中测试。划分和后续处理重复10次。在交叉验证和测试数据集评估中，如果将COAD和ROAD样品作为相同疾病处理，则SVM均持续达到～98％的准确度。

表1：在分析中使用的细胞系

表2：肺来源和结肠来源的IHC生物标记物

表3：异常值模型的IHC分析

原始ID	认证类型	经校正的ID	由IHC确证的标记物
				LU1245	CR	CR1245	TTF1(-)，CDX2(3+)，CK7(-)，CK20(3+)
LU3099	CR	CR3099	CK(-)，TTF1(-)，CK20(3+)

参考文献

1.Hoadley KA,Yau C,Wolf DM,Cherniack AD,Tamborero D,Ng S等，Multiplatform analysis of 12cancer types reveals molecular classificationwithin and across tissues of origin.Cell 2014；158(4):929-44.

2.Comprehensive molecular characterization of gastricadenocarcinoma.Nature 2014；513(7517):202-9.

3.Comprehensive genomic characterization defines human glioblastomagenes and core pathways.Nature 2008；455(7216):1061-8.

4.Ge L,Shao GR,Wang HJ,Song SL,Xin G,Wu M等，Integrated analysis ofgene expression profile and genetic variations associated with ovariancancer.Eur Rev Med Pharmacol Sci 2015；19(14):2703-10.

5.Tentler JJ,Tan AC,Weekes CD,Jimeno A,Leong S,Pitts TM等，Patient-derived tumour xenografts as models for oncology drug development.Nat RevClin Oncol 2012；9(6):338-50.

6.Ding L,Ellis MJ,Li S,Larson DE,Chen K,Wallis JW等，Genomeremodelling in a basal-like breast cancer metastasis and xenograft.Nature2010；464(7291):999-1005.

7.Yang M,Shan B,Li Q,Song X,Cai J,Deng J等，Overcoming erlotinibresistance with tailored treatment regimen in patient-derived xenografts fromnaive Asian NSCLC patients.International journal of cancer Journalinternational du cancer 2013；132(2):E74-84.

8.Zhang L,Yang J,Cai J,Song X,Deng J,Huang X等，A subset of gastriccancers with EGFR amplification and overexpression respond to cetuximabtherapy.Sci Rep 2013；3:2992.

9.Walter AO,Sjin RT,Haringsma HJ,Ohashi K,Sun J,Lee K等，Discovery ofa mutant-selective covalent inhibitor of EGFR that overcomes T790M-mediatedresistance in NSCLC.Cancer discovery 2013；3(12):1404-15.

10.Jiang J,Wang DD,Yang M,Chen D,Pang L,Guo S等，Comprehensivecharacterization of chemotherapeutic efficacy on metastases in theestablished gastric neuroendocrine cancer patient derived xenograftmodel.Oncotarget 2015；6(17):15639-51.

11.Bladt F,Friese-Hamim M,Ihling C,Wilm C,Blaukat A，The c-MetInhibitor MSC2156119J Effectively Inhibits Tumor Growth in Liver CancerModels.Cancers(Basel)2014；6(3):1736-52.

12.Chen D,Huang X,Cai J,Guo S,Qian W,Wery JP等，A set of definedoncogenic mutation alleles seems to better predict the response to cetuximabin CRC patient-derived xenograft than KRAS 12/13mutations.Oncotarget 2015；6(38):40815-21.

13.Robinson MD,Smyth GK，Small-sample estimation of negative binomialdispersion,with applications to SAGE data.Biostatistics 2008；9(2):321-32.

14.Barretina J,Caponigro G,Stransky N,Venkatesan K,Margolin AA,Kim S等，The Cancer Cell Line Encyclopedia enables predictive modelling ofanticancer drug sensitivity.Nature 2012；483(7391):603-7.

15.Akashi Y,Oda T,Ohara Y,Miyamoto R,Hashimoto S,Enomoto T等，Histological advantages of the tumor graft:a murine model involvingtransplantation of human pancreatic cancer tissue fragments.Pancreas 2013；42(8):1275-82.

16.Daniel VC,Marchionni L,Hierman JS,Rhodes JT,Devereux WL,Rudin CM等，A primary xenograft model of small-cell lung cancer reveals irreversiblechanges in gene expression imposed by culture in vitro.Cancer research 2009；69(8):3364-73.17.Johnson JI,Decker S,Zaharevitz D,Rubinstein LV,Venditti JM,Schepartz S等，Relationships between drug activity in NCI preclinical in vitroand in vivo models and early clinical trials.British journal of cancer 2001；84(10):1424-31.

18.Voskoglou-Nomikos T,Pater JL,Seymour L，Clinical predictive valueof the in vitro cell line,human xenograft,and mouse allograft preclinicalcancer models.Clinical cancer research:an official journal of the AmericanAssociation for Cancer Research 2003；9(11):4227-39.

19.Drost J,van Jaarsveld RH,Ponsioen B,Zimberlin C,van Boxtel R,BuijsA等，Sequential cancer mutations in cultured human intestinal stemcells.Nature 2015；521(7550):43-7.

20.Chua CW,Shibata M,Lei M,Toivanen R,Barlow LJ,Bergren SK等，Singleluminal epithelial progenitors can generate prostate organoids inculture.Nature cell biology 2014；16(10):951-61,1-4.

Claims

1.一种筛选用于诊断癌症类型的标志基因的方法，所述标志基因包括第一成对差异表达基因、第二成对差异表达基因和第三成对差异表达基因，所述方法包括：

获得具有第一癌症类型的第一癌症样品的第一基因表达谱；

获得具有第二癌症类型的第二癌症样品的第二基因表达谱，其中所述第二癌症类型不同于所述第一癌症类型；

对所述第一基因表达谱与所述第二基因表达谱进行比较；

选择在所述第一基因表达谱和所述第二基因表达谱中表达差异最大的N₁个基因以产生所述第一成对差异表达基因，其中N₁是10至100之间的整数；

对所述第一基因表达谱与所述第三基因表达谱进行比较；

选择在所述第一基因表达谱和所述第三基因表达谱中表达差异最大的N₂个基因以产生所述第二成对差异表达基因，其中N₂是10至100之间的整数；

对所述第二基因表达谱与所述第三基因表达谱进行比较；

选择在所述第二基因表达谱和所述第三基因表达谱中表达差异最大的N₃个基因以产生所述第三成对差异表达基因，其中N₃是10至100之间的整数；以及

产生包含所述第一成对差异表达基因、所述第二成对差异表达基因和所述第三成对差异表达基因的标志基因，

其中所述第一癌症样品、所述第二癌症样品或所述第三癌症样品是来自癌症患者或患者来源移植瘤的手术切除样品或组织活检样品。

2.根据权利要求1所述的方法，其中N₁=N₂=N₃。

3.根据权利要求1所述的方法，其中N₁、N₂或N₃为50。

4.根据权利要求1所述的方法，其中所述第一基因表达谱或所述第二基因表达谱通过转录组测序或微阵列芯片获得。

5.根据权利要求1所述的方法，其中所述第一基因表达谱或所述第二基因表达谱由癌症基因组图谱数据集获得。

6.根据权利要求1所述的方法，其中所述表达差异最大的N₁、N₂和N₃个基因通过使用t-检验或Mann-Whitney U检验排序选择。

7.根据权利要求1所述的方法，其中所述第一、第二或第三癌症类型是结肠腺癌、直肠腺癌、肺腺癌、肺鳞状细胞癌、头颈部鳞状细胞癌、肝脏肝细胞癌或胰腺腺癌。

8.根据权利要求1所述的方法，其中所述标志基因具有m个基因，其中m是5至300之间的整数。