CN113234825A

CN113234825A - 癌症预后方法

Info

Publication number: CN113234825A
Application number: CN202110496484.3A
Authority: CN
Inventors: 王晨阳; 林静; 李冰思; 揣少坤; 张之宏; 汉雨生
Original assignee: Guangzhou Burning Rock Dx Laboratory Co ltd
Current assignee: Guangzhou Burning Rock Dx Laboratory Co ltd
Priority date: 2020-05-09
Filing date: 2021-05-07
Publication date: 2021-08-10
Also published as: WO2021227950A1

Abstract

本公开提供了对癌症患者进行预后的方法，其涉及基于患者的癌症组织样本和癌旁组织样本的基因组中甲基化差异预测患者的复发风险和/或存活。本公开还提供了用于对癌症患者进行预后的***和设备。

Description

癌症预后方法

本申请要求于2020年05月09日递交的申请号为202010385996.8，发明名称为“癌症预后方法”的中国专利申请的优先权，在此全文引用上述专利申请的内容以作为本申请的一部分。

技术领域

本公开一般涉及生物检测和诊断领域。具体而言，本公开涉及基于患者的癌症组织样本和癌旁组织样本的基因组中甲基化差异对患者进行预后的方法。本公开还涉及用于对癌症患者进行预后的***和设备。

技术背景

在全球范围内，癌症是导致死亡和疾病负担的主要原因之一。癌症预后是对个体当前医疗状况可能的结果进行预测，其是改善患者诊断和治疗管理的重要工具。准确的预后对于选择正确的癌症治疗方法和预测生存率至关重要。目前临床上主要根据肿瘤的临床分期及病理分析，并辅助一些相关分子学特征(如免疫组化，DNA突变，mRNA或microRNA表达量等)对患者的预后进行评估和预测。但上述的分子评估方法尚存在很大局限性，一方面，如乳腺癌中21基因类的分子标志物可对患者术后复发风险做出精准预测，为乳腺癌患者带来显著的临床获益，并由此进入乳腺癌的诊疗指南；另一方面，具有高准确性和临床应用效能的分子标志物还非常匮乏，绝大多数的癌种在临床上仍然需要对患者进行频繁的影像学随访来进行病程监控，对患者会造成一定的负担，并且对肿瘤进展的发现可能存在滞后。因此，能够独立于病理分期和其他临床因素，准确预测患者预后的分子标志物具有巨大的临床需求。

在许多研究中，已经证明了DNA甲基化变异与癌症的发生密切相关，而且相比于基因突变，DNA甲基化的变异具有覆盖区域更广，稳定性更高，发生时间更早等特点，因此更适合用于癌变的早期检测。然而，使用DNA甲基化变异对癌症患者进行预后预测的方法和策略还非常缺乏。

发明内容

“区域癌变”的理论认为，正常组织在某种机制的作用下，会逐渐从分子层面上开始开始癌变的进程，这一变化首先会出现在DNA上。基于“区域癌变”的理论，本发明人设计了一种全新的利用DNA甲基化检测技术来预测癌症患者预后复发风险的***——癌旁组织恶性占比(malignancy density ratio，简称MD ratio)评估***。

MD ratio评估***基于以下理论，即患者体内的正常组织正处于从正常细胞向癌细胞转化的过程中，通过甲基化变异的检测，评估癌变的进程，从而对患者肿瘤复发的风险作出预测。相比于传统检测，MD ratio评估***仅仅通过对来自患者的组织样本进行检测来预测患者的复发风险，从而能够更好地对患者进行预后管理，避免了术后频繁的随访，具有简便、高效、个性化的特征，因此在预后管理中具备更好的应用前景。并且，在真实样本的分析中，该***比突变检测预测复发具有更高的准确性。

相应地，在一方面，本公开涉及一种对癌症患者进行预后的方法，所述方法包括：

a.通过高通量测序检测来自所述患者的癌症组织和癌旁组织的基因组的一个或多个区域中的甲基化水平；

b.确定所述甲基化水平在所述癌症组织和所述癌旁组织之间的差异；和

c.使用所述甲基化水平的差异信息，通过数学建模的方法对所述患者进行预后，

其中所述甲基化水平在所述癌症组织和所述癌旁组织之间的差异越小，指示所述患者的预后越差。

在一些实施方案中，所述方法包括：

b.确定所述癌症组织和癌旁组织中的差异甲基化区块(DMB)，包括：

b1.对于检测的区域内的每个CpG位点，将覆盖该位点的读段中发生甲基化的个数记为M，未发生甲基化的个数记为U；

b2.将相邻的CpG位点进行组合并定义为甲基化区块(MB)；将患者的第i个MB中所有CpG位点上的M相加，记为M_i；所有U相加，记为U_i；总覆盖为N_i＝M_i+U_i，甲基化水平为β_i＝M_i/N_i；

b3.对于第i个MB，将癌症组织中的甲基化水平记为β_i ^(T)＝M_i ^(T)/N_i ^(T)，将癌旁组织中甲基化水平记为β_i ^(A)＝M_i ^(A)/N_i ^(A)，其中将β_i ^(T)值和β_i ^(A)值存在显著差异的MB确定为DMB；

c.对所述患者进行预后，包括：

c1.引入指示所述患者的癌旁组织和癌症组织的甲基化水平的相似程度的参数α并通过以下算法计算患者的α值：

其中0＜α＜1且α取值越大指示所述相似程度越高，其中f(·),g(·),h(·)分别表示癌旁组织的甲基化水平的条件分布，癌症组织的甲基化水平的先验分布和基线甲基化水平的先验分布，

表示先验分布的参数族；

c2.在0＜α＜1的范围内使用极大似然估计算法计算参数估计

并通过fisher信息矩阵计算参数估计的方差

c3.计算每一位患者癌旁组织零假设α＝0的p值，

其中，p值越小指示所患者的预后越差。

在一些实施方案中，在步骤b2中将相邻的CpG位点进行组合可以是例如将距离小于50bp、距离小于100bp、距离小于150bp、距离小于200bp、距离小于250bp、距离小于300bp、距离小于350bp、距离小于400bp、距离小于450bp或距离小于500bp的CpG位点进行组合。在一些实施方案中，在步骤b2中将距离小于50bp或距离小于100bp的CpG位点进行组合。

在一些实施方案中，在步骤b3中将β_i ^(T)值和β_i ^(A)值存在显著差异的MB确定为DMB可以是例如将|β_i ^(T)-β_i ^(A)|>σ，且

的MB确定为DMB，其中σ为0.05至1之间的值且τ为大于0.1的值。在一些实施方案中，σ＝0.1且τ＝0.4。

在上述方法的一些实施方案中，在步骤c1中通过以下算法计算所述患者的α值：

其中，l(α)为观测数据的对数似然函数，p_i ⁽⁰⁾,q_i ⁽⁰⁾为第i个MB的基线甲基化水平所服从的Beta-binomial分布(p_i ⁽⁰⁾,q_i ⁽⁰⁾)中的形状参数。

在一些实施方案中，所述基因组的一个或多个区域是在所述癌症患者的群体中存在甲基化变异的基因组的区域。例如，可以通过公共数据库获得在具体癌症种类的患者群体中，已知存在甲基化变异的基因组的区域，并用于本公开的检测方法。例如，可以从这些公共数据库下载各种癌症患者群体中的癌症组织及癌旁样本的甲基化芯片数据，并利用这些数据确定与每种癌症的发生密切相关的甲基化特征区域。可以利用例如参数检验法(如t检验，线性回归等)、非参数检验法(如wilcoxon秩和检验等)进行确定。上述公共数据库例如TCGA(The Cancer Genome Atlas)数据库和GEO(Gene Expression Omnibus)数据库。

在一些实施方案中，所述基因组的一个或多个区域覆盖至少0.3M(兆碱基)的区域，例如至少0.3M、0.4M、至少0.5M、至少0.6M、至少0.7M、至少0.8M、至少0.9M或至少1.0M的区域。

在一些实施方案中，所述基因组的一个或多个区域覆盖基因组约0.3M-10.0M的区域，例如0.3M-5.0M、0.3M-4.0M、0.3M-3.0M的区域、0.3M-2.0M的区域、0.3M-1.5M的区域、0.3M-1.0M的区域、0.4M-5.0M的区域、0.4M-4.0M的区域、0.4M-3.0M的区域、0.4M-2.0M的区域、0.4M-1.5M的区域、0.4M-1.0M的区域、0.5M-5.0M的区域、0.5M-4.0M的区域、0.5M-3.0M的区域、0.5M-2.0M的区域、0.5M-1.5M的区域、0.5-1.0M的区域，或1.0M-5.0M的区域、1.0M-4.0M的区域、1.0M-3.0M的区域、1.0M-2.0M的区域或1.0M-1.5M的区域。上述范围还包括端点值和其间的任何子集范围。

在一些实施方案中，所述癌症是实体瘤。实体瘤的实例包括但不限于肺癌(包括小细胞肺癌、非小细胞肺癌、肺腺癌和肺鳞状细胞癌)、结直肠癌、肝癌、卵巢癌、胰腺癌、胆囊癌、胃癌、食管癌、肾癌、黑色素瘤、乳腺癌、***、子宫内膜癌、***癌、膀胱癌、睾丸癌、甲状腺癌、唾液腺癌、皮肤癌、鳞状细胞癌、神经母细胞瘤、胶质母细胞瘤、视网膜母细胞瘤、淋巴瘤(包括霍奇金淋巴瘤和非霍奇金淋巴瘤)、骨癌、骨髓瘤、基底细胞癌、腹膜癌、绒毛膜癌、眼癌、头颈癌、喉癌、口腔癌和横纹肌肉瘤等。

在一些实施方案中，所述癌症可以选自肺癌、结直肠癌、肝癌、卵巢癌、胰腺癌、胆囊癌、胃癌和食管癌。

在一些实施方案中，所述癌症是原发性癌症。在另一些实施方案中，所述癌症是继发性或转移性癌症。所述癌症可以处于癌症发展的任何阶段，例如癌症发展的早期、中期或晚期，或所述癌症可以处于临床分期I期、II期、III期或IV期。

在一些实施方案中，所述癌症是肺癌，例如非小细胞肺癌(NSCLC)。在所述癌症是肺癌的情况下，检测的基因组的一个或多个区域可以包括选自表1中所列的一个或多个区域。

表1.

在一些实施方案中，所述癌症是肺癌，且检测的基因组的一个或多个区域包括选自表1中所列的至少100个区域、至少200个区域、至少300个区域、至少400个区域、至少500个区域、至少600个区域、至少700个区域、至少800个区域、至少900个区域，或至少1000个区域。在一些实施方案中，所述检测的基因组的一个或多个区域包括选自表1中所列的所有区域。

在一些实施方案中，所述癌症患者已经经历先前的癌症治疗方法，例如手术治疗、放射治疗、化学治疗、靶向药物治疗、免疫治疗或其组合。

在上述方法的一些实施方案中，使用的癌症组织和癌旁组织可以是从所述患者手术切除的组织。

在上述方法的一些实施方案中，使用来自正常组织(例如，来自健康供体的正常组织)的甲基化数据建立所述基线甲基化水平，包括：

对于第i个MB，将正常组织的甲基化数据记为M_i ⁽⁰⁾和N_i ⁽⁰⁾，认为在给定N_i ⁽⁰⁾的条件下M_i ⁽⁰⁾服从形状参数为(p_i ⁽⁰⁾,q_i ⁽⁰⁾)的Beta-binomial分布：

M_i ⁽⁰⁾|N_i ⁽⁰⁾,β_i ⁽⁰⁾～Binomial(N_i ⁽⁰⁾,β_i ⁽⁰⁾)

β_i ⁽⁰⁾～Beta(p_i ⁽⁰⁾,q_i ⁽⁰⁾)，

并利用极大似然算法计算参数p_i ⁽⁰⁾和q_i ⁽⁰⁾。

在上述方法的一些实施方案中，在步骤c3中通过Wald检验来计算所述p值。在另一些实施方案中，通过例如似然比检验来计算所述p值。

在上述方法的一些实施方案中，所述方法用于预测所述癌症患者的术后复发风险和/或存活。在一些实施方案中，将p＜0.05的患者鉴定为具有高复发风险和/或低术后存活。

在第二个方面，本公开涉及一种用于对癌症患者进行预后的***，所述***包括：

甲基化检测模块；和

预后分析模块，

其中，所述甲基化测序模块配置为通过高通量测序检测来自所述患者的癌症组织和癌旁组织的基因组的一个或多个区域中的甲基化水平，且所述预后分析模块配置为通过以下方法对所述患者进行预后：

a.确定所述甲基化水平在所述癌症组织和所述癌旁组织之间的差异；和

b.使用所述甲基化水平的差异信息，通过数学建模的方法对所述患者进行预后，

在一些实施方案中，所述***配置为用于实施根据本公开的第一个方面的预后方法。

在一些实施方案中，所述预后分析模块配置为通过以下方法对所述患者进行预后：

a.确定所述癌症组织和癌旁组织中的差异甲基化区块(DMB)，包括：

a1.对于检测的区域内的每个CpG位点，将覆盖该位点的读段中发生甲基化的个数记为M，未发生甲基化的个数记为U；

a2.将相邻的CpG位点进行组合并定义为甲基化区块(MB)；将患者的第i个MB中所有CpG位点上的M相加，记为M_i；所有U相加，记为U_i；总覆盖为N_i＝M_i+U_i，甲基化水平为β_i＝M_i/N_i；

a3.对于第i个MB，将癌症组织中的甲基化水平记为β_i ^(T)＝M_i ^(T)/N_i ^(T)，将癌旁组织中甲基化水平记为β_i ^(A)＝M_i ^(A)/N_i ^(A)，其中将β_i ^(T)值和β_i ^(A)值存在显著差异的MB确定为DMB；

b.对所述患者进行预后，包括：

b1.引入指示所述患者的癌旁组织和癌症组织的甲基化水平的相似程度的参数α并通过以下算法计算患者的α值：

其中0＜α＜1且α取值越大指示所述相似程度越高，其中f(·),g(·),h(·)分别表示癌旁组织的甲基化水平条件分布，癌症组织的甲基化水平先验分布和基线甲基化水平的先验分布，

表示先验分布的参数族；

b2.在0＜α＜1的范围内使用极大似然估计算法计算参数估计

并通过fisher信息矩阵计算参数估计的方差

b3.计算每一位患者癌旁组织零假设α＝0的p值，

其中，p值越小指示所患者的预后越差。

在一些实施方案中，所述预后分析模块配置为在步骤a2中将距离小于50bp、距离小于100bp、距离小于150bp、距离小于200bp、距离小于250bp、距离小于300bp、距离小于350bp、距离小于400bp、距离小于450bp或距离小于500bp的CpG位点进行组合。在一些实施方案中，所述预后分析模块配置为在步骤b2中将距离小于50bp或距离小于100bp的CpG位点进行组合。

在一些实施方案中，所述预后分析模块配置为在步骤b3中将|β_i ^(T)-β_i ^(A)|>σ，且

在一些实施方案中，所述预后分析模块配置为在步骤b1中通过以下算法计算所述患者的α值：

在一些实施方案中，所述预后分析模块进一步配置为使用来自正常组织的甲基化数据建立所述基线甲基化水平，包括：

β_i ⁽⁰⁾～Beta(p_i ⁽⁰⁾,q_i ⁽⁰⁾)，

并利用极大似然算法计算参数p_i ⁽⁰⁾和q_i ⁽⁰⁾。

在上述***的一些实施方案中，所述***进一步配置为在步骤b3中通过Wald检验来计算所述p值。在另一些实施方案中，通过例如似然比检验来计算所述p值。

在上述***的一些实施方案中，所述***进一步配置为预测所述癌症患者的术后复发风险和/或存活。在一些实施方案中，将p＜0.05的患者鉴定为具有高复发风险和/或低术后存活。

在第三个方面，本公开涉及一种用于对癌症患者进行预后的设备，其包括：

用于存储计算机程序指令的存储器；和

用于执行计算机程序指令的处理器，

其中当所述计算机程序指令由所述处理器执行时，所述设备执行根据本公开的第一个方面所述的方法。

在第四个方面，本公开涉及一种计算机可读介质，所述计算机可读介质存储有计算机程序指令，其中当所述计算机程序指令被处理器执行时实现根据本公开的第一个方面所述的方法。

附图说明

图1显示了使用MD ratio方法，通过检测患者的癌症组织和癌旁组中如表1中所列的基因组区域预测的复发高危和复发低危患者的无病生存期(DFS)结果的折线图。

图2显示了使用MD ratio方法，通过检测患者的癌症组织和癌旁组中如表3中所列的基因组区域预测的复发高危和复发低危患者的无病生存期(DFS)结果的折线图。

图3显示了使用MD ratio方法，通过检测患者的癌症组织和癌旁组中如表4中所列的基因组区域预测的复发高危和复发低危患者的无病生存期(DFS)结果的折线图。

具体实施方式

下面结合具体实施例来进一步描述本发明，本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的，并不对本发明的范围构成任何限制。本领域技术人员应该理解的是，在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换，但这些修改和替换均落入本发明的保护范围内。

数据准备

MD ratio评估***的主要策略是通过对组织样本的甲基化水平测序，寻找患者体内癌组织和正常组织(例如癌旁组织)的基因组中甲基化状态有差异的区域。基于癌旁组织正处于从正常细胞向癌细胞转化的过程中，计算癌旁组织的甲基化水平在差异区域上与癌组织甲基化水平的近似程度，进而推断患者体内正常细胞发生癌变的风险水平。

癌症复发风险MD ratio评估***检测患者的癌症组织和癌旁组织样本。以肺癌为例，在肺叶切除手术和肺段切除术中，将癌旁组织定义为切缘5cm外的组织；在楔形切除手术中，将癌旁组织定义为切缘3cm外的组织，并通过组织细胞的病理学评估验证不含有肿瘤细胞；同时，癌症组织和癌旁组织的细胞类型一致。此外，使用68例来自健康供体(年龄分布为30-86岁；中位数年龄为57.5岁；35名男性和33名女性)的正常组织样本进行基线构建过程，上述样本同样经过病理学评估验证不含有肿瘤细胞，且与癌症组织的细胞类型一致。

样本的文库制备采用brELSATM method(Burning Rock Biotech,Guangzhou,China)，包括以下步骤：1)DNA提取和纯化；2)亚硫酸氢钠处理；3)通过DNA聚合酶对单链DNA进行扩增；4)使用定制的癌症甲基化谱RNA诱饵富集如表1所示的目标区域(覆盖了人类基因组约0.9M的区域)；5)通过实时PCR对目标文库进行定量。最后使用Illumina公司发布的测序仪NovaSeq 6000进行测序，平均测序深度为1000层。

对测序的原始输出文件，使用序列比对软件BWA-meth和甲基化数据统计软件MethylDackel进行分析，得到每个样本的甲基化检测输出文件。其中包含在特异性捕获区域内每个CpG位点的位置信息，以及覆盖此位点的读段中的甲基化信息。将覆盖此位点的读段中发生甲基化的个数记为M，未发生甲基化的个数记为U。将相邻CpG位点(距离小于50bp)进行组合，这种由多个CpG位点组成的集合称为甲基化区块(methylation block，MB)。将患者的第i个MB中所有位点上的M相加，记为M_i，所有U相加记为U_i，总的覆盖数记为N_i(N_i＝M_i+U_i)，甲基化水平记为β_i(β_i的矩估计

差异甲基化区域筛选、观测数据建模和参数求解

为了检测患者的癌旁组织与癌症组织近似而不同于正常组织的程度，将研究目标锁定在癌症组织和癌旁组织的基因组中有甲基化差异的区域，定义为差异甲基化区块(differential methylated block，简称DMB)。

为了筛选癌症患者的个体的DMB，使用患者的癌症组织样本的甲基化水平β^(T)与癌旁组织样本的甲基化水平β^(A)进行检验。对于第i个MB，将癌症组织中的甲基化水平记为β_i ^(T)＝M_i ^(T)/N_i ^(T)，将癌旁组织中甲基化水平记为β_i ^(A)＝M_i ^(A)/N_i ^(A)，将符合|β_i ^(T)-β_i ^(A)|>0.1，且

的MB确定为该患者的个性化DMB。

为了建立相应的统计学模型，首先利用正常的组织样本(如实施例1中所述)来建立甲基化水平的基线。对于第i个MB，将正常组织的甲基化数据记为M_i ⁽⁰⁾和N_i ⁽⁰⁾，认为在给定N_i ⁽⁰⁾的条件下M_i ⁽⁰⁾服从形状参数为(p_i ⁽⁰⁾,q_i ⁽⁰⁾)的Beta-binomial分布：

β_i ⁽⁰⁾～Beta(p_i ⁽⁰⁾,q_i ⁽⁰⁾)，

其中β_i ⁽⁰⁾表示基线真实的甲基化程度，利用极大似然算法(maximum likelihoodestimation，简称MLE)求解形状参数{p_i,q_i}，将参数的极大似然估计值记为{p_i ⁽⁰⁾,q_i ⁽⁰⁾}。

对于癌症患者，认为其癌旁组织样本的甲基化测序数据(M_i ^(A)，N_i ^(A)，β_i ^(A))服从一个混合Beta-Binomial分布，具体可以表示为：

M_i ^(A)|N_i ^(A)，β_i ^(A)～Binomial(N_i ^(A)，β_i ^(A))

β_i ^(A) _i＝αβ_i ^(T)+(1-α)β_i ⁽⁰⁾

β_i ⁽⁰⁾～Beta(p_i ⁽⁰⁾，q_i ⁽⁰⁾)

其中β_i ^(T)表示该患者癌症组织的甲基化水平，可以用癌症组织样本测序数据的矩估算

代替；β_i ⁽⁰⁾表示基线的甲基化水平，如上所述其服从形状参数为(p_i ⁽⁰⁾，q_i ⁽⁰⁾)的Beta分布。α为[0，1]上的比例参数，表示癌旁组织和癌症组织的相似性。α越接近于1则说明癌旁组织的甲基化程度越接近癌症组织，可以推断患者的复发风险越高。

根据以上的分布，可以写出观测数据的对数似然函数:

参数α满足：

0<α<1

通过极大似然算法计算参数α，在0＜α＜1的范围内使用拟牛顿算法计算参数估计

并通过fisher信息矩阵计算参数估计的方差

通过癌旁组织与癌症组织的相似性来推测癌症的复发风险：对参数α的零假设：α＝0进行统计推断。利用Wald检验来推断零假设：

在自由度为1的卡方分布下可以计算每一位患者癌旁组织α＝0的p值，p值越小则表示患者的癌旁组织与癌症组织越相似，未来癌症的复发风险也越大。

癌症复发风险MD ratio的数值模拟检测结果

应用beta-binomial混合模型来生成模拟数据，参数设置为N_i＝1000，m_i＝1000，p_i ⁽⁰⁾＝11，q_i ⁽⁰⁾＝383，其中p_i ⁽⁰⁾和q_i ⁽⁰⁾的取值来源于正常组织样本的极大似然值。α分别取值0，0.001，0.003，0.01，0.003，0.1，每组参数重复50次。数值模拟结果如下表2所示。

表2.

其中，Bias表示

的均值，MSE表示

的均值，Std表示

的标准差，Wald表示Wald检验的中位数，Power表示p-value<0.05的概率。从表中可以看出极大似然的算法误差非常小；假阳率＝0.06，检验功效＝1，符合预期。

实施例2.癌症复发风险MD ratio的真实样本检测结果

使用如上所述的MD ratio评估***对39名IA期非小细胞肺癌患者(年龄分布为40-82岁；中位数年龄为61岁；24名男性和15名女性)的癌症组织样本和癌旁组织样本进行检测。检测癌症组织和癌旁组织中如表1中列出的基因组区域的甲基化水平。通过上述算法计算患者的p值。依据检验p-value<0.05，将检测结果分为两组：复发高危和复发低危，其无病生存期(DFS)结果如图1所示。

从图1的结果可以看出，相比于低危患者，高危患者的复发更快，两组患者的DFS差异具有显著的统计学意义(p-value＝0.039)。上述结果证明MD ratio评估***可以用于准确预测癌症患者的复发风险以及后续存活。

为了进一步验证MD ratio评估***对癌症患者进行预后的效果，检测癌症组织和癌旁组织中如表4和表5中列出的基因组区域(其分别包括从表1中随机选取的522个和532个区域，分别覆盖基因组中约0.47M和约0.48M的区域)的甲基化水平。通过相同的算法计算患者的p值，并依据检验p-value<0.05，将检测结果分为复发高危和复发低危，其无病生存期(DFS)结果分别如图2和图3所示。

表3.

表4.

为了对比MD ratio评估***与传统的肿瘤驱动基因检测在对癌症患者进行预后中的有效性，使用体细胞突变检测的方法将主要的突变类型EGFR 19del和EGFR L858R和DFS的相关性与MD ratio评估***检测结果和DFS的相关性进行比较，结果如表5所示。其中，MD ratio-1表示通过检测表1所示的区域获得的结果(对应图1)；MD ratio-2和MD-ratio-3分别表示通过检测表3和表4所示的区域获得的结果(分别对应图2和图3)。

表5.

	p-value	harzard ratio(HR)
			EGFR L858R	0.230	0.464
EGFR 19del	0.130	2.442
			MD ratio-1	0.039	4.692
MD ratio-2	0.030	3.401
			MD ratio-3	0.018	4.453

上述结果表明，MD ratio评估***比somatic检测能够更有效的评估患者的癌症复发风险以及后续存活，在患者的预后管理和临床治疗上发挥更好的作用。

Claims

1.一种对癌症患者进行预后的方法，所述方法包括：

2.如权利要求1所述的方法，包括：

c.对所述患者进行预后，包括：

表示先验分布的参数族；

c2.在0＜α＜1的范围内使用极大似然估计算法计算参数估计

并通过fisher信息矩阵计算参数估计的方差

c3.计算每一位患者癌旁组织零假设α＝0的p值，

其中，p值越小指示所患者的预后越差。

3.如权利要求2所述的方法，其中可选地包含如下任意一个或多个特征：

(1)在步骤b2中将距离小于50bp或距离小于100bp的CpG位点进行组合；

(2)在步骤b3中将|β_i ^(T)-β_i ^(A)|>σ，且

的MB确定为DMB，其中σ为0.05至1之间的值且τ为大于0.1的值；

优选的，σ＝0.1且τ＝0.4；

(3)在步骤c1中通过以下算法计算所述患者的α值：

l(α)＝∑_ilogL(α；M_i ^(A),N_i ^(A),p_i ⁽⁰⁾，q_i ⁽⁰⁾，β_i ^(T))

其中，l(α)为观测数据的对数似然函数，p_i ⁽⁰⁾,q_i ⁽⁰⁾为第i个MB的基线甲基化水平所服从的Beta-binomial分布(p_i ⁽⁰⁾,q_i ⁽⁰⁾)中的形状参数；

(4)在步骤c3中通过Wald检验来计算所述p值；

(5)将p＜0.05的患者鉴定为具有高复发风险和/或低术后存活。

4.如权利要求1-3中任一项所述的方法，其中可选地包含如下任意一个或多个特征：

(1)所述基因组的一个或多个区域是在所述癌症患者的群体中存在甲基化变异的基因组的区域；

(2)所述基因组的一个或多个区域覆盖基因组至少0.3M(兆碱基)的区域，例如0.3M-5M的区域；

(3)所述方法用于预测所述癌症患者的术后复发风险和/或存活。

5.如权利要求1-4中任一项所述的方法，其中所述癌症选自肺癌、结直肠癌、肝癌、卵巢癌、胰腺癌、胆囊癌、胃癌和食管癌；优选的，其中所述癌症是肺癌，例如非小细胞肺癌(NSCLC)；优选的，其中所述基因组的一个或多个区域包括选自表1中所列的一个或多个区域；优选的，其中所述癌症组织和癌旁组织是从所述患者手术切除的组织。

6.如权利要求2-5中任一项所述的方法，其中使用来自正常组织的甲基化数据建立所述基线甲基化水平，包括：