CN113817822B

CN113817822B - 一种基于甲基化检测的肿瘤诊断试剂盒及其应用

Info

Publication number: CN113817822B
Application number: CN202010564746.0A
Authority: CN
Inventors: 焦宇辰; 曲春枫; 宋欠欠; 王宇婷; 王沛; 王京京; 陈坤; 王思振
Original assignee: Genetron Health Beijing Co ltd; Cancer Hospital and Institute of CAMS and PUMC
Current assignee: Genetron Health Beijing Co ltd; Cancer Hospital and Institute of CAMS and PUMC
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2024-02-13
Anticipated expiration: 2040-06-19
Also published as: CN113817822A

Abstract

本发明公开了一种基于甲基化检测的肿瘤诊断试剂盒及其应用。本发明建立了一种基于低深度全基因组测序的肿瘤预测指标，即低深度全基因组甲基化特征，依据低深度全基因组甲基化特征，可以在肿瘤/非肿瘤样本中，通过随机森林算法建立预测模型，实现肿瘤样本的早期筛查。本发明的肿瘤预测指标具有很好的实用性和广泛的应用前景。

Description

一种基于甲基化检测的肿瘤诊断试剂盒及其应用

技术领域

本发明涉及生物医学领域一种基于甲基化检测的肿瘤诊断试剂盒及其应用。

背景技术

循环肿瘤DNA(circulating tumor DNA，ctDNA)，含有肿瘤特异性的基因组变异和表观修饰特征，可以应用于癌症早期筛查、诊断和分期、指导靶向用药、疗效评估、复发监测等各方面。目前肿瘤液体活检通常利用PCR和靶向测序技术，检测某一组特定的基因水平变异或表观基因组变异，如ctDNA点突变、基因融合、特异基因的甲基化等。1)PCR技术成本低、操作简便，通常用于检测一个或几个已知变异，无法检测基因融合等复杂突变，无法检测未知突变，覆盖范围较小；2)靶向测序技术适合多重靶标检测，包括复杂突变，但试剂盒一般价格昂贵、操作复杂、耗时较长。在应用过程中，需要根据靶标的数量和特性，选取适合的检测方法。基于NGS平台的ctDNA基因组变异检测，由于受到ctDNA在cfDNA(cell free DNA,即在血液中游离的自身DNA)中占比较低的限制，实质上都是低频变异的检测，对于检测方法的灵敏度、检测下限有较高要求，需要保证较高的测序深度，检测费用较高，难以大规模推广；此外，检测范围局限在预先设定的靶标基因区域内，受目标区域选取的影响较大，不同的检测组合预测结果波动性较大。

而使用基于低深度全基因组测序的指标，能够克服上述问题。现有指标包括：ctDNA结构(片段大小、断点分布)、拷贝数变异等，也可作为肿瘤的标志性特征。这些标志物可在低深度测序下获得，检测成本低，易于大规模人群早筛。其中，1)ctDNA的片段大小、断点分布等结构性特征，往往与核小体占位、转录因子结合、开放染色质区域等基因功能区相关。Stephen Cristiano等在1-2×的测序深度下，通过计算肿瘤特征区域内100-150bp短cfDNA片段数/151-220bp长cfDNA片段数的比值，对肿瘤/健康诊断的ROC曲线下面积AUC＝0.94，其中对7种不同癌种的预测灵敏度>70％，特异性95％(Cristiano et al.,2019)。KunSun等在3.2×的测序深度下，计算组织特异开放染色质区域的cfDNA断点丰度，发现HCC样本的断点丰度指标显著高于健康样本，表明这一指标具有区分肿瘤/健康样本的能力(Sunet al.,2019)；2)血液中ctDNA拷贝数的变化(Copy number variations,CNV)是除癌症基因突变或基因融合以外引起癌变的一种主要DNA结构性变异，很多肿瘤都具有特定的CNV。例如肝癌样本中，拷贝数异常倾向于发生在chr1和chr8两条染色体上(Jiang et al.,2015)；根据全基因组拷贝数结果计算绝对离差中位数t-MAD，对肿瘤/健康样本诊断的AUC＝0.69(Florent Mouliere et al.,2018)。

现有的基于低深度全基因组测序的液体活检标志物，仅限于上述依赖于基因组序列信息的指标，尚未将低测序深度下的甲基化特征纳入考虑；从实验方法上，也尚未建立同时记录ctDNA中的基因组序列和甲基化修饰这两种重要的肿瘤特异标志物的文库构建方法，现有的基因变异检测和甲基化检测需要遵循不同的技术路线，取两份样本单独构建文库。

发明内容

本发明的目的首先在于提供一种基于甲基化检测的肿瘤诊断试剂盒。

所述基于甲基化检测的肿瘤诊断试剂盒，包括特征检测试剂，所述特征检测试剂包括DNA甲基化特征检测试剂，所述DNA甲基化特征包括：区域内甲基化的DNA分子数比值和/或区域内甲基化的DNA分子长度比值；

所述区域内甲基化的DNA分子数比值包括：区域内甲基化的DNA分子数与全基因组DNA总分子数的比值，和/或，区域内甲基化的DNA分子数与区域内甲基化的DNA分子数和非甲基化的DNA分子数总和的比值；

所述区域内甲基化的DNA分子长度比值包括：区域内短片段甲基化的DNA分子数和长片段甲基化的DNA分子数的比值，和/或，区域内小片段甲基化的DNA分子数与小片段甲基化的DNA分子数和长片段甲基化的DNA分子数总数的比值。

上述试剂盒中，所述DNA分子为cfDNA分子或者全基因组打断后的DNA分子片段；

所述甲基化的DNA分子为含有甲基化位点的DNA分子(即发生甲基化的DNA分子)；所述非甲基化的DNA分子为不含有甲基化位点的DNA分子(即未发生甲基化的DNA分子)。

所述甲基化的DNA分子、非甲基化的DNA分子的获得和甲基化的检测，可以通过DNA甲基化测序方法得到，例如：重亚硫酸盐测序、基于限制性内切酶(如HhaI)的测序、靶向富集甲基化位点测序。

例如，重亚硫酸盐测序方法中：

甲基化的DNA分子为：含有未被转化为T的C碱基的分子；

非甲基化的DNA分子为：含有被转化为T的C碱基的分子。

靶向富集甲基化位点测序方法，例如抗体富集中：

甲基化的DNA分子为：被甲基化抗体捕获的分子；

非甲基化的DNA分子为：未被甲基化抗体捕获的分子。

所述DNA分子为cfDNA分子或者全基因组打断后的DNA分子片段，取决于检测样本，例如，当检测的样本为血液样本时，所述DNA分子为cfDNA分子，当检测的样本为组织样本时，所述DNA分子为全基因组打断后的DNA分子片段。

上述试剂盒中，所述DNA甲基化特征还包括：

区域内存疑的DNA分子长度比值；

所述区域内存疑的DNA分子长度比值包括：区域内短片段存疑的DNA分子数和长片段存疑的DNA分子数的比值，和/或，区域内小片段存疑的DNA分子数与小片段存疑的DNA分子数和长片段存疑的DNA分子数总数的比值；

所述存疑的DNA分子为检测过程中无法判断为甲基化或非甲基化的DNA分子。例如，在以cfDNA为样本，在基于限制性内切酶的测序方法中，使用甲基化敏感的限制性内切酶酶切后，会产生存疑的DNA分子。因为不同的甲基化敏感的限制性内切酶会识别不同的特定序列，那么在酶切过程中，没有特定序列的DNA分子，不被甲基化敏感的限制性内切酶识别，那么就无法得知是否具有甲基化，则为存疑的DNA分子。例如，采用限制性内切酶HhaI酶切，HhaI酶会识别GCGC序列，酶切后会产生：甲基化的DNA分子、非甲基化的DNA分子和存疑的DNA分子。

例如，采用基于限制性内切酶HhaI的测序进行甲基化检测，各分子如下：

所述甲基化的DNA分子为：含有序列GCGC且不能被HhaI酶切的DNA分子；

所述非甲基化的DNA分子为：含有序列GCGC且能被HhaI酶切的DNA分子；

所述存疑的DNA分子为：不含有序列GCGC的DNA分子。

上述试剂盒中，所述短片段为S1-S2之间的片段，所述长片段为(S2+1)-S3之间的片段，所述小片段为小于S1的片段；

所述S1为1-100bp，例如，所述S1为10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp或100bp；例如，所述S1为5bp、15bp、25bp、35bp、45bp、55bp、65bp、75bp、85bp或95bp。

所述S2为150-169bp，例如，所述S2为150bp、152bp、155bp、157bp、160bp、162bp、165bp、167bp或169bp。

所述S3为151-250bp，例如的，所述S3为151-220bp；例如，所述S3为200-250bp；所述S3为160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp或250bp。

所述区域包括全基因组和/或特定区域，所述特定区域包括CpG岛区、启动子区、肿瘤特异区、bin区中的一种或一种以上。

例如，可以单独检测全基因组的DNA甲基化特征，可以同时检测全基因组区域和CpG岛区、启动子区、肿瘤特异区、bin区中的其中一种或几种；或者检测CpG岛区、启动子区、肿瘤特异区、bin区中的其中一种或几种。

例如，当S1为100bp、S2为150bp、S3为220bp时，所述区域为全基因组时，小片段、短片段和长片段在特征中的标示为：

短片段甲基化的DNA分子数和长片段甲基化的DNA分子数的比值为：全基因组100-150bp甲基化的DNA分子数/全基因组151-220bp甲基化分子数；小片段甲基化的DNA分子数和小片段甲基化的DNA分子数和长片段甲基化的DNA分子数总数的比值为：全基因组<100bp甲基化分子数/(全基因组<100bp甲基化分子数+全基因组151-220bp甲基化分子数)。

所述CpG岛区为长度500-1000bp且GC含量>50％的区域。

所述启动子区域是指全基因组中的启动子区域。

例如，所述CpG岛区、启动子区可以根据已知数据库中，例如NCBI,USCS等进行划分。

所述肿瘤特异区是指根据不同的肿瘤特异的基因marker组区域进行划分。

所述bin区是指将全基因组划分若干bin得到的，例如，将全基因组按长度均匀或不均匀划分成若干bin区；例如，按5Mb/bin划分，每个bin不跨越着丝粒，着丝粒边缘的bin允许小于5Mb。

上述试剂盒中，进一步的，对于特定区域，区域内甲基化的DNA分子数比值还包括区域内甲基化的DNA分子数占全基因组甲基化的DNA分子总数的比值。

例如，对于CpG岛区，甲基化的DNA分子数比值还包括CpG岛区甲基化的DNA分子数占全基因组甲基化的DNA分子总数的比值。

例如，对于启动子区，甲基化的DNA分子数比值还包括启动子区甲基化的DNA分子数占全基因组甲基化的DNA分子总数的比值。

上述试剂盒中，进一步的，所述特征检测试剂还包括CNV特征检测试剂，所述CNV包括染色体臂的CNV和/或热点基因的CNV。

所述热点基因是指跟肿瘤相关的突变基因的CNV。

在本发明的一个实施例中，一种基于甲基化检测的肿瘤诊断试剂盒，包括特征检测试剂，所述特征检测试剂包括DNA甲基化特征检测试剂，所述DNA甲基化特征包括：

全基因组甲基化的DNA分子数比值和全基因组甲基化的DNA分子长度比值；

所述全基因组甲基化的DNA分子数比值包括：

全基因组甲基化的DNA分子数与全基因组DNA分子总数的比值；

全基因组甲基化的DNA分子数与全基因组甲基化的DNA分子数和非甲基化的DNA分子数总和的比值；

所述全基因组甲基化的DNA分子长度比值包括：

全基因组短片段甲基化的DNA分子数和长片段甲基化的DNA分子数的比值；

全基因组小片段甲基化的DNA分子数和小片段甲基化的DNA分子数和大片段甲基化的DNA分子数总数的比值。

在另一实施例中，上述试剂盒中，所述DNA甲基化特征还包括：全基因组存疑的DNA分子长度比值；

所述全基因组存疑的DNA分子长度比值包括：

全基因组短片段存疑的DNA分子数和长片段存疑的DNA分子数的比值；

全基因组小片段存疑的DNA分子数与小片段存疑的DNA分子数和长片段存疑的DNA分子数总数的比值。

在另一个实施例中，一种基于甲基化检测的肿瘤诊断试剂盒，包括特征检测试剂，所述特征检测试剂包括DNA甲基化特征检测试剂，所述DNA甲基化特征包括：

CpG岛区域内甲基化的DNA分子数比值和CpG岛区域内甲基化的DNA分子长度比值；

所述全基因组甲基化的DNA分子数比值包括：

全基因组甲基化的DNA分子数占全基因组DNA分子总数的比值；

全基因组甲基化的DNA分子数占区域内甲基化的DNA分子数和非甲基化的DNA分子数总和的比值；

所述全基因组甲基化的DNA分子长度比值包括：

所述CpG岛区域内甲基化的DNA分子数比值包括：

CpG岛区域内甲基化的DNA分子数占全基因组DNA分子总数的比值；

CpG岛区域内甲基化的DNA分子数占CpG岛区域内甲基化的DNA分子数和非甲基化的DNA分子数总和的比值；

CpG岛区域内甲基化的DNA分子数占全基因组甲基化的DNA分子总数的比值。

所述CpG岛区域内甲基化的DNA分子长度比值包括：

CpG岛区域内短片段甲基化的DNA分子数和长片段甲基化的DNA分子数的比值；

CpG岛区域内小片段甲基化的DNA分子数和小片段甲基化的DNA分子数和大片段甲基化的DNA分子数总数的比值。

在一个实施例中，一种基于甲基化检测的肿瘤诊断试剂盒，包括特征检测试剂，所述特征检测试剂包括DNA甲基化特征检测试剂，所述DNA甲基化特征包括：

全基因组甲基化的DNA分子数比值、全基因组甲基化的DNA分子长度比值和全基因组存疑的DNA分子长度比值；

所述全基因组甲基化的DNA分子数比值包括：

全基因组甲基化的DNA分子数占全基因组DNA分子总数的比值；

所述全基因组甲基化的DNA分子长度比值包括：

所述全基因组存疑的DNA分子长度比值包括：

全基因组小片段存疑的DNA分子数和小片段存疑的DNA分子数和长片段存疑的DNA分子数总数的比值。

所述CpG岛区域内甲基化的DNA分子数比值包括：

所述CpG岛区域内甲基化的DNA分子长度比值包括：

在另一实施例中，上述试剂盒中，所述DNA甲基化特征还包括：启动子区域内甲基化的DNA分子数比值和启动子区域内甲基化的DNA分子长度比值；

所述启动子区域内甲基化的DNA分子数比值包括：

启动子区域内甲基化的DNA分子数占全基因组DNA分子总数的比值；

启动子区域内甲基化的DNA分子数占启动子区域内甲基化的DNA分子数和非甲基化的DNA分子数总和的比值；

启动子区域内甲基化的DNA分子数占全基因组甲基化的DNA分子总数的比值。

所述启动子区域内甲基化的DNA分子长度比值包括：

启动子区域内短片段甲基化的DNA分子数和长片段甲基化的DNA分子数的比值；

启动子区域内小片段甲基化的DNA分子数和小片段甲基化的DNA分子数和大片段甲基化的DNA分子数总数的比值。

在一个实施例中，一种基于甲基化检测的肿瘤诊断试剂盒，包括特征检测试剂，所述特征检测试剂包括DNA甲基化特征检测试剂和CNV特征检测试剂；

所述DNA甲基化特征包括：

启动子区域内甲基化的DNA分子数比值和启动子区域内甲基化的DNA分子长度比值。

所述全基因组甲基化的DNA分子数比值包括：

全基因组甲基化的DNA分子数占全基因组DNA分子总数的比值；

所述全基因组甲基化的DNA分子长度比值包括：

所述全基因组存疑的DNA分子长度比值包括：

所述CpG岛区域内甲基化的DNA分子数比值包括：

所述CpG岛区域内甲基化的DNA分子长度比值包括：

所述启动子区域内甲基化的DNA分子数比值包括：

所述启动子区域内甲基化的DNA分子长度比值包括：

所述CNV特征包括染色体臂的CNV和/或热点基因的CNV。

所述染色体臂拷贝数变异为各染色体臂的CNV数。

在另一实施例中，上述试剂盒中，所述DNA甲基化特征还包括：bin区域内甲基化的DNA分子数比值、bin区域内甲基化的DNA分子长度比值和/或bin区域内的DNA分子长度比值。

所述全基因组甲基化的DNA分子数比值包括：

全基因组甲基化的DNA分子数占全基因组DNA分子总数的比值；

全基因组甲基化的DNA分子数占区域内甲基化的DNA分子数和非甲基化的DNA分子数总和的比值。

所述全基因组甲基化的DNA分子长度比值包括：

所述全基因组存疑的DNA分子长度比值包括：

所述特征检测试剂可为检测实施例中“低深度全基因组(WGS)甲基化特征组”、“低深度WGS***片段分布特征组”和/或“低深度WGS CNV特征组”的试剂。

上述试剂盒中，进一步的，还包括数据处理***，所述数据处理***用于将各特征的信息转换为是否患癌的判定信息。

本发明的另一个目的是提供上述试剂盒在制备癌症检测产品中的应用。

本发明的再一个目的是提供一种基于甲基化检测的肿瘤诊断***，所述***包括装置A和装置B；

所述装置A用于检测样本的上述特征；

所述装置B用于将上述特征数据信息转换为是否患癌的判定信息。

关于DNA甲基化检测的方法包括：重亚硫酸盐测序、基于限制性内切酶的测序或靶向富集甲基化位点测序。具体可包括：

提取样本DNA，构建测序文库：方法可以包括经重亚硫酸盐、甲基化限制性内切酶或者靶向富集处理后，通过扩增，构建测序文库；

测序后，进行分析统计，得到所述DNA甲基化特征。

根据DNA甲基化特征和/或CNV特征，建立预测模型，通过预测模型进行预测，实现肿瘤样本的早期筛查。

上述用于构建模型的特征，通过测序获得，优选低深度测序，即低深度的DNA甲基化特征；进一步优选基于限制性内切酶的低深度测序。

可选的，模型构建方法为：选取特定数量的肿瘤和非肿瘤样本构建训练集，采集训练集的DNA甲基化特征和/或CNV特征数据，构建分类器预测模型，例如，通过随机森林算法建立预测模型。采集待检测样本的上述特征，利用预测模型进行预测，实现肿瘤样本的早期筛查。

本发明中，所述肿瘤可为实体肿瘤和/或血液***肿瘤。例如，所述实体肿瘤可为肝癌、结肠癌、乳腺癌和/或胃癌。所述肝癌可为肝细胞癌。

本发明建立了一种可以适用于低深度全基因组测序的肿瘤预测指标，所述的低深度最低可以为0.5X，即低深度DNA甲基化特征，依据低深度DNA甲基化特征，可以在肿瘤/非肿瘤样本中，通过随机森林算法建立预测模型，实现肿瘤样本的早期筛查。其中，DNA甲基化特征可以作为肿瘤标志物单独使用，可获得较好的预测准确性；也可以将甲基化特征与其他指标(ctDNA片段大小、断点分布、拷贝数变异)结合起来，建立综合肿瘤预测指标，可以进一步提高肿瘤预测的灵敏度和特异性。

本发明通过全基因组测序获得全面的DNA信息，无需限制在特定的检测靶标中；可通过一次建库和测序，即可同时获得DNA中的基因组序列和甲基化修饰信息，操作简便，样本量需求低；基于特异性内切酶的甲基化检测不影响基因组序列相关指标的检测，可以保证同时获取完整的基因组和表观基因组信息；可以只需进行低深度测序，每个样本平均测序深度0.8X-1.5X，就能达到很好的初步筛查效果，当测序深度低至0.5X时，也可以实现效果；成本较低，适合大规模人群中的初步筛查，具有实际临床应用价值；可以在低深度测序下进行，以更好的节约成本，但也适于高深度测序；建立低深度下整体甲基化特征作为肿瘤早筛指标，肿瘤检测准确性提高，优于现有低深度测序指标(片段分布和拷贝数变异)；将甲基化特征与ctDNA片段大小、断点分布、拷贝数变异等特征结合在一起，建立综合肿瘤预测指标，能够进一步提高预测准确性。本发明的肿瘤预测指标具有很好的实用性和广泛的应用前景。

附图说明

图1为连接产物结构示意图。

图2为酶切和非酶切文库中整体水平片段分布特征的一致性。横纵坐标分别为非酶切文库与酶切文库全基因组短片段分布特征。

图3为一个样本的酶切和非酶切文库中不同基因组区域片段分布特征的一致性。横纵坐标分别为非酶切文库与酶切文库不同基因组区域短片段分布特征。

图4为基于低深度全基因组特征的肝癌预测ROC曲线。

图5为基于全部低深度WGS特征总和的泛癌种预测值。阴性表示非肿瘤患者。

图6为基于全部低深度WGS特征总和的结肠癌预测ROC曲线。

图7为基于全部低深度WGS特征总和的乳腺癌预测ROC曲线。

图8为基于全部低深度WGS特征总和的胃癌预测ROC曲线。

图9为基于全部低深度WGS特征总和的泛癌预测ROC曲线。

具体实施方式

下面结合具体实施方式对本发明进行进一步的详细描述，给出的实施例仅为了阐明本发明，而不是为了限制本发明的范围。下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的材料、试剂、仪器等，如无特殊说明，均可从商业途径得到。以下实施例中的定量试验，均设置三次重复实验，结果取平均值。下述实施例中，如无特殊说明，序列表中各核苷酸序列的第1位均为相应DNA/RNA的5′末端核苷酸，末位均为相应DNA/RNA的3′末端核苷酸。

本发明的实施例中，以基于限制性内切酶的低深度测序方法，以cfDNA样本为例，用于说明本发明。

实施例1、全基因组MC文库的构建

一、甲基化敏感限制性内切酶酶切

利用Apostle MiniMax^TM游离DNA富集分离试剂盒(标准版)(Apostle，Cat#：A17622-50)提取待测血浆样本的cfDNA，取5-40ng cfDNA，按照表1所示配置反应体系，然后按照表2的程序在PCR仪(Bio-rad Thermal Cycler，T100)进行酶切和酶失活处理，得到酶切产物(4℃保存)。

表1.反应体系

表2.反应程序

温度	时间
		37℃	30min
65℃	20min
		4℃	+∞

二、酶切产物的平末端修复和加A处理

取步骤一得到的酶切产物，使用 Ultra^TM II for DNA Library Prep试剂盒(货号E7645)，按照表3所示配置反应体系，然后按照表4的反应程序在PCR仪(Bio-radThermal Cycler，T100)进行末端修复及3’末端加A处理，得到反应产物(4℃保存)。

表3.反应体系

试剂	体积(μl)
		步骤一的酶切产物	40
(green)NEBNext Ultra II End Prep Reaction Buffer	5.6
		NEBNext Ultra II End Prep Enzyme Mix	2.4
总体积	48

表4.反应程序

温度	时间
		20℃	30min
65℃	30min
		4℃	+∞

三、反应产物与adapter连接

使用 Ultra^TM II for DNA Library Prep试剂盒(货号E7645)，按照表5配置反应体系，20℃反应30min(Bio-rad Thermal Cycler，T100)，得到连接产物(4℃保存)。

表5.反应体系

试剂	体积(μl)
		步骤二的反应产物	48
MC Adapter(25μM)	1.5
		DNase/RNase-Free Water	0.5
NEBNext Ultra II Ligation Master Mix	24
		NEBNext Ligation Enhancer	0.8
总体积	74.8

其中，MC Adapter的制备步骤如下：

Adapter序列信息见表6。

分别将表6中的单链DNA分子用TE缓冲液溶解并稀释至浓度为100μM。将同一组中的两条单链DNA分子等体积混合(各50μl)，然后进行退火(退火程序：95℃，15min；25℃，2h)，得到12组DNA溶液，每组DNA溶液含有一种接头，将12组DNA溶液等体积混合，得到Adapter Mix(即MC Adapter)。

退火程序反应的仪器(Bio-rad Thermal Cycler，T100)。

表6.Adapter序列信息

简单概述：

表6中，上游序列(名称中含有“F”的为上游序列)组成：测序引物结合序列+随机标签+锚定序列+T。下游序列(名称中含有“R”的为下游序列)组成：锚定序列+测序引物结合序列。

表6中，8个N表示8bp的随机标签，N为A、C、T或G。实际应用中，随机标签长度可为8-14bp。

下划线表示12bp的锚定序列，每一组的上游序列和下游序列中，下划线部分反向互补，通过退火可使上游序列和下游序列结合在一起形成接头。同时，锚定序列可作为序列固定的内置标签，用于标记原始模板分子。实际应用中，锚定序列长度可为12-20bp，连续重复碱基不超过3个，且不能与引物其它部分相互作用(如形成发卡结构、二聚体等)，12组每一个位置碱基平衡，错配碱基数>3。

上游序列中末端加粗的T与原始分子末端加的“A”互补，进行TA连接。

上游序列中，自5’端第1至21位(Illumina公司的Truseq测序试剂盒)为测序引物结合序列，其中，自5’端第1至19位为文库扩增引物部分。

下游序列中，非下划线部分(来自Illumina公司的nextera测序试剂盒)为测序引物结合序列，其中，自3’端第1至22位为设计文库扩增引物的部分。

表6中共包含12组接头，可以形成12×12＝144种标记组合，结合分子本身的序列信息，足以区分原始样品中的所有分子，实际应用中也可适当增加(合成成本增高)或减少(区分效果略弱)组数。

连接产物结构如图1所示。其中，a为接头部分，b和f分别为文库扩增引物，c为8bp随机标签(表6中的8个N表示)，d为12bp锚定序列(表6中的下划线表示)，e为***片段(cfDNA)。

四、连接产物纯化

向步骤三得到的连接产物中加入112.2μl AMPure XP磁珠(贝克曼，A63880)，涡旋混匀，室温放置10min，磁力架吸附至澄清(约10min)，弃上清，然后利用80％(体积百分含量)乙醇洗两遍，弃上清；待乙醇晾干后，加入31μl DNase/RNase-Free Water洗脱，涡旋混匀，室温放置10min，磁力架吸附5min，然后用10μl排枪吸取所有上清(吸3次)至新的8联排，即得到纯化产物，也即MC文库。

五、全基因组文库扩增及纯化

1、取400ng步骤四制备的MC文库，按照表7配置反应体系(KAPA Hyper Prep Kit，KK8505)，按照表8进行PCR扩增(Bio-rad Thermal Cycler，T100)，得到PCR扩增产物(4℃保存)。

表7.反应体系

扩增体系	体积μl
		HIFI(KAPA KK8505)	25
M_D**(10μM)	5
		模板	20
总体积	50

表7中，M_D**为M_D i5与M_D i7的等摩尔混合物，M_D i5与M_D i7为单链DNA，序列如下：

M_D i5：

5’-AATGATACGGCGACCACCGAGATCTACAC********ACACTCTTTCCCTACACGACGCTCT-3’；

M_D i7：5’-CAAGCAGAAGACGGCATACGAGAT********GTCTCGTGGGCTCGGAGATGTGTATAA-3’。

其中，********为index序列位置，index的长度为6-8bp，作用是区分样本间的序列，方便多个样本混合测序。

表8.反应程序

2、步骤1得到的PCR扩增产物涡旋混匀，每个反应取10μl，每33个反应混合成1份至1.5离心管。加入70-140μl(即1-2倍体积)的AMPure XP磁珠(贝克曼，A63880)，涡旋混匀，室温放置10min，磁力架吸附5min；待溶液澄清后弃上清，然后加入200μl 80％(体积百分含量)乙醇水溶液清洗2次，弃上清；待乙醇晾干后，加入100μl DNase/RNase-Free Water，涡旋混匀，室温放置10min，磁力架吸附5min，吸取上清溶液，得到产物(-20℃储存)。

3、步骤2所得产物即为可以在Illumina Hiseq X平台进行低深度全基因组测序的测序文库(即酶切文库)。每样本测序数据量3-5G，达到平均测序深度0.8X-1.5X，即可满足后续分析需求。

上述基于特异性内切酶的甲基化检测不影响基因组序列相关指标的检测。在40例人cfDNA样本中，分别进行酶切和非酶切文库构建，并计算两种文库中cfDNA全基因组短片段分布特征：短片段分子数(100-150bp)/长片段分子数(151-220bp)，结果显示酶切和非酶切文库得到的结果一致性较好(R²＝0.996，图2)，整体水平片段分布在酶切和非酶切文库中保持一致。

其中，非酶切文库构建步骤如下：利用Apostle MiniMax^TM游离DNA富集分离试剂盒(标准版)(Apostle，Cat#：A17622-50)提取待测血浆样本的cfDNA，取5-40ng cfDNA补水至40ul，直接进行步骤二、三、四、五(与酶切相同)，获得非酶切文库。

此外，对于其中一个cfDNA样本，各基因组区域的***片段(指去掉Adapter序列的扩增片段)分布在酶切和非酶切文库中也保持较好的一致性(R²＝0.965，图3)，图3中展示的结果是对于一个cfDNA样本，将全基因组划分为几百个长度为5Mb的区域，分别计算这些5Mb区域在酶切/非酶切文库中的短片段分布特征：短片段分子数(100～150bp)/长片段分子数(151～220bp)。图3中每个点代表一个5Mb区域的短片段分布特征。

结果显示每个5Mb区域的片段分布在酶切和非酶切文库中保持一致，基于特异性内切酶的甲基化检测不影响基因组序列其他相关指标的检测。

实施例2、低深度全基因组测序的肿瘤早筛指标分析方法

按照实施例1的方法制备酶切文库，并进行低深度测序，得到测序数据，然后按照下述步骤筛选。

一、数据质控及比对

1、使用Trimmomatic(v0.36)软件去除测序reads中的接头序列，然后使用BWA软件(V0.7.10)将clean reads比对到hg19参考基因组。

2、去除重复reads，并去除低比对质量及黑名单区域的reads(http://hgdownload.cse.ucsc.edu/goldenpath/hg19/encodeDCC/wgEncodeMapability/)，得到去重后的bam文件。

二、分子划分

基于去重后的bam文件，基于测序结果对所得待测样本的cfDNA分子进行划分(HhaI识别序列为GCGC)：

1、甲基化的DNA分子为：含有序列GCGC且不能被HhaI酶切的DNA分子；

2、非甲基化的DNA分子为：含有序列GCGC且能被HhaI酶切的DNA分子；

3、存疑的DNA分子为：不含有序列GCGC的DNA分子。

以上三者加和记为全基因组总DNA分子数。

将100-150bp的DNA分子记为短片段，将151-220bp的DNA分子记为长片段，将<100bp的DNA分子记为小片段。

三、DNA甲基化特征的提取

1、全基因组DNA甲基化特征：全基因组甲基化的DNA分子数比值、全基因组甲基化的DNA分子长度比值和全基因组存疑的DNA分子长度比值。

具体的，全基因组甲基化的DNA分子数比值如下：

全基因组甲基化的DNA分子数/全基因组总DNA分子数；

全基因组甲基化的DNA分子数/(全基因组甲基化的DNA分子数+全基因组非甲基化的DNA分子数)。

全基因组甲基化的DNA分子长度比值如下：

全基因组短片段甲基化的DNA分子数和长片段甲基化的DNA分子数的比值，即全基因组100-150bp甲基化的DNA分子数/全基因组151-220bp甲基化的DNA分子数；

全基因组小片段甲基化的DNA分子数和全基因组小片段甲基化的DNA分子数与长片段甲基化的DNA分子数之和的比值，即全基因组<100bp甲基化的分子数/(全基因组<100bp甲基化的DNA分子数+全基因组151-220bp甲基化的DNA分子数)。

全基因组存疑的DNA分子长度比值如下：

全基因组短片段存疑的DNA分子数和长片段存疑的DNA分子数的比值，即全基因组100-150bp存疑的DNA分子数/全基因组151-220bp存疑的DNA分子数的比值；

全基因组小片段存疑的DNA分子数和全基因组小片段存疑的DNA分子数与长片段存疑的DNA分子数之和的比值，即全基因组<100bp存疑的DNA分子数/(全基因组<100bp存疑的DNA分子数+全基因组151-220bp存疑的DNA分子数)。

2、CpG岛区域内DNA甲基化特征：CpG岛区域内甲基化的DNA分子数比值和CpG岛区域内甲基化的DNA分子长度比值；其中，CpG岛区域是指中长度500-1000bp，且GC含量>50％的区域。

具体的，CpG岛区域内甲基化的DNA分子数比值如下：

CpG岛区域内甲基化的DNA分子数/全基因组总DNA分子数；

CpG岛区域内甲基化的DNA分子数/(CpG岛区域内甲基化的DNA分子数+CpG岛区域内非甲基化的DNA分子数)；

CpG岛区域内甲基化的DNA分子数/全基因组甲基化的DNA分子数。

CpG岛区域内甲基化的DNA分子长度比值如下：

CpG岛区域内短片段甲基化的DNA分子数和长片段甲基化的DNA分子数的比值，即CpG岛区域内100-150bp甲基化的DNA分子数/CpG岛区域内151-220bp甲基化的DNA分子数；

CpG岛区域内小片段甲基化的DNA分子数和CpG岛区域内小片段甲基化的DNA分子数与大片段甲基化的DNA分子数之和的比值，即CpG岛区域内<100bp甲基化的DNA分子数/(CpG岛区域内<100bp甲基化的DNA分子数+CpG岛区域内151-220bp甲基化的DNA分子数)。

3、启动子区域内DNA甲基化特征：启动子区域内甲基化的DNA分子数比值和启动子区域内甲基化的DNA分子长度比值。

具体的，启动子区域内甲基化的DNA分子数比值如下：

启动子区域内甲基化的DNA分子数/全基因组DNA分子总数；

启动子区域内甲基化的DNA分子数/(启动子区域内甲基化的DNA分子数+启动子区域内非甲基化的DNA分子数)；

启动子区域内甲基化的DNA分子数/全基因组甲基化的DNA分子数。

启动子区域内甲基化的DNA分子长度比值如下：

启动子区域内短片段甲基化的DNA分子数和长片段甲基化的DNA分子数的比值，即启动子区域内100-150bp甲基化的DNA分子数/启动子区域内151-220bp甲基化的DNA分子数；

启动子区域内小片段甲基化的DNA分子数和启动子区域内小片段甲基化的DNA分子数与大片段甲基化的DNA分子数之和的比值，即启动子区域内<100bp甲基化的DNA分子数/(启动子区域内<100bp甲基化的DNA分子数+启动子区域内151-220bp甲基化的DNA分子数)。

4、bin区域内DNA甲基化特征如下：

bin区域内存疑的DNA分子长度比值：bin区域短片段存疑的DNA分子数和长片段存疑的DNA分子数的比值，即bin区域100-150bp存疑的DNA分子数/bin区域151-220bp存疑的DNA分子数；

bin区域内小片段存疑的DNA分子数和bin区域内小片段存疑的DNA分子数与长片段存疑的DNA分子数之和的比值，即bin区域内<100bp存疑的DNA分子数/(bin区域内<100bp存疑的DNA分子数+bin区域内151-220bp存疑的DNA分子数)。

其中，Bin区域为将基因组划分的若干片段。如对全基因组划分长度均为5Mb的bin，每个bin依次连接，每个bin均不跨越着丝粒，着丝粒边缘的bin允许小于5Mb，将每个bin下的“bin区域内存疑的DNA分子长度比值”和“bin区域内小片段存疑的DNA分子数和bin区域内小片段存疑的DNA分子数与长片段存疑的DNA分子数之和的比值”，进行中心化和标准化，使其均值为0，标准差为1，分别记为bin区域内存疑的DNA分子长度比值5Mb-bin-1和与bin区域内存疑的DNA分子长度比值5Mb-bin-2，计算方法如下：

bin区域内存疑的DNA分子长度比值5Mb-bin-1＝某一bin区域内100-150bp存疑的DNA分子数/该bin区域内151-220bp存疑的DNA分子数的比值；

bin区域内存疑的DNA分子长度比值5Mb-bin-2＝某一bin区域内<100bp存疑的DNA分子数/(该bin区域内<100bp存疑的DNA分子数+该bin区域内151-220bp存疑的DNA分子数)。

四、拷贝数变异特征的提取

使用Readdepth、QDNAseq、WisecondorX等软件进行染色体臂水平的CNV(即拷贝数变异，copy number variation)检测和hot基因的CNV检测(例如，CCND1、FGF19、MYC、TERT基因)。

各染色体臂的CNV及各热点基因的CNV作为拷贝数变异特征。

五、建立模型

选取若干肿瘤和非肿瘤样本，构建训练集，选择DNA甲基化特征、拷贝数变异特征和/或cfDNA片段特征，通过随机森林算法建立预测模型，通过预测模型，来实现肿瘤样本的早期筛查。

利用随机森林算法建立预测模型的方法，具体地包括：

构建训练集，训练集包括若干肿瘤和非肿瘤样本；

提取训练集的相关特征，基于各特征的量化值，使用随机森林方法采用10-fold交叉验证进行肿瘤早期筛查模型的建立。模型建立，可以使用R语言中的“randomForest”软件包。首先使用randomForest函数(ntree＝1000,其余参数为默认参数)基于训练样本建立随机森林模型，然后使用该模型对验证样本进行测试。

10-fold指将数据集分成十份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证(例如10次10折交叉验证)，再求其均值，作为对算法准确性的估计。

六、肿瘤检测

提取待测样本的DNA，并提取相关特征，将特征代入预测模型，进行肿瘤或非肿瘤的判定。

实施例3、基于DNA甲基化特征预测肝癌

1、样本

174例肝细胞癌患者(HCC)血浆样本，208例高危非肝细胞癌患者(肝炎、肝硬化患者，nonHCC)血浆样本。

肝细胞癌患者的入选标准为：B超检测阳性，且动态CT/MRI成像和病理学检测阳性，诊断为肝细胞癌。

非肝细胞癌患者的入选标准为：B超检测阴性的肝炎或肝硬化患者，不包括健康人。

2、方法

对于各样本，按照实施例1的方法制备酶切文库，并进行低深度全基因组测序，得到测序数据，然后按照实施例2的方法提取特征，所选择特征包括：

(1)全基因组DNA甲基化特征：全基因组甲基化的DNA分子数比值、全基因组甲基化的DNA分子长度比值和全基因组存疑的DNA分子长度比值；

(2)CpG岛区域内DNA甲基化特征：CpG岛区域内甲基化的DNA分子数比值和CpG岛区域内甲基化的DNA分子长度比值；

(3)启动子区域内DNA甲基化特征：启动子区域内甲基化的DNA分子数比值和启动子区域内甲基化的DNA分子长度比值；

(4)基因组bin区域DNA分子长度特征：将全基因组按照每5Mb划分的小单元(bin)，计算每个bin区域下的bin区域内存疑的DNA分子长度比值5Mb-bin-1和5Mb-bin-2；

(5)CNV特征：各染色体臂的CNV数。

选取上述特征进行组合并分为四组，每组分别构建模型，并评价四个模型的效果。

采用的特征组合为：

低深度全基因组(WGS)甲基化特征组：

全基因组甲基化的DNA分子数比值、全基因组甲基化的DNA分子长度比值；

低深度WGS***片段分布特征组：

全基因组存疑的DNA分子长度比值；

基因组bin区域DNA分子长度特征：5Mb-bin-1和5Mb-bin-2；

低深度WGS CNV特征组：

各染色体臂的CNV数。

全部低深度WGS特征总和组：

以上三组的组合。

将上述各组特征，分别使用随机森林方法采用10-fold交叉验证建立肿瘤早期筛查模型。模型建立，可以使用R语言中的“randomForest”软件包。首先使用randomForest函数(ntree＝1000,其余参数为默认参数)基于训练样本建立随机森林模型，然后使用该模型对待测样本进行检测。

检测方法：将上述指标的量化值作为模型的输入，肝癌和非肝癌作为模型的输出，使用上述构建的模型对验证样本进行测试。

3、模型预测结果：

单独使用“低深度全基因组(WGS)甲基化特征组”作为肿瘤标志物创建的随机森林分类器对肝癌样本的预测准确性(AUC＝0.951，图4中曲线2)优于现有“低深度WGS***片段分布特征组”(AUC＝0.885，图4中曲线3)和“低深度WGS CNV特征组”(AUC＝0.751，图4中曲线4)；此外，“全部低深度WGS特征总和组”结合建立的综合指标，预测准确度得到进一步提升(AUC＝0.963，图4中曲线1)。

在上述382例HCC/nonHCC样本中，当特异度为90％时，利用低深度全基因组甲基化特征的预测肝癌的灵敏度为87％，优于WGS***片段分布特征和WGS CNV特征(灵敏度分别为78％和55％)，而将上述三类指标整合建立的综合指标，灵敏度进一步提升至90％。

综上所述，低深度全基因组甲基化特征作为肿瘤标志物的预测准确性优于现有指标(片段分布和拷贝数变异)，而将甲基化特征与基因序列相关指标结合在一起，能够进一步提高检测准确性。

实施例4、低深度全基因组甲基化可以用于泛癌种

1、待测样本

癌症患者血浆样本(25例结肠癌、33例乳腺癌、65例胃癌)。结肠癌入选标准为：肠镜检测结肠癌阳性；乳腺癌入选标准为：乳腺超声检测与病理学检测乳腺癌阳性；胃癌入选标准为：X线钡餐检查或内镜发现占位性病变，且病理学检测胃癌阳性。

非癌症患者血浆样本(60例健康人)。入选标准为：参加健康体检，且胸部透视、肿瘤标志物检验、B超检测均未见异常。

2、方法

对于各待测样本，按照实施例1的方法制备酶切文库，并进行测序，得到测序数据，然后按照实施例2的方法提取样本的各特征，特征为实施例3中的“全部低深度WGS特征总和组”的特征。甲基化特征包括：全基因组甲基化的DNA分子数比值、全基因组甲基化的DNA分子长度比值和全基因组存疑的DNA分子长度比值。

将上述各种肿瘤患者都归为癌症样本组，健康人归为非癌症样本组，作为训练集，采用上述特征，构建随机森林模型，进行10-fold交叉验证。采用10-fold交叉验证，使用随机森林方法进行肝癌早期筛查模型的建立及预测。该分析使用R语言中的“randomForest”软件包。首先使用randomForest函数(ntree＝1000,其余参数为默认参数)基于训练样本建立随机森林模型，然后使用该模型对验证样本进行测试。

3、结果

基于“全部低深度WGS特征总和组”的特征所建立的预测模型能够区分出肿瘤(结肠癌、乳腺癌、胃癌)和非肿瘤患者，在两组样本中差异显著(图5)。对于不同癌种，利用该预测模型区分肿瘤和非肿瘤样本的能力略有差异，以25例结肠癌和60例健康样本为待测样本，模型预测的ROC曲线下面积AUC＝0.95(图6)；以33例乳腺癌和60例健康样本为待测样本，模型预测的AUC＝0.931(图7)；以65例胃癌和60例健康样本为待测样本，模型预测的AUC＝0.916(图8)。

将上述3种肿瘤患者都归为癌症样本组(共123例)，使用同样预测模型，获得的预测AUC＝0.927(图9)。

结果表明，将基因组甲基化特征作为癌与非癌的标志物，可以应用于不同类型肿瘤。

Claims

1.一种基于甲基化检测的肿瘤诊断***，其特征在于，包括装置A和装置B；

所述装置A包括肿瘤诊断试剂盒，用于检测样本的特征；

所述装置B用于将上述特征数据信息转换为是否患癌的判定信息；

所述肿瘤诊断试剂盒包括特征检测试剂，所述特征检测试剂包括DNA甲基化特征检测试剂，所述DNA甲基化特征包括：区域内甲基化的DNA分子数比值和区域内甲基化的DNA分子长度比值；

所述区域内甲基化的DNA分子长度比值包括：区域内短片段甲基化的DNA分子数和长片段甲基化的DNA分子数的比值，和/或，区域内小片段甲基化的DNA分子数与小片段甲基化的DNA分子数和长片段甲基化的DNA分子数总数的比值；

所述短片段为S1-S2之间的片段，所述长片段为（S2+1）-S3之间的片段，所述小片段为小于S1的片段；

所述S1为1-100bp，所述S2为150-169bp，所述S3为151-250bp；

所述DNA甲基化特征还包括：

区域内存疑的DNA分子长度比值；

所述区域内存疑的DNA分子长度比值包括：区域内短片段存疑的DNA分子数和长片段存疑的DNA分子数的比值，和/或，区域内小片段存疑的DNA分子数与小片段存疑的DNA分子数和长片段存疑的DNA分子数总数的比值；所述存疑的DNA分子为检测过程中无法判断为甲基化或非甲基化的DNA分子；

所述肿瘤为实体肿瘤；

癌症为肝癌、结肠癌、乳腺癌和/或胃癌。

2.根据权利要求1所述的肿瘤诊断***，其特征在于，所述DNA分子为cfDNA分子或者全基因组打断后的DNA分子片段；所述甲基化的DNA分子为含有甲基化位点的DNA分子；所述非甲基化的DNA分子为不含有甲基化位点的DNA分子。

3.根据权利要求1或2所述的肿瘤诊断***，其特征在于，所述S3为151-220bp。

4.根据权利要求1或2所述的肿瘤诊断***，其特征在于，所述区域包括全基因组和/或特定区域，所述特定区域为CpG岛区、启动子区、肿瘤特异区和bin区中的一种或一种以上；所述bin区是指将全基因组划分若干bin得到。

5.根据权利要求4所述的肿瘤诊断***，其特征在于，对于特定区域，区域内甲基化的DNA分子数比值还包括区域内甲基化的DNA分子数与全基因组甲基化的DNA分子数的比值。

6.根据权利要求1或2所述的肿瘤诊断***，其特征在于，所述特征检测试剂还包括CNV特征检测试剂，所述CNV特征包括染色体臂的CNV和/或热点基因的CNV。