CN117441027A

CN117441027A - Heatrich-BS：用于亚硫酸氢盐测序的富含CpG的区域的热富集

Info

Publication number: CN117441027A
Application number: CN202280021323.1A
Authority: CN
Inventors: 曹立峰; C·埃尔希; 陈美发; 张青青
Original assignee: National University of Singapore; Singapore Health Services Pte Ltd
Current assignee: National University of Singapore; Singapore Health Services Pte Ltd
Priority date: 2021-01-20
Filing date: 2022-01-20
Publication date: 2024-01-23
Also published as: EP4281583A1; WO2022159035A1

Abstract

本发明涉及一种使用具有低GC含量的DNA片段的热变性来富集CpG区域的方法，所述CpG区域可以通过衔接子连接进行富集、经受亚硫酸氢盐转化、测序和分析例如以检测癌症。

Description

Heatrich-BS：用于亚硫酸氢盐测序的富含CpG的区域的热富集

技术领域

背景技术

液体活检在癌症的筛查和监测中具有巨大的价值。液体活检的全部潜力只有通过高度敏感、特定的和具有成本效益的方法才能实现，所述方法可以鉴定血液中小分数的肿瘤DNA。用于鉴定循环肿瘤DNA(ctDNA)的最广泛使用的方法依赖于检测无细胞DNA中的肿瘤来源的突变[Forshew,T.等人Sci.Transl.Med.4(2012)]。与这种方法相关的关键挑战是携带突变的肿瘤片段构成无细胞DNA的少于0.01％[Fiala,C.和Diamandis,E.P.BMC Med.,16,1-10(2018)]。为了检测这些罕见片段，已成功使用数字PCR方法[Diehl,F.等人,Nat.Methods,3,551-559(2006)]或极深测序(>300x)[Shu,Y.等人Sci.Rep.,7,1-11(2017)]。这些方法的缺点是，它们不可能在全基因组范围内进行，从而使这些测定在本质上是靶向性的。作为结果，无法检测到新的或未知的突变。此外，即使是最熟知的癌症特异性突变在患者之间的普遍性也很低，这限制了靶向测定的价值和肿瘤检测的灵敏度[Bos,J.L.等人,Nature,327,293-297(1987)]。例如，尽管是最常见的癌基因之一，但只有40％的结直肠癌患者携带RAS突变[Bos,J.L.等人,Nature,327,293-297(1987)]。因此，尽管靶向深度测序可以是用于监测具有已知突变的肿瘤的敏感方法，但在用于筛查时可能只检测到阳性患者中的一小部分。此外，靶向测序方法也受到已知突变的检测组套的限制。另一方面，全基因组测序可以检测所有携带的突变，从而无需事先了解靶标。但是在所需深度下进行全基因组测序由于所涉及的高成本而不可行。为了克服这些问题，已经开发基于其他特性，如片段大小[Mouliere,F.等人Sci.Transl.Med.,10,1-14(2018)]、片段化模式[Cristiano,S.等人Nature,570,385-389(2019)]和甲基化模式的ctDNA检测测定[Guo,S.等人,Nat.Genet.,49,635-642(2017)]，其中一些已经商业化。

鉴于基于突变的ctDNA测定的局限性以及甲基化在癌症发展和进展中的作用，基于甲基化的ctDNA测定正在成为一种可能的替代方法。甲基化标记物用于检测血液中的ctDNA的效用已经得到充分的证实，其中一种用于检测结直肠癌的高甲基化隔蛋白9的这样的方法已获得FDA批准。然而，该测定仅具有70％的灵敏度和20％的假阳性率[Johnson,D.A.等人PLoS One 9,e98238(2014)]，因为研究已表明，甲基化隔蛋白9仅存在于约70％的结直肠癌患者中，并且隔蛋白9甲基化不是结直肠癌特有的。还正在建立大规模程序以开发和验证用于癌症筛查的基于甲基化的ctDNA检测方法。一个这样的程序是循环无细胞基因组图谱(CCGA)，它已经成功地表明，靶向甲基化测定与机器学习算法相结合可以用于检测ctDNA片段并定位到起源组织[Liu,M.C.等人Ann.Oncol.,31,745-759(2020)]。这项研究还表明，基于甲基化的检测在癌症检测和起源组织定位方面优于全基因组和靶向突变测定。可以实现这种改进的检测，因为基于甲基化的ctDNA测定提供以下优点：(i)甲基化模式普遍存在，并且可以是组织和癌症类型所特有的。这使得能够使用来自切除的肿瘤的已发表的测序数据来生成目的癌症的独特甲基化标记物[Moss,J.等人Nat.Commun.,9(2018)]。(ii)癌细胞的甲基化组展现出独特的甲基化变化模式-CGI的高甲基化和基因组的低甲基化[Sproul,D.和Meehan,R.R.Brief.Funct.Genomics,12,174-190(2013)]。(iii)基于甲基化状态的信息区域的富集如甲基化CGI的选择可以允许小肿瘤分数的敏感检测[Guo,S.等人,Nat.Genet.,49,635-642(2017)]。当前富集方法的缺点是，它们要么是在本质上是靶向性的从而限制可以测定的位点，要么严重依赖于甲基化状态，如甲基化DNA免疫沉淀(MeDIP)。CGI的传统富集方法是简化代表性亚硫酸氢盐测序(RRBS)，它使用对甲基化不敏感的MspI在CCGG位点切割DNA，从而生成两端具有CpG位点的片段[Gu,H.等人,Nat.Protoc.,6,468-481(2011)]。单细胞RRBS(scRRBS)是RRBS方案的修改，其中所有步骤被组合成单管反应以最小化损失[Guo,H.等人,Nat.Protoc.,10,645-59(2015)]。scRRBS方案已用于无细胞DNA甲基化分析[Guo,S.等人,Nat.Genet.,49,635-642(2017)]。当在片段化DNA上使用时，这种方法的实用性仍然受到限制，因为很少的片段能够满足在两端的MspI切割位点的要求。例如，一项使用scRRBS来测定无细胞DNA中的甲基化的研究(此后称为无细胞RRBS)在CGI中只有6.4％的读段[Guo,S.等人,Nat.Genet.,49,635-642(2017)]。

需要用于提高使用循环DNA进行癌症检测和液体活检的筛查测定的灵敏度和降低其成本的改进的方法。

发明内容

本发明涉及一种用于富集循环无细胞DNA的富含CpG的区域以提供可以用于癌症特异性筛查和其他筛查的甲基化信息的方法，所述富含CpG的区域已知在癌症中不论其甲基化状态如何而具有显著的甲基化变化。

根据第一方面，本发明提供了一种富集CpG岛的方法，所述CpG岛包含来自受试者的分离的循环无细胞DNA中的癌症特异性甲基化信息，所述方法包括以下步骤：

i)提供无细胞DNA样品；

ii)修复双链DNA末端并添加dA尾；

iii)使所述无细胞DNA热变性，其中低GC含量片段变性，而高GC含量片段保持双链；iv)将甲基化衔接子连接至所述双链DNA的两端；

v)对所述衔接子连接的DNA进行亚硫酸氢盐转化；

vi)扩增来自v)的所述亚硫酸氢盐转化的衔接子连接的DNA；

vii)依据大小选择vi)的所扩增的DNA的190-400bp片段。

在一些实施方案中，所述低GC含量片段具有低于约60％GC含量，并且高GC含量片段具有约60％或更高GC含量。

在一些实施方案中，步骤iii)中的所述热变性在约87℃-92℃范围内的温度下进行。

在一些实施方案中，所述无细胞DNA样品来自具有医学状况的受试者。

在一些实施方案中，所述方法进一步包括测定一种或多种所扩增的分子的序列的至少一部分。

在一些实施方案中，测定所述序列的至少一部分包括配对末端测序。

在一些实施方案中，所述测定步骤提供对于所述受试者的诊断信息。

在一些实施方案中，所述诊断信息包括对于所述受试者的癌症诊断信息。

根据第二方面，本发明提供了一种用于测定来自受试者的循环无细胞DNA样品中的肿瘤分数的方法，所述方法包括：

A)通过比较正常血浆的全基因组亚硫酸氢盐测序数据集与参考癌症甲基化数据集鉴定差异甲基化簇；

B)将来自所述受试者样品的每个亚硫酸氢盐测序的热富集的富含CpG的DNA片段中的每个CpG位点与所述参考数据集进行比较，并使用双峰分布计算每个亚硫酸氢盐测序的热富集的富含CpG的DNA片段的类别特定概率；以及

C)使用最大似然估计来粗略估计所述受试者样品中的肿瘤分数。

在第二方面的一些实施方案中，所述方法包括：

A)通过以下方式鉴定正常受试者与患有癌症的受试者之间循环无细胞DNA中的差异甲基化簇；

(i)获得正常血浆全基因组亚硫酸氢盐测序甲基化数据集；

(ii)获得参考癌症甲基化数据集，并针对多个探针位点中的每一个±100bp外推甲基化值，其中在所述数据集中的各个样品之间的标准差小于0.4；

(iii)鉴定来自数据集(i)和(ii)的差异甲基化簇；

B)通过以下方式使用双峰分布测定每个位点的类别特定概率；

i)使用所生成的参考给来自所述受试者样品的每个测序的片段分配正常的和肿瘤类别特定的成比例甲基化状态；

ii)对于所述参考中的每个位点，计算来自未甲基化和甲基化模式(0和1)的贡献，其中这两个类别中每个模式的相对贡献用于给所测定的片段中的甲基化值分配正常的或肿瘤类别特定的概率；以及

C)估计所述样品的肿瘤分数，其表示为θ，其中0≤θ＜1；

其中假设每个读段是独立的，并且给每个读段分配正常的和肿瘤类别特定的概率；

整体肿瘤分数(θ_g)是通过施加网格搜索以确定来自肿瘤分数的范围的最高概率事件来计算的。

在一些实施方案中，在A)(iii)中选择甲基化差值为0.5的簇内的所有CpG位点。

在一些实施方案中，所述比较群体选自来自正常患者和/或癌症患者的循环无细胞DNA。

在一些实施方案中，所述参考癌症甲基化数据集是结直肠腺癌(COAD)数据集。

根据第三方面，本发明提供了一种获得与受试者的医学状况有关的信息的方法，所述方法包括：

i)提供来自所述受试者的分离的无细胞DNA样品；

ii)修复双链DNA末端并添加dA尾；

iii)使所述无细胞DNA热变性，其中低GC含量片段变性，而高GC含量片段保持双链；

iv)将甲基化衔接子连接至所述双链DNA的两端；

v)对所述衔接子连接的DNA进行亚硫酸氢盐转化；

vi)扩增来自v)的所述亚硫酸氢盐转化的衔接子连接的DNA；

vii)依据大小选择vi)的所扩增的DNA的190-400bp片段；

viii)测定一种或多种所扩增的分子的序列的至少一部分；

测定来自所述受试者的样品中的肿瘤分数，其包括：

在一些实施方案中，低GC含量片段具有低于约60％GC含量，而高GC含量片段具有约60％或更高GC含量。

在一些实施方案中，第三方面的方法包括：

(i)获得正常血浆全基因组亚硫酸氢盐测序甲基化数据集；

(iii)鉴定来自数据集(i)和(ii)的差异甲基化簇；

C)估计所述样品的肿瘤分数，其表示为θ，其中0≤θ＜1；

在一些实施方案中，所述方法进一步包括基于所述受试者是否被鉴定为具有指示癌症的肿瘤分数来治疗所述受试者。

在一些实施方案中，所述方法能够实现从低至300万个测序读段>98％的预测准确度。

在一些实施方案中，所述方法能够以0.82的概率检测0.2％肿瘤分数。

附图说明

图1a-图1d显示了利用与GC含量的关系富集CpG密集区域。(a)在不同基因组区域中差异甲基化位点的百分比。(b)DMR和Illumina 450k甲基化阵列探针在CGI中关于基因组分布的比例。(c)在随机生成的人基因组200bp片段中GC含量与CpG数量之间的关系。(d)使用不同GC含量阈值在每1000个片段中检测到的不同癌症的DMR数量。COAD：结直肠腺癌，BRCA：乳腺浸润性癌，LUAD：肺腺癌，KIRC：肾透明细胞癌，UCEC：子宫体子宫内膜癌。高于0.6GC含量的片段含有跨不同癌症的近8倍的DMR。

图2a-图2f显示了利用热变性选择富含CpG的片段。(a)用于选择富含GC片段的Heatrich-BS的流程。(b)在一定温度范围内GC含量趋势(上曲线)和在CGI处的读段富集(下曲线)。(c)在有和没有热变性的情况下测序的片段的平均GC含量。(d)Heatrich和RRBS读段在CpG岛、岛岸和其他区域中的分布。(e)Heatrich-BS和RRBS读段定位于CGI区域。用实心条标记CGI。(f)RRBS读段在不同基因组区域中的分布(左)。Heatrich读段在不同基因组区域中的分布(右)。

图3a-图3d显示了Heatrich-BS有效地富集富含CpG的区域中的读段。(a)对循环DNA使用WGBS、RRBS和Heatrich-BS方法时读段的堆积以及定位于CGI。通过实心条标记CGI区域。(b)在有和没有热变性的情况下在CGI中读段的百分比。(c)对循环DNA使用Heatrich-BS、RRBS和WGBS时在CGI中读段的百分比。(d)对于不同总读段，在有和没有热变性的情况下在DMR中的读段数量。

图4显示了对于不同总读段，在有和没有热变性的情况下检测到的DMR数量。

图5a-图5i显示了使用Heatrich-BS数据时肿瘤分数预测算法的开发和验证。(a)肿瘤分数预测算法的工作流程。(b)肿瘤分数预测算法的工作流程。通过比较健康志愿者血浆与TCGA CRC甲基化阵列数据来鉴定DMR。将类别特定的概率分配给每个测序片段，并使用最大似然估计来推断整体肿瘤分数。应用肿瘤纯度校正来说明TCGA数据中的正常细胞浸润。(c)在不同测序深度下0.5％肿瘤分数WGBS模拟数据集的ROC分析。(d)在不同测序深度下0.5％肿瘤分数Heatrich-BS模拟数据集的ROC分析。(e)使用WGBS模拟数据集在不同测序深度下检测到不同肿瘤分数的概率。(f)使用Heatrich-BS模拟数据集在不同测序深度下检测到不同肿瘤分数的概率。(g)在不同测序深度下模拟血浆WGBS cfDNA样品的真实值和算法预测值。在超过1.5亿个读段(5X测序深度)的情况下实现置信的肿瘤分数预测。(h)使用不同总测序读段时模拟的Heatrich-BS样品的真实值和算法预测值。用少至300万个读段实现置信的肿瘤分数预测。(i)使用模拟的Heatrich-BS和WGBS cfDNA样品在300万个总读段下的0.5％肿瘤分数的ROC分析。与WGBS的AUC(0.547)相比，在300万个读段下Heatrich-BS的AUC高得多(0.988)。

图6显示了在不同测序深度下正常样品的基线肿瘤分数。

图7显示了在不同测序深度下WGBS计算机模拟数据集的加标百分比和算法预测值。

图8显示了在不同测序深度下Heatrich-BS计算机模拟数据集的加标百分比和算法预测值。

图9显示了在有(左条)和没有(右条)热变性的情况下每个片段的CpG的数量。

图10显示了在有(左条)和没有(右条)热变性的情况下循环DNA片段的肿瘤概率。

图11a-图11h显示了Heatrich-BS-BS在患者cfDNA样品上的应用。(a)通过基因组方法和Heatrich-BS预测的患者cfDNA样品的肿瘤分数。在通过这两种方法获得的肿瘤百分比之间实现了高度的一致性(皮尔逊r＝0.92)。(b)对患者1的纵向肿瘤监测。用箭头标记XELOX(左箭头)和FOLFIRI-西妥昔单抗(右箭头)治疗引入点。(c)对患者2的纵向肿瘤监测。用箭头标记5FU/奥沙利铂(左箭头)和伊立替康(右箭头)治疗引入点。(d)对患者1和2的PCA分析。PC1分离患者，其中患者1在垂直虚线的左侧，而PC2沿肿瘤负荷分离。(e)对14名CRC患者进行Heatrich-BS肿瘤分数、SLD(最长直径之和)和CEA测量值的纵向监测。CEA阳性和阴性分别由垂直黑线和灰线表示。Heatrich-BS阳性和阴性分别由实心圆和空心圆表示。肿瘤分数由点的大小表示。底部图：从CEA和Heatrich-BS二者均检测到的癌症。中间图：CEA未能在多个时间点检测到癌症。顶部图：与CEA相比，Heatrich-BS更早检测到癌症复发。(f)患者357的Heatrich-BS肿瘤分数、CEA和SLD值，其显示Heatrich-BS肿瘤分数在CEA值之前渐增。CEA、Heatrich-BS肿瘤分数和SLD值分别由三角形、圆形和正方形表示。空心符号表示低于阈值的值。(g)患者507的Heatrich-BS肿瘤分数、CEA和SLD值，其显示即使当CEA值不提供信息时，Heatrich-BS肿瘤分数也提供信息。CEA、Heatrich-BS肿瘤分数和SLD值分别由三角形、圆形和正方形表示。空心符号表示低于阈值的值。(h)在不同肿瘤大小之间Heatrich-BS肿瘤分数和CEA值的分布。与CEA值相比，Heatrich-BS肿瘤分数产生与SLD更线性的关系。虚线表示CEA的癌症检测阈值(5.3ng/mL)。

图12显示了14名CRC患者的Heatrich-BS肿瘤分数、CEA水平、定量肿瘤测量值(SLD)和疾病状态跨不同时间点的趋势。CEA、Heatrich-BS肿瘤分数和SLD值分别由三角形、圆形和正方形表示。空心符号表示低于阈值的值。

图13a-图13b显示了定量SLD值与正交肿瘤测量值的比较。(a)在单独时间点处Heatrich-BS肿瘤分数与SLD测量值之间的关系。皮尔逊r＝0.62。(b)在单独时间点处SLD测量值与CEA水平之间的关系。皮尔逊r＝0.26。

图14a-图14f显示了使用Heatrich-BS对患者cfDNA的表征。(a)TCGA CRC样品和正常血浆在635CpG标记物处的所鉴定的甲基化状态以用于CIMP亚型分类。(b)TCGA中具有CIMP注释的233CRC组织的甲基化得分。通过决策树分类器确定用于区分不同CIMP亚型的截断阈值。(c)具有不同肿瘤分数和甲基化亚型的模拟cfDNA的原始和经校正的甲基化得分。解卷积消除肿瘤分数对从cfDNA计算的原始甲基化得分的影响。(d)使用对于CIMP分类的决策树分类器阈值得到的不同CIMP亚型和肿瘤分数模拟样品的经校正的甲基化得分。对于不同CIMP簇，经校正的甲基化得分在超过10％的肿瘤分数之间是一致的。(e)肿瘤分数高于10％的患者cfDNA样品的经校正的甲基化得分。(f)TCGA CRC样品和正常血浆在DMR处所鉴定的甲基化状态以用于肿瘤分数确定。这些DMR无法区分CIMP亚型。

具体实施方式

为了方便起见，在本说明书中提到的书目参考文献在实施例的末尾列出。此类书目参考文献的全部内容通过引用其中所包含的材料(在参考文献所在的句子中所讨论的)并入本文。

定义

为方便起见，在此收集了在说明书、实施例和所附权利要求中使用的某些术语。

必须指出，除非上下文另外清楚地指出，否则如本文和在所附权利要求中所使用的单数形式“一个(a)/一种(an)”和“所述(the)”包括复数指示物。

如本文所用，术语“包含”或“包括”应解释为指定所提及的所陈述特征、整数、步骤或组分的存在，但是不排除一个或多个特征、整数、步骤或组分或其组的存在或添加。然而，在本公开文本的上下文中，术语“包含”或“包括”还包括“由……组成”。单词“包含(comprising)”的变体(如“包含(comprise)”和“包含(comprises)”)以及“包括(including)”的变体(如“包括(include)”和“包括(includes)”)具有对应变化的含义。

术语“Heatrich”和“Heatrich-BS”在本文中可互换地用作用于描述本发明的方法的简写，是用于亚硫酸氢盐测序的热富集。

术语“受试者”在本文中定义为脊椎动物，特别是哺乳动物，更特别是人。出于研究目的，受试者可以特别是至少一种动物模型，例如小鼠、大鼠等。特别地，对于癌症的治疗，受试者可以是人。

在本发明的上下文中使用的术语“治疗”是指改善性、疗法性或治愈性治疗。

本领域技术人员将理解，可以根据本文中给出的方法在不进行过度实验的情况下实施本发明。所述方法、技术和化学品正如在给出的参考文献中或在标准生物技术和分子生物学教科书中的方案中所述。本领域中已知并且未明确描述的标准分子生物学技术大体上遵循如Sambrook和Russel,Molecular Cloning:A Laboratory Manual,Cold SpringsHarbor Laboratory,New York(2001)中所述。

实施例

方法

生成剪切的DNA

将K562细胞(CCL-243^TM)在补充有10％胎牛血清(FBS)(Gibco)和1％青霉素-链霉素(Gibco)的高葡萄糖杜氏改良伊格尔培养基(DMEM)(Gibco)中培养。使用DNeasyBlood and Tissue Kit(Qiagen)从培养的K562细胞提取基因组DNA。使用LE220聚焦超声发生器(Covaris)在以下设置下将提取的gDNA片段化：450W峰值入射功率，30％占空比，每次激增200个周期，持续420秒。使用BluePippin 2％琼脂糖盒(Sage Sciences)，依据大小选择片段化DNA的100-200bp片段。

患者招募和从患者血液样品提取cfDNA

在SingHealth中央机构审查委员会批准的研究2018/2795和2019/2401下在新加坡国家癌症中心招募结直肠癌患者。在合理并允许的情况下从这些患者收集血液样本和肿瘤样本。在研究2012/733/B下收集来自健康个体的血液样品。对病历进行回顾性审查，以在可用的情况下从临床检验收集临床病理详细信息，如患者人口统计学、肿瘤分期、血清CEA和突变状态(表1)。

表1：14例纵向CRC患者的临床病理特征

为了评估Heatrich-BS与CEA测量相比对肿瘤监测的灵敏度，包括那些CEA测量针对疾病进展提供信息或未提供信息的患者。在静脉穿刺2h内经由10min x 300g和10min x9730g离心从在EDTA管中收集的全血分离所有血浆，然后在-80℃下冷冻。根据制造商的方案，使用QiaAmp循环核酸试剂盒(Qiagen)提取无细胞DNA。

Heatrich-BS方案

使用5-10ng cfDNA作为Heatrich-BS方案的输入物。使用KAPA Hyper Prep试剂盒(Kapa Biosystems)进行文库制备。将1.4μl末端修复和加A尾缓冲液(Kapa Biosystems)和0.6μl末端修复和加A尾酶混合物(Kapa Biosystems)添加至10μl输入DNA中，并在20℃下孵育30min，在65℃下孵育30min。之后，将样品在88℃下加热5min，然后立即放在冰上。然后用6μl连接缓冲液(Kapa Biosystems)、2μl DNA连接酶(Kapa Biosystems)、1μl无核酸酶水和1μl 750nM衔接子(Kapa Biosystems)补充样品。对于无热对照，使用1μl的1.5μM衔接子(Kapa Biosystems)代替。添加这些试剂后，将样品在25℃下孵育1小时，然后通过进行两轮1.2x SPRI Select(Beckman Coulter)来净化。然后按照Zymo EZ DNA Methylation-Gold试剂盒(Zymo Research)的建议方案对样品进行亚硫酸氢盐转化。使用Pfu聚合酶(Agilent)将亚硫酸氢盐转化的DNA扩增15个循环，使用1.2x SPRI Select(BeckmanCoulter)净化，并使用KAPA超热启动聚合酶(Kapa Biosystems)再扩增(10个循环)，直到达到平台期。使用1.2x SPRI Select(Beckman Coulter)净化扩增的样品，使用2％琼脂糖Bluepippin试剂盒(Sage Sciences)依据大小选择190-400bp片段，使用Kapa文库定量试剂盒(Kapa Biosystems)定量，并使用MiSeqv3 150循环试剂盒或Novaseq(Illumina)测序。对每个75bp进行配对末端测序。

Heatrich-BS分析管线

使用Fastqc[Andrews,S.FastQC:a quality control tool for highthroughput sequence data.(2010)]检查通过MiSeq测序仪(Illumina)生成的配对末端读段的质量。使用Cutadapt软件[Martin.,M.EMBnet.journal 17,10-12(2011)]进行衔接子修剪后，使用Bismark软件[Krueger,F.和Andrews,S.R.Bioinformatics 27,1571-1572(2011)]将读段与hg38人基因组进行比对。使用Picard工具[Broad Institute.PicardTools.(2018)]对所比对的读段进行了重复数据删除，随后使用Bismark甲基化提取器获得每个片段的每碱基甲基化状态。

GC含量计算

为了计算每个片段的GC含量，单独比对正向和反向读段，然后将其组合以生成涵盖整个片段的单个坐标范围。然后使用所述片段的坐标从参考基因组获得其序列。对于每个片段，GC含量被定义为C和G的数量除以片段的总长度。CGI中的读段百分比被定义为测序读段的比例，这与来自UCSC的hg38 CpG岛注释一致。

肿瘤分数测定算法

肿瘤分数测定算法有三个主要步骤：

步骤1：鉴定差异甲基化簇

为了鉴定用于肿瘤特异性cfDNA检测的差异甲基化簇，使用正常血浆全基因组甲基化数据[Sun,K.等人Proc.Natl.Acad.Sci.U.S.A.112,E5503-E5512(2015)]和来自TCGA的结直肠腺癌(COAD)甲基化阵列。使用正常血浆的23WGBS数据集和来自TCGA的353450k甲基化阵列数据集进行簇生成。将TCGA甲基化值外推至每个探针位点的±100bp。为了确保仅选择一致的位点，仅选择该类别中各个样品之间的标准差小于0.4的甲基化值，以确保参考的置信度。使用DMRfinder软件[Gaspar,J.M.和Hart,R.P.BMC Bioinformatics 18,1-8(2017)]鉴定差异甲基化簇。在这些簇内，选择甲基化差值为0.5的位点。

步骤2：使用双峰分布计算每个位点的类别特定概率。

使用生成的参考，必须给每个测定的片段分配正常的和肿瘤类别特定的。由于甲基化值是二进制的，在参考中观察到的平均甲基化值是未甲基化和甲基化读段的成比例组合。因此，双峰分布可以准确地表示参考的成比例甲基化状态。对于参考中的每个位点，计算未甲基化和甲基化模式(0和1)的贡献。两个类别中每个模式的相对贡献用于给所测定的片段中的甲基化值分配类别特定概率。以这种方式，使用双峰参考给每个测定的位点分配正常概率值或肿瘤概率值。

步骤3：使用最大似然估计来预测样品的肿瘤分数。

在给每个片段分配类别特定概率之后，必须枚举来自肿瘤的片段的分数。样品中肿瘤来源的cfDNA也称为肿瘤分数，其可以表示为θ，其中0≤θ＜1。为了估计肿瘤分数θ，改编自CancerDetector[Li,W.等人Nucleic Acids Res.46,e89(2018)]的最大似然估计方法和网格搜索用于计算每个样品的整体肿瘤分数(θ_g)。然后将所确定的肿瘤纯度校正因子(γ)即0.057应用于原始肿瘤分数以生成最终肿瘤分数。

DMR中的GC含量分析

将人基因组分成200bp平铺窗口，并计算每个窗口的GC含量。GC含量超过60％的窗口用作Heatrich输出的理论表示。为了研究GC含量与CpG密度之间的关系，我们使用随机序列生成器创建了五十万个200bp片段。G+C碱基的数量(GC含量)和CG二核苷酸的数量(CpG含量)以总长度的分数来计算。为了计算每1000个片段的DMR的数量，我们首先使用前面提到的方法(肿瘤分数测定的步骤1)生成对于每种癌症的DMR。然后，我们利用从受制于不同GC含量阈值的血浆cfDNA数据集生成的随机1000个片段，并对检测到的对于每种癌症的DMR数量进行计数。为了生成由不同数量的总测序读段覆盖的DMR的数量，使用了类似的方法，其中将不同的数据集亚采样至所需的读段数量，并对含有DMR的片段数量进行计数。对于cfRRBS，所有在20bp与160bp之间的具有MspI切割位点的片段用作理论数据。

通过全基因组或靶向测序进行肿瘤负荷估计

使用Kapa Hyper Prep试剂盒(Kapa Biosystems)制备DNA文库，并将其送去进行全基因组测序或靶向测序。根据制造商的说明书，使用由101种癌症基因和试剂的IDT Xgen定制化检测组套进行杂交捕获以用于靶向测序。在Illumina Hiseq4000(2×150bp配对末端读段)上进行测序。使用ichorCNA算法[Adalsteinsson V.A.等人Nat Commun 8(2017)]从全基因组测序数据进行肿瘤分数估计。使用MuTect软件[Sougnez,C等人Nat Biotechnol31:213-219(2013)]从靶向测序数据进行变体判定，其中肿瘤分数估计是存在于特定样品中的7个已知结直肠癌热点(KRAS、NRAS、BRAF、EGFR、APC、TP53、PIK3CA)的平均变体等位基因频率。

肿瘤测量和疾病状态分类

对于每个分析的时间点，从患者的临床记录中检索最近的可用CT扫描图像。扫描中的每个病变均以2个维度(最大宽度和最大长度)进行测量。未测量不确定性病变。对于每个时间点，确定最长直径(SLD)的总和，从而提供所述时间点处存在的总肿瘤负担的表示。为了确保一致性，所有测量均由同一临床医生进行。根据以下标准进行对于每个时间点的疾病分类；完全反应：所有病变消失；部分反应：与先前测量的时间点的SLD相比，病变的SLD减少≥30％；疾病进展：与先前测量的时间点的SLD相比，病变的SLD增加≥20％，即至少5mm，或者出现直径>10mm的新病变；疾病稳定：不是PR、PD或CR中任一种。

亚型分类

为了鉴定CIMP亚型分类的标记物集，我们利用了来自癌症基因组图谱网络出版物[Muzny,D.M.等人Nature 487:330-337(2012)]的数据和注释。我们选择了最小标准差为0.25的CpG位点，并且其在不同的CIMP亚型中显示出不同的甲基化模式。因为Heatrich-BS不成比例地富集富含CpG的地区，所以我们进一步将标记物列表限制为由至少50个Heatrich-BS样品覆盖的CpG。为了确定用于区分CIMP簇的阈值，我们使用来自KNIME的决策树分类器软件[Berthold,M.R.等人Studies in Classification,Data Analysis,andKnowledge Organization,GfKL(2007)]。将具有CIMP分类的TCGA数据集以70-30划分，以进行训练和测试。

为了对cfDNA样品进行CIMP分类，对于每个样品计算跨越标记物位点的原始甲基化得分。定义为635基因座的甲基化值的平均值的甲基化得分用于总结在CIMP基因座中的甲基化程度。为了估计在cfDNA中潜在肿瘤的甲基化得分，我们注意到M_cfDNA＝θM_肿瘤+(1-θ)M_{正常-血浆}。代入M_{正常-血浆}(来自健康血浆的cfDNA的甲基化得分)和θ(从Heatrich-BS计算的肿瘤分数)，可以估计潜在肿瘤的甲基化得分(M_肿瘤)。为了计算M_{正常-血浆}，排除具有负甲基化得分或少于100个读段落入标记物位点中的样品。

数据来源

为了将我们的测定与现有方法进行比较，我们从NCBI GEO获得以下数据：RRBS(SRR222486)、无细胞RRBS(GSM2090507)。用于算法开发和验证的cfDNA WGBS数据是通过从EGA数据库(EGAS00001001219)请求而获得的。结直肠癌肿瘤WGBS数据是从NCBI GEO(SRR1035745)获得的。从癌症基因组图谱(TCGA)数据存储库获得不同癌症的Illumina450k甲基化阵列数据。

实施例1：

利用GC含量富集富含CpG的DMR

人基因组中的序列含量高度不均匀。CpG贫乏区域的长片段被CpG密集区域的短片段打断，后者与重要的基因调节元件(如启动子)相符合。这些CpG密集区域通常在组织与疾病(如癌症)之间不同地甲基化[Guo,S.等人Nat.Genet.49,635-642(2017)]。我们使用DMRfinder软件[Gaspar,J.M.和Hart,R.P.BMC Bioinformatics 18,1-8(2017)]，一种普遍的软件，鉴定结直肠癌(CRC)组织与健康血浆之间的DMR，并发现将近45％的DMR位于CGI内(图1a)，所述CGI仅源自基因组的1％(图1b)。因此，专注于这一小分数的富含CpG的基因组以进行表观遗传分析是有价值的。用于富集CGI的传统方法是RRBS[Gu,H.等人Nat.Protoc.6,468-481(2011)]，其中称为单个细胞RRBS(scRRBS)的单管变体[Guo,H.等人Nat.Protoc.10,645-59(2015)]用于低输入样品。然而，这种方法在用于富集片段化DNA的实用性方面仍然受限，因为非常少的片段可以满足在两端都具有CCGG切割位点的要求。例如，一项使用scRRBS来测定cfDNA中的甲基化的研究(此后称为无细胞RRBS)在CGI中只有6.4％的读段[Guo,S.等人,Nat.Genet.,49,635-642(2017)]。尽管尚无物理富集CpG密集DNA的手段，但熟知的是，双链DNA片段的G+C含量与其热稳定性密切相关。已经表明，DNA中的GC键具有25.4kcal mol^-1的结合能，其比AT键强两倍，后者的结合能为12.4kcal mol^-1。由于片段中CpG二核苷酸的存在向双链体添加2个GC键，因此测试是否可以通过选择富含GC的片段来实现CpG密集片段的有效选择。为了检验该假设，计算人基因组的50万个200bp片段的样品中的每个片段中的GC含量和CpG的数量(图1c)。GC含量与CpG数量之间的极好相关性表明，GC含量可以用于富集富含CpG的片段。GC含量大于0.6的片段仅构成基因组的2.5％，但不成比例地包含CGI的85％和我们鉴定的DMR的58％。我们进一步验证了不同癌症特异性DMR与GC含量之间的关系(图1d)。高于0.6GC含量的片段的选择提供了跨不同癌症(COAD：结直肠腺癌，BRCA：乳腺浸润性癌，LUAD：肺腺癌，KIRC：肾透明细胞癌，UCEC：子宫体子宫内膜癌)的DMR中读段比例的近8倍富集。因此，我们确定，可以通过选择高GC DNA片段来有效地富集各种癌症的DMR，这些DMR过多存在于CpG密集区域中。

Heatrich使用热变性来选择具有高GC含量的DNA片段(图2a)。首先对片段化DNA进行末端修复和加A尾。此后，将样品加热以使GC贫乏片段变性，并立即进行衔接子连接。衔接子连接的过程允许选择完整的非变性的富含GC的双链片段，因为T4 DNA连接酶对dsDNA具有高选择性[Doherty,A.J.和Wigley,D.B.J.Mol.Biol.285,63-71(1999)]。将选定的片段进行亚硫酸氢盐转化，然后进行测序。我们通过使用剪切基因组DNA的经验优化实验(图2b)发现，与未加热样品的平均GC含量(0.42±0.009)相比，紧接在衔接子连接之前将DNA加热到88℃产生了在高GC含量(0.63±0.006)下在CGI中读段的最佳富集(28％)(图2c)。

实施例2

使用热变性选择富含GC的片段

在已确定GC含量与CpG密度密切相关之后，我们随后探索了使用加热作为GC含量选择的手段。Heatrich-BS测定的工作流程如图2a所示。通过进行末端修复和加A尾制备片段化DNA以用于进行衔接子连接。此后，将样品加热以使GC贫乏片段变性，并立即进行衔接子连接。衔接子连接的过程允许选择完整的双链片段，因为T4 DNA连接酶由于其对dsDNA的高亲和力和对ssDNA的低亲和力而对dsDNA具有高选择性[Doherty,A.J.和Wigley,D.B.J.Mol.Biol.285,63-71(1999)]。以这种方式，可以使用衔接子连接来选择非变性的富含GC的DNA片段。将选定的片段进行亚硫酸氢盐转化，然后进行测序。

为了确定实现所需富集所需的温度，在剪切的基因组DNA上测试从75℃到95℃的温度范围(图2b)。87℃至90℃的温度范围具有最高的GC含量和CGI中读段的富集。在更高的温度下，具有高GC含量的片段甚至也会变性，因此降低CGI中的富集。进一步将亚硫酸氢盐转化后的比对速率作为考虑因素，我们选择88℃作为变性温度，因为该条件具有最高的比对速率以及足够高的GC含量(约0.62)和CGI中读段的富集(28％)。从在选定的温度下进行的多个实验中，我们可以看到Heatrich样品的GC含量远高于基因组和未加热样品的平均GC含量(图2c)。从多个实验获得的一致的GC含量和CpG富集也显示出我们测定的高度再现性。

对热处理的剪切DNA作图的分析表明，确实存在定位于CpG岛和岛岸的读段的显著富集，这与理论上的基因组分布和甚至RRBS(用于CGI富集的金标准技术)相比是有利的(图2d)。CGI周围的读段积累也被可视化(图2e)，表明Heatrich在CGI周围具有显著的读段堆积。对Heatrich读段的基因组分布的更详细分析显示出与标准RRBS的基因组分布显著相似(图2f)，这表明这种非酶方法可以是RRBS的可行替代方案，以用于重要基因组调节元件中的详细甲基化分析。值得注意的是，Heatrich独立于限制性酶序列，因此即使在存在限制性位点多态性的情况下，也可以稳健地分析相同的区域，并且可以在限制性消化之前DNA已经片段化(例如FFPE、降解的DNA、cfDNA)时应用，在此情况下RRBS不适用。

实施例3

使用Heatrich-BS富集富含CpG的区域

cfDNA样品由于其片段化性质而理想地适用于Heatrich-BS，并且有望应用于非侵入性疾病检测。为了测试Heatrich-BS对cfDNA的性能，从癌症患者获得样品。对有和没有热变性的样品进行亚硫酸氢盐处理。我们首先可视化从Heatrich-BS获得的读段，并将其与先前报道的具有类似读段计数的无细胞RRBS和WGBS数据集[Guo,S.等人Nat.Genet.49,635-642(2017)]进行比较(图3a)。来自无细胞RRBS和WGBS的读段几乎均匀地分布在基因组区域中。另一方面，绝大多数的Heatrich-BS读段堆积在CpG岛和岛岸，并且其余地区的读段很少。这显示了Heatrich-BS在仅选择高GC含量的片段方面的特异度。此外，在类似读段计数下，Heatrich-BS峰的平均高度明显高于其他数据集的峰的平均高度。这表明，在相同数量的总读段的情况下，Heatrich-BS可以在信息区域获得更高的深度。

然后对来自Heatrich-BS和未加热的cfDNA的测序读段的分布进行定量，并且可以看到Heatrich-BS样品展示出在CGI中高达30倍的读段富集(图3b)。对于500k独特测序读段，几乎30％的Heatrich-BS读段落在CGI内，而只有6％和2％的无细胞RRBS和WGBS读段在CGI中(图3c)。这表明，与对类似样品进行的无细胞RRBS的性能相比，Heatrich-BS展示出对于片段化DNA更有效的CGI富集。此外，针对不同的测序读段测量DMR中的读段数量(图3d)。很明显，与无热对照相比，Heatrich-BS具有多达10倍的定位于DMR的读段，并且Heatrich-BS能够检测到多达10倍的DMR(图4)。对于相同数量的测序读段，这将提供在检测肿瘤起源的片段时更高的灵敏度。这些附图突出了Heatrich-BS的优势：即使测序读段较少，也能有效富集CGI和DMR中的读段。

实施例4

估计肿瘤分数

为了从甲基化数据确定肿瘤分数，最近的研究已使用片段方式的方法，因为它提供高灵敏度[Guo,S.等人Nat.Genet.49,635-642(2017)；Li,W.等人Nucleic AcidsRes.46,e89(2018)]。因此，我们采用了基于片段的方法用于我们的肿瘤分数确定算法。我们算法的工作流程如图5a和图5b所示，并且在方法部分中进行了详细说明。

使用来自TCGA的450k阵列甲基化数据来生成结直肠癌参考具有关键隐患：用于阵列的切除的肿瘤样品通常被正常细胞污染。这种污染已被广泛承认[Leary,R.J.等人Proc.Natl.Acad.Sci.U.S.A.105,16224-9(2008)]，并且已经开发出工具来说明这种在体细胞变体判定中的污染[Sendorek,D.H.等人BMC Bioinformatics 19,28(2018)]。在基于甲基化的分析中，这种污染可能导致对肿瘤分数的过高估计。因此，我们试图鉴定非肿瘤细胞对结直肠癌参考的贡献，并消除其对我们的肿瘤分数确定的影响。为此，我们生成结直肠癌参考[Sun,K.等人Proc.Natl.Acad.Sci.U.S.A.112,E5503-E5512(2015)]，其中使用23个健康志愿者cfDNA数据集用于正常参考以及使用353k TCGA阵列数据集用于肿瘤参考。然后将该参考应用于其他3个健康cfDNA数据集以估计肿瘤分数。不论测序深度如何，我们观察到稳定的非零基线值(图6)。已经报道了当使用组织样品而不是纯细胞群体作为参考时健康cfDNA的非零基线的类似观察结果。该基线值归因于来自肿瘤组织参考的非肿瘤细胞的贡献，并且通常导致在基于甲基化的分析中肿瘤分数的过高估计。为了鉴定这些非肿瘤细胞对结直肠癌参考的贡献和消除其对我们的肿瘤分数确定的影响，我们通过对0.5％肿瘤分数下的健康和模拟血浆cfDNA WGBS样品进行接受者操作特征(ROC)分析，确定了肿瘤纯度校正因子。针对生成的CRC参考确定了跨越多个测序深度最大化灵敏度和特异度的特定校正因子(γ)(表2)。该因子取决于所使用的参考，并且只需要针对每个参考确定一次。

表2：不同基线值的ROC分析

选择突出显示的阈值0.057作为肿瘤纯度校正因子(γ)。

使用所确定的校正因子，我们在不同测序深度下对模拟的血浆WGBS cfDNA样品从0％到5％肿瘤分数测试了我们的算法(图5g)。在5X和1X的测序深度下，我们获得了模拟肿瘤分数值与预测肿瘤分数值之间的高度线性(皮尔逊相关性>0.99)，而健康个体的估计肿瘤分数被校正地称为零。值得注意的是，在每个DMR平均仅被覆盖一次的1X深度下，我们的算法可以准确地检测到小肿瘤分数的存在。这是通过聚集来自多个基因座的读段而实现的，而无需在单独DMR处具有高深度。尽管有这种改进，但过低的覆盖率将导致被询问的DMR数量有限，这转而将影响肿瘤判定的特异度和置信度，如由预测的肿瘤分数的更大变化，包括在0.1X测序深度下健康cfDNA样品中更高的假阳性可能性所证明的。使用由Heatrich-BS提供的CpG富集，可以在不牺牲DMR覆盖率的情况下保持较低的测序要求。为了验证这一点，我们通过仅选择具有>0.6GC含量的血浆cfDNA片段(模拟的Heatrich-BS样品)来粗略估计Heatrich-BS测定。我们观察到，即使使用非常适度数量的总测序读段(200万-600万个读段)，也可以实现高特异度和肿瘤判定置信度(图5h)。值得注意的是，与在300万个读段下WGBS样品的类似读段计数(0.1X)相比，来自模拟的Heatrich-BS样品的肿瘤分数预测具有高得多的特异度和更低的方差。对用于cfDNA中的低肿瘤负荷检测(0.5％肿瘤分数)的WGBS和Heatrich-BS的ROC分析表明，Heatrich-BS样品的预测准确度显著优于常规WGBS样品(AUC 0.988相比于0.547)(图5i)。这些结果证明，Heatrich-BS和相应算法能够实现在cfDNA中的准确肿瘤DNA检测，并且与现有方法相比具有显著更少的测序要求。

应用确定的校正因子，我们利用我们的算法来估计在不同深度下0.1％至5％加标数据集的肿瘤分数(图7)。使用先前确定的GC截断值0.6，用Heatrich-BS模拟数据重复相同的分析(图8)。真实值与算法预测的加标值之间的皮尔逊相关性是0.999，这证明我们算法的准确度和灵敏度。

然后，我们使用不同数量的总测序读段来可视化我们的算法在检测0.5％肿瘤分数方面的能力。ROC曲线分析表明，我们的算法能够实现使用1.5亿个WGBS读段时98％的预测准确度(AUC：0.984)(图5c)。使用Heatrich-BS方法(AUC：0.988)可以在低至300万个读段的情况下实现相同的准确度(图5d)。此外，比较使用WGBS和Heatrich-BS时的300万个读段，我们可以看到使用Heatrich-BS时性能和准确度的显著改进(AUC 0.547相比于0.988)。然后，我们分析使用WGBS和Heatrich-BS在不同测序深度下肿瘤检测的概率(图5e和图5f)。在300万个读段下，Heatrich-BS检测到0.2％肿瘤分数的概率为0.82，而WGBS检测到相同肿瘤分数的概率为仅0.46。因此，这表明Heatrich-BS在肿瘤预测的准确度、灵敏度和稳健性方面优于WGBS。

我们算法的主要特点是其不高度依赖于测序深度。现有的肿瘤分数确定算法在很大程度上依赖于解卷积[Sun,K.等人Proc.Natl.Acad.Sci.U.S.A.112,E5503-E5512(2015)]，这高度依赖于测序深度。为了检测1％肿瘤分数，需要至少100x覆盖率。甚至使用软件如CancerDetector[Li,W.等人Nucleic Acids Res.46,e89(2018)]的基于片段的方法需要超过2x的测序深度，因为它们的“混淆标记物去除”步骤取决于每个标记物的覆盖率。因此，所有现有的用于确定肿瘤分数的方法都需要>2x的测序深度，其超过6000万个读段。另一方面，我们开发的算法并不严重依赖于测序深度，因为可以聚集整个基因组的读段以确定整体肿瘤分数。与Heatrich-BS测定相结合，我们的算法可以用少至300万个读段实现高达99％的预测准确度(图5c)。这进一步证明我们的算法有能力实现从液体活检物进行具有成本效益的肿瘤特异性cfDNA检测。

实施例5

Heatrich-BS应用于cfDNA样品

最后，我们将Heatrich-BS和所开发的算法应用于5名健康志愿者和15个结直肠癌患者cfDNA样品(各自200万至800万个测序读段)，并比较从全基因组测序或深度靶向测序获得的肿瘤分数(图11a)。我们观察到，Heatrich-BS读段每个片段含有更多的CpG(图9)，使得每个测序的读段更具信息性。因此，当应用Heatrich-BS方法时，存在更多的肿瘤概率高于90％或低于10％的片段(图10)，这增加了所判定的肿瘤分数的置信度和准确度。然后，我们将我们的算法预测值与使用用于突变检测的金标准扩增子测序(amplicon-seq)方法估计的肿瘤分数进行比较(图11a)。我们获得了Heatrich-BS与amplicon-seq预测的肿瘤分数之间的0.92的皮尔逊相关性，证明了甚至在临床cfDNA样品中我们的方法和算法的准确度。

除了非侵入性癌症诊断外，液体活检也可用于疾病进展的非侵入性追踪。通过Heatrich-BS实现的定量肿瘤分数估计的低成本和高灵敏度对于频繁监测正在接受治疗的患者和在缓解中的患者以检测复发的可能性具有吸引力。为了进一步验证Heatrich-BS在癌症进展监测中的适用性，在治疗期间的不同时间点从两名结直肠癌患者获得纵向样品。使用Heatrich-BS，我们能够获得肿瘤百分比值并追踪患者对治疗的反应(图11b和图11c)。通过Heatrich-BS预测的肿瘤百分比趋势与CEA值是可比较的，后者是结直肠癌诊断和监测的已知生物标记物。然而，血液中升高的CEA水平不是结直肠癌特有的，并且已被证明对于复发监测仅具有34％灵敏度和84％特异度[Wanebo,H.等人,Surg.Gynecol.Obstet.169,479-487(1989)]。由于Heatrich-BS需要较少的读段来进行肿瘤百分比预测，因此可以以较低的成本执行，其允许使用这种更敏感的方法进行更频繁且更规律的监测。此外，CEA水平仅提供关于癌症水平的一维数据，而Heatrich-BS可以提供多维数据，包括更定量的量度肿瘤负荷以及可以区分患者的其他信息(图11d)。有趣的是，在对纵向患者样品进行主成分分析(PCA)时，PC1分离患者，而PC2沿肿瘤负荷分离。由Heatrich-BS提供的多维信息可以潜在地用于推断亚型分类、耐药性和其他肿瘤特征。因此，具有成本效益的Heatrich-BS可以用于在临床环境中敏感地监测肿瘤进展和特征。

当前用于监测CRC疗法效果和检测癌症复发的非侵入性监测方法有其局限性。辐射暴露和成本限制进行CT扫描的频率。可以频繁地测量血清蛋白生物标记物(如CEA)，但其缺乏灵敏度和特异度[Shinkins,B等人PLoS One 12(2017)]。我们进行Heatrich-BS的成本分析(每个样品300万个读段)，并估计测定成本小于30美元(表3)。

表3：Heatrich-BS测定的成本

*每个样品的成本是假设每个池中有5个样品来计算的

**体积按比例缩小，偏离了试剂盒方案(请参阅方法部分)

由于其简单的工作流程和低成本，Heatrich-BS有可能成为一种用于频繁监测正在接受治疗的患者和在缓解中的患者以检测复发的可能性的敏感测定。为了验证Heatrich-BS在癌症进展监测中的适用性，我们进一步分析14名CRC患者在其治疗过程中的79个样品的群组，其中每名患者5-7个时间点(表1)。

同时，我们获得了这些患者的纵向CEA测量值和计算机断层摄影(CT)扫描，以用于通过Heatrich-BS对肿瘤分数进行基准预测(图12)。从我们的群组的聚集的测量值中，我们观察到CEA值与CT扫描中病变的最长直径之和(SLD)不密切相关(皮尔逊r＝0.26，图13b)，这突出了CEA作为定量测量的局限性。进一步分析每个患者的时间点，可视化Heatrich-BS肿瘤分数的趋势，并将其与CEA状态进行比较(图11e)。可以看出，Heatrich-BS肿瘤分数在两个方面可以优于传统CEA测量值：(1)Heatrich-BS肿瘤分数在CEA测量值之前增加，使得能够更早地检测到肿瘤复发(例如患者357、1014、507)(图11f)。(2)Heatrich-BS可以检测肿瘤负荷而CEA不能，这增加检测的灵敏度(例如患者357、1176、519、839、507、1066、1014)(图11g)。尽管CEA是常规监测CRC的最常见测试，但我们观察到CEA值在检测14名患者中的6名(43％)中的新病变或复发病变方面不能提供信息，甚至当病变在CT扫描上可见时也是如此，而Heatrich-BS与93％患者的CT扫描一致。在70个对应于在CT扫描中检测到病变时的时间点的CEA测量值中有22个(31％)在正常CEA水平限值(<5.3ng/mL)内。另一方面，通过Heatrich-BS得到的肿瘤分数预测与相应时间点的SLD测量值更好地相关(图11h和图13a，皮尔逊r＝0.62)。在经由Heatrich-BS检测到肿瘤(LOD 0.5％)与在CT扫描上观察到病变之间，较少的测量值(8个时间点，11％)不一致。因此，我们已经证明，在传统CEA测量值无法提供信息的情况下Heatrich-BS可以准确地追踪患者的疾病进展，从而将该测定确定为一种敏感且具有成本效益的非侵入性监测工具。

实施例6

使用Heatrich-BS表征患者cfDNA中的肿瘤甲基化亚型

肿瘤发生可以由无数的遗传或表观遗传因素驱动，从而导致一种癌症类型内不同的亚型。在多种癌症(如CRC、乳腺癌、胃癌和神经胶质瘤等)中观察到一种常见的甲基化亚型，称为CpG岛甲基化表型(CIMP)，并且其特征在于表观遗传不稳定，其中肿瘤抑制基因通过甲基化而失活而不是突变[Mojarad,E.N.Gasrolenterol Hepatol from Bed to Bench6:120-128(2013)]。研究已表明，患有CIMP阳性肿瘤的患者预后较差，并且总存活期较短[Juo,Y.Y.等人Ann Oncol.25:2314-2327(2014)]，而CIMP阳性CRC对基于伊立替康的方案的反应比对基于奥沙利铂的方案的反应更好[Zhang,X等人Front Oncol 11(2021)]。据我们所知，没有现有的靶向cfDNA甲基化测定能够进行癌症甲基化亚型分析。Heatrich-BS的非靶向性质为获得这一另外的见解提供了机会。

CIMP中的大多数差异甲基化基因座发现于在Heatrich-BS中高度富集的CGI中。我们发现用于对TCGA CRC样品中的CIMP状态进行分类和注释的基因座的41.7％(1121/2686)[Muzny,D.M.等人Nature 487:330-337(2012)]在Heatrich-BS中有效地表示(覆盖超过50个样品)。我们鉴定最终一组635个最具信息性的CpG，其可以共同区分不同的CIMP亚型(图14a)。另一方面，用于预测肿瘤分数的DMR的甲基化谱在不同的CIMP亚型之间保持不变(图14f)。有趣的是，我们注意到CIMP标记物和用于预测肿瘤分数的DMR之间没有重叠，这表明Heatrich-BS区域涵盖可用于肿瘤负担定量和甲基化亚型预测的标记物的正交集。

然后开发了评分***，此评分***将允许对肿瘤甲基化亚型进行容易的分类(实施例1)。将此评分***应用于233TCGA CRC样品[Muzny,D.M.等人Nature 487:330-337(2012)]，我们观察到CRC组织的CIMP亚型由甲基化得分的范围明确定义，并且甲基化得分中的一系列阈值允许对CIMP亚型分类的89％准确度(图14b)。然而，由于cfDNA源自正常细胞和癌细胞的混合物，因此预期cfDNA的原始甲基化得分不反映潜在肿瘤的甲基化亚型。为了验证用于确定cfDNA中潜在肿瘤的甲基化得分的方法，我们通过产生从TCGA和健康血浆甲基化测量值提取的测序读段的混合物来模拟含有不同肿瘤甲基化亚型的cfDNA(图14c)。虽然来自cfDNA的原始甲基化得分被其肿瘤分数混淆，但并入来自Heatrich-BS测定的肿瘤分数估计使得能够计算准确地反映潜在肿瘤甲基化亚型的经校正的甲基化得分(当肿瘤分数高于10％时为86％准确度)。低于10％的肿瘤分数由于较少的肿瘤来源的cfDNA片段而在肿瘤甲基化亚型预测中展现出更高的不确定性(图14d)。最后，我们应用此算法来推断我们的纵向追踪群组的肿瘤甲基化亚型(图14e)。我们计算了79个样品中肿瘤分数>10％的24个样品的甲基化得分。我们的结果表明，来自同一患者的纵向样品的经校正的甲基化得分通常紧密群集并且与肿瘤分数无关，而患者之间的甲基化得分可能差异很大，这表明患者肿瘤的甲基化亚型不会因疾病进展而显著变化。我们的结果预测，在分析的群组中没有CIMP高患者，其中大多数患者属于CIMP阴性亚型，簇3或簇4。据报道，CRC中CIMP高肿瘤与微卫星不稳定性密切相关[Weisenberger,D.J.等人Nat Genet 38:787-793(2006)]。我们从cfDNA进行的肿瘤甲基化亚型预测非常符合预期，因为在标准临床评价期间，此纵向群组中的所有患者肿瘤均被分析为微卫星稳定的(表1)。

总结

本发明提供了利用热变性的概念来实现片段化DNA中的CpG富集的首次测定，我们称之为Heatrich-BS测定。Heatrich选择GC含量超过60％的DNA片段，并且几乎30％的Heatrich-BS读段在CGI中，所述CGI构成少于1％的基因组。我们还开发了一种肿瘤分数预测算法来增强我们的测定，并验证了其对于来自低深度测序(1X)的低至0.5％的肿瘤分数的应用。通过这种双管齐下的方法，我们实现了用于定量癌症检测的通用低成本(30美元)cfDNA甲基化测定。

本发明提供了对应于cfDNA突变和拷贝数测量值的精确肿瘤分数估计。由于其灵敏度和低成本，本发明特别适用于癌症进展或复发的非侵入性监测，其中需要频繁的测量并且目前的方法是不够的。在癌症患者的纵向监测中，与常规的CEA蛋白生物标记物测定相比，本发明可以为低肿瘤分数下的CRC检测提供优异的灵敏度。此外，我们首次证明了从cfDNA阐明肿瘤甲基化亚型，这进一步证实了使用本发明而获得的广泛基因组覆盖的优点。

与目前的测定相比，Heatrich-BS方法提供显著优点：(i)Heatrich-BS的工作流程短且易于执行。从样品收集到测序的整个测定可以在少于48小时内进行，从而导致短的周转时间，即使对于测序测定也是如此。(ii)热变性与DNA序列偏差无关，所述DNA序列偏差可能是由于在测定(如RRBS)中使用限制性酶而引起的。(iii)Heatrich基于GC含量，这是DNA的物理特性。即使在片段化DNA(如cfDNA和FFPE样品)中，其也能够实现有效CpG富集，其中目前测定方法(如RRBS)的富集能力有限[Ludgate,J.L.等人BMC Med Genomics 10:1-10(2017)]。(iv)与常规的非靶向测定相比，Heatrich-BS需要更少的测序读段，这使得其执行具有很高的成本效益(节省＞10倍成本)。

最后，使用Heatrich-BS测定对表观遗传学信息区域的广泛覆盖可以探索其他重要应用。在先前的报道中鉴定的绝大多数(83％)的组织特异性甲基化单倍型区块(MHB)[Guo,S等人Nat Genet 49:635-642(2017)]可以使用Heatrich-BS来检测，这表明其用作通用的、负担得起的多癌症筛查和鉴别测定的潜力。我们设想，新型Heatrich-BS平台将是一项重要的创新，使得能够实用地且可扩展地实现在液体活检物中的cfDNA甲基化分析以用于临床翻译。

参考文献

Adalsteinsson,V.A.et al.Scalable whole-exome sequencing of cell-freeDNA reveals high concordance with metastatic tumors.Nat.Commun.8,(2017).

Andrews,S.FastQC:a quality control tool for high throughput sequencedata.(2010).

Berthold,M.R.et al.KNIME:The Konstanz Information Miner.in Studies inClassification,Data Analysis,and Knowledge Organization.GfKL(Springer,2007).

Bos,J.L.,Fearon,E.R.,Hamilton,S.R.,Vries,M.V.,van Boom,J.H.,van derEb,A.J.and Vogelstein,B.(1987)Prevalence of ras gene mutations in humancolorectal cancers.Nature,327,293-297.

Broad Institute.Picard Tools.(2018).broadinstitutedotgithubdotio/picard/

Diehl,F.,Li,M.,He,Y.,Kinzler,K.W.,Vogelstein,B.and Dressman,D.(2006)BEAMing:single-molecule PCR on microparticles in water-in-oilemulsions.Nat.Methods,3,551-559.

Doherty,A.J.&Wigley,D.B.Functional domains of an ATP-dependent DNAligase.J.Mol.Biol.285,63-71(1999).

Forshew,T.,Murtaza,M.,Parkinson,C.,Gale,D.,Tsui,D.W.Y.,Kaper,F.,Dawson,S.J.,Piskorz,A.M.,Jimenez-Linan,M.,Bentley,D.,et al.(2012)Noninvasiveidentification and monitoring of cancer mutations by targeted deep sequencingof plasma DNA.Sci.Transl.Med.,4(136):136ra68.

Fiala,C.and Diamandis,E.P.(2018)Utility of circulating tumor DNA incancer diagnostics with emphasis on early detection.BMC Med.,16,1-10.

Gaspar,J.M.&Hart,R.P.DMRfinder:Efficiently identifying differentiallymethylated regions from MethylC-seq data.BMC Bioinformatics 18,1-8(2017).

Gu,H.,Smith,Z.D.,Bock,C.,Boyle,P.,Gnirke,A.and Meissner,A.(2011)Preparation of reduced representation bisulfite sequencing libraries forgenome-scale DNA methylation profiling.Nat.Protoc.,6,468-481.

Guo,H.,Zhu,P.,Guo,F.,Li,X.,Wu,X.,Fan,X.,Wen,L.and Tang,F.(2015)Profiling DNA methylome landscapes of mammalian cells with single-cellreduced-representation bisulfite sequencing.Nat.Protoc.,10,645-59.

Guo,S.,Diep,D.,Plongthongkum,N.,Fung,H.L.,Zhang,K.and Zhang,K.(2017)Identification of methylation haplotype blocks AIDS in deconvolution ofheterogeneous tissue samples and tumor tissue-of-origin mapping from plasmaDNA.Nat.Genet.,49,635-642.

Johnson,D.A.et al.Plasma Septin9 versus fecal immunochemical testingfor colorectal cancer screening:a prospective multicenter study.PLoS One 9,e98238(2014).

Krueger,F.&Andrews,S.R.Bismark:A flexible aligner and methylationcaller for Bisulfite-Seq applications.Bioinformatics 27,1571-1572(2011).

Leary,R.J.et al.Integrated analysis of homozygous deletions,focalamplifications,and sequence alterations in breast and colorectal cancers.Proc.Natl.Acad.Sci.U.S.A.105,16224-9(2008).

Li,W.et al.CancerDetector:ultrasensitive and non-invasive cancerdetection at the resolution of individual reads using cell-free DNAmethylation sequencing data.Nucleic Acids Res.46,e89(2018).

Liu,M.C.,Oxnard,G.R.,Klein,E.A.,Swanton,C.,Seiden,M.V.,Cummings,S.R.,Absalan,F.,Alexander,G.,Allen,B.,Amini,H.,et al.(2020)Sensitive and specificmulti-cancer detection and localization using methylation signatures in cell-free DNA.Ann.Oncol.,31,745-759.

Ludgate,J.L.et al.A streamlined method for analysing genome-wide DNAmethylation patterns from low amounts of FFPE DNA.BMC Med.Genomics 10,1-10(2017).

Juo,Y.Y.et al.Prognostic value of CpG island methylator phenotypeamong colorectal cancer patients:A systematic review and meta-analysis.Ann.Oncol.25,2314-2327(2014).

Mojarad,E.N.,Kuppen,P.J.K.,Aghdaei,H.A.&Zali,M.R.The CpG islandmethylator phenotype(CIMP)in colorectal cancer.Gastroenterol.Hepatol.from Bedto Bench 6,120-128(2013).

Moss,J.,Magenheim,J.,Neiman,D.,Zemmour,H.,Loyfer,N.,Korach,A.,Samet,Y.,Maoz,M.,Druid,H.,Arner,P.,et al.(2018)Comprehensive human cell-typemethylation atlas reveals origins of circulating cell-free DNA in health anddisease.Nat.Commun.,9(1):5068.

Mouliere,F.,Chandrananda,D.,Piskorz,A.M.,Moore,E.K.,Morris,J.,Ahlborn,L.B.,Mair,R.,Goranova,T.,Marass,F.,Heider,K.,et al.(2018)Enhanceddetection of circulating tumor DNA by fragment size analysis.Sci.Transl.Med.,10,1-14.

Muzny,D.M.et al.Comprehensive molecular characterization of humancolon and rectal cancer.Nature 487,330-337(2012).

Sendorek,D.H.et al.Germline contamination and leakage in whole genomesomatic single nucleotide variant detection.BMC Bioinformatics 19,28(2018).

Shinkins,B.et al.The diagnostic accuracy of a single CEA blood testin detecting colorectal cancer recurrence:Results from the FACS trial.PLoSOne 12,(2017).

Shu,Y.,Wu,X.,Tong,X.,Wang,X.,Chang,Z.,Mao,Y.,Chen,X.,Sun,J.,Wang,Z.,Hong,Z.,et al.(2017)Circulating Tumor DNA Mutation Profiling by Targeted NextGeneration Sequencing Provides Guidance for Personalized Treatments inMultiple Cancer Types.Sci.Rep.,7,1-11.

Sougnez,C.,Gabriel,S.,Meyerson,M.&Lander,E.S.MuTect.Nat Biotechnol31,213-219(2013).

Sproul,D.and Meehan,R.R.(2013)Genomic insights into cancer-associatedaberrant CpG island hypermethylation.Brief.Funct.Genomics,12,174-190.

Sun,K.et al.Plasma DNA tissue mapping by genome-wide methylationsequencing for noninvasive prenatal,cancer,and transplantation assessments.Proc.Natl.Acad.Sci.U.S.A.112,E5503-E5512(2015).

Weisenberger,D.J.et al.CpG island methylator phenotype underliessporadic microsatellite instability and is tightly associated with BRAFmutation in colorectal cancer.Nat.Genet.38,787-793(2006).

Zhang,X.,Zhang,W.&Cao,P.Advances in CpG Island Methylator PhenotypeColorectal Cancer Therapies.Front.Oncol.11,(2021).

Claims

1.一种富集CpG岛的方法，所述CpG岛包含来自受试者的分离的循环无细胞DNA中的癌症特异性甲基化信息，所述方法包括以下步骤：

i)提供无细胞DNA样品；

ii)修复双链DNA末端并添加dA尾；

iv)将甲基化衔接子连接至所述双链DNA的两端；

v)对所述衔接子连接的DNA进行亚硫酸氢盐转化；

vi)扩增来自v)的所述亚硫酸氢盐转化的衔接子连接的DNA；

vii)依据大小选择vi)的所扩增的DNA的190-400bp片段。

2.根据权利要求1所述的方法，其中低GC含量片段具有低于约60％GC含量，而高GC含量片段具有约60％或更高GC含量。

3.根据权利要求1或2所述的方法，其中步骤iii)中的所述热变性在约87℃-92℃范围内的温度下进行。

4.根据权利要求1至3中任一项所述的方法，其中所述无细胞DNA样品来自具有医学状况的受试者。

5.根据权利要求1至4中任一项所述的方法，所述方法进一步包括测定一种或多种所扩增的分子的序列的至少一部分。

6.根据权利要求5所述的方法，其中测定所述序列的至少一部分包括配对末端测序。

7.根据权利要求6所述的方法，其中所述测定步骤提供对于所述受试者的诊断信息。

8.根据权利要求7所述的方法，其中所述诊断信息包括对于所述受试者的癌症诊断信息。

9.一种用于测定来自受试者的循环无细胞DNA样品中的肿瘤分数的方法，所述方法包括：

10.根据权利要求9所述的方法，所述方法包括：

(i)获得正常血浆全基因组亚硫酸氢盐测序甲基化数据集；

(iii)鉴定来自数据集(i)和(ii)的差异甲基化簇；

C)估计所述样品的肿瘤分数，其表示为θ，其中0≤θ＜1；

11.根据权利要求10所述的方法，其中在A)(iii)中选择甲基化差值为0.5的簇内的所有CpG位点。

12.根据权利要求9至11中任一项所述的方法，其中所述比较群体选自来自正常患者和/或癌症患者的循环无细胞DNA。

13.根据权利要求9至12中任一项所述的方法，其中所述参考癌症甲基化数据集是结直肠腺癌(COAD)数据集。

14.一种获得与受试者的医学状况有关的信息的方法，所述方法包括：

i)提供来自所述受试者的分离的无细胞DNA样品；

ii)修复双链DNA末端并添加dA尾；

iv)将甲基化衔接子连接至所述双链DNA的两端；

v)对所述衔接子连接的DNA进行亚硫酸氢盐转化；

vi)扩增来自v)的所述亚硫酸氢盐转化的衔接子连接的DNA；

vii)依据大小选择vi)的所扩增的DNA的190-400bp片段；

viii)测定一种或多种所扩增的分子的序列的至少一部分；

测定来自所述受试者的样品中的肿瘤分数，其包括：

15.根据权利要求14所述的方法，其中低GC含量片段具有低于约60％GC含量，而高GC含量片段具有约60％或更高GC含量。

16.根据权利要求14或15所述的方法，所述方法包括：

(i)获得正常血浆全基因组亚硫酸氢盐测序甲基化数据集；

(iii)鉴定来自数据集(i)和(ii)的差异甲基化簇；

C)估计所述样品的肿瘤分数，其表示为θ，其中0≤θ＜1；

17.根据权利要求16所述的方法，其中在A)(iii)中选择甲基化差值为0.5的簇内的所有CpG位点。

18.根据权利要求14至17中任一项所述的方法，其中步骤iii)中的所述热变性在约87℃-92℃范围内的温度下进行。

19.根据权利要求14至18中任一项所述的方法，其中测定所述序列的至少一部分包括配对末端测序。

20.根据权利要求14至19中任一项所述的方法，其中所述测定步骤提供对于所述受试者的诊断信息。

21.根据权利要求20所述的方法，其中所述诊断信息包括对于所述受试者的癌症诊断信息。

22.根据权利要求14至21中任一项所述的方法，其中所述比较群体选自来自正常患者和/或癌症患者的循环无细胞DNA。

23.根据权利要求14至22中任一项所述的方法，其中所述参考癌症甲基化数据集是结直肠腺癌(COAD)数据集。

24.根据权利要求9-23中任一项所述的方法，所述方法进一步包括基于所述受试者是否被鉴定为具有指示癌症的肿瘤分数来治疗所述受试者。

25.根据权利要求9-23中任一项所述的方法，所述方法能够实现从低至300万个测序读段>98％的预测准确度。

26.根据权利要求9-23中任一项所述的方法，所述方法能够以0.82的概率检测0.2％肿瘤分数。