特异捕获并重复复制低频率DNA碱基变异的方法及应用
技术领域
本发明涉及分子生物学及临床诊断领域,尤其涉及利用结构性引物从碎片DNA样本中捕获目标DNA、重复复制、扩增后直接用于二代高通量平行测序仪测定,以鉴定DNA片段中超低频率变异的碱基替换、缺失、***或混合型突变组合等DNA序列突变的方法及其应用。
背景技术
肿瘤组织的癌基因变异是驱动肿瘤细胞恶性增生的主要因素。大多数肿瘤的癌基因除了存在一个主要的驱动变异以外,还存在多种较低频率的其它驱动变异,而这些较低频率的其它驱动变异对肿瘤的治疗效果有很大的影响,这些变异是肿瘤分子病理检测的主要对象,是肿瘤靶向治疗的基础。
正常人外周血血液中存在微量的游离DNA片段(cell-free DNA,简称cfDNA)。在生理或病理变化时,通过血浆样本可以测定出相关病理或生理组织细胞特异的cfDNA,因此,cfDNA可以作为病理生理改变时的“液态活检”检测对象。液态活检以血液中的游离DNA为检测对象,具有非介入性、可重复取样、接受度高等特点,已经成为无创产前遗传诊断、肿瘤诊断、肿瘤预后等研究领域的热点,并开始进入临床应用。cfDNA的鉴定在肿瘤的早期诊断、药效评估、靶向治疗及预后评估等领域也有着广阔的应用前景。
新鲜组织、冰冻组织、石蜡包埋组织、胸水、血浆、肿瘤脱落细胞中肺癌相关的基因突变检测已经应用于指导个性化靶向用药,并得到如cFDA、FDA及欧盟药监机构的认可。截止2016年4月,FDA等管理机构认定的肺癌靶向用药的伴随诊断基因已有:EGFR、Kras、Braf、Nras基因的突变热点、PIK3CA基因、EML4-ALK融合基因、ROS1、ALK/ROS1、BCR-ABL融合基因,PDGFRA、JAK2、C-KIT突变基因等。肿瘤学领域,对这些基因突变热点的液态活检可能用于监测血液中的肿瘤载荷,如对缺少组织活检诊断的肺癌患者血液样本中表皮生长因子受体(EGFR)驱动突变的检测已被药监机构批准用于EGFR-酪蛋白激酶抑制剂类药物的伴随诊断方法。然而,基于血液中DNA分析的液态活检方法作为常规癌症诊断应用之前,还必须解决其有效性、操作性和可靠性的问题,但液态活检在肿瘤的早期诊断、药效评估及预后评估等领域已经凸显出特殊的应用前景【Diehl F,Schmidt K,Choti MA,et al.Circμlatingmutant DNA to assess tumor dynamics.Nat Med 2008;14(9):985-90】。
技术上,由于血液中游离核酸含量低,而且游离核酸易受野生型核酸的稀释干扰,并受到传统检测技术灵敏度的限制,液态活检在临床应用中受到了一定的限制。就突变点频率测定的灵敏度而言,qPCR技术可以达到0.1%、数字式PCR为0.01%、二代高通量平行测序(简称,二代测序)可达到0.001%的水平。如果以血浆中cfDNA为检测样本,对突变检出技术的灵敏度要求非常高,要求达到0.01%,按照这种要求,目前只有二代测序技术勉强可以用于cfDNA的高通量测定。而由于测序深度和文库背景信号的障碍,基于二代测序技术的液态活检方法目前还只适用于科研,距临床诊断应用还有一段距离。
除了在肿瘤诊断的临床应用,低频率变异体的检测在生物学的其他方面也有巨大的应用,如体细胞突变、样本污染的检出等。二代测序技术对混合样本中低频率变异的检测具有巨大的应用前景。但该方法的局限在于方法本身的误差率高,达0.1–1%,而样本中低频率变异可能低至0.01%。低频率变异体的检测对上样量也有很高要求,通常的文库构建需要至少50ng的DNA样本。但是,DNA样本量少、变异频率低、DNA碎片化是临床样本的共同特性,使得目前的二代测序技术用于低频率变异体的检测时,会产生无法接受的假阳性率。
以Illumina的二代测序平台为例,MiSeq测序平台的碱基替代错误率达0.1%以上【Performance comparison of NGS platforms miSeq Ion Torrent-NBT 2012Loman】。其产生原因有:1.DNA序列合成读数时产生的碱基阅读错误;2.DNA链成簇扩增时,聚合酶导致的合成错误;3.文库制备过程中PCR扩增引入的碱基配对错误;4.文库测序时样本之间的污染。前两个原因造成的碱基阅读误差与机器***有关,主要是早期实验使用的聚合酶本身的错误率产生的,随着高保真合成酶,如HiFi KAPA聚合酶的应用和测序技术平台的优化,这方面的误差已经大为降低。二代测序文库构建需要用PCR链反应对DNA片段加尾和扩增,PCR链反应中,前一个循环产生的DNA片段会被用于后一个反应循环的DNA模板,因此PCR产物随着PCR循环数以指数级别增加。用于DNA加尾和扩增的DNA聚合酶会产生一定的合成错误,如常用的Taq DNA聚合酶错误率为2.84x10-4,在不优化的条件下,合成9000个碱基时就有一个错误发生【Tindall KR,Kunkel TA.Tindall KR,Kunkel TA.Fidelity of DNAsynthesis by the Thermus aquaticus DNA polymerase.Biochemistry.1988 9;27(16):6008-13.】,平均合成约100个90碱基的片段中有一段出现错误替代合成。核糖核酸由四种碱基构成,发生在一个特定位置的特定碱基突变几率为2,7000分之一。而高保真的KAPAHiFi聚合酶的合成误差率比Taq DNA聚合酶低100倍。另一方面,PCR链式反应中,前一个循环产生的DNA片段会被用于后一个反应循环的DNA模板,因此一个循环中产生的DNA合成错误,会被随后的循环继承,以指数数级的方式扩增放大。PCR循环中错误产生以及产生的时间,具有随机性,对NGS测序文库的背景噪音有极大的影响,是高通量测序产生背景噪声的主要原因。除了使用高保真DNA聚合酶,有两个策略可以降低文库制备过程中碱基变异率,一是降低PCR扩增的总循环数,一是提高样本中低频变异体的总量。二者必须同时兼顾才能降低方法本底的噪音。但临床样本的稀缺和微量的血浆cfDNA,注定了不能无限地增加样本量,测序前的扩增步骤必不可少。目前对测序文库的扩增方法很多,但均在扩增过程中增加了变异频率,引起更高的假阳性率。安可济(AccuraGen)的萤火虫技术,利用滚环扩增的方式可以以引入较低变异的代价选择性地扩增目标片段,但后续仍需要完成常规的文库构建和扩增步骤,该技术也只能把对变异的诊断灵敏度提高到0.02%【Lin,2015】。
另一个影响到NGS测定灵敏度的因素是对所测目标片段的覆盖率,即测序深度。测序深度直接决定了测序的灵敏度,100x的测序深度最大只能提供1%的测定灵敏度。理论上,二代测序的测序深度不受限制,可以轻易的超过10,000x,如我们利用OmegaPlex对单一位点的测序深度可以超过90万,甚至更高,见本发明的实施例4。由于基因组太大,约32亿,受测序通量、测定价格和数据处理能力的限制,上述方法实际上是不可行的,实践中必须对文库进行选择性的富集。现有的富集方法可以锁定目标片段,但不能降低文库噪音信号,相反,还有可能额外增加本底,造成测序结果出现假阳性。
发明内容
本发明的目的之一,就在于提供一种重复复制并特异捕获低频率DNA碱基变异的方法,以解决上述问题。
为了实现上述目的,本发明采用的技术方案是这样的:一种重复复制并特异捕获低频率DNA碱基变异的方法,包括以下步骤:
(1)对DNA进行热变性,然后用具有热力学动态结构的引物混合物对目标DNA进行杂交,用DNA聚合酶以目标DNA为模板进行延伸复制,重复上述过程,完成对模板的重复复制;对DNA进行变性时优选采用热循环仪;
(2)利用与测定目标3′端匹配的寡聚核苷酸对重复复制出的次生DNA片段进行特异性延伸、加尾,并在其次生产物的3′端引入一段共同序列;
(3)用含有测序条码序列的引物进行PCR扩增,完成测序文库的构建;
(4)对测序文库进行高通量平行测序以生成多个测序读值;
(5)鉴定测序读值与参考序列之间的序列差异;
(6)将从所述的核酸样品获得的多个读值中以0.01%或更高的频率发生的序列差异判定为序列变体。
作为优选的技术方案:步骤(1)中所述的具有热力学动态结构的引物是探针长度为12nt-16nt欧米伽引物,或者是探针长度为12nt-16nt的茎环引物,或者是探针长度为12nt-16nt的欧米伽引物与探针长度为12nt-16nt的茎环引物的组合。
作为优选的技术方案:步骤(1)中所述的具有热力学动态结构的引物5′端含有特定的序列组合,为高通量平行测序所需锚定序列、样本条码序列或测序引物靶点序列中的至少一种。
作为优选的技术方案:步骤(1)所述DNA聚合酶为高保真DNA聚合酶,或高保真DNA聚合酶与高效率聚合酶的组合。
作为优选的技术方案:步骤(1)所述杂交温度为4℃到35℃的范围,并与50℃以上的温度交替进行。
作为优选的技术方案:步骤(1)所述重复复制是在低温下完成引物与DNA的杂交和延伸,然后在高温进行热变性的过程;或在两个或两个以上低温度进行多次循环后进行高温热变性,所述重复复制是一次或一次以上的重复。
作为优选的技术方案:步骤(1)中所述的具有热力学动态结构的引物对特定目标片段的覆盖是两个或两个以上,以串联的方式完成。
作为优选的技术方案:步骤(1)中所述的具有热力学动态结构的引物对特定双链目标片段的覆盖是针对其中一条链,或者是针对其互补链,又或者是同时针对二者。
二代测序文库的构建是在待测DNA片段的两端装配特殊的锚定序列、样本条码序列和测序引物位点序列。锚定序列与Illumina二代测序仪中固定在基质表面的引物序列杂交而将待测DNA片段锚定,通过桥式PCR扩增,形成待测DNA片段簇,通过DNA聚合酶合成读出每个位置的碱基成份,记录各个片段的序列。不同的二代测序仪或测定平台对片段两端的锚定序列要求不一样,但对如何获得满足其测序要求序列靶点的文库构建方法则没有限制,本发明利用具有热力学动态结构的引物(又称为“结构性的引物”),如欧米伽引物(专利申请号:PCT/CN2013/070525)、茎环引物(Applied Biosystems,Inc,PCT/CN2013/070525)等,引入锚定序列和测序引物靶点序列,构建测序文库的原理和方法,适用于各种二代测序平台文库的构建。该方法,也称为:OmegaPlex重复复制检测法,为提高检出灵敏度、富集特定目标、增加测序深度提供了多重便利,见图1。多重PCR特异目标富集法常用来对特异目标片段的特异扩增,集中分析感兴趣的片段集,可以得到极高的测序深度,但无法改变本底噪音的频率,因此对低频率的变异体无能为力。本发明采用结构性的欧米伽或茎环引物进行目标碎片DNA的杂交捕获和复制,可以利用同一片段进行多达200次的重复复制,等同于上百倍地增加了DNA上样量,见图2。由于这种复制以同一DNA片段反复为模板,线性扩增,DNA聚合酶产生的合成错误受到抑制,不会产生错误的放大。Taq DNA聚合酶合成中,任何一个位点出现碱基替代错误率为1/9000,即平均每次新合成的DNA序列出现特定变异的出错率为0.0037%=1/(9000x 3)。本发明的重复复制方法中,每一次的复制均针对同一模板,因此每次复制的出错率维持恒定,没有累积。
表1:重复复制线性扩增中DNA聚合酶碱基替代错误产生的背景突变(单位:万分之一)。
表1中以10,000个分子模板含有一个突变体的低频率变异样本为例,以数学计算推导不同聚合酶产生的背景信号与聚合酶本身合成错误率之间的关系。可以看出,聚合酶在一特定位点的随机替代率与被复制的DNA片段长度无关,只与酶本身的合成错误率有关。以Taq聚合酶为例,产生一条有随机突变的DNA片段,突变发生在特定位点的几率是恒定的0.0037%。对1万条DNA目标重复复制100次,产生37条与目标变异体相同的次生片段,但总体分子数已经扩增到100万条,新生变异体的出错率仍然是0.0037%。因此如果以重复复制的方式扩增,新增加的特异变异体的频率是恒定的,只与聚合酶的出错率有关。因此,使用保真性的KAPA HiFi或将不同的聚合酶组合使用,优化酶反应条件等手段降低聚合酶的出错率,可以以极低的背景噪声代价获得样本量的大量扩增。从而降低随后文库扩增所需的PCR循环数,整体上起到降低背景噪音的效果,并提高检出灵敏度。相反,Taq DNA聚合酶经PCR循环以指数方式扩增1万条DNA片段100倍时,需要6-7个循环,新生片段突变的几率从0.0037%到0.50%不等,与变异发生时所处的PCR循环数相关,因为PCR反应的模板是前一个循环的产物,早期发生的突变会被随后的循环复制而继承,突变发生越早,终产物中突变的百分比越高,见图2。PCR反应引入的突变是造成二代测序假阳性率高的主要原因。而以同一目标进行重复复制的方式可以在产生较少突变的情况下,使模板数目得到扩增,提高信号强度,同时减少文库制备所需的PCR扩增循环数,减少背景信号,从而使检测灵敏度得以提高,见图2。
多重PCR特异目标富集法用线性引物对特定的目标进行捕获扩增,难以避免引物间二聚体的形成,因此不适用于重复复制的线性扩增方式。欧米伽引物是一种结构性的寡核苷酸引物,含有可形成长度为4-12对碱基的茎环的碱基互补序列,以及3′端12个碱基的探针及探针间隔区。欧米伽引物可以避免对模板DNA链内靶点的启动和引物之间的二聚体化,可以用少量的引物取得较高的引物扩增效率和较好的特异性,并可以在较低的温度下进行杂交和延伸,提高合成特异性和灵敏度。将欧米伽探针的序列长度延伸到12nt–16nt时,欧米伽引物探针可以与短片段DNA的链内互补位点杂交,启动引物的合成延伸,因此可以用来对片段DNA进行捕获复制。欧米伽引物具有热力学动态结构,在较低温度下形成茎环,使探针区与5′端的序列独立开来,因而只要不破坏茎环结构,可以随意调节5′端序列而不影响探针的引物效能。
本发明的一个具体实例中,我们在5′端的引入了二代测序的P5锚定序列和Read1测序引物结合靶点序列,提高对目标片段的建库效率,见图1。同样的,低温下形成的茎环结构,阻止引物之间形成二聚体,可以用来对模板进行重复复制,低温还有助于提高杂交的灵敏度和不同目标间测序深度的平衡性。
本发明其中一种实现方式以欧米伽引物为例来说明。文库建立的第一步是将欧米伽引物、待测样本DNA(碎片)、Taq DNA聚合酶及合成所需的成份一起混合,95℃下变性成单链。然后温度降至60℃时,引物茎环结构形成,阻止引物间的杂交延伸反应。继续降低至杂交所需的温度,使探针与目标DNA进行杂交,再升高温度以激活聚合酶活性,完成DNA链的合成延伸。重复上述95℃变性和4℃的杂交合成,完成对目标DNA的线性扩增。第二步是特异目标DNA的合成,反应利用含有与目标DNA下游互补序列及测序引物序列的DNA引物进行杂交和延伸,制造出可以用NGS锚定引物进行扩增的模板。最后是用带有样本条码的PCR引物进行扩增,并掺入样本条码和锚定序列,至此完成对测序文库的构建。本发明采取了对样本的线性重复复制,大大减少后续对文库扩增所需的PCR循环数,完成从1个基因组(约5pg)的建库工作,只需12个PCR循环。利用低温重复合成,背景信号降到十万分之二,文库的灵敏度可达0.01%。优选采用高保真聚合酶,如KAPA HiFi聚合酶,可以进一步减低背景信号,见表1。相比目前商品化的建库试剂盒或技术,本发明可以用最少的PCR循环达到二代测序的文库数量和最佳的灵敏度,这对在正常序列背景中可能含有少量变异序列的样品中的低频率核酸变异的鉴定和阐明,以及对在测序错误背景下的低频变异的鉴定有极大的帮助。
结构型的茎环引物的探针长度为5nt-8nt时,低温下具有避免引物二聚体生成、捕获短DNA3′末端的特性。本发明中发现,茎环引物探针长度加长为16nt后,可以与短片段DNA链内互补位点杂交,启动DNA的合成。经过探针优化的茎环引物具有避免引物二聚体生成、捕获碎片DNA的特性,可以用于多重PCR的重复复制。线性引物则不具备这种特性,因此不能用于多重PCR的重复复制。本发明比较了单一探针欧米伽引物、茎环引物和线性引物对碎片DNA的捕获灵敏度,证明16nt的探针序列可以达到分析样本中1.6拷贝数的灵敏度。进一步对不同探针长度的欧米伽引物进行测试,发现14–16nt探针的捕获灵敏度达到1.6拷贝数,12nt的探针灵敏度为33拷贝数,10nt的探针灵敏度降为3300拷贝数。对经欧米伽引物或茎环引物制备的文库经HiSeq及MiSeq测序,证明其可行性,见实施例3。
从二代测序获得测序读值后,必须对测序数据进行生物信息学分析,从海量的数据中找出有用的信息。本发明应用中,首先从MiSeq或HiSeq测序结果中获得FASTQ文件,然后用质量检测的软件,如FastQC、Trimmomatic等,对测序结果的进行质量评估,以及剔除质量低于QV30的测序读值;使用BWA、bowtie或R软件程序将FASTQ文件中的序列与靶向参考序列(如Kras、Braf和EGFR)进行比对,使用比对结果找到每个序列的重复区域或变异及其参考位置。将找到与特定目标片段所有序列读数中相同变异数目进行合并,计算变异频率和噪音频率,通过对变异频率和噪音频率的QV30分析和差异分析,以确认判断变异为阳性突变或阴性突变的可能性。
鉴定序列变体的过程包括将一个或多个测序读值与参考序列进行比对,以鉴定这两者之间的差异,以及鉴定接点。通常,比对是将一个测序读值序列沿参考序列放置,顺序地沿每一个序列对两个序列匹配与否进行打分,并且优选地沿着参考序列对各个位置进行重复比对。具有最佳得分的匹配被视为配对成功,并且代表了关于测序读值序列与参考序列间的关系程度的推断。与测序读值进行比较的参考序列是目标参考基因组,参考基因组可以是完整的或不完整的。在一些实施方案中,参考基因组仅由包含目标多核苷酸的区域组成,例如源自参考基因组或源自所分析的测序读值生成的共有序列。在一些实施方案中,参考序列仅由参考基因组的一部分,或与一个或多个所分析的靶序列相对应的区域组成。
在典型的比对中,测序读值中的碱基旁边有参考序列中的不匹配碱基显示在该点发生了置换突变。类似地,当一个序列在其参考序列中相对应的碱基旁边出现缺口时,推断发生了缺失突变。当一个序列在其参考序列中相对应的碱基旁边出现额外的碱基时,推断发生了***突变。在一些实施方案中,给比对打分涉及为置换和***/缺失的概然性设定数值。当单独的碱基进行比对时,匹配或不匹配导致根据置换概然性的比对得分,其可以是,例如,1为匹配而0为不匹配。空位罚分和置换概然性可以基于经验知识或基于关于序列如何突变的先验假设。它们的值影响产生的比对。用于进行比对的算法的实例包括但不限于Bowtie算法、Smith-Waterman算法、Needleman-Wunsch算法、基于Burrows-Wheeler转换的算法以及散列函数比对器如Novoalign、ELAND、SOAP等。
一方面,本发明提供了一种鉴定低频率变异序列的方法,鉴于以上所述,DNA目标片段可以是单链脱氧核苷酸,也可是双链脱氧核苷酸。目标片段也可以是RNA目标片段,为单链核苷酸,也可是双链核苷酸。目标片段是RNA时,DNA互补链的合成由逆转录合成***中逆转录DNA聚合酶完成。而余下的步骤均遵循本发明的所述的标准方法。
另一方面,对同一DNA目标片段的引物可以用多个串联的欧米伽引物同时进行,当与具有链取代活性(strain displacement)的DNA聚合酶(如:Vent(-exo))配对使用,增加对模板的利用率,进一步提高检测的灵敏度。
另一方面,以DNA目标片段的互补链为目标设计引物可以用多个欧米伽引物对同一目标进行同时扩增,增加对模板的利用率,进一步提高检测的灵敏度,并可用于进一步验证突变的的真实性,增加低频率变异测定的可信度。
另一方面,以DNA目标片段为目标设计的引物可以对样本中存在的目标进行扩增,而在目标模板缺失的情形下,则不会产生非特异的扩增,如融合基因片段存在时,可以被扩增,占用一定的测序深度,而当样本中没有该融合基因片段时,则不会产生任何非特异的片段,OmegaPlex测序法的这个特性可以节省测序深度。用杂交富集的方法则不可避免地会带来同源序列的非特异杂交和扩增,浪费测序深度。
茎环结构的引物探针可以屏蔽PCR引物位点,对DNA短片段的引发。在本发明的一个具体实施方式是利用茎环结构的引物探针,替代欧米伽引物完成对锚定序列和测序引物位点序列的引入。本发明的实验结果证实,经过适当修饰设计的茎环引物可以用于低温下对目标片段的重复复制。茎环引物也可用于本发明的设计规划的实施,可以与欧米伽引物组合或互换使用。茎环引物的设计中需要在5′端增加额外的14-18nt碱基,形成含有足够的热力学稳定的配对序列,在相同的引物设计中,茎环引物通常会比欧米伽引物长14-20nt。
本发明的热力学动态结构引物可以但不限于欧米伽引物、茎环引物;核苷酸样本可以是单链的或双链的;引物的设置可以是多串联的,如图3,也可以是针对双链中的任何一条单链,如图4。在具体的实施中,参考序列是已知的参考序列,通过将测序读值与之进行比对而形成的共有序列
本发明的具体应用之一是可用于对血液ctDNA中癌变热点的诊断。本发明的实施,通过对血浆中DNA片段的捕获和扩增,以简化的流程,利用一个或几个反应,方便、快速、灵敏和准确地鉴定肺癌癌变基因的动态改变过程,帮助临床医生发现极低浓度和极低突变丰度的致癌变异或耐药变异,指导在肿瘤临床治疗中进行精准用药,见图5。
本发明目的之二,在于提供一种上述方法的应用,其技术方案为:制备任何用于检测低频率核酸变异的测定试剂或试剂盒套装。本发明可以单独进行商业化利用,也可以作为特定应用试剂盒的组成部分。此外应理解,在阅读了本发明的上述实施例的讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
与现有技术相比,本发明的优点在于:本发明可以用最少的PCR循环达到二代测序的文库数量和最佳的灵敏度,对于低频率DNA碱基变异的检测灵敏度可以达到0.01%,并且对于样本量的需求较小,可以检出pg级别的样本中相应的目标片段,这对在正常序列背景中可能含有少量变异序列的样品中的低频率核酸变异的鉴定和阐明,以及对在测序错误背景下的低频变异的鉴定有极大的帮助。
附图说明
图1:OmegaPlex NGS文库构建流程图;
图2:OmegaPlex重复复制降低文库背景信号的原理图;
图3:多个串联欧米伽引物对同一目标片段的多次复制示意图;
图4:欧米伽引物对分别以DNA的两条互补链为目标的复制示意图;
图5:OmegaPlex低频变异体检测流程图;
图6:超声破碎的H1299细胞、H549细胞DNA与Fragmentase破碎的IMR-90细胞DNA
电泳结果图;
图7:不同探针长度的欧米伽引物、茎环引物和线性引物的引发效率对比图;
图8:常规BioAnalyzer 2100芯片测定方法对OmegaPlex文库的长度分布分析图;
图9:荧光毛细管电泳对文库质量的评估图;
图10:重复复制对方法灵敏度和产率的提升结果图;
图11:扩增循环数对文库产量的影响结果图;
图12:扩增循环数对文库产量的影响结果图;
图13:加入内循环提高测序深度和灵敏度度测试结果图;
图14:Her2_V777区域T2663低频率掺入SNP的检出结果图。
具体实施方式
下面将结合附图对本发明作进一步说明。
实施例1:OmegaPlex低频率变异测定的测定分析流程
对碎片DNA捕获,向2μl纯化的DNA样本(DNA样本量范围:5pg-100ng)加入3.5μl含有欧米伽引物的重复复制反应液,离心,放置于PCR仪,运行以下PCR程序:95℃1分钟,5个循环的捕获延伸(8℃3分钟、55℃15秒),95℃变性15秒,重复捕获延伸及变性循环40–100次,进入72℃10分钟的最终延伸。加入40μl目标匹配PCR反应液,混合均匀,在PCR热循环仪运行以下程序:95℃2分钟,5个循环的转化延伸(65℃3分钟、72℃1分钟、95℃15秒),最终在72℃延伸10分钟。用链霉素偶联的磁珠(Life Technologies,DynaBeads T1/C1)纯化PCR样本,经2次洗涤后,加入20μl样本条码扩增PCR反应液。混合均匀,在PCR热循环仪运行以下程序:95℃2分钟,8-12个扩增循环(65℃15秒、72℃15秒、95℃15秒),最终在72℃延伸10分钟。取10μl PCR产物,加入2μl USB exoSap-IT,混匀,遵循制造商的说明进行反应。用Qubit2.0DNA Quantification Assay(Life Technologies)对纯化的产物进行定量,并辅以DNA琼脂糖凝胶电泳分析、Agilent BioAnalyzer 2100芯片分析、ABI 3730等荧光毛细管电泳方法对DNA产物的片段大小、分布进行质控分析。至此,完成二代测序样本的DNA测序模板构建,通过质控的DNA产物可以直接用于相应二代测序仪的测序分析。OmegaPlex测序文库构建原理解析见图1,流程解析见图5。
二代测序完成测序读数后,从MiSeq或HiSeq测序结果中获得FASTQ文件,然后用质量检测的软件,如FastQC、Trimmomatic等,对测序结果的进行质量评估,剔除质量低于QV30的读数结果。使用BWA、bowtie或R软件程序将文件中的序列与靶向参考序列组合(如Kras、Braf和EGFR)进行比对,找到每个序列的重复区域或变异及其参考位置。将找到与特定目标片段所有序列读数中相同变异数目进行合并,计算变异频率和噪音频率,通过对变异频率和噪音频率的QV30分析和差异分析,以确认变异为阳性突变或阴性突变的可能性。该过程可以由计算机语言进行自动化操作。
所述的反应液和DNA聚合酶在不同的实验中因实验目的而异,在本实施例中,代表性的溶液成份为:
含有欧米伽引物的重复复制反应液:10μl 2x JumpStart PCR缓冲液、2μl of100nM欧米伽引物或混合引物,1μl JumpStart Taq,1μl RNase A(0.05ug)、2μl H20;其中,欧米伽引物是指专利申请号:PCT/CN2013/070525所公开的引物;
目标匹配PCR反应液:15μl 2xPCR buffer,0.2μl LS1980,0.2μl LS1976,0.6μlJumpStart Taq,15μl H2O,含有特定目标匹配的引物组;
样本条码扩增PCR反应液:15μl 2xPCR buffer,0.3μl LS1985,0.3μl LS1959,0.6μl JumpStart Taq,15μl H2O。
实施例2:DNA制备、超声破碎及酶碎片化处理
本发明实施例中所用血浆、组织或培养细胞DNA的提取均用DNeasy Blood TissueKit(Qiagen)处理得到。血浆DNA的提取严格按照手册推荐的方法执行。培养细胞DNA提取的流程在供应商手册的基础上略作改动。
具体如下:1、将100mm平皿中培养的细胞重悬于200μl的PBS,加入到2ml的tube管,分别标记,每管加入20μl PK;2、加入200μl缓冲液AL,用力上下震荡15秒,将溶液离心下来,56℃孵化10min,期间每3min震荡离心一次;3、用超声破碎仪破碎,破碎条件为强度40,开15秒/停45秒,总共2分钟;4、每管加入200μl乙醇(96%-100%),上下震荡15秒,离心;5、将混液转移至带有过滤柱的2ml收集管内,6000g离心1分钟;6、将过滤柱放于一个新的2ml收集管内,加入500μl缓冲液AW1,6000g离心1min,丢掉废液和收集管;7、将过滤柱放于一个新的2ml收集管内,加入500μl缓冲液AW2,14000rpm离心3min,丢掉废液和收集管;8、将过滤柱放于一个DNA低吸附的离心管内,加入50μl H2O,室温孵化1min,6000g离心1min;9、取出2μl用qubit测定浓度;10、用2%的琼脂糖凝胶电泳,运行100V 40分钟,上样量1-2μl;
然后取5μg用Fragmentase内切酶处理,处理体系为:1μl内切酶缓冲液,1μlFragmentase,8μl DNA样本,37℃下保温30分钟。用EDTA(10μl体系加入2.5μl 0.5M EDTA)终止反应。将酶切处理后的样本用PBS配成200μl,加入20μl蛋白酶K,混匀,离心。经DNeasyBlood Tissue Kit再次纯化,所得的DNA片段平均大小为700-1000bp,见图6。图6中,1:2ngH1299细胞DNA碎片;2:2ng A549细胞DNA碎片;3:2ng IMR-90细胞DNA碎片,片段长度范围:500–1,000bp。
实施例3:不同探针长度的欧米伽引物、茎环引物和线性引物的引发效率对比
为测定不同引物,以及不同探针长度的欧米伽引物引发灵敏度和引发效率。我们利用拷贝数为1)3,300;2)330;3)33;4)6.6;5)1.6的H1299细胞碎片DNA作模板,用不同引物,以及不同探针长度的欧米伽引物,进行EGFR G719N位点的临近序列进行扩增建库。所用的引物序列见表5。
表5:实施例3所用的引物序列
欧米伽引物序列中,AATGATACGGCGACCACCGAGATCT为Illumina二代测序平台P5锚定序列;ACACTCTTTCCCTACA CGACGCTC TTCCGATCT为Read1测序引物位点;CAAGCAGAAGACGGCATACGAGAT为P7锚定序列;GTGACTGGAGTTCAGACGTGTGCTCT为Read2测序引物位点。
在本实施例中,重复复制反应液:10μl 2x JumpStart PCR缓冲液、2μl of 100nM不同长度探针的欧米伽引物或茎环引物或线性引物的单一体,1μl JumpStart Taq,1μlRNase A(0.05ug)、2μl H20;
目标匹配PCR反应液:15μl 2xPCR buffer,0.2μl LS1984,0.2μl LS2060,0.6μlJumpStart Taq,15μl H2O,含有特定目标匹配的引物组。
向2μl含不同拷贝数DNA样本加入3.5μl含有各种引物的重复复制反应液,离心,放置于PCR仪,运行以下PCR程序:95℃1分钟,40个循环的捕获延伸(8℃3分钟、55℃15秒),72℃延伸10分钟。加入40μl目标匹配PCR反应液,在PCR热循环仪运行以下程序:95℃2分钟,40个扩增循环(65℃3分钟,72℃1分钟、95℃15秒),最终在72℃延伸10分钟。用2%的琼脂糖凝胶电泳分析,电泳条件:100v 30分钟,结果见图7。图7中,样本为不同拷贝数的H1299细胞的碎片DNA,上样量分别为:1)3,300拷贝;2)330拷贝;3)33拷贝;4)6.6拷贝;5)1.6拷贝。
为了客观地比较各种引物的灵敏度,本实施例没有采用重复复制的方式,而是采用40个低温下的循环测定引物的灵敏度。从图7的结果可以看出,欧米伽引物的探针长度对目标DNA的捕获有很大的影响。14-16nt的探针的欧米伽引物可以达到单数目拷贝的灵敏度。12nt的探针的欧米伽引物已经有明显的降低。而10nt的探针的灵敏度为330拷贝数,不具有使用价值。拥有16nt探针的茎环引物和线性引物均能达到单拷贝数的灵敏度。因此在精心设计的单个或少量目标的多重PCR反应中,二者均可以与欧米伽引物交替使用。但随着目标数增加,设计的难度会呈对数级数的增加,使线性引物不再具有实际实验意义,尤其是无法在低温下用于对模板的重复复制。在本发明中,茎环引物与欧米伽引物可以进行互换,或混合使用,对茎环引物应用不利的因素之一是,茎环引物的5′端需要与3′端探针前的序列互补配对,因此需要额外数目的碱基形成双链茎结构,同样的设计,需要比欧米伽引物多出10-20个碱基。这对多重目标的检测时会增加成本,并对引物的总体质量有影响。因为引物合成是复杂的化学聚合的过程,引物越长,引入的错误越多。
实施例4:茎环引物用于Kras G12N片段的二代测序文库构建和测序分析
本发明中,作为对OmegaPlex方法原理的测试尝试,我们利用茎环引物对H1299细胞及A549细胞DNA的单目标基因(Kras G12NG13N)位点进行测序文库式的装配合成。所用的引物序列见表6。引物LS1953是按茎环引物的原理设计的(Applied Biosystems,Inc,PCT/CN2013/070525),下划线的序列在低温下可以互相配对,形成稳定地双链折叠,从而使整个引物拥有茎、环和探针的结构。
表6:实施例4所用的引物序列
在本实施例中,重复复制反应液:10μl 2x JumpStart PCR缓冲液、2μl of 100nMLS1953茎环引物,1μl JumpStart Taq,1μl RNase A(0.05ug)、2μl H20;
目标匹配PCR反应液:15μl 2xPCR buffer,0.2μl LS1980,0.2μl LS1976,0.6μlJumpStart Taq,15μl H2O;
样本条码扩增PCR反应液:15μl 2xPCR buffer,0.3μl LS1985,0.3μl样本条码引物LS1959-LS1963,0.6μl JumpStart Taq,15μl H2O;
样本1:50ng H1299细胞碎片DNA;
样本2:50ng A549细胞碎片DNA;
样本3:100ng H1299细胞碎片DNA+1ng A549细胞碎片DNA;
样本4:100ng H1299细胞碎片DNA+0.1ng A549细胞碎片DNA;
样本5:100ng H1299细胞碎片DNA+0.01ng A549细胞碎片DNA;
向2μl纯化的DNA样本/样本混合物中加入3.5μl含有茎环引物的重复复制反应液,离心,放置与PCR仪,运行以下PCR程序:95℃1分钟,40个循环的捕获延伸(8℃3分钟、55℃15秒),95℃变性15秒,进入72℃10分钟的最终延伸。加入40μl目标匹配PCR反应液,混合均匀,在PCR热循环仪运行以下程序:95℃2分钟,5个循环的转化延伸(65℃3分钟、72℃1分钟、95℃15秒),最终在72℃延伸10分钟。用链霉素偶联的磁珠(Life Technologies,DynaBeadsT1/C1)纯化PCR样本,经2次洗涤后,加入20μl样本条码扩增PCR反应液。混合均匀,在PCR热循环仪运行以下程序:95℃2分钟,15个扩增循环(65℃15秒、72℃15秒、95℃15秒),最终在72℃延伸10分钟。取10μl PCR产物,加入2μl USB exoSap-IT,混匀,遵循制造商的说明进行反应。用Qubit 2.0DNA Quantification Assay(Life Technologies)对纯化的产物进行定量。
用BioAnalyzer 2100DNA片段测定芯片对H1299Kras G12N文库片段进行长度分布分析,结果显示出非常好的专一性。用常规连接方法建成的文库,一般都含有少量的单链引物和大分子杂带,见图8中的B;而OmegaPlex方法建成的文库背景信号较低,见图8中的A。
经HiSeq快速芯片分析,分别获得120–140万的测序读值,与参考序列配对率均在83%以上,测序深度为90万以上,其结果见表2。表3列出了对A549细胞和H1299细胞DNA中Kras G12N测出的频率。H1299细胞DNA的G12位点以GGT为主,但也有低频率的CGT、TGT和AGT。A549细胞DNA的G12位点也以GGT为主,但有4.75%的CGT,4.62%的TGT和38.08%的AGT。当H1299细胞DNA混入1%的A549细胞DNA时,混合物中CGT的测定频率为0.36%,比用纯H1299DNA时多出0.05%,而这部分正好符合1%的A549细胞DNA所贡献的0.0475%。混合物中TCGT的测定频率为1.95%,比用纯H1299细胞DNA时多出0.08%,而这部分正好符合1%的A549细胞DNA所贡献的0.0462%。混合物AGT的测定频率为3.86%,比用纯H1299细胞DNA时多出0.53%,而这部分符合1%的A549细胞DNA所贡献的0.38%。从而证明OmegaPlex测序方法可以测出0.05%的分辨率。本实施例中,采用的是Taq DNA聚合酶,具有较高的合成错误率,当替换为高保真聚合酶,如KAPA HiFi,可以进一步地降低背景信号。
表3:Kras G12N片段的OmegaPlex测序分析
实施例5:琼脂糖凝胶电泳、Bioanalyzer 2100、荧光毛细管电泳法对OmegaPlex文库DNA质量的分析比较
琼脂糖凝胶电泳、Bioanalyzer 2100通常用于二代测序文库的质控,但操作费事费时,通量低。本发明对PCR引物进行了荧光标记,利用荧光毛细管电泳法对OmegaPlex产物进行更精细的评估。与前二者相比,不仅提供更高的分析精度,而且具有操作自动化,价格便宜,通量高,测定速度快的优点。图9为OmegaPlex的分析结果,可以显示不同条带的定量和分布。
实施例6:重复复制提高文库产量
利用拷贝数为1)330;2)33;3)6.6;4)3.3的H1299细胞碎片DNA作模板,用16nt探针的欧米伽引物,对EGFR G719N位点的临近序列进行扩增建库。所用的引物序列见表7。在本测试中,比较重复复制和常规的一次复制方式对文库产率的影响。除了下面所述的条件,具体的操作与测试实验1所述相同。
表7:实施例6所用的引物序列
常规复制的捕获延伸条件为:95℃1分钟,40个循环的捕获延伸(8℃3分钟、55℃30秒),72℃延伸10分钟;
重复复制的捕获延伸条件为:95℃1分钟,20个循环的捕获延伸(8℃3分钟、55℃30秒、95℃15秒),72℃延伸10分钟。
结果显示,常规复制的方式可以测定到33个拷贝的样本,而重复复制的方式可以达到3.3个拷贝的灵敏度。两种方式均显示了文库产量与模板数目的正相关关系。20次的重复复制可以提升产率近10倍,见图10。
实施例7:内循环增加文库的扩增一致性
本实施例验证目标匹配PCR循环数,以及样本条码扩增PCR反应循环数对文库产率和质量的关系,以及重复复制温度与产率之间的关系,以优化出最佳比例。所用的引物序列见表8a,8b。
表8a:OmegaPlex-1引物组
表8b:LPM-314引物组
步骤为:对碎片DNA捕获,向2μl(5ng)IMR-90细胞碎片DNA样本中加入3.5μl含有欧米伽引物的重复复制反应液,离心,放置与PCR仪,运行以下PCR程序:95℃1分钟,5个循环的捕获延伸(35℃3分钟、55℃15秒),95C变性15秒,重复捕获延伸及变性循环100次,进入72℃10分钟的最终延伸。加入40μl目标匹配PCR反应液,混合均匀,在PCR热循环仪运行以下程序:95℃2分钟,n次循环的转化延伸(65℃3分钟、72℃1分钟、95℃15秒),最终在72℃延伸10分钟。用链霉素偶联的磁珠(DynaBeads T1/C1,Life Technologies)纯化PCR样本,经2次洗涤后,加入20μl样本条码扩增PCR反应液。混合均匀,在PCR热循环仪运行以下程序:95℃2分钟,m次扩增循环(65℃15秒、72℃15秒、95℃15秒),最终在72℃延伸10分钟。取10μl PCR产物,加入2μl USB exoSap-IT,混匀,遵循制造商的说明进行反应。用Qubit 2.0DNAQuantification Assay(Life Technologies)对纯化的产物进行定量,并辅以DNA琼脂糖凝胶电泳分析、ABI 3730等荧光毛细管电泳方法对DNA产物的片段大小、分布进行质控分析。n为循环数,等于:5,10,或15,m为循环数,等于5,10,或15。
在本实施例中,重复复制反应液:10μl 2x JumpStart PCR缓冲液、2μl of 100nMOmegaPlex-1,1μl JumpStart Taq,1μl RNase A(0.05ug)、2μl H20;
目标匹配PCR反应液:6μl 5xHiFi buffer,0.3μl LS1980[biotin],0.3uM LPM-314,0.6μl KAPA HiFi,1μl dNTP(10mM),24μl H2O。含有特定目标匹配的引物组;
样本条码扩增PCR反应液:6μl 5xHiFi buffer,0.3μl LS1985,0.3μl样本条码引物,0.6μl KAPA HiFi,1μl dNTP(10mM),24μl H2O;
以Illumina平台为例,所需样本为2ng/μl。实验结果显示,经最低10个循环(5个匹配循环+5个扩增循环)的OmegaPlex产量为1.75ng/μl,总体积20μl,已可满足上样的要求。增加PCR循环总数,文库的产量也随之增加,见图11。同时用荧光毛细管电泳对样本进行分析,在所测试的范围内,循环数对各个片段产量的影响很小,差异可以忽略,结果见图12。每个PCR循环的增加,总会导致背景水平的上升,因此控制PCR循环总数是降低背景水平的有效方式之一。本测试中,DNA样本量为5ng,经过10–15个循环的扩增所获得的DNA片段,产量在1.75ng/μl–8.11ng/μl之间,完全满足后续的质控、测序需求。
另外,重复复制时,加入低温的内循环,也对文库的测序深度和灵敏度有有益的影响,见图13。样本1和样本13为同一样本,5ng H1299细胞碎片DNA,样本1经过100次重复复制循环(16℃x 1秒–55℃10秒–95℃15秒),而样本13经100次重复复制循环,每个循环内加入了5次16℃到55℃的内循环[(16℃x 1秒–55℃10秒)x 5次循环–95℃15秒]。样本的荧光毛细管电泳分析结果显示,加入内循环的样本13的均一性超过没有内循环的样本1。
实施例8:OmegaPlex的测序精度及测序深度
利用与实施例7中相同的反应条件,同样的引物混合物(引物序列列于表8a和表8b),经5次配对循环和15次条码扩增循环,我们制备了IMR-90细胞、以及IMR-90细胞与A549细胞的DNA混合样本以及血浆DNA样本的文库。并对制备的文库用MiSeq进行了分析,结果列于表4。
从MiSeq获取FASTQ文件,经fastQC质量分析,QV30>85%。4个文库分别获得50–230万的有效测序读值,除了血浆DNA样本外,与参考序列配对率均在31%以上,平均测序深度大于1万,见表4。Her2_V777L片段的测序深度达到8万以上,4个样本噪音频率统计结果分别为:N>G转换的背景频率平均值为0.0050%(0.0045%,0.0066%,0.0040%,0.0048%);N>C转换的背景频率平均值:0.0050%(0.0041%,0.0072%,0.0045%,0.0044%)。N>T转换的背景频率平均值:0.0064%(0.0047%,0.0116%,0.0047%,0.0048%),N>A转换的背景频率平均值:0.0054%(0.0039%,0.0100%,0.0040%,0.0038%)。紧邻欧米伽探针的第一个碱基的突变频率比较异常,明显高于平均值,统计中排除了这个位点的频率对总体背景的影响。对照分析IMR-90样本,可以测出低频掺入的A549的基因SNP T2663。SNP T2663检出的频率为0.032%和0.03%,见图14。尽管实验中加入了9对EML4-ALK的融合基因片段的欧米伽引物,但在所有样本中,均未发现有任何与之相配的片段。
表4:细胞及血浆DNA的OmegaPlex测序结果
应当理解,在阅读了本发明的上述实施例的讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。