CN109196096A

CN109196096A - 转座酶随机引发性dna样品制备

Info

Publication number: CN109196096A
Application number: CN201780032510.9A
Authority: CN
Inventors: B·阿雷齐; M·博恩斯; H·霍格里夫; C·汉森
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2016-05-27
Filing date: 2017-04-18
Publication date: 2019-01-11
Also published as: WO2017204940A1; JP2019517250A; USRE49207E1; US20170342483A1; EP3464575A4; US10240196B2; EP3464575A1; JP6924779B2

Abstract

本申请提供，除其他事项之外，多种通过转座酶‑5介导的对短DNA片段(例如，长度在约150bp和1.5Kb之间)加标签和扩增的方法。在一些方面，所述方法包括，例如，使用随机或基因特异性引物，使用条形码化的转座酶用第一引物序列将DNA片段加标签，然后进行引物延伸反应以引入第二引物序列。还提供了用于进行所述方法的试剂盒。

Description

转座酶随机引发性DNA样品制备

背景

下一代测序(NGS)技术已经使得全基因组测序(WGS)成为常规操作，多种多样的靶富集方法已使研究人员能够将测序力量集中在最重要的感兴趣区域。然而，对于将NGS应用于难以处理的靶DNA，如***固定石蜡包埋(FFPE)的实体肿瘤样品、无细胞或循环肿瘤DNA(cfDNA/ctDNA)或受损的DNA样品，仍然需要更好的方法。与此类靶标的测序相关的问题有：DNA的量可能非常小，DNA可能非常短(例如，片段化的DNA)或被化学修饰，等位基因频率可能非常低，等等。由于这些问题的存在，需要捕获许多DNA模板。

具体而言，使用基于转座酶的标签化方法对较小的基因组DNA片段进行测序是具有挑战性的，因为许多这些方法需要***相邻的两个转座酶以产生在每一末端上具有适当的测序引物结合位点的片段，并且这样的小片段通常长度不足以容纳相邻的转座酶。本公开特别提供了改进对这样的DNA样品加标签和进行扩增的组合物和方法，所述DNA样品用于下游分析，例如下一代测序。

概述

本公开的多个方面包括用于对样品中的DNA片段加标签/标签化的方法，其包括：(a)使包含双链DNA片段的样品与多个各自负载有衔接子的转座酶双链体接触，以产生带有衔接子标签的片段，其中衔接子包含双链体区，所述双链体区包含转座酶识别序列和包含第一引物序列的5'突出端区；(b)使用随机引物对带有衔接子标签的片段进行引物延伸反应以产生随机引物延伸产物，其中所述随机引物包含随机3'核苷酸序列和包含第二引物序列的5'核苷酸序列；和(c)使用在3'端包含第一引物序列的正向引物和在3'端包含第二引物序列的反向引物，通过聚合酶链反应(PCR)扩增(b)的随机引物延伸产物以产生PCR扩增产物。生成的PCR扩增产物将包括源自样品中的DNA片段的核酸序列，该源自样品中的DNA片段的核酸序列在源自衔接子的序列和源自随机引物的序列之间。应当注意的是，衔接子和/或随机引物中可以存在另外的功能序列和/或模块，包括但不限于：一个或多个条形码、一个或多个简并碱基区、一个或多个限制性位点、一个或多个另外的引物序列、一个或多个可检测标记物、一个或多个捕获标签等。在某些实施方案中，样品中的DNA片段具有小于1kb的平均长度。

对于某些应用，例如当该方法用于分析循环肿瘤DNA或从FFPE切片回收的DNA时，样品中DNA的量是有限和/或相对不足的。许多基于转座酶的文库制备方法需要每个靶片段有两个***位点，而本方法的每个靶DNA仅需要单个***。因此，使用本方法可以以更高的效率捕获靶片段。

应当注意的是，在替代实施方案中，随机引物延伸反应可以替换为(i)使用末端转移酶将寡-dN尾添加到带有衔接子标签的片段的顶链以产生有尾的带有衔接子标签的片段(“顶链”定义为转座酶使具有5'突出端区的衔接子序列与其连接的链)和(ii)使用尾引物在有尾的带有衔接子标签的片段上进行引物延伸反应以产生尾引物延伸产物，其中所述尾引物包含与寡-dN尾杂交的3'序列和包含第二引物序列的5'序列。或者，可以在引物延伸反应中使用一个或多个基因特异性引物，以生成具有第一和第二引物序列的基因特异性延伸产物。这样的实施方案可用于产生基因特异性文库或用于靶基因富集。

还提供了用于执行本文所述方法的试剂盒。

相比于需要每个DNA片段添加两个转座酶衔接子的现有标签片段化方案，这里描述的方法提供了明显的优势。具体地说，因为每个DNA片段仅添加一个转座酶衔接子，本申请公开的方法允许使用者回收(recover)标签片段化位点的任一侧基因组DNA序列，而这些序列在常规的转座酶文库制备方法中会丢失。另外，加入线性扩增步骤可以克服与限制性样品输入(limiting sample input)相关的问题(例如，如图3中的选项(ii)所示)。

附图简述

技术人员将理解的是，下文描述的附图仅用于说明的目的。附图并不旨在以任何方式限制本发明教导的范围。

图1是根据本公开的多个方面的衔接子的结构特征的示意图。图1上边所示的衔接子包括：双链区，该双链区包含转座酶识别序列；和5'突出端区(命名为R1)。图1下边所示的衔接子在结构上与上部的衔接子相似，并显示了可包含在R1中的两个特定序列：引物序列和条形码。

图2是与两个相同的衔接子复合(或负载有两个相同的衔接子)的转座酶二聚体的示意图。

图3是根据本公开的某些方面对DNA片段加标签和扩增的方法的示意图。这个实施方案采用随机引物进行引物延伸反应，以产生来自带有衔接子标签的转座酶片段的延伸产物。

图4是一个实施方案的示意图，其中将寡-dA标签添加到带有衔接子标签的转座酶片段中，然后使用具有3'多聚-dT序列的尾引物进行引物延伸反应。这可以代替图3中所示的随机引物步骤。

图5是显示来自FFPE样品的肺肿瘤DNA片段的序列分析结果的表(参见实施例1)。

图6是显示来自FFPE样品的乳腺肿瘤和胃肿瘤DNA片段的序列分析结果的表(参见实施例2)。

定义

在更详细地描述示例性实施方案之前，阐述了以下定义以说明和定义在说明书中使用的术语的含义和范围。

数值范围包括定义该范围的数字。除非另外指明，否则核酸以5’至3’方向从左向右书写；氨基酸序列对应地以氨基至羧基方向从左向右书写。

除非另有说明，本发明的实施可以采用有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学和免疫学的常规技术和说明，这些在本领域的技能之内。这样的常规技术包括聚合物阵列合成、杂交、连接和使用标记物的杂交检测。通过参考下文的实施例可以获得适当技术的具体说明。然而，当然也可以使用其他等同的常规程序。这些常规技术和说明可以在标准实验室手册中找到，例如Genome Analysis:A LaboratoryManual Series(第I-IV卷),Using Antibodies:A Laboratory Manual,Cells:ALaboratory Manual,PCR Primer:A Laboratory Manual,and Molecular Cloning:ALaboratory Manual(均来自Cold Spring Harbor Laboratory Press),Stryer,L.(1995)Biochemistry(第4版)Freeman,New York,Gait,“Oligonucleotide Synthesis:APractical Approach”1984,IRL Press,London,Nelson and Cox(2000),Lehninger,A.,Principles of Biochemistry第3版，W.H.Freeman Pub.,New York,N.Y.以及Berg等人(2002)Biochemistry，第5版，W.H.Freeman Pub.,New York,N.Y.，出于所有目的将所有这些文献通过提述完整并入本文。

必须注意的是，如本文中和在所附权利要求中所使用的，单数形式“一个(a)”、“一种(an)”以及“该”包括复数指示物，除非上下文中另外清楚地指出。例如，术语“引物”是指一个或多个引物，即单个引物和多个引物。还应注意的是，可以将权利要求书起草为排除任何可选要素。因此，本声明旨在用作与权利要求要素的叙述相关的诸如“单独”、“仅”等等排他性术语的使用或“否定”限制的使用的前置基础。

如本文中使用的术语“样品”涉及通常但不一定处于液体形式的含有一种或多种感兴趣的分析物的材料或材料混合物。在一个实施方案中，以其最广义的方式使用的术语是指含有DNA或RNA的任何植物、动物或病毒材料，例如，从个体分离的组织或流体(包括但不限于血浆、血清、脑脊液、淋巴、泪液、唾液和组织切片)，来自保存的组织(比如FFPE切片)或来自体外细胞培养成分，以及来自环境的样品。

如本文中使用的，术语“核酸样品”表示含有核酸的样品。本文中使用的核酸样品可能是复杂的，因为它们含有多种不同的包含核苷酸序列的分子。来自哺乳动物(例如，小鼠或人)的基因组DNA样品是复杂样品类型。复杂样品可能具有多于10⁴、10⁵、10⁶或10⁷个不同的核酸分子。同样，复杂样品可仅包含少数个分子，其中这些分子全体具有多于10⁴个、10⁵个、10^6个或10⁷个或更多个核苷酸。DNA靶标可以来源于任何来源，比如基因组DNA或人工DNA构建体。可以在本文中采用任何含有核酸的样品，所述核酸例如由组织培养细胞或组织样品制备的基因组DNA。

术语“核苷酸”预期包括那些不仅含有已知嘌呤和嘧啶碱基而且还含有经修饰的其他杂环碱基的模块。这样的修饰包括甲基化嘌呤或嘧啶、酰化嘌呤或嘧啶、烷基化核糖或其他杂环。另外，术语“核苷酸”包括含有半抗原或荧光标记物的那些模块，并且不仅可以含有常规的核糖和脱氧核糖，还可以含有其他糖。修饰的核苷或核苷酸还包括在糖模块上的修饰，例如其中一个或多个羟基被卤素原子或脂族基团置换，被官能化为醚、胺等等。

术语“核酸”和“多核苷酸”在本文中可互换使用，用于描述任何长度的聚合物，例如大于约2个碱基、大于约10个碱基、大于约100个碱基、大于约500个碱基、大于1000个碱基、至多约10,000个或更多个碱基组成的核苷酸，例如脱氧核糖核苷酸或核糖核苷酸，并且可以通过酶或合成产生(例如PNA，如美国专利No.5,948,902和其中引用的参考文献所述)，其可以以序列特异性方式与天然存在的核酸杂交，所述方式类似于两个天然存在的核酸的杂交，例如可以参与沃森-克里克碱基配对相互作用。天然存在的核苷酸包括鸟嘌呤、胞嘧啶、腺嘌呤、胸腺嘧啶和尿嘧啶(分别为G、C、A、T和U)。DNA和RNA分别具有脱氧核糖和核糖糖骨架，而PNA的骨架由通过肽键连接的重复的N-(2-氨基乙基)-甘氨酸单元组成。

如本文中使用的术语“寡核苷酸”表示核苷酸的单链多聚体，其长度为约2个至200个核苷酸，最多达500个核苷酸。寡核苷酸可以是合成的或可以用酶法制备，并且在一些实施方案中，其长度为30个至150个核苷酸。寡核苷酸可含有核糖核苷酸单体(即，可以是寡核糖核苷酸)或脱氧核糖核苷酸单体，或核糖核苷酸单体和脱氧核糖核苷酸单体两者。例如，寡核苷酸的长度可以是10至20个、11至30个、31至40个、41至50个、51至60个、61至70个、71至80个、80至100个、100至150个或150至200个核苷酸。

术语“引物”是指天然或合成的寡核苷酸，其在与多核苷酸模板形成双链体时能够充当核酸合成的起始点并且从其3'端沿着所述模板延伸，从而形成延伸的双链体。因此，引物包括3'核酸序列，其与靶核酸中的序列充分互补，从而与核酸合成点杂交并充当核酸合成点。引物还可以包括另外的在不与靶杂交的3'杂交序列(例如，5'序列)上游的序列。此类另外的序列可以用于添加感兴趣的区域(例如，条形码、另外的引物序列等)。在延伸过程中添加的核苷酸序列由模板多核苷酸的序列决定。引物可以例如通过DNA聚合酶延伸。引物通常具有与其在引物延伸产物的合成中的用途相容的长度，并且通常在8至100个核苷酸的长度范围内，比如10至75、15至60、15至40、18至30、20至40、21至50、22至45、25至40个等，更通常在18-40、20-35、21-30个核苷酸长的范围内，以及所陈述范围之间的任何长度。典型的引物可以在10-50个核苷酸长的范围内，比如15-45、18-40、20-30、21-25等，以及所陈述范围之间的任何长度。在一些实施方案中，引物在长度上通常为不多于约10、12、15、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65个、或70个核苷酸。

引物通常是单链的，以获得最大的扩增效率，但也可以是双链的。如果是双链的，通常在用于制备延伸产物之前首先处理引物以使其两条链分离。这个变性步骤通常是用热实现的，但也可以使用碱来实现，然后中和。因此，“引物”与模板互补，并与模板通过氢键键合或杂交而复合，以产生供引发聚合酶合成的引物/模板复合物，该引物/模板复合物在DNA合成过程中通过在其3'端添加与模板互补的共价键合的碱基而延伸。

术语“杂交”是指核酸链在正常杂交条件下与第二互补核酸链退火并形成稳定双链体(同源双链体或异源双链体)并且在相同的正常杂交条件下不与无关核酸分子形成稳定双链体的过程。通过在杂交反应中退火两个互补核酸链(或在退火时充分互补的序列)来完成双链体的形成。通过调整发生杂交反应的杂交条件(通常称为杂交严格性)，可以使杂交反应高度特异，使得两条核酸链之间的杂交不会形成稳定的双链体，例如，在正常严格条件下保留双链性(double-strandedness)区域的双链体，除非所述两条核酸链在特定序列中含有一定数量的基本上或完全互补的核苷酸。对于任何给定的杂交反应，“正常杂交或正常严格条件”易于确定。参见，例如，Ausubel等人，Current Protocols in MolecularBiology,John Wiley&Sons,Inc.,New York，或Sambrook等人，Molecular Cloning:ALaboratory Manual,Cold Spring Harbor Laboratory Press。如本文中使用的，术语“杂交”是指核酸链通过碱基配对与互补链结合的任何过程。

如果两个序列在中等至高严格杂交和洗涤条件下彼此特异性杂交，则认为核酸与参考核酸序列“选择性杂交”。中等和高严格杂交条件是已知的(参见，例如Ausubel等人，Short Protocols in Molecular Biology，第3版，Wiley&Sons 1995以及Sambrook等人，Molecular Cloning:A Laboratory Manual，第3版，2001Cold Spring Harbor,N.Y.)。高严格条件的一个实例包括在约42℃下在50％甲酰胺、5X SSC、5X Denhardt溶液、0.5％SDS和100μg/ml变性载体DNA中杂交，接着在室温下在2X SSC和0.5％SDS中洗涤两次，再在42℃下在0.1X SSC和0.5％SDS中洗涤两次。

如本文中使用的术语“双链体”或“双链体的”描述了碱基配对即杂交到一起的两个互补的多核苷酸。

如本文中使用的术语“扩增”是指合成与模板核酸的一条链或两条链互补的核酸分子的过程。扩增核酸分子可包括使模板核酸变性，在低于引物的解链温度的温度下使引物与模板核酸退火，以及从引物酶促延伸以产生扩增产物。可进行变性、退火和延伸步骤各自一次或多次。在某些情况下，进行变性、退火和延伸步骤多次，使得扩增产物的量常常以指数方式加倍，不过本方法不需要指数扩增。为了聚合酶的最佳活性，扩增通常需要脱氧核糖核苷三磷酸、DNA聚合酶和适当的缓冲液和/或辅因子的存在。术语“扩增产物”是指通过本文中定义的扩增方法产生的核酸序列。

“多个”包含至少2个成员。在某些情况下，多个可具有至少10个、至少100个、至少1000个、至少10,000个、至少100,000个、至少10⁶个、至少10⁷个、至少10⁸个或至少10⁹个或更多个成员。

如果两个核酸是“互补的”，它们在高严格条件下彼此杂交。术语“完全互补”用于描述双链体，其中一个核酸的每个碱基与另一个核酸中的互补核苷酸碱基配对。在许多情况下，互补的两个序列具有至少10个，例如至少12个或15个核苷酸的互补性。

在衔接子或靶多核苷酸的语境中，“引物结合位点”或“引物序列”是指衔接子或靶多核苷酸中与引物(例如，寡核苷酸引物)杂交的位点。如果寡核苷酸提供或包括引物的引物结合位点或引物序列，则所述引物可以与该寡核苷酸或其互补序列(例如，在带有衔接子标签的多核苷酸中的引物结合位点/引物序列)杂交。

如本文中使用的术语“基因分型”是指任何类型的核酸序列分析，并且包括测序、多态性(SNP)分析以及鉴定重排的分析。

如本文中使用的术语“测序”是指获得多核苷酸的至少10个连续核苷酸的身份(例如，至少20个、至少50个、至少100个或至少200个或更多个连续核苷酸的身份)的方法。

术语“下一代测序”是指目前被Illumina、Life Technologies、Pacific Bio和Roche等采用的所谓的并行化的边合成边测序或边连接边测序平台。下一代测序法还可包括纳米孔测序法或基于电子检测的方法，比如被Life Technologies商业化的离子激流技术。

如本文中使用的，术语“延伸”是指通过使用聚合酶添加核苷酸的引物延伸。如果使退火到核酸上的引物延伸，则该核酸充当延伸反应的模板。

如本文中使用的，术语“条形码序列”或“分子条形码”是一段独特的核苷酸序列，可用于a)识别和/或追踪反应中的多核苷酸的来源、b)计数初始分子被测序的次数、c)将来自同一分子的不同链的序列读段配对。条形码序列在大小和组成上可以有很大变化；以下参考文献提供了用于选择适合于具体实施方案的条形码序列组的指导：Casbon(Nuc.AcidsRes.2011,22e81),Brenner，美国专利No.5,635,400；Brenner等人，Proc.Natl.Acad.Sci.,97:1665-1670(2000)；Shoemaker等人，Nature Genetics,14:450-456(1996)；Morris等人，欧洲专利公开0799897A1；Wallace，美国专利No.5,981,179；等等。在具体实施方案中，条形码序列的长度可以在2至36个核苷酸、或6至30个核苷酸、或8至20个核苷酸的范围。

条形码中的“简并碱基区”或“DBR”是指一种类型的分子条形码，其复杂性足以帮助人们在已经添加DBR的片段之间进行区分。在一些情况下，基本上每个带标签的片段可具有不同的DBR序列。在这些实施方案中，可以使用高复杂度的DBR(例如，由至少10,000个或100,000个序列组成的DBR)。在其他实施方案中，可以用相同的DBR序列对一些片段加标签，但是这些片段仍然可以通过以下组合加以区分：(i)DBR序列，(ii)片段的序列，(iii)片段末端的序列，和/或(iv)DBR***到片段中的位点。在一些实施方案中，至少95％，例如，至少96％、至少97％、至少98％、至少99％或至少99.5％的靶多核苷酸变得与不同的DBR序列相关联。在一些实施方案中，DBR可包含一个或多个(例如，至少2个、至少3个、至少4个、至少5个、或5至30个或更多个)选自R、Y、S、W、K、M、B、D、H、V、N(由IUPAC代码定义)的核苷酸。

在一些情况下，条形码可以是纠错性的(error-correcting)。在各处文献中可以找到示例性错误识别(或错误校正)序列的描述(例如，描述于美国专利申请公开US2010/0323348和US2009/0105959中，将两者都通过提述并入本文)。可纠错码对于定量分子的绝对数量可能是必需的。文献中的许多报告使用的是原为二进制的纠错而开发的代码(汉明码、里德-所罗门码等)，或将这些代码应用于四进制(例如，四元汉明码；参见基于汉明码的广义DNA条形码设计，Bystrykh 2012 PLoS One.2012 7:e36852)。

在一些实施方案中，条形码可另外用于确定已分析的初始靶多核苷酸分子的数目，即“计数”已分析的初始靶多核苷酸分子的数目。对于已用某个条形码标签化的多个分子进行PCR扩增可以产生多个克隆相关的(clonally related)产物亚群，因为每个不同的亚群都是从单个带有标签的分子扩增而来的。显而易见的是，虽然PCR产物的任何一个克隆相关的亚群中都可能有数千个或数百万个或更多个分子，而且那些克隆相关亚群中的靶分子的数目可能变化很大，但还是可以通过计数与PCR产物群中呈现的某个靶序列相关联的DBR序列的数目来估计在该方法的第一步中被标签化的分子的数目。该数目是有用的，因为在某些实施方案中，可以将使用该方法制备的PCR产物群测序以产生多个序列。可以计数与靶多核苷酸的序列相关联的不同条形码序列的数目，并可以使用该数目(连同例如片段的序列、片段末端的序列和/或DBR***片段中的位点)来估计已被测序的初始模板核酸分子的数目。

术语“样品标识符序列”是一种类型的条形码，其可以附加到靶多核苷酸上，其中该序列标识靶多核苷酸的来源(即，靶多核苷酸所来源的样品)。在使用中，将每个样品用不同的样品标识符序列加标签(例如，将一个序列附加到每个样品上，其中不同的样品附加不同的序列)，将加标签的样品合并。在对合并的样品进行测序之后，可使用样品标识符序列来鉴定序列的来源。

如本文中使用的，术语“链”是指由通过共价键，例如磷酸二酯键共价连接在一起的核苷酸构成的核酸。在细胞中，DNA通常以双链形式存在，并因此具有核酸的两条互补链，在本文中被称为“顶”链和“底”链。在某些情况下，染色体区的互补链可以被称为“正”链和“负”链、“第一”链和“第二”链、“编码”链和“非编码”链、“沃森”链和“克里克”链、或“有义”链和“反义”链。将链分配为顶链或底链是任意的，并不意味着任何特定的取向、功能或结构。几个示例性哺乳动物染色体区(例如，BAC、组装体、染色体等)的第一链的核苷酸序列是已知的，并且可以例如在NCBI的Genbank数据库中找到。

如本文中使用的术语“顶链”是指核酸的任一条链而不是核酸的两条链。当寡核苷酸或引物“仅与顶链”结合或退火时，它仅与一条链结合而不与另一条链结合。如本文中使用的术语“底链”是指与“顶链”互补的链。当寡核苷酸“仅与一条链”结合或退火时，它仅与一条链例如第一链或第二链结合，而不与另一条链结合。

术语“反向引物”和“正向引物”是指与双链DNA分子中的不同链杂交的引物，其中引物通过聚合酶朝向另一引物的方向延伸。在PCR中，用于扩增靶核酸的正向和反向引物称为“引物对”。

如本文中使用的术语“包含长度小于1kb的DNA片段的DNA片段群(体)”是指其中至少1％、至少5％、至少10％、至少20％、至少30％、至少50％、至少80％或至少90％的片段分子的长度小于1kb的片段群。在一些实施方案中，这样的群的中值片段长度可以在50-500bp，例如100-400bp范围内。

如本文中使用的术语“寡-dN尾”是指通过末端转移酶的作用添加到DNA分子链的3'端的Gs、As、Ts或Cs尾。尾可具有10个到多于100个核苷酸。

如本文中使用的术语“与寡-dN尾杂交的引物”是指在其3'端具有8-20个或更多个碱基的寡-dG、寡-dA、寡-dT或寡-dC区的引物，其中这些碱基与添加到片段中的互补同聚体尾杂交。

如本文中使用的术语“条形码序列”是指构成条形码的核苷酸序列。条形码序列的长度可以是至少3个核苷酸，在一些情况下长度为5至30个或更多个核苷酸。

如本文中使用的术语“匹配”是指将两个序列进行比较，如果它们完全相同、互补或非常相似(例如，当使用纠错条形码时)则将它们被指示为匹配的行为。在一些实施方案中，将匹配的序列置于一个组中。

如本文中使用的术语“组装匹配的序列读段”是通过计算实现的步骤，其中将匹配的读段(即，包含相同或非常相似的条形码或其互补序列的序列)彼此比对以产生组装的序列，该组装的序列由匹配的序列读段所贡献的子序列组成。在一些实施方案中，序列组装可涉及从具有相同条形码的序列读段制备共有序列，然后将共有序列组装成一个序列。组装的序列有时被称为“重叠群”。

本文中使用的术语“或其变体”是指具有与具有已知活性的蛋白质至少80％、至少85％、至少90％、至少95％、至少97％、至少98％或至少99％相同的氨基酸序列的蛋白质，其中所述变体与具有已知活性的蛋白质具有至少一些相同的活性。例如，野生型转座酶的变体应该能够催化相应的转座酶***DNA中。

术语“填充反应”或“填充空位”是指酶催化反应，其中DNA双链体的一条链中的5'突出端区和/或内链断裂或空位(缺少核苷酸)以模板特异性方式(例如，通过DNA聚合酶的作用)被填充，并且在必要时连接在一起(例如，通过DNA连接酶的作用)。

可能在整个说明书中出现术语的其他定义。

示例性实施方案的说明

在描述各个实施方案之前，应该理解本公开的教导并不限于所描述的具体实施方案，正因为如此，当然可以改变。还应当理解，本文中使用的术语是仅仅出于描述具体实施方案的目的，而不意图限制，因为本发明教导的范围仅由所附权利要求书限定。

在本文中使用的章节标题仅仅是出于组织的目的，而不应当解释为以任何方式限制所描述的主题。虽然结合各个实施方案描述了本发明教导，但是并不意味着本发明教导限于这样的实施方案。相反，如本领域技术人员将理解的，本发明教导涵盖各种替代方案、修改和等同物。

除非另外定义，本文中使用的全部技术术语和科学术语具有与本公开所属领域的普通技术人员通常所理解的相同的含义。尽管可以在本发明教导的实践或测试中使用类似于或等同于本文所述的那些任何方法和材料，但描述了一些示例性的方法和材料。

任何出版物的引用是因为其公开在申请日之前，并且不应被解释为承认由于在先发明而使本权利要求书没有资格先于这样的出版物。此外，提供的出版日期可能与需要独立证实的实际出版日期不同。

对于本领域技术人员在阅读本公开内容后将显见的是，本文中描述和展示的每个单独的实施方案具有离散的部件和特征，其可以容易地与任何其他几个实施方案的特征分离或组合，而不脱离本发明教导的范围或精神。任何叙述的方法可以按照叙述的事件的顺序或以逻辑上可能的任何其他顺序进行。

本文中提及的所有专利和出版物，包括在这些专利和出版物中公开的所有序列在内，都明确地通过提述并入本文。

本文中提供了使用负载有两个相同衔接子的转座酶二聚体对含有短DNA片段的样品加标签(标签化)的各种方法。在某些实施方案中，短DNA片段具有约150bp至约1.5Kb的平均长度，包括约200bp、500bp、700bp、900bp、1Kb、1.2Kb、1.5Kb，以及其间的任何值的平均长度。在一些实施方案中，处理DNA样品以获得在此范围内的平均长度，例如，通过剪切或用核酸内切酶处理。图1显示了一种通用衔接子(上边的衔接子)，其包括：包含转座酶识别序列的双链区，以及命名为R1的5'突出端区(标明了链的5'和3'端)。R1是单链的，可以包括功能序列或结构域，这样的功能序列或结构域有很多种。例如，R1区可包括引物序列和条形码(如图1中的下边的衔接子所示)。图2显示了与两个相同的衔接子复合/负载有两个相同的衔接子的转座酶二聚体。

可采用这些方法分析来自几乎任何生物的基因组DNA，包括但不限于植物、动物(例如，爬行动物、哺乳动物、昆虫、蠕虫、鱼等)、组织样品、细菌、真菌(例如酵母)、噬菌体、病毒、尸体组织、考古/古代样品等。在某些实施方案中，在所述方法中使用的基因组DNA可以源自哺乳动物，其中在某些实施方案中，哺乳动物是人。在示例性实施方案中，样品可含有来自诸如人、小鼠、大鼠或猴细胞的哺乳动物细胞的基因组DNA。样品可以由培养的细胞或临床样品的细胞制成，例如组织活检，法医样品的刮擦物或灌洗物或细胞(即，在犯罪现场采集的样品的细胞)。在具体实施方案中，核酸样品可以从诸如细胞、组织、体液和粪便的生物样品获得。感兴趣的体液包括但不限于血液、血清、血浆、唾液、粘液、痰、脑脊液、胸膜液、泪液、乳管液、淋巴液、痰液、滑液、尿液、羊水和***。在具体实施方案中，可以从受试者例如人获得样品。

在一些实施方案中，样品包含从临床样品获得的DNA片段，例如，来自具有或疑似具有疾病或病症如癌症、炎性疾病或妊娠的患者。在一些实施方案中，可以通过从存档的患者样品(例如，***固定石蜡包埋(FFPE)的组织样品)中提取片段化的DNA来制备样品。在其他实施方案中，患者样品可以是来自体液(例如外周血)的无细胞循环DNA的样品。在该方法的最初步骤中使用的DNA片段应该是未经预先变性的非扩增的DNA。可以将样品机械片段化(例如，通过超声处理、雾化或剪切)，或使用双链DNA片段化酶(New England Biolabs,Ipswich MA)将样品酶促片段化。在其他实施方案中，初始样品中的DNA可能已经被片段化了(例如，FFPE样品和循环无细胞DNA(cfDNA)例如ctDNA就是如此)。初始样品中的片段可具有低于1kb的中值大小(例如，在50bp至500bp、80bp至400bp或100至1,000bp的范围内)，但中值尺寸在这个范围之外的片段亦可以使用。无细胞或循环肿瘤DNA(ctDNA)(即，在癌症患者血液中自由循环的肿瘤DNA)是高度片段化的，其平均片段大小约165-250bp(Newman等人Nat Med.2014 20:548-54)。cfDNA可以通过离心全血去除所有细胞，然后分析剩余的血浆而获得。

在一些实施方案中(如图3中所示)，所述方法可以包括：使包含双链DNA片段2的样品与多个各自负载有衔接子的转座酶双链体1接触以产生带有衔接子标签(衔接子标签化)的片段(仅显示了一个DNA片段和转座酶双链体)。在某些实施方案中，DNA片段具有小于1kb的平均长度。衔接子包括含有转座酶识别序列的双链区(黑色填充，如图1)和包含第一引物(标签)序列的5'突出端区(白色填充，如图1)。转座酶和/或样品的使用量可以调整，以每80-500bp(例如，每100-300bp)产生一次转座酶***，使得相对高比例的标签化片段，例如，至少25％、至少50％或至少75％的标签化片段(特别是平均长度小于500bp的较小片段)接受单次***。生成的标签化片段3的群体含有这样一群片段，所述片段含有与一端附接的单个衔接子(图3中仅显示了一个标签化DNA片段)。该标签化DNA片段的顶链从5'至3'方向包括：5'突出端序列(白色填充，表示为ad R1)、转座酶识别序列的一条链(黑色填充)和DNA片段的一条链。底链从3'至5'方向包括：转座酶识别序列的互补链、空位/切口(间隔)、DNA片段的互补链。注意，该标签化DNA片段的未加标签端可以是非平端(如所示)或平端(未显示)。

在所述方法的这个步骤中使用的转座酶可以是Tn转座酶(例如Tn3、Tn5、Tn7、Tn10、Tn552、Tn903)、MuA转座酶、Vibhar转座酶(例如来自哈维氏弧菌)、Ac-Ds、Ascot-1、Bs1、Cin4、Copia、En/Spm、F元件、hobo、Hsmar1、Hsmar2、IN(HIV)、IS1、IS2、IS3、IS4、IS5、IS6、IS10、IS21、IS30、IS50、IS51、IS150、IS256、IS407、IS427、IS630、IS903、IS911、IS982、IS1031、ISL2、L1、Mariner、P元件、Tam3、Tc1、Tc3、Tel、THE-1、Tn/O、TnA、Tn3、Tn5、Tn7、Tn10、Tn552、Tn903、Tol1、Tol2、TnlO、Tyl，包括它们的变体。在一些情况下，可以通过添加一种或多种阳离子来促进和/或触发***。阳离子可以是二价阳离子，例如Ca²⁺、Mg²⁺和Mn²⁺。

在某些实施方案中，所述方法的下一个步骤可包括：使用随机引物4在带有衔接子标签的片段11的顶链上进行引物延伸反应(图3中的箭头(i)之后)以产生随机引物延伸产物5。随机引物包含随机的3'序列(由“Ns”表示，其中N是任何核苷酸)和包含第二引物序列(斜线区)的5'序列。延伸用虚线箭头指示。优选的DNA聚合酶将显示链置换或切口平移(5'-3'核酸外切酶)活性，以允许随机引物与顶链的3'端退火并合成全长产物，同时置换较短的下游产物。

在替代实施方案中，使用一个或多个基因特异性引物代替随机引物进行引物延伸反应。在这些实施方案中，使用基因特异性引物(未显示)延伸带有衔接子标签的片段11的顶链以产生基因特异性引物延伸产物。如此，许多带有衔接子标签的片段由于没有对于该片段中的序列特异的基因特异性引物而将不会被延伸。基因特异性引物包括基因特异性3'序列和包含第二引物序列的5'序列(类似于图3中的随机引物4)。在一些实施方案中，用基因特异性引物池来延伸一个或多个特异性基因(或其他基因座)，引物池可含有任何期望数量的不同引物，例如2个至10,000个不同的基因特异性引物。

在其他实施方案中，所述方法可以包括在随机引物延伸反应之前(和图3中的箭头(ii)之后)，对带有衔接子标签的片段进行延伸或延伸/连接反应，以在带有转座酶标签的片段的底链上填充与R1序列互补的序列，并填充空位(虚线箭头6和向上的箭头7)，从而形成完整的带有转座酶标签的片段双链体8(与R1互补的序列表示为R1’)。然后可以用在其3'端包含第一引物序列的线性扩增引物P1将这些完整的带有转座酶标签的片段双链体进行线性扩增反应，以产生双链体9。可以重复进行线性扩增反应(如“重复”箭头指示)，如此将生成双链体9的顶链的额外拷贝(未显示)。线性扩增反应可以进行任何期望的次数，例如2至40次，例如4次、10次、20次、30次等等。

然后可以对线性扩增产物进行如上所述的随机引物延伸，以产生随机引物延伸产物5。

在某些实施方案中，衔接子和/或随机引物包括至少一个另外的区域。例如，衔接子和/或随机引物可包括条形码。条形码可以是样品特异性条形码，即用于鉴定DNA片段所来源的样品的条形码。在一些实施方案中，条形码包括简并碱基区(DBR)，DBR的用途在上文有详述。可以使用衔接子和/或反向引物中的条形码的任何组合。在衔接子和随机引物都包括条形码的实施方案中，根据用户的期望和下游过程/分析中使用条形码的方式，条形码在衔接子和反向引物中可以是相同的，也可以有一个或多个位置不同。

接下来，所述方法包括使用正向引物P1(包含位于3'端的第一引物序列)的和反向引物P2(包含位于其3'端的第二引物序列)，通过聚合酶链反应(PCR)扩增随机引物延伸产物5，以产生PCR扩增产物10。这些产物含有来自样品的DNA片段(灰色)和结构域R1和R2的全部或部分的序列(例如，结构域R1和R2中被正向引物P1和反向引物P2结合的部分)。

在某些实施方案中，图3中所示的随机引物延伸反应可以用替代的线性扩增过程代替。例如，如图4中所示，所述方法可以包括使用末端转移酶或具有模板非依赖性聚合酶活性的修饰的DNA聚合酶将寡-dN尾添加到带有衔接子标签的片段11的顶链，以产生有尾的带有衔接子标签的片段12(在这个实例中，dN尾是poly-A尾)。然后使用尾引物13对有尾的带有衔接子标签的片段12进行引物延伸反应，以产生尾引物延伸产物14。尾引物包括与寡-dN尾杂交的3'序列(在这个实例中是poly-T序列)和包含第二引物序列P2的5'序列R2。这些尾引物延伸产物14可以通过使用在其3'端包含第一引物序列的正向引物P1和在其3'端包含第二引物序列的反向引物P2的聚合酶链反应(PCR)扩增，以产生PCR扩增产物15(类似于上述PCR扩增)。

根据用户的需要，这些PCR扩增产物可以用于任何期望的下游过程或分析。

这里应当注意的是，在需要时，用户可加入样品富集步骤、样品净化步骤和/或酶失活或去除步骤。例如，可以例如使用基于杂交的靶富集(例如，Agilent SureSelect或HaloPlex靶富集)来富集DNA片段初始样品中感兴趣的特定靶序列。另外，在所述方法的任何一个步骤中产生的产物在进行后续步骤之前可以纯化，例如，扩增产物纯化(例如，Agencourt AMPure纯化试剂盒)。在这方面并不意图限制。

在某些实施方案中，所述方法可以进一步包括对PCR扩增产物10测序。显然，在这些实施方案中，与期望的测序平台相容的序列可以在该过程中的任何合宜的步骤中添加到片段中，例如作为衔接子、随机引物、线性扩增引物、正向引物或反向引物的一部分。因此，在测序平台中使用两个测序引物序列的实施方案中，第一测序引物序列可以：(i)是第一引物序列，(ii)在正向PCR引物的5'尾上，或(iii)在衔接子中的第一引物序列的下游；而第二测序引物序列可以：(i)是第二引物序列，(ii)在反向引物的5'尾上，或(iii)在随机引物上的第二引物序列的下游。可以使用任何适合的方法将产物测序，包括但不限于Illumina的可逆终止子法、Roche的焦磷酸测序法(454)、Life Technologies的边连接边测序(SOLiD平台)、Life Technologies的离子激流平台或Pacific Biosciences的荧光碱基裂解法。这样的方法的实例描述于以下参考文献中：Margulies等人(Nature 2005 437:376–80)；Ronaghi等人(Analytical Biochemistry 1996 242:84–9)；Shendure(Science 2005 309:1728)；Imelfort等人(Brief Bioinform.2009 10:609-18)；Fox等人(Methods MolBiol.2009；553:79-108)；Appleby等人(Methods Mol Biol.2009；513:19-39)English(PLoS One.2012 7:e47768)和Morozova(Genomics.2008 92:255-64)，将所述方法的一般描述和方法的具体步骤通过提述并入本文，包括每个步骤的所有起始产物、试剂和最终产物在内。

测序步骤产生多个序列读段，序列读段包括DNA片段序列的至少部分序列以及衔接子和/或反向引物/尾引物中存在的带有标签的DNA片段中的其他序列，例如，条形码序列。可以匹配和组装序列读段以获得组装序列(例如，重叠群)，组装序列代表比样品中DNA片段的平均序列长度更长的序列。这样的重叠群可代表最初样品所来源的个体中期望多核苷酸序列(例如，基因、遗传基因座、cDNA等)的大部分或全部。显然，这个部分的方法可以包括将至少一些序列读段中的条形码进行相互比较以获得匹配，并组装匹配的序列读段以获得感兴趣的序列。在一些实施方案中，在添加条形码之后和测序步骤之前以任何合宜的步骤将衍生自不同样品(例如，来自不同个体)的具有样品特异性条形码的DNA片段合并。根据需要可以将来自这些合并样品的包括样品特异性条形码序列的序列去卷积和组装。

在上述任何方法中，所述方法可以进一步包括确定多少DBR序列与特定序列相关联，由此提供初始样品中该序列的拷贝数的估计。这样的方法描述于Casbon(Nuc.AcidsRes.2011,22e81)和其他出版物中。

在某些实施方案中，被分析的初始DNA可以衍生自单一来源(例如，单一生物、病毒、组织、细胞、受试者等)，而在其他实施方案中，核酸样品可以是从多个来源提取的核酸的池(例如，来自多个生物、组织、细胞、受试者等的核酸的池)，其中“多个”是指两个或更多个。因此，在某些实施方案中，带有转座酶标签的样品可以与来自其他来源的带有转座酶标签的样品合并，所述其他来源例如2个或更多个来源、3个或更多个来源、5个或更多个来源、10个或更多个来源、50个或更多来源、100个或更多个来源、500个或更多个来源、1000个或更多个来源、5000个或更多个来源，至多并且包括约10,000个或更多个来源，其中转座酶的分子条形码允许在分析来自不同来源的序列之后区分这些序列。

如将认识到的，所述方法的一些分析步骤，例如比较和组装步骤，可以在计算机上实现。在某些实施方案中，可以配置通用计算机，使之具有适用于本文中公开的方法和程序的功能布置。这种计算机的硬件架构是本领域技术人员熟知的，可以包括硬件组件，包括一个或多个处理器(CPU)、随机存取存储器(RAM)、只读存储器(ROM)、内部或外部数据存储介质(例如，硬盘驱动器)。计算机***还可以包括一个或多个图形板，用于处理图形信息并将其输出到显示装置。上述组件可以通过计算机内的总线适当地互连。计算机可以进一步包括与诸如监视器、键盘、鼠标、网络等通用外部组件通信的适合接口。在一些实施方案中，计算机能够并行处理，或者可以是网络的一部分，其被配置为并行或分布式计算，以增加本方法和程序的处理能力。在一些实施方案中，可以将从存储介质读出的程序代码写入提供在***计算机扩展板中的存储器或与计算机连接的扩展单元内，并且提供在扩展板或扩展单元中的CPU等等实际上可以根据程序代码的指令执行部分或全部操作，从而完成下述功能。在其他实施方案中，可以使用云计算***来执行所述方法。在这些实施方案中，数据文件和程序设计可以输出到运行程序的云计算机并将输出返回给用户。

在某些实施方案中，***可以包括这样的计算机，该计算机包括：a)中央处理单元；b)主非易失性存储驱动器，其可以包括用于存储软件和数据的一个或多个硬盘驱动器，其中存储驱动器由磁盘控制器控制；c)***存储器，例如高速随机存取存储器(RAM)，用于存储***控制程序、数据和应用程序，包括从非易失性存储驱动器加载的程序和数据；***存储器还可以包括只读存储器(ROM)；d)用户界面，包括一个或多个输入或输出设备，比如鼠标、小键盘和显示器；e)任选的网络接口卡，用于连接任何有线或无线通信网络，例如打印机；和f)用于互连所述***的上述元件的内部总线。

试剂盒

本公开还提供了用于实施如上所述的主题方法的试剂盒。在某些实施方案中，试剂盒可包含：多个各自负载有衔接子的转座酶双链体(或单独的转座酶和衔接子试剂，用于制备这样的双链体)，其中衔接子包含具有转座酶识别序列的双链体区和带有第一引物序列的5'突出端区；具有随机3'序列和带有第二引物序列的5'序列的随机引物，或具有与寡-dN尾杂交的3'序列和带有第二引物序列的5'序列的尾引物；在其3'端具有第一引物序列的正向引物；以及在其3'端具有第二引物序列的反向引物。在一些实施方案中，试剂盒可以包括在分开的容器中的多个不同的衔接子，其中每个不同的衔接子具有对来自不同样品的DNA片段加标签的不同条形码序列。试剂盒可包括用于进行本文所述的任何方法的其他试剂。例如，试剂盒可包括酶(例如，连接酶、聚合酶、热稳定聚合酶、末端转移酶等)、核苷酸、缓冲液、核酸纯化试剂等。

试剂盒的各种组分可以存在于分开的容器中，或者根据需要可以将某些相容的组分预组合到单个容器中。除了上述试剂之外，试剂盒可以含有在上述方法中使用的任何其他组分，例如一种或多种酶和/或缓冲液等。

除了上述组分之外，主题试剂盒可以进一步包括关于使用试剂盒的组分来实施主题方法的说明书，即，关于样品分析的说明书。用于实施主题方法的说明书通常记录在适合的记录介质上。例如，说明书可以印刷在诸如纸或塑料等基材上。因此，说明书可以作为包装说明书存在于试剂盒中，在所述试剂盒的容器或其组件的标签中(即，与包装或分装相关联)。在其他实施方案中，说明书作为存在于适合的计算机可读存储介质(例如CD-ROM，磁盘等)上的电子存储数据文件存在。仍然在其他实施方案中，在试剂盒中并不存在实际的说明书，但提供了从远程来源(例如，通过互联网)获得说明书的手段。这种实施方案的实例是包括网址的试剂盒，可以在所述网址查看说明书和/或可以从该网址下载说明书。与说明书一样，这种用于获得说明书的手段记录在适合的基材上。

实施例

提出了以下实施例以便向本领域普通技术人员提供关于如何实现和使用本发明的完整公开和描述，并且这些实施例既不意图限制发明人所认为的其发明的范围，也不意图代表以下实验是所进行的全部或唯一实验。已尽量确保所使用的数字的准确性(例如量、温度等)，但一些实验误差和偏差应加以考虑。

材料和方法

样品DNA片段化和R1衔接子序列的***

转座酶负载序列：(1A)5’-CTGTCTCTTGATCACAAGT-3’(SEQ ID NO:1)；5’-GCTGACGTCGAGACTTGTGATCAAGAGACAG-3’(SEQ ID NO:2)。将负载有(1A)的100ng转座酶与SureSelect^QXT缓冲液(Agilent Technologies P/N 5190-7053)中的10ng样品DNA混合。然后将样品在42℃下温育10分钟。将样品冷却至4℃，然后加入32μl的SureSelect^QXT终止溶液(Agilent Technologies P/N 5190-7059)，并在室温下温育1分钟。净化样品：用50μl的Agencourt AMPure XP珠(Beckman Coulter P/N A63882)结合样品DNA，用70％乙醇洗涤两次，在37℃加热块上干燥，并且在20μl的水中洗提DNA。

使用1A的第一链线性循环

第一链线性循环引物：5’-GCTGACGTCGAGACTTGTGA-3’(SEQ ID NO:3)。反应设置(50μl):17.5μl的水，10μl的Herculase II Fusion PCR反应缓冲液(AgilentTechnologies P/N 600675-52)，0.5μl dNTP各自200μM(Agilent Technologies P/N200415-51)，2μM第一链线性循环引物，1μl Herculase II Fusion DNA聚合酶(AgilentTechnologies P/N 600672-51)和20μl片段化样品DNA。循环参数：68℃8分钟；98℃2分钟；98℃30秒、57℃30秒和72℃1分钟(4个循环)，72℃5分钟。净化样品：用50μl的AgencourtAMPure XP珠(Beckman Coulter P/N A63882)结合样品DNA，用70％乙醇洗涤两次，在37℃加热块上干燥，并且在20μl的水中洗提DNA。

第二链反应和R2衔接子序列的***

第二链随机引物序列：5’-AGCTGTGCGTAGATGTGATCAAGAGACA GNNNN-3’(SEQ IDNO:4)。反应设置(50μl)：变性后加入23μl的水，5μl NEBuffer 2(New England Biolabs P/N B7002S)，0.5μl dNTP(Agilent Technologies P/N 20045-51)，0.5μl第二链随机引物(100μM)，20μl第一链线性循环DNA或20μl的片段化样品DNA，和1μl没有外切酶活性的(exo(-))Klenow片段(Agilent Technologies散装酶50U/μl)。循环参数：95℃2分钟，4℃15分钟；每循环4℃+1℃(32个循环)；37℃1小时30分钟；70℃10分钟。净化样品：用50μl的Agencourt AMPure XP珠(Beckman Coulter P/N A63882)结合样品DNA，用70％乙醇洗涤两次，在37℃加热块上干燥，并且在20μl的水中洗提DNA。

使用R1和R2引物进行第二链DNA的PCR扩增

正向R1引物：5’-GCTGACGTCGAGACTTGTGA-3’(SEQ ID NO:3)；反向R2引物：5’-CGGTGGAGCTGTGCGTAGATGTGATCAAGAGACAG-3’(SEQ ID NO:5)。反应设置(50μl):18.25μl的水，10μl的Herculase II Fusion PCR反应缓冲液(Agilent Technologies P/N 600675-52)，0.5μl dNTP各200μM(Agilent Technologies P/N 200415-51)，正向引物和反向引物各自0.25μM，1μl Herculase II Fusion DNA聚合酶(Agilent Technologies P/N 600672-51)和20μl的第二链DNA。循环参数：98℃2分钟；98℃30秒、56℃30秒和72℃1分钟(14个循环)，72℃5分钟。净化样品：用50μl的Agencourt AMPure XP珠(Beckman Coulter P/N A63882)结合样品DNA，用70％乙醇洗涤两次，在37℃加热块上干燥，并且在13μl的水中洗提DNA。使用SureSelect^QXT Target Enrichment Kit(Agilent Technologies P/N G9681B)进行靶标富集。

数据定义

图5和图6中的表格包括以下信息：Tn(ng)＝每50μl DNA片段化反应中使用的负载转座酶的ng量；1^st链循环＝第一链循环的次数；保留读段％＝过滤后映射到参考基因组的读段的百分比；未映射读段％＝不能映射到参考基因组的读段和低质量读段的百分比；重复％＝标记为重复且不唯一的映射序列的百分比；中靶％＝可以映射回捕获诱饵文库或基因组的靶向区域的比对读段的百分比；覆盖率1X、10X、20X＝达到至少1倍、10倍或20倍覆盖率的碱基的百分比。覆盖水平越高，每个碱基都被越多的比对序列读段所覆盖，因此可以以越高的置信水平进行碱基判读。

实施例1：肺肿瘤FFPE DNA片段加标签-第一链合成循环，带条形码标记。

第一链富集方法可以结合ES序列的分子条形码标记来进行。

方法：10ng FFPE/FR DNA Input ClearSeq Comprehensive Cancer Panel，80万个读段，2x100bp，12个pre-hyb PCR循环。

测序结果总结在图5中。使用4个循环的第一链合成的方法改善了复杂性，降低了重复％，并且增加了中靶％。这证明生成了更好的测序结果。

实施例2：乳腺肿瘤和胃肿瘤FFPE DNA片段加标签-没有第一链合成循环且没有条形码标记。

方法：10ng FFPE/FR DNA Input，ClearSeq Comprehensive Cancer Panel，80万个读段，2x100bp，12个pre-hyb PCR循环。

测序结果总结在图6中。没有第一链循环也没有使用条形码标记的方法显示出高覆盖率。

实施方案

以下提供了本公开的某些实施方案的非限制性实例。

1.本公开的多个方面包括以下方法，其包括：(A)使包含平均长度为150bp至1.5Kb的双链DNA片段的样品与多个各自负载有衔接子的转座酶双链体接触，以产生带有衔接子标签的片段，其中衔接子包含双链体区和5'突出端区，双链体区包含转座酶识别序列，5'突出端区包含第一引物序列；(b)使用随机引物对带有衔接子标签的片段进行引物延伸反应以产生随机引物延伸产物，其中所述随机引物包含随机的3'序列和包含第二引物序列的5'序列；(c)使用在3'端包含所述第一引物序列的正向引物和在3'端包含所述第二引物序列的反向引物，通过聚合酶链反应(PCR)扩增(b)的随机引物延伸产物以产生PCR扩增产物。

2.实施方案1的方法，其中所述方法进一步在步骤(b)之前包括：(i)对带有衔接子标签的片段进行延伸或延伸/连接反应，以填充5'突出端区并填充带有衔接子标签的片段的空位；和(ii)用线性扩增引物进行至少一次线性扩增反应，所述线性扩增引物在其3'端包含所述第一引物序列。

3.实施方案2的方法，其中步骤(ii)包括进行2至30次线性扩增反应。

4.实施方案1的方法，其中：所述第一引物序列是第一测序引物序列，所述正向引物包含含有所述第一测序引物序列的5'尾，或者所述衔接子进一步包含位于所述第一引物序列下游的第一测序引物序列；所述第二引物序列是第二测序引物序列，所述反向引物包含含有所述第二测序引物序列的5'尾，或者所述随机引物进一步包含位于所述第二引物序列下游的第二测序引物序列。

5.实施方案4的方法，其中所述第一和第二测序引物序列用于下一代测序应用。

6.实施方案4的方法，其中：所述衔接子进一步包含位于所述第一测序引物序列下游的条形码；并且/或者所述随机引物进一步包含位于所述第二测序引物序列下游的条形码。

7.实施方案6的方法，其中所述衔接子和/或随机引物中的条形码是样品特异性条形码。

8.实施方案6的方法，其中所述衔接子和/或随机引物中的条形码包含简并碱基区(DBR)。

9.实施方案4至8中任一项的方法，进一步包括将PCR扩增产物测序以获得针对样品中DNA片段的至少一个子集的序列读段，并将所述序列读段组装成重叠群。

10.实施方案1的方法，其中所述DNA片段的样品分离自临床样品。

11.实施方案10的方法，其中所述临床样品是从体液提取的无细胞DNA。

12.实施方案11的方法，其中所述体液是血液。

13.实施方案10的方法，其中所述临床样品是***固定石蜡包埋(FFPE)的样品。

14.本公开的多个方面包括以下方法，其包括：(a)使包含平均长度小于1Kb的双链DNA片段的样品与多个各自负载有衔接子的转座酶双链体接触以产生带有衔接子标签的片段，其中衔接子包含双链体区和5'突出端区，所述双链体区包含转座酶识别序列，所述5'突出端区包含第一引物序列；(b)使用具有末端转移酶活性的酶向带有衔接子标签的片段的顶链添加寡-dN尾，以产生有尾的带有衔接子标签的片段；(c)使用尾引物对所述有尾的带有衔接子标签的片段进行引物延伸反应，以产生尾引物延伸产物，其中所述尾引物包含与所述寡-dN尾杂交的3'序列和包含第二引物序列的5'序列；(d)使用在3'端包含所述第一引物序列的正向引物和在3'端包含所述第二引物序列的反向引物，通过聚合酶链反应(PCR)扩增(c)的尾引物延伸产物以产生PCR扩增产物。

15.实施方案14的方法，进一步包括将PCR扩增产物测序以获得样品中DNA片段的至少一个子集的序列读段，并将所述序列读段组装成重叠群。

16.实施方案14的方法，其中所述DNA片段样品分离自临床样品，其中所述临床样品是***固定石蜡包埋(FFPE)的样品。

17.本公开的多个方面包括试剂盒，所述试剂盒包含：

多个各自负载有衔接子的转座酶双链体，其中所述衔接子包含双链体区和5'突出端区，所述双链体区包含转座酶识别序列，所述5'突出端区包含第一引物序列；

随机引物或者尾引物，随机引物包含随机3'序列和包含第二引物序列的5'序列，尾引物包含与寡-dN尾杂交的3'序列和包含第二引物序列的5'序列；

正向引物，在其3'端包含所述第一引物序列的；

反向引物，在其3'端包含所述第二引物序列；和

用于进行实施方案1或14的方法的一种或多种其他试剂。

序列表

<110> 安捷伦科技有限公司

<120> 转座酶随机引发性DNA样品制备

<130> 20150160-02

<150> 15/167,823

(151> 2016-05-27

<160> 5

<170> PatentIn version 3.5

<210> 1

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 合成寡核苷酸

<400> 1

ctgtctcttg atcacaagt 19

<210> 2

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成寡核苷酸

<400> 2

gctgacgtcg agacttgtga tcaagagaca g 31

<210> 3

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成寡核苷酸

<400> 3

gctgacgtcg agacttgtga 20

<210> 4

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 合成寡核苷酸

<220>

<221> misc_feature

<222> (30)..(33)

<223> "n" is any nucleotide

<400> 4

agctgtgcgt agatgtgatc aagagacagn nnn 33

<210> 5

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> 合成寡核苷酸

<400> 5

cggtggagct gtgcgtagat gtgatcaaga gacag 35

Claims

1.一种方法，所述方法包括：

(a)使包含平均长度为150bp至1.5Kb的双链DNA片段的样品与多个各自负载有衔接子的转座酶双链体接触以产生带有衔接子标签的片段，其中所述衔接子包含双链体区和5'突出端区，所述双链体区包含转座酶识别序列，所述5'突出端区包含第一引物序列；

(b)使用随机引物对带有衔接子标签的片段进行引物延伸反应以产生随机引物延伸产物，其中所述随机引物包含随机的3'序列和包含第二引物序列的5'序列；

(c)使用在其3'端包含所述第一引物序列的正向引物与在其3'端包含所述第二引物序列的反向引物，通过聚合酶链反应(PCR)扩增(b)的随机引物延伸产物以产生PCR扩增产物。

2.权利要求1所述的方法，其中所述方法在步骤(b)之前进一步包括：

(i)对带有衔接子标签的片段进行延伸或延伸/连接反应，以填充所述5'突出端区并填充带有衔接子标签的片段的空位；和

(ii)用在其3'端包含所述第一引物序列的线性扩增引物进行至少一次线性扩增反应。

3.权利要求2所述的方法，其中步骤(ii)包括进行2至30次线性扩增反应。

4.任一前述权利要求所述的方法，其中：

所述第一引物序列是第一测序引物序列，所述正向引物包含含有第一测序引物序列的5'尾，或所述衔接子进一步包含位于所述第一引物序列下游的第一测序引物序列；并且

所述第二引物序列是第二测序引物序列，所述反向引物包含含有第二测序引物序列的5'尾，或所述随机引物进一步包含位于所述第二引物序列下游的第二测序引物序列。

5.权利要求4所述的方法，其中所述第一和第二测序引物序列用于下一代测序应用。

6.权利要求4所述的方法，其中：

所述衔接子进一步包含位于所述第一测序引物序列下游的条形码；和/或

所述随机引物进一步包含位于所述第二测序引物序列下游的条形码。

7.权利要求6所述的方法，其中所述衔接子和/或随机引物中的条形码是样品特异性条形码。

8.权利要求6所述的方法，其中所述衔接子和/或随机引物中的条形码包含简并碱基区(DBR)。

9.权利要求4-8中任一项所述的方法，进一步包括将PCR扩增产物测序以获得针对样品中DNA片段的至少一个子集的序列读段，并将所述序列读段组装成重叠群。

10.任一前述权利要求所述的方法，其中所述DNA片段样品分离自临床样品。

11.权利要求10所述的方法，其中所述临床样品是从体液提取的无细胞DNA。

12.权利要求11所述的方法，其中所述体液是血液。

13.权利要求10所述的方法，其中所述临床样品是***固定石蜡包埋(FFPE)的样品。

14.一种方法，所述方法包括：

(a)使包含平均长度小于1Kb的双链DNA片段的样品与多个各自负载有衔接子的转座酶双链体接触以产生带有衔接子标签的片段，其中所述衔接子包含双链体区和5'突出端区，所述双链体区包含转座酶识别序列，所述5'突出端区包含第一引物序列；

(b)使用具有末端转移酶活性的酶向带有衔接子标签的片段的顶链添加寡-dN尾，以产生有尾的带有衔接子标签的片段；

(c)使用尾引物对所述有尾的带有衔接子标签的片段进行引物延伸反应，以产生尾引物延伸产物，其中所述尾引物包含与所述寡-dN尾杂交的3'序列和包含第二引物序列的5'序列；

(d)使用在其3'端包含所述第一引物序列的正向引物和在其3'端包含所述第二引物序列的反向引物，通过聚合酶链反应(PCR)扩增(c)的尾引物延伸产物以产生PCR扩增产物。

15.权利要求14所述的方法，进一步包括将PCR扩增产物测序以获得样品中DNA片段的至少一个子集的序列读段，并将所述序列读段组装成重叠群。

16.权利要求14-15中任一项所述的方法，其中所述DNA片段样品分离自临床样品，其中所述临床样品是***固定石蜡包埋(FFPE)的样品。

17.一种试剂盒，其包含：

随机引物或尾引物，随机引物包含随机的3'序列和包含第二引物序列的5'序列，尾引物包含与寡-dN尾杂交的3'序列和包含第二引物序列的5'序列；

正向引物，在其3'端包含所述第一引物序列；

反向引物，在其3'端包含所述第二引物序列；和

一种或多种另外的试剂，用于进行权利要求1或14所述的方法。