CN109415758A

CN109415758A - 使用含接头的经固定化的转座体进行的标签片段化

Info

Publication number: CN109415758A
Application number: CN201880002462.3A
Authority: CN
Inventors: 格雷斯·德桑蒂斯; 史蒂芬·M·格罗斯; 李建森; 纳塔列·莫雷尔; 安德鲁·斯莱特; 沈奇; 萨曼莎·斯诺
Original assignee: Illumina Cambridge Ltd; Illumina Inc
Current assignee: Illumina Cambridge Ltd; Illumina Inc
Priority date: 2017-02-21
Filing date: 2018-02-20
Publication date: 2019-03-01
Anticipated expiration: 2038-02-20
Also published as: JP2020510401A; US20210139887A1; CA3026206A1; EP3452621A1; EP3783112A1; US20230392142A1; NZ748776A; JP7164276B2; ES2933806T3; IL303805B1; KR102607830B1; CN115927538A; JP2022177288A; US11708573B2; IL263118A; WO2018156519A1; RU2018140894A3; KR20230165372A; DK3452621T3; IL263118B1

Abstract

本公开涉及用于处理靶核酸的方法、组合物和试剂盒，其包括使用结合至固体支撑物的转座体复合物的用于片段化和标记核酸(如DNA)的方法和组合物。

Description

使用含接头的经固定化的转座体进行的标签片段化

通过引用将任何优先权申请并入本文

本申请要求2017年2月21日提交的美国临时专利申请No.62/461,620的优先权权益，其通过引用以其整体并入本文。

引用的序列表

本公开包括电子格式的序列表。序列表由名为ILLINC-398WO_Sequence_Listing.txt的文件提供，该文件于2017年2月20日创建，其大小约为7KB。呈电子格式序列表的信息通过引用整体并入本文。

背景技术

发明领域

本公开涉及用于处理核酸的方法、组合物和试剂盒，其包括使用固定化于固体支撑物上的转座体复合物来片段化和标记核酸(如DNA)的方法和组合物。

当前用于核酸样品的下一代测序(NGS)的方案通常采用样品制备方法将DNA或RNA转化为片段化可测序的模板的文库。样品制备方法通常需要多个步骤和材料转移，并且用昂贵的仪器以实现片段化，因此通常是困难的、繁琐的、昂贵的和低效的。

在一种方法中，核酸片段文库可以使用基于转座体的方法来制备，其中两条转座子末端序列(一条与标签序列连接)和转座酶形成转座体复合物。转座体复合物用于在溶液中片段化和标记靶核酸，以产生测序仪使用的标签片段化(tagmentation)文库。转座体复合物可以诸如通过附加在两条末端序列之一的5’末端处的生物素固定在固体表面上。使用经固定化的转座体提供了优于溶液相法的显著优势，即减少亲自动手操作和整体文库制备时间、成本和试剂要求，降低样品输入要求，以及能够使用非纯化或降解样品作为文库制备的起点。在WO 2014/108810和WO 2016/189331中详细描述了用于将转座体固定于固体表面上以产生均匀的片段尺寸和文库产量的示例性转座程序和***，其各自通过引用整体并入本文。

在PCT公布的第WO 2016/189331和US 2014/093916 A1号中所描述的某些基于珠粒的标签片段化方法中，使用生物素-链霉亲和素相互作用将转座体结合至磁珠。在方案的随后PCR扩增步骤中，生物素-链霉亲和素键被热变性破坏，从而将生物素化的标签片段化产物释放到溶液中。如果需要，例如可以通过杂交捕获富集具有目标序列的扩增子或靶扩增子，并测序。

然而，当使用经固定化的转座体通过标签片段化制备的文库使用常见的杂交捕获方法富集基因组的某些区域时，与例如使用基于溶液的转座体方法生成的文库的富集相比，可以对基因组中的某些区域实现较低的读段富集。

此外，支撑物结合的转座体复合物的稳定性依据用于将转座体复合物连接至支撑物的接头构造而变化。如果在储存期间或文库制备期间从支撑物中移除复合物，则会影响所得文库的质量和效率。因此，需要具有提高的稳定性的经固定化的转座体复合物以及相关方法，所述相关方法证明了标签片段化的文库产生的效率提高并且继而增加了所得文库的读段富集。还需要组合物和方法，其将改善所得文库的读段富集。

本公开涉及具有经修饰的接头和组件布置的支撑物结合的转座体复合物。本公开提供了使用此类经修饰的复合物产生测序使用的核酸文库的方法和组合物。

发明概述

本公开涉及用于处理核酸的方法、组合物和试剂盒，其包括使用固体支撑物上的转座体复合物来片段化和标记DNA的方法和组合物。

本发明提供了转座体复合物，其包含转座酶、第一转座子和第二转座子，其中第一转座子包含(a)3’部分，其包含第一转座子末端序列，和(b)在第一转座子末端序列的5’末端处的第一衔接子序列，并且第二转座子包含与第一转座子末端序列的至少一部分互补的第二转座子末端序列。通常，第一转座子末端序列和第二转座子末端序列一起退火，形成由转座酶识别的双链转座子末端序列，其组合形成了功能性转座体复合物。

在一些方面，转座体复合物包含可切割的接头，其能够将第一转座子(和因此的复合物)连接至固体支撑物。在此类方面中，可切割的接头的第一末端连接至第一衔接子序列的5’末端，并且在一些方面中，可切割的接头的第二末端连接至亲和元件。亲和元件能够(共价地或非共价地)结合至固体支撑物上的亲和结合伴侣。在一些方面中，亲和元件(共价地或非共价地)结合至固体支撑物上的亲和结合伴侣，提供固体支撑物结合的转座体复合物。这些复合物是5’-接头转座体复合物和固体支撑物结合的5’-接头转座体复合物。

在其它方面中，转座体复合物包含3’接头，其能够将第二转座子(和因此的复合物)连接至固体支撑物。在此类方面中，接头的第一末端连接至第二转座子的3’末端，并且接头的第二末端连接至亲和元件。亲和元件能够(共价地或非共价地)结合至固体支撑物上的亲和结合伴侣。在一些方面，亲和元件(共价地或非共价地)结合至固体支撑物上的亲和结合伴侣，提供固体支撑物结合的转座体复合物。在一些方面，接头是可切割的接头。这些复合物是3’-接头转座体复合物和固体支撑物结合的3’-接头转座体复合物。

在一些方面中，本公开涉及经修饰的寡核苷酸。在一些方面中，经修饰的寡核苷酸包含第一转座子和第二转座子，其中第一转座子包含(a)包含第一转座子末端序列的3’部分和(b)第一转座子末端序列的5’末端处的第一衔接子序列，并且第二转座子包含与第一转座子末端序列的至少一部分互补并与其退火的第二转座子末端序列，并且其中可切割接头的第一末端附接至第一衔接子序列的5’末端，并且在一些方面中，可切割的接头的第二末端附接至亲和元件。

在其它方面中，经修饰的寡核苷酸包含第一转座子和第二转座子，其中第一转座子包含(a)包含第一转座子末端序列的3’部分和(b)第一转座子末端序列的5’末端处的第一衔接子序列，并且第二转座子包含与第一末端序列的至少一部分互补并与其退火的第二转座子末端序列，并且接头的第一末端附接至第二转座子的3’末端，并且接头的第二末端附接至亲和元件。在一些方面，接头是可切割的接头。

在3’接头转座体复合物的一些实施方案中，亲和元件和接头具有如本文所述的式(I)、式(I’)、式(Ia)、式(Ib)、式(Ic)、式(I(a))、式(I(b))或式(I(c))的结构。在一些方面中，亲和元件共价连接至第二转座子的3’末端，其中亲和元件和接头具有式(I)的结构：

其中:

AE是亲和元件；

Y是C_2-6亚烷基；

X¹是O、NR¹或S；

其中R¹是H或C_1-10烷基；

n是选自以下的整数：1、2、3、4、5和6；

X²是O、CH₂或S；

R^a是H或-OH；和

当R^a是H时Z不存在，或当R^a是H或OH时Z是CH₂；

其中标记了与第二转座子的连接点。

在一些方面中，本文描述的接头是5’接头，其中式(I)中的磷酸根基团是第一转座子的末端核苷酸的5’位置处的末端磷酸根基团。在一些方面中，本文描述的接头是3’接头，其中式(I)中的磷酸根基团连接至第二转座子寡核苷酸的3’羟基，诸如3’末端核苷酸。

在其它方面中，本发明提供了从双链靶核酸产生标记的核酸片段文库的方法，其包括将靶标与如本文所述的结合至固体支撑物的转座体复合物一起孵育。在一些方面中，该方法包括在靶标被片段化并且将第一转座子的3’末端连接至靶片段的5’末端以产生多个5’标记的靶片段的条件下，用经固定化的转座体复合物处理靶标。在一些实施方案中，使用多种转座体复合物。

在一些实施方案中，该方法还包括扩增5’标记的靶片段中的一种或多种。在一些实施方案中，该方法还包括对其中5’标记的靶片段或其扩增产物中的一种或多种进行测序。

因此，本公开的一些其它实施方案涉及产生标记的核酸片段的文库的方法，其包括：

提供固体支撑物，其包含固定其上的本文所述的转座体复合物；和

在足以将靶核酸片段化为多个靶片段并将第一转座子的3’末端连接至靶片段的5’末端以提供多个5’标记的靶片段的条件下，使固体支撑物与双链靶核酸接触。

在一些方面，该方法还包括扩增5’标记的靶片段。

在一些方面，本公开提供了由本文所述的方法产生的5’标记的靶片段的文库。

本公开还提供了制备如本文所述的经修饰的寡核苷酸、转座体复合物和固体支撑物结合的转座体复合物的方法。在一些方面，此类方法包括在适用于形成复合物的条件下，用如本文所述的第一转座子和第二转座子处理转座酶。用于制备固体支撑物结合的转座体复合物的方法包括在足以使亲和元件与亲和结合伴侣(共价地或非共价地)结合的条件下，将如本文所述的转座体复合物与包含亲和结合伴侣的固体支撑物进行孵育。

在本文所述的组合物和方法的一些实施方案中，转座体复合物包含两个群体，其中每个群体中的第一衔接子序列是不同的。

附图简述

图1示出了将转座体复合物的实施方案固定至珠粒表面的方法的示例性步骤。

图2示出了通过流动池上的簇形成在珠粒表面上的示例性标签片段化过程的示意图。

图3显示了使用固定在珠粒表面上的转座体复合物片段化和标记DNA的方法的示例性步骤，然后进行靶富集，导致污染靶读段。

图4显示了使用用酶促可切割的接头固定在珠粒表面上的转座体复合物片段化和标记DNA的方法的示例性步骤，然后进行靶富集。

图5A显示了附接至固体表面的转座子序列的生物素化5’末端的实例，用于标签片段化和随后的扩增。

图5B显示了附接至固体表面的转座子序列的生物素化3’末端的实例，用于标签片段化和随后的扩增。

图6A使用具有两种不同的3’生物素化接头的转座体复合物来比较来自基于链霉亲和素珠粒的固相标签片段化的文库产量。

图6B证明了与由非老化批次的相同复合物制备的样品文库(对照)相比，使用老化4个月后具有式(I(a))的3’-生物素化接头的转座体复合物，由基于链霉亲和素珠粒的固相标签片段化制备的样品文库的加速稳定性数据。

图6C证明了与由非老化复合物制备的样品文库(对照)相比，由老化4个月和8个月后具有式(I(c))的3’-生物素化接头的转座体复合物制备的样品文库的加速稳定性数据。

图7A使用基于链霉亲和素珠粒的固相文库制备证明了DNA分子的靶***物尺寸作为复合物密度的函数，其中珠粒包含通过3’-生物素化接头结合其上的经固定化的转座体复合物。

图7B是使用包含经固定化的转座体复合物(包含高活性的Tn5转座酶和3’-生物素化接头并且复合物密度为100nM)的链霉亲和素珠粒，显示出DNA分子的靶***物尺寸作为SPRI条件的函数的线图。

图7C是使用包含经固定化的转座体复合物(包含高活性的Tn5转座酶和3’-生物素化接头并且复合物密度为600nM)的链霉亲和素珠粒，显示出DNA分子的靶***物尺寸作为SPRI条件的函数的线图。

发明详述

经片段化的核酸的文库通常由基因组核酸产生，用于下一代测序(NGS)应用。本公开提供了用于经固定化的转座文库制备方法的方法、组合物和试剂盒。经固定化的转座文库制备方法相对于其它文库制备方法而言是快速的，并且有效地从粗制的或非纯化的样品(诸如血液、痰、细胞提取物等)和纯化的样品(诸如纯化的基因组核酸)制备文库。通常，使用共价或非共价结合伴侣(如亲和元件和亲和结合伴侣)，将转座体固定在基板(如载片或珠粒)上(图1)。例如，转座体复合物通过附接至转座体复合物的生物素化接头固定于链霉亲和素涂覆的珠粒上。靶核酸由经固定化的转座体复合物捕获，并且核酸被片段化并且被标记(“标签片段化”)。扩增标记的片段，任选地，捕获目标扩增子(如，经由杂交探针)，并且对标记的片段进行测序。

对文库制备使用固体支撑物连接的转座体复合物减少了进入文库制备过程的对样品输入进行归一化的需要，以及在富集或测序步骤之前对文库输出进行归一化的需要。即使使用不同的样品输入浓度，使用这些复合物也产生相对于溶液相方法而言具有更一致的***物尺寸的文库。然而，据观察，具有生物素化接头的某些转座体复合物的稳定性降低。此外，某些支撑物结合的复合物构型产生脱靶产物；特别地，5’标记的靶片段的扩增子的杂交和捕获可能被仍然与经固定化的核酸杂交的核酸片段污染(图3)。这种低效率可能导致试剂和测量仪器或流动池空间(对于脱靶片段和测序数据而言)的浪费。本申请公开了各种转座体复合物设计以解决文库质量问题并减少脱靶捕获，并且显示出提高的化学稳定性的具有经修饰的接头的复合物。

在一些实施方案中，通过本文公开的方法获得的核酸文库可以使用任何适合的核酸测序平台进行测序，以确定靶序列的核酸序列。在一些方面中，目标序列与一种或多种先天性或遗传性病症、病原性、抗生素抗性或遗传修饰相关或相关联。测序可用于确定短串联重复、单核苷酸多态性、基因、外显子、编码区、外显子组或其部分的核酸序列。因此，本文所述的方法和组合物涉及创建可测序的文库以用于但不限于癌症和疾病诊断、预后和治疗、DNA指纹图谱应用(如，DNA数据库、刑事案件工作)、宏基因组研究和发现、农业基因组学应用和病原体识别和监测。

通过使用转座酶介导的片段化和标记，可以将靶核酸诸如DNA转化为准备用于下一代测序的衔接子修饰的模板所需的步骤数最小化。该过程在本文中称为“标签片段化”，通常涉及通过转座体复合物修饰靶核酸，所述转座体复合物包含与包含单链衔接子序列和双链转座子末端序列区的转座子对相复合的转座酶，以及为特定目的设计的任选的其它序列。标签片段化导致同时将靶核酸片段化并且将衔接子连接至双链体核酸片段的两条链的5’末端。如果转座体复合物是支撑物结合的，则所得的片段在标签片段化反应之后结合(或者在5’连接的转座体复合物的情况下直接结合，或者在3’连接的转座体复合物的情况下经由杂交而结合)至固体支撑物。

除非另外定义，否则本文使用的所有技术和科学术语具有与本领域普通技术人员通常理解的含义相同的含义。除非另有说明，否则本文引用的所有专利、申请、公开申请和其他出版物均以引用的方式整体并入本文。如果本文中有一个术语存在多个定义，除非另有说明，否则以本章节中的那些定义为准。如在说明书和所附权利要求中所使用的，单数形式“一”、“一个”和“该”包括复数指示物，除非上下文另有明确规定。除非另有说明，否则采用常规的质谱、NMR、HPLC、蛋白化学、生物化学、重组DNA技术和药理学的方法。除非另有说明，“或”或者“和”的使用意味着“和/或”。此外，术语“包括(including)”以及其它形式，诸如“包括(include)”、“包括(includes)”和“包括(included)”的使用不是限制性的。如在该说明书中所使用，无论是在过渡性短语中还是在权利要求的主体中，术语“包括”和“包含”将被解释为具有开放式含义。换言之，该术语与短语“具有至少”或“包括至少”被同义地解释。当在过程的上下文中使用时，术语“包括”意指该过程包括至少所引用的步骤，但是可以包括另外的步骤。当在化合物、组合物或设备的上下文中使用时，术语“包含”意指化合物、组合物或设备包括至少所引用的特征或组分，但也可包括另外的特征或组分。

本文使用的章节标题仅用于组织目的，不应被解释为限制所描述的主题。

化学术语

如本文所用，“烷基”是指完全饱和的(即不含双键或三键)直链或支链烃链。该烷基基团可具有1至20个碳原子(无论其在本文何处出现，数值范围诸如“1至20”是指在给定范围内的每个整数；如，“1至20个碳原子”意指该烷基基团可以由1个碳原子、2个碳原子、3个碳原子等组成，直至并包括20个碳原子，尽管本定义也涵盖所出现的术语“烷基”，其没有指定数值范围)。烷基基团也可以是具有1至9个碳原子的中等尺寸的烷基。烷基基团也可以是具有1至6个碳原子的低级烷基。烷基基团可以指定为“C_1-4烷基”或类似的名称。仅举例而言，“C_1-6烷基”表示在烷基链中存在一至六个碳原子，即烷基链选自：甲基、乙基、丙基、异丙基、正丁基、异丁基、仲丁基和叔丁基。典型的烷基基团包括但绝不限于甲基、乙基、丙基、异丙基、丁基、异丁基、叔丁基、戊基和己基等。

如本文所用，“烷氧基”是指式-OR，其中R是如上定义的烷基，诸如“C_1-9烷氧基”，包括但不限于甲氧基、乙氧基、正丙氧基、1-甲基乙氧基(异丙氧基)、正丁氧基、异丁氧基、仲丁氧基和叔丁氧基等。

如本文所用，“芳基”是指在主环中只含有碳的芳族环或环体系(即两个或多个稠环，它们共有两个相邻的碳原子)。当芳基是环体系时，体系中的每个环都是芳香族的。芳基基团可以具有6-18个碳原子，尽管本定义还涵盖出现的术语“芳基”，其没有指定数值范围。在一些实施方案中，芳基基团具有6至10个碳原子。芳基基团可以指定为“C_6-10芳基”、“C₆或C₁₀芳基”或类似的名称。芳基基团的实例包括但不限于苯基、萘基、薁基和蒽基。

“芳烷基”或“芳基烷基”是经由亚烷基基团连接的作为取代基的芳基基团，诸如“C_7-14芳烷基”等，包括但不限于苄基、2-苯基乙基、3-苯基丙基和萘基烷基。在一些情况下，亚烷基基团是低级亚烷基基团(即，C_1-6亚烷基基团)。

如本文所用，“碳环基”意指在环体系主链中仅含有碳原子的非芳香族环状环或环体系。当碳环基是环体系时，两个或更多个环可以以稠合、桥接或螺-连接的方式连结在一起。碳环基可以具有任何程度的饱和度，前提是环体系中的至少一个环不是芳香族的。因此，碳环基包括环烷基、环烯基和环炔基。碳环基基团可具有3至20个碳原子，但本定义还涵盖出现的术语“碳环基”，其未指定数值范围。碳环基基团也可以是具有3至10个碳原子的中等尺寸的碳环基。碳环基基团也可以是具有3至6个碳原子的碳环基。碳环基基团可以指定为“C_3-6碳环基”或类似的名称。碳环基环的实例包括但不限于环丙基、环丁基、环戊基、环己基、环己烯基、2,3-二氢-茚、双环[2.2.2]辛烷基、金刚烷基和螺[4.4]壬烷基。

如本文所用，其中“a”和“b”是整数的“C_a至C_b”或“C_a-b”，是指指定基团中碳原子的数量。也就是说，该基团可以含有“a”到“b”(包括端值)个碳原子。因此，例如，“C₁至C₄烷基”或“C_1-4烷基”基团是指具有1至4个碳的全烷基基团，即CH₃-、CH₃CH₂-、CH₃CH₂CH₂-、(CH₃)₂CH-、CH₃CH₂CH₂CH₂-、CH₃CH₂CH(CH₃)-和(CH₃)₃C-。

如本文所用，术语“共价附接”或“共价键合”是指形成化学键合，其特征在于原子之间共享电子对。例如，与经由其它方式例如粘附或静电相互作用附接至表面相比，共价附接的聚合物涂层是指与基材的官能化表面形成化学键的聚合物涂层。应理解的是，共价附接至表面的聚合物也可以经由除了共价附接之外的方式例如物理吸附键合。

术语“卤素”或“卤基”，如本文所用，意指元素周期表第7列的放射性稳定原子中的任一种，如氟、氯、溴或碘，其中氟和氯是优选的。

如本文所用，“杂芳基”是指芳族环或环体系(即，两个或多个共享两个相邻原子的稠环)，其在环主链中含有一个或多个杂原子，即除碳以外的元素，包括但不限于氮、氧和硫。当杂芳基是环体系时，体系中的每个环都是芳香族的。杂芳基基团可具有5-18个环成员(即，构成环主链的原子(包括碳原子和杂原子)的数目)，尽管本定义还涵盖出现的术语“杂芳基”，其没有指定数值范围。在一些实施方案中，杂芳基基团具有5至10个环成员或5至7个环成员。杂芳基基团可以指定为“5-7元杂芳基”、“5-10元杂芳基”或类似的名称。杂芳基环的实例包括但不限于呋喃基、噻吩基、酞嗪基、吡咯基、噁唑基、噻唑基、咪唑基、吡唑基、异噁唑基、异噻唑基、***基、噻二唑基、吡啶基、哒嗪基、嘧啶基、吡嗪基、三嗪基、喹啉基、异喹啉基、苯并咪唑基、苯并噁唑基、苯并噻唑基、吲哚基、异吲哚基和苯并噻吩基。

如本文所用，“杂环基”意指在主环中含有至少一个杂原子的非芳香族环状环或环体系。杂环基可以以稠合、桥接或螺-连接的方式连结在一起。杂环基可以具有任何程度的饱和度，前提是环体系中的至少一个环不是芳香族的。一个或多个杂原子可以存在于环体系中的非芳香族或芳族环中。杂环基基团可具有3至20个环成员(即，构成环主链的原子(包括碳原子和杂原子)的数目)，尽管本定义还涵盖出现的术语“杂环基”，其没有指定数值范围。杂环基基团还可以是具有3至10个环成员的中等尺寸的杂环基。杂环基基团也可以是具有3至6个环成员的杂环基。杂环基基团可以指定为“3-6元杂环基”或类似的名称。在优选的六元单环杂环基中，一个或多个杂原子选自O、N或S中的一种至高达三种，并且在优选的五元单环杂环基中，一个或多个杂原子选自一种或两种选自O、N或S的杂原子。杂环基环的实例包括但不限于氮杂基(azepinyl)、吖啶基、咔唑基、噌啉基、二氧戊环基、咪唑啉基、咪唑烷基、吗啉基、环氧乙烷基、氧杂环庚烷基、硫杂环庚烷基、哌啶基、哌嗪基、二氧代哌嗪基、吡咯烷基(pyrrolidinyl)、吡咯烷酮基(pyrrolidonyl)、pyrrolidionyl、4-哌啶酮基、吡唑啉基、吡唑烷基、1,3-二噁英基(1,3-dioxinyl)、1,3-二噁烷基(1,3-dioxanyl)、1,4-二噁英基、1,4-二噁烷基、1,3-氧硫杂环戊烷基、1,4-氧硫杂环己二烯基、1,4-氧硫杂环己烷基、2H-1,2-噁嗪基、三噁烷基、六氢-1,3,5-三嗪基，1,3-间二氧杂环戊烯基、1,3-二氧杂环戊烷基、1,3-二硫杂环戊二烯基、1,3-二噻茂烷基(1,3-dithiolanyl)、异噁唑啉基、异噁唑烷基、噁唑啉基、噁唑烷基、噁唑烷酮基、噻唑啉基、噻唑烷基、1,3-氧硫杂环戊烷基、吲哚啉基、异吲哚啉基、四氢呋喃基、四氢吡喃基、四氢噻吩基、四氢噻喃基、四氢-1,4-噻嗪基、硫代吗啉基、二氢苯并呋喃基、苯并咪唑烷基和四氢喹啉基。

如本文所用，经取代的基团衍生于未取代的母体基团，其中已经存在一个或多个氢原子与另一个原子或基团的交换。除非另有说明，当基团被认为是“被取代的”时，意指该基团被一个或多个取代基取代，所述取代基独立地选自C₁-C₆烷基、C₁-C₆烯基、C₁-C₆炔基、C₁-C₆杂烷基、C₃-C₇碳环基(被卤代基、C₁-C₆烷基、C₁-C₆烷氧基、C₁-C₆卤代烷基和C₁-C₆卤代烷氧基任选取代)、C₃-C₇-碳环基-C₁-C₆-烷基(被卤代基、C₁-C₆烷基、C₁-C₆烷氧基、C₁-C₆卤代烷基和C₁-C₆卤代烷氧基任选取代)、3-10元杂环基(被卤代基、C₁-C₆烷基、C₁-C₆烷氧基、C₁-C₆卤代烷基和C₁-C₆卤代烷氧基任选取代)、3-10元杂环基-C₁-C₆-烷基(被卤代基、C₁-C₆烷基、C₁-C₆烷氧基、C₁-C₆卤代烷基和C₁-C₆卤代烷氧基任选取代)、芳基(被卤代基、C₁-C₆烷基、C₁-C₆烷氧基、C₁-C₆卤代烷基和C₁-C₆卤代烷氧基任选取代)、芳基(C₁-C₆)烷基(被卤代基、C₁-C₆烷基、C₁-C₆烷氧基、C₁-C₆卤代烷基和C₁-C₆卤代烷氧基任选取代)、5-10元杂芳基(被卤代基、C₁-C₆烷基、C₁-C₆烷氧基、C₁-C₆卤代烷基和C₁-C₆卤代烷氧基任选取代)、5-10元杂芳基(C₁-C₆)烷基(被卤代基、C₁-C₆烷基、C₁-C₆烷氧基、C₁-C₆卤代烷基和C₁-C₆卤代烷氧基任选取代)、卤代基、氰基、羟基、C₁-C₆烷氧基、C₁-C₆烷氧基(C₁-C₆)烷基(即醚)、芳氧基、硫醇基(巯基)、卤代(C₁-C₆)烷基(如，–CF₃)、卤代(C₁-C₆)烷氧基(如，–OCF₃)、C₁-C₆烷硫基、芳硫基、氨基、氨基(C₁-C₆)烷基、硝基、O-氨甲酰基、N-氨甲酰基、O-硫代氨甲酰基、N-硫代氨甲酰基、C-酰氨基、N-酰氨基、S-亚磺酰氨基、N-亚磺酰氨基、C-羧基、O-羧基、酰基、氰氧基、异氰氧基、硫代氰氧基、异硫代氰氧基、亚磺酰基、磺酰基、磺基、亚磺基、磺酸根和氧代(＝O)。无论在什么情况下，基团被描述为“任选取代”，该基团都可以用上述取代基取代。

在一些实施方案中，转座体复合物经由一个或多个多核苷酸(如，寡核苷酸)诸如包含转座子末端序列的多核苷酸(寡核苷酸)固定至支撑物。在一些实施方案中，转座体复合物可以经由附接至转座子序列末端的接头固定化，例如将转座酶酶偶联至固体支撑物。在一些实施方案中，转座酶和转座子多核苷酸(如，寡核苷酸)都固定于固体支撑物。当提到将分子(如，核酸、酶)固定至固体支撑物时，术语“固定”、“固着”和“附接”在本文中可互换使用，并且两个术语都旨在包括直接地或间接地、共价地或非共价地附接，除非明确说明或通过上下文另有说明。在本公开的某些实施方案中，共价附接可能是优选的，但通常所需要的只是分子(如核酸、酶)在其意图使用支撑物的条件(例如在需要核酸扩增和/或测序的应用中)下保持固定或附接至支持物。在一些情况下，在基于珠粒的标签片段化，转座体可以经由配体对如亲和元件和亲和结合伴侣与珠粒表面结合。

转座体和转座酶

基于转座子的技术可用于片段化DNA，例如，如NEXTERA^TM XT和FLEX DNA样品制备试剂盒(Illumina,Inc.)的工作流程所示例，其中将靶核酸诸如基因组DNA用同时片段化和标记(“标签片段化”)靶标的转座体复合物处理，从而创建在片段末端处用独特的衔接子序列标记的片段化核酸分子群。

转座反应是其中一个或多个转座子在随机位点或几乎随机的位点处***靶核酸的反应。转座反应中的组分包括转座酶(或其他能够片段化并且标记如本文所述的核酸的酶，诸如整合酶)和转座子元件，所述转座子元件包括结合至酶的双链转座子末端序列和附接至两条转座子末端序列中的一条的衔接子序列。双链转座子末端序列的一条链被转移至靶核酸的一条链并且互补的转座子末端序列链不转移(即，未转移的转座子序列)。根据需要或期望，衔接子序列可包含一条或多条功能性序列(如，引物序列)。

“转座体复合物”包括至少一种转座酶和转座子识别序列。在一些此类体系中，转座酶结合至转座子识别序列以形成能够催化转座反应的功能性复合物。在一些方面，转座子识别序列是双链转座子末端序列。转座酶或整合酶结合至靶核酸中的转座酶识别位点，并将转座子识别序列***靶核酸中。在一些此类***事件中，转座子识别序列(或末端序列)的一条链被转移到靶核酸中，从而也导致切割事件。例如，可以容易地适合与本公开的转座酶一起使用的示例性转座程序和体系描述于例如PCT公开No.WO10/048605、美国专利公开No.2012/0301925、美国专利公开No.2012/13470087或美国专利公开No.2013/0143774中，其中每一个都通过引用整体并入本文。

可以与本文提供的某些实施方案一起使用的示例性转座酶包括(或由其编码)：Tn5转座酶(参见Reznikoff等人,Biochem.Biophys.Res.Commun.2000,266,729-734)，哈氏弧菌(Vibrio harveyi)(以Agilent为特征并用于SureSelect QXT产品中的转座酶)，包含R1和R2末端序列的MuA转座酶和Mu转座酶识别位点(Mizuuchi,K.,Cell,35:785,1983；Savilahti,H,等人,EMBO J.,14:4893,1995)，金黄色葡萄球菌(Staphylococcus aureus)Tn552(Colegio,O.等人,J.Bacteriol.,183:2384-8,2001；Kirby,C.等人,Mol.Microbiol.,43:173-86,2002)，Ty1(Devine&Boeke,Nucleic Acids Res.,22:3765-72,1994和PCT公开No.WO95/23875)，转座子Tn7(Craig,N.L.,Science,271:1512,1996；Craig,N.L.,Curr.Top.Microbiol.Immunol.,204:27-48,1996)，Tn/O和IS10(Kleckner N.等人,Curr.Top.Microbiol.Immunol.,204:49-82,1996)，Mariner转座酶(Lampe,D.J.等人,EMBO J.,15:5470-9,1996)，Tc1(Plasterk,R.H.,Curr.Top.Microbiol.Immunol.,204:125-43,1996)，P元件(Gloor,G.B.,Methods Mol.Biol.,260:97-114,2004)，Tn3(Ichikawa&Ohtsubo,J.Biol.Chem.,265:18829-32,1990)，细菌***序列(Ohtsubo&Sekine,Curr.Top.Microbiol.Immunol.204:1-26,1996)，逆转录病毒(Brown等人,Proc.Natl.Acad.Sci.USA,86:2525-9,1989)和酵母逆转录转座子(Boeke&Corces,Ann.Rev.Microbiol.43:403-34,1989)。更多实例包括IS5、Tn10、Tn903、IS911和转座酶家族酶的经工程化版本(Zhang等人,(2009)PLoS Genet.5:e1000689.Epub 10月16日；WilsonC.等人(2007)J.Microbiol.Methods 71:332-5)。本文描述的方法还可以包括转座酶的组合，而不仅仅是单个转座酶。

在一些实施方案中，转座酶是Tn5、MuA或哈氏弧菌转座酶，或其活性突变体。在其它实施方案中，转座酶是Tn5转座酶或其活性突变体。在一些实施方案中，Tn5转座酶是高活性的Tn5转座酶(参见，如Reznikoff等人,PCT公布No.WO2001/009363、美国专利No.5,925,545,、5,965,443、7,083,980和7,608,434，以及Goryshin和Reznikoff,J.Biol.Chem.273:7367,1998)或其活性突变体。在一个方面，Tn5转座酶是如PCT公布No.WO2015/160895中所述的Tn5转座酶，其通过引用并入本文。在一些实施方案中，Tn5转座酶是融合蛋白。在一些实施方案中，Tn5转座酶融合蛋白包含融合的延伸因子Ts(Tsf)标签。在一些实施方案中，Tn5转座酶是高活性的Tn5转座酶，其包含相对于野生型序列在氨基酸54、56和372处的突变。在一些实施方案中，高活性的Tn5转座酶是融合蛋白，任选地，其中融合蛋白是延伸因子Ts(Tsf)。在一些实施方案中，识别位点是Tn5型转座酶识别位点(Goryshin和Reznikoff,J.Biol.Chem.,273:7367,1998)。在一个实施方案中，使用与高活性的Tn5转座酶形成复合物的转座酶识别位点(如，EZ-Tn5^TM转座酶，Epicentre Biotechnologies,Madison,Wis.)。

在一些实施方案中，转座体复合物是转座酶的两个分子的二聚体。在一些实施方案中，转座体复合物是同二聚体，其中两个分子的转座酶各自与相同类型的第一转座子和第二转座子结合(如，结合至每个单体的两个转座子的序列是相同的，从而形成“同二聚体”)。在一些实施方案中，本文所述的组合物和方法采用两个转座体复合物群。在一些实施方案中，每个群体中的转座酶是相同的。在一些实施方案中，每个群体中的转座体复合物是同二聚体，其中第一群体在每个单体中具有第一衔接子序列并且第二群体在每个单体中具有不同的衔接子序列。

在一些实施方案中，转座酶是Tn5转座酶。在一些实施方案中，转座酶复合物包含转座酶(如，Tn5转座酶)二聚体，所述转座酶(如，Tn5转座酶)二聚体包含第一单体和第二单体。每个单体包含第一转座子和第二转座子，其中第一转座子在其3’末端处包含第一转座子末端序列和第一衔接子序列(其中在二聚体的每个单体中的衔接子序列是相同的或不同的)，并且第二转座子包含与第一转座子末端序列的至少一部分互补的第二转座子末端序列。在5’可切割的接头方面的一些实施方案中，第一转座子在其5’末端处包含连接至亲和元件的可切割的接头。在3’接头方面的一些实施方案中，第二转座子在其3’末端处包含连接至亲和元件的接头(任选地可切割的)。因此，在优选的实施方案中，来自每个单体的一个转座子包含亲和元件。在一些实施方案中，然而，两个单体中只有一个单体包含亲和元件。

衔接子序列

在本文所述方法的任何实施方案中，第一转座子包含第一衔接子序列。在一些实施方案中，使用二级衔接子载体将二级衔接子添加到如本文所述的标记片段，其包含引物序列和二级衔接子序列。衔接子序列可包含选自以下的一条或多条功能性序列：通用序列、引物序列、索引序列、捕获序列、条形码序列(如用于计数或纠错)、切割序列、测序相关的序列及其组合。在一些实施方案中，衔接子序列包含引物序列。在其它实施方案中，衔接子序列包含引物序列和索引序列或条形码序列。引物序列也可以是通用序列。本公开不限于可以使用的衔接子序列的类型，并且技术人员将认识到可以用于文库制备和下一代测序的其它序列。

通过标签片段化反应转移至核酸片段的5’末端的衔接子序列(如，第一衔接子序列)可以包含例如通用序列。通用序列是核苷酸序列对于两个或更多个核酸片段是共同的区域。任选地，两个或更多个核酸片段也具有序列差异的区域。可以存在于多个核酸片段的不同成员中的通用序列可以允许使用与通用序列互补的单个通用引物来复制或扩增多个不同的序列。

在一些实施方案中，本文所述的组合物和方法采用两个转座体复合物群。在一些实施方案中，每个群体包含具有不同引物序列的衔接子序列。在一些实施方案中，第一群体包含A14引物序列并且第二群体包含B15引物序列。

亲和元件和亲和结合伴侣

如本文所用的亲和元件是可用于共价地或非共价地结合至亲和结合伴侣的部分。在一些方面中，亲和元件在转座体复合物上，并且亲和结合伴侣在固体支撑物上。

在一些实施方案中，亲和元件可以非共价地结合或被结合至固体支撑物上的亲和结合伴侣，从而将转座体复合物非共价地附接至固体支撑物。在此类实施方案中，亲和元件包含例如生物素或者是例如生物素，并且亲和结合伴侣包含亲和素或链霉亲和素或者是亲和素或链霉亲和素。在其它实施方案中，亲和元件/结合伴侣组合包含FITC/抗-FITC、洋地黄毒苷/洋地黄毒苷抗体或半抗原/抗体或者是FITC/抗-FITC、洋地黄毒苷/洋地黄毒苷抗体或半抗原/抗体。其它适合的亲和对包括但不限于二硫代生物素-亲和素、亚氨基生物素-亲和素、生物素-亲和素、二硫代生物素-琥珀酰化的亲和素、亚氨基生物素-琥珀酰化的亲和素、生物素-链霉亲和素和生物素-琥珀酰化的亲和素。

在一些实施方案中，亲和元件可以经由化学反应结合至亲和结合伴侣，或者通过与固体支撑物上的亲和结合伴侣反应来共价结合，从而将转座体复合物共价附接至固体支撑物。在一些方面中，亲和元件/结合伴侣组合包含胺/羧酸或者是胺/羧酸(如在本领域普通技术人员已知的条件下经由标准肽偶联反应(诸如EDC或NHS介导的偶联)结合)。两种组分的反应通过酰胺键将亲和元件和结合伴侣连结。或者，亲和元件和结合伴侣可以是两次点击化学伴侣(如，叠氮化物/炔烃，其反应形成***键联)。

可切割的接头

破坏连接两个分子实体的键的能力可以是减少脱靶杂交产物捕获的有效工具，阻止在第一杂交期间产生基因组宽脱靶捕获的可能性。如本文所定义，可切割的接头是具有通过可切割的键连结在一起的两个功能性头部的分子。两个功能性头部用于将接头附接至其它部分；在此类情况下，可切割的接头将第一转座子序列的5’末端连接至亲和元件。Wagner等人,Bioorg.Med.Chem.20,571-582(2012)(其通过引用并入本文)列出了根据其切割条件和生物应用分类的可切割的接头的概述。

如本文所用的可切割的接头是可以通过化学手段或物理手段切割的接头，例如，光解、化学切割、热切割或酶促切割。在一些实施方案中，切割可以通过生化、化学、酶促、亲核、还原敏感剂或其它手段进行。

在一些实施方案中，可切割的接头可以包含核苷酸或核苷酸序列，其可以通过各种方式进行片段化。例如，可切割的接头可包含限制性内切核酸酶位点；至少一个可用RNA酶切割的核糖核苷酸；在某一种或多种化学试剂的存在下可切割的核苷酸类似物；通过用(例如)高碘酸盐处理的可切割的二醇键联；用化学还原剂的可切割的二硫化物基团；可以进行光化学切割的可切割部分；以及通过肽酶或其它适合的手段可切割的肽。参见如，美国专利公布No.2012/0208705和2012/0208724以及PCT公布No.WO 2012/061832，其各自通过引用整体并入本文。

光可切割的(PC)接头已经用于各种应用中，诸如光切割诱导的纯化、蛋白工程化、化合物和生物分子的光活化以及用于多重测定的SMUG的质量标记。PC接头可含有通过特定波长(300-350nm)的UV光可切割的光不稳定官能团。PC接头可以包括例如10原子单元，其当暴露于适当光谱范围内的UV光时，该单元可以被切割。此类光可切割的接头和亚磷酰胺试剂可从Integrated DNA technologies(IDT))、Ambergen和Glen Research商购获得。美国专利No.7,057,031、7,547,530、7,897,737、7,964,352和8,361,727中详细描述了光可切割的核苷酸组合物的用途，其通过引用整体并入本文。

在一些实施方案中，通过将可切割的核苷酸或核碱基合并入可切割的接头中来酶促介导切割。此类核碱基或核苷酸部分的实例包括但不限于尿嘧啶、尿苷、8-氧代-鸟嘌呤、黄嘌呤、次黄嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶、胸腺嘧啶二聚体、7-甲基鸟苷、8-氧代-脱氧鸟苷、黄苷、肌苷、脱氧肌苷、二氢尿苷、溴脱氧尿苷、尿苷、5-甲基胞苷、脱氧尿苷、5,6-二羟基胸腺嘧啶、胸腺嘧啶二醇、5-羟基-5-甲基海因、尿嘧啶二醇、6-羟基-5,6-二氢胸腺嘧啶、甲基丙醇二酰脲(1,2)或无碱基(abasic)位点。

在一些实施方案中，可切割的接头包含足够数量的可切割的核苷酸以允许完全切割。在一些实施方案中，接头包含1至10个可切割的核苷酸。在一些实施方案中，可切割的接头包含至少一个可切割的核苷酸。在一些实施方案中，接头包含至少1、2、3、4、5、6、7、8、9或10个可切割的核苷酸。在一个优选的实施方案中，可切割的接头包含一个或多个尿嘧啶核苷酸和任选的其它标准DNA碱基。在一些实施方案中，PCR后，另外的酶促步骤在可切割的核苷酸或核苷位置处切割可切割的接头。此类酶的实例包括但不限于尿嘧啶DNA糖基化酶(UDG，其还被称为尿嘧啶-N-糖基化酶或UNG)、甲酰胺基嘧啶DNA糖基化酶(Fpg)、RNaseH、Endo III、Endo IV、Endo V、Endo VIII、Klenow或腺苷三磷酸双磷酸酶(apyrase)。在一些实施方案中，使用包含切割核酸中的尿嘧啶碱基的酶和AP核酸酶的酶共混物。酶的有效浓度可为0.025U/μl至10U/μl。在一个优选的实施方案中，酶共混物是尿嘧啶DNA糖基化酶和Endo IV。用于本文所述方法的商业酶混合物包括UDEM(Epicenter Biotechnologies)。在另一个实施方案中，酶共混物是尿嘧啶DNA糖基化酶和Endo VIII，可商购获得如USER(NewEngland Biolabs)或尿嘧啶切割***(Sigma Aldrich)。切割在短的寡核苷酸上留下5’亲和元件(如生物素部分)，其可以通过技术人员已知的许多方法去除，例如，在核酸纯化期间诸如使用基于珠粒的方法(其会留下未捕获的小寡核苷酸)去除靶核酸。切割打破了亲和元件(如生物素)和5’标记的靶片段之间的联系。在优选的实施方案中，可切割的接头与转座子双链体的转座子末端序列的5’末端相邻并附接。在一些实施方案中，可切割的接头连接至生物素。在其它实施方案中，将生物素固着至链霉亲和素涂覆的珠粒。

具有3’接头的转座体复合物和转座子

在其它方面中，接头连接至第二转座子的3’末端，其中接头能够将第二转座子连接至固体支撑物。如果第一转座子和第二转座子是转座体复合物的一部分，则接头用于将复合物连接至固体支撑物。在此类方面中，接头的第一末端附接至第二转座子的3’末端，并且接头的第二末端附接至亲和元件。亲和元件能够(共价地或非共价地)结合至固体支撑物上的亲和结合伴侣。在一些方面中，亲和元件与固体支撑物上的亲和结合伴侣(共价地或非共价地)结合，提供固体支撑物结合的转座体复合物。在一些方面中，接头是可切割的接头。这些复合物是3’接头转座体复合物和支撑物结合的3’接头转座体复合物。在一些实施方案中，亲和元件是生物素并且亲和结合伴侣是链霉亲和素。

在一个实施方案中，接头共价附接至第二转座子的3’末端。在一些实施方案中，接头共价附接至第二转座子末端序列的3’末端。例如，本文描述的接头可共价地并直接地附接第二转座子的3’末端羟基基团，从而形成-O-键联，或者可以通过另一个基团诸如磷酸盐或酯共价附接。或者，本文所述的接头可以共价附接至第二转座子或第二转座子末端序列的磷酸根基团，例如经由磷酸根基团共价附接至3’羟基，从而形成–O-P(O)₃-键联。

在一些实施方案中，本文描述的转座体复合物经由接头固定至固体支撑物。在一些此类的实施方案中，亲和元件是生物素并且固体支撑物包含链霉亲和素。在一些其它的实施方案中，固体支撑物包含珠粒或者是珠粒。在一个实施方案中，珠粒是顺磁性珠粒。

在一些实施方案中，接头和亲和元件具有式(I)的结构：

其中：

AE是亲和元件；

Y是C_2-6亚烷基；

X¹是O、NR¹或S；

其中R¹是H或C_1-10烷基；

n是选自1、2、3、4、5和6的整数；

X²是O、CH₂或S；

R^a是H或-OH；和

当R^a是H时Z不存在，或当R^a是H或OH时Z是CH₂；

其中标记了与第二转座子的连接点。

在式(I)的一些实施方案中，AE是任选取代的生物素或氨基基团。在其它实施方案中，AE是任选取代的生物素。在此类实施方案中，生物素被C_1-4烷基任选取代。在其它实施方案中，AE是生物素。

在式(I)的一些实施方案中，Y是C_2-6亚烷基。在其它实施方案中，Y是C_2-5亚烷基。在其它实施方案中，Y是C_2-4亚烷基。在其它实施方案中，Y是C_2-3亚烷基。在其它实施方案中，Y是未分支化的亚烷基。在其它实施方案中，Y是C₂亚烷基。在其它实施方案中，Y是C₃亚烷基。在其它实施方案中，Y是C₄亚烷基。在其它实施方案中，Y是亚乙基。在其它实施方案中，Y是亚丙基。在其它实施方案中，Y是亚丁基。

在式(I)的一些实施方案中，X¹是NR¹，其中R¹是H或C_1-10烷基。在一些此类的实施方案中，R¹是H。在一些实施方案中，R¹是C_1-3烷基。在其它实施方案中，X¹是O。在其它实施方案中，X¹是S。

在式(I)的一些实施方案中，n是1。在其它实施方案中，n是2。在其它实施方案中，n是3。在其它实施方案中，n是4。

在式(I)的一些实施方案中，X²是CH₂。在一些其它的实施方案中，X²是O。在其它实施方案中，X²是S。

在式(I)的一些实施方案中，R^a是H。在其它实施方案中，R^a是–OH。

在式(I)的一些实施方案中，Z不存在并且R^a是H。在一些实施方案中，Z是CH₂并且R^a是H。在一些实施方案中，Z是CH₂并且R^a是OH。

在一些实施方案中，接头和亲和元件具有式(I’)的结构：

其中AE、Y、X¹、n、X²如本文对式(I)所定义，并且Z不存在或是CH₂。

在一些实施方案中，接头和亲和元件具有式(Ia)的结构：

其中X¹、n、X²、R^a和Z如本文对式(I)所定义。在一些实施方案中，R^a是H。

在一些实施方案中，接头和亲和元件具有式(Ib)的结构：

其中AE如本文对式(I)所定义；并且n是1或2。

在式(Ib)的一些实施方案中，AE是任选取代的生物素或氨基基团。在一些实施方案中，AE是生物素。

在一些实施方案中，接头和亲和元件具有式(Ic)的结构：

其中AE如本文对式(I)所定义；X²是O或CH₂；n是1或2；并且Z不存在或是CH₂。

在式(Ic)的一些实施方案中，AE是任选取代的生物素或氨基基团。在一些实施方案中，AE是生物素。在一些实施方案中，X²是O。在一些实施方案中，X²是CH₂。在一些实施方案中，n是1。在一些实施方案中，n是2。在一些实施方案中，Z不存在。在一些实施方案中，Z是CH₂。在一些实施方案中，n是1，X²是O并且Z不存在。在一些实施方案中，n是1、X²是CH₂并且Z是CH₂。

在一些实施方案中，接头和亲和元件具有选自以下的结构：

在一些实施方案中，接头和亲和元件具有结构(I(c))。

在一些实施方案中，衔接子序列包含引物序列。在一些实施方案中，引物序列是A14或B15引物序列。在一些实施方案中，引物序列是P5引物序列或P7引物序列。在一些实施方案中，转座酶是二聚体，每个单体与具有如本文所述的衔接子序列的转座子双链体结合，其中每个单体中的衔接子序列是相同的。在其中转座酶是二聚体的实施方案中，一个或两个单体包含将转座体复合物连接至固体支撑物的接头。每个单体包含具有衔接子序列的第一转座子。

固体支撑物

术语“固体表面”、“固体支撑物”和其他语法上的等价物是指适合于或可以被修改为适合于转座体复合物的附接的任何材料。如本领域技术人员所理解，可能的基材数量众多。可能的基材包括但不限于玻璃和改性的或官能化玻璃，塑料(包括丙烯酸树脂、聚苯乙烯及苯乙烯和其他材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯、TEFLON等)，多糖，尼龙或硝基纤维素，陶瓷，树脂，二氧化硅或基于二氧化硅的材料(包括硅和改性硅)，碳，金属，无机玻璃，塑料，光纤束，珠粒，顺磁性珠粒，以及各种其他聚合物。

在一些此类实施方案中，转座体复合物经由如本文所述的接头固定在固体支撑物上。在一些其它实施方案中，固体支撑物包括管、板孔、载片、珠粒或流动池或者它们的组合或者是管、板孔、载片、珠粒或流动池或者它们的组合。在一些另外的实施方案中，固体支撑物包括珠粒或者是珠粒。在一个实施方案中，珠粒是顺磁性珠粒。

在本文提出的方法和组合物中，转座体复合物固定化至固体支撑物。在一个实施方案中，固体支撑物是珠粒。适合的珠粒组合物包括但不限于塑料，陶瓷，玻璃，聚苯乙烯，甲基苯乙烯，丙烯酸聚合物，顺磁性材料，氧化钍溶胶，碳石墨，二氧化钛，胶乳或交联右旋糖酐如Sepharose、纤维素、尼龙、交联胶束和TEFLON，以及本文所述的用于固体支撑物的任何其他材料。在某些实施方案中，微球是磁性微球或珠粒，例如顺磁性颗粒、球体或珠粒。珠粒不必是球形的；可以使用不规则的颗粒。可替代地或另外地，珠粒可以是多孔的。珠粒尺寸范围从纳米如100nm到毫米如1mm，其中珠粒为约0.2微米至约200微米是优选的，并且约0.5至约5微米是特别优选的，尽管在一些实施方案中，可以使用更小或更大的珠粒。珠粒可以涂覆有亲和结合伴侣，例如珠粒可以是链霉亲和素涂覆的。在一些实施方案中，珠粒是链霉亲和素涂覆的顺磁性珠粒，例如，Dynabeads MyOne链霉亲和素C1珠粒(ThermoScientific目录号65601)，链霉亲和素MagneSphere顺磁性颗粒(StreptavidinMagneSphere Paramagnetic particles，Promega目录号Z5481)，链霉亲和素磁珠(NEB目录号S1420S)和Max珠粒链霉亲和素(Abnova目录号U0087)。固体支撑物也可以是载片，例如流动池或其他已被修饰的载片，使得转座体复合物可以固定其上。

在一些实施方案中，亲和结合伴侣以1000至约6000pmol/mg，或约2000至约5000pmol/mg，或约3000至约5000pmol/mg或约3500至约4500pmol/mg的密度存在于固体支撑物或珠粒上。

在一个实施方案中，固体表面是样品管的内表面。在一个实例中，样品管是PCR管。在另一个实施方案中，固体表面是捕获膜。在一个实例中，捕获膜是生物素捕获膜(例如，可从Promega Corporation获得)。在另一个实例中，捕获膜是滤纸。在本公开的一些实施方案中，固体支撑物包括惰性基材或基质(如玻璃载片、聚合物珠粒等)，所述惰性基材或基质已例如通过施加包含允许共价附接至分子(如多核苷酸)的反应性基团的中间材料的层或涂层而官能化。此类支撑物的实例包括但不限于在惰性基材(如玻璃)上支撑的聚丙烯酰胺水凝胶，特别是如WO 2005/065814和US 2008/0280773中所述的聚丙烯酰胺水凝胶，其内容通过引用整体并入本文。在WO 2016/189331和US 2014/0093916 A1(其通过引用整体并入本文)中描述了在固体表面上标签片段化(片段化和标记)DNA以构建标签片段化的DNA文库的方法。

本公开的一些其它实施方案涉及包含如本文所述的固定其上的转座体复合物的固体支撑物，其中接头和亲和元件具有如本文所述的式(I)、式(I’)、式(Ia)、式(Ib)、式(Ic)、式(I(a))、式(I(b))或式(I(c))的结构。在一些实施方案中，本文描述的转座体复合物经由亲和元件固定至固体支撑物。在一些此类的实施方案中，固体支撑物包含链霉亲和素作为亲和结合伴侣并且亲和元件是生物素。在一些其它实施方案中，固体支撑物包含珠粒或者是珠粒。在一个实施方案中，珠粒是顺磁性珠粒。

在一个实施方案中，转座体复合物以特定的密度或密度范围固定于固体支撑物(如珠粒)上。珠粒上的复合物的密度，如该术语在本文中所用，是指在固定反应过程中的溶液中的转座体复合物的浓度。复合物密度假定固定反应是定量的。一旦复合物以特定密度形成，该密度对于一批表面结合的转座体复合物保持恒定。可以稀释所得的珠粒，并且在稀释的溶液中得到的复合物浓度是珠粒的制备密度除以稀释因子。稀释的珠粒原料保留其制备中的复合物密度，但复合物在稀释溶液中以较低的浓度存在。稀释步骤不会改变珠粒上复合物的密度，并因此影响文库产量但不影响***物(片段)尺寸。在一些实施方案中，密度为约5nM至约1000nM，或为约5至150nM，或为约10nM至800nM。在其它实施方案中，密度为约10nM、或约25nM、或约50nM、或约100nM、或约200nM、或约300nM、或约400nM、或约500nM、或约600nM、或约700nM、或约800nM、或约900nM、或约1000nM。在一些实施方案中，密度是约100nM。在一些实施方案中，密度是约300nM。在一些实施方案中，密度是约600nM。在一些实施方案中，密度是约800nM。在一些实施方案中，密度是约100nM。在一些实施方案中，密度是约1000nM。

在一些实施方案中，固体支撑物是珠粒或顺磁性珠粒，并且每个珠粒结合有大于10,000、20,000、30,000、40,000、50,000或60,000个转座体复合物。

不同密度的固体支撑物结合的转座体复合物产生不同长度(如不同的***物尺寸)的片段。例如，如图7A、7B和7C所示，变化的复合物密度导致不同的***物尺寸。***物尺寸可以是约50bp至约1000bp，或约100至约600bp，或约175至约200bp，或约500bp。

制备经修饰的寡核苷酸和经固定化的转座体复合物的方法

本发明还提供了制备如本文所述的经修饰的寡核苷酸、转座体复合物和固体支撑物结合的转座体复合物的方法。在这些方面，此类方法包括在适于形成复合物的条件下，用如本文所述的第一和第二转座子处理转座酶。用于制备固体支撑物结合的转座体复合物的方法包括在足以使亲和元件与亲和结合伴侣(共价地或非共价地)结合的条件下，将如本文所述的转座体复合物与包含亲和结合伴侣的固体支撑物孵育。

在一些实施方案中是制备经修饰的寡核苷酸的方法。在一些方面中，制备具有接头连接至亲和元件的经修饰的寡核苷酸的方法是本领域已知的。本文考虑的某些方法包括使包含第一反应性官能团(L-FG1)的接头(或可切割的接头)试剂与包含第二反应性官能团(N-FG2)的核苷酸进行反应，从而第一和第二反应官能团反应形成在接头和核苷酸之间具有共价键(CB)的(L-(CB)-N)接头核苷酸产物。在一些实施方案中，接头试剂包含AE部分(AE-接头-FG1)。在其它实施方案中，接头试剂包含接头结构的一部分，并且通过第二偶联反应安装AE以产生完整的AE-接头结构。

第一反应性官能团可以是，例如羧基、活化的羧基(诸如酯、NHS酯、酰基卤、酸酐等)、叠氮基、炔烃、甲酰基或氨基。在一些实施方案中，第一反应性官能团是活化的羧基，优选NHS酯。

第二反应性官能团可以在核苷酸的任何适合的位置处。在一些实施方案中，第二反应性官能团位于核苷酸的3’羟基位置或5”磷酸根位置处，代替天然取代基或经由系链附接其上，诸如亚烷基或亚杂烷基基团，或在核苷酸羟基的情况下的磷酸根基团。在一些实施方案中，第二反应性官能团包含C_2-10-烷基氨基基团。在一些实施方案中，第二反应性官能团包含己基氨基基团。在一些实施方案中，第二反应性官能团是–OP(O)₃-(CH₂)₆-NH₂。在第一实施方案中，第二反应性官能团经由磷酸根系链通过核苷酸的3’羟基与核苷酸连接。

在附接接头之前，经修饰的核苷酸可以是寡核苷酸的一部分，在这种情况下，核苷酸可以是，例如在寡核苷酸的3’末端或5’末端处。可替代地，接头首先附接至核苷酸，并且经修饰的核苷酸用作通过标准方法合成寡核苷酸的原料。

在一些实施方案中，式(I)的接头连接至核苷酸诸如胞苷的3’位置。在一些实施方案中，制备经修饰的核苷酸的方法包括使式(II)的化合物与式(III)的化合物反应：

其中AE、Y、n、X²、R^a和Z如本文所定义；

-C(O)X³是活化酯，诸如酯、酰基卤、酯酸酐或NHS酯；并且

X⁴是–OH或–NH₂基团；

以形成[式(I)]-核苷酸的化合物。

在一些实施方案中，式(II)的化合物是AE-(CH₂)₄C(O)-O-NHS并且式(III)的化合物是H₂N-(CH₂)₆-OP(O)(O^-)O-核苷酸，，并且产物是AE-(CH₂)₄C(O)-NH-(CH₂)₆-OP(O)(O^-)O-核苷酸。在一些实施方案中，磷酸根被连接于核苷酸如胞苷的3’羟基基团处。在一些实施方案中，[式(I)]-核苷酸(或AE-(CH₂)₄C(O)-NH-(CH₂)₆-OP(O)(O^-)O-核苷酸)的化合物与另外的核苷酸反应以形成[式(I)]-寡核苷酸(或AE-(CH₂)₄C(O)-NH-(CH₂)₆-OP(O)(O^-)O-寡核苷酸)。在一些实施方案中，第二转座子是[式(I)]-寡核苷酸(或AE-(CH₂)₄C(O)-NH-(CH₂)₆-OP(O)(O^-)O-寡核苷酸)。

本公开还涉及使用本文所述的经修饰的寡核苷酸制备转座体复合物的方法。此类方法包括混合如本文所定义的转座酶、第一转座子和第二转座子，其中第一转座子和第二转座子末端序列彼此退火以形成转座体复合物。如本文所述，第一转座子和第二转座子中的一个包含亲和元件(在第一转座子的情况下在5’末端处；在第二转座子的情况下在3’末端处)。在一些实施方案中，该方法还包括将亲和元件结合至包含亲和结合伴侣的固体支撑物。结合可以在转座体复合物形成之前或之后进行。

制备测序片段–扩增经标记的片段

在一些方面，提供了用于从靶核酸制备测序片段的方法，该方法包括提供包含如本文所述的转座体复合物的固体支撑物，所述转座体复合物如本文所述固定于固体支撑物上；在片段化目标核酸并连接第一转座子至片段的5’末端的条件下使固体支撑物与靶核酸接触，从而片段固定于固体支撑物上。在一些方面中，该方法还包括扩增经片段化的核酸。在一些实施方案中，片段化条件是通过使用转座体复合物以片段化并标记靶核酸而适于标签片段化的条件。

在本文所述的方法的一些实施方案中，在片段化和标记之后，该方法还包括从5’标记的靶片段中去除转座酶以提供非复合的5’标记的靶片段。转座酶的去除可以在化学条件下完成，例如用变性剂如十二烷基硫酸钠(SDS)处理。此类方法还可以包括产生5’标记的靶片段的完全双链体化形式。生成完整的双链体可包括从5’标记的靶片段去除退火(但未连接)的第二转座子(AE-接头-第二转座子)，并延伸5’标记的靶片段以生成完全双链体化的5’标记的靶片段。例如，通过将未复合的5’标记的靶片段加热到足以选择性地使第二转座子变性的温度，使片段的剩余双链体区域保持完整，可以用来完成生成。延伸可以在dNTP和适合的聚合酶存在下完成。或者，通过在单核苷酸(dNTP)和聚合酶存在下孵育未复合的5’标记的靶片段，可以在一个反应中完成生成。在一些实施方案中，孵育包括在足以使退火的第二转座子变性并使剩余的双链体延伸的一个或多个温度下进行加热。在其它实施方案中，聚合酶是链置换聚合酶，其用于去除第二转座子并延伸剩余的双链体以生成完全双链体化的5’标记的靶片段。适合的聚合酶包括KAPA HiFi、Pfu和类似的酶。适合的聚合酶包括链置换聚合酶诸如Bst、Bsu Vent、Klenow和类似的酶。

在一些方面，该方法还包括扩增完全双链体化的5’标记的靶片段。扩增可以通过任何适合的扩增方法诸如聚合酶链式反应(PCR)、滚环扩增(RCA)或多重置换扩增(MDA)来完成。在一些实施方案中，扩增通过PCR完成。在一些实施方案中，通过在聚合酶存在下与dNTP反应，在一个反应步骤中完成扩增和延伸。

在一些实施方案中，扩增用于将一条或多条二级衔接子序列添加至完全双链体化的5’标记的靶片段以形成测序片段。通过在足以扩增靶片段并合并入二级衔接子载体(或其互补序列)的条件下，将在每个末端处包含引物序列的完全双链体化的5’标记的靶片段与二级衔接子载体、单核苷酸和聚合酶一起孵育来完成扩增，其中二级衔接子载体包含引物序列的互补序列和二级衔接子序列。

在一些实施方案中，二级衔接子载体包含引物序列、索引序列、条形码序列、纯化标签或其组合。在一些实施方案中，二级衔接子载体包含引物序列。在一些实施方案中，二级衔接子载体包含索引序列。在一些实施方案中，二级衔接子载体包含索引序列和引物序列。

在一些实施方案中，完全双链体化的5’标记的靶片段在每个末端处包含不同的引物序列。在此类实施方案中，每个二级衔接子载体包含两条引物序列中的一条的互补序列。在一些实施方案中，两条引物序列是A14引物序列和B15引物序列。

在一些实施方案中，通过扩增添加多个二级衔接子。在一些实施方案中，二级衔接子载体各自包含两条引物序列中的一条。在一些实施方案中，二级衔接子载体各自包含多条索引序列中的一条。在一些实施方案中，二级衔接子载体包含具有P5引物序列的二级衔接子和具有P7引物序列的二级衔接子。

在一些实施方案中，测序片段沉积在流动池上。在一些实施方案中，测序片段杂交至接枝于流动池或表面的互补引物。在一些实施方案中，测序片段的序列由阵列测序法或下一代测序法如边合成边测序来检测。

P5和P7引物用于Illumina公司出售的商业流动池的表面上，用于在各种Illumina平台上进行测序。引物序列描述于美国专利公布No.2011/0059865 A1中，其通过引用整体并入本文。P5和P7引物的实例，可以是在5’末端终止的炔烃，包括以下：

P5：AATGATACGGCGACCACCGAGAUCTACAC(SEQ ID NO.1)

P7：CAAGCAGAAGACGGCATACGAG*AT(SEQ ID NO.2)

及其衍生物。在一些实例中，P7序列包含在G*位置处的经修饰的鸟嘌呤，如8-氧代-鸟嘌呤。在其他实例中，*表示G*和相邻的3’A之间的键是硫代磷酸根键。在一些实例中，P5和/或P7引物包括非天然接头。任选地，P5和P7引物中的一个或两个可以包含聚T尾。聚T尾通常位于如上所示的序列的5’末端，如在5’碱基和末端炔烃单元之间，但在一些情况下可位于3′末端。聚T序列可以包含任何数量的T核苷酸，例如2至20。虽然P5和P7引物是作为实例给出，但是应该理解，可以在本文提供的实例中使用任何适合的扩增引物。

在一些实施方案中，该方法的扩增步骤包括PCR或等温扩增。在一些实施方案中，该方法的扩增步骤包括PCR。

附图描述

图1说明了制备转座体复合物并通过与第一转座子的5’末端连接的亲和元件将它们固着在固体表面(诸如珠粒)上的方法的示例性步骤。在该实例中，退火的第一和第二转座子的两个群体(130a和130b)(寡核苷酸包含退火的双链区(包含转座子末端序列)和单链区)，其中在每个群体中第一转座子在5’末端处包括两条衔接子序列中的一条和亲和元件(110，其中*表示亲和元件)诸如生物素。例如，生成包含两条衔接子序列(如，引物序列如A14和B15)的多个生物素化的第一转座子和第二转座子。如所述，将被转移到模板核酸中的双链体转座子序列的链是第一转座子，其具有亲和元件(如，生物素)。在步骤115中，每个群体的寡核苷酸(130a和130b)通常在单独反应中与转座酶单体诸如Tn5(135)复合，以产生转座体复合物(140)的两个离散群体，所述群体各自具有不同的衔接子序列(如，引物序列如A14和B15)。在形成两个复合物群体之后，它们被固定于基材上，在该实施例中为珠粒(120)。在一些实施方案中，在固定之前将两个群体组合，产生包含来自每个群体的复合物的固体表面或珠粒。在其它实施方案中，两个群体分别是经固定化的，产生两个固体表面或珠粒，其各自包含两种复合物类型中的一种。在转座体复合物形成之后，转座体140与涂覆有亲和结合伴侣诸如链霉亲和素的表面145结合。

图2举例说明在使用本文所述的5’接头策略固定转座体后，在珠粒表面上标签片段化和文库制备过程200。过程200中显示的是珠粒205，其上结合有转座体140。将DNA 210添加至珠粒的样品。当DNA 210与转座体140接触时，DNA经标签片段化(片段化并标记)并经由转座体140结合至珠粒205。已结合并且标签片段化的DNA可以经PCR扩增以产生无珠粒扩增子215的汇集物。PCR步骤可用于合并入二级衔接子序列，诸如引物序列(如，P5和P7)。扩增子215可以例如通过移植至或杂合至流动池表面上的互补引物，转移至流动池220的表面。可以使用簇生成方案(如，桥扩增方案或可以用于簇生成的任何其它扩增方案)来在流动池的表面上生成多个簇225。簇是标签片段化的DNA的克隆扩增产物。簇现已准备好进行测序方案中的下一步。珠粒表面上的标签片段化过程的一个实例详细描述于PCT公布No.WO2016/189331中，其通过引用整体并入本文。

图3说明了使用5’连接的转座体复合物时可能出现的问题。步骤300图示说明了固定在具有基因组DNA 315的珠粒305上的转座体复合物140的标签片段化过程，然后进行随后的扩增和靶富集，包括非靶核酸的捕获。标签片段化的基因组DNA的经固定化的文库在310中描述。其上具有标签片段化的DNA的链霉亲和涂覆的捕获珠粒可以使用包含例如5％SDS、100mM Tris-HCl(pH 7.5)、100mM NaCl和0.1％Tween 20的洗涤缓冲液进行洗涤(320)，从而使转座酶从转座体复合物变性。然后可以在洗涤步骤之后经由磁性捕获链霉亲和素涂覆的顺磁性颗粒(如，珠粒)去除上清液，并可以保留包含经固定化的标签片段化的文库的捕获珠粒，并使用100mM Tris-HCl(pH 7.5)、100mM NaCl、0.1％Tween 20进一步洗涤。结合的寡核苷酸在330延伸以形成具有完全互补性的结合双链体。

在340，经由热循环进行靶标扩增，以通过技术人员已知的方法扩增标签片段化的DNA。例如，有效扩增所需的PCR试剂的溶液(如，包含最少量的PCR缓冲液、脱氧核苷酸、二价阳离子和DNA聚合酶的混合物)和添加剂可以添加到含有珠粒的溶液中，并且与捕获珠粒结合的标签片段化的DNA可以通过本领域技术人员已知的方法来热循环(如10次热循环)扩增。在350，扩增的标签片段化的DNA可以任选地使用例如纯化柱(如，Zymo旋转柱)进行纯化并洗脱。扩增的标签片段化的DNA也可以使用SPRI或Ampure XP珠粒(Beckman Coulter)任选地进行纯化，纯化方法不限于本公开。

在步骤360，可以使用如NEXTERA快速捕获富集方案(Illumina)中描述的方案或任何其他靶标捕获方法来富集标签片段化的文库。从文库制备开始的生物素化基因组片段存在于扩增后混合物(370)中并且可以与生物素化的靶标探针(380)竞争，其在靶富集期间作为全基因组杂交探针。在这个阶段存在这些生物素化的基因组片段可能会损害富集效率。另外，生物素化基因组片段可以在PCR扩增期间通过聚合酶引发并延伸标签片段化反应中未消耗的游离生物素化衔接子而生成，从而将另外的脱靶捕获探针添加至靶富集步骤。

本公开提供了这一问题的数种解决方案。在本文所述的一种方法中，在亲和元件和第一转座子的衔接子序列之间包含一个或多个可切割的接头。一旦标签片段化完成并且标签片段化的核酸被扩增，可切割的接头可被切割，释放生物素化部分并最小化或消除脱靶捕获。这种修饰相对于其它基于珠粒的标签片段化方法，大幅且惊人地减少了脱靶捕获并改善了富集。其次，亲和元件移动到第二转座子的3’末端上方，并通过任选地可切割的接头附接。

图4图示了使用用可切割的接头固定于固体表面上的转座体复合物来片段化和标记DNA的方法400的步骤。参考图4，步骤410、420、430、440和450如图3所述(分别为310、320、330、340和350)，除了存在于扩增后混合物(470)中的生物素化基因组片段含有可切割的接头(如，包含一个或多个尿嘧啶的接头)。在步骤460中，通过使用适当的切割剂切割接头，将生物素从基因组片段切下。对于尿嘧啶实例，用尿嘧啶切割酶(例如，来自Epicenter的尿嘧啶DNA切除混合物)实现切割。在富集步骤480期间，脱靶基因组片段不再生物素化，并因此不像生物素化的靶探针(490)那样被捕获。以这种方式，与没有可切割的接头的5’连接方法相比，该方法减少了脱靶捕获并且提高了靶富集的效率。

在图5A中示出了使用在5’末端包含亲和元件诸如生物素的衔接子序列的基于珠粒的标签片段化方法。简言之，两种类型的衔接子寡核苷酸501和502的5’末端处的亲和元件用于将两个转座体群体附接至表面(如，一个具有A14衔接子序列且一个具有B15衔接子序列)。ME和ME’是转座子末端序列。标签片段化事件从靶核酸诸如基因组DNA产生5’标记的片段。如所示，一些片段包括在一条链的5’末端处的A14和在片段的另一条链的5’末端处的B15。片段通过扩增诸如PCR，任选地在二级衔接子载体的存在下延伸和/或反应，以制备任选地包含二级衔接子(如，引物序列如P5和P7，和/或索引序列，如下图所示)的完整的双链体或扩增子。当使用生物素/链霉亲和素时，亲和键在PCR期间断裂，将生物素化的片段扩增子留在溶液中，这可能使随后的富集努力复杂化。或者，在图5B中，亲和元件和接头的附接改为第二转座上的3’位置。在这种情况下，亲和元件和接头附接至互补转座子末端序列503(ME’序列)的3’末端。在该构型中，第一转座子501和502不包含亲和元件。通过这个过程，标签片段化事件创建了未标记的片段化基因组DNA，因为第一转座子(缺少亲和元件)被转移到该片段，并且亲和元件仅仅由于第二转座子杂交至第一转座子而连接。下面提供衔接子序列A14-ME、ME、B15-ME、ME’、A14、B15和ME：

A14-ME：5′-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG-3′(SEQ ID NO:3)

B15-ME：5′-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG-3′(SEQ ID NO:4)

ME’：5′-phos-CTGTCTCTTATACACATCT-3’(SEQ ID NO:5)

A14：5′-TCGTCGGCAGCGTC-3′(SEQ ID NO:6)

B15：5′-GTCTCGTGGGCTCGG-3’(SEQ ID NO:7)

ME：AGATGTGTATAAGAGACAG(SEQ ID NO.:8)

靶核酸

靶核酸可以是包括DNA、RNA、cDNA等的任何类型。例如，靶核酸可以处于各种纯化状态，包括纯化核酸。然而，核酸不需要完全纯化或根本不需要纯化，并且可以是生物样品的一部分，例如原始样品裂解物、体液、血液、血浆或血清，或者可以以其它方式与蛋白、其他核酸种类、其他细胞组分和/或任何其他污染物混合。在一些实施方案中，生物样品包括以与体内发现的大致相同的比例存在的核酸(诸如DNA)、蛋白、其他核酸物质、其他细胞组分和/或任何其他污染物的混合物。例如，在一些实施方案中，组分以与完整细胞中发现的比例相同的比例存在。由于本文提供的方法允许核酸或DNA通过标签片段化过程结合至固体支撑物，因此可以通过在标签片段化发生后洗涤固体支撑物来去除其它污染物。生物样品可包含例如粗细胞裂解物或全细胞。例如，以本文所述方法施加至固体支撑物的粗细胞裂解物不需要经历一个或多个传统上用于将核酸与其它细胞组分相分离的分离步骤。

因此，在一些实施方案中，生物样品不仅可以包含任何来源的纯化核酸，而且还可以包含血液、血浆、血清、淋巴液、粘液、痰液、尿液、***、脑脊液、支气管抽吸物、粪便和浸软组织、或其裂解物、或包含核酸或DNA材料的任何其他生物样本中存在的未纯化核酸。靶核酸可以来自组织样品、肿瘤样品、癌细胞或活检样品。

靶核酸可以来自任何物种，来自物种混合物。例如，靶核酸可以来自哺乳动物(诸如人类、狗、猫、牛、猪、绵羊或其他家养动物)，或其他物种诸如鱼、细菌、病毒、真菌或古细菌。核酸可以来自环境样品，诸如土壤或水。

在一些实施方案中，靶核酸是DNA。在一个此类实施方案中，DNA是双链的。在一些另外的实施方案中，双链DNA包含基因组DNA。在一些其他的实施方案中，靶核酸是RNA或其衍生物，或cDNA。

在一些实施方案中，在本文所述的标签片段化方法之前，处理生物样品(原始样品或提取物)以纯化靶核酸。在一些实施方案中，生物样品是原始样品或原始样品裂解物(如血液或唾液)。在一些实施方案中，处理方法包括提供原始样品、原始样品裂解物或预处理样品(如，血液或唾液样品)，将样品与裂解缓冲液和蛋白酶K混合，将混合物孵育以裂解样品中的细胞并从细胞中释放DNA，从而提供本文所述的标签片段化方法的一种或多种靶核酸。

原始样品或原始样品裂解物(诸如血液)中的组分，或在预处理样品(诸如在Oragene收集管中收集的唾液)中的添加剂(收集管中的稳定剂)，可能会抑制标签片段化反应。因此，本文提供了用于处理原始样品、原始样品裂解物或预处理样品的方法，以克服该问题。在一些实施方案中，该方法包括提供原始样品、原始样品裂解物或预处理样品(如，血液或唾液样品)，将样品与裂解缓冲液、蛋白酶K和DNA纯化珠粒(如，SPRI珠粒，包含羧基基团的珠粒，其中珠粒任选为磁性珠粒)混合，孵育混合物以裂解样品中的细胞并从细胞中释放DNA，从而捕获在DNA纯化中或SPRI珠粒上的DNA并将包含捕获的DNA的珠粒与混合物分离。该分离用于去除上清液中存在的潜在标签片段化抑制剂。该方法还包括任选地洗涤包含捕获的DNA的珠粒，并从珠粒中洗脱DNA以提供一种或多种靶核酸。

测序方法

本文提供的一些方法包括分析核酸的方法。此类方法包括制备靶核酸的模板核酸文库，从模板核酸的文库获得序列数据，并组装靶核酸的序列表示。在一些实施方案中，本文描述的方法可以用于下一代测序工作流程，包括但不限于边合成边测序(SBS)。例如，在Bentley等人,Nature 456:53-59(2008)，WO 04/018497；US 7,057,026；WO 91/06678；WO07/123744；US 7,329,492；US 7,211,414；US 7,315,019；US 7,405,281和US 2008/0108082(其各自通过引用并入本文)中描述了可以容易地适用于由方法本公开的方法产生的核酸文库的示例性SBS程序、流体***和检测平台。

一些SBS实施方案包括在将核苷酸合并入延伸产物中时检测所释放的质子。例如，基于检测释放质子的测序可以使用可从Ion Torrent(Guilford,CT，Life Technologies子公司)商购获得的电子检测器和相关技术，或US 2009/0026082 A1；US 2009/0127589 A1；US 2010/0137143 A1；或US 2010/0282617A1(其各自通过引用并入本文)中描述的测序方法和***。

另一种有用的测序技术是纳米孔测序(参见，例如，Deamer等人TrendsBiotechnol.18,147-151(2000)；Deamer等人Acc.Chem.Res.35:817-825(2002)；Li等人Nat.Mater.2:611–615(2003)，其公开内容通过引用并入本文)。本文描述的方法不限于所使用的任何特定类型的测序仪器。

实施例

以下实施例用于描述但不限制本文提供的公开内容。

实施例1：使用具有可酶促切割的核苷酸的接头进行的固体表面上的标签片段化

通过退火两组寡核苷酸(表示为SEQ ID NO:9-11(经修饰的A14-ME)中的任一个和SEQ ID NO:12-14中的任一个(经修饰的B15-ME))形成转座子，两者都跨越19个碱基嵌合末端(ME)序列(SEQ ID NO:8，以小写字母显示)与互补的嵌合末端序列(ME'；SEQ ID NO：5)碱基配对。由SEQ ID NO:9至SEQ ID NO:14表示的寡核苷酸经5’生物素化，以允许随后表面结合至链霉亲和素涂覆的顺磁性珠粒。通过在10mM Tris-HCl(pH 8.0)、1mM EDTA和25mMNaCl存在下将50μM各种生物素化的寡核苷酸与50μM ME’(SEQ ID NO:5)合并来制备退火的转座子，并于95℃加热10分钟并冷却至室温2小时。然后将退火的转座子与转座酶以2μM的最终浓度混合，并在37℃孵育过夜。

具有可切割的核苷酸部分的可切割的接头序列的实例提供于SEQ ID NO:9-14中。标记为SEQ ID NO:9-14的序列包含19个碱基嵌合末端(ME)序列(以小写字母显示)和读段1和读段2序列A14和B15(以斜体显示)。标记为SEQ ID NO:9和SEQ ID NO:12的序列在一系列胸腺嘧啶残基(粗体)后包含三个尿嘧啶核苷酸(加下划线)。类似地，标记为SEQ ID NO:10和SEQ ID NO:13的序列包含一系列胸腺嘧啶残基的3’处的三个尿嘧啶核苷酸。SEQ ID NO:11和SEQ ID NO:14在一系列胸腺嘧啶残基后含有一个尿嘧啶核苷酸。如本文所引用，胸腺嘧啶残基是可切割的接头的一部分，并用于将生物素连接至可切割的部分，所述部分是转座子和/或衔接子序列的5’。在一些实施方案中，可切割的接头包含1-10个可切割的尿嘧啶核苷酸。在一些实施方案中，可切割的接头包含至少一个可切割的尿嘧啶核苷酸。在一些实施方案中，可切割的接头包含2、3、4、5、6、7、8、9或10个可切割的尿嘧啶核苷酸。SEQ ID NO:8是19个碱基嵌合末端(ME)序列，并且SEQ ID NO:5是其互补序列。

SEQ ID NO:9(经修饰的A14-ME#1)

5’生物素-

SEQ ID NO:10(经修饰的A14-ME#2)

5’生物素-

SEQ ID NO:11(经修饰的A14-ME#3)

5’生物素-

SEQ ID NO:12(经修饰的B15-ME#1)

5’生物素-

SEQ ID NO:13(经修饰的B15-ME#2)

5’生物素-

SEQ ID NO:14(经修饰的B15-ME#3)

5’生物素-

一旦转座体形成，转座体被固着至链霉亲和素涂覆的珠粒。然后用在HT1缓冲液(Illumina)中的转座体的稀释溶液来洗涤珠粒。HT1含有生物素-链霉亲和素结合至珠粒所需的高盐。将珠粒与转座体孵育，同时在混合器上混合1小时。混合后，将珠粒重新混悬于含有15％甘油和其它缓冲剂(如Tris)的储备缓冲液中。

接着，进行标签片段化。例如，将标签片段化溶液添加至含有经固定化的转座体的样品，并于55℃孵育约15分钟。标签片段化反应包含DNA(如，约50pg至5μg DNA)和标签片段化缓冲液。在一个实例中，标签片段化缓冲液包含发生标签片段化反应所必需的组分，例如包含10mM Tris乙酸盐(pH 7.6)、5mM乙酸镁和10％二甲基甲酰胺的缓冲液，如美国专利No.9,080,211、9,085,801和9,115,396中所述，它们各自通过引用并入本文。生成标记的DNA片段的经固定化的文库。

实施例2：标签片段化的DNA的PCR扩增和酶促切割

如实施例1所述，将在其上具有标签片段化的DNA的链霉亲和素涂覆的捕获珠粒用包含5％SDS、100mM Tris-HCl(pH7.5)、100mM NaCl和0.1％Tween 20的洗涤缓冲液进行洗涤(例如，洗涤三次)，从而使转座酶从转座体复合物变性。在洗涤步骤之后经由磁性捕获链霉亲和素涂覆的顺磁性颗粒(如，珠粒)去除上清液，并保留包含经固定化的标签片段化的文库的珠粒，并且用100mM Tris-HCl(pH 7.5)、100mM NaCl和0.1％Tween 20进一步洗涤。

DNA片段的空位填充(以填充ME’序列的5’末端和片段的3’末端之间的空位(参见，如图5B)通过添加例如NEM混合物(NEXTERA快速捕获试剂盒，Illumina)并在72℃下孵育3min来进行。

经由热循环进行靶扩增以通过技术人员已知的方法扩增标签片段化的DNA。在一些实例中，将PCR试剂(如预混物(例如，NEM混合物(NEXTERA快速捕获试剂盒，Illumina)，其包含最少量的PCR缓冲液、脱氧核苷酸、二价阳离子、DNA聚合酶))和有效扩增所需的添加剂的溶液添加至珠粒，并通过热循环(如10次热循环)扩增与珠粒结合的标签片段化的DNA。

将含有扩增的标签片段化的DNA的上清液从反应室中取出并转移到新的反应室(如，管、孔等)。用一种或多种酶处理扩增的片段混合物，所述酶切割可切割的接头中的碱基。可以使用许多已知的核苷酸主链断裂酶中的任一种来消化脱靶产物以防止与基因组的脱靶杂交。适合的酶的实例包括但不限于尿嘧啶DNA糖基化酶(UDG，还被称为UNG)、甲酰氨基-嘧啶DNA糖基化酶(Fpg)、RNAseH、Endo IV、Endo VIII、Klenow或腺苷三磷酸双磷酸酶。

使用SPRI或Ampure XP珠粒(Beckman Coulter)将扩增的标签片段化的DNA进行纯化，纯化方法不限于本公开。标签片段化的文库可以使用如NEXTERA快速捕获富集方案(Illumina)或任何其他靶标捕获方法中描述的方案来富集。经富集的DNA文库现已准备好进行测序。

实施例3：使用含有尿嘧啶的可切割的接头的酶促裂解的读段富集

简言之，对于每种测试条件，使用50ng NA12878基因组DNA(Coriell Institute)。根据制造商的推荐，作为对照反应，将DNA标签片段化并且根据NEXTERA快速捕获富集(Illumina)方案制备并富集文库。使用含尿嘧啶的可切割的接头SEQ ID NO:9和SEQ IDNO:13。

简言之，每个50μL反应物含有5X标签片段化缓冲液、50ng DNA、5μL的250nM的具有SEQ ID NO:9和SEQ ID NO:13中所述的可切割的尿嘧啶接头的转座体缀合的Dynal顺磁性珠粒(Life Technologies)。将反应物于55℃孵育15分钟，然后添加15μL终止标签片段化(ST)缓冲液，然后在室温下再孵育5分钟。将样品置于磁体上并去除上清液。将珠粒再混悬于50μL NEM(Illumina)中并于72℃孵育5分钟，然后冷却至10℃。将样品置于磁体上，并去除上清液并在HT2洗涤缓冲液(Illumina)中洗涤。

通过添加40μL EPM、各10μL索引引物(如，P5’-索引-A14’和P7’-索引-B15’)和水来制备PCR反应物。PCR扩增如下进行：72℃持续3分钟；98℃持续30秒，接着10个循环的98℃持续10秒；65℃持续30秒；72℃持续60秒。将PCR产物用5μL USER酶混合物(1U/μl-NEB部件号M5505L)处理，并于37℃孵育30分钟，然后根据制造商的建议，使用基于SPRI(固相可逆固定化)的顺磁性AMPure XP珠粒(Beckman Coulter目录号A63880)进行尺寸选择。首先，将100μL用户处理的PCR产物与55μL水和105μL顺磁性珠粒混合。将样品离磁5分钟，在磁体上放置5分钟，然后去除上清液至第二尺寸选择(250μL上清液+30μl顺磁性珠粒)。将珠粒在80％乙醇中洗涤，空气干燥，并在25μl RSB(Illumina)中洗脱。

根据NEXTERA快速捕获富集试剂盒的方案，按照制造商的推荐(Illumina)，使用TruSight One探针组(Illumina)进行USER酶处理的尺寸选择的样品的富集。根据制造商的推荐(Illumina)，将样品在HiSeq 2500上测序。

表1：使用可切割接头的酶促切割进行的读段富集

测试条件	读段富集百分比
		基于溶液的标签片段化和富集	70.4
尿嘧啶接头(-酶)	45.0
		尿嘧啶接头(+酶)	67.4

如表1所示，实施基于溶液的标签片段化和富集(如，NEXTERA快速捕获)导致70％的读段富集。使用经由含有尿嘧啶的接头但没有酶促切割处理固着至珠粒的转座体，读段富集百分比显著低于45％。然而，当接头中的尿嘧啶经由酶促处理切割时，富集增加至67％，从而重新捕获富集至非固定化或基于溶液的标签片段化和富集的水平。

实施例4：在有和没有酶促裂解尿嘧啶接头的情况下的6-重和12-重外显子富集

以下实施例展示了与TruSeq快速外显子组试剂盒(Illumina)相比，使用5个胸腺嘧啶(5T)的接头与在没有酶促裂解的情况下的2个胸腺嘧啶和3个尿嘧啶(2T3U)的接头和在有酶促裂解的情况下(2T3U+ENZ)相比的外显子组富集实验。

除了使用7.5μL转座体固定化的珠粒并且省略了空位填充步骤之外，实验程序如实施例3所述。使用TruSeq快速外显子试剂盒(Illumina)进行富集。根据制造商的推荐(Illumina)在HiSeq 2500上进行测序。

表2：使用酶促切割接头的外显子读段富集

如表2所示，只有具有酶促切割的2T3U接头显示出与使用TruSeq快速外显子试剂盒(Illumina)或标准基于表面的标签片段化(用5T残基)的基于溶液的NEXTERA相当的富集度量。

实施例5：5’和3’生物化衔接子寡核苷酸方法的比较

某些基于珠粒的标签片段化方法使用衔接子序列，其在5’末端生物素化，如图5A所示。简言之，5’生物素化的衔接子寡核苷酸501和502将转座体附接至表面。标签片段化事件产生5’生物素化的片段化全基因组DNA，其可污染后续的富集步骤。在一个实施方案中，生物素的附接被改变为互补链(第二转座子)上的3’位置，以将转座体附接至表面，如图5B所示。简言之，寡核苷酸501和502不含生物素。在该实施例中，生物素附接至互补链(ME’序列)上的转座子末端序列503。在该构型中，标签片段化事件创建了不含生物素的基因组DNA片段。

在另一个实施方案中，接头位于3’寡核苷酸503和生物素之间。这可以帮助减少可能在固体表面上发生的转座活性的任何空间位阻。

以下实施例说明具有式(I(a))的接头(甘油型接头)的3’生物素化的寡核苷酸在制备测序文库中的用途。根据制造商的推荐(Illumina)，作为对照反应，将DNA标签片段化，并且根据NEXTERA快速捕获富集方案制备并富集文库。遵循实施例3所述的实验方案，不同之处在于，使用Xgen Lockdown杂交捕获试剂盒方案(Integrated DNA Technologies,IDT)，使用Exome组，根据制造商推荐的方案富集标签片段化的扩增DNA。基本上，总体观察到不太理想的富集，因为使用次优的阻断寡核苷酸作为Xgen锁定试剂盒(Xgen lockdownkit)提供的推荐通用阻断寡核苷酸的替代物。然而，实验的关注点不需要最优的封闭探针，只需观察实验关注点的可测量变化的能力。不期望次优的阻断寡核苷酸影响实验的关注点。

表3：与基于溶液的标签片段化相比，3’生物素化的、3’-间隔子-生物素、5’生物素化的衔接子的读段富集百分比

测试条件	读段富集百分比
		基于溶液的标签片段化和富集	37.5
3’生物素	32.7
		3’生物素有接头	33.8
5’生物素基有尿嘧啶接头+酶促切割	9.2

如表3所示，与对照和3’生物素(有或没有接头)相比，5’生物素有尿嘧啶接头+酶促切割显示出显著更低的富集。5’生物素有尿嘧啶接头+酶促切割方法的较低读段富集可能是酶混合物不完全切割的结果。具有3’连接的实验示出实现了与基于溶液的对照相当的读段富集。

实施例6：制备P生物素化的珠粒用于小***物(150至200bp)

步骤1.退火转座子

将A14-ME和B15-ME各自退火至ME’-接头-生物素寡聚物(制备如下所述)，产生两个双链复合物，两者都具有由转座酶特异性识别的嵌合末端(ME)和用于PCR的A14或B15序列以添加二级衔接子。将A14-ME、B15-ME和ME’寡聚物重悬浮至200nM。在96孔PCR板中，将下表4中所示的制备物添加至2个孔中(1个孔用于A14:ME’并且1个孔用于B15-ME’)。将孔板置于95℃的热循环仪中持续10分钟，然后从热循环仪中取出并置于室温下的工作台上2小时。

表4.用于退火反应的制备条件(50μM)

退火反应	顶部衔接子	ME’	10xTEN	dH<sub>2</sub>O	总μL
						A14：ME’-接头-生物素	6.250	6.25	2.5	10.000	25
B15：ME’-接头-生物素	6.250	6.25	2.5	10.000	25

步骤2.转座体形成

将Tn5转座酶添加至上述退火的转座子，形成含有A14-ME/ME’-接头-生物素和B15-ME/ME’-接头-生物素复合物的转座体复合物。使用从前一步骤制备的退火寡核苷酸在96孔PCR板中建立下述反应。一个孔用于A14-ME，且一个孔用于B15-ME。将每个孔于37℃在热循环仪中孵育过夜，提供两个转座体复合物群体；然后将两个孔的内容物混合在一起。在混合步骤后，取出约220uL并添加至另一个孔中。添加约220uL标准储存缓冲液(总计440uL)。

表5.转座体形成条件

转座子	μL	标准储存缓冲液	50μM转座酶EZ-Tn5
				A14：ME’-接头-生物素	4.9	112.7μL	4.9μL
B15：ME’-接头-生物素	4.9	112.7μL	4.9μL

步骤3.链霉亲和素珠粒负载

将含有生物素键联的上述形成的转座体复合物添加至链霉亲和素珠粒。可以调节珠粒上的复合物的密度以控制标签片段化产物中的***物尺寸。将链霉亲和素珠粒混合均匀。将约200uL链霉亲和素珠粒放入1.5ml管中，并置于管状磁体上。将珠粒用1mL HT1洗涤两次，在洗涤之间，将珠粒重新悬浮并离心。在第二次洗涤后，将珠粒用600uL HT1完全重新悬浮。将400uL上述制备的转座体复合物与HT1一起添加至管中。将混合物在旋转混合器上混合1小时并置于磁体上，并去除上清液。将混合物重新悬浮于500uL的15％标准储存缓冲液中。在1000nM转座体复合物的存在下负载于珠粒，并将所得的1000nM密度的复合物稀释并以溶液中400nM的浓度进行储存。因此，储备溶液包含具有1000nM的复合物密度的珠粒，其被稀释至400nM浓度。稀释步骤不会改变珠粒上复合物的密度，而只改变储备溶液中复合物的最终浓度。

步骤4.标签片段化

将DNA样品标签片段化，以通过使用珠粒负载的转座体切割并添加转座子序列至DNA样品来制备片段。在96孔PCR板中，将5x Mg标签片段化缓冲液(10uL)、DNA(>50ng；10uL)、dH₂O(20uL)和转座体珠粒(按步骤3制备；10uL)合并。将混合物充分混合并于55℃孵育5分钟，然后于20℃孵育2分钟。通过用SDS处理使转座酶失活来终止标签片段化过程。添加10μL SDS并与来自上述步骤的反应混合物充分混合。然后将混合物于室温在工作台上孵育5分钟并置于磁力搅拌器上。一旦溶液变澄清，就去除上清液。

步骤5.洗涤终止标签片段化

将SDS从珠粒上洗掉以制备用于PCR的样品。停止标签片段化后，将反应混合物从磁体中移除，并添加100uL洗涤缓冲液。将样品以1600rpm涡旋20秒。然后将其再次置于磁力搅拌器上，并且一旦溶液变澄清，就去除上清液。重复洗涤步骤共三次。一旦洗涤完成后，就去除所有上清液，并从磁力搅拌器中移除样品。

步骤6.PCR

将来自步骤5的样品用识别A14和B15的引物进行PCR扩增，并添加二级衔接子。引物还包含索引序列和测序引物(P5和P7)。将表6中所示的预混物添加至每个样品孔中。将珠粒重新混悬于预混物中，并使用表7中所示的程序置于热循环仪中。该步骤用于在一个过程中去除未转移的/生物素化的链、延伸并扩增以引入P5和P7。

表6.PCR预混物

表7.热循环仪程序

72℃ 3min
	98℃ 3min
98℃ 20sec
	65℃ 30sec(9个循环)
72℃ 1min
	再重复前3步8次(总共9个循环)
72℃ 3mins
	保持于10℃

将样品从热循环仪中移除并置于磁力搅拌器上。然后将45μL样品从PCR板转移至MIDI板。将77uL水添加至MIDI板样品中，并将88μLAmpure SPRI珠粒添加至每种样品/水。将混合物充分混合，于室温孵育5分钟，然后置于磁力搅拌器上。一旦溶液变清，将200μL样品添加至同一MIDI板上的新孔。添加20μL Ampure SPRI珠粒，并将样品充分混合并于室温放置5分钟。然后将其再次置于磁力搅拌器上。

一旦溶液变澄清，取出上清液并丢弃。将板留在磁力搅拌器上，并添加至200μL80％乙醇，不扰动进行沉淀。随后去除乙醇。再重复乙醇洗涤步骤总共两次。一旦洗涤完成，用移液管去除任何过量的乙醇，同时将板置于搅拌器上。将样品于室温干燥5分钟。添加至27μl水并充分混合。将样品于室温放置2分钟并放回磁力搅拌器上。将25μl样品转移到干净的板上并于-20℃储存。

实施例7.A14-ME和B15-ME转座子

A14-ME和B15-ME转座子各自退火至含有3’生物素的ME’。将3’生物素偶联至ME’以形成3’-(I(a))和3’-(I(c))接头。使用NaCl缓冲液，退火反应在25μL体积中。将得到的双链转座子在过夜反应中于37℃与转座酶各自复合。在形成转座体复合物后，将A14和B15转座体复合物以相等的体积混合在一起，并以300nM的浓度装载至链霉亲和素珠粒上，以产生密度为300nM的结合的复合物。一旦附接至珠粒，将(I(a))和(I(c))的300nM密度的混合物进一步稀释至120nM的浓度。因此，珠粒的密度仍为300nM，但复合物在稀释溶液中的浓度为120nM。稀释步骤不会改变珠粒上复合物的密度，并因此影响文库产量但不影响***物尺寸。

将得到的两种类型的珠粒连接的转座体3’-(I(a))和3’-(I(c))于25℃储存28天和56天。阿仑尼乌斯(Arrhenius)方程估计这些被加速至4个月(28天)和8个月(56天)。在加速老化结束后，通过标签片段化和文库制备步骤获得两种类型的珠粒连接的转座体，以评估转座体的活性。

将珠粒连接的转座体复合物与基于镁的缓冲液一起添加至gDNA，并于55℃放置5分钟。一旦完成，将SDS缓冲液添加至反应物中，并使混合物于室温孵育5分钟。然后将混合物置于磁力搅拌器上并用NaCl和Tris缓冲液洗涤三次。洗涤后，将具有含索引序列的二级衔接子载体的PCR预混物添加至珠粒并完全重新悬浮。然后对样品进行PCR扩增以产生另外的扩增子。PCR后，进行SPRI净化以除去额外的载体。将样品在BioAnalyzer上运行以测量活性(文库制备方法的产量)。如图6A所示，比较来自使用具有式(I(a))(3’-(I(a))；甘油接头)和式(I(c))(3’-(I(c))；己基接头)的3’-生物素化接头的转座体复合物的基于链霉亲和素珠粒的固相标签片段化的文库产量。接头3’-(I(c))提供了显著的文库产量。接头3’-(I(a))提供了较低的产量，但仍具有可测序的产量。图中的LSC线是任意较低的规格限值。

图6B示出了与于4℃持续28天由相同接头的非老化对照制备的样品文库相比较，老化4个月(于25℃的加速储存条件下28天)使用具有3’-(I(a))接头的转座体复合物由基于链霉亲和素珠粒的固相标签片段化制备的样品文库的加速稳定性数据。图6C显示了与于4℃分别持续28天和56天由相同接头的非老化对照制备的样品库相比，老化4个月和8个月(于25℃的加速储存条件下28天和56天)后由具有3’-(I(c))接头的转座体复合物制备的样品文库的加速稳定性数据。

实施例8.A14-ME和B15-ME转座子

A14-ME和B15-ME转座子各自退火至含有3’生物素的ME’。3’生物素通过3’-(I(c))接头偶联至ME’。使用NaCl缓冲液，退火反应在25μl体积中进行。得到的双链转座子各自于37℃附接至过夜反应物中的转座酶。形成转座体后，将A14和B15转座体复合物以相等的体积混合在一起，并以各种密度(10nM至800nM)负载至链霉亲和素珠粒上。

将各种密度的珠粒连接的转座体与基于镁的缓冲液一起添加至gDNA，并置于55℃5分钟。一旦完成，将SDS缓冲液添加至反应物中并于室温孵育5分钟。然后将混合物置于磁力搅拌器上并用NaCl和Tris缓冲液洗涤三次。洗涤后，将具有含索引序列的二级衔接子载体的PCR预混物添加至珠粒并完全重新悬浮。然后对样品运行PCR反应以扩增片段。PCR后，以各种SPRI比率进行SPRI尺寸选择，得到不同的***物尺寸。将样品在BA和HiSeq 2500Rapid Output上运行以测量活性。

图7A显示了使用基于链霉亲和素珠粒的固相文库制备的DNA分子的目标***物尺寸作为珠粒密度的函数，其中珠粒包含通过3’-(I(c))结合其上的经固定化的转座体复合物。图7B显示了使用具有含高活性的Tn5转座酶和3’-(I(c))接头的经固定化的转座体复合物的链霉亲和素珠粒(其中复合物密度为100nM)时，DNA分子的靶***物尺寸作为SPRI条件的函数；并且图7C显示了使用具有含高活性的Tn5转座酶和3’-(I(c))接头的经固定化的转座体复合物的链霉亲和素珠粒(其中复合物密度为600nM)时，DNA分子的靶***物尺寸作为SPRI条件的函数。

实施例9.用于血液和唾液的综合提取方案

使用Flex裂解试剂试剂盒(Flex Lysis Reagent kit，Illumina，目录号20015884)处理新鲜全血。将新鲜全血收集到EDTA收集管中并在加工前储存在4℃。通过混合以下体积的每种样品来制备裂解预混物：7μl血液裂解缓冲液、2μl蛋白酶K和31μl无核酸酶水。对于每种样品，将10μl血液、40μl裂解预混物和20μl SPRI珠粒添加至到96孔PCR板的一个孔中，并通过吹打10次来混合。将板密封并在带有加热盖的热循环仪上于56℃孵育10分钟。然后将板置于板磁体上5分钟，弃去上清液，并添加150μl的80％乙醇。在磁体上孵育30秒后，弃去乙醇并从磁体上移除板。将珠粒重新混悬于30μl水中并准备用于文库制备。

将唾液收集在Oragene DNA唾液收集试管(Oragene DNA Saliva Collectiontubes，DNA Genotek，目录号OGR-500，OGD-510)中，将其于50℃孵育至少1小时以裂解细胞，然后通过涡旋充分混合。对于每种样品，将20μl水和30μl唾液添加至96孔PCR板的一个孔，并通过吹打缓慢混合。然后将20μl SPRI珠粒添加至样品孔，并通过吹打溶液10次将珠粒充分混合。将板于室温孵育5分钟，然后置于板磁体上5分钟。去除上清液，并向珠粒沉淀中添加至150μl的80％乙醇。然后将板在磁体上静置30秒，然后去除乙醇，然后从磁体上移除板。将珠粒重新混悬于30μl水中并准备用于文库制备。

已经描述了许多实施方案。然而，应理解，可以进行各种修改。因此，其它实施方案均在以下权利要求的范围内。

序列表

<110> ILLUMINA公司 (ILLUMNA, INC.)

伊鲁米纳剑桥有限公司 (ILLUMINA CAMBRIDGE LIMITED)

格雷斯·德桑蒂斯 (DeSantis, Grace)

史蒂芬·M·格罗斯 (Gross, Stephen M.)

李建森 (Li, Jian-Sen)

纳塔列·莫雷尔 (Morrell, Natalie)

安德鲁·斯莱特 (Slatter, Andrew)

沈奇 (Shen, Kevin)

萨曼莎·斯诺 (Snow, Samantha)

<120> 使用含接头的经固定化的转座体进行的标签片段化

<130> ILLINC.398WO

<150> 62/461620

<151> 2017-02-21

<160> 14

<170> FastSEQ for Windows Version 4.0

<210> 1

<211> 29

<212> DNA/RNA

<213> 人工序列 (Artificial Sequence)

<220>

<221>

<222>

<223> P5引物

<400> 1

aatgatacgg cgaccaccga gauctacac 29

<210> 2

<211> 24

<212> DNA/RNA

<213> 人工序列 (Artificial Sequence)

<220>

<221>

<222>

<223> P7引物

<400> 2

caagcagaag acggcatacg agat 24

<210> 3

<211> 33

<212> DNA/RNA

<213> 人工序列 (Artificial Sequence)

<220>

<221>

<222>

<223> A14-ME衔接子序列

<400> 3

tcgtcggcag cgtcagatgt gtataagaga cag 33

<210> 4

<211> 34

<212> DNA/RNA

<213> 人工序列 (Artificial Sequence)

<220>

<221>

<222>

<223> B15-ME衔接子序列

<400> 4

gtctcgtggg ctcggagatg tgtataagag acag 34

<210> 5

<211> 19

<212> DNA/RNA

<213> 人工序列 (Artificial Sequence)

<220>

<221>

<222>

<223> ME'衔接子序列

<400> 5

ctgtctctta tacacatct 19

<210> 6

<211> 14

<212> DNA/RNA

<213> 人工序列 (Artificial Sequence)

<220>

<221>

<222>

<223> A14衔接子序列

<400> 6

tcgtcggcag cgtc 14

<210> 7

<211> 15

<212> DNA/RNA

<213> 人工序列 (Artificial Sequence)

<220>

<221>

<222>

<223> B15衔接子序列

<400> 7

gtctcgtggg ctcgg 15

<210> 8

<211> 19

<212> DNA/RNA

<213> 人工序列 (Artificial Sequence)

<220>

<221>

<222>

<223> ME衔接子序列

<400> 8

agatgtgtat aagagacag 19

<210> 9

<211> 50

<212> DNA/RNA

<213> 人工序列 (Artificial Sequence)

<220>

<221>

<222>

<223> 经修饰的A14-ME #1

<400> 9

tttttttttt uuuacactcg tcggcagcgt cagatgtgta taagagacag 50

<210> 10

<211> 38

<212> DNA/RNA

<213> 人工序列 (Artificial Sequence)

<220>

<221>

<222>

<223> 经修饰的A14-ME #2

<400> 10

ttuuutcgtc ggcagcgtca gatgtgtata agagacag 38

<210> 11

<211> 38

<212> DNA/RNA

<213> 人工序列 (Artificial Sequence)

<220>

<221>

<222>

<223> 经修饰的A14-ME #3

<400> 11

ttttutcgtc ggcagcgtca gatgtgtata agagacag 38

<210> 12

<211> 47

<212> DNA/RNA

<213> 人工序列 (Artificial Sequence)

<220>

<221>

<222>

<223> 经修饰的B15-ME #1

<400> 12

tttttttttt uuugtctcgt gggctcggag atgtgtataa gagacag 47

<210> 13

<211> 39

<212> DNA/RNA

<213> 人工序列 (Artificial Sequence)

<220>

<221>

<222>

<223> 经修饰的B15-ME #2

<400> 13

ttuuugtctc gtgggctcgg agatgtgtat aagagacag 39

<210> 14

<211> 39

<212> DNA/RNA

<213> 人工序列 (Artificial Sequence)

<220>

<221>

<222>

<223> 经修饰的B15-ME #3

<400> 14

ttttugtctc gtgggctcgg agatgtgtat aagagacag 39

Claims

1.转座体复合物，其包含：

(i)转座酶，

(ii)第一转座子，其包含：

(a)3’部分，其包含第一转座子末端序列；和

(b)在所述第一转座子末端序列的5’末端处的第一衔接子序列；

(iii)第二转座子，其包含与所述第一转座子末端序列的至少一部分互补的第二转座子末端序列；和

(iv)接头，其附接至所述第一或第二转座子并包含亲和元件。

2.如权利要求1所述的复合物，其中所述接头在所述第二转座子的3’末端处附接至所述第二转座子。

3.如权利要求2所述的复合物，其中所述接头的第二末端附接至所述亲和元件。

4.如权利要求3所述的复合物，其中所述接头和亲和元件具有式(I)的结构：

其中：

AE是所述亲和元件；

Y是C_2-6亚烷基；

X¹是O、NR¹或S；

其中R¹是H或C_1-10烷基；

n是1至6的整数；

X²是O、CH₂或S；

R^a是H或-OH；并且

当R^a是H时Z不存在，或当R^a是H或OH时Z是CH₂；

其中标记了与所述第二转座子的连接点。

5.如权利要求4所述的复合物，其中式(I)中的磷酸根基团连接至所述第二转座子的末端核苷酸的3’羟基。

6.如权利要求4或权利要求5所述的复合物，其中AE包含任选取代的生物素或氨基基团或者是任选取代的生物素或氨基基团。

7.如权利要求6所述的复合物，其中AE是生物素。

8.如权利要求4-7中任一项所述的复合物，其中Y是C_2-6亚烷基、C_2-5亚烷基、C_2-4亚烷基或C_2-3亚烷基。

9.如权利要求8所述的复合物，其中Y是亚乙基、亚丙基或亚丁基。

10.如权利要求4-9中任一项所述的复合物，其中X¹是NR¹并且其中R¹是H或C_1-10烷基。

11.如权利要求10所述的复合物，其中R¹是H。

12.如权利要求4-11中任一项所述的复合物，其中n是1或2。

13.如权利要求4-12中任一项所述的复合物，其中X²是CH₂。

14.如权利要求4-12中任一项所述的复合物，其中X²是O。

15.如权利要求4-14中任一项所述的复合物，其中R^a是H并且Z不存在。

16.如权利要求4-14中任一项所述的复合物，其中R^a是H并且Z是CH₂。

17.如权利要求4-14中任一项所述的复合物，其中R^a是–OH并且Z是CH₂。

18.如权利要求4所述的复合物，其中所述接头和亲和元件具有式(I’)的结构：

其中Z不存在或者是CH₂。

19.如权利要求4所述的复合物，其中所述接头和亲和元件具有式(Ia)的结构：

20.如权利要求4所述的复合物，其中所述接头和亲和元件具有式(Ib)或式(Ic)的结构：

其中n是1或2；

X²是O或CH₂；和

Z不存在或是CH₂。

21.如权利要求4所述的复合物，其中所述接头和亲和元件具有选自以下的结构：

22.如权利要求1-21中任一项所述的复合物，其中所述转座酶是Tn5转座酶。

23.如权利要求22所述的复合物，其中所述Tn5转座酶是野生型Tn5转座酶或高活性的Tn5转座酶或者其突变体，其中所述转座酶任选地缀合至纯化标签。

24.如权利要求22或权利要求23所述的复合物，其中所述第一转座子末端序列和所述第二转座子末端序列是ME和ME’。

25.如权利要求1-24中任一项所述的复合物，其中所述第一衔接子序列包含引物序列。

26.如权利要求25所述的复合物，其中所述第一衔接子序列包含A14或B15。

27.第一如权利要求25所述的复合物，其中所述第一衔接子包含第一引物序列，以及第二如权利要求25所述的复合物，其中所述第一衔接子包含第二引物序列。

28.如权利要求27所述的复合物，其中所述第一引物序列包含A14并且所述第二引物序列包含B15。

29.包含第一转座子和第二转座子的经修饰的寡核苷酸，其中所述第一转座子包含(a)包含第一转座子末端序列的3’部分以及(b)在所述第一转座子末端序列的5’末端处的第一衔接子序列，并且所述第二转座子包含与所述第一转座子末端序列的至少一部分互补并与其退火的第二转座子末端序列，并且其中接头的第一末端附接至所述第二转座子的3’末端，并且所述接头的第二末端附接至亲和元件。

30.如权利要求29所述的经修饰的寡核苷酸，其中所述接头和所述亲和元件具有如权利要求1-28中任一项所述的式(I)、式(I’)、式(Ia)、式(Ib)、式(Ic)、式(I(a))、式(I(b))或式(I(c))的结构。

31.如权利要求1-28中任一项所述的复合物，其中所述亲和元件结合至固体支撑物上的亲和结合伴侣，从而所述复合物结合至所述固体支撑物。

32.如权利要求31所述的复合物，其中所述亲和元件是生物素并且所述亲和结合伴侣是链霉亲和素。

33.如权利要求31或32所述的复合物，其中所述固体支撑物是珠粒或顺磁性珠粒。

34.用于从双链靶核酸来生成标记的核酸片段的文库的方法，所述方法包括在足以将所述靶核酸片段化为多个靶片段并将所述第一转座子的3’末端连结至所述靶片段的5’末端以产生多个5’标记的靶片段的条件下，将所述靶核酸与结合的如权利要求31-33中任一项所述的复合物一起孵育。

35.如权利要求34所述的方法，其还包括扩增一个或多个所述5’标记的靶片段。

36.如权利要求35所述的方法，其中所述扩增包括生成和/或扩增完全双链体化的5’标记的靶片段。

37.如权利要求35或36所述的方法，其中所述扩增包括在足以扩增所述靶片段并合并入二级衔接子载体的条件下，将在每个末端处包含引物序列的至少一个完全双链体化的5’标记的靶片段与二级衔接子载体、单核苷酸和聚合酶一起孵育，其中所述二级衔接子载体包含所述引物序列的互补序列和二级衔接子序列，从而产生测序片段的文库。

38.如权利要求37所述的方法，其中所述二级衔接子载体包含引物序列、索引序列、条形码序列、纯化标签或它们的组合。

39.如权利要求38所述的方法，其中所述二级衔接子载体包含索引序列和引物序列。

40.如权利要求36-39中任一项所述的方法，其中所述完全双链体化的5’标记的靶片段在每个末端处包含不同的引物序列，任选地，其中所述不同的引物序列是A14和B15。

41.如权利要求38-40中任一项所述的方法，其中所述二级衔接子载体各自包含两条引物序列中的一条，任选地，其中所述两条引物序列是P5引物序列和P7引物序列，和多条索引序列中的一条。

42.如权利要求34-41中任一项所述的方法，其中所述片段与接枝至流动池或固体支撑物的互补引物杂交。

43.如权利要求34-42中任一项所述的方法，其还包括对所述5’标记的靶片段或其扩增产物中的一种或多种进行测序。

44.用于制备固体支撑物结合的转座体复合物的方法，所述方法包括在足以在转座体复合物中使所述转座酶与经修饰的寡核苷酸结合的条件下，用如权利要求29或30所述的经修饰的寡核苷酸处理转座酶。

45.如权利要求44所述的方法，其还包括在足以使所述亲和元件与亲和结合伴侣结合的条件下，将所述转座体复合物与包含亲和结合伴侣的固体支撑物一起孵育。

46.如权利要求1所述的转座体复合物，其中所述接头是可切割的接头。

47.如权利要求46所述的转座体复合物，所述可切割的接头附接至所述第一衔接子序列的5’末端。

48.如权利要求1所述的转座体复合物，其中所述接头附接至所述第一转座子的5’末端并且所述接头是可切割的接头。

49.如权利要求48所述的复合物，其中所述亲和元件结合至固体支撑物上的亲和结合伴侣。

50.如权利要求49所述的复合物，其中所述固体支撑物是管、板孔、载片、珠粒或流动池，任选地，其中固体支撑物是顺磁性珠粒。

51.如权利要求49或权利要求50所述的复合物，其中所述亲和元件是生物素，并且所述亲和结合伴侣是链霉亲和素。

52.如权利要求49-51中任一项所述的复合物，其中所述衔接子序列包含选自以下的一条或多条序列：通用序列、引物序列或测序相关的序列。

53.制备用于测序的样品的方法，其包括：

提供如权利要求49-52中任一项所述的复合物；

在适于标签片段化的条件下，将核酸施加至所述复合物，从而将所述靶核酸的片段固定至所述固体支撑物；

扩增经固定化的、标签片段化的核酸；

切割可切割的部分；和

富集靶向的扩增核酸，从而制备用于测序的样品。

54.如权利要求53所述的方法，其中所述可切割的接头包含光可切割的或酶促可切割的核苷酸，任选地，其中所述可切割的核苷酸是尿嘧啶、尿苷、8-氧代-鸟嘌呤、黄嘌呤、次黄嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶、胸腺嘧啶二聚体、7-甲基鸟苷、8-氧代-脱氧鸟苷、黄苷、肌苷、二氢尿苷、溴脱氧尿苷、尿苷或5-甲基胞苷，任选地，其中所述可切割的核苷酸是尿嘧啶。

55.如权利要求54所述的方法，其中所述切割用酶来完成，所述酶是(a)糖基化酶，任选地其中所述糖基化酶选自：尿嘧啶DNA糖基化酶、MUG、SMUG、TDG或MBD4，任选地其中所述糖基化酶是尿嘧啶DNA糖基化酶，或者是(b)无嘌呤/无嘧啶(AP)核酸内切酶，任选地其中所述AP核酸内切酶选自：Endo VIII、Endo IV或Endo V，任选地其中所述AP核酸内切酶是EndoVIII。

56.如权利要求53-55中任一项所述的方法，其中所述固体支撑物包含珠粒，任选地其中所述珠粒是顺磁性珠粒。

57.如权利要求53-56中任一项所述的方法，其中所述核酸是(a)DNA，任选地其中所述DNA是双链的，任选地其中所述双链DNA是基因组DNA，任选地其中所述基因组DNA选自包括以下的组：单细胞、组织、肿瘤、血液、血浆、尿液或无细胞核酸，或者(b)RNA或其衍生物或者cDNA。

58.如权利要求53-57中任一项所述的方法，其中所述扩增步骤包括PCR或等温扩增中的一种或多种，或者所述扩增步骤是PCR。

59.如权利要求53-58中任一项所述的方法，其中转座子序列还包含选自包括以下的组的一条或多条衔接子序列：通用序列、引物序列或测序相关的序列。