CN110248675A

CN110248675A - 利用竞争性链置换构建下一代测序(ngs)文库

Info

Publication number: CN110248675A
Application number: CN201880007147.XA
Authority: CN
Inventors: 扎卡里·茨威科; 郑俞; 米娜·贾罗斯; 陈采夫; 约瑟夫·瓦尔德
Original assignee: Synthetic Dna Technology Co
Current assignee: Synthetic Dna Technology Co
Priority date: 2017-01-27
Filing date: 2018-01-26
Publication date: 2019-09-17
Anticipated expiration: 2038-01-26
Also published as: CA3046617C; US10683542B2; JP2020505924A; ES2908704T3; EP3573646B1; WO2018140695A1; CN110248675B; CN118421620A; EP4008796B1; JP6982087B2; AU2018212756A1; HUE059100T2; EP3573646A4; CA3046617A1; AU2018212756B2; EP3573646A1; EP4008796A1; JP2021176310A; US20180216177A1; DK3573646T3

Abstract

本发明涉及用于全基因组测序、靶向重测序、基于测序的筛选测定、宏基因组学或需要下一代DNA测序(NGS)样品制备的任何其他应用的NGS文库的构建。

Description

利用竞争性链置换构建下一代测序(NGS)文库

技术领域

本发明涉及用于全基因组测序、全外显子组测序、靶向重测序、基于测序的筛选测定、宏基因组学或需要下一代DNA测序(NGS)样品制备的任何其他应用的NGS文库的构建。

背景技术

下一代测序(NGS)已经发展成为分子生物学中非常强大的工具，允许在诸如基因组鉴定、基因测试、药物发现和疾病诊断的领域中取得快速进展。随着该技术不断发展，一次可以测序的核酸量不断增加。这允许研究人员对更大的样品进行测序，并增加每个样品的读段(read)数，从而能够检测所述样品中的小序列变异。

随着NGS处理的量和复杂性增加，实验错误率也增加。虽然这种错误大部分出现在测序和处理步骤中，但它们也可能出现在样品制备步骤中。在将样品转化为可读的NGS文库期间尤其如此，通过所述转化将接头序列以一致的方式连接到片段化样品(文库片段)的每个片段的末端。

在执行下一代测序(NGS)期间可能发生几种类型的错误，重要的是能够区分真实的罕见变体例如患者中存在的罕见等位基因或突变，和由测序和/或样品制备产生的错误。特别成问题的是在通过聚合酶链反应(PCR)进行文库扩增之前在文库构建期间引入的错误。这些错误会在PCR期间传播，产生包含所述错误的序列的多个拷贝，使得难以区分错误和真实变体。用来克服这一点的一般策略是共有序列识别(consensus calling)，其中将作为单个原始片段的PCR拷贝的序列读段分组在一起并与由序列重叠的其他原始片段产生的相似拷贝组进行比较。如果一组克隆中存在变异而其他克隆中不存在，那么该变异很可能是通过PCR传播的错误，而几组中都存在的变异很可能是真实的变体。为了进行这种分析，必须能够区分由一个分子产生的克隆和由另一个分子产生的克隆。

当在本文中使用时，术语“片段”、“靶片段”或“***物”是指由DNA样品的片段化产生的DNA片段，其被加工成NGS文库并进行测序。这些片段的加工通常涉及末端修复和加A尾，然后添加测序接头和扩增。

当在本文中使用时，术语“覆盖的深度”、“覆盖深度”或“靶覆盖度”是指映射到基因组靶标的被测序的DNA片段(即读段)的数目。靶区域的覆盖度越深(即，区域被测序的次数越多)，测序测定的可靠性和灵敏度越高。通常，对于低频率序列变异的检测来说，通常需要500-1000X或更高的覆盖深度。

当在本文中使用时，术语“腺苷酸化的”或“预腺苷酸化的”是指DNA链上有5'-单磷酸腺苷(AMP)通过焦磷酸酯键共价连接到其5'-末端磷酸的状态。当在本文中使用时，术语“腺苷酸化”是指将AMP共价连接到蛋白质侧链或DNA链的5'-末端磷酸的过程。当在本文中使用时，术语“腺苷基团”是指与蛋白质侧链和/或DNA链共价连接的AMP或在蛋白质侧链和/或DNA链之间转移的AMP。

当在本文中使用时，术语“共有序列”是指通过比较序列家族内的多个序列而获得的序列。在该家族中的一些序列中存在但在大多数序列中不存在的序列变异可以被认定为错误，随后可以从分析中去除所述序列变异。另一方面，在家族内的大多数序列中存在的序列变异可以被认定为所分析的原始遗传物质中存在的真实变体。当在本文中使用时，术语“共有序列识别”是指确定遗传变异是真实变异还是错误的过程。

当在本文中使用时，术语“变体识别(variant calling)”是指确定序列变异是源自于原始样品并因此用于分析的真实变体，还是处理错误并被抛弃的结果的过程。

当在本文中使用时，术语“家族”是指基于具有相同的起始终止位点和/或UMI而被确定为重复物的一组读段。在变体识别中，具有多个克隆的大家族是理想的，因为它们可以用于构建比那些仅具有少量克隆可供比较的家族更强的共有序列。对于具有一个或两个克隆的非常小的家族规模，共有序列不能被识别，从而导致可能重要的数据被抛弃。

当在本文中使用时，术语“重复数据删除”或“删除重复数据”是指从分析中去除被确定为重复物的读段。如果读段具有相同的起始终止位点和/或UMI序列，那么它们就被确定为是重复物。重复数据删除的一个目的是创建共有序列，从而从分析中去除那些包含错误的重复物。重复数据删除的另一个目的是估计文库的复杂性。当在本文中使用时，文库的“复杂性”或“大小”是指代表唯一的原始片段并映射到所分析的序列的独立序列读段的数目。

当在本文中使用时，术语“起始终止位点”或“片段末端”是指经剪切的文库片段的5'和3'末端处的序列，其直接与测序接头连接。起始终止位点可用于确定两个相似序列是源自于单独的分子还是同一个原始片段的克隆拷贝。为了使不同的原始片段具有相同的起始终止位点，创建它们的剪切事件必须在完全相同的位点处切割，而这个可能性很低。另一方面，克隆应始终具有相同的起始终止位点。因此，任何具有相同的起始终止位点(由于随机剪切)的片段通常被认为是重复物。当在本文中使用时，术语“基于位置”是指使用终止起始位点作为用于确定一个读段是否为另一个读段的重复物的标准。

本文中所定义的“起始终止碰撞”是包含相同起始终止位点的多个唯一片段的出现。由于起始终止碰撞的罕见性，它们通常只在进行具有极大量读段的超深度测序时例如在进行低变体检测时观察到，或在操作具有小尺寸分布的DNA样品例如血浆DNA时观察到。因此，在这些情况下，起始终止位点可能是不够的，因为在重复数据删除步骤期间会有错误地去除被误认为是重复物的唯一片段的风险。在这些情况下，将UMI纳入工作流程可能会挽救许多复杂性。

当在本文中使用时，术语“UMI”或“唯一分子标识符”是指由简并序列或变化的碱基序列组成的标签，其用于标记经剪切的核酸样品中的原始分子。理论上，由于可以生成极大数量的不同UMI序列，因此没有两个原始片段应该具有相同的UMI序列。因此，UMI可用于确定两个相似序列读段是各自源自于不同的原始片段，还是它们只是在文库的PCR扩增期间产生的重复物，是源自于同一个原始片段。

当将UMI与起始终止位点组合使用时，UMI对于罕见序列变体的共有序列识别来说是特别有用的。例如，如果两个片段具有相同的起始和终止位点但具有不同的UMI序列，那么原本会被认为是源自于同一个原始片段的两个克隆现在可以正确地被认定为唯一分子。因此，组合使用UMI和起始终止位点通常会使得覆盖数增加，因为原本单独使用起始位点会被标记为重复物的唯一片段由于它们具有不同的UMI而将被标记为彼此唯一的。它还通过去除假阳性来帮助提高阳性预测值(“PPV”)。目前对UMI的需求很多，因为有一些罕见变体只能通过使用UMI进行共有序列识别才能被发现。

“PPV”或阳性预测值是被识别为唯一的序列实际上是唯一的概率。PPV＝真阳性/(真阳性+假阳性)。“灵敏度”是唯一的序列将被识别为唯一的概率。灵敏度＝真阳性/(真阳性+假阴性)。

在文库构建期间产生的并且通过本发明减少的两个错误是(1)片段嵌合体和(2)接头二聚体的形成。

片段嵌合体是文库片段在没有接头序列的情况下彼此连接的结果，产生包含彼此并列的不相关序列的更长片段。因此，这些不相关序列会被错误地读作连续序列。因此，在文库构建期间抑制片段嵌合体的形成对于减少下游测序错误来说是重要的。

接头二聚体是在没有文库***物序列的情况下接头自连接的结果。这些二聚体非常有效地形成簇，降低反应效率，并消耗流动池(flow cell)上的宝贵空间。这在处理皮克范围内的超低DNA输入量时尤其成问题。在如此低的DNA输入水平下，接头二聚体可以构成所形成的NGS文库分子的大部分，从而减少DNA测序所产生的有用信息量。因此，在文库构建期间抑制接头二聚体形成是一项非常重要但具有挑战性的任务。

本文提供了基于新型接头连接策略的用于NGS文库构建的高通量方法，其可以将片段嵌合体和接头二聚体两者的形成最小化，并在不到一天内准确地将DNA样品转化为测序文库。从本文提供的本发明的描述中，本发明的这些和其他优点以及另外的发明特征将是显而易见的。

发明内容

本发明涉及用于全基因组测序、靶向重测序、基于测序的筛选测定、宏基因组学或需要NGS样品制备的任何其他应用的下一代DNA测序(NGS)文库的构建。所提出的方法各自由两步骤连接过程组成，其中通过平末端连接将第一测序接头连接到经末端修复的DNA片段，然后通过夹板末端连接(splint end ligation)将第二测序接头连接到第一连接产物。NGS文库制备的这个过程在这里将被称为竞争性链置换(CSD)。尽管最初的工作主要集中在用于Illumina测序的P5和P7接头的连接，但是这种方法可以用于也需要连接一个或多个合成序列的替代平台(例如测序平台)。

在所述方法的第一个实施方式(图1)中，使片段化的DNA进行末端修复反应，产生具有游离3'OH末端的平端5'磷酸化***物。这可以用T4多核苷酸激酶(PNK)和T4DNA聚合酶，或留下具有5'磷酸和3'羟基的平末端的酶的任何其他组合来实现。在末端修复后，使用T4DNA连接酶通过平端连接将第一测序接头(用于Illumina平台的P5或P7)连接到***物DNA的3'末端；所述接头的一条链被5'磷酸化以促进连接，而互补链在3'末端上被双脱氧核苷酸(ddN)阻断以防止连接。然后通过将接头分子的3'末端连接到***物的磷酸化5'末端的夹板连接反应将第二测序接头连接到生物***物的5'末端。这一连接可以使用Taq DNA连接酶或任何其他能够在平末端底物上以很小的活性进行夹板连接的连接酶(Ampligase、9°N、Tth等)来进行。由于这些连接酶更偏好于夹板连接，因此接头二聚体被最小化，这减轻了连接后尺寸选择的需要。在第二次连接后，新构建的文库分子可以直接测序(“无PCR”)或在测序前通过PCR扩增。用于第一个实施方式的第一测序接头的第一条和第二条链的代表性实例分别以SEQ ID NO:3-10和SEQ ID NO:17提供。用于第一个实施方式的第二测序接头的代表性实例以SEQ ID NO:1-2提供。提供第一实施方式的所有代表性实例是为了说明而不是限制要求保护的发明。

在上述方法的第二个实施方式中，突变体T4DNA连接酶K159S(参见美国申请系列号15/426,543，以其整体引用)被用于第一次连接(图2)。这一突变体在连接前不能利用ATP来将底物腺苷酸化，因此只能连接预腺苷酸化的底物。这一特征可以通过用预腺苷酸化的测序接头进行连接来加以利用，因为这将仅导致接头与***物连接事件(而不是***物与***物连接)，这极大地抑制了嵌合体的形成。此外，认为野生型T4DNA连接酶的连接效率受到“被中止的连接”事件的阻碍，其中腺苷酸化的连接酶单元将腺苷基团转移到***物，但未能有效连接5'和3'末端。在这些情况下，连接酶单元将被快速再腺苷酸化，使其在已经腺苷酸化的DNA上失活。由于突变体不能被腺苷酸化，因此被中止的连接事件是不成问题的，并且连接效率相对于野生型T4DNA连接酶的连接效率来说增加。用于第二个实施方式的第一测序接头的代表性实例以SEQ ID NO:11-16提供。提供第二个实施方式的所有代表性实例是为了说明而不是限制要求保护的发明。

在本发明的第三个实施方式中，通过野生型T4连接酶而不是K159S突变体并且在不存在ATP的情况下将第一连接步骤中的预腺苷酸化的接头连接到靶片段的3'末端，从而防止片段嵌合体的形成(图3)。

在上述方法的第四个实施方式中，可以首先将测序接头连接到***物的5'末端(图4)。在这一实施方式中，通过平端连接将第一测序接头(用于Illumina测序的P5或P7)的3'末端连接于磷酸化***物的5'末端。为了防止二聚体形成，这个接头在双链部分中不被5'磷酸化，因此它不会与***物或其他接头分子连接。使用单链寡核苷酸通过夹板连接将第二接头序列(用于Illumina测序的P5或P7)连接到***物的3'末端，所述单链寡核苷酸在5'末端上具有磷酸基团，并且在3'末端上具有C3间隔序列。这一连接可以使用Taq DNA连接酶或任何其他能够在平末端底物上以很小的活性进行夹板连接的连接酶(Ampligase、9°N、Tth等)来进行。由于所述连接酶更偏好于夹板连接，因此接头二聚体被最小化，这减少了连接后尺寸选择的需要。

在本发明的第五个实施方式中，在截短的连接辅助寡核苷酸的3'末端上存在RNA碱基，而不是ddN。在这种情况下，接头的5'末端和截短的主干的3'末端两者都连接于***物。然而，然后通过RNase H2酶的活性切除主干，所述RNase H2酶切割RNA碱基的5'。在SPRI清除步骤后，进行第二次连接(图5)。

在本发明的第六个实施方式中，第一测序接头在5'末端上具有标签序列，其用于独立地标记靶标的正义链和反义链的3'末端(图6和7)。这些序列标签不限于任何特定长度或序列。碱基可以是简并的，固定的或两者的组合。也可以使用修饰的碱基。如前所述，接头的5'末端被预腺苷酸化并通过K159S突变体T4DNA连接酶或在不存在ATP的情况下通过野生型T4连接酶连接到靶标的经修复的3'末端上。然后将第二测序接头在其互补的主干序列处退火到所连接的第一接头，留下跨越标签序列的间隙。然后用聚合酶填充间隙，产生与第一UMI互补的原位UMI。在填充步骤之后，将新产生的原位UMI的3'末端连接到靶片段的5'末端上。任选地，在此之后是使用引发第一和第二接头序列并且可以任选地添加额外的序列例如样品条形码和/或P5/P7序列的引物进行的PCR扩增步骤。用于第六个实施方式的第一测序接头的第一条链的代表性实例以SEQ ID NO:18-33提供。用于第六个实施方式的第一测序接头的第二条链的代表性实例以SEQ ID NO:34-49提供。用于第六个实施方式的第二测序接头的代表性实例以SEQ ID NO:50提供。可用于第六个实施方式的PCR扩增步骤的任选正向和反向引物的代表性实例分别以SEQ ID NO:75-98和SEQ ID NO:51-74提供。这些特定的代表性正向和反向PCR引物分别含有P5和P7接头序列，以及样品条形码序列。提供第六个实施方式的所有代表性实例是为了说明而不是限制要求保护的发明。

本发明的第七个实施方式是第六个实施方式的变化形式，其中第二测序接头具有与在第一连接步骤期间添加的标签序列互补的额外序列(图7)。结果，在第二测序接头退火到第一连接产物后不存在间隙，并且在连接之前不需要利用DNA聚合酶的填充步骤。这可以通过使用有限数量的可变标签来实现。例如，这一实施方式可能可以由多个第一测序接头和多个第二测序接头组成，每个第一测序接头具有24个不同的可变标签序列中的一个，每个第二测序接头具有与第一测序接头的可变序列互补的24个不同序列中的一个。

在任何上述实施方式中，唯一分子标识符(UMI)和样品条形码可以并入到一个或两个测序接头中。可以使用与Illumina测序仪兼容的任何长度的固定或简并的序列构建分子标识符。

在任何上述实施方式中，用于第一次和/或第二次连接的测序接头中的一个或多个是完整测序接头的缩短版本，在这种情况下，稍后通过用加尾引物进行PCR来添加测序接头的余下部分。

本发明可用于涉及DNA测序的任何应用，但对于在肿瘤和正常DNA的混合群体中检测罕见变体是至关重要的癌症诊断来说尤其有价值。本发明还可用于从***固定石蜡包埋(FFPE)样品构建测序文库。本发明还可以用于从超低DNA输入在进行或不进行PCR的情况下构建测序文库，这可能有助于法医学或微生物学研究，在这些研究中可用的DNA量有限和/或PCR不会被容忍。

与由于形成接头二聚体而需要尺寸选择的现有技术不同，本发明的特征是不需要尺寸选择的连接策略。不进行尺寸选择使得能够实现DNA的优异回收，这极大地提高了文库复杂性/覆盖度和对低频率变体的灵敏度。接头二聚体对于文库定量和测序来说也是成问题的，因为DNA定量的标准方法因接头二聚体的存在而出现大的偏差。这可以引起次优的簇密度并显著减少与实际样品对齐的读段数，这增加了测序成本。而且，与现有技术不同，采用K159S的本发明实施方式不通过连接产生嵌合体，这应该极大地改善了与癌症相关的罕见结构变体的检测。

附图说明

图1示出了竞争性链置换(CSD)方法的第一个实施方式。第一步骤由以下组成：通过T4DNA连接酶催化的平末端连接将第一测序接头(2)连接到DNA靶片段(1)。所述第一测序接头由第一条和第二条DNA链组成。第一条DNA链(4)在其3'末端上具有C3阻断基团，在其5'末端上具有磷酸基团(5'PO)，并且由第一序列(6)和第二非互补标签序列(5)组成，所述第一序列(6)与第二条DNA链(3)互补但比第二条DNA链(3)长，所述第二非互补标签序列(5)含有第一测序引物结合位点和任选的UMI和/或样品条形码序列。第二条DNA链(3)是截短的寡核苷酸，在其3'末端具有双脱氧核苷酸碱基(ddN)，并且用于促进第二条DNA链的5'PO与靶片段的3'OH的平末端连接，从而产生第一连接产物(7)。第二步骤由以下组成：通过Taq连接酶催化的夹板末端连接将第二测序接头(8)连接到第一连接产物(7)。所述第二测序接头具有3'OH，并且由第一序列(10)和第二序列(9)组成，所述第一序列(10)与第一测序接头的第一序列(6)互补，所述第二序列(9)含有第二测序引物结合位点和任选的第二UMI和/或样品条形码序列。由于第二接头的互补序列(10)的长度比第一接头的截短的寡核苷酸(3)的长度长，因此第二接头能够在夹板末端连接之前的退火步骤期间置换截短的寡核苷酸。夹板末端连接产生最终文库产物(11)。

图2示出了CSD方法的第二个实施方式。第二个实施方式的要素与第一个实施方式的要素类似，不同之处在于第一测序接头在第一条链的5'末端处被预腺苷酸化(5'ppA)，并且平末端连接是由突变体T4DNA连接酶K159S催化的，其不能使用ATP作为连接的底物，因此只能将第一接头的预腺苷酸化链连接到靶片段的3'OH。

图3示出了CSD方法的第三个实施方式。第三个实施方式的要素与第二个实施方式的要素类似，不同之处在于平末端连接是在不存在ATP的情况下由野生型T4DNA连接酶催化的。由于不可获得ATP作为连接的底物，因此野生型T4DNA连接酶只能将第一接头的预腺苷酸化链连接到靶片段的3'OH。

图4示出了CSD方法的第四个实施方式。第一步骤由以下组成：通过T4DNA连接酶催化的平末端连接将第一测序接头(12)连接到DNA靶片段。所述第一测序接头由第一条和第二条DNA链组成。第一条DNA链在其3'末端上具有3'OH基团，并且由第一序列(14)和第二非互补标签序列(13)组成，所述第一序列(14)与第二条DNA链(15)互补但比第二条DNA链(15)长，所述第二非互补标签序列(13)含有第一测序引物结合位点和任选的UMI和/或样品条形码序列。第二条DNA链(15)是截短的寡核苷酸，在其3'末端具有C3阻断基团，具有去磷酸化的5'末端，并且用于促进靶片段的5'PO与第一测序接头的第一条链的3'OH的平末端连接，从而产生第一连接产物(16)。第二步骤由以下组成：通过Taq连接酶催化的夹板末端连接将第二测序接头(17)连接到第一连接产物。所述第二测序接头具有5'PO并且由第一序列(40)和第二序列(41)组成，所述第一序列(40)与第一测序接头的第一序列(14)互补，所述第二序列(41)含有第二测序引物结合位点和任选的第二UMI和/或样品条形码序列。由于第二接头的互补序列(40)的长度比第一接头的截短的寡核苷酸(15)的长度长，因此第二接头能够在夹板末端连接之前的退火步骤期间置换截短的寡核苷酸。夹板末端连接产生最终文库产物。

图5示出了CSD方法的第五个实施方式。第五个实施方式的要素与第二个实施方式的要素类似，不同之处在于第一测序接头的截短的第二条链(18)在其3'末端具有RNA残基。然后通过K159S突变体T4DNA连接酶催化的平末端连接将所述第一测序接头连接到DNA靶片段。与前面的实施方式不同，第一测序接头的第一条和第二条链两者都连接到靶片段，截短的第二链通过其3'R连接到靶片段的5'PO，产生第一连接产物(19)。然后通过RNase H2切割去除截短的第二条链，所述切割发生在RNA残基的5'侧的磷酸二酯键处。所得产物(20)与前述实施方式的第一连接产物类似，不同之处在于其具有3'RNA残基。然后在第二连接步骤期间将所述3'RNA残基连接到第二测序接头的5'PO末端，产生具有内部RNA残基的文库产物(21)。

图6示出了CSD方法的第六个实施方式。第六个实施方式的要素与第二个实施方式的要素类似，但具有以下不同之处。在这一实施方式中，第一测序接头(22)的第一条DNA链(24)在5'末端上含有可变标签序列(26，27)。这用于在第一连接步骤期间差异地标记靶片段的正义链和反义链，产生每条链经不同标记的第一连接产物(28)。与前述实施方式一样，使用经阻断和截短的第二条链(23)来增强平末端连接，在这一实施方式中，第二条链(23)与第一条DNA链(24)的可变区(26，27)和部分恒定区(25)互补。在第二连接步骤期间，第二测序接头(29)通过其序列(30)退火到第一连接产物，所述序列(30)与通过第一测序接头添加的恒定序列(25)互补，但不与可变区(26，27)互补。这产生间隙，用DNA聚合酶和DNA连接酶(31)填充所述间隙，从而产生正义链和反义链经不同标记的最终文库产物(32)。

图7示出了CSD方法的第七个实施方式。第七个实施方式的要素与第六个实施方式的要素类似，不同之处在于第二序列接头(33)具有与通过第一测序接头添加的可变标签序列(36，37)互补的额外序列(34，35)。结果，在第二测序接头退火到第一连接产物后不产生间隙，并且不需要聚合酶步骤。

图8A.针对10ng(左侧)和1ng(右侧)DNA输入，针对CSD(深灰色圆圈)和NEB(浅灰色圆圈)，绘制了使用实施例1中描述的方法获得的三个复制文库中的每一个的覆盖深度值。对于10ng DNA输入，CSD的平均覆盖深度为1009X，而NEB为598X。对于1ng DNA输入，CSD的平均覆盖深度为131X，而NEB为53X。

图8B.针对CSD(深灰色圆圈)和Kapa(浅灰色圆圈)，绘制了从实施例1中描述的实验获得的三个复制文库中的每一个的覆盖深度值。CSD的平均覆盖深度为1006X，而Kapa为628X。

图8C.针对于源自于“真实”(左侧)和“模拟”(右侧)cfDNA的文库，针对CSD(深灰色圆圈)和NEB(浅灰色圆圈)，绘制了从实施例2中描述的实验获得的三个复制文库中的每一个的覆盖深度值。对于“真实”DNA输入，CSD的平均覆盖深度为276X，而NEB为77X。对于“模拟”DNA输入，CSD的平均覆盖深度为241X，而NEB为104X。

图8D.针对1ng(左侧)、5ng(中间)和10ng(右侧)DNA输入，针对CSD(深灰色)和NEB(浅灰色)，绘制了从实施例3中描述的实验获得的三个复制文库中的每一个的覆盖深度值。当与NEB方法相比时，在1ng、5ng或10ng FFPE来源的基因组DNA的情况下，CSD的平均覆盖深度分别高1.8倍、1.4倍和1.3倍。

图9.针对源自于“真实”(左侧)和“模拟”(右侧)cfDNA的文库，针对CSD(深灰色)和NEB(浅灰色)，绘制了从实施例4中描述的实验获得的三个复制文库中的每一个的嵌合体百分比值。当与NEB方法相比时，CSD的存在的嵌合体平均百分比在“真实”cfDNA输入的情况下低1.6倍，在“模拟”cfDNA输入的情况下低1.8倍。

图10A.用生物分析仪DNA1000芯片产生的迹线，其示出了用NEB或CSD方法从具有1％或0.5％次要等位基因分数的样品DNA产生的三个复制文库中的每一个中存在的DNA分子的尺寸分布。CSD方法在150bp标记处不存在二聚体峰(39)，在NEB方法中存在这样的峰(38)，证明当与用NEB方法制备的文库相比时，用CSD制备的文库的接头二聚体发生率降低。

图10B.使用生物分析仪DNA1000芯片(PCR后)对用10ng被剪切成150bp、200bp或300bp的高质量基因组DNA(从购自ATCC的细胞系NA12878中提取的gDNA)创建的三个复制文库中的每一个产生的迹线。对于所有三个片段长度，不存在通常在125bp-150bp范围内观察到的二聚体峰。

图10C.使用生物分析仪DNA1000芯片(PCR后)对用10ng或1ng被剪切成200bp的高质量基因组DNA创建的三个复制文库中的每一个产生的迹线。对于两种输入量，不存在通常在125bp-150bp范围内观察到的二聚体峰。

以下实施例说明但不限制要求保护的发明。

实施例1

该实施例证明，与使用Ultra^TM II文库(New England BioLabs)或KapaHyper Prep(Kapa Biosystems)方法获得的覆盖深度相比，使用CSD方法的第二个实施方式从由高质量的基因组DNA制备的NGS文库获得的覆盖深度增强。从细胞系NA12878(ATCC)中提取高质量的基因组DNA。使用超声破碎(Covaris S220)将1或10ng提取的DNA剪切成150bp的平均尺寸，然后进行末端修复，所述末端修复包括用T4多核苷酸激酶(PNK)将5'末端磷酸化，持续30分钟，然后通过2.5X AMPure珠进行纯化。对于CSD处理，使用突变体K159S T4DNA连接酶通过平末端连接将与截短的3'ddN阻断的寡核苷酸(SEQ ID NO:17)杂交的P7接头(SEQ ID NO:11-16)连接到经末端修复的靶片段上，持续15分钟，然后是15分钟热杀步骤。然后使用Taq DNA连接酶将P5接头(SEQ ID NO:1或SEQ ID NO:2)连接到第一连接产物上，持续15分钟，然后使用2.5X AMPure珠进行纯化。对于NGS处理，按照制造商的说明书制备文库。两个文库然后都用含有与P5和P7接头互补的序列的引物在以下条件下进行PCR扩增：98℃45秒；98℃15秒，60℃30秒，72℃30秒，12个循环；72℃1分钟；4℃保持。然后使用大约800个IDT Lockdown探针的定制组对这些文库进行混合捕获，以拉下用于确定覆盖深度值的包含靶序列的片段。由此产生的靶标富集的产物通过1.8X AMPure珠进行纯化，并在测序仪(Illumina)上使用2X 150双末端读段并遵循制造商的方案进行测序。一式三份制备文库。将对于10ng和1ng DNA输入从CSD获得的三个文库中的每一个的覆盖深度值绘图，与从NEB(图8A)和Kapa(图8B)方法获得的那些值比较。当与NEB方法相比时，CSD的平均覆盖深度在10 ng DNA输入的情况下高1.7倍，在1 ng DNA输入的情况下高2.5倍(图8A)。当与Kapa方法相比时，在10 ng DNA输入的情况下，CSD的平均覆盖深度高1.6倍(图8B)。覆盖深度值是通过映射到通过800个探针lockdown组富集的预期靶序列的唯一读段数(不计算PCR重复物)来确定的。

实施例2

该实施例证明，与使用Ultra^TM II文库获得的覆盖深度相比，使用CSD方法的第二个实施方式从由循环无细胞DNA(cfDNA)制备的NGS文库获得的覆盖深度增强。“真实”cfDNA样品是通过Biochain从健康个体分离的真实无细胞DNA，而“模拟”cfDNA样品是使用Covaris S2剪切成150 bp的细胞系基因组DNA(NA12878)。如实施例1中所述，使用CSD和NEB方法用1 ng cfDNA制备文库，一式三份。当与NEB方法相比时，在“真实”cfDNA输入的情况下CSD的平均覆盖深度高3.6倍，在“模拟”cfDNA输入的情况下高2.3倍(图8C)。

实施例3

该实施例证明，与使用NEB Ultra II文库获得的覆盖深度相比，使用CSD方法的第二个实施方式从由FFPE样品中提取的低质量基因组DNA制备的NGS文库获得的覆盖深度增强。FFPE样品购自Asterand Bioscience。如上所述，使用1 ng、5 ng或10 ng被剪切成200bp平均尺寸的FFPE来源的基因组DNA作为起始材料来制备文库。当与NEB方法相比时，在1ng、5 ng或10 ng FFPE来源的基因组DNA的情况下，CSD的平均覆盖深度分别高1.8倍、1.4倍和1.3倍(图8D)。

实施例4

该实施例证明，与使用NEB方法制备的cfDNA文库中存在的嵌合体率相比，使用CSD方法的第二个实施方式从cfDNA制备的NGS文库中的嵌合体率降低。如上所述，使用1 ng“真实”或“模拟”cfDNA作为输入来制备文库，一式三份。当与NEB方法相比时，CSD的存在的嵌合体的平均百分比在“真实”cfDNA输入的情况下低1.6倍，而在“模拟”cfDNA输入的情况下低1.8倍(图9)。嵌合体百分比值是基于与参比序列(hg19)不正确对齐的唯一读段数计算的。分类为“嵌合”的片段具有(1)面向相同方向(相同取向)的成对读段，(2)与参比序列的分开超过3kb的区域对齐的成对读段，和/或(3)与不同染色体对齐的成对读段。

实施例5

该实施例证明，与使用NEB方法制备的文库中存在的接头二聚体的发生率相比，当使用CSD方法的第二个实施方式时，由高质量的基因组DNA制备的NGS文库中的接头二聚体的发生率减少。从两种细胞系NA12878和NA24385中提取高质量的基因组DNA样品，并以两种不同的比率混合，得到两种混合物，分别具有1％和0.5％的次要等位基因分数。将样品剪切成300bp片段。NEB文库是在连接后使用0.9X AMPure比率创建的，其意图是通过尺寸选择去除接头二聚体。CSD文库是在连接后以2.5X比率创建的，这个比率太高而不能有效去除全长接头二聚体。在PCR后用1.0X AMPure处理NEB文库以去除任何残留的二聚体，而用1.8X比率处理CSD文库。在生物分析仪DNA1000芯片上分析最终文库产物，由此产生显示每个文库中存在的DNA分子的尺寸分布的迹线。对于不进行尺寸选择的CSD方法，在150bp标记处不存在二聚体峰，表明在用CSD方法制备的文库中二聚体形成是可忽略不计或不存在的(图10A)。另一方面，使用NEB方法制备的文库尽管有两个尺寸选择步骤仍然含有少量的接头二聚体，如迹线中150bp标记处的小峰所示(图10A)。

实施例6

该实施例证明，使用CSD方法的第二个实施方式制备的NGS文库中接头二聚体的存在减少与用作起始点的靶片段的长度无关。如上所述，用从细胞系NA12878中提取的并剪切成150bp、200bp或300bp的10ng高质量基因组DNA创建文库。如上所述，在生物分析仪DNA1000芯片上分析最终文库产物，产生尺寸分布迹线。对于所有三个片段长度，都不存在通常在125bp-150bp范围内观察到的二聚体峰(图10B)。

实施例7

该实施例证明，使用CSD方法的第二个实施方式制备的NGS文库中接头二聚体的存在减少与用作起始材料的输入DNA的量无关。如上所述，用从细胞系NA12878中提取的并剪切成200bp的10ng或1ng高质量基因组DNA创建文库。对于两种输入量，都不存在通常在125bp-150bp范围内观察到的二聚体峰(图10C)。作为参比，在约1500bp处与前一个标记合并的次峰是由于在PCR期间过度扩增引起的已知现象。

实施例8

该实施例证明，与使用Kapa Hyper Prep方法获得的灵敏度相比，使用CSD方法的第六个实施方式从高质量基因组DNA制备的NGS文库中实现的灵敏度增强。从细胞系NA12878和NA24385中提取高质量基因组DNA，并以1/100的比率混合，产生分别为1％和0.5％的纯合和杂合次要等位基因频率。使用超声破碎(Covaris S220)将输入范围为1到25ng的基因组混合物剪切成150bp的平均尺寸，然后进行末端修复，所述末端修复包括用T4多核苷酸激酶(PNK)将5'末端磷酸化，持续30分钟，然后通过2.5X AMPure珠进行纯化。对于CSD处理，使用突变体K159S T4DNA连接酶通过平末端连接将与截短的3'ddN阻断的寡核苷酸(SEQ ID NO:34-49)杂交的截短的P7接头(SEQ ID NO:18-33)连接到经末端修复的靶片段，持续15分钟，然后是15分钟热杀步骤。然后将截短的P5接头(SEQ ID NO:50)退火到通过第一测序接头添加的恒定序列(图6中的25)，但不退火到可变区(图6中的26和27)。使用TaqDNA聚合酶填充所产生的间隙，然后用Taq DNA连接酶连接。此后使用2.5X AMPure珠进行纯化。然后用含有P7和P5接头序列的余下部分的加尾引物对产物进行PCR扩增。P7加尾引物序列以SEQ ID NO:51-74列出，而P5加尾序列以SEQ ID NO:75-98列出。PCR条件如下：98℃45秒；98℃15秒，60℃30秒，72℃30秒，12个循环；72℃1分钟；4℃保持。对于Kapa处理，按照制造商的说明书制备文库。使用IDT探针的约100kb定制组对这些文库进行混合捕获，以拉下混合基因型的子集。在这些子集中，在NA12878和NA24385序列之间存在291个已知的核苷酸差异，并且这些差异被用于评估两种文库制备方法的灵敏度和PPV。这些文库在测序仪(Illumina)上使用2×150双末端读段并遵循制造商的方案进行超深度测序。然后使用VarDict软件进行变体识别。虽然在20ng输入的情况下Kapa文库识别出三个假阳性，但在10ng DNA输入的情况下Kapa文库和在10和20ng DNA输入的情况下CSD文库识别出的假阳性结果都为0，使得对于两种文库来说PPV为1。然而，当与在相同输入量的情况下使用Kapa文库获得的假阴性数相比时，使用CSD文库时在20ng输入的情况下假阴性数低3倍，在10ng输入的情况下低2倍。结果如表2所示。

表1：序列

/5Phos/＝在5'处被磷酸化

N＝简并碱基

/5rApp/＝在5'处被预腺苷酸化

/3SpC3/＝3'C3阻断基团

/3ddA/、/3ddT/、/3ddC/和/3ddG/＝3'双脱氧核苷酸残基

小写字母＝样品条形码序列

黑体字母＝UMI序列

表2：使用CSD或Kapa制备的文库对变体识别的灵敏度和阳性预测值

本文引用的所有参考文献，包括出版物、专利申请和专利均通过引用并入本文中，其程度如同每个参考文献被单独且具体地指定为通过引用并入并且在本文中完整地阐述一样。

在描述本发明的上下文中(特别是在以下权利要求的上下文中)，不带具体数量的术语和“所述”以及类似指示物的使用应被解释为涵盖单数和复数，除非本文另有说明或与上下文明显矛盾。除非另有说明，否则术语“包含”、“具有”、“包括”和“含有”应被解释为开放式术语(即，意思是“包括但不限于”)。除非本文另有说明，否则本文中对数值范围的描述仅旨在用作单独提及落入所述范围内的每个单独值的简写方法，并且每个单独的值都被并入本说明书中，如同其在本文中单独阐述一样。除非本文另有说明或上下文明显矛盾，否则本文中描述的所有方法均可以任何合适的顺序进行。除非另外声明，否则本文提中供的任何和所有实例或示例性语言(例如，“如”)的使用仅旨在更好地说明本发明，而不是对本发明的范围进行限制。说明书中的任何语言都不应被解释为表明任何未要求保护的要素对于本发明的实践是必不可少的。

本文描述了本发明的优选实施方式，包括发明人已知的实施本发明的最佳方式。在阅读前面的描述后，那些优选实施方式的变化形式对于本领域普通技术人员来说可以变得显而易见。发明人期望熟练的技术人员在适当的情况下采用这些变化形式，并且发明人希望本发明以不同于本文具体描述的方式实施。因此，在适用法律所允许的情况下，本发明包括所附权利要求中所述主题的所有修改和等同物。此外，除非本文另有说明或上下文明显矛盾，否则本发明涵盖上述要素的所有可能变化形式的任何组合。

序列表

<110> 合成DNA技术公司（Integrated DNA Technologies）

<120> 利用竞争性链置换构建下一代测序（NGS）文库

<130> PA2018-2

<160> 98

<170> PatentIn version 3.5

<210> 1

<211> 58

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 1

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 2

<211> 68

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(35)

<223> UMI

<400> 2

aatgatacgg cgaccaccga gatctacacn nnnnnacact ctttccctac acgacgctct 60

tccgatct 68

<210> 3

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5Phos

<220>

<221> misc_feature

<222> (35)..(40)

<223> UMI

<400> 3

agatcggaag agcacacgtc tgaactccag tcacnnnnnn atcacgatct cgtatgccgt 60

cttctgcttg 70

<210> 4

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5Phos

<220>

<221> misc_feature

<222> (35)..(40)

<223> UMI

<400> 4

agatcggaag agcacacgtc tgaactccag tcacnnnnnn cgatgtatct cgtatgccgt 60

cttctgcttg 70

<210> 5

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5Phos

<220>

<221> misc_feature

<222> (35)..(40)

<223> UMI

<400> 5

agatcggaag agcacacgtc tgaactccag tcacnnnnnn ttaggcatct cgtatgccgt 60

cttctgcttg 70

<210> 6

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5Phos

<220>

<221> misc_feature

<222> (35)..(40)

<223> UMI

<400> 6

agatcggaag agcacacgtc tgaactccag tcacnnnnnn tgaccaatct cgtatgccgt 60

cttctgcttg 70

<210> 7

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5Phos

<220>

<221> misc_feature

<222> (35)..(40)

<223> UMI

<400> 7

agatcggaag agcacacgtc tgaactccag tcacnnnnnn acagtgatct cgtatgccgt 60

cttctgcttg 70

<210> 8

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5Phos

<220>

<221> misc_feature

<222> (35)..(40)

<223> UMI

<400> 8

agatcggaag agcacacgtc tgaactccag tcacnnnnnn gccaatatct cgtatgccgt 60

cttctgcttg 70

<210> 9

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5Phos

<220>

<221> misc_feature

<222> (35)..(40)

<223> UMI

<400> 9

agatcggaag agcacacgtc tgaactccag tcacnnnnnn cagatcatct cgtatgccgt 60

cttctgcttg 70

<210> 10

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5Phos

<220>

<221> misc_feature

<222> (35)..(40)

<223> UMI

<400> 10

agatcggaag agcacacgtc tgaactccag tcacnnnnnn acttgaatct cgtatgccgt 60

cttctgcttg 70

<210> 11

<211> 72

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (43)..(48)

<223> UMI

<220>

<221> misc_feature

<222> (72)..(72)

<223> 3SpC3

<400> 11

agatcggaag agcacacgtc tgaactccag tcacaacggc ggnnnnnnat ctcgtatgcc 60

gtcttctgct tg 72

<210> 12

<211> 72

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (43)..(48)

<223> UMI

<220>

<221> misc_feature

<222> (72)..(72)

<223> 3SpC3

<400> 12

agatcggaag agcacacgtc tgaactccag tcaccatccg ttnnnnnnat ctcgtatgcc 60

gtcttctgct tg 72

<210> 13

<211> 72

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (43)..(48)

<223> UMI

<220>

<221> misc_feature

<222> (72)..(72)

<223> 3SpC3

<400> 13

agatcggaag agcacacgtc tgaactccag tcaccgaatt ggnnnnnnat ctcgtatgcc 60

gtcttctgct tg 72

<210> 14

<211> 72

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (43)..(48)

<223> UMI

<220>

<221> misc_feature

<222> (72)..(72)

<223> 3SpC3

<400> 14

agatcggaag agcacacgtc tgaactccag tcacttagaa ccnnnnnnat ctcgtatgcc 60

gtcttctgct tg 72

<210> 15

<211> 72

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (43)..(48)

<223> UMI

<220>

<221> misc_feature

<222> (72)..(72)

<223> 3SpC3

<400> 15

agatcggaag agcacacgtc tgaactccag tcacggccaa cgnnnnnnat ctcgtatgcc 60

gtcttctgct tg 72

<210> 16

<211> 72

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (43)..(48)

<223> UMI

<220>

<221> misc_feature

<222> (72)..(72)

<223> 3SpC3

<400> 16

agatcggaag agcacacgtc tgaactccag tcactcttgg ttnnnnnnat ctcgtatgcc 60

gtcttctgct tg 72

<210> 17

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (12)..(12)

<223> ddT

<400> 17

ctcttccgat ct 12

<210> 18

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 18

acgatcagag atcggaagag cacacgtctg aactccagtc ac 42

<210> 19

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 19

tcgagagtag atcggaagag cacacgtctg aactccagtc ac 42

<210> 20

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 20

ctagctcaag atcggaagag cacacgtctg aactccagtc ac 42

<210> 21

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 21

atcgtctcag atcggaagag cacacgtctg aactccagtc ac 42

<210> 22

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 22

tcgacaagag atcggaagag cacacgtctg aactccagtc ac 42

<210> 23

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 23

ccttggaaag atcggaagag cacacgtctg aactccagtc ac 42

<210> 24

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 24

atcatgcgag atcggaagag cacacgtctg aactccagtc ac 42

<210> 25

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 25

tgttccgtag atcggaagag cacacgtctg aactccagtc ac 42

<210> 26

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 26

attagccgag atcggaagag cacacgtctg aactccagtc ac 42

<210> 27

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 27

cgatcgatag atcggaagag cacacgtctg aactccagtc ac 42

<210> 28

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 28

gatcttgcag atcggaagag cacacgtctg aactccagtc ac 42

<210> 29

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 29

aggatagcag atcggaagag cacacgtctg aactccagtc ac 42

<210> 30

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 30

gtagcgtaag atcggaagag cacacgtctg aactccagtc ac 42

<210> 31

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 31

agagtccaag atcggaagag cacacgtctg aactccagtc ac 42

<210> 32

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 32

gctactctag atcggaagag cacacgtctg aactccagtc ac 42

<210> 33

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5rApp

<220>

<221> misc_feature

<222> (1)..(8)

<223> UMI

<220>

<221> misc_feature

<222> (42)..(42)

<223> 3SpC3

<400> 33

ctctggatag atcggaagag cacacgtctg aactccagtc ac 42

<210> 34

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddT

<400> 34

ctctgatcgt 10

<210> 35

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddA

<400> 35

ctactctcga 10

<210> 36

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddG

<400> 36

cttgagctag 10

<210> 37

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddT

<400> 37

ctgagacgat 10

<210> 38

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddA

<400> 38

ctcttgtcga 10

<210> 39

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddG

<400> 39

ctttccaagg 10

<210> 40

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddT

<400> 40

ctcgcatgat 10

<210> 41

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddA

<400> 41

ctacggaaca 10

<210> 42

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddT

<400> 42

ctcggctaat 10

<210> 43

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddG

<400> 43

ctatcgatcg 10

<210> 44

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddC

<400> 44

ctgcaagatc 10

<210> 45

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddT

<400> 45

ctgctatcct 10

<210> 46

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddC

<400> 46

cttacgctac 10

<210> 47

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddT

<400> 47

cttggactct 10

<210> 48

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddC

<400> 48

ctagagtagc 10

<210> 49

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (3)..(9)

<223> UMI

<220>

<221> misc_feature

<222> (10)..(10)

<223> ddG

<400> 49

ctatccagag 10

<210> 50

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<400> 50

acactctttc cctacacgac gctcttccga tct 33

<210> 51

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 51

caagcagaag acggcatacg agatctgatc gtgtgactgg agttcagacg tgt 53

<210> 52

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 52

caagcagaag acggcatacg agatactctc gagtgactgg agttcagacg tgt 53

<210> 53

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 53

caagcagaag acggcatacg agattgagct aggtgactgg agttcagacg tgt 53

<210> 54

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 54

caagcagaag acggcatacg agatgagacg atgtgactgg agttcagacg tgt 53

<210> 55

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 55

caagcagaag acggcatacg agatcttgtc gagtgactgg agttcagacg tgt 53

<210> 56

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 56

caagcagaag acggcatacg agatttccaa gggtgactgg agttcagacg tgt 53

<210> 57

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 57

caagcagaag acggcatacg agatcgcatg atgtgactgg agttcagacg tgt 53

<210> 58

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 58

caagcagaag acggcatacg agatacggaa cagtgactgg agttcagacg tgt 53

<210> 59

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 59

caagcagaag acggcatacg agatcggcta atgtgactgg agttcagacg tgt 53

<210> 60

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 60

caagcagaag acggcatacg agatatcgat cggtgactgg agttcagacg tgt 53

<210> 61

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 61

caagcagaag acggcatacg agatgcaaga tcgtgactgg agttcagacg tgt 53

<210> 62

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 62

caagcagaag acggcatacg agatgctatc ctgtgactgg agttcagacg tgt 53

<210> 63

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 63

caagcagaag acggcatacg agattacgct acgtgactgg agttcagacg tgt 53

<210> 64

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 64

caagcagaag acggcatacg agattggact ctgtgactgg agttcagacg tgt 53

<210> 65

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 65

caagcagaag acggcatacg agatagagta gcgtgactgg agttcagacg tgt 53

<210> 66

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 66

caagcagaag acggcatacg agatatccag aggtgactgg agttcagacg tgt 53

<210> 67

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 67

caagcagaag acggcatacg agatgacgat ctgtgactgg agttcagacg tgt 53

<210> 68

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 68

caagcagaag acggcatacg agataactga gcgtgactgg agttcagacg tgt 53

<210> 69

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 69

caagcagaag acggcatacg agatcttagg acgtgactgg agttcagacg tgt 53

<210> 70

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 70

caagcagaag acggcatacg agatgtgcca tagtgactgg agttcagacg tgt 53

<210> 71

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 71

caagcagaag acggcatacg agatgaatcc gagtgactgg agttcagacg tgt 53

<210> 72

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 72

caagcagaag acggcatacg agattcgctg ttgtgactgg agttcagacg tgt 53

<210> 73

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 73

caagcagaag acggcatacg agatttcgtt gggtgactgg agttcagacg tgt 53

<210> 74

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (25)..(32)

<223> 样品条形码

<400> 74

caagcagaag acggcatacg agataagcac tggtgactgg agttcagacg tgt 53

<210> 75

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 75

aatgatacgg cgaccaccga gatctacacc tgatcgtaca ctctttccct acacgac 57

<210> 76

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 76

aatgatacgg cgaccaccga gatctacaca ctctcgaaca ctctttccct acacgac 57

<210> 77

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 77

aatgatacgg cgaccaccga gatctacact gagctagaca ctctttccct acacgac 57

<210> 78

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 78

aatgatacgg cgaccaccga gatctacacg agacgataca ctctttccct acacgac 57

<210> 79

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 79

aatgatacgg cgaccaccga gatctacacc ttgtcgaaca ctctttccct acacgac 57

<210> 80

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 80

aatgatacgg cgaccaccga gatctacact tccaaggaca ctctttccct acacgac 57

<210> 81

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 81

aatgatacgg cgaccaccga gatctacacc gcatgataca ctctttccct acacgac 57

<210> 82

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 82

aatgatacgg cgaccaccga gatctacaca cggaacaaca ctctttccct acacgac 57

<210> 83

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 83

aatgatacgg cgaccaccga gatctacacc ggctaataca ctctttccct acacgac 57

<210> 84

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 84

aatgatacgg cgaccaccga gatctacaca tcgatcgaca ctctttccct acacgac 57

<210> 85

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 85

aatgatacgg cgaccaccga gatctacacg caagatcaca ctctttccct acacgac 57

<210> 86

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 86

aatgatacgg cgaccaccga gatctacacg ctatcctaca ctctttccct acacgac 57

<210> 87

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 87

aatgatacgg cgaccaccga gatctacact acgctacaca ctctttccct acacgac 57

<210> 88

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 88

aatgatacgg cgaccaccga gatctacact ggactctaca ctctttccct acacgac 57

<210> 89

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 89

aatgatacgg cgaccaccga gatctacaca gagtagcaca ctctttccct acacgac 57

<210> 90

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 90

aatgatacgg cgaccaccga gatctacaca tccagagaca ctctttccct acacgac 57

<210> 91

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 91

aatgatacgg cgaccaccga gatctacacg acgatctaca ctctttccct acacgac 57

<210> 92

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 92

aatgatacgg cgaccaccga gatctacaca actgagcaca ctctttccct acacgac 57

<210> 93

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 93

aatgatacgg cgaccaccga gatctacacc ttaggacaca ctctttccct acacgac 57

<210> 94

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 94

aatgatacgg cgaccaccga gatctacacg tgccataaca ctctttccct acacgac 57

<210> 95

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 95

aatgatacgg cgaccaccga gatctacacg aatccgaaca ctctttccct acacgac 57

<210> 96

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 96

aatgatacgg cgaccaccga gatctacact cgctgttaca ctctttccct acacgac 57

<210> 97

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 97

aatgatacgg cgaccaccga gatctacact tcgttggaca ctctttccct acacgac 57

<210> 98

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 合成的核酸

<220>

<221> misc_feature

<222> (30)..(37)

<223> 样品条形码

<400> 98

aatgatacgg cgaccaccga gatctacaca agcactgaca ctctttccct acacgac 57

Claims

1.一种制备测序用靶核酸片段的方法，所述方法包括：

a.用第一连接酶将第一接头序列连接到所述靶核酸片段的3'末端；和

b.用第二连接酶将第二接头序列连接到所述靶核酸片段的5'末端，

c.其中所述第一接头序列在其5'末端上被腺苷酸化，并且

d.其中所述第一连接酶是腺苷酸化缺陷型ATP依赖性连接酶。

2.根据权利要求1所述的方法，其中所述第一连接酶是在K159处具有氨基酸取代的T4DNA连接酶。

3.根据权利要求2所述的方法，其中所述氨基酸取代是K159S。

4.根据权利要求1所述的方法，其中所述第二连接酶是ATP依赖性连接酶。

5.根据权利要求1所述的方法，其中所述第二连接酶是非ATP依赖性连接酶。

6.根据权利要求5所述的方法，其中所述第二连接酶是NAD依赖性连接酶。

7.一种制备测序用靶核酸片段样品的方法，所述方法包括：

a.用第一连接酶将多个第一接头序列连接到所述靶核酸片段的3'末端，其中所述第一接头序列包含

i.在5'末端上的可变标签序列，其用于独立地标记每个靶片段的正义链和反义链的3'末端，和

ii.位于所述可变标签序列的3'的恒定序列，

b.将第二接头序列退火到每个连接的第一接头序列的恒定序列，其中所述第二接头序列在其3'末端上包含与每个第一接头序列的恒定序列互补的恒定序列，

c.用聚合酶填充所产生的跨越第一可变标签序列的间隙，产生多个第二可变标签序列，每个第二可变标签序列与其相应的第一可变标签序列互补，用于独立地标记靶片段的正义链和反义链的5'末端，以及

d.用第二连接酶将所述第二标签序列的3'末端连接到所述靶序列的5'末端，

e.其中所述第一接头序列在其5'末端上被腺苷酸化，并且

f.其中所述第一连接酶是腺苷酸化缺陷型ATP依赖性连接酶。

8.根据权利要求7所述的方法，其中所述第一连接酶是在K159处具有氨基酸取代的T4DNA连接酶。

9.根据权利要求8所述的方法，其中所述氨基酸取代是K159S。

10.根据权利要求7所述的方法，其中所述第二连接酶是ATP依赖性连接酶。

11.根据权利要求7所述的方法，其中所述第二连接酶是非ATP依赖性连接酶。

12.根据权利要求11所述的方法，其中所述第二连接酶是NAD依赖性连接酶。

13.根据权利要求7所述的方法，其中所述标签序列的碱基是简并的。

14.根据权利要求7所述的方法，其中所述标签序列的碱基是固定的。

15.根据权利要求7所述的方法，其中所述标签序列的碱基是简并的和固定的两种。

16.根据权利要求7所述的方法，其中所述标签序列的长度在3至20个核苷酸之间。

17.一种制备测序用靶核酸片段样品的方法，所述方法包括：

a.用第一连接酶将多个第一接头序列连接到所述靶核酸的3'末端，其中所述第一接头序列包含

i.在5'末端上的可变第一标签序列，其用于独立地标记每个靶片段的正义链和反义链的3'末端，和

ii.位于所述可变标签序列的3'的恒定序列，

b.将多个第二接头序列退火到连接的第一接头序列的恒定序列和可变标签序列，其中所述第二接头序列包含

i.在3'末端上的可变第二标签序列，所述可变第二标签序列与其相应的第一标签序列互补，并用于独立地标记每个靶片段的正义链和反义链的5'末端，和

ii.位于所述可变第二标签序列的5'的第二恒定序列，其与每个第一接头序列的第一恒定序列互补，

c.用第二连接酶将所述第二标签序列的3'末端连接到靶序列的5'末端，

d.其中所述第一接头序列在其5'末端上被腺苷酸化，并且

e.其中所述第一连接酶是腺苷酸化缺陷型ATP依赖性连接酶。

18.根据权利要求17所述的方法，其中所述第一连接酶是在K159处具有氨基酸取代的T4 DNA连接酶。

19.根据权利要求18所述的方法，其中所述氨基酸取代是K159S。

20.根据权利要求17所述的方法，其中所述第二连接酶是ATP依赖性连接酶。

21.根据权利要求17所述的方法，其中所述第二连接酶是非ATP依赖性连接酶。

22.根据权利要求21所述的方法，其中所述第二连接酶是NAD依赖性连接酶。

23.根据权利要求17所述的方法，其中所述标签序列的碱基是简并的。

24.根据权利要求17所述的方法，其中所述标签序列的碱基是固定的。

25.根据权利要求17所述的方法，其中所述标签序列的碱基是简并的和固定的两种。

26.根据权利要求17所述的方法，其中所述标签序列的长度在3至20个核苷酸之间。