CN113913493B

CN113913493B - 一种靶基因区域快速富集方法

Info

Publication number: CN113913493B
Application number: CN202010647922.7A
Authority: CN
Inventors: 姜正文; 丁慧
Original assignee: Tianhao Gene Technology Suzhou Co ltd
Current assignee: Tianhao Gene Technology Suzhou Co ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2024-04-09
Anticipated expiration: 2040-07-07
Also published as: WO2022007863A1; CN113913493A

Abstract

本发明提供了一种靶基因区域快速富集方法。所述方法采用抗外切核酸酶修饰的延伸引物和/或阻滞探针，在引物探针对与样本DNA变性杂交后进行单链核酸特异外切酶酶切纯化，经酶切纯化的产物再通过磁珠纯化、硅胶柱纯化或膜过滤纯化等物理方法二次纯化，然后采用与二代测序平台相匹配的通用引物进行扩增纯化获得测序文库。本发明的方法可以实现多重目的基因片段的快速富集，显著提高靶序列的富集效率，提高目的基因片段的有效读数和测序深度，可以用于各种高通量芯片测序平台如二代测序平台的测序分析。

Description

一种靶基因区域快速富集方法

技术领域

本发明涉及生物技术领域，更具体地涉及一种靶基因区域快速富集方法。

背景技术

虽然用1000美元测定人类基因组的目标快要实现，但基因组研究的总成本应包括DNA测序、数据管理和数据分析(产生可直接解读的数据)的成本，这使得在大的群体水平研究以及临床应用中，基因组研究的实际成本在短时间内很难降低。近期，一种新的研究方法可以对疾病的特定区域和生物学通路、基因，甚至对整个外显子组(占基因组的1％)进行富集，然后进行无偏的研究，这种方法就是目标区域富集高通量测序。

目标区域富集高通量测序是针对感兴趣的一段或几段序列进行探针设计，通过不同的方法进行捕获富集，并进一步对捕获到的序列进行测序分析。由于其探针设计灵活、覆盖深度高的特点，更适用于大样本量疾病样本分析，或对全基因组、GWAS分析或连锁分析等结果进行验证；不仅能验证已发现的位点，同时能够进一步找到候选区域中的疾病易感位点。对目标基因进行富集后再进行高通量测序(NGS)的方法有如下优势：1)可显著的降低成本，2)目标区域的高测序深度保证了更准确的测序结果，3)更短的项目周转时间，4)目标区域的明确功能使得我们对结果的分析更加容易。鉴于这些优势，相对全基因组测序，目标区域富集联合高通量测序可以对更大的样本群体进行分析，这种方法还能在生物医学的研究和孟德尔疾病的临床诊断上有重要的应用价值，最后还可以根据个体的遗传特征进行个体化医疗。

对目标区域富集进行高通量测序，靶区域的富集是首要进行的工作，在一个具体的研究项目中怎么选择最合适的富集方法，需要考虑整个富集区域的大小，样本的数目和是否需要对多个样品同时测序(最高效的利用测序仪的通量)等因素。科学研究中和一些商业化平台使用的富集技术有很多，但根据其核心的反应原理可以分为三类：分别是基于PCR扩增、环化和杂交捕获的目标区域富集。

“PCR扩增”：通过多个长片段PCR(Long-range PCR)对目标区域直接进行PCR扩增，也可以选择有限重数的标准多重PCR或者高重数的多重PCR扩增大量的短片段，还可以是创新的多重PCR(Ion AmpliSeqTM from Life Technologies,GeneRead DNAseq System fromQiagen,TargetRichTM from Kailos)，微液滴PCR(RainDance)，或者基于芯片的PCR(Access ArrayTM from Fluidigm)。基于PCR的方法最适于10-100kb范围的小目标区域，这种富集方法通常需要进行目标区域特异性的引物设计和PCR反应。PCR扩增方法的主要问题有：引物结合区域的序列变异容易导致扩增子丢失，对结构变异只能通过测序Reads的降低来发现。

“环化”：也叫分子倒置探针(Molecular inversion probes，MIPs)，间隙填充挂锁探针(Gap-fill padlock probes)或选择器探针(Selector probes)。在100-500kb的范围区间，通过一种高特异性的方式(间隙填充和连接反应)形成包含目标区域序列的单链DNA环，进而产生包含共同DNA原件的结构，用于对感兴趣的靶区域进行选择性扩增，比较代表性的方法有Haloplex(Agilent)和MIPs。这种方法的主要问题有：引物结合区域的序列变异容易导致扩增子丢失，灵敏度和均一性相对较低，探针成本相对较高。

“杂交捕获”：样品中的核酸和锚定在固相支持物或者直接存于液体中的与目标区域互补的DNA/RNA探针杂交，然后通过物理捕获的方式分离出感兴趣的序列。捕获范围从500kb到整个全外显子组，发展出了一些经典的商业化杂交方法，比如SureSelect(Agilent),Nextera(Illumina),TruSeq(Illumina),SeqCap(Nimble-Gen),Ion TargetSeq(Life Technologies)，这些方法对大范围和预设计的区域有更好的捕获效率和成本效率。“杂交捕获方法”的主要问题有：对样品的品质和量都有较高的要求，一般不能用于FFPE样品，而在实际操作中，优化的TruSeq和SureSelect方法也可用于FFPE样品。

在现在众多的对基因组区域进行靶向捕获的方法中，基于探针杂交的方法是最普遍适用并已广泛用于人和小鼠的外显子组捕获。这种方法又分为固相捕获(例如：芯片捕获)和液相捕获，取决于捕获反应发生装置的方式。而其中液相捕获更流行，因为其自动化的机械捕获方式更有优势。但这些杂交捕获的方法除了其本身的捕获效率较低、需要比较繁琐耗时的DNA文库构建步骤等固有缺陷外，其预定制的探针库也大大限制了大多数研究对目标区域和物种选择的灵活性。而基于PCR的富集可以绕开shotgun文库的制备，而是直接在最后的扩增阶段通过合适的5’引物进行片段扩增后用于测序，在候选区域的选择上相对灵活而且实验室操作性较强，但这种方法的主要缺陷是不易实现规模化(多重引物的交叉匹配、二聚体形成和非特异性匹配等问题)，无论是对非常大的基因组区域进行富集还是同时处理大量的样本。

基于分子倒置探针(MIP)的环化方法，与其它的方法有很大不同，最显著的特点是其有极高的特异性，但却很难在单个反应中对多个样本进行同时处理。用于环化富集的每对探针包含一段单链的DNA寡核苷酸，其两端的序列分别与富集区域的部分不连续片段互补，并成颠倒的线性顺序。靶向互补的臂比如挂锁探针的5’和3’端在与靶向序列杂交时迅速接近并杂交，在靶区域留下一段空隙；如果其5’是磷酸化的，DNA连接酶会连接起两端，形成环状的挂锁探针，链接在靶向区域。在环化之后，核酸外切酶消化去除大量的未环化探针和DNA片段。接下来在一个多模版PCR反应中，再经滚环扩增或者直接PCR，靶向所有环上的共同序列来扩增目标区域以此产生NGS文库。为检测靶序列的出现或者缺失，该反应的敏感度只需要单个的杂交事件，并且特异性很好。分子内挂锁反应的快速动力学更偏向于靶序列-探针的杂交，而不是探针-探针相互作用，因此，挂锁探针可以进行高度的多重反应。但该方法的一个重要的缺陷是其MIP倒置探针的长度很长(～70-300nt)，在合成难度和成本上都很受限制，同时较长的探针形成环后容易出现空间构象上的约束，比如环内杂交，这样会导致其单次靶向的目标区域的片段大小有限(100-200bp)。

为了有效利用这些方法的优势的同时规避其缺陷，满足日益多元化的研究需求，一些新的靶向富集的方法被开发出来，其中illumina开发的TruSeq Custom Amplicon是一个可完全定制的、基于扩增子检测的靶向重测序***，通过该***，研究人员可以关注基因组中任何我们感兴趣的关键区域，允许在单个反应中同时对覆盖基因组区间600kb长度的多达1,536个扩增子进行测序。该体系是基于延伸连接反应(Extention-ligation)，首先，针对每个目标区域扩增子设计一对寡核苷酸探针(序列由一段通用序列和与扩增子两侧序列互补的特异序列组成)，多对探针(可达1,536对)混合在一个反应管中(Custom amplicontube,CAT)，加入未片段化的样品DNA，CAT探针与目标区域的两侧序列杂交，并通过片段大小选择去除未杂交上的寡核苷酸序列，再先后在聚合酶和连接酶的作用下经延伸和连接后得到包含靶区域的扩增子片段，通过包含测序接头和样品标签序列的与通用序列互补的引物进行PCR扩增，这样就得到多目标区域的扩增子文库，多个样品(单次MiSeq run最多支持96个样品混合)可以混合成库，经MiSeq System进行测序分析。但该方法也有一些不足之处：(1)该富集过程在探针杂交后只进行单轮的延伸连接反应，容易出现杂交脱靶和非特异性杂交，对复杂序列的捕获效率较低；(2)通过片段大小分选的方式去除未杂交探针，无法有效避免非特异性杂交和非目的片段残留。

申请人前期公开并获授权的“一种高通量核酸分析方法及其应用”(ZL201210581830.9)的发明技术也可基于延伸连接反应(Extention-ligation)实现目标区域的快速富集，但相比TruSeq Custom Amplicon技术，它采用5’抗外切核酸酶修饰的5端延伸引物以及3’抗外切核酸酶修饰的3端连接探针，通过变性杂交/多重延伸连接同时反应、反应产物用各种核酸外切酶联合作用如核酸外切酶I(exonucleaseI)、核酸外切酶III(exonuclease III)及λ核酸外切酶(lamda exonuclease)共同消化处理去除非连接产物的单链或双链DNA、用包含测序接头和样品标签序列的与通用序列互补的引物进行PCR扩增，从而实现多目标区域的扩增子文库构建。该方法通过样本基因组DNA/探针杂交与聚合酶/连接酶延伸连接同管同时进行减少操作步骤，通过多重延伸连接循环提供基因组DNA模板利用效果，具有一定优势，但同时也存在体系优化难以及非特异扩增产物酶切不彻底等不足。

为了实现高通量，低成本，快速高效的靶区域富集测序，找出该区域内的致病突变、孟德尔遗传病等位基因的新突变或者外显子编码信息的改变，充分开发利用序列信息为人类进行疾病诊断与预防，实现个性化的医疗方案，以及药物开发，生物工程等领域的具体研究具有重要而深远的意义，上述的几种方法都具有很高的应用价值，但也存在许多不足。本领域中需要开发出新的低成本、高效率、非特异扩增少的靶基因富集技术。

发明内容

本发明的目的在于提供一种靶基因区域快速富集方法。

本发明的第一方面，提供了一种核酸片段的富集方法，所述方法包括步骤：

(1)提供一反应体系，所述反应体系包括：待测样本、n个探针组；

其中，所述n≥2，各个探针组中分别包含第一探针和第二探针；

所述第一探针和所述第二探针分别与同一条目标核酸片段的3’端和5’端特异性杂交(所述特异性杂交是指至少部分互补或完全互补)；

所述第一探针不能被5’->3’方向核酸外切酶降解和/或所述第二探针不能被3’->5’方向核酸外切酶降解；

所述第一探针包括与目标核酸片段3’端特异性杂交的第一部分和与后续PCR扩增引物序列相对应的第二部分(所述相对应是指所述第二部分的反向互补序列与PCR扩增引物能够特异性杂交)；

所述第二探针包括与目标核酸片段5’端特异性杂交的第一部分和与后续PCR扩增引物序列特异性杂交的第二部分；

当所述第一探针和所述第二探针与同一目标核酸片段特异性杂交时，所述第一探针的3’末端与所述第二探针的5’末端至少间隔1个核苷酸的距离；

(2)对所述反应体系进行高温变性、退火处理，所述第一探针和所述第二探针在高温变性、退火过程中与所述待测样本的目标核酸片段特异性杂交形成杂交产物，从而获得反应混合物I，所述反应混合物I中含有所述杂交产物；

(3)用一种或多种单链核酸特异外切酶对所述的反应混合物I进行消化处理，从而消化去除未与目标核酸片段杂交的第一探针和第二探针，从而获得经消化的反应混合物II，所述反应混合物II中含有未被消化的所述杂交产物；

(4)对所述反应混合物II进行纯化处理，进一步去除残留的未与目标核酸片段杂交的第一探针和第二探针，从而获得经纯化的、含所述杂交产物的反应混合物III；

(5)利用核酸聚合酶和核酸连接酶对所述反应混合物III中的所述杂交产物进行延伸连接反应形成连接产物，从而获得含连接产物的反应混合物IV；和

(6)以所述反应混合物IV中的连接产物为模板，进行PCR扩增，从而获得PCR扩增产物，即为富集的核酸片段。

在另一优选例中，在步骤(4)中，所述纯化处理还同时去除反应混合物I中的盐离子和蛋白。

在另一优选例中，所述的杂交产物为第一探针和第二探针与目标核酸片段单链结合形成的三元复合物。

在另一优选例中，在步骤(4)中，用物理方法进行纯化处理。

在另一优选例中，在步骤(3)中，所述的单链核酸特异外切酶切割(或消化)：未与探针特异性杂交形成所述杂交产物的单链DNA(尤其是互补链)、未结合的(或游离的)第一探针、和结合的(或游离的)所述第二探针。

在另一优选例中，在步骤(3)中，所述的单链核酸特异外切酶不切割(或消化)或基本不切割所述杂交产物。

在另一优选例中，所述的n个探针组分别靶向不同的目标核酸片段。

在另一优选例中，所述的n的下限为20、30、40、50、100、200、或500，和/或所述的n的上限为2000、5000、10000、100000、500000、或1000000。

在另一优选例中，在步骤(6)之后，还包括步骤：将所述PCR扩增产物制作成核酸片段文库。

在另一优选例中，在步骤(5)中，在所述核酸聚合酶作用下，所述第一探针沿所述目标核酸片段进行DNA链延伸，延伸至所述第二探针的5’末端时被其阻滞，获得第一探针延伸DNA链；以及在所述核酸连接酶的作用下，将所述第一探针延伸DNA链3’端与所述第二探针5’端连接，从而形成含连接产物的反应混合物。

在另一优选例中，所述第一探针不能被5’->3’方向核酸外切酶降解，能够被3’->5’方向核酸外切酶降解。

在另一优选例中，所述第一探针的5’端带有防止核酸外切酶降解的保护基团。

在另一优选例中，所述第二探针不能被3’->5’方向核酸外切酶降解，能够被5’->3’方向核酸外切酶降解。

在另一优选例中，所述第二探针的3’端带有防止核酸外切酶降解的保护基团。

在另一优选例中，所述第一探针不能被5’->3’方向核酸外切酶降解，并且步骤(3)中所用的核酸外切酶为5’->3’方向单链核酸特异外切酶。

在另一优选例中，所述第二探针不能被3’->5’方向核酸外切酶降解，并且步骤(3)中所用的核酸外切酶为3’->5’方向单链核酸特异外切酶。

在另一优选例中，所述第一探针不能被5’->3’方向核酸外切酶降解且所述第二探针不能被3’->5’方向核酸外切酶降解，并且步骤(3)中同时使用5’->3’方向单链核酸特异外切酶和3’->5’方向单链核酸特异外切酶。

在另一优选例中，所述方法中通过在所述第一探针的5’端和/或所述第二探针的3’端进行抗核酸外切酶的修饰，以实现所述第一探针不能被5’端核酸外切酶降解和/或所述第二探针不能被3’端核酸外切酶降解。

在另一优选例中，所述修饰包括但不限于：Phosphorothioates修饰，5-PropynepdC修饰,pdU修饰，2’-Fluoro bases修饰，2’-O-methyl bases修饰，2’-5’linked bases修饰，LNA bases修饰，Chimeric linkage修饰，3’Inverted dT修饰、或其组合。

在另一优选例中，所述第一探针的5’端的1-10个，较佳地2-6个碱基具有抗核酸外切酶的修饰。

在另一优选例中，所述第二探针的3’端的1-10个，较佳地2-6个碱基具有抗核酸外切酶的修饰。

在另一优选例中，所述的核酸外切酶选自下组：T5 Exonuclease、T7Exonuclease、Lambda Exonuclease、RecJ_f、Exonuclease T、Exonuclease I、Exonuclease V、Exonuclease III、或其组合。

在另一优选例中，所述核酸聚合酶为高温耐热核酸聚合酶，优选地，所述核酸聚合酶选自下组：Hemo (NEB)、AmpliTaq DNA Polymerase(AmpliTaq DNA聚合酶)、Stoffel Fragment(Life Technologies)；/>Hot Start Flex DNA Polymerase(NEB)。

在另一优选例中，所述核酸聚合酶为基本上没有5’到3’核酸外切酶活性的聚合酶。

在另一优选例中，所述核酸连接酶为高温耐热核酸连接酶，优选地，所述核酸连接酶选自下组：Taq DNA Ligase(NEB)；Ampligase(Epicentre)；9°N^TMDNA Ligase(NEB)。

在另一优选例中，扩增同一个目标核酸片段的所述第二探针的Tm值高于所述第一探针的Tm值。

在另一优选例中，所述第二探针的Tm值高出所述第一探针的Tm值3℃-10℃，优选地所述第二探针的Tm值高出所述第一探针的Tm值4℃-6℃，如5℃。

在另一优选例中，各所述探针组中的各第一探针的Tm值为59℃-68℃。

在另一优选例中，各所述探针组中的各第二探针的Tm值为68℃-75℃。

在另一优选例中，所述第二探针的5’端是经磷酸化修饰的。

在另一优选例中，所述n(探针组的种数)为20-1000000，优选为30-500000，更优选为40-100000，最优选为50-10000，如100-10000,500-10000，1000-10000。

在另一优选例中，本发明中将针对同一目标(目的)核酸片段的探针组称为一种(个)探针组，例如，当n为2时，则两种探针组分别针对两种不同的目标核酸片段。

在另一优选例中，所述的第一探针的第一部分的长度为16-50bp(优选为21-36bp，更优选为33bp)，和/或第二部分的长度为18-30bp。

在另一优选例中，所述的第二探针的第一部分的长度为16-50bp(优选为21-36bp，更优选为32bp)，和/或第二部分的长度为21-36bp。

在另一优选例中，各个探针组的第一探针的第二部分是相同或基本相同的。

在另一优选例中，各个探针组的第二探针的第二部分是相同或基本相同的。

在另一优选例中，所述样本中目标核酸片段的总量为1-2000ng，优选为200-500ng。

在另一优选例中，所述样本为源自动物、植物或微生物的核酸样本，优选为DNA样本或RNA反转录产物cDNA样本。

在另一优选例中，所述样本为源自动物(优选为哺乳动物，更优选为人)的核酸样本，优选为DNA样本或RNA反转录产物cDNA样本。

在另一优选例中，所述待测样本中仅包含一种样本或者所述待测样本中包含来自于不同对象的多种检测样本(如分别取自多个患者的样本、或多个不同种组织的样本)。

在另一优选例中，所述反应体系中还包含缓冲液。

在另一优选例中，所述步骤(2)中高温变性、退火处理的条件为95-100℃2-20min，随后50℃处理0.5-20h，较佳地为1-5h。

在另一优选例中，所述步骤(3)中，所述杂交产物不会被核酸外切酶降解，未进行杂交的第一探针和/或第二探针会被核酸外切酶降解。

在另一优选例中，所述步骤(4)中纯化处理包括：磁珠纯化、硅胶柱纯化、膜过滤纯化、乙醇或异丙醇沉淀纯化、或其组合。

在另一优选例中，所述步骤(5)中延伸连接产物的特异序列(即目标核酸序列)长度为30-5000bp，优选为100-1000bp，更优选为150-310bp。

在另一优选例中，所述步骤(5)中不进行扩增循环。

在另一优选例中，所述PCR扩增引物上带有标签序列，所述标签序列长度为1-100bp,优选为5-10bp。不同样本的连接产物可以用带不同标签序列的PCR扩增引物进行扩增，这样不同样本的扩增产物可以混合在一起，在后续测序数据中可以根据该标签序列对测序序列进行归类。

在另一优选例中，所述的PCR扩增引物的长度为42-58bp。

在另一优选例中，在步骤(6)中，仅采用一种PCR扩增引物对。

在另一优选例中，所述步骤(6)中，所述PCR扩增中所使用的引物(PCR扩增引物)包括正向引物和反向引物，所述正向引物包含能够与所述第一探针的所述第二部分序列的反向互补序列特异性杂交的序列，所述反向引物包含与所述第二探针的所述第二部分特异性杂交的序列。

在另一优选例中，所述步骤(6)中，所述正向引物和/或所述反向引物中含有与高通量芯片测序平台兼容的通用序列。

在另一优选例中，所述步骤(6)中，所述正向引物和/或所述反向引物中含有标签序列，针对不同的样本采用不同的标签序列。

在另一优选例中，所述连接产物利用含不同标签序列的通用引物进行扩增建立适合下一代测序平台的文库，同时利用含不同标签序列的通用引物构建的文库可以混合在一起进行下一代测序。

在另一优选例中，所述第一探针的所述第二部分序列为：

5’A*C*ACTCTTTCCCTACACGACGCTCTTCCGATCT3’(SEQ ID NO:1)，其中，*表示硫代修饰。

在另一优选例中，所述第二探针的所述第二部分序列为：

5’pAGATCGGAAGAGCACACGTCTGAACTCCAG*T*C3’(SEQ ID NO:2)，其中，*表示硫代修饰，p表示磷酸化修饰。

在另一优选例中，所述步骤(6)中，所述正向引物序列为：

5’AATGATACGGCGACCACCGAGATCT[x]ACACTCTTTCCCTACACGACGC3’(SEQ ID NO:3),其中[X]为无或标签序列；优选地，[X]长度为0bp-100bp,优选为0bp-10bp，如8bp。

在另一优选例中，所述步骤(6)中，所述反向引物序列为：

5’CAAGCAGAAGACGGCATACGAGAT[x]GTGACTGGAGTTCAGACGTGTGCT 3’(SEQ ID NO:104),其中[X]为无或标签序列；优选地，[X]长度为1bp-100bp,优选为5bp-10bp，如8bp。

在另一优选例中，所述第一探针的第一部分的序列如SEQ ID NO.:2a所示，所述第二探针的第一部分的序列如SEQ ID NO.:2a+1所示，其中，a为2-51的整数。

在另一优选例中，所述方法适用于多重基因片段的富集扩增，同时扩增的基因片段数目可以数十，数百或数千，甚至数万，除了目的基因片段之外还可包含一些参照基因片段，数目可以是0-999。

在另一优选例中，所述方法富集的核酸片段的测序数据可以通过分析获得目的基因片段的拷贝数，分析方法为统计每个目的及参照片段的测序深度，患者样本的每个目的片段的测序深度分别除以每个参照片段的测序深度获得m个比值(m为参照基因片段，参照基因可以是该片段以外的任何基因片段)，每个比值再分别除以正常样本的对应比值或所有样本的中位数比值再乘以正常样本在该目的片段的拷贝数或者绝大部分样本在该片段上的拷贝数，这样就获得m个数值，取其中位数作为该样本在目标片段上的拷贝数检测值。

本发明的第二方面，提供了一种核酸测序方法，所述方法中包括步骤：使用本发明第一方面所述的方法，对目的核酸片段进行富集。

在另一优选例中，所述核酸测序方法中使用高通量芯片测序平台对经使用本发明第一方面所述的方法富集的目的核酸片段进行单分子扩增测序或直接进行单分子测序。

在另一优选例中，所述方法还包括步骤：对测序数据进行分析，对测序序列的样本归类，读取基因突变位点和/或计算各个基因片段拷贝数。

本发明的第三方面，提供了一种试剂盒，所述试剂盒用于核酸片段的富集，所述试剂盒中包括：对应于待测样本中核苷酸序列的一种或多种探针组、核酸聚合酶和核酸连接酶；

探针组中包含第一探针和第二探针，

所述第一探针不能被5’->3’方向核酸外切酶降解；

所述第二探针不能被3’->5’方向核酸外切酶降解；

所述第二探针包括与目标核酸片段5’端特异性杂交的第一部分和与后续PCR扩增引物序列相对应的第二部分(所述相对应是指所述第二部分与PCR扩增引物能够特异性杂交)；

当所述第一探针和所述第二探针与同一目标核酸片段特异性杂交时，所述第一探针的3’末端与所述第二探针的5’末端至少间隔1个核苷酸的距离。

在另一优选例中，所述试剂盒中还包括PCR扩增引物，所述PCR扩增引物包括正向引物和反向引物，所述正向引物包含能够与所述第一探针的所述第二部分的反向互补序列特异性杂交的序列，所述反向引物包含与所述第二探针的所述第二部分特异性杂交的序列。

在另一优选例中，所述正向引物和/或所述反向引物中含有与高通量芯片测序平台兼容的通用序列。

在另一优选例中，所述正向引物和/或所述反向引物中含有标签序列，针对不同的样本采用不同的标签序列。

在另一优选例中，所述试剂盒中还包括常规的PCR试剂。

应理解，在本发明范围内中，本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

附图说明

图1显示了发明的操作流程。

图2显示了实施例中3个患者样本目的基因片段拷贝数的检测值。

具体实施方式

本发明人经过广泛而深入地研究，首次意外地发现一种基于延伸连接反应的靶基因区域富集新技术。实验结果表明，本发明的方法可以实现多重目的基因片段的快速富集，显著提高的靶序列的富集效率，提高目的基因片段的有效读数和测序深度。多重目的基因片段的富集产物可以通过修饰及纯化定量后用于各种高通量芯片测序平台如二代测序平台的测序分析。在此基础上完成了本发明。

具体地，本发明在总结了TruSeq Custom Amplicon以及发明人前期开发的“一种高通量核酸分析方法及其应用”技术的不足之处后，发明了一种新的基于延伸连接反应的多重目标基因区域快速富集方法，它采用抗外切核酸酶修饰的延伸引物或/及阻滞探针，在引物探针对与样本基因组DNA变性杂交后进行单个或多个单链核酸特异外切酶酶切纯化，酶切纯化产物再通过磁珠纯化、硅胶柱纯化或膜过滤纯化等物理方法二次纯化，然后采用与二代测序平台相匹配的通用引物进行扩增纯化获得测序文库。该方法对靶序列的捕获特异而高效，其扩增产物的测序数据还可以用于目标基因片段拷贝数分析，从而实现目的基因片段点突变以及拷贝数的同时检测。

在本发明一个优选的实施方式中，所述方法的步骤如下(如图1所示)：

a)针对目的核酸片段设计两个特异性DNA探针，一个是5’端延伸引物探针，另一个3’端延伸阻滞探针，5’端探针前半部分序列是后续PCR扩增引物相一致的通用序列，而后半部分为与目的核酸片段杂交的特异序列，3’端探针的5’端进行磷酸化修饰，前半部分为与目的核酸片段杂交的特异序列，后半部分是后续PCR扩增引物相一致的通用序列，5’端探针的5’末端几个碱基进行保护修饰^①免受核酸外切酶降解，或者3’端探针的3’末端几个碱基进行保护修饰^①免受核酸外切酶降解，或者2者同时修饰，这两个探针之间有若干个碱基距离，

b)探针与模板DNA杂交后用一种或多种单链核酸特异外切酶②进行消化去除未与模板DNA杂交上的残留引物探针。

c)酶切消化产物再利用磁珠纯化、硅胶柱纯化或膜过滤纯化等物理方法进行二次纯化

d)纯化产物在同时含聚合酶和连接酶的反应体系中进行延伸连接反应：在没有5’->3’外切酶活性的聚合酶作用下延伸将两个探针间隙补上，然后在连接酶作用下进行连接；

e)连接反应产物用磁珠纯化、硅胶柱纯化或膜过滤纯化等物理方法进行纯化；

f)利用一对与后续高通量芯片测序平台扩增引物或测序引物相匹配的PCR引物对纯化连接产物进行扩增获得富集了多个目的基因片段的适合后续高通量芯片测序平台的测序文库。通常情况下，PCR引物还有一段数个至数十个碱基长度的标签序列，不同样本的连接产物可以用带不同标签序列的PCR引物进行扩增，这样不同样本的扩增产物可以混合在一起，在后续测序数据中可以根据该标签序列将测序序列归类到不同样本中去；

g)连接探针扩增产物利用下一代高通量芯片测序平台进行单分子扩增测序或直接单分子测序；

h)对测序数据进行分析，实现测序序列的样本归类，基因突变位点读取以及各个基因片段拷贝数计算：首先根据标签序列将测序获得的序列归到相应的样本上，然后利用相应软件将每个序列与参照基因组序列进行匹配并读取差异序列差异获得突变位点，统计每个连接产物的测序序列数目，通过参照基因片段的校正后再与正常样本的该校正值对比计算该基因片段的拷贝数。

本发明的抗核酸外切酶的修饰包括但不限于以下类型：Phosphorothioates,5-Propyne pdC,pdU,2’-Fluoro bases,2’-O-methyl bases,2’-5’l inked bases,LNAbases,Chimeric linkage,3’Inverted dT。

本发明的核酸外切酶包括但不限于以下类型：T5 Exonuclease，T7Exonuclease，Lambda Exonuclease，RecJ_f，Exonuclease T，Exonuclease I，Exonuclease V，Exonuclease I II。

本发明的主要优点包括：

(a)本发明的方法首先在延伸引物5’端和/或阻滞探针3’端引入抗外切核酸酶修饰，再对杂交产物进行酶切纯化，然后再进行物理方法二次纯化尽可能去除未杂交上基因组DNA的残留引物探针，纯化产物然后利用高温连接酶及聚合酶，在1个反应体系同时完成延伸连接反应。本发明的方法可以显著减少非特异性扩增，提高富集效率。

(b)本发明的方法可以实现多重目的基因片段富集，基因片段数可以数十至数千，甚至数万。

(c)本发明的方法操作简单快速，可以在数小时之内实现数百个样本的目的片段富集。

(d)通过本发明方法富集的产物中不同片段含量的相对比例同原始模板这些片段的相对比例存在一定的对应关系，因此，这些产物的测序数据除了能够提供点突变信息外还可以通过参照片段以及参照样本的双重校正后获得目标片段的拷贝数信息。

(e)本发明方法可以出乎意料地显著提高检测结果的信噪比，尤其是在同一体系中采用多个探针组(n个探针组)的情况下尤其显著，例如n≥20、≥30、≥40、≥50、≥100、≥200、或≥500时。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件，例如Sambrook等人，分子克隆：实验室手册(New York:Cold Spring HarborLaboratory Press,1989)中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数是重量百分比和重量份数。

实施例1

针对MVK，MVD，PMVK，FDPS 4个基因的各个外显子设计了42对探针，特异序列扩增长度为183bp-280bp，同时也针对8个参照基因片段设计了8对探针，特异序列扩增长度为185bp-283bp。利用这些探针对采用本发明技术对目的基因片段以及参照基因片段在1个反应体系中进行同时扩增。3个患者样本以及1个正常人样本在延伸连接之后的PCR扩增时采用含不同标签序列的通用引物对，不同样本的扩增产物先进行混合，纯化定量后采用美国il lumina公司的MiSeq二代测序仪进行测序，测序数据先根据不同标签序列进行分拣，每个样本的测序数据利用Burrows-Wheeler Aligner(BWA)软件进行与人参照基因组进行配对然后进行测序数据统计，同时利用该统计数据进行目的基因片段的拷贝数估计。

(一)具体实验步骤

1，探针设计

依据primer3引物设计软件(http://bioinfo.ut.ee/primer3-0.4.0/primer3/)基本原理，采用自行开发的程序，针对MVK，MVD，PMVK，FDPS 4个基因的所有外显子设计了42对探针，特异序列扩增长度为183bp-280bp，同时也针对8个参照基因片段设计了8对探针，特异序列扩增长度为185bp-283bp。5’延伸引物(第一探针)由5’端通用序列(第二部分)加上3’端特异序列(第一部分)组成，5’端通用序列为5’ACACTCTTTCCCTACACGACGCTCTTCCGATCT3’(SEQ ID NO:1)，3’阻滞探针(第二探针)由5’端特异序列(第一部分)加上3’端通用序列(第二部分)组成,其5’端进行磷酸化修饰，而3’端最后2个碱基之间的磷酯键用硫酯键代替，3’端通用序列为5’AGATCGGAAGAGCACACGTCTGAACTCCAGTC3’(SEQ ID NO:2)。5’延伸引物特异序列的Tm值为59℃-68℃，3’阻滞探针特异序列的Tm值为68℃-75℃,同一个扩增片段的3’阻滞探针的Tm值通常比5’延伸引物大5℃以上。富集片段及探针特异序列信息见表1。

2，杂交纯化

1)配制10×杂交液：100mM Tris.Cl，500mM NaCl，1mM EDTA，pH8.0。

2)将基因组DNA稀释到25ng/μl,配制10μl变性体系：1.375μl 1×TE,pH8.0,0.625μl 4×GC溶液(Genesky),8μl基因组DNA。

3)进行基因组DNA片段化及变性：98℃10min；4℃保温。

4)加入5μl探针杂交混合液：1.5μl 10×杂交液，1.5μl引物探针混合液(0.01μΜ/5’延伸引物+0.02μΜ/3’阻滞探针)，2μl ddH₂0。

5)杂交反应：震荡混匀后，上PCR仪器，PCR程序为“95℃5min,50℃反应3h”，室温放置10分钟后备用。

6)加入5μl酶切纯化混合液：0.5μl Exonuclease I(20U/μl,NEB),2μl 10xExonuclease I缓冲液,1μl MgCl₂(100mM),1.5μl ddH₂O。

7)轻微振荡混匀，3000rpm离心2分钟，然后37度30分钟。

8)使用30μl磁珠(1.5×,Vazyme)进行纯化，最后用15μl洗脱液(30mM KCl 10mMTris.Cl,pH8.0)洗脱。

3,延伸连接反应

1)配制延伸连接反应混合液：1.25μl 4×GC溶液,0.4μl HemoKlenTaq(NEB),4μl5×HemoKlenTaq缓冲液,0.1μl Taq DNA ligase(500U/ul,Genesky),0.4μl NAD(50mM),0.4μl 10mM dNTP,0.5μl MgCl₂(100mM)。

2)加入13μl上述杂交纯化洗脱液。

3)延伸连接反应：58℃30min,4℃保温。

4)使用30μl磁珠(1.5×,Vazyme)进行纯化，最后用15μl 10mM Tris.Cl,pH8.0洗脱。

4，连接产物PCR扩增

1)PCR扩增引物对为一条正向通用引物(5’AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGC

3’,SEQ ID NO:3)和一条样本特异反向引物(5’CAAGCAGAAGACGGCATACGAGAT[n₁n₂n₃n₄n₅n₆n₇n₈]GTGACTGGAGTTCAGACGTGTGCT3’SEQ ID NO:104),这里n₁n₂n₃n₄n₅n₆n₇n₈为标签序列，4个样本对应的标签序列为TGGAAGGA，CGCCTTCA，TAGAAATC和CATTCTGC

2)PCR反应体系为20μl，其中含1×HF缓冲液(NEB),2.5mM MgCl₂,0.3mMdNTP混合液,0.3μM每对引物，1U Phusion DNA聚合酶(NEB)以及10μl上述延伸连接纯化产物。

3)反应体系混合液按如下PCR程序运行：98℃30s；(98℃10s,65℃30s,72℃1min)×30；72℃5min；4℃保温。

5，将上述4个样本的PCR扩增产物混合之后，用2％琼脂糖凝胶电泳后割胶分离出200bp-500bp之间的片段，片段产物采用RT-qPCR进行分子数定量。

6，定量后的文库上美国illumina公司的MiSeq二代测序仪进行测序。

7，数据分析：对测序数据根据不同标签序列进行分拣获得每个样本的测序数据；测序数据用Burrows-Wheeler Aligner(BWA)程序进行与人基因组参照序列配对，统计每个样本总测序量，每个目的及参照片段的测序深度以及每个样本的富集效率；患者样本的每个目的片段的测序深度分别除以8个参照片段的测序深度获得8个比值，每个比值再分别除以正常样本的对应比值再乘以2，这样就获得8个数值，取其中位数即为该样本在目标片段上的拷贝数检测值。

(二)实验数据结果

1)4个样本50片段的测序数据统计

3个病人样本(P1,P2,P3)以及1个正常样本(C1)的每个片段的测序深度见表2，测序数据的统计结果见表3。从统计数据看，4个样本均实现50个基因片段的有效富集：其富集效率均达到85％以上，平均有效读数500×以上，所有片段的测序深度都达到10×以上。

并且，PCR扩增产物的琼脂糖凝胶电泳结果显示，非特异性扩增显著下降，几乎没有杂带，显著降低了背景。

2)样本拷贝数检测值

利用测序深度数据进行各个片段的拷贝数计算。三个病人样本(P1,P2及P3)的42个基因片段的拷贝数检测值见图2，从图中可以看出P1在MVK基因上至少缺失了外显子1至外显子5区段，而P2及P3在FDPS基因上分别缺失了外显子1至外显子3区段和外显子5至外显子8区段。经RT-PCR实验的验证，这些缺失突变结果是准确的。

表1富集基因片段及其探针特异序列信息

/>

a,该基因位置的统计对应的mRNA分别为MVK(NM_000431.2),PMVK(NM_006556.3),MVD(NM_002461.1)以及FDPS(NM_002004.2)。

表2 4个样本50个基因片段的测序深度数据

/>

表3 4个样本50个基因片段的测序数据统计

数据统计	P1	P2	P3	C1
					(>2×)％	100％	100％	100％	100％
(>10×)％	100％	100％	100％	100％
					中位数读数	693	417	540	453
平均读数	835	523	647	581
					有效读数	41797	26151	32358	29096
总读数	47795	29566	36533	32415
					富集效率	87.45％	88.45％	88.57％	89.76％

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

序列表

<110> 天昊生物医药科技（苏州）有限公司

<120> 一种靶基因区域快速富集方法

<130> P2020-1200

<160> 104

<170> SIPOSequenceListing 1.0

<210> 1

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

acactctttc cctacacgac gctcttccga tct 33

<210> 2

<211> 32

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

agatcggaag agcacacgtc tgaactccag tc 32

<210> 3

<211> 47

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgc 47

<210> 4

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

atcagtgggt gggagaagat gtc 23

<210> 5

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

tgggccactg gggctttagg 20

<210> 6

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

tgccatcgtg tgatagaatg gtt 23

<210> 7

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

tgcctgcctt ccaagcaacg 20

<210> 8

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

ccctgccttt gtggatttat cat 23

<210> 9

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

tgccaccctc cagtagcctt ttcc 24

<210> 10

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

cttctgcagc ttcctcctcc tc 22

<210> 11

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 11

ggggaagtgc tctctgtgtc catgc 25

<210> 12

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 12

agagcaccaa gcttgcattg act 23

<210> 13

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 13

ccctggaggt gtgcattgca gga 23

<210> 14

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

aaatgtggtt gccacacagt cag 23

<210> 15

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

ctcgcaacca ttcagccaca gca 23

<210> 16

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

catctggaat tacagggcct ttc 23

<210> 17

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 17

ggggtcactg ggacatggga agg 23

<210> 18

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

atgtggatgc tgccaaaatg 20

<210> 19

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 19

ggcaaatggg ggagggcaga tta 23

<210> 20

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 20

ggaaaacccg tgtcggct 18

<210> 21

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 21

gcgcgaggtc ctagacccag g 21

<210> 22

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 22

tgcctcaggg tgtcctttta 20

<210> 23

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 23

gcaaagatct ctagatgtca gaaccagcag g 31

<210> 24

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 24

tcaccctcag gcttattgct 20

<210> 25

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 25

ggtgtgctaa gagcctacag agagggc 27

<210> 26

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 26

ccaaagtccc tctcacccac t 21

<210> 27

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 27

ccagattcag cctcccatgg agaaa 25

<210> 28

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 28

cgggagagtc acgtttcac 19

<210> 29

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 29

tacctggcca gtgtccctcc cg 22

<210> 30

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 30

ccactcctca ctgccacag 19

<210> 31

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 31

tgcccaagag tctgtgctgg tttg 24

<210> 32

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 32

atggctgaat gtgctgctc 19

<210> 33

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 33

tttgccccat tcaggaaaga ggc 23

<210> 34

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 34

ccagctcctc catcttgagt 20

<210> 35

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 35

ggtttcagga aggccaggac acaattac 28

<210> 36

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 36

ttggacagtg gtgtggactc 20

<210> 37

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 37

ggaacggctg gtgaggcctg 20

<210> 38

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 38

ccaagtggga acagatggaa 20

<210> 39

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 39

taggtgggcc aggctgccag 20

<210> 40

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 40

gagagttgtc aagggtgacc tg 22

<210> 41

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 41

cacccagatg cccctttctg gattatt 27

<210> 42

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 42

aggtagtcgc gtccggttc 19

<210> 43

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 43

ggtcagccct gttcgcagct acg 23

<210> 44

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 44

atttcctctt gccgctgaac 20

<210> 45

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 45

ggagaaaagg gtgagacacg cgg 23

<210> 46

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 46

agaagtgtca gcttcaggca tc 22

<210> 47

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 47

cacgaggagt gcttttgggt gtca 24

<210> 48

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 48

ttctaggcta actggattct gatctc 26

<210> 49

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 49

actggcatga ttcccgtcac cac 23

<210> 50

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 50

aggttgaaag gccggtga 18

<210> 51

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 51

ctccatggca gcatgaagaa cacc 24

<210> 52

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 52

gtcctgttgg tcacctgtct g 21

<210> 53

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 53

caggctaccc accctgtggt ttgt 24

<210> 54

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 54

atgcctgctg tctgtctgga g 21

<210> 55

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 55

tgagctgggg cctgctgagg t 21

<210> 56

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 56

taagtggctg tggagctgg 19

<210> 57

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 57

cgggggtcgc gcgctgatt 19

<210> 58

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 58

agatgtgagc caccataccc 20

<210> 59

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 59

agtgttcccc acaggtgccc c 21

<210> 60

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 60

agccatgagg ctctctcagt 20

<210> 61

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 61

cataagccca tccctccctg ttgtc 25

<210> 62

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 62

agagcatgaa gtggctcctg 20

<210> 63

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 63

cagcaccctg cccgccctg 19

<210> 64

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 64

cagaagccct gtcatctgga a 21

<210> 65

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 65

gtggcagatg ggagagcagg c 21

<210> 66

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 66

aagcaaagcc tggatgga 18

<210> 67

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 67

tccacaaagc ccccatacag gc 22

<210> 68

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 68

gtggcccagg ctgtctct 18

<210> 69

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 69

agaccacgtg caggagccaa atg 23

<210> 70

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 70

gtaagagatg ggcgggaag 19

<210> 71

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 71

atggagccgc tgggggtctc 20

<210> 72

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 72

aaggacagca accagttcca c 21

<210> 73

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 73

cgtgtctagg cttgtgctgc cgtg 24

<210> 74

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 74

cagagttcct ggcaccatct 20

<210> 75

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 75

tggtctgcca ggcggcctt 19

<210> 76

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 76

cttagagaaa cggatgcatt cac 23

<210> 77

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 77

cagcccccag ggcccttaaa g 21

<210> 78

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 78

aggccacccc ttctccaa 18

<210> 79

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 79

agcatctgta gggccggaca cagg 24

<210> 80

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 80

ccatgctcac acgacggcc 19

<210> 81

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 81

tgtgctgggc cttggaggaa g 21

<210> 82

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 82

ctccccaagg cccctcac 18

<210> 83

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 83

atagggaggg ggcactaagc actccc 26

<210> 84

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 84

ggagcagctg atcaggtttc tga 23

<210> 85

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 85

tgacttgggg gagtaaggct ttggttca 28

<210> 86

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 86

aacttcttct cccttgccct acc 23

<210> 87

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 87

gctctctccc atttccaacc accacc 26

<210> 88

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 88

aaagtagcag ctctgttgct gatagaag 28

<210> 89

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 89

ggtatgggga caggccacag gga 23

<210> 90

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 90

gctaccatgg gcaccctctg 20

<210> 91

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 91

agtctcggtt catactaaga gccatcaccc 30

<210> 92

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 92

ccccttctgt tgcctttctg att 23

<210> 93

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 93

atgtctggac agcgagggag ggc 23

<210> 94

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 94

gctctatgcc ttgctgtcca aaa 23

<210> 95

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 95

acatcctgag ccctccctcg ctg 23

<210> 96

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 96

cccctggggt ttggcttatt aac 23

<210> 97

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 97

tcctcttttg ctgccctccc cc 22

<210> 98

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 98

ccaactcagg gacccaccac 20

<210> 99

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 99

ctggtgcctg ttctctgcta ctgcctc 27

<210> 100

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 100

ggaaggccaa gcccgtttt 19

<210> 101

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 101

gaaagtgacc tagagattgc aagggcg 27

<210> 102

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 102

caccctgcac attctggaaa gag 23

<210> 103

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 103

atattgcaag aacactgctg gcagatcca 29

<210> 104

<211> 48

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 104

caagcagaag acggcatacg agatgtgact ggagttcaga cgtgtgct 48

Claims

1.一种核酸片段的富集方法，其特征在于，所述方法包括如下步骤：

所述第一探针和所述第二探针分别与同一条目标核酸片段的3’端和5’端特异性杂交，所述特异性杂交是指至少部分互补或完全互补；

所述第一探针包括与目标核酸片段3’端特异性杂交的第一部分和与后续PCR扩增引物序列相对应的第二部分，所述相对应是指所述第二部分的反向互补序列与PCR扩增引物能够特异性杂交；

(2)对所述反应体系进行高温变性、退火处理，所述第一探针和所述第二探针在高温变性、退火过程中与所述待测样本的目标核酸片段特异性杂交形成杂交产物，从而获得反应混合物I，所述反应混合物I中含有所述杂交产物，其中，高温变性、退火处理的条件为95-100℃ 2-20min，随后50℃处理0.5-5h；

(4)对所述反应混合物II进行物理纯化处理，进一步去除残留的未与目标核酸片段杂交的第一探针和第二探针，从而获得经纯化的、含所述杂交产物的反应混合物III；

(5)利用核酸聚合酶和核酸连接酶对所述反应混合物III中的所述杂交产物进行延伸连接反应形成连接产物，从而获得含连接产物的反应混合物IV，并且该步骤中不进行扩增循环；和

2.如权利要求1所述的方法，其特征在于，在步骤(5)中，在所述核酸聚合酶作用下，所述第一探针沿所述目标核酸片段进行DNA链延伸，延伸至所述第二探针的5’末端时被其阻滞，获得第一探针延伸DNA链；以及在所述核酸连接酶的作用下，将所述第一探针延伸DNA链3’端与所述第二探针5’端连接，从而形成含连接产物的反应混合物。

3.如权利要求1所述的方法，其特征在于，所述第一探针不能被5’->3’方向核酸外切酶降解，并且步骤(3)中所用的核酸外切酶为5’->3’方向单链核酸特异外切酶；和/或

所述第二探针不能被3’->5’方向核酸外切酶降解，并且步骤(3)中所用的核酸外切酶为3’->5’方向单链核酸特异外切酶。

4.如权利要求1所述的方法，其特征在于，所述方法中通过在所述第一探针的5’端和/或所述第二探针的3’端进行抗核酸外切酶的修饰，以实现所述第一探针不能被5’端核酸外切酶降解和/或所述第二探针不能被3’端核酸外切酶降解。

5.如权利要求4所述的方法，其特征在于，所述修饰包括：Phosphorothioates修饰，5-Propyne pdC修饰, pdU修饰，2’-Fluoro bases修饰，2’-O-methyl bases修饰，2’-5’linked bases修饰，LNA bases修饰，Chimeric linkage修饰，3’ Inverted dT修饰、或其组合。

6.如权利要求1所述的方法，其特征在于，扩增同一个目标核酸片段的所述第二探针的Tm值高于所述第一探针的Tm值。

7.如权利要求1所述的方法，其特征在于，所述探针组的种数n为20-1000000。

8.如权利要求1所述的方法，其特征在于，所述探针组的种数n为30-500000。

9.如权利要求1所述的方法，其特征在于，所述探针组的种数n为40-100000。

10.如权利要求1所述的方法，其特征在于，所述探针组的种数n为50-10000。

11.如权利要求1所述的方法，其特征在于，各个探针组的第一探针的第二部分是相同的，和/或各个探针组的第二探针的第二部分是相同的。

12.如权利要求1所述的方法，其特征在于，所述步骤(4)中纯化处理包括：磁珠纯化、硅胶柱纯化、膜过滤纯化、或其组合。

13.如权利要求1所述的方法，其特征在于，所述第二探针的5'端是经磷酸化修饰的。

14.如权利要求1所述的方法，其特征在于，所述核酸聚合酶为高温耐热核酸聚合酶；和/或所述核酸连接酶为高温耐热核酸连接酶。

15.如权利要求1所述的方法，其特征在于，所述步骤(6)中，所述PCR扩增中所使用的引物包括正向引物和反向引物，所述正向引物包含能够与所述第一探针的所述第二部分序列的反向互补序列特异性杂交的序列，所述反向引物包含与所述第二探针的所述第二部分特异性杂交的序列。

16.一种核酸片段富集方法，其特征在于，所述方法中包括如下步骤：使用权利要求1-15任一项所述的方法，对目的核酸片段进行富集。