CN105925671B

CN105925671B - 一种从核酸样品富集目标序列核酸的方法

Info

Publication number: CN105925671B
Application number: CN201610250133.3A
Authority: CN
Inventors: 蔡万世; 王瑞超; 屈武斌; 杭兴宜
Original assignee: Aiji Taikang (jiaxing) Biotechnology Co Ltd
Current assignee: Aiji Taikang (Jiaxing) Biotechnology Co., Ltd.
Priority date: 2016-04-22
Filing date: 2016-04-22
Publication date: 2019-07-23
Anticipated expiration: 2036-04-22
Also published as: AU2016403554A1; AU2016102398A4; WO2017181670A1; CN105925671A

Abstract

本发明提供了一种从核酸样品富集目标序列核酸的方法，所述方法包括：提供包含目标核酸序列的核酸样品和与目标核酸序列一致或对目标序列具有特征性的诱饵序列；以所述诱饵序列为模板进行体外转录制备核酸类似物，所述核酸类似物带有结合部分；使所述核酸样品片段化；所述核酸类似物与所述核酸样品杂交，使得所述核酸类似物与所述目标序列核酸形成核酸类似物/DNA杂交复合物；通过所述结合部分，从非特异性杂交核酸中分离所述核酸类似物/DNA杂交复合物，去除非目标序列核酸。在优选的实施方案中，所述方法还包括对所述核酸类似物/DNA杂交复合物进行扩增，达到富集目标序列核酸的目的。

Description

一种从核酸样品富集目标序列核酸的方法

技术领域

本发明涉及核酸序列的捕获、富集与分析。更具体来说，本发明涉及基于液相捕获的目标序列富集方法。

背景技术

全基因组测序可以获得全基因组水平范围的突变、***、缺失以及结构变异。然而，由于基因组容量较大，以30×进行测序就会产生接近100G的数据量。而肿瘤等相关的低突变频率测序则需要至少1000×的覆盖度，如果进行全基因组测序，则会产生多达3000G的数据量。这样规模的数据量除了会对数据的分析工作造成极大的困难之外，还会使测序成本巨大。这个时候，目标区域捕获技术应运而生。

目标区域捕获技术是指通过特定的技术手段定向的捕获目标区域的核酸序列，然后进行建库测序，以达到在对目标区域进行深度测序的目的的同时使得测序成本大大降低。PCR是一种常见的用于富集目标区域的技术，更为常见的是利用多重PCR技术一次性地捕获多个目标区域。多重PCR更适用于热点区域或者长度较小的目标区域的捕获；对于长度较大的目标区域，例如长度超过100K的目标区域，多重PCR从其成本以及技术复杂度上来看，都不再适合。

因此，本领域中需要适合对长度较大的目标区域进行捕获的新方法。

发明内容

为了解决上述问题，本发明提供了一种基于液相捕获的目标序列富集方法。

在第一方面，本发明提供了一种从核酸样品富集目标序列核酸的方法，所述方法包括：

a)提供包含目标核酸序列的核酸样品和与目标核酸序列一致或对目标序列具有特征性的诱饵序列；

b)以所述诱饵序列为模板进行体外转录制备核酸类似物，所述核酸类似物带有结合部分；

c)使所述核酸样品片段化，优选制备文库；

d)所述核酸类似物与所述核酸样品杂交，使得所述核酸类似物与所述目标序列核酸形成核酸类似物/DNA杂交复合物；

e)通过所述结合部分，从非特异性杂交核酸中分离所述核酸类似物/DNA杂交复合物，去除非目标序列核酸。

在一个实施方案中，在步骤c)的制备文库中在所述核酸样品片段两端连接接头序列，并且在步骤e)还包括步骤f)根据所述接头序列对所述核酸类似物/DNA杂交复合物进行扩增，达到富集目标序列核酸的目的。

在一个实施方案中，其中所述诱饵序列具有选自如下的特性：i)自身不产生发夹结构并且相互之间无二聚体产生，ii)拷贝数根据所述目标核酸序列的GC含量和/或空间结构进行补偿，和iii)当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂度区域时，用所述目标区域两侧区域作为替代区域设计诱饵，设计方法与所述目标区域一致，iv)与核酸样品中目标核酸序列之外的其他序列无特异性结合。

在一个实施方案中，所述诱饵序列的拷贝数还根据所述目标核酸序列受关注情况进行补偿。

在一个实施方案中，其中所述核酸样品是基因组DNA、RNA、cDNA、mRNA，在所述核酸样品是RNA或mRNA的情况下，中步骤c)之前有将所述RNA或mRNA反转录成DNA的步骤。

在一个实施方案中，所述诱饵序列在固体载体上，例如在微阵列载玻片上。

在一个实施方案中，所述固体载体也为多种珠子或者为微阵列。

在一个实施方案中，部分或者全部所述核酸类似物带有结合部分。

在一个实施方案中，步骤b)中利用核酸类似物GNA、LNA、PNA、TNA或吗啉核酸进行体外转录，制备核酸类似物，优选所述核酸类似物带有结合部分。

在一个实施方案中，其中所述结合部分为生物素结合部分。

在一个实施方案中，根据所述目标序列的GC含量对所述诱饵序列拷贝数进行补偿，GC含量越小或者越大，所述目标序列对应的诱饵序列拷贝数增加的就越多。

在一个实施方案中，拷贝数根据所述目标核酸序列的GC含量进行补偿是指：以GC含量在50％的诱饵序列拷贝数系数为基准1，GC含量在10％-90％之间偏离50％每1％，诱饵序列拷贝数系数增加0.08-0.12。

在一个具体实施方案中，诱饵序列拷贝数补偿方法为：根据所述目标序列的GC含量大小从高到低分为6档，其中第1档：10％-30％；第2档：30％-40％；第3档：40％-60％；第4档：60％-70％；第5档：70％-90％；第6档：小于10％或大于90％，其中第3档的诱饵序列的拷贝数为基准拷贝数，第2档和第4档的诱饵序列的拷贝数多于第3档，例如是第3挡的2.2-2.8倍，第1档和第5档的诱饵序列的拷贝数更多，例如是第3挡的3-4倍。对于第6档，GC含量小于10％或大于90％，以及目标区域是低复杂序列的情况，诱饵序列设计方法是：用所述目标区域两侧区域作为替代区域设计探针，一般选择目标区域两侧300bp以内区域作为替代区域，优选150bp以内的区域。

在一个实施方案中，其中所述诱饵序列长度为60-150bp，优选80-120bp。

在一个实施方案中，其中所述与目标核酸序列一致或者对目标序列具有特异性是指，诱饵序列在非目标区域上结合的热力学稳定性要显著弱于在目标区域上结合的热力学稳定性，优选与目标区域T_m-与非特异区域T_m≥5℃，更优选与目标区域T_m-与非特异区域T_m≥10℃；优选Tm的值基于SantaLucia 2007热力学参数表的最邻近法计算。

在一个实施方案中，其中所述无二聚体产生是指，任意两个诱饵序列之间形成的二聚体，其T_m≤47℃，优选≤37℃；优选Tm的值基于SantaLucia 2007热力学参数表的最邻近法计算。

在一个实施方案中，其中所述无发卡结构产生是指，任一诱饵序列自身形成发卡结构，其T_m≤47℃，优选≤37℃；优选Tm的值基于SantaLucia 2007热力学参数表的最邻近法计算。

在一个实施方案中，其中对每个目标区域，所述诱饵序列是在特异性、二聚体、发卡结构以及与目标区域的相对位置方面综合评分最优的一个或者多个诱饵序列，所述综合评分通过如下的打分函数进行：S＝a×S_特异性+b×S_二聚体+c×S_发卡结构+d×S_相对距离，其中a＝0.26-0.34、b＝0.08-0.12、c＝0.17-0.23、d＝0.35-0.45，具体的打分计算方法如下：

S_特异性的打分计算：对新设计的任一条诱饵序列，在基因组上对其进行序列比对，对其每一条比对上的序列分别计算所述诱饵序列与比对上的序列之间Tm，所述诱饵序列与目标区域T_m-其与任一比对上序列T_m之差≥5℃，优选≥10℃，计算所述诱饵序列与所有比对上的序列之间的平均Tm，S_特异性＝1-Tm_平均值/(Tm_目标-5)，优选S_特异性＝1-Tm_平均值/(Tm_目标-10)，其中Tm_平均值是诱饵序列与所有非特异区域比对结果的平均Tm值，Tm_目标是诱饵序列与目标区域T_m

S_二聚体的打分计算：对新设计的任一条诱饵序列，与每一条已经设计的诱饵序列进行二聚体比对分析，对其每一条比对上的序列分别计算所述诱饵序列与所述比对上的诱饵序列之间的Tm，所述T_m＜47℃，计算所述诱饵序列与所有比对上的诱饵序列之间的平均Tm，S_二聚体＝(47-Tm_平均值)/47，优选所述T_m＜37℃，计算所述诱饵序列与所有比对上的诱饵序列之间的平均Tm，S_二聚体＝(37-Tm_平均值)/37；

S_发卡结构的打分计算：对任一条诱饵序列，计算其最佳的自身比对结构，并计算所述结构的Tm，所述T_m＜47℃，并且S_发卡结构＝(47-Tm)/47，优选所述Tm＜37℃，并且S_发卡结构＝(37-Tm_平均值)/37；

S_相对距离的打分计算：对于目标区域坐标，对新设计的任一条诱饵序列，计算其与所述目标区域坐标差值δ_Distance，δ_Distance小于150，S_相对距离＝(150-δ_Distance)/150。

在第二方面，本发明还提供了实施本发明的方法的特异性诱饵序列，所述特异性诱饵序列是本发明第一方面中涉及到的诱饵序列。

在一个实施方案中，所述特异性诱饵序列与目标核酸序列一致或对目标序列具有特征性，并且i)自身不产生发夹结构并且相互之间无二聚体产生，ii)拷贝数根据所述目标核酸序列的GC含量和/或空间结构进行补偿，iii)当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂度区域时，用所述目标区域两侧区域作为替代区域设计探针，设计方法与所述目标区域一致，iv)与核酸样品中目标核酸序列之外的其他序列无特异性结合。

在第三方面，本发明还提供了一种试剂盒，所述试剂盒包括本发明第二方面所述的诱饵序列，所述试剂盒还包括，但不限于，双链接头分子、多种不同的寡核苷酸探针。

在一个实施方案中，所述试剂盒包含用于实现本发明第一方面的方法的组合物和试剂。所述试剂盒包括，但不限于，双链接头分子、多种不同的寡核苷酸探针、与目标核酸序列一致或对目标序列具有特征性的诱饵序列，所述诱饵序列：i)自身不产生发夹结构并且相互之间无二聚体产生，ii)拷贝数根据所述目标核酸序列的GC含量、空间结构和/或受关注情况进行补偿，iii)当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂度区域时，用所述目标区域两侧区域作为替代区域设计探针，设计方法与所述目标区域一致，iv)与核酸样品中目标核酸序列之外的其他序列无特异性结合。在某些实施方案中，试剂盒包含两种不同双链接头分子。所述试剂盒可进一步包含至少一种或多种其他成分，所述其他成分选自DNA聚合酶、T4多核苷酸激酶、T4 DNA连接酶、杂交液、洗涤液和/或洗脱液。在某些实施方案中，所述试剂盒包含磁体。在某些实施方案中，所述试剂盒包含一种或多种酶，以及相应的试剂、缓冲液等，例如限制性内切酶，例如MlyI，以及用于使用MlyI进行限制性酶切反应的缓冲液/试剂。

具体实施方式

本发明提供了一种基于液相捕获的目标序列富集方法，所述包括：诱饵序列设计，诱饵序列的核酸合成(用合成常规引物或固相合成的方法)，用体外转录的方法制备核酸类似物，所述核酸类似物包含结合部分；核酸样品前处理(按文库制备的方法进行)，样品可以是基因组DNA、RNA、cDNA、mRNA等；核酸类似物与目标序列核酸以互补配对原则形成核酸类似物/DNA杂交复合物；洗脱去除低互补配对的核酸类似物/DNA杂交体，去除非目标序列核酸；根据核酸样品前处理所加的接头序列，对互补配对的核酸类似物/DNA进行特异性扩增，达到富集目标序列核酸的目的。

在发明中，术语“样品”以其最广泛的意思使用，其意在包括从任何来源，优选从生物来源获得的样本或培养物。生物样品可从动物(包括人)获得，并包括液体、固体、组织和气体。生物样品包括血液制品，例如血浆、血清等等。因此，“核酸样品”包含任何来源的核酸(例如DNA、RNA、cDNA、mRNA、tRNA、miRNA等)。在所述核酸样品是RNA或mRNA的情况下，中步骤c)之前有将所述RNA或mRNA反转录成DNA的步骤。在本申请中，核酸样品优选源自生物来源，例如人或非人细胞、组织等等。术语“非人”系指所有非人动物和实体，包括但不限于，脊椎动物例如啮齿动物、非人灵长动物、绵羊、牛、反刍动物、兔类动物、猪、山羊、马、犬、猫、鸟类等等。非人还包括无脊椎动物和原核生物，例如细菌、植物、酵母、病毒等等。因此，用于本发明的方法和***的核酸样品为源自任何生物，无论真核或者原核的核酸样品。

在发明中，发明人发现目标序列的GC含量对基于液相捕获的目标序列捕获效率有较大影响。为了达到对多个目标序列的有效捕获，优选根据所述目标序列的GC含量对所述诱饵序列拷贝数进行补偿，GC含量越小或者越大，所述目标序列对应的诱饵序列拷贝数增加的就越多。

发明人发现，对于GC含量在50％左右，例如±10％，的目标序列可以获得良好的目标序列捕获效率；对于其他GC含量的目标序列，需要进行诱饵序列拷贝数补偿才能获得良好的目标序列捕获效率。经过用人类基因组序列进行全面测试，发明人发现，为了达到更好的目标序列捕获效率，以GC含量在50％的诱饵序列拷贝数系数为基准1，GC含量10％-90％之间偏离50％每1％，诱饵序列拷贝数系数增加0.08-0.12。例如，GC含量为68％时，偏离18％，诱导序列拷贝数系数为2.44-3.16。

对于GC含量小于10％或大于90％属于低复杂序列的情况，这种情况下对应的诱饵序列设计方法是：当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂度区域时，用所述目标区域两侧区域作为替代区域设计探针，一般选择目标区域两侧300bp以内区域作为替代区域，优选150bp以内的区域。

在本发明中，低复杂度区域是指由很少种类的元素(如寡核苷酸)所组成的一个区域，例如微卫星这种简单重复序列。

在本发明中，优选对片段化后的样品DNA片段进行建库。

在一个实施方案中，诱饵序列拷贝数补偿方法可以简单地表示为：根据所述目标序列的GC含量大小从高到低分为6档，其中第1档：10％-30％；第2档：30％-40％；第3档：40％-60％；第4档：60％-70％；第5档：70％-90％；第6档：小于10％或大于90％，其中第3档的诱饵序列的拷贝数为基准拷贝数，第2档和第4档对应的诱饵序列的拷贝数需要增加，例如是第3挡的2.2-2.8倍，第1档和第5档的诱饵序列的拷贝数需要增加更多，例如是第3挡的3-4倍。在一个实施方案中，对于第6档，GC含量小于10％或大于90％或者在GC含量是低复杂序列的情况，诱饵序列设计方法是：用所述目标区域两侧区域作为替代区域设计探针，一般选择目标区域两侧300bp以内区域作为替代区域，优选150bp以内的区域。

在一个实施方案中，其中对每个目标区域，所述诱饵序列是在特异性、二聚体、发卡结构以及与目标区域的相对位置方面综合评分最优的一个或者多个诱饵序列，所述综合评分通过如下的打分函数进行：S＝a×S_特异性+b×S_二聚体+c×S_发卡结构+d×S_相对距离，其中a＝0.26-0.34、b＝0.08-0.12、c＝0.17-0.23、d＝0.35-0.45。S_特异性等打分均为0到1之间的数值，具体的打分计算方法如下：

S_特异性的打分规则：对新设计的任一条诱饵序列，在基因组上对其进行序列比对，采用BLAT软件，使用默认参数，对其每一条比对结果，分别计算热力学Tm参数，如果有与目标区域T_m-与非特异区域T_m之差＜5℃，优选＜10℃，则放弃该诱饵序列，重新设计；否则计算所有非特异区域比对结果的平均Tm值，最终S_特异性＝1-Tm_平均值/(Tm_目标-5)，其中优选S_特异性＝1-Tm_平均值/(Tm_目标-10)，其中Tm_平均值是诱饵序列与所有非特异区域比对结果的平均Tm值，Tm_目标是诱饵序列与目标区域T_m；

S_二聚体的打分规则：对新设计的任一条诱饵序列，与每一条已经设计的诱饵序列进行二聚体比对分析，采用BLAT软件，使用默认参数，对其每一条比对结果，分别计算热力学Tm参数，如果有T_m≥47℃，则放弃该诱饵序列，重新设计；否则计算所有比对结果的平均Tm值，最终S_二聚体＝(47-Tm_平均值)/47；优选如果有T_m≥37。℃，则放弃该诱饵序列，重新设计；否则计算所有比对结果的平均Tm值，S_二聚体＝(37-Tm_平均值)/37；

S_发卡结构的打分规则：对任一条诱饵序列，采用Smith-Waterman算法，计算其最佳的自身比对结构，并根据此结构计算其热力学Tm参数值，如果有T_m≥47℃，则放弃该诱饵序列，重新设计；否则其S_发卡结构＝(47-Tm)/47，优选如果有T_m≥37℃，则放弃该诱饵序列，重新设计；否则其S_发卡结构＝(37-Tm_平均值)/37；

S_相对距离的打分规则：已知待设计目标区域坐标，对任一条诱饵序列，计算其与目标区域坐标差值δ_Distance，设定可接受的差值为150，该数值是经验数值；如果差值大于150，则放弃该诱饵序列，重新设计；否则其S_相对距离＝(150-δ_Distance)/150。在与目标区域坐标差值150范围内无法设计出合适的诱饵序列，也可以将差值设置为300，其S_相对距离＝(300-δ_Distance)/300。

在本发明中，序列的T_m的计算不拘泥于具体的方法，各种方法计算的Tm值均可以用于本发明，各种方法得到的Tm值基本不能逆转本发明的效果，只是效果的程度会有差异。虽然SantaLucia 2007热力学参数表的最邻近法可以计算Tm，但其他方法计算的Tm值可以与之相对应，本领域技术人员可以经过简单的试验比较各种方法计算得到的Tm，从而对各种方法计算的Tm值作出适当选择。

根据发明人的经验，对于人基因组编码区而言，超过99％的目标区域均可以设计出适合本发明的诱饵序列，表明我们前述对GC区域的分档以及对Tm值的过滤都是合理的。

在某些实施方案中，所述核酸类似物与目标核酸之间的杂交在优选地严格条件下进行，所述严格条件足以支持所述核酸类似物/DNA之间的杂交，其中所述核酸类似物包含连接化合物和所述目标核酸样品的互补区域，以提供所述核酸类似物/DNA杂交复合物。所述复合物随后通过所述连接化合物捕获，并在足以去除非特应性结合核酸的条件下洗涤，然后所杂交的目标核酸序列从所捕获的核酸类似物/DNA复合物中洗脱。

在某些实施方案中，所述核酸类似物包含化学基团或连接化合物，例如结合部分例如生物素、地高辛等等，其能结合于固体载体。所述固体载体可以包含相应的捕获化合物，例如用于生物素的链霉亲和素或用于地高辛的地高辛抗体。本发明不限于所使用的连接化合物，并且替代的连接化合物等同适用于本发明的方法、诱饵序列和试剂盒。

在本发明中，所述化学基团或连接化合物，例如结合部分例如生物素、地高辛等等，可以连接在核酸类似物(甘油核酸GNA、锁核酸LNA、肽核酸PNA、苏糖核酸TNA或吗啉核酸)中任何碱基上。优选地，所述核酸类似物链中可以包括核糖和/或脱氧核糖，所述化学基团或连接化合物，例如结合部分例如生物素、地高辛等等，可以连接在核糖和/或脱氧核糖上的碱基上。例如，所述核酸类似物合成中包括使用标记的ATP、CTP、GTP和/或UTP。标记用核苷酸Cydye、DIG、生物素、罗丹明、荧光素等的标记方法是本领域已知的。例如，生物素可以用作核酸探针标记物，它能与核酸分子的UTP或dUTP 5’位上的C原子相结合，并可与亲和素结合而被检测。然而，本发明不限于已知的标记物和标记方法，未来发现的标记物和标记方法也在本发明的考虑范围内。

在本发明的实施方案中，所述多个目标核酸分子优选包含一种生物的全基因组或至少一条染色体或一种任意大小分子量的核酸分子。优选地，所述核酸分子的大小至少约200kb、至少约500kb、至少约1Mb、至少约2Mb、或至少约5Mb，更优选大小约100kb至约5Mb、约200kb至约5Mb、约500kb至约5Mb、约1Mb至约2Mb或约2Mb至约5Mb。

在某些实施方案中，所述目标核酸来自动物、植物或微生物，在优选的实施方案中，所述目标核酸分子选来自人。如果核酸样品的量比较少(例如某些情况下取得的人核酸样品，例如发育中的胎儿的基因组)，在实施本发明的方法之前可扩增所述核酸，例如通过全基因组扩增。为进行本发明的方法，预先扩增可能是必须的，例如在法医应用中(例如在法医学中用于遗传特征目的)。

在某些实施方案中，所述多个目标核酸分子为一组基因组DNA分子。所述诱饵序列可选自例如限定来自多个遗传基因座的多种外显子、内含子或调控序列的多个诱饵序列；限定至少一个单独遗传基因座的全序列的多个诱饵序列，所述基因座大小任意，优选至少1Mb，或至少上述特定大小之一；限定单核苷酸多态性(SNP)的多种诱饵序列；或限定一种阵列的多种诱饵序列，例如设计为捕获至少一条完整染色体的全序列的嵌合阵列。

在本文中，术语“杂交”系指互补核酸的配对。杂交和杂交强度(例如核酸之间结合的强度)受多种因素的影响，例如核酸之间互补的程度、使用杂交条件的严格程度、所形成杂交体的解链温度(Tm)以及核酸的GC含量值。虽然本发明不受限于具体的杂交条件，但优选使用严格的杂交条件。严格的杂交条件取决于序列并随杂交参数(例如盐浓度、有机物存在等)而变化。通常，“严格的”条件选择为在规定的离子强度和pH下低于特定核酸序列的Tm约5℃到约20℃。优选地，严格的条件为低于结合互补核酸的具体核酸的温度熔点约5℃到10℃。所述Tm是50％核酸(例如目标核酸)与完全配对探针杂交的温度(在规定的离子强度和pH下)。

在本文中，“严格的条件”，例如可为50％甲酰胺，5×SSC(0.75M NaCl，0.075M柠檬酸钠)，50mM磷酸钠(pH6.8)，0.1％焦磷酸钠，5×Denhardt溶液、超声波处理的鲑鱼***DNA(50mg/ml)，0.1％SDS，以及10％硫酸葡聚糖在42℃下杂交，在42℃以0.2×SSC(氯化钠/柠檬酸钠)和在55℃以50％甲酰胺洗涤，然后在55℃以含有EDTA的0.1×SSC洗涤。例如，预计包含35％甲酰胺、5×SSC和0.1％(w/v)十二烷基硫酸钠(SDS)的缓冲液适合在适度非严格条件下在45℃杂交16-72小时。

在本文中，术语“引物”系指寡核苷酸，无论天然存在经纯化、酶切后得到的或者经合成方法产生的，当置于诱导与核酸链互补的引物延伸产物的合成的条件下(例如在核苷酸和诱导试剂例如DNA聚合酶存在下，并在合适的温度和pH下)，能够作为合成的起点。所述引物优选为具有最大扩增效率的单链。优选地，所述引物为寡脱氧核苷酸。所述引物必须足够长以在所述诱导试剂存在下引发延伸产物的合成。所述引物的确切长度取决于很多因素，包括温度、引物来源和所使用方法。

在本文中，术语“诱饵”或“诱饵序列”系指寡核苷酸(例如核苷酸序列)，无论天然存在经纯化、酶切后得到的或者经合成、重组或PCR扩增产生的，能够与另一目标寡核苷酸例如目标核酸序列的至少一部分杂交。探针可为单链或双链。探针可用于特定基因序列的检测、鉴别和分离。

在本文中，术语“目标核酸分子”是指来自目标基因组区域的分子或序列。预选的探针确定了目标核酸分子的范围。因此，所述“目标”试图与其它核酸序列区分出来。一个“片段”定义为所述目标序列中的一个核酸区域，如作为核酸序列的一个“片段”或一“部分”。

在本文中，术语“分离”当用于涉及核酸时，如用于“分离核酸”时，系指核酸序列从其天然来源通常结合的至少一种其他组分或污染物中被鉴别并分离出来。分离的核酸以不同于其天然存在的形式存在。相反，未分离的核酸例如DNA和RNA的核酸以其天然存在的状态存在。所述分离的核酸、寡核苷酸或多核苷酸可以单链形式或双链形式存在。

在本文中，术语“与目标核酸序列一致的诱饵序列”是指其互补序列可以与目标核酸序列杂交的序列。优选，在严格的条件下进行杂交。当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂度区域时，由于该区域无法设计诱饵序列，即诱饵序列覆盖率为零，那么会在该目标区域左右两侧寻找合适区域设计诱饵序列；一般会在左右两侧300bp以内的范围设计诱饵序列；优选150bp以内的区域。

在本发明的实施方案中，用于在本文所述的捕获方法和试剂盒中使用的诱饵序列的转录引物包含连接化合物，例如结合部分。结合部分包含任何连接或引入用于随后捕获核酸类似物/目标核酸杂交复合物的扩增引物的5’端的部分。结合部分为引入引物序列5’端的任何序列，例如可捕获的6组氨酸(6HIS)序列。例如，包含6HIS序列的引物可被镍捕获，例如在镍包被或包含镍包被珠子、颗粒等的管子、微孔、或纯化柱中，其中所述珠子包装入柱子中，样品装入并通过柱子以捕获复杂度降低的复合物(例如，和随后的目标洗脱)。用于本发明的实施方案的另一种结合部分的实例包括半抗原，例如地高辛，例如其连接到扩增引物的5’端。地高辛可使用地高辛抗体捕获，例如包被或包含抗地高辛抗体的基质。

在某些实施方案中，所述结合部分为生物素，用链霉亲和素包被所述捕获基质，例如珠子如顺磁颗粒，用于从非特异性杂交目标核酸中分离所述目标核酸/转录产物复合物。例如，当生物素为结合部分时，链霉亲和素(SA)包被的基质，例如SA包被的珠子(例如磁珠/颗粒)用于捕获所述生物素标记的核酸类似物/目标复合物。洗涤所述SA结合的复合物，所杂交的目标核酸从所述复合物洗脱进行测序。

可使用无掩膜阵列合成技术在固体载体上并行提供序列中与所述基因组至少一个区域对应的诱饵序列。替代性地，探针可使用标准DNA合成仪连续获得并应用到所述固体载体，或可从有机体获得并固定于所述固体载体。杂交之后，未杂交或与所述核酸类似物非特异性杂交的核酸通过洗涤从所述载体结合的核酸类似物中分离。剩余的核酸与所述核酸类似物特异性结合，在例如热水中或在包含例如TRIS缓冲液和/或EDTA的核酸洗脱缓冲液中从所述固体载体洗脱，以产生所述目标核酸分子富集的洗脱物。

或者，用于目标分子的诱饵序列可如上所述在固体载体上合成，作为诱饵序列集合从所述固体载体释放并扩增。所述转录的释放核酸类似物集合可共价或非共价固定于载体，例如玻璃、金属、陶瓷、或聚合珠子或其它固体载体。所述核酸类似物可设计为从所述固体载体方便释放，例如在最接近载体的核酸类似物末端或其附近提供酸或碱不稳定的核酸序列，其分别在低或高pH条件下释放所述核酸类似物。本领域已知多种可剪切的连接化合物。所述载体可以，例如，以具有液体进口和出口的圆柱提供。本领域熟悉将核酸固定到载体的方法，例如通过将生物素标记的核苷酸结合到所述核酸类似物中，并使用链霉亲和素包被所述载体，由此所述包被的载体非共价吸引并固定所述集合中的所述核酸类似物。所述样品在杂交条件下通过所述包含核酸类似物的载体，由此与所述固定载体杂交的目标核酸分子可洗脱，用于之后的分析或其它用途。

术语“核酸”可包括，例如，但不限于：脱氧核糖核酸(DNA)、核糖核酸(RNA)和人工核酸比如肽核酸(PNA)、吗啉核酸(morpholino)和锁核酸(LNA)、甘油核酸(glycol nucleicacid，GNA)和苏糖核酸(TNA)。在本文中，术语“核酸”、“核酸序列”或者“核酸分子”应该从广义解释，举例来说，可以是核糖核酸(RNA)或脱氧核糖核酸(DNA)或者其模拟物的寡聚物或者聚合物。该术语包括由天然核碱基、糖类和共价核苷间(骨架)连接构成的分子以及具有非天然核碱基、糖类和共价核苷间(骨架)连接构成的具有类似功能的分子或者其組合。因为所需的性质，比如对核酸靶分子亲和力增强以及在核酸酶和其他酶存在时稳定性增加，这样的经修饰或者取代的核酸可能比天然形式更优选，并且在本文中用术语“核酸类似物”或者“核酸模拟物”来描述。核酸模拟物的优选实例是包含肽核酸(PNA)、锁核酸(LNA)、木-锁核酸Uylo-LNA)、硫代磷酸酷、2’-甲氧基、2’-甲氧基乙氧基、吗啉核酸和氨基磷酸酯的分子或者功能上类似的核酸衍生物。

实施例

实施例1：诱饵序列的设计

随机选择人基因组上外显子和内含子上1000个位点(这些位点的分布见表)用于测试本发明的方法。对这1000个随机靶序列设计诱饵序列用于后续测试。

表1：随机选择的1000个位点的染色体分布

染色体	个数	染色体	个数
				chr1	92	chr12	73
chr2	67	chr13	23
				chr3	53	chr14	15
chr4	43	chr15	29
				chr5	45	chr16	41
chr6	124	chr17	36
				chr7	42	chr18	14
chr8	46	chr19	31
				chr9	34	chr20	21
chr10	61	chr21	9
				chr11	80	chr22	21

诱饵序列设计包括以下步骤：

1.首先，目标序列特征性分析包括如下步骤：

a)根据目标序列GC含量大小从高到低分为5档，其中1档：10％-30％；2档：30％-40％；3档：40％-60％；4档：60％-70％；5档：70％-90％；

b)分析目标序列空间结构，标记能形成稳定空间结构的目标序列；

2.其次，对诱饵序列的设定标准以及评分：

a)目标序列长度在60-150bp范围；

b)保持特异性，特异性的原则是，诱饵序列在非目标区域上结合的热力学稳定性要显著弱于在目标区域上结合的热力学稳定性；一般分析的指标为T_m(目标区域)-T_m(非特异区域)≥(非特异区域)5℃；部分数据T_m(目标区域)-T_m(非特异区域)≥10℃进行对比(强特异性限制)；不同热力学计算方法，对计算结果影响较大，这里是基于SantaLucia 2007热力学参数表的最邻近法计算；

c)无二级结构产生，二级结构包括二聚体和发卡结构，即所设计的诱饵序列不允许产生二聚体或者发卡结构；任意两个诱饵序列之间形成的二聚体，其T_m≤47℃，部分数据≤37℃进行对比(严格二聚体限制)；任一诱饵序列自身形成发卡结构，其T_m≤47℃，部分数据≤37℃进行对比(严格发夹结构限制)；不同热力学计算方法，对计算结果影响较大，这里是基于SantaLucia 2007热力学参数表的最邻近法计算；

d)对每个目标区域，分析候选诱饵序列，根据每个候选序列的特异性、二聚体、发卡结构以及与目标区域的相对位置，设计综合评分，然后根据评分结果，选择最优的一个或者多个诱饵序列(即打分函数值最大的)，：S＝a×S_特异性+b×S_二聚体+c×S_发卡结构+d×S_相对距离，其中a＝0.26-0.34、b＝0.08-0.12、c＝0.17-0.23、d＝0.35-0.45，打分通过自有软件计算提供，规则如下：

S_特异性的打分规则：对新设计的任一条诱饵序列，在基因组上对其进行序列比对，采用BLAT软件，使用默认参数，对其每一条比对结果，分别计算热力学Tm参数，如果有与目标区域T_m-与非特异区域T_m之差＜5℃，则放弃该诱饵序列，重新设计，其中部分数据＜10℃作为对比；否则计算所有比对结果的平均Tm值，最终S_特异性＝1-Tm_平均值/(Tm_目标-5)，部分数据S_特异性＝1-Tm_平均值/(Tm_目标-10)作为对比，其中Tm_平均值是诱饵序列与所有非特异区域比对结果的平均Tm值，Tm_目标是诱饵序列与目标区域T_m；

S_二聚体的打分规则：对新设计的任一条诱饵序列，与每一条已经设计的诱饵序列进行二聚体比对分析，采用BLAT软件，使用默认参数，对其每一条比对结果，分别计算热力学Tm参数，如果有T_m≥47℃，则放弃该诱饵序列，重新设计；否则计算所有比对结果的平均Tm值，最终S_二聚体＝(47-Tm_平均值)/47，部分数据T_m≥37℃作为对比，则放弃该诱饵序列，重新设计；否则计算所有比对结果的平均Tm值，S_二聚体＝(37-Tm_平均值)/37；

S_发卡结构的打分规则：对任一条诱饵序列，采用Smith-Waterman算法，计算其最佳的自身比对结构，并根据此结构计算其热力学Tm参数值，如果有T_m≥47℃，则放弃该诱饵序列，重新设计；否则其S_发卡结构＝(47-Tm)/47，部分数据如果有T_m≥37℃作为对比，则放弃该诱饵序列，重新设计；否则其S_发卡结构＝(37-Tm_平均值)/37；

S_相对距离的打分规则：已知待设计目标区域坐标，对任一条诱饵序列，计算其与目标区域坐标差值δ_Distance，设定可接受的差值为150，该数值是经验数值；如果差值大于150，则放弃该诱饵序列，重新设计；否则其S_相对距离＝(150-δ_Distance)/150。在与目标区域坐标差值150范围内无法设计出合适的诱饵序列，作为对比还将部分差值设置为300，其S_相对距离＝(300-δ_Distance)/300。

3.再次，根据具体目标区域情况，进行诱饵序列拷贝数补偿：

a)根据目标序列的稳定性分类情况，以3档的诱饵序列拷贝数作为基准拷贝数(即基准1)；1档和5档对应的诱饵序列需要增加较多的拷贝数，是第3挡的2.5倍；其次是2档和4档，其对应的诱饵序列也需要稍多的拷贝数是第3挡的3.5倍；

b)对于形成稳定空间结构的目标序列，诱饵序列拷贝数翻倍；

c)对于目标区域可能是重点关注区域时，例如可能是融合事件发生的区域，诱饵序列拷贝数翻倍；

d)另外在相同条件下进行诱饵序列拷贝数不补偿的平行试验作为对照。

4.最后，当目标序列无法设计探针时，例如，当目标区域是极高或者极低GC含量区域时，或者当目标区域是低复杂度区域时(低复杂度区域是指由很少种类的元素如寡核苷酸所组成的一个区域，例如微卫星这种简单重复序列)，由于该区域无法设计诱饵序列，即诱饵序列覆盖率为零，那么会在该目标区域左右两侧寻找合适区域设计诱饵序列；一般会在左右两侧300bp以内的范围设计诱饵序列；如果150bp以内的区域能设计出合适的诱饵序列，则记录作为对照。本实施例中随机选择的目标序列中有138个属于这种情况，68个在其左右150bp以内的区域成功设计出诱饵序列，另外22个在其左右150-300bp内成功设计出诱饵序列，仍有48个在这些区域都无法设计探针。

5.最终设计的诱饵序列见情况见表2。

表2：诱饵序列设计情况

其中严格打分函数限制的条件是：与目标区域T_m-与非特异区域T_m≥10℃，S_特异性＝Tm_平均值/37；T_m＜37℃，S_二聚体＝(37-Tm_平均值)/37；T_m＜37℃，S_发卡结构＝(37-Tm_平均值)/37。

实施例2：诱饵序列的制备

按照实施例1设计的诱饵序列进行序列制备，诱饵序列制备方法如下：

1.在诱饵序列5’端和3’端分别添加长度为20个碱基的特异性序列，特异性序列设计原则是：1)不会在目标(待捕获)基因组上产生非特异扩增产物；2)GC含量位于30％-70％之间，优选40％-60％之间；3)两者不会形成二聚体，或者形成的二聚体自由能≤47℃，优选≤37℃。从而形成待合成序列，所有诱饵序列同一对特异性序列，举例如下：

5’端特异性序列-诱饵序列(60-150bp不等)-3’端特异性序列为(SEQ ID NO.1)：

ATATAGATGCCGTCCTAGCG-NNNNNNNNNN......NNNNNNNNNN-TGGGCACAGGAAAGATACTT。其中“NNNNNNNNNN......NNNNNNNNNN”表示诱饵序列。

2.特异性序列通过本发明人自主开发的液相杂交捕获测序探针设计软件生成。

3.将待合成序列利用本领域公知的芯片方法大规模合成寡核苷酸，接着用用氨水将芯片上的寡核苷酸洗脱下来，经过纯化后溶于双蒸水中，形成寡核苷酸池。

4.以寡核苷酸池为模板，与5’端特异性序列和3’端特异性序列互补的5’端引物和3’端引物为引物，利用Taq聚合酶(JumpStart Taq DNA Polymerase采购至Sigma，CatalogNo.D6558)进行聚合酶链式反应扩增，获得大量的双链DNA池，具体操作步骤如下：

1)反应体系如下：

2)反应条件如下：

3)使用QIAGEN PCR纯化试剂盒(QIAGEN、Cat No./ID 28104)，根据其操作说明书进行PCR产物纯化：

4)使用5’端引物的5’端带T7序列(TAATACGACTCACTATAGGG)作为正向引物与3’端引物作为反向引物，利用Taq聚合酶(JumpStart Taq DNA Polymerase采购至Sigma，Catalog No.D6558)进行聚合酶链式反应扩增，形成5’端带T7序列的双链DNA池。操作如下：

5)反应体系：

试剂名称	体积
		Water	37μl
10×PCR Buffer	5μl
		10mM dATP	1μl
10mM dCTP	1μl
		10mM dGTP	1μl
10mM TTP	1μl
		BAITS_5_PRIMER_N-T7(10μM)	1μl
BAITS_3_PRIMER_N(10μM)	1μl
		JumpStart Taq DNAPolymerase	1μl
寡核苷酸池	1μl

6)反应条件如下：

采用凝胶电泳对上一步PCR反应产物进行分离，去除非特异条带，回收120-210bp区域片段，采用Qiagen胶回收试剂盒(QIAquick Gel Extraction Kit，Cat No./ID 28704)进行纯化；

7)采用T7 High Yield RNA Transcription Kit(Vazyme，TR101-01/02)，利用核酸类似物(甘油核酸GNA、锁核酸LNA、肽核酸PNA、苏糖核酸TNA或吗啉核酸)的NTP和生物素标记的UTP为底物，对上一步胶回收纯化产物进行体外转录，制备成含生物素标记的核酸类似物池：

37℃孵育8-12小时，得到最高产量核酸类似物池，纯化后稀释至500ng/μl，置于-80℃冰箱保存。

另外以标准核酸ATP、CTP、GTP、UTP和Biotin-UTP中相同条件下平行试验作为对照。

实施3：目标区域文库捕获

1.用于高通量捕获测序的DNA文库制备：

1)取被测物种的基因组DNA 1μg，使用超声波破碎仪Bioruptor pico进行随机打断至150-250bp小片段；

2)使用Illumina TruSeq DNA library preparation试剂盒进行捕获前小片段文库制备。

2.使用制备的核酸类似物池和目标物种的小片段文库进行目标区域文库杂交捕获：

1)封闭引物准备：

按照以上引物序列进行合成，每种合成100 OD，将每种引物稀释至1000μM，并按照等体积混合，命名为Block 1；

2)将cot-1 DNA与salmon sperm DNA稀释至100ng/μl，并等体积混合，标记为Block 2；

3)取6μl Block 1与5μl Block 2进行混合，标记为Block Mix；

4)取1μg小片段基因组文库与11μl Block Mix混合，并使用低温冷冻干燥离心机进行浓缩至9μl，标记为试剂S1，置于冰上待用；

6)取20μl杂交液(20×SSPE，2×Dennard`s，1mM EDTA，1％SDS)置于65℃金属浴上预热，标记为S2；

7)取5μl纯水，混匀后加入2μl 500ng/μl核酸类似物池，缓慢吸打数次混匀，标记为S3，置于冰上待用；

8)将PCR仪参数设置成95℃，5min；65℃，16h；65℃，恒温；热盖105℃；

9)将S1置于PCR模块上，启动PCR程序，程序运行至65℃5min后，将S2放入PCR仪模块，继续孵育5min后，将S3放入PCR仪模块，继续孵育2min；

10)将移液器调至13μl，取13μl S2转移至S3，取9μl S1转移至S3，缓慢吸打数次充分混匀混合物，密封管盖，盖上PCR热盖，孵育16小时进行探针与文库杂交；

11)取50μl Dynabeads MyOne Streptavidin T1(Invitrogen，货号：65601)置于1.5ml低吸附离心管内，加入200μl结合液[0.5M NaCl(Ambion，货号：AM9760G)，2mM Tris-HCl，pH 8.0(Ambion，货号：AM9855G)，0.2mM EDTA(Ambion，货号：AM9260G)]，吸打混匀后置于磁力架上1min，移除上清液；

12)将离心管从磁力架上取下，再加入200μl结合液，吸打混匀后置于磁力架上1min，移除上清；

13)重复步骤11两次，共进行3次磁珠清洗，最后用200μl结合液重悬磁珠；

14)将探针、文库杂交混合液(步骤9产物)转移至磁珠重悬液内，密封管盖，置于旋转混匀仪上混匀结合30min；

15)将离心管置于磁力架上2min，移除上清液；

16)将离心管从磁力架上取下，加入200μl清洗液1[10×SSC(Ambion，货号：AM9763)，1％SDS(Invitrogen，货号：24730020)]重悬磁珠，密封管盖，置于旋转混匀仪上清洗10min；

17)将离心管置于磁力架上2min，移除上清；

18)把离心管从磁力架上取下，加入200μl 65℃预热的清洗液2[1×SSC(Ambion，货号：AM9763)，5％SDS(Invitrogen，货号：24730020)]重悬磁珠，并置于PCR仪模块上65℃孵育10min；

19)将离心管置于磁力架上2min，移除上清；

20)重复步骤17-18两次，共进行3次清洗；

21)向离心管内加入200μl 80％乙醇溶液，静置30s，移除全部酒精，室温晾干2min，加入20μl纯水缓慢吸打数次重悬磁珠；

3.PCR富集目标区域捕获产物，采用NEB高保真PCR试剂盒(High-Fidelity PCR Kit，New England Biolabs，Catalog#E0553S)：

1)反应体系：

试剂名称	体积
		5×Phusion HF	10μl
10mM dNTPs	1μl
		Post Prmier Mix(均10μM)	1μl
重悬磁珠(步骤20)	20μl
		Phusion DNA聚合酶	0.5μl
H<sub>2</sub>O	17.5μl

2)反应条件如下：

3)使用Beckman Agencourt AMPure XP Kit[Beckman(p/n A63880)]进行PCR产物纯化；

4)使用Illumina测序平台进行目标区域捕获文库进行高通量测序，测序读长建议使用PE150模式。

3.结果

1)采用Illumina高通量测序仪Hiseq 4000，对测序文库进行上机测序，得到1000个位点的测序数据；

2)利用BWA MEM软件，将测序数据与到人类参考基因组HG19进行比对，所用的参数为：bwa mem-M-k 40-t 8-R″@RG\tID：Hiseq\tPL：Illumina\tSM：sample″，从而得到与参考基因组不同的单核苷酸多态性、***或缺失，即所检测到的基因突变。

3)采用samtools-1.2软件中的samtools stats工具统计数据的大小、比对率、重复率、质量值，接着再用软件中的samtools depth工具，计算目标区域每个位置的测序深度；

4)根据目标区域每个位置的测序深度，分别统计测序深度≥1、≥4、≥10及≥20的碱基数量，再将该碱基数量除以目标区域的总碱基数量，从而得到1×覆盖率、4×覆盖率、10×覆盖率及20×覆盖率的参数。

表3：1000位点捕获测序结果

从以上表3可以看出，以LNA为例，平均深度有451.53层；4×覆盖率有94.35％，而20×覆盖率也有93.64％，具有较好的覆盖率和均一性，而总数据量仅为8.52Mb reads。这样的结果带来的有益效果有：1)测序量小，有效降低成本；2)平均测序深度高，即每一个目标位点被测序多次，因而数据准确性高；3)覆盖率高，遗漏位点少；4)均一性好，即绝大多数位点具有相近的覆盖深度。

根据对作为比较的数据子集以及对照数据的分析，与LNA相比，诱饵序列拷贝数不补偿的情况下覆盖率和均一性分别下降4.5和5.1个百分点；强特异性限制、严格二聚体限制、严格发夹结构限制和严格打分函数限制的情况下覆盖率和均一性分别增加6.3和7.8个百分点；150bp以内的区域与150-300bp内的区域覆盖率和均一性分别大2.3和3.8个百分点；以相同比例的标准核酸ATP、CTP、GTP、UTP和Biotin-UTP平行试验覆盖率和均一性分别降低5.3和4.8个百分点。

虽然已经结合优选实施例对本发明进行了描述，但应当理解本发明的保护范围并不局限于这里所描述的实施例。结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

Claims

1.一种从核酸样品富集目标序列核酸的方法，所述方法包括：

a)提供包含目标核酸序列的核酸样品和与目标核酸序列一致或对目标序列具有特征性的诱饵序列，其中对每个目标区域，所述诱饵序列是在特异性、二聚体、发卡结构以及与目标区域的相对位置方面综合评分最优的一个或者多个诱饵序列，所述综合评分通过如下的打分函数进行：S＝a×S_特异性+b×S_二聚体+c×S_发卡结构+d×S_相对距离，其中a＝0.26-0.34、b＝0.08-0.12、c＝0.17-0.23、d＝0.35-0.45，具体的打分计算方法如下：

S_特异性的打分计算：对新设计的任一条诱饵序列，在基因组上对其进行序列比对，对其每一条比对上的序列分别计算所述诱饵序列与比对上的序列之间Tm，所述诱饵序列与目标区域T_m-其与任一比对上序列T_m之差≥5℃，计算所述诱饵序列与所有比对上的序列之间的平均Tm，S_特异性＝1-Tm_平均值/(Tm_目标-5)，其中Tm_平均值是诱饵序列与所有非特异区域比对结果的平均Tm值，Tm_目标是诱饵序列与目标区域T_m；

S_二聚体的打分计算：对新设计的任一条诱饵序列，与每一条已经设计的诱饵序列进行二聚体比对分析，对其每一条比对上的序列分别计算所述诱饵序列与所述比对上的诱饵序列之间的Tm，所述T_m<47℃，计算所述诱饵序列与所有比对上的诱饵序列之间的平均Tm，S_二聚体＝(47–Tm_平均值)/47；

S_发卡结构的打分计算：对任一条诱饵序列，计算其最佳的自身比对结构，并计算所述结构的Tm，所述T_m<47℃，并且S_发卡结构＝(47–Tm)/47，所述Tm<47℃，并且S_发卡结构＝(37–Tm_平均值)/37；

S_相对距离的打分计算：对于目标区域坐标，对新设计的任一条诱饵序列，计算其与所述目标区域坐标差值δ_Distance，δ_Distance小于150，S_相对距离＝(150-δ_Distance)/150；

b)以所述诱饵序列为模板利用核酸类似物GNA、LNA、PNA、TNA或吗啉核酸进行体外转录制备核酸类似物，所述核酸类似物带有结合部分；

c)使所述核酸样品片段化；

2.根据权利要求1的方法，S_特异性的打分计算：对新设计的任一条诱饵序列，在基因组上对其进行序列比对，对其每一条比对上的序列分别计算所述诱饵序列与比对上的序列之间Tm，所述诱饵序列与目标区域T_m-其与任一比对上序列T_m之差≥10℃，计算所述诱饵序列与所有比对上的序列之间的平均Tm，S_特异性＝1-Tm_平均值/(Tm_目标-10)，其中Tm_平均值是诱饵序列与所有非特异区域比对结果的平均Tm值，Tm_目标是诱饵序列与目标区域T_m。

3.根据权利要求1的方法，S_二聚体的打分计算：对新设计的任一条诱饵序列，与每一条已经设计的诱饵序列进行二聚体比对分析，对其每一条比对上的序列分别计算所述诱饵序列与所述比对上的诱饵序列之间的Tm，T_m<37℃，计算所述诱饵序列与所有比对上的诱饵序列之间的平均Tm，S_二聚体＝(37–Tm_平均值)/37。

4.根据权利要求1-3任一项所述的方法，还包括步骤f)：对所述核酸类似物/DNA杂交复合物进行扩增，达到富集目标序列核酸的目的。

5.根据权利要求1-3任一项所述的方法，其中步骤b)中，所述结合部分是生物素结合部分。

6.根据权利要求1-3任一项所述的方法，其中所述核酸样品是基因组DNA、RNA、cDNA、mRNA，在所述核酸样品是RNA或mRNA的情况下，在步骤c)之前有将所述RNA或mRNA反转录成DNA的步骤。

7.根据权利要求1-3任一项所述的方法，其中步骤c)中，使所述核酸样品片段化，制备文库。

8.根据权利要求1-3任一项所述的方法，所述诱饵序列在固体载体上。

9.根据权利要求8的方法，所述固体载体是微阵列载玻片。

10.根据权利要求1-3任一项所述的方法，其中所述诱饵序列具有选自如下的特性：i)自身不产生发夹结构并且相互之间无二聚体产生，ii)拷贝数根据所述目标核酸序列的GC含量和/或空间结构进行补偿，iii)当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂度区域时，用所述目标区域两侧区域作为替代区域设计诱饵，设计方法与所述目标区域一致，iv)与核酸样品中目标核酸序列之外的其他序列无特异性结合。