CN106555226A

CN106555226A - 一种构建高通量测序文库的方法和试剂盒

Info

Publication number: CN106555226A
Application number: CN201610232330.2A
Authority: CN
Inventors: 刘琦; 赵金银; 邢晓星; 许立志; 于闯; 李�杰; 明鸿博
Original assignee: Beijing Beijing Sinomart Technology Co Ltd
Current assignee: DALIAN GENTALKER BIOTECHNOLOGY CO., LTD.
Priority date: 2016-04-14
Filing date: 2016-04-14
Publication date: 2017-04-05
Anticipated expiration: 2036-04-14
Also published as: CN106555226B

Abstract

本发明涉及一种构建可以同时捕获多个扩增片段的测序文库的方法和试剂盒。所述方法包括以下步骤：第一轮扩增；消化引物；第二轮扩增；纯化回收；测序；分析。本发明通过合理的引物设计和PCR策略，在PCR产物的5`末端直接添加D5接头引物和D7接头引物序列。通过对每个样本都引入可区分的标签序列，使样本在第二代高通量测序技术检测时，每个样本的测序结果都可以通过其独特的标签序列找回，可以应用于同时检测大量样本的多个不同基因位点，大大降低了测序成本。

Description

一种构建高通量测序文库的方法和试剂盒

技术领域

本发明涉及生物技术领域，特别是涉及一种构建可以同时捕获多个扩增片段的测序文库的方法和试剂盒。

背景技术

第二代测序技术的出现使测序成本大大降低，其具有高通量、低成本、测序错误率低等特点，在近几年得到快速发展。应用第二代高通量测序技术，可以对混合的核酸分子进行序列测定，同时分辨和测出每个独立的序列，使得大批量的目标序列测序能够同时进行。

目前传统的二代测序文库是采用将核酸片段进行末端修复，加A处理，连接通用接头引物(adaptor)，特异引物富集等步骤进行文库的构建。传统步骤耗费时间较长，试剂较多，成本较高。如何低成本高效率的进行测序文库构建对于基因组学研究具有非常重要的意义。

序列捕获技术是一种对基因组特定区域进行选择性富集的技术，其通过合适的方法将目标区域从基因组中调取出来进行测序。目前常用的序列捕获方法主要有两种：PCR法和杂交法。PCR法具有高灵敏性、高特异性和重复性好等优点，在二代测序技术平台有很好的应用前景，适合用于捕获一些较小的区域，特别是一些连续的区域。

发明内容

本发明提供了一种新型的PCR扩增技术方案，利用PCR反应在产物两端各引入一段寡核苷酸序列，这两段寡核苷酸序列分别与illumina公司的D5接头引物(D5 adaptor)序列和D7接头引物(D7 adaptor)序列相同，通过PCR产物两端引入的寡核苷酸序列，PCR产物可以直接作为测序文库应用于illumina公司的Nextseq500/550，Hiseq2000/2500/3000、Miseq等测序仪。

本发明在产物两端引入寡核苷酸序列的同时，结合了多重PCR的扩增策略，可以同时实现对样本的一个或多个特定基因进行扩增，直接得到样本的一个或多个特定基因的测序文库。

本发明在样品的PCR产物两端分别引入可区分的D5接头引物序列和D7接头引物序列，其中D5接头引物和D7接头引物中包含的标签(index)信息可以用作后续区分不同样品的标签序列。

本发明中，所述D5接头引物序列由5’端通用的测序引物序列、标签序列(即，i5，见下文粗体部分)和3’端通用的测序引物序列串联连接组成，以及所述D7接头引物序列由5’端通用的测序引物序列、标签序列(即，i7，见下文粗体部分)和3’端通用的测序引物序列串联连接组成。

本发明中，利用PCR反应在产物两端各引入一段寡核苷酸序列，所述两段寡核苷酸序列分别与D5接头引物序列和D7接头引物序列相同，其中，所述D5接头引物序列选自:

D501

(AATGATACGGCGACCACCGAGATCTACACACACTCTTTCCCTACACGACGCTCTTCCGATCT)(SEQ ID NO:1)、

D502

(AATGATACGGCGACCACCGAGATCTACACACACTCTTTCCCTACACGACGCTCTTCCGATCT)(SEQ ID NO:2)、

D503

(AATGATACGGCGACCACCGAGATCTACACACACTCTTTCCCTACACGACGCTCTTCCGATCT)(SEQ ID NO:3)、

D504

(AATGATACGGCGACCACCGAGATCTACACACACTCTTTCCCTACACGACGCTCTTCCGATCT)(SEQ ID NO:4)、

D505

(AATGATACGGCGACCACCGAGATCTACACACACTCTTTCCCTACACGACGCTCTTCCGATCT)(SEQ ID NO:5)、

D506

(AATGATACGGCGACCACCGAGATCTACACACACTCTTTCCCTACACGACGCTCTTCCGATCT)(SEQ ID NO:6)、

D507

(AATGATACGGCGACCACCGAGATCTACACACACTCTTTCCCTACACGACGCTCTTCCGATCT)(SEQ ID NO:7)和

D508

(AATGATACGGCGACCACCGAGATCTACACACACTCTTTCCCTACACGACGCTCTTCCGATCT)(SEQ ID NO:8)中，以及

所述D7接头引物序列选自:

D701

(CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT)(SEQ ID NO:9)、

D702

(CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT)(SEQ ID NO:10)、

D703

(CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT)(SEQ ID NO:11)、

D704

(CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT)(SEQ ID NO:12)、

D705

(CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT)(SEQ ID NO:13)、

D706

(CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT)(SEQ ID NO:14)、

D707

(CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT)(SEQ ID NO:15)、

D708

(CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT)(SEQ ID NO:16)、

D709

(CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT)(SEQ ID NO:17)、

D710

(CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT)(SEQ ID NO:18)、

D711

(CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT)(SEQ ID NO:19)和

D712

(CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT)(SEQ ID NO:20)中。

根据本发明的一个方面，提供了一种构建高通量测序文库的方法，特别是一种构建可以同时捕获多个扩增片段的测序文库的方法，包括以下步骤：

第一轮扩增：采用包括由与选自上述D5接头引物序列和D7接头引物序列中一者的3’端通用的测序引物序列的全部或部分(即，ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQID NO:21)和GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:22)中的一者的全部或部分)相同的序列和各个基因的正向特异性扩增引物序列串联连接组成的第一轮正向扩增引物以及由与选自D5接头引物序列和D7接头引物序列中另一者的3’端通用的测序引物序列的全部或部分(即，ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO:21)和GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:22)中的另一者的全部或部分)相同的序列和各个基因的反向特异性扩增引物序列串联连接组成的第一轮反向扩增引物的第一轮扩增引物的组合对各样本的一个或多个特定基因进行扩增，此时多重扩增起作用的是每个基因的特异性扩增引物序列，扩增的结果致使每个扩增产物片段的两端都加上了所述通用的测序引物序列的部分或全部，其中，所述D5接头引物序列选自SEQ ID NO:1～SEQ ID NO:8中，所述D7接头引物序列选自SEQ ID NO:9～SEQ ID NO:20中；

消化引物：用单链消化酶消化第一轮扩增产物中剩余的引物和引物二聚体；

第二轮扩增：采用由与选自所述D5接头引物序列和D7接头引物序列中一者相同的第二轮正向扩增引物以及与选自D5接头引物序列和D7接头引物序列中另一者相同的第二轮反向扩增引物组成的第二轮扩增引物的组合(即，D5接头引物序列和D7接头引物序列的组合)，此时扩增起作用的是所述通用的测序引物序列，扩增的结果致使最后的扩增产物又都加上了可区分各样本的对应于D5接头引物序列和D7接头引物序列的标签序列；

纯化回收：使用纯化磁珠筛选回收目标区域范围之间的所有DNA条带；

测序：回收的产物进行定量后，将不同标签的产物按照测序数据量要求混合后进行上机测序；

分析：基于每个样本的标签序列，将获得的测序结果与样本一一对应，以及根据每个基因的引物序列，将序列对应到样本的每个基因上。

本发明中，优选地，所述样本的数量可为96个以下(8种D5接头引物和12种D7接头引物进行一一组合)。

该文库可以直接应用于illumina公司的Nextseq500/550，Hiseq 2000/2500/3000、Miseq等测序仪进行上机测序。同时，经过第二轮扩增，产物里引入了illumina公司通用的D5接头引物序列和D7接头引物序列，可以直接用于测序文库进行高通量测序。

优选地，本发明提供了一种构建包括一个或多个基因目标区域的测序文库的方法，包括以下步骤：

1、引物设计：

第一轮扩增引物的组合：根据待测的目标基因设计对应的扩增引物，根据所用测序仪和测序方法适用的产物大小范围设计PCR产物长度，在正向扩增引物和反向扩增引物的5`端分别加上一段与D5接头引物序列和D7接头引物序列的通用的测序引物序列的全部或部分相同的序列，组成第一轮扩增引物组合，其中，所述第一轮正向扩增引物由与选自上述D5接头引物序列和D7接头引物序列中一者的3’端通用的测序引物序列的全部或部分(即，ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO:21)以及GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:22)中的一者的全部或部分)相同的序列和各个基因的正向特异性扩增引物序列串联连接组成，以及所述第一轮反向扩增引物由与选自D5接头引物序列和D7接头引物序列中另一者的3’端通用的测序引物序列的全部或部分(即，ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO:21)和GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:22)中的另一者的全部或部分)相同的序列和各个基因的反向特异性扩增引物序列串联连接组成，其中，所述D5接头引物序列选自SEQ ID NO:1～SEQ ID NO:8中，所述D7接头引物序列选自SEQ ID NO:9～SEQ ID NO:20中；

本发明的通用的测序引物序列illumina公司的高通量测序通用的测序引物序列，分别对应D5接头引物和D7接头引物上的3’端通用的测序引物序列；

第二轮扩增引物的组合：根据样本的数量使用不同的D5接头引物和D7接头引物序列的标签序列组合(标签序列是D5接头引物和D7接头引物序列中的一段序列，即，D5接头引物和D7接头引物序列中的[i5]和[i7])以使各样本可区分，采用由与选自所述D5接头引物序列和D7接头引物序列中一者相同的第二轮正向扩增引物以及与选自D5接头引物序列和D7接头引物序列中另一者相同的第二轮反向扩增引物组成的第二轮扩增引物的组合(即，D5接头引物序列和D7接头引物序列的组合)；

2)第一轮扩增：采用所述第一轮扩增引物的组合对各样本的一个或多个特定基因进行扩增，特别是，在适于多重扩增目的核酸的条件下对样本进行扩增，此时多重扩增起作用的是每个基因的特异性扩增引物序列，扩增的结果致使每个扩增产物片段的两端都加上了所述通用的测序引物序列的部分或全部；

3)消化引物：用单链消化酶消化第一轮扩增产物中剩余的引物和引物二聚体；

4)磁珠纯化；

5)第二轮扩增：用上一步中对应样本消化后的产物作为模板，使用所述第二轮扩增引物的组合，进行第二轮扩增，此时扩增起作用的是通用的测序序列，扩增的结果致使最后的扩增产物里又都加上了可区分各样本的标签序列(即，D5接头引物序列和D7接头引物序列中含有的标签序列)；

6)纯化回收：使用纯化磁珠进行筛选回收目标区域范围之间的所有DNA条带；

7)测序：回收的产物进行定量后，将不同标签的产物按照测序数据量要求混合后进行上机测序；

8)分析：基于每个样本带有的可区分各样本的标签序列，将获得的测序结果与样本一一对应，以及根据每个基因的引物序列，将序列对应到样本的每个基因上。

本发明中，优选地，扩增所采用的酶均为高保真DNA聚合酶，由此减少扩增带来的DNA突变率。

本发明中，优选地，第一步PCR扩增只进行20个循环。

本发明中，优选地，所用的单链消化酶为核酸外切酶I(Exonuclease I)，该酶为单链特异性3’→5’核酸外切酶，不分解双链DNA及RNA。

本发明中，优选地，片段筛选时采用0.6-0.9x磁珠进行一次筛选，减少了第二轮扩增时的非特异扩增。

本发明中，优选地，第二轮扩增进行10-15个循环。

本发明中，优选地，测序技术利用pair-End技术(例如Illumina Nextseq500/550，Hiseq 2000/2500/3000、Miseq)进行测序，获得DNA混合物的序列。

另一方面，本发明还提供了一种构建高通量测序文库的试剂盒，特别是一种构建可以同时捕获多个扩增片段的测序文库的试剂盒，包括：

第一轮扩增引物的组合：其包括与选自上述D5接头引物序列和D7接头引物序列中一者的3’端通用的测序引物序列的全部或部分(即，ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO:21)和GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:22)中的一者的全部或部分)相同的序列和各个基因的正向特异性扩增引物序列串联连接组成的第一轮正向扩增引物；以及由与选自D5接头引物序列和D7接头引物序列中另一者的3’端通用的测序引物序列的全部或部分(即，ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO:21)和GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:22)中的另一者的全部或部分)相同的序列和各个基因的反向特异性扩增引物序列串联连接组成的第一轮反向扩增引物，其中，采用所述第一轮扩增引物对各样本的一个或多个特定基因进行扩增时，多重扩增起作用的是每个基因的特异性扩增引物序列，扩增的结果致使每个扩增产物片段的两端都加上了通用的测序引物序列的部分或全部，其中，所述D5接头引物序列选自SEQ ID NO:1～SEQ IDNO:8中，所述D7接头引物序列选自SEQ ID NO:9～SEQ ID NO:20中；

第二轮扩增引物：其包括与选自所述D5接头引物序列和D7接头引物序列中一者相同的第二轮正向扩增引物，以及与选自D5接头引物序列和D7接头引物序列中另一者相同的第二轮反向扩增引物(即，D5接头引物序列和D7接头引物序列的组合)，此时扩增起作用的是通用的测序引物序列，扩增的结果致使最后的扩增产物又都加上了可区分各样本的对应于D5接头引物序列和D7接头引物序列的标签序列。

本发明中，优选地，所述试剂盒进一步包括：单链消化酶，例如，核酸外切酶I(Exonuclease I)；和/或，用于扩增的酶，例如，高保真DNA聚合酶；和/或，0.6-0.9x磁珠。

另一方面，本发明还提供了一种构建包括BRCA1基因和BRCA2基因外显子区域的测序文库的试剂盒，所述试剂盒包括：

第一轮扩增引物：根据待测的BRCA1和BRCA2外显子区域设计的对应的扩增引物，将PCR产物长度设计在240bp-280bp，其中，所述第一轮正向扩增引物由与选自上述D5接头引物序列和D7接头引物序列中一者的3’端通用的测序引物序列的全部或部分(即，ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO:21)和GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:22)中的一者的全部或部分)相同的序列和各个基因的正向特异性扩增引物序列串联连接组成，以及所述第一轮反向扩增引物由与选自D5接头引物序列和D7接头引物序列中另一者的3’端通用的测序引物序列的全部或部分(即，ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO:21)和GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:22)中的另一者的全部或部分)相同的序列和各个基因的反向特异性扩增引物序列串联连接组成，其中，所述D5接头引物序列选自SEQ ID NO:1～SEQ ID NO:8中，所述D7接头引物序列选自SEQ ID NO:9～SEQ ID NO:20中；

本发明的通用序列是illumina公司的高通量测序通用的测序引物序列，分别对应D5接头引物和D7接头引物上的测序引物序列。

第二轮扩增引物：根据样本的数量使用不同的D5接头引物和D7接头引物序列的标签序列组合(标签序列是D5接头引物和D7接头引物序列中的一段序列，即，D5接头引物和D7接头引物序列中的[i5]和[i7])以使各样本可区分，采用由与选自所述D5接头引物序列和D7接头引物序列中一者相同的第二轮正向扩增引物以及与选自D5接头引物序列和D7接头引物序列中另一者相同的第二轮反向扩增引物组成的第二轮扩增引物的组合(即，D5接头引物序列和D7接头引物序列的组合)的混合物。

更优选地，本发明提供了一种构建包括BRCA1基因和BRCA2基因外显子区域的测序文库的试剂盒，其中，所述BRCA1基因包括23个外显子区域，以及BRCA2基因包括27个外显子区域，

所述试剂盒包括：

第一轮扩增引物的组合，其包括选自下列中的一对或多对：

本发明中，上述外显子为本领域公知的，其序列信息例如来自GenBank，brca1NM007300/brca2 NM000059。

第二轮扩增引物的组合，其包括选自由D501～D508(SEQ ID NO:1～SEQ ID NO:8)中之一和D701～D712(SEQ ID NO:9～SEQ ID NO:20)之一组成的标签引物序列的一对或多对，以使各样本可区分：

本发明具有如下有益效果：

本发明通过优化多重PCR反应的循环数，使第一轮多重PCR反应只进行线性扩增，最大限度的减少多重引物之间的扩增效率差别，通过第二轮扩增时通用引物的平行扩增，使多重扩增产物中各个基因的相关产物量尽量接近，提高了测序数据的有效性。

在本发明中，第一轮扩增采用的是高通量测序通用的测序引物序列+各个基因的特定引物组成的扩增引物组合的混合物，这时候多重扩增起作用的是每个基因的特定序列，每个基因的前面都加上了通用的测序引物序列。第二轮扩增引物采用的是高通量测序的接头序列+标签序列+通用的测序序列，这时候扩增起作用的是通用的测序序列，最后的产物前面又都加上了可区分的标签序列，同时，产物可以直接作为测序文库进行高通量测序(illumina公司的Nextseq500/550，Hiseq 2000/2500/3000、Miseq等)。通过以上合理的引物设计和PCR策略，在PCR产物的5`末端直接添加D5接头引物和D7接头引物序列。通过对每个样本都引入可区分的标签序列，使样本在第二代高通量测序技术检测时，每个样本的测序结果都可以通过其独特的标签序列找回，可以应用于同时检测大量样本的多个不同基因位点，大大降低了测序成本。

附图说明

图1是本发明的构建特定基因测序文库的方法的示意图。

具体实施方式

现结合实施例对本发明做进一步详细说明，实施例仅限于说明本发明，而非对本发明的限定。

以下实施例中所使用的设备和试剂如下：血液基因组提取试剂盒(天根生化科技有限公司)，高速离心机SIGMA 3-30K，核酸扩增仪ABI 9700，多重扩增试剂qiagen(181942)、高保真扩增酶Kapa BiosystemsHiFi HS(kk2600)，核酸外切酶Takara(Exonuclease I(E.coli))，纯化磁珠Beckman Agencourt AMPure XP。

实施例1

遗传性乳腺癌相关的BRCA-1、BRCA-2两个基因的50个外显子(包括BRCA1基因的23个外显子区域和BRCA2基因的27个外显子区域)测序，共10例临床样本：

1)引物设计：

针对两个基因的50个外显子设计相应的扩增引物，相关参数：Tm值58.0℃－62.0℃，GC值40.0％－60.0％，引物大小22±3bp。在正向扩增引物和反向扩增引物的5`端分别加上一段与D5接头引物和D7接头引物的3’端高通量测序通用的测序引物序列相同的序列，所设计的引物如下，其中下划线是引入的高通量测序通用的测序引物序列：

在本实施例中，第二轮扩增的引物选择时，根据10个样本采用10对标签序列组合，在第二轮扩增时对每个样本的各个目的片段都加上可以区分的标签序列，所设计的引物如下，其中下划线是引入的通用的测序序列(即，第一轮的通用序列，第二轮扩增时候这个序列起到扩增引物的作用)：

表1：10个样本对应10对标签的列表

	D504	D505	D506	D507
					D703	1#	4#	7#	10#
D704	2#	5#	8#
					D705	3#	6#	9#

2)第一轮扩增：

每对引物单独调试合格后，将119对引物分别稀释到100μM，然后等量混合，PCR体系：4.4μL 5x PCR buffer，2μL混合引物，1.5μL taq(5U/μL)，2.5μL模板DNA(5ng/μL)，ddH₂O补充到22μL。PCR反应按下述条件进行：模板DNA变性95℃保持15min。PCR反应循环条件：

以下进行20个循环：

第1步：95℃进行30秒；

第2步：60℃进行4分钟；

20个循环完成后，72℃保持10min，最后保持在4℃。

3)消化引物

第一轮扩增产物采用Takara Exonuclease I对第一轮扩增产物进行消化残留引物，酶切体系：Exonuclease I(50U/μL)0.5μL，PCR产物模20μL,

酶切反应按下述条件进行：37℃，30min；

4)纯化回收：0.6-0.9x磁珠进行筛选200-400bp之间的片段(减少了第二轮扩增的非特异扩增)

5)第二轮扩增

通过标签引物上下游分别配对组成10对可区分的标签组合，在第二轮PCR扩增时对10个样本分别加上可识别的标签序列，样本两端标签组合见表2，PCR体系：HiFiHS(kk2600)2X mix 12.5μL，0.75μL正向扩增引物，0.75μL反向扩增引物，1.5μL消化引物后的PCR产物(消化后的pcr产物所加量为25-30ng之间)，ddH₂O补充到25μL。PCR反应按下述条件进行：模板DNA变性98℃保持45s。PCR反应循环条件：

以下进行13个循环：

第1步：98℃进行15s；

第2步：60℃进行30s；

第3步：72℃进行30s；

13个循环完成后，72℃保持1min,最后保持在4℃。

表2样本两端标签组合表

	i504	i505	i506	i507
					i703	1#	4#	7#	10#
i704	2#	5#	8#
					i705	3#	6#	9#

6)回收：回收350b-400bp范围之间的所有DNA条带；

7)测序：回收的产物进行定量后，将不同标签的产物按照测序数据量要求混合后进行上机测序(Nextseq500，PE150)；

8)分析：Illumina Nextseq500产物的测序结果是一系列DNA序列，通过查找测序结果中10个样本各自可区分的标签序列，将获得的测序结果首先与样本一一对应，然后根据每个外显子各自的引物序列，再将序列对应到样本的各个目标区域上。10个样本的每个外显子都能够在测序结果中找到对应的数据，每个样本对应的reads数(序列条数)如下表2所示，每个外显子序列对应的序列条数如下表3所示(仅列出1#样本的数据)。

表3每个样本对应的序列条数和GC_数

表4BRCA1和BRCA2外显子区域目标序列对应的序列条数(以1号样本为例)

表3表明通过上述方法，成功构建了可以直接应用于测序的文库，并且每个文库都能对应的获得相应的测序序列。

表4以其中一个样品为例，列举了多重扩增中119对引物的序列数，表明多重扩增的有效性。

Claims

1.一种构建高通量测序文库的方法，特别是一种构建可以同时捕获多个扩增片段的测序文库的方法，包括以下步骤：

第一轮扩增：采用包括由与选自D5接头引物序列和D7接头引物序列中一者的3’端通用的测序引物序列的全部或部分相同的序列和各个基因的正向特异性扩增引物序列串联连接组成的第一轮正向扩增引物以及由与选自D5接头引物序列和D7接头引物序列中另一者的3’端通用的测序引物序列的全部或部分相同的序列和各个基因的反向特异性扩增引物序列串联连接组成的第一轮反向扩增引物的第一轮扩增引物的组合对各样本的一个或多个特定基因进行扩增，使每个扩增产物片段的两端都加上了所述通用的测序引物序列的部分或全部，其中，所述D5接头引物序列选自SEQ ID NO:1～SEQ ID NO:8中，所述D7接头引物序列选自SEQ ID NO:9～SEQ ID NO:20中；

第二轮扩增：采用由与选自所述D5接头引物序列和D7接头引物序列中一者相同的第二轮正向扩增引物以及与选自D5接头引物序列和D7接头引物序列中另一者相同的第二轮反向扩增引物组成的第二轮扩增引物的组合进行扩增，使最后的扩增产物又都加上了可区分各样本的对应于D5接头引物序列和D7接头引物序列的标签序列；

2.一种构建包括一个或多个基因目标区域的测序文库的方法，包括以下步骤：

1)引物设计：

第一轮扩增引物的组合：根据待测的目标基因设计对应的扩增引物，根据所用测序仪和测序方法适用的产物大小范围设计PCR产物长度，在正向扩增引物和反向扩增引物的5`端分别加上一段与D5接头引物序列和D7接头引物序列的通用的测序引物序列的全部或部分相同的序列，组成第一轮扩增引物组合，其中，所述第一轮正向扩增引物由与选自上述D5接头引物序列和D7接头引物序列中一者的3’端通用的测序引物序列的全部或部分相同的序列和各个基因的正向特异性扩增引物序列串联连接组成，以及所述第一轮反向扩增引物由与选自D5接头引物序列和D7接头引物序列中另一者的3’端通用的测序引物序列的全部或部分相同的序列和各个基因的反向特异性扩增引物序列串联连接组成，其中，所述D5接头引物序列选自SEQ ID NO:1～SEQ ID NO:8中，所述D7接头引物序列选自SEQ ID NO:9～SEQ ID NO:20中；

第二轮扩增引物的组合：根据样本的数量使用不同的D5接头引物和D7接头引物序列的标签序列组合以使各样本可区分，采用由与选自所述D5接头引物序列和D7接头引物序列中一者相同的第二轮正向扩增引物以及与选自D5接头引物序列和D7接头引物序列中另一者相同的第二轮反向扩增引物组成的第二轮扩增引物的组合；

2)第一轮扩增：采用所述第一轮扩增引物的组合对各样本的一个或多个特定基因进行扩增，特别是，在适于多重扩增目的核酸的条件下对样本进行扩增，使每个扩增产物片段的两端都加上了所述通用的测序引物序列的部分或全部；

4)磁珠纯化；

5)第二轮扩增：用上一步中对应样本消化后的产物作为模板，使用所述第二轮扩增引物的组合，进行第二轮扩增，使最后的扩增产物里又都加上了可区分各样本的标签序列；

3.根据权利要求1或2所述的方法，其中，扩增所采用的酶均为高保真DNA聚合酶，由此减少扩增带来的DNA突变率。

4.根据权利要求1或2所述的方法，其中，第一轮PCR扩增只进行20个循环；和/或，第二轮扩增进行10-15个循环。

5.根据权利要求1或2所述的方法，其中，所用的单链消化酶为核酸外切酶I(Exonuclease I)；和或，采用0.6-0.9x磁珠进行一次片段筛选，以减少第二轮扩增时的非特异扩增。

6.根据权利要求1或2所述的方法，其中，测序技术利用pair-End技术(例如IlluminaNextseq500/550，Hiseq 2000/2500/3000、Miseq)进行测序，获得DNA混合物的序列。

7.一种构建高通量测序文库的试剂盒，特别是一种构建可以同时捕获多个扩增片段的测序文库的试剂盒，包括：

第一轮扩增引物的组合：其包括与选自上述D5接头引物序列和D7接头引物序列中一者的3’端通用的测序引物序列的全部或部分相同的序列和各个基因的正向特异性扩增引物序列串联连接组成的第一轮正向扩增引物；以及由与选自D5接头引物序列和D7接头引物序列中另一者的3’端通用的测序引物序列的全部或部分相同的序列和各个基因的反向特异性扩增引物序列串联连接组成的第一轮反向扩增引物，其中，所述D5接头引物序列选自SEQID NO:1～SEQ ID NO:8中，所述D7接头引物序列选自SEQ ID NO:9～SEQ ID NO:20中；

第二轮扩增引物的组合：其包括与选自所述D5接头引物序列和D7接头引物序列中一者相同的第二轮正向扩增引物，以及与选自D5接头引物序列和D7接头引物序列中另一者相同的第二轮反向扩增引物。

8.一种构建包括BRCA1基因和BRCA2基因外显子区域的测序文库的试剂盒，

所述试剂盒包括：

第一轮扩增引物：根据待测的BRCA1和BRCA2外显子区域设计的对应的扩增引物，将PCR产物长度设计在240bp-280bp，其中，所述第一轮正向扩增引物由与选自上述D5接头引物序列和D7接头引物序列中一者的3’端通用的测序引物序列的全部或部分相同的序列和各个基因的正向特异性扩增引物序列串联连接组成，以及所述第一轮反向扩增引物由与选自D5接头引物序列和D7接头引物序列中另一者的3’端通用的测序引物序列的全部或部分相同的序列和各个基因的反向特异性扩增引物序列串联连接组成，其中，所述D5接头引物序列选自SEQ ID NO:1～SEQ ID NO:8中，所述D7接头引物序列选自SEQ ID NO:9～SEQ ID NO:20中；

第二轮扩增引物：根据样本的数量使用不同的D5接头引物和D7接头引物序列的标签序列组合以使各样本可区分，采用由与选自所述D5接头引物序列和D7接头引物序列中一者相同的第二轮正向扩增引物以及与选自D5接头引物序列和D7接头引物序列中另一者相同的第二轮反向扩增引物组成的第二轮扩增引物的组合的混合物。

9.一种构建包括BRCA1基因和BRCA2基因外显子区域的测序文库的试剂盒，其中，所述BRCA1基因包括23个外显子区域，以及BRCA2基因包括27个外显子区域，

所述试剂盒包括：

第一轮扩增引物的组合，其包括选自下列中的一对或多对：

10.根据权利要求7至9中任一项所述的试剂盒，其中，所述试剂盒进一步包括：单链消化酶，例如，核酸外切酶I(Exonuclease I)；和/或，用于扩增的酶，例如，高保真DNA聚合酶；和/或，0.6-0.9x磁珠。