CN109536579B

CN109536579B - 单链测序文库的构建方法及其应用

Info

Publication number: CN109536579B
Application number: CN201811306568.0A
Authority: CN
Inventors: 张巨永; 卢瀚林
Original assignee: Shenzhen Acegen Technology Co ltd
Current assignee: Shenzhen Acegen Technology Co ltd
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2022-04-22
Anticipated expiration: 2038-11-05
Also published as: CN109536579A

Abstract

本发明公开了提供了高通量测序文库的构建方法及其应用。其中，构建高通量测序文库的方法包括：将基因组DNA片段化和末端修复的DNA片段的3’末端添加碱基A，连接接头并扩增后，将所述DNA文库用外切酶进行消化得到单链DNA文库；利用特异性探针对连接产物进行杂交捕获，以便获得目的片段。本发明改进DNA杂交流程，将常规双链DNA模板通过酶切消化成单链，再采用环状寡核苷酸的完全封闭引入的接头和标签序列，用探针(RNA或DNA)对单链DNA模板进行捕获，可以降低杂交捕获的时间，提高探针捕获目的DNA序列的效率，降低GC区域捕获的偏好性。

Description

单链测序文库的构建方法及其应用

技术领域

本发明涉及生物技术领域。具体地，涉及涉及确定样本的目标DNA片段的靶向测序技术。更具体地，本发明提供了一种构建高通量测序文库的方法、一种确定样本的目标DNA片段的测序方法、一种用于确定样本目标DNA片段的装置以及一种用于构建样本目标DNA片段高通量测序文库的试剂盒。

背景技术

近年来崛起的新一代高通量测序技术能够同时对数十亿个DNA片段进行测序，为基础生物医学研究和临床检测提供了一个强大的工具。全基因组测序以其全面综合的检测性能广泛应用于基础科研领域，然而全基因组测序的成本和分析的复杂程度还是让科研人员倍感困难，尽管新一代测序(NGS)的通量越来越高，而费用越来越低，但它仍不是大多数遗传实验室和临床检测中心可行的选择。对于复杂疾病的研究更是如此，这类研究至少需要数百个样本，以实现足够的统计能力，这么多样本的全基因组测序，无论从成本考虑，还是从数据分析考虑，都是相对困难的。

因此另一测序技术就应运而生—目标靶向测序技术，目标靶向测序技术是通过一些不同的方法对我们感兴趣的目标DNA进行捕获制备成测序文库，再通过高通量测序进行测序分析，得到目标DNA的序列，例如外显子捕获测序，其捕获和测定大约30MB的全基因组外显子序列，其测序成本只有全基因组测序的百分之一。目标靶向测序技术杜宇庞大的人类或高等生物的基因组，可以成百上千倍地提高测序效率，及大地提高样本的通量，是高通量测序技术更好地应用于临床检测领域，目前发展了多种目标靶向测序技术，其主要分为一种是基于探针的捕获的富集技术，另一种是基于多重PCR的富集技术。

基于多重PCR的目标靶向测序技术以其简便的实验流程应用于一些临床检测领域，但其大多只能捕获小于1MB的区域，大都只能检测已知突变，且检测的稳定性差，这些特性都限制了其在临床的应用。基于探针的目标靶向测序技术能够捕获大于10mb以上的区域，且稳定性好，可以检测多种类型的突变，并且可以定制不同的检测区域，在临床应用具有极大的潜力。

然而，基于探针捕获的目标靶向测序技术其建库流程长，探针为了能够充分地和目标区域结合需要杂交1-2天甚至更长的时间，大大限制了临床检测的时效性。另外杂交捕获的效率有限(通常只有50-60％的捕获效率)，其浪费在非目标区域的数据也无形中增加了探针捕获的成本。

发明内容

本发明旨在解决现有技术问题的至少之一。本发明的第一方面提供了如下的技术方案：

将基因组DNA片段化，以便获得DNA片段；

将所述DNA片段进行末端修复，以便获得经过末端修复的DNA片段；

在所述经过末端修复的DNA片段的3’末端添加碱基A，以便获得具有粘性末端A的DNA片段；

将所述具有粘性末端A的DNA片段与接头相连，以便获得连接产物；

将所述连接产物通过一条带有5端磷酸化的引物和另一条5端不带有磷酸化的引物进行PCR扩增，得到DNA文库；

将所述DNA产物用外切酶进行消化得到单链DNA文库；

在本发明一个优选的实施例中，所述外切酶为lambda核酸外切酶；

在本发明一个优选的实施例中，将所述DNA文库与封闭寡核苷酸，特异性探针混合以进行杂交捕获，所述封闭寡核苷酸会形成环状封闭DNA文库两端引入的接头和/或标签序列，所述特异性探针对所述连接产物进行杂交捕获，以便获得目的片段；其中，所述环状封闭寡核苷酸是对接头和/或标签序列设计的，所述封闭寡核苷酸两段分别与DNA文库两端的接头和/或标签序列互补配对，连接形成闭环，实现环状封闭；

在本发明一个优选的实施例中，所述封闭寡核苷酸序列如SEQ ID NO:7所示。

在本发明一个优选的实施例中，所述杂交捕获为6～8h；

在本发明一个优选的实施例中，所述杂交捕获后用带有链霉亲和素的磁珠吸附并洗涤；

将获得的所述目的片段进行PCR扩增，以便获得扩增产物；

在本发明一个优选的实施例中，所述PCR扩增扩增10-12个循环；

以及分离纯化所述扩增产物，所述扩增产物构成所述高通量测序文库，

在本发明一个优选的实施例中，进一步包括从样本中提取基因组DNA的步骤，优选所述样本来源于哺乳动物、植物、和微生物的至少一种，更优选所述哺乳动物为人和小鼠的至少一种，优选所述基因组DNA为人类全血基因组DNA，更优选所述基因组DNA为外周血单核细胞基因组DNA，

在本发明一个优选的实施例中，所述基因组DNA的量为2μg，

在本发明一个优选的实施例中，利用covaris-S2打断仪将基因组DNA片段化，

在本发明一个优选的实施例中，所述DNA片段的长度为约150-300bp，优选200-250bp，

在本发明一个优选的实施例中，在将所述DNA片段进行末端修复前，进一步包括纯化DNA片段的步骤，

在本发明一个优选的实施例中，将所述DNA片段进行末端修复是利用Klenow片段、T4DNA聚合酶和T4多核苷酸激酶进行的，其中，所述Klenow片段具有5’→3’聚合酶活性和3’→5’聚合酶活性，但缺少5’→3’外切酶活性，

在本发明一个优选的实施例中，将所述经过末端修复的DNA片段的3’末端添加碱基A是利用Klenow(3’-5’exo-)进行的，

在本发明一个优选的实施例中，所述接头中包含标签序列，

在本发明一个优选的实施例中，将所述具有粘性末端A的DNA片段与接头相连是利用T4DNA连接酶进行的，

在本发明一个优选的实施例中，在获得连接产物后，进一步包括对连接产物进行纯化的步骤，

在本发明一个优选的实施例中，所述特异性探针是采用eArray***设计的，

在本发明一个优选的实施例中，所述探针的长度为120mer，

在本发明一个优选的实施例中，采用1μg的连接产物进行所述杂交捕获，

在本发明一个优选的实施例中，使用热启动DNA聚合酶进行所述PCR扩增，

在本发明一个优选的实施例中，分离纯化所述扩增产物是通过选自磁珠纯化、纯化柱纯化和2％的琼脂糖凝胶电泳的至少一种进行的，优选通过2％的琼脂糖凝胶电泳进行，

在本发明一个优选的实施例中，所述高通量测序文库的文库片段长度为300～450bp。

本发明的第二方面提供了一种对样本的目标DNA序列的进行测序的方法，其特征在于，包括下列步骤：

根据本发明第一方面所述的方法构建所述样本的目标DNA片段的高通量测序文库；

对所述样本的目标DNA序列的高通量测序文库进行测序，以便得到测序结果。

在本发明一个优选的实施例中，所述测序是利用高通量测序技术进行的。

在本发明一个优选的实施例中，所述测序是利用Hiseq2000测序仪进行的。

本发明的第三方面提供了一种用于确定样本的目标DNA序列的装置，其特征在于，包括：

文库制备单元，所述文库制备单元用于制备样本的确定样本的目标DNA片段的高通量测序文库，所述高通量测序文库为单链DNA文库，所述文库制备单元内设置有特异性探针；

测序单元，所述测序单元与所述文库制备单元相连，并且从所述文库制备单元接收所述样本的确定样本的目标DNA片段的高通量测序文库，以便用于对所述样本的确定样本的目标DNA片段的高通量测序文库进行测序，获得测序结果；以及

数据分析单元，所述数据分析单元与所述测序单元相连，并且从所述测序单元接收所述测序结果，以便对所述测序结果进行数据分析，确定所述样本的确定样本的目标DNA片段信息。

在本发明一个优选的实施例中，所述文库制备单元内设置有封闭寡核苷酸，

在本发明一个优选的实施例中，所述探针的长度为120mer。

本发明的第四方面提供了一种用于构建样本目标DNA序列的高通量测序文库，所述高通量测序文库是根据本发明第一方面所述的方法构建的。

本发明的第五方面提供了一种用于构建样本的目标DNA序列的高通量测序文库的试剂盒，其特征在于，包括：

单链DNA文库、特异性探针；

在本发明一个优选的实施例中，还包括封闭寡核苷酸，所述封闭寡核苷酸与DNA文库两端的接头序列互补配对，实现环状封闭；

在本发明一个优选的实施例中，所述探针的长度为120mer。

本申请方法的特点在于，1采用探针(RNA或DNA探针)捕获单链DNA片段，常规的捕获是针对双链DNA片段，在杂交过程中双链DNA片段有极大的概率复性，阻止探针和目标DNA片段结合；且不同GC含量区域的DNA片段复性的能力有差别，造成探针对不同区域的捕获效率不一样，表现于最终GC含量高区域的DNA片段捕获效率低而呈现明显的GC偏向性；采用单链DNA片段，防止非目标DNA和目标DNA通过互补接头序列退火互补而缠绕，降低非目标DNA的捕获效率(非目标区域和目标区域DNA缠绕，在目标DNA序列被捕获下来的同时也将非目标区域的DNA捕获下来了)，造成目标捕获效率降低。2.在本发明一个优选的实施例中，采用环状封闭(circle block)的方式去结合引入的接头的标签序列，尽可能完整地封闭引入的序列，防止接头序列之间以及探针和接头的结合造成的非目标捕获。

本发明提供的基于探针捕获单链DNA的建库方法能够有效减少探针和目标片段的杂交时间，并且还能够提高探针的捕获效率，降低非目标区域DNA的比例，极大地降低捕获目标DNA序列的成本，推动基于探针捕获的目标靶向测序技术应用于临床。具体详细如下：

1.降低杂交捕获的时间

本发明采用单链DNA和探针捕获，不存在双链DNA复性导致探针和目标DNA结合能力降低的问题，提高探针和DNA的结合能力，降低杂交捕获时间

2.消除杂交捕获DNA序列之间的GC偏向性

本发明采用单链DNA和探针捕获，不存在双链DNA由于GC含量差异而导致的复性能力差异问题。单链DNA消除了DNA之间复性的可能，解决捕获得到的目的DNA之间存在GC偏向性的问题

3.增加目标捕获效率

本发明采用单链DNA进行捕获，DNA之间的接头序列相同且不互补，避免样品DNA由于接头退火连在一起而影响捕获效率和导致非特异序列捕获。

本发明采用环状封闭策略，block可以非常牢固地和引入的接头和标签序列结合，避免探针和接头标签序列结合影响捕获效率和导致非特异序列捕获。

4.使用多种捕获***

本发明所提供的方法在NimbleGen芯片杂交***、Agilent液相杂交***和NimbleGen EZ液相杂交***中均适用，在相同或接近的测序深度(每个碱基被测序次数)时作为衡量序列捕获效果的目标区域覆盖度和序列捕获特异性指标在单个样品杂交或者多个样品杂交时结果一致。

5.适合多种测序平台

本发明所提供的方法在构建杂交测序文库时，只需要更换为所使用测序平台提供的对应接头和引物序列，即可适用于Roche454和AB SOLiD等其他的第二代测序平台，有较广的应用前景。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1：显示了线性封闭的示意图；

图2：显示了捕获时间和捕获效率的关系的示意图；

图3：显示了发明方法和常规方法数据重复率的示意图；

图4：显示了发明方法和常规方法GC稳定性之间的关系的示意图；

图5：发明方法和常规方法测序深度和GC含量之间的关系的示意图；

图6：显示了捕获文库构建的技术流程示意图；

图7：仅采用单链建库和采用单链建库加环状封闭得到的捕获效率示意图；

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

构建高通量测序文库的方法

根据本发明的一个方面，本发明提供了一种构建高通量测序文库的方法。根据本发明的实施例，该方法包括以下步骤：

首先，将基因组DNA片段化，以便获得DNA片段。在本发明中所使用的术语“DNA”可以是任何包含脱氧核糖核苷酸的聚合物，包括但不限于经过修饰的或者未经修饰的DNA。本领域的技术人员可以理解，基因组DNA的来源不受特别限制，可以从任何可能的途径获得，可以是通过市售直接获得，也可以是从其他实验室直接获取，还可以是直接从样本中提取。根据本发明的实施例，可以从样本中提取获得基因组DNA。根据本发明的一个实施例，构建高通量测序文库的方法可以进一步包括从样本中提取基因组DNA的步骤。根据本发明的一些具体示例，样本可以来源于哺乳动物、植物、和微生物的至少一种。根据本发明的一些实施例，哺乳动物可以为人和小鼠的至少一种。根据本发明的一个实施例，基因组DNA可以为人类全血基因组DNA，优选为外周血单核细胞基因组DNA。

根据本发明的实施例，基因组DNA的量不受特别限制，根据本发明的具体示例，优选基因组DNA的量为2μg。发明人惊奇地发现，当基因组DNA的量为2μg时，根据本发明实施例的构建高通量测序文库的方法构建的样本的确定样本的目标DNA片段的高通量测序文库，能够非常方便地应用于高通量测序技术，如Illumina测序技术，且文库测序结果准确，可重复性好。

其次，将DNA片段进行末端修复，以便获得经过末端修复的DNA片段。根据本发明的一个实施例，在将DNA片段进行末端修复前，可以进一步包括纯化DNA片段的步骤，由此，使得后续的末端修复易于进行。根据本发明的实施例，将DNA片段进行末端修复可以利用Klenow片段、T4DNA聚合酶和T4多核苷酸激酶进行，其中，所述Klenow片段具有5’→3’聚合酶活性和3’→5’聚合酶活性，但缺少5’→3’外切酶活性。由此，能够方便准确地对DNA片段进行末端修复。根据本发明的实施例，还可以进一步包括对经过末端修复的DNA片段进行纯化的步骤，由此能够方便地进行后续处理。

接下来，在经过末端修复的DNA片段的3’末端添加碱基A，以便获得具有粘性末端A的DNA片段。根据本发明的一个实施例，可以利用Klenow(3’-5’exo-)，即具有3’→5’外切酶活性的Klenow，在经过末端修复的DNA片段的3’末端添加碱基A。由此，能够方便准确地将碱基A添加到经过末端修复的DNA片段的3’末端。根据本发明的实施例，还可以进一步包括对具有粘性末端A的DNA片段进行纯化的步骤，由此能够方便地进行后续处理。

根据本发明的一个实施例，将具有粘性末端A的DNA片段与接头相连是利用T4DNA连接酶进行的，由此可以方便地获得连接产物。根据本发明的实施例，还可以进一步包括对连接产物进行纯化的步骤，由此能够方便地进行后续处理。

然后，利用特异性探针对所述连接产物进行杂交捕获，以便获得目的片段。根据本发明的实施例，这里的术语“特异性探针”是指探针是对已知目标DNA片段的特异性。根据本发明的具体示例，特异性探针是基于采用人类基因组作为参考序列，并且采用基因组上已知的目标DNA片段作为靶序列而设计的，由此，利用根据本发明实施例的特异性探针进行杂交捕获，能够有效地捕获样本中与靶序列互补的序列(在本说明书中，有时也称为“确定样本的目标DNA片段”)。

根据核酸的互补配对原则，单链状态的捕获探针可以与单链状态的目的序列互补结合，从而成功地将目标区域捕获。根据本发明的实施例，探针设计可选择固相捕获芯片(探针固定在固体载体上)或液相捕获探针(探针游离在液体中)，然而固相捕获芯片因探针长度、探针密度、价格偏高等诸多因素限制，液相捕获即作为首选。

根据本发明的实施例，采用安捷伦公司(Agilent)的探针设计***eArray设计探针，探针长度80～120mer，探针可覆盖长度范围大，从小于200kb到24Mb甚至更长。eArray探针设计***可以方便地使用生物信息学工具window masker(窗口序列屏蔽)和repeatmasker(重复序列屏蔽)对目标区域分析并进行屏蔽，由此，可以避免对这些区域进行探针设计，非常有效地减少实验中的捕获干扰以及后续序列分析时发生的比对干扰；并且缩短覆盖长度可以在一定程度上减少成本。

然后，将目的片段进行PCR扩增，以便获得扩增产物。根据本发明的实施例，可以使用热启动DNA聚合酶对经过转换的目的片段进行PCR扩增。根据本发明的实施例，热启动DNA聚合酶的种类不受特别限制，根据本发明的具体示例，热启动DNA聚合酶可以为r-taq聚合酶，由此PCR扩增效率高、用时少。

最后，分离纯化扩增产物，所得到的扩增产物构成高通量测序文库。根据本发明的实施例，分离纯化扩增产物的方法不受特别限制，根据本发明的具体示例，可以通过选自磁珠纯化、纯化柱纯化和2％的琼脂糖凝胶电泳的至少一种进行，优选通过2％的琼脂糖凝胶电泳进行。根据本发明的一些具体示例，高通量测序文库的文库片段长度为300～450bp，由此，高通量测序文库能够方便有效地应用于高通量测序平台如Illumina测序平台，且可重复性好，测序结果真实可靠，包含特异性探针所针对的确定样本的目标DNA片段的信息较完整。

探针和双链DNA杂交的过程中,双链DNA由于完全互补容易复性，阻止探针和DNA片段之间的结合，造成探针捕获效率下降，因此需要较长的杂交时间；此外双链DNA分子复性的能力和GC含量相关，GC含量越高，复性越容易，因此高GC含量的DNA片段更难被探针所捕获而呈现出GC偏向性：高GC含量的目标DNA片段捕获得到的数据量少，低GC含量的目标DNA片段得到的数据量多。

在常规的以双链模板为基础的探针捕获过程中，一般需要采用线性的封闭寡核苷酸block oligo去封闭引入的接头和标签序列(附图1)，此外双链DNA片段两端的接头序列是互补配对的，很容易进行结合，例如不需要捕获的非目标区域DNA片段一端的接头和需要捕获的目标区域DNA片段一端的接头结合，当目标区域和探针杂交然后被磁珠捕获时，非目标区域的片段也被顺带捕获下来，造成非特异性捕获(附图6)。而以单链为模板的捕获过程不需要加入探针的封闭，因为所有的单链模板都是带有相同的接头序列，不存在序列两端的接头互补导致目标区域序列在杂交洗脱的过程将非目标序列捕获下来。

本发明设计了一种单链DNA杂交捕获方法，其中包括单链DNA捕获文库的制备方法和单链DNA杂交捕获***。

本发明目的在于降低杂交捕获的时间和提高目标DNA捕获的效率，该技术方案包括从样品基因组DNA起始捕获文库的全部实验流程。技术方案主要包括单链DNA文库构建和样本杂交。

文库构建

将样品基因组DNA通过包括但不限于超声波打断法打断成200～250bp大小的片段，通过末端修复、加“A”碱基、连接等过程为DNA片段加上特定的测序接头(illumina、proton平台的接头)，通过一条带有5端磷酸化的引物和另一条5端不带有磷酸化的引物对加上特定接头的模板进行PCR富集，此条5端磷酸化的引物和接头一端的序列互补或相同，此条非磷酸化引物(常规引物)和接头另一端的序列互补相同或互补，详细信息如附表1。扩增得到双链捕获前DNA文库，得到的双链DNA文库用lambda核酸外切酶将新生成的磷酸化链进行消化得到单链DNA文库。

样本杂交

探针捕获，单链制备的模板文库和探针混合，杂交6-8小时候后用带有链霉亲和素的磁珠吸附并洗涤，得到的捕获产物再用通用引物进行捕获后PCR扩增，扩增10-12个循环后，将得到的捕获产物进行上机测序。

本发明改进DNA杂交流程，将常规双链DNA模板通过酶切消化成单链，再采用环状oligo的完全封闭引入的接头和标签序列，通过探针去结合完全封闭的单链DNA，将目标DNA序列捕获下来。

解决杂交的时间过长的问题

双链DNA会自身发生复性，降低了探针和目标DNA的结合，因此捕获效率偏低，需要长时间的杂交过程；单链DNA模板不会存在DNA复性这个问题，因此降低了杂交时间。

解决双链DNA复性造成捕获GC偏好性问题

双链DNA在复性过程中会呈现高GC含量的DNA序列复性快，导致高GC含量的DNA序列更难被探针捕获下来最终导致高GC含量的DNA序列数据量偏低，而单链DNA模板不会存在DNA复性这个问题，因此消除了由于GC含量的差异造成的GC偏向性。

解决目标区域捕获效率低的问题

常规采用双链DNA模板进行捕获的方法，所有的DNA序列都带有相同的接头序列，因此非目标区域DNA序列和目标区域的DNA序列可能通过互补的接头序列而缠绕在一起，在目标区域被探针捕获下来的同时，非目标区域的序列也会被顺带捕获下来，造成捕获效率偏低；单链DNA都带有相同的接头序列，接头序列之间无法互补，因此不会造成目标DNA序列和非目DNA序列的缠绕。

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著，黄培堂等译的《分子克隆实验指南》，第三版，科学出版社)或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例1单链建库

采用单链建库，然后用单链文库和探针进行杂交捕获得到捕获文库。

Agilent液相杂交体系(Agilent公司)对照实施例：单个样品用50M全外显子序列捕获(SureSelect HumanAll Exon 50Mb Kit)

实验方法：

杂交文库构建流程参考SureSelectXT Target Enrichment System forillumina Paired-End Multiplexed Sequencing Libraryprotocol，取3ug基因组DNA(从人外周血中提取)打断后，末端补平，加“A”碱基，加接头(来自illumina MultiplexingSample Preparation Oligonucleotide Kit)。采用发明的单链DNA文库制备方法进行单链DNA文库制备，用到的引物序列如表1所示。

末端修复

在1.5ml离心管中配置如下试剂

试剂	体积μL
		打断后的DNA	40
末端修复缓冲液	4
		末端修复酶	6
共	50

25度，30min，65度15min；

接头连接

在上述某段修复产物中加入如下试剂

试剂	体积μL
		上一步DNA	50
连接反应缓冲液	25
		连接酶	5
接头(10μM)	20
		共	100

23度，30min；

加入100μLAmpure beads按照Agencourt AMPure protocol(美国Beckman公司)纯化PCR产物，溶解至35μL纯水中。

双链DNA文库制备

PCR反应体系及反应条件如下：

反应体系：

反应条件：

(a).98℃ 30s

(b).98℃ 30s

(c).65℃ 30s

(d).72℃ 1min

(e).重复(b)-(d)步骤3-9次(共4-10循环)

(f).72℃ 5min

(g).4℃ 静置

加入50μLAmpure beads按照Agencourt AMPure protocol(美国Beckman公司)纯化PCR产物，溶解至25μL纯水中，使用NanoDrop 1000检测PCR产物浓度。

单链DNA文库制备

采用NEB的lambda核酸外切酶对磷酸化的DNA进行酶切

试剂	体积μL
		双链DNA	25
10×lambda buffer	5
		lambda核酸外切酶	1
水	19
		总共	50

反应条件：37度，30分钟，

加入50μLAmpure beads按照Agencourt AMPure protocol(美国Beckman公司)纯化PCR产物，溶解至25μL纯水中，使用Qubit 3.0检测单链DNA产物浓度。

杂交

a.用浓缩等方法准备≥3.4μL 100ng/μL的单链DNA文库。

b.配制Hybridization Buffer(所有试剂都来自Agilent公司)：

c.准备SureSelect Oligo Capture Library Mix(所有试剂都来自Agilent公司)，并于冰上放置：

d.于PCR管中加入样品SureSelect-SC的DNA文库，同时加入cotDNA混匀后保持在65℃中。

e.按要求将Hybridization Buffer加入到PCR管中，混匀，于65℃(热盖设为105℃)杂交8小时

f.杂交后的样品用Dynal磁珠(Invitrogen)吸附样品，并用35μL SureSelectElution Buffer洗脱捕获后的序列。

捕获后PCR扩增：

试剂	体积μL
		捕获DNA	33.5
5×Herculase II Reaction Buffer	10
		100mMdNTP Mix	0.5
Herculase II Fusion DNA Polymerase	1
		通用引物3(10μM)	2.5
通用引物4(10μM)	2.5
		共	50(uL)

反应条件：

(a).98℃ 2min

(b).98℃ 20s

(c).60℃ 30s

(d).72℃ 30s

(e).重复(b)-(d)步骤9-14次(共10-15次)

(f).72℃ 5min

(g).4℃ 静置

j.PCR产物中加入50μLAmpure beads按照Agencourt AMPure protocol(美国Beckman公司)纯化PCR产物，溶解至25μL纯水中，使用Qubit 3.0检测单链DNA产物浓度。

测序与数据分析：

得到的文库经之间合格后到illuminanextseq500平台上机，测序长度PE150,得到的数据比对到人参考基因组，并统计比对率、捕获效率、覆盖度、GC偏好性、重复率等参数

结果：

本发明改进后的不同杂交时间得到的捕获率和常规方法的对比图(图2)，本发明的单链捕获的方法在6小时就能达到一个很好的捕获效率(70％±2％)，而现有技术的方法需要达到12h才能达到一个比较好的捕获效率(65％±2％)，该实施例中的单链建库的方法取得了意料外的技术效果。

本发明得到的数据重复率和常规方法得到的数据重复率对比(图3)，本方法采用线性捕获，对于模板具有更高的利用效率，不存在复性，使所有的模板都尽可能的和模板结合；

本发明得到的GC稳定性和常规方法得到的GC稳定性对比(图4)，本方法采用单链捕获，整个捕获过程中得到的产物的GC含量比常规方法更稳定，实验条件对复性的影响很大，导致影响对所有模板捕获的稳定性；

本发明和常规发明测序深度和GC含量的关系(图5)，本发明采用单链捕获，模板复性对深度的影响很小，反应到GC含量和深度的关系就是相对于常规捕获，模板的GC含量对测序深度的影响不大；

实施例2单链建库+环状封闭

采用单链建库，然后用环状封闭的方式去封闭单链接头，然后再和探针进行杂交捕获得到捕获文库。

实验方法：

末端修复

在1.5ml离心管中配置如下试剂

25度，30min，65度15min；

接头连接

在上述某段修复产物中加入如下试剂

23度，30min；

双链DNA文库制备

PCR反应体系及反应条件如下：

反应体系：

试剂	体积μL
		加完接头的DNA	33.5
5×Herculase II Reaction Buffer	10
		100mMdNTP Mix	0.5
Herculase II Fusion DNA Polymerase	1
		通用引物1(10μM)	2.5
通用引物2(10μM)	2.5
		共	50

反应条件：

(a).98℃ 30s

(b).98℃ 30s

(c).65℃ 30s

(d).72℃ 1min

(e).重复(b)-(d)步骤3-9次(共4-10循环)

(f).72℃ 5min

(g).4℃ 静置

单链DNA文库制备

采用NEB的lambda核酸外切酶对磷酸化的DNA进行酶切

试剂	体积μL
		双链DNA	25
10Xlambda buffer	5
		lambda核酸外切酶	1
水	19
		总共	50

反应条件：37度，30分钟，

杂交

a.用浓缩等方法准备≥3.4μL 100ng/μL的单链DNA文库。

b.配制Hybridization Buffer(所有试剂都来自Agilent公司)：

d.于PCR管中加入样品SureSelect-SC的DNA文库，同时加入cotDNA和环状blockoligo(如附表2)混匀后保持在65℃中。

捕获后PCR扩增：

反应条件：

(a).98℃ 2min

(b).98℃ 20s

(c).60℃ 30s

(d).72℃ 30s

(e).重复(b)-(d)步骤9-14次(共10-15次)

(f).72℃ 5min

(g).4℃ 静置

测序与数据分析：

结果：

本发明采用单链加环状封闭的捕获方法得到的捕获效率比仅仅采用单链捕获的高66±2％和72±2％(图7)；

附表1

接头和单链文库制备引物序列

表2：环状封闭寡核苷酸block oligo

I*样本INDEX

在常规的探针捕获过程中，一般采用线性的block oligo去封闭引入的接头和标签序列，因为采用双链捕获，往往加入的block oligo只能封闭1/2的接头序列(附图1)，有可能导致探针和接头以及标签之间结合，造成非特异性捕获；此外双链DNA片段2端的接头序列是互补配对的，很容易进行结合，例如非目标区域DNA片段一端的接头和目标区域DNA片段一端的接头结合，当目标区域被磁珠捕获时，非目标区域的片段也被顺带捕获下来，造成非特异性捕获(附图6)，

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

序列表

<110> 深圳市艾斯基因科技有限公司

<120> 单链测序文库的构建方法及其应用

<160> 7

<170> SIPOSequenceListing 1.0

<210> 1

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

gatcggaaga gcacacgtct gaactccagt cacnnnnnnn natctcgtat gccgtcttct 60

gcttg 65

<210> 2

<211> 62

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

aatgatacgg cgaccaccga gatctacaca cactctttcc ctacacgacg ctcttccgat 60

ct 62

<210> 3

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

aatgatacgg cgaccaccga gatctac 27

<210> 4

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

caagcagaag acggcatacg agat 24

<210> 5

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

aatgatacgg cgaccaccga gatctac 27

<210> 6

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

caagcagaag acggcatacg agat 24

<210> 7

<211> 128

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

tctagccttc tcgtgtgcag acttgaggtc agtgnnnnnn nntagagcat acggcagaag 60

acgaacttac tatgccgctg gtggctctag atgtgtgtga gaaagggatg tgctgcgaga 120

aggctaga 128

Claims

1.一种构建高通量测序文库的方法，其特征在于，包括以下步骤：

将基因组DNA片段化，以便获得DNA片段；

将所述DNA产物用外切酶进行消化得到单链DNA文库；

将所述DNA文库与封闭寡核苷酸，特异性探针混合以进行杂交捕获，所述封闭寡核苷酸会形成环状封闭DNA文库两端引入的接头和/或标签序列，所述特异性探针对所述连接产物进行杂交捕获，以便获得目的片段；其中，所述环状封闭寡核苷酸是对接头和/或标签序列设计的，所述封闭寡核苷酸两段分别与DNA文库两端的接头和/或标签序列互补配对，连接形成闭环，实现环状封闭；

任选地，所述外切酶为lambda核酸外切酶；

任选地，所述杂交捕获为6~8h;

任选地，所述杂交捕获后用带有链霉亲和素的磁珠吸附并洗涤；

将获得的所述目的片段进行PCR扩增，以便获得扩增产物；

任选地，所述PCR扩增扩增10-12个循环；

任选地，进一步包括从样本中提取基因组DNA的步骤，

任选地，利用covaris-S2打断仪将基因组DNA片段化，

任选地，所述DNA片段的长度为约150-300bp，

任选地，在将所述DNA片段进行末端修复前，进一步包括纯化DNA片段的步骤，

任选地，将所述DNA片段进行末端修复是利用Klenow片段、T4 DNA聚合酶和T4多核苷酸激酶进行的，其中，所述Klenow片段具有5’→3’聚合酶活性和3’→5’聚合酶活性，但缺少5’→3’外切酶活性，

任选地，将所述经过末端修复的DNA片段的3’末端添加碱基A是利用Klenow (3’-5’exo-)进行的，

任选地，所述接头中包含标签序列，

任选地，将所述具有粘性末端A的DNA片段与接头相连是利用T4 DNA连接酶进行的，

任选地，在获得连接产物后，进一步包括对连接产物进行纯化的步骤，

任选地，所述特异性探针是采用eArray***设计的，

任选地，所述探针的长度为120mer，

任选地，采用1µg的连接产物进行所述杂交捕获，

任选地，使用热启动 DNA聚合酶进行所述PCR扩增，

任选地，分离纯化所述扩增产物是通过选自磁珠纯化、纯化柱纯化和2%的琼脂糖凝胶电泳的至少一种进行的，

任选地，所述高通量测序文库的文库片段长度为300~450bp。

2.根据权利要求1所述的方法，其特征在于，所述样本来源于哺乳动物、植物、和微生物的至少一种。

3.根据权利要求2所述的方法，其特征在于，所述哺乳动物为人和小鼠的至少一种。

4.根据权利要求1所述的方法，其特征在于，所述基因组DNA为人类全血基因组DNA。

5.根据权利要求4所述的方法，其特征在于，所述基因组DNA为外周血单核细胞基因组DNA。

6.根据权利要求1所述的方法，其特征在于，所述基因组DNA的量为2µg。

7.根据权利要求1所述的方法，其特征在于，所述DNA片段的长度为200-250bp。

8.根据权利要求1所述的方法，其特征在于，通过2%的琼脂糖凝胶电泳进行。

9.一种对样本的目标DNA序列的进行测序的方法，其特征在于，包括下列步骤：

根据权利要求1所述的方法构建所述样本的目标DNA片段的高通量测序文库；

10.根据权利要求9所述的方法，其特征在于，所述测序是利用高通量测序技术进行的。

11.根据权利要求10所述的方法，其特征在于，所述测序是利用Hiseq2000测序仪进行的。

12.一种用于确定样本的目标DNA序列的装置，其特征在于，包括：

文库制备单元，所述文库制备单元用于制备样本的确定样本的目标DNA片段的高通量测序文库，所述高通量测序文库为单链DNA文库，所述高通量测序文库为根据权利要求1所述的方法构建的高通量测序文库；

数据分析单元，所述数据分析单元与所述测序单元相连，并且从所述测序单元接收所述测序结果，以便对所述测序结果进行数据分析，确定所述样本的确定样本的目标DNA片段信息，

任选地，所述特异性探针是采用eArray***设计的，

任选地，所述探针的长度为120mer。

13.一种用于构建样本目标DNA序列的高通量测序文库，所述高通量测序文库是根据权利要求1所述的方法构建的。

14.一种用于构建样本的目标DNA序列的高通量测序文库的试剂盒，其特征在于，包括：

单链DNA文库、特异性探针、封闭寡核苷酸；

所述单链DNA文库是通过如下方法得到：

通过将基因组DNA片段化，以便获得DNA片段，

将所述DNA片段进行末端修复，以便获得经过末端修复的DNA片段，

在所述经过末端修复的DNA片段的3’末端添加碱基A，以便获得具有粘性末端A的DNA片段，

将所述具有粘性末端A的DNA片段与接头相连，以便获得连接产物，

将所述连接产物通过一条带有5端磷酸化的引物和另一条5端不带有磷酸化的引物进行PCR扩增，得到DNA文库，

将所述DNA产物用外切酶进行消化得到单链DNA文库；

所述封闭寡核苷酸会形成环状封闭DNA文库两端引入的接头和/或标签序列，所述环状封闭寡核苷酸是对接头和/或标签序列设计的，所述封闭寡核苷酸两段分别与DNA文库两端的接头和/或标签序列互补配对，连接形成闭环，实现环状封闭；

所述特异性探针对所述连接产物进行杂交捕获，以便获得目的片段；

任选地，所述特异性探针是采用eArray***设计的，

任选地，所述探针的长度为120mer。