CN102653784A

CN102653784A - 用于多重核酸测序的标签及其使用方法

Info

Publication number: CN102653784A
Application number: CN2011100502381A
Authority: CN
Inventors: 刘琳; 何毅敏
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Technology Solutions Co Ltd
Priority date: 2011-03-03
Filing date: 2011-03-03
Publication date: 2012-09-05
Anticipated expiration: 2031-03-03
Also published as: CN102653784B; HK1175208A1; WO2012116661A1

Abstract

本发明提供了一种用于多重核酸测序的标签及其使用方法，基于目前illumina公司提供的Illumina/Solexa测序平台，针对测序文库，特别是Illumina/Solexa测序样品建库方法，设计了不同长度的标签，特别是独特的梯度标签序列(index1-6)，通过接头将标签嵌入测序文库，特别是Illumina/Solexa测序文库的3’接头中，成功的建立了测序标签文库，特别是Illumina/Solexa测序标签文库的建库方法，适合任何生物的测序标签文库构建，并成功用于Illumina/Solexa测序，不仅增大了Illumina/Solexa测序样品的测序通量，而且降低了针对Illumina/Solexa测序测序的费用。

Description

用于多重核酸测序的标签及其使用方法

技术领域

本发明涉及核酸测序技术领域，特别是多重核酸测序技术领域。另外，本发明还涉及标签及其使用方法，以及利用标签技术构建测序文库的方法。本发明的方法特别适用于第二代测序技术，尤其是Illumina/Solexa测序技术。

背景技术

最早的测序文库建库方法只适合对单个文库样品进行测序，不能将多个文库样品混合测序。但是随着测序技术的发展，测序平台的测序通量已经远远超出了单个文库所需要的数据量。为了实现多个文库样品混合测序，避免测序资源浪费，产生了多重核酸测序(Multiplex sequencing)技术。多重测序的基本理念是：在每个文库接头序列和***片段之间加入一段用于识别样品来源的标签序列(也称为Index序列)，在测序时，使用标签特异性引物，测出每个文库的标签序列，根据标签序列不同，区分不同的文库。

以illumina公司的Illumina/Solexa测序平台的一种样品文库制备方法为例(Preparing Samples for Multiplexed Paired-EndSequencing，Part#1005361Rev.B，illumina)，如图1所示，建库过程如下：

首先将基因组DNA按照Illumina/SolexaDNA样品制备方法打断成主带小于500bp的一系列DNA片段；然后将因打断形成的粘性末端修复成平末端；再通过3′端加碱基“A”，使得DNA片段能与3′端带有“T”碱基的并含有用于标记样品来源的标签序列的接头连接；连接产物用电泳法选择回收目的片段的分子量大小；然后使用PCR技术扩增两端带有接头的DNA片段并对最后的PCR产物进行纯化。如图2所示，在测序时，将目的片段和标签序列一并测出，通过标签序列就可以识别样品文库的来源。

常规多重核酸测序时，一般是利用同样长度的标签(Index)，混合不同文库同时进行测序，常常会因为标签中碱基的偏向性，造成检测***片段时光强参数的波动，影响输出的数据质量，导致数据结果不可信，不能真实的反映样品的相关信息，同时也将导致实验结果重复性低。

发明内容

本发明基于目前illumina公司的Illumina/Solexa测序平台提供的文库制备方法，将一段不同长度的标签(核苷酸序列)，例如长度呈梯度变化的核苷酸序列(即梯度标签)嵌入接头(也称为adapter)中或PCR引物中，同时考虑PCR引物的扩增效率和数据产出的偏向性因素，筛选出合适的不同长度的标签及含该标签序列的接头或PCR引物，并将该接头用于混合样品测序，并在此基础上，利用在PCR引物中加入标签序列用于混合样品测序，增强了该发明的灵活性和实用性。

本发明将经过筛选的不同长度的标签用于构成标签文库的接头，其中所述接头包含所述标签，从而构成各自相对应的标签接头，用作标签文库的接头。

本发明还可以将经过筛选的不同长度的标签构成用于扩增目的序列的PCR引物，其中所述PCR引物包含所述标签，从而构成各自相对应的标签PCR引物。

标签设计首先需要考虑标签序列之间的序列差异程度和碱基识别率。在标签混合量少于6个样品的情况下，必须考虑到混合后的标签上的每个碱基位点的GT含量。因为Illumina/Solexa测序过程中，碱基G和T的激发荧光一样，碱基A和C的激发光是一样的，因此必须考虑碱基“GT”含量与碱基“AC”含量的“平衡”，最后考虑数据产出的准确性和可重复性。在设计标签的过程中，本发明充分考虑到以上几个因素，同时避免了标签序列之间出现3或3个以上连续的相同碱基的出现，这样可以降低序列在合成过程中或测序过程中的错误率。标签序列本身嵌入接头中，也要尽可能的避免出现发夹结构或与测序引物及其反向互补序列相同的现象。

在本发明的一个具体实施方式中，将不同长度的核苷酸序列(标签)包含在用于扩增目的序列的PCR引物中，从而构成各自相对应的标签PCR引物，首先将总DNA样品利用机械法或酶切法打断成一定长度的片段。片段与接头连接后，再通过标签PCR引物对目的片段进行扩增，最后通过琼脂糖电泳并切胶回收目的片段文库。

在本发明的一个具体实施方式中，将不同长度的核苷酸序列(标签)嵌入现有文库的接头(例如末端)中，形成标签接头(例如梯度标签接头)。首先将总DNA样品利用机械法或酶切法打断成一定长度的片段，并在片段末端形成随机的粘性末端，之后，与标签接头进行连接反应。目的片段与标签接头连接后，再通过特定的PCR引物对目的片段进行扩增，最后通过琼脂糖电泳并切胶回收目的片段文库。

在本发明的一个具体实施方式中，将不同长度的核苷酸序列(标签)包含在用于扩增目的序列的PCR引物中，从而构成各自相对应的标签PCR引物；同时将不同长度的核苷酸序列(标签)嵌入现有文库的接头(例如末端)中，形成标签接头(例如梯度标签接头)。首先将总DNA样品利用机械法或酶切法打断成一定长度的片段。之后，与标签接头进行连接反应。目的片段与标签接头连接后，再通过标签PCR引物对目的片段进行扩增，最后通过琼脂糖电泳并切胶回收目的片段文库。

基于目前illumina公司的Illumina/Solexa测序平台提供的文库制备方法，本发明针对样品建库方法，设计了独特的标签序列(例如梯度标签序列)，通过接头将标签(例如梯度标签)嵌入Illumina/Solexa测序文库的3’接头中，成功的建立了适用于Illumina/Solexa测序标签文库的建库方法，所述方法适合任何常见生物样品(例如植物，例如拟南芥、水稻；动物，例如人、小鼠；微生物，例如大肠杆菌等)的Illumina/Solexa测序标签文库构建，并成功用于Illumina/Solexa测序，不仅增大了Illumina/Solexa测序样品的测序通量，而且降低了Illumina/Solexa 测序的费用。

在本发明的一个具体实施方式中，基于目前illumina公司提供的Illumina/Solexa测序平台，设计一组长度为6-8bp并以1个bp递增的特定梯度标签序列，将这些梯度标签序列嵌入接头序列中。考虑到Illumina/Solexa测序文库的3’接头(也称为接头2)的连接效率，优化并筛选出6条梯度标签接头，这些梯度标签的长度为6、7或8个bp，并且它们之间的差异在5个碱基以上，当梯度标签的6、7和8个碱基中的任意1个碱基出现测序错误或合成错误，都不影响到梯度标签的最终识别。

表1为优化筛选出来的6条梯度标签(Index1-6)序列，及其对应的梯度标签接头序列(IndexN adapter2F和IndexN adapter2R，N＝1-6)信息。这些梯度标签及其梯度标签接头可以应用于任何Illumina/Solexa测序标签文库的构建。这些梯度标签应用于Illumina/Solexa测序样品的文库构建并通过Illumina/Solexa进行测序的方法，目前尚未有报道。

表1Illumina/Solexa测序的梯度标签序列及梯度标签接头2序列，其中每一个梯度标签接头2由有义序列IndexN adapter F和反义序列IndexN adapter R经退火形成。

表2Illumina/Solexa测序的非梯度标签序列(PE IndexN)，标签长度为6bp，及非梯度标签接头2序列，其中每一个非梯度标签接头2由有义序列PE IndexN adapter F和反义序列PE IndexN adapter R经退火形成。

在本发明的一个具体实施方式中，将本发明的6条梯度标签嵌入接头中，构建文库(参见实施例1，使用人类基因组DNA为材料构建的人类pair-end DNA标签文库)，使用Illumina/Solexa技术对文库进行测序，并与使用相同长度的标签文库比较质量值的变化。质量值(Q-Value)可以反映测序质量，介于0-40之间，在此范围内，越高表示质量越好。Q20是指质量值大于20的碱基在所有碱基中所占的比例，可以反映测序出来的序列质量好坏，数值越接近1，说明测序质量越好，使用非梯度标签的文库Q20平均值在0.8，而且由于使用非梯度标签的文库使用的是6bp固定长度的标签(表2)，在测第一个***片段碱基即第7个循环时，由于碱基分布的变化，此处会出现明显的质量下降，而在使用梯度标签的文库中，质量值一直都维持在0.9(如图3)。测序结果明显优于使用非梯度标签的文库，特别是在实施例1和实施例2中的结果。

在这个具体实施方式中，又设计实验比较了反映测序质量的各项参数，包括光强，碱基分布和错误率随循环数的变化。从这些参数来看，使用梯度标签的文库和使用非梯度标签的文库并无明显差异(如图4-6)。说明使用梯度标签的文库和使用非梯度标签的文库在整体上并无明显差异，使用梯度标签并不会影响文库的整体测序结果，但是在从梯度标签过渡到***片段(insert fragment)时，能显著提高在这个碱基的质量值。对于HiSeq2000测序仪产量而言，假设碱基簇(cluster)密度为300万/tile，PF为87％，则运行一次HiSeq测序仪可以增加83.5M的数据，并且能增加数据的可用性。

附图说明

图1：基因组DNA pair-end标签文库建库流程示意图。。

图2：Illumina/Solexa测序标签文库测序示意图。其中Read1表示测序反应1所测出来的序列，Read 1 Seq Primer表示测序引物。

图3：梯度标签文库与非梯度标签文库前10个循环(cycle)的质量值(Q20)的比较。A：梯度标签文库；B：非梯度标签文库。其中横坐标表示循环数，纵坐标表示质量情况。

图4：梯度标签文库与非梯度标签文库前10个循环的光强的比较。A：梯度标签文库；B：非梯度标签文库。其中横坐标(Cycle)表示循环数，纵坐标表示光强信号平均值(Signal mean)。

图5：梯度标签文库与非梯度标签文库前10个循环的碱基分布的比较。A：梯度标签文库；B：非梯度标签文库。其中横坐标(Position alongreads)表示运行的循环数，纵坐标(Percent)表示在此循环中不同碱基所占的百分比。该图显示了每次测序中测到的各种碱基比例(basepercentage composition along reads)。

图6：梯度标签文库与非梯度标签文库前10个循环的错误率的比较。A：梯度标签文库；B：非梯度标签文库。其中横坐标(Position along reads)表示运行的循环数，纵坐标(％Error-rate)表示错误率(即在这个循环中测序错误发生的比例)，实线表示错误率(ErrorRate，即在这个循环中测序错误发生的比例)，虚线表示无法分析的碱基比例(Blank Rate)。该图显示了不同文库在错误率上的区别(Error-rate along reads)

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围。

本发明提供了一组不同长度，优选梯度长度的标签(核苷酸序列)用于测序标签文库的构建和/或测序的用途，其中所述标签是一段寡聚核苷酸序列，优选是2-100bp的核苷酸序列。

在本发明中，可以将一组不同长度的标签包含在用于扩增目的序列的PCR引物中，从而构成各自相对应的标签PCR引物，通过PCR方法引入待测序序列中。所述PCR标签引物用作PCR的5’引物，或3’引物，或者同时用作PCR的5’引物和3’引物。

在所述标签PCR引物中，所述标签嵌入用于扩增目的序列的PCR引物中，或者通过或不通过连接子与用于扩增目的序列的PCR引物的5’端或3’端相连，从而构成各自相对应的标签PCR引物。

在本发明中，可以将一组不同长度的标签包含在标签文库的接头中，从而构成各自相对应的标签接头。所述标签接头用作标签文库的5’接头，3’接头，或者同时用作标签文库的5’接头和3’接头。

在所述标签接头中，其中所述标签***接头中，或通过或不通过连接子连接在接头的末端，优选地不通过连接子连接在接头的末端，从而构成自相对应的标签接头。

本发明提供的一组不同长度，优选梯度长度的标签(核苷酸序列)构成标签PCR引物和标签接头，可以同时用于测序标签文库的构建和/或测序。

本发明提供了一组不同长度，优选梯度长度的标签，其用于测序标签文库的构建和/或测序。

本发明一方面进一步提供了一组梯度标签，其中所述梯度标签为长度是6bp或7bp或8bp的核酸序列，并且所述梯度标签之间的差异在5个碱基以上，所述一组梯度标签由如下组成：表1所示的6个梯度标签或者与其相差1个碱基的梯度标签中的至少2个，或至少3个，或至少4个，或至少5个，或全部6个，

根据本发明，所述一组梯度标签优选地至少包括表1所示的6个梯度标签中的Index1和Index2，或Index3和Index4，或Index5和Index6，或者他们任何两个或多个的组合。

在本发明的一个具体实施方式中，其中所述相差1个碱基包括对表1所示的6个梯度标签的序列中1个碱基的取代、添加或缺失。

在本发明的一个具体实施方式中，本发明提供了所述梯度标签用于测序标签文库，特别是Illumina/Solexa测序标签文库的构建和/或测序的用途。在本发明提供的所述用途中，所述梯度标签包含在测序标签文库，特别是Illumina/Solexa测序文库的3’接头(也称为接头2)的5’末端中，从而构成各自相对应的梯度标签接头2，其用作测序标签文库，特别是Illumina/Solexa测序标签文库的3’接头。

在本发明的一个具体实施方式中，本发明提供了所述梯度标签用于测序标签文库，特别是Illumina/Solexa测序标签文库的构建和/或测序的用途，其中所述梯度标签包含在测序标签文库，特别是Illumina/Solexa测序文库的3’接头(也称为接头2)的5’末端中，其中梯度标签通过或不通过连接子与接头2的5’末端相连，或者***接头2的5’末端中。优选的是不通过连接子与接头2的5’末端相连。其中所述连接子是1-10个碱基的序列，优选地1-5个碱基地序列，更优选1-3个碱基的序列。在本发明另一方面中，提供了使用所述的梯度标签构建的测序标签文库，特别是Illumina/Solexa测序标签文库。

本发明另一方面提供了含有本发明所提供梯度标签的一组梯度标签接头2，其在5’末端含有所述的梯度标签，并且优选地用作测序标签文库，特别是Illumina/Solexa测序标签文库的3’接头，所述一组梯度标签接头2包括或由如下组成：表1所示的6个梯度标签接头2或者与其中包含的梯度标签序列相差1个碱基的接头中的至少2个，或至少3个，或至少4个，或至少5个，或全部6个，

根据本发明，所述一组梯度标签接头2优选地至少包括表1所示的6个梯度标签接头2中的Index1adapter2F/R和Index2adapter2F/R，或Index3adapter2F/R和Index4adapter2F/R，或Index5adapter2F/R和Index6adapter2F/R，或者他们任何两个或多个的组合。

在本发明的一个具体实施方式中，一组梯度标签接头2中所述相差1个碱基包括对表1所示的6个梯度标签的序列中1个碱基的取代、添加或缺失。

在本发明的另一方面中，涉及本发明所提供的梯度标签接头2用于测序标签文库，特别是Illumina/Solexa测序标签文库构建和/或测序的用途，所述梯度标签接头2用作测序标签文库，特别是Illumina/Solexa测序标签文库的3’接头。

本发明另一方面提供了使用上文所述的梯度标签接头2构建的测序标签文库，特别是Illumina/Solexa测序标签文库，其中所述梯度标签接头2用作测序标签文库，特别是Illumina/Solexa测序标签文库的3’接头。

本发明另一方面提供了一种构建测序标签文库，特别是Illumina/Solexa测序标签文库的方法，所述方法的特征在于使用一组具有不同长度，优选梯度长度的标签的接头用作测序标签文库，特别是Illumina/Solexa测序标签文库的3’接头。

在本发明的一个具体实施方式中，本发明所提供的方法包括：

1)提供n个总基因组DNA样品，所述基因组DNA样品来自任何真核生物样品，包括但不限于人的基因组DNA样品；

2)打断DNA：通过机械法打断DNA，产生带有粘性末端的DNA片段，所述机械法包括但不限于使用Bioruptor、Hydroshear和Covaris；

3)末端修复：通过连接反应将DNA片段的粘性末端补平；

4)末端加A：通过连接反应在DNA片段的平末端加上一个腺嘌呤碱基A；

5)添加5’接头和3’接头；

6)通过PCR对目的片段进行扩增，最后通过回收目的片段文库；

7)混合：当n＞1时，将各样品的PCR扩增产物混合在一起。

本发明另一方面进一步提供了一种构建测序标签文库，特别是Illumina/Solexa测序标签文库的方法，所述方法的特征在于使用选自表1的梯度标签接头2用作测序标签文库，特别是Illumina/Solexa测序标签文库的3’接头。

1)提供n个总基因组DNA样品，n为整数且1≤n≤6，优选地2≤n≤6，所述基因组DNA样品来自任何真核生物样品，包括但不限于人的基因组DNA样品；

2)打断DNA：(在本发明的一个具体实施方式中，步骤2)中的打断是)例如通过机械法打断DNA，产生带有粘性末端的DNA片段，所述机械法包括但不限于使用Bioruptor、Hydroshear和Covaris；

3)末端修复：通过连接反应将DNA片段的粘性末端补平；

4)末端加碱基“A”：通过连接反应在DNA片段的平末端加上一个腺嘌呤碱基“A”；

5)连接接头1和梯度标签接头2：通过连接反应将接头1和梯度标签接头2与带有A-末端的DNA片段进行连接；

6)通过PCR对目的片段进行扩增，最后回收目的片段文库。

7)混合：当n＞1时，将各样品的PCR扩增产物混合在一起。

在本发明的一个具体实施方式中，所述的方法中使用的Illumina/Solexa测序文库的5’接头(也称为接头1，或Adapter 1)是如下接头：5’-TACACTCTTTCCCTACACGACGCTCTTCCGATCTATCACT和5’-GTGATAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC。

在本发明的一个具体实施方式中，所述的方法中使用的所述梯度标签接头2包括或由如下组成：表1所示的6个梯度标签接头2或者与其中包含的梯度标签序列相差1个碱基的接头中的至少2个，或至少3个，或至少4个，或至少5个，或全部6个，

所述一组梯度标签接头2优选地至少包括表1所示的6个梯度标签接头2中的Index1 adapter2F/R和Index2 adapter2F/R，或Index3adapter2F/R和Index4 adapter2F/R，或Index5 adapter2F/R和Index6adapter2F/R，或者他们任何两个或多个的组合。

在本发明的一个具体实施方式中，其中所述相差1个碱基包括梯度标签序列中1个碱基的取代、添加或缺失。

在本发明的一个具体实施方式中，所述的方法中步骤4)的PCR使用如下PCR引物：

PCR Primer 1：

5′-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT，和

PCR Primer 2：

CAAGCAGAAGACGGCATACGAGCTCTTCCGATCT。

在本发明的一个具体实施方式中，所述的方法中步骤6)回收目的片段文库是通过琼脂糖凝胶电泳以及切胶回收进行。

本发明另一方面进一步提供了一种构建测序标签文库，特别是Illumina/Solexa测序标签文库并测序的方法，所述方法的特征在于使用选自表1的梯度标签接头2用作测序标签文库，特别是Illumina/Solexa测序标签文库的3’接头。

在本发明的一个具体实施方式中，本发明所提供的方法进一步包括：

8)测序：将各样品的PCR扩增产物利用测序技术，特别是Illumina/Solexa测序技术进行测序。

本发明另一方面提供了通过所述方法构建的测序标签文库，特别是Illumina/Solexa测序文库。

实施例

在本申请的实施例中采用的核酸序列如表1和表2所示。

所用试剂和仪器的列表：

主要实验仪器列表

试剂

试剂名称	货号
		10mM dNTP Mix(10mM dNTP混合液)	part#1000564
DNA Polymerase I(DNA聚合酶I)	part#1000577
		5×T4DNA Ligase Buffer(5×T4DNA连接酶缓冲液)	part#1000581
T4DNA Ligase(T4DNA连接酶)	part#1000580
		10×Restriction Buffer(10×限制性酶切缓冲液)	part#1000583
5×Phusion HF Buffer(5×Phusion高保真酶缓冲液)	part#1000585
		2×Phusion Polymerase(Phusion高保真酶)	part#1000584
25mM dNTP Mix(25mM dNTP混合液)	part#1001663
		25bp Ladder	part#1001662
10×Gel Elution Buffer(10×溶胶缓冲液)	part#1000571
		Resuspension Buffer(溶解缓冲液)	part#1001388
Sera-mag Magnetic Oligo(dT)Beads(Oligo(dT)磁珠)	part#1002545
		Ultra Pure Water(超纯水)	part#1000467
Paired-End DNA Sample Prep Kit	IP-102-1001
		10x Polynucleotide Kinase Buffer	B904(Enzymatics)
10x blue buffer	B011(Enzymatics)
		dATP	P0756L(NEB)
2x Rapid ligation buffer	B101(Enzymatics)
		Index PE Adapter Oligo Mix

注：若实验中所列试剂未在上表中，则为Illumina PE DNA样品制备试剂盒(Multiplexing Sample Preparation Oligonucleotide Kit，PE-400-1001，购自Illumina)内试剂。

实施例1，Illumina/Solexa测序非梯度标签文库的构建具体实例

参照试剂盒的标准流程(Multiplexing Sample PreparationOligonucleotide Kit，PE-400-1001)制备含表2所列12种标签的标签测序文库。

1、样品检测及标准

1.1样品检测

取1～2ug人类外周血基因组DNA样品，使用NanoDrop 1000测样品浓度、OD260/280比值、OD260/230比值等信息。

对样品进行琼脂糖凝胶电泳检测。

根据电泳结果及测量的OD值判断样品的总量和质量是否合格，并给出是否可以进行样品制备的判断。

1.2样品质量合格标准

样品纯度：260/280值应在1.8～2.0之间，没有蛋白、多糖和RNA污染；

样品浓度：样品的浓度最低不应低于100ng/ul；

样品完整性：DNA样品应没有降解；

样品量：为保证文库制备的质量，要求样品总量不低于45ug；

2、样品打断

样品打断方法有两种，分别是雾化法(Nebulization)和Covaris打断法，均可将样品DNA打碎至100～800bp范围的片段且主带在500bp左右。若样品为已打断的DNA，则可以跳过此步。

3、末端修复

1)在1.5ml的离心管中配制末端修复反应体系

来自步骤2的样品	30μl
		Ultra Pure Water(超纯水)	45uL
10x Polynucleotide Kinase Buffer	10μl
		10mM dNTP Mix	4μl
T4DNA Polymerase	5μl
		Klenow Fragment	1μl
T4Polynucleotide Kinase	5μl
		总体积	100μl

2)在Thermomixer中，20℃，温浴30min。

3)其后使用QIAquick PCR Purification Kit(Qiagen)，进行柱纯化，溶于34μl的Elution Buffer(EB)中。

4、末端加“A”碱基

1)在1.5ml的离心管中配制末端加“A”碱基反应体系：

来自步骤3的样品	32μl
		10x blue buffer	5μl
dATP	10μl
		Klenow(3’-5’exo-)	3μl
总体积	50μl

2)在Thermomixer中，37℃，温浴30min。

3)其后使用MiniElute PCR Purification Kit(Qiagen)进行柱纯化，溶于12μl的EB中。

5、接头(Adapter)的连接

1)在1.5ml的离心管中配制接头连接反应体系：

PE文库：

来自步骤4的样品	10μl
		2x Rapid ligation buffer	25μl
PE Index Adapter Oligo Mix	10μl
		T4DNA Ligase	5μl
总体积	50μl

PE Index Adapter Oligo Mix由表2所示的有义序列PE IndexNadapter F和反义序列PE IndexN adapter R经退火形成。

2)在Thermomixer中，20℃，温浴15min。

3)其后使用QIAquick PCR Purification Kit(Qiagen)进行柱纯化，溶于30μl的EB中。

6、DNA片段大小选取

1)将步骤5获得的样品在2％琼脂糖凝胶上，以100V电泳120min；

2)切取n+120bp(n＝***片段大小)位置胶块；

3)其后使用QIAquick Gel Extraction Kit(Qiagen)进行回收，溶于40ul的EB中。

7、PCR反应

1)在0.2ml的PCR管中配制PCR反应体系：

PE文库：

来自步骤6的样品	10μl
		Phusion DNA Polymerase	25μl
PCRprimer 1	1μl
		PCRprimer 2	1μl
UltraPure^TM Water	13μl
		总体积	50μl

使用如下PCR引物：

PCR Primer 1

5′-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT，和

PCR Primer 2

5′-CAAGCAGAAGACGGCATACGAGCTCTTCCGATCT

2)在热循环仪中运行下列程序：

PE文库

98℃30s

72℃5min

4℃∞

8、PCR产物的胶回收纯化

将PCR产物在2％琼脂糖凝胶上，以100V电泳120min，切取n+120bp(n＝***片段大小)位置胶块，其后使用QIAquick Gel Extraction Kit(Qiagen)回收，DNA溶于40μl的EB中。

实施例2Illumina/Solexa测序非梯度标签文库的构建具体实例

其建库流程除以下步骤外同实施例1：

其中，步骤5中使用Index Adapter Oligo mix代替PE IndexAdapter Oligo Mix，PE Index Adapter Oligo Mix由表1所示的有义序列IndexN adapter F和反义序列IndexN adapter R经退火形成。

步骤7中PCR反应的程序：

梯度标签文库

98℃30s

72℃5min

4℃∞

实施例3所构建文库的测序

使用实施例1所得的文库，当构建DNA PE(Pair-end)文库时，使用测序引物为Sequencing Primer1：5′-ACACTCTTTCCCTACACGACGCTCTTCCGATCT。

同时安排在HiSeq2000进行测序(严格按照仪器推荐的流程操作)数据处理软件包括但不仅限于HiSeq Control Software(HCS)，Pipeline，CASAVA，SOAP，ELAND。

在以上具体实施方式中，将本发明的6条梯度标签嵌入接头中，构建文库，使用Illumina/Solexa技术对文库进行测序，使用非梯度标签的文库Q20平均值在0.8，而且由于使用非梯度标签的文库使用的是6bp固定长度的标签(表2)，在测第一个***片段碱基即第7个循环时，由于碱基分布的变化，此处会出现明显的质量下降，而在使用梯度标签的文库中，质量值一直都维持在0.9(如图3)。同时，比较了包括光强，碱基分布和错误率随循环数的变化，从这些参数来看，使用梯度标签的文库和使用非梯度标签的文库并无明显差异(如图4-6)。说明使用梯度标签的文库和使用非梯度标签的文库在整体上并无明显差异，使用梯度标签并不会影响文库的整体测序结果，但是在从梯度标签过渡到***片段(insert fragment)时，能显著提高在这个碱基的质量值。对于HiSeq2000测序仪产量而言，假设碱基簇密度为300万/tile，PF为87％，则在一次HiSeq测序仪运行时可以增加83.5M的数据，并且能增加数据的可用性。

尽管本发明的具体实施方式已经得到详细的描述，本领域技术人员将会理解。根据已经公开的所有教导，可以对那些细节进行各种修改和替换，这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

参考文献

1.Multiplexed Sequencing on the Genome Analyzer PreparingSamples for Digital Gene Expression-Tag Profiling with NlaIII.November2008，Illumina，Inc.Part#1006655Rev.A

Claims

1.一组不同长度，优选梯度长度的标签用于测序标签文库的构建和/或测序的用途，其中所述标签是一段寡聚核苷酸序列，优选是2-100bp的核苷酸序列。

2.权利要求1所述的用途，其中将所述标签包含在用于扩增目的序列的PCR引物中，从而构成各自相对应的标签PCR引物，通过PCR方法引入待测序序列中，所述PCR标签引物用作PCR的5’引物，或3’引物，或者同时用作PCR的5’引物和3’引物。

3.权利要求1所述的用途，其中在所述标签PCR引物中，所述标签嵌入用于扩增目的序列的PCR引物中，或者通过或不通过连接子与用于扩增目的序列的PCR引物的5’端或3’端相连，从而构成各自相对应的标签PCR引物。

4.权利要求1所述的用途，其中将所述标签包含在标签文库的接头中，从而构成各自相对应的标签接头，所述标签接头用作标签文库的5’接头，3’接头，或者同时用作标签文库的5’接头和3’接头。

5.权利要求1所述的用途，其中所述标签***接头中，或通过或不通过连接子连接在接头的末端，优选地不通过连接子连接在接头的末端，从而构成自相对应的标签接头。

6.权利要求1所述的用途，其中所述标签构成标签PCR引物和标签接头，同时用于测序标签文库的构建和/或测序。

7.一组不同长度，优选梯度长度的标签，其用于测序标签文库的构建和/或测序。

8.一组梯度标签，所述一组梯度标签包括如下或由如下组成：表1所示的6个梯度标签或者与其相差1个碱基的梯度标签中的至少2个，或至少3个，或至少4个，或至少5个，或全部6个，

所述一组梯度标签优选地至少包括表1所示的6个梯度标签中的Index1和Index2，或Index3和Index4，或Index5和Index6，或者他们任何两个或多个的组合。

9.权利要求8所述的梯度标签，其中所述相差1个碱基包括对表1所示的6个梯度标签的序列中1个碱基的取代、添加或缺失。

10.权利要求8或9所述的梯度标签用于测序标签文库，特别是Illumina/Solexa测序标签文库的构建和/或测序的用途，其中所述梯度标签包含在用于测序标签文库，特别是Illumina/Solexa测序标签文库的接头2的5’末端中，从而构成各自相对应的梯度标签接头2，其用作测序标签文库，特别是Illumina/Solexa测序标签文库的3’接头。

11.权利要求10所述的用途，所述梯度标签包含在接头2的5’末端中，包括所述梯度标签通过或不通过连接子与接头2的5’末端相连，或者***接头2的5’末端中，优选的是不通过连接子与接头2的5’末端相连。

12.使用权利要求8或9所述的梯度标签构建的测序标签文库，特别是Illumina/Solexa测序标签文库。

13.包含权利要求8所述的梯度标签的一组梯度标签接头2，其在5’末端包含权利要求1所述的梯度标签，并且优选地用作测序标签文库，特别是Illumina/Solexa测序标签文库的3’接头，所述一组梯度标签接头2包括如下或由如下组成：表1所示的6个梯度标签接头2或者与其中包含的梯度标签序列相差1个碱基的接头中的至少2个，或至少3个，或至少4个，或至少5个，或全部6个，

14.权利要求13所述的梯度标签接头2，其中所述相差1个碱基包括对梯度标签序列中1个碱基的取代、添加或缺失。

15.权利要求13或14所述的梯度标签接头2用于测序标签文库，特别是Illumina/Solexa测序标签文库的构建和/或测序的用途，所述梯度标签接头2用作测序标签文库，特别是Illumina/Solexa测序标签文库的3’接头。

16.使用权利要求13或14所述的梯度标签接头2构建的测序标签文库，特别是Illumina/Solexa测序标签文库，其中所述梯度标签接头2用作测序标签文库，特别是Illumina/Solexa测序标签文库的3’接头。

17.一种构建测序标签文库，特别是Illumina/Solexa测序标签文库的方法，所述方法的特征在于使用一组具有不同长度，优选梯度长度的标签的接头用作测序标签文库，特别是Illumina/Solexa测序标签文库的3’接头。

18.权利要求17所述的方法，其包括：

3)末端修复：通过连接反应将DNA片段的粘性末端补平；

5)添加5’接头和3’接头；

7)混合：当n＞1时，将各样品的PCR扩增产物混合在一起。

19.权利要求17所述的方法，其中所述方法的特征在于使用不同的选自表1的梯度标签接头2或者与其中包含的梯度标签序列相差1个碱基的接头用作测序标签文库，特别是Illumina/Solexa测序标签文库的3’接头。

20.权利要求19所述的方法，其包括：

3)末端修复：通过连接反应将DNA片段的粘性末端补平；

5)添加接头1和梯度标签接头2：通过连接反应将接头1和梯度标签接头2与带有A-末端的DNA片段进行连接；

7)混合：当n＞1时，将各样品的PCR扩增产物混合在一起。

21.权利要求20所述的方法，其中所述接头1包括如下接头：5’-TACACTCTTTCCCTACACGACGCTCTTCCGATCTATCACT和5’-/GTGATAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC。

22.权利要求20所述的方法，其中所述梯度标签接头2包括表1所示的6个梯度标签接头2或与其中包含的梯度标签序列相差1个碱基的接头中的至少2个，或至少3个，或至少4个，或至少5个，或全部6个，

23.权利要求19或20所述的方法，其中所述相差1个碱基包括梯度标签序列中1个碱基的取代、添加或缺失。

24.权利要求20所述的方法，其中步骤6)中的PCR使用如下PCR引物：

PCR Primer 1

5′-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT，和

PCR Primer 2

5′-CAAGCAGAAGACGGCATACGAGCTCTTCCGATCT。

25.权利要求20所述的方法，其中步骤6)中回收目的片段文库是通过琼脂糖凝胶电泳以及切胶回收进行。

26.权利要求19或20所述的方法，其进一步包括如下步骤；

27.权利要求26所述的方法，其中利用测序技术进行测序中使用的测序引物包括当构建DNA Pair-end文库时，使用测序引物为Sequencing Primer1：5′-ACACTCTTTCCCTACACGACGCTCTTCCGATCT。

28.通过权利要求17-27所述的方法构建的测序标签文库，特别是Illumina/Solexa测序标签文库。