CN101434988B

CN101434988B - 一种高通量寡核苷酸测序方法

Info

Publication number: CN101434988B
Application number: CN2007101705071A
Authority: CN
Inventors: 邵志峰; 盛司潼
Original assignee: SHENZHEN HYK GENE TECHNOLOGY Co Ltd
Current assignee: SHENZHEN HYK GENE TECHNOLOGY Co Ltd
Priority date: 2007-11-16
Filing date: 2007-11-16
Publication date: 2013-05-01
Anticipated expiration: 2027-11-16
Also published as: US20110045992A1; CN101434988A; WO2009065355A1; US8481266B2

Abstract

本发明涉及基因工程领域，提供了一种高通量寡核苷酸测序方法。所述方法包括：短DNA标签的生成；单分子PCR扩增标签序列；高密度DNA标签的富集和大规模循环平行测序的步骤。通过在络合为基础或者延伸合成为基础的测序方法中使用分子标尺进行平行测序，标尺或者延伸的锚引物用来延伸在模板上读出的碱基点。本发明通过使用上述引物，使得在模板上可以读出更长的序列，并因此降低了成本，提高了测序效率，具有较大的实用价值。

Description

一种高通量寡核苷酸测序方法

发明领域

本发明涉及基因工程领域，具体涉及一种高通量寡核苷酸测序方法。

背景技术

随着已完成测序的基因组数量的增加，需要分析基因组序列所编码的大量信息以及由这些散布于基因组中的不同序列元件控制及参与的生物功能。然而，这比基因组测序更具复杂性，需要能处理大量参数及不同条件下(包括正常条件及非正常条件下)过程的有力工具及方法。只有这种综合性的研究方法才可能使我们了解到生物学的多数基本原理，这样的研究也会带来造福人类的重大技术进展。

功能基因组研究中发展起来的一项主要的方法，是通过用不同手段分离得到DNA序列并进行定量分析，而这些序列在基因组中的定位常常对其中包含的一些元件的功能具有决定性的指示作用。例如，DNA结合蛋白的结合位点可以很方便地用高特异抗体用ChIP(Chromatin Immunoprecipitation，染色体免疫共沉淀)的方法分离出来，而它们在染色体中所处的位置可以揭示关键基因的调控以及不同转录因子的协同作用。又如测定mRNA对整个基因组的相对丰度，不仅反映细胞或组织的状态，也能反映对癌症或其他疾病的诊断具有关键性作用的标识物。某些此类标识物基因可成为未来开发药物的靶位点。尽管这些研究对生物学的推动力可能各不相同，且涉及基础研究至药物研发等一系列领域，但基本的衡量方式是一致的。

迄今为止，寡核苷酸阵列已成为这项研究中最为广泛使用的有效技术。在一个表面固定上代表基因组序列不同区域的寡核苷酸，例如一个基因中的寡核苷酸，按比例的杂交能够显示目标序列的相对丰度。寡核苷酸阵列的主要优势是相对便捷的操作，且具有能够进行大量平行操作的能力。而进行高通量操作的能力对新兴领域如***生物学与***生物医学具有至关重要的意义。

如今最常用的DNA测序方法是链终止法，例如Sanger测序法及其类似方法所采用的双脱氧核苷酸介导的链终止法。该方法已由Sanger等人发表在美国Proc.Nat.Acad.Sci.杂志1977年第74期第5463-5467页。这种方法多数是按逐个碱基产生数据。以DNA测序为目的的新的PCR核酸外切酶消化法也已经建立起来，该方法由Porter发表在Nucleic Acids Research杂志1997年第25卷第8期第1611-1617页上。这些方法通常在扩增并以独立的反应测序之前，需要一个克隆步骤以分开单个序列，这一步需要花费大量的时间，因此大大增加了这种方法的成本，且难以提高通量。为了测定人类基因组的序列，最先进的Sanger测序法仍然需要花上数千万美元和几个月的时间。人们迫切需要一种新的改进的测序方法，尤其是那种能够利用高通量、低成本***的方法。

最近基于连接的测序技术，诸如MPSS(massively parallel signaluresequencing，大规模平行测序技术)，以及聚合酶克隆测序法的发展，能够同时测定多达数百万DNA短标签的序列。为高通量测序指出了一个新的方向。这些不同的基于连接酶的DNA测序方法能够被用来对通过以上描述方法构建得到的单克隆DNA阵列进行平行测序，然而，测序的成本对于测序技术在基因组水平上的应用仍然是巨大的障碍。

现有技术存在的问题是，尽管寡核苷酸阵列已对功能基因组学和***生物学的进展做出了巨大的贡献，但该技术仍存在根本性的局限。人们遇到最多的问题是交叉杂交现象，它会产生对探针中很大片段的虚假和错误的检测。这并非是一个容易解决的问题，尤其当杂交目标高度复杂时，例如它可能几乎囊括了整个基因组，其相对丰度处于一个很宽的区间内。如图1所示，即使DNA序列特异片段的融解跃变曲线十分陡峭，跨越几个量度，这也需要序列中的大量碱基来充分地改变跃迁温度，DNA融解的陡峭跃迁。不过，Tm值在大部分情况下只微弱地取决于序列。因此，杂交仅仅在很小的温度范围内是可区别的，这就是许多PCR(Polymerase Chain Reaction，聚合酶链反应)实验需要仔细调节退火温度来应对实验时所遇到的情况，从而保证试验成功。这对寡核苷酸阵列的设计提出了巨大的挑战，人们设计的所有探针对一种普通突变片段都必须足够特异并能精确地维持Tm。因此，给定长度在特定融解温度下的特异探针的数目是有限的，由于计算能力的有限对较长的寡核苷酸(如大基因组所要求的)的设计就尤为困难，而差异标识的表面效应，就使得问题更为复杂。

此外，如图2所示，与一个复杂目标杂交过程的缓慢动力学过程决定了需要经常使用较低的温度来获取可供检测的足够强的信号，这样，即使是为与中等复杂程度的杂交而精心设计的探针也会存在严重的交叉杂交。即使在理想的条件下，针对严格控制目标的不同引物的信号强度也可能相差一个数量级。由于这些内在的缺陷，寡核苷酸阵列通常不足以定量分析，而需要大量的数据处理已得到可靠的信息。不同基因组的杂交动力学。随着基因组复杂度的增加，很明显，大部分序列要精确地与它们的互补序列结合，需要很长的时间。在寡核苷酸阵列中，由于在有限的体积中只能溶解有限数量的物质，因此用远低于Tm的温度来增强信号。在这样的温度下，对交叉杂交的分辨能力就很微弱，一个经典的例子是Affymetrix阵列产生的错配信号超过了正常匹配序列，甚至对于一个均一分布的杂交目标也是如此。

申请人认为，如果目标片段都分别被测序的话，所需做的只是数一下每一目标序列的拷贝数。事实上，只需从这些序列中得到12-24mer的短标签就可以鉴定它们的基因组来源，而这取决于特定的用途以及基因组大小。由于没有用到杂交，精确度就完全由测序的精确度来决定，即使存在突变，这样的序列仍可在目标基因组中鉴定出来，只要短标签含有足够多的特有碱基。这正是SAGE(Serialanalysis of gene expression，基因表达连续性分析)的原理。SAGE中，测序的精确度通过将多重短标签串联进待克隆的***片段而提高，但是即便如此，这种类型的方法，包括依赖于CAP的CAGE(Cap Analysis of Gene Expression，基因表达Cap分析)，以及ChIP(染色体免疫共沉淀)，仍然非常昂贵。而在表达谱方面，如果考查低拷贝数的转录本则转录本的动态情况需要对大量短标签进行测序。费用也很大，这样就严重制约了SAGE的作用，几乎不可能将它的应用拓展到临床医学中去。

因此需要一种更有效的测序方法，能够降低成本，并提高测序效率。

发明内容

本发明的目的之一在于提供一种高通量寡核苷酸测序方法，旨在解决现有测序方法存在的成本高、效率低的缺陷。

为了实现发明目的，所述高通量寡核苷酸测序方法包括下列步骤：

(1)短DNA标签的生成；

(2)DNA单分子PCR扩增标签序列；

(3)高密度DNA标签的富集；

(4)大规模循环平行测序。

优选地，所述步骤(1)中短DNA标签的生成方法为：

将DNA模板处理成合适长度的DNA片段；

在所述DNA片段的两端分别添加一接头序列，得到一个末端带有通用引物序列的短DNA标签文库。

优选地，所述步骤(2)中DNA单分子PCR扩增标签序列的过程为：

将通过单独扩增的序列固定在平面上，产生高富集标签模板阵列，用于测序。

优选地，所述高密度DNA标签的富集的过程包括：

通过预先制备表面固定的引物，将所述单独扩增的序列孤立地分布在平表面的DNA上；或

当DNA固定在微珠上时，通过扩增后的微珠富集密排并共价固定连接在平面上。

优选地，所述步骤(4)中大规模循环平行测序的方法为：

利用络合为基础的测序；或

利用聚合酶碱基特异性来选择性合成延伸为基础的测序。

本发明通过使用上述引物，使得在模板上可以读出更长的序列。模板上读出的寡核苷酸序列越长，将能够产生足够长的寡核苷酸序列数据，因此降低了成本，提高了测序效率，具有较大的实用价值。

附图说明

图1是现有技术中DNA融解的陡峭跃迁的示意图，其中Tm值在大部分情况下只微弱地取决于序列，因此，杂交仅仅在很小的温度范围内是可区别的；

图2是现有技术中不同基因组的杂交动力学的示意图，在寡核苷酸阵列中，由于在有限的体积中只能溶解有限数量的物质，人们用远低于Tm的温度来增强信号，在这样的温度下，对交叉杂交的分辨能力就很微弱；

图3是本发明的一个实施例中测序流程的原理图，其中a代表生成短标签，b代表单分子PCR放大短标签，c代表利用络和法或选择性延伸法进行循环碱基测序，d代表数据采集，e代表软件数据分析；

图4是本发明的一个实施例中短标签制备过程的示意图；

图5是本发明的一个实施例中软物质膜面的制备生成的示意图；

图6是本发明的一个实施例中软物质膜面的生成和小体积表面PCR反应的示意图；

图7是本发明的一个实施例中利用延长引物延升的作为测序锚引物的测序方法的示意图，这种方法的特点是能攻读出(n+m)个碱基，由于使用的这种延长引物还含有一定数量的简并碱基，可以使用与此***的光学特性相匹配的2套4色荧光标记的寡核苷酸(一套用于3’，另一套用于5’)进行测序；

图8是本发明的一个实施例中选择性的碱基延长测序法的示意图，其中，利用聚合酶碱基特异产物读出标签中的碱基信息：用预先设定的分子标尺作为聚合酶延展引物(含N个简并碱基和一个特别的A/T/G/C在3’末端，图中显示的是T)同固定在表面(微珠或者平面)的标签序列进行杂交，并且将DNA聚合酶加入同标签序列进行杂交的引物的3’端使得其得到延伸，只有在3’端带有同标签序列互补碱基的引物才能在标签模板上得到延展。将标记的核苷酸混合进延展混合物时，正确延展的模板可以通过标签被正确识别；

图9是本发明的一个实施例中流式小室的设计原理示意图，其中自黏性软垫的厚度可以根据需要选从0.125mm到0.5mm，对于一个240mm²的工作区，典型的体积是60微升，ITO(氧化铟锡镀膜)玻片是在测序过程中用数字化监控的温度维持***；

图10是本发明的一个实施例中光学***的设计简图，本发明的设计利用无穷远纠正的光学***提高优化度，不同的样品根CCD(电荷耦合器件照相机)为配套设计，一个特别的tube lens被用来提高测量通量，第二个CCD也可以被选择引入来实现自动聚焦，光闸跟滤光片***都是计算机控制的。整体***具有很高的灵活性；

图11是本发明的一个实施例中实际测序(实例1)的示意图，其中碱基G再此测试中用Cy3标记的聚合物读出，样品的密度达到非常高，而且信噪比很好，实验条件为：10x物镜NA＝0.3，100W汞灯，CCD采用2秒曝光。

具体的实施方式

本发明提供一种高通量寡核苷酸测序方法，将核苷酸切为小于200个碱基对的片断，一组已知的序列引物附着到寡核苷酸片断顶端，作为扩增的引物位点。经过修饰的片断被分配到若干迷你PCR反应池中，每个池中都有各种寡核苷酸并且独立的进行扩增。每种经过扩增的寡核苷酸分子被固定在离散的固体表面，例如平面上的独立位点或者独立的玻璃微珠。将独立位点或者玻璃微珠结合成高密度阵列，可以对独立的寡核苷酸种类同时进行特殊可循环的测序，用这种方法可以对每个测序反应实现较高的序列读出量。

本发明的高通量寡核苷酸测序方法包括：短DNA标签的生成；单分子PCR扩增标签序列；高密度DNA标签的富集和大规模循环平行测序。通过两种(1.在络合为基础；2.以合成测序为基础的)测序方法使用独特的分子标尺进行平行测序，标尺或者延伸的锚引物用来延伸在短标签模板上读出的碱基序列。具体的两种测序方法如下所述：

第一种是合成为基础的测序方法使用的是聚合酶延伸方法，序列是由预先设定的互补寡核苷酸引物配合作为分子标尺的简并碱基决定的。分子标尺是一组寡核苷酸引物，用于基于扩增的测序过程，而且过程中包括预先确定的序列区域并跟随着不同长度的额外的简并碱基(数量为1-9个)，以及3’段的特殊碱基。为了用基于聚合酶延伸进行测序，一种特别的聚合酶备加入适合的一个或者多个模板进行配对，从而形成模板/聚合酶复合体，这是每次进行测序反应的第一步。然后核苷酸或者核苷酸类似物被加入到聚合酶延伸反应混合物中，核苷酸被加入复合物中，结果在形成配对的模板/聚合酶中正确的形成延伸的双链复合物。当每个引物的3’端的碱基同特定位置的特定碱基形成对应关系，就可以根据模板上的该位置正确推测配对的碱基。因此整个模板或者某个位置的序列是由同各个引物不断进行的测序反应决定的。

第二种是基于络合进行的测序方法。使用的是一种固定的锚引物序列，通过它与9聚物寡核苷酸相连接，此9聚物寡核苷酸中的特定序列用一种荧光团标记。利用这种方法，通过改变九聚物可以读出6-7个碱基。我们进一步引入使用延伸的锚引物是一组在络合为基础的测序方法中使用的寡核苷酸引物，包括预先确定的锚区域跟随着额外数量的碱基(数量为1-6个)。序列是通过采用预先决定一套的互补寡核苷酸引物组合一个标记的九聚物寡核苷酸材料确定的(NNNXNNNNN，X＝A，T，G，C，可以在1至7的任何位置)。延伸锚引物的长度从序列起始位点开始k个简并的碱基(k＝1，2，3，4，5，6)，0位置同锚位点的5’端或者3’端的下一个位置的碱基相对应，这个碱基是位置序列标签的起始碱基。基于络合的测序长度由于加上延伸的长度增加到最多12个碱基(增加的是九聚物组NNNNNXNNN，X＝A，T，G，C)。另外，引物的长度还可以从序列起始位点开始退缩至-1，-2，-3，-4，-5，-6等位置，这样设计的缺口引物系列，它们含有比短标签序列上引物片断短的锚引物，可以用来对所测序列上的同一个碱基进行多次不同的引物根九聚物寡核苷酸的组合来测序(如：引物-3位置跟第四位置NNNXNNNNN可以测序列上的第一个碱基，与引物0位置跟第一位置XNNNNNNNN所测的碱基为同一位置)，从而避免***错误，提高精确度。

本发明对于DNA标签测序主要步骤包括：首先，寡核苷酸片断顶端套上独特的寡核苷酸结合体对，生产独特长度的DNA标签。DNA标签结合体还作为分离的迷你PCR反应池中单DNA分子PCR扩增的引物。在PCR扩增以后，每种DNA的多个拷贝都被固定在离散的表面，例如独立的玻璃微珠或者平面上模式化的位点。包括单种DNA片断的独立表面在默认情况下，被压入高密度阵列或者在切面预制点上形成高密度阵列，作为测序样本模板。为了在多个样本上同时进行测序反应，高密度排列的样本装入一个流动细胞腔内，在该腔内发生了所有的测序循环反应。当腔的容量控制在最小，测序反应过程的耗费就比较小，而且读出序列的通量比较大。如图3所示，测序的方法是首先生成序列标签，然后独立的扩增序列标签，然后以结合与延伸为基础进行循环测序，在获得数据后进行分析。

作为一项通用技术，DNA短标签制备项技术可被应用于那些需要对某核酸序列库中识别以及拷贝数进行定量分析上。用这种技术进行处理的样品可以是含有核苷酸的物质，包括mRNA、小RNA，与不同细胞组分如剪接体或核糖体等连接的RNAs、进行ChIP或SNP(Single Nucleotide Polymorphism，单核苷酸多态性)研究中的全基因组、小片段缺失或***等方法而得到的DNA片段等。为了能测定这些样品中遗传物质的序列，首先须制备用于测序循环的DNA短标签库。如果是核糖核酸，必须首先利用某项成熟的反转录技术将之转变为DNA。如果是基因组方面的应用，序列分析也可以限定在选择性较小和确定的范围内以改善测序覆盖程度和精度，尤其是在分析大基因组生物时。

下面对本发明方法进行详细描述：

I.短标签生成

首先，DNA模板需要处理成合适长度的片段以进行下游过程。例如，对于较长的DNA片段的制备品，用随机剪切就能使它们的长度减小到数百碱基对的范围内。但是，对于某些方面的应用，如mRNA作图和图谱，可以选择限制酶位点将转化后的DNA切割成具有粘性末端的短片段，随后短DNA片段在两端加上两个接头序列，从而得到了一个末端带有通用引物序列的短标签文库。第一个接头序列通过在其中一条DNA链末端标记生物素的方法被固定在固相表面上，如微珠。这种固定处理将会为后续的纯化步骤带来极大的方便。接头序列被设计成具有与待处理DNA片段互补的末端，并通过DNA连接酶与DNA片段相连接。

如图4所示，对于随机切割的DNA，接头序列被设计为带有5’端6个随机碱基的突出片段，该突出片段能与5’端含有6个互补核酸碱基的序列互补。连接反应通过将DNA片段变性为单链再与固定的接头序列连接而完成。连接后，第二条链直接通过引物延伸合成得到。对于带粘性末端的模板，固定的接头序列被设计成带有可与双链模板连接的互补末端。

DNA模板被固定在第一个接头序列上之后，自由末端可被修补成钝端以连接第二个接头序列。此外，为了产生同样长度的短标签文库，第一个接头序列中含有一种II型限制酶位点，通过切割连有第一个接头序列的模板，原模板中的一个小片段与第一个接头序列一起被切割下来，随后连接上第二个接头序列，这样就产生了在两端共带有两个接头序列的标签序列。

短标签文库接下来可以进行进一步的扩增和纯化。原始短标签文库可以单链形式从固相表面(例如微珠)上洗脱下来，并可用作单分子PCR反应或者进一步的扩增。当进行进一步的扩增时，可以限定PCR的循环数以保持不同目标序列种类的相对比率。扩增后的文库使用DNA PAGE进行纯化以便进行下游的单分子PCR操作。

需要指出的是初始的寡核苷酸含量可以很低，这是由于制备完成后的短标签可用PCR扩增而不会改变原来的比例，这点已经由大量SAGE试验所证实。这一点对临床应用有尤为重要的关系，因为临床上的得到的物质通常数量有限。原则上，一个单一的细胞也可以用这种技术进行分析。

II.单分子PCR反应扩增标签序列

分别用独立PCR反应扩增标签序列以制备用于平行测序反应的短标签文库。要分隔开每个模板序列而在独立的PCP反应中扩增这些单一的模板分子。当进行充分稀释这些模板库并把它们分隔成单独的PCR反应，那么就只有一个单一的模板被扩增，这样，每个PCR反应就会产生大量某种序列的集合。如果上述PCR反应过程产生的多拷贝DNA被固定在某一可寻址的区域或场所，每一DNA标签模板进行测序所读出信号就会根据被扩增模板较高数量的拷贝而放大，从而可以简化测序仪器的设计并降低设计成本。当这一可寻址的区域或场所用高密度被置于某一表面上时，高通量平行测序就能轻易完成。

根据现有技术，水/油乳液***可被用来进行单分子PCR扩增，Diehl等人发表于Nature Methods杂志2006年第3卷第7期第551页。PCR反应体系可通过搅拌，震荡或者挤压而与某种含有去垢剂和添加剂的油相液体混合，从而形成在油相液体中包含有独立的皮升级水相液滴的乳液，这种乳液如果不搅拌的话可以稳定地进行PCR反应。因此，本发明将一条PCR引物的5’端固定在微珠上时，就能够利用它在PCR反应过程中作为固相表面以固定目标序列。微珠很容易分散进单个独立的皮升级PCR反应液滴。只要加入的DNA模板和微珠的量合适，每个独立的皮升级PCR反应只会含有一个单一的微珠和模板。液滴的尺寸可以通过延长混合的时间加以控制，以产生合适的液滴大小从而获得含单微珠液滴的最大产量。从单一个体分子扩增DNA标签后，使用这一方法，每一液滴中所含有的单一标签序列就能产生固定于微珠上多个拷贝。因此，每个反应后，微珠上会携带单克隆DNA的多个拷贝。然后使用某种适宜的缓冲液打破乳液体系并从水/油混合物中回收微珠。所得到的微珠含有扩增后的单克隆DNA分子的集合并可继续进行下一步的测序。

现有技术使用这种含水滴的乳液存在的问题之一是，有些变性的DNA会混入油相液体从而造成了序列的混合以及线形的偏斜。本发明的平面PCR直接固定化方法能使单分子皮升级PCR扩增平台的应用及单克隆DNA阵列的构建更为便利。最简单的构建单分子PCR产物的高密度阵列的方法就是直接在一预先固定有寡核苷酸引物的经修饰的固相表面(如玻璃或塑料表面)进行PCR反应。一旦寡核苷酸引物通过其5’端连接在载体上，就可以作为PCR引物对之一，而扩增后的PCR产物在PCR的后期就被结合到表面上并形成结合于表面的可用于测序的DNA分子。为了构建一个可寻址的DNA点阵列，一种带有规则排列的皮升级反应室的由软性物质所制成的罩具被压覆在水平表面，这就可以作为含有单分子DNA的单独PCR反应室之间的分隔物，从而每个DNA分子都会被单独扩增，扩增后就在表面上形成了特定排列的短标签序列阵列。(见图5)

例如，一种软性平版印刷术过程被用来制造软物质膜面(如聚氨酯、聚亚安酯、多聚二甲基硅氧烷等高分子材料)。一个标记或者面膜是通过对高分子材料在微制造的主平面板上进行微铸造而产生的，主平面板上有高密度的小柱或者块状阵列，而柱状物或者块状物的尺寸小于微米或者介于1-10微米。形成的膜面有高度聚集的皮升级反应滴，当进行PCR反应时膜面被压到玻璃或者聚苯乙烯平面时作为独立反应槽使用。软性平面印刷术的优点体现在复制而不是铸造中，在复制中使用更为经济并且一次使用后即可抛弃。使得弹性体的膜面或者标记变形的能力可以在PCR反应中成为膜面和平面之间良好的粘合剂，从而使得分离独立的PCR反应槽更为容易。

为了用软膜面进行单分子PCR，装载标签模板的量必须是保证每一个反应小室只含有一个DNA单分子的。这种直接进行装载并扩增的方法允许从微量样本对目标种类制备文库而不必对起始物质进行预先扩增，这样可以避免由于非线性扩增而产生的错误。在PCR反应后，标签序列通过引物被固定到表面上。因此产生了独立的DNA位点同独立的PCR反应槽中标签序列相对应。此外，在皮升级液滴中进行的PCR反应会导致饱和，将消除单个液滴之间反应有效性的差别。一个重要的特点是每个输入目标模板的PCR产品在反应中和反应后将被直接限制在底层。结果是，阵列中每个位点代表了初始目标位置的单个拷贝。一种简单的计数会导致每种序列(文库)原始目标产量变得丰富。这提供了一种有效的量化标签分析方法，可以对基因文库、拷贝数变化进行量化分析。

直接将通过但分子扩增的序列固定在平面上将产生高富集标签模板阵列，为测序作准备。当本发明将两个PCR引物通过它们的5’端固定在表面上时，形成的位点将包含两段相同标签的序列。因此，测序反应能够在两段标签上进行。此外，当本发明准备带有更长序列(大于30bps，而没有通过II型限制性酶将标签切为少于30bps的序列时)的起始序列模板时，可以将表面固定有DNA的模板位点用作DNA序列阵列，用于其它样本材料识别和分析，只要每个标签位点序列已经得到识别。这种有弹性的、定制的阵列有自由的形状或者选择性的阵列，将为阵列类型分析提供更为有效的平台。只有感兴趣的目标序列(用在初始标签阵列准备中)才得到分析，这将在样本准备和数据分析中节约时间和费用。这将允许使用者用不着冗长、单调并且昂贵复杂的过程就可以准备任何定制的DNA阵列。

III.高密度DNA标签的富集

独立扩增后的高密度DNA排列可通过预先制备(当DNA孤立地分布在一块平表面时)，或者通过扩增后的富集(当DNA固定在微珠上时)而构建得到。如前所述，当PCR反应是在水平表面上独立的皮升级反应室中进行的话，由于PCR罩具具有高度聚集的反应室，高密度短标签阵列事先就已经成形。但是对于微珠上的单标签扩增，则需要进行微珠的富集过程以得到平行测序所需的高密度微珠阵列。

有几种方法可以在扩增后富集高密度模板阵列。其关键在于将带有单分子DNA模板的微珠固定化，以作为测序时的短标签阵列。这可以直接将微珠交联至水平表面。微珠固定后，测序反应就可以在没有扩散势垒的溶液中进行，这使得反应物的可接触性大大提高，这样，反应时间就能缩短而反应物所需的浓度也较低。固定的微珠可以为仪器的自动化提供可靠的***，而快速的反应则能增大读出序列的通量。反应物的低消耗能够大大降低每一次多循环运行的测序成本。所有的这些特点对于开发高通量低成本测序仪都有着重要的意义。

例如，带有模板DNA的微珠可以直接被共价固定连接到平面，从而通过胞族连接物或者分子连接物形成高富集阵列。这种共价固定连接方案包括但不限于胺或者羧基修饰的表面(例如玻璃或者聚苯乙烯)在微珠上通过相异或者相同双功能共价固定连接元进行胺修饰的模板序列DNA端点修饰，共价固定连接元的顶端可以同胺族元素(例如碳化二亚胺、羟甲基磷、酰亚胺酯、N-羟基琥珀酰胺脂、苯基砜基酰胺脂)，或者羟基族。或者共价固定连接可以以肼和醛或酮并产生稳定的腙和经过修饰的胺表面为基础。这种共价固定连接过程可以由若干样板共价固定连接方案实施：

方法1：平面(玻璃或者聚苯乙烯)通过胺族进行修饰，然后加入EDC(1-(3-二甲氨基丙基)-3-乙基碳二亚胺等碳化二亚胺同羟基族进行配对组成基础胺族。

方法2：平面(玻璃)通过硅烷化过程用胺族进行修饰。经过硅烷化的表面包括硅烷层，其中包括带有功能性胺族的硅烷分子。

方法3：平面(玻璃)由硅烷层进行修饰，而硅烷层有如下功能族之一：醛、环氧、琥珀酰亚胺或者上述功能族的混合物。这些功能族相互作用，这种作用是共价的或者非共价的，是通过没有修饰或者用胺进行了修饰的DNA在微珠或者寡核苷酸上进行的。

方法4：平面(聚苯乙烯)通过修饰以后包含胺族，并且改族可以通过共价固定连接与胺修饰的寡核苷酸或者DNA结合，这种修饰是在微珠上进行的。这种共价固定连接方案是由于用水缓冲的溶液，并且同聚苯乙烯表面是匹配的。胺修饰的聚苯乙烯表面是通过芬芳族肼合物修饰的，例如SANH(C6-succinimidyl6-hydrazinonicotinate acetone hydrazone，C6-琥珀酰亚胺基6-肼烟碱酸丙酮腙)或者SHTH(succinimidyl 4-hydrazidoterephtalate hydrochloride，琥珀4-酰亚胺基盐酸盐)等芬芳族肼合物。胺修饰的DNA或寡核苷酸是醛修饰的，并且该醛化合物还修饰了SFB(C6-succinimidyl 4-formylbenzoate 4-甲酸苯甲酸C6-琥珀酰亚胺酯)。当上述化合物混合时，肼和醛就反应产生了腙。

为了得到带有单一类型已扩增标签序列、高密度的微珠阵列，结合于微珠上的DNA需要修饰胺基以进行上述的交联过程。有以下几种不同的方式可以用来修饰小珠连接的DNA：

方法1：结合在微珠上的DNA可以使用末端脱氧核苷酸转移酶直接在跟踪胺修饰的核苷酸。胺修饰的核苷酸(如aa-dUTP(氨基烯丙基-dUTP)，aa-dCTP(氨基烯丙基dCTP))可以单独进行添加或者同dNTP(脱氧核苷酸)混合物一起添加到末端转移酶跟踪反应中，用来标记带有胺族的DNA的分子。可以选择采用的是，去二氧核甘算也可以以适当比例加入反应，并作为终止代表限制增加的尾端长度。

方法2：是胺修饰的寡核苷酸可以用补骨脂素进行双重标记，可以通过光激励同微珠上配对互补的DNA带进行共价固定连接，并由此产生微珠上胺修饰末端的DNA。

IV.大规模循环平行测序反应：

在上述的一个表面上构建了DNA短标签阵列后，所有阵列点上测序反应都可以平行进行。如果测序反应能够在几分钟到几百分钟内的时间内完成的话，就可对每个短标签进行连续的循环测序从而读出序列。我们的测序反应有两种不同的机制。(1)利用络合连接(ligation)为基础的测序，和(2)利用聚合酶碱基特异性来选择性合成延伸为基础的测序。

(1)利用络合(ligation)为基础的测序：

为了能够读出更长的序列片断，本发明发展出了一种基于T4 DNA连接酶的新方法。本发明的方法利用一种延长引物作为测序锚引物，它含有与DNA短标签上通用序列片断的互补片断。如图6所示，不同于其他连接测序方法所采用的锚引物，这种延长引物还含有一定数量(k)的简并碱基(k＝1，2，3，4，5，6)。这一简并引物能够在已有技术的6碱基基础上再延伸出k个碱基序列读出范围。

测序反应首先进行的是延长锚引物与标签序列的杂交，即引物5’端或3’端与短标签直接配对。随后进行的是锚引物与一套末端有荧光标记有简并九聚物(NNNNNNNNN)的联接反应。为了读出某一碱基的序列，九聚物是由四种九聚物混合而成，这四种九聚物在某个位置的碱基类型X(如NNNXNNNNN，X＝A，T，G，C)与标记此九聚物的荧光类型相一致。由于在九聚物中X位置的连接酶的碱基互补分辨特性，我们能够推断标签序列中碱基的类型。由于延长锚引物含有k个简并碱基(k＝1，2，3，4，5，6)我们就能利用带有不同数量简并碱基的延长锚引物而用同一套聚集体混合物(如XNNNNNNNNN，X＝A，T，C，G)读出短标签中的一段序列；或者我们可以利用延长锚引物与九聚体的不同组合来读出同样位置的碱基序列。这种新方法的第一个特点是可以读出标签中更长片断的序列，达13个连续碱基，因为连接酶只对第六或第七个碱基之内的片断具有分辨作用)。使用不同锚引物和九聚体的组合来读出同一位置碱基的灵活性，提供了一条校对改正测序结果和改进这种方法的精确度的新途径。特别它能够克服存在于连接测序法中的任何序列偏差。

在本发明的实验中，从两端的每个锚引物位点开始10碱基以上的位点都是可读的碱基。这能够从用上述方法构建得到的短标签上的5’或3’端的引物结合位点开始读出20个以上的碱基序列。因此，这种方法完全可用于那些用较长的II型内切酶如Mme I，EcoP15I产生的短标签序列。此外，本发明也可以设计缺口引物系列，它们含有比短标签序列上引物片断短的锚引物，比如相对于未知标签序列的起始位点后退至-3，-2，-1的位置。利用这种缺口锚引物，就可以仅仅使用一套寡核苷酸九聚物引物。例如，NNNXNNNNN，第四个位置设计成对应于此四种引物中A，T，G，C，以读出标签序列中第1至第10个碱基)。

已知基于连接酶的连接在典型反应条件下的错误率很高，在Landegren等人于Science杂志1988年第241卷第4869期第1077-1080页发表的论文中有报道。即使通过常规方法所构建得到的短标签使用广泛而且对于其他一些实验方法也属必要，但是这样得到的短标签仍然不尽如人意。对于诸如短标签测序、基因图谱之类的应用，需要获得是单通道精度以获得正确排序而没有序列差错的短标签，这是因为短标签通常是从固定的位点得到的。利用延长引物，可以有几种改进测序精度的方法。首先是使用延长引物读取超过6碱基的连接酶可分辨的在可接受信号范围内的片断。重叠测序可以将两条PCR引物都固定在微珠上，因此PCR反应完成后两条链都固定在同一个微珠上。当从短标签序列两端分别进行测序时，就能得到同一短标签上的从两个方向读出的碱基序列，从而改善精度。对于每一个碱基，从不同方向得到的双来源数据会将与序列有关的错误样式减低至最低的程度并提高精度。其次，为了得到某一模版的连续序列，本发明采用了一种II形内切酶步移机制。如果把在标签序列的共有区中设计入II形酶切位点，就可以进行以下一系列的反应，用一条与短标签序列共有区域互补的引物作为从某一端开始的第二条链，随后加入II型内切酶从某一端将短标签序列切开。如果我们这样设计II型酶切位点，即当它被切开后，部分已经完成测序的短标签模板被切割下来。随后可以将一条新的接头序列连接到这一切口，这样就产生了一条比原标签短的测序模板。因此，通过从新的接头序列开始对标签序列进行测序，就能沿着标签序列延伸测序片断的长度。因此，标签上一端开始的连续测序可以通过重复这种标签序列移除步骤而实现。当得到了从5’及3’端开始的重叠的序列读取结果，就能得到整条标签带有重复区域的序列结果从而得到标签的精确长度。从两个方向得到的读取结果在测序反应中有着不同的序列排布，这样就可以进行相同碱基重复性判断，并改进这种方法的精度。

为了进一步减低成本，使用与此***的光学特性相匹配的2套4色荧光标记的寡核苷酸，其中一套用于3’端，另一套用于5’端。对于实验室范围内的研究方案，这可以将前期成本降低到六分之一以下，而类似的方法则需要多达13套九聚物。此处，首先完成九聚物寡核苷酸连接设计，从而可以读出从引物与目标序列连接处的6到7个碱基。随后使用含有N(N＝1，2，3，4，5，6)个从引物接合处延伸出去的随机碱基的第二个锚引物。在这里，这种锚引物的长度是优化的，所以第一个引物并不会主导杂交反应，而这会由于错配可能干扰连接反应。通过使用带有不同数目随机碱基的锚引物的扫描，进行相同连接循环以读出先前已获得序列之外的N碱基的位置的序列。总共可以从同一个末端读出多达12个碱基也足以应用于最复杂测序目标(人类基因组)的分析。

为了进一步改进信号输出以克服低信号尤其是带有N简并碱基(如N＝1，2，3，4，5，6)的长锚引物时的信号，可以应用一种四色检测法的替代方法。为了利用强荧光标记，如Cy3(菁3)或TAMRA(4甲基-罗丹明)，以及Texas-Red(德州红)或TEX613德克斯613，本发明在每个测序反应中使用一种双色检测法以代替四色检测法。在实验中，使用两种标记九聚物和两种非标记九聚物组成的连接混合物(如Cy3---A，Texas-Red---G，---T，---C)。在表面上或微珠上的标签序列信号就可被检测到。随后锚引物与已连接的九聚物被移除，再使用相同的锚引物和与刚才标记不同的九聚物混合物(如Cy3---T，Texas-Red---C，---A，---G)再进行一次测序，并检测信号。两次的连接检测可以产生含有所有四个碱基信息的一整套数据。为了最小化每次反应之间的差异，本发明利用一种标准化的信号。在制备标签序列之时，在接头序列中设计一个额外的锚序列，作为所有标签序列的通用锚位点，对应有通用锚引物。在每个测序反应中，通用锚引物与测序锚引物同时加入来对测量进行归一化。

(2)利用聚合酶碱基特异性来选择性合成延伸为基础的测序：

以连接为基础的测序方法可以显著降低测序成本并增加通量到每次实验百万个碱基。但是实际成本还是居高不下，特别是对于小规模测序项目。本发明是以特定碱基延展为基础的测序方法。聚合酶延展已经被应用到多种同端点相关的测序技术中。由于聚合酶的高度碱基特异性，Sanger方法等端点相关的技术在序列读取方面有显著的正确性。但是这种方法要求特定端点的核苷酸或者可以翻转的综合线，使得用低成本测量可以获得的生物***的测序变得困难。本发明的方法是用聚合酶碱基特异产物读出标签中的碱基信息。(见图7)用预先设定的分子标尺作为聚合酶延展引物，就是一组锚引物包括同标签中锚位点互补的序列，并且额外简并碱基长度各不相同，在3’端也有特定的碱基(A，T，C，G)。用这些引物同固定在表面(微珠或者平面)的标签序列进行杂交，并且将DNA聚合酶加入同标签序列进行杂交的引物的3’端使得其得到延伸。由于聚合酶的选择性，只有在3’端带有同标签序列互补碱基的引物才能在标签模板上得到延展。将标记的核苷酸混合进延展混合物时，正确延展的模板可以通过标签被正确识别，而3’端没有互补碱基的引物就不会被延伸，因此也不会产生信号。通过碱基特异的原理，3’端有不同碱基的锚引物可以应用到标签序列，从而可以基于每个标签上标记的不同型号推测不同标签的序列信息。简并碱基的数量(N＝1，2，3，4，5，6，7，8，9)使得可以决定从标签的锚位点往下数第N+1位处的碱基信息。例如，一个分子标尺的结构为“锚引物-NNN-A/T/G/C”，那么可以决定从标签锚位点往下数第4个碱基位的碱基信息，这意味着标签中第4个位置的碱基信息可以读出。当发现信号以后，延展线可以通过多种方式去除，包括变性(在低盐缓冲的情况下提高温度)，核酸外切酶将酶消化(例如λ核酸外切酶)，伴随有变性的酶切口(当dUTP用于延伸混合物时的核酸内切酶VIII，如尿嘧啶DNA糖基化酶和DNA糖基化酶)，例如新英格兰生物实验室的

***。标签序列模板为下一轮测序反应进行再次更新。如果按照顺序的对四个寡核苷酸引物组进行测序反应，锚引物在3’端有N(N＝1，2，3，4，5，6，7，8，9)个简并的碱基以及A，C，T，G序列，可以在DNA标签上读出从第N(N最大为9)个碱基位点的锚位点到包含多个简并碱基的锚引物对应的锚位点的基因序列。从而获得每个标签中的序列(最多9个)。

同前面所述的以连接为基础的测序方法类似，重叠性测序可以通过使用带有两端固定的PCR引物的微珠获得，因此两条线在PCR反应后都出现在同样的微珠上，为从两端测序作准备。当分别从标签序列两端分别开始进行测序时，可以两个方向对同样的标签读出序列，并由此得到对同一序列一致的结果从而增强正确性。II型酶在模板上的运行机制可以在延展选择测序方法中应用并生成连续序列读出能力，超过用简并锚引物组进行的一轮测序(最多9个碱基)。用分子标尺组进行的若干轮测序将产生连续延展的序列，直至达到整个标签的长度。类似的，如果测序时在两端有两个锚引物的标签上进行，可以从标签两端分别进行序列读取并得到相互覆盖的序列。对模板进行连续的数据读取对于基因组测序是非常有用的。

选择性延伸为基础的测序方法不仅可以为已经能够得到的生物化学***提供低成本高通量的测序方法，还使得设计一种对于在实验室或者研究机构进行大规模测序非常有弹性和特别有用的工具。

实例1

为了鉴别模板，这些珠子必须转移到一个测序***上。PCR皮升反应室罩具在水平表面直接移除之后，PCR方法或平面上高度富集的微珠阵列扩增后的表面固定连接，而样品被密封在流式小室内。用一块ITO载玻片压在流式小室上。

在一个示范性***中，我们发展起了一种基于胺化学方法将带DNA的微珠一步固定在一张特殊修饰的玻璃表面的方法。这种方法十分有效，填充因子接近可用表面的70％，可以使用过量的微珠而没有重叠的问题。更重要的是，未结合的微珠很容易回收以作为下次实验之用，而不会失去它们的功能。这一张覆盖有微珠的玻片被置于测序流式小室中，它可通过简单的表面黏附而自封。这一点不同于那些依靠压力密封的方法，对于后者，开放窗(工作区)必须相对较小以避免泄露，而且也不易操作。在我们这一示范性的设计中，典型的工作区域大约是240mm²，足以以50％的填充率容纳多于5百万个5um的塑料珠(1600万3um的塑料珠，1亿2000万1um的塑料珠)。由于流式细胞仪的厚度仅有250um，总容量只有60ul。这样小的体积保证了昂贵的试剂(连接酶和荧光寡核苷酸、聚合酶和荧光核苷酸)可以被最大限度地利用。此外，使用者还能拥有选择流式细胞仪尺寸以适应需要的家大的灵活性，要做到这一点只需要更换垫片而已。这对于预实验尤其有利，一般预实验需要只耗费少量的试剂以确定一项试验计划的可行性。由于流式细胞仪中没有扩散势垒，化学反应速度很快从而使我们在每一循环中仅仅用去其他实验方案中耗费的连接酶的10％，这就使日常的运行成本的减少。更重要的是，利用此***获得的信号可以用普通功率的汞短弧光灯作为光源，用普通的CCD探头来获得数据。这极大地降低了每个单位的成本，使得它能成为广大研究者们都可利用的***。流式细胞仪的设计还有其他特点，它使用了一种独立的ITO包被的盖玻片作为测序反应中各个步骤中控制温度的加热元件。ITO玻片紧压在装有样品(富集后的微珠阵列或平面点阵)的流式小室之上。这一装配好的装置随后被放入测序装置中进行循环测序步骤。ITO玻片被用来从下面加热溶液以进行测序所需的反应。此外，再加上激光或机械钻孔的盖玻片或石英(有着更好的热导)——以上二者均可重复使用而不会丧失其效力——操作的成本就会进一步地降低。石英可以保证牢固性以及ITO加热元件和流式细胞仪中溶液的热交换，这对于可重复的操作以及高信号产生都十分关键。

优化的高通量光学设计由于信号强度很高，一个常规的汞短弧光灯足以为一片很大的区域照明，这就使我们可以使用大规格CCD探头，如柯达生产的400万或1100万像素的CCD。一个大规格CCD加上一个读出器(亚秒全幅时间)就可以大大提高数据采集的速率并提高全部数据的通量。这对于大规模测序装置而言是最需要考虑的因素之一，相对较短的运转时间使整个装置和实验人员的工作压力会减小很多。但是，现今所有的显微镜***都无法容纳大于大型探头。因此，将测序***与一种商业荧光显微镜连接不仅很昂贵，而且有许多限制。为了充分利用已有的CCD探头，独立光学***(图10)利用了无限校正光学技术并采用了Nikon，Olympus或类似产品的物镜。对由最终选择的特定特征尺寸的优化使得我们可以利用整个探头的像素，而单幅时间仅有0.5-5秒以获取测序所需的足够信号。

纠正对于较大的成像区域内照明范围的不均匀性的程序会在测序循环之前为成像***记录下来，小的亚阵列也会被编程以进行所需的自动对焦功能。利用一种电动操作平台，采集***对任何指定的循环进行多片成像。在多数应用中，以最大分辨率拍摄3色图像只需10秒，而自动对焦和明场成像(后续数据处理过程所需)同在可在5秒内完成。因此，每组需花费15秒。对于每个微珠采用7x7像素的过取样，30幅图将会读取7百万个微珠的信息，远远超过每次操作所需的100万短标签的数目。使用常规汞光源给与用户选择荧光标记的充分自由，只需更换滤光块(filter block)即可。类似的，氙灯也是另一种选择，因为它在成像波长谱内发出的光强度十分均一。此外，大规格成像***也能通过简易的调整而作为其他方面的应用，例如cDNA阵列读取，活细胞成像或其他成熟的显微镜学的应用。整个***的图示见图10。

循环测序与数据采集的整合***中，DNA短标签测序***完全由计算机控制，由一计算机程序操控，它整合有从温度控制到液体输送到平台移动到数据采集等全部功能。一个重要特点是实时的数据检查。如果存在有问题的数据，***会自动在结束时重复读取同一个碱基以保证整套数据不会因为测序循环中的单个碱基的差错而无效。我们正在发展一种软件包，它会自动分析数据集为每个基于同一位置的明场成像而固定的微珠提取碱基信息。为了弥补长时间操作中可能产生的漂移，进行同一位置连续明场成像之间的交叉关联以校准每个微珠从而减少错误率。此外根据每个碱基的信噪比会给出一个可信指数，人们可以根据它来确定当标签定位于原基因上时排列的效果。

最后要进行数据分析并建立数据库，每个标签位置检测到的信号的图象都会被储存起来并从中提取生成反映计算后信号强度的数据文件。信号强度在每个位置上直接比对以进行碱基识别。输出的结果是每条标签序列上已识别碱基的连续片断。为了改进碱基识别的数据质量以及精度，我们可以在将它们比对到原基因组上之前利用数据库纠正错误。由于用于碱基识别的荧光寡核苷酸的组合十分有限，且连接错误又是***性和可再现的(取决于该处周围的序列)，以上这些错误在具体实验中都是可测量并可整合入数据处理程序。因此，为了改善精度和碱基识别的数据质量，这样普遍而完整的纠错会包括一种对读出数据中每个碱基的自纠因子，但是短标签必须无间隙完全测通，这样对于每个碱基所有周围有影响的碱基都会被读出。

Claims

1.一种高通量寡核苷酸测序方法，其特征在于，所述方法包括下列步骤：

(1)短DNA标签的生成；

(2)DNA单分子PCR扩增标签序列：使作为PCR引物对的寡核苷酸引物通过5’端固定于经修饰的固相表面；然后将一带有规则排列的皮升级反应室的由软性物质制成的罩具压覆在固相表面，所述罩具作为含有单分子DNA的单独PCR反应室之间的分隔物；进而将每个DNA分子单独扩增，扩增后的PCR产物在PCR后期被结合到所述固相表面上，形成结合于固相表面的可用于测序的DNA分子，从而形成特定排列的短标签序列，得一个可寻址的DNA点阵列；

(3)高密度DNA标签的富集；

(4)利用高密度DNA标签进行大规模循环平行测序。

2.根据权利要求1所述的高通量寡核苷酸测序方法，其特征在于，所述步骤(1)中短DNA标签的生成方法为：

将DNA模板处理成合适长度的DNA片段；

3.根据权利要求2所述的高通量寡核苷酸测序方法，其特征在于，所述将DNA模板处理成合适长度的DNA片段的过程包括：

对于较长的DNA片段的制备品，采用随机剪切方式使其长度减小到数百碱基对的范围内；和/或

对于mRNA转化后得到的DNA，选择限制酶位点将所述DNA切割成具有粘性末端的短片段。

4.根据权利要求1所述的高通量寡核苷酸测序方法，其特征在于，所述罩具的制作方式为：

使用软性平版印刷术制造软材料膜面，形成带有规则排列的皮升级反应室的由软性物质制成的罩具。

5.根据权利要求1所述的高通量寡核苷酸测序方法，其特征在于，所述高密度DNA标签的富集的过程包括：

6.根据权利要求5所述的高通量寡核苷酸测序方法，其特征在于，所述将单独扩增的序列孤立地分布在平表面的DNA的过程是：

通过预先制备在表面固定的单独孤立带有引物的点阵，将一端或两端的PCR引物通过其5’端固定在表面上作为扩增的引物；

对标签序列进行单独PCR扩增，形成孤立地分布在一块平表面的DNA点阵，每个点阵包含同一标签DNA序列的一个或两个单链序列，测序反应能够从标签的两端分别进行；

而在每个标签位点序列已经得到后，用这些表面固定有DNA的模板的点阵当作DNA序列阵列，并将其用于其它样本材料的识别和分析。

7.根据权利要求5所述的高通量寡核苷酸测序方法，其特征在于，所述微珠富集密排并共价固定连接在平面上的过程包括：

采用胺或者羧基修饰的表面玻璃或表面聚苯乙烯；

对于在微珠上的DNA的端点，通过相异或者相同双功能共价固定连接元进行胺修饰，而其中共价固定连接元的顶端包括碳化二亚胺、羟甲基磷、酰亚胺酯、N-羟基琥珀酰胺脂、苯基砜基酰胺脂、羟基族、以肼和醛产生的稳定的腙或以肼和酮产生的稳定的腙；或

使用末端脱氧核苷酸转移酶在结合在微珠上的DNA末端加上踪胺修饰的核苷酸，用修饰了的微珠上的DNA端和经过修饰的胺表面进行共价固定连接。

8.根据权利要求1所述的高通量寡核苷酸测序方法，其特征在于，所述步骤(4)中大规模循环平行测序的方法为：

利用络合为基础的测序；或

利用聚合酶碱基特异性来选择性延伸合成为基础的测序。

9.根据权利要求8所述的高通量寡核苷酸测序方法，其特征在于，所述利用络合为基础的测序方法为：

将延长锚引物与标签序列的杂交，即引物5’端或3’端与短标签直接配对；

锚引物与一套末端有荧光标记的简并九聚物进行连接反应，所述九聚物在某个位置的碱基类型X与标记此九聚物的荧光类型相一致，由于在九聚物中X位置的连接酶的碱基互补分辨特性，能够推断标签序列中碱基的类型，由于延长锚引物含有k个简并碱基，能利用带有不同数量简并碱基的延长锚引物而用同一套聚集体混合物读出短标签中的一段序列；或利用延长锚引物与九聚体的不同组合来读出同样位置的碱基序列。

10.根据权利要求8所述的高通量寡核苷酸测序方法，其特征在于，所述利用聚合酶碱基特异性来选择性合成延伸为基础的测序的步骤包括：

用聚合酶碱基特异产物读出标签中的碱基信息，用预先设计的分子标尺作为聚合酶延展引物；

将所述聚合酶延展引物与固定在微珠或平面表面的标签序列进行杂交，而DNA聚合酶将脱氧核苷酸加入到所述聚合酶延展引物的3’端使其得到扩展；

基于每个标签上标记的不同型号，推测不同标签对应的碱基序列信息。

11.根据权利要求9所述的高通量寡核苷酸测序方法，其特征在于，所述利用络合为基础的测序方法进一步包括：

设计缺口引物系列，其含有比用来测标签序列上引物片断短的缺口锚引物，相对于未知标签序列的起始位点后退至-3，-2，-1的位置；

利用所述缺口锚引物，通过一套寡核苷酸九聚物引物测出标签序列上的1，2，3位置的碱基，所标记的碱基位置为第四位。

12.根据权利要求9所述的高通量寡核苷酸测序方法，其特征在于，所述利用络合为基础的测序方法进一步包括，利用强荧光标记在每个测序反应中使用双色检测法，所述双色检测法是指使用两种标记九聚物和两种非标记九聚物组成的连接混合物进行测序，包括：

检测到在表面上或微珠上的DNA标签序列的两种对应于两个标记了九聚物的碱基；

在使用同一锚引物的条件下，再交换标记跟非标记的九聚物进行一次测序，检测到另外两种碱基；

根据两次的连续检测，读出所测序列上所测位置的含有所有四个碱基信息的整套数据。

13.根据权利要求9所述的高通量寡核苷酸测序方法，其特征在于，利用络合为基础的测序方法进一步包括，引入一种标准化的信号来减小每次反应之间的差异的步骤，包括：

在制备标签序列时，在接头序列中设计一个额外的锚序列，作为所有标签序列的通用锚位点，其对应通用锚引物；

在每个测序反应中，将所述通用锚引物与测序锚引物同时加入，对测量的信号进行归一化。

14.根据权利要求10所述的高通量寡核苷酸测序方法，其特征在于，当信号检测完后，可通过以下方式将延展出来的DNA链去除：

变性，核酸外切酶将酶消化，或伴随有变性的酶切口。

15.根据权利要求10所述的高通量寡核苷酸测序方法，其特征在于，所述利用聚合酶碱基特异性来选择性合成扩展为基础的测序方法进一步包括，通过使用带有两段固定的PCR引物的微珠进行重叠性测序，包括：

当分别从标签序列两端进行测序时，通过从两个方向对同样的标签读出序列，由此得到对同一序列一致的结果。

16.根据权利要求10所述的高通量寡核苷酸测序方法，其特征在于，所述利用聚合酶碱基特异性来选择性合成延伸为基础的测序的步骤进一步包括：

利用 II型酶在模板上的切割去除序列机制，延展连续可测序列长度，所读出的序列长度超过用简并锚引物组进行的1到9个碱基测序；

将上述切割去除序列机制与用分子标尺组进行的测序方法联合应用，进行若干轮测序，产生连续延展的序列的数据，直至达到整个标签的长度。