CN1230226A

CN1230226A - 通过连接经编码的衔接子进行测序

Info

Publication number: CN1230226A
Application number: CN97197101A
Authority: CN
Inventors: G·阿尔布雷克特; S·布伦纳; D·H·劳埃德; R·B·杜布里奇; M·C·帕拉斯
Original assignee: Lynx Therapeutics Inc
Current assignee: Solexa Inc
Priority date: 1996-06-06
Filing date: 1997-06-02
Publication date: 1999-09-29
Anticipated expiration: 2017-06-02
Also published as: JP2000515006A; HUP0003944A3; ATE356221T1; DE69737450D1; HK1021206A1; PL331513A1; CA2256700A1; CZ397998A3; NO985698L; AU733782B2; CN1195872C; WO1997046704A1; AU3374097A; DE69737450T2; NO985698D0; EP0923650B1; EP0923650A1; HUP0003944A2; JP4124377B2

Abstract

本发明提供了基于一套或更多套经编码的衔接子与靶多核苷酸末端连接的核酸序列分析方法。连接其突出链与靶多核苷酸的互补突出链形成完全匹配的双螺旋的经编码的衔接子,通过经编码的衔接子携带的寡核苷酸标记物测定突出链中核苷酸。通过使经标记的标记物互补物与经连接的衔接子上的其相应标记物特异性杂交可进行这种测定或“解码”。

Description

通过连接经编码的衔接子进行测序

发明领域

本发明一般地涉及测定多核苷酸的核苷酸序列的方法，更具体地涉及通过经编码的衔接子的特异性连接鉴定多核苷酸的末端核苷酸的方法。

背景

几乎所有被选择用于科研和商业的DNA测序法都基于由Sanger开创的双脱氧链终止法，如Sanger等，Proc.Natl.Acad.Sci.，74：5463-5467(1977)。已由几个途径入手改良了此方法，多种形式的此方法已被用于所有商用的DNA测序仪中，如Hunkapiller等，科学，254：59-67(1991)。

链终止法需要产生一套或多套经标记的DNA片段，每套片段具有相同的来源，以已知的碱基终止，然后必需通过大小分离一套或多套片段以得到序列资料。通常通过高分辨率的凝胶电泳来完成大小分离，所述凝胶电泳必需具有区分大小差异仅为1个核苷酸的很大的片段的能力。尽管已作了显著改良，如使用毛细管阵列进行分离和使用了非-凝胶电泳分离介质，但此技术仍不能使其自身小型化或大规模地平行实施。

已研究出的几种所谓的“一个碱基一个碱基地”或“单个碱基地”测序方法可替代基于Sanger法的DNA测序法，如Cheeseman，美国专利5,302,509；Tsien等，国际申请WO91/06678；Rosenthal等，国际申请WO93/21340；Canard等，基因，148：1-6(1994)；和Metzker等，核酸研究，22：4259-4267(1994)。这些方法的特征在于：每个化学或生物化学操作循环测定一个核苷酸，而不需要分离步骤，因此，如果它们能按预想的那样完成，“一个碱基一个碱基地”测序法保证能对结合在微粒或固相阵列上的靶多核苷酸平行地进行成千上万次测序反应，如国际专利申请PCT/US95/12678(WO96/12039)。

不幸的是，“一个碱基一个碱基地”测序方案因存在很多问题而未得到广泛应用，所述问题如阻止在完整的测序操作中测定超过几个核苷酸的任何核苷酸的无效化学。另外，在需要酶促操作的一个碱基一个碱基的测序法中随着自动化进程所用的检测设备会产生其它的问题。当在具有高表面积/体积比率和狭窄的通道尺寸的反应室中进行一系列酶促步骤时，酶可能会粘附在表面成分上，使得洗涤和相继的处理步骤变得非常困难。蛋白质的积累也会影响报道分子***，尤其是那些利用荧光标记物的***，从而使基于这种***的检测结果的解释变得困难和麻烦。这些困难和类似的困难显著阻滞了“一个碱基一个碱基地”测序方案在平行测序努力中的应用。

如果可以利用另一种使利用多种酶的重复处理循环最小化或消除的方法来检测多核苷酸的末端核苷酸，一个碱基一个碱基地测序技术尤其在自动化***中会取得重要进展。

发明概述

因此，本发明的目的是提供不具有目前使用的一个碱基一个碱基的测序方法之缺点的DNA测序方案。

本发明的另一目的是提供能平行地或同时应用于同一反应管中存在的数以千计的DNA片段的DNA测序法。

本发明的另一目的是提供能允许用最少的酶促步骤鉴定靶多核苷酸之末端部分的DNA测序法。

本发明的另一目的是提供一套经编码的衔接子以鉴定一个或多个靶多核苷酸之多个末端核苷酸的序列。

本发明通过提供基于一套或更多套经编码的衔接子与靶多核苷酸的末端(或当用于平行测序操作时为多个靶多核苷酸的末端)连接的核酸分析方法来达到这些和其它目的。每个经编码的衔接子含有突出的链和选自最少交叉杂交套寡核苷酸的寡核苷酸标记物。连接经编码的衔接子，所述衔接子的突出链与靶多核苷酸之互补的突出链形成完全匹配的双螺旋。连接后，通过使经标记的标记物互补物与其在经连接的衔接子上的相应标记物特异性杂交测定或“解码”突出链中的核苷酸和排列次序。

例如，如果具有4个核苷酸，即5’-AGGT之突出链的经编码的衔接子与靶多核苷酸之互补的突出链形成完全匹配的双螺旋，并且被连接的话，通过选自一套各针对突出链每一种可能的4个核苷酸序列的256个这种标记物的独特的寡核苷酸标记物，可鉴定出多核苷酸上的4个互补的核苷酸3’-TCCA。在仅允许那些与经连接的衔接子的寡核苷酸标记物形成完全匹配的双螺旋(或三螺旋)的标记物互补物特异性杂交的条件下，将标记物互补物用于经连接的衔接子。标记物互补物可以单独使用，或作为一个或多个混合物使用，以测定寡核苷酸标记物，从而测定突出链的序列。

下文将更详细地解释，在序列分析中可将经编码的衔接子(i)如Brenner美国专利5,599,675和PCT公布号WO95/27080所述，作为涉及连接，鉴定和裂解之重复循环的处理步骤来鉴定一个或多个核苷酸，或(ii)作为“独立(stand alone)”的鉴定法，其中将多套经编码的衔接子应用于靶多核苷酸以使每套能鉴定靶多核苷酸不同部分的核苷酸序列；即在后一实施方案中，对每套衔接子单次连接，随后进行鉴定即可进行序列分析。

经编码的衔接子的重要特征是使用了寡核苷酸标记物，所述标记物是最少交叉杂交套寡核苷酸的成员，例见国际专利申请PCT/US95/12791(WO96/12041)和PCT/US96/09513(WO96/41011)。此套寡核苷酸的序列与相同套的其它每个成员的序列至少有2个核苷酸的差异，因此，此套的每个成员不能与其它任何成员具有少于2个错配的互补物形成双螺旋(或三螺旋)。优选最少交叉杂交套的每个成员与其它每个成员有与特殊应用所需套的大小一致的尽可能多的核苷酸有所不同。例如，当使用较长的寡核苷酸标记物，如12-至20-聚体以将标记物给予经编码的衔接子时，则优选最少交叉杂交套的成员之间的差异显著大于2。优选此套的每个成员与其它每个成员至少有4个核苷酸的差异，更优选此套的每个成员与其它每个成员至少有6个核苷酸的差异。本文将本发明的寡核苷酸标记物的互补物称为“标记物互补物”。

寡核苷酸标记物可以是单链，并被设计成可通过双螺旋的形成与单链的标记物互补物特异性杂交。寡核苷酸标记物可以是双链，并被设计成可通过三螺旋的形成与单链的标记物互补物特异性杂交。优选经编码的衔接子的寡核苷酸标记物是双链，它们的标记物互补物是单链，以通过三螺旋结构的形成使标记物与其互补物发生特异性杂交。

优选本发明的方法包括下列步骤：(a)将经编码的衔接子与多核苷酸的末端连接，所述衔接子具有选自最少交叉杂交套寡核苷酸的寡核苷酸标记物和与多核苷酸突出链互补的突出链；和(b)通过将标记物互补物与经编码的衔接子的寡核苷酸标记物特异性杂交来鉴定多核苷酸突出链中的一个或多个核苷酸。

附图简述

图1A-1E图示阐明使用经编码的衔接子测定多个经标记的多核苷酸的末端核苷酸序列。

图2阐明了锚定于固相支持物上的完全相同的多核苷酸的自身连接现象。

图3A阐明了本发明优选方法中的步骤，所述方法中具有封闭的3’碳的双链衔接子与靶多核苷酸连接。

图3B阐明了在经由连接和裂解分段循环进行DNA测序的方法中优选实施方案的使用。

图4阐明了使用本发明的方法测定受试多核苷酸之末端核苷酸的资料。

图5图解描述了流动室和用于观察荷载有待测序cDNA分子的平面排列的微粒的检测装置。

定义

本文所用术语“经编码的衔接子”与优先权文本美国专利申请流水号08/689,587中的术语“经编码的探针”是同义词。

本文所用术语“连接”是指一个或多个(通常为2个)寡核苷酸的末端之间共价键的形成。此术语通常指的是因下列反应导致的磷酸二酯键的形成：寡₁(5’)-OP(O-)(＝O)O+HO-(3’)寡₂-5’→寡₁(5’)-OP(O-)(＝O)O-(3’)寡₂-5’

所述反应通常由连接酶催化，其中寡₁和寡₂是两个不同的寡核苷酸或是相同寡核苷酸的不同末端。此术语包含寡核苷酸末端之间磷酸二酯键的非酶促形成以及非磷酸二酯共价键，如硫代磷酸酯键，二硫键等的形成。连接反应通常是模板驱动的，其中寡₁和寡₂的末端通过与模板链的特异性杂交而成为并列状态。模板驱动连接的特殊例子是具有互补突出链的两个双链寡核苷酸的连接。

本文有关寡核苷酸标记物所用的“互补物”或“标记物互补物”指的是寡核苷酸标记物与之特异性杂交以形成完全匹配的双螺旋或三螺旋的寡核苷酸。在特异性杂交产生三螺旋的实施方案中，寡核苷酸标记物可被选择为双链或单链，因此，当形成三螺旋时，术语“互补物”意味着包含单链寡核苷酸标记物的双链互补物或双链寡核苷酸标记物的单链互补物。

本文所用的术语“寡核苷酸”包括能利用规则模式的单体与单体间的相互作用，如Watson-Crick型碱基配对，碱基堆积，Hoogsteen或反向Hoogsteen型碱基配对等与靶多核苷酸特异性结合的天然或经修饰的单体或连键的线性寡聚体，如脱氧核糖核苷，核糖核苷，其端基异构形式，肽核酸(PNA)等。通常通过磷酸二酯键或其类似物连接单体以形成大小范围为几个，如3-4个单体单位至几十个，如40-60个单体单位的寡核苷酸。每当寡核苷酸由字母顺序，如“ATGCCTG”表示时，应理解除非另有说明，核苷酸从左至右为5’→3’次序，“A”表示脱氧腺苷，“C”表示脱氧胞苷，“G”表示脱氧鸟苷，而“T”表示胸苷。本发明的寡核苷酸通常含有4个天然的核苷酸；然而，它们也可含有非天然的核苷酸类似物。本领域技术人员清楚地知道：当使用具有天然或非天然核苷酸的寡核苷酸时，如当需要由酶进行处理时，通常需要由天然核苷酸组成的寡核苷酸。

与双螺旋有关的“完全匹配”指的是组成双螺旋的多-或寡核苷酸链与另一个链形成双链结构，以使每条链的每一个核苷酸与另一条链的核苷酸进行Watson-Crick碱基配对。此术语也包括可能会使用的核苷酸类似物的配对，所述类似物如脱氧肌苷，具有2-氨基嘌呤碱基的核苷等。与三螺旋有关的“完全匹配”指的是三螺旋由完全匹配的双螺旋和第三条链构成，其中第三条链中的每一个核苷酸与完全匹配的双螺旋的碱基对进行Hoogsteen或反向Hoogsteen连接。与之相反，标记物和寡核苷酸之间双螺旋中的“错配”指的是双螺旋或三螺旋中的核苷酸对或三联体无法进行Watson-Crick和/或Hoogsteen和/或反向Hoogsteen键合。

本文所用的“核苷”包括2’-脱氧和2’-羟基形式的天然核苷，例见Kornberg和Baker，DNA复制，第2版(Freeman，San Francisco，1992)。与核苷有关的“类似物”包括例如Scheit，核苷酸类似物(JohnWiley，纽约，1980)；Uhlman和Peyman，化学评论，90：543-584(1990)所述的具有经修饰的碱基组成成分和/或经修饰的糖组成成分的合成核苷等，仅有的先决条件是它们能特异性杂交。这种类似物包括经设计增强了结合特性，降低了复杂度，增加了特异性的合成核苷等。

本文所用的与多核苷酸有关的“序列测定”或“测定核苷酸序列”包括测定多核苷酸的部分以及完整的序列资料，即此术语包括靶多核苷酸的序列比较，指纹分析和类似水平的资料，以及靶多核苷酸中核苷，通常为每个核苷的快速鉴定和排序。此术语也包括靶多核苷酸内4种类型核苷酸中1，2，或3种的鉴定，排序和定位的确定。例如，在一些实施方案中，通过鉴定靶多核苷酸“CATCGC…”内的单一类型的核苷酸，如胞嘧啶的排序和定位，以使其序列被表示为二进制的密码子，如“C-(非C)-(非C)-C-(非C)-C”被表示为“100101”等即可实现序列测定。

本文所用的有关多核苷酸群体的术语“复杂度”指的是群体中存在的不同类分子的数目。

发明详述

本发明涉及与一个或多个靶多核苷酸之末端特异性杂交的经编码的衔接子的连接。通过“解码”如此连接的经编码的衔接子的寡核苷酸标记物可得到发生特异性杂交之区域的有关序列资料。在本发明的一个方面，在交错切割点将多套经编码的衔接子与靶多核苷酸连接，以使经编码的衔接子提供靶多核苷酸多个部分中每一个的序列资料。上述部分可以是非连接的，重叠的或邻接的；然而，优选所述部分是邻接的，它们共同允许鉴定等于各个部分长度总和的核苷酸序列。在此方面，仅需单次连接经编码的衔接子，接着可通过“解码”经连接的衔接子的标记物来鉴定。在本发明的另一方面，经编码的衔接子被用作包括连接，鉴定和裂解之重复循环的方法中的鉴定步骤，有关内容将在下文中更详细地描述。

在后一种实施方案中，本发明利用了核酸酶，所述核酸酶的识别位点与其裂解位点是分开的。优选这种核酸酶是II型限制性内切核酸酶。使用核酸酶在与经编码的衔接子连接的靶多核苷酸上产生突出链。在本发明给定实施方案中得到的序列资料的量部分取决于使用了多少这种核酸酶，和通过裂解产生的突出链的长度。

本发明的重要方面是平行测定很多靶多核苷酸之序列的能力，在此方面，本发明的方法包括下列步骤：(a)将得自标记物所有组成成分的第一多核苷酸标记物与多核苷酸群体中的每个多核苷酸结合，以使得自所有组成成分的每个第一寡核苷酸标记物选自第一最少交叉杂交套；(b)对多核苷酸群体进行取样，以使所述群体中基本上所有不同的多核苷酸都结合有不同的第一寡核苷酸标记物；(c)将一个或多个经编码的衔接子与所述群体中每个多核苷酸的末端连接，每个经编码的衔接子具有选自第二最少交叉杂交套的第二寡核苷酸标记物，和与所述群体中多核苷酸突出链互补的突出链；(d)通过将第一寡核苷酸标记物与其各自的互补物特异性杂交，以分选所述群体中的多核苷酸，各自的互补物作为基本上相同的寡核苷酸的均一群体结合于一个或多个固相支持物上的空间上不连续的区域内；和(e)通过使标记物互补物与一个或多个经编码的衔接子的每个第二寡核苷酸标记物特异性杂交，以鉴定所述多核苷酸突出链中的一个或多个核苷酸。在此实施方案中，可在多核苷酸已被第一寡核苷酸标记物分选至固相支持物上之前或之后，将一个或多个经编码的衔接子与多核苷酸的末端连接。在优选的实施方案中，经编码的衔接子包括II型限制性内切核酸酶位点，所述位点可使经编码的衔接子从多核苷酸上裂解下来，而经序列鉴定之后多核苷酸可被缩短。

根据优选的实施方案，此方法进一步包括连接，鉴定和裂解之重复循环，以使每个循环中可鉴定一个或多个核苷酸。优选每个循环中可鉴定2至6个核苷酸，并确定它们的次序。

不经连接和裂解循环的序列分析

图1A至1E的实施方案阐明了本发明不经连接和裂解循环的序列分析。在此实施方案中，按下述制备k靶多核苷酸，也见Brenner，国际专利申请PCT/US95/12791(WO96/12041)和PCT/US96/09513(WO96/41011)。即样品取自与以小“t’s”标示的寡核苷酸标记物缀合的多核苷酸群体，这些标记物有时指的是分选用的寡核苷酸标记物，或“第一”寡核苷酸标记物。通过例如聚合酶链反应(PCR)或克隆扩增样品的标记物-多核苷酸缀合物给出图1A(14)-(18)所示的1至k缀合物群体。优选制备与(小“t”)标记物相反的缀合物末端以连接一个或多个衔接子，每个这种衔接子都含有核酸酶的识别位点，所述核酸酶的裂解位点与其识别位点是分开的。在被举例的实施方案中，使用了3个这种衔接子，本文称之为“裂解衔接子”。所用这种衔接子的数目取决于几个因素，包括所需序列资料的量，具有适当作用范围和裂解特征的II型核酸酶的可得性等等。优选使用1至3个裂解衔接子，衔接子被设计成可容纳不同的II型核酸酶，所述核酸酶裂解后能产生至少为4个核苷酸的突出链。

如果本发明的方法被用于cDNA群体的特征测序，则在连接裂解衔接子之前，可用具有高频识别位点的限制性内切核酸酶裂解标记物-多核苷酸缀合物，所述酶如TaqI，AluI，HinP1I，DpnII，NlaIII等。对于留下钝端的酶，如AluI而言，可用T4 DNA聚合酶产生交错切口的末端，例见上述Brenner的国际专利申请PCT/US95/12791和Kuijper等，基因，112：147-155(1992)。如果通过用TaqI裂解制备靶多核苷酸，则可使用下列末端来连接：

cgannnn…-3’

tnnnn…-5’

因此，可按下述构建一例3个裂解衔接子套：

(1)NN...NGAAGA cgannnnnnnnnnnnnnnnnnn...-3’

NN...N CTTCTGCp t

nnnnnnnnnnnnnnn...-5’

(2)NN...NGCAGCA cgannnnnnnnnnnnnnnnnnn...-3’

NN...N CGTCGTGCp tnnnn nnnnnnnnnnn...-5’

(3)NN...NGGGA cgannnnnnnnnnnnnnnnnnn...-3’

NN...N CCCTGCp tnnnnnnnn nnnnnnn....-5’

其中裂解衔接子(1)，(2)和(3)以大写字母表示，其各自的核酸酶BbsI，BbvI和BsmFI的识别位点以下划线表示，5’磷酸以“p”表示。靶多核苷酸的双划线部分表示连接和裂解之后突出链的位置。在所有情况下，靶多核苷酸只留下4个核苷酸的5’突出链，显然，使用不同数目和种类的核酸酶可构建很多不同的实施方案。如Brenner，美国专利5,599,675和WO95/27080中所讨论的，优选在裂解之前，通过例如甲基化封闭内部的BbsI，BbvI和BsmFI位点以防止靶多核苷酸内部位点处不必要的裂解。

再回到举例用的上述实施方案，裂解衔接子A₁，A₂和A₃以1∶1∶1的浓度比例与k个靶多核苷酸连接(20)，给出图1B所示的缀合物，以使每个标记物-多核苷酸缀合物群体内有大致相等数目的结合有A₁，A₂和A₃的缀合物。连接(20)之后，用每个裂解衔接子的核酸酶相继裂解靶多核苷酸并与一套经编码的衔接子连接。首先，用裂解衔接子A₁的核酸酶裂解(22)靶多核苷酸，然后，将第一套经编码的衔接子与所得的突出链连接。裂解导致约1/3各种类型的靶多核苷酸，即t₁，t₂，…t_k可用于连接。优选经编码的衔接子可作为一种或多种衔接子的混合物被使用，所述混合物合在一起含有突出链每一种可能的序列。选择反应条件以仅连接其突出链与靶多核苷酸的突出链形成完全匹配的双螺旋的经编码的衔接子，从而形成经编码的缀合物(28)，(30)，和(32)(图1C)。具有下标的大写字母“T’s”表示经编码的衔接子携有独一无二的寡核苷酸标记物以用于标记。经编码的衔接子携有的寡核苷酸标记物有时指将标记物传递给经编码的衔接子的标记物，或“第二”寡核苷酸标记物。下文将要更详细地讨论的是，用于分选的单链寡核苷酸标记物优选仅由4种核苷酸中的3种组成，以使如Kuijper等人(见上文)所述的T4 DNA聚合酶“删除”反应可被用于制备靶多核苷酸以荷载于固相支持物上。另一方面，用于传递标记物的寡核苷酸标记物可由所有4种核苷酸组成。

如上所述，经编码的衔接子含有突出链(24)和寡核苷酸标记物(26)，因此，如果t₁-多核苷酸缀合物的“A₁”裂解产生下列末端：

5’-…nnnnnnnnn

3’-…nnnnnnnnnacct那么寡核苷酸标记物T₂₄可具有下列结构(SEQ ID NO：1)：

tggattctagagagagagagagagagag-3’

aagatctctctctctctctctctc其中双链部分可以是一套48个(＝12个核苷酸位置×4种核苷酸)双链20-聚体寡核苷酸标记物中的1个，所述标记物可与独一无二的标记物互补物形成完全匹配的三螺旋并与所有其它标记物互补物形成具有至少6个错配的三螺旋。在此例子中，经编码的衔接子可与总数为768(3×256)的一种或多种混合物中的靶多核苷酸连接。经编码的衔接子也可任选含有上文例子中所示的间隔区，其中4个核苷酸的序列“ttct”用作突出链和寡核苷酸标记物之间的间隔。

连接第一套经编码的衔接子(28)，(30)和(32)之后，用裂解衔接子A₂的核酸酶裂解(34)标记物-多核苷酸缀合物，然后，使用第二套经编码的衔接子以形成缀合物(36)，(38)和(40)(图1D)，最后，用裂解衔接子A₃的核酸酶裂解(42)标记物-多核苷酸缀合物，然后，使用第三套经编码的衔接子以形成缀合物(44)，(46)和(48)(图1E)，完成了经编码的衔接子的相继裂解和连接之后，经由下文将详细描述的，也例见Brenner，PCT/US95/12791或PCT/US96/09513中所述的寡核苷酸标记物t₁-t_k将混合物荷载(50)于一个或多个固相支持物上。如果分析的是单个靶多核苷酸，显然不需要多个寡核苷酸标记物t₁，t₂，…t_k。在这种实施方案中，由于不需要分选，可将生物素或类似的组成成分用于锚定多核苷酸-经编码的衔接子缀合物。裂解，连接和荷载于固相支持物之步骤的次序取决于所实施的具体方案。例如，可首先将标记物-多核苷酸缀合物荷载于固相支持物，接着连接裂解衔接子，裂解之，连接经编码的衔接子；或首先连接裂解衔接子，接着荷载，裂解，连接经编码的衔接子；等等。

经编码的衔接子与本发明靶多核苷酸的末端连接之后，通过在允许经编码的衔接子的寡核苷酸标记物及其各自的标记物互补物之间形成完全匹配的双螺旋和/或三螺旋的条件下，将经标记的标记物互补物或单独或作为混合物相继用于固定的靶多核苷酸，即可得到序列资料。混合物的数目和复杂度取决于几个因素，包括所用标记***的类型，其序列需被鉴定之部分的长度，是否使用了复杂度有所降低的类似物等等。对于图1a至1e所示的实施方案而言，优选使用单个荧光染料标记48(＝3×16)个标记物互补物中的每一个。单独将标记物互补物用于鉴定靶多核苷酸4个核苷酸部分每一个的核苷酸(即总数为48个核苷酸的12个位置的每一个的4个标记物互补物)。显然，不同长度的部分可能需要不同数目的标记物互补物，如根据此实施方案，5-核苷酸部分可能需要20个标记物互补物，2-核苷酸部分可能需要8个标记物互补物等等。在足够严紧以致于仅形成完全匹配的双螺旋的条件下使用标记物互补物，测定得自特异性杂交的标记物互补物上的荧光标记物的信号，从经编码的标记物上洗下标记物互补物以使下一个混合物可以被使用。16个标记物互补物与靶序列的4-聚体部分的下列序列具有一一对应的关系：ANNN NANN NNAN NNNACNNN NCNN NNCN NNNCGNNN NGNN NNGN NNNGTNNN NTNN NNTN NNNT其中“N”是核苷酸，A，C，G或T中的任一种，因此，针对每个核苷酸位置，每种核苷酸都有可能。此实施方案中体现出显著水平的丰余部分(总共使用16个标记物互补物以鉴定4个核苷酸)以换取核苷酸测定可靠性的增加。

通过使用4种光谱有区别的荧光染料可连续使用4种标记物互补物之12种混合物中的每一种，以使染料和核苷酸类型之间有一一对应的关系。例如，4种标记物互补物的混合物可鉴定突出链序列“nnxn”中的核苷酸“x”以使如果x＝A，可观察到第一种荧光标记物，如果x＝C，可观察到第二种荧光标记物，如果x＝G，可观察到第三种荧光标记物等等。

在类似于Brenner，国际专利申请PCT/US95/03678(WO95/27080)公开的“多次分段”法的方法中使用上述实施方案可得到其它的序列资料。在此实施方案中，本文称之为“分段衔接子”的第四个衔接子与裂解衔接子A₁，A₂和A₃一起以例如3∶1∶1∶1的浓度比例与靶多核苷酸的末端连接，因此，大约有一半可利用的末端与分段衔接子连接。分段衔接子包括位于其中的II型核酸酶的识别位点，以使其作用范围(下文中限定)允许裂解经由裂解衔接子A₁，A₂和A₃测定的序列末端的靶多核苷酸。可与上述套裂解衔接子一起使用的分段衔接子的例子如下所述：

NN...NCTGGAGA cgannnnnnnnnnnnnnnnnnn...-3’

NN...N GACCTCTGCp tnnnnnnnnnnnn nnnnn...-5’其中，如上所述，核酸酶(此时为BpMI)的识别位点为单划线，裂解位点的核苷酸为双划线。被分段衔接子的核酸酶裂解的靶多核苷酸可与另一套裂解衔接子A₄，A₅和A₆连接，所述裂解衔接子可含有与裂解衔接子A₁，A₂和A₃所含相同或不同的核酸酶识别位点。是否需要扩大套的经编码的衔接子取决于信号测定装置中是否能忍受裂解和连接反应。如果如上所述需要使与信号测定相关联的酶反应最小化，则必须使用多余套的经编码的衔接子。即当需要超过768个寡核苷酸标记物和标记物互补物，6个裂解反应产生各为4个核苷酸的突出链时，会需要1536个寡核苷酸标记物和标记物互补物(64个标记物互补物各24种混合物)。例举的裂解衔接子A₄，A₅和A₆，具有与A₁，A₂和A₃相同的核酸酶识别位点，可与上述分段衔接子一起使用，具体如下：

(4)NN...NGAAGACNN nnnnnnnnnnnnnnnnnn...-3’

NN...N CTTCTGp nn

nnnnnnnnnnnnnn...-5’

(5)NN...NGCAGCACNN nnnnnnnnnnnnnnnnnn...-3’

NN...N CGTCGTGp nnnnnn

nnnnnnnnnn...-5’

(6)NN...NGGGACNN nnnnnnnnnnnnnnnnnn...-3’

NN...N CCCTGp nnnnnnnnnn nnnnnn...-5’其中裂解位点以双划线表示，优选裂解衔接子A₄，A₅和A₆以混合物的形式被使用，以体现出每一种可能的2-核苷酸突出链。

一旦经编码的衔接子已被连接，即可制备靶多核苷酸以荷载于固相支持物，优选荷载于微粒，例见Brenner，国际专利由请PCT/US95/12791(WO96/12041)。简单地说，用T4 DNA聚合酶进行“删除”反应可使用于分选的寡核苷酸标记物变成单链，例见Kuijper等(见上文)。在微粒上使单链寡核苷酸标记物与其标记物互补物特异性杂交并连接，然后如Brenner(见上文)所述在仪器中分析被荷载的微粒，所述仪器允许依次传递，特异性杂交和将经标记的标记物互补物转移给经编码的衔接子。

在经编码的衔接子仅与靶多核苷酸(或靶多核苷酸群体)连接1次的实施方案中，根据本发明可使用几种非酶促的模板-驱动的连接方法。这种连接方法包括但不限于Shabarova，Biochimie 70：1323-1334(1988)；Dolinnaya等，核酸研究，16：3721-3738(1988)；Letsinger等，美国专利5,476,930；Gryaznov等，核酸研究，22：2366-2369(1994)；Kang等，核酸研究，23：2344-2345(1995)；Gryaznov等，核酸研究，21：1403-1408(1993)；Gryaznov，美国专利5,571,677等文献所述。优选通过Letsinger等人(见上文)的方法进行非酶促的连接。在此方法中，具有3’-溴乙酰基化末端的经编码的衔接子与在5’末端具有互补的突出链和硫代磷酸基团的多核苷酸反应。例举的利用这种化学的经编码的衔接子具有下列结构：

BrCH₂(＝O)CNH-(B)_r(B)_s(B)_q(B)_t-3’

3’-zB’B’B’B’B’(B)_r(B’)_s(B’)_q-5’其中B和B’是核苷酸及其互补物，z，r，s，q和t如下所述，Br，C，H和N具有其平常的化学含义。如上文参考文献所解释，在模板-驱动的反应中，3’-溴乙酰基化的寡核苷酸在含水条件下自发地与具有5’-硫代磷酸基团的寡核苷酸反应以形成硫代磷酸乙酰氨基连键。按Kang等人(见上文)所述，通过在腺苷-5’-O-(1-硫代三磷酸)，即g-S-ATP存在时用T4激酶处理可使硫代磷酸基团易于与靶多核苷酸的5’羟基结合。

经连接和裂解循环进行序列分析

经编码的衔接子可用于基于衔接子的DNA测序法，所述测序法包括连接，鉴定和裂解的重复循环，如Brenner，美国专利5,599,675和PCT公开号WO95/27080所述的方法。简单地说，所述方法包括下列步骤：(a)将经编码的衔接子与多核苷酸的末端连接，经编码的衔接子具有核酸酶的识别位点，所述核酸酶的裂解位点与其识别位点是分开的；(b)通过连接于其上的经编码的衔接子鉴定多核苷酸末端的一个或多个核苷酸；(c)用识别经编码的衔接子的核酸酶识别位点的核酸酶裂解多核苷酸以使多核苷酸缩短一个或多个核苷酸；和(d)重复所述的步骤(a)至(c)直至测定所述多核苷酸的核苷酸序列。在鉴定步骤中，将连续套标记物互补物与连接于上述靶多核苷酸末端的经编码的衔接子携有的各个标记物特异性杂交。通过上述特异性杂交的标记物互补物和标记物互补物所来源的套携有的标记物鉴定多核苷酸突出链中的核苷酸类型和序列。

寡核苷酸标记物和标记物互补物

在本发明优选的实施方案中使用寡核苷酸标记物是出于两个不同的目的：按Brenner，国际专利申请PCT/US95/12791和PCT/US96/09513(WO96/12041和WO96/41011)所述使用寡核苷酸标记物以从混合物中将大数目如几千至几十万的多核苷酸分选为相同多核苷酸的均一群体以供分析，使用它们将标记物传递给数目范围为几十至几千的经编码的衔接子。为了前一用途，一般需要大数目的标记物或标记物的所有组成成分，因此，各个寡核苷酸标记物的合成是问题所在。在这些实施方案中，优选标记物的组合合成。另一方面，当不需要极大量的标记物所有组成成分例如以将标记物传递给经编码的衔接子时，可分开合成，也可组合合成最少交叉杂交套的寡核苷酸标记物。

如Brenner(见上文)所述，通过简单的计算机程序，如其源密码列于附录I和II的程序所例举的程序可方便地列举最少交叉杂交套的寡核苷酸的核苷酸序列。也可容易地写出类似的计算机程序以列出本发明任何实施方案的最少交叉杂交套的寡核苷酸。下表I为所示核苷酸差别的长度和数目提供了有关最少交叉杂交套寡核苷酸大小的指导。

表I

最少交叉杂交套的由4个核苷酸组成的寡核苷酸密码(word)寡核苷酸密最少交叉杂最少交叉杂具有3个密码具有4个密码的长度交套寡核苷交套最大的的所有组成码的所有组

酸之间的核大小成分的大小成成分的大小

苷酸差异4 3 11 1331 14,6416 4 25 15,625 3.9×1056 5 4 64 2568 4 225 1.14×1078 5 56 1.75×1058 6 17 491312 8 62

可通过多种平行合成方法直接合成含有几百至几千，或甚至几万个寡核苷酸的套，所述方法例见Frank等人，美国专利4,689,405；Frank等人，核酸研究，11：4365-4377(1983)；Matson等人，分析生物化学，224：110-116(1995)；Fodor等人，国际申请PCT/US93/04145(WO93/22684)；Pease等人，Proc.Natl.Acad.Sci.，91：5022-5026(1994)；Southern等人，生物技术杂志，35：217-227(1994)，Brennan，国际申请PCT/US94/05896(WO94/27719)；Lashkari等人，Proc.Natl.Acad.Sci.，92：7912-7915(1995)；等等。

优选混合物中组合合成或单独合成的标记物互补物被选择为具有互相类似的双螺旋或三螺旋稳定性以使完全匹配的杂合体具有类似的或基本上相同的解链温度。这使得当用于经编码的衔接子时，通过例如在严紧条件下洗涤，可使错配的标记物互补物更易于与完全匹配的标记物互补物区分开。为了组合合成标记物互补物，可由与此套中每一个其它的亚单位对双螺旋稳定性具有大致相等贡献的亚单位构建最少交叉杂交套。进行这种选择的有关指导由选择最适PCR引物和计算双螺旋稳定性的现有技术提供，例见Rychlik等人，核酸研究，17：8543-8551(1989)和18：6409-6412(1990)；Breslauer等人，Proc.Natl.Acad.Sci.，83：3746-3750(1986)；Wetmur，Crit.Rev.Biochem.Mol.Biol，26：227-259(1991)；等等。当需要较少数目的寡核苷酸标记物时，如为了将标记物传递给经标记的衔接子时，可使用附录I和II的计算机程序以产生和列出直接被使用(即不必连接成“句子(sentences)”)的最少交叉杂交套寡核苷酸的序列。可进一步筛选这种列表的其它标准，如GC-含量，错配的分布，理论上的解链温度等等以形成其它的最少交叉杂交套。

对于较短的标记物，如约30个核苷酸或更短的标记物而言，优选使用Rychlik和Wetmur所述的算法规则以计算双螺旋的稳定性，对于较长的标记物，如约30-35个核苷酸或更长的标记物而言，使用Suggs等人，p683-693，BTown编，ICN-UCLA Symp.Dev.Biol.，Vol.23(Academic出版社，纽约，1981)所公开的算法规则较为方便。显然，本领域技术人员可使用很多方法来设计本发明范围内的最少交叉杂交套亚单位。例如，当装配亚单位时，为了使末端核苷酸不同碱基-堆积能的影响最小化，可提供具有相同末端核苷酸的亚单位。按此方法，当连接亚单位时，所有贴近的末端核苷酸的碱基-堆积能总和将会相同，从而会降低或消除标记物解链温度中的变化性。

在多个亚单位的标记物中，也可在标记物的每个末端加上下文中以斜体表示的末端核苷酸“密码(word)”，以使该密码与任何其它标记物互补物上类似的末端“密码”之间总能形成完全的匹配。这种增加的标记物可具有下列形式：

W	W₁	W₂ ... W_k-1	W_k	W
W	W₁	W₂ ... W_k-1	W_k	W	W’	W₁’	W₂’ ... W_k-1’	W_k’	W’

其中加撇的W’表示互补物，标记物的末端总能形成完全匹配的双螺旋，所有错配的密码将会是内部的错配，从而降低了否则会在其末端具有错配密码的标记物-互补物双螺旋的稳定性。众所周知，具有内部错配的双螺旋明显不如在末端具有相同错配的双螺旋稳定。

至于用于分选的寡核苷酸标记物，最少交叉杂交套的优选实施方案是那些其亚单位由4种天然核苷酸中的3种组成的套。下文将要更详细地讨论的是，寡核苷酸标记物中缺乏1种类型的核苷酸使得能通过使用DNA聚合酶的5’→3’外切核酸酶活性将靶多核苷酸荷载于固相支持物。下文是例举的各含有选自A，G和T的4个核苷酸的最少交叉杂交套亚单位：

表II密码： W₁ W₂ W₃ W₄序列： GATT TGAT TAGA TTTG密码： W₅ W₆ W₇ W₈序列： GTAA AGTA ATGT AAAG在此套中，每个成员都可与每一个其它成员的互补物形成具有3个错配碱基的双螺旋。

至于用于将标记物传递给经编码的衔接子的寡核苷酸标记物，可使用所有4种核苷酸。

使用标准的化学法，如下列文献中公开的亚磷酰胺化学法便于在自动化的DNA合成仪，如Applied Biosystems公司(Foster City，加利福利亚)的392或394型DNA/RNA合成仪上合成本发明的寡核苷酸标记物及其互补物，所述文献如：Beaucage和Lyer，Tetrahedron，48：2223-2311(1992)；Molko等人，美国专利4,980,460；Koster等人，美国专利4,725,677；Caruthers等人，美国专利4,415,732；4,458,066；和4,973,679；等等。也可使用其它化学法，如产生非天然骨架基如肽核酸(PNA)，N3’→P5’亚磷酰胺等等的化学法。在一些实施方案中，标记物可含有允许酶处理或操作的天然产生的核苷酸，而相应的标记物互补物可含有在分选过程中可促进更稳定的双螺旋形成的非天然核苷酸类似物，如肽核酸或类似的化合物。至于用于将标记物传递给经编码的衔接子的标记物，可由非天然的核苷酸，或类似物构建寡核苷酸标记物和标记物互补物，只要可通过化学法或酶法连接即可。

通过分开合成互补链接着在允许双螺旋形成的条件下混合即可制备双链形式的标记物。或者，通过首先合成与用作引物结合位点的已知寡核苷酸序列相连的单链所有组成成分，然后通过将单链所有组成成分与引物混合并用聚合酶延伸合成第二条链以形成双链标记物。后一种方法描述于Oliphant等人，基因，44：177-183(1986)。然后可将这种双螺旋标记物与靶多核苷酸一起***克隆载体以分选和操作本发明的靶多核苷酸。

当所使用的标记物互补物由具有增强的结合特性的核苷酸，如PNA或寡核苷酸N3’→P5’亚磷酰胺组成时，通过在含有天然核苷酸的标记物和其PNA或亚磷酰胺互补物之间形成D-环，以替代利用DNA聚合酶的3’→5’外切核酸酶活性以使标记物变成单链的“删除”反应即可完成分选。

用于分选的寡核苷酸标记物的长度范围为12至60个核苷酸或碱基对，优选寡核苷酸标记物的长度范围为18至40个核苷酸或碱基对，更优选寡核苷酸标记物的长度范围为25至40个核苷酸或碱基对。在优选和更优选的亚单位数目方面，这些范围被表示为：

表III

优选实施方案中标记物亚单位的数目亚单位中的单体寡核苷酸标记物中的核苷酸

(12-60) (18-40) (25-40)3 4-20个亚单位 6-13个亚单位 8-13个亚单位4 3-15个亚单位 4-10个亚单位 6-10个亚单位5 2-12个亚单位 3-8个亚单位 5-8个亚单位6 2-10个亚单位 3-6个亚单位 4-6个亚单位最优选用于分选的寡核苷酸标记物为单链，且通过与标记物互补物的Watson-Crick配对发生特异性杂交。

优选用于分选的单链寡核苷酸标记物的所有组成成分至少含有100个成员；更优选这种标记物的所有组成成分至少含有1000个成员；最优选这种标记物的所有组成成分至少含有10,000个成员。

优选用于传递标记物的标记物互补物的所有组成成分至少含有16个成员；更优选这种标记物的所有组成成分至少含有64个成员；再更优选标记物互补物的这种所有组成成分含有16至1024个成员，如用于鉴定长度为2至5个核苷酸的突出链中的核苷酸的成员；最优选标记物互补物的这种所有组成成分含有64至256个成员。通过例如借助于附录I和II中的计算机程序直接产生所需大小的多套密码，或亚单位可选择所需大小的所有组成成分，或形成所有组成成分以产生一套密码，此套密码然后可用于组合合成方案从而得到所需大小的所有组成成分。优选用于传递标记物的单链标记物互补物的长度为8至20，更优选长度为9至15。

三螺旋标记物

在通过形成三螺旋进行特异性杂交的实施方案中，标记物序列的编码所遵循的原理与形成双螺旋的标记物相同；然而，它对亚单位序列的选择有进一步的限制。一般而言，通过Hoogsteen型结合的第三条链结合沿着双链靶中的高嘧啶-高嘌呤轨道最稳定。通常，碱基三联体在T-A*T或C-G*C基元形成(其中“-”表示Watson-Crick配对，“*”表示Hoogsteen型结合)；然而，在其它基元中也可以形成。例如，Hoogsteen碱基配对根据条件和链的组成允许第三条链(Hoogsteen链)和与第三条链结合的富含嘌呤的双螺旋链之间呈平行和反平行方向。选择适当序列，方向，条件，核苷类型(如所用的是核糖或脱氧核糖核苷)，碱基修饰(如甲基化的胞嘧啶等等)以最大化或要不然调节特定实施方案中所需的三螺旋稳定性在参考文献中有广泛的指导，例见Roberts等，Proc.Natl.Acad.Sci.，88：9397-9401(1991)；Roberts等，科学，258：1463-1466(1992)；Roberts等，Proc.Natl.Acad.Sci.，93：4320-4325(1996)；Distefano等，Proc.Natl.Acad.Sci.，90：1179-1183(1993)；Mergny等，生物化学，30：9791-9798(1991)；Cheng等，J.Am.Chem.Soc.，114：4465-4474(1992)；Beal和Dervan，核酸研究，20：2773-2776(1992)；Beal和Dervan，J.Am.Chem.Soc.，114：4976-4982(1992)；Giovannangeli等，Proc.Natl.Acad.Sci.，89：8631-8635(1992)；Moser和Dervan，科学，238：645-650(1987)；McShan等，生物与化学杂志，267：5712-5721(1992)；Yoon等，Proc.Natl.Acad.Sci.，89：3840-3844(1992)；Blume等，核酸研究，20：1777-1784(1992)；Thuong和Helene，Angew.Chem.Int.Ed.Engl.32：666-690(1993)；Escude等，Proc.Natl.Acad.Sci.，93：4365-4369(1996)等。将单链或双螺旋标记物与其单链或双螺旋互补物退火的条件是众所周知的，例见Ji等，分析化学，65：1323-1328(1993)；Cantor等，美国专利5,482,836等。在分选时使用三螺旋标记物的有利之处在于不需要用聚合酶进行“删除”反应以暴露标记物使之与其互补物退火。

优选利用三螺旋杂交的本发明的寡核苷酸标记物是双链DNA，其相应的标记物互补物为单链。更优选在标记物互补物中使用5-甲基胞嘧啶代替胞嘧啶以拓宽标记物与其互补物之间所形成三螺旋的pH稳定性范围。上述参考文献中完全公开了形成三螺旋的优选条件。简单地说，杂交在浓盐溶液，如pH小于5.5(如果使用5-甲基胞嘧啶则为6.5)的1.0M NaCl，1.0M醋酸钾等中进行，杂交温度取决于标记物的长度和组成；然而，对于18-20聚体或更长的标记物而言，在室温下杂交即足够了。室温下，用较稀的盐溶液，如10mM醋酸钠，100mMMgCl₂，pH5.8进行洗涤。通过在pH9.0的类似盐溶液中保温可将标记物从其标记物互补物上洗脱下来。

通过附录II的计算机程序或类似程序可产生形成三螺旋的最少交叉杂交套寡核苷酸标记物。例举的一套双链8-聚体密码在下文中以大写字母列出，其相应的互补物以小写字母表示。此套中每个这种密码与每个其它密码之间的差异为3个碱基对。

表IV

例举的最少交叉杂交套双链8-聚体标记物5’-AAGGAGAG 5’-AAAGGGGA 5’-AGAGAAGA 5’-AGGGGGGG3’-TTCCTCTC 3’-TTTCCCCT 3’-TCTCTTCT 3’-TCCCCCCC3’-ttcctctc 3’-tttcccct 3’-tctcttct 3’-tccccccc5’-AAAAAAAA 5’-AAGAGAGA 5’-AGGAAAAG 5’-GAAAGGAG3’-TTTTTTTT 3’-TTCTCTCT 3’-TCCTTTTC 3’-CTTTCCTC3’-tttttttt 3’-ttctctct 3’-tccttttc 3’-ctttcctc5’-AAAAAGGG 5’-AGAAGAGG 5’-AGGAAGGA 5’-GAAGAAGG3’-TTTTTCCC 3’-TCTTCTCC 3’-TCCTTCCT 3’-CTTCTTCC3’-tttttccc 3’-tcttctcc 3’-tccttcct 3’-cttcttcc5’-AAAGGAAG 5’-AGAAGGAA 5’-AGGGGAAA 5’-GAAGAGAA3’-TTTCCTTC 3’-TCTTCCTT 3’-TCCCCTTT 3’-CTTCTCTT3’-tttccttc 3’-tcttcctt 3’-tccccttt 3’-cttctctt

表V与其标记物互补物形成三螺旋的多种双链标记物所有组成成分的大小寡核苷酸密最少交叉杂最少交叉杂具有4个密码具有5个密码码的长度交套寡核苷交套最大的的所有组成的所有组成

酸之间的核大小成分的大小成分的大小

苷酸差异4 2 8 4096 3.2×1046 3 8 4096 3.2×1048 3 16 6.5×104 1.05×10610 5 8 409615 5 9220 6 76820 7 48420 8 18920 9 30

衔接子的合成和结构

使用标准的化学法，如下列文献中公开的亚磷酰胺化学法便于在自动化的DNA合成仪上合成经编码的衔接子和裂解衔接子，所述文献如：Beaucage和Iyer，Tetrahedron，48：2223-2311(1992)；Molko等人，美国专利4,980,460；Koster等人，美国专利4,725,677；Caruthers等人，美国专利4,415,732；4,458,066；和4,973,679；等。也可使用其它化学法，如产生非天然骨架基如硫代磷酸酯，亚磷酰胺等的化学法，只要所得的寡核苷酸能与具体实施方案中所用的连接和/或裂解试剂相容即可。一般而言，合成了互补链之后，将链混合以形成双链衔接子。经编码的衔接子的突出链可被合成为混合物以使突出的部分能体现出每一种可能的序列。使用众所周知的技术易于合成这种混合物，例见Telenius等，Genomics，13：718-725(1992)；Welsh等，核酸研究，19：5275-5279(1991)；Grothues等，核酸研究，21：1321-1322(1993)；Hartley，欧洲专利申请90304496.4(EP公开号395398)等。这些技术一般只需要将激活单体的混合物应用于需要导入多个核苷酸的偶联步骤中不断延长的寡核苷酸即可。如上所述，在一些实施方案中，需要降低衔接子的复杂度，使用复杂度有所降低的类似物，如脱氧肌苷，2-氨基嘌呤等可做到这一点，例见KongThoo Lin等，核酸研究，20：5149-5152或美国专利5,002,867；Nichols等，自然，369：492-493(1994)等。

在一些实施方案中，可能需要将经编码的衔接子或裂解衔接子合成为含有自身互补区域的单个多核苷酸。合成后，自身互补区域可退火形成一端具有突出链而另一端具有单链环的衔接子。优选在此实施方案中环区域可含有约3至10个核苷酸，或其它类似的连接组成成分，如烷基醚基团，例见美国专利4,914,210。如下文参考文献所述，可使用很多技术将活性基团与碱基或核苷间连键结合以用于标记。

下文将详细描述的是：当本发明中使用常规的连接酶时，在一些实施方案中衔接子的5’末端可能会磷酸化。5’单磷酸或通过化学方法或经激酶酶促与第二个寡核苷酸结合，例见Sambrook等，分子克隆：实验室手册，第二版(冷泉港实验室，纽约，1989)。化合物的磷酸化描述于Horn和Urdea，Tetrahedron Lett.，27：4705(1986)，完成已知方案的试剂可以商购，如Clontech Laboratories(Palo Alto，加利福利亚)的5’磷酸-ONTM。

本发明经编码的衔接子可具有几个实施方案，这取决于例如所使用的是单链标记物还是双链标记物，是否使用了多个标记物，所使用的是5’突出链还是3’突出链，是否使用了3’封闭基团等。经编码的衔接子的几个实施方案的结构式如下所示，使用一个单链标记物的经编码的衔接子的优选结构如下：

5’-p(N)_n(N)_r(N)_s(N)_q(N)_t-3’

z(N’)_r(N’)_s(N’)_q-5’或

p(N)_r(N)_s(N)_q(N)_t-3’

3’-z(N)_n(N’)_r(N’)_s(N’)_q-5’其中N是核苷酸，N’是其互补物，p是磷酸基团，z是3’羟基或3’封闭基团，n是2至6，并包括2和6的整数，r是大于或等于0的整数，每当经编码的衔接子具有核酸酶识别位点时，s是4至6的整数，当没有核酸酶识别位点时，s是0，q是大于或等于0的整数，t是8至20，并包括8和20的整数。更优选n是4或5，t是9至15，并包括9和15。每当经编码的衔接子含有核酸酶识别位点时，选择“r”核苷酸对区域以使每当使用了识别该位点的核酸酶时，预定数目的核苷酸可从靶多核苷酸上裂解下来。具体实施方案中“r”的大小取决于核酸酶的作用范围(此术语的定义见美国专利5,599,675和WO95/27080)和欲从靶多核苷酸上裂解下来的核苷酸数目。优选r为0至20；更优选r为0至12。“q”核苷酸对区域是经编码的探针的核酸酶识别位点和标记物区域之间的间隔区段。“q”核苷酸区域可另外包括核酸酶识别位点，标记或产生信号的组成成分等等。“t”核苷酸的单链寡核苷酸是选自最少交叉杂交套的“t-聚体”寡核苷酸标记物。

3’封闭基团“z”可具有多种形式，并可包括几乎任何阻止连接但不干扰该方法的其它步骤，如除去3’封闭的链，连接等的化学实体。3’封闭基团的例子包括但不限于氢(即3’脱氧)，磷酸，硫代磷酸酯，乙酰基等。优选3’封闭基团是磷酸，因为在合成3’封闭链的过程中便于增加基团且便于用磷酸酶除去基团以使链变得能够用连接酶连接。使用Eckstein编，寡核苷酸和类似物：操作方法(IRL出版社，牛津，1991)第12章所述的方法合成具有3’磷酸的寡核苷酸。

由下列文献公开的针对一个碱基一个碱基的测序方案中可逆链终止核苷酸发展起来的化学法可得到其它的3’封闭基团：Cheeseman，美国专利5,302,509；Tsien等，国际申请WO91/06678；Canard等，基因，148：1-6(1994)；和Metzker等，核酸研究，22：4259-4267(1994)。简单地说，这些化学法允许化学或酶促除去特异性的封闭基团(通常具有附加的标记物)以在引发链的3’末端产生游离的羟基。

优选当z是3’封闭基团时，它为磷酸基团，衔接子的双链部分含有核酸酶的核酸酶识别位点，所述核酸酶的识别位点与其裂解位点是分开的。

当使用了与单链标记物互补物特异性杂交以形成三螺旋结构的双链寡核苷酸标记物时，优选本发明的经编码的标记物具有下列形式：

5’-p(N)_n(N)_r(N)_s(N)_q(N)_t-3’

z(N’)_r(N’)_s(N’)_q(N’)_t-5’

或

p(N)_r(N)_s(N)_q(N)_t-3’

3’-z(N)_n(N’)_r(N’)_s(N’)_q(N’)_t-5’其中N，N’，p，q，r，s，z和n如上文所定义，在此实施方案中优选t是12至24的整数。

显然，也有其它的结构含有上述基本设计套的元件，这一点对于本领域技术人员而言是显而易见的。例如，本发明经编码的衔接子包括如下所述的具有多个标记物的方案：

5’-p(N)_n(N)_r(N)_s(N)_q(N)_t1...(N)_tk-3’

z(N’)_r(N’)_s(N’)_q(N’)_t1...(N’)_tk-5’或

p(N)_r(N)_s(N)_q(N)_t1...(N)_tk-3’

3’-z(N)_n(N’)_r(N’)_s(N’)_q(N’)_t1...(N’)_tk-5’其中经编码的衔接子包括k个双链标记物，优选t₁＝t₂＝…t_k，k是1，2或3。

标记标记物互补物

可以多种方式标记本发明的标记物互补物以解码寡核苷酸标记物，包括直接或间接结合放射性组成成分，荧光组成成分，比色组成成分，化学发光组成成分等。很多有关标记DNA和构建DNA衔接子的方法学综述提供了可用于构建本发明衔接子的指导，所述综述包括：Matthews等，分析生物化学，Vol169，p1-25(1988)；Haugland，荧光探针和研究化合物手册(Molecular Probes，Inc.，Eugene，1992)；Keller和Manak，DNA探针，第二版(Stockton出版社，纽约，1993)；和Eckstein编，寡核苷酸和类似物：操作方法(IRL出版社，牛津，1991)；Wetmur，生物化学和分子生物学重要评论，26：227-259(1991)；等等。适用于本发明的很多更具体的方法学公开于下列参考文献：Fung等，美国专利4,757,141；Hobbs，Jr等，美国专利5,151,507；Cruicksshank，美国专利5,091,519；(用于结合报道基团的功能化寡核苷酸的合成)；Jablonski等，核酸研究，14：6115-6128(1986)(酶-寡核苷酸缀合物)；Ju等，天然药物，2：246-249(1996)；和Urdea等，美国专利5,124,246(分支的DNA)。对标记组成成分的结合位点要求并不苛刻，只要这种标记物不会干扰连接和/或裂解步骤即可。

优选将一个或多个荧光染料用作标记物互补物的标记物，例见Menchen等，美国专利5,188,934；Bergot等，PCT申请PCT/US90/05565(WO91/05060)。本文所用术语“产生荧光信号的组成成分”指的是一种标记的方式，这种标记方式通过一个或多个分子的荧光吸收和/或发射特性传递信息。这种荧光特性包括荧光强度，荧光寿命，发射谱特性，能量转移等等。

连接衔接子和防止自身连接

根据本发明优选的实施方案，将裂解衔接子与靶多核苷酸的末端连接以为经编码的衔接子的最终连接制备这种末端。优选使用连接酶以标准方法酶促进行连接。很多连接酶都是已知的并适用于本发明，例见Lehman，科学，186：790-797(1974)；Engler等，DNA连接酶，p3-30于Boyer编，酶，Vol.15B(Academic出版社，纽约，1982)等等。优选的连接酶包括T4 DNA连接酶，T7 DNA连接酶，大肠杆菌DNA连接酶，Taq连接酶，Pfu连接酶和Tth连接酶。它们的使用方法是众所周知的，例见Sambrook等(见上文)；Barany，PCR方法和应用，1：5-16(1991)；Marsh等，Strategies，5：73-76(1992)等等。连接酶通常需要存在5’磷酸基团以与相邻链的3’羟基连接。通过选择留下5’磷酸的核酸酶，如FokI便于提供靶多核苷酸的至少一条链。

论及多核苷酸末端或如图2中所示的能自身连接的衔接子，会产生特殊的问题，其中锚定的多核苷酸的4-核苷酸突出链与另一个(114)互补。当被分析的多核苷酸(112)作为与固相支持物(110)结合的相同多核苷酸的均一群体被提供给衔接子的实施方案中，此问题特别严重。在这些情况下，锚定多核苷酸的游离末端可扭曲回转以与另一末端形成完全匹配的双螺旋(116)。如果链的5’末端为磷酸化的，在连接酶的存在下易于连接多核苷酸。对于双链衔接子也存在类似的问题，即每当它们的5’链为磷酸化，其突出链的核苷酸序列互补时，一个衔接子的5’链可与另一个衔接子的游离3’羟基连接。当自身连接发生时，衔接子或靶多核苷酸的突出链都不能用于分析或处理。这反过来会导致对衔接子与靶多核苷酸正确连接作出反应产生的信号损失或消失。由于随机序列中出现回文4-聚体的可能性与核苷酸重复对的可能性(6.25％)相同，几个循环之后因自身连接使得用于从头测序的基于衔接子的方法估计具有高失败率。当此事件发生时，对多核苷酸的进一步分析是不可能的。

按图3A为优选实施方案所示的下列步骤完成本发明可着重解决上述问题：(a)将经编码的衔接子与多核苷酸(122)的末端连接(120)，其中多核苷酸的末端具有脱磷酸化的5’羟基，被连接的经编码的衔接子(124)的末端具有第一条链(126)和第二条链(128)，经编码的衔接子的第二条链具有3’封闭基团(130)；(b)连接后通过例如洗涤(132)除去第二条链的3’封闭基团，或通过酶促或化学除去原位基团，例如如果封闭基团为磷酸的话，可通过用磷酸酶处理除去原位基团；(c)使多核苷酸的5’羟基磷酸化(134)；(d)连接(136)具有未被封闭的3’组成成分的第二条链(142)以再生经编码的衔接子(138)；和(e)通过例如经由荧光标记(140)的标记物互补物鉴定与其连接的经编码的衔接子来鉴定(144)多核苷酸末端的一个或多个核苷酸。经编码的衔接子和靶多核苷酸可单独地或作为混合物混合在一起以供连接。例如，具有确定序列的单一种类的衔接子可与具有普通(可能是未知的)核苷酸序列的单一种类的多核苷酸混合；或者具有确定序列的单一种类的衔接子可与多核苷酸的混合物，如在相同反应管中与不同的固相支持物结合的相同多核苷酸的多个均一群体混合，例见Brenner等，国际申请PCT/US96/09513(WO96/41011)；或者经编码的衔接子的混合物，尤其是其突出链具有不同核苷酸序列的混合物可与单一种类的多核苷酸混合；或者经编码的衔接子的混合物可与多核苷酸的混合物混合。当术语“衔接子”或“经编码的衔接子”以单数形式被使用时，意味着包含具有不同的突出链序列的衔接子以及具有相同的突出链序列的单一种类衔接子的混合物，这一点与术语“探针”的用法类似。

除了通过解链除去3’脱氧外，通过Kuijper等，基因，112：147-155(1992)；Aslanidis等，核酸研究，18：6069-6074(1990)等文献所述的聚合酶“交换”反应也可从第二条链上除去3’脱氧。简单地说，可使用T4 DNA聚合酶和类似酶的5’→3’外切核酸酶活性使引发链中的核苷酸与溶液中它们的三磷酸配对物交换，例见Kuijper等(见上文)，因此，使用这种反应，3’双脱氧核苷酸可与得自反应混合物中的2’-脱氧-3’-羟基核苷酸交换，这使得第二条链经多核苷酸激酶处理后可与靶多核苷酸连接。

利用连接和裂解循环的优选实施方案包括下列步骤：(a)将经编码的衔接子与多核苷酸(222)的末端连接(220)，其中多核苷酸的末端具有脱磷酸化的5’羟基，被连接的双链衔接子(224)的末端具有第一条链(226)和第二条链(228)，双链衔接子的第二条链具有3’封闭基团(230)，双链衔接子具有核酸酶的核酸酶识别位点(250)，所述核酸酶的识别位点与其裂解位点是分开的；(b)连接后通过例如洗去第二条链(232)以除去3’封闭基团；(c)使多核苷酸的5’羟基磷酸化(234)；(d)连接(236)具有未被封闭的3’组成成分的第二条链(242)以再生双链衔接子(238)和核酸酶识别位点(250)；(e)通过鉴定与其连接的衔接子来鉴定(244)多核苷酸末端的一个或多个核苷酸；(f)用识别识别位点的核酸酶裂解(252)多核苷酸以使多核苷酸缩短一个或多个核苷酸，将识别位点定位于所示衔接子(224)中以使裂解(254)能从多核苷酸(222)中除去2个核苷酸；(g)使多核苷酸的5’末端脱磷酸化(256)；和(h)重复(258)步骤(a)至(g)。

一般在连接前通过用一种或多种产生预定的，具有3’或5’突出链，即“粘性”末端之裂解产物的限制性内切核酸酶消化它们以制备待分析的多核苷酸的末端。这种消化通常使5’链磷酸化，优选使用如Sambrook等，分子克隆，第二版(冷泉港实验室，纽约，1989)所述的标准方法，用磷酸酶，如牛小肠碱性磷酸酶或类似的酶处理使这些5’磷酸化的末端脱磷酸化。通过除去5’磷酸，使得靶多核苷酸的5’磷酸在连接酶的存在下不能被连接，优选脱磷酸化的步骤留下游离的5’羟基。

优选的核酸酶

本发明所用术语“核酸酶”指的是当应用于下文将要更详细讨论的被连接的复合物时，可裂解被连接的复合物以产生增长的衔接子和缩短的靶多核苷酸的任何酶，酶的组合，或其它化学试剂，或化学试剂与酶的组合。本发明的核酸酶不必是单个的蛋白质，或仅由蛋白质联合组成。核酸酶，或用作核酸酶的试剂组合的主要特征在于其裂解位点与其识别位点是分开的。本文中将核酸酶的识别位点与其裂解位点之间的距离称之为其“作用范围”。按常规，给出识别位点和每条链被水解的磷酸二酯键之间核苷酸数目的两个整数即可定义“作用范围”。例如，FokI的识别和裂解特性一般被表示为“GGATG(9/13)”，因为它按下述识别和切割双链DNA(SEQ ID N0：2)：

5’-…NNGGATGNNNNNNNNN NNNNNNNNNN…

3’-…NNCCTACNNNNNNNNNNNNN NNNNNN…其中黑体的核苷酸是FokI的识别位点，N是任意的核苷酸及其互补物。

重要的是当核酸酶与其识别位点形成复合物之后，仅能裂解靶多核苷酸；优选核酸酶裂解之后留下靶多核苷酸上的突出链。

优选本发明中所用的核酸酶是天然的蛋白质内切核酸酶(i)其识别位点与其裂解位点是分开的和(ii)其裂解产生靶多核苷酸上的突出链。最优选本发明中将II类限制性内切核酸酶用作核酸酶，例见Szybalski等，基因，100：13-26(1991)；Roberts等，核酸研究，21：3125-3137(1993)；和Livak和Brenner，美国专利5,093,245。用于本发明的II类核酸酶的例子包括：AlwXI，BsmAI，BbvI，BsmFI，StsI，HgaI，BscAI，BbvII，BcefI，Bce85I，BccI，BcgI，BsaI，BsgI，BspMI，Bst71I，EarI，Eco57I，Esp3I，FauI，FokI，GsuI，HphI，MboII，MmeI，RleAI，SapI，SfaNI，TaqII，Tth111II，Bco5I，BpuAI，FinI，BsrDI及其同裂酶。优选的核酸酶包括BbvI，FokI，HgaI，EarI和SfaNI。BbvI是最优选的核酸酶。

优选在核酸酶裂解步骤之前，通常在测序操作开始时，处理靶多核苷酸以封闭所用核酸酶的识别位点和/或裂解位点。这可以防止因靶多核苷酸内部位置偶然出现的核酸酶识别位点而导致的不必要的靶多核苷酸裂解。可以多种方式达到封闭的目的，所述方式包括甲基化和用序列特异性aptamer，DNA结合蛋白或形成三螺旋的寡核苷酸处理。每当使用天然的蛋白质内切核酸酶时，通过使用所用核酸酶的相关甲基化酶使靶多核苷酸甲基化即可方便地封闭识别位点。即对于所有或大多数II型细菌限制性内切核酸酶而言，存在所谓的可使其识别位点甲基化的“相关”甲基化酶。很多这种甲基化酶公开于Roberts等(见上文)和Nelson等，核酸研究，21：3139-3154(1993)，可从多种来源，尤其是New England Biolabs(Beverly，MA)购买得到它们。或者，如果制备用于测序的靶多核苷酸时使用了PCR步骤，在扩增过程中可使用5-甲基胞嘧啶三磷酸以使扩增子中的天然胞嘧啶被甲基化的胞嘧啶所取代。后一种方法又增加了一个优点，即不必用另一种酶处理与固相支持物结合的靶多核苷酸。

显然，本领域的技术人员可将上述实施方案的特征结合起来以设计上文未描述的本发明其它的实施方案。

提供了多种试剂盒以进行本发明不同的实施方案。通常本发明的试剂盒包括经编码的衔接子，裂解衔接子，和经标记的标记物互补物。试剂盒还包括核酸酶试剂，连接试剂和实施本发明具体方案的说明书。在利用天然蛋白质内切核酸酶和连接酶的实施方案中，试剂盒中应包括连接酶缓冲液和核酸酶缓冲液。在一些情况下，这些缓冲液可以是相同的。这种试剂盒也可以包括甲基化酶及其反应缓冲液。优选试剂盒也包括一种或多种固相支持物，如携有用于分选的标记物互补物和锚定靶多核苷酸的微粒。

将标记物与多核苷酸结合以分选至固相支持物上

本发明重要的一方面是将例如得自cDNA文库的多核苷酸群体分选和结合至微粒或固相支持物上的分离区域，以使每个微粒或区域基本上仅结合有一种类型的多核苷酸。通过确保基本上所有不同的多核苷酸都结合有不同的标记物即可达到此目的。通过从用于分析的标记物-多核苷酸缀合物之整个群体中取样反过来可达到此条件(可以接受相同的多核苷酸具有不同的标记物，因为这仅可导致相同的多核苷酸在两个不同的位置***作或分析两次)。或者在标记物已与多核苷酸结合之后，通过例如从较大量的混合物中取出少量公开进行这种取样，或者作为用于处理多核苷酸和标记物之技术的次要作用内在地进行这种取样，或者既公开地也作为处理步骤的内在部分进行这种取样。

在构建其中基本上所有不同的cDNA具有不同的标记物的cDNA文库时，优选所利用的标记物所有组成成分的复杂度，或不同标记物的数目大大超过由细胞或组织样品中提取的mRNA的总数。优选标记物所有组成成分的复杂度至少10倍于多核苷酸群体；更优选标记物所有组成成分的复杂度至少100倍于多核苷酸群体。下文公开了使用含有例举的9-密码标记物之所有组成成分的引物混合物构建cDNA文库的方法。这种含有标记物的引物混合物的复杂度为89，或约为1.34×108。如Winslow等，核酸研究，19：3251-3253(1991)所示，可从少至10-100个哺乳动物细胞中提取用于文库构建的mRNA。由于单个哺乳动物细胞含有约3.4×104种不同种类的约5×105拷贝mRNA分子，通过标准技术可从约100个细胞，或(理论上)约5×107mRNA分子中分离出mRNA。此数目与引物混合物之复杂度的比较说明：不经任何多余的步骤，甚至假定mRNA以极佳的效率(1％或更低更为准确)转变为cDNA，cDNA文库构建方法产生含有不超过不同标记物总数37％的群体。即无需经任何公开的取样步骤，此方法可固有地产生含有37％或更少的标记物所有组成成分的样品。在这些条件下双倍的可能性约为5％，这也在优选的范围内。至于得自10个细胞的mRNA，甚至假定所有的处理步骤以100％的效率进行，被取样的标记物所有组成成分的组分仍减少至仅为3.7％。实际上，构建cDNA文库之处理步骤的效率非常低，“估计”为好的文库应含有提取自106个哺乳动物细胞之mRNA的约108个cDNA克隆。

在上述方法中，或对较大量的多核苷酸一般性地使用较大量的mRNA，其中这种mRNA分子的数目超过了标记物所有组成成分的复杂度时，标记物-多核苷酸缀合物混合物潜在地含有标记物和多种mRNA或多核苷酸的每一种可能的配对。在这种情况下，通过在连续稀释标记物-多核苷酸缀合物的起始混合物之后取出样品体积即可完成公开取样。所需稀释的量取决于起始物质的量和易于估计的处理步骤的效率。

如果mRNA提取自106个细胞(相当于约0.5μg poly(A)+RNA)，且引物存在的量约10-100倍浓度过量，这是一般方法中必需的，例见Sambrook等，分子克隆，第二版，p8.61(10μL 1mg/mL的1.8kb mRNA约等于1.68×10-11mol，10μL 1mg/mL的18聚体引物约等于1.68×10-9mol)，那么cDNA文库中标记物-多核苷酸缀合物总数仅等于或小于mRNA的起始数目，或含有标记物-多核苷酸缀合物的约5×1011个载体(这次又假定cDNA构建中的每一步(第一条链的合成，第二条链的合成，和连接至载体中)都以极佳的效率进行)，这只是很保守的估计，实际的数目显著较低。

如果通过取出样品体积从反应混合物中随机地取出n个标记物-多核苷酸缀合物样品，取出具有相同标记物的缀合物的可能性由Poisson分布描述，即P(r)＝e-λ(λ)r/r，其中r是具有相同标记物的缀合物的数目，λ＝np，其中p是给定标记物被选择的可能性。如果n＝106，p＝1/(1.34×108)，那么λ＝.00746，P(2)＝2.76×10-5，因此，一百万个分子的样品给出恰好在优选范围内的预期的双倍数目。按下述方式易于得到这种样品：假定5×1011个mRNA完全转变成含有标记物-cDNA缀合物为***物的5×1011个载体，而5×1011个载体处于体积为100μl的反应溶液中，通过将10μl原始溶液转移至含有90μl适当缓冲液，如TE的管中进行4次10倍连续稀释。再重复3次这种稀释过程可得到100μl每μl含有5×105个载体分子的溶液。得自此溶液的2μl等分试样可产生106个含有标记物-cDNA缀合物作为***物的载体，然后通过直接转化感受态的宿主细胞接着进行培养来扩增此样品。

当然，如上所述，上述方法中没有一个步骤可以以极佳的效率进行。具体地说，当利用载体扩增标记物-多核苷酸缀合物样品时，转化宿主的步骤效率很低。通常，不超过1％的载体被宿主摄取并复制，因此，对于这种扩增方法而言，甚至只需要很少的稀释即可得到106个缀合物的样品。

寡核苷酸标记物的所有组成成分可以多种方式与多核苷酸群体缀合，所述方式包括直接酶促连接，例如经由PCR使用含有标记物序列的引物进行扩增等等。最初的连接步骤产生很大的标记物-多核苷酸缀合物群体，以使单个标记物通常与很多不同的多核苷酸结合。然而，如上所述，通过取出足够少的缀合物样品，得到“双倍”，即相同的标记物位于两个不同的多核苷酸上的可能性是可以忽略不计的。一般情况下，样品的量越大，得到双倍的可能性也越大，因此，需在选择大量标记物-多核苷酸缀合物样品(这可以确保在鸟枪法测序操作中靶多核苷酸足够的覆盖率，或快速变化的mRNA库的充分体现)和选择确保出现最少数目的双倍的少量样品这两者之间权衡利弊。在大多数实施方案中，双倍的出现仅增加了其它来源的干扰，或者在测序时，仅给扫描和信号处理带来很少的麻烦，因为给出多个荧光信号的微粒可简单地被忽略不计。

本文所用的关于使标记物与分子，尤其是多核苷酸结合的术语“基本上所有”意味着反映用于得到基本上不含双倍的标记物-分子缀合物群体的取样方法的统计学特征。在标记物-分子缀合物的实际百分率方面，基本上所有的含义取决于标记物如何被使用。对于核酸测序而言，优选基本上所有意味着至少80％多核苷酸结合有独一无二的标记物，更优选意味着至少90％多核苷酸结合有独一无二的标记物，再更优选意味着至少95％多核苷酸结合有独一无二的标记物，最优选意味着至少99％多核苷酸结合有独一无二的标记物。

当多核苷酸群体由信使RNA(mRNA)组成时，优选寡核苷酸标记物通过逆转录mRNA与一套优选含有标记物序列互补物的引物结合。列举的这种引物套可具有下列序列：

5′-mRNA-[A]_n-3′

[T]₁₉GG[W，W，W，C]9AC CAGCTGATC-5′-生物素其中“[W，W，W，C]₉”表示9个各为4个核苷酸的亚单位的寡核苷酸标记物序列，“[W，W，W，C]”表示上文所列的亚单位序列，即“W”表示T或A。如果被使用的话，下划线的序列表示可用于释放经由生物素与固相支持物结合的多核苷酸的可选的限制性内切核酸酶位点。对于上述引物而言，与微粒结合的互补物可具有下列形式：

5’-[G，W，W，W]₉TGG-接头-微粒

逆转录之后，通过例如RNA酶H消化除去mRNA，使用例如下列形式的引物(SEQ ID N0：3)合成cDNA的第二条链：

5’-NRRGATCYNNN-3’其中N是A，T，G或C中的任一种；R是含有嘌呤的核苷酸，Y是含有嘧啶的核苷酸。这一特殊的引物在所得双链DNA中产生了BstY1限制性位点，该位点与SalI位点一起便于克隆至具有例如BamHI和XhoI位点的载体中。经BstY1和SalI消化之后，列举的缀合物可具有下列形式：

5’-RCGACCA[C，W，W，W]₉GG[T]₁₉-cDNA-NNNR

GGT[G，W，W，W]₉CC[T]₁₉-rDNA-NNNYCTAG-5’然后可使用标准的分子生物学技术处理多核苷酸-标记物缀合物，例如，可将上述缀合物(实际上是混合物)***可商购的克隆载体，如Stratagene Cloning System(La Jolla，CA)中；转染至宿主，如可商购的宿主细菌中；然后培养所述细菌以增加缀合物的数目。然后使用标准技术，如Sambrook等，分子克隆，第二版(冷泉港实验室，纽约，1989)分离克隆载体。或者，可使用适当的衔接子和引物以通过PCR增加缀合物群体。

当使用了基于连接酶的测序方法时，优选将经BstY1和SalI消化的片段克隆至具有下列单拷贝限制性位点的经BamHI-/XhoI-消化的载体中：

5’-GA GGATGCCTTTAT GGATCCA CTCGAGATCCCAATCCA-3’

FokI BamHI XhoI这增加了FokI位点，下文中将更详细讨论的测序方法就从这里开始。

通过标准的克隆方法可使标记物与现存文库的cDNA缀合。从其现存载体上切下cDNA，分离之，然后与含有标记物所有组成成分的载体连接。优选通过用两种限制性酶裂解使含有标记物的载体线性化以使被切下的cDNA能在预定方向上被连接。线性化的含有标记物的载体的浓度基本上超过cDNA***物的浓度以使连接可提供标记物的固有取样。

扩增后暴露单链标记物的一般方法包括用T4 DNA聚合酶或类似酶的5’→3’外切核酸酶活性消化含有靶多核苷酸的缀合物，当在存在单个脱氧核苷三磷酸的情况下使用时，这种聚合酶会从双链片段的非模板链上存在的3’凹端裂解核苷酸直至单个脱氧核苷三磷酸的互补物到达模板链为止。当这种核苷酸到达时，有效地终止了5’→3’消化，因为相对于切割活性除去核苷酸而言，聚合酶的延伸活性以较高的速度增加核苷酸。因此，易于制备用3种核苷酸构建的单链标记物以荷载于固相支持物。

也可使用该技术优先使靶多核苷酸内部的FokI位点甲基化，而使多核苷酸末端的单个FokI位点非甲基化。首先，使用具有脱氧胞苷三磷酸的聚合酶使末端的FokI位点变成单链，然后，使片段的双链部分甲基化，再在所有四种核苷三磷酸的存在下用DNA聚合酶补平单链末端，从而再生FokI位点。显然，此方法可推广至除FokI以外的内切核酸酶。

通过例如按上述方法使其变成单链以制备特异性杂交所用的寡核苷酸标记物之后，在利于标记物及其互补物之间形成完全匹配的双螺旋的条件下，使多核苷酸与含有标记物互补序列的微粒混合。有关这些条件的产生可参见大量文献，例见Wetmur，生物化学和分子生物学重要评论，26：227-259(1991)；Sambrook等，分子克隆：实验室手册，第2版(冷泉港实验室，纽约，1989)等。优选杂交条件足够严紧以使只有完全匹配的序列才能形成稳定的双螺旋。在这种条件下，通过其标记物特异性杂交的多核苷酸可以与结合于微粒上的互补序列连接。最后，洗涤微粒以除去具有未连接和/或错配标记物的多核苷酸。

当使用常规用作合成支持物的CPG微粒时，微粒表面的标记物互补物密度一般大于一些测序操作必需的密度。即在需要用多种酶相继处理结合的多核苷酸的测序方法中，稠密分布的多核苷酸趋于抑制相对较大的酶进入多核苷酸。此时，优选使多核苷酸与微粒混合以使标记物互补物以显著过量，如10∶1-100∶1或更多存在。这可确保微粒表面上的多核苷酸密度不至于高到抑制酶的进入。优选微粒表面多核苷酸之间的平均间隔为30-100nm左右。有关选择标准CPG支持物和Ballotini珠(一种固体玻璃支持物)的比率的指导例见Maskos和Southern，核酸研究，20：1679-1684(1992)。针对测序应用而言，优选直径为20-50μm的标准CPG珠上荷载有约105个多核苷酸，得自Bangs Laboratories(Carmel，IN)，直径为5-10μm的glycidalmethacrylate(GMA)珠上荷载有几万个，如4×104-6×104个多核苷酸。

在优选的实施方案中，在微粒上组合合成用于分选的标记物互补物；因此，在合成结束时，可得到复合的微粒混合物，从中可取样以荷载于经标记的多核苷酸上。微粒样品的大小取决于几个因素，包括标记物互补物所有组成成分的大小，用于观察荷载微粒之装置的特性。如其容量，具有相同标记物互补物的多拷贝微粒(即“珠加倍”)的耐受性等。下表提供了有关微粒样品大小，微粒直径，和被填满的不同直径的一系列微粒的大致物理尺寸。微粒直径 5μm 10μm 20μm 40μm1/10⁵平方埃上荷载的 3×10⁵ 1.26×10⁶ 5×10⁶多核苷酸的最大数目10⁶个微粒单层的大致 .45×.45cm 1×1cm 2×2cm 4×4cm面积

如下表所示，Poisson分布描述了微粒样品含有给定标记物互补物或以多拷贝存在的可能性。

表VI

样品中微粒(作为所有组成成分大小的组分)的数目m	样品中存在的标记物互补物所有组成成分的组分，1-e^-m	样品中结合有唯一的标记物互补物的微粒组分m(e^-m)/2	样品中携有与样品中另一个微粒相同的标记物互补物的微粒组分(“珠加倍”)m³(e^-m)/2
样品中微粒(作为所有组成成分大小的组分)的数目m	样品中存在的标记物互补物所有组成成分的组分，1-e^-m	样品中结合有唯一的标记物互补物的微粒组分m(e^-m)/2	样品中携有与样品中另一个微粒相同的标记物互补物的微粒组分(“珠加倍”)m³(e^-m)/2	1.000.693.405.285.223.105.010	0.630.500.330.250.200.100.01	0.370.350.270.210.180.090.01	0.180.120.050.030.020.005

高特异性分选和淘选

分选的动力学取决于寡核苷酸标记物与其标记物互补物杂交的速率，所述速率反过来取决于杂交反应中标记物的复杂度。因此，需在分选速率和标记物复杂度之间权衡利弊以在降低杂交反应所涉及的标记物复杂度的同时提高分选速率。如下文所解释，通过“淘选”可改良这种权衡的效果。

通过取足够少的样品以使样品中高百分比的标记物是独一无二的，而样品中基本上所有标记物的最近的邻居至少有两个密码(word)不同即可增加杂交的特异性。通过取出含有大量标记物-多核苷酸缀合物的样品可达到后一种条件，所述缀合物的大小约为所用所有组成成分大小的0.1％或更低。例如，如果用选自表II的8个密码构建标记物，会产生所有组成成分为88，或约1.67×107的标记物和标记物互补物。在上述标记物-cDNA缀合物文库中，0.1％的样品指的是存在约16,700个不同的标记物。如果将它直接荷载于微粒的所有组成成分-等价物上，或在此例中为荷载于1.67×107个微粒样品上，那么仅有很少的被取样的微粒亚套会荷载。通过进行“淘选”步骤可增加荷载微粒的密度以更有效地测序，所述淘选步骤中使用被取样的标记物-cDNA缀合物以从未荷载的微粒中分离荷载的微粒。因此，在上述例子中，尽管“0.1％”的样品仅含有16,700个cDNA，但可重复取样和淘选步骤直至积累所需数目的荷载微粒。或者，使用常规方法，通过荧光激活细胞分选(FACS)仪从未荷载的微粒中分离荷载的微粒，例如，在下述技术中，通过提供经荧光标记的右引物可荧光标记标记物-cDNA缀合物。荷载和FACS分选之后，在连接经编码的衔接子之前可通过例如识别甲基化位点的DpnI或类似酶来裂解标记物。

通过提供标记物-cDNA缀合物样品即可实施淘选步骤，所述缀合物在寡核苷酸标记物对面或远侧的末端各含有捕获组成成分。优选捕获组成成分是可从标记物-cDNA缀合物上释放下来的类型以使利用单个碱基的测序法即可测定标记物-cDNA缀合物的序列。这种组成成分可含有生物素，地高辛配基或类似配体，三螺旋结合区等等。优选这种捕获组成成分含有生物素组分。可通过多种标准技术使生物素与标记物-cDNA缀合物结合。如果含有PCR引物结合位点的适当衔接子与标记物-cDNA缀合物结合，取样后通过在扩增中使用生物素化的引物即可结合生物素。或者，如果标记物-cDNA缀合物是克隆载体中的***物，通过用适当的限制性酶消化切下标记物-cDNA缀合物，接着分离，并在生物素化的尿苷三磷酸存在下用DNA聚合酶补平远离标记物的突出链也可结合生物素。

捕获了标记物-cDNA缀合物之后，可使用很多方法使生物素组成成分释放下来，所述方法如通过还原裂解(Herman等，分析生物化学，156：48-55(1986))，或光化学裂解(Olejnik等，核酸研究，24：361-366(1996))，或通过在PCR引物中导入限制性位点酶促裂解的化学连键。考虑到上述标记物-多核苷酸缀合物文库可实现后一实施方案：

5’-RCGACCA[C，W，W，W]₉GG[T]₁₉-cDNA-NNNR

GGT[G，W，W，W]₉CC[A]₁₉-rDNA-NNNYCTAG-5’

可将下列衔接子连接至这些片段的末端以允许通过PCR扩增。

5’-XXXXXXXXXXXXXXXXXXXX

XXXXXXXXXXXXXXXXXXXXYGAT

右衔接子

GATCZZACTAGTZZZZZZZZZZZZ-3’

ZZTGATCAZZZZZZZZZZZZ

左衔接子

ZZTGATCAZZZZZZZZZZZZ-5’-生物素

左引物

其中“ACTAGT”是SpeI识别位点(产生交错切口以供单个碱基测序)，X和Z是经选择使各个引物的退火和解离温度大致相同的核苷酸。连接衔接子和使用生物素化的引物经PCR扩增之后，通过T4 DNA聚合酶的外切核酸酶活性使缀合物的标记物变成单链，并将缀合物与结合有标记物互补物的微粒样品，如所有组成成分等价物混合。在严紧条件下退火(以使标记物的错误结合最少)之后，优选使缀合物与其标记物互补物连接，并通过用亲和素化的磁性珠或类似捕获技术捕获将荷载的微粒与未荷载的微粒区分开。

再回到例子中，此方法产生积累了约10,500(＝16,700×.63)个具有不同标记物的荷载微粒，通过用SpeI裂解可使所述微粒从磁性珠上释放下来。通过用新的微粒样品和标记物-cDNA缀合物重复此方法达40-50次，经收集被释放的微粒可积累4-5×105个cDNA。然后可通过单个碱基测序技术同时测定收集到的微粒的序列。

确定重复多少次取样和淘选步骤，或更一般地为确定要分析多少cDNA取决于个人目的。如果目的是监测相对常见的序列，如构成群体5％或更多的序列的丰度变化，那么相对少的样品，即总群体大小的小组分即可在统计学上充分估计相对丰度。另一方面，如果想监测稀少序列，如构成群体0.1％或更少的序列的丰度，则需要大量样品。一般而言，样品大小和基于样品的相对丰度估计值的可靠性之间存在直接关系。有关确定适当的样品大小以作出可靠的统计学估计的文献中有这方面的深入指导，例见Koller等，核酸研究，23：185-191(1994)；Good，Biometrika，40：16-264(1953)；Bunge等，J.Am.Stat.Assoc，88，364-373(1993)等。为了根据对一系列含有3.0-3.5×104个不同序列的105-108个独立克隆的cDNA文库的分析监测基因表达中的变化，优选积累至少104个序列的样品以分析各个文库。更优选积累至少105个序列的样品以分析各个文库；最优选积累至少5×105个序列的样品以分析各个文库。或者，优选被取样的序列数目足以估计出以0.1％-5％，95％置信限不大于群体大小0.1％的频率存在的序列的相对丰度。

标记物文库的构建

按下述构建一例标记物文库以形成化学合成的由下式定义的核苷酸A，G和T的9-密码标记物：

3’-TGGC-[4((A，G，T)₉]-CCCCp

其中[4((A，G，T)₉]表示各个标记物由9个A，G和T的4-聚体密码组成的标记物混合物；“p”表示5’磷酸。将此混合物与下列右和左引物结合区(SEQ ID N0：4和5)连接：

5’-AGTGGCTGGGCATCGGACCG 5’-GGGGCCCAGTCAGCGTCGAT

TCACCGACCCGTAGCCp GGGTCAGTCGCAGCTA

左右

将右和左引物结合区与上述标记物混合物连接，然后用DNA聚合酶补平连接结构的单链部分，再与下文所示的右和左引物混合，并扩增得到标记物文库。

左引物5’-AGTGGCTGGGCATCGGACCG5’-AGTGGCTGGGCATCGGACCG-[4((A，G，T)₉]-GGGGCCCAGTCAGCGTCGATTCACCGACCCGTA GCCTGGC-[4((A，G，T)₉]-C CCCGGGTCAGT CGCAGCTA

CCCCGGGTCAGTCGCAGCTA-5’

右引物左引物结合区的下划线部分表示RsrII识别位点，右引物结合区靠左边的下划线部分表示Bsp 120I，ApaI和EcoO 109I的识别位点和HgaI的裂解位点，右引物结合区靠右边的下划线部分表示HgaI的识别位点。任选合成的右或左引物结合有生物素(使用常规试剂，如得自Clontech Laboratories，Palo Alto，CA)以便于扩增和/或裂解之后的纯化。使用经编码的衔接子构建标记物-多核苷酸缀合物的质粒文库以用于

cDNA“特征”测序

通过常规方法，使用pGGCCCT₁₅(A或G或C)作为锚定于mRNA之polyA区边界的第一条链合成的引物，使用N₈(A或T)GATC作为第二条链合成的引物，由mRNA样品产生cDNA。即两者都是简并引物以使第二条链的引物以两种形式存在，而第一条链的引物以三种形式存在。第二条链的引物中的GATC序列对应于MboI的识别位点；也可以使用其它4碱基识别位点，如BamHI，SphI，EcoRI等的识别位点。与第二条链的引物的识别位点相邻的A和T的存在确保在下一步中可使用删除和交换反应以产生“GGCCC”5碱基5’突出端。使第一条链的引物与mRNA样品退火，并用逆转录酶使之延伸，然后通过逆转录酶的RNA酶H活性降解RNA链以留下单链cDNA。使用常规方法使第二条链的引物退火并用DNA聚合酶使之延伸。第二条链合成之后，使用厂商的方案用CpG甲基化酶(New England Biolabs，Beverly，MA)使所得cDNA甲基化。然后在dATP和dTTP的存在下，使用T4 DNA聚合酶经上述删除和交换反应截短cDNA的3’链，然后将cDNA与预先经HgaI裂解的上述标记物文库连接，得到下列构建体：5’-生物素

↑ ↑

Rsr II位点 Mbo I位点

从例如可商购的质粒，如Bluescript phagemid(Stratagene，La Jolla，CA)出发分开构建下列克隆载体(SEQ ID NO：6)。

引物结合位点 Ppu MI位点

↓ ↓

(质粒)-5′-AAAAGGAGGAGGCCTTGATAGAGAGGACCT GTTTAAAC-

-TTTTCCTCCTCCGGAACTATCTCTCCTGGA CAAATTTG-

引物结合位点

↓

-GTTTAAAC-GGATCC-TCTTCCTCTTCCTCTTCC-3′-(质粒)

-CAAATTTG-CCTAGG-AGAAGGAGAAGGAGAAGG-

↑ ↑

Bam HI位点

Pme I位点

用Ppu MI和Pme I裂解质粒(得到RsrII-可相容的末端和平端以使***物可定向)，然后用DAM甲基化酶使之甲基化。用RsrII裂解含有标记物的构建体，然后连接到开口质粒上，再用MboI和BamHI裂解缀合物以连接和闭合质粒。扩增质粒，分离之以用于本发明。

实施例1测定由pGEM7Z扩增的靶多核苷酸的序列：通过连接和裂解循环鉴定

核苷酸

在此实施例中，扩增了质粒pGEM7Z(Promega，Madison，WI)的区段，并通过双链DNA接头将之结合到玻璃珠上，所述双链DNA的一条链直接在珠上合成(因此它与珠共价连接)。制备用于与经编码的衔接子连接的靶多核苷酸末端之后，在每个连接和裂解循环中，将经编码的衔接子的混合物(总共1024个不同的衔接子)用于靶多核苷酸以使只有那些其突出链能与靶多核苷酸形成完全匹配的双螺旋的衔接子被连接。然后在只允许正确的标记物互补物杂交的条件下，将各16个经荧光标记的标记物互补物用于多核苷酸-衔接子缀合物。洗涤后荧光信号的存在与否表示特定位置处特定核苷酸的存在与否。此实施例的测序方法可用于如Brenner，国际专利申请PCT/US95/12791和PCT/US96/09513(WO96/12041和WO96/41011)所述在一个或多个固相支持物上分选的多个靶多核苷酸。

使用标准的自动化DNA合成仪方法直接在Ballotini珠(.040-.075mm，Jencons Scientific，Bridgeville，PA)上合成47-聚体的寡核苷酸。分开合成47-聚体的互补链并通过HPLC纯化。杂交时，所得双螺旋在远离珠的末端具有BstXI限制性位点。在下列混合物中使互补链与结合的47-聚体杂交：25μL浓度为200pmol/μL的互补链；20mg具有47-聚体的Ballotini珠；6μL New England Biolabs#3限制性缓冲液(源自10倍贮存液)；和25μL蒸馏水。将混合物加热至93℃，然后缓慢冷却至55℃，在其中加入40单位的BstXI(10单位/μl)以使反应体积达到60μL。将混合物在55℃保温2小时，再用TE(pH8.0)将珠洗涤3次。

按下述制备与珠结合的pGEM7Z区段：使用标准方法制备两个PCR引物(SEQ ID NO：7和SEQ ID NO：8)：

引物1：5’-CTAAACCATTGGTATGGGCCAGTGAATTGTAATA

引物2：5’-CGCGCAGCCCGCATCGTTTATGCTACAGACTGTC-

AGTGCAGCTCTCCGATCCAAA

PCR反应混合物由下列物质组成：1μl浓度为1ng/μl的pGEM7Z；10μl浓度为10pmol/μl的引物1；10μl浓度为10pmol/μl的引物2；10μl浓度为2.5mM的脱氧核糖核苷酸三磷酸；10μl 10×PCR缓冲液(Perkin-Elmer)；0.5μl浓度为5单位/μl的Taq DNA聚合酶；和58μl蒸馏水，总体积为100μl。将反应混合物于93℃30秒；60℃15秒；72℃60秒进行25次循环得到172个碱基对的产物，接着用BbvI(100μl PCR反应混合物，12μl 10×#1 New England Biolabs缓冲液，8μl浓度为1单位/μl的BbvI，37℃保温6小时)，和BstXI(在BbvI反应混合物中加入：5μl 1M NaCl，67μl蒸馏水，和8μl浓度为10单位/μl的BstXI，于55℃将所得混合物保温2小时)消化所述产物。

根据厂商方法使上述反应混合物穿过Centricon 30(Amicon公司)自旋柱之后，在下列混合物中使BbvI/BstXI-限制性片断与结合于Ballotini珠上的双链接头连接：17μl BbvI/BstXI-限制性片断(10μg)，10μl珠(20mg)，6ml 10×连接缓冲液(New EnglandBiolabs，下文称之为NEB)，5μl浓度为2000单位/μl的T4 DNA连接酶，和22μl蒸馏水，于25℃将所述混合物保温4小时，然后用TE(pH8.0)将珠洗涤3次，留下供测序用的具有5’磷酸的下列靶多核苷酸(SEQ ID NO：9)：

...AGCTACCCGATC

[珠]——...TCGATGGGCTAGATTTp-5’使用厂商的方法，通过用可得自New Engl and Biolabs(Beverly，MA)的例如得自牛小肠的碱性磷酸酶处理珠混合物可除去5’磷酸。

使用标准方法，在自动化的DNA合成仪(392型AppliedBiosystems，Foster City)上分开合成下列16套64个经编码的衔接子(SEQ ID NO：10-SEQ ID NO：25)的上(top)链。分开合成对所有衔接子而言为相同的下(bottom)链，然后与各个上链杂交： SEQ ID 经编码的衔接子NO.10 5’-pANNNTACAGCTGCATCCCttggcgctgagg

pATGCACGCGTAGGG-5’11 5’-pNANNTACAGCTGCATCCCtgggcctgtaag

pATGCACGCGTAGGG-5’12 5’-pCNNNTACAGCTGCATCCCttgacgggtctc

pATGCACGCGTAGGG-5’13 5’-pNCNNTACAGCTGCATCCCtgcccgcacagt

pATGCACGCGTAGGG-5’14 5’-pGNNNTACAGCTGCATCCCttcgcctcggac

pATGCACGCGTAGGG-5’15 5’-pNGNNTACAGCTGCATCCCtgatccgctagc

pATGCACGCGTAGGG-5’16 5’-pTNNNTACAGCTGCATCCCttccgaacccgc

pATGCACGCGTAGGG-5’17 5’-pNTNNTACAGCTGCATCCCtgagggggatag

pATGCACGCGTAGGG-5’18 5’-pNNANTACAGCTGCATCCCttcccgctacac

pATGCACGCGTAGGG-5’19 5’-pNNNATACAGCTGCATCCCtgactccccgag

pATGCACGCGTAGGG-5’20 5’-pNNCNTACAGCTGCATCCCtgtgttgcgcgg

pATGCACGCGTAGGG-5’21 5’-pNNNCTACAGCTGCATCCCtctacagcagcg

pATGCACGCGTAGGG-5’22 5’-pNNGNTACAGCTGCATCCCtgtcgcgtcgtt

pATGCACGCGTAGGG-5’23 5’-pNNNGTACAGCTGCATCCCtcggagcaacct

pATGCACGCGTAGGG-5’24 5’-pNNTNTACAGCTGCATCCCtggtgaccgtag

pATGCACGCGTAGGG-5’25 5’-pNNNTTACAGCTGCATCCCtcccctgtcgga

pATGCACGCGTAGGG-5’其中N和P如上文所定义，以小写字母表示的核苷酸是12-聚体寡核苷酸标记物。每个标记物与其它标记物有6个核苷酸不同。在NEB缓冲液No.2(New England Biosciences，Beverly，MA)中混合等摩尔量的各种衔接子以形成浓度为1000pmol/μl的混合物。

16个标记物互补物中的每一个被当作氨基-衍生化的寡核苷酸分开合成，并各被荧光素分子(如荧光素的NHS-酯FAM，MolecularProbes，Eugene，OR)标记，所述荧光素分子通过聚乙二醇接头(Clonetech Laboratories，Palo Alto，CA)与标记物互补物的5’末端结合。标记物互补物的序列仅是上述标记物的12-聚体的互补物。

在由5μl珠(20mg)，3μlNEB 10×连接缓冲液，5μl衔接子混合物(25nM)，2.5μl NEB T4 DNA连接酶(2000单位/μl)，和14.5μl蒸馏水组成的混合物中进行衔接子与靶多核苷酸的连接。将混合物于16℃保温30分钟，然后用TE(pH8.0)将珠洗涤3次。

离心除去TE之后，使用厂商的方法，用牛小肠碱性磷酸酶(CIP)(New England Biolabs，Beverly，MA)处理多核苷酸-珠混合物以除去经连接的衔接子的3’磷酸。除去3’磷酸之后，使用带厂商说明的PronaseTM(Boeringer Mannheim，Indianapolis，IN)或等价的蛋白酶的蛋白酶解消化可灭活CIP。然后洗涤多核苷酸-珠混合物并用T4多核苷酸激酶和T4 DNA连接酶(New England Biolabs，Beverly，MA)的混合物处理之以在靶多核苷酸和衔接子之间的缺口处加入5’磷酸，从而完成衔接子与靶多核苷酸的连接，然后用TE洗涤珠-多核苷酸混合物。

在仅允许寡核苷酸标记物与其各自的互补物之间形成完全匹配的双螺旋的条件下，将各个经标记的标记物互补物分别应用于多核苷酸-珠混合物，然后在严紧条件下洗涤混合物，测定荧光信号存在与否。在由25nM标记物互补物，50mM NaCl，3mM Mg，10mM Tris-HCl(pH8.5)组成的溶液中使用标记物互补物，于20℃保温10分钟，然后于55℃用相同溶液(不含标记物互补物)洗涤10分钟。

按上述鉴定了4个核苷酸之后，使用厂商的方法用BbvI从多核苷酸上裂解经编码的衔接子。最初的连接和鉴定之后，将连接，鉴定和裂解的循环重复3次以得到靶多核苷酸16个末端核苷酸的序列。图4显示出用于鉴定位置5至16(从珠的最远端至珠的最近端)的核苷酸的4个标记物互补物中每一个的相对荧光。

实施例2构建和分选cDNA文库以用经编码的衔接子进行特征测序

在此实施例中，构建了cDNA文库，所述文库中由8个4-核苷酸“密码(word)”组成的寡核苷酸标记物与各个cDNA结合。如上所述，此大小的寡核苷酸标记物的所有组成成分足够大(约108)以使如果cDNA由约106个mRNA的群体合成，那么很有可能各个cDNA会具有独一无二的标记物以用于分选。提取mRNA之后，在5-Me-dCTP(以封闭某些cDNA限制性位点)和含有寡核苷酸标记物的生物素化引物混合物的存在下进行第一条链的合成。常规的第二条链合成之后，用DpnII(不受5-Me-脱氧胞嘧啶的影响)裂解标记物-cDNA缀合物，使用包被有链霉亲和素的磁性珠从反应混合物中分离生物素化的部分，通过生物素化引物所携带的BsmBI位点从磁性珠上将生物素化的部***解下来以回收标记物-cDNA缀合物。然后将含有标记物-cDNA缀合物的BsmBI-DpnII片断***质粒并扩增。分离质粒之后，在5-Me-dCTP的存在下，使用含有预定的限制性内切核酸酶位点的生物素化的和经荧光标记的引物，通过PCR由质粒中扩增标记物-cDNA缀合物。用包被有链霉亲和素的磁性珠亲和纯化之后，从珠上裂解标记物-cDNA缀合物，在dGTP的存在下用T4 DNA聚合酶处理所述缀合物以使标记物变成单链，然后与结合有标记物互补物的GMA珠所有组成成分混合。严紧杂交和连接之后，经由FACS分选GMA珠以产生荷载有cDNA的GMA珠加富群体。荷载的GMA珠加富群体被固定于流动室的平面阵列上，其中使用经编码的衔接子在所述流动室中进行一个碱基一个碱基地测序。

使用常规方法从DBY746酵母细胞中提取了约5μg的poly(A+)mRNA。通过根据厂商说明，使用Stratagene(La Jolla，CA)cDNA合成试剂盒将100-150pmol的下列引物(SEQ ID NO：26)：5’-生物素-ACTAAT CGTCTCACTAT

[W，W，W，G]₈CC(T)₁₈V-3’与poly(A+)mRNA混合可进行第一和第二条链的cDNA合成，产生了其第一条链的脱氧胞嘧啶在5-碳位置甲基化的cDNA。在上式中，“V”是G，C或A，“[W，W，W，G]”是选自上文表II中的4-核苷酸密码，单划线部分是BsmBI识别位点，双划线部分是PacI识别位点。使用常规方法进行大小分级分离(GIBCO-BRL eDNA大小分级分离试剂盒)之后，使用厂商说明用DpnII(New England Bioscience，Beverly，MA)消化cDNA，并用包被有链霉亲和素的磁性珠(M-280珠，DynalA.S.，Oslo，Norway)亲和纯化之。使用标准方法，用BsmBI消化被珠捕获的DNA以释放标记物-cDNA缀合物，用于克隆至经修饰的pBCSK-载体(Stratagene，La Jolla，CA)中。通过将下述片段(SEQ IDNO：27)***经KpnI/EcoRV消化的载体以增加BbsI位点来修饰pBCSK-载体。

CGAAGACCC

3’-CATGGCTTCTGGGGATA-5’将经BsmBI/DpnII消化的标记物-cDNA缀合物***预先经BbsI和BamHI消化的pBCSK-中，连接后，将载体转染至厂商推荐的宿主中以供扩增。

从标准的质粒小量制备物中分离上述pBCSK-载体后，在5-Me-dCTP存在下，使用与标记物-cDNA***物侧翼的载体序列互补的20-聚体引物，经PCR扩增标记物-cDNA缀合物。“上游”引物，即与标记物相邻的引物是生物素化的，“下游”引物，即与cDNA相邻的引物被荧光素标记。扩增后，亲和纯化PCR产物，然后用PacI裂解以释放经荧光素标记的标记物-cDNA缀合物。通过在dGTP的存在下用T4 DNA聚合酶处理之使缀合物的标记物变成单链。反应淬灭之后，通过苯酚/氯仿提取纯化标记物-cDNA缀合物，然后将所述缀合物与携有标记物互补物的5.5mm GMA珠混合，所述每个标记物互补物都具有5’磷酸。在热稳定性的连接酶存在下，在严紧条件下进行杂交以使只有与其互补物形成完全匹配的双螺旋的标记物才能被连接。洗涤GMA珠，通过FACS分选浓缩荷载的珠，使用经荧光标记的cDNA鉴定荷载的GMA珠。用DpnII消化与GMA珠结合的标记物-cDNA缀合物以除去荧光标记，并用碱性磷酸酶处理之以制备供测序的cDNA。

将下列裂解衔接子(SEQ ID NO：28)与经DpnII-消化和磷酸酶处理的cDNA连接：

5’-pGATCAGCTGCTGCAAATTT

pTCGACGACGTTTAAA

然后通过碱性磷酸酶除去3’磷酸，用T4 DNA激酶处理cDNA的5’链，并连接裂解衔接子和cDNA之间的缺口。用BbvI裂解之后，将实施例1中的经编码的衔接子与上述cDNA的末端连接。

通过使用标准的微机械技术，如Ekstrom等，国际专利申请PCT/SE91/00327(WO91/16966)；Brown，美国专利4,911,782；Harrison等，Anal.Chem.64：1926-1932(1992)等，蚀刻玻璃板(506)内具有液体进口(502)和出口(504)的腔即可制备图5所示的流动室(500)。流动室(500)的尺寸应使荷载的微粒(508)，如GMA珠被安置在10-20万个珠的稠密聚集的平面单层内的腔(510)中。通过将玻璃外套(512)阳极结合至蚀刻的玻璃板(506)上可将腔(510)制成具有进口和出口的密闭的室，例见Pomerantz，美国专利3,397,279。从注射器泵(514至520)至阀门栓(522)，将试剂定量供给流动室，所述阀门栓受自动化DNA和肽合成仪上常用的微处理器控制，例见Bridgham等，美国专利4,668,479；Hood等，美国专利4,252,769；Barstow等，美国专利5,203,368；Hunkapiller，美国专利4,703,913等。

在流动室(500)中进行3次连接，鉴定和裂解循环，得到约100,000个cDNA中每一个末端的12个核苷酸的序列。通过将标记物互补物与实施例1中所述的经编码的衔接子杂交来鉴定cDNA的核苷酸。通过用得自光源(526)的照明光束(524)激发其荧光标记物可检测特异性杂交的标记物互补物，所述光源可以是激光，汞弧灯等。照明光束(524)穿过滤器(528)并激发与流动室(500)中的经编码的衔接子特异性杂交的标记物互补物上的荧光标记物。所得荧光(530)被共焦显微镜(532)收集，穿过滤器(534)，并投向CCD照相机(536)，所述照相机会产生珠阵列的电子影像供工作站(538)处理和分析。优选每次连接和裂解步骤之后，用PronaseTM和类似酶处理cDNA，于16℃，使经编码的衔接子和浓度约为0.75单位/μl的T4 DNA连接酶(Promega，Madison，WI)以约1-2μl/分钟的流速穿过流动室约20-30分钟，然后，通过于37℃，将浓度为0.02单位/μl的碱性磷酸酶(New England Bio-science，Beverly，MA)和浓度为7单位/μl的T4 DNA激酶(New England Bioscience，Beverly，MA)的混合物以约1-2μl/分钟的流速穿过流动室15-20分钟，以从衔接子和经制备用于第二条链连接的cDNA上除去3’磷酸。通过将T4 DNA连接酶(.75单位/ml，Promega)穿过流动室20-30分钟可实现连接。于20℃，将浓度为25nM的标记物互补物以1-2μl/分钟的流速穿过流动室10分钟，然后用光照射标记物互补物所携带的荧光标记物并收集荧光。于55℃，通过将杂交缓冲液以1-2μl/分钟的流速穿过流动室10分钟可从经编码的衔接子上除去标记物互补物。于37℃，通过将浓度为1单位/μl的BbvI(New England Bioscience，Beverly，MA)以1-2μl/分钟的流速穿过10分钟可从cDNA上裂解经编码的衔接子。

附录I

产生最少交叉杂交套的计算机程序例

(单链标记物/单链标记物互补物)tagN程序

c
c            tagN程序生成最少交叉杂交套亚单位，给出i)N-亚单
c
c            位长度，ii)初始亚单位序列。tagN假定在标记物中只使
c
c            用了4种天然核苷酸的3种。
c
c        character*1 subl (20)

　　     integer*2 mset(10000，20)，nbase(20)
c
c

　　     write(*，*)’ENTER SUBUNIT LENGTH’

　　     read(*，100)nsub
100      format(i2)
c
c

　　     write(*，*)’ENTER SUBUNIT SEQUENCE’

　　     read(*，110)(subl(k)，k＝1，nsub)
110      format(20a1)
c
c

　　     ndiff＝10
c
c
c
c              使a＝1 c＝2 g＝3 &amp; t＝4
c

　　      do 800 kk＝1，nsub

　　      if(subl(kk).eq.’a’)  then

　　         mset(1，kk)＝1

　　         endif

　　             if(subl(kk).eq.’c’)then

　　                mset(1，kk)＝2

　　                endif

　　                    if(subl(kk).eq.’g’)then

　　                       mset(1，kk)＝3

　　                       endif

　　                           if(subl(kk).eq.’t’)  then

　　　                              mset(1，kk)＝4

　　                              endif
800    continue
c
c
c
c            生成亚单位套，其区别于subl至少ndiff核苷酸。
c
c

　　   jj＝1
c
c
				
				<dp n="d48"/>
　　    do 1000 k1＝1，3

　　      do 1000 k2＝1，3

　　        do 1000 k3＝1，3

　　          do 1000 k4＝1，3

　　            do 1000 k5＝1，3

　　              do 1000 k6＝1，3

　　                do 1000 k7＝1，3

　　                  do 1000 k8＝1，3

　　                    do 1000 k9＝1，3

　　                      do 1000 k10＝1，3

　　    do 1000 k11＝1，3

　　      do 1000 k12＝1，3

　　        do 1000 k13＝1，3

　　          do 1000 k14＝1，3

　　            do 1000 k15＝1，3

　　              do 1000 k16＝1，3

　　                do 1000 k17＝1，3

　　                  do 1000 k18＝1，3

　　                    do 1000 k19＝1，3

　　                      do 1000 k20＝1，3
c    

　　           nbase(1)＝k1

　　           nbase(2)＝k2

　　           nbase(3)＝k3

　　           nbase(4)＝k4

　　           nbase(5)＝k5

　　           nbase(6)＝k6

　　           nbase(7)＝k7

　　           nbase(8)＝k8

　　           nbase(9)＝k9

　　           nbase(10)＝k10

　　           nbase(11)＝k11

　　           nbase(12)＝k12

　　           nbase(13)＝k13

　　           nbase(14)＝k14

　　           nbase(15)＝k15

　　           nbase(16)＝k16

　　           nbase(17)＝k17

　　           nbase(18)＝k18

　　           nbase(19)＝k19

　　           nbase(20)＝k20
c
c

　　     do 1250 nn＝1，jj

　　      n＝0

　　      do 1200 j＝1，nsub

　　         if(mset(nn，j).eq.1.and.nbase(j).ne.1.on.

　　1           mset(nn，j).eq.2.and.nbase(j).ne.2.on.

　　2           mset(nn，j).eq.3.and.nbase(j).ne.3.on.

　　3           mset(nn，j).eq.4.and.nbase(j).ne.4)then

　　            n＝n+1

　　            endif
1200            continue
c
c

　　   if(n.lt.ndiff)then

　　      goto 1000

　　      endif
1250   continue
c
c
				
				<dp n="d49"/>
　　        jj＝jj+1

　　        write(*，130)(nbase(i)，i＝1，nsub)，jj

　　         do 1100 i＝1，nsub

　　            mset(jj，i)＝nbase(i)
1100               continue
c
c
1000     continue
c
c

　　     write(*，*)
130      format(10x，20(1x，i1)，5x，i5)

　　     write(*，*)

　　     write(*，120)jj
120      format(1x，’Numberof words＝’，i5)
c
c

　　     end
c
c            ********************************************
c            ********************************************

附录II

产生最少交叉杂交套的计算机程序例

(双链标记物/单链标记物互补物)3tagN程序

c
c
c            3tagN程序生成三联体密码的最少交叉杂交套，给出
c
c            i)N-亚单位长度，ii)初始亚单位序列，和iii)组成亚
c
c            单位的核苷酸，即或者亚单位或者某些核苷酸亚套由所
c
c            有4种核苷酸组成。
c
c

　　     character*1 subl(20)

　　     integer*2 mset(10000，20)，nbase(20)
c
c

　　     nsub＝20

　　     ndiff＝6
c
c

　　     write(*，*)′ENTER SUBUNIT SEQUENCE：a &amp; g only′

　　     read(*，110)(subl(k)，k＝1，nsub)
110      format(20a1)
c
c
c
c            生成密码套，其区别于subl至少3个ndiff核苷酸。
c
c
c                将a’s和g’s转换成数字a＝1和g＝2。
c
c        do 800 kk＝1，nsub

　　     if(subl(kk).eq.’a’)then

　　        mset(1，kk)＝1

　　        endif

　　            if(subl(kk).eq.’g’)then

　　               mset(1，kk)＝2

　　               endif
800    continue
c
c

　　    jj＝1
c
c

　　    do 1000 k1＝1，2

　　      do 1000 k2＝1，2

　　        do 1000 k3＝1，2
				
				<dp n="d51"/>
　　                do 1000 k4＝1，2

　　                  do 1000 k5＝1，2

　　                    do 1000 k6＝1，2

　　                      do 1000 k7＝1，2

　　                        do 1000 k8＝1，2

　　                          do 1000 k9＝1，2

　　                            do 1000 k10＝1，2

　　    do 1000 k11＝1，2

　　      do 1000 k12＝1，2

　　        do 1000 k13＝1，2

　　          do 1000 k14＝1，2

　　            do 1000 k15＝1，2

　　              do 1000 k16＝1，2

　　                do 1000 k17＝1，2

　　                  do 1000 k18＝1，2

　　                    do 1000 k19＝1，2

　　                      do 1000 k20＝1，2
c
c

　　          nbase(1)＝k1

　　          nbase(2)＝k2

　　          nbase(3)＝k3

　　          nbase(4)＝k4

　　          nbase(5)＝k5

　　          nbase(6)＝k6

　　          nbase(7)＝k7

　　          nbase(8)＝k8

　　          nbase(9)＝k9

　　          nbase(10)＝k10

　　          nbase(11)＝k11

　　          nbase(12)＝k12

　　          nbase(13)＝k13

　　          nbase(14)＝k14

　　          nbase(15)＝k15

　　          nbase(16)＝k16

　　          nbase(17)＝k17

　　          nbase(18)＝k18

　　          nbase(19)＝k19

　　          nbase(20)＝k20
c
c

　　        do 1250 nn＝1，jj
c

　　        n＝0

　　        do 1200 j＝1，nsub

　　           if(mset(nn，j).eq.1.and.nbase(j).ne.1.cr.

　　1             mset(nn，j).eq.2.and.nbase(j).ne.2)then

　　              n＝n+1

　　              endif
1200              continue
c
c

　　   if(n.lt.ndiff)then

　　     goto  1000

　　     endif
1250  continue
c
				
				<dp n="d52"/>
c

　　    jj＝jj+1

　　    write(*，130)(nbase(i)，i＝1，nsub)，jj

　　       do 1100 i＝1，nsub

　　          mset(jj，i)＝nbase(i)
1100               continue
c
c
1000       continue
c
c

　　       write(*，*)
130        format(5x，20(1x，i1)，5x，i5)

　　       write(*，*)

　　       write(*，120)jj
120        format(1x，’Number of words＝’，i5)
c
c

　　       end

序列表(1)一般资料：(i)申请人：Lynx Therapeutics，Inc.(ii)发明题目：通过连接经编码的衔接子进行大规模平行特征测序(iii)序列数：28(iv)通讯地址：

(A)收件人：Dehlinger & Associates

(B)街道：350 Cambridge Avenue，Suite 250

(C)城市：Palo Alto

(D)州：CA

(E)国家：美国

(F)邮政编码：94306(v)计算机可读形式：

(A)介质类型：软盘

(B)计算机：IBM PC兼容机

(C)操作***：PC-DOS/MS-DOS

(D)软件：PatentIn Release #1.0，Version #1.25(vi)目前的申请资料：

(A)申请号：

(B)申请日：(vii)在先申请资料：

(A)申请号：US08/689,587

(B)申请日：12-AUG-96(vii)在先申请资料：

(A)申请号：US08/659,453

(B)申请日：06-JUN-96(viii)代理人/代理资料：

(A)姓名：Powers，Vincent M.

(B)登记号：36，246

(C)资料/文档号：5525-0029.41/808-lwo(ix)通讯资料：

(A)电话：(415)324-0880

(B)传真：(415)324-0960(2)SEQ ID NO：1的资料：(i)序列特征：

(A)长度：28个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：1：TGGATTCTAG AGAGAGAGAG AGAGAGAG 28(2)SEQ ID NO：2的资料：(i)序列特征：

(A)长度：16个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：2：NNGGATGNNN NNNNNN 16(2)SEQ ID NO：3的资料：(i)序列特征：

(A)长度：11个核苷酸

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：3：NRRGATCYNN N 11(2)SEQ ID NO：4的资料：(i)序列特征：

(A)长度：20个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：4：AGTGGCTGGG CATCGGACCG 20(2)SEQ ID NO：5的资料：(i)序列特征：

(A)长度：20个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：5：GGGGCCCAGT CAGCGTCGAT 20(2)SEQ ID NO：6的资料：(i)序列特征：

(A)长度：70个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：6：AAAAGGAGGA GGCCTTGATA GAGAGGACCT GTTTAAACGT TTAAACGGAT 50CCTCTTCCTC TTCCTCTTCC 70(2)SEQ ID NO：7的资料：(i)序列特征：

(A)长度：34个核苷酸

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：7：

CTAAACCATT GGTATGGGCC AGTGAATTGT AATA 34

(2)SEQ ID NO：8的资料： (i)序列特征：

(A)长度：55个核苷酸

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：8：

CGCGCAGCCC GCATCGTTTA TGCTACAGAC TGTCAGTGCA 40

GCTCTCCGAT CCAAA 55(2)SEQ ID NO：9的资料：(i)序列特征：

(A)长度：16个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：9：TCGATGGGCT AGATTT 16(2)SEQ ID NO：10的资料：(i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：10：ANNNTACAGC TGCATCCCTT GGCGCTGAGG 30(2)SEQ ID NO：11的资料：(i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：11：NANNTACAGC TGCATCCCTG GGCCTGTAAG 30(2)SEQ ID NO：12的资料： (i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：12：CNNNTACAGC TGCATCCCTT GACGGGTCTC 30(2)SEQ ID NO：13的资料：(i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：13：NCNNTACAGC TGCATCCCTG CCCGCACAGT 30(2)SEQ ID NO：14的资料：(i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：14：GNNNTACAGC TGCATCCCTT CGCCTCGGAC 30(2)SEQ ID NO：15的资料：(i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：15：NGNNTACAGC TGCATCCCTG ATCCGCTAGC 30(2)SEQ ID NO：16的资料： (i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：16：TNNNTACAGC TGCATCCCTT CCGAACCCGC 30(2)SEQ ID NO：17的资料：(i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：17：NTNNTACAGC TGCATCCCTG AGGGGGATAG 30(2)SEQ ID NO：18的资料：(i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：18：NNANTACAGC TGCATCCCTT CCCGCTACAC 30(2)SEQ ID NO：19的资料：(i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：19：NNNATACAGC TGCATCCCTG ACTCCCCGAG 30(2)SEQ ID NO：20的资料： (i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：20：NNCNTACAGC TGCATCCCTG TGTTGCGCGG 30(2)SEQ ID NO：21的资料：(i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：21：NNNCTACAGC TGCATCCCTC TACAGCAGCG 30(2)SEQ ID NO：22的资料：(i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：22：NNGNTACAGC TGCATCCCTG TCGCGTCGTT 30(2)SEQ ID NO：23的资料：(i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：23：NNNGTACAGC TGCATCCCTC GGAGCAACCT 30(2)SEQ ID NO：24的资料： (i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：24：NNTNTACAGC TGCATCCCTG GTGACCGTAG 30(2)SEQ ID NO：25的资料：(i)序列特征：

(A)长度：30个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：25：

NNNTTACAGC TGCATCCCTC CCCTGTCGGA 30(2)SEQ ID NO：26的资料：(i)序列特征：

(A)长度：78个核苷酸

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：26：ACTAATCGTC TCACTATTTA ATTAANNNNN NNNNNNNNNN 40NNNNNNNNNN NNNNNNNGGT TTTTTTTTTT TTTTTTTV 78(2)SEQ ID NO：27的资料：(i)序列特征：

(A)长度：17个核苷酸

(B)类型：核酸

(C)链型：双链

(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：27：ATAGGGGTCT TCGGTAC 17(2)SEQ ID NO：28的资料：(i)序列特征：(A)长度：19个核苷酸(B)类型：核酸(C)链型：双链(D)拓扑结构：线性(xi)序列描述：SEQ ID NO：28：GATCAGCTGC TGCAAATTT 19

Claims

1.测定多核苷酸末端之核苷酸序列的方法，所述方法包括步骤：

将一个或多个经编码的衔接子与多核苷酸的末端连接，每个经编码的衔接子具有选自最少交叉杂交套寡核苷酸的寡核苷酸标记物和与多核苷酸部分链互补的突出链；和

通过将标记物互补物与连接于多核苷酸末端的一个或多个经编码的衔接子的各个寡核苷酸标记物特异性杂交来鉴定多核苷酸链中所述部分中每一个的一个或多个核苷酸。

2.权利要求1的方法，其中所述连接步骤包括将多个不同的经编码的衔接子与所述多核苷酸的所述末端连接，以使多个不同的经编码的衔接子的所述突出链与所述多核苷酸所述链的多个不同部分互补，以使所述不同的经编码的衔接子与所述链的不同部分之间有一一对应关系。

3.权利要求2的方法，其中所述多核苷酸所述链的所述不同部分是邻接的。

4.权利要求1至3中任一项的方法，其中所述经编码的衔接子的所述突出链含有2-6个核苷酸，其中所述鉴定步骤包括将所述标记物互补物与所述寡核苷酸标记物特异性杂交，以使所述多核苷酸的所述部分中的每个核苷酸都能被依次测定。

5.权利要求1至4中任一项的方法，其中所述鉴定步骤进一步包括提供与所述多核苷酸的所述部分中需被鉴定的核苷酸数目相等的多套标记物互补物。

6.权利要求5的方法，其中所述鉴定步骤进一步包括提供各个所述套中的所述标记物互补物，所述标记物互补物能通过由产生荧光信号的组成成分产生的信号显示预定核苷酸的存在，针对各种核苷酸有不同的产生荧光信号的组成成分。

7.权利要求1至6中任一项的方法，其中所述经编码的衔接子的所述寡核苷酸标记物是单链，所述寡核苷酸标记物的所述标记物互补物是单链，以通过Watson-Crick碱基配对在寡核苷酸标记物及其各自的标记物互补物之间进行特异性杂交。

8.权利要求7的方法，其中所述经编码的衔接子具有下式：

5’-p(N)_n(N)_r(N)_s(N)_q(N)_t-3’

z(N’)_r(N’)_s(N’)_q-5’

或

p(N)_r(N)_s(N)_q(N)_t-3’

3’-z(N)_n(N’)_r(N’)_s(N’)_q-5’

其中N是核苷酸，N’是其互补物，p是磷酸基团，z是3’羟基或3’封闭基团，n是2至6，并包括2和6的整数，r是0至18，并包括0和18的整数，每当经编码的衔接子具有核酸酶识别位点时，s是4至6，并包括4和6的整数，当没有核酸酶识别位点时，s是0，q是大于或等于0的整数，t是大于或等于8的整数。

9.权利要求8的方法，其中r是0至12，并包括0和12的整数，t是8至20，并包括8和20的整数，z是磷酸基团。

10.权利要求1至6中任一项的方法，其中所述经编码的衔接子的所述寡核苷酸标记物是双链，而所述寡核苷酸标记物的所述标记物互补物是单链，以通过Hoogsteen或反向Hoogsteen三螺旋的形成在寡核苷酸标记物及其各自的标记物互补物之间进行特异性杂交。

11.权利要求10的方法，其中所述经编码的衔接子具有下式：

5’-p(N)_n(N)_r(N)_s(N)_q(N)_t-3’

z(N’)_r(N’)_s(N’)_q(N)_t-5’

或

p(N)_r(N)_s(N)_q(N)_t-3’

3’-z(N)_n(N’)_r(N’)_s(N’)_q(N)_t-5’

12.权利要求11的方法，其中r是0至12，并包括0和12的整数，t是12至24，并包括12和24的整数，z是磷酸基团。

13.权利要求1至12任一项的方法，其中所述最少交叉杂交套的成员与每一个其它成员有至少6个核苷酸不同。

14.测定多个多核苷酸的核苷酸序列的方法，所述方法包括步骤：

(a)将得自标记物所有组成成分的第一寡核苷酸标记物与多核苷酸群体中的每个多核苷酸结合，以使得自所有组成成分的每个第一寡核苷酸标记物选自第一最少交叉杂交套；

(b)对多核苷酸群体进行取样形成多核苷酸样品，以使所述样品中基本上所有不同的多核苷酸都结合有不同的第一寡核苷酸标记物；

(c)通过将第一寡核苷酸标记物与其各自的互补物特异性杂交以分选样品中的多核苷酸，各自的互补物作为基本上相同的寡核苷酸的均一群体结合于一个或多个固相支持物上的空间上不连续的区域内；

(d)将一个或多个经编码的衔接子与样品中多核苷酸的末端连接，每个经编码的衔接子具有选自第二最少交叉杂交套的第二寡核苷酸标记物，和与所述群体中多核苷酸突出链互补的突出链；和

(e)通过使标记物互补物与一个或多个经编码的衔接子的每个第二寡核苷酸标记物特异性杂交以鉴定所述多核苷酸突出链中的多个核苷酸。

15.权利要求14的方法，进一步包括步骤(f)用具有与其裂解位点分开的核酸酶识别位点的核酸酶从所述多核苷酸上裂解所述经编码的衔接子，以在各个所述多核苷酸的所述末端形成新的突出链，和(g)重复步骤(d)至(f)。

16.鉴定mRNA分子群体的方法，所述方法包括步骤：

(a)由mRNA分子群体形成cDNA分子群体以使各个cDNA分子结合有第一寡核苷酸标记物，第一寡核苷酸标记物选自第一最少交叉杂交套；

(b)对cDNA分子群体进行取样形成cDNA分子样品，以使基本上所有不同的cDNA分子都结合有不同的第一寡核苷酸标记物；

(c)通过将第一寡核苷酸标记物与其各自的互补物特异性杂交以分选cDNA分子，各自的互补物作为基本上相同的互补物的均一群体结合于一个或多个固相支持物上的空间上不连续的区域内；

(d)将一个或多个经编码的衔接子与群体中cDNA分子的末端连接，每个经编码的衔接子具有选自第二最少交叉杂交套的第二寡核苷酸标记物，和与样品中cDNA分子突出链互补的突出链；和

(e)通过使标记物互补物与一个或多个经编码的衔接子的每个第二寡核苷酸标记物特异性杂交以确定所述cDNA分子各个突出链中的多个核苷酸和次序。

其中通过cDNA分子部分序列的频率分布鉴定mRNA分子群体。

17.权利要求16的方法，进一步包括步骤(f)用具有与其裂解位点分开的核酸酶识别位点的核酸酶从所述多核苷酸上裂解所述经编码的衔接子，以在各个所述cDNA分子的所述末端形成新的突出链，和(g)重复步骤(d)至(f)。

18.测定多核苷酸末端之核苷酸序列的方法，所述方法包括步骤：

(a)将经编码的衔接子与多核苷酸的末端连接，经编码的衔接子具有选自最少交叉杂交套寡核苷酸的寡核苷酸标记物和与多核苷酸部分链互补的突出链；

(b)通过将标记物互补物与连接于多核苷酸末端的经编码的衔接子的寡核苷酸标记物特异性杂交来鉴定多核苷酸部分链中的一个或多个核苷酸；

(c)用具有与其裂解位点分开的核酸酶识别位点的核酸酶从多核苷酸末端裂解经编码的衔接子以在多核苷酸的末端形成新的突出链，和

(d)重复步骤(a)至(c)。

19.权利要求18的方法，其中所述经编码的衔接子的所述突出链含有2至6个核苷酸，其中鉴定步骤包括依次将所述标记物互补物与所述寡核苷酸标记物特异性杂交，以依次测定所述多核苷酸所述部分中的各个核苷酸。

20.权利要求18或19的方法，其中所述鉴定步骤进一步包括提供与所述多核苷酸的所述部分中需被鉴定的核苷酸数目相等的多套标记物互补物。

21.权利要求20的方法，其中所述鉴定步骤进一步包括提供各个所述套中的所述标记物互补物，所述标记物互补物能通过由产生荧光信号的组成成分产生的信号显示预定核苷酸的存在，针对各种核苷酸有不同的产生荧光信号的组成成分。

22.权利要求18至21中任一项的方法，其中所述经编码的衔接子的所述寡核苷酸标记物是单链，所述寡核苷酸标记物的所述标记物互补物是单链，以通过Watson-Crick碱基配对在寡核苷酸标记物及其各自的标记物互补物之间进行特异性杂交。

23.含有具有下式的双链寡核苷酸衔接子的组合物：

5’-p(N)_n(N)_r(N)_s(N)_q(N)_t-3’

z(N’)_r(N’)_s(N’)_q-5’

或

p(N)_r(N)_s(N)_q(N)_t-3’

3’-z(N)_n(N’)_r(N’)_s(N’)_q-5’

24.权利要求23的组合物，其中r是0至12，并包括0和12的整数，t是8至20，并包括8和20的整数，z是磷酸基团，所述单链组成成分(N)_t是最少交叉杂交套的成员。

25.含有具有下式的双链寡核苷酸衔接子的组合物：

5’-p(N)_n(N)_r(N)_s(N)_q(N)_t-3’

z(N’)_r(N’)_s(N’)_q(N’)_t-5’

或

p(N)_r(N)_s(N)_q(N)_t-3’

3’-z(N)_n(N’)_r(N’)_s(N’)_q(N’)_t-5’

26.权利要求25的组合物，其中r是0至12，并包括0和12的整数，t是12至24，并包括12和24的整数，z是磷酸基团，所述双链组成成分

-(N)_t

-(N’)_t

是最少交叉杂交套的成员。

27.权利要求23至26中任一项的组合物，其中n等于4，其中所述最少交叉杂交套的成员与每一个其它成员至少有6个核苷酸不同。