JP4789294B2 - DNA extension and analysis using rolling primers - Google Patents

DNA extension and analysis using rolling primers Download PDF

Info

Publication number
JP4789294B2
JP4789294B2 JP23784098A JP23784098A JP4789294B2 JP 4789294 B2 JP4789294 B2 JP 4789294B2 JP 23784098 A JP23784098 A JP 23784098A JP 23784098 A JP23784098 A JP 23784098A JP 4789294 B2 JP4789294 B2 JP 4789294B2
Authority
JP
Japan
Prior art keywords
primer
tag
template
nucleotide
primers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP23784098A
Other languages
Japanese (ja)
Other versions
JPH11151092A (en
Inventor
ブレンナー シドニー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Solexa Inc
Original Assignee
Solexa Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US08/916,120 external-priority patent/US5962228A/en
Application filed by Solexa Inc filed Critical Solexa Inc
Publication of JPH11151092A publication Critical patent/JPH11151092A/en
Application granted granted Critical
Publication of JP4789294B2 publication Critical patent/JP4789294B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、一般にDNA配列決定および分析の方法に関し、さらに詳しくは、オリゴヌクレオチドプライマーの連続的な伸長により1塩基毎に配列決定する方法に関する。
【0002】
【従来の技術】
大規模配列決定プロジェクトは、代表的には、その配列が決定されるべきであるポリヌクレオチドの部分の連続的なより小さなクローンのライブラリーの産生を含む。ゲノムDNAは断片化され、そして酵母人工染色体(YAC)またはコスミド中に挿入され、その挿入物は次に断片化され、そして配列決定用のファージまたはプラスミドベクター中に挿入される(例えば、Hunkapillerら、Science, 254: 59-67(1991))。大規模配列決定プロジェクトは、いわゆる「指向性」または「ランダム」ストラテジーのいずれかによって行われ得るが、両方のアプローチは、テンプレートがSangerチェーンターミネーション法の1つまたは別の変法によって配列決定のために調製される少なくとも1つまたは2つの多大な労力を要する工程を含む。
【0003】
これらの多大な労力を要する工程を減少または削除するために、多くの提案がなされている。例えば、1つの指向性ストラテジーは、ベクター特異的「ユニバーサル」プライマーを用いた配列決定の最初のラウンド、それに続く獲得されたばかりの配列情報から産生される新規の配列決定用プライマーの合成の反復サイクルおよび引き続く新規プライマーを用いる新規配列決定を含む。このような様式で、テンプレートを断片化およびサブクローン化する必要性を伴うことなく新規に決定されたプライマーの連続によって比較的大きな配列決定用テンプレートに沿って「ウォーキング」し得る。このようなアプローチの欠点は、次のラウンドの伸長を行うために各サイクルで新規プライマーを得ることが困難であることである。プロセスは、合成されるべき次のプライマーを待っている間耐え難いほどに緩慢になるか、または例えば、15ヌクレオチド長のプライマーに対して1×109より多くなり得る全ての可能な配列のプライマーのライブラリーを維持する必要性によって実用的でなくなるかのいずれかである。この困難さを軽減するための、より短いオリゴヌクレオチド(例えば、ペンタマーまたはヘキサマー)のライブラリーから構築されるプライマーを必要とする提案が行われている(例えば、Kotlerら、Proc.Natl.Acad.Sci., 90:4241-4245 (1993); Kieleczawaら、Science, 258: 1787-1791 (1992)など)。しかし、ヘキサマーでさえ、少なくとも4096のオリゴヌクレオチドのライブラリーが必要とされる。
【0004】
テンプレート調製の問題の他に、上記のように、指向性およびランダムアプローチの両方が、標識DNAフラグメント(各フラグメントは共通の起点を有し、かつ既知の塩基で終結する)のセットの生成を必要とする配列決定のSangerチェーンターミネーション法を使用する。フラグメントのセットは、代表的には、高解像度ゲル電気泳動によって分離される。これらは単一ヌクレオチド以下でサイズが異なる非常に大きなフラグメントを区別する能力を有さねばならない。不幸なことに、いくつかの有意な技術的問題が、より長い配列を用立てるため、または大量の資本および労力投資を伴わない大容量配列決定を用立てるための、サンガーベースアプローチの効率的なスケールアップを深刻に妨げている。このような問題としては、i)多大な労力を要するゲル電気泳動分離工程は、自動化が困難であり、そしてデータの解析に過剰の変動性(例えば、温度の影響によるバンドの広がり、DNA配列決定フラグメントにおける二次構造による圧縮、分離ゲルにおける不均一性など)を導入する;ii)その特性(例えば、プロセシビティー、忠実度、重合速度、チェーンターミネーターの取り込み速度など)がしばしば配列依存性である核酸ポリメラーゼ;iii)ゲル中で空間的に重なるバンドに典型的にはfmol量で存在するDNA配列決定フラグメントの検出および分析;iv)標識部分が単一の均一相に濃縮されずに数百の空間的に分離されたバンドに分布することによる低シグナル;およびv)単一レーン蛍光検出の場合、適切な発光特性および吸収特性、量子収率、およびスペクトル分解性を持つ色素の利用可能性が挙げられる。例えば、Trainor, Anal. Biochem., 62:418-426 (1990); Connellら, Biotechniques, 5:342-348 (1987); Kargerら, Nucleic Acids Research ,19:4955-4962 (1991); Fungら, 米国特許第4,855,225号;およびNishikawaら, Electrophoresis, 12:623-631 (1991)。
【0005】
(i)DNAフラグメントの高解像度電気泳動分離を必要としない、(ii)大規模配列決定プロジェクトにおいて必要とされるテンプレートの数を減少させる、そして(iii)多数の標的ポリヌクレオチドへの同時または平行適用を受け入れ得る代替的なアプローチが、DNAを配列決定するのに利用可能になれば、配列決定技術において重要な進歩が達成され得る。
【0006】
【発明が解決しようとする課題】
本発明の目的は、ポリヌクレオチドの配列を決定するための新規な方法およびアプローチを提供することである。
【0007】
本発明の別の目的は、実行のためにわずかなプライマーしか必要としない配列決定のための新規な「プライマーウォーキング」アプローチを提供することである。
【0008】
本発明のさらに別の目的は、大規模配列決定プロジェクトに必要とされるテンプレートの数を減少させるための方法およびキットを提供することである。
【0009】
本発明の別の目的は、正常および疾患組織ならびに細胞における遺伝子発現のパターンを迅速に分析するための方法を提供することである。
【0010】
本発明のさらなる目的は、数千の異なるポリヌクレオチドの集団(例えば、cDNAライブラリー由来のポリヌクレオチドのサンプルまたはゲノムDNAのセグメント由来のフラグメントのサンプル)を同時に分析および/または配列決定するための方法、キット、および装置を提供することである。
【0011】
本発明のさらに別の目的は、ポリヌクレオチドの集団を同定するための方法、キット、および装置を提供することである。
【0012】
本発明の別の目的は、代表的なコスミドまたはYACの挿入物に対応するサイズ範囲のDNAのセグメントを配列決定するための方法を提供することである。
【0013】
【課題を解決するための手段】
本発明は、ポリヌクレオチドのヌクレオチド配列を決定するための方法に関する。この方法は:(a)プライマーのセットを提供する工程であって、このセットの各々のプライマーは末端ヌクレオチド、テンプレート配置セグメント、および1つ以上の複雑度減少ヌクレオチドを含有する伸長領域を有する、工程;(b)プライマー結合部位およびポリヌクレオチドを含有するテンプレートを形成する工程であって、プライマー結合部位がセットの少なくとも1つのプライマーに相補的である、工程;(c)伸長領域がテンプレートのプライマー結合部位と完全にマッチした二重鎖を形成する、セットからのプライマーを伸長することによって選択的に形成された二本鎖DNAを増幅することによってテンプレートからアンプリコンを形成する工程;(d)アンプリコンの同定によってプライマーの伸長領域の末端ヌクレオチドを同定する工程;(e)テンプレートのプライマー結合部位を変異させて、プライマー結合部位を伸長の方向に1ヌクレオチドシフトする工程;および(f)ポリヌクレオチドのヌクレオチド配列が決定されるまで工程(c)〜(e)を繰り返す工程を包含する、方法である。
【0014】
上記方法において、上記アンプリコンは、ポリメラーゼ連鎖反応による二本鎖DNAを増幅する工程によって形成され得る。
【0015】
上記方法において、上記複雑度減少ヌクレオチドはデオキシイノシンであり、そして上記ポリメラーゼ連鎖反応および二本鎖DNAを形成するための伸長は、デオキシアデノシントリホスフェート、デオキシシチジントリホスフェート、デオキシイノシントリホスフェート、およびチミジントリホスフェートの存在下で行われ得る。
【0016】
上記方法において、上記テンプレートのプライマー結合部位を変異させる工程は、二本鎖DNAを、テンプレート配置セグメントが二本鎖DNAのプライマー結合部位の隣接するヌクレオチドとミスマッチしたヌクレオチドを含有するプライマーで伸長し、そして増幅することによって行われ、それによって隣接するヌクレオチドの正体はプライマーを用いるオリゴヌクレオチド定方向変異誘発によって変化され得る。
【0017】
本発明はまた、ポリヌクレオチドのヌクレオチド配列を決定する方法であって:(a)第1のプライマーのセットを提供する工程であって、セットの各々の第1のプライマーが3'-末端ヌクレオチド、テンプレート配置セグメント、および1つ以上の複雑度減少ヌクレオチドを含有する伸長領域を有する、工程;(b)第1のプライマー結合部位、プロモーター、ポリヌクレオチド、および第2のプライマー結合部位を含有する二本鎖DNAテンプレートを提供する工程であって、第1のプライマー結合部位が、少なくとも1つの第1のプライマーと伸長可能な二重鎖を形成し得る、工程;(c)プロモーターを認識するRNAポリメラーゼを用いて、二本鎖DNAテンプレートからRNA転写産物の集団を産生する工程;(d)それとともに伸長可能な二重鎖を形成する第1のプライマーを伸長することによってRNA転写産物中の第1のプライマー結合部位を変異させる工程であって、その結果、第1のプライマー結合部位が、伸長の方向に1ヌクレオチドシフトされ、そして一本鎖DNAテンプレートが形成される、工程;(e)一本鎖DNAテンプレートからアンプリコンを形成させる工程;(f)アンプリコンの同定によって、一本鎖DNAテンプレートを形成するように伸長された第1のプライマーの3'末端ヌクレオチドを同定する工程;(g)ポリヌクレオチドのヌクレオチド配列が決定されるまで工程(b)〜(f)を繰り返す工程を包含する、方法に関する。
【0018】
上記方法において、上記RNA転写産物の集団を産生する工程は、その集団からDNAを除去する工程をさらに包含し得る。
【0019】
上記方法において、上記アンプリコンは、ポリメラーゼ連鎖反応によって二本鎖DNAを増幅することによって形成され得る。
【0020】
上記方法において、第1のプライマーの伸長領域の1つ以上の複雑度減少ヌクレオチドは、2'-デオキシイノシン、8-オキソ-2'-デオキシアデノシン、および8-オキソ-2'-デオキシグアノシンからなる群から選択され得る。
【0021】
上記方法において、上記RNA転写産物の集団からDNAを除去する工程は、DNaseでその集団を処理する工程を包含し得る。
【0022】
上記方法において、上記RNAポリメラーゼがT7 RNAポリメラーゼであり得る。
【0023】
本発明はまた、下式によって定義されるオリゴヌクレオチドプライマーであって:
5'-X12...XkIRZNN
12...Xkは、各Xiはi=1、2、...kであり、Xiは、2'-デオキシアデノシン、2'-デオキシシトシン、2'-デオキシグアノシン、チミジン、および2'-デオキシイノシンからなる群から選択されるようなオリゴヌクレオチドであり;
Iは2'-デオキシイノシンであり;
Rはジアミノプリン、2'-デオキシグアノシン、およびチミジンからなる群から選択され;
Zは、8-オキソ-2'-デオキシアデノシンおよび8-オキソ-2'-デオキシグアノシンからなる群から選択され;
Nは2'-デオキシアデノシン、2'-デオキシシトシン、2'-デオキシグアノシン、およびチミジンからなる群から選択され;そして
kは8〜30の範囲にある、オリゴヌクレオチドプライマーに関する。
【0024】
上記プライマーにおいて、X12...Xkは下式によって定義され得る:
5'-(G)iI(GT)j(T)r(G)m
または
5'-(G)iI(TG)j(T)r(G)m
ここで:Gは2'-デオキシグアノシンであり、Tはチミジンであり、Iは2'-デオキシイノシンであり、iは3と8との間の整数であり;jは3と5との間の整数であり;rは3と6との間の整数であり;そしてmは3と8との間の整数である。
【0025】
【発明の実施の形態】
本発明の方法は、テンプレート変異によるテンプレートに沿った選択的な伸長およびプライマー前進による反復サイクルヌクレオチド同定によってこれらおよび他の目的を達成する。本発明の重要な特徴は、配列決定用テンプレート上の全ての可能なプライマー結合部位にアニーリングさせるのに必要とされるプライマーの数を減少させるための複雑度減少(complexity-reducing)ヌクレオチドを含有するプライマー(本明細書中では「ローリングプライマー」と呼ばれる)のセットを提供することである。本発明の別の重要な特徴は、標的ポリヌクレオチド中の4つのヌクレオチドの内の少なくとも1つを同族の複雑度減少ヌクレオチドまたはその相補物で系統的に置換することである。配列決定は、その末端ヌクレオチドのみが異なるローリングプライマーを配列決定用テンプレートのプライマー結合部位にアニーリングさせることによって開始され、その結果、末端ヌクレオチドがテンプレートと完全な相補体を形成するローリングプライマーのみが伸長産物の形成を導く。アンプリコンを形成させるために二本鎖伸長産物を増幅した後、末端ヌクレオチド、そしてそれゆえテンプレート中のそれの相補物が、アンプリコンの正体(identity)によって同定される。例えば、単純な実施態様において、末端ヌクレオチドは、別個の伸長および増幅反応に用いられる4つの容器中のアンプリコンの存在または非存在によって同定され得る。次いで、首尾良く増幅されたポリヌクレオチドのテンプレートのプライマー結合部位は、例えば、オリゴヌクレオチド指向性変異誘発によって変異され、その結果、引き続くローリングプライマーは、以前のローリングプライマーの結合部位と比較して1ヌクレオチドだけ伸長の方向にシフトする部位で変異テンプレートと完全にマッチする二重鎖を形成するセットから選択され得る。次いで、選択的伸長、増幅および同定の工程が繰り返される。この様式で、プライマーは、配列決定プロセスの間ポリヌクレオチドに沿って「ロール」して、各サイクルでテンプレートに沿って一回に1ベース移動する。
【0026】
一般に、本発明のこの局面は、以下の工程で実行される:(a)プライマー(すなわち、ローリングプライマー)のセットを提供する工程、ここでセットの各々のプライマーは、1つ以上の複雑度減少ヌクレオチドおよび末端ヌクレオチドを含む伸長領域を有する;(b)プライマー結合部位および配列を決定されるべきポリヌクレオチドを含むテンプレートを形成させる工程、ここでプライマー結合部位は、セットの少なくとも1つのプライマーの伸長領域に相補的である;(c)セット由来のプライマーをプライマー結合部位にアニーリングさせる工程、ここでプライマーの伸長領域は、テンプレートと完全にマッチした二重鎖を形成し、そして二本鎖DNAを形成するようにプライマーを伸長する;(d)アンプリコンを形成させるために二本鎖DNAを増幅する工程;(e)アンプリコンの正体によってプライマーの伸長領域の末端ヌクレオチドを同定する工程;(f)テンプレートのプライマー結合部位を変異させ、その結果、プライマー結合部位が伸長の方向に1以上のヌクレオチドシフトされ、それによって1以上のヌクレオチド標的ポリヌクレオチドを効率的に短縮する工程;および(g)ポリヌクレオチドのヌクレオチド配列が決定されるまで(c)〜(f)の工程を繰り返す工程。
【0027】
本発明の重要な特徴は、オリゴヌクレオチドタグの使用によってその方法を多くの異なるポリヌクレオチドに平行して適用し得ることである。本発明のこの局面に従って、集団の各ポリヌクレオチドは、そのような相補物の空間的に制御可能な(addressable)アレイ上のタグ相補物に配列情報を転移するためのオリゴヌクレオチドタグに結合される。すなわち、ユニークタグは、コピーされそしてそのような相補物のアレイ上の固定された位置でその相補物に配列情報をシャトルするのに用いられ得る集団の各ポリヌクレオチドに結合される。タグがその相補物とハイブリダイズした後、転移された配列情報を示すシグナルが産生される。タグされたポリヌクレオチドの配列は、対応するタグ相補物の位置での情報転移およびシグナル検出の繰り返しサイクルによって決定される。
【0028】
標的ポリヌクレオチドの集団全体をそのような位置に分類するよりもむしろ個々の空間的な位置に情報をシャトルするタグを用いることによって、少なくとも2つの主要な利点が得られる:第1に、タグは大いにより小さな分子実体であり、その結果、拡散およびハイブリダイゼーションの動態学は大いにより有利である。第2に、空間的に個々の位置でのタグローディングは検出に十分である必要があるだけであり、一方、標的ポリヌクレオチドローディングは生化学的処理および検出の両方に十分である必要がある;従って、はるかに少ないタグが空間的に個々の部位にロードされる必要があるだけである。
【0029】
本発明のこの実施態様の重要な局面は、実質的に全ての異なるポリヌクレオチドが異なるタグを有するように、集団の各々のポリヌクレオチドにオリゴヌクレオチドタグを結合させることである。以下により完全に説明されるように、これはタグ-ポリヌクレオチド結合体の完全なアンサンブルのサンプルを取得することにより達成される。ここで各々のタグは任意のポリヌクレオチドに結合する等しい確率を有する。
【0030】
本発明において用いられるオリゴヌクレオチドタグは、天然のオリゴヌクレオチドと比較して増大した結合強度および特異性を有するサブユニットからなる相補的なオリゴマーの化合物にハイブリダイズし得る。このような相補的なオリゴマーの化合物は、本明細書中では「タグ相補物」と呼ばれる。タグ相補物のサブユニットは、非天然のヌクレオチドアナログのモノマーからなり得るか、またはそれらは3〜6ヌクレオチドの範囲の長さを有するオリゴマーまたはそのアナログを含み得、このオリゴマーは最小限にクロスハイブリダイズするセットから選択される。このようなセットにおいて、セットのオリゴマーおよびセットの任意の他のオリゴマーの相補物からなる二重鎖は、少なくとも2つのミスマッチを含む。換言すれば、最小限にクロスハイブリダイズするセットのオリゴマーは、せいぜい、同じセットの任意の他のオリゴマーの相補物と少なくとも2つのミスマッチを有する二重鎖を形成する。特定の実施態様で利用可能なオリゴヌクレオチドタグの数は、サブユニットが最小限にクロスハイブリダイズするセット由来のオリゴマーである場合、タグ当たりのサブユニットの数およびサブユニットの長さに依存する。後者の場合には、一般に、その数は、タグの長さがnヌクレオチド長のタグに関して4nである全ての可能な配列の数よりも大いに少ない。タグ相補物に好ましいモノマーとしては、ペプチド核酸モノマー、およびその隣接するヌクレオシドとともに3'-NHP(=O)(O-)O-5'結合を有するヌクレオシドホスホラミデートが挙げられる。後者の化合物は、本明細書中でN3'φP5'ホスホラミデートと呼ばれる。好ましくは、オリゴヌクレオチドタグおよびそれらのタグ相補物の両方は、3〜6ヌクレオチド長の天然のオリゴヌクレオチドからなる最小限にクロスハイブリダイズするセットから選択される複数のサブユニットを含む。
【0031】
一般に、本発明のこの実施態様は以下の工程によって実行される:(a)タグのレパートリーからオリゴヌクレオチドタグを集団の各ポリヌクレオチドに結合させて、実質的に全ての異なるポリヌクレオチドが、結合した異なるオリゴヌクレオチドタグを有するようにタグ-ポリヌクレオチド結合体を形成させる工程;(b)ローリングプライマーで選択的に増幅された各々のポリヌクレオチドの末端ヌクレオチドの正体に従って各々のタグを標識する工程;(c)タグポリヌクレオチド結合体からタグを切断する工程;および(d)検出のためのタグ相補物の空間的に制御可能なアレイ上に標識タグを分類する工程。好ましくは、このプロセスは、配列決定される各々のポリヌクレオチドをユニークに同定するのに、またはランダムに産生されたフラグメントからより大きなポリヌクレオチドを再構築するのに十分な回数繰り返される。
【0032】
要約すると、本発明は、DNA配列決定のための新規な「プライマーウォーキング」法を提供する。さらに、本発明は、平行適用のために容易に自動化され、そして大量の配列情報の産生を必要とする操作(例えば、ゲノムDNAフラグメントの大規模配列決定、mRNAおよび/またはcDNAフィンガープリント法、および遺伝子発現パターンの高解像度測定)において特に有用である。
【0033】
定義
オリゴヌクレオチドタグに関して本明細書中で用いられる「相補物」または「タグ相補物」は、オリゴヌクレオチドタグが特異的にハイブリダイズして完全にマッチした二重鎖または三重鎖を形成するオリゴヌクレオチドをいう。特異的ハイブリダイゼーションが三重鎖を生じる実施態様では、オリゴヌクレオチドタグは二本鎖または一本鎖のいずれかであるように選択され得る。従って、三重鎖が形成される場合、用語「相補物」は、一本鎖オリゴヌクレオチドタグの二本鎖相補物または二本鎖オリゴヌクレオチドタグの一本鎖相補物のいずれかを包含することを意味する。
【0034】
本明細書で用いられる用語「オリゴヌクレオチド」は、モノマー対モノマーの相互作用の通常のパターン(例えば、ワトソン−クリック(Watson-Crick)型の塩基対形成、塩基の積み重ね、フーグスティーン(Hoogsteen)または逆フーグスティーン型の塩基対形成など)により標的ポリヌクレオチドに特異的に結合し得る、天然のまたは改変されたモノマーまたは連結物(デオキシリボヌクレオシド、リボヌクレオシド、それらのアノマー型、ペプチド核酸(PNA)などを含む)の直鎖オリゴマーを含む。通常、モノマーは、ホスホジエステル結合またはそのアナログにより連結され、少数のモノマーユニット(例えば3〜4)から数10のモノマーユニットのサイズの範囲のオリゴヌクレオチドを形成する。オリゴヌクレオチドが一連の文字(例えば、「ATGCCTG」)により示される場合はいつも、他に記載されない限り、ヌクレオチドは左から右に5'→3'の順であり、「A」はデオキシアデノシンを示し、「C」はデオキシシチジンを示し、「G」はデオキシグアノシンを示し、および「T」はチミジンを示すことが理解される。ホスホジエステル結合のアナログは、ホスホロチオエート、ホスホロジチオエート、ホスホルアニリデート、ホスホルアミデートなどを含む。天然または非天然のヌクレオチドを有するオリゴヌクレオチドが用いられ得るとき、例えば、酵素によるプロセシングが必要とされる場合、通常、天然のヌクレオチドからなるオリゴヌクレオチドが必要であることは当業者には明らかである。
【0035】
テンプレートへのプライマーアニーリングに関する「伸長可能二重鎖」は、そのようなアニーリングによって形成される二重鎖において、プライマーの3'-末端ヌクレオチドおよび3'-末端から2番目のヌクレオチドが、テンプレートにおける隣接ヌクレオチドとワトソン-クリック塩基対を形成すること、およびその二重鎖がポリメラーゼによるテンプレートに沿ったプライマーの伸長を許容するのに十分安定であることを意味する。この用語は、プライマーとテンプレートとの間に形成された二重鎖に多数のミスマッチが存在し得ることを意図する。
【0036】
二重鎖に関して「完全にマッチした」は、二重鎖を作るポリヌクレオチド鎖またはオリゴヌクレオチド鎖が、各鎖中の全てのヌクレオチドが他鎖中のヌクレオチドとワトソン−クリック塩基対形成を受けるように、互いに二本鎖構造を形成することを意味する。この用語はまた、用いられ得るヌクレオシドアナログ(例えば、デオキシイノシン、2-アミノプリン塩基を有するヌクレオシドなど)の対形成を含む。三重鎖に関しては、この用語は、三重鎖が完全にマッチした二重鎖および第3鎖からなり、ここで、全てのヌクレオチドが、完全にマッチした二重鎖の塩基対とのフーグスティーンまたは逆フーグスティーン会合を受けることを意味する。逆に、二重鎖におけるタグとオリゴヌクレオチドとの間の「ミスマッチ」は、二重鎖または三重鎖におけるヌクレオチドの対またはトリプレット(triplet)がワトソン−クリックおよび/またはフーグスティーンおよび/または逆フーグスティーン結合を受け得ないことを意味する。
【0037】
本明細書中に用いられる「ヌクレオシド」および「ヌクレオチド」は、天然のヌクレオシドおよびヌクレオチドを含み、これは2'-デオキシ型および2'-ヒドロキシル型(例えば、KornbergおよびBaker、DNA Replication、第2版(Freeman, San Francisco, 1992)に記載されたように)を含む。本明細書中に用いられる「天然のヌクレオチド」は、4つの一般の天然のデオキシヌクレオチドA、C、G、およびTをいう。ヌクレオシドに関して「アナログ」は、改変された塩基部分および/または改変された糖部分を有する合成ヌクレオシド(例えば、Scheit, Nucleotide Analogs(John Wiley, New York, 1980);UhlmanおよびPeyman, Chemical Reviews, 90:543-584(1990)などに記載された)を含む。ただし、それらは特異的にハイブリダイズし得る。このようなアナログは、結合特性を増強し、プローブの複雑度を減少し、特異性を増大させるなどのように設計された合成ヌクレオシドを包含する。
【0038】
本明細書中に用いられる「アンプリコン」は、増幅反応の産物を意味する。すなわち、それは、2、3の開始配列から複製される、通常二本鎖の、同一のポリヌクレオチドの集団である。好ましくは、アンプリコンは、ポリメラーゼ連鎖反応(PCR)で産生される。
【0039】
本明細書中で用いられる「複雑度減少ヌクレオチド」は、(i)1より多い天然のヌクレオチドのいずれかと対形成する場合に、同族の天然のヌクレオチド、(すなわちそれが置換する天然のヌクレオチド)を含有する同一の二重鎖と実質的に等価な安定性の二重鎖を形成し得る、そして(ii)その同族の天然のヌクレオチドと実質的に同じ酵素によってプロセスされ得る天然または非天然のヌクレオチドをいう。好ましくは、複雑度減少ヌクレオチドは、DNAポリメラーゼによってプロセスされる場合、縮重性または多義性を示さない。すなわち、複雑度減少ヌクレオチドが、ポリメラーゼによってコピーされているテンプレート中に存在する場合、ポリメラーゼは、複雑度減少ヌクレオチドの部位にユニークなヌクレオチドを取り込ませる。同様に、複雑度減少ヌクレオチド3リン酸がDNAポリメラーゼの基質である場合、それは、単一種のヌクレオチドの部位のみ(すなわち、両方ではなくその相補物の一方または他方)に取り込まれる。候補複雑度減少ヌクレオチドは、簡単なハイブリダイゼーションアッセイ(例えば、融解温度比較で)において、そして試験重合化が従来の配列決定または放射性標識した複雑度減少ヌクレオチドの取り込みによって検査される取り込みアッセイにおいて容易に試験される(例えば、Bessmanら、Proc.Natl.Acad.Sci., 44:633 (1958))。好ましくは、本明細書中で用いられる「実質的に等価な安定性」は、試験13マー二重鎖の融解温度が、Kawaseら、Nucleic Acids Research, 14:7727-7736 (1986)に記載されるように、天然の同族のヌクレオチドを含有する同一の二重鎖の融解温度の20パーセント内であることを意味する。
【0040】
発明の詳細な説明
本発明は、DNA配列決定への「プライマーウォーキング」アプローチを提供する。ここで、特別のセットのプライマーが、テンプレートコピーおよび変異のために用いられる。このセット中の異なるプライマーの数は、複雑度減少ヌクレオチドとプライマーとの組み合わせ使用およびテンプレート変異のプロセスによって最小化される。コピーおよび変異の各サイクル内で、ポリヌクレオチドのヌクレオチドが同定され、そして配列決定用テンプレートが1個短縮化される。テンプレートの短縮化は、事実上、標的配列のヌクレオチドをプライマー結合部位のヌクレオチドに変換する変異から生じる。
【0041】
重要な局面において、本発明は、「バルク」または溶液相生化学プロセスで得られる配列情報を固体相上の個々の空間的に制御可能な部位にシャトルするオリゴヌクレオチドタグを使用することによって、大多数のポリヌクレオチドを平行して配列決定する方法を提供する。空間的に制御可能な部位で産生されたシグナルは、オリゴヌクレオチドタグによって保有される配列情報を伝達する。下記により完全に説明されるように、配列決定は、好ましくは、ローリングプライマーの使用によってヌクレオチドを同定するサイクルおよび標的ポリヌクレオチドを短縮化するサイクルを交互にすることによって実行される。
【0042】
1つの局面において、本発明のオリゴヌクレオチドタグは、最小限にクロスハイブリダイズするセットのサブユニットから選択された複数の「ワード」またはサブユニットを含む。このようなセットのサブユニットは、2つより少ないミスマッチしたヌクレオチドを有する同じセットの別のサブユニットの相補物と二重鎖または三重鎖を形成し得ない。従って、二重鎖を形成するレパートリーの任意の2つのオリゴヌクレオチドタグの配列は、2ヌクレオチド異なるよりも決して「近接」しない。特定の実施態様において、レパートリーの任意の2つのオリゴヌクレオチドタグの配列は、例えば、サブユニットが3つよりも少ないミスマッチしたヌクレオチドを有する同一のセットの別のサブユニットの相補物と二重鎖を形成し得ないように最小限にクロスハイブリダイズするセットを設計することなどによってなお「さらに」離され得る。通常、本発明のオリゴヌクレオチドタグおよびそれらの相補物は、天然のヌクレオチドのオリゴマーであり、それゆえそれらは酵素(例えば、リガーゼ、ポリメラーゼ、ヌクレアーゼ、末端転移酵素など)によって都合良くプロセスされ得る。
【0043】
本発明の別の局面において、タグ相補物は、ポリヌクレオチド標的に対して増強された結合強度および増強された特異性を有する、典型的にはアンチセンス治療薬のために開発された一連の化合物を含む非天然のヌクレオチドモノマーからなる。「オリゴヌクレオチド」の定義において上で記載したように、この化合物は、天然のヌクレオチドの種々の異なる改変(例えば、塩基部分、糖部分、および/またはモノマーからモノマーへの結合の改変)を含む。このような化合物はまた、オリゴヌクレオチドループ、オリゴヌクレオチド「クランプ」、および増強された結合および特異性を促進する同様の構造を含む。
【0044】
ローリングプライマー
好ましくは、ローリングプライマーは、15〜30ヌクレオチド長であり、そして以下の形態を有する:
12... k YY...YN
ここで、Xiは反復サブユニットに好適に配列されたヌクレオチドである;Yは複雑度減少ヌクレオチドまたはそれらの相補物である;そしてNはA、C、G、またはT、あるいはデオキシイノシンのような複雑度減少ヌクレオチドのいずれかの末端ヌクレオチドである。Xiヌクレオチドのセグメント(本明細書中では「テンプレート配置セグメント」と呼ばれる)は、反復サブユニットに好適に配置され、その結果、プライマーは、標的ポリヌクレオチドの第1のヌクレオチドと並列した末端ヌクレオチドを有してプライマー結合部位に正しく登録される。好ましくは、反復サブユニットは、プライマーが1つ以上の反復サブユニット分登録外である場合に、それがテンプレートにアニールされたままであるには不安定すぎるようになるように十分に長い。好ましくは、反復サブユニットは4〜8ヌクレオチド長である。下記でより明白になるように、一連の同一のサブユニットとしてテンプレート配置セグメントを配列することは、ローリングプライマーのセットで必要とされるプライマーの全体の数を減少させる。好ましくは、テンプレート配置セグメントは、2つ以上のヌクレオチドの群から選択され、これらの内の少なくとも1つは使用される複雑度減少ヌクレオチドの相補物である。好ましい実施態様において、下線を付したXkは、オリゴヌクレオチド定方向変異誘発(例えば、Current Protocols in Molecular Biology (John Wiley & Sons, New York, 1995)に十分に記載される技術)によってテンプレートが変異される位置を示す。
【0045】
セグメントYY...YNは、本明細書中では、プライマーの「伸長領域」と呼ばれる。なぜなら、プライマーがテンプレートに沿ってこの末端から伸長されるからである。好ましくは、伸長はポリメラーゼによって実行され、その結果、YY...YNは5'→3'方向である。しかし、この方向は、伸長の他の方法を用いて(例えば、米国特許第5,114,839号に記載されるようにオリゴヌクレオチドブロックを連結することにより)3'→5'であり得る。本発明の重要な特徴は、末端のヌクレオチドNがテンプレート中の隣接するヌクレオチドとワトソン-クリック塩基対を形成する場合にのみ、伸長が起こることである。伸長領域は、たとえXk位置にミスマッチが存在するとしても、テンプレートと安定な二重鎖を形成し得る2よりも多い最小数のヌクレオチドを含む。即ち、好ましい実施態様において、伸長領域とテンプレートとの間の二重鎖は、オリゴヌクレオチド定方向変異誘発を実行するのに十分安定でなければならない。好ましくは、伸長領域は、3〜6のヌクレオチドを含み、そして最も好ましくは4つのヌクレオチドを含む。好ましくは、Yは、デオキシアデノシン(A)およびデオキシイノシン(I)からなる群より選択される。
【0046】
特定の実施態様に必要とされるローリングプライマーの数はいくつかの要因に依存し、これは使用される複雑度減少ヌクレオチドの型、プライマーの長さ、伸長領域の長さ、およびテンプレート配置セグメントの反復サブユニット長を含む。例えば、以下のプライマーのセット(配列番号1〜配列番号6)は、6ヌクレオチド長のGおよびAのサブユニットからなる18ヌクレオチド長のテンプレート配置セグメントを有する。
【0047】
【表1】

Figure 0004789294
YがAまたはIであり、そしてNがA、C、I、またはTである場合、上記のローリングプライマーのセットは、192(=6×23×4)のプライマーを含む。特に、各「YYY」は以下の配列の全てを表す:AAA、AAI、AII、AIA、IAI、IAA、IIA、およびIII。上記の例から理解されるように、テンプレート配置セグメントは、任意のサイクル後に伸長の方向に1ヌクレオチドだけプライマーをシフトさせるために利用可能である。すなわち、サブグループ(5)由来のプライマーがサイクルで使用された場合、使用される次のプライマーはサブグループ(6)から選択され、サブグループ(6)由来のプライマーがサイクルで使用された場合、使用される次のプライマーはサブグループ(1)から選択される(以下同様)。PCRがテンプレートをコピーおよび増幅するのに使用される場合、テンプレートは、事実上、各サイクルで1ヌクレオチド短縮化される。
【0048】
あるいは、伸長領域の結合強度は、末端ヌクレオチドの直ぐ隣りを除いた全ての位置において、GをIに、そしてジアミノプリン(D)をAに置換することによって改善され得る。すなわち、「YYY」の配列の代替的なセットは、DDA、DDI、DGI、DGA、GDI、GDA、GGI、およびGGAを含む。
【0049】
別の実施態様において、テンプレート配置セグメントは、配列決定が進行するときにローリングプライマー結合部位を変異させるための複雑度減少アナログを含み、その結果、より少ないそのようなセグメントが必要とされる。例えば、以下のテンプレート配置セグメントは、全てのテンプレートヌクレオチドをCに変換する伸長領域とともに使用され得る。
【0050】
【表2】
Figure 0004789294
プライマーp1およびp2は、代替的な様式で用いられる。プライマーp1およびp2は両方とも位置1でCをAに、そして位置3でCまたはAをCに変換する。これは、それらがアニールする場合、プライマーのいずれもの末端における非常に安定なGC塩基対の2つのセグメントを維持する。プライマーp2は、反復GTダイマーの内部セグメント内にさらなるデオキシイノシンを含有する。それぞれの反復単位が、相から正確に1ヌクレオチドはずれていることに留意されたい。位置2のデオキシイノシンは、プライマー結合部位を、伸長の方向での1ヌクレオチドのシフトを有してプライマーp1と完全にマッチした二重鎖を形成するプライマー結合部位に変換する。従って、プライマーp1およびp2の使用を交替することによって、各サイクルにおいてプライマーを1ヌクレオチド前進させ得る。
【0051】
ローリングプライマーを用いた配列決定
配列決定の前に、標的ポリヌクレオチドは処理され、その結果、1以上の種類のヌクレオチドがそれらの同族の複雑度減少ヌクレオチドに置換される。好ましい実施態様において、これは、dGTPがdITPに置換されるPCRにおいて標的ヌクレオチドを複製することによって都合良く達成される。次いで、配列決定用のテンプレートは、標的ポリヌクレオチドをプライマー結合部位に結合することによって調製される。代表的には、これは、プライマー結合部位を保有するベクターに標的ポリヌクレオチドを挿入することによって達成される。好ましくは、プライマー結合部位は、標的ポリヌクレオチドに関して3'方向にあり、その結果プライマー伸長がDNAポリメラーゼで実行され得る。このような挿入は、上記のローリングプライマーが使用される場合には、StuIまたはEcl 136IIのような平滑末端切断制限エンドヌクレアーゼを用いて都合良く実行される。これらの酵素は、上記のプライマーに相補的である標的ポリヌクレオチドの始まりに隣接した3塩基の配列を残す。好ましくは、プライマー(本明細書中では「T」プライマーと呼ばれる)は、標的ポリヌクレオチドの他方の末端に配置され、その結果、それはPCRによって増幅され得る。例えば、配列決定は、上記のプライマーの使用を仮定すると、以下に示される4つの別個の反応においてこのようなテンプレート(配列番号9)上で開始され得る。
【0052】
【表3】
Figure 0004789294
ここで「NNNN...NNN」は標的ヌクレオチドを表し、そして「BBBB...BB」はPCRにより配列を増幅するためのTプライマー結合部位の相補物を表す。下線を付した配列は、ローリングプライマーの伸長領域を示す。これらのプライマーのテンプレート配置セグメントは、上記のサブグループ(1)由来のプライマーに対応するように随意に選択された。(本方法を説明するために)ローリングプライマー結合部位に隣接するポリヌクレオチドの配列が「TAIC」であると仮定した場合、反応1のみがアンプリコンの形成を生じ、そしてポリヌクレオチドの最初のヌクレオチドはTとして同定される。好ましくは、増幅の前に、プライマーは、好ましい実施態様において、dATP、dCTP、dITP、およびdTTPの存在下で、Sequenaseのような高忠実度のDNAポリメラーゼで伸長される。例えば、標識プライマーが用いられ、そして伸長産物が伸長しないプライマーから分離される場合、選択的な伸長がまた、単一の容器中で実行され得ることが理解されるべきである。重要な特徴は、その末端ヌクレオチドがテンプレートと正確なワトソン-クリック塩基対を形成するプライマーのみが伸長されることである。好ましくは、伸長の後、反応混合液中のいずれの一本鎖DNAもMung beanヌクレアーゼのような一本鎖ヌクレアーゼで消化される。このような伸長および消化の後に、次いで残りの二本鎖DNAが、好ましい実施態様において、再びdATP、dCTP、dITP、およびdTTPの存在下で増幅され、アンプリコンが生成される。好ましくは、この増幅は、5〜10サイクルのPCRによって達成され、その結果、異常な増幅産物が産生される可能性は非常に低いかまたは全くない。
【0053】
反応1由来のアンプリコンのサンプルは、取り出され、そしてサブグループ(2)由来の以下のプライマーを含有する4つの新たな容器に分割される:
【0054】
【表4】
Figure 0004789294
標的ポリヌクレオチドの最初のヌクレオチドは以前のサイクルで決定されたので、示されるように、サブグループ(2)から、その伸長領域が形態「IIAN」を有するプライマーを選択する。これは、下部鎖の下線を付したTにおけるミスマッチを作製し、これは、オリゴヌクレオチド定方向変異誘発によって生成される任意のアンプリコンにおいてCに変異される。すなわち、プライマーは、アンプリコン中の部位の変異を指向させるオリゴヌクレオチドである。従って、この「T」は、アンプリコンにおいて「C」に変換される。標的の第2のヌクレオチドはAであるので、反応7および反応8は両方ともアンプリコンの生成に導く。単一の標的ポリヌクレオチドのみが現在考慮されているので、いずれのアンプリコンも次のサイクルのためにサンプリングされ得る。下記に十分に説明されるように、複数のポリヌクレオチドが同時に配列決定される場合、さらなる「プール」工程が実行されなければならない。
【0055】
上記のように、2つのアンプリコンの内の1つのサンプルが、形態「IAIN」を有する伸長領域を有するサブグループ(3)由来のプライマーを含有する4つの新たな容器に分配される。
【0056】
【表5】
Figure 0004789294
反応9および10は両方ともアンプリコンを生成する;従って、第3の塩基は、「I」として同定される。次のサイクルのために、次いで、これは、形態「AIAN」を有する伸長領域を有するサブグループ(4)由来のプライマーの選択に導びき、そしてプロセスは継続される。
【0057】
RNA テンプレート選択を用いた配列決定
選択性における有意な増大は、RNAテンプレートおよび逆転写酵素を用いてローリングプライマーを伸長することにより、達成され得る。選択性の獲得は、部分的に、RNAテンプレートが合成された後のヌクレアーゼ消化による所望されないDNAの容易な除去から生じる。この実施態様の一般的なスキームは図1に説明される。配列決定されるべき二本鎖DNA(dsDNA)テンプレート(100)は、例えば、このようなエレメントを含む適切なベクターへのクローニングによって、RNAポリメラーゼプロモーターとローリングプライマー結合部位との間に連結される。標準的なプロトコルを用いて、ベクターは、dsDNAテンプレート(100)およびローリングプライマー結合部位の下流で線状化され、そしてdsDNAテンプレート(100)のRNAコピー(120)および結合部位が、T7 RNAポリメラーゼのようなRNAポリメラーゼを用いて合成される(110)。合成の後、反応混合液は、DNaseで処理されて余分のDNAが除去され、そしてRNAコピーが精製される。精製されたRNAに、適切なローリングプライマー(本明細書中では「第1のプライマー」と呼ばれる)が添加され(130)、そしてRNAテンプレートと伸長可能な二重鎖を形成するローリングプライマーが逆転写酵素で伸長される。このような伸長の後、RNAは、加水分解によって(例えば、加熱によるおよび/または逆転写酵素のRNase H活性による作用による)除去され、そして得られたssDNA(140)が、好ましくはPCRによって増幅される。好ましくは、PCRにおけるプライマーの1つ(本明細書中では「第2のプライマー」と呼ばれる)は、次回の転写のためのプロモーター配列を含み;そしてさらに好ましくは、他のプライマーは、ローリングプライマー結合部位のテンプレート配置セグメントに結合する。
【0058】
この実施態様のためのローリングプライマー(すなわち、第1のプライマー)の好ましいセットは以下の形態を有する:
12...XkIRZNN
ここでX12...Xkは、上記のようなテンプレート配置セグメントであり、Iはデオキシイノシンであり、RはGおよびジアミノプリン(「D」)からなる群より選択され、Zは8-オキソ-2-デオキシアデノシン(「オキソ-A」)および8-オキソ-2-デオキシグアノシン(「オキソ-G」)からなる群より選択され、NはA、C、G、およびTからなる群より選択される。この実施態様において、テンプレートの任意のヌクレオチドが、伸長および増幅工程においてZと塩基対合することによってCまたはTのいずれかに変換される。これはなぜなら、Z位置にオキソ-Aを有するプライマーが選択される場合はいつでも、それはGまたはTのいずれかと塩基対合し得るが、テンプレートとして用いられる場合には、それはTの取り込みのみを許容するからである。同様に、Z位置にオキソ-Gを有するプライマーが選択される場合はいつでも、それはAまたはCのいずれかと塩基対合し得るが、テンプレートとして用いられる場合にはCの取り込みのみを許容する。Rは、単にTまたはCのいずれかとの安定な塩基対を提供する「プレイスセイバー(place saver)」として作用する(ジアミノプリンは、TD塩基対のより大きな安定性のためにTよりも好ましい)。最後に、IはTをCに変換する。明らかに、Gもまたこの位置で使用され得る。上記のように、プライマーp1およびp2のテンプレート配置セグメントが用いられる場合、配列決定に必要とされるローリングプライマーの総数は128(=2×2×2×16)である。
【0059】
上記の形態のローリングプライマーは、従来のケミストリーおよび種々のヌクレオチドアナログについてのホスホルアミダイトモノマー(これらは、例えば、Glen Research (Sterling, VA)から市販されている)を用いて自動化DNA合成機において容易に合成される。
【0060】
サブユニットの最小限にクロスハイブリダイズするセットからのオリゴヌクレオチドタグの構築
上記のように、本発明の重要な実施態様は、Brennerによって、米国特許第5,604,097号;同第5,635,400号;および同第5,654,413号において;そして国際出願第PCT/US96/09513号において(これらは参考として本明細書中に援用される)開示される型のオリゴヌクレオチドタグによる、複数の標的ポリヌクレオチドの同時配列決定を含む。
【0061】
本発明の方法において用いられるオリゴヌクレオチドタグおよびそれらの相補物は、12〜60ヌクレオチドまたは塩基対の長さの範囲であり得;より好ましくは、それらは18〜40ヌクレオチドまたは塩基対の長さの範囲であり;そして最も好ましくは、それらは25〜40ヌクレオチドまたは塩基対の長さの範囲である。アンチセンスモノマーから構築される場合、オリゴヌクレオチドタグおよびそれらの相補物は、好ましくは、10〜40モノマーの長さの範囲であり、より好ましくは、それらは12〜30モノマーの長さの範囲である。最も好ましくは、オリゴヌクレオチドタグは一本鎖であり、そして特異的ハイブリダイゼーションは、タグ相補物とのワトソン-クリック塩基対合を介して生じる。
【0062】
化学合成の後、タグのライブラリーは、増幅のためのプライマー結合領域ならびに切除およびポリヌクレオチドへの結合を容易にする制限エンドヌクレアーゼ認識部位を含むPCRアンプリコンとして都合良く維持される。好ましくは、プライマーの組成は、右および左プライマーがおおよそ同じ融解およびアニーリング温度を有するように選択される。いくつかの実施態様において、タグを含む構築物を選択された領域で一本鎖にする「除去(stripping)」および交換反応の使用を可能にするために、いずれか一方または両方のプライマーおよびタグの他のフランキング配列は、4つの天然のヌクレオチドの内の3つまたはより少ないものからなる。このような反応は、通常、DNAポリメラーゼ(例えば、T4 DNAポリメラーゼ)などの酵素の3'→5'エキソヌクレアーゼ活性を使用し、そしてそれらはSambrookら、Molecular Cloning,第2版 (Cold Spring Harbor Laboratory, New York, 1989)に記載されている。
【0063】
上記のように、タグの重要な使用は、標的ポリヌクレオチドから、タグ相補物を含む固相支持体に情報を「シャトル」するためである。好ましくは、この工程は、二本鎖テンプレートのタグ含有セグメントを切り出すこと(例えば、1つ以上の制限ヌクレアーゼ)、反応混合液からそれを分離すること、その切り出されたタグを変性および標識すること、ならびに検出のために固相支持体にそれを適用することによって実行される。この工程は、標準的な分子生物学的技術を用いる種々の方法で実行され得、それらの内の1つが以下に例示される。同様に、切り出されたタグは、種々の方法で標識され得、それらには放射活性部分、蛍光部分、発色部分、化学ルミネセンスマーカーなどの直接的または間接的結合が含まれる。DNAを標識するためおよびDNAプローブを構築するための方法論の多くの包括的レビューは、本発明のタグを標識することに適用可能なガイダンスを提供する。このようなレビューは、Kricka編、Nonisotopic DNA Probe Techniques (Academic Press, San Diego, 1992); Haugland, Handbook of Fluorescent Probes and Research Chemicals (Molecular Probes, Inc., Eugene, 1992); KellerおよびManak, DNA Probes,第2版(Stockton Press, New York, 1993);およびEckstein編、Oligonucleotides and Analogues: A Practical Approach (IRL Press, Oxford, 1991); Kessler編、Nonradioactive Labeling and Detection of Biomolecules (Springer-Verlag, Berlin, 1992);などを含む。
【0064】
好ましくは、タグは、1つ以上の蛍光色素(例えば、Menchenら、米国特許第5,188,934号;およびBegotら、国際出願第PCT/US90/05565号により開示される)で標識される。
【0065】
タグ相補物のための固相支持体
好ましくは、配列情報の検出は、タグがそれらの相補物にハイブリダイズする空間的に分離した位置で起こる。タグ転移の連続サイクルからのシグナルの検出が、配列決定操作を通して同じタグ相補物位置と関連することが重要である。そうでなければ、シグナルの配列は、タグおよびタグ相補物に対応するポリヌクレオチドの配列の誠実な代表とはならない。この要求は、タグ相補物の空間的に制御可能なアレイを提供することによって満たされる。本明細書中で用いられる「空間的に制御可能な(spatially addressable)」は、特定のタグ相補物の位置が、配列決定操作を通して記録および追跡され得ることを意味する。タグ相補物の正体の知識は重大でない;タグ転移のサイクル間でその位置が同定可能であることのみが重要である。好ましくは、タグ相補物を含有する領域は、分離しており(すなわち、異なるタグ相補物を含有する領域と重複しない)、その結果、シグナル検出はより便利になる。一般に、空間的に制御可能なアレイは、タグ相補物を固相支持体上で結合または合成することによって構築される。
【0066】
本発明での使用のための固相支持体は、広範な形態を有し得、微粒子、ビーズ、および膜、スライド、プレート、ミクロマシーンドチップ(micromachined chip)などを含む。同様に、本発明の固相支持体は、広範な組成を含み得、それは、ガラス、プラスチック、シリコーン、アルカンチオレート誘導体化金(alkanethiolate-derivatized gold)、セルロース、低架橋ポリスチレンおよび高架橋ポリスチレン、シリカゲル、ポリアミドなどを含む。好ましくは、分離した粒子の集団が、各々が同じタグ(および他はなし)の相補的配列の均一のコーティング(または集団)を有するように用いられるか、あるいは、単一支持体または数個の支持体が、各々が同じタグ(および他はなし)への相補的配列の均一のコーティング(または集団)を含む空間的に分離した領域で用いられるかのいずれかである。後者の実施態様では、領域の面積は、特定の適用に従って変化し得、通常、領域は、数μm2(例えば、3〜5)から数百μm2(例えば、100〜500)の面積の範囲である。
【0067】
タグ相補物は、その上でタグ相補物が合成される固相支持体と共に用いられ得るか、あるいは、別々に合成され得、そして使用のために固相支持体に結合され得る。例えば、これは以下に開示される:Lundら、Nucleic Acids Research、16:10861-10880(1988);Albretsenら、Anal.Biochem.、189:40-50(1990);Wolfら、Nucleic Acids Research、15:2911-2926(1987);またはGhoshら、Nucleic Acids Research、15:5353-5372(1987)。好ましくは、タグ相補物は、同じ固相支持体上で合成され、そして同じ固相支持体と共に用いられ得、それは、種々の形態を含み得、そして種々の結合部分を含み得る。このような支持体は、タグ相補物の均一集団が合成される領域の、微粒子もしくはアレイ(array)、またはマトリックスを含み得る。広範な微粒子支持体が、本発明で用いられ得、それは制御細孔ガラス(CPG)、高架橋ポリスチレン、アクリルコポリマー、セルロース、ナイロン、デキストラン、ラテックス、ポリアクロレインなどからなる微粒子を含み、以下の例示的な参考文献中に開示されている:Meth.Enzymol.、A節、11-147頁、第44巻(Academic Press、New York、1976);米国特許第4,678,814号;同第4,413,070号;および同第4,046,720号;ならびにPon、19章、Agrawal(編)、Methods in Molecular Biology、第20巻(Humana Press、Totowa、NJ、1993)。微粒子支持体としては、市販のヌクレオシド誘導体化CPGおよびポリスチレンビーズ(例えば、Applied Biosystems、Foster City、CAから入手可能);誘導体化磁性ビーズ;ポリエチレングリコールでグラフト化されたポリスチレン(例えば、TentaGelTM、Rapp Polymere、Tubingen Germany)などがさらに挙げられる。支持体の特性(例えば、材料、多孔度、サイズ、形状など)、および用いられる結合部分のタイプの選択は、タグが用いられる条件に依存する。例示的な結合部分は、Ponら、Biotechniques、6:768-775(1988);Webb、米国特許第4,659,774号:Baranyら、国際特許出願第PCT/US91/06103号;Brownら、J.Chem.Soc.Commun.、1989:891-893;Damhaら、Nucleic Acids Research、18:3813-3821(1990);Beattieら、Clinical Chemistry、39:719-722(1993);MaskosおよびSouthern、Nucleic Acids Research、20:1679-1684(1992)などに開示されている。以下により十分に記載されるように、タグ相補物が微粒子上に結合または合成される場合、微粒子の集団は、空間的に制御可能なアレイを形成するように固相支持体に固定される。
【0068】
上記のように、タグ相補物はまた、単一の(または数個の)固相支持体上で合成されて、タグ相補物で均一にコーティングされた領域のアレイを形成し得る。すなわち、このようなアレイ中の各領域内で、同じタグ相補物が合成される。このようなアレイを合成するための技術は、以下に開示される:McGallら、国際出願第PCT/US93/03767号;Peaseら、Proc.Natl.Acad.Sci.、91:5022-5026(1994);SouthernおよびMaskos、国際出願第PCT/GB89/01114号;MaskosおよびSouthern(上記で引用);Southernら、Genomics、13:1008-1017(1992);ならびにMaskosおよびSouthern、Nucleic Acids Research、21:4663-4669(1993)。
【0069】
好ましくは、本発明は、同じタグ配列の相補物で均一にコーティングされた微粒子またはビーズを用いて実行される。微粒子支持体、およびそれらの表面へオリゴヌクレオチドを共有結合または非共有結合する方法は、周知であり、以下の参考文献により例示される:BeaucageおよびIyer(上記で引用);Gait(編)Oligonucleotide Synthesis;A Practical Approach(IRL Press、Oxford、1984);ならびに上記の参考文献。一般に、微粒子のサイズおよび形状は重要ではない;しかし、最少の試薬およびサンプルの使用でオリゴヌクレオチドタグの多くのレパートリーの構築および操作を容易にするので、直径数μm(例えば、1〜2μm)から数百μm(例えば、200〜1000μm)の範囲のサイズの微粒子が好ましい。
【0070】
好ましくは、市販の制御細孔ガラス(CPG)またはポリスチレン支持体が、本発明における固相支持体として用いられる。このような支持体は、塩基不安定性のリンカーおよび結合された最初のヌクレオチドを有して入手可能である(例えば、Applied Biosystems(Foster City、CA))。好ましくは、500オングストローム〜1000オングストロームの間の孔サイズを有する微粒子が用いられる。
【0071】
他の好ましい適用では、非多孔性微粒子が、その光学特性のために用いられ、この微粒子は、平面支持体(例えば、顕微鏡スライド)の上で多数の微粒子を追跡する場合、有利に用いられ得る。特に好ましい非多孔性微粒子は、Bangs Laboratories(Carmel, IN)から入手可能であるグリシダルメタクリレート(glycidal methacrylate)(GMA)ビーズである。このような微粒子は、種々のサイズで有用であり、そしてタグまたはタグ相補物を合成するための種々の結合基で誘導体化される。好ましくは、タグ化された微粒子の多量(massively)の平行操作のために、直径5μmのGMAビーズが用いられる。
【0072】
標的ポリヌクレオチドへのタグの結合
本発明の重要な局面は、同じタグが異なるポリヌクレオチドに結合しないように、集団(例えば、cDNAライブラリー)のポリヌクレオチドをタグ化することである。この後者の条件は、タグのレパートリーをポリヌクレオチドの集団に連結し、続いて連結された配列をクローニングおよびサンプリングすることによって本質的に満たされ得る。オリゴヌクレオチドタグのレパートリーは、多数の方法(例えば、直接的な酵素的連結、タグ配列を含むプライマーを用いた増幅(例えば、PCRを介する)など)で、ポリヌクレオチドの集団に連結され得る。最初の連結工程は、タグ−ポリヌクレオチド結合体の非常に大きな集団を生じ、その結果、一般に、単一のタグが、多くの異なるポリヌクレオチドに結合される。しかし、結合体の十分に小さいサンプルをとることによって、「重複」、すなわち2つの異なるポリヌクレオチド上の同じタグ、を得る確率は、無視できるほど小さくすることができる。(サンプル中の同じポリヌクレオチドを有する異なるタグを得ることもまた可能であることに留意されたい。この場合は、単に、ポリヌクレオチドが二回処理(例えば、配列決定)されることに導く。また、遺伝子発現のパターンが分析される場合、mRNA豊富さの差異故に、同一のポリヌクレオチドを有する複数のタグが共通の発生となり、そして予測される)。下記でより十分に説明されるように、サンプル中の重複を得る確率は、ポアソン分布によって推定され得る。なぜならサンプル中の結合体の数は大きいからである(例えば、数千以上のオーダー)。そしてタグレパートリーは大きい(例えば、数万以上のオーダー)ので、特定のタグを選択する確率は小さい。好ましくは、タグレパートリーのサイズは、分析される集団中のポリヌクレオチドの異なる種の数の約100倍である。あるいは、換言すれば、タグレパートリーの複雑度は、好ましくは、分析されるポリヌクレオチドの集団の複雑度の約100倍である。一般に、サンプルが大きければ大きいほど、重複を得る確率は大きくなる。従って、設計トレードオフは、大きなサンプルのタグ−ポリヌクレオチド結合体を選ぶこと(これは、例えば、ショットガン配列決定操作における標的ポリヌクレオチドの十分なカバーを確実にする)と、小さなサンプルを選ぶこと(これは、最小数の重複が存在することを確実にする)との間に存在する。大部分の実施態様では、重複の存在は、単に、さらなるノイズ源を付加するか、または配列決定の場合には、走査およびシグナル処理に僅かな複雑化を付加するに過ぎない。なぜなら、多数の信号を同時に与えるタグ相補物の領域は単純に無視することができるからである。タグをポリヌクレオチドに結合させることに関して本明細書中で用いる「実質的にすべて」という用語は、本質的に重複のない、タグ−分子結合体の集団を得るのに用いられるサンプリング手順の統計的性質を反映することを意味する。タグ−分子結合体の実際の割合に関して、実質的にすべての意味は、タグがどのように使用されるかに依存する。核酸配列決定のためには、好ましくは、実質的にすべては、タグの少なくとも80%がユニークな結合したポリヌクレオチドを有することを意味する。より好ましくは、タグの少なくとも90%がユニークな結合したポリヌクレオチドを有することを意味する。なおより好ましくは、タグの少なくとも95%がユニークな結合したポリヌクレオチドを有することを意味する。そして、最も好ましくは、タグの少なくとも99%がユニークな結合したポリヌクレオチドを有することを意味する。
【0073】
好ましい実施態様において、タグ、配列決定されるべきポリヌクレオチド、プライマー結合部位、および配列を操作するための他のエレメントが、クローニングベクター中に挿入されて、必要なときにサンプリングされ、そして増幅され得る基礎ライブラリーが確立される。例えば、このような構築物は以下の形態を有し得る:
【0074】
【表6】
Figure 0004789294
ここで、「T」またはタグ結合部位および「S」または配列決定プライマー結合部位は、適切なプライマーとともに、クローニングベクターのインサートを増幅するために用いられて、引き続く分析のためのPCRアンプリコンが形成される。PCR増幅および末端ヌクレオチドの同定の工程の後に、切断部位は、アンプリコンからタグを切り出すために用いられる。下記のように、増幅の後、標的ポリヌクレオチドが、同定工程で用いられるヌクレアーゼによる所望ではない切断から保護されることが重要である。好ましくは、これは、メチル化および制限エンドヌクレアーゼの注意深い選択によって達成される。
【0075】
タグ化ポリヌクレオチドの配列決定
集団の標的化ポリヌクレオチドを同時に配列決定するための好ましい実施態様は、図2aに図示される。好ましくは、タグ化ポリヌクレオチドの集団は、dATP、dCTP、dITP、およびdTTPの存在下で上記のようなベクターから増幅されて、Tプライマー結合部位(12)、切断部位(14)(下記に示されるようにこれは任意である)、タグ(16)、切断部位(18)、標的ポリヌクレオチド(20)、およびローリングプライマー結合部位(22)を含有する二本鎖DNA(10)の集団を生じる。
【0076】
最初の集団において、ローリングプライマー結合部位(22)は、伸長領域(24)に対する既知の相補物(例えば、下記の実施例に示されるようなAGG)を含有する。最初の集団のサンプルは、好ましくは、4つの別個の容器(28〜34)に移される(26)。ここでそれらは、伸長領域-AIIA、-AIIC、-AIIG、および-AIITを有する上記のサブグループ(1)のローリングプライマーと組み合わせられる(4つのローリングプライマーは、1つの容器に配置され、そして伸長に関して互いに競合することを許容され得る;しかし、プライマーが別々に使用される場合、エラーはより低いようである)。サブグループ(1)〜(6)のローリングプライマーは、本発明を例証するために本明細書中で用いられる。明白に、ローリングプライマーの多くの代替的な形態が用いられ得る。引き続くサイクルにおいて、以下により完全に記載されるように、転移工程(26)はより複雑になる。なぜなら、4つよりも多い容器(すなわち、本明細書中で例証される実施態様において32(=4×8)まで)が伸長反応に必要とされるからである。二本鎖DNA(10)が適切なローリングプライマーと組み合わされた後、以下の工程(36)が行われる:二本鎖DNAが、例えば、加熱によって変性される;ローリングプライマーがローリングプライマー結合部位にアニールするように温度を低下させる;dATP、dCTP、dITP、およびdTTPの存在下で、Sequenaseのような高忠実度DNAポリメラーゼでプライマーが伸長される;好ましくは、いかなる残存する一本鎖DNAも、例えばMung beanヌクレアーゼのような一本鎖ヌクレアーゼで消化されて、引き続く増幅における残渣一本鎖DNAの干渉の可能性が減少される;Tプライマー添加される;そして二本鎖伸長産物が増幅され、好ましくは5〜10サイクルのPCRで増幅され、それぞれアンプリコンA(38)、アンプリコンC(40)、アンプリコンG(42)、およびアンプリコンT(44)が産生される。
【0077】
一本鎖ヌクレアーゼでの消化の工程に対する代替物、および/または補充物として二本鎖DNA(10)は、メチラーゼで処理され得る(または同等に、5-メチルシトシン三リン酸の存在下で増幅され得る)。このような処置の後、少なくとも2つの伸長反応の産物ではない任意の二本鎖DNAは、切断部位(18)でヘミメチル化または完全にメチル化される。従って、それらの配列上の部位(18)を認識するヌクレアーゼはそれを切断しない。アンプリコンのサンプルが、Tプライマー上のビオチンのような捕獲因子によって取得される場合、ヌクレアーゼで切断部位(18)を切断させることによって、分析のためにタグが放出され得る。しかし、メチル化またはヘミメチル化されている部位は、固相支持体(48)へのタグの適用において疑似的なシグナルを生じるように切断されない。
【0078】
サンプルが各アンプリコンから取得された後、タグは、以下により完全に記載されるように、切断部位(14)および/または(18)によって切り出され、そして標識(46)される。次いで、標識タグは、用いられる標識システム、タグ混合物の複雑度などの要因に依存して、固相支持体(48)上のそれらのタグ相補物に個々に適用されるか、またはプールされ、そして支持体に適用されるかのいずれかである。アンプリコンのサンプルはまた、本発明の方法に従って、さらなる処理(50〜56)のために取得される。最も最近に決定されたヌクレオチドの正体、および現在の伸長領域の正体に依存して、サンプルは、次のサイクルのためのローリングプライマーの入った容器に個々に分注されるか、またはサンプルは1つ以上の他のサンプルと組み合わされ、そして次のサイクルのためのローリングプライマーの入った容器に分注され得る。1つのポリヌクレオチドの場合とは異なり、ポリヌクレオチドの集団が配列決定される場合、全ての容器はほとんどいつも、増幅反応の結論としてアンプリコンを含有する。従って、伸長、消化、および増幅の後、容器28、30、32、および34中のアンプリコンは、それぞれ、開始位置(またはより一般的には、ローリングプライマー結合部位に隣接するヌクレオチド位置)にT、G(またはI)、C、およびAを有する標的ポリヌクレオチドに対応する。この情報、および現在のアンプリコンの伸長領域の配列の知識を用いて、次のサイクルのローリングプライマーが選択され得る。1つのポリヌクレオチドの場合のように、各々の連続サイクルにおいて、ローリングプライマーは、ローリングプライマー伸長の方向にテンプレートに沿って1以上のヌクレオチドだけローリングプライマー結合部位をシフト、または前進するプライマーが選択される。好ましくは、1ヌクレオチドシフトは各サイクルで生じる。上記のように、伸長工程に選択されるローリングプライマーはまた、増幅においてテンプレート中に変異を生じるように働く。この変異は、伸長領域の内部のほとんどのヌクレオチドを、現在のサイクルのローリングプライマーのテンプレート配置セグメントに相補的なヌクレオチドに変化させる。以下の表において、配列決定操作のサイクル2〜4におけるプライマー選択およびアンプリコンプールのパターンが、上記の実施態様に関して説明される。第1のサイクルにおいて、最初のテンプレートが、変性および伸長のために4つの容器に分配される。
【0079】
【表7】
Figure 0004789294
第2のカラムのヌクレオチド間の線の右のヌクレオチドは、アンプリコンを産生するのに用いられるローリングプライマーの末端ヌクレオチドである。一般に、次のサイクルのローリングプライマーを決定するためのアルゴリズムは以下のようである:(i)現在のローリングプライマーの伸長領域の末端ヌクレオチドの末端(第2のカラムの「IIA」配列の最も左の「I」)にヌクレオチドをドロップする、(ii)ヌクレオチドIまたはAのどちらかが、末端ヌクレオチドと塩基対形成したヌクレオチドに相補的であるかを決定する(すなわち、上記の例では:アンプリコンAに対して「A」、アンプリコンCに対して「A」(なぜなら、AはIならびにCと塩基形成するから)、アンプリコンGに対して「I」(なぜならIはCと塩基形成するから)、およびアンプリコンTに対して「I」(なぜならIはAとも塩基形成するから))、(iii)決定されたヌクレオチドIまたはAを末端ヌクレオチドの左に挿入する。この実施態様に関して、伸長領域配列間の変化の一般的パターンは、図2bに説明される。より長い伸長領域がより複雑なパターンを導くが、許容し得る変化を規定する基本的アルゴリズムは同じままである。
【0080】
【表8】
Figure 0004789294
【0081】
【表9】
Figure 0004789294
代表的には、8回目のサイクルで32の反応物が必要となり、配列決定が止まるまで各サイクルで必要とされ続ける。
【0082】
明白に、上記で概説されたさらなる工程は、例えば、最初の伸長産物を適切でない一本鎖DNAおよび/または一本鎖ヌクレアーゼ(用いられた場合には)から分離するために実行される。ポリヌクレオチドおよび他の試薬、PCRのための温度制御などの操作が、市販の研究室ロボット(例えば、Biomek 1000(Beckman Instruments, Fullerton, CA))で実行され得る。
【0083】
ローリングプライマーおよびTプライマーは、Jiら、Anal.Chem. 65: 1323-1328 (1993); Cantorら、米国特許第5,482,836号などによって教示されるように、分離のための三重鎖形成によって、固着された一本鎖オリゴヌクレオチドに結合し得る二本鎖セグメントを有するように構築され得る。従って、例えば、このような一本鎖オリゴヌクレオチドを保有する磁性ビーズは、アンプリコンを捕獲するため、そして例えば、選択的に増幅された二本鎖DNA(他のDNAは増幅されず、それゆえヘミメチル化されたままであるので切断は生じない)の切断部位18でタグを切断するヌクレアーゼを含有する個々の容器にそれらを移すために用いられ得る。好ましくは、Tプライマーは、放出されたタグを捕獲させ、そして都合良く標識し得る5'ビオチンを含有する。例えば、アビジン化磁性ビーズによる捕獲の後、二本鎖セグメントの3'鎖は、タグに隣接するヌクレオチドに対応するデオキシヌクレオシド三リン酸(dNTP)の存在下で、T4 DNAポリメラーゼのような酵素の使用によってタグまではがし戻される。従って、隣接するヌクレオチドが3'末端へ鎖に沿って他に存在しなければ、ポリメラーゼの3'→5'エキソヌクレアーゼ活性は、隣接するヌクレオチドまで3'鎖をはがし戻し、この点で、隣接するヌクレオチドを過ぎてさらにはがすことを防ぐために交換反応が開始される。次いで、タグの3'末端は、伸長反応において標識dNTPで標識され得る。標識の後、非ビオチン化鎖は、変性によって除去され、そして検出のために空間的に制御可能なアレイに適用され得る
標識タグがそれらのタグ相補物にハイブリダイズし、そして検出された後に、タグは、洗浄によって除去され、次のセットのアンプリコン由来の標識タグが適用され得る。
【0084】
空間的に制御可能な部位での検出シグナルを測定するための装置
好ましくは、空間的に制御可能なアレイは、タグ相補物を含有する微粒子を固相表面に固定することによって確立される。光産生シグナル(例えば、化学発光、蛍光など)が使用される場合にはいつでも、このようなアレイ上のハイブリダイズしたタグおよび/または酵素学的事象を検出するために種々の装置が用いられ得る。例えば、国際特許出願PCT/US91/09217、PCT/NL90/00081、およびPCT/US95/01886に記載されるような、走査システムが用いられ得る。好ましくは、タグ相補物を含有する微粒子はフローチャンバーに液体粒子スラリーとしてロードされる。そこで、それらは、基板への微粒子上のDNAの非特異的結合とフローチャンバーの障壁に向かってその粒子を押す穏やかな流動との組み合わせによってその場に保持される。例示的な装置は図3に説明される:フローチャンバー(500)は、標準的ミクロマッチング技術(例えば、Ekstromら、国際特許出願PCT/SE91/00327;Brown、米国特許第4,911,782号;Harrisonら、Anal.Chem. 64: 1926-1932 (1992)など)を用いて、ガラスプレート(506)に液体の入口(502)および出口(504)を有する窩洞をエッチングすることによって調製される。フローチャンバー(500)の寸法は、ロードされた微粒子(508)(例えば、GMAビーズ)が、10〜20万のビーズの緊密に詰められた平面の単層の窩洞(510)に配置され得るような寸法である。窩洞(510)は、エッチングされたガラスプレート(506)上のガラスカバースリップ(512)の陽極結合によって入り口および出口とともに閉ざされたチャンバー中に作製される(例えば、Pomerantz、米国特許第3,397,279号)。その場所でガラスカバースリップを伴って、窩洞(510)は、単層が形成されることを確証するために、微粒子の直径よりも数10パーセント大きな高さを有する。出口(504)に隣接する障壁または棚がガラスプレート(506)に存在し、これは、スラリーの微粒子に対する関門を形成するが、同時にスラリーの液体成分または他の試薬が自由に通過することを許容する。試薬は、自動化DNAおよびペプチド合成機に一般に使用されるように、マイクロプロセッサーにより制御されるバルブブロック(522)を通って、シリンジポンプからフローチャンバーに(514から520)調節される(例えば、Bridghamら、米国特許第4,668,479号;Hoodら、米国特許第4,252,769号;Barstowら、米国特許第5,203,368;Hunkapiller、米国特許4,703,913号;など)。
【0085】
詳細には、ハイブリダイズしたタグは、光源(526)(これは、レーザー、水銀アークランプなどであり得る)からの照射光線(524)でその蛍光標識を励起することにより検出される。照射光線(524)は、フィルター(528)を通過し、そしてフローチャンバー(500)中のタグ相補物に特異的にハイブリダイズしたタグ相補物上の蛍光標識を励起する。生じる蛍光(530)は、共焦顕微鏡(532)により集められ、フィルター(534)を通過させられ、そしてCCDカメラ(536)に向けられる。これは、ワークステーション(538)による処理および解析のためにビーズアレイの電子画像を作製する。好ましくは、約25 nM濃度のタグは、1分あたり1〜2μLの流速で、10分間、20℃で、50 mM NaCl、3mM Mg、10 mM Tris-HCl(pH 8.5)からなるハイブリダイゼーション緩衝液中でフローチャンバーを通過させられ、その後、タグにより保有される蛍光標識は照射され、そして蛍光は収集される。タグは、ハイブリダイゼーション緩衝液を、1分あたり1〜2μLの流速で、55℃で、10分間フローチャンバーを通過させることにより、タグ相補物から融解される。
【0086】
配列決定適用において、微粒子は、種々の方法で基板の表面に固定され得る。
固定は、微粒子が、顕著な損失なく、試薬への曝露および洗浄の連続的なサイクルを行わせるのに十分に強力であるべきである。基板がガラスであるとき、その表面は、市販の試薬(例えば、Pierce Chemical)を用いて、アルキルアミノリンカーで誘導体化され得、これは次に、再び従来のケミストリーを用いて、アビジンに架橋され、アビジン化された表面を形成し得る。ビオチン部分は、多くの方法で微粒子に導入され得る。
【0087】
本発明の方法を実施するためのキット
本発明は、本発明の種々の実施態様を実施するためのキットを含む。好適には、本発明のキットは、本発明による伸長および増幅を実施するためのローリングプライマーのセットを含む。キットはまた、固相支持体に付着されたタグ相補物のレパートリーを含み得る。さらに、本発明のキットは、対応するタグのレパートリー(例えば、ソートされるべきポリヌクレオチドを増幅するためのプライマーとして、またはクローニングベクターのエレメントとして)を含み得る。好適には、タグ相補物のレパートリーは、微粒子に結合される。キットはまた、酵素的プロセシングのための適切な緩衝液、検出ケミストリー(例えば、タグを標識するための蛍光または化学ルミネセンス成分など)、使用説明書、プロセシング酵素(例えば、リガーゼ、ポリメラーゼ、トランスフェラーゼなど)を含み得る。配列決定のための重要な実施態様において、キットはまた、プロセシングのために微粒子を固定するための、アビジン化された顕微鏡スライドまたはマイクロタイタープレートのような基板を含み得る。
【0088】
【実施例】
実施例1
タグライブラリーの構築
例示的なタグライブラリーを以下のように構築して、以下の式により規定される、ヌクレオチドA、G、およびTの化学合成9ワードタグを形成する:
【0089】
【表10】
Figure 0004789294
ここで、「[4(A,G,T)9]」は、各タグがA、G、およびTの9個の4マーワードからなるタグ混合物を示し;そして「p」は5'ホスフェートを示す。この混合物を、以下の右および左プライマー結合領域(配列番号10および配列番号11)に連結する:
【0090】
【表11】
Figure 0004789294
右および左プライマー結合領域を上記タグ混合物に連結し、その後、連結構造の一本鎖部分をDNAポリメラーゼで充填し、次いで、以下に示す右および左プライマーと混合し、そして増幅してタグライブラリーを得る。
【0091】
【表12】
Figure 0004789294
左プライマー結合領域の下線部分はRsrII認識部位を示す。右プライマー結合領域の最も左の下線領域は、Bsp120I、ApaI、およびEcoO109Iの認識部位、ならびにHgaIの切断部位を示す。右プライマー結合領域の最も右の下線領域は、HgaIの認識部位を示す。必要に応じて、右または左プライマーは、(従来の試薬、例えば、Clontech Laboratories, Palo Alto, CAから入手可能な試薬を用いて)結合したビオチンを有して合成され、増幅および/または切断後の精製を容易にし得る。
【0092】
実施例2
cDNA 「サイン (signature) 」配列決定のためのタグ - ポリヌクレオチド結合体のプラスミドライブラリーの構築
cDNAを、mRNAのポリA領域の境界でアンカーしたpGGCCCT15(AまたはGまたはC)を第1鎖の合成のためのプライマーとして、そしてN8(AまたはT)GATCを第2鎖の合成のためのプライマーとして用いて、従来のプロトコルによりmRNAサンプルから生成する。すなわち、両方は縮重プライマーであり、その結果、第2鎖プライマーは2つの形態で存在し、そして第1鎖プライマーは3つの形態で存在する。第2鎖プライマー中のGATC配列はMboIの認識部位に対応し;他の4塩基認識部位は同様に使用され得る(例えば、BamHI、SphI、EcoRIなどの認識部位)。第2鎖プライマーの認識部位に隣接するAおよびTの存在は、除去(stripping)および交換反応を次の工程で使用して、「GGCCC」の5塩基5'突出を生じさせ得ることを確実にする。第1鎖プライマーをmRNAサンプルにアニールし、そして逆転写酵素で伸長し、その後、RNA鎖を逆転写酵素のRNase H活性により分解し、一本鎖cDNAを残す。第2鎖プライマーを、従来のプロトコルを用いて、アニールし、そしてDNAポリメラーゼにより伸長する。第2鎖合成後、得られたcDNAを、製造者のプロトコルを用いて、CpGメチラーゼ(New England Biolabs, Beverly, MA)でメチル化する。次いで、cDNAの3'鎖を、dATPおよびdTTPの存在下でT4 DNAポリメラーゼを用いて、上記の除去および交換反応によりその末端を削除し、その後、cDNAを、予めHgaIで切断した実施例1のタグライブラリーに連結して、以下の構築物を得る:
【0093】
【表13】
Figure 0004789294
別に、以下のクローニングベクター(配列番号12)を、例えば、Bluescriptファージミド(Stratagene, La Jolla, CA)のような市販のプラスミドから出発して、構築する。
【0094】
【表14】
Figure 0004789294
ローリングプライマー結合部位は、上記のサブグループ(1)のローリングプライマーに対応する。プラスミドをPpu MIおよびPmeIを用いて切断し(挿入物が配向されるようにRsrII適合性末端および平滑末端を得)、次いでDAMメチラーゼでメチル化する。タグ含有構築物をRsrIIで切断し、次いで開環プラスミドに連結し、その後、結合体をMboIおよびBamHIで切断して,プラスミドを連結および閉環させる。次いで、プラスミドを、増幅し、そして本発明による伸長および増幅のためのテンプレートとしての使用のために単離する。
【0095】
実施例3
cDNA ライブラリーのサイン配列決定
実施例2において構築したプラスミドを、上記のローリングプライマーおよび以下のTプライマー(配列番号13)とともに、伸長産物およびアンプリコンを生成させるために使用する:
【0096】
【表15】
Figure 0004789294
ここで、Iは、Tプライマーおよびローリングプライマーのアニーリング温度および融解温度の釣り合いをとるために付加したデオキシイノシンである。好ましくは、アニーリング温度は、約55℃である。明らかに、多数の他の配列が、本発明の実施において用いられ得る。上記のローリングプライマーが用いられる。
【0097】
Tプライマー結合部位からローリングプライマー結合部位を含むセグメントを、実施例2のプラスミドから切り出し分離する。(これは、当業者に公知の種々の方法で、例えば、セグメントに隣接する制限部位を含むようにプラスミドを加工して、または単純にPCRにより直接増幅することにより、達成され得る)。デオキシグアノシンをデオキシイノシンで置換した後(例えば、dITPの存在下でのPCRにより)、セグメントを4つの容器に小分けし、変性し、そして適切なローリングプライマーを添加する。条件を、ローリングプライマーのアニーリングを可能にするように調節し、その後プライマーを、Sequenaseなどの高忠実度ポリメラーゼを用いて、dATP、dCTP、dITP、およびdTTPの存在下で、製造者のプロトコルを使用して、伸長する。残りの一本鎖DNAを一本鎖ヌクレアーゼ(例えば、Mung beanヌクレアーゼ)で消化する。必要に応じて、二本鎖DNA伸長産物は、例えば、三重鎖の形成(例えば、Tプライマー結合領域、および磁性ビーズに付着された適切な一本鎖相補物の間)を介する捕獲により、反応混合液から分離され得る。
【0098】
二本鎖DNAを、Tプライマー(および、分離工程が使用された場合はローリングプライマー)と組み合わせ、そしてdATP、dCTP、dITP、およびdTTPの存在下での5〜10サイクルのPCRにより増幅して、4つの最初のアンプリコンを形成する。これらのサンプルを合わせ、そして伸長の次のサイクルのための適切なローリングプライマーとともに容器中に再分配する。サンプルをまた分析のために抜く。
【0099】
好ましくは、分析のためのサンプルを、Sプライマーと三重鎖を形成する一本鎖配列を有する磁性ビーズ上に別々に捕獲する。次いで、ビーズを、ApaI(これは、タグを標的ポリヌクレオチドから切断する)を含有する反応混合液に移す。タグを含む遊離鎖(配列番号14)を、次に、アビジンでコートした磁性ビーズによりそのビオチン化Tプライマーを介して捕獲し、そして反応容器に移す。ここで、その3'末端を、T4 DNAポリメラーゼおよびdGTPの存在下で、以下に示すように除去する:
【0100】
【表16】
Figure 0004789294
ここで、dUTP*は標識dUTPを表し、そしてddATPはジデオキシアデノシン三リン酸を表す。好ましくは、dUTPを、4つのアンプリコンの各々について、別々のスペクトル的に解像可能な蛍光色素で標識する。各々のアンプリコンについての遊離タグ(配列番号15)を混合し、そしてその相補物へのハイブリダイゼーションおよび検出のための空間的に制御可能なアレイに、適用される。
【0101】
実施例4
RNA への変換を伴う標的ポリヌクレオチドの配列決定
この実施例では、テンプレートのRNAへの循環的変換を用いる実施態様により、dsDNAテンプレートを、ローリングプライマーを用いて配列決定する。以下のベクター(配列番号16)を標準的なクローニングベクター(例えば、pUC19)から、T7プロモーターエレメント(二重下線)およびローリングプライマー結合部位(一重下線)をポリリンカー領域の示された制限部位に挿入することにより、調製する:
【0102】
【表17】
Figure 0004789294
標的ポリヌクレオチドのBamHI部位への挿入後、図2aの開始テンプレート(200)を得る。ベクターをHinD IIIで切断することにより線状化した後、RNA転写が生じる。図2aおよび2bは、プロセスを8サイクル行う場合に、テンプレートおよびローリングプライマー結合部位の配列において生じる変化を示す。各サイクルにおいて、テンプレート中の1つのヌクレオチドを同定する。矢印(210)は、変異が生じるヌクレオチド位置を示し、そして「変換されたテンプレート」の二重下線ヌクレオチドは、生じる変化を示す。この実施例において、示された伸長領域を有する、上記のp1およびp2プライマーを、逆転写酵素(Promega, Madison, WI)とともに用いる。伸長領域中の小文字「a」は、オキソ-Aを示し、そして伸長領域中の小文字「g」はオキソ-Gを示す。増幅工程を、T7プロモーターエレメント(下線)を含む正方向プライマー(以下に示す)ならびに以下のp1およびp2逆方向プライマーを使用するPCRを用いて実施する:
【0103】
【表18】
Figure 0004789294
RNAを、dsDNAテンプレートから、RiboMax RNA生産システム(Promega, Madison, WI)を用いて、製造者のプロトコルを使用して生成する。簡潔に記載すると、50μl反応容量中で、0.1 pmolのdsDNAテンプレートを、30 U/μl T7 RNAポリメラーゼ、1.5 U/μlヒト胎盤リボヌクレアーゼインヒビター、および19 U/μl無機ピロホスファターゼと合わせ、そして混合液を37℃で2〜4時間、転写緩衝液(80 mM HEPES-KOH(pH 7.5)、2.4 mM MgCl2、2mMスペルミジン-HCl、40 mM DTT、および各々7.5 mMの4つのリボヌクレオシド三リン酸)中でインキュベートする。47μl H2Oおよび1μlの100 mM MnCl2を添加し、65℃で5分間加熱した後、2μl(4.2 U)のDNaseI(U.S. Biochemical)を添加し、そして混合液を37℃で30分間インキュベートする。次いで、RNAを、反応混合液から、QIAGEN(Santa Clarita, CA)RNA精製システム(溶出容量30μl)を用いて精製する。
【0104】
4つの別々の逆転写反応混合液を形成する。各々は1〜10 pmolアリコートの転写されたRNAおよび5pmolの、フルオレセイン(例えば、FAM(Perkin-Elmer Corp.Applied Biosystems Division, Foster City, CAから入手可能である))で標識した適切なローリングプライマーを含有する。RNAを変性するために65℃に5分間加熱した後、反応混合液を氷上で冷却し、そして逆転写酵素(0.1 U/μl)およびRNaseインヒビター(0.85 U/μl)を、50 mM Tris-HCl(pH 8.1)、8mM MgCl2、50 mM NaCl、10 mM DTT、および各々25〜50μMの4つのデオキシヌクレオシド三リン酸からなる緩衝液に添加し、その結果10μlの反応容量を得る。反応混合液を50〜55℃で5分間インキュベートし、その後、それらを95℃で5分間インキュベートし、それによりいかなる残存するRNAをも効果的に破壊する。4つの反応混合液は、それぞれ3'末端A、C、G、およびTを有するローリングプライマーに対応する。従って、各々のサイクルにおいて、4つの反応液の1つのみが、ssDNA伸長産物の合成を生じる。反応成分をゲル電気泳動により分離することによって、産物を同定し、その後、伸長産物を含有するバンドを切り出し、そしてssDNAを回収する。
【0105】
上に列挙するプライマーを使用する従来のPCRにおいてssDNA伸長産物を増幅することにより、dsDNAテンプレートを再形成する。
【0106】
実施例5
RNA テンプレート上でのプライマー選択に対する dNTP 濃度の効果
この実施例では、異なるデオキシヌクレオシド三リン酸濃度の、プライマー選択に対する効果を、3サイクルのRNA合成、プライマー選択、および増幅を介して検討した。伸長反応に4つのプライマー各々の混合物を用いた以外は、各サイクルの工程を、実施例4に記載のように実施した。その結果、3'末端A、C、G、およびTを有するプライマーは、示された濃度のdNTPにおいて、逆転写酵素による伸長について、互いに競合した。図5a〜5cに示す結果は、約50μM以下のdNTP濃度が、逆転写酵素によるプライマー伸長における最大の選択性を導くことを示す。図5aについては、正確なプライマーは以下のとおりであった:
【0107】
【表19】
Figure 0004789294
図5bについては、正確なプライマーは以下のとおりであった:
【0108】
【表20】
Figure 0004789294
図5cについては、正確なプライマーは以下のとおりであった:
【0109】
【表21】
Figure 0004789294
【0110】
【発明の効果】
本発明によって、ポリヌクレオチドの配列を決定するための新規な方法およびアプローチが提供される。
【0111】
【配列表】
Figure 0004789294
Figure 0004789294
Figure 0004789294
Figure 0004789294
Figure 0004789294
Figure 0004789294
Figure 0004789294
Figure 0004789294
Figure 0004789294
Figure 0004789294

【図面の簡単な説明】
【図1】図1は、RNAテンプレート選択を用いる好ましい実施態様の工程を説明する模式図である。
【図2a】図2aは、複数のタグ化ポリヌクレオチドの同時分析を用いる本発明の好ましい方法の工程を説明する模式図である。
【図2b】図2bは、現在の工程のローリングプライマー伸長領域の同定に基づいて選択される引き続く工程のためのローリングプライマーの伸長領域を説明する模式図である。
【図3】図3は、タグ相補物の空間的に制御可能なアレイ上の標識タグを検出するための装置を説明する模式図である。
【図4a】図4aは、本方法の好ましい実施態様の連続的な工程においていかにして配列決定用テンプレートが変化するかを説明する模式図である。
【図4b】図4bは、本方法の好ましい実施態様の連続的な工程においていかにして配列決定用テンプレートが変化するかを説明する模式図である。
【図5a】図5aは、逆転写酵素によるRNAテンプレート上のローリングプライマー伸長の選択性におけるdNTP濃度の影響を説明する模式図である。
【図5b】図5bは、逆転写酵素によるRNAテンプレート上のローリングプライマー伸長の選択性におけるdNTP濃度の影響を説明する模式図である。
【図5c】図5cは、逆転写酵素によるRNAテンプレート上のローリングプライマー伸長の選択性におけるdNTP濃度の影響を説明する模式図である。
【符号の説明】
10 二本鎖DNA
12 プライマー結合部位
14 切断部位
16 タグ
18 切断部位
20 標的ポリヌクレオチド
22 ローリングプライマー結合部位
24 伸長領域
28 容器
30 容器
32 容器
34 容器
38 アンプリコンA
40 アンプリコンC
42 アンプリコンG
44 アンプリコンT
48 固相支持体
210 変異が生じるヌクレオチド位置
500 フローチャンバー
502 入口
504 出口
506 ガラスプレート
510 窩洞
512 ガラスカバースリップ
514 シリンジポンプ
522 バルブブロック
524 照射光線
526 光源
528 フィルター
530 蛍光
532 共焦顕微鏡
534 フィルター
536 CCDカメラ
538 ワークステーション[0001]
BACKGROUND OF THE INVENTION
The present invention relates generally to methods of DNA sequencing and analysis, and more particularly to methods of sequencing every base by continuous extension of oligonucleotide primers.
[0002]
[Prior art]
Large scale sequencing projects typically involve the production of a library of contiguous smaller clones of the portion of the polynucleotide whose sequence is to be determined. Genomic DNA is fragmented and inserted into a yeast artificial chromosome (YAC) or cosmid, which insert is then fragmented and inserted into a sequencing phage or plasmid vector (see, eg, Hunkapiller et al. Science, 254: 59-67 (1991)). Large-scale sequencing projects can be done with either so-called “directed” or “random” strategies, but both approaches are for sequencing by one or another variation of the Sanger chain termination method. Including at least one or two laborious steps that are prepared.
[0003]
Many proposals have been made to reduce or eliminate these labor-intensive steps. For example, one directional strategy is the first round of sequencing with vector-specific “universal” primers, followed by repeated cycles of synthesis of new sequencing primers generated from the just acquired sequence information and Subsequent new sequencing with new primers. In this manner, the template can be “walked” along a relatively large sequencing template with a sequence of newly determined primers without the need to fragment and subclone the template. The disadvantage of such an approach is that it is difficult to obtain a new primer in each cycle to perform the next round of extension. The process becomes unbearably slow while waiting for the next primer to be synthesized or, for example, 1 x 10 for a 15 nucleotide long primer9Either becomes impractical due to the need to maintain a library of primers of all possible sequences that can be more. Proposals have been made that require primers constructed from libraries of shorter oligonucleotides (eg, pentamers or hexamers) to alleviate this difficulty (eg, Kotler et al., Proc. Natl. Acad. Sci., 90: 4241-4245 (1993); Kieleczawa et al., Science, 258: 1787-1791 (1992)). However, even a hexamer requires a library of at least 4096 oligonucleotides.
[0004]
In addition to template preparation problems, as described above, both directed and random approaches require the generation of a set of labeled DNA fragments, each fragment having a common origin and terminating at a known base. The Sanger chain termination method of sequencing is used. The set of fragments is typically separated by high resolution gel electrophoresis. They must have the ability to distinguish very large fragments that differ in size below a single nucleotide. Unfortunately, some significant technical issues are the efficiency of the Sanger-based approach to adopt longer sequences or large-capacity sequencing without large capital and labor investments. Seriously hindering scale-up. These issues include: i) gel electrophoresis separation processes that are labor intensive and difficult to automate, and excessive variability in data analysis (eg, band broadening due to temperature effects, DNA sequencing) Secondary compression in fragments, heterogeneity in separated gels, etc.); ii) its properties (eg processivity, fidelity, polymerization rate, chain terminator incorporation rate, etc.) are often sequence dependent Certain nucleic acid polymerases; iii) detection and analysis of DNA sequencing fragments that are typically present in fmol amounts in spatially overlapping bands in the gel; iv) hundreds of labeled moieties that are not concentrated in a single homogeneous phase Low signal due to distribution in spatially separated bands; and v) for single-lane fluorescence detection, appropriate emission and absorption properties, quantum yield, The availability of dyes with spectral decomposition and the like. For example, Trainor, Anal. Biochem., 62: 418-426 (1990); Connell et al., Biotechniques, 5: 342-348 (1987); Karger et al., Nucleic Acids Research, 19: 4955-4962 (1991); Fung et al. No. 4,855,225; and Nishikawa et al., Electrophoresis, 12: 623-631 (1991).
[0005]
(I) does not require high resolution electrophoretic separation of DNA fragments, (ii) reduces the number of templates required in large-scale sequencing projects, and (iii) simultaneous or parallel to multiple target polynucleotides Significant advances in sequencing technology can be achieved if alternative approaches that are amenable to application become available for sequencing DNA.
[0006]
[Problems to be solved by the invention]
An object of the present invention is to provide a novel method and approach for determining the sequence of a polynucleotide.
[0007]
Another object of the present invention is to provide a novel “primer walking” approach for sequencing that requires few primers to perform.
[0008]
Yet another object of the present invention is to provide methods and kits for reducing the number of templates required for large scale sequencing projects.
[0009]
Another object of the present invention is to provide a method for rapid analysis of gene expression patterns in normal and diseased tissues and cells.
[0010]
A further object of the invention is a method for simultaneously analyzing and / or sequencing a population of thousands of different polynucleotides (eg, a sample of polynucleotides from a cDNA library or a sample of fragments from a segment of genomic DNA). , Kits, and devices.
[0011]
Yet another object of the present invention is to provide methods, kits and devices for identifying populations of polynucleotides.
[0012]
Another object of the present invention is to provide a method for sequencing segments of DNA in a size range corresponding to representative cosmid or YAC inserts.
[0013]
[Means for Solving the Problems]
The present invention relates to a method for determining the nucleotide sequence of a polynucleotide. The method includes: (a) providing a set of primers, each primer of the set having a terminal nucleotide, a template placement segment, and an extension region containing one or more complexity-reducing nucleotides. (B) forming a template containing a primer binding site and a polynucleotide, wherein the primer binding site is complementary to at least one primer of the set; (c) the primer binding of the extension region of the template Forming an amplicon from the template by amplifying a double-stranded DNA selectively formed by extending a primer from the set to form a duplex perfectly matched to the site; (d) an amplifier The terminal nucleotide of the extension region of the primer by identifying the recon (E) mutating the primer binding site of the template and shifting the primer binding site by one nucleotide in the direction of extension; and (f) steps (c) to (c) until the nucleotide sequence of the polynucleotide is determined. It is a method including the process of repeating (e).
[0014]
In the above method, the amplicon can be formed by amplifying double-stranded DNA by polymerase chain reaction.
[0015]
In the method, the complexity-reducing nucleotide is deoxyinosine, and the polymerase chain reaction and extension to form double-stranded DNA are deoxyadenosine triphosphate, deoxycytidine triphosphate, deoxyinosine triphosphate, and thymidine. It can be carried out in the presence of triphosphate.
[0016]
In the above method, the step of mutating the primer binding site of the template extends the double-stranded DNA with a primer containing a nucleotide whose template placement segment is mismatched with an adjacent nucleotide in the primer binding site of the double-stranded DNA; This is then done by amplification, whereby the identity of adjacent nucleotides can be altered by oligonucleotide directed mutagenesis using primers.
[0017]
The present invention also provides a method for determining the nucleotide sequence of a polynucleotide comprising: (a) providing a first set of primers, wherein each first primer in the set is a 3′-terminal nucleotide; A template positioning segment and an extension region containing one or more complexity-reducing nucleotides; (b) two containing a first primer binding site, a promoter, a polynucleotide, and a second primer binding site Providing a stranded DNA template, wherein the first primer binding site can form an extensible duplex with at least one first primer; (c) an RNA polymerase that recognizes a promoter; Using to produce a population of RNA transcripts from a double-stranded DNA template; (d) a duplex that can be extended therewith Mutating the first primer binding site in the RNA transcript by extending the first primer to form, so that the first primer binding site is shifted by one nucleotide in the direction of extension; And a step of forming a single-stranded DNA template; (e) a step of forming an amplicon from the single-stranded DNA template; and (f) identification of the amplicon to elongate to form a single-stranded DNA template. Identifying a 3 ′ terminal nucleotide of the first primer; (g) repeating steps (b) to (f) until the nucleotide sequence of the polynucleotide is determined.
[0018]
In the above method, producing the population of RNA transcripts may further comprise removing DNA from the population.
[0019]
In the above method, the amplicon can be formed by amplifying double-stranded DNA by polymerase chain reaction.
[0020]
In the above method, the one or more complexity-reducing nucleotides of the extension region of the first primer consist of 2'-deoxyinosine, 8-oxo-2'-deoxyadenosine, and 8-oxo-2'-deoxyguanosine. It can be selected from a group.
[0021]
In the above method, removing DNA from the population of RNA transcripts can include treating the population with DNase.
[0022]
In the above method, the RNA polymerase may be T7 RNA polymerase.
[0023]
The invention also provides an oligonucleotide primer defined by the following formula:
5'-X1X2... XkIRZNN
X1X2... XkEach Xi is i = 1, 2,... K, and Xi is a group consisting of 2′-deoxyadenosine, 2′-deoxycytosine, 2′-deoxyguanosine, thymidine, and 2′-deoxyinosine An oligonucleotide as selected from;
I is 2'-deoxyinosine;
R is selected from the group consisting of diaminopurine, 2'-deoxyguanosine, and thymidine;
Z is selected from the group consisting of 8-oxo-2'-deoxyadenosine and 8-oxo-2'-deoxyguanosine;
N is selected from the group consisting of 2′-deoxyadenosine, 2′-deoxycytosine, 2′-deoxyguanosine, and thymidine;
k relates to oligonucleotide primers in the range of 8-30.
[0024]
In the above primer, X1X2... XkCan be defined by:
5 '-(G)iI (GT)j(T)r(G)m
Or
5 '-(G)iI (TG)j(T)r(G)m
Where: G is 2'-deoxyguanosine, T is thymidine, I is 2'-deoxyinosine, i is an integer between 3 and 8; j is between 3 and 5 R is an integer between 3 and 6; and m is an integer between 3 and 8.
[0025]
DETAILED DESCRIPTION OF THE INVENTION
The methods of the present invention achieve these and other objectives by selective extension along the template by template mutations and repetitive cycle nucleotide identification by primer advancement. An important feature of the present invention contains complexity-reducing nucleotides to reduce the number of primers required to anneal to all possible primer binding sites on the sequencing template. Providing a set of primers (referred to herein as “rolling primers”). Another important feature of the present invention is the systematic replacement of at least one of the four nucleotides in the target polynucleotide with a cognate complexity-reducing nucleotide or its complement. Sequencing is initiated by annealing a rolling primer that differs only in its terminal nucleotide to the primer binding site of the sequencing template, so that only the rolling primer whose terminal nucleotide forms a complete complement with the template is the extension product. Lead the formation of. After amplifying the double stranded extension product to form an amplicon, the terminal nucleotide, and hence its complement in the template, is identified by the identity of the amplicon. For example, in a simple embodiment, terminal nucleotides can be identified by the presence or absence of amplicons in four containers used for separate extension and amplification reactions. The primer binding site of the successfully amplified polynucleotide template is then mutated, for example, by oligonucleotide-directed mutagenesis, so that the subsequent rolling primer is one nucleotide compared to the binding site of the previous rolling primer. Can be selected from a set that forms a duplex that perfectly matches the mutant template at a site that only shifts in the direction of extension. The selective extension, amplification and identification steps are then repeated. In this manner, the primer “rolls” along the polynucleotide during the sequencing process and moves one base at a time along the template in each cycle.
[0026]
In general, this aspect of the invention is performed in the following steps: (a) providing a set of primers (ie, rolling primers), wherein each primer in the set is reduced by one or more complexity Having an extension region comprising a nucleotide and a terminal nucleotide; (b) forming a primer binding site and a template comprising a polynucleotide to be sequenced, wherein the primer binding site is an extension region of at least one primer of the set (C) annealing the primer from the set to the primer binding site, where the extension region of the primer forms a duplex that perfectly matches the template and forms a double-stranded DNA Extend the primer in such a way that (d) double-stranded DNA is formed to form an amplicon. (E) identifying the terminal nucleotide of the extension region of the primer by the identity of the amplicon; (f) mutating the primer binding site of the template so that the primer binding site is one or more in the direction of extension. (C) repeating steps (c)-(f) until the nucleotide sequence of the polynucleotide is determined;
[0027]
An important feature of the present invention is that the method can be applied in parallel to many different polynucleotides through the use of oligonucleotide tags. In accordance with this aspect of the invention, each polynucleotide of the population is bound to an oligonucleotide tag for transferring sequence information to a tag complement on a spatially addressable array of such complements. . That is, a unique tag is copied and attached to each polynucleotide of the population that can be used to shuttle sequence information to its complement at a fixed location on the array of such complements. After the tag hybridizes with its complement, a signal is generated indicating the transferred sequence information. The sequence of the tagged polynucleotide is determined by repeated cycles of information transfer and signal detection at the corresponding tag complement location.
[0028]
By using tags that shuttle information to individual spatial locations rather than categorizing the entire population of target polynucleotides into such locations, at least two major advantages are obtained: It is a much smaller molecular entity, so diffusion and hybridization kinetics are much more advantageous. Secondly, tag loading at spatially individual positions need only be sufficient for detection, while target polynucleotide loading needs to be sufficient for both biochemical processing and detection; Therefore, far fewer tags need only be loaded into individual sites in space.
[0029]
An important aspect of this embodiment of the invention is to attach an oligonucleotide tag to each polynucleotide of the population such that substantially all different polynucleotides have different tags. As described more fully below, this is accomplished by obtaining a sample of the complete ensemble of tag-polynucleotide conjugates. Here, each tag has an equal probability of binding to any polynucleotide.
[0030]
The oligonucleotide tags used in the present invention can hybridize to complementary oligomeric compounds consisting of subunits having increased binding strength and specificity compared to natural oligonucleotides. Such complementary oligomeric compounds are referred to herein as “tag complements”. The subunits of the tag complement may consist of monomers of unnatural nucleotide analogs or they may comprise oligomers or analogs thereof having a length in the range of 3-6 nucleotides, which oligomers are minimally cross-hybridized. Selected from the set to soy. In such a set, the duplex consisting of the complement of the set oligomer and any other oligomer of the set contains at least two mismatches. In other words, a minimally cross-hybridized set of oligomers at best forms a duplex with at least two mismatches with the complement of any other oligomer in the same set. The number of oligonucleotide tags available in a particular embodiment depends on the number of subunits per tag and the length of the subunits when the subunits are oligomers from a set that minimally cross hybridizes. In the latter case, the number is generally 4 for tags with tag length n nucleotides long.nMuch less than the number of all possible sequences. Preferred monomers for the tag complement include 3'-NHP (= O) (O together with peptide nucleic acid monomers and their adjacent nucleosides.-) Nucleoside phosphoramidates with O-5 ′ linkage. The latter compound is referred to herein as N3′φP5 ′ phosphoramidate. Preferably, both the oligonucleotide tags and their tag complements comprise a plurality of subunits selected from a minimally cross-hybridized set of natural oligonucleotides 3-6 nucleotides in length.
[0031]
In general, this embodiment of the present invention is performed by the following steps: (a) linking oligonucleotide tags from the tag repertoire to each polynucleotide in the population, so that substantially all the different polynucleotides are bound. Forming tag-polynucleotide conjugates to have different oligonucleotide tags; (b) labeling each tag according to the identity of the terminal nucleotides of each polynucleotide selectively amplified with rolling primers; c) cleaving the tag from the tag polynucleotide conjugate; and (d) sorting the labeled tag on a spatially controllable array of tag complements for detection. Preferably, this process is repeated a number of times sufficient to uniquely identify each polynucleotide to be sequenced or to reconstruct a larger polynucleotide from randomly generated fragments.
[0032]
In summary, the present invention provides a novel “primer walking” method for DNA sequencing. Furthermore, the present invention is easily automated for parallel applications and requires operations that require the production of large amounts of sequence information (eg, large-scale sequencing of genomic DNA fragments, mRNA and / or cDNA fingerprinting, and This is particularly useful in high-resolution measurement of gene expression patterns.
[0033]
Definition
As used herein with respect to oligonucleotide tags, “complement” or “tag complement” refers to an oligonucleotide that hybridizes specifically to form a perfectly matched duplex or triplex. Say. In embodiments where specific hybridization results in a triplex, the oligonucleotide tag can be selected to be either double-stranded or single-stranded. Thus, when a triplex is formed, the term “complement” includes either the double-stranded complement of a single-stranded oligonucleotide tag or the single-stranded complement of a double-stranded oligonucleotide tag. means.
[0034]
As used herein, the term “oligonucleotide” refers to a normal pattern of monomer-to-monomer interactions (eg, Watson-Crick type base pairing, base stacking, Hoogsteen). Or natural or modified monomers or conjugates (deoxyribonucleosides, ribonucleosides, their anomeric forms, peptide nucleic acids (PNAs) that can specifically bind to the target polynucleotide, such as by reverse Hoogsteen-type base pairing) ) Etc.)). Usually, the monomers are linked by phosphodiester bonds or analogs thereof to form oligonucleotides ranging in size from a few monomer units (eg 3-4) to several tens of monomer units. Whenever an oligonucleotide is represented by a series of letters (e.g., `` ATGCCTG ''), unless otherwise stated, the nucleotides are 5 ′ → 3 ′ in order from left to right and `` A '' indicates deoxyadenosine. It is understood that “C” represents deoxycytidine, “G” represents deoxyguanosine, and “T” represents thymidine. Analogs of phosphodiester bonds include phosphorothioates, phosphorodithioates, phosphoranilides, phosphoramidates, and the like. It will be apparent to those skilled in the art that when oligonucleotides with natural or non-natural nucleotides can be used, for example, when enzymatic processing is required, an oligonucleotide consisting of natural nucleotides is usually required. .
[0035]
An “extendable duplex” for primer annealing to a template is a duplex formed by such annealing in which the 3′-terminal nucleotide and the second nucleotide from the 3′-end of the primer are adjacent in the template. It means forming a Watson-Crick base pair with the nucleotide and that the duplex is sufficiently stable to allow the polymerase to extend the primer along the template. The term intends that there can be multiple mismatches in the duplex formed between the primer and the template.
[0036]
“Completely matched” with respect to a duplex means that the polynucleotide or oligonucleotide strands that make up the duplex are such that all nucleotides in each strand undergo Watson-Crick base pairing with nucleotides in the other strand. Means to form a double-stranded structure with each other. The term also includes pairing of nucleoside analogs that can be used (eg, deoxyinosine, a nucleoside having a 2-aminopurine base, etc.). With respect to triplex, the term consists of a duplex and third strand in which the triplex is perfectly matched, where all nucleotides are Hoogsteen or base pairs with a perfectly matched duplex or It means receiving a reverse Hoogsteen meeting. Conversely, a “mismatch” between a tag and an oligonucleotide in a duplex is a pair of nucleotides or triplets in the duplex or triplex that are Watson-Crick and / or Hoogsteen and / or reverse fus. It means you can't receive a Gusteen bond.
[0037]
As used herein, “nucleoside” and “nucleotide” include natural nucleosides and nucleotides, which include 2′-deoxy and 2′-hydroxyl forms (eg, Kornberg and Baker, DNA Replication, 2nd edition). (As described in Freeman, San Francisco, 1992). As used herein, “natural nucleotides” refers to the four common natural deoxynucleotides A, C, G, and T. “Analog” with respect to nucleosides refers to synthetic nucleosides having modified base moieties and / or modified sugar moieties (eg, Scheit, Nucleotide Analogs (John Wiley, New York, 1980); Uhlman and Peyman, Chemical Reviews, 90: 543-584 (1990)). However, they can specifically hybridize. Such analogs include synthetic nucleosides designed to enhance binding properties, reduce probe complexity, increase specificity, and the like.
[0038]
“Amplicon” as used herein refers to the product of an amplification reaction. That is, it is a population of normally double-stranded, identical polynucleotides that are replicated from a few starting sequences. Preferably, the amplicon is produced by polymerase chain reaction (PCR).
[0039]
As used herein, “complexity reducing nucleotide” refers to (i) a cognate natural nucleotide (ie, the natural nucleotide it replaces) when paired with any of the more than one natural nucleotide. A natural or non-natural nucleotide that can form a stable duplex that is substantially equivalent to the containing duplex and that can be processed by the enzyme substantially the same as its cognate natural nucleotide Say. Preferably, complexity-reduced nucleotides do not exhibit degeneracy or ambiguity when processed by DNA polymerase. That is, if a complexity-reduced nucleotide is present in the template being copied by the polymerase, the polymerase causes a unique nucleotide to be incorporated at the site of the complexity-reduced nucleotide. Similarly, when complexity-reduced nucleotide triphosphate is a substrate for DNA polymerase, it is incorporated into only a single type of nucleotide site (ie, one or the other of its complements, but not both). Candidate complexity-reduced nucleotides are readily available in simple hybridization assays (eg, in melting temperature comparisons) and in uptake assays where test polymerization is examined by conventional sequencing or incorporation of radiolabeled complexity-reduced nucleotides. (Eg Bessman et al., Proc. Natl. Acad. Sci., 44: 633 (1958)). Preferably, as used herein, “substantially equivalent stability” is described by the melting temperature of the test 13-mer duplex described in Kawase et al., Nucleic Acids Research, 14: 7727-7736 (1986). As such, it means within 20 percent of the melting temperature of the same duplex containing the natural cognate nucleotide.
[0040]
Detailed Description of the Invention
The present invention provides a “primer walking” approach to DNA sequencing. Here, a special set of primers is used for template copying and mutation. The number of different primers in this set is minimized by the use of reduced complexity nucleotide and primer combinations and the template mutation process. Within each copy and mutation cycle, the nucleotides of the polynucleotide are identified and the sequencing template is shortened by one. The shortening of the template effectively results from a mutation that converts the nucleotide of the target sequence to the nucleotide of the primer binding site.
[0041]
In an important aspect, the present invention is based largely on the use of oligonucleotide tags that shuttle sequence information obtained in “bulk” or solution phase biochemical processes to individual spatially controllable sites on the solid phase. A method of sequencing the polynucleotides in parallel is provided. A signal generated at a spatially controllable site conveys sequence information carried by the oligonucleotide tag. As described more fully below, sequencing is preferably performed by alternating cycles of identifying nucleotides and shortening target polynucleotides through the use of rolling primers.
[0042]
In one aspect, the oligonucleotide tag of the invention comprises a plurality of “words” or subunits selected from a set of subunits that minimally cross hybridize. Such a set of subunits cannot form a duplex or triplex with the complement of another subunit of the same set having fewer than two mismatched nucleotides. Thus, the sequences of any two oligonucleotide tags in the repertoire that form a duplex are never “close” to each other than they differ by two nucleotides. In certain embodiments, the sequence of any two oligonucleotide tags of the repertoire is, for example, duplexed with the complement of another subunit of the same set having fewer than three mismatched nucleotides. It can still be “further” separated, such as by designing a set that minimally cross-hybridizes so that it cannot be formed. In general, the oligonucleotide tags and their complements of the present invention are oligomers of natural nucleotides and therefore they can be conveniently processed by enzymes (eg, ligases, polymerases, nucleases, terminal transferases, etc.).
[0043]
In another aspect of the invention, tag complements are a series of compounds typically developed for antisense therapeutics with enhanced binding strength and enhanced specificity for polynucleotide targets. It consists of a non-natural nucleotide monomer containing As described above in the definition of “oligonucleotide”, the compound comprises a variety of different modifications of the natural nucleotide (eg, modification of the base moiety, sugar moiety, and / or monomer to monomer linkage). Such compounds also include oligonucleotide loops, oligonucleotide “clamps”, and similar structures that promote enhanced binding and specificity.
[0044]
Rolling primer
Preferably, the rolling primer is 15-30 nucleotides in length and has the following form:
X1X2...X k YY ... YN
Where XiAre nucleotides suitably arranged in the repeat subunit; Y is a complexity-reduced nucleotide or complement thereof; and N is a complexity-reduced nucleotide such as A, C, G, or T, or deoxyinosine Of any of the terminal nucleotides. XiA segment of nucleotides (referred to herein as a “template placement segment”) is suitably placed in the repeating subunit so that the primer has a terminal nucleotide in juxtaposition with the first nucleotide of the target polynucleotide. Correctly registered in the primer binding site. Preferably, the repetitive subunit is long enough so that if the primer is out of registration for one or more repetitive subunits, it becomes too unstable to remain annealed to the template. Preferably, the repeating subunit is 4-8 nucleotides in length. As will become more apparent below, arranging the template placement segment as a series of identical subunits reduces the overall number of primers required in the set of rolling primers. Preferably, the template configuration segment is selected from the group of two or more nucleotides, at least one of which is the complement of the complexity reducing nucleotide used. In a preferred embodiment, the underlined XkIndicates the position at which the template is mutated by oligonucleotide directed mutagenesis (eg, a technique well described in Current Protocols in Molecular Biology (John Wiley & Sons, New York, 1995)).
[0045]
The segment YY ... YN is referred to herein as the “extension region” of the primer. This is because the primer is extended from this end along the template. Preferably, the extension is performed by a polymerase so that YY ... YN is in the 5 ′ → 3 ′ direction. However, this orientation can be 3 ′ → 5 ′ using other methods of extension (eg, by linking oligonucleotide blocks as described in US Pat. No. 5,114,839). An important feature of the present invention is that extension occurs only when the terminal nucleotide N forms a Watson-Crick base pair with an adjacent nucleotide in the template. The extension region is XkIt contains a minimum number of more than 2 nucleotides that can form a stable duplex with the template, even if there is a mismatch in position. That is, in a preferred embodiment, the duplex between the extension region and the template must be sufficiently stable to perform oligonucleotide directed mutagenesis. Preferably, the extension region comprises 3-6 nucleotides and most preferably 4 nucleotides. Preferably Y is selected from the group consisting of deoxyadenosine (A) and deoxyinosine (I).
[0046]
The number of rolling primers required for a particular embodiment depends on several factors, such as the type of complexity-reducing nucleotide used, the length of the primer, the length of the extension region, and the template placement segment. Includes repeat subunit length. For example, the following set of primers (SEQ ID NO: 1 to SEQ ID NO: 6) has an 18 nucleotide long template placement segment consisting of 6 nucleotide long G and A subunits.
[0047]
[Table 1]
Figure 0004789294
When Y is A or I and N is A, C, I, or T, the above set of rolling primers is 192 (= 6 × 2ThreeX4) primer. In particular, each “YYY” represents all of the following sequences: AAA, AAI, AII, AIA, IAI, IAA, IIA, and III. As can be seen from the above example, the template placement segment can be used to shift the primer by one nucleotide in the direction of extension after any cycle. That is, when a primer from subgroup (5) is used in a cycle, the next primer to be used is selected from subgroup (6), and when a primer from subgroup (6) is used in a cycle, The next primer to be used is selected from subgroup (1) (and so on). When PCR is used to copy and amplify a template, the template is effectively shortened by one nucleotide each cycle.
[0048]
Alternatively, the binding strength of the extension region can be improved by substituting G for I and diaminopurine (D) for A at all positions except immediately adjacent to the terminal nucleotide. That is, an alternative set of "YYY" sequences includes DDA, DDI, DGI, DGA, GDI, GDA, GGI, and GGA.
[0049]
In another embodiment, the template placement segment includes a reduced complexity analog to mutate the rolling primer binding site as sequencing proceeds so that fewer such segments are required. For example, the following template placement segment can be used with an extension region that converts all template nucleotides to C.
[0050]
[Table 2]
Figure 0004789294
Primers p1 and p2 are used in an alternative manner. Primers p1 and p2 both convert C to A at position 1 and C or A to C at position 3. This maintains two segments of a very stable GC base pair at either end of the primer when they anneal. Primer p2 contains additional deoxyinosine within the internal segment of the repetitive GT dimer. Note that each repeat unit is exactly one nucleotide off the phase. Position 2 deoxyinosine converts the primer binding site into a primer binding site with a 1 nucleotide shift in the direction of extension to form a perfectly matched duplex with primer p1. Thus, by alternating the use of primers p1 and p2, the primer can be advanced one nucleotide in each cycle.
[0051]
Sequencing using rolling primers
Prior to sequencing, the target polynucleotide is processed so that one or more types of nucleotides are replaced with their cognate complexity-reducing nucleotides. In a preferred embodiment, this is conveniently accomplished by replicating the target nucleotide in a PCR where dGTP is replaced with dITP. A sequencing template is then prepared by binding the target polynucleotide to a primer binding site. Typically this is accomplished by inserting the target polynucleotide into a vector carrying a primer binding site. Preferably, the primer binding site is in the 3 ′ direction with respect to the target polynucleotide so that primer extension can be performed with a DNA polymerase. Such insertion is conveniently performed using a blunt end cutting restriction endonuclease such as StuI or Ecl136II when the above rolling primers are used. These enzymes leave a three base sequence adjacent to the start of the target polynucleotide that is complementary to the above primers. Preferably, a primer (referred to herein as a “T” primer) is placed at the other end of the target polynucleotide so that it can be amplified by PCR. For example, sequencing can be initiated on such a template (SEQ ID NO: 9) in the four separate reactions shown below, assuming the use of the primers described above.
[0052]
[Table 3]
Figure 0004789294
Here "NNNN ... NNN" represents the target nucleotide and "BBBB ... BB" represents the complement of the T primer binding site for amplifying the sequence by PCR. The underlined sequence indicates the extension region of the rolling primer. The template placement segments for these primers were arbitrarily chosen to correspond to the primers from subgroup (1) above. Assuming that the sequence of the polynucleotide adjacent to the rolling primer binding site is “TAIC” (to illustrate the method), only reaction 1 results in the formation of an amplicon, and the first nucleotide of the polynucleotide is Identified as T. Preferably, prior to amplification, the primers are extended with a high fidelity DNA polymerase such as Sequenase in the presence of dATP, dCTP, dITP, and dTTP in a preferred embodiment. For example, it should be understood that selective extension can also be performed in a single container when a labeled primer is used and the extension product is separated from a non-extending primer. An important feature is that only those primers whose terminal nucleotides form the correct Watson-Crick base pair with the template are extended. Preferably, after extension, any single-stranded DNA in the reaction mixture is digested with a single-stranded nuclease such as Mung bean nuclease. After such extension and digestion, the remaining double-stranded DNA is then amplified in the preferred embodiment again in the presence of dATP, dCTP, dITP, and dTTP to produce an amplicon. Preferably, this amplification is accomplished by 5-10 cycles of PCR, so that there is very little or no possibility of producing an abnormal amplification product.
[0053]
Amplicon samples from Reaction 1 are removed and divided into 4 new containers containing the following primers from subgroup (2):
[0054]
[Table 4]
Figure 0004789294
Since the first nucleotide of the target polynucleotide was determined in the previous cycle, as indicated, a primer whose extension region has the form “IIAN” is selected from subgroup (2). This creates a mismatch in T underlined at the bottom strand, which is mutated to C in any amplicon generated by oligonucleotide directed mutagenesis. That is, a primer is an oligonucleotide that directs mutation at a site in an amplicon. Therefore, this “T” is converted to “C” in the amplicon. Since the target second nucleotide is A, both reactions 7 and 8 lead to the generation of amplicons. Since only a single target polynucleotide is currently considered, any amplicon can be sampled for the next cycle. As described more fully below, when multiple polynucleotides are sequenced simultaneously, an additional “pool” step must be performed.
[0055]
As described above, one sample of the two amplicons is dispensed into four new containers containing primers from subgroup (3) having an extension region having the form “IAIN”.
[0056]
[Table 5]
Figure 0004789294
Reactions 9 and 10 both produce amplicons; therefore, the third base is identified as “I”. For the next cycle, this then leads to the selection of primers from subgroup (4) having an extension region with the form “AIAN” and the process continues.
[0057]
RNA Sequencing using template selection
A significant increase in selectivity can be achieved by extending the rolling primer with an RNA template and reverse transcriptase. The gain of selectivity results in part from the easy removal of undesired DNA by nuclease digestion after the RNA template is synthesized. The general scheme for this embodiment is illustrated in FIG. A double stranded DNA (dsDNA) template (100) to be sequenced is linked between the RNA polymerase promoter and the rolling primer binding site, for example by cloning into an appropriate vector containing such elements. Using standard protocols, the vector is linearized downstream of the dsDNA template (100) and the rolling primer binding site, and the RNA copy (120) and binding site of the dsDNA template (100) is the T7 RNA polymerase It is synthesized using such an RNA polymerase (110). After synthesis, the reaction mixture is treated with DNase to remove excess DNA and the RNA copy is purified. To the purified RNA, an appropriate rolling primer (referred to herein as the “first primer”) is added (130), and the rolling primer that forms an extensible duplex with the RNA template is reverse transcribed. Elongated with enzymes. After such extension, RNA is removed by hydrolysis (eg, by heating and / or by the action of reverse transcriptase RNase H activity) and the resulting ssDNA (140) is preferably amplified by PCR. Is done. Preferably, one of the primers in PCR (referred to herein as the “second primer”) contains a promoter sequence for the next transcription; and more preferably, the other primer is a rolling primer binding Bind to the template placement segment of the site.
[0058]
A preferred set of rolling primers (ie, first primer) for this embodiment has the following form:
X1X2... XkIRZNN
Where X1X2... XkIs a template configuration segment as described above, I is deoxyinosine, R is selected from the group consisting of G and diaminopurine (“D”), and Z is 8-oxo-2-deoxyadenosine (“oxo” -A ") and 8-oxo-2-deoxyguanosine (" oxo-G "), and N is selected from the group consisting of A, C, G, and T. In this embodiment, any nucleotide of the template is converted to either C or T by base pairing with Z in the extension and amplification steps. This is because whenever a primer with oxo-A in the Z position is selected, it can base pair with either G or T, but when used as a template, it only allows T incorporation. Because it does. Similarly, whenever a primer with oxo-G in the Z position is selected, it can base pair with either A or C, but only allow C incorporation when used as a template. R acts as a “place saver” that simply provides a stable base pair with either T or C (diaminopurine is preferred over T for greater stability of TD base pairs) . Finally, I converts T to C. Obviously, G can also be used at this position. As described above, when template placement segments of primers p1 and p2 are used, the total number of rolling primers required for sequencing is 128 (= 2 × 2 × 2 × 16).
[0059]
Rolling primers of the above form are readily available in automated DNA synthesizers using conventional chemistry and phosphoramidite monomers for various nucleotide analogs, which are commercially available from, for example, Glen Research (Sterling, VA). Is synthesized.
[0060]
Construction of oligonucleotide tags from a minimally cross-hybridized set of subunits
As noted above, important embodiments of the present invention are described by Brenner in US Pat. Nos. 5,604,097; 5,635,400; and 5,654,413; and in International Application No. PCT / US96 / 09513 (these are referenced Co-sequencing of multiple target polynucleotides with an oligonucleotide tag of the disclosed type (incorporated herein as).
[0061]
Oligonucleotide tags and their complements used in the methods of the invention can range in length from 12 to 60 nucleotides or base pairs; more preferably they are from 18 to 40 nucleotides or base pairs in length. And most preferably they range from 25 to 40 nucleotides or base pairs in length. When constructed from antisense monomers, oligonucleotide tags and their complements are preferably in the range of 10-40 monomers in length, more preferably they are in the range of 12-30 monomers in length. is there. Most preferably, the oligonucleotide tag is single stranded and specific hybridization occurs via Watson-Crick base pairing with the tag complement.
[0062]
After chemical synthesis, the library of tags is conveniently maintained as a PCR amplicon containing a primer binding region for amplification and a restriction endonuclease recognition site that facilitates excision and binding to the polynucleotide. Preferably, the primer composition is selected so that the right and left primers have approximately the same melting and annealing temperature. In some embodiments, one or both of the primers and tags can be used to allow for the use of "stripping" and exchange reactions that single-stranded the construct containing the tag at a selected region. Other flanking sequences consist of 3 or less of the 4 natural nucleotides. Such reactions typically use the 3 ′ → 5 ′ exonuclease activity of enzymes such as DNA polymerases (eg, T4 DNA polymerase) and they are Sambrook et al., Molecular Cloning, 2nd edition (Cold Spring Harbor Laboratory , New York, 1989).
[0063]
As noted above, an important use of the tag is to “shuttle” information from the target polynucleotide to a solid support containing the tag complement. Preferably, this step includes excising the tag-containing segment of the double-stranded template (eg, one or more restriction nucleases), separating it from the reaction mixture, denaturing and labeling the excised tag. As well as applying it to a solid support for detection. This step can be performed in various ways using standard molecular biology techniques, one of which is exemplified below. Similarly, excised tags can be labeled in a variety of ways, including direct or indirect attachment of radioactive moieties, fluorescent moieties, chromogenic moieties, chemiluminescent markers, and the like. Many comprehensive reviews of methodologies for labeling DNA and constructing DNA probes provide guidance applicable to labeling the tags of the present invention. Such reviews are reviewed by Kricka, Nonisotopic DNA Probe Techniques (Academic Press, San Diego, 1992); Haugland, Handbook of Fluorescent Probes and Research Chemicals (Molecular Probes, Inc., Eugene, 1992); Keller and Manak, DNA Probes. , Second Edition (Stockton Press, New York, 1993); and Eckstein, Oligonucleotides and Analogues: A Practical Approach (IRL Press, Oxford, 1991); Kessler, Nonradioactive Labeling and Detection of Biomolecules (Springer-Verlag, Berlin, 1992);
[0064]
Preferably, the tag is labeled with one or more fluorescent dyes (eg, disclosed by Menchen et al., US Pat. No. 5,188,934; and Begot et al., International Application No. PCT / US90 / 05565).
[0065]
Solid support for tag complement
Preferably, the detection of sequence information occurs at spatially separated locations where the tags hybridize to their complements. It is important that the detection of signals from successive cycles of tag transfer is associated with the same tag complement location throughout the sequencing operation. Otherwise, the sequence of the signal will not be a sincere representative of the sequence of the polynucleotide corresponding to the tag and tag complement. This need is met by providing a spatially controllable array of tag complements. As used herein, “spatially addressable” means that the location of a particular tag complement can be recorded and tracked through a sequencing operation. Knowledge of the identity of the tag complement is not critical; it is only important that its position is identifiable between tag transfer cycles. Preferably, the regions containing tag complements are separate (ie, do not overlap with regions containing different tag complements), so that signal detection is more convenient. In general, spatially controllable arrays are constructed by binding or synthesizing tag complements on a solid support.
[0066]
Solid supports for use in the present invention may have a wide variety of forms, including microparticles, beads, and membranes, slides, plates, micromachined chips, and the like. Similarly, the solid support of the present invention can include a wide range of compositions, including glass, plastic, silicone, alkanethiolate-derivatized gold, cellulose, low cross-linked polystyrene and high cross-linked polystyrene, silica gel And polyamide. Preferably, separate populations of particles are used, each having a uniform coating (or population) of complementary sequences of the same tag (and nothing else), or a single support or several supports The body is either used in spatially separated areas, each containing a uniform coating (or population) of complementary sequences to the same tag (and none else). In the latter embodiment, the area of the region can vary according to the particular application, and typically the region is several μm2(E.g. 3-5) to several hundred μm2The range of the area (for example, 100 to 500).
[0067]
The tag complement can be used with a solid support on which the tag complement is synthesized, or can be synthesized separately and attached to the solid support for use. For example, this is disclosed in: Lund et al., Nucleic Acids Research, 16: 10861-10880 (1988); Albretsen et al., Anal. Biochem., 189: 40-50 (1990); Wolf et al., Nucleic Acids Research, 15: 2911-2926 (1987); or Ghosh et al., Nucleic Acids Research, 15: 5353-5372 (1987). Preferably, the tag complement can be synthesized on the same solid support and used with the same solid support, which can include a variety of forms and can include a variety of binding moieties. Such a support may comprise a microparticle or array or matrix of regions in which a uniform population of tag complements is synthesized. A wide range of particulate supports can be used in the present invention, including particulates consisting of controlled pore glass (CPG), highly crosslinked polystyrene, acrylic copolymers, cellulose, nylon, dextran, latex, polyacrolein, etc. No. 4,678,814; U.S. Pat. No. 4,413,070; and No. 4,413,070; and Meth. Enzymol., Section A, pages 11-147, 44 (Academic Press, New York, 1976); 4,046,720; and Pon, Chapter 19, Agrawal (ed.), Methods in Molecular Biology, Volume 20 (Humana Press, Totowa, NJ, 1993). Fine particle supports include commercially available nucleoside derivatized CPG and polystyrene beads (eg, available from Applied Biosystems, Foster City, Calif.); Derivatized magnetic beads; polystyrene grafted with polyethylene glycol (eg, TentaGelTM, Rapp Polymere, Tubingen Germany). The selection of the properties of the support (eg, material, porosity, size, shape, etc.) and the type of binding moiety used depends on the conditions under which the tag is used. Exemplary binding moieties include Pon et al., Biotechniques, 6: 768-775 (1988); Webb, US Pat. No. 4,659,774: Barany et al., International Patent Application No. PCT / US91 / 06103; Brown et al., J. Chem. Soc. Commun., 1989: 891-893; Damha et al., Nucleic Acids Research, 18: 3813-3821 (1990); Beattie et al., Clinical Chemistry, 39: 719-722 (1993); Maskos and Southern, Nucleic Acids Research, 20: 1679-1684 (1992). As described more fully below, when tag complements are bound or synthesized on microparticles, the population of microparticles is immobilized on a solid support to form a spatially controllable array.
[0068]
As described above, tag complements can also be synthesized on a single (or several) solid support to form an array of regions uniformly coated with tag complements. That is, the same tag complement is synthesized within each region in such an array. Techniques for synthesizing such arrays are disclosed below: McGall et al., International Application No. PCT / US93 / 03767; Pease et al., Proc. Natl. Acad. Sci., 91: 5022-5026 (1994). ); Southern and Maskos, International Application No. PCT / GB89 / 01114; Maskos and Southern (cited above); Southern et al., Genomics, 13: 1008-1017 (1992); and Maskos and Southern, Nucleic Acids Research, 21: 4663-4669 (1993).
[0069]
Preferably, the present invention is practiced with microparticles or beads that are uniformly coated with a complement of the same tag sequence. Microparticle supports and methods for covalently or non-covalently attaching oligonucleotides to their surface are well known and illustrated by the following references: Beaucage and Iyer (cited above); Gait (ed.) Oligonucleotide Synthesis A Practical Approach (IRL Press, Oxford, 1984); and the above references. In general, the size and shape of the microparticles is not important; however, since the use of minimal reagents and samples facilitates the construction and manipulation of many repertoires of oligonucleotide tags, from a few μm in diameter (eg, 1-2 μm) Fine particles having a size in the range of several hundred μm (for example, 200 to 1000 μm) are preferable.
[0070]
Preferably, commercially available controlled pore glass (CPG) or polystyrene support is used as the solid support in the present invention. Such supports are available with a base labile linker and the first nucleotide attached (eg, Applied Biosystems (Foster City, CA)). Preferably, microparticles having a pore size between 500 Å and 1000 Å are used.
[0071]
In other preferred applications, non-porous microparticles are used for their optical properties, which can be advantageously used when tracking a large number of microparticles on a flat support (eg, a microscope slide). . Particularly preferred non-porous microparticles are glycidal methacrylate (GMA) beads available from Bangs Laboratories (Carmel, IN). Such microparticles are useful in a variety of sizes and are derivatized with a variety of linking groups to synthesize tags or tag complements. Preferably, GMA beads with a diameter of 5 μm are used for massively parallel manipulation of tagged microparticles.
[0072]
Binding of tag to target polynucleotide
An important aspect of the invention is to tag the polynucleotides of a population (eg, a cDNA library) so that the same tag does not bind to different polynucleotides. This latter condition can be essentially met by linking the tag repertoire to a population of polynucleotides, followed by cloning and sampling the linked sequences. The repertoire of oligonucleotide tags can be ligated to a population of polynucleotides in a number of ways (eg, direct enzymatic ligation, amplification with primers containing the tag sequence (eg, via PCR), etc.). The initial ligation step results in a very large population of tag-polynucleotide conjugates, so that generally a single tag is bound to many different polynucleotides. However, by taking a sufficiently small sample of the conjugate, the probability of obtaining “overlap”, ie the same tag on two different polynucleotides, can be negligibly small. (Note that it is also possible to obtain different tags with the same polynucleotide in the sample. This would simply lead to the polynucleotide being processed twice (eg, sequenced). When the pattern of gene expression is analyzed, due to differences in mRNA abundance, multiple tags with the same polynucleotide become a common occurrence and are predicted). As explained more fully below, the probability of obtaining an overlap in a sample can be estimated by a Poisson distribution. This is because the number of conjugates in the sample is large (eg, on the order of thousands or more). Since the tag repertoire is large (for example, an order of tens of thousands or more), the probability of selecting a specific tag is small. Preferably, the size of the tag repertoire is about 100 times the number of different species of polynucleotides in the population to be analyzed. Alternatively, in other words, the complexity of the tag repertoire is preferably about 100 times the complexity of the population of polynucleotides to be analyzed. In general, the larger the sample, the greater the probability of obtaining an overlap. Thus, the design trade-off is to choose a large sample tag-polynucleotide conjugate (this ensures, for example, sufficient coverage of the target polynucleotide in a shotgun sequencing operation) and a small sample. (This ensures that there is a minimum number of duplicates). In most embodiments, the presence of duplicates simply adds an additional noise source or, in the case of sequencing, adds a little complication to scanning and signal processing. This is because the region of tag complement that provides multiple signals simultaneously can simply be ignored. The term “substantially all” as used herein with respect to attaching a tag to a polynucleotide is a statistical description of the sampling procedure used to obtain an essentially non-overlapping population of tag-molecule conjugates. Means reflecting nature. With respect to the actual proportion of tag-molecule conjugates, virtually all meanings depend on how the tag is used. For nucleic acid sequencing, preferably substantially all means that at least 80% of the tags have a unique linked polynucleotide. More preferably, it means that at least 90% of the tags have a unique linked polynucleotide. Even more preferably, it means that at least 95% of the tags have a unique linked polynucleotide. And most preferably, it means that at least 99% of the tags have unique linked polynucleotides.
[0073]
In preferred embodiments, tags, polynucleotides to be sequenced, primer binding sites, and other elements for manipulating sequences can be inserted into cloning vectors, sampled and amplified as needed. A basic library is established. For example, such a construct may have the following form:
[0074]
[Table 6]
Figure 0004789294
Here, “T” or tag binding sites and “S” or sequencing primer binding sites, together with appropriate primers, are used to amplify the cloning vector insert to form a PCR amplicon for subsequent analysis. Is done. After the steps of PCR amplification and terminal nucleotide identification, the cleavage site is used to excise the tag from the amplicon. As described below, it is important that after amplification, the target polynucleotide is protected from undesired cleavage by the nuclease used in the identification process. Preferably this is achieved by careful selection of methylation and restriction endonucleases.
[0075]
Sequencing of tagged polynucleotides
A preferred embodiment for simultaneously sequencing a population of targeted polynucleotides is illustrated in FIG. 2a. Preferably, the population of tagged polynucleotides is amplified from a vector as described above in the presence of dATP, dCTP, dITP, and dTTP to produce a T primer binding site (12), a cleavage site (14) (shown below). As is desired), resulting in a population of double stranded DNA (10) containing a tag (16), a cleavage site (18), a target polynucleotide (20), and a rolling primer binding site (22) .
[0076]
In the first population, the rolling primer binding site (22) contains a known complement to the extension region (24) (eg, AGG as shown in the examples below). The initial population of samples is preferably transferred (26) into four separate containers (28-34). Here they are combined with the rolling primers of the above subgroup (1) having the extension regions -AIIA, -AIIC, -AIIG, and -AIIT (four rolling primers are placed in one container and extended Can be allowed to compete with each other for; however, errors appear to be lower if the primers are used separately). Rolling primers from subgroups (1) to (6) are used herein to illustrate the present invention. Obviously, many alternative forms of rolling primers can be used. In subsequent cycles, the transfer step (26) becomes more complex, as described more fully below. This is because more than four containers (ie, up to 32 (= 4 × 8) in the embodiments illustrated herein) are required for the extension reaction. After the double stranded DNA (10) is combined with an appropriate rolling primer, the following step (36) is performed: the double stranded DNA is denatured, for example by heating; the rolling primer is in the rolling primer binding site. Reduce the temperature to anneal; the primer is extended with a high fidelity DNA polymerase such as Sequenase in the presence of dATP, dCTP, dITP, and dTTP; preferably any remaining single-stranded DNA is Digested with a single stranded nuclease such as Mung bean nuclease to reduce the possibility of interference of residual single stranded DNA in subsequent amplification; T primer is added; and double stranded extension products are amplified; Amplicon A (38), amplicon C (40), amplicon G (42), and amplicon T (44) are preferably amplified by 5 to 10 cycles of PCR. That.
[0077]
As an alternative and / or supplement to the step of digestion with single-stranded nucleases, double-stranded DNA (10) can be treated with methylase (or equivalently amplified in the presence of 5-methylcytosine triphosphate) Can be). After such treatment, any double-stranded DNA that is not the product of at least two extension reactions is hemimethylated or fully methylated at the cleavage site (18). Thus, nucleases that recognize sites (18) on those sequences do not cleave it. If a sample of amplicon is obtained by a capture agent such as biotin on a T primer, the tag can be released for analysis by cleaving the cleavage site (18) with a nuclease. However, sites that are methylated or hemimethylated are not cleaved to produce a pseudo signal upon application of the tag to the solid support (48).
[0078]
After a sample is taken from each amplicon, the tag is excised by a cleavage site (14) and / or (18) and labeled (46), as described more fully below. Label tags are then individually applied or pooled on their tag complements on the solid support (48), depending on factors such as the labeling system used, the complexity of the tag mixture, etc. And either applied to the support. Amplicon samples are also obtained for further processing (50-56) according to the method of the invention. Depending on the identity of the most recently determined nucleotide and the identity of the current extension region, the samples are individually dispensed into containers with rolling primers for the next cycle, or the samples are 1 Combined with one or more other samples and can be dispensed into containers with rolling primers for the next cycle. Unlike the case of a single polynucleotide, when a population of polynucleotides is sequenced, all containers almost always contain an amplicon as a conclusion of the amplification reaction. Thus, after extension, digestion, and amplification, the amplicons in containers 28, 30, 32, and 34 each have a T at the start position (or more generally the nucleotide position adjacent to the rolling primer binding site). , G (or I), C, and A corresponding target polynucleotides. Using this information, and knowledge of the sequence of the extension region of the current amplicon, the next cycle rolling primer can be selected. As in the case of a single polynucleotide, in each successive cycle, a rolling primer is selected that shifts or advances the rolling primer binding site by one or more nucleotides along the template in the direction of rolling primer extension. . Preferably, a 1 nucleotide shift occurs in each cycle. As noted above, the rolling primer selected for the extension step also serves to cause mutations in the template during amplification. This mutation changes most nucleotides within the extension region to nucleotides that are complementary to the template placement segment of the current cycle's rolling primer. In the table below, the primer selection and amplicon pool patterns in cycles 2-4 of the sequencing operation are described with respect to the above embodiments. In the first cycle, the initial template is dispensed into four containers for denaturation and extension.
[0079]
[Table 7]
Figure 0004789294
The nucleotide to the right of the line between the nucleotides in the second column is the terminal nucleotide of the rolling primer used to produce the amplicon. In general, the algorithm for determining the rolling primer for the next cycle is as follows: (i) the end of the terminal nucleotide of the extension region of the current rolling primer (the leftmost of the “IIA” sequence in the second column) (Ii) determine whether either nucleotide I or A is complementary to the nucleotide base-paired with the terminal nucleotide (ie, in the above example: amplicon A "A" for amplicon C (because A bases with I and C), and "I" for amplicon G (since I bases with C) ), And “I” for amplicon T (since I also bases with A)), (iii) the determined nucleotide I or A to the left of the terminal nucleotide Insert into. For this embodiment, the general pattern of change between extension region sequences is illustrated in FIG. 2b. Longer stretch regions lead to more complex patterns, but the basic algorithm for defining acceptable changes remains the same.
[0080]
[Table 8]
Figure 0004789294
[0081]
[Table 9]
Figure 0004789294
Typically, 32 reactions are required in the eighth cycle and continue to be required in each cycle until sequencing stops.
[0082]
Obviously, the further steps outlined above are carried out, for example, to separate the initial extension product from inappropriate single-stranded DNA and / or single-stranded nucleases (if used). Operations such as polynucleotides and other reagents, temperature control for PCR, etc. can be performed with commercially available laboratory robots (eg, Biomek 1000 (Beckman Instruments, Fullerton, Calif.)).
[0083]
Rolling and T primers are anchored by triplex formation for separation, as taught by Ji et al., Anal. Chem. 65: 1323-1328 (1993); Cantor et al., US Pat. No. 5,482,836, etc. It can be constructed to have a double stranded segment that can bind to a single stranded oligonucleotide. Thus, for example, magnetic beads carrying such single-stranded oligonucleotides capture amplicons and, for example, selectively amplified double-stranded DNA (other DNA is not amplified and hence Can be used to transfer them to individual containers containing nucleases that cleave the tag at the cleavage site 18 (which remains hemimethylated so that cleavage does not occur). Preferably, the T primer contains 5 'biotin that can capture and conveniently label the released tag. For example, after capture by avidinized magnetic beads, the 3 ′ strand of the double stranded segment is transformed into an enzyme such as T4 DNA polymerase in the presence of deoxynucleoside triphosphate (dNTP) corresponding to the nucleotide adjacent to the tag. The tag is peeled back by use. Thus, if there are no other adjacent nucleotides along the chain to the 3 ′ end, the 3 ′ → 5 ′ exonuclease activity of the polymerase will strip the 3 ′ strand back to the adjacent nucleotide, at which point it is adjacent An exchange reaction is initiated to prevent further stripping past the nucleotide. The 3 ′ end of the tag can then be labeled with a labeled dNTP in an extension reaction. After labeling, non-biotinylated strands can be removed by denaturation and applied to a spatially controllable array for detection
After the labeled tags hybridize to their tag complement and are detected, the tags can be removed by washing and a next set of labeled tags from amplicons applied.
[0084]
Device for measuring detection signals at spatially controllable sites
Preferably, the spatially controllable array is established by immobilizing microparticles containing tag complements on the solid surface. A variety of devices can be used to detect hybrid tags and / or enzymatic events on such arrays whenever a light producing signal (eg, chemiluminescence, fluorescence, etc.) is used. . For example, scanning systems such as those described in International Patent Applications PCT / US91 / 09217, PCT / NL90 / 00081, and PCT / US95 / 01886 may be used. Preferably, the microparticles containing the tag complement are loaded into the flow chamber as a liquid particle slurry. There they are held in place by a combination of non-specific binding of DNA on the microparticles to the substrate and gentle flow pushing the particles towards the flow chamber barrier. An exemplary apparatus is illustrated in FIG. 3: The flow chamber (500) is a standard micro-matching technique (eg, Ekstrom et al., International Patent Application PCT / SE91 / 00327; Brown, US Pat. No. 4,911,782; Harrison et al., Anal.Chem. 64: 1926-1932 (1992), etc.) is used to etch a cavity with a liquid inlet (502) and outlet (504) in a glass plate (506). The dimensions of the flow chamber (500) are such that the loaded microparticles (508) (eg, GMA beads) can be placed in a tightly packed planar single layer cavity (510) of 100,000 to 200,000 beads. Dimensions. The cavity (510) is made in a chamber that is closed with the entrance and exit by anodic bonding of a glass cover slip (512) on an etched glass plate (506) (eg, Pomerantz, US Pat. No. 3,397,279). . With the glass cover slip in place, the cavity (510) has a height that is tens of percent greater than the diameter of the microparticles to ensure that a monolayer is formed. A barrier or shelf adjacent to the outlet (504) is present in the glass plate (506), which forms a barrier to the particulates of the slurry, but at the same time allows the liquid components or other reagents of the slurry to pass freely. To do. Reagents are regulated from a syringe pump to a flow chamber (514 to 520) through a valve block (522) controlled by a microprocessor as commonly used in automated DNA and peptide synthesizers (eg, Bridgham US Pat. No. 4,668,479; Hood et al., US Pat. No. 4,252,769; Barstow et al., US Pat. No. 5,203,368; Hunkapiller, US Pat. No. 4,703,913;
[0085]
Specifically, the hybridized tag is detected by exciting its fluorescent label with illumination light (524) from a light source (526) (which can be a laser, a mercury arc lamp, etc.). The illumination light (524) passes through the filter (528) and excites the fluorescent label on the tag complement that has specifically hybridized to the tag complement in the flow chamber (500). The resulting fluorescence (530) is collected by a confocal microscope (532), passed through a filter (534), and directed to a CCD camera (536). This creates an electronic image of the bead array for processing and analysis by the workstation (538). Preferably, the tag at a concentration of about 25 nM is a hybridization buffer consisting of 50 mM NaCl, 3 mM Mg, 10 mM Tris-HCl (pH 8.5) at 20 ° C. for 10 minutes at a flow rate of 1-2 μL per minute. In which the fluorescent label carried by the tag is illuminated and the fluorescence is collected. The tag is thawed from the tag complement by passing the hybridization buffer through the flow chamber at 55 ° C. for 10 minutes at a flow rate of 1-2 μL per minute.
[0086]
In sequencing applications, the microparticles can be immobilized on the surface of the substrate in a variety of ways.
Immobilization should be strong enough to allow the microparticles to undergo a continuous cycle of exposure to the reagent and washing without significant loss. When the substrate is glass, its surface can be derivatized with an alkylamino linker using a commercially available reagent (eg Pierce Chemical), which is then cross-linked to avidin again using conventional chemistry. Can form an avidinized surface. The biotin moiety can be introduced into the microparticles in a number of ways.
[0087]
Kit for carrying out the method of the invention
The present invention includes kits for carrying out various embodiments of the present invention. Suitably, the kit of the invention comprises a set of rolling primers for performing the extension and amplification according to the invention. The kit can also include a repertoire of tag complements attached to a solid support. Furthermore, the kits of the invention may comprise a repertoire of corresponding tags (eg as primers for amplifying the polynucleotides to be sorted or as elements of a cloning vector). Preferably, a repertoire of tag complements is bound to the microparticles. The kit also includes appropriate buffers for enzymatic processing, detection chemistry (eg, fluorescent or chemiluminescent components to label the tag), instructions for use, processing enzymes (eg, ligase, polymerase, transferase, etc. ). In important embodiments for sequencing, the kit can also include a substrate, such as an avidinized microscope slide or microtiter plate, to immobilize microparticles for processing.
[0088]
【Example】
Example 1
Building a tag library
An exemplary tag library is constructed as follows to form a chemically synthesized 9 word tag of nucleotides A, G, and T, defined by the following formula:
[0089]
[Table 10]
Figure 0004789294
here,"[Four(A, G, T)9] "Indicates a tag mixture consisting of 9 4-merwords with each tag A, G, and T; and" p "indicates 5 'phosphate. This mixture is ligated to the following right and left primer binding regions (SEQ ID NO: 10 and SEQ ID NO: 11):
[0090]
[Table 11]
Figure 0004789294
The right and left primer binding regions are ligated to the tag mixture, after which the single stranded portion of the ligation structure is filled with DNA polymerase, then mixed with the right and left primers shown below and amplified to a tag library Get.
[0091]
[Table 12]
Figure 0004789294
The underlined portion of the left primer binding region indicates the RsrII recognition site. The leftmost underlined region in the right primer binding region indicates the recognition site for Bsp120I, ApaI, and EcoO109I, and the cleavage site for HgaI. The rightmost underlined region of the right primer binding region indicates a recognition site for HgaI. Optionally, the right or left primer is synthesized with bound biotin (using conventional reagents such as those available from Clontech Laboratories, Palo Alto, Calif.) After amplification and / or cleavage. Can be easily purified.
[0092]
Example 2
cDNA "Sign (signature) Tag for sequencing - Construction of a plasmid library of polynucleotide conjugates
pGGCCCT with cDNA anchored at the poly A region boundary of mRNA15(A or G or C) as a primer for first strand synthesis and N8(A or T) GATC is used as a primer for second strand synthesis and is generated from mRNA samples by conventional protocols. That is, both are degenerate primers, so that the second strand primer exists in two forms and the first strand primer exists in three forms. The GATC sequence in the second strand primer corresponds to the MboI recognition site; other 4-base recognition sites can be used as well (eg, recognition sites such as BamHI, SphI, EcoRI). The presence of A and T adjacent to the second strand primer recognition site ensures that a stripping and exchange reaction can be used in the next step to generate a 5 base 5 'overhang of "GGCCC". To do. The first strand primer is annealed to the mRNA sample and extended with reverse transcriptase, after which the RNA strand is degraded by the RNase H activity of the reverse transcriptase, leaving a single stranded cDNA. The second strand primer is annealed and extended with DNA polymerase using conventional protocols. After second strand synthesis, the resulting cDNA is methylated with CpG methylase (New England Biolabs, Beverly, Mass.) Using the manufacturer's protocol. Subsequently, the end of the 3 ′ strand of the cDNA was deleted by the above removal and exchange reaction using T4 DNA polymerase in the presence of dATP and dTTP, and then the cDNA was cut with HgaI in Example 1 in advance. Link to the tag library to get the following construct:
[0093]
[Table 13]
Figure 0004789294
Alternatively, the following cloning vector (SEQ ID NO: 12) is constructed starting from a commercially available plasmid such as, for example, Bluescript phagemid (Stratagene, La Jolla, Calif.).
[0094]
[Table 14]
Figure 0004789294
The rolling primer binding site corresponds to the rolling primer of subgroup (1) above. The plasmid is cut with Ppu MI and PmeI (to obtain RsrII compatible ends and blunt ends so that the insert is oriented) and then methylated with DAM methylase. The tag-containing construct is cleaved with RsrII and then ligated into an open circle plasmid, after which the conjugate is cleaved with MboI and BamHI to ligate and cyclize the plasmid. The plasmid is then amplified and isolated for use as a template for extension and amplification according to the present invention.
[0095]
Example 3
cDNA Library signature sequencing
The plasmid constructed in Example 2 is used with the above rolling primer and the following T primer (SEQ ID NO: 13) to generate extension products and amplicons:
[0096]
[Table 15]
Figure 0004789294
Here, I is deoxyinosine added in order to balance the annealing temperature and melting temperature of the T primer and rolling primer. Preferably, the annealing temperature is about 55 ° C. Obviously, many other sequences can be used in the practice of the present invention. The above rolling primer is used.
[0097]
A segment containing the rolling primer binding site is cut out from the plasmid of Example 2 and separated from the T primer binding site. (This can be accomplished in various ways known to those skilled in the art, for example, by processing the plasmid to include restriction sites flanking the segment, or simply by direct amplification by PCR). After replacing deoxyguanosine with deoxyinosine (eg, by PCR in the presence of dITP), segments are subdivided into four containers, denatured, and appropriate rolling primers are added. Adjust the conditions to allow annealing of the rolling primer, then use the manufacturer's protocol in the presence of dATP, dCTP, dITP, and dTTP using a high fidelity polymerase such as Sequenase And stretch. The remaining single-stranded DNA is digested with a single-stranded nuclease (eg, Mung bean nuclease). If desired, double-stranded DNA extension products can be reacted by, for example, capture via triplex formation (eg, between the T primer binding region and the appropriate single-stranded complement attached to the magnetic bead). It can be separated from the mixture.
[0098]
Double-stranded DNA is amplified by 5-10 cycles of PCR in combination with T primer (and rolling primer if a separation step is used) and in the presence of dATP, dCTP, dITP, and dTTP, Four initial amplicons are formed. These samples are combined and redistributed into a container with the appropriate rolling primer for the next cycle of extension. Samples are also removed for analysis.
[0099]
Preferably, samples for analysis are captured separately on magnetic beads having a single-stranded sequence that forms a triplex with the S primer. The beads are then transferred to a reaction mixture containing ApaI, which cleaves the tag from the target polynucleotide. The free strand containing the tag (SEQ ID NO: 14) is then captured via its biotinylated T primer by magnetic beads coated with avidin and transferred to the reaction vessel. Here, its 3 ′ end is removed in the presence of T4 DNA polymerase and dGTP as shown below:
[0100]
[Table 16]
Figure 0004789294
Where dUTP*Represents labeled dUTP and ddATP represents dideoxyadenosine triphosphate. Preferably, dUTP is labeled with a separate spectrally resolvable fluorescent dye for each of the four amplicons. The free tag (SEQ ID NO: 15) for each amplicon is mixed and applied to a spatially controllable array for hybridization and detection to its complement.
[0101]
Example 4
RNA Sequencing of target polynucleotides with conversion to
In this example, the dsDNA template is sequenced using rolling primers, according to an embodiment that uses cyclic conversion of template to RNA. Insert the following vector (SEQ ID NO: 16) from a standard cloning vector (eg, pUC19) and insert the T7 promoter element (double underline) and rolling primer binding site (single underline) into the indicated restriction sites in the polylinker region. Prepare by:
[0102]
[Table 17]
Figure 0004789294
After insertion of the target polynucleotide into the BamHI site, the starting template (200) of FIG. 2a is obtained. After linearization by cutting the vector with HinD III, RNA transcription occurs. Figures 2a and 2b show the changes that occur in the sequence of the template and rolling primer binding sites when the process is run for 8 cycles. In each cycle, one nucleotide in the template is identified. Arrow (210) indicates the nucleotide position at which the mutation occurs, and the double-underlined nucleotide in the “converted template” indicates the change that occurs. In this example, the p1 and p2 primers described above with the indicated extension regions are used with reverse transcriptase (Promega, Madison, Wis.). The lowercase letter “a” in the extension region indicates oxo-A and the lowercase letter “g” in the extension region indicates oxo-G. The amplification step is performed using PCR using a forward primer (shown below) containing the T7 promoter element (underlined) and the following p1 and p2 reverse primers:
[0103]
[Table 18]
Figure 0004789294
RNA is generated from the dsDNA template using the RiboMax RNA production system (Promega, Madison, Wis.) Using the manufacturer's protocol. Briefly, in a 50 μl reaction volume, combine 0.1 pmol of dsDNA template with 30 U / μl T7 RNA polymerase, 1.5 U / μl human placental ribonuclease inhibitor, and 19 U / μl inorganic pyrophosphatase, and mix the mixture Transfer buffer (80 mM HEPES-KOH (pH 7.5), 2.4 mM MgCl, 2-4 hours at 37 ° C)2Incubate in 2 mM spermidine-HCl, 40 mM DTT, and 7.5 mM each of 4 ribonucleoside triphosphates). 47μl H2O and 1 μl of 100 mM MnCl2After heating at 65 ° C. for 5 minutes, 2 μl (4.2 U) of DNase I (U.S. Biochemical) is added and the mixture is incubated at 37 ° C. for 30 minutes. RNA is then purified from the reaction mixture using a QIAGEN (Santa Clarita, CA) RNA purification system (elution volume 30 μl).
[0104]
Four separate reverse transcription reaction mixtures are formed. Each with 1 to 10 pmol aliquots of transcribed RNA and 5 pmol of fluorescein (eg FAM (available from Perkin-Elmer Corp. Applied Biosystems Division, Foster City, Calif.)) With appropriate rolling primers. contains. After heating to 65 ° C for 5 minutes to denature the RNA, the reaction mixture is cooled on ice and reverse transcriptase (0.1 U / μl) and RNase inhibitor (0.85 U / μl) are added to 50 mM Tris-HCl. (pH 8.1), 8 mM MgCl2, 50 mM NaCl, 10 mM DTT, and 25-50 μM each of 4 deoxynucleoside triphosphates, resulting in a reaction volume of 10 μl. The reaction mixtures are incubated at 50-55 ° C. for 5 minutes, after which they are incubated at 95 ° C. for 5 minutes, thereby effectively destroying any remaining RNA. The four reaction mixtures correspond to rolling primers with 3 ′ ends A, C, G, and T, respectively. Thus, in each cycle, only one of the four reactions results in the synthesis of the ssDNA extension product. The product is identified by separating the reaction components by gel electrophoresis, after which the band containing the extension product is excised and the ssDNA is recovered.
[0105]
The dsDNA template is reshaped by amplifying the ssDNA extension product in conventional PCR using the primers listed above.
[0106]
Example 5
RNA For primer selection on template dNTP Effect of concentration
In this example, the effect of different deoxynucleoside triphosphate concentrations on primer selection was investigated through three cycles of RNA synthesis, primer selection, and amplification. The steps of each cycle were performed as described in Example 4, except that a mixture of each of the four primers was used for the extension reaction. As a result, primers with 3 ′ ends A, C, G, and T competed with each other for extension by reverse transcriptase at the indicated concentrations of dNTPs. The results shown in FIGS. 5a-5c indicate that dNTP concentrations of about 50 μM or less lead to maximum selectivity in primer extension by reverse transcriptase. For FIG. 5a, the exact primers were as follows:
[0107]
[Table 19]
Figure 0004789294
For FIG. 5b, the exact primers were as follows:
[0108]
[Table 20]
Figure 0004789294
For FIG. 5c, the exact primers were as follows:
[0109]
[Table 21]
Figure 0004789294
[0110]
【The invention's effect】
The present invention provides novel methods and approaches for determining polynucleotide sequences.
[0111]
[Sequence Listing]
Figure 0004789294
Figure 0004789294
Figure 0004789294
Figure 0004789294
Figure 0004789294
Figure 0004789294
Figure 0004789294
Figure 0004789294
Figure 0004789294
Figure 0004789294

[Brief description of the drawings]
FIG. 1 is a schematic diagram illustrating the steps of a preferred embodiment using RNA template selection.
FIG. 2a is a schematic diagram illustrating the steps of a preferred method of the invention using simultaneous analysis of multiple tagged polynucleotides.
FIG. 2b is a schematic diagram illustrating the extension region of a rolling primer for a subsequent step selected based on the identification of the rolling primer extension region of the current step.
FIG. 3 is a schematic diagram illustrating an apparatus for detecting labeled tags on a spatially controllable array of tag complements.
FIG. 4a is a schematic diagram illustrating how the sequencing template changes in successive steps of a preferred embodiment of the method.
FIG. 4b is a schematic diagram illustrating how the sequencing template changes in successive steps of a preferred embodiment of the method.
FIG. 5a is a schematic diagram illustrating the effect of dNTP concentration on the selectivity of rolling primer extension on an RNA template by reverse transcriptase.
FIG. 5b is a schematic diagram illustrating the effect of dNTP concentration on the selectivity of rolling primer extension on an RNA template by reverse transcriptase.
FIG. 5c is a schematic diagram illustrating the effect of dNTP concentration on the selectivity of rolling primer extension on an RNA template by reverse transcriptase.
[Explanation of symbols]
10 Double-stranded DNA
12 Primer binding sites
14 Cutting site
16 tags
18 Cleavage site
20 Target polynucleotide
22 Rolling primer binding sites
24 Extension region
28 containers
30 containers
32 containers
34 containers
38 Amplicon A
40 Amplicon C
42 Amplicon G
44 Amplicon T
48 Solid support
210 Nucleotide position where mutation occurs
500 flow chamber
502 entrance
504 exit
506 glass plate
510 Cave
512 Glass cover slip
514 syringe pump
522 Valve block
524 Irradiation rays
526 light source
528 filter
530 fluorescence
532 Confocal microscope
534 filter
536 CCD camera
538 workstation

Claims (1)

下式によって定義されるオリゴヌクレオチドプライマーセットであって:
5’−(G)I(GT)(T)(G)IRZNNおよび5’−(G)I(TG)j−1TI(T)(G)IRZNN
または
5’−(G)I(TG)(T)(G)IRZNNおよび5’−(G)I(GT)j−1GI(T)(G)IRZNN
ここで:
Iは2’−デオキシイノシンであり;
Rはジアミノプリン、2’−デオキシグアノシン、およびチミジンからなる群から選択され;
Zは、8−オキソ−2’−デオキシアデノシンおよび8−オキソ−2’−デオキシグアノシンからなる群から選択され;
Nは2’−デオキシアデノシン、2’−デオキシシトシン、2’−デオキシグアノシン、およびチミジンからなる群から選択され;
Gは2’−デオキシグアノシンであり;
Tはチミジンであり;
iは3と8との間の整数であり;
jは3と5との間の整数であり;
rは3と6との間の整数であり;そして
mは3と8との間の整数である、
オリゴヌクレオチドプライマーセット。
An oligonucleotide primer set defined by the following formula:
5 ′-(G) i I (GT) j (T) r (G) m IRZNN and 5 ′-(G) i I (TG) j-1 TI (T) r (G) m IRZNN
Or 5 ′-(G) i I (TG) j (T) r (G) m IRZNN and 5 ′-(G) i I (GT) j−1 GI (T) r (G) m IRZNN
here:
I is 2'-deoxyinosine;
R is selected from the group consisting of diaminopurine, 2′-deoxyguanosine, and thymidine;
Z is selected from the group consisting of 8-oxo-2′-deoxyadenosine and 8-oxo-2′-deoxyguanosine;
N is selected from the group consisting of 2'-deoxyadenosine, 2'-deoxycytosine, 2'-deoxyguanosine, and thymidine;
G is 2'-deoxyguanosine;
T is thymidine;
i is an integer between 3 and 8;
j is an integer between 3 and 5;
r is an integer between 3 and 6; and m is an integer between 3 and 8.
Oligonucleotide primer set.
JP23784098A 1997-08-22 1998-08-24 DNA extension and analysis using rolling primers Expired - Lifetime JP4789294B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/916,120 US5962228A (en) 1995-11-17 1997-08-22 DNA extension and analysis with rolling primers
US08/916.120 1997-08-22

Publications (2)

Publication Number Publication Date
JPH11151092A JPH11151092A (en) 1999-06-08
JP4789294B2 true JP4789294B2 (en) 2011-10-12

Family

ID=25436730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23784098A Expired - Lifetime JP4789294B2 (en) 1997-08-22 1998-08-24 DNA extension and analysis using rolling primers

Country Status (1)

Country Link
JP (1) JP4789294B2 (en)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04320699A (en) * 1991-04-17 1992-11-11 Nisshinbo Ind Inc Method for labeling nucleic acid and determining base sequence of nucleic acid
US5314813A (en) * 1992-02-19 1994-05-24 Scripps Research Institute Drosophila cell lines expressing genes encoding MHC class I antigens and B2-microglobulin and capable of assembling empty complexes and methods of making said cell lines
JPH08507203A (en) * 1992-12-04 1996-08-06 イノーバー ラボラトリーズ,インコーポレイテッド Regulatable nucleic acid therapies and methods of their use
SE501439C2 (en) * 1993-06-22 1995-02-13 Pharmacia Lkb Biotech Method and apparatus for analyzing polynucleotide sequences
US5552278A (en) * 1994-04-04 1996-09-03 Spectragen, Inc. DNA sequencing by stepwise ligation and cleavage
JP3612092B2 (en) * 1994-09-07 2005-01-19 株式会社日立製作所 DNA separation / sorting method and analysis method
US6074824A (en) * 1994-11-07 2000-06-13 The Institute Of Physical And Chemical Research Method for determining DNA nucleotide sequence
JP4053595B2 (en) * 1995-09-22 2008-02-27 メディカル・リサーチ・カウンシル Improvements in or related to mutagenesis of nucleic acids
US5780231A (en) * 1995-11-17 1998-07-14 Lynx Therapeutics, Inc. DNA extension and analysis with rolling primers

Also Published As

Publication number Publication date
JPH11151092A (en) 1999-06-08

Similar Documents

Publication Publication Date Title
US5962228A (en) DNA extension and analysis with rolling primers
US5780231A (en) DNA extension and analysis with rolling primers
US6175002B1 (en) Adaptor-based sequence analysis
JP4293634B2 (en) Oligonucleotide tags for classification and identification
US5763175A (en) Simultaneous sequencing of tagged polynucleotides
JP4712822B2 (en) Molecular tagging system
JP4124377B2 (en) Sequencing by linking code adapters
US6150516A (en) Kits for sorting and identifying polynucleotides
US20040259118A1 (en) Methods and compositions for nucleic acid sequence analysis
US8202691B2 (en) Uniform fragmentation of DNA using binding proteins
US20050260570A1 (en) Sequencing by proxy
WO1997013877A1 (en) Measurement of gene expression profiles in toxicity determination
USRE43097E1 (en) Massively parallel signature sequencing by ligation of encoded adaptors
JP4789294B2 (en) DNA extension and analysis using rolling primers
EP3798319A1 (en) An improved diagnostic and/or sequencing method and kit
EP0840803B1 (en) Simultaneous sequencing of tagged polynucleotides
EP3828283A1 (en) An improved sequencing method and kit
JP2002507126A (en) Methods for mapping restriction sites in polynucleotides
US20030044827A1 (en) Method for immobilizing DNA

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050816

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080327

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090113

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090413

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090416

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090513

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090518

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090615

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090618

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090713

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090713

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090729

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100105

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100406

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110215

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110603

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110705

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110719

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140729

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term