JP5654668B2

JP5654668B2 - Ｄｎａシークエンシング用アレイの正確なアラインメント及びレジストレーションのための方法及びシステム

Info

Publication number: JP5654668B2
Application number: JP2013508222A
Authority: JP
Inventors: ステイカー，ブライアン・ピイ
Original assignee: コンプリート・ゲノミックス・インコーポレーテッド
Priority date: 2010-04-30
Filing date: 2011-04-27
Publication date: 2015-01-14
Anticipated expiration: 2031-04-27
Also published as: WO2011137183A1; JP2015042185A; US9359641B2; EP2563953A4; CN103025927A; US20150080231A1; JP6042859B2; US20110268347A1; EP3043319A1; JP2013527848A; CN103025927B; EP2563953A1; US8774494B2; SG184963A1

Description

本発明は、生化学的解析のためのイメージングに関し、より具体的には、ハイスループットゲノムシークエンシングで用いる高密度生化学アレイをイメージングするための方法及びシステムに関する。

化学的及び／又は生物学的種のハイスループット解析は、診断及び治療の分野における重要なツールである。生化学アレイにより、複数の生化学実験を同時並行で行なうことが可能になる。この能力は、各実験を少量で行ない、かつこれらの実験を密集させる技術の開発から生じる。基板上の付着した化学的及び／又は生物学的種のアレイは、特定の標的配列を規定し、遺伝子発現パターンを解析し、特定のアレル変異を同定し、ＤＮＡ配列のコピー数を決定し、かつゲノム規模でタンパク質（例えば、転写因子及び他の調節分子）の結合部位を同定するように設計することができる。具体的な例では、ヒトゲノムプロジェクトの出現は、核酸、例えば、ＤＮＡ（デオキシリボ核酸）及びＲＮＡ（リボ核酸）をシークエンシングするための２５の改良された方法の開発を必要とした。半数体ヒトゲノムの全３，０００，０００，０００塩基配列の決定は、数多くの疾患の遺伝的基礎を特定する基盤を提供した。しかしながら、統計的に有意な数のヒトゲノムと関連する遺伝子変異を同定するためには相当な努力がなされなければならず、改良されたハイスループット解析法は、この努力を大いに助けることができる。

ハイスループット解析法は、従来、解析用の化学物質及び／又は生物学的種のアレイを含むフローセルとして知られる、アッセイ装置を利用している。この生物学的種は、通常、イメージングシステムで読み取ることができる複数の蛍光色でタグ付けされる。

観察、取得、及び解析すべきデータの量が膨大であるため、ゲノムシークエンシング解析の重要な因子は、アッセイ機器の処理量である。処理量は、コストに直接的な影響を及ぼす。イメージングシステムは、他の技術と比較して、大量のデータを取得することができるが、そのようなシステムの処理量は、カメラ速度やスポット当たりのピクセル数によって限定される。カメラ速度は、固有の物理的制約によって限定され、スポット当たりの最小ピクセル数は１である。スポット当たりのピクセル数を最小限まで減らすことが望ましいが、通常、実際の機器のスポット当たりのピクセルは多い。

基板上の付着部位と関連するスポットから放出された光からピクセルに捕捉された画像は、解析可能なものとするために、整列させ、位置を合わせなければならない。基板上のレジストレーションマークやレジストレーションガイドを含む従来のレジストレーション技術は、基板上にスペースを必要とし、解析に利用可能な部位の数、ひいては、単位時間当たりの解析量を減少させる。

ＤＮＡチップのためのいくつかの異なる手法が開発されている。１つの手法では、ＤＮＡ断片のコンビナトリアルアレイをチップ上で作製し、これらをハイブリダイゼーションによるシークエンシングに用いる。別の手法では、ＤＮＡを同じ目的で表面にランダムにアレイ化する。１つの研究グループは、ＤＮＡポリメラーゼのアレイを用いて、塩基毎のシークエンシングを観察しようと試みている。また別の研究グループは、コンビナトリアルプローブ−アンカーライゲーションによって調べられる自己集合ＤＮＡナノアレイを用いている。これらの手法は、特にその生化学的詳細において互いに全く異なるが、それらは全て、アレイ中の個々の実験で生成されたデータを文字通り「見る」のに蛍光イメージング技術に依存している。

異なる色の色素（例えば、赤色、緑色、青色、又は黄色）が各々１つに対応するように生化学反応を設計することにより、蛍光イメージングを用いて、ＤＮＡ塩基−Ａ、Ｃ、Ｇ、又はＴ−を同定する。その後、蛍光顕微鏡でＤＮＡ実験を観察してもよい。観察された色は、その特定の工程でのＤＮＡ塩基を示す。したがって、ＤＮＡチップからのデータの抽出は、チップ上での何百万回又は何十億回もの生化学実験によって放出される蛍光の色の記録に依存する。

本明細書に記載の技術の実施は、特に示さない限り、当業者の能力の範囲内にある、有機化学、ポリマー技術、分子生物学（組換え技術を含む）、細胞生物学、生化学、及びシークエンシング技術の従来技術及び説明を利用することができる。そのような従来技術としては、ポリマーアレイ合成、ポリヌクレオチドのハイブリダイゼーション及びライゲーション、並びに標識を用いたハイブリダイゼーションの検出が挙げられる。好適な技術の具体的な説明は、本明細書中の実施例を参照することにより得ることができる。しかしながら、当然、他の等価な従来手順を用いることもできる。そのような従来技術及び説明は、標準的な実験マニュアル、例えば、Ｇｒｅｅｎ，ｅｔａｌ．編（１９９９），ＧｅｎｏｍｅＡｎａｌｙｓｉｓ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌＳｅｒｉｅｓ（Ｉ〜ＩＶ巻）；Ｗｅｉｎｅｒ，Ｇａｂｒｉｅｌ，Ｓｔｅｐｈｅｎｓ編（２００７），ＧｅｎｅｔｉｃＶａｒｉａｔｉｏｎ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ；Ｄｉｅｆｆｅｎｂａｃｈ，Ｄｖｅｋｓｌｅｒ編（２００３），ＰＣＲＰｒｉｍｅｒ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ；ＢｏｗｔｅｌｌａｎｄＳａｍｂｒｏｏｋ（２００３），ＤＮＡＭｉｃｒｏａｒｒａｙｓ：ＡＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇＭａｎｕａｌ；Ｍｏｕｎｔ（２００４），Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ：ＳｅｑｕｅｎｃｅａｎｄＧｅｎｏｍｅＡｎａｌｙｓｉｓ；ＳａｍｂｒｏｏｋａｎｄＲｕｓｓｅｌｌ（２００６），ＣｏｎｄｅｎｓｅｄＰｒｏｔｏｃｏｌｓｆｒｏｍＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ；ａｎｄＳａｍｂｒｏｏｋａｎｄＲｕｓｓｅｌｌ（２００２），ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ（全てＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ刊）；Ｓｔｒｙｅｒ，Ｌ．（１９９５）Ｂｉｏｃｈｅｍｉｓｔｒｙ（第４版）Ｗ．Ｈ．Ｆｒｅｅｍａｎ，ＮｅｗＹｏｒｋＮ．Ｙ．；Ｇａｉｔ，"ＯｌｉｇｏｎｕｃｌｅｏｔｉｄｅＳｙｎｔｈｅｓｉｓ：ＡＰｒａｃｔｉｃａｌＡｐｐｒｏａｃｈ" １９８４，ＩＲＬＰｒｅｓｓ，Ｌｏｎｄｏｎ；ＮｅｌｓｏｎａｎｄＣｏｘ（２０００），Ｌｅｈｎｉｎｇｅｒ，ＰｒｉｎｃｉｐｌｅｓｏｆＢｉｏｃｈｅｍｉｓｔｒｙ第３版，Ｗ．Ｈ．ＦｒｅｅｍａｎＰｕｂ．，ＮｅｗＹｏｒｋ，Ｎ．Ｙ．；及びＢｅｒｇｅｔａｌ．（２００２）Ｂｉｏｃｈｅｍｉｓｔｒｙ，第５版，Ｗ．Ｈ．ＦｒｅｅｍａｎＰｕｂ．，ＮｅｗＹｏｒｋ，Ｎ．Ｙ．に見出すことができ、これらは全て、本願に対する先行技術文献である。

本明細書及び添付の特許請求の範囲で使用される場合、単数形の「１つの（ａ）」、「１つの（ａｎ）」、及び「その（ｔｈｅ）」には、文脈上そうでないことが示されない限り、複数の指示物が含まれる。したがって、例えば、「１つのチャネンル」に対する言及は、アッセイ基板上で利用可能な１以上のチャンネルを指し、また、「その方法」に対する言及は、当業者に公知の等価な工程及び方法に対する言及を含む、などである。

特に定義されない限り、本明細書で使用される技術用語及び科学用語は全て、本発明が属する分野の当業者が一般に理解している意味と同じ意味を持つ。本明細書で言及される刊行物は全て、ここに記載される発明と関連して使用し得る、装置、製剤、及び方法を説明していると理解されたい。

値の範囲が提供されている場合、その範囲の上限と下限の間にある各介在値、及びその明記された範囲内の任意の他の明記された値又は介在値が本発明に包含されることが理解される。これらのより小さい範囲の上限と下限は、そのより小さい範囲に独立に含まれることができ、明記された範囲内の任意の特に除外される境界によって変わるが、これらもまた本発明に包含される。明記された範囲が境界の一方又は両方を含む場合、その含まれる境界のどちらか又は両方を除外した範囲も本発明に含まれる。

以下の説明では、本発明がより完全に理解されるように、数多くの具体的詳細を示す。しかしながら、本開示を読めば、これらの具体的詳細の１つ又は複数を伴わずに本発明を実施し得ることが当業者には明白になるだろう。本発明が不明瞭になるのを避けるために、当業者によく知られる周知の特徴及び手順が記載されていない場合もある。

選択された定義
「アンプリコン」は、ポリヌクレオチド増幅反応の産物を意味する。すなわち、それは、１以上の開始配列から複製されるポリヌクレオチドの集団である。アンプリコンは、限定するものではないが、ポリメラーゼ連鎖反応（ＰＣＲ）、線形ポリメラーゼ反応、核酸配列に基づく増幅、環依存的増幅、及び同様の反応を含む、種々の増幅反応によって生成することができる（例えば、米国特許第４，６８３，１９５号；同第４，９６５，１８８号；同第４，６８３，２０２号；同第４，８００１５９号；同第５，２１０，０１５号；同第６，１７４，６７０号；同第５，３９９，４９１号；同第６，２８７，８２４号、及び同第５，８５４，０３３号；並びに米国公開特許出願第２００６／００２４７１１号を参照されたい）。

本明細書における「付着部位」又は「部位」は、生体活性構造物を結合させることができる基板上に規則的なパターンで配置された官能化位置を指す。実際の部位は、シラン化プロセスによって酸化物表面に付着させられた正電荷を有する反応性アミンのサブミクロン領域である。

「環依存的複製」又は「ＣＤＲ」は、環状鋳型の同じ鎖にアニールする１以上のプライマーを用いて、この鋳型のただ１つの鎖に相当する産物を生成させる環状鋳型の多重置換増幅を指す。ＣＤＲでは、さらなるプライマー結合部位は生成されず、産物の量は、経時的に直線的にしか増加しない。使用されるプライマー（複数可）は、ランダムな配列（例えば、１以上のランダムヘキサマー）であってもよく、又は所望の産物の増幅について選択するための特定の配列を有していてもよい。最終産物をさらに修飾することなく、ＣＤＲによって、直列の多コピーの環状鋳型鎖、すなわち、多コピーの鋳型鎖の一本鎖の線状コンカテマーを有する線状コンストラクトが生成されることが多い。

「環依存的増幅」又は「ＣＤＡ」は、環状鋳型の両方の鎖にアニールするプライマーを用いて、この鋳型の両方の鎖に相当する産物を生成させ、一連の多重ハイブリダイゼーション、プライマー伸張、及び鎖置換事象を生じさせる環状鋳型の多重置換増幅を指す。これにより、プライマー結合部位の数が指数関数的に増加し、結果として、経時的に生成される産物の量が指数関数的に増加する。使用されるプライマーは、ランダムな配列（例えば、ランダムヘキサマー）であってもよく、又は所望の産物の増幅について選択するための特定の配列を有していてもよい。ＣＤＡによって、コンカテマー状の二本鎖断片の組が形成される。

本明細書で使用される「フィールド」は、二次元の解析サブユニットであり、通常、カメラにより取得され、解析目的でまとめられるデータを指す。

本明細書で使用される「グリッド」は、ピクセルから構築された画像中の情報の位置を解析するために利用される抽象的カルテシアンパターンを指す。この目的でのグリッドは、ｘ及びｙに一定の周期性を有し、好ましくは正方形である。グリッドの位置は、ピクセル基準座標系で好都合に特定される。

本明細書で使用される「リガンド」は、直接的に又は特定の結合パートナーを介して、アッセイ基板上の分子に共有結合的に又は非共有結合的に付着し得る分子を指す。本発明により利用され得るリガンドの例としては、抗体、細胞膜受容体、特定の抗原決定基（例えば、ウイルス、細胞、又は他の材料）と反応性があるモノクローナル抗体及び抗血清、薬物、ポリヌクレオチド、核酸、ペプチド、共因子、レクチン、糖類、多糖類、細胞、細胞膜、並びにオルガネラが挙げられるが、これらに限定されない。

「マイクロアレイ」又は「アレイ」は、アレイの各々の部位がオリゴヌクレオチド又はポリヌクレオチドの多くのコピーを含み、これらの部位が空間的に離れているように、核酸を含む部位のアレイを担持する表面を有する固相支持体を指し、この表面は、本実施形態では必ず、平面的又は実質的に平面的な表面である。アレイのオリゴヌクレオチド又はポリヌクレオチドは、基板に共有結合的に結合していてもよく、又は非共有結合的に結合していてもよい。従来のマイクロアレイ技術は、例えば、Ｓｃｈｅｎａ編（２０００）、Ｍｉｃｒｏａｒｒａｙｓ：ＡＰｒａｃｔｉｃａｌＡｐｐｒｏａｃｈ（ＩＲＬＰｒｅｓｓ，Ｏｘｆｏｒｄ）に概説されている。

「核酸」及び「オリゴヌクレオチド」は、本明細書では、ヌクレオチドモノマーのポリマーを意味するために用いられる。本明細書で使用される場合、これらの用語は、二本鎖形態を指すこともできる。核酸及びオリゴヌクレオチドを構成するモノマーは、規則的なパターンのモノマー間相互作用、例えば、ワトソン−クリック型の塩基対合、塩基の積層、フーグスティーン型又は逆フーグスティーン型の塩基対合などによって天然ポリヌクレオチドに特異的に結合し、二重鎖又は三重鎖形態を形成することができる。そのようなモノマー及びそのヌクレオシド間結合は、天然のものであってもよく、又はその類似体、例えば、天然もしくは非天然の類似体であってもよい。非天然類似体としては、ペプチド核酸、ロックされた核酸、ホスホロチオエートヌクレオシド間結合、標識、例えば、蛍光体、又はハプテンの付着を可能にする連結基を含む塩基などを挙げることができる。オリゴヌクレオチド又は核酸の使用が、ポリメラーゼによる伸長、リガーゼによるライゲーション、又は同様の反応などの酵素処理を必要とするとき、当業者は、それらの事例におけるオリゴヌクレオチド又は核酸が、ヌクレオシド間結合、糖部分、又は任意の位置もしくはいくつかの位置の塩基の特定の類似体が酵素反応と適合しない場合、そのような類似体を含まないことを理解するであろう。核酸は、典型的には、数モノマー単位（例えば、それらが通常「オリゴヌクレオチド」と呼ばれる場合、５〜４０）から数十万以上のモノマー単位までの範囲のサイズを有する。核酸又はオリゴヌクレオチドが、「ＡＴＧＣＣＴＧ」などの文字（大文字又は小文字）の配列によって表される場合、特に示さない限り、又は文脈から明らかでない限り、ヌクレオチドは左から右へ５'→３'の順序であり、「Ａ」はデオキシアデノシンを表し、「Ｃ」はデオキシシチジンを表し、「Ｇ」はデオキシグアノシンを表し、「Ｔ」はチミジンを表し、「Ｉ」はデオキシイノシンを表し、「Ｕ」はウリジンを表すことが理解されるであろう。特に記述しない限り、専門用語及び原子番号の振り方は、ＳｔｒａｃｈａｎａｎｄＲｅａｄ，ＨｕｍａｎＭｏｌｅｃｕｌａｒＧｅｎｅｔｉｃｓ２（Ｗｉｌｅｙ−Ｌｉｓｓ，ＮｅｗＹｏｒｋ，１９９９）に開示されている内容に従う。通常、核酸は、ホスホジエステル結合によって連結された天然ヌクレオシド（例えば、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、ＤＮＡの場合にはデオキシチミジン、又はＲＮＡの場合にはそのリボース対応物）を含む；しかしながら、それらは、非天然ヌクレオチド類似体、例えば、修飾された塩基、糖、又はヌクレオシド間結合を含むこともできる。酵素が、例えば、一本鎖ＤＮＡ、ＲＮＡ／ＤＮＡ二重鎖といった、活性のための特定のオリゴヌクレオチド又は核酸基質要件を有する場合、オリゴヌクレオチド又は核酸基質の適切な組成の選択は、特に、専門書、例えば、Ｓａｍｂｒｏｏｋｅｔａｌ，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ，第２版（ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙ，ＮｅｗＹｏｒｋ，１９８９）及び同様の参考文献などの手引きがあれば、当業者の知識で十分に対応できることが当業者には明らかであろう。本明細書で使用される場合、「標的核酸セグメント」は、シークエンシング又は再シークエンシングのために標的とされる核酸を指す。

「ピクセル」は、分割できない位置での検出光のレベルを伝えるカメラの分割できない光感受性要素である。単色のピクセルは、単一の光検出要素である。色のフィルターを用いて、ピクセルで受容した光のスペクトルを決定することができる。

「プライマー」は、ポリヌクレオチド鋳型とともに二重鎖を形成したときに、核酸合成の開始点として働き、かつ伸長した二重鎖が形成されるように鋳型に沿ってその３'末端から伸長することができる、天然又は合成のいずれかのオリゴヌクレオチドを意味する。伸長プロセスの間に付加されるヌクレオチドの配列は、鋳型ポリヌクレオチドの配列によって決定される。通常、プライマーは、ＤＮＡポリメラーゼによって伸長される。プライマーは、通常、９〜４０ヌクレオチドの範囲の長さを有するか、又はいくつかの実施形態では、１４〜３６ヌクレオチドの範囲の長さを有する。

本明細書で使用される「プローブ」は、未知配列の核酸内の相補配列を調べるために用いられる、天然又は合成のいずれかのオリゴヌクレオチドを指す。標的ポリヌクレオチドに対する特異的プローブのハイブリダイゼーションは、標的ポリヌクレオチド配列内のプローブに相補的な特異的配列を示す。

核酸との関連における「シークエンシング」は、核酸中のヌクレオチドの配列に関する情報の決定を意味する。そのような情報は、核酸の部分的な配列情報及び完全な配列情報の同定又は決定を含むことができる。配列情報は、様々な程度の統計的信頼性又は信頼度で決定することができる。一態様では、この用語は、標的核酸中の異なるヌクレオチドから始まる核酸中の複数の連続するヌクレオチドの実体及び順序の決定を含む。

本明細書で使用される「スポット」は、蛍光分子から放出される光の位置を指す。スポットは、必ずしも付着部位の中心にあるわけではない。

「基板」は、剛体又は半剛体表面（単数又は複数）を有する材料又は材料の群を指す。この文脈では、基板の少なくとも１つの表面は、実質的に平らであるが、本発明に関連しない他の文脈では、異なる化合物の合成領域を、例えば、ウェル、***した領域、ピン、エッチングされた溝などで物理的に分離することが望ましい場合がある。他の実施形態によれば、基板（複数可）は、ビーズ、樹脂、ゲル、マイクロスフェアの形態、又は他の幾何学的形状を取る。本発明では、基板の表面は、解析を促進するために平面構造に限定される。

本明細書で使用される場合、「Ｔｍ」という用語は、「融解温度」との関連で用いられる。融解温度は、二本鎖核酸分子の集団が半分解離して一本鎖になる温度である。核酸のＴｍを計算するためのいくつかの式が当技術分野で周知である。標準的な参考文献に示されているように、Ｔｍ値の簡単な推定値は、核酸が１ＭＮａＣｌの水溶液中にある場合、式Ｔｍ＝８１．５＋０．４１（％Ｇ＋Ｃ）により計算することができる（例えば、ＡｎｄｅｒｓｏｎａｎｄＹｏｕｎｇ，ＱｕａｎｔｉｔａｔｉｖｅＦｉｌｔｅｒＨｙｂｒｉｄｉｚａｔｉｏｎ，ｉｎＮｕｃｌｅｉｃＡｃｉｄＨｙｂｒｉｄｉｚａｔｉｏｎ（１９８５）を参照されたい）。他の参考文献（例えば、Ａｌｌａｗｉ，Ｈ．Ｔ．＆ＳａｎｔａＬｕｃｉａ，Ｊ．，Ｊｒ．，Ｂｉｏｃｈｅｍｉｓｔｒｙ３６，１０５８１−９４（１９９７））には、Ｔｍの計算のために、構造及び環境特性、並びに配列特性を考慮する別の計算方法が含まれている。

従来の解析スライドは、１"×３"のシリコンチップからなり、このシリコンチップの表面に、官能化部位のアレイが作り出される。この部位は、シラン化プロセスによって酸化物表面に付着させられる正電荷を有する反応性アミンのサブミクロン領域である。周囲の領域は、中性の非反応性メチル基からなる。この部位は、４．５ｍｍ幅のレーンの中に、解析スライドの狭い方向に向かって配置されている。現在、１９ｍｍ×６０ｍｍのカバースリップが、接着剤を用いてチップに結合させられている。接着剤は、最大４．５ｍｍ×１９ｍｍのレーンを形成する。カバースリップとシリコンスライドの間の間隔は、約５０μｍである。この５０μｍの間隔は、５０μｍのガラスビーズを接着剤に添加することによって維持される。

導入ポートには５ｍｍ必要となるので、１９ｍｍ幅のカバースリップは、最大２５ｍｍ幅のシリコンスライドよりも実質的に小さい。導入部は、ピペットでレーンの上部に流体を分注する領域である。毛細管力によって、試薬がレーンの上部からカバースリップ下の隙間に移動する。スライドの下部では、余分な流体を排出するために、さらに１ｍｍの距離が必要である。

カバースリップの直下のレーンの上部と下部には、１ｍｍ〜４ｍｍの侵入防止領域がある。試薬の蒸発、カバースリップのアラインメント精度、及び導入ポートの狭さゆえの接着剤の侵入のために、この侵入防止領域が必要である。これらの許容値を全て考慮すると、解析スライドの使用可能幅は、従来のスライドの可能な計２５ｍｍのうちの約１２〜１５ｍｍである。

既知の設計では、１２個の４．５ｍｍレーンが解析スライド上に構築される。これにより、５４ｍｍの最大使用可能幅が得られる。しかしながら、１レーン当たり１ｍｍが接着剤レーンに割り当てられる。これにより、わずか４２ｍｍの最大使用可能幅しか得られない。より少ないレーンを作ることができるが、これは、ボンド線面積の減少とアラインメントガイドの喪失のために、チップを不安定にすることが観察されている。

これらの寸法を考慮すると、従来のスライドのチップの全体の有用な面積率は、約（１２．５ｍｍ×４２ｍｍ）／（２５ｍｍ×７５ｍｍ）＝２８％である。必要なのは、使用可能な面積を増加させる設計、及び正確なアラインメントを実現するプロセスである。

以下は、本発明が利用される開発中の解析技術の説明である。

最近、全ゲノム研究のための有望な手法が、ＲａｄｏｊｅＤｒｍａｎａｃが率いる本発明の出願人のグループによって導入された（"ＨｕｍａｎＧｅｎｏｍｅＳｅｑｕｅｎｃｉｎｇＵｓｉｎｇＵｎｃｈａｉｎｅｄＢａｓｅＲｅａｄｓｏｎＳｅｌｆ− ＡｓｓｅｍｂｌｉｎｇＤＮＡＮａｎｏａｒｒａｙｓ"，ＲａｄｏｊｅＤｒｍａｎａｃｅｔａｌ．，Ｓｃｉｅｎｃｅ，３２７，ｐ７８−８１，Ｊａｎ１，２０１０（これは、米国法の下では先行技術ではない））。コンビナトリアルプローブアンカーライゲーション化学を用いて、自己集合ＤＮＡナノボールのパターン化ナノアレイ由来の各塩基を独立にアッセイした。３つのヒトゲノムを、１００，０００塩基当たり約１個の誤った変異体という精度でシークエンシングした。このプラットフォームの精度の高さ、コストの低さ、及び拡張性により、大規模な遺伝子研究で稀少な変異体を検出するための完全なヒトゲノムシークエンシングが可能になる。

Ｄｒｍａｎａｃの研究における生化学的実験は、約２５ｍｍ×７５ｍｍの大きさの長方形のチップ上で行なわれた。各チップは、報告によれば、規則的な長方形のパターンでその上にアレイ化された約１０億個のＤＮＡナノボールを有していた。このアレイ構造を視覚化することが有用である。図１は、そのような生化学アレイチップ１００の概念図を示す。ナノボールの数が膨大であるため、チップが概念的にフィールド；例えば、フィールド１０５に分割されている。典型的なフィールドサイズを０．５ｍｍ×１．５ｍｍとし得るが、正確なサイズは重要でない。扱いやすいサイズのフィールドは、イメージング解析を扱いやすい塊で行なうことを可能にする。ステップ・アンド・リピートのイメージングシステムでは、フィールドサイズは、システムの視野に対応することができ；連続スキャニングシステムでは、フィールドサイズは、データ処理に好都合な単位であることができる。

図２を参照すると、生化学アレイチップのフィールド２００の概念図が示されている。このフィールドは、ＤＮＡシークエンシング実験が行なわれるスポット（例えば、スポット２０５、２１０、２１５）のアレイを含む。図２のフィールドは、わずか数百個のスポットで描かれているが、実際のフィールドは、約１０，０００〜１，０００，０００個のスポットを含むことができる。挿入図２２０は、６個のスポットを示し、これらのスポットから、４つの色：青色（「Ｂ」）、赤色（「Ｒ」）、黄色（「Ｙ」）、及び緑色（「Ｇ」）のうちのいずれかの蛍光を観察することができる。使用される実際の色は、選ばれる蛍光色素の選択によって決まり、色素放出スペクトルデータに関して特定することができる。挿入図２２０に示す６個のスポットは、各々異なるスペクトルを読み取る６つの同時並行のＤＮＡ実験から読み出されるデータに対応する。この場合、蛍光データは、挿入図２２５に示すように、アデニン（「Ａ」）、グアニン（「Ｇ」）、シトシン（「Ｃ」）、及びチミン（「Ｔ」）を示す。

ＤＮＡチップ上の各部位は、配列が決定されるべきＤＮＡの鎖を含むことが意図される。図２に示す挿入図２２０の読出しは、鎖中のＤＮＡの配列を決定する際の単一の工程に対応する。読取りプロセスは何回も繰り返される。

チップ上のどのスポットを見ているかを正確に把握することが重要である；そうでなければ、蛍光色を記録することで得られるデータは無意味である。フィールドスポット、すなわち、蛍光色素分子が光を放出する位置は、名目上、規則的な長方形のパターンで存在する。ＤＮＡナノボールは、チップ上に規定されたＤＮＡ付着部位の中心に必ずしも正確に位置するわけではないので、実際のパターンは正確なものではない。フィールドスポットはカメラで見られ、カメラの画像センサーは、光感受性ピクセルの規則的な長方形のアレイを含む。

必要なのは、処理量を増加させ、それによりシークエンシング能力を向上させるために、チップ上の情報含有量を最大化し、レジストレーション標的を提供し、かつイメージングシステムの対照情報を提供するメカニズム及び方法論である。

本発明によれば、ゲノムシークエンシングのシステム及び方法において、光学解析を受けるナノボールの平面アレイの画像の正確なアラインメント及び正確なレジストレーションを達成するプロトコルが提供される。わずかなオフセットを修正する正確なアラインメントは、最小化技術及びモアレ平均化を用いて、サブ周期のｘ−ｙオフセット、スケール、及び回転の誤差を修正することによって達成される。モアレ平均化では、倍率は、イメージング要素のピクセル周期が部位周期の非整数倍となるように意図的に設定される。正確なレジストレーションは、予め規定された部位の組、本明細書では、欠失部位又は留保部位を提供することによって達成され、その場合、ナノボールは、アレイの部位をパターンマッチング方式で絶対位置特定のためのレジストレーションマーカーとして用いることができるように、基板への付着が妨げられている。

具体的な実施形態では、ＤＮＡナノボールは、アレイにおいて留保部位以外の部位で自己集合し、対応するマスク（交差相関に用いられる数学的鋳型）を用いて、アレイを絶対位置に合わせることができる疑似ランダム部位又は欠失の微小マーカーの二次元パターンを残す。二次元空間誤差、スケーリング誤差、及び回転誤差の最小化を用い、さらにモアレ平均化を適用して、最良フィットグリッド内のイメージング光学の光学解像度を超える極めて高い精度で、画像解析フィールド内の全てのＤＮＡナノボールのアレイからの光のスポットに対するアラインメントを達成することができる。したがって、それが既知の位置と相関しているという十分な信頼性をもって情報を引き出すことができ、同時に、チップ上に搭載することができる情報量が最大化される。

具体的な実施形態では、欠失パターンは、アレイの１％超かつ３％未満を含む。欠失スポット位置は、絶対位置レジストレーションを助けるために、疑似ランダムパターンに従って選ばれることが好ましい。局所的レジストレーションは、明確な範囲が欠失パターンの周期未満である限り、規則的な欠失パターンで可能となる。

他のタイプの情報は、行／列による同定パターンである。各フィールドは、チップ上のフィールドの位置を特定する固有の欠失パターンを有し、これにより、チップ上のフィールドの位置の独立した確認が可能になる。これにより、複数の欠失パターンがアレイに組み込まれる。これらの欠失パターンの各々は、互いに実質的に直交するように選択される。

具体的な実施形態では、精密アラインメント技術は、ヤコビアンベースの距離最小化法を利用する。

本発明の主な目的は、最大量の情報を引き出すことができるように、基板上の使用可能な官能化部位の数を最大化することである。本発明の他の目的は、付着部位での要素の迅速な解析を可能にし、高密度の部位を提供し、試薬の使用を最小限に抑え、汚染を最小限に抑え、機械的に頑健であり、イメージングのために十分平らであり、低コストであり、かつ容易に製造されるチップ設計を提供することである。

本発明は、添付の図面と関連させて以下の詳細な説明を参照することにより、より良く理解されるであろう。

生化学アッセイチップ（従来技術）の概念図である。生化学アッセイチップ（従来技術）のフィールドの概念図である。本発明によるアレイチップアッセイでのイメージング及び生化学的処理のための２段階プロセスを示す概念図である。本発明によるアッセイシステムの一実施形態の透視図である。アッセイチップの代表的なトップサイド担体の側面図である。図５Ａの担体及びアッセイチップの上面図である。本発明によるアラインメントエンジンの機能ブロック図である。アラインメント決定に用いられる実際のフィールド及び関連する解析グリッドを示す概念図である。回転、スケール、及びオフセットを示す図である。モアレ平均化の必要性を説明するためのフィールドスポット対ピクセルの一次元アラインメントを示す図である。モアレ平均化の利点を示す図である。図６のアラインメントシステムの基本的な流れ図である。フィールドスポットのイメージングを示す図である。アラインメント前後のフィールド及びグリッドパターンを示す図である。反復粗フィット手順の工程の疑似コード表である。本発明による解析的な精密グリッドフィット手順に関係するベクトルを示すグラフである。本発明によるピーク閾値識別の結果を示すグラフである。整列させられているが、フィールドとの位置合わせがされていないグリッドを示す図である。整列させられ、フィールドとの位置合わせがされているグリッドを示す図である。本発明による疑似ランダム位置で欠失を有するチップのフィールドの図である。グリッドオフセットデータを示すグラフである。サブピクセルグリッドアラインメントを示す図である。

発明の詳細な説明

図３は、以下に記載するようなアレイチップアッセイで用いられるイメージング及び生化学的処理工程の概念図である。図３において、挿入図３００〜３２０は、それらが、チップ上の数個のスポットにおける観察を示すという点で、図２の挿入図２２０と似ている。挿入図３００、３１０、及び３２０は、蛍光データを読み出すアラインメント及びイメージング工程を示し；挿入図３０５及び３１５は、イメージング工程とイメージング工程の間に行なわれる生化学的処理工程を示す。チップ上の１つのスポットにおけるＤＮＡの配列は、イメージング工程と生化学的処理工程を繰り返すことにより決定される。例えば、挿入図３００において、１つの青色蛍光スポット「Ｂ」が丸で囲まれている。この同じスポットは、挿入図３１０では赤色（丸い「Ｒ」）の蛍光を発し、挿入図３２０では緑色（丸い「Ｇ」）の蛍光を発する。したがって、１つのスポットにおける３サイクルのイメージング及び生化学的処理により、蛍光配列「ＢＲＧ」（青色、赤色、緑色）が明らかにされる。このことを、例示目的で、ＤＮＡ配列ＡＧＴ（アデニン、グアニン、チミン）に対応するものとして図３に示す。

図３の各々の「整列させ、位置を合わせる」工程は、実際、使用される４つの色素の色に対応する４つの画像の取得を含むことができる。超高密度システムでは、光学及び検出装置を検出すべき各波長に合わさなければならない。

シークエンシングを、コンビナトリアルプローブ−アンカーライゲーションを用いて自己集合ＤＮＡナノボールアレイ上で行なう場合、生化学的処理工程（例えば、３０５、３１５）は、アラインメント及びイメージング工程（例えば、３００、３１０、３２０）よりも顕著に長く時間がかかる。生化学的処理の間に他のチップをイメージングすることができるように、チップは、その間、イメージング装置から取り外される。

図４は、官能化シリコンチップ１２を有するフロースライドを示す代表的なアッセイシステム１０を示したものである。このシリコンチップ上で、光学解析すべきＤＮＡサンプルは、花崗岩のテーブル２０に支持された二次元変換ステージ１８に支持された真空チャック１６により保持された担体１４に取り付けられる。対物レンズ２２は、シリコンチップ１２の表面を観察し、アラインメントエンジン２６に情報を供給するイメージングシステム２４に画像を提供するように配置される（図６）。

イメージングシステム２４は、４チャンネルの蛍光検出システム（見えない）を含み、この検出系では、各チャンネルは、チップ１２上の各々の付着部位における遺伝子材料の鎖の塩基の種類のうちの１つの蛍光を測定する。光は、スポット又は領域で発生し、光のピークは、その部位のどこかに由来する。この場合、Ｔ、Ｇ、Ｃ、及びＡ（チロシン、グアニン、シトシン、及びアデニン）の存在の測定は、それぞれ、Ｆａｍ、Ｃｙ３、ＴｅｘａｓＲｅｄ、及びＣｙ５色素によって行なわれる。各々の色のためのフィルター２８を所定の位置に動かし、１フィールド当たり合計４つの画像を得るために１色当たり１つの画像を取得する。この工程は、多重イメージングシステムと多重フィルターを用いて組み合わせることができる。

図５Ａ及び図５Ｂを参照すると、チップ１２が取り付けられる担体１４の一実施形態の概略図が示されている。１つのチャンネル１３を示した側面図（図５Ａ）において、サンプルは表面１５上にあり、流体は、入力ポート１７からアクセスでき、出力ポート１９から排出される。上面図（図５Ｂ）において、チャンネル１３のような、複数の並列チャンネルがあることが分かり、それらは各々、チップと担体の間の距離間隔よりも実質的に大きい幅を有する。チャンネル１３に沿った部位の蛍光を観察する手段がある限りにおいて、他のチップ／担体設計を用いることができる。

図６を参照すると、好適なエンジン２６が、２Ｄアラインメント及びレジストレーションプロセスを行なうために用いられる機能要素によって示されている。関与するプロセスは、以下で、例えば、図１１と関連させて、さらに説明されている。解析エンジン２６は、第一に、アレイ内の基本となるパターンの画像を取得し、第二に、このパターンを整列させ、第三に、この画像の位置を合わせるという３つの主要操作を実施するために作動する。このプロセス、及びチップ１２上の材料のパターン化アレイからの光学データを入力として用いることに対する準備として、パターン化アレイを、ノイズを削除するために用いられるバックグラウンドマスクによってまず特徴付ける。最も暗い部位をバックグラウンド減算器３０で、モルフォロジカルオープニング（要素３２）又はブロック・バイ・ブロックミニマ（要素３４）と呼ばれるプロセスによって、解析グリッドから削除する。この２つのプロセスのうち、モルフォロジカルオープニングプロセスの方がより正確ではあるが、より遅いと考えられており、それを単独で又は他のプロセスと組み合わせて、バックグラウンド減算関数の出力を得ることができる。

次に、二次元ピーク検出器３６が、通常、５×５又は３×３のアレイのチップ１２（図１２参照）からイメージングされたピクセルの小さいブロック上でピーク検出を行ない、使用可能なデータを収集するために蛍光の局所最大値を光学的に同定する。この小さいブロックは、物体をチップ１２のＸ軸とＹ軸を横切って、また、Ｘ軸とＹ軸に沿って動かすときに、重複する場合がある。

その後、グリッドアラインメントサブシステム３８を起動する。グリッドアラインメントサブシステム３８の操作の基礎になる因子を理解することは有益である。チップ１２の画像にフィットするグリッドパターンを生成させる第一の操作は、４つの主な自由度：以下で説明する、スケール、回転、並びにＸオフセット及びＹオフセットの影響を受ける。光学において非点収差又は歪曲収差が存在する場合、より多くの自由度を含めることができる。非点収差は、グリッドのＸ軸とＹ軸の間で異なるスケール係数を生じさせる。径方向の倍率変動は、いくつかの可能性のある歪曲収差のうちの１つである。各々のさらなる変動度によって、他方の軸における一定量の不確実性が加わることになる。各々のさらなる自由度によって、解析時間の点でコストがかかることにもなり、したがって、通常は、４つの自由度しか用いられない。通常、グリッドアラインメントプロセスには４つの入れ子プロセスがある。第一は、ブルートフォース式のパラメータサンプリングを実施して、グリッドを迅速かつ大雑把にスポットにフィッティングさせる粗フィット４２である。第二は、粗フィット４２で得られたフィットの解析的最適化が行なわれる第一段階の精密フィット４４である。その後、データをピーク閾値設定プロセス４６に送り、以下で説明するような、プロセシングのためのさらなる候補スポットを特定する。その次は、グリッドアラインメント３８を微調整するための第二段階の精密フィットによる解析的最適化４８である。

第二の操作は、グリッドレジストレーションサブシステム４０によって、レジストレーションが完全なものとなるようにグリッドパターンのレジストレーションが終了するまで行なわれる。この操作において、画像中のグリッドパターンの位置が探し出される。その目的は、どのグリッドパターンがイメージングされているのかを特定することである。これは、部位占有を見ることによって達成される。以下で説明するように、欠失パターンに基づいて行なわれる部位占有試験には：全てのフィールドに共通のグリッド欠失を用いる試験４９、及び行／列欠失を用いて特定のグリッドの行と列を特定する試験５１の２種類がある。

したがって、前述の２Ｄアラインメント及びレジストレーションエンジンに関係する４つのプロセスは、（１）バックグラウンド減算、（２）ピーク検出、（３）グリッドアラインメント、及び（４）グリッドレジストレーションである。それらを以下でより詳細に説明する。

バックグラウンド減算
バックグラウンド減算は、迷光を抑制するのに必要なプロセスである。蛍光システムにおける迷光は勾配を有することがある。これらの勾配は、フロースライド上の欠陥や染みの結果であることがある。したがって、バックグラウンド減算は常に必要である。

いくつかの異なるバックグラウンド減算法がある。画像を強度として保存し、負数は許容しない。バックグラウンド減算は、通常、領域内の最小強度ピクセルの発見とその強度の較正からなる。最も簡単な技術は、最小ピクセルの強度を小さなサブ領域内で探し出すブロックバックグラウンド減算である。それよりも少しましな結果をもたらす方法は、領域内の最小ピクセルを探し出すモルフォルジカルバックグラウンドプロセスであり、この場合、その領域は、画像全体をスキャンしたウィンドウとして定義される。このプロセスは、はるかに長い計算時間を必要とするので、ブロック減算よりも遅い。他のバックグラウンド減算法を用いてもよい。

ピーク検出
ピークは、３×３もしくは５×５の領域、又は（２ｎ＋１×２ｎ＋１）（式中、ｎ＝１、２、３、４．．．．である）で規定されるより大きい領域のいずれかで最大となるピクセルを同定することによって見出される。選ばれるフィルターのサイズは、グリッドの固有のピッチと対象とするスポットのサイズの関数である。本目的のために、ピッチは、１スポット当たり４ピクセル以下であり、また、スポットサイズは、１〜１０ピクセルを占めるので、３×３グリッド及び５×５グリッドが好ましい。

グリッドアラインメント
グリッドパターンの整列は、ヤコビアン変換の特性を利用する。これは、ポイントの抽象的グリッド４０５をスポットの実際のフィールド４００にフィッティングさせることにより示される。

図７を参照すると、フィールドスポットの記録を助けるために、抽象的グリッド４０５を用いる。グリッドは、フィールド４００のフィールドスポットのパターンをできるだけ密接にフィッティングさせる理想的なアレイの座標を表す。グリッドは、それが厳密に正方形であり、一定の周期性を有するという意味で理想的である。

唯一の観察可能な量は、画像センサーにおけるピクセル強度であるので、グリッドがピクセル参照フレームのどこに位置するのかを正確に知ることは有用である。図８Ａ、８Ｂ、及び８Ｃは、それぞれ、グリッド回転誤差、グリッドスケール誤差、及びグリッドオフセット誤差の概念を示している。グリッド位置の探索は、これらの誤差をできる限り減らすことを含むプロセスである。回転誤差は、図８Ａのように、フィールドとグリッドが互いに対して回転するときに生じる。スケール誤差は、図８Ｂのように、グリッドがフィールドの周期性と異なる周期性を有するときに生じる。オフセット誤差は、グリッドが、面内で；例えば、図８Ｃに示すように、Ｘ又はＹ方向にずれるときに生じる。１つのタイプのオフセット誤差は、グリッドポイントとグリッドポイントの間の距離の半分未満のオフセットである。レジストレーション誤差として知られる第二のタイプのオフセット誤差は、整数のグリッド周期のオフセットである。

グリッドポイントはフィールドスポットにフィッティングされるが、フィールドスポットは、無限に高い解像度で見ることができないので、観察は、離散的カメラピクセルによるしかない。整数の関係性を避けるように、フィールドスポットの周期とカメラピクセルの周期の比を慎重に選ぶことで、グリッドアラインメント操作の精度が高くなる。まず、図９に示すように、フィールド周期がピクセル周期の整数倍である場合のフィールドスポットをイメージングする１次元の例を考える。図９において、スポット６００、６０５などを含むフィールドスポットのラインは、周期、又はスポット間の間隔Λｆを有する。ピクセル６２０、６２５、６３０などを含むカメラピクセルのラインは、周期Λｐを有する。図９の例では、Λｆ＝ｎΛｐ（式中、ｎは整数）である。スポットのラインをピクセルのラインとともに観察することを考える。画像「Ａ」では、スポットは、ピクセルの中心に整列させられている。画像「Ｂ」では、スポットは、ピクセルの左上の隅に整列させられている。しかしながら、ピクセルだけを用いて、画像「Ａ」と画像「Ｂ」を区別することはできない。ピクセルは、光がそのどこに位置するかを決定することができない。したがって、図９の例では、ピクセル、したがって、グリッドは、０．７０７Λｐほども誤整列させられることがあり、誤差を検出するのは難しい。

１つの解決策は、図１０のフィールドスポットをイメージングする概念的な一次元の例に示されているように、ピクセル周期の整数倍ではないフィールド（及びグリッド）周期を選ぶことである。図１０では、スポット７００、７０５などを含むフィールドスポットのラインは、周期、又はスポット間の間隔Λｆを有する。ピクセル７２０、７２５、７３０などを含むカメラピクセルのラインは、周期Λｐを有する。図１０の例では、８Λｆ＝９Λｐ（同じく、Λｆ＝１．１２５Λｐ）である。ピクセルが「１」から「９」で標識されている７４０で示されるように、スポットのラインをピクセルのラインとともに観察することを考える。フィールドスポット１及び９とピクセル１及び９は、９ピクセル毎にのみ正確なアラインメントが見られることを示している。スポットとピクセルの相対位置は互いに、介在するピクセル全体に広がる。ボックス７５０は、互いに重畳されたピクセル「１」から「９」の拡大図である。スポットは、拡大された重畳ピクセル全体に均一に広がる。スポット周期とピクセル周期の差は、ピクセルの長さを同じ幅でサンプリングするスポットを生じさせる。重畳７５０の全スポット位置の平均から、最良フィットフィールド位置（すなわち、グリッド位置）が推定され、その誤差は、係数

（式中、Ｎは、反復と反復の間のピクセル数であり；この例では、Ｎ＝９である）によって低減される。

明らかなことだが、フィールドスポットは、無限に小さい範囲を有するのではなく、実際、光は、ある空間分布で放出される。表意記号７６０は、点光源から標準偏差σによって特徴付けられるガウス範囲を有する源への一般化を示す。その場合、達成することができるフィット誤差は、

に比例する。

ピクセル周期の整数倍ではないフィールド（及びグリッド）周期を選ぶことにより、サブピクセル解像度でのグリッドフィッティングが可能になる。図９及び１０は、フィールドアレイとピクセルアレイの間で意図的なモアレパターンを作成する一次元の例のみを示す。実際のシステムでは、同じ原理を二次元で適用する。しかしながら、二次元モアレパターンの恩恵は、垂直の一次元モアレパターンの単純な連続適用よりも大きい。

重畳ピクセル７５０において、サンプリングされるフィールドスポット位置は、ピクセルを左から右に横断するライン上にある。モアレ原理を垂直方向に適用するが、２つ別々の（例えば、ＸとＹ）フィッティング手順を実施することによって、示されているようなラインで、かつ垂直線に沿ってピクセルをサンプリングするスポットが得られる。しかしながら、以下で見るように、二次元のグリッドフィッティングは、Ｘ誤差とＹ誤差を別々に最小化するのではなく、グリッド位置とフィールドスポットの間の二乗距離（例えば、Δｘ²＋Δｙ²）を１段階で最小化することを含む。二乗距離が最小化された量であるとき、重畳ピクセル領域全体をサンプリングする。

図１０の例では、フィールドスポットとピクセルが、９ピクセル毎に一列に並び、それにより、モアレ縞又はうなり周期が規定されている。１つのフィールドに見られる縞の数は、通常、およそ１０〜２０個になるように選ばれる。縞の真直性を用いて、フィールド歪曲収差を検出することができる。

二次元でできるだけ正確にグリッドをフィールドにフィッティングさせる手順の結果として、カメラ画像センサー内のピクセルの座標系の観察されたフィールドにフィットした規則的な長方形のグリッドが得られる。図１１は、本発明によるシステムで利用され、図６のエンジンに対応するグリッドアラインメント及びレジストレーション手順における工程を示す。図１１において、工程８０５、８１０、８１５、８２０、８２５、８３０、及び８３５は、通常、示されている順序で実施される；しかしながら、この工程の順序は、この手順の必要条件ではない。さらに、全ての状況で全ての工程が必要とされるわけではなく；そのため、これらの工程のうちのいくつかは省略することができる。例えば、全ての状況で、ピーク閾値設定識別８２５や精密グリッドフィット８３０が必要とされるわけではない（例えば、高い精度が必要とされない場合）。

カメラの画像センサーによって記録されるフィールドの画像から始めて、工程８０５は、その画像からバックグラウンドシグナルレベルを差し引く。工程８１０は、フィールドスポットを検出する；すなわち、蛍光色素によって放出されるシグナルが画像中のどこに現われるかを探し出す。工程８１５は、反復手順を用いて、フィールドスポットに対する粗グリッドフィットを行なう。工程８２０は、解析的手順を用いて、フィールドスポットに対する精密グリッドフィット行なう。工程８２５では、フィールドスポットをピーク閾値設定識別によって再び対象化する。工程８３０は、再び対象化されたフィールドスポットに対して行なわれる解析的手順を用いた、フィールドスポットに対する２回目の精密グリッドフィットである。工程８３５は、適切なオフセットでグリッドの位置を合わせる；つまり、任意のモジュログリッド周期誤差を修正する。

図１２は、フィールドスポットのイメージングの概念図を示す。図１２では、いくつかのフィールドスポットがボックス９０５で示されている。スポットは、様々な輝度を有し；蛍光を全く放出しないスポットもあれば、明るいスポットもある。ＤＮＡシークエンシングシステムで取得される典型的なフィールドでは、一度に１つの蛍光色しかイメージングされないので、フィールドスポットの４分の１以下しか見えない。したがって、フィールドはまばらであってもよい。

挿入図９１０は、画像センサー内のピクセルによって記録された数個のスポットを示す。単一のフィールドスポットからの光は、２ピクセル以上で検出することができる。若干のバックグラウンドノイズ−最も近いフィールドスポットからの放出がないときにゼロよりも大きい輝度を記録するピクセルもある。図１２に概説した手順における最初の工程は、前述のような、バックグラウンド減算である。バックグラウンド減算の１つの方法は、画像中の最も暗いピクセルによって記録された輝度を取得し、その輝度を画像中の全てのピクセルから差し引くことである。例えば、挿入図９１０では、ピクセル９１５が最も暗く、その輝度を挿入図中の全てのピクセルから差し引くことができる。バックグラウンド減算は、通常、フィールド内のスポットのサブセットに相当するピクセルの連続するブロックに対して行なわれる；すなわち、フィールドの画像中の全てのピクセルに対して一度に行なわれるわけではない。

バックグラウンドレベルが画像から差し引かれると、フィールドスポットが検出される。１つの手法は、ピクセルのサブユニット、例えば、５×５アレイを検討し、最も明るいピクセルの位置がフィールドスポットの位置であると指定することである。フィールドスポットを検出するための別の方法は、ガウス分布をピクセル輝度レベルに当てはめ、最良フィット分布のピークに最も近いピクセルの位置を用いることである。挿入図９１０において、白い三角形は、フィールドスポットの位置として特定されたピクセル、例えば、ピクセル９２０を示す。

フィールドスポットが特定されれば、グリッドをフィールドスポットにフィッティングさせるプロセスを開始することができる。出発点として、画像センサー内のピクセルと整列されるグリッドを規定することができる。グリッドフィッティングは、グリッドをできる限り密接にフィールドスポットと整列させるように、グリッドを調整することを含む。

最良フィットを見つけるために、グリッドの回転、スケール（すなわち、倍率）、並びに側方（ｘ及びｙ）オフセットという４つのパラメータを調整する。非点収差、歪曲収差、反り、及び他の種類の誤差のより正確なフィッティングを可能にするより多くのパラメータを用いてグリッドを設計してもよい。これらのより高次の誤差は、レンズ、チップ基板、又は変換ステージの欠陥などの因子によるものである。これらの誤差は、イメージングシステムで動的に補償するのが、回転、スケール、及びオフセットよりも不便である。

図１３Ａ及び図１３Ｂは、二次元アラインメントの前（「Ａ」）及び後（「Ｂ」）のフィールド１０００及びグリッド１００５の概念図である。アラインメント後、グリッド周期を法とするオフセット誤差を除いて、フィールドスポットの位置とグリッドポイントの位置は実質的に一致する。（グリッド周期と等しい距離だけの規則的なグリッドの変換は、グリッドの末端の位置、又は同じくその起点が分からなくても、グリッドを変化させない。起点を見つけるための又はグリッドの「位置を合わせる」ための方法は以下に記載されている。）

グリッドアラインメントは、反復粗フィット手順と解析的精密フィット手順（単数又は複数）の両方を含む。反復粗フィット手順の結果として、各グリッドポイントが任意の他のフィールドスポットよりも正確なフィールドスポットに近いフィットが得られる。図１３では、フィールド１０００とグリッド１００５が、「Ａ」において正しく整列されておらず、グリッドポイントが、正確なフィールドスポットよりも不正確なフィールドスポットに近くなることがある。「Ｂ」では、各グリッドポイントは、グリッド周期を法として、その正確なフィールドスポットに最も近い。

図１４は、反復粗グリッドフィット手順における工程の疑似コード表である。ボックス１１００中の工程は、パラメータ値の四次元のメッシュに関する関数を評価するループが四重に入れ子になったものである。変化するパラメータは、：グリッド回転（「θ」）、グリッド倍率又はスケール（「Ｓ」）、グリッドＸ変換又はオフセット（「Ｘ」）、及びグリッドＹ変換又はオフセット（「Ｙ」）である。各メッシュスポットで評価される関数Ｆは、各グリッドポイントと最も近いフィールドスポットの間の二乗距離の和：

（式中、ベクトル

は、フィールドスポットの位置であり、ベクトル

は最も近いグリッドポイント又はグリッド内の参照の位置であり、和Ｆは、フィールドスポット全体である）である。

検討する各（θ，Ｓ，Ｘ，Ｙ）組合せについてＦの値を記録する。Ｆの最小値が得られる組合せは、この反復手順を用いて入手可能な最良フィットである。パラメータ値のより細かいメッシュを通り抜けるにはより多くの時間がかかるので、有限ステップサイズのΔθ、ΔＳ、ΔＸ、及びΔＹは、粗フィットを実施するのに必要な時間の長さに影響を与える。最適な（θ，Ｓ，Ｘ，Ｙ）組合せは、ほぼ確実に、メッシュ点とメッシュ点の間にあるので、粗フィッティング手順から最適フィットが得られる可能性は低い。ステップ幅［θｍｉｎ，θｍａｘ］、［Ｓｍｉｎ，Ｓｍａｘ］、［Ｘｍｉｎ，Ｘｍａｘ］、［Ｙｍｉｎ，Ｙｍａｘ］は、各グリッドポイントがその正確なフィールドスポットに最も近いものとなる解がパラメータメッシュに含まれるように選ばれる。

一般に、フィールドスポットの組を処理するとき、何個の蛍光シグナル（例えば、ＤＮＡナノボール由来のもの）を探せばよいかということは予め分からない。フィールドスポットのわずか数パーセントから５０パーセント又はそれ以上までの範囲を「照らす」ことができる。フィールドスポットであるように見える他のピクセルは、単にノイズである可能性がある。したがって、粗フィット手順では、明るいフィールドスポットだけを用いる。通常、検出されるフィールドスポットのうちの最も明るい１５％だけを粗フィッティングに含めるが、具体的な閾値は、技術的選択の問題である。

反復フィット又は粗フィットが行なわれれば、解析的精密グリッドフィット手順によってフィットが最適化される。概念的には、精密グリッドフィットは、（どれほど明確なものであっても）各グリッドポイントを最も近いフィールドスポットにゴムバンドで接続し、その後、グリッドを適応させることに相当する。図１５は、精密グリッドフィット手順に関係するベクトルを示す。図１５において、ｒ＝（ｘｉ，ｙｉ）は、フィールドスポットであり、一方、ｒｇｒｉｄ＝（ｐｍｉ，ｐｎｉ）は、正方形グリッドのグリッドポイントである。ここで、ｐは、グリッドポイント（交互に、「ピッチ」、「周期」、「スケール」、又は「倍率」と呼ばれる）の間隔であり、ｍｉ及びｎｉは、フィールドスポットに最も近いグリッドポイントを選択する整数インデックスである。ベクトル

は、グリッド変位ベクトルであり、ベクトル、

は、フィールドと、グリッド及びグリッド変位の和のベクトルとの間の誤差である。この誤差は、フィールド、及び

（式中、θは、ｘ−ｙ平面に垂直な軸の周りのフィールドに対するグリッドの回転を表す）による変位に関する。精密フィット手順の目的は、グリッドとフィールドの誤差を最小化するｘ０、ｙ０、θ、及びｐの最適値を見つけることである。これらの値を見つけるために、二乗誤差の和を：

（式中、Ｎは、フィールドスポットの数である）と表す。次に、４つの独立変数ｘ０、ｙ０、θ、及びｐの各々に関するχ²の偏導関数を０とすることにより、（ヤコビアン変換として知られる）以下の方程式の組が得られる：

ここでは、小角度近似値のｃｏｓθ＝１及びｓｉｎθ＝θを用いて、方程式が線形化されており、和は、以下の慣例に従って表される：

必要に応じて、行列方程式の解を求め、ｘ０、ｙ０、θ、及びｐを得る。

最初の精密グリッドフィットが得られれば、ピーク閾値識別、その後のさらなる精密フィットにより、フィットのさらなる改善を達成することができる。粗フィット及び精密フィットの第一段階では、ごく一部のフィールドスポットしか検討されない。通常、検出されたフィールドスポットのうちの最も明るい１５％しか、第一段階の精密フィッティングに含まれないが、実際のパーセンテージは、技術的選択の問題である。最も明るいスポットだけを第一段階に用いる理由は、より暗いスポットの多くがノイズであり得るということである。しかしながら、粗フィッティング及び精密フィッティングの後、ピーク閾値識別によって、どのスポットをフィットに含めるべきかを最評価することができる。

フィールドスポットをフィットに含めるための使用可能な輝度閾値を規定するために、最初の粗フィッティング及び精密フィッティングで用いられるものだけでなく、全てのフィールドスポットをグループに分類する。グループは、例えば、最も明るい５０個のスポット、次の最も明るい５０個のスポット、又は最初の１０００個と次の１０００個などである。（数は、グループ内の全スポットの平均二乗距離誤差が統計的有意性を有する程度に十分大きければよい。）次に、これらのグループを平均二乗距離誤差対輝度のグラフにプロットする。図１６は、通常のフィールドのピーク閾値識別データのグラフ１３０５である。図１６において、平均二乗距離誤差が小さいグループのフィールドスポットは、平均二乗距離誤差が大きいグループのフィールドスポットよりも明るい。このグラフは、より暗いスポットのグループの平均二乗距離誤差が急に大きくなるかなり急なカーブを有する。閾値をこのスポットの近くに引くことができる（例えば、図１６に引かれた閾値１３１０）。平均二乗距離誤差が閾値よりも小さいグループのフィールドスポットの数は、通常、粗フィット及び第一段階の精密フィットで用いられるフィールドスポットの数の１５％よりも有意に多い。次に、このより多くの数のフィールドスポットを用いて、図１５と関連させて記載されている精密フィット手順を繰り返すことができる。図１６において、例えば、閾値１３１０を下回る最も暗いスポット、すなわち、破線１３１５の右側にあるスポットよりも明るいフィールドスポットは全て、２回目の精密フィットに含めることができる。

この時点で、グリッドを整列させ、同様に、それを蛍光スポットのフィールドに対しても整列させることができる。グリッドは、依然として、Ｘ方向とＹ方向の整数のグリッド周期だけフィールドからずれている場合がある。図１７Ａは、フィールドと整列させられているが、適切なオフセットでまだ位置合わせがされていないグリッドの概念図を示す。図１７Ａでは、「Ａ」において、フィールド１４００とグリッド１４０５は整列させられているが、位置合わせされていない。図１７Ｂでは、「Ｂ」において、フィールド１４００とグリッド１４０５が適切に位置合わせされている。しかしながら、これまでに記載したアラインメント及びフィッティング手順では、図１７Ａと１７Ｂの状況「Ａ」と「Ｂ」を区別することができない。したがって、さらなるレジストレーション手順が必要である。

本発明によるレジストレーションは、フィールドスポットの疑似ランダム欠失パターンを用いて効率的に達成することができる。図１８は、本発明による疑似ランダム欠失パターンを有する二次元フィールド１５００の概念図を示す。アレイは、生化学実験、例えば、ＤＮＡナノボールを用いるプローブ−アンカーライゲーションをサポートする何十億もの部位を含むことができること、及び表面部位以外の基板の部分は、生化学実験をサポートしないことが理解される。そのような領域は、生体分子の非特異的結合を減少させるように化学処理されている。フィールド内のスポットの一部、例えば、スポット１５０５及び１５１０は、欠落している、すなわち、欠失している。蛍光タグ化生体分子が、これらのスポットで見られる可能性は低く、したがって、どのスポットが欠落しているかという知識は、フィールドの位置をグリッドに正確に合わせるために用いることができる。

自己集合ＤＮＡナノボールアレイ用のチップを、半導体リソグラフィー技術、並びに直接描画ｅビーム技術及びミクロ接触プリンティング技術を用いてパターン化することができる。例えば、正電荷を有するアミン基を、フィールドアレイ内の負電荷を有するＤＮＡナノボールに結合するようにパターン化することができる。フィールドアレイ内のスポットの欠失は、アミン基をパターン化するために用いられるリソグラフィーマスク（複数可）から特徴を取り除くことによって達成することができる。特定のフィールドスポットの位置にアミン基がない場合、ＤＮＡナノボールは付着しないと考えられる。

疑似ランダム欠失パターンは、交差相関技術を用いてフィールドアレイの既知の「マスク」パターン又は疑似ランダムパターンと一致させることによって、レジストレーションに用いられる。マスクの位置をフィールドと適切に合わせた場合、穴が欠失スポットと並ぶので、光はほとんど見られない。マスクが、いくらかの数のフィールド周期だけフィールドからずれた場合、偶然穴に入ったスポットからの光はマスクを通過する。マスクを通過する光の量は、マスクとフィールドの位置が合わされている場合を除き、全変位にほぼ等しい。

図１９に、グラフ１６０５におけるグリッドレジストレーションデータの例を示す。このグラフは、０〜８１のフィールド周期のオフセットの輝度を示している。これら８１個のラスターパターンオフセットは、ＸオフセットとＹオフセットの二次元９×９フィールドのラスターパターンオフセットである。グリッド周期数４０を除く、各々のオフセットについて、疑似ランダムパターンとして現われるフィールドスポットの輝度は、およそ４２５任意輝度単位である。オフセット４０では、輝度はゼロに近い。８１個のオフセット周期のラスターパターンであるため、オフセット４０は、Ｘ＝４、Ｙ＝４を表す。これは、グリッドの位置をフィールドに合わせるために必要なオフセットである。

疑似ランダム欠失パターンを用いて、フィールドを特定するだけでなく、グリッドポイントの位置をフィールドスポットに合わせることもできる。図１８を例として参照すると、各フィールドに、全てのフィールドに共通し、かつレジストレーションに用いられる第一の疑似ランダム欠失パターンが提供されている。さらに、各フィールドは、さらに２つの疑似ランダム欠失パターン：図６のシステムと関連させて示されている、チップ上の特定のフィールドの行を特定するパターンとチップ上の特定のフィールドの列を特定するパターンを有することもできる。したがって、各々の観察されたフィールドパターンは、レジストレーションに用いられる共通の疑似ランダム欠失パターンに対して、及びチップ上のどこにフィールドがあるかを決定するための数十個の他の疑似ランダム欠失パターンに対して交差相関させられる。フィールドスポットの約３％が疑似ランダムパターンで欠失していることが望ましい；しかしながら、わずか１％の欠失を含むたった１組のパターンでまずまずの結果が得られる。３％よりも多い欠失パターンは、ごくわずかしか精度を増加させずに、使用可能な空間を消費するが、１％未満の欠失パターンは、レジストレーションにおいて許容できない可能性のある誤差を生み出す。

ここに記載のアラインメント及びレジストレーション技術は、高密度生化学アレイ実験で観察されたフィールドスポットの迅速かつ正確な同定を可能にする。これらの技術は、実験が、カルテシアン座標アレイ上で、そうでなければ可能なフィールドスポット１つ当たりより少ないピクセルで行なわれるのを可能にする。理想的なグリッドにフィッティングするフィールドスポットの位置がサブピクセル精度で決定される。したがって、各フィールドスポットの輝度は、フィールドスポット付近のピクセルによって記録されるピクセル強度の加重平均として計算することができる。図２０は、どのようにしてサブピクセルグリッドアラインメントを用いることができるかの例を示している。

図２０では、代表的な９×９ブロックのピクセル（ピクセル１７１５、１７２０、１７２５、１７３０、１７３５、１７４０、１７４５、１７５０、及び１７５５）が示されている。フィールドスポット１７０５の位置は、上記のグリッドアラインメント及びレジストレーション技術によって決定されている。円１７１０は、フィールドスポット１７０５から放出される光の横断範囲を概念的に示したものである。円１７１０は、例えば、ガウス分布の１σ半径とみなすことができる。仮に、フィールドスポット１７０５の位置がピクセル精度でしか分からないならば、スポットの輝度を、ピクセル１７３５によって報告される輝度とみなしてもよい。又は、ピクセル１７３５の輝度に５０％の重みを付け、ピクセル１７２０、１７３０、１７４０、及び１７５０の各々の輝度にそれぞれ１２．５％の重みを付けてもよい。しかしながら、フィールドスポット位置の高精度のサブピクセル推量を考慮すると、本発明に従ってより正確な重み付けが可能となる。図２０の例では、例えば、ピクセル１７３０、１７３５、１７４５、及び１７５０の重みは、それぞれ、２０％、５０％、１０％、及び２０％であり、各ピクセルと円１７１０の重複に相当する。

ゲノム研究や他の高密度生化学アレイの使用は、商業的に実現可能なデータ取得速度を達成するために、先進的なイメージング法、例えば、本明細書に記載のイメージング法を必要としている。高密度に配列されたアレイチップ並びに先進的なアラインメント及びレジストレーション技術は、大規模なヒトゲノム研究を推進するシステムの重要な要素である。

さらに、本発明の装置及び機械は、未知配列の核酸の生化学的研究のための数多くの方法において有用である。例えば、本発明の解析スライドは、ハイブリダイゼーションに基づく方法、例えば、米国特許第６，８６４，０５２号；同第６，３０９，８２４号；及び同第６，４０１，２６７号、並びに米国公開特許出願第２００５／０１９１６５６号に開示されているもの；合成法によるシークエンシング、例えば、米国特許第６，２１０，８９１号、同第６，８２８，１００号；同第６，８３３，２４６号；同第６，９１１，３４５号；Ｒｏｎａｇｈｉｅｔａｌ（１９９８），Ｓｃｉｅｎｃｅ，２８１：３６３−３６５；及びＬｉｅｔａｌ，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ，１００：４１４−４１９（２００３）に開示されているもの；並びにライゲーションに基づく方法、例えば、国際公開第１９９９０１９３４１号、国際公開第２００５０８２０９８号、国際公開第２００６０７３５０４号、及びＳｈｅｎｄｕｒｅｅｔａｌ．（２００５），Ｓｃｉｅｎｃｅ，３０９：１７２８−１７３９とともに用いることができる。関連法によって許容される程度まで、これらの刊行物の内容は、あらゆる目的のために参照により本明細書に組み込まれる。

特定の態様では、多重解析スライドは、複数の生化学的なシークエンシング反応を用いるハイスループット解析で用いられる。フローセル型の解析スライドは、例えば、シークエンシング反応系において、並列に、又は前後に配置させることができる。複数のフローセルは、複数のフローセル内の各核酸の実体を反応プロセス全体を通してモニタリングすることができるように、ランダムに又は所定の様式でフローセルの基板に付着した核酸又はプライマーを任意に含む。核酸又はプライマーの少なくとも一部が個々に光学的に解像可能であるように、核酸又はプライマーを表面に付着させることができる。

実施形態の好ましい一態様では、本発明のシステムで用いられるフロースライドは、未知配列の核酸が固定された基板を含む。本発明の実施形態の特定の態様では、圧着手段は、複数のフローセルをまとめて圧着することができる。通常、１個から約１２又は１６個のフローセルを単一の圧着手段によって同時に圧着することができる。フロースライドは、実質的に水平又は実質的に垂直な形で、圧着手段に配置させることができるが、これら２つの位置の間にあるどの位置も可能であり得る。

本明細書は、方法、システム、及び／又は構造、並びにここに記載されている技術の例となる態様におけるそれらの使用の完全な説明を提供するものである。本技術の様々な態様が、ある程度の具体性をもって、又は１以上の個々の態様に関連して、上で記載されているが、当業者であれば、それに関する技術の精神又は範囲を逸脱することなく、開示されている態様に多くの変更を加えることができるであろう。ここに記載されている技術の精神及び範囲を逸脱することなく、多くの態様を作ることができるので、適切な範囲は、以下に添付されている特許請求の範囲に属する。したがって、他の態様が意図される。さらに、別の形で明示的に特許請求されないか、又は特定の順序が特許請求項の範囲の用語によって本質的に必要とされない限り、どの操作も任意の順序で行なうことができることが理解されるべきである。上記の説明に含まれ、また、添付の図面に示される事物は全て、単に特定の態様を示すものと解釈されるものとし、示された実施形態に限定されるものではないことが意図される。以下の特許請求の範囲で定義されるような本技術の基本的要素から逸脱することなく、詳細又は構造を変更することができる。任意の対応する実用的用途の請求項において、「手段」という用語が用いられない限り、その中で列挙された特徴又は要素はいずれも、米国特許法第１１２条６項の規定によるミーンズ・プラス・ファンクション限定とみなされるべきではない。

Claims

基板上における生化学的部位の位置およびレジストレーションを確立するために、イメージング用の平らな表面を有する基板を準備するステップと；
画像中で前記基板上の生化学的部位に対応するフィールドスポットを検出するステップと；
グリッドオフセットを決定するために、二次元グリッドと前記基板の平らな表面上の生化学的部位のフィールドスポットとのアラインメントを行うステップと；並びに
前記グリッドのポイントとフィールド内の既知の位置とのレジストレーションを行うステップとを含み、
前記レジストレーションを行うステップは、前記フィールドスポットを前記基板上のフィールドスポットの第一の既知の欠失パターンと交差相関させて、フィールド内の絶対位置を決定するステップを含む、方法。
前記欠失パターンは疑似ランダムとなるように選ばれる、請求項１に記載の方法。
前記レジストレーションを行うステップは、前記フィールドスポットを、前記基板上のフィールドスポットの位置を特定する第二の既知の欠失パターンとさらに交差相関させるステップを含む、請求項１に記載の方法。
前記アラインメントを行うステップは、各グリッドポイントと各フィールドスポットの間で最小二乗距離を有する試験された組合せをフィールドスポットのパターン中に見出すために、回転、スケール、ｘ−オフセット、及びｙ−オフセットの様々な組合せを繰り返し試験するステップを含む、請求項１に記載の方法。
前記アラインメントを行うステップは、
強度群によってフィールドスポットを収集するステップ；
群平均スポット輝度を最も近いグリッドポイントからの群平均距離に対してプロットするステップ；及び
前記最も近いグリッドポイントからの群平均距離が閾値未満となる群の全スポットに対して精密フィッティングする工程を繰り返すステップを含む、請求項１に記載の方法。
基板の表面上のスポットの二次元の周期的アレイ内のスポットに位置する複数の個別の表面部位を有する固体平面基板を含み、
前記複数の表面部位は、光学的に解像可能な、生化学実験をサポートするように修飾された表面部位と、修飾されていない欠失された表面部位とを含み、
前記欠失された表面部位は、少なくとも１つの既知の欠失パターンに従って前記アレイから欠失させられている、装置。
前記欠失パターンは疑似ランダムである、請求項６に記載の装置。
前記部分は約１％〜約３％である、請求項６に記載の装置。
前記生化学実験は、ＤＮＡナノボールを用いるコンビナトリアルプローブ−アンカーライゲーションを含む、請求項６に記載の装置。
個々の表面部位であって、生化学実験をサポートするように修飾されている、表面部位を有し、前記部位は、基板の表面上のスポットの二次元の周期的アレイ内のスポットに位置し、かつそうでなければ存在したであろう前記スポットの部分は、既知の欠失パターンに従って前記アレイから欠失させられている、固体平面基板を提供するステップ；
前記部位で生化学実験を行うステップ；
前記生化学実験の画像を取得するステップ；
前記画像を前記欠失パターンと交差相関させて、前記スポットの絶対位置を決定するステップ；及び
前記画像をサブピクセル精度で観察して、前記生化学実験についての情報を引き出すステップを含む、方法。
前記画像を取得するステップは、前記スポットの正確な位置に基づいて、隣接ピクセルからの出力の寄与に重み付けするステップを含む、請求項１０に記載の方法。