1.プローブ
本発明の1つの態様は、複雑なサンプル中の1つまたは複数の生物の高感度で迅速かつ非常に特異的な検出に適した環状化「捕獲」プローブの混合物を提供する。「プローブ」は、骨格配列によって分離された2つの相同プローブ配列を含む線状の非分枝ポリ核酸を指し、ここで、第1の相同プローブ配列は核酸の第1の末端にあり、第2の相同プローブ配列は核酸の第2の末端にあり、プローブは、少なくとも2ヌクレオチドの対象の領域を環状化捕獲することができる。「環状化捕獲」は、対象の領域に相補的な配列を取り込むことによって環状になるプローブを指す。単純な分子反転プローブ(MIP)および関連の捕獲プローブなどの環状化プローブの基本的な設計原理は当該技術分野において知られており、例えば、Nilsson et al.,Science,265:2085−88(1994)、Hardenbol et al.,Genome Res.,15:269−75(2005)、Akharas et al.,PLOS One,9:e915(2007)、Porecca et al.,Nature Methods,4:931−36(2007)、Deng et al.,Nat.Biotechnol.,27(4):353−60(2009)、米国特許第7,700,323号明細書および同第6,858,412号明細書、ならびに国際公開第1999/049079号パンフレットおよび同第1995/022623号パンフレットに記載されている。
本発明の特定の態様は2つの相同プローブ配列を含むプローブを包含し、これらはそれぞれ、少なくとも2つのヌクレオチドを含む対象の領域に隣接する標的生物のゲノム中の異なる標的配列と特異的にハイブリッド形成し得る。プローブは、さらに、検出可能な部分およびプライマーを含有する骨格配列を、相同プローブ配列の間に含むことができる。通常、プローブの3’端部の相同プローブ配列は、H1(または伸長アーム)と呼ばれ、プローブの5’端部の相同プローブ配列は、H2(連結またはアンカーアーム)と呼ばれる。対象のゲノム中の標的部位とのハイブリダイゼーションの際、プローブ/標的二本鎖は、プローブにおける少なくとも2つのヌクレオチドのポリメラーゼ依存性取込み(伸長アームにおける)、および/またはプローブのリガーゼ依存性の環状化(ポリメラーゼ伸長プローブの環状化、または対象の領域に架かる連結ポリヌクレオチドの配列依存性連結のずれかによる)のために適切な基質である。
「捕獲反応」は、試験サンプルと接触される1つまたは複数のプローブが対象の領域の環状化捕獲を受けたプロセスを指し、プローブ中の第1および第2の相同プローブ配列は、プローブの第1の標的配列と第2の標的配列との間の対象の領域を捕獲するために、試験サンプル中のそのそれぞれの標的配列と特異的にハイブリッド形成されている。「捕獲反応産物」は、試験サンプルによる捕獲反応を完了することによって産生される核酸の混合物を指す。「増幅反応」は、捕獲反応産物を増幅するプロセスを指す。「増幅反応産物」は、捕獲反応産物による増幅反応を完了することによって産生される核酸の混合物を指す。
いくつかの実施形態では、第1および第2の相同プローブ配列は、標的配列に対して相補的でないが、標的核酸、例えば、小さいRNAおよびmicroRNAの5’および3’末端に連結し、リン酸化またはアデニル化5’末端および遊離3’ヒドロキシル基などの核酸連結酵素との適合性のための適切な化学基を有する。小さい核酸クローニングのための例示的な戦略は図3に示される。いくつかの実施形態では、アデニル化5’端部および遊離3’−OHを有するプローブは、一段階で、適合性の連結端部を含有する小さいRNA断片とほぼ同時に連結する(図3(i))。さらなる実施形態では、プローブは、小さい標的核酸を二段階プロセスで捕獲することができ、アデニル化5’端部およびブロックされた3’端部(例えば、ジデオキシヌクレオチドブロック端部)を有するプローブが、標的の小さいRNAと連結され得る(図3(ii)、(ii)の2つのプローブ図のうちの最初の図)。これは、誘導されるリボヌクレアーゼH2消化によって最初にプローブ内のRNA塩基を除去し、続いて、ここでは3’−OH−末端であるプローブを小さいRNAにほぼ同時に連結させることによって起こり得る。代替の二段階プロセスでは、プローブは5’−アデニル化プローブ部位に連結され、次にプローブのブロックされた3’端部がリボヌクレアーゼH2によって消化されて、連結のための遊離3’−OHが生成され得る(図3(ii)、(ii)の2つのプローブ図のうちの2番目の図)。
1.1 相同プローブ配列
「相同プローブ配列」は、対象の生物のゲノム中に存在する標的配列と特異的にハイブリッド形成する本発明によって提供されるプローブの一部である。「相同プローブ配列」、「プローブアーム」、「ホーマー(homer)」および「プローブ相同性領域」という用語はそれぞれ、標的ゲノム配列と特異的にハイブリッド形成し得る相同プローブ配列を指し、本明細書では交換可能に使用される。「標的配列」は、対象の生物のゲノム中の核酸の一本鎖における核酸配列を指す。いくつかの実施形態では、プローブ中の相同プローブ配列は、それぞれ、少なくとも8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、45、50、55、60、65、70、80、90、100、110、120、またはそれ以上のヌクレオチドの長さである。特定の実施形態では、相同プローブ配列は、18〜50、18〜36、20〜32、または22〜28ヌクレオチドの長さである。より特定の実施形態では、相同プローブ配列は22〜28ヌクレオチドの長さである。特定の実施形態では、プローブ中の2つの相同プローブ配列は同じ長さであり、他の実施形態では、これらは異なる長さである。特定の実施形態では、プローブの相同プローブ配列は長さが異なるが、10、9、8、7、6、5、4、3、または2ヌクレオチド未満だけ異なる。
いくつかの実施形態では、相同プローブ配列は、長く続く連続した同一ヌクレオチドを含有しない。いくつかの実施形態では、相同プローブ配列は、10、9、8、7、6、5、4、または3つ未満の連続した同一ヌクレオチドを含有する。より特定の実施形態では、これらは6つ未満の連続した同一ヌクレオチドを含有し、より特定の実施形態では、これらは4つ未満の連続した同一ヌクレオチドを含有する。
相同プローブ配列は、ヘアピンなどの二次構造を実質的に有しないこともある。nが7であるときに、相同プローブ配列の逆補体のn−merが少なくとも5塩基離れた相同プローブ配列中のn−merに対して完全に相補的でない場合に、相同プローブ配列は「二次構造を実質的に有しない」。いくつかの実施形態では、nは、15、14、13、12、11、10、9、8、6、5、4、または3である。特定の実施形態では、nは3〜7である。いくつかの実施形態では、配列の融解温度(Tm)で0.25μMの濃度において、50mMのNa+を含有しMg++を含有しない水溶液中の分子の30%未満が安定な分子内ヘアピンまたは分子間二量体である(ここで、溶液は他の配列を含まない)場合に、配列、例えば、相同プローブ配列、骨格配列、またはプローブは、二次構造を実質的に有しない。いくつかの実施形態では、配列のTmよりも15、10、8、6、4、または2℃低い温度で0.25μMのDNA濃度において、50mMのNa+を含有しMg++を含有しないときに分子の30%未満が安定な分子内ヘアピンまたは分子間二量体である(ここで、溶液は他の配列を含まない)場合に、配列は二次構造を実質的に有しない。いくつかの実施形態では、0.5mMのMg++の存在下、配列のTmよりも15、0、8、6、4、または2℃低い温度で0.25μMのDNA濃度において、50mMのNa+および0.5mMのMg++を含有するときに分子の30%未満が安定な分子内ヘアピンまたは分子間二量体である場合に、配列は二次構造を実質的に有しない。二次構造を検出する他の方法は当該技術分野において知られており、本発明において使用することができ、例えば、Zuker,Nucleic Acids Res.,31:3406−15(2003)、Mathews et al.,J.Mol.Biol.,288:911−940(1999)、Hilbers.et al.,Anal.Chem 327:70(1987)、Serra et al.,Nucleic Acids Res.,21:3845−3849(1993)、およびVallone et al.,Biopolymers.,50:425−442(1999)に記載されている。
いくつかの実施形態では、相同プローブ配列は、0.5mMのMg++の存在下、50〜72℃、例えば、約50、52、54、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、または72℃の融解温度(Tm)を有するように設計される。特定の実施形態では、Tmは、0.5mMのMg++の存在下、50〜65℃である。いくつかの実施形態では、Tmは、Mg++の非存在下、38〜72℃である。特定の実施形態では、プローブ中の相同プローブ配列はほぼ同じTmを有し、他の実施形態では、これらは異なるTmを有するが、互いに10、9、8、7、6、5、4、3、2、または1℃の違いである。特定の実施形態では、第1の相同プローブ配列(すなわち、プローブ中の最も5’側)は第2の相同プローブ配列よりも低いTmを有し、他の実施形態では、第2の相同プローブ配列よりも高いTmを有する。
「融解温度」(「Tm」)は、溶液中のDNA分子の50%がその相補的配列との二本鎖としてハイブリッド形成され、半分が解離されている温度を指す。他に記載されない限り、Tmは、Mg++を含有せずに、0.25μMのDNA濃度および50mMのナトリウム濃度で決定される。Tmは、経験的な測定または推定を含む当業者に知られている様々な方法によって決定され得る。特定の実施形態では、Tmは、配列中のGおよびCヌクレオチドの数または割合をカウントすることによって推定される。特定の実施形態では、相同プローブ配列中のGおよびCヌクレオチドの数は、配列中のヌクレオチドの30〜60%の間、例えば約30、35、40、45、50、または55%などである。より特定の実施形態では、相同プローブ配列中のGおよびCヌクレオチドの数は、相同プローブ配列中のヌクレオチドの38〜44%である。
特定の実施形態では、隣接するヌクレオチド間の塩基スタッキングの説明となるTmの最近傍推定値が使用される。最近傍計算は、例えば、Breslauer et al.,PNAS,83:3746−3750(1986)に記載されており、SantaLucia,PNAS,95(4):1460−65(1998)において概説されており(いくつかの経験的な最近傍研究が概説され、特に、表2においてDNA/DNA二本鎖のためのΔHおよびΔSマスターテーブルが提供される)、これは、参照によって本明細書中に援用される。
相同プローブ配列は、標的生物のゲノム中の標的配列と特異的にハイブリッド形成するように設計されてもよい。「ハイブリッド形成する」という用語は、ワトソン−クリック塩基対形成(AとTまたはU、およびGとC)による核酸間の配列特異的相互作用を指す。「特異的にハイブリッド形成する」は、核酸が標的配列に対する完全補体のTmよりも8℃以下だけ低いTmで標的配列とハイブリッド形成することを意味する。特定の実施形態では、配列は、標的配列に対する完全補体のTmよりも7、6、5、4、3、2、または1℃以下だけ低いTmで標的配列と特異的にハイブリッド形成する。いくつかの実施形態では、配列は、標的配列に対する完全補体である場合に、標的配列と特異的にハイブリッド形成する。他の実施形態では、配列は、標的配列の完全補体と約99、98、97、96、95、94、93、92、91、90、85、80、75、70、または65%同一である場合に、標的配列と特異的にハイブリッド形成する。いくつかの実施形態では、相同プローブ配列は標的配列と特異的にハイブリッド形成するが、ミスマッチ、例えば、約18、20、22、24、25、26、28、30、35、40、または45の連続塩基のウインドウ内に約1、2、3、4、5、またはそれ以上のミスマッチを含有する。
特定の実施形態では、プローブは、標的ゲノムのDNAまたはRNA成分に付加されているか、あるいはDNAまたはRNA成分に相補的な配列に付加されている核酸配列とハイブリッド形成し得る。このような付加された核酸配列には、例えば、連結により付加されたオリゴヌクレオチドアダプター、あるいはポリメラーゼまたはヌクレオチド末端トランスフェラーゼ活性によって生成されるポリヌクレオチドラン(例えば、「AAAAA」または「CCCCC」)が含まれる。
さらに特定の実施形態では、ブリッジ核酸が使用されてもよく、ここで、ブリッジ核酸の少なくとも第1の部分は捕獲プローブとハイブリッド形成することができ、ブリッジ核酸の少なくとも第2の部分(第1の部分と重複してもよい)は、同時または順次、標的核酸とハイブリッド形成することができ、これにより、捕獲プローブの標的への連結の効率が高められる。
特定の実施形態では、a)プローブ中の両方の相同プローブ配列が、そのそれぞれの標的配列と、相同プローブ配列の全長にわたって少なくとも60、65、70、75、80、85、90、95、または100%正しい対形成でハイブリッド形成する場合、b)第1の相同プローブ配列が、H1の3’端部(第2の相同プローブ配列の最も3’側)の8、7、6、5、4、3、または2つ塩基において100%正しい対形成でハイブリッド形成する場合、そしてc)第2の相同プローブ配列が、H2の5’端部(相同プローブ配列の最も5’側)の最初の8、7、6、5、4、3、または2つの塩基とハイブリッド形成する場合に、プローブは特異的にハイブリッド形成する。さらにより特定の実施形態では、a)プローブ中の両方の相同プローブ配列が、そのそれぞれの標的配列と、相同プローブ配列の全長にわたって少なくとも80%正しい対形成でハイブリッド形成する場合、b)第1の相同プローブ配列が、H1の3’端部の最初の6つの塩基と100%正しい対形成でハイブリッド形成する場合、そしてc)第2の相同プローブ配列が、H2の5’端部の最初の6つの塩基と100%正しい対形成でハイブリッド形成する場合に、プローブは特異的にハイブリッド形成する。
2つの配列(例えば、相同プローブ配列および標的配列の補体)間の相同性は、ペアワイズアライメント、ドット−マトリックス、およびダイナミックプログラミングを含む当該技術分野において既知の任意の方法によって決定することができ、特定の実施形態では、FASTA(Lipman and Pearson,Science,227:1435−41(1985)およびLipman and Pearson,PNAS,85:2444−48(1998))、BLAST(McGinnis & Madden,Nucleic Acids Res.,32:W20−W25(2004)(現在のBLAST参考文献、特にMegaBlastについて記載)、Zhang et al.,J.Comput.Biol.,7(1−2):203−14(2000)(MegaBlastにおいて実行される「欲張りアルゴリズム(greedy algorithm)」について記載)、Altschul et al.,J.Mol.Biol.,215:403−410(1990)(最初のBLAST刊行物))、Needleman−Wunsch(Needleman and Wunsch,J.Molec.Bio.,48(3):443−53(1970))、Sellers(Sellers,Bull.Math.Biol.,46:501−14(1984))、およびSmith−Waterman(Smith and Waterman,J.Molec.Bio.,147:195−197(1981))、ならびに他のアルゴリズム(Gerhard et al.,Genome Res.,14(10B):2121−27(2004)に記載されるものを含む)によって決定することができ、これらは参照によって本明細書中に援用される。特定の実施形態では、本発明によって提供される方法は、1つまたは複数の注釈付きのゲノムに対するMegaBLASTにより配列の候補セットをスクリーニングすることを含む。
いくつかの実施形態では、配列は、ストリンフェントなハイブリダイゼーション条件下で標的配列とハイブリッド形成する場合に「特異的にハイブリッド形成する」。「ストリンフェントなハイブリダイゼーション条件」は、65℃において6×SSCおよび1%SDS中で核酸をハイブリッド形成し、まず約42℃において0.l×SSC中約20%(v/v)のホルムアミドで10分間洗浄し、続いて65℃において0.2×SSCおよび0.1%SDSで洗浄することを指す。特定の実施形態では、代替のハイブリダイゼーション条件は、約55、56、57、58、59、60、61、62、63、64、66、67、68、69、または70℃の異なるハイブリダイゼーションおよび/または洗浄温度、あるいは参照によって本明細書中にSambrook and Russell,Molecular Cloning:A Laboratory Manual,Cold Spring Harbor Laboratory Press,3rd edition(2001)に開示されるような他のハイブリダイゼーション条件を含むことができる。特定の実施形態では、ハイブリダイゼーション温度は60℃よりも高く、例えば、60〜65℃である。
相同プローブ配列は、特定の生物のゲノム中、あるいは特定の実施形態では、密接に関連した生物の群のゲノム中の標的配列と特異的にハイブリッド形成するように選択され得る。従って、いくつかの実施形態では、相同プローブ配列は、配列決定されたゲノムの排除セット中に含有される配列と特異的にハイブリッド形成しない。「排除セット」は、相同プローブ配列が特異的にハイブリッド形成しない所定の配列決定されたゲノムのセットを指す。捕獲標的に直接ハイブリッド形成しないプローブを包含する実施形態では、相同プローブ配列は、特に、排除セット内のいかなる配列とも実質的にハイブリッド形成しないように設計される。いくつかの実施形態では、相同プローブ配列は、排除セット内の配列に対して、約15、20、21、22、23、24、25、26、27、28、29、30、35、または40の連続塩基のウインドウ内に少なくとも1、2、3、4、5、6、7、8、9、または10のミスマッチを含有する。より特定の実施形態では、プローブ中の相同プローブ配列はそれぞれ、排除セット中のいかなる配列に対しても、20塩基中に少なくとも1つのミスマッチを有する。
「生物」は、ウイルス、細菌、古細菌、および真核生物(植物界、真菌、原生生物、および動物を含む)を含む、ゲノムを有する任意の生物である。
「配列決定された生物」は、他の生物と区別することができるようにそのゲノムの十分な部分が配列決定されている生物である。「配列決定されたゲノム」または「配列決定された生物のゲノム」は、配列決定された生物のゲノムのヌクレオチド配列である。いくつかの実施形態では、配列決定された生物は、完全または部分的に配列決定されている(例えば、ショットガンまたはcDNA配列決定、ライブラリ配列決定、BACまたはYAC配列決定によって)。特定の実施形態では、生物のゲノムは、少なくとも5、10、20、30、40、50、60、70、80、90、95、または99%が配列決定されている。配列決定されたゲノムは、様々なレベルの包含範囲、例えば約0.1、0.5、0.8、1、2、3、4、5、10、20×、またはそれ以上の包含範囲で配列決定されていてもよい。いくつかの実施形態では、病原体などの対象の生物のゲノムサイズは、少なくとも1、5、10、50、100、200、300、400、500、600、700、800、900、1000、2000、5000、10000、20000、50000、100000万塩基またはそれ以上であり得る。特定の実施形態では、標的ゲノムは、少なくとも1〜1000万塩基である。
特定の実施形態では、排除セットは、試験サンプルが得られる被験生物のゲノムを含む。特定の実施形態では、排除セットはヒトゲノムを含む。より特定の実施形態では、排除セットはさらに、共通のヒトミクロフローラまたは共生生物のゲノムを含む。さらにより特定の実施形態では、排除セットはさらに、混合物中の他のプローブの標的生物のゲノム、例えば、パネルを含む(例えば、任意の所与の標的生物に対して混合物中のただ1つのプローブが特異的にハイブリッド形成するように)。いくつかの実施形態では、排除セットは、複数のウイルス、真核生物、原核生物、および古細菌のゲノムを含んでいてもよい。より特定の実施形態では、排除セット中の複数のウイルス、真核生物、原核生物、および古細菌のゲノムはさらに、共生生物、非毒性生物、または非病原性生物から配列決定されたゲノムを含んでいてもよい。さらにより特定の実施形態では、排除セットはさらに、配列決定された病原体を含む標的生物以外の生物の配列決定されたゲノムを含む。いくつかの実施形態では、混合物中の全てのプローブに対する排除セットは、例えば、宿主ゲノムおよび共生、非毒性、または非病原性生物を含む、配列決定されたゲノムに共通のサブセットを共有する。さらなる実施形態では、混合物中の各プローブが混合物中の任意の他のプローブの標的領域または相同プローブ配列のいずれかと特異的にハイブリッド形成しないように、排除セットは混合物中のプローブ間で異なる。
本発明によって提供されるプローブは、対象の生物のゲノム中の第1および第2の標的配列と特異的にハイブリッド形成する第1および第2の相同プローブ配列を含むことができる。第1および第2の標的配列は、少なくとも2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、80、100、125、150、200、250、300、350、400、500、600、700、800、900、1000、1200、1400、1600、1800、または2000ヌクレオチドを含む対象の領域によって分離される。「対象の領域」は、プローブ中の相同プローブ配列の2つの標的配列の最も近い末端間の配列を指す。特定の実施形態では、特定の標的領域は、人による入力またはコンピュータによるデータマイニング(統計的配列および/または文献データマイニングを含む)に基づいて選択され得る。ある特定の実施形態では、1つまたは複数の対象の領域は、密接に関連した生物の間(例えば、同一属の種の間、同一種の亜種の間、または同一種もしくは同一亜種の株の間)で多形性である。より特定の実施形態では、多型は、薬物耐性、毒素産生、または他の毒性因子に関連する。さらにより特定の実施形態では、対象の領域は、例えば、Arnold,Methods Mol Biol.,642:217−23(2010)(M.ツベルクローシス(M.tuberculosis)の多剤耐性(MDR)株においてリファンピシン感受性に関連するRNAポリメラーゼB遺伝子について考察)、Kurt et al.,J.Clin Microbiol.,47:577−85(2009)(メチシリン耐性に関連するS.アウレウス(S.aureus)の遺伝子型同定領域)、Akhras et al,PLOS ONE,2(9)e915(2007)(シプロフロキサシンへの耐性に関連するN.ゴノリーア(N.gonorrhoeae)からの領域について記載)、およびPourmand et al.,PLoS One.,1(1):e95.(2006)(赤血球凝集素遺伝子における切断部位、グリコシル化部位、ノイラミニダーゼにおけるオセルタミビル耐性部位を同定するH5N1ウイルスのための迅速アッセイについて記載)に開示されるものうちの1つまたは複数を含む。
本発明によって提供されるプローブ中の第1および第2の相同プローブ配列は、ポリメラーゼ連鎖反応(PCR)において使用して、対象の生物から対象の領域を特異的に増幅するための一対の従来のプライマー対として使用するために容易に適合させることができる。「従来のプライマー対」は一対の線状核酸プライマーを指し、その各メンバーは、本発明によって提供されるプローブ中の2つの相同プローブ配列のうちの1つに対応する配列を含み、少なくとも2つのヌクレオチドを含む対象の領域を指数関数的に増幅することができる。これらの従来のプライマー対は本発明によって包含され、本発明の一部である。従って、本発明によって提供される従来のプライマー対は、相同プローブ配列に対して上記で提供された同じ基準(例えば、長さ、Tm、ハイブリダイゼーション特異性、および介在する対象の領域の長さを含む)によって特徴付けられる。対象の領域に相補的な配列を環状化捕獲することができる本発明によって提供されるプローブとは対照的に、従来のプライマー対は、互いに向かい合うその3’端部によって方向付けられて、指数関数的な増幅を容易にする。図4は、従来のプライマー対を用いる本発明の特定の方法の図解である。特定の実施形態では、従来のプライマー対は、バーコード配列を含む。いくつかの実施形態では、従来のプライマー対は、例えば、アダプタマー(adaptamer)プライマーとハイブリッド形成する配列を含む普遍的配列を含む。
本発明によって提供されるプローブおよび従来のプライマー対は、天然に存在する従来のヌクレオチドA、C、G、T、およびU(デオキシリボース型および/またはリボース型)と、2’O−メチル修飾ヌクレオチド(Dunlap et al, Biochemistry. 10(13):2581−7(1971))、IsodCもしくはIsodGなどの人工的な塩基対、または標準的なワトソン−クリック水素結合を形成しない脱塩基フラン(dSpacerなど)(Chakravorty,et al.Methods Mol Biol.634:175−85(2010))、ビオチン化ヌクレオチド、アデニル化ヌクレオチド、ブロッキング基(光切断可能なブロッキング基を含む)を含むヌクレオチド、およびロックド核酸(LNA、ポリ核酸において増強された塩基スタッキング相互作用を提供する修飾リボヌクレオチド、例えば、Levin et al.Nucleic Acid Res.34(20):142(2006)を参照されたい)などの修飾ヌクレオチドと、ペプチド核酸骨格とを含むことができる。特定の実施形態では、本発明によって提供されるプローブの5’または3’相同プローブ配列は、そのそれぞれの末端にPC−ビオチンなどの光切断可能なブロッキング基を含む。より特定の実施形態では、本発明によって提供されるプローブは、その5’末端に、連結を光活性化までブロックするための光切断可能なブロッキング基を含む。他の特定の実施形態では、本発明によって提供されるプローブは、その3’末端に、ポリメラーゼ依存性伸長またはn−merオリゴヌクレオチド連結を光活性化までブロックするための光切断可能なブロッキング基を含む。
他の実施形態では、本発明によって提供されるプローブの最も5’側のヌクレオチドは、連結および/またはハイブリダイゼーション効率を改善するために、アデニル化ヌクレオチドを含む。他の実施形態では、相同プローブ領域は、ハイブリダイゼーションおよび/または連結効率を改善するために、あるいはポリメラーゼ媒介性のストランド置換またはヌクレアーゼ開裂などの酵素活性への耐性を提供するために、1つまたは複数の2’Oメチル、IsodCもしくはIsodGなどの人工的な塩基対、または脱塩基フラン(dSpacerなど)、あるいは2’Oメチル、脱塩基フラン、またはLNAヌクレオチド、例えば、1、2、3、4、5、6、7、8、9、10、またはそれ以上のLNA、あるいは10、20、30、40、50、60、70、80、90、または100%の2’Oメチル、脱塩基フラン、またはLNAヌクレオチドを含む。例えば、Hogrefe et al,J Biol.Chem.265(10):5561−5566(1990)を参照されたい。より特定の実施形態では、5’相同プローブ領域の5’端部(例えば、H2、連結アーム)は少なくとも1つのLNAを含み、さらにより特定の実施形態では、5’末端ヌクレオチドはLNAである。
1.2 骨格配列
本発明によって提供されるプローブは、第1の相同プローブ配列と第2の相同プローブ配列との間に、検出可能な部分および1つまたは複数のプライマー結合配列を含み得るプローブ骨格配列を含む。骨格配列は、少なくとも15、20、25、30、35、40、45、50、70、90、100、12、140、150、160、180、200、400塩基、またはそれ以上の塩基であり得る。より特定の実施形態では、骨格は第2のプライマーを含む。各骨格プライマーは、例えば、混合物中の全ての環状化プローブを増幅するために使用することができる1つまたは複数の普遍的配列を含むことができる。いくつかの実施形態では、プライマーは、特異的プローブまたはプローブのセットの同定および/または増幅のためのバーコードなどのプローブ特異的配列を含有してもよい。いくつかの実施形態では、骨格配列は、1つまたは複数の非ワトソン−クリックヌクレオチドを含む。さらなる実施形態では、骨格は、ハイブリダイゼーション反応においてより大きい反応性または不活性を付与するため、ポリメラーゼ媒介のストランド置換またはヌクレアーゼ開裂などの酵素活性への耐性を提供するため、誤った増幅事象の阻害剤としての機能を果たすため、あるいはPCRプライマーまたはビオチン化捕獲プローブなどのトランス作用性核酸オリゴヌクレオチドのための標的部位の役割を果たすために、1つまたは複数の2O’メチルヌクレオチド残基、IsodCもしくはIsodGなどの人工的な塩基対、または脱塩基フラン(dSpacerなど)、あるいは2O’メチル、脱塩基フラン、またはLNAヌクレオチド、例えば、1、2、3、4、5、6、7、8、9、10、またはそれ以上のLNA、あるいは10、20、30、40、50、60、70、80、90、または100%の2O’メチル、脱塩基フラン、またはLNAヌクレオチドを含む。
「バーコード」という用語は、分子または関連分子の種類を独自に同定するヌクレオチド配列を指すために使用される。本発明のプローブにおいて使用するための適切なバーコード配列は、例えば、米国特許第5,445,934号明細書(Fodor et al.)および米国特許第5,635,400号明細書(Brenner)に記載されるn−merのアレイなどの、カスタマイズまたは既製された核酸アレイに対応する配列を含むことができる。特定の実施形態では、n−merバーコードは、少なくとも3、4、5、6、7、8、9、10、12、15、16、17、18、19、20、21、22、23、24、25、30、35、40、50、60、70、80、90、100、200、300、400または500ヌクレオチド、例えば、18〜20、21、22、23、24、または25ヌクレオチドであり得る。特定の実施形態では、バーコードは、このバーコードが不注意に誤った別のものとして読み取られるのを可能にするために、1、2、3、4または5よりも多い配列決定エラーを要求するように設計された配列を含む。
バーコード配列を生成するために、各バーコードサイズKに対して、パールスクリプトを用いて4つのDNAヌクレオチド、A、T、G、Cから4Kランダムバーコードが生成され得る。このバーコードのセットは、4つのヌクレオチドの変動を用いてKの長さの配列に対して可能な独特の配列の組み合わせの総数を表す。次に、1つのヌクレオチドが100%の長さを含む(例えば、TTTTTT)場合のバーコードは、場合により、パターンマッチングパールスクリプトを用いて除去される。さらに、フィルタリングステップは、3よりも多いヌクレオチドのラン(run)、例えばTGGGGT、またはただ1つのヌクレオチドによって中断されるラン、例えばGGGTGGを含有するバーコードの除去を含むことができる。セルフハイブリダイゼーションにより二次構造を形成する傾向のあるパリンドロームまたは逆方向反復を含有するバーコードは、このような自己相補性を同定するように設計されたパールスクリプトを用いてフィルタリングされ得る。
患者からのサンプルを試験するために使用されるプローブの混合物中で利用され得るバーコードの選択は、プール内のバーコード配列中の各位置における5%よりも多く、50%以下の特定のヌクレオチドの表示を提供し得るバーコードの組み合わせを選択することを含み得る。これは、パールスクリプトを用いて指定された条件が満たされるまで、プールされたセットにバーコードをランダムに付加および除去することによって達成される。バーコードプール内に逆補体配列も存在する場合のバーコードも排除され得る。
適切なバーコード配列は、例示的な3−mer、4−mer、5−mer、6−mer、7−mer、8−mer、9−mer、および10−merバーコードを説明する配列表1に記載されるようなバーコード配列を含む。表1において「1ヌクレオチド距離」n−merとして示される配列は、互いに少なくとも1の配列距離を有する、説明的な配列であり、ここで、「距離」は、同じカテゴリーの配列のそれぞれの間の配列決定の相違の最小数を指す。「2ヌクレオチド距離」配列は、互いに少なくとも2ヌクレオチドの「距離」を有する。
特定の実施形態では、本発明によって提供されるプローブにおいて使用されるバーコードは、AFFYMETRIX(商標)によるTag3またはTag4バーコードアレイ上のものに相当する。バーコードシステムのさらなる考察は、Frank,BMC Bioinformatics,10:362(2009、13頁)、Pierce et al.,Nature Methods,3:601−03(2006)(ウェブ補足を含む)、およびPierce et al.,Nature Protocols,2:2958−74(2007)において見出すことができる。
いくつかの実施形態では、骨格は、1つまたは複数のサンプル核酸特異的バーコード、例えば、1つまたは複数の患者特異的バーコードを含む。特定の実施形態では、1つの患者サンプルにつき2つ以上のバーコードが割り当てられ、各患者の複製サンプルが同じ配列決定反応において実施されることが可能になる。サンプル核酸特異的バーコードを用いることによって、本出願において記載されるような多重反応と、特異的バーコードの定義されたレパートリーを使用しない試験サンプル間の相互汚染との両方を検出することが可能である。特定の実施形態では、骨格は、時間バーコード、例えば、特定の期間を指定するバーコードを含むこともできる。時間バーコードを用いることにより、異なる日のラン間で、配列決定装置などのアッセイ装置におけるキャリーオーバーまたは汚染を検出することが可能である。より特定の実施形態では、サンプルおよび/または時間バーコードを使用して、サンプルおよび/または日の間の相互汚染を自動的に検出し、例えば、装置のオペレータに配列決定装置などのサンプル処理システムを浄化および/または除染するように指示することができる。
特定の実施形態では、バーコード配列は、プライマー結合配列でもある。いくつかの実施形態では、骨格プライマーは、普遍的プライマーおよびプローブ特異的配列の両方を含む。いくつかの実施形態では、普遍的配列はプローブ特異的領域の内側(すなわち、3’)であり、他の実施形態では、普遍的配列は外側(すなわち、プローブ特異的領域に対して5’)である。いくつかの実施形態では、普遍的配列およびプローブ特異的配列は隣接している。他の実施形態では、これらは、少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、もしくは50、またはそれ以上のヌクレオチドによって分離されている。
特定の実施形態では、骨格配列中の普遍的プライマー配列は、より長い「アダプタマー」プライマーのためのハイブリッド形成の鋳型の役割を果たす。「アダプタマープライマー」は、捕獲反応産物の増幅を容易にするために捕獲反応産物中の普遍的プライマー配列とハイブリッド形成するプライマーであり、さらに、サンプル特異的バーコード配列、例えば、アダプタマープライマーの普遍的プライマーハイブリッド形成領域の5’側の配列を含む。アダプタマープライマーを使用して、例えば、増幅反応産物にサンプル特異的バーコードを取り込んで、捕獲反応および増幅反応を完了した後に、サンプルのさらなる多重化を可能にすることができる。サンプル特異的バーコードの付加により、例えば、配列決定による検出の前に、多重捕獲および/または増幅反応産物がプールされることが可能になる。より特定の実施形態では、アダプタマープライマーはさらに、配列決定プライマーとハイブリッド形成する普遍的配列を含む。
検出可能な部分は、骨格配列に関連していてもよい。蛍光(例えば、量子ドット、小分子、または蛍光タンパク質)標識、化学標識またはタンパク質ベースの標識などの直接標識の場合のように、ポリヌクレオチド配列に結合されていてもよい。あるいは、修飾ヌクレオチドなどの核酸標識、またはバーコードなどのプローブ特異的配列の場合のように、検出可能な部分は、ポリヌクレオチド配列内に取り込まれていてもよい。量子ドットは当該技術分野において知られており、例えば、国際公開第03/003015号パンフレットに記載されている。量子ドットを生体分子にカップリングさせる手段は、例えば、Mednitz et al.,Nature Materials 4:235−46(2005)、ならびに米国特許出願公開第2006/0068506号明細書および同第2008/0087843号明細書(それぞれ、2006年5月30日および2008年4月17日に公開)において概説されているように、当該技術分野において知られている。
2 プローブ混合物
2.1 プローブおよび較正標準
本発明は、部分的に、標的生物(または、例えば、種、属、または血清型によって関連される生物の群)のゲノム中の標的配列に特異的にハイブリッド形成することができ、そして排除セット中のいかなる配列、例えば、少なくとも1つの非ハイブリッド形成ゲノム(宿主ゲノムおよび/または標的生物と異なる生物の所定のセット、例えば、病原性生物を含むが標的生物または標的生物群は含まない配列決定された細菌、ウイルス、真核生物、および古細菌生物の注釈付きのデータベースなど)とも特異的にハイブリッド形成しないプローブの集合を提供することに基づく。
本発明の態様は、患者からの生物サンプル中の病原体の検出など、試験サンプルの多重分析のためのプローブの混合物を提供する。本発明によって提供される混合物は、少なくとも2、3、4、5、6、7、8、9、10、20、30、40、60、80、100、200、250、500、1000、2000、4000、8000、10000、20000、30000、40000、50000、60000、70000、80000、90000、または100000のプローブを含む。いくつかの実施形態では、混合物は、特定の生物から複数の配列を捕獲するように設計される。特定の実施形態では、混合物は、少なくとも2、3、4、5、6、7、8、9、10、15、20、30、40、60、80、100、150、200、250、300、400、500、1000、2000、4000、8000、10000、15000、または20000の異なる標的生物のそれぞれに対して少なくとも1つの配列を捕獲することができる。特定の実施形態では、混合物は、表4、6、8、10、11のいずれか1つからの少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、65、70、75、または80の相同プローブ配列、あるいは特定の配列、mtb−37rv−inha−pr−01−H1、mtb−H37Rv−rpoB−pr−01−H1、mtb−H37Rv−rpoB−pr−01−H2、mtb−H37Rv−rpoB−pr−02−H1、mtb−H37Rv−rpoB−pr−02−H2、またはmtb−37rv−inha−pr−01−H2、およびこれらの組み合わせを含む。特定の実施形態では、混合物は、表4、6、8、10、および11の何れかに記載される相同プローブ配列対を含む、少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、65、70、75、または80のプローブを含む。
混合物中のプローブは、通常、同様のバルク特性(相同プローブ配列の長さ、相同プローブ配列のTm、および捕獲される対象の領域の長さ、ならびに二次構造の欠如など)を有するか、あるいは同様の値の範囲内に含まれるであろう。いくつかの実施形態では、プローブの混合物中の相同プローブ配列のTmは、互いに、10、9、8、7、6、5、4、3、2、または1℃の違いであり、特定の実施形態では、同じTmを有する。いくつかの実施形態では、プローブの混合物中の相同プローブ配列は全て、互いに、10、9、8、7、6、5、4、3、2、または1ヌクレオチドの長さの違いであり、特定の実施形態では、これらは同じ長さである。プローブの標的配列間の対象の領域の長さは、混合物中の全てのプローブに共通でもよいし、2〜20、20〜100、20〜200、40〜300、100〜300ヌクレオチドなどの範囲の値にわたって異なっていてもよい。特定の実施形態では、対象の領域は、互いに、100、90、80、70、60、50、40、30、20、または10ヌクレオチドの長さの違いである。より特定の実施形態では、対象の領域は同じ長さである。バーコードの長さも異なり得るが、一般には、互いに25、20、15、10、または5ヌクレオチドの違いである。特定の実施形態では、バーコードは同じ長さを有する。
いくつかの実施形態では、本発明によって提供される混合物は、以下にさらに記載されるように、異なる試験サンプルからの捕獲反応産物および増幅反応産物を含む。簡単に言うと、異なる捕獲反応産物および/または増幅反応産物は、検出の前に、すなわち同時検出のために、結合および多重化され得る。これは、試験サンプルを同定するバーコード配列を用いて達成される。例えば、試験サンプルAからの捕獲反応産物は、サンプルA特異的バーコードを含み、サンプルBからの捕獲反応産物サンプルB特異的バーコードを含み得る。サンプルAおよびサンプルBからの捕獲反応産物が配列決定のために結合される場合、サンプルA捕獲反応産物中の全ての配列は、サンプルA特異的バーコード配列の存在
によって同定される。
特定の実施形態では、本発明の混合物は、サンプル内部較正核酸(SIC)を含有する。特定の実施形態では、既知の量の1つまたは複数のSICが、本発明によって提供される混合物中に含まれる。特定の実施形態では、少なくとも1、2、3、4、5、6、7、8、10、15、20、25、または30の異なるSICが混合物中に含まれる。特定の実施形態では、約4つの異なるSICが混合物中に存在する。いくつかの実施形態では、SICは、病原性DNA標的に特徴的なヌクレオチド組成を有し、品質管理のため、例えば、個々の試験サンプルの処理および配列決定ステップのための較正曲線の再構築を可能にする特定のモル量で存在する。特定の実施形態では、SICは、混合物中約10%(モル量)の核酸、例えば、混合物中2、4、6、8、10、12、14、16、18、または20%(モル濃度)の核酸を構成する。特定の実施形態では、異なるSICは、例えば、1、2、3、4、5、6、7、8、9、10、20、50、100、200、500、1000、5000、10000、50000、または100000倍の、最も薄いSICから最も濃いSICまでの濃度範囲にわたる希釈系列で、2、3、4、5、6、7、8、9、10、20、30、40、または50段階において異なる濃度で存在する。特定の実施形態では、SICは、5、25、100、および250コピー/mlの濃度で、サンプル(例えば、プローブの混合物および試験サンプル、捕獲反応、捕獲反応産物、増幅反応、または増幅反応産物)中に存在する。所定濃度のSICを検出する(例えば、SICに向けられたプローブを用いることにより)ことによって、当業者は、試験サンプル中の対象の生物の濃度を推定することができる。特定の実施形態では、これは、捕獲された配列が検出される頻度を、核酸が得られたサンプルの容積に相関させることによって達成される。従って、単位容積当たりの生物カウント(例えば、血液または尿などの液体サンプルについてはコピー/mL)を、検出される各生物に対して推定することができる。
特定の実施形態では、SICおよびSICに向けられるプローブの濃度は、捕獲反応産物および/または増幅反応産物中で検出されるSICの配列が、混合物中の配列の約2、4、6、8、10、12、14、16、18、20、25、または30%を構成するように、経験的に調整される。特定の実施形態では、SICは、配列読取りの10〜20%を構成する。特定の実施形態では、配列決定反応におけるSIC配列読取りの数は、予め定義されたパラメータ内でサンプル処理が発生することを保証するために、定量的に評価される。特定の実施形態では、予め定義されたパラメータには、以下のうちの1つまたは複数が含まれる:特定のランの間に配列決定される全てのサンプルに対する2つの標準偏差内での再現性、信頼性のある配列決定データのために経験的に決定された基準(例えば、塩基要求の信頼性、エラースコア、標的生物当たりの各プローブの全配列決定読取りの組成率)、配列決定ランにおいて約15%以下のGCまたはAUリッチSICの偏差。多重配列決定のためのプーリングを可能にするために患者サンプルがバーコード化される実施形態において、サンプル中のSICのDNAは、独特なサンプル、例えば、特定の患者サンプルに相当する同じバーコードも含むであろう。
より特定の実施形態では、SICは、上記で定義されたような対象の領域を含むことができ、ここで、対象の領域は、対象の領域に異種の配列をさらに含むように修飾されている。より特定の実施形態では、SIC中の対象の領域に異種の配列は、少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、40の近接する塩基、またはそれ以上である。修飾された対象の領域を含むSICを用いることによって、単一のプローブは、サンプル内の対象の生物と、定量化および検証のための内部対照を提供するSICとを両方とも検出するために使用することができる。従って、試験サンプル中で検出されるSIC配列および対象の生物からの対象の領域は、例えば、配列決定または配列特異的定量PCRによって、対象の領域に異種の配列を検出することによって区別することができる。
2.2 サンプル
いくつかの実施形態では、本発明の混合物は、サンプル核酸を含有する。核酸は、生物サンプルなどの任意の試験サンプルから得ることができる。試験サンプルから得られる核酸は、少なくとも1、2、3、4、5、10、20、30、40、50、60、70、80、85、90、95、96、97、98、99重量%の有機物などの、様々な純度を有することができる。特定の実施形態では、サンプル核酸は、試験サンプルから抽出される。いくつかの実施形態では、サンプル核酸はさらに処理されて、例えば、メチル化状態の検出を可能にすることができる。ゲノム全域わたるメチル化部位の検出の概説については、Deng(2009)(メチル化部位を位置付けるために、CpGアイランドのMIP捕獲および重硫酸塩配列決定について記載)を参照されたい。
試験サンプルは任意の源に由来し、食料品サンプル(安全性試験、タギング、およびトラッキング)、農業サンプル(例えば、土壌サンプル、病原体検出および/またはGM作物の検出のため)、薬物ロット(例えば、小分子と、血液供給を含む生物学とのロットリリースアッセイのため)、水サンプル(給水の生物多様性の分析、農業、商業、政府、病院、工業、研究室、軍隊、家庭、または家畜の給水の安全性試験(例えば、生物テロ防御)、ならびに水泳または水浴びのための安全性試験を含む)、表面のスワブもしくは抽出物、空気品質のモニタリング、または患者サンプルなどの生物サンプルを含み得る。
患者は、ヒト、または家畜、飼いならされた動物、および野生動物などの動物を含むことができる。いくつかの実施形態では、動物は、トリ、ウシ、イヌ、ウマ、ネコ、ヒツジ、魚類/魚、ブタ、霊長類、齧歯類、または有蹄動物である。患者は、成人、若者、胎児、または胎芽を含む任意の発達段階であり得る。特定の実施形態では、患者は哺乳類であり、より特定の実施形態ではヒトである。
被験者または患者からの生物サンプルは、全細胞、組織、もしくは臓器、または3つの始原的な胚葉(外胚葉、中胚葉もしくは内胚葉)のいずれかに由来する組織を含むバイオプシーを含み得る。例示的な細胞または組織源には、皮膚、心臓、骨格筋、平滑筋、腎臓、肝臓、肺、骨、膵臓、中枢神経組織、末梢神経組織、循環組織、リンパ系組織、腸、脾臓、甲状腺、結合組織、または生殖腺が含まれる。試験サンプルは、入手してすぐにアッセイされてもよいし、あるいは、混合、化学処理、固定化/保存、凍結、または培養によって処理されてもよい。生物サンプルは、血液、胸水、乳、初乳、リンパ液、血清、血漿、尿、脳脊髄液、滑液、唾液、***、涙、および糞便も含む。その他のサンプルは、スワブ、洗液(wash)、洗浄液(lavage)、排出物、または吸引液(鼻、経口、鼻咽頭の、中咽頭、食道、胃、直腸、または膣の、スワブ、洗液、洗浄液(ravage)、排出物、または吸引液など)、およびこれらの組み合わせ(前述のバイオプシー材料の何れかとの組み合わせを含む)を含む。
2.3 パネル
特定の実施形態では、本発明の混合物は、特定の苦痛(例えば、呼吸器、血液、***症)またはサンプルタイプ(例えば、バイオプシー、水、食料品、または農業)のために、一般的な病原体などの生物のパネルを検出するように設計されたプローブを含む。「パネル」は本発明によって提供される混合物を指し、特定の苦痛またはサンプルタイプと間連される1つまたは複数の病原体に向けられた複数のプローブを含む。特定の実施形態では、本発明の混合物は、多重パネルを含有する。特定の病原体に向けられるプローブを含むパネルは、本出願の教示に従うことにより、ルーチン的な技能だけを用いて製造することができる。いくつかの実施形態では、本発明によって提供されるパネルは、米国特許出願公開第2010/0098680号明細書(特に、段落160、参照によって本明細書中に援用される)に記載されるものなどの複数の病原体に関する。特定の実施形態では、パネルは、米国特許出願公開第2010/0098680号明細書の段落160に記載される少なくとも1、2、3、4、5、0、15、20、25、30、35、40、または50の病原体のそれぞれに向けられる少なくとも1つのプローブを含有する。
いくつかの実施形態では、パネルは脳脊髄液(CSF)パネルであり、ナイセリア・メニンギティディス(Neisseria meningitides)(例えば、ゲノム受入番号NC_008767、NC_010120、NC_003116、NC_003112、NC_013016、またはNC_004758、特定の実施形態では、ctrA遺伝子に向けられたプローブを含む)、HHV6(ヒトヘルペスウイルス6、例えば、ゲノム受入番号NC_001664またはNC_000898、特定の実施形態では、メジャーカプシドタンパク質遺伝子に向けられたプローブを含む)、JCV(JCポリオーマウイルス、例えば、ゲノム受入番号NC_001699.1、特定の実施形態では、ラージT抗原遺伝子に向けられたプローブを含む)、BKV(BKポリオーマウイルス、例えば、ゲノム受入番号NC_001538、特定の実施形態では、調節領域に向けられたプローブを含む)、HSV1(ヒトヘルペスウイルス1、例えば、ゲノム受入番号NC_001806またはX14112、特定の実施形態では、gD遺伝子(X14112における位置138333〜141048)に向けられたプローブを含む)、HSV2(ヒトヘルペスウイルス2、例えば、ゲノム受入番号NC_001798またはZ86099、特定の実施形態では、gG遺伝子(Z86099における位置137878〜139977)に向けられたプローブを含む)、ストレプトコッカス・ニューモニエ(Streptococcus pneumoniae)(例えば、ゲノム受入番号NC_012469、NC_012468、NC_012467、NC_008533、NC_012466、NC_010380、またはNC_011072、特定の実施形態では、ply遺伝子に向けられたプローブを含む)、ヘモフィルス・インフルエンザエ(Haemophilus influenzae)(例えば、ゲノム受入番号NC_007146、NC_000907、NC_009566、NZ_AAZE00000000、NZ_AAZJ00000000、NC_009567、またはDQ115375、特定の実施形態では、bexA遺伝子に向けられたプローブを含む)に向けられたプローブを含む。特定の実施形態では、本発明によって提供されるパネルは、これらの生物のうちの1、2、3、4、5、6、7、または8全てのそれぞれに対して、より特定の実施形態では、生物の例示的な遺伝子に対して1つまたは複数のプローブを含む。
いくつかの実施形態では、パネルは髄膜炎パネルであり、B群連鎖球菌、エシェリキア・コリ(Escherichia coli)、リステリア・モノサイトゲネス(Listeria monocytogenes)、ナイセリア・メニンギティディス(Neisseria meningitides)、ストレプトコッカス・ニューモニエ(Streptococcus pneumoniae)(血清型6、9、14、18および23)、ヘモフィルス・インフルエンザエ(Haemophilus influenzae)B型、ブドウ球菌、シュードモナス、マイコバクテリウム・ツベルクローシス(Mycobacterium tuberculosis)、トレポネーマ・パリダム(Treponema pallidum)、ボレリア・ブルグドルフェリ(Borrelia burgdorferi)、クリプトコッカス・ネオフォルマンス(Cryptococcus neoformans)、ネグレリア・フォーレリ(Naegleria fowleri)、エンテロウイルス、単純疱疹ウイルス1型および2型、水痘帯状疱疹ウイルス、流行性耳下腺炎ウイルス、HIV、LCMV、アンギオストロンギルス・カントネンシス(Angiostrongylus cantonensis)、ナソトーマ・スピニゲルム(Gnathostoma spinigerum)、結核、梅毒、クリプトコッカス症、およびコクシジオイデス症のうちの1つまたは複数に向けられた1つまたは複数のプローブを含む。特定の実施形態では、パネルは、これらの生物のうちの1、2、3、4、5、6、7、8、9、10、15、20、25、30、または31の生物に向けられたプローブを含む。
いくつかの実施形態では、パネルは***症(UTI)パネルであり、S.サプロフィチカス(S.saprophyticus)(ATCC15305)(例えば、ゲノム受入番号AP008934またはAP008935、特定の実施形態では、gyrB遺伝子に向けられたプローブを含む)、エンテロコッカス・フェカリス(Enterococcus faecalis)(MMH594)(例えば、ゲノム受入番号AF034779、特定の実施形態では、esp遺伝子に向けられたプローブを含む、例えば、参照される)、大腸菌(E.coli)(CFT073)(例えば、ゲノム受入番号NC_004431.1、特定の実施形態では、fimH遺伝子に向けられたプローブを含む)、大腸菌(E.coli)(IAI39)(例えば、ゲノム受入番号NC_01750.1、特定の実施形態では、papG遺伝子に向けられたプローブを含む)、大腸菌(E.coli)(CFT073)(例えば、ゲノム受入番号NC_004431.1、特定の実施形態では、papX遺伝子に向けられたプローブを含む)、ウレアプラズマ・ウレアリチカム(Ureaplasma urealyticum)(血清型10str.ATCC33699)(例えば、ゲノム受入番号UUR10_0078、特定の実施形態では、hly遺伝子に向けられたプローブを含む)、ウレアプラズマ・パルバム(Ureaplasma parvum)(血清型3str.ATCC27815)(例えば、ゲノム受入番号CP000942、特定の実施形態では、hly遺伝子に向けられたプローブを含む)、エンテロコッカス・フェシウム(Enterococcus faecium)(CV133)(例えば、ゲノム受入番号AF544400、特定の実施形態では、hyl(efm)遺伝子に向けられたプローブを含む)、およびエンテロコッカス・フェシウム(Enterococcus faecium)(例えば、ゲノム受入番号AF034779、特定の実施形態では、esp遺伝子に向けられたプローブを含む)に向けられたプローブを含む。特定の実施形態では、本発明によって提供される核酸プローブの混合物は、これらの生物のうちの1、2、3、4、5、6、7、8、または9全てのそれぞれに対して、より特定の実施形態では、生物の例示的な遺伝子に対して1つまたは複数のプローブを含む。
いくつかの実施形態では、パネルは、エシェリキア・コリ(Escherichia coli)、スタフィロコッカス・サプロフィチカス(Staphylococcus saprophyticus)、プロテウス種、クレブシエラ種、エンテロコッカス種、カンジダ・アルビカンス(Candida albicans)、ウレアプラズマ、およびマイコプラズマ種を含む1つまたは複数の生物に対する1つまたは複数のプライマーを含む、代替のUTIパネルである。特定の実施形態では、本発明によって提供される核酸プローブの混合物は、これらの生物のうちの1、2、3、4、5、6、7、または8全てのそれぞれに対する1つまたは複数のプローブを含む。
さらに別の実施形態では、UTIパネルは、大腸菌(E.coli)に向けられた1つまたは複数のプローブを含む。より特定の実施形態では、パネルはさらに、クレブシエラ種、セラチア種、シトロバクター種、およびエンテロバクター種などのその他の腸内細菌科、シュードモナス・エルジノーサ(Pseudomonas aeruginosa)などの非発酵菌、ならびにコアグラーゼ陰性ブドウ球菌およびエンテロコッカス種を含むグラム陽性球菌に向けられた1つまたは複数のプローブを含む。さらにより特定の実施形態では、パネルはさらに、カンジダ・アルビカンス(Candida albicans)などのカンジダに向けられた1つまたは複数のプローブを含む。特定の実施形態では、本発明によって提供される核酸プローブの混合物は、これらの生物のうちの1、2、3、4、5、6、7、8、9、10、または11のそれぞれに対する1つまたは複数のプローブを含む。
いくつかの実施形態では、パネルは、大腸菌(E.coli)、クラミジア、マイコプラズマ、スタフィロコッカス・サプロフィチカス(Staphylococcus saprophyticus)、およびスタフィロコッカス・エピデルミデス(Staphylococcus epidermidis)に向けられた1つまたは複数のプローブを含むUTIパネルである。特定の実施形態では、本発明によって提供される核酸プローブの混合物は、これらの生物のうちの1、2、3、4、または5のそれぞれに対する1つまたは複数のプローブを含む。
特定の実施形態では、パネルは呼吸器パネルであり、スタフィロコッカス・アウレウス(Staphylococcus aureus)、シュードモナス・エルジノーサ(Pseudomonas aeruginosa)、クレブシエラ・ニューモニエ(Klebsiella pneumoniae)、ヘモフィルス・インフルエンザエ(Haemophilus influenzae)、ブランハメラ(モラクセラ)カタラーリス(Branhamella(Moraxella)catarrhalis)、ストレプトコッカス・ピオゲネス(Streptococcus pyogenes)(A群)、コリネバクテリウム・ジフテリエ(Corynebacterium diphtheriae)、SARS−CoV、ボルダテラ・パータシス(Bordatella pertussis)、インフルエンザウイルス(A、B、C型)、ライノウイルス、コロナウイルス、エンテロウイルス、アデノウイルス、呼吸器多核体ウイルス(RSV)、パラインフルエンザウイルス、流行性耳下腺炎ウイルス、レジオネラ・ニューモフィラ(Legionella pneumophila)、シュードモナス・エルジノーサ(Pseudomonas aeruginosa)、バークホルデリア・セパシア(Burkholderia cepacia)、マイコプラズマ・ニューモニエ(Mycoplasma pneumoniae)、マイコバクテリウム・ツベルクローシス(Mycobacterium tuberculosis)、クラミジア・ニューモニエ(Chlamydia pneumoniae)、マイコバクテリウム・アビウムイントラセルラーレ複合体(Mycobacterium aviumintracellulare complex)(MAC)、カンジダ・アルビカンス(Candida albicans)、コクシジオイデス・イミチス(Coccidioides immitis)、ヒストプラズマ・カプスラーツム(Histoplasma capsulatum)、ブラストミセス・デルマチチジス(Blastomyces dermatitidis)、クリプトコッカス・ネオフォルマンス(Cryptococcus neoformans)、およびアスペルギルス・フミガータス(Aspergillus fumigates)に向けられた1つまたは複数のプローブを含む。特定の実施形態では、本発明によって提供されるパネルは、これらの生物のうちの1、2、3、4、5、6、7、8、9、10、15、20、25、30または33のそれぞれに対する1つまたは複数のプローブを含む。
いくつかの実施形態では、パネルは呼吸器パネルであり、インフルエンザA(亜型H1、H3、H5およびH7を含む)、インフルエンザB、パラインフルエンザ(2型)、呼吸器多核体ウイルス、およびアデノウイルスを含む1つまたは複数の病原体に向けられた1つまたは複数のプローブを含有する。
特定の実施形態では、パネルは呼吸器パネルであり、ストレプトコッカス・ニューモニエ(Streptococcus pneumoniae)、マイコプラズマ・ニューモニエ(Mycoplasma pneumoniae)、ヘモフィルス・インフルエンザエ(Haemophilus influenzae)、クラミドフィラ・ニューモニエ(Chlamydophila pneumoniae)、およびレジオネラ種、レジオネラ・ニューモフィラ(Legionella pneumophila)、SARSウイルス、H1N1、H5N1、グラム陰性桿菌、モラクセラ・カタラーリス(Moraxella catarrhalis)、スタフィロコッカス・アウレウス(Staphylococcus aureus)、結核、および呼吸器多核体ウイルス(RSV)を含む1つまたは複数の病原体に向けられた1つまたは複数のプローブを含有する。特定の実施形態では、本発明によって提供されるパネルは、これらの生物うちの1、2、3、4、5、6、7、8、9、10、11、12、13、または14のそれぞれに対する1つまたは複数のプローブを含む。
いくつかの実施形態では、パネルは、ジフテリア、エプスタイン−バーウイルス(EBV)、シャーガス、HIV、ウエストナイルウイルス、マラリア、梅毒、デング熱、バベシア、異種指向性マウス白血病ウイルス関連ウイルス(XMRV)、B型肝炎、C型肝炎、ウイルス性出血熱(エボラおよびマールブルグウイルスを含む)のうちの1つまたは複数に向けられた1つまたは複数のプローブを含む血液パネルである。特定の実施形態では、本発明によって提供されるパネルは、これらの生物のうちの1、2、3、4、5、6、7、8、9、10、12、13、または14のそれぞれに対する1つまたは複数のプローブを含む。より特定の実施形態では、血液パネルは、HIV、B型肝炎、C型肝炎、およびトリパノソーマ・クルージ(Trypanosoma cruzi)(シャーガス)のそれぞれに対する1つまたは複数のプローブを含む。さらなる実施形態では、血液パネルは、HIV、B型肝炎、C型肝炎、およびトリパノソーマ・クルージ(Trypanosoma cruzi)(シャーガス)病原体、ならびにHLA、Kir、ABOおよびRh式血液マーカー座位などのヒト宿主ゲノム配列のそれぞれに向けられた1つまたは複数のプローブを含む。
いくつかの実施形態では、パネルは、参照によって本明細書中に援用される米国特許出願公開第2009/0291854号明細書の段落26および27で開示されるものを含む1つまたは複数の病原体に向けられた1つまたは複数のプローブを含有する血液パネルである。特定の実施形態では、本発明によって提供されるパネルは、これらの生物のうちの1、2、3、4、5、6、7、8、9、10、15、20、25、または30のそれぞれに対する1つまたは複数のプローブを含む。
いくつかの実施形態では、パネルは敗血症パネルであり、大腸菌(E.coli)、クレブシエラ、プロテウス、エンテロバクター種、シュードモナス・エルジノーサ(Pseudomonas aeruginosa)、ナイセリア・メニンギティディス(Neisseria meningitidis)およびバクテロイデスのような主にグラム陰性の細菌、ならびにスタフィロコッカス・アウレウス(Staphylococcus aureus)、ストレプトコッカス・ニューモニエ(Streptococcus pneumoniae)および他の連鎖球菌のような一般的なグラム陽性細菌を含む1つまたは複数の病原体に向けられた1つまたは複数のプローブを含む。特定の実施形態では、本発明によって提供されるパネルは、これらの生物のうちの1、2、3、4、5、6、7、8、9、または10のそれぞれに対する1つまたは複数のプローブを含む。
いくつかの実施形態では、パネルは水、土壌、または農業パネルであり、例えば、G.ランブリア(G.lamblia)、クリプトスポリジウム、サルモネラ、赤痢菌、カンピロバクター、カンジダ、大腸菌(E.coli)、エルシニア、エロモナス、または他の小さい寄生生物に向けられた1つまたは複数のプローブを含む。特定の実施形態では、パネルは、水および/または土壌中の一般的な汚染物質であるジアルジアおよび/またはクリプトスポリジウムに対する1つまたは複数のプローブを含む。特定の実施形態では、本発明によって提供されるパネルは、これらの生物のうちの1、2、3、4、5、6、7、8、9、10、または11のそれぞれに対する1つまたは複数のプローブを含む。
いくつかの実施形態では、パネルは食料品または農業パネルであり、エシェリキア・コリ(Escherichia coli)、サルモネラ、シゲラ・ソネイ(Shigella sonnei)、カンピロバクター、リステリア(例えば、リステリア・モノサイトゲネス(Listeria monocytogenes))、エルシニア・エンテロコリチカ(Yersinia enterocolitica)、エルシニア・シュードツベルクロシス(Yersinia pseudotuberculosis)、ビブリオ・コレラ(Vibrio cholera)、およびクロストリジウム(例えば、C.ボツリヌム(C.botulinum))のうちの1つまたは複数に向けられた1つまたは複数のプローブを含む。特定の実施形態では、食料品または農業パネルは、エシェリキア・コリ(Escherichia coli)O157:H7、腸管出血性のエシェリキア・コリ(Escherichia coli)(EHEC)、腸内毒素原性エシェリキア・コリ(Escherichia coli)(ETEC)、腸管侵入性エシェリキア・コリ(Escherichia coli)(EIEC)、腸管病原性エシェリキア・コリ(Escherichia coli)(EPEC)、サルモネラ、リステリア、エルシニア、カンピロバクター、クロストリジウム種、およびブドウ球菌種に向けられた1つまたは複数のプライマーを含む。特定の実施形態では、農業または食料品パネルは、キシレラ・ファスティディオーサ(Xylella fastidiosa)およびキサントモナス・アクソノポディス(Xanthomonas axonopodis)などの一般的な柑橘類汚染物質に対する1つまたは複数のプローブを含有する。特定の実施形態では、本発明によって提供されるパネルは、これらの生物のうちの1、2、3、4、5、6、7、8、9、10、15、20、またはそれ以上のそれぞれに対する1つまたは複数のプローブを含む。
真菌パネルは、いくつかの実施形態では、参照によって本明細書中に援用される米国特許出願公開第2010/0129821号明細書の段落162および180ならびに表1および2に記載される1つまたは複数の真菌に向けられた少なくとも1つのプローブを含む。特定の実施形態では、本発明によって提供されるパネルは、これらの生物のうちの1、2、3、4、5、6、7、8、9、10、15、20、25、または30のそれぞれに対する1つまたは複数のプローブを含む。特定の実施形態では、真菌パネルは、アスペルギルスおよび/またはカンジダ・アルビカンス(Candida albicans)に向けられた1つまたは複数のプローブを含む。
いくつかの実施形態では、本発明によって提供されるパネルは、本明細書中で記載されるような複数の病原体に向けられたプローブ、ならびにHLA、Kir、ABOおよびRh式血液マーカー座位などの特定のヒトゲノム配列に向けられたプローブを含み、同じサンプルにおける遺伝子型同定および病原体検出を可能にする。
いくつかの実施形態では、パネルは、被験者の遺伝子型同定のための被験者パネルである。特定の実施形態では、被験者パネルは、少なくとも1、2、3、4、5、6、7、8、9、10、20、40、80、100、200、400、800、1000、5000、または10000の被験者座位のためのプローブを含む。特定の実施形態では、パネルは、哺乳類被験者に対するものである。より特定の実施形態では、哺乳類はヒトである。いくつかの実施形態では、パネルは、遺伝性の遺伝子異常、および/または疾患のリスクの増大に関連する遺伝子型を検出するための出生前または新生児パネルである。特定の実施形態では、パネルは、キラー細胞免疫グロブリン様受容体(KIR)座位タイピングのため、そして、サイトカインSNP、例えば、以下のSNPのうちの1つまたは複数を検出するためのプローブを含む:−174におけるIL−6:C/G、−308におけるTNF−α:G/A、−238におけるG/A、−1082におけるIL−10:G/A、−819C/T、−592におけるC/A。いくつかの実施形態では、パネルは遺伝子型HLAマーカーに対するプローブを含み、特定の実施形態では、クラスI(A−H)およびクラスIIのHLAマーカーのそれぞれに対する少なくとも1つのプローブを含む。他の実施形態では、パネルは、米国特許出願公開第2010/0137426号明細書の段落25、57、および58、米国特許出願公開第2009/0305284号明細書の段落6および7、米国特許出願公開第2010/0144836号明細書の段落27に記載される遺伝子のうちの1つまたは複数、米国特許出願公開第2010/0143949号明細書の表1に記載されるマーカーのいずれか、あるいは米国特許出願公開第2010/0093558号明細書の段落14の遺伝子のいずれかに向けられたプローブを含む(これらは全て、参照によって本明細書中に援用される)。いくつかの実施形態では、パネルは、機能獲得型「癌遺伝子」(ABL1、BCL1、BCL2、BCL6、CBFA2、CBL、CSF1R、ERBA、ERBB、EBRB2、ETS1、ETS1、ETV6、FGR、FOS、FYN、HCR、HRAS、JUN、KRAS、LCK、LYN、MDM2、MLL、MMTV−PyVT、MMTVneu、MYB、MYC、MYCL1、MYCN、NRAS、PIM1、PML、RET、SRC、TAL1、TCL3、およびYESなど)、および/または機能喪失型の腫瘍抑制遺伝子(APC、BRCA1、BRCA2、MADH4、MCC、NF1、NF2、RB1、P53、およびWT1など)に向けられたプローブを含む。いくつかの実施形態では、パネルは、HLA、Kirおよびサイトカイン遺伝子座に向けられたプローブを含む。特定の実施形態では、本発明によって提供されるパネルは、これらのマーカーのうちの1、2、3、4、5、6、7、8、9、10、15、20、30、またはそれ以上のそれぞれに対する1つまたは複数のプローブを含む。
本発明によって提供される追加のパネルは、ウイルス、細菌、古細菌、原生動物、および真核生物、ならびに組み合わせに向けられたプローブを含む。特定の実施形態では、パネルは、約1、2、3、4、5、6、7、8、9、10、15、20、25、30または35のウイルス、約1、2、3、4、5、6、7、8、9、10、15、20、25、30または35の細菌、および約1、2、3、4、5、6、7、8、9、10、15、20、25、30または35の真核生物のそれぞれに対する少なくとも1つのプローブを含有する。特定の実施形態では、真核生物に向けられたパネル中のプローブは、少なくとも1、2、3、4、5、6、7、8、9、または10の真菌に対するプローブを含む。特定の実施形態では、パネルはさらに、1、2、3、4、5、6、7、8、9、または10の古細菌のそれぞれに対する少なくとも1つのプローブを含むことができる。
本発明のパネルを用いて検出することができる例示的なウイルス分類群には、アデノウイルス科、アロヘルペスウイルス科、アネロウイルス、アレナウイルス科、アルテリウイルス科、アスコウイルス科、アスファウイルス科、アストロウイルス科、バキュロウイルス科、バルナウイルス科、ベニウイルス、ビコウダウイルス科(Bicaudaviridae)、ビルナウイルス科、ボルナウイルス科、ブロモウイルス科、ブニヤウイルス科、カリシウイルス科、カウドウイルス目、カリモウイルス科、チェラウイルス(Cheravirus)、クリソウイルス科、サーコウイルス科、クロステロウイルス科、コモウイルス科、コロナウイルス科、コルチコウイルス科、シストウイルス科、デルタウイルス、ジシストロウイルス科、エンドルナウイルス、フィロウイルス科、フラビウイルス科、フレキシウイルス科、フロウイルス(Furovirus)、フセロウイルス科、ジェミニウイルス科、グローブロウイルス科(Globuloviridae)、ヘパドナウイルス科、ヘペウイルス科、ヘルペスウイルス目、ヘルペスウイルス科、ホルデイウイルス、ハイポウイルス科、イデオウイルス、イフラウイルス(Iflavirus)、イノウイルス科、イリドウイルス科、レビウイルス科、リポスリクスウイルス科、ルテオウイルス科、マラコヘルペスウイルス科、マルナウイルス科(Marnaviridae)、ミクロウイルス科、ミミウイルス科、モノネガウイルス目、ミオウイルス科、ナノウイルス科、ナルナウイルス科、ニドウイルス目、ニマウイルス科、ノダウイルス科、オフィオウイルス、オルトミクソウイルス科、ウルミアウイルス、パピローマウイルス科、パラミクソウイルス科、パルティティウイルス科、パルボウイルス科、ペクルウイルス、フィコドナウイルス科、ピコルナウイルス目、ピコルナウイルス科、プラズマウイルス科、ポドウイルス科、ポリドナウイルス科、ポリオーマウイルス科、ポモウイルス、ポティウイルス科、ポックスウイルス科、レオウイルス科、レトロウイルス科、ラブドウイルス科、ロニウイルス科、ルディウイルス科、サドワウイルス、サルタープロウイルス(Salterprovirus)、セキウイルス科、シホウイルス科、ソベモウイルス、テクティウイルス科、テヌイウイルス、テトラウイルス科、トバモウイルス、トブラウイルス、トガウイルス科、トンブスウイルス科、トティウイルス科、ティモウイルス科、およびアンブラウイルスが含まれる。非DNAおよび/または一本鎖ウイルスは、当業者に既知の手段によって、例えば逆転写によって、本発明で使用するために容易に適応されるであろう。特定の実施形態では、本発明の混合物は、少なくとも1、2、4、6、8、10、15、20、30、50、100、150、200、250、300、または400種類のウイルスを検出するために1つまたは複数のプローブを含む。
本発明によって提供されるパネルを用いて検出することができる例示的な細菌の種類には、ファーミキューテス門(例えば、バチルス目、ラクトバチルス目、クロストリジウム)、バクテロイデス門/緑色硫黄細菌門、アクチンバクテリア(Actinbacteria)、シアノバクテリア門、スピロヘータ目、クラミジア、アルファプロテオバクテリア(例えば、根粒菌、リケッチア)、ベータプロテオバクテリア(例えば、ボルデテラ、ナイセリア、バークホルデリア)、ガンマプロテオバクテリア(例えば、パスツレラ、キサントモナス、シュードモナス、腸内細菌、ビブリオ)、ならびにイプシロンおよびデルタプロテオバクテリアが含まれる。特定の実施形態では、本発明の混合物は、少なくとも1、2、4、6、8、10、15、20、30、50、100、150、200、250、300、または400種類の細菌を検出するために、1つまたは複数のプローブを含む。
本発明によって提供されるパネルを用いて検出することができる例示的な古細菌の種類には、サーモコッカス目、サーモプラズマ目、メタノサルシナ目、メタノミクロビウム目、メタノコッカス目、メタノバクテリウム目、メタノピュルス目、ハロバクテリウム目、アーケオグロブス目、ナノアーケオタ門、およびクレンアーケオタ門(例えば、サーモプロテウス目、スルフォロブス目、およびデスルフロコッカス目)が含まれる。特定の実施形態では、本発明の混合物は、少なくとも1、2、4、6、8、10、15、20、30、50、00、150、200、250、300、または400種類の古細菌を検出するために、1つまたは複数のプローブを含む。
本発明によって提供されるパネルを用いて検出することができる例示的な真核生物には、線形動物門、吸虫綱、ディプロモナス目、アピコンプレックス門、エンタメオビダエ(Entameobidae)、キネトプラスト目、ディクティオステリダ(Dictyostellida)、ストラメノパイル、真菌(例えば、微胞子虫門、バシドマイコタ(Basidomycota)、接合菌門、および子嚢菌門(例えば、シゾサッカロミケス綱、サッカロミケス亜門、およびチャワンタケ亜門))が含まれる。特定の実施形態では、本発明の混合物は、少なくとも1、2、4、6、8、10、15、20、30、50、100、150、200、250、300、または400種類の真核生物を検出するために、1つまたは複数のプローブを含む。
3 本発明の例示的な方法
3.1 プローブ設計
本発明によって提供されるプローブおよび混合物は、以下の実施例および本出願の一般的な教示によって、当業者により製造することができる。プローブの設計プロセス(プローブ設計「パイプライン」とも呼ばれる)は、入力として、プローブが設計され得るゲノムDNA配列のセットおよび標的生物の特定の株のセットを採る。ゲノムDNA配列は、全ゲノム、特定の遺伝子、または1つまたは複数の株におけるゲノム座標であり得る。あるいは、パイプラインは、入力として、ゲノム、遺伝子、または座標のセットを採り、いくつかの基準に基づいて標的に対する領域のセットを選択するであろう。パイプラインは、入力ゲノム、遺伝子、または相同プローブ配列セットにおける標的領域の座標と、既知のゲノムより大きいセットとの間で異なる領域などの基準を使用することができる。
特定の実施形態では、対象の生物の標的ゲノムの配列が提供され、標的ゲノム内の長さn(n−mer)を有する連続したヌクレオチドの全ての可能なストリングが列挙され(本明細書では、標的ゲノムの「スライス」とも呼ばれる)、ここで、nは18、20、22、24、26、28、30、32、34、36、38、40、45、50、55、60、65、70、80、90、100、110、120またはそれ以上である。特定の実施形態では、nは18〜50、18〜36、20〜32、または22〜28ヌクレオチドである。さらに特定の実施形態では、nは18〜26ヌクレオチドである。より特定の実施形態では、nは22〜28、例えば、25ヌクレオチドである。いくつかの実施形態では、長さnのゲノムセグメントは、ほぼ1〜nの間であるオフセットを有する。特定の実施形態では、オフセットは1である。
特定の実施形態では、列挙されたn−merは、そのゲノム位置を同定するために注釈付きである。いくつかの実施形態では、n−merは、より迅速なスクリーニングを容易にするために、ゲノムの注釈を用いずにストリングに転換される。
パイプラインは、n−merの適合性に従って、連結側のプローブ相同性領域(連結側ホーマー)として、そして伸長側プローブ相同性領域(伸長側ホーマー)として、それぞれのn−merに対する第1のスコアを生成し得る。n−merに対するスコアは、融解温度、一般的な配列組成、特定の位置における配列組成、およびn−merがそれ自体であるいは骨格配列とヘアピンを形成する傾向などの特徴に基づくことができる。
パイプラインはn−merをフィルタリングして、実質的に同じまたは正確に同じ配列のものを除去することができる(すなわち、「複製(duplicate)スクリーン」)。連結側ホーマー候補のセットを生成するために、長さx(ここで、xは、長さnのゲノムセグメントの列挙において使用される最小のnである(上記のとおり))の同一の接尾語を有するn−merが考慮され、最高スコアを有するものが保持され得るが、ここで、スコアは、上記のように、連結側ホーマーとしてのn−merの適合性に基づいている。伸長側ホーマー候補のセットを生成するために、長さxの同一の接頭語を有するn−merが考慮され、最高スコアを有するものが保持され得る。
いくつかの実施形態では、n−merのスコアリングは、相同プローブ配列として使用するのに適していないn−merを除去するための一連のスクリーンとして実施することができる。スクリーンは、複製および実質的に複製の配列を除去し、指定のT
m範囲の外側の配列を除去し(「T
mスクリーン」、例えば50〜72℃の外側)、多過ぎる反復ヌクレオチドを有するストリングを有する配列を除去し(「反復スクリーン」、例えば、4つ以上の連続した同一ヌクレオチド)、そしてセルフハイブリッド形成する可能性がある配列を除去する(「ヘアピンスクリーン」、例えば、自己二量体化またはヘアピンを形成)ことを含む。これらのスクリーンは、相同プローブ配列について本出願で記載されるパラメータのいずれかを適用させるように調整することができる。スクリーンは、例えば、以下の表の実施形態のいずれかによって、任意の順序で実施することができる。
候補ホーマー(またはそのサブセット、ここで、サブセットは上記のように生成されたスコアに基づいて選択され得る)は、標的生物の様々な株からのゲノムのセットに対して、そして既知のゲノムの一般的なデータベースに対してアライメントされる。1)ホーマーが一致する株の数と、2)ホーマーに隣接する配列決定される期待伸長領域内の、これらの株の間の単一ヌクレオチド多型(SNP)の数(すなわち、配列決定された伸長産物の期待読取り長さを仮定して、ホーマーが明らかにすることを期待されるSNPの数)とを考慮に入れる第2のスコアが各ホーマーに割り当てられる。
第2の(またはスクリーニングされた)n−merは、例えば、被験者のゲノム(生物サンプルの場合)および対象の生物以外の生物(ウイルス、細菌、古細菌、真菌、および他の真核生物を含む)の配列決定されたゲノムを含むゲノムの排除セット内のゲノム中の配列と特異的にハイブリッド形成するものを排除するためにフィルタリングされる。特定の実施形態では、ゲノムの排除セットは、標的生物以外の共生生物、非病原性生物、および病原性生物を含む。特定の実施形態では、スクリーニングされたn−merは、排除セット内の任意の配列に対して、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、または45ヌクレオチドのウインドウ内に1、2、3、4、5、6、7、8、9、または10未満のミスマッチを含有する場合には排除される。特定の実施形態では、スクリーニングされたn−merは、少なくとも22ヌクレオチド(例えば、25ヌクレオチド)のウインドウ内に少なくとも19または20の一致を含有する場合には除去される。候補n−merは、配列比較のために当該技術分野において知られている任意の手段によって、排除セットに対してスクリーニングすることができる。特定の実施形態では、候補n−merは、MegaBLASTによって、排除セットに対してスクリーニングされる。いくつかの実施形態では、スクリーニングされたn−merは、ゲノム注釈(標的生物のゲノム中のこれらの位置など)を含有するようにフォーマットされ、他の実施形態では、これらはさらに、ゲノム注釈のないストリングとしてスクリーニングされる。
特定の実施形態では、スクリーニングされたn−merは、これらが少なくとも1つの追加のハイブリッド形成ゲノム中の配列と特異的にハイブリッド形成することを保証するためにさらにスクリーニングされる。いくつかの実施形態では、追加のハイブリッド形成ゲノムは、標的生物の追加の配列決定されたゲノムである。特定の実施形態では、追加のハイブリッド形成ゲノムは密接に関連しているが、例えば、同じ属または血清型に属する別個の種である。いくつかの実施形態では、スクリーニングされたn−merは、ゲノムの排除セットと特異的にハイブリッド形成するものを排除するためのスクリーニングの前に、これらが追加のハイブリッド形成ゲノムと特異的にハイブリッド形成することを保証するためにスクリーングされ、他の実施形態では、これらは後でスクリーニングされる。特定の実施形態では、スクリーニングされたn−merは、ゲノムの排除セット内の配列と特異的にハイブリッド形成する配列を排除するためにスクリーニングされる前に、まず、これらが少なくとも1つの追加のハイブリッド形成ゲノムと特異的にハイブリッド形成することを保証するためにスクリーニングされる。
いくつかの実施形態では、スクリーニングされたn−merは、さらに、標的生物のゲノムにおいて特定の反復閾値未満、例えば、20、19、18、17、16、15、10、9、8、7、6、5、4、3、または2回未満などでこれらが標的生物のゲノム中で発生することを保証するためにスクリーニングされる。特定の実施形態では、スクリーニングされたn−merは、標的生物のゲノムにおいて正確に1回発生する。
スクリーニングされたn−merが、特異的ハイブリダイゼーションの所望のパターン(すなわち、標的生物のゲノムと特異的にハイブリッド形成し、排除セットと特異的にハイブリッド形成しない)を保証するためにさらにスクリーニングされたら、連結側ホーマーおよび伸長側ホーマー候補は、候補プローブへ構築され得る。候補ホーマーの対は、人による事前選択またはコンピュータによる方法により選択される所定の対象の領域を捕獲するように選択され得る。他の実施形態では、候補相同プローブ配列の対は、所定長さの領域、例えば、少なくとも2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、80、100、125、150、200、250、300、350、400、500、600、700、800、900、1000、1200、1400、1600、1800、または2000ヌクレオチドの領域を捕獲するように選択される。いくつかの実施形態では、ホーマー対は、特定の標的生物株に対して決定される最大伸長距離の範囲内である。
候補プローブのためのスコアは、1)プローブの結合が期待される株の各対の間で観察されるSNPまたは挿入欠失(挿入または欠失またはこれらの組み合わせ)の数を、選択された最大値に至るまで計算し、2)(1)からの値の合計を生成して、プローブが明らかにし得るSNPまたは挿入欠失の総数をもたらし、3)プローブが機能する確率の推定値を、(2)からの合計に掛け合わせることによって生成することができる。このプロトコルはプローブの最終スコアである。プローブが機能する確率は、以下の何れかを考慮し得る:
i)連結ホーマーの配列
ii)伸長ホーマーの配列
iii)プローブ骨格の配列、
iv)2つのホーマー間の伸長領域の配列、
v)2つのホーマーTm、
vi)プローブがそれ自体でヘアピンを形成する傾向、
vii)伸長領域の配列組成、
viii)伸長領域の特定の部分、n−mer、またはこれらの組み合わせの配列組成、および
ix)伸長領域の長さ。
あるいは、プローブのスコアは、別の特定のゲノムセットを排除しながら、特定のゲノムセットまたは単一のゲノムのみとハイブリッド形成する、あるいはハイブリッド形成するのが好ましいプローブに対してスコアがより高いように生成され得る。
いくつかの実施形態では、候補プローブのスコアは全ての対象の株の間で観察されるSNPの合計を含まないが、代わりに、観察されるSNPの数および特に選択された値のより小さい数の合計を含む。
いくつかの実施形態では、プローブは、最終プローブのセット(「出力セット」)に順次付加される。上記のように計算された最高の候補プローブスコアを有するプローブをまず選択することができる。その時点で、全ての残存する候補プローブのスコアは、予め選択されたプローブにより区別されない株の間のSNPを明らかにするプローブがより高くスコア化され、予め選択されたプローブにより区別される株の間を区別するSNPを明らかにするプローブがより低くスコア化されるように再計算される。いくつかの実施形態では、残存する候補プローブのスコアは、これらが出力セットのために既に選択されたプローブとクロスハイブリッド形成する傾向を反映するように更新され得る。
全ての可能なプローブのサブセットであり得るスコア化されたプローブのセットがあれば、株AおよびB(ここで、Aは株S1、S2、S3などのセット中にあり、Bは別の株のセット中にある)の全ての対が、少なくともある最小数のSNP、挿入欠失、またはその両方によって区別されることが期待されるまで、プローブスコアが減少する順にプローブを選択することによって、プローブは、最終プローブ出力セット中への含有について選択され得る。
いくつかの実施形態では、全ての可能なプローブのサブセットであり得るスコア化されたプローブがあれば、1)最高スコアを有するプローブを選択し、2)既に選択されたプローブによって明らかにされたSNPまたは挿入欠失の数を、まだ考慮中のプローブによって明らかにされた数から差し引くことにより、残存するプローブのスコアを再計算することによって、プローブは、最終プローブ出力セット中への含有について選択され得る。このようにして、既に選択された全てのプローブがあれば、プローブのスコアは、どのくらいの新しい情報をプローブが提供するかを反映するように更新され得る。
ホーマーのプローブへの構築は、検出可能な部分およびプライマーなどの骨格配列の挿入を含み得る。
特定の実施形態では、構築されたプローブの混合物は、二次構造を形成する可能性のある配列、または混合物中の他のプローブと特異的にハイブリッド形成する配列を排除するために、さらにスクリーニングされる。
選択されたプローブのセットがあれば、プローブ選択ソフトウェアは、特定の標的生物株セットの中でプローブが明らかにするSNPまたは挿入欠失の数に基づいた評価を提供することができる。ソフトウェアは、この情報を2Dグリッドの画像として表示することができ、一方の軸は株または種であり、他方の軸は特定のプローブの伸長領域における位置であり、そのグリッドエントリーの色は、その位置におけるその株/種の遺伝子型を示す。ソフトウェアは、この情報をツリーとして表示することができ、ここで、ツリー中の各ノードはプローブに相当する。ノードからのエッジのセットは、そのプローブおよびツリー中の全ての上位(ancestor)プローブによって観察されるSNPまたは挿入欠失に従って区別することができないゲノムのセットに相当し得る。
選択されたプローブのセットがあれば、ソフトウェアは、各プローブがハイブリッド形成すると期待される株の数に基づいた評価も提供することができる。ソフトウェアは、この情報を2Dグリッドの画像として表示することができ、一方の軸はゲノムであり、他方の軸はプローブであり、交差点における色はプローブがゲノムとハイブリッド形成し得るかどうかを示すか、あるいは色は、ハイブリダイゼーションの確率または可能性を示すことができる。
さらなる実施形態では、プローブは、これらが株のセット間でいくつのSNPを明らかにするかに基づかないが、標的座位のリストに基づいて選択することができ、それぞれの座位は、単一のゲノム中の単一のヌクレオチドである。標的座位のセットは、1つまたは複数の基準ゲノム中の座位の塩基セットから誘導され、全ての関連ゲノム中の標的座位の完全セットは、基準ゲノムを互いのゲノムとアライメントさせることによって、塩基セットから誘導され得る。この方法は、例えば、薬物耐性突然変異が病原体の基準株において記載されており、その病原体の株または単離ゲノムのセットにおいてこれらの突然変異を検出し得るプローブが設計される場合に適用可能である。
標的座位のリストに基づいてプローブを選択するこのような方法では、n−merは上記のように生成され得る。これらの方法では、プローブが機能する確率も上記のように計算され得る。しかしながら、このような方法では、プローブがランク付けおよび/または選択される最終スコアは、通常、プローブが機能する確率と、プローブの伸長領域(または、伸長領域の期待される配列決定読取り)に含まれ得る標的座位の数との積に基づいている。従って、プローブは、多数の対象の株に対して、情報的価値のある産物(産物が標的座位を含有することを意味する)を生成すると期待される場合に高くスコア化され、多くの株において産物を生成しない場合、あるいはその産物が対象の座位を含有しない場合に低くスコア化され得る。
いくつかの実施形態では、本明細書において記載される方法のいずれかによって生成される最終プローブは、相同プローブ配列(プローブアーム)があるゲノムセットの何れかに対してもはや完全に一致しないように修飾されてもよい。このゲノムセットは、プローブが設計されるゲノムセットであってもなくてもよく、そしてプローブがスコア化されるゲノムセットであってもなくてもよい。このような実施形態では、プローブをスコア化するために使用されるパラメータは、不完全な一致を相殺するように変更され得る。例えば、本方法では、通常よりも高い融解温度を有するプローブアームが選択されていてもよく、そしてプローブアームおよびゲノム間の不完全な一致の融解温度が通常の範囲内であるように、プローブアーム中のどの1つまたは複数のヌクレオチドに修飾するかが選択されていてもよい。
特定の実施形態では、上記の方法は、少なくとも10、9、8、7、6、5、4、3、または2メガベースの標的ゲノムにおいて、シングルコアPentium Xeon 2.5ghzプロセッサを用いて16、14、12、10、8、6、もしくは4日間、または72、48、36、24、12、10、8、6、もしくは4時間かからない。
一般に、プローブは、上記のように特定の標的生物に対して作成される。特定の実施形態では、複数の生物に向けられたプローブを含む混合物、例えばパネルは、プローブクロスハイブリダイゼーションを最小限にするか排除するため、例えば、混合物中の1つまたは複数の相同プローブ配列またはプローブ骨格配列と特異的にハイブリッド形成するプローブを排除するために、パネルにより検出される各標的生物に対する候補プローブを互いにスクリーニングすることによって、例えばペアワイズ比較によって編集される。
図7は、本発明によって提供されるプローブおよび混合物の製造方法の例示的な実行のフローチャートである。図7は、例えば、例えば標的ゲノムの提供10、およびn−merのセットへのスライシングの実施100を示す。n−merは、一連のスクリーン250(例えば、ヘアピン(253)、Tm(254)、反復(252)および複製(251)スクリーン)を含むプロセス200によってスクリーニングされる。次にn−merは、排除セット20および1つまたは複数の追加のハイブリッド形成ゲノム30に対する特異的ハイブリダイゼーションの所望のパターンについて、プロセス300によってスクリーニングされ、ここで、排除セット20および追加のハイブリッド形成ゲノム30はデータベースから得られる。例えば、プロセスは、少なくとも1つの追加のハイブリッド形成ゲノムに対するハイブリダイゼーションについてのフィルタリング330、2未満の反復閾値(例えば、1つの標的ゲノムにつき1ヒット)についてのフィルタリング340、被験者(例えば、ヒト)ゲノムに対するフィルタリング350、および排除セットに対するフィルタリング360を含んでいてもよい。スクリーニングされたn−merは、注釈がなければ、ゲノム中のその位置を決定するために標的ゲノムに注釈が付けられてもよい(370)。プローブは、フィルタ425によって対象の領域を捕獲するように対をフィルタリング(420)するプロセス400において構築され、例えば、フィルタ425−1によって、指定の対象の領域の長さを有するように、そして骨格配列40を含むようにフィルタリングされる。プローブは、二次構造を排除するためにフィルタリングされる(450)。プローブの混合物(例えば、パネル)はプロセス500によって作成され、フィルタリング(550)されて、混合物中の他のプローブ50に対する特異的ハイブリダイゼーションが排除される。本出願の教示に従って当業者により実験的検証600が実施されてもよい。
上記で同定されるコンポーネントのそれぞれのうちの1つだけが上記図面に示されているが、当業者は、これらのコンポーネントがいずれもいくつでも提供され得ることを理解するであろう。さらに、当業者は、開示されるシステムのそれぞれの1つまたは複数のコンポーネントが、図中に示される別のコンポーネントに結合され得る、または取り込まれ得ることを認識するであろう。図中に示されるコンポーネントの1つまたは複数は、1つまたは複数のコンピューティングシステムにおいてソフトウェアで実行され得る。例えば、これらは、プロセッサにより実行されたときにコンピュータに方法のステップを実施させるコンピュータ可読指令の1つまたは複数のコンピュータユニットを含み得る1つまたは複数のアプリケーションを含むことができる。コンピュータ可読指令は、メモリまたはディスクなどのコンピュータ可読媒体上に保存され得る。このような媒体は、通常、非一時的な保存を提供する。あるいは、図中に示されるコンポーネントの1つまたは複数は、例えば、専用コンピュータまたは汎用コンピュータなどのハードウェアコンポーネントまたはハードウェアおよびソフトウェアの組み合わせであってもよい。コンピュータまたはコンピュータシステムは、内部または外部データベースも含むことができる。コンピュータまたはコンピュータシステムのコンポーネントは、ローカルバスインターフェースによって接続されていてもよい。
当業者は、上記の段階が別個のソフトウェアモジュールで具体化されてもよいことを理解するであろう。開示されるコンポーネントは別々のユニットとして上記で説明されているが、当業者は、1つまたは複数のユニットにより提供される機能性が結合されてもよいことを認識するであろう。当業者により理解されるように、ユニットの1つまたは複数は任意的なものであり、特定の実施形態における実行から除外されてもよい。
3.1.1 ホーマーおよび構築プローブのスコアリングのための例示的なアルゴリズム
上記の方法を含むプローブ設計の方法は、ホーマーのスコアリングおよび完成プローブのスコアリングのための方法を含むことができ、ここで、スコアはプローブが機能する確率に相当する。
ホーマーおよびプローブのスコアリングアルゴリズムの中核は融解温度に基づくことができる。ある温度において二本鎖型で存在し得る核酸分子の集団の割合を説明するために、一般に、ロジスティック関数が使用される。Tが実験温度であり、Tmが核酸の融解温度であり、そしてsが二本鎖型から解離型への移行の勾配を説明するパラメータであるとすると、
p(T,s)=1/(1+e^−(Tm−T)/s)
は、二本鎖型で存在する集団の割合である(図8においてTmの関数で示される)。いくつかの実施形態では、分子反転プローブが、標的配列を上手く増幅する見込みが高いことを反映するスコアを有するために、いくつかのことが発生しなければならない:
1)プローブの開始アームは、標的核酸とハイブリッド形成しなければならない、
2)ポリメラーゼは、伸長を開始しなければならない、
3)プローブの連結アームは、標的核酸とハイブリッド形成しなければならない、
4)伸長は、伸長アームと連結アームの間の鋳型配列全体を交差しなければならない、そして
5)リガーゼは、伸長産物を連結アームに連結させなければならない。
いくつかの実施形態では、上記の事象(1)および(3)は、プローブアームの融解温度に基づいたロジスティック関数を用いて説明することができる。事象(2)および(5)は、開始および連結部位を直接包囲するヌクレオチドに関して説明することができる(例えば、それぞれ、プローブアームの端部の2つの核酸および伸長ロジスティック関数領域の端部の2つの核酸によって説明することができる)。事象(4)は、伸長領域のジヌクレオチド組成によって説明される。
事象(1)および(3)は同一の式およびパラメータを用いて計算されてもよいし、あるいは別々に計算されてもよい。Tmは、プローブアームの融解温度であるとされてもよい。プローブアームがハイブリッド形成する確率は、
PhybOnTarget=(p(T,s)/(p(T,s)+sumother(p_other(T,s))))*p(T,s)
で説明することができ、式中、sumother(p_other(T,s))は、プローブアームのゲノムへの意図されない一致またはオフターゲットの一致の融解温度に対するロジスティック関数の合計である。従って、モデルは、全ての部位にわたるハイブリダイゼーションに対する意図される部位へのハイブリダイゼーションの比率に、正しい部位において利用可能である場合にプローブアームがハイブリッド形成する確率を乗じたものとして、プローブアームがハイブリッド形成する確率を説明することができる。
ゲノムへのプローブアームの各一致のための融解温度(オンターゲットの一致およびいくらかのオフターゲット、すなわち不完全な一致)は、プローブアームとオフターゲット結合部位との間のミスマッチ、ハイブリダイゼーション混合物中のプローブ核酸の濃度、およびハイブリダイゼーション混合物中の様々なイオン(例えば、Na+、Mg++、K+、Tris)の濃度を考慮に入れることができる標準的な融解温度計算機を用いて計算することができる。
モデルは、オフターゲットの一致の合計が、プローブアーム配列のゲノム配列への不正確なアライメントによって決定されるオフターゲットの一致と、プローブアームのTmによって予測されるオフターゲットの一致の一般的なセットとの両方を含むようにさらに伸長され得る。例えば、予測されるオフターゲットの一致のセットの合計は、30℃からTm−k(ここで、k=10℃である)までのt(プローブアームの融解温度)のそれぞれの値において、予測されるオフターゲットの一致の数が
a^(Tm−t)
(式中、aは、1.4の値を有する定数である)に等しくなるように生成され得る。tのそれぞれの値において、プローブアームのゲノムまたはゲノムセットへのオフターゲットの一致または不完全な一致の数は、上記の式に従って予測される。オフターゲットの一致の数は、tが減少するにつれて指数関数的に増大すると推定される。すなわち、オフターゲットの一致の数は、オンターゲットの一致およびオフターゲットの一致(または一致の類)間の融解温度の差が増大するにつれて指数関数的に増大し得る。これは、プローブアームと、ゲノム中のオフターゲット部位との間の一致がより短くなるので、期待される挙動であり得る。従って、融解温度は低下し、このような一致の数はより大きくなり得る。特定の融解温度における読取りカウントによって決定されるような、プローブの効率に対する融解温度の効果は、連結および伸長プローブアーム(ホーマー)のそれぞれに対して、図9および10においてそれぞれ示される(図10の「開始ホーマーは」伸長プローブアームを指し、両方の図中の上側の円の弧は、その値を中心とするTmのビン(bin)に対する平均配列読取りカウントを示し、両方の図中の中央の円の弧は[すなわち、底部の円のフラットな線ではない]はサンプル標準偏差を示す)。
事象(4)の成功した伸長の確率は、伸長領域におけるジヌクレオチド配列を横切る伸長確率の積で説明され得る。各ジヌクレオチドには、ポリメラーゼがそれを上手く取り込む確率を割り当てることができ、伸長領域を交差するポリメラーゼの確率は、伸長領域を横切るこれらの確率の積であり得る。
MIP(分子反転プローブ)産物配列決定読取りの公的なデータベースは、例えば、Porreca et al.Nat Methods.Nov;4(1):931−6(2007)による“Multiplex amplification of large sets of human exons”、およびDeng et al.,Nat Biotechnol.27(4):353−60(2009)による“Targeted bisulfite sequencing reveals changes in DNA methylation associated with nuclear reprogrammingを含む、上記のモデルのパラメータを知るために使用することができる。
3.2 プローブ捕獲および検出
本発明は、試験サンプル中の1つまたは複数の対象の生物の存在の検出方法を提供する。特定の実施形態では、方法は、上記のように、捕獲反応において上記のプローブを含む混合物を上記の試験サンプルのいずれかと接触させるステップを含む。特定の実施形態では、プローブを含む混合物は、ポリメラーゼ酵素およびヌクレオチド三リン酸(NTP)と共に、試験サンプルから抽出された核酸と接触され、混合物中の少なくとも1つの相同プローブ配列のポリメラーゼ依存性伸長によって、少なくとも1つの対象の領域を捕獲する。特定の実施形態では、相同プローブ配列のポリメラーゼ依存性伸長の後に、伸長された(すなわち、ポリメラーゼによって)相同プローブ配列の末端が他の相同プローブ配列の末端に連結され、対象の生物のゲノムからの対象の領域を含有する環状化プローブが生成される。いくつかの実施形態では、連結反応は、標的アームが標的とハイブリッド形成される間に発生する。他の実施形態では、標的アームは、他のプローブ分子に対するトランス連結よりも自己連結を好む反応条件下の溶液(例えば、希釈連結溶液)中で、標的から解離されて連結される。実例については、図2(A)または図2(C)を参照されたい。
図2(C)は、本発明によって提供される方法の1つの特定の実施形態を図解する。簡単に言うと、対象の生物中の標的配列に対するプローブのハイブリダイゼーションの後、ポリメラーゼ媒介性の標的−配列指向性の、3’相同プローブ配列に対するヌクレオチドの付加が行われ、プローブの5’相同プローブ配列における妨害物のために終端する。連結反応は、末端の3’ヌクレオチドをアームH2の5’ヌクレオチドに結合させる。
サンプルは、一本鎖DNAを消化するためにエンドヌクレアーゼで処理される。プローブ骨格に相補的なプライマーは、配列決定のためにMIPをdsDNAに増幅する。サンプル反応産物または増幅反応産物の多重化のために、この段階の増幅プライマーはサンプル特異的ヌクレオチドバーコード配列を含有することができ、例えば、これらはアダプタマープライマーである。独特のプライマーバーコード分子配列は、そのため、各試験サンプルを同定する。例えば、100プローブのパネルは、50の個々の試験サンプルと接触される。配列読取りにおいて検出される相同プローブ配列は、対象の生物、例えば、特定の病原体または株を同定する。各試験サンプルの増幅反応は、1つの独特のプローブセットを用いて行われる。増幅プライマー内の各バーコードは、患者に対する識別子の機能を果たすために使用することができ、例えば、バーコードを含有する。従って、50対の増幅プライマー(増幅反応産物のそれぞれに対して1つ)および1つの100プローブのパネル(例えば、100の対象の生物に対する)が、50サンプルの多重アッセイのために必要とされる。
図2(A)は、代替の実施形態を図解する。いくつかの実施形態では、各試験サンプルは、独特のプローブセット、例えばパネルと接触される。各試験サンプルについての増幅反応産物がプールされる。各試験サンプルは、独特のプローブセットと接触されるので、相同プローブ配列および捕獲配列は、標的生物および試験サンプルの両方を同定する。いくつかの実施形態では、プローブ認識配列をさらに含む従来のプライマー対(すなわち、相同プローブ配列を含む)は、増幅アーチファクトを低減するために少ないサイクル数(10未満)を用いて、対象の領域を増幅するためにサンプル核酸と接触される。次に、従来のプライマー対増幅産物のプローブ認識配列に向けられたプローブが適用される。ポリメラーゼ伸長および連結は、従来のプライマー対の相同プローブ配列および介在する対象の領域を捕獲する。独特のバーコード化プローブ配列は、サンプル(例えば、患者)の多重化を可能にする。配列読取りは、相同プローブ配列(対象の生物を同定する)およびバーコード(サンプル、例えば患者に関連する)を含むであろう。100プローブパネルおよび50試験サンプルの例では、対象の生物はそれぞれ、対象の生物、例えば病原体を同定する一対の相同プローブ配列を有する。試験サンプルは、独特のプローブセットと接触されるであろう。プローブ骨格内の各バーコードは、サンプル識別子の機能を果たすために使用され得る。従って、この説明的な実施形態では、それぞれに100プローブを有する50セットのプローブが使用される。
本発明によって提供される方法で使用するためのポリメラーゼには、Taqポリメラーゼ(Lawyer et al.,J.Biol.Chem.,264:6427−6437(1989)、Genbank受入:P19821)、Lawyer et al.,PCR Meth.Appl.,2:275−287(1993)に記載される5’→3’ヌクレアーゼ欠損「Stoffel」断片を含む)、PHUSION(商標)高忠実度(high fidelity)組換えポリメラーゼ(NEB)、およびパイロコッカス・フリオサス(Pyrococcus furiosus)(Pfu)ポリメラーゼ(例えば、米国特許第5,545,552号明細書を参照)、ならびにTopoTaqおよびPfuC2などのらせん−ヘアピン−らせんドメインを含むポリメラーゼ(Pavlov et al.,PNAS,99:13510−15(2002))が含まれる。より特定の実施形態では、ポリメラーゼは、TaqポリメラーゼのStoffel断片(3’→5’プルーフリーディング活性がさらに欠如している)などの5’→3’ヌクレアーゼ欠損である。5’→3’エキソヌクレアーゼ活性が欠如したポリメラーゼは、例えば、スクリーニングまたは合理的設計の方法に基づいて、当該技術分野において知られている手段によって生成することができる。例えば、ポリメラーゼ変異体は、TaqのStoffel断片への1つまたは複数のポリメラーゼの配列アライメントに基づいて、および/または、解かれたポリメラーゼ構造に配列を「通すこと(threading)」によって設計することができる(例えば、MMDB ID56530、81884および81885)。
特定の実施形態では、本発明の方法において使用するためのポリメラーゼは、Pfu、T4DNAポリメラーゼ、またはT7DNAポリメラーゼなどの非置換ポリメラーゼである。他の実施形態では、本発明によって提供される方法で使用するためのポリメラーゼは等温増幅に適切なポリメラーゼであり、捕獲および/または増幅反応は、例えば、金属イオン濃度を調節することによって、ならびに/あるいは、特定のポリメラーゼおよび/または追加の酵素、例えば、ヘリカーゼまたはニッキング酵素(プライマー生成RCAおよびEXPARなど)を用いることによって等温的に実施される。例えば、米国特許第6,566,103号明細書、Murakami et al.,Nucl.Acid.Res.,37(3)e19(2009)、Tan et al.,Biochemistry,47:9987−99(2008)、Vincent et al.,EMBO Rep.,5(8):795−800(2004)を参照されたい。等温増幅において使用するためのポリメラーゼとしては、例えば、Bst、Bsuおよびphi29DNAポリメラーゼ、および大腸菌(E.coli)DNAポリメラーゼIが挙げられる。
他の実施形態では、プローブの混合物は、上記のように、捕獲反応において、試験サンプルから抽出された核酸、リガーゼ酵素、およびn−merオリゴヌクレオチドのプールと接触される。実例については、図2(B)を参照されたい。特定の実施形態では、n−merオリゴヌクレオチドは、少なくとも2、3、4、5、6、7、8、9、10、12、14、16、18、20、22、24または25ヌクレオチドの長さである。より特定の実施形態では、これらはランダムな六量体である。他の実施形態では、これらは、相同プローブ配列とハイブリッド形成する第1および第2の標的配列間の対象の領域の長さのポリヌクレオチドである。いくつかの実施形態では、n−merオリゴヌクレオチドは、1、2、3、4、5、6、7、8、9、もしくは10のロックド核酸(LNA)、または10、20、30、40、50、60、70、80、90、もしくは100%のLNAを含有する。
リガーゼ酵素は、n−merオリゴヌクレオチドを本発明によって提供されるプローブに連結させて、対象の生物からの対象の領域を含有する環状化プローブを生成する。プローブ骨格に相補的なプライマーは、配列決定のために、プローブをdsDNAに増幅する。いくつかの実施形態では、例えば多重化のために、増幅プライマーはアダプタマープライマーであり、サンプル識別バーコード配列を含有する。独特のバーコード配列は、そのため、各試験サンプルを多重に同定する。各病原体は、配列読取り内の相同プローブ配列および連結されたn−merの独特の組み合わせによって同定される。より特定の実施形態では、n−merオリゴヌクレオチドは、1つまたは複数(例えば、1、2、3、4、5、6、または7)のロックド核酸を含む7−merであり、相同プローブ配列は10または12塩基であり、7塩基の対象の領域によって分離される標的配列と特異的にハイブリッド形成する。
本発明の方法において使用するためのリガーゼは、T4、T7、および熱安定性リガーゼ、例えば、Taqリガーゼ(Takahashi et al.,J.Biol.Chem.,259:10041−47(1984)、および国際公開第91/17239号パンフレットに記載される)、およびAMPLIGASE(商標)などを含む。
特定の他の実施形態では、本発明によって提供される従来のPCRプライマーの対(従来のプライマー対)を含む混合物は、対象の生物中の2つの標的領域間の対象の領域を増幅するために、サンプル核酸と接触される。特定の実施形態では、限定された数の増幅ステップが実施される。特定の実施形態では、25、20、15、10、9、8、7、6、5、4、3、または2回未満の増幅サイクルが実施される。特定の実施形態では、従来のプライマー対の混合物は、対象の領域を増幅するために、試験サンプルから抽出された核酸、ポリメラーゼ、およびヌクレオチド三リン酸と接触される。この方法の実例は図3に示される。従来のプライマー対の多数の組み合わせを使用して、同じサンプルチューブ内で、あるいはプーリングのために別々に、反応を多重化することができる、いくつかの実施形態では、従来のプライマー対中の普遍的プローブ認識配列(例えば、バーコード)に結合するプライマーは、ヌクレオチドバーコード、および次世代DNA配列決定技術プライマーのための認識部位を導入する。
本発明の一部として、従来のプライマー対は、様々な追加の方法において使用することができる。例えば、いくつかの実施形態では、従来のプライマー対は、少なくとも1つの標的核酸を含有する疑いがあるサンプル核酸と接触され得る。特定の実施形態では、対象の領域をサンプル核酸から直接増幅するためにPCRが使用され得る。他の実施形態では、捕獲反応産物、例えば、1つまたは複数の環状化プローブを増幅するために、従来のプライマー対が使用され得る。他の実施形態では、対象の領域を含有する疑いがあるサンプル核酸は、従来のプライマー対を用いて増幅され、次に、環状化捕獲のために本発明によって提供されるプローブと接触される。いくつかの実施形態では、従来のプライマー対は、サンプル核酸、およびビオチン化ヌクレオチドなどの修飾ヌクレオチドと接触される。ビオチン化ヌクレオチドなどの修飾ヌクレオチドを用いるいくつかの実施形態では、次に、得られた捕獲または増幅反応産物は、例えば、ステプトアビジン(steptavidin)基質によるアフィニティ捕獲によって、次の処理、例えば、本発明によって提供されるプローブを用いる環状化捕獲のために単離することができる。さらなる実施形態では、単一の従来のプライマーは、サンプル核酸中の対象の領域の線状増幅のために使用され、次に、環状化捕獲のために、本発明によって提供されるプローブと接触され得る、他の実施形態では、5’ビオチン部分を含有する単一の従来のプライマーは標的配列を増幅するために使用されてから、例えば、本発明によって提供される特異的な従来のプライマー対を用いる直接配列決定によって、あるいはランダムな六量体プライミングによって、配列決定のためにストレプトアビジン捕獲を用いてサンプルから濃縮されてもよいし、あるいは、本発明によって提供されるプローブを用いる環状化捕獲のために使用されてもよい。
特定の実施形態では、捕獲反応を含む方法は、さらに、捕獲反応産物を1つまたは複数のエキソヌクレアーゼと接触させて、線状核酸を除去するステップを含む。特定の実施形態では、エキソヌクレアーゼは、exoI、exoIII、exoVII、およびexoVのうちの少なくとも1つを含む。さらに特定の組み合わせでは、エキソヌクレアーゼは、100:1、50:1、25:1、10:1、5:1、2:1、1:1、1:2、1:5、1:10、1:25、1:50、または1:100(単位対単位)までのエキソヌクレアーゼIおよびエキソヌクレアーゼIIIの混合物である。
特定の実施形態では、本発明の方法はさらに、捕獲反応産物を増幅反応において増幅するステップを含む。核酸を増幅する多数の方法は当該技術分野において知られており、ポリメラーゼ連鎖反応(例えば、米国特許第4,683,195号明細書および同第4,683,202号明細書、ならびにMcPherson and Moller,PCR(the baSICs),Taylor & Francis;2 edition(March 30,2006)を参照)、OLA(オリゴヌクレオチド連結増幅)(例えば、米国特許第5,185,243号明細書、同第5,679,524号明細書、および同第5,573,907号明細書を参照)、ローリング−サークル増幅(「RCA」、Baner et al.,Nuc.Acids Res.,26:5073−78(1998)、Barany,PNAS,88:189−93(1991)、およびLizardi et al.,Nat.Genet.19:225−32(1998)に記載)、およびストランド置換増幅(SDA、米国特許第5,455,166号明細書および同第5,130,238号明細書に記載)を含む。特定の実施形態では、増幅は、RCAなどの線状増幅である。より特定の実施形態では、捕獲反応産物(例えば、環状化プローブ)はRCAにおける鋳型として使用され、長い線状の反復ssDNA産物を生成する。いくつかの実施形態では、RCA反応は、サンプルを、ビオチン化ヌクレオチド、LNAヌクレオチド、またはIsodCもしくはIsodGなどの人工的な塩基対、または脱塩基フラン(dSpacerなど)などの修飾ヌクレオチドと接触させて、アフィニティ濃縮および精製を容易にすることを含むことができる。特定の実施形態では、線状反復ssDNAを含む増幅反応産物は、本発明によって提供される従来のプライマーと接触されて、長さ2、3、4、5、6、7、10、15、20、30、40、50、75、100、500ヌクレオチドを有する二本鎖DNAの短い伸長を生成することができる。特定の実施形態では、伸長の長さは、このポリメラーゼの延長の最適温度における伸長ステップの時間(例えば、37、42、45、68、72、74℃を含む温度で5、10、15、20、40、60秒)によって調節され得る。他の実施形態では、伸長の長さは、さらなる延長が防止されたヌクレオチド類似体、例えば、ジデオキシシトシン(dideoxyCytosine)、または3’修飾、例えばビオチン、またはアミノ基で終結されるは炭素スペーサーを有するヌクレオチドを反応中で混合することによって調節される。追加の特定の実施形態では、プライマーは、線状反復ssDNAのRCA増幅反応産物と接触され、単一のPCRサイクルのためのポリメラーゼによって伸長されて、RCA産物の反復単位に対する相補的配列を含有する短い一本鎖DNAを生成する。より特定の実施形態では、線状反復ssDNAのRCA増幅反応産物と接触されたプライマーは、制限酵素切断部位を含むdsDNA領域を生成する。従って、特定の実施形態では、プライマーが線状反復ssDNAのRCA増幅反応産物とハイブリッド形成して二本鎖DNA領域を形成する場合、増幅反応産物は、制限酵素と接触されてより短い断片を生成する。
特定の実施形態では、増幅反応はアダプタマープライマーを使用する。いくつかの実施形態では、増幅反応は、サンプル特異的プライマー、すなわちサンプルを同定するプローブ中に存在する配列とハイブリッド形成するプライマーを使用する。特定の実施形態では、増幅アーチファクトを回避するために、少数の増幅サイクル、例えば、25、20、15、10、9、8、7、6、5回未満のサイクルが使用される。
特定の実施形態では、本発明によって提供される方法は、サンプル核酸、捕獲反応産物または増幅反応産物を、ビオチン分子などの捕獲されるように設計された部分、およびサンプル核酸、捕獲反応産物、または増幅反応産物とハイブリッド形成することができる核酸配列を含む二次捕獲オリゴヌクレオチド捕獲プローブと接触させるステップを含むことができる。このようなオリゴヌクレオチド(ビオチン化オリゴヌクレオチドなど)は、アフィニティ精製を用いてその標的核酸を濃縮するために使用され得る。いくつかの実施形態では、ビオチン化オリゴヌクレオチドは、捕獲された配列(すなわち、それは対象の領域に対して相補的である)、相同プローブ配列、または骨格配列(例えば、バーコード配列など)と特異的にハイブリッド形成し得る。特定の実施形態では、ビオチン化プローブは、好熱性または中温性ポリメラーゼを用いて、サンプル核酸、捕獲反応産物または増幅反応産物上で伸長され得る。より特定の実施形態では、方法は、ビオチン:ストレプトアビジン相互作用を用いる特定の捕獲反応産物の濃縮のために、捕獲反応産物をビオチン化オリゴヌクレオチドと接触させることを含む。
本発明の方法によって捕獲される配列は、例えば、アレイハイブリダイゼーションまたは直接配列決定を含む手段によって検出することができる。いくつかの実施形態では、捕獲された配列は、増幅することなく配列決定によって検出され得る。多数の配列決定方法は当該技術分野において知られており、本発明の方法において使用することができ、例えば、米国特許第6,946,249号明細書およびMetzker,Nat.Reviews,Genetics,11:31−46(2010)、Ansorge,Nat.Biotechnol.,25(4):195−203(2009)、Shendure and Ji,Nat.Biotechnol.,26(10):1135−45(2008)、Shendure et al.,Nat.Rev.Genet.5:335−44(2004)において概説される。いくつかの実施形態では、配列決定方は、DNAポリメラーゼまたはDNAリガーゼのいずれかの特異性に依存しており、例えば、ピロシーケンス、塩基伸長配列決定(単一の塩基の段階的伸長)、合成による多塩基配列決定(例えば、末端標識ヌクレオチドによる配列決定を含む)、およびゆらぎ(wobble)配列決定(連結に基づく)が含まれる。伸長配列決定は、例えば、米国特許第5,302,509号明細書で開示される。末端リン酸標識ヌクレオチドおよびその使用方法の例示的な実施形態は、例えば、米国特許第7,361,466号明細書、米国特許出願公開第2007/0141598号明細書(2007年6月21日に公開)、およびEid et al.,Science,323:133−138(2009)に記載されている。リガーゼに基づく配列決定方法は、例えば、米国特許第5,750,341号明細書、PCT公報国際公開第06/073504号パンフレット、およびShendure et al.,Science,309:1728−1732(2005)に開示されている。特定の実施形態では、本発明によって提供される方法で使用される配列決定技術は、Sanger配列決定、微量電気泳動配列決定、ナノポア配列決定、ハイブリダイゼーションによる配列決定(例えば、アレイベースの配列決定)、単一分子のリアルタイム観察、および環状アレイ配列決定を含み、例えば、ピロシーケンス(例えば、454SEQUENCING(登録商標)、例えば、Margulies et al.,Nature,437:376−380(2005)を参照)、ILLUMINA(登録商標)またはSOLEXA(登録商標)配列決定(例えば、Turcatti et al.,Nucleic Acids Res.,36、e25(2008)を参照、また、米国特許第7,598,035号明細書、同第7,282,370号明細書、同第7,232,656号明細書、および同第7,115,400号明細書も参照)、ポロニー配列決定(例えば、SOLiD(商標)、Shendure et al.2005を参照)、および合成による配列決定(例えば、HELICOS(登録商標)、例えば、Harris et al.,Science,320:106−109(2008)を参照)が含まれる。
特定の実施形態では、捕獲プローブは、特定の配列決定技術による配列決定のための処理を容易にする配列を含有し、例えば、合成による配列決定のためのアンカー部位、配列決定反応の開始のためのプライマー部位、または特定の増幅産物の配列決定のためにオリゴヌクレオチドアダプターの連結を改善するための開裂を可能にする制限酵素部位としての役割を果たすことができる配列を含有する。いくつかの実施形態では、環状化捕獲プローブは、捕獲プローブのポリメラーゼ媒介性の伸長を刺激して、元の環状プローブの少なくとも1つ〜100万またはそれ以上の鎖状体化コピーを含む、環状化プローブの配列に相補的な配列を生成するオリゴヌクレオチドによって接触される。
本発明によって提供される混合物および方法は、任意の適切な検出手段(上記のものを含むがこれらに限定されない)と共に使用するために容易に適合させることができる。、ILLUMINA(登録商標)またはSOLEXA(登録商標)配列決定を用いる特定の実施形態では、より短い相同プローブ配列が、本発明によって提供されるプローブ、および従来のプライマー対において使用され得る。より特定の実施形態では、相同プローブ配列は、約8、9、10、11、12、13、14、15、16、17、18、19、または20塩基であろう。より特定の実施形態では、プローブまたは従来のプライマー対の標的配列間の対象の領域は、約2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、または50塩基である。さらにより特定の実施形態では、本発明によって提供されるプローブは、ポリメラーゼ依存性の合成および連結によって、あるいは約2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、または50塩基のn−merオリゴヌクレオチドの連結によって環状化され得る。さらにより特定の実施形態では、対象の領域は約7塩基であり、相同プローブ配列は10または12塩基である。さらなる実施形態では、ロックド核酸を含む7−merオリゴヌクレオチドが本発明によって提供されるプローブによって連結され、さらにより特定の実施形態では、7−merオリゴヌクレオチドは、少なくとも1、2、3、4、5、6、または7のロックド核酸(LNA)を含む。
他の実施形態では、捕獲または増幅反応産物は、例えば、Binladen et al,PLoS One.2(2):e197(2007)に開示されるような合成によるエマルジョン滴(emulsion droplet)配列決定によって配列決定することができる。特定の実施形態では、エマルジョンPCRおよび合成による配列決定のために捕獲されたDNAのエマルジョンを容易にするために、捕獲産物はRCAにより増幅されて、単一DNA分子内により高いコピー数の捕獲産物を生成し得る。例えば、Drmanac et al,Science 327(5961):78−81(2010)を参照されたい。
特定の実施形態では、異なるサンプルを含有する捕獲反応産物および/または増幅反応産物は、検出の前に結合される。特定の実施形態では、捕獲および/または増幅反応産物は、検出の前に組み合わせ的にプールされ、例えば、個々の捕獲反応産物および/または増幅反応産物のMxNアレイは行および列によってプールされ、プールが検出される。行および列プールからの結果は、次に、デコンボリューションされて、個々のサンプルの結果を提供することができる。より高次元のアレイおよびプールが同様に使用されてもよい。他の実施形態では、捕獲反応産物および/または増幅反応産物は、識別バーコード配列を含有する。特定の実施形態では、増幅プライマーは、サンプル特異的バーコード配列を含有する。従って、捕獲反応産物および/または増幅反応産物のプール中に含有される配列のサンプル源は、そのバーコード配列によって同定される。
本発明によって提供される方法は、特定の標的増幅産物または増幅産物セットなどの、捕獲反応産物または増幅反応産物中の特定の核酸を直接検出することを含んでいてもよい。従って、いくつかの実施形態では、本発明の混合物は、特殊化したプローブセットを含み、例えば、5’→3’エキソヌクレアーゼ活性を有するDNAポリメラーゼによって放出される検出可能なレポーターおよび失活剤部分を含有するハイブリッド形成可能なプローブを使用するTAQMAN(商標)(米国特許第5,538,848号明細書)、反対の末端にレポーターおよび消光部分を有するヘアピンプローブを使用する分子ビーコン(米国特許第5,925,517号明細書)、蛍光ドナーおよびアクセプター部分をそれぞれ有する一対の隣接するプライマーを使用する蛍光共鳴エネルギー移動(FRET)プライマー(米国特許第6,174,670号明細書)、および、標的に結合されたときにだけ蛍光を発する単一の短いプローブであるLIGHTUP(商標)(米国特許第6,329,144号明細書)が含まれる。同様に、SCORPION(商標)(米国特許第6,326,145号明細書)およびSIMPLEPROBES(商標)(米国特許第6,635,427号明細書)は、単一のレポーター/色素プローブを使用する。増幅産物検出プローブは、使用される特定の検出モダリティに従って、そして上記の特許において考察されるように設計される。特定の実施形態では、特定の捕獲反応産物または増幅反応産物を検出するための定量的なリアルタイムPCRアッセイは、ILLUMINA(登録商標)ECOリアルタイムPCRシステム(商標)において実施され得る。
特定の実施形態では、本発明の方法は、試験サンプル中の対象の生物の濃度を推定するために、サンプル内部較正核酸(SIC)の使用を含む。これは、対象の生物からの配列の頻度をSICの既知の濃度に対して較正することによって行われ、試験サンプル中の対象の生物の推定濃度が提供される。より特定の実施形態では、対象の生物の推定濃度は、病状および/またはおそらく臨床診断に関連する基準濃度の対象の生物のデータベースと比較される。
いくつかの実施形態では、本発明の方法はさらに、結果をフォーマットして医師の意思決定を通知するステップを含む。「結果」は標的生物の検出の成果を指し、例えば、バイナリ(例えば、+/−)検出および濃度の推定値を含み、特に、捕獲反応産物または増幅反応産物の配列決定の結果に基づくことができる。特定の実施形態では、フォーマッティングは、場合により統計的信頼区間を含む試験サンプル中の生物濃度の推定値を提示することを含む。より特定の実施形態では、フォーマッティングはさらに、結果のカラーコーディングを含む。特定の実施形態では、フォーマッティングは、例えば、入院、生菌治療(probiotic treatment)、抗生物質治療、および化学療法を含む、治療的介入のための勧告を含む。いくつかの実施形態では、フォーマッティングは、以下のうちの1つまたは複数を含む:査読された医学文献および経験的に定義されたサンプル結果のデータベース統計への言及。結果の例示的なフォーマットは図6に示される。
図11は、特に、配列決定結果の処理、分析、および出力のための方法の例示的な実施形態のフローチャートである。
3.3 配列分析
生の配列データの変換は3段階で生じることができ、すなわち、(1)生の装置データの処理およびアライメントされた配列決定読取りへの変換、(2)読取りデータの統計的解釈、および(3)出力の提供およびアーカイブへの保存である。
生の装置読出しからの生データの、病原体ゲノム中の位置に関連する配列情報への処理は、少なくとも2つの以下のステップを含み得る:
1.配列読出し(「読取り」)およびアライメントの前またはアライメント中のいずれかの関連の品質スコアファイルを統合するステップであって、配列決定プラットフォームが、エラーを捕獲し、読取り長さを有する配列の低下を同定するために品質スコアを作成するステップ、
2.病原体ゲノムの読取りをアライメント/位置付けするステップ。
いくつかの実施形態では、統計的分析および解釈は次に、全てのゲノムに対する全ての統計的に優位なヒットの説明に入り、場合により、病原体の耐性座位または独特の識別子などの対象の領域によるヒットを細分類する。
サンプル内に存在する生物の定量的な分析をもたらすために、配列決定装置からの生FASTQデータの処理、および基準ゲノムに対する定量化を示す例示的なワークフローは、図12に示される。
次世代配列決定読取りから得られる配列の例示的なアライメントは図14に示される。個々に示されるように、配列決定読取りは、プローブアーム領域を通してほぼ完全に一致する標的ゲノムDNAとアライメントされ得る。ポリメラーゼ伸長領域におけるアライメントは、この領域内の配列の変化を明らかにすることができ、これらの増幅産物配列を異なる株に割り当てることが可能になる。
サンプル中の株を同定するための、基準株のデータベースに対する配列読取りアライメントの使用の略図は図15に示される。いくつかの読取りは、1つまたは複数の株の間で共通の領域に位置付けることができる。この略図では、ほとんどの読取りは株A、B、CおよびDにアライメントし、共通である。対照的に、他の読取りは、特定の株(例えば、株Dにのみアライメントする読取りのサブセット)に独特であり得る。いくつかの実施形態では、サンプル中に存在するそれぞれの独特の病原体の割合の定量的な推定値を提供するために、定量的モデルが使用されて、共通の読取りおよび独特の読取りの分布を予測する。
いくつかの実施形態では、図16に示されるように、正確な多型モデリングおよび次世代配列決定による検出が実施される。3’プローブアーム、ポリメラーゼ伸長部位(矢印)、およびポリメラーゼ伸長領域の一部が上部に示される。下側のプロットは、配列読取りに沿って各ヌクレオチドにおいて、期待される標的配列と、配列読取りとの間で観察されるミスマッチを示す。ポリメラーゼ伸長領域を横切るミスマッチの頻度のモデリングは、バックグラウンドの配列決定エラーおよびノイズの結果ではない多型の正確な同定を可能にし得る。
統計的分析は、一般に、全ての病原体に対するヒット密度などの簡単な要約統計量を含み、ここで、ヒット密度は、配列のウインドウ内のヒット数を高品質の読取り数によって除したものである。これは、病原体配列中の配列座標によって、あるいは「対象の領域」IDおよびその中心からの距離の組み合わせによって記録することができる。さらに、分類方法論を用いて、サンプルの病原体への正確な割り当てを提供することができる。利用可能なツールボックスは、最大尤度およびベイズアプローチ、線形判別に基づく方法論、ならびにニューラルネットワークアプローチを含む。このアプローチは、このようなアプローチのいずれか1つまたは組み合わせを用いることができる。同様または関連の問題において立証済みの実績がある既知の方法は、隠れマルコフモデル(HMM)、Parzen Windows、多変数回帰(LOESS回帰を含む)、およびサポートベクターマシン(SVM)である。いくつかの実施形態では、開示される方法は、最大の特異性および感度を達成するために基準データセットに対して評価されるこれらのアプローチのうちの1つまたは複数を用いる。最終的な分析は、本発明のシステムにおいて多数のサンプルを実行することと、「最も信頼できる(gold standard)」基準とに依存する。このことから、次に、これらのデータの特徴、アッセイを調べ、固定分析アルゴリズムを実行することができる。これらのアルゴリズムは正確には固定されているのではなく、入力データに適合される。この従来の分析は、本発明のシステムのライフサイクルに対して、数回実行される。上記のように実施される統計的解釈は、パワフルなコンピュータサービスにおける従来の分析に依存している。初期分析は分析および解釈についてのアルゴリズム方法を生成し、次に、これを本発明のシステムに配備することができる。
従って、いくつかの実施形態では、プローブセットを用いる捕獲反応に従う配列決定およびその後の分析の目標は、サンプル中にそのDNAが存在する生物または株のセットを決定することである。いくつかの実施形態では、さらなる目標は、サンプル中のこれらの生物または株の相対量を決定することである。
分析方法は、配列決定読取り中のエラーの確率のためのモデル、および生物の関連株の間で生じる突然変異のためのモデルに依存し得る。これらのモデルの最も簡単な型は、等しい確率を有するように全てのエラーまたは変化を処理する。ここで、その確率はデータから得られてもよいし、研究者の最良の推測に基づいて選択されてもよい。いくつかの実施形態では、より進歩したモデルは、同じ機械、サンプル調製、および分析ソフトウェアを用いて、既知の鋳型材料の配列決定データセットから異なるタイプのエラーの確率を学習することができる。その他の進歩したモデルは、遺伝子もしくはゲノムの公的なデータベース、遺伝子もしくはゲノムの私的なデータベース、または配列決定読取りの構築されていない集合もしくは部分的に構築された集合からの既知の株のセットに基づいて、突然変異の確率を学習することができる。
既知のゲノムのデータベースと、反応で使用されるプローブのセットとに基づいて、期待される読取り配列のセットが計算される。期待される読取り配列はそれぞれ、1つのプローブおよび1つのゲノムから得ることができ、従って、期待される読取り配列の数はゲノムの数とプローブの数の積であり得る。
反応から配列決定読取りのセット(または読み取りの対)が得られると、読取りは、期待される読取りのセットに対してアライメントされ得る。配列決定エラーのためのモデルを用いて、方法は、期待されるそれぞれの産物から得られる読取り(または読取りの対)確率を計算し得る。次に、方法は、選択される最低の確率、例えば、1、.01、または.001よりも高度に読取りがアライメントされる、期待される全ての産物からの生物/株の結合として、サンプル中に存在し得る全ての生物または株のセットを算出する。
いくつかの実施形態では、分析方法はさらに、
1)期待される読取りのそれぞれにアライメントする各読取りの確率と、
2)サンプル中の各生物または株を観察する事前確率(このタイプの確率について、各生物または株は同様に確からしい)と、
3)存在し得る生物または株の数の事前確率(このタイプの確率の最も簡単な形では、生物または株のそれぞれの数は同様に確からしいかもしれない。別の形では、生物または株の数の確率は、ディリクレ分布を可能にし得る。)と
が与えられれば、割合または存在量が、観察される配列決定読取りのセットの実際の発生の確率を最小限にするように、各生物または株の相対的な割合または存在量を決定する。
いくつかの実施形態では、分析方法は、「混合物モデル」によって、生物の相対的な割合または存在量を決定する。いくつかの実施形態では、モデルにおける隠れ変数は、生物または株の割合または存在量、および期待される読取りへの配列決定読取りの割り当てである(ここで、観察される読取りはそれぞれ、単一の期待される読取りに割り当てられる)。Expectation−Maximization、Gibbs Sampling、およびMetropolis−Hastingsを含む様々な方法を使用してこれらの隠れ変数の値を見出すことができ、隠れ変数および隠れ変数におけるプライア(priors)が与えられれば、データの確率が最大にされる。
さらなる実施形態では、方法は、突然変異の確率を用いることにより、既知の生物の未知の株も混合物モデルに取り込む。このような実施形態では、未知の株のゲノムは、既知のすべてのゲノムに対して1つまたは複数のミスマッチを含有する、観察された読取りに基づいて生成される。これまで未知のゲノムは、既知のゲノムと同じ確率で混合物に付加され得る。
いくつかの実施形態は、多重試験も補正する。どれか1つの技術に関して限定されずに、目的は、偽陽性および偽陰性を排除することである。FPRおよびFDR(false discovery rate)は、任意のシステムに適合することができるので、最も有望な補正の1つである。いくつかの実施形態では、追加の事例が試験されるにつれて時間とともに閾値は更新される。
例示的な実施形態は、サンプルを(1)有意なヒット、(2)不確定なヒット、(3)ヒットの欠如または病原体が見当たらない、あるいは(4)低サンプル品質またはデータエラーに分類する。
結果の出力は、(1)会社のサーバーに対して、(2)例えば、病院システム、電子医療記録(EMR)システム、または他のHL7またはxml対応の保存システムに寄託するため、現存する健康記録のフレームワークで使用するめに、xmlおよびHL7フォーマットに対して、ならびに/または(3)医師にとって使いやすいグラフィックおよびテキストフォーマット、例えば、グラフ、表、概要テキスト、および可能な注釈付、基準情報にリンクするウェブフォーマットに対して、並行して生じることができる。出力フォーマットは任意であり、例えば、簡単なテキスト、スプレッドシートデータ、バイナリデータオブジェクト、暗号化および/または圧縮ファイルである。完全な記録は、独特の識別子により診断テストにリンクされたこれらの全てまたはいくつかを含むことができる。これらはコヒーレントオブジェクトに構築されてもよいし、あるいは独特の識別子の検索により構築されてもよい。
図9は、配列決定データの分析およびフォーマッティングを実行するためのシステムアーキテクチャの例示的な実施形態の略図である。このシステムアーキテクチャは、配列決定分析(サーバー)、統計的測定の計算(計算)および出力またはディスプレイ機能(インターフェース)の分離を含む。このようなアーキテクチャの多数の実施形態が存在する。どの特定の物理的な実現に限定されることなく、好ましい実施形態は、これらの主要な構成要素を分析ワークフローおよびアーキテクチャに含む。
3.4 例示的なプロトコル
プローブ、捕獲反応産物、および増幅反応産物の製造および使用方法は当該技術分野において知られており、本発明において使用され得る。例示的な方法は、例えば、Deng et al.2009、およびLi et al,Genome Res.,19(9)1606−15(2009)に開示されている。
例えば、本発明の混合物は捕獲反応(捕獲反応産物を形成するため)、増幅反応(増幅反応産物を形成するため)、および捕獲および/または増幅反応産物の配列決定のために、本質的にこれらの参考文献に記載されるように処理することができる。これらおよび他の参考文献において開示される方法は単に例示的ものであり、決して本発明を限定するものではない。例えば、Dengらは、Qiagen DNeasyカラムを用いて線維芽細胞、iPSまたはhES細胞の凍結したペレットからゲノムDNAを抽出し、これらをZymo DNA Methylation Gold Kit(Zymo Research)により重亜硫酸塩で変換した。本発明の方法では、例えば、DNAのメチル化を研究するために重硫酸変換が使用され得るが、必ずしも必須ではない。Dengらは、パドロック(padlock)プローブ(60nM)および200ngの重亜硫酸塩されたゲノムDNAを結合させ、10μlの1×Ampligase Buffer(Epicentre)中で混合し、95℃で10分間変性させてから、55℃で18時間ハイブリッド形成させ、その後、1μlのギャップ充填混合物(1×Ampligase緩衝液中、200μMのdNTP、2UのAmpliTaq Stoffel Fragment(ABI)および0.5単位のAmpligase(Epicentre))を反応に添加した。環状化のために、反応を55℃で4時間の後、95℃で1分間および55℃で4時間を5サイクル、インキュベートした。環状化の後に線状DNAを消化するために、2μlのエキソヌクレアーゼ混合物(10U/μlのエキソヌクレアーゼIおよび100U/μlのエキソヌクレアーゼIII、USBを含有する)を反応に添加し、反応を37℃で2時間インキュベートしてから、95℃で5分間不活性化した。
捕獲された配列を増幅するために、Dengらは、200nMのAmpF6.2−SoLプライマー、200nMのAmpR6.2−SoLプライマー、0.4×SybrGreen Iおよび50μlのiProof High− Fidelity Master Mix(Bio−Rad)を有する100μlの反応中のPCRによって、98℃で30秒間、8サイクルの8℃で10秒間、58℃で20秒間、72℃で20秒間、14サイクルの98℃で10秒間、72℃で20秒間および72℃で3分間、10−μlの環状化産物を増幅した。6%のPAGE(6%のTBEゲル、Invitrogen)により、期待されるサイズ範囲(344〜394bp)の増幅産物を精製した。
次に、Dengらは、精製PCR産物を同じ鋳型DNAにおいて等モル比で4つのプローブセットと共にプールし、4−μlの鋳型(10〜15ng/μl)、200μMのdNTP、20μMのdUTP、200nMのAmpF6.3プライマー、200nMmpAmpR6.3プライマー、0.4×SybrGreen Iおよび200μlの2×Taq Master Mix(NEB)を有する4×100μlの反応中で、94℃で3分間、8サイクルの94℃で45秒間、55℃で45秒間、72℃で45秒間および72℃で3分間、これらを再増幅した。Dengらは、PCR増幅産物をQiaquickカラムにより精製し、1×NEB緩衝液中4、Mmel:約3.6nmoleの精製PCR増幅産物、16単位のMmel(2U/μl、NEB)、100μMのSAMにより37℃で1時間これらを消化した。Dengらは、消化物を再度カラム精製し、3UのUSER酵素(1U/μl)により37℃で2時間消化してから、10単位のS1ヌクレアーゼ(10U/μl、Invitrogen)により、1×S1ヌクレアーゼ緩衝液中、37℃で10分間消化した。Dengらは、断片化DNAをカラムにより精製し、2.5μlの10×緩衝液、2.5μlのdNTP混合物(それぞれ、2.5mM)、2.5μlのATP(10mM)、1μlの末端修復酵素混合物(Epicentre)、および15μlのDNAを含有する25−μlの反応中、25℃で45分間、DNAを末端修復した。約100〜500ngの末端修復DNAを、1μlのQuickLigaseを有する30μlの1×QuickLigase緩衝液(NEB)中、25℃で15分間60μMのSolexa配列決定アダプターにより消化した。Dengらは、6%PAGEにより150〜175bpのサイズの連結産物をサイズ選択し、5μlの鋳型、200nMのSolexa PCRプライマー、0.8×SybrGreen Iおよび50μlのiProof High−Fidelity Master Mix(Bio−Rad)を有する100μlの反応中、98℃で30秒間、12サイクルの98℃で10秒間、65℃で20秒間、72℃で20および72℃で3分間、PCRによりこれらを増幅した。Dengらは、Qiaquick PCR精製カラムによりPCR増幅産物を精製し、Illumina Genome Analyzerにおいてこれらを配列決定した。
Liらは、以下の方法を使用した。Liらは、15μlの反応中で1×Ampligase緩衝液(Epicentre)、500ng(0.25amol)のゲノムDNA(例えば、試験サンプルDNA)、および48ng(1.32pmol)のプローブ(各プローブ対gDNAのモル比=100:1、他の比率の場合はそれに応じて数値が変化する)を混合し、95℃で10分間、0.1℃/秒で60℃まで勾配させて変性さてから、60℃で24時間ハイブリッド形成した。次に、2μLのギャップ充填および密封混合物(Ampligase保存緩衝液[Epicentre]中、5.4μMのdNTP[100×、1×、10×、1000×、および10,000×の場合はそれに応じて数値が変化する]、2単位のTaq Stoffel断片[Applied Biosystems]、および2.5単位のAmpligase[Epicentre])を添加し、反応を60℃で15分間、1時間、1日間、2日間、または5日間インキュベートした。またLiらは、反応のサイクリングも試みた:60℃で1日後、我々は10サイクルの95℃で2分の後、60℃で2時間を適用した。線状DNAを除去するために、Liらはインキュベーション温度を37℃に下げ、すぐに2μLのエキソヌクレアーゼI(20単位/μL)および2μLのエキソヌクレアーゼIII(200単位/μL)(いずれもUSBから)を添加し、37℃で2時間の後、94℃で5分間、反応をインキュベートした。
次に、Liらは、50μLの2×iQ SYBR Green supermix(Bio−Rad)、10μLの環鋳型(上から)、および40pmolの順方向および逆方向プライマーのそれぞれ(IDT)を有する2つの100−μLのPCR反応によって環を増幅した。PCRプログラムは、96℃で3分、3サイクルの95℃で30秒間、60℃で30秒間、および72℃で30秒間、ならびに10サイクルの95℃で30分間、72℃で1分間、および72℃で5分間であった。所望のPCR産物をゲル精製し、定量化した。各サンプルについて、Liらは、Illumina Genome Analyzerバージョン1および更新バージョン2の両方によって、カスタムプライマーにより10〜20fmolのDNAを配列決定した。
上記の記載は実例のために提示された。これは包括的ではなく、本発明を、開示される詳細な形態または実施形態に限定しない。本発明の修正および適応は、本明細書の考察および開示される実施形態の実施から当業者には明らかであろう。例えば、記載される実行は、ソフトウェア、ハードウェア、またはハードウェアおよびソフトウェアの組み合わせにおいて実行され得る。ハードウェアの例には、パーソナルコンピュータ、サーバー、ラップトップ、メインフレーム、およびマイクロプロセッサなどの計算または処理システムが含まれる。さらに、当業者は、図面に示されるレコードおよびフィールドが追加のフィールドを有していてもより少ないフィールドを有していてもよく、図面に示されるものとは異なったフィールドを構成し得ることを認識するであろう。本明細書および実施例は単に例示的なものであると考えられることが意図され、本発明の真の範囲および趣旨は以下の特許請求の範囲によって示される。
「約」、「少なくとも」、「未満」、および「よりも多い」などの本出願においていくつかのパラメータを説明する数値範囲の全てについて、記載は必ずしも列挙される値によって拘束される範囲を包含しなくてもよいことは理解されるべきである。従って、例えば、少なくとも1、2、3、4、または5という記載は、特に1〜2、1〜3、1〜4、1〜5、2〜3、2〜4、2〜5、3〜4、3〜5、および4〜5などの範囲も説明する。
本明細書中で引用される全ての特許、出願、または非特許文献および基準配列情報などのその他の参考文献については、全ての目的および列挙される問題のために参照によってその全体が本明細書中に援用されることが理解されるべきである。参照によって本明細書中に援用される文献と本出願との間に矛盾が存在する場合には、本出願が支配するであろう。本出願で開示される基準遺伝子配列に関連するGenelDまたは受入番号などの全ての情報(例えば、ゲノム座位、ゲノム配列、機能注釈、対立遺伝子変異体、および基準mRNA(例えば、エクソン境界を含む)およびタンパク質配列(保存ドメイン構造など)を含む)は、参照によってその全体が本明細書中に援用される。
実施例1:プローブ生成プロセス
多数の異なる病原性生物(細菌、ウイルス、真菌および他の生物など)を同時に検出および同定することができる多重診断アッセイにおいて使用することができるDNAオリゴヌクレオチドプローブの設計のための方法が、本明細書において提供される。これは、所与の生物に対して瞬時に非常に特異的であり、臨床的対象の特定の領域を捕獲することができ、そして同一プール内の他の生物の核酸または他のプローブのいずれともクロスハイブリッド形成しないであろうプローブのプールの生成によって達成される。全ゲノム(またはゲノムの群)または特定の対象の領域(例えば、薬物耐性を付与する突然変異、薬物感受性、毒性、病原性、ヒトの伝播性の増大、および診断または臨床関連の他の特徴などの特定の特徴を反映する領域)のいずれかから、DNA(またはRNA)の候補相同性領域が選択される。これらの相同性領域は、特定の生物、株、亜株または血清型を同定するために使用することができる。
DNAの特定の短い領域(通常、数千塩基以下の長さである)を予め選択することに限定されている現存のプライマー設計方法とは対照的に、本発明に従って、全ゲノムまたはゲノム群から始めることによってプライマーを設計した。これにより、特異性、Tm、および他のプローブの特徴に対する特定の基準を満たす核酸配列の最も広い可能な範囲から、最適な候補プローブの同定および検証が可能になる。
通常、本方法によって提供されるプローブは、標的生物のゲノムの領域を捕獲するように設計された2つの相同プローブ配列(本明細書では、「ホーマー」とも呼ばれる)を含む。プローブの相同プローブ配列が、特定の標的とハイブリッド形成する場合、ギャップが充填されて環状産物が生成され、これは次に、配列決定するかあるいはアレイとハイブリッド形成させて、最終結果を得ることが可能である。プローブ「骨格」は2つの相同プローブ配列を接続させ、種々のリンカー、DNAバーコード、増幅部位、および/または制限部位を含む。構築された構造は、完成プローブである。本発明によって提供される例示的なプローブの概略図は図1に示される。
この実施例は、本明細書において記載されるような、2つの一般的な病原体:ストレプトコッカス・ニューモニエ(Streptococcus pneumonia)およびサルモネラ・エンテリカ(Salmonella enterica)に対して極めて特異的な捕獲プローブの生成を説明する。
ストレプトコッカス・ニューモニエ(Streptococcus pneumoniae)について、標的ゲノム(gi221230948ref NC_011900.1ストレプトコッカス・ニューモニエ(Streptococcus pneumoniae)ATCC700669、完全ゲノム)を、以下の表1に示される10の追加のS.ニューモニエ(S.pneumoniae)ゲノムと共に、NCBIからダウンロードした。
サルモネラ・エンテリカ(Salmonella enterica)について、gi29140543ref NC_004631.1サルモネラ・エンテリカ亜種エンテリカ血清型ティフィ(Salmonella enterica subsp.enterica serovar Typhi)株Ty2の完全ゲノムを、最初の単一初期標的ゲノムとしてダウンロードした。さらに、表2に示される14のS.エンテリカ(S.enterica)ゲノムをダウンロードした。
次に、初期標的ゲノムをDNAの全ての可能な25−塩基ストリング(25−mer)にスライスした。S.ニューモニエ(S.pneumoniae)の例では、初期標的ゲノムは、約2,253,000塩基の長さであり、それぞれ25塩基の2,221,290ストリングを含有するファイルを作成した。S.エンテリカ(S.enterica)の例では、このファイルは4,791,936のストリングを含有した。
次に、25−merストリングのリストに一連のフィルタを適用したが、これは、FASTAファイルまたは他のフォーマットの場合よりも著しく速い。全ての複製配列および多過ぎる単一の反復(5以上)を有するいかなる配列も排除した。S.エンテリカ(S.enterica)の場合、これらの初期フィルタを適用した後4,295,818の候補配列が残存した。
次に、セルフハイブリッド形成する可能性のあるプローブを同定するために非常に大きい候補セットの大規模の高速処理を可能するため、DNAのインシリコのストリング表示に基づいて、ヘアピンを形成する可能性のある(すなわち、セルフハイブリッド形成する可能性のある)全ての配列を排除した。ヘアピン/二量体化検索は、自己相補的であり得るオリゴヌクレオチド内の領域を探す。プローブ中のN個の塩基のセットが、プローブからD塩基離れた距離で同じプローブ中のN個の相補的な塩基と一致することを必要とする検索基準を確立した。これらの実行において、プローブ配列に由来する長さNを有する全ての可能な候補部分配列(subsequence)の逆補体をまず構築する、Rubyプログラミング言語で作成したスクリプトを用いた。次にスクリプトは、正確な一致についてプローブを検索し、一致が見出され、第1の配列の終わりと第2の配列の初めとの距離がD塩基よりも遠く離れている場合に、ヘアピンを報告する。検索およびマッチングは、この状況で結果を非常に迅速に送達することができるストリング処理機能を用いて配列のアレイおよび/またはハッシュにおいて実施される。この例では、Nは3よりも大きく7未満であり、Dは5よりも大きい。
S.ニューモニエ(S.pneumonia)からの候補25−merに対して、正確に13であるグアニジンおよびシトシン塩基の合計を有することに基づいて、約59℃のTmにより25−merを同定した。S.エンテリカ(S.enterica)については、標的Tmの選択は、以下に考察されるように、後の段階で実施した。このより早い段階でのこのスクリーンの実施は実質的に効率を高めることが後で分かった。
これらのフィルタを適用した後、サルモネラ・エンテリカ(Salmonella enterica)から1,175,631の候補配列が残った。次のステップのために、ストリングファイルをFASTA−フォーマット化ファイルに変換した。
次に、NCBIのMegaBLASTバージョン2.2.10(他に記載されない限り、実施例におけるBLASTに対するいかなる参照[すなわち、blast、blasted、BLASTedなど]も、MegaBLASTを指す)を用いて、全ての候補25−merを、S.ニューモニエ(S.pneumoniae)およびS.エンテリカ(S.enterica)についてそれぞれ表1および2に記載される同一生物の全ての標的ゲノムと比較した。その標的生物のゲノムの全てにおいて正確な一致を持たないいかなる候補25−merも廃棄した。S.エンテリカ(S.enterica)の場合、42,907の候補25−merがこのステップの後に残った。次に、各標的ゲノムに対する各25−merのヒットの数を決定し、この例では、ゲノムにおいて正確に1回発生したものだけを保持した。
ヒトゲノムとのハイブリダイゼーションを回避するために、候補25−merを、個々の染色体によってNCBIからダウンロードしたヒトゲノムに対してBLASTした。この研究で使用した配列は表3に示される。ヒトゲノム中の配列と20の連続した塩基のうち19を共有する候補25−merを廃棄した。サルモネラ・エンテリカ(Salmonella enterica)の場合、このステップの後に42,485の候補25−merが残った。
ヒトゲノムとの類似性を有する25−merを排除した後、残存する25−merを、25,991の微生物および3,602のウイルスゲノムのNCBIデータベースに対してBLASTした。これらのゲノムのいずれかにおける配列に対して20の連続塩基のうち少なくとも19を共有する25−merを排除した。このフィルタを適用した後、S.エンテリカ(S.enterica)に対する2,245の候補25−merが残った。
S.エンテリカ(S.enterica)に対して、約59℃のTmの選択(正確に13であるグアニジンおよびシトシン塩基の合計を有する配列のみを選択することによる)をこの段階で実施し、1,116の候補25−merが残った。
次に、各生物に対して残存した候補25−merを、その本来の標的ゲノムに対してBLASTして、ゲノム中のその開始位置および停止位置(すなわち、そのゲノム座標)を決定した。この情報を用いて、固定距離によって分離された25−merの対を選択した。S.エンテリカ(S.enterica)の場合、正確に100塩基の標的長さ(第1の25−merのスタートから第2の25−merのエンドまで)に及ぶプローブ対を選択して、18のこのような候補プローブ対が得られた。S.ニューモニエ(S.pneumoniae)の場合、100、200、300、400および500塩基の長さを有する配列を標的とするために、全部で58のプローブを設計した。S.ニューモニエ(S.pneumoniae)のためのプローブ中に含有される25−merは、プローブのゲノム位置および標的長さを示す表4に示される。
次に、一般的なリンカー
AGATCGGAAGAGCGTCGTGTAGGGAAAGCTGAGCAAATGTTATCGAGGTC(配列番号7)を用いて25−mer対を完成プローブに構築した。S.ニューモニエ(S.pneumoniae)のために構築されたプローブは表5に示される。S.エンテリカ(S.enterica)のために構築された相同プローブ配列の対は、相同プローブ配列の各対に対するゲノム位置情報を含む表6に示される。
さらなる実施形態では、プローブ構築の前に、候補25−merは、混合物中の全ての他の候補25−merおよび/または構築プローブに対してBLASTされ、混合物中の他の任意の配列(例えば、相同プローブ配列、骨格、または構築プローブ)とクロスハイブリッド形成し得るものが排除される。一実施形態では、混合物中の他のプローブ配列(例えば、骨格または相同プローブ配列)中に含有される20の連続した塩基のうち19を含有する25−merが排除される。
フィルタリングされたらすぐに、25−merは、2つの25−merおよび骨格(様々なリンカー、DNAバーコード、普遍的増幅プライマー、および必要に応じて他の配列を含むことができる)を含む候補プローブに構築される。次に、構築されたプローブは、可能なクロスハイブリダイゼーションのための代替または追加のスクリーンとして、プール中の全ての他の構築プローブに対してBLASTされ得る。ヘアピンおよび/またはセルフハイブリダイゼーションのための最終分析が実施される。次に、検証された構築プローブは、有用なプローブのデータベースに追加される。プローブまたはプローブ混合物(例えば、プローブパネル)の生成プロセスにおける例示的な実行のフローチャートは図7に示される。
実施例2:M.ツベルクローシス(M.tuberculosis)特異的プローブの生成
特異的なプローブは、本質的に、S.ニューモニエ(S.pneumoniae)について実施例1で説明される通りに製造した。簡単に言うと、標的ゲノム(gi57116681NC_000962.2マイコバクテリウム・ツベルクローシス(Mycobacterium tuberculosis)H37Rv、完全ゲノム)を25−merにスライスし、これを40%のCG含量を有する(その後、固定T
m)ようにフィルタリングして、実施例1に記載されるように、複製配列、二次構造を有する配列、および同一ヌクレオチドの4つよりも多い連続した反復を有する配列を排除した。また、表7のM.ツベルクローシス(M.tuberculosis)ゲノムと特異的にハイブリッド形成する配列を選択するように25−merをスクリーニングした。
実施例1の場合と同様にヒトゲノムに対して25−merをスクリーニングして、ヒトDNAと特異的にハイブリッド形成する可能性のあるものを排除した。実施例1と同じ微生物およびウイルスゲノムのNCBIデータベースに対して特異的にハイブリッド形成しないようにプローブ配列をスクリーニングした。100ヌクレオチドの長さの標的領域を捕獲するように、25−merを対でプローブに構築した。M.ツベルクローシス(M.tuberculosis)プローブ配列対およびそのゲノム位置は表8に記載される。
さらに、M.ツベルクローシス(M.tuberculosis)感染の主要な第1線治療の2つであるリファンピシンおよびイソニアジドへの耐性を付与する突然変異が発生していることが示される遺伝子に焦点を合わせて、M.ツベルクローシス(M.tuberculosis)ゲノムの特定の領域に対してプローブ配列を生成した。
これらのプローブは特異性について実施例1に記載されるようにスクリーニングしたが、この場合は、特定のTmに限定しなかった。特に、リファンピシン耐性突然変異が集中されるM.ツベルクローシス(M.tuberculosis)rpoB遺伝子の特定の81塩基領域を捕獲するように設計した。この領域を捕獲するように設計された2つのプローブ配列対は次の通りである:
>mtb−H37Rv−rpoB−pr−01−H1:GGTCGCCGCGATCAAGGAGTTCTTC(配列番号254)
>mtb−H37Rv−rpoB−pr−01−H2:CATCGAAACGCCGTACCGCAAGGTG(配列番号255)
>mtb−H37Rv−rpoB−pr−02−H1:GTTCATCGAAACGCCGTACCGCAAG(配列番号256)
>mtb−H37Rv−rpoB−pr−02−H2:ACCCAGGACGTGGAGGCGATCACAC(配列番号257)。
イソニアジド耐性突然変異が発生するM.ツベルクローシス(M.tuberculosis)inhA遺伝子に特異的なプローブを同様に同定した。この領域を捕獲するように設計された一対のプローブ配列は次の通りである:
>mtb−37rv−inha−pr−01−H1:TCGAACTCGACGTGCAAAACGAGGA(配列番号258)
>mtb−37rv−inha−pr−01−H2:GGCGTATTCGTATGCTTCGATGGCC(配列番号259)
実施例3:C.ディフィシル(C.difficile)毒素A遺伝子に向けられたプローブの生成
クロストリジウム・ディフィシル(Clostridium difficile)の毒素A遺伝子に特異的なプローブは、本質的に、S.ニューモニエ(S.pneumoniae)について実施例1で説明される通りに製造した。簡単に言うと、標的病原体(クロストリジウム・ディフィシル(Clostridium difficile)630)の標的領域(gi115249003:795843−803975クロストリジウム・ディフィシル(Clostridium difficile)630−tcdA遺伝子)を実施例1で説明されるように25−merにスライスし、複製配列、二次構造を有する配列、または同一ヌクレオチドの4つよりも多い連続した反復を有する配列を排除した。この場合、固定CGまたは固定T
mにつてはスクリーニングしなかった。また、以下のC.ディフィシル(C.difficile)毒素A遺伝子配列と特異的にハイブリッド形成するように、プローブ配列をスクリーニングした:gi260681769:718474−726606クロストリジウム・ディフィシル(Clostridium difficile)CD196、完全ゲノム;gi260685375:715995−724127クロストリジウム・ディフィシル(Clostridium difficile)R20291、tcdA遺伝子;およびgi144925gbM30307.1CLOTOXACD C.ディフィシル(C.difficile)毒素A遺伝子、完全cds。実施例1の場合と同様にヒトゲノムに対して25−merをスクリーニングして、ヒトDNAとクロスハイブリッド形成する可能性のあるものを排除した。実施例1と同じ微生物およびウイルスゲノムのNCBIデータベースに対して特異的にハイブリッド形成しないようにプローブ配列をスクリーニングした。100〜200ヌクレオチドの長さの標的領域を捕獲するようにプローブ配列対を構築した。クロストリジウム・ディフィシル(Clostridium difficile)毒素Aプローブのための対は、各プローブ配列対に対するゲノム位置情報を含む以下の表11に記載される。
実施例4:HIV中の薬物耐性突然変異を検出するためのプローブの生成
この実施例は、HIV−1の存在を検出し、薬物耐性突然変異を検出し得るプローブの選択方法を提供する。HIV RT、プロテアーゼ、融合、およびインテグラーゼ遺伝子における65の薬物耐性座位のリストをまず作成した。これらの座位は、スタンフォード大学のHIV Drug Restistance Databaseおよび以下のウェブサイトの表から得た:
http://hivdb.stanford.edu/cgi−bin/NRTIResiNote.cgi
http://hivdb.stanford.edu/cgi−bin/NNRTIResiNote.cgi
http://hivdb.stanford.edu/cgi−bin/PIResiNote.cgi
http://hivdb.stanford.edu/cgi−bin/FIResiNote.cgi
http://hivdb.stanford.edu/cgi−bin/INIResiNote.cgi。
また、1522のHIVゲノム配列のセットは、NCBIからダウンロードした。BioPerl module Bio::Tools::dpAlignを用いて、1522のゲノム配列のそれぞれにおける各耐性突然変異の位置を決定した。それぞれのゲノムについて、3つのフレーム全ておよび両方のオリエンテーションに対して、各遺伝子をアライメントさせて、最良のアライメントを決定した。次に、耐性突然変異の位置をコンセンサス配列からゲノム配列へ位置付けた。
プローブ設計パイプラインへの入力として、1522のHIVゲノム配列のうちの100をランダムに選択した。候補プローブ配列(プローブアーム)のセットを生成するために、20〜30の長さを有し、100の入力配列のいずれかにおける任意の50塩基の耐性突然変異内で発生する全てのn−merのリストを作成した。これらのn−merは、耐性突然変異の少なくとも1つを明らかにできる配列決定読取りを生成し得る候補プローブ配列である場合に選択した。3を超える長さを有するホモポリマーランおよび特定の他のあまり望ましくない(underdesirable)配列(例えばプローブのマイクロアレイ合成中に使用され得る酵素に関連する制限部位)を含有するn−merである場合に、複製をn−merのリストから除去した。候補プローブ配列をさらにフィルタリングして、100の入力HIV株のうちの20またはそれ以上において存在するものだけを保持した。
次に、プローブ設計ソフトウェアは、各n−merに対して、連結側プローブアームおよび伸長側プローブアームとしてのその望ましさを説明する2つのスコアを生成した。スコアは本明細書において記載されるように生成し、望ましいプローブアームの融解温度の分布を通常よりも2度高くなるように選択した。各候補プローブアームがスコア化されたらすぐに、長さ20の共通の接頭語を共有するセットから最良候補が選択され、ここで、最良候補は、連結側プローブアームとしてのスコアおよび開始側プローブアームとしてのスコアの最高合計によって同定した。不十分にスコア化された候補プローブアーム(すなわち、機能する期待確率が.25未満であったもの)をさらなる考察から捨て去った。このプロセスにより、様々な長さ(20〜30ヌクレオチド)を有する候補プローブアームを調べて、最良の融解温度および他の特徴を有するものを見出すという目標が達成された。
次に、残存するプローブアームをそれぞれ、ヒトゲノム配列(Genome Reference Consortiumによって生成された2009年2月のヒト基準配列[GRCh37/hg19]、http://genome.ucsc.edu/cgi−bin/hgGatewayで入手可能)と、短い読取りアライメントプログラムBowtie(http://bowtie−bio.sourceforge.net/index.shtmlで入手可能)を使用する、米国特許第6,252,059号明細書で提示される配列との、2つの排除データベースに対してアライメントさせた。1または0個のミスマッチでいずれかのデータベースと一致するいかなる候補プローブアームも廃棄した。次に、残存する候補プローブアームを、Bowtieを用いて100のHIV標的ゲノムとアライメントさせた。
次に、プローブ捕獲領域によって包含される耐性突然変異部位の標的リストを準備した。リストは、各株に位置付けされるように全ての既知の耐性突然変異に対して1つのエントリーを含有する(すなわち、65*100=6500エントリー)。次に、少なくとも2つのプローブアームの配列決定読取りがリスト上の各エントリー(すなわち、各株における各突然変異部位)を含むようにプローブアームを選択するように、プローブアーム選択プロセスを設計した。
各候補プローブアームに対して、プローブアームが連結側プローブアームおよび開始側プローブアームとして使用される場合に、プローブアームの配列読取りによって包含され得る6500のリストにおける耐性突然変異部位の数を決定した。これは、各ゲノムに対する候補プローブアームのBowtieアライメントを調べ、プローブアームの位置の固定距離(50塩基)内の耐性突然変異部位の数をカウントすることによって行った。このステップは、候補プローブアームが良好に一致するHIV株の数を考慮に入れる。
100のHIV標的株を任意の順序で処理して、その株において互いに85〜250塩基の範囲内で発生する候補プローブアーム配列に基づいて、各株に対する候補完成プローブ(すなわち、完成プローブに構築するためのプローブアーム配列の対)を生成した。プローブが機能する期待確率が.5よりも大きい場合にだけ、各候補プローブを保持した。次に、このプローブからの配列決定読取りによって包含され得る耐性突然変異のリスト(6500の中から)を完成した。これは、包含範囲リスト(coverage list)を表す。この計算は、プローブを形成するために結合される2つの候補プローブアームからのリストを結合し、候補プローブアームが300塩基以内であり、そのゲノムにおける正しいオリエンテーションにある場合にだけ、ゲノムのエントリーが保持される。
各プローブに対する包含範囲リストの合計に基づいて候補プローブをソートし、最高の合計を有するプローブ、すなわち、最大数の耐性突然変異を包含するプローブを選択した。
2つのプローブによって既に包含されている耐性突然変異を反映するように、残存する候補プローブに対する包含範囲リストを更新した。包含されていないどの耐性突然変異も包含しないプローブを考察から除去した。
このプローブ選択プロセスの実施において、プローブが全く残らないか、あるいは全ての耐性突然変異が2つのプローブによって包含されていれば、プロセスは中止され得る。プローブが残っていれば、候補リストは各プローブに対する包含範囲リストの合計に基づいて再度ソートされ、最高の合計を有するプローブ、すなわち、最大数の耐性突然変異を包含するリストからのプローブが選択され得る。
いくつかの場合には、選択された全てのプローブのプローブアームに突然変異を導入した。突然変異は、プローブアームが1522のHIVゲノムのいずれかと19塩基対よりも多く一致しなくなるまで骨格側から開始して、捕獲側に向かって機能させて、プローブアーム内の各位置におけるバリエーションを試みることによって発生させた。プローブアームにおけるこのような全てのバリエーションの融解温度を計算し、1.5度に最も近い融解温度の低下を起こすバリエーション(Melting 5.0.3(http://www.ebi.ac.uk/compneur−srv/melting/melting5−doc/melting.htmlで入手可能)によって計算されるように、オリジナルプローブアームおよび突然変異プローブアームの不完全な二本鎖に基づく)を新しいプローブアームとして保持した。従って、初期パラメータにおける所望の融解温度を上昇させ、ミスマッチを有するより低い融解温度の達成を試みることによって、最終プローブアームは、実験条件下で非突然変異プローブと同様に挙動し得る。
次に、Bowtieにより1522の全てのHIVゲノムに対して突然変異プローブアームをアライメントさせ、1522のうちのいくつが少なくとも1つのプローブによって捕獲され得るか、そして1522の株を横切る65の耐性突然変異のうちのいくつが捕獲されるかを決定した(理論上は1522*65、すなわち全部で98930の座位が存在するが、全ての耐性突然変異が全ての株に対して位置付けされ得るわけではないので86,905の座位が同定可能であった)。この分析に基づいて、標的株のセットを増加させ、323株に対してプロセスを繰り返した。オリジナルの100株に、最初のラウンドにおいて少数のプローブでしか捕獲されないかどのプローブでも捕獲されなかった新しい223株を加えたものを使用した。初期パラメータに対する唯一の変化は、最初の20ではなく、7以上の株において見出される候補プローブアームを保持したことであった。
プローブ設計プロセスの最終ステップは、467の予備的なプローブ配列をフィルタリングして、プール中の他のプローブとクロスハイブリッド形成またはクロスプライム(cross−prime)し得るプローブを除去することであった。このフィルタリングはプローブの互いに対するアライメントおよびそれ自体のアライメントに基づき、その後、アライメントされた領域において融解温度を計算して、実験条件下で二本鎖が形成する尤度を決定した。このフィルタリングにより、ヘアピンを形成する可能性があるために34プローブが除去され、他のプローブとクロスプライムする可能性があるために56プローブが除去されて、376プローブが残された。これらの376のプローブは、1522株のうちの1384に対して少なくとも1つのプローブを含有する。いくつかのプローブは2000を超える株を捕獲するが、多くの捕獲はただ1つまたは数個である。これは通常、多数の株において耐性突然変異を捕獲したプローブがまず選択され、1つまたはいくつかの株に特異的なプローブが最後に選択されるような、プローブが選択される順序を反映する。
実施例5:HPVの株を区別するプローブの生成
この実施例は、ヒト乳頭腫ウイルスの配列決定された288株(137の別個の種類からなり、いくつかの種類は多数の分離株または株を有する)の公的に利用可能なゲノムを検出および区別し得るプローブの選択方法を提供する。プローブ選択プロセスの目標は、これらのプローブによって捕獲される対象の領域からの配列読取りが、株の任意の対の間で少なくとも7つのSNPまたは小さい挿入欠失を明らかにし得るようにプローブを選択することである。
プローブ設計パイプラインは、288株全てからの長さ18〜26の全てのn−merのリストを生成することにより開始される。次に、3よりも大きい長さを有するホモポリマーストレッチを含有するか、あるいは特定の制限酵素部位を含有するn−merを廃棄した(特定の酵素は、マイクロアレイ上で合成されたプローブを処理するために使用されるので、プローブ配列中のこのような部位は、いくつかの実施形態では、全てのプローブが全ての可能な合成オプションと適合性であることを保証することが可能でないかもしれない)。次に、HIV特異的n−merについて実施例4で記載されたように、連結側プローブアームおよび開始側プローブアームとしてのその望ましさに従って、残存する9,825,946のn−merのそれぞれをスコア化した。実施例4の場合と同様に、18−塩基接頭語が与えられた最高スコアリングのプローブを保持した。方法はさらに、プローブをフィルタリングして、ヒトゲノムに対して完全または1塩基対ミスマッチを有するものを除去し、プローブ選択で使用するために715,533が残った。
各軸に沿って288のHPV株のそれぞれを用いて四角いマトリックスを構築した(しかし、マトリックスの上半分のみを使用して、各ペアワイズ結果を四角いマトリックス中に1回だけ示す)。マトリックス中の各エントリーは、選択されるプローブからの期待される読取りとともに方法が包含しようとするSNPまたは小さい挿入欠失の数を示した。従って、このマトリックスは所望のSNPのマトリックスであり、すなわち、マトリックスは、株の任意の対の間で完成プローブセットがいくつの差異を明らかにするように選択されるかを示した。この場合、全てのエントリーを7に設定した(または「初期化した」)。他のプローブ設計タスクはマトリックスを異なって初期化し得る。例えば、2つの株が臨床的に同一であると考察されると、マトリックスは、これらの株に対してゼロエントリーを有するかもしれず、これらを区別する必要がないことが示される。特定の株がより高い包含範囲を必要とする場合には、これらの株に対応するエントリーはより高い値を含有し得る。
各n−merのプローブアームとしての有用性を決定するために、プローブ選択方法を用いて、n−merによって株の間でいくつのSNPが明らかにされるかを決定した。従って、Bowtieを用いて288株のセットに対してn−merをアライメントさせ、各n−merのアライメントにおいて1つのミスマッチを可能にした。各n−merおよびn−merがアライメントされる株の各対(順序依存性の形で)について、このn−merが連結側プローブアームとして使用される場合には、n−merの下流側の2つの領域のアライメントを実施して、各領域を通して配列決定読取りから観察され得るSNPおよび小さい挿入欠失の数を決定した。アライメントにおいて使用される隣接領域の長さは期待される配列決定読取り長さに依存し、この場合には、50塩基の隣接領域が使用される。n−merの50塩基上流側のアライメントも実施して、n−merを開始側プローブアームとして使用する場合に検出され得るSNPおよび小さい挿入欠失の数を決定した。従って、各n−merに対して、株の対の間で観察される差異の2つのマトリックスを計算した。一方は、連結側プローブアームとしてのn−merに対するマトリックスであり、他方は、開始側プローブアームとしてのn−merに対するマトリックスである。1つのn−merに対するアライメントの一例は以下に示されるが、ここで、アスタリスクはその位置における100%の同一性を示し、株は左側に示される。
このn−merは、株FM955841とM32305との間にはSNPが3つあり、M22961とNC_001531との間にはなく、FM955838とD90252との間には6つあることを明らかにした。
一対のn−merを含有するプローブを構築するために、全ての288HPV株を任意の順序で処理し、互いに300塩基の範囲内にあるn−merを結合することによって、各株に対してプローブを生成した。以下の値(1)および(2)に基づいて、各候補プローブをスコア化した:
(1)プローブが機能する確率、および
(2)プローブにより株間で明らかにされ得るSNPまたは小さい挿入欠失の期待数(プローブにより株間で明らかにされ得るSNPまたは小さい挿入欠失の期待数は、2つのプローブアームに対して観察されるSNP/挿入欠失マトリックスを合計することによって得た。プローブが機能しない(例えば、プローブアームが遠く離れすぎているか、または誤ったストランドオリエンテーションにある)株に相当する値をゼロに設定した。さらに、マトリックス中の最大値を、3または標的マトリックス中の対応するエントリーの値の小さい方の値に設定した。最終的なプローブの数は、このマトリックス中の全てのエントリーにわたる合計であった。)。
プローブの最終スコアは、値(1)と(2)の積であった。
次に、最高スコアを有するプローブを選択し、次に、プローブの観察されたSNP/挿入欠失マトリックス値を、所望の標的マトリックスから差し引いた(結果における負の値をゼロに設定した)。次に、残存するプローブに対するスコアを更新した。残存するプローブは選択されたプローブによって既に包含されている株の間の差異を検出し得るので、スコアはこのプロセスの間に低下するだけであり得る。このようにして(すなわち、プローブを選択し、残存する候補プローブを再スコア化する)、標的マトリックスが全てゼロを含有する(選択されたプローブが、株の各対の間で、少なくとも7つのSNPまたは挿入欠失を明らかし得ることを意味する)まで、あるいは、残存する候補プローブがどれも非ゼロスコアを有さなくなる(残存する候補プローブがどれも、まだ検出されていない株の間の差異を明らかにしないことを意味する)まで、プローブ選択を続けた。
この反復プローブ選択プロセスにより、548のプローブを選択した。実施例4と同様に、ヘアピン、クロスプライミング(cross−priming)、およびクロスハイブリダイゼーションについてのプローブのフィルタリングにより、346のプローブが残った。
これらの346のプローブおよび高リスクHPV株のセット(HPV16、18、31、33、35、39、45、51、52、56、58、59)を用いてHPV株の検出のシミュレーションが実施される場合、73のプローブが産物を生成することが期待された。図17は、シミュレーションにおいてどのプローブ(x軸)がどの株(y軸)に対して機能したかのマトリックスを示し、白色ブロックは期待された産物を示し、そして黒色ブロックはプローブがその株から産物を生成しなかったことを示す。
実施例6:臨床サンプルにおけるHPV株の検出
図18は、標的HPV株ゲノムに対する20の特異的HPVプローブの群のための標的マトリックスを示す。プローブはプロットのx軸を横切って表され、株はy軸に沿って表される。白色領域は、表示される対応する株のゲノムに結合することが予想されるプローブを示し、黒色領域は、対応する株に結合することが予想されないプローブを示す。
図19は、標的マトリックスを示す。27の特異的HPVプローブのそれぞれによって同定されるSNPの数および種類を示すように拡張される。異なるグレースケールシェーディングは、T、C、G、またはAのそれぞれに対する任意の特定の塩基変化、あるいは挿入欠失の存在Gray=Indelを示し、黒色は、その位置でその株からの読取りがないことを示す。個々のプローブはx軸に沿って示され、各プローブは、1つよりも多いSNPを捕獲する場合には、1つの列または多数の列に分割される。
本明細書において記載されるような方法を用いて、図20に示されるゲル中の特定のサンプルに対するレーン番号によって示されるように、HPV16指向性プローブ(NC001526_4005、NC001526_3999、またはNC001526_7299)またはHPV18指向性プローブ(AY262282_7174、AY262282_3309、またはAY262282_1450)を、HPV16および18のいずれかを含有する臨床サンプル(ThinPrep)からのDNAと結合させた。ハイブリダイゼーションならびにそれに続くギャップ充填ポリメラーゼ伸長および連結(環状化捕獲)の後、PCRを実施して、環状化プローブを検出した。いくつかのサンプル(レーン1〜3および11〜13で示される)において、期待サイズ(250nt)のPCR増幅産物を検出した。HPV16指向性プローブはHPV16を検出し、HPV18指向性プローブはHPV18を検出したが、HPV16は検出しなかった。
図21は、上記の図20に対応するサンプル中で生成される増幅産物のSanger配列決定のアライメントの一例を示す。HPV16およびHPV18基準ゲノムに対して配列をアライメントさせ、ポリメラーゼ伸長領域によって捕獲された配列を示した。
実施例7:臨床サンプルにおける細菌DNAの検出
本明細書に記載されるような環状化捕獲において単一のS.サプロフィチカス(S.saprophyticus)指向性プローブを用いて、***症(UTI)の患者からの臨床サンプル中でスタフィロコッカス・サプロフィチカス(Staphylococcus saprophyticus)ゲノムDNAを検出した(図22A)。また、単一プローブ(「193」プローブ)またはMecA遺伝子領域に向けられたプローブを含むプールされたプローブ混合物(「All MecA プローブプール」)のいずれかを用いて、細菌臨床分離株中においてもS.サプロフィチカス(S.saprophyticus)DNAを検出した(図22B)(全てのサンプルにおいて、期待されるサイズのバンドが見られる;臨床分離株はNY356、GA15、およびCA105)で示される)。
基準スタフィロコッカス・サプロフィチカス(Staphylococcus saprophyticus)株からのゲノムDNAとの、PCR増幅された環状化プローブの観察された配列決定読取りのアライメントにおいて観察されるように、順方向および逆方向のSanger配列決定によって、図22Aのスタフィロコッカス・サプロフィチカス(Staphylococcus saprophyticus)指向性プローブを用いる標的gDNAのポリメラーゼ伸長および捕獲が示された。
また、Sanger配列決定によって、スタフィロコッカス・アウレウス(Staphylococcus aureus)指向性プローブと結合させたときに、ゲノムスタフィロコッカス・アウレウス(Staphylococcus aureus)配列との、PCR増幅された環状化プローブの観察された配列決定読取りのアライメントにおいて示されるように、スタフィロコッカス・アウレウス(Staphylococcus aureus)標的gDNAのポリメラーゼ伸長および捕獲も示された(図23)。
実施例8:臨床サンプルにおけるウイルスDNAの検出
また、培養インフルエンザウイルスから単離したRNAから逆転写されたcDNAは、5つの個々の分子反転プローブを用いて検出し、通常のSanger(N)または次世代配列決定(T、テールドプライマー)のための増幅は、図24に示される(プローブは198、256、292、293、および462で示される;S.sapはスタフィロコッカス・サプロフィチカス(Staphylococcus saprophyticus)ゲノムDNA対照を示す)。
実施例9:臨床UTIサンプルにおける細菌DNAの多重検出
***症における役割を有する可能性のある生物に向けられた60の完成プローブのプールを、3nMの全核酸濃度で調製した(等モル比の各プローブを含有する)。
プローブプールを、約4μlの33の個々の臨床***症(UTI)サンプルおよび4つの対照サンプルと24時間ハイブリッド形成させた。1マイクロリットルあたり0.1pg〜100ngの可変量のdsDNAを含有するようにpicogreenにより各臨床サンプを定量化した。
ポリメラーゼギャップ充填、連結、および消化反応を実施し、プローブの普遍的骨格とハイブリッド形成する3’位置と、Illuminaフローセル(Illumunia Inc.,San Diego,CA)とのハイブリダイゼーションのために必要とされるアダプター配列を含有する5’テールとを含有する普遍的プライマーにより、任意の環状化産物を増幅した。非ハイブリッド形成6−ヌクレオチドバーコード挿入断片を含有する個々の3’プライマーを用いて、独特のDNA配列タグにより個々の臨床サンプルからの増幅産物を標識化して、このサンプルからの配列読取りの部分配列の同定を可能にした。
期待されるサイズの増幅産物は、2%アガロースゲルにおいて分解した後に切除した。配列決定のための調製において過剰のアガロースおよび塩から増幅産物を精製した。37サンプルのそれぞれを6−ヌクレオチドバーコードによりバーコード化することにより、全てのサンプルをIllumina GAII装置における単一の配列決定ランへ多重化した。この分析中に含まれていない追加のサンプル(および異なるバーコード)により、これらのサンプルをさらに多重化した。配列決定ランは、およそ3300万の読取りを生じた。
60のUTIプローブのためのプローブアームをゲノムおよび部分ゲノムの大きい集合とアライメントさせた。各プローブに対する各一致について、左側プローブアーム、伸長領域、右側プローブアーム、および6−ヌクレオチドバーコードと右側プローブアームとの間の21−ヌクレオチドの骨格配列からなる「期待される読取り」を構築した。これらの10,886の期待される読取りからBowtieデータベースを構築した。
読取りをアライメントするために、Illumina塩基呼び出しソフトウェアによって生成されるFASTQファイルをまず別々のファイル(各バーコードに対して1つ)に分割した。各バーコード(読取りの最初の6つのヌクレオチド)を既知のすべてのバーコードと比較した。読取りのバーコード部分が、任意の他のバーコードに対する一致よりも優れているバーコードに対して単一の一致を有していれば、読取りをバーコードに割り当てた。バーコードに対する一致の品質は、配列決定読取りおよび期待されるバーコードがミスマッチする位置における塩基品質の合計であり、従って、高品質の一致は少ない合計(理想的にはゼロ)を有し、読取りからバーコードへのマッチングは、配列決定読取りの品質の説明となる。
実験において使用される37のバーコードのそれぞれは、1つのバーコード当たり11,245〜4,874,885の読取りの範囲で、少なくとも1つの読取りをもたらした。各バーコードに対する読取りは、コマンドラインオプション「−p8−q−−trim56−−solexa1.3−quals−e200−−best−strata−m20−k20」を有するBowtieバージョン0.12.7を用いて、プローブデータベースに対して別々にアライメントさせた。従って、Bowtieアライナー(aligner)は、期待される読取りに対する配列決定読取りのヒットだけを戻したが、これは、最良の一致品質を有した(すなわち、いくつかの期待される読取りが同じ数のミスマッチを有する配列決定読取りと一致すれば、読取りは両方とも出力に含有された)。しかしながら、もう1つのミスマッチを有する別の期待される読取りは、その一致が、最良品質を有するものほど良好ではなかったので含有されていないであろう。さらなる詳細については、Bowtieの「−−best−strata」のドキュメンテーションを参照されたい。それぞれのbowtieアライメントは分析スクリプトに送り込まれた。各読取りに対して、スクリプトは、読取りがもっともらしく得られる株のセットを決定した(すなわち、読取りが最良の品質で一致する、期待される読取りに対応する株のセット)。この株のセットは、Genbank受入番号のセット、例えば、「ACLE01000080、GG668578、NC_010554」で書くこともできるし、あるいはこれらの受入番号に相当する株のセットで書くこともできる。例えば、「ACLE01000080、GG668578、NC_010554」は、3つのプロテウス・ミラビリス(Proteus mirabilis)株であった。異なる読取りは、プロテウス・ミラビリス(Proteus mirabilis)およびプロテウス・ペンネリ(Proteus penneri)の両方を含む「ABVP01000025、ACLE01000080、GG661996、GG668578、NC_010554」からの期待される読取りに対して、同様に十分に位置付けすることができる。例えば、分析スクリプトは以下を報告し得る:
236−プロテウス・ミラビリス(Proteus mirabilis)(ACLE01000080、GG668578、NC_010554)
1−プロテウス・ペンネリ(Proteus penneri)、プロテウス・ミラビリス(Proteus mirabilis)(ABVP01000025、ACLE01000080、GG661996、GG668578、NC_010554)。
これにより、236の読取りがP.ミラビリス(P.mirabilis)から期待される産物に位置し、そして1つの読取りがP.ミラビリス(P.mirabilis)またはP.ペンネリ(P.penneri)から期待される産物に位置することが示される。従って、これらの結果は、第2のラインからの単一の読取りが、P.ペンネリ(P.penneri)による同時感染というよりも、実際にP.ミラビリス(P.mirabilis)に由来した可能性がより高いので、P.ミラビリス(P.mirabilis)の存在を示すと解釈した。
37の異なるサンプルからの結果は、様々な異なる生物による感染を示す。例えば、分析スクリプトにより、サンプル♯7について以下が報告された:
2−アグレガチバクター・アフロフィルス(Aggregatibacter aphrophilus)、プロテウス・ペンネリ(Proteus penneri)、プロテウス・ミラビリス(Proteus mirabilis)(ABVP01000025、ACLE01000080、GG661996、GG668578、NC_010554、NC_012913)
324−カンジダ・アルビカンス(Candida albicans)(AJ251858)
6−クレブシエラ・ニューモニエ(Klebsiella pneumoniae)(ACZD01000012、EU682505、GG703525、NC_009648、NC_011283、NC_012731)
30109−クレブシエラ・ニューモニエ(Klebsiella pneumoniae)(ACZD01000012、EU682505、GG703525、NC_009648、NC_012731)
5−クレブシエラ・ニューモニエ(Klebsiella pneumoniae)(ACZD01000013、EU682505、GG703525、NC_009648、NC_012731)
7−クレブシエラ・ニューモニエ(Klebsiella pneumoniae)、エシェリキア・コリ(Escherichia coli)(ACZD01000012、EU682505、GG703525、NC_009648、NC_010378、NC_012731、NC_013503)
2−クレブシエラ・ニューモニエ(Klebsiella pneumoniae)、エシェリキア・コリ(Escherichia coli)、クレブシエラ・バリイコーラ(Klebsiella variicola)(ACZD01000012、EU682505、GG703525、NC_009648、NC_010378、NC_011283、NC_012731、NC_013503、NC_013850)
30−クレブシエラ・ニューモニエ(Klebsiella pneumoniae)、エシェリキア・コリ(Escherichia coli)、クレブシエラ・バリイコーラ(Klebsiella variicola)、シトロバクター・コセリ(Citrobacter koseri)(ACZD01000012、EU682505、GG703525、NC_009648、NC_009792、NC_010378、NC_011283、NC_012731、NC_013503、NC_013850)
4−クレブシエラ・ニューモニエ(Klebsiella pneumoniae)、クレブシエラ・バリイコーラ(Klebsiella variicola)(ACZD01000012、EU682505、GG703525、NC_009648、NC_011283、NC_012731、NC_013850)
656−クレブシエラ・ニューモニエ(Klebsiella pneumoniae)、クレブシエラ・バリイコーラ(Klebsiella variicola)(ACZD01000013、EU682505、GG703525、NC_009648、NC_011283、NC_012731、NC_013850)
2−ラクトバチルス・ヘルベティカス(Lactobacillus helveticus)、ラクトバチルス・デルブリュッキ(Lactobacillus delbrueckii)(ACLM01000017、AEAT01000083、CP000156、CP002429、GG700753、NC_008054、NC_008529、NC_010080、NC_014727)
549−プロテウス・ミラビリス(Proteus mirabilis)(ACLE01000080、GG668578、NC_010554)
27−プロテウス・ペンネリ(Proteus penneri)、プロテウス・ミラビリス(Proteus mirabilis)(ABVP01000025、ACLE01000080、GG661996、GG668578、NC_010554)
7−プロビデンシア・レットゲリ(Providencia rettgeri)、プロビデンシア・アルカリファシエンス(Providencia alcalifaciens)、プロテウス・ペンネリ(Proteus penneri)、プロテウス・ミラビリス(Proteus mirabilis)、プロビデンシア・ルスティジアニ(Providencia rustigianii)(ABVP01000025、ABXV02000043、ABXW01000004、ACCI02000067、ACLE01000080、GG661996、GG668578、GG703820、GG705265、NC_010554)
76−スタフィロコッカス・サプロフィチカス(Staphylococcus saprophyticus)(AF144088、AP008934、NC_007350)
310−ウレアプラズマ・パルバム(Ureaplasma parvum)(CP000942、NC_002162、NC_010503)
25−ウレアプラズマ・ウレアリチカム(Ureaplasma urealyticum)(CP001184、NC_011374)
5−ウレアプラズマ・ウレアリチカム(Ureaplasma urealyticum)、ウレアプラズマ・パルバム(Ureaplasma parvum)(CP000942、CP001184、NC_002162、NC_010503、NC_011374)。
この分析報告における読取りの大部分は、***症の既知の一般的な原因であるクレブシエラ・ニューモニエ(Klebsiella pneumoniae)に由来した。またデータは、カンジダ・アルビカンス(Candida albicans)およびウレアプラズマ・パルバム(Ureaplasma parvum)を含む他の既知の***源(infectant)の低レベルの存在も示す。
カンジダ・アルビカンス(Candida albicans)ゲノムDNAのサンプルの結果は、恐らく、DNAを生成するために使用される細胞培養物の低汚染(.1%未満、読取りカウントに基づく)、あるいは他のサンプルからの読取りがこのサンプルのためのバーコードを含有するように見せる配列決定エラーのいずれかによる、C.アルビカンス(C.albicans)からの293,384の読取り、ならびにクレブシエラおよびプロテウスからの数百の読取りを示した。
この配列決定ランから***症サンプルの4つにおいて検出された異なる感染性種の割合は図25に示される。異なる主要な感染症は、プロテウス、クレブシエラ、およびウレアプラズマ感染症であると同定された。
実施例10:環状化捕獲反応方法
環状化捕獲プロトコルは、特定のプローブおよび標的DNAサンプルに対して、最適なPCRサイクル数を決定するために種々のPCRサイクル数を用いて実施され得る(図25(i))。
またプロトコルは、ギャップ充填および連結のために種々の長さの時間を用いて実施され得る。場合によっては、ギャップ充填は、わずか15分のインキュベーションの後に完了する(図25(ii))。
プローブハイブリダイゼーションは、特定のプローブに対して最適ハイブリダイゼーション温度を決定するために、若干異なる温度で実施され得る。例えば、72℃または68℃のいずれかにおいて、10分という短い時間のハイブリダイゼーションの後に、実質的に環状化された産物が生成される(図25(iii)、インキュベーション時間(分)は各レーンに対して示される)。
本明細書は、本明細書内で引用される参考文献の教示を鑑みて最も十分に理解される。本明細書内の実施形態は本発明の実施形態の実例を提供するものであって、本発明の範囲を限定すると解釈されてはならない。当業者は、多くの他の実施形態が本発明によって包含されることを容易に認識する。本開示において引用される全ての刊行物、特許出願、および特許は、参照によってその全体が援用される。参照によって援用される資料が本明細書と矛盾するまたは一致しない範囲では、本明細書がこのようないかなる資料にも優先するであろう。本明細書における任意の参考文献の引用は、このような参考文献が本発明の先行技術であることの承認ではない。
他に記載されない限り、特許請求の範囲を含む本明細書中で使用される成分、反応条件などの量を表す全ての数は、全ての場合において、「約」という用語で修飾されていると理解されるべきである。従って、反することが他に記載されない限り、数値パラメータは近似値であり、本発明が獲得しようとする所望の特性に応じて異なり得る。最低でも、そして特許請求の範囲に対する均等論の適用を制限する試みとしてではなく、各数値パラメータは、有効数字の数および通常のラウンディング(rounding)アプローチを鑑みて解釈されるべきである。本明細書における異なる量の有効数字を有する一連の数の記述は、より小さい有効数字が与えらえた数がより大きい有効数字が与えらえた数と同じ精度を有することを暗示すると解釈されてはならない。
「a」または「an」という語の使用は、特許請求の範囲および/または本明細書において「comprising」という用語と併用される場合、「1つ」を意味することができるが、「1つまたは複数」、「少なくとも1つ」、および「1つまたは1つよりも多い」という意味とも矛盾しない。特許請求の範囲における「or」という用語の使用は、代替のみを指すことが明確に示されない限り「および/または」を意味するために使用される、すなわち、代替は互いに排他的であるが、本開示は、代替のみ、そして「および/または」を指すという定義を指示する。
他に記載されない限り、一連の要素に先行する「少なくとも」という用語は、一連の要素の全てを指すと理解されるべきである。当業者は、本明細書中に記載される特定の実施形態に対する多数の均等物を認識するか、あるいは単なるルーチン実験を用いて確かめることができるであろう。このような均等物は、特許請求の範囲によって包含されることが意図される。
他に定義されない限り、本明細書において使用される全ての技術および科学用語は、本発明が属する分野の当業者によって一般的に理解されるのと同じ意味を有する。本明細書中に記載されるものと類似または均等の任意の方法および材料を本発明の実施または試験において使用することができる。
本明細書において考察される刊行物は、本出願の出願日よりも前のその開示についてのみ提供される。本明細書中のものはどれも、本発明が従来の発明によるこのような刊行物に先行する権利がないという承認として解釈されてはならない。さらに、提供される刊行物の日付は実際の公開日とは異なる可能性があり、独立して確認される必要があることもある。
本発明の他の実施形態は、本明細書の考察および本明細書中に開示される実施形態の実行から当業者に明らかであろう。本明細書および実施例は単に例示的なものであると考えられることが意図され、本発明の真の範囲および趣旨は以下の特許請求の範囲によって示される。