JP2017525339A

JP2017525339A - １又は複数の生物由来の染色体の断片をアセンブルする方法、装置、及びコンピュータプログラム

Info

Publication number: JP2017525339A
Application number: JP2016574372A
Authority: JP
Inventors: コスズルロマン; マルブーティマルシアル; ドミニクマリー−ネリーエルベ; クルナックアクセル
Original assignee: Institut Pasteur de Lille
Current assignee: Institut Pasteur de Lille
Priority date: 2014-06-24
Filing date: 2015-06-24
Publication date: 2017-09-07
Also published as: WO2015197711A1; EP3161699A1; CN106471509A; EP2960818A1; US20170169161A1

Abstract

本発明は、連続したヌクレオチド鎖を含むＤＮＡフラグメントを含み、かつ、少なくとも２つの連続したヌクレオチド鎖の組み合わせを含むＤＮＡフラグメントを含むライブラリのＤＮＡフラグメントを表す未処理のサブ配列のセットから、少なくとも１つの染色体の断片を表す配列をアセンブルすることに関する。ＤＮＡ領域間の接触頻度を表す第１の値を得た後、第１の値が、対応するＤＮＡ領域間の距離を表す第２の値と関連付けられ、以下の工程が反復して実施される：−第１及び第２の値に基づき、かつ、ＤＮＡ領域間の接触確率と対応するＤＮＡ領域間の距離とを関連付ける理論的モデルに基づいて、ゲノム構造を更新する工程であり、更新されたゲノム構造が染色体の実際のゲノム構造を表す、工程；及び、−更新されたゲノム構造の関数として理論モデルのパラメータを更新する工程。

Description

発明の分野
本発明は、一般に、ゲノムアセンブリの分野に関する。より詳細には、本発明は、ハイスループット配列決定と組み合わせた染色体コンフォメーションキャプチャを用いて、１又は複数の生物の１又は複数のゲノムをアセンブルするための方法、装置、及びコンピュータプログラムに関する。

微生物群集は、環境の安定性及び健康な生物の維持において基本的なものである。微生物の種は、もともと個別に研究されており、農業、医学、又は汚染防止の分野で数多くの技術開発につながってきた。技術の進歩のおかげで、メタゲノムアプローチを介し、複雑さにおける（例えば、１ｇの土壌に１０万種以上、又は人体に数十億個の微生物が共存する）微生物群集を研究することが今や可能である。

メタゲノム研究は、主に、皮膚、深海（ａｂｙｓｓｅｓ）、腸、土壌、水などの様々な環境より直接採取された微生物群集から直接抽出された遺伝物質を収集、配列決定及び分析することから構成されている。ベクターにクローニングすることができる何百万ものＤＮＡ（デオキシリボ核酸）分子が、数十万もの異なる種をカバーすることができるライブラリを構成する。そのようなライブラリのインシリコ（ｉｎｓｉｌｉｃｏ）及び実験的分析は、新しい遺伝子や酵素、新しいネットワーク、潜在的な新種（まだ地球上に発見されていない１０００万種以上の種）の発見へとつながる。

この新しいアプローチは、現在、世界の我々の理解に革命をもたらしているだけでなく、医療、エネルギー、農業経済学の分野において最も顕著に産業応用を促進しようとしている。多くの企業が、この未知の微生物の多様性の膨大な資源を掘り起こし始めている一方、いくつかの機関やアカデミーはこの新しい分野の将来について大きな展望を予測している。シークエンシングの深さ、読み取りの長さ、及び品質の急速な改善が、メタポピュレーション内の比較的少ない種のゲノムの特徴づけをもたらした。

しかしながら、微生物集団のメタゲノム分析は、コンティグをプールし、個々の種の巨大な染色体領域のスキャフォールドをアセンブルすることが困難であるために制限が存在したままであり、そのため、それらのゲノムに含まれる情報の完全な利用を損なっている。

ゲノム配列決定は、ＤＮＡ分子内のヌクレオチドの順序を決定することを目的とする。ＤＮＡ分子は、互いに絡み合って二重らせんを形成する２つの生体高分子鎖からなる。この分子の各鎖は、ヌクレオチドと呼ばれる基本単位のポリマーである。ヌクレオチドは、環状塩基（グアニン−Ｇ、アデニン−Ａ、チミン−Ｔ、又はシトシン−Ｃ）、環状糖（デオキシリボース）及びリン酸基の３つの異なる部分から構成される。ＤＮＡ分子において、ヌクレオチドは、１つのヌクレオチドの糖とその隣のヌクレオチドのリン酸との間の共有結合によって鎖中互いに結合し、交互に糖リン酸骨格を生じる。塩基対形成の規則（ＡとＴ及びＣとＧ）に従い、水素が２つの別々のポリヌクレオチド鎖の窒素塩基を結合して二本鎖ＤＮＡを作る。

生物学的研究に対して、及び診断、バイオテクノロジー、法医学生物学、生物学系（ｂｉｏｌｏｇｉｃａｌｓｙｓｔｅｍａｔｉｃｓ）などの多くの応用分野において、ＤＮＡ配列（すなわち４つの環状塩基の連続した順序）を知ることは不可欠である。染色体は典型的には数百万対のヌクレオチド対を含むために、ＤＮＡシーケンサーのスループット性は、診断のような多くの実際的な用途にとって重要な要素である。

大量のＤＮＡ配列決定法は、典型的には、数百塩基対以下の配列（すなわち、読み取り（ｒｅａｄｓ））を生成する。従って、完全なゲノムを配列決定する前に、それをより小さなＤＮＡフラグメントにせん断する必要がある。これらの断片は、ヌクレオチドの対応する順序を決定するために、少なくとも部分的に個々に配列決定される。これらのＤＮＡフラグメントのごく一部のみを配列決定することができる（約１００〜２００ｂｐ）。２つの読み取りを得るペアエンド配列決定（ｐａｉｒｅｄｅｎｄｓｅｑｕｅｎｃｉｎｇ）を用いて、ＤＮＡフラグメントの両末端の配列決定を行うことが可能であることに留意されたい。次に、得られた短い配列は、研究されたゲノムの全体的な配列を提供するために再アセンブリされなければならない。

よく知られているショットガンシーケンシング法によれば、ゲノムは生物から抽出され、小さなＤＮＡフラグメントに切断される。次に、ＤＮＡフラグメントを配列決定し、読み取り結果を、重複配列の完全な類似性に基づいてお互いに組み換え、コンティグと呼ばれる既知の配列のＤＮＡ部分を形成する。

図１ａ、１ｂ、及び１ｃを含む図１は、コンティグを形成するために何百万もの読み取りを組み合わせて、フラグメントを再構築するためのプロセスを概略的に示す。

図１ａに示すように、ＤＮＡフラグメント１００は、塩基対（ｂｐ）を形成するヌクレオチド、例えば、配列「ＡＣＴＣＴＡＡＴＴ」及び「ＴＧＡＧＡＴＴＡＡ」のペアを含む、２つのポリマー鎖１１０−１及び１１０−２を含む。上記のように、ＤＮＡフラグメント１００は、各末端から内向きにのみ配列決定され得る（矢印１０５−１及び１０５−２）。

ＤＮＡフラグメント１００のようなＤＮＡフラグメントは、典型的には、１２０−１及び１２０−２で終わる短いライン１１５で表され、ＤＮＡフラグメントの配列決定された部分、すなわち読み取りがより厚いことを表す。

図１ｂは、ＤＮＡフラグメント１２５をアセンブルされた領域１３０にアセンブルするプロセスを示す。そのために、読み取りを分析し、ヌクレオチドの共通鎖を決定するために互いに比較する。２つのＤＮＡフラグメントが同じヌクレオチド鎖を含む場合、それらは、図示されるように、ＤＮＡフラグメントにおけるその鎖の相対位置の関数（ｆｕｎｃｔｉｏｎ）として整列される。

次に、整列したＤＮＡフラグメントは、コンティグ、すなわちＤＮＡ染色体の断片を形成するためにアセンブルされ得る。どのような読み取りにも対応していない部分が存在し、アセンブルした領域中にギャップ、例えばギャップ１３５を形成することがあることに留意されたい。

言い換えれば、ゲノムは、重複して一致するヌクレオチドの配列の関数としてＤＮＡフラグメントからアセンブルされる。

図１ｃは、参照１５０−１及び１５０−２で示されるように、参照ゲノム１４５に対する短い読み取りを整列させることによって、アセンブルされた領域又はコンティグ１４０が再度配列決定される、再配列決定プロセスを示す。

このような読み取りの分析は、一般に、アセンブリアルゴリズムによってフラグメントをアセンブルするためにコンピュータ上で再帰的に実行される。説明のために、ＩＤＢＡ−ＵＤの名前で知られているアルゴリズムによって実施することができる（例えば、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２０１２，Ｊｕｎ１；２８（１１）：１４２０−８．ｄｏｉ：１０．１０９３／ｂｉｏｉｎｆｏｒｍａｔｉｃｓ／ｂｔｓ１７４．Ｅｐｕｂ２０１２，Ａｐｒｉｌ１１，ＩＤＢＡ−ＵＤ：ａｄｅｎｏｖｏａｓｓｅｍｂｌｅｒｆｏｒｓｉｎｇｌｅ−ｃｅｌｌａｎｄｍｅｔａｇｅｎｏｍｉｃｓｅｑｕｅｎｃｉｎｇｄａｔａｗｉｔｈｈｉｇｈｌｙｕｎｅｖｅｎｄｅｐｔｈ．ＰｅｎｇＹ，ＬｅｕｎｇＨＣ，ＹｉｕＳＭ，ＣｈｉｎＦＹを参照のこと）。

アセンブリアルゴリズムを実装するプログラムと組み合わせたショットガンシーケンシング法は、数百万の読み取りを分析し、再アセンブルを行い、典型的には３０，０００塩基対までを含むコンティグを得ることができる。

しかしながら、この方法は効率的であり得るが、それは、アセンブル工程間に曖昧さ（ａｍｂｉｇｕｉｔｉｅｓ）を導入して、不完全なアセンブリを残したゲノムの広範な反復部分により、制限を包含している。

アセンブリ効率を改善するために、ＤＮＡの空間的構造を使用することができる。実際に、ＤＮＡループから得られるフラグメント間で観察された接触と組み合わせたＤＮＡの空間的構造の理論的情報は、コンティグ間の矛盾／曖昧さを解消するために、又はＤＮＡ配列中の近接したギャップを救済するために使用され得る。

例えば、２つのフラグメントが空間的に互いに近接していると決定することにより、これらのフラグメントを得たＤＮＡ繊維に沿って、これらの断片が互いに近接していると結論づけることができる。これは、主としてポリマー物理学（染色体は、小さなゲノム分離のために頻繁にループする半柔軟性ポリマー鎖である）に起因する。

ＤＮＡの２つの部分が空間的に近接していることを決定することは、染色体コンフォメーションキャプチャ（３Ｃ）技術を用いることで実施できる。

３Ｃ技術及びその後のゲノム変異体（例えば、４Ｃ、５Ｃ及びＨｉ−Ｃ）は、染色体の構造を分析するために使用される。

図２ａ〜図２ｆを含む、図２は、Ｈｉ−Ｃ技術の主な工程を概略的に示す。

図２ａに示すように、第１工程は、互いに近接しているＤＮＡ部分、例えば、部分２００−１及び２００−２を架橋することに関する。これは、ＤＮＡの一部をタンパク質、例えばタンパク質２０５に架橋するため、及びタンパク質を相互に架橋するためにホルムアルデヒドを使用して行うことができる。これは、接触しているＤＮＡの架橋部分をもたらす。

次に、第２工程として、架橋ＤＮＡフラグメントは、制限酵素を用いて断片化される。従って、図２ｂに示すように、フラグメント２１０−１及び２１０−２は、それぞれ、部分２００−１及び２００−２の断片化から生じる。

第３工程は、（例えば、キメラ分子の割合を増加させるように）平滑末端を生成する改変塩基、例えばビオチンを用いて、フラグメントオーバーハングを充填することを目的とする。図２ｃに示されるように、断片２１０−２の末端は、平滑末端を生成する材料２１５−１及び２１５−２で充填され、連結フラグメントの免疫沈降を可能にする。

図２ｄに示す次の工程では、ＤＮＡフラグメント末端が連結される。

次に、架橋は逆行され、ＤＮＡが精製される。図２ｅに示すように、ＤＮＡフラグメントはせん断され、ライゲーション接合部を含む断片が単離される。

最後に、図２ｆに示されるように、シーケンシングアダプターがＤＮＡ分子に加えられ、配列決定され得るライブラリを作製する。これらのフラグメントを配列決定することにより、染色体の空間的構造が理由で近接しているＤＮＡの部分を同定することができる。

配列決定されたＤＮＡ断片の空間的構造の情報は、１つ又は複数の生物の異なる染色体に属するＤＮＡの部分を同定するためにも使用され得る。

実際に、ＤＮＡの部分間の接触は、（同じ配列に属して接触するＤＮＡの部分を考慮して）同じ配列に属するＤＮＡの部分をクラスタ化するために使用することができると考えてもよい。

従って、単一の又は複数の生物に由来するいくつかの染色体の新規の（ｄｅｎｏｖｏ）配列決定を実施するために、Ｈｉ−Ｃタイプの方法を用いる第１のライブラリと、ショットガンタイプの方法を使用する第２のライブラリとを生成し得る。

次に、第２のライブラリ（すなわち、ショットガンタイプ）によって生成されたコンティグは、第１のライブラリ（すなわち、ＨｉＣタイプ）に含まれる空間的な接触情報の関数としてクラスタ化され、コンティグをより大きなコンティググループに再グループ化する。

説明のために、表題「Ｈｉｇｈ−ｔｈｒｏｕｇｈｐｕｔｇｅｎｏｍｅｓｃａｆｆｏｌｄｉｎｇｆｒｏｍｉｎｖｉｖｏＤＮＡｉｎｔｅｒａｃｔｉｏｎｆｒｅｑｕｅｎｃｙ」（Ｎ．Ｋａｐｌａｎｅｔａｌ．，ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ，ｖｏｌ．３１，ｎｏ．１２，２４Ｎｏｖｅｍｂｅｒ２０１３）及び「Ｃｈｒｏｍｏｓｏｍｅ−ｓｃａｌｅｓｃａｆｆｏｌｄｉｎｇｏｆｄｅｎｏｖｏｇｅｎｏｍｅａｓｓｅｍｂｌｉｅｓｂａｓｅｄｏｎｃｈｒｏｍａｔｉｎｉｎｔｅｒａｃｔｉｏｎｓ」（Ｊ．Ｂｕｒｔｏｎｅｔａｌ．，ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ，ｖｏｌ．３１，ｎｏ．１２，３Ｎｏｖｅｍｂｅｒ２０１３）に記載の方法は、主としてＤＮＡフラグメントのプールを決定するためのクラスタ化工程及び相関性を識別する次の工程に基づいている。より正確には、第１の工程において、コンティグは、相互に高い接触頻度を共有するグループへとクラスタ化され、従って、同じ染色体に属する可能性が高い。第２の工程では、各グループ内のコンティグは、隣接するコンティグが高い接触頻度を有するように互いに再配列され、それによって染色体スキャフォールド（ｓｃａｆｆｏｌｄ）を生成する。これらの手順によって得られた最終的なスキャフォールドは、単一染色体の真の線状構造を反映しているようである。

しかしながら、これらの方法にはいくつかの欠点がある。第一に、それらは重複を説明しない。特に、配列アセンブリ中に融合された反復領域は、これらのアプローチを用いることで解決することはできない。第二に、最初のクラスタ化工程における誤り（ｅｒｒｏｒ）を、スキャフォールド形成（ｓｃａｆｆｏｌｄｉｎｇ）中に訂正することができず、最終ゲノムアセンブリ品質がクラスタ化精度に強く依存することになる。第三に、各アルゴリズムには固有の制限がある：第１のものは、スキャフォールドにコンティグを方向付けることを試みるものではなく、第２のものは、染色体の正確な数を含むいくつかのゲノム特異的パラメータを事前に指定する必要があり、それは、既に十分特徴付けられているゲノムに対しその適用を制限する。最後に、両方法は、入力する３Ｃデータの品質及び潜在的な曖昧さに関わらず、その信頼性に関する全体的又は安定的な確率情報を提供することなく、単一のゲノムアセンブリの結果を提案する。

これらの制約及び制限に直面し、本発明者らは、単一の生物又は混合した生物から、染色体断片のハイスループットアセンブリのための方法、装置、及びコンピュータプログラムを提供する。

本発明の広範な目的は、上記のような先行技術の欠点を改善することである。

本発明の第１の態様によれば、少なくとも１つのライブラリの全てのＤＮＡフラグメントを表す未処理のサブ配列（ｒａｗｓｕｂ−ｓｅｑｕｅｎｃｅｓ）のセットに基づき、少なくとも１つの生物の少なくとも１つの染色体の少なくとも１つの断片（ｐｉｅｃｅ）を表す少なくとも１つの配列をアセンブルするために提供されるコンピュータ方法であって、少なくとも１つのライブラリが、少なくとも１つの染色体の連続したヌクレオチドの鎖を含むＤＮＡフラグメントと、少なくとも１つの染色体の連続したヌクレオチドの少なくとも２つの鎖の組み合わせを含むＤＮＡフラグメントとを含むものであり、該方法が、以下の工程：
−前記少なくとも１つの染色体のＤＮＡ領域間の接触頻度を表す第１の値を取得する工程であり、ここで前記第１の値が、対応するＤＮＡ領域間の距離を表す第２の値と関連づけられる、工程；及び
−反復的に以下の工程を実行する工程：
−前記第１及び第２の値に基づき、かつ、ＤＮＡ領域間の接触確率と、対応するＤＮＡ領域間の距離とを関連付ける理論モデルに基づいて、ゲノム構造を更新する工程であり、更新されたゲノム構造が、前記少なくとも１つの生物の前記少なくとも１つの染色体の前記少なくとも１つの断片の実際のゲノム構造を表す、工程；及び
−更新されたゲノム構造の関数として、前記理論モデルのパラメータを更新する工程、
を含む方法である。

特許請求の範囲の方法は、ゲノムが完全に特徴づけられていない種のゲノムアセンブリを修正し改善するための効率的なツールを提供する。

特に、本発明の方法は、期待される染色体数の事前情報なしに、種内の個々の染色体の大規模なスキャフォールドをアセンブルするために類似の細胞コンパートメントを共有する染色体が経験する頻繁な物理的接触を使用する。さらに、本発明の方法は、異なる生物由来の細胞の混合物に適用され、メタゲノムデータの逆重畳積分（ｄｅｃｏｎｖｏｌｕｔｉｏｎ）を可能にする。本発明の方法を実施する際に生成された読み取りは、予備の新規アセンブリ工程を実行することによって多数のＤＮＡコンティグを生成するために直接使用することもできる。さらに、本発明の方法は、集団内に存在し、一緒にビンに詰め込まれた（ｂｉｎｎｅｄ）生物の多数のコンティグを単一の実験で生成することが可能になる。この手法を用いて、非常に小さなメタポピュレーションを調べることができると考えられる。多数の種類のマイクロビオーム（ｍｉｃｒｏｂｉｏｍｅ）が、本発明の技術によって分析され得る。

さらに、本発明は、一度に数十個の生物のゲノム構造（すなわち、配列）及び３Ｄゲノム構造（ｏｒｇａｎｉｚａｔｉｏｎ）の両方を評価可能にするために、既知の生物の３Ｄゲノム構造のハイスループット特性を提供する。そのようなアプローチは、例えば、いくつかの生物における染色体の再編成、又はこれらのゲノムの３Ｄ構造を特徴付けることを目的とする多くの研究室又はグループが着目するものである。

本発明の方法は、未知の種の３Ｄゲノム構造を特徴付ける方法を提供する。メタゲノムアプローチは、ブラインド（ｂｌｉｎｄ）分析が、天然の種の混合物中に存在する未知の種のゲノム配列及び３Ｄ構造の両方を明らかにすることができることを示す。染色体３Ｄ構造は代謝状態と相関する。従って、混合物中に共存する種の３Ｄ構造を特徴付けることは、それらの代謝状態を明らかにする。これは、これらの種の生育状態を相互に比較して解読し、メタポピュレーションの進化の間に異なる段階（例えば、ストレス、急速な成長、休止）を同定するために適用することができた。

一実施形態では、２つのＤＮＡ領域間の距離は、所定の経路に沿った２つのＤＮＡ領域間の距離及び／又は２つのＤＮＡ領域間の空間距離の関数として決定される。

一実施形態では、方法は、少なくとも１つのライブラリの全ＤＮＡフラグメントを表す未処理のサブ配列を、複数のビンに分割する工程をさらに含む。

一実施形態では、方法は、複数のゲノム候補構造を生成し、生成された候補ゲノム構造のそれぞれについて、実際のゲノム構造に近い明示的尤度値（ｌｉｋｅｌｉｈｏｏｄｖａｌｕｅ）を計算する工程をさらに含む。

一実施形態では、複数のゲノム候補構造を生成する工程は、転座、欠失、逆位及び重複の少なくとも１つの変異を含む所定の構造変化（ｓｔｒｕｃｔｕｒａｌｖａｒｉａｔｉｏｎｓ）に基づく。

一実施形態では、生成されたゲノム候補構造の１つが、複数試行メトロポリスタイプ（ｍｕｌｔｉｐｌｅｔｒｙＭｅｔｒｏｐｏｌｉｓｔｙｐｅ）の法則に従って、関連する尤度値の関数として選択される。

一実施形態において、ゲノム候補構造は、ビンの構造変化によって決定される。

一実施形態では、理論モデルパラメータを更新する工程は、ギブスサンプラタイプ（Ｇｉｂｂｓｓａｍｐｌｅｒｔｙｐｅ）のアルゴリズムに基づく。

一実施形態では、理論モデルは、ＤＮＡ領域間の染色体内（ｉｎｔｒａ−ｃｈｒｏｍｏｓｏｍｉｃ）接触を、ＤＮＡ領域間の染色体内及び染色体間（ｉｎｔｅｒ−ｃｈｒｏｍｏｓｏｍｉｃ）接触から識別するために使用される閾値を表す少なくとも１つのパラメータを含む。

一実施形態では、理論モデルは、ＤＮＡ領域間の染色体内接触又はＤＮＡ領域間の染色体内及び染色体間の接触を、異なる生物間の接触から識別するために使用される閾値を表す少なくとも１つのパラメータを含む。

一実施形態では、方法は、少なくとも１つのライブラリのＤＮＡフラグメントをクラスタ化する工程をさらに含み、各クラスタは特定の生物に関連付けられ、クラスタ化されたＤＮＡフラグメントに対応する未処理のサブ配列はクラスタを根拠に配列決定するために処理される。

一実施形態では、ライブラリのＤＮＡフラグメントをクラスタ化する工程は、ルーバインタイプ（Ｌｏｕｖａｉｎｔｙｐｅ）のアルゴリズムに基づく。

一実施形態では、方法は、少なくとも１つの生物の少なくとも１つの染色体の少なくとも１つの部分を表す少なくとも１つの配列中の少なくとも１つのＤＮＡ配列を同定する工程をさらに含む。

一実施形態では、方法は、少なくとも１つの生物の全体的な染色体構造を特徴付け、該方法は、対応するゲノムの３次元構造から全体的な染色体構造が特徴付けられる少なくとも１つの生物の代謝状態を推測する工程をさらに含む。

本発明の第２の態様は、生物学的サンプル中の真核細胞、原核細胞、又は微生物のゲノムを同定するための方法であって、少なくとも１つの生物の少なくとも１つの染色体の少なくとも１つの断片をアセンブルするための、上記の方法の各工程を含む該方法を提供する。

一実施形態では、該方法は、生物学的サンプル中の微生物のゲノムを同定するために使用され、該微生物は、寄生生物、細菌、古細菌、真菌、酵母及びウイルスタイプの１つである。

それらの細胞及び微生物は、病原性、すなわち植物又は動物に対して、又は非病原性であり得る。より特定の実施形態では、生物学的サンプルは、１以上の細胞又は微生物種を包含する（ｃｏｎｔａｉｎ）又は含む（ｃｏｍｐｒｉｓｅ）。

一実施形態では、少なくとも１つの生物体の少なくとも１つの染色体の少なくとも１つの断片をアセンブルする方法又はゲノムを同定するための方法は、さらに以下の工程を含む：
−少なくとも１つの染色体の少なくとも１つの断片を含む調製された生物学的サンプルの染色体の断片を架橋する工程；
−少なくとも２つの異なるタイプの制限酵素を用いて、架橋された染色体を断片化する工程；及び
−断片化工程から生じる染色体の断片を配列決定する工程。

本発明の第３及び第４の態様は、上記の方法の各工程を実行するように構成された手段を含む装置、及びプログラム可能な装置のためのコンピュータプログラム製品を提供するものであり、該コンピュータプログラム製品は、プログラムがプログラム可能な装置によってロードされ、かつ、実行される場合に、上述の方法の各工程を実行する指示を含んでいる。特許請求の範囲の装置及びコンピュータプログラムは、ゲノムが完全に特徴付けられていない種からのゲノムアセンブリを修正及び改善する効率的なツールを提供する。

本発明の第５の態様は、少なくとも１つの生物体の少なくとも１つの染色体の少なくとも１つの断片をアセンブルする方法であり、該方法は、以下の工程を含む：
−少なくとも１つの染色体の少なくとも１つの断片を含む生物学的サンプルを調製する工程；
−調製された生物学的サンプルの染色体の断片を架橋する工程；
−少なくとも２つの異なるタイプの制限酵素を用いて架橋された染色体を断片化する工程；
−断片化工程から生じる染色体の断片を配列決定する工程；及び
−染色体の配列決定された断片をアセンブルする工程。

特許請求の範囲の方法は、ゲノムが完全に特徴づけられていない種からのゲノムアセンブリを修正し改善するための効率的なツールを提供する。

一実施形態では、調製された生物学的サンプルの染色体断片の架橋は、３％の最終濃度を有するホルムアルデヒドを用いて実行される。

一実施形態では、本方法は、架橋された染色体の機械的溶解工程をさらに含み、少なくとも２つの異なるタイプの制限酵素を用いて断片化する前に機械的溶解が実施される。

好ましい実施形態では、機械的溶解は、ガラス又はセラミックのビーズベースである。

本発明の第６の態様によれば、生物学的サンプルのウイローム（ｖｉｒｏｍｅ）とゲノムとの間の対応関係（ｃｏｒｒｅｓｐｏｎｄｅｎｃｅ）を確立するための方法が提供され、該方法は、以下の工程を含む：
−生物学的サンプルから独立したウイルス粒子の集団を抽出する工程；
−請求項１〜１７のいずれか１項に記載の方法に基づいて、独立したウイルス粒子の抽出集団のウイルスゲノム配列を同定し、同定されたウイルスゲノム配列がウイロームを形成する工程；
−生物学的サンプルのゲノムを形成するための請求項１〜１７のいずれか一項に記載の方法に基づいて、ウイルス粒子の集団が抽出された生物学的サンプル中の細菌、プラスミド及びウイルスゲノム配列を同定する工程；及び、
−生物学的サンプルのウイロームとゲノムとの間の対応関係を、物理的接触に基づいて確立する工程。

本発明の方法は、ウイルス集団及び細菌集団の両方の組成を決定することを可能にし、そのバランスは健康又は環境条件を潜在的に反映する。

一実施形態では、該方法は、抽出されたウイルス粒子の集団のウイルスを溶解し、溶解したウイルスのＤＮＡを抽出し、抽出されたＤＮＡからクロマチンを再構築する工程をさらに含む。

本発明の好ましい実施形態では、ウイルスはバクテリオファージである。

本発明の部分はソフトウェアで実行することができるので、本発明の部分は、任意の適切なキャリア媒体上のプログラム可能な装置に提供するためのコンピュータ可読コードとして実施することができる。有形のキャリア媒体は、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ、ハードディスクドライブ、磁気テープ装置又は固体メモリ装置などのような記憶媒体を含むことができる。一過性キャリア媒体は、電気信号、電子信号、光信号、音響信号、磁気信号又は電磁信号、例えばマイクロ波又はＲＦ信号などの信号を含むことができる。

一実施形態では、コンピュータコードは、大行列データの並列処理を可能にするグラフィック処理ユニット（ＧＰＵ）を利用する。ＤＮＡフラグメントの可視化及びアセンブル工程は、ウェブインターフェース上での移植性を可能にするために、グラフィックス技術を使用して開発されうる。

本発明の更なる利点は、図面及び詳細な説明を検討することにより明らかになるであろう。任意のさらなる利点が本明細書に組み込まれることが意図される。

本発明の実施形態を、以下の図面を参照して、単なる例として説明する。

図１ａ、１ｂ及び１ｃを含む図１は、コンティグを形成するために数百万の読み取りを組み合わせて、フラグメントを再構築するための工程を概略的に示す。図１ａ、１ｂ及び１ｃを含む図１は、コンティグを形成するために数百万の読み取りを組み合わせて、フラグメントを再構築するための工程を概略的に示す。図１ａ、１ｂ及び１ｃを含む図１は、コンティグを形成するために数百万の読み取りを組み合わせ、従ってフラグメントを再構築するための工程を概略的に示す。図２ａ〜図２ｆを含む図２は、Ｈｉ−Ｃ技術の主な工程を示す。図３は、本発明の一実施形態の方法の主な工程を概略的に示す図である。図４は、生物学的サンプルを調製するための工程の例を示す図である。図５は、図４を参照して記載される、調製された生物学的サンプルからのＭｅｔａ３Ｃライブラリの構築の例を示す。ゲノム構造及びゲノムスキャフォールドを決定するための異なる生物の混合物から得られたＭｅｔａ３Ｃライブラリを使用する、第１の例を示す図である。図７は、Ｍｅｔａ３Ｃライブラリのフラグメントに対応する未処理のサブ配列のセット及びこれらの未処理のサブ配列由来のコンティグのセットを模式的に示す。図８は、ゲノム組織及びゲノムスキャフォールドを決定するために異なる生物の混合物から得られたＭｅｔａ３Ｃライブラリを使用する、第２の例を示す。図９は、１つ又は複数の異なる生物のゲノム構造及びスキャフォールドを決定するためのＧＲＡＡＬアルゴリズムの工程を示す。図１０ａ〜図１０ｅを含む図１０は、図９に表される特定の工程を示す。図１１ａ及び図１１ｂを含む図１１は、ＤＮＡ領域間の接触確率とこれらのＤＮＡ領域間の距離との間に確立され得る関係を示す。図１２ａ、図１２ｂ及び図１２ｃを含む図１２は、ＧＲＡＡＬアルゴリズムの３つの異なる反復（ｔ＝０、ｔ＝５０１、ｔ＝４，５００）で、生物学的サンプルのＤＮＡ領域と対応するゲノム構造との間の接触配列（ｃｏｎｔａｃｔａｒｒａｙ）の例を示す。図１３は、本発明の実施形態が少なくとも部分的に実施され得る処理装置の構成要素を示すブロック図である。図１４〜図１７は、生物学的サンプル中のバクテリオファージ集団及び細菌集団の組成を決定するための適用例を示す。図１４〜図１７は、生物学的サンプル中のバクテリオファージ集団及び細菌集団の組成を決定するための適用例を示す。図１４〜図１７は、生物学的サンプル中のバクテリオファージ集団及び細菌集団の組成を決定するための適用例を示す。図１４〜図１７は、生物学的サンプル中のバクテリオファージ集団及び細菌集団の組成を決定するための適用例を示す。図１８は、図１４〜図１７に示される工程を示す。

発明の実施形態の詳細な説明
本発明の一実施形態によれば、染色体コンフォメーションのメタゲノムキャプチャー（Ｍｅｔａ３Ｃ）実験により測定できる、類似の細胞コンパートメントを共有する染色体が経験する頻繁な物理的接触は、メタ個体群（ｍｅｔａｐｏｐｕｌａｔｉｏｎ）に存在するゲノムのより広範なスキャフォールドをアセンブルするために使用され得る。Ｍｅｔａ３Ｃライブラリは、接触頻度に基づく広範なＤＮＡ領域をアセンブルすることが可能であるだけでなく、予備的に新規（ｄｅｎｏｖｏ）アセンブル工程を実施するにより、読み取りが、それらを生成するために直接使用可能である。

図３は、本発明の一実施形態による方法の主な工程を概略的に示す。

図示されるように、第１の工程（工程３００）は、Ｍｅｔａ３Ｃライブラリを構築するために使用され得る生物学的サンプルを調製することを目的とする（工程３０５）。Ｍｅｔａ３Ｃライブラリは、ＤＮＡフラグメントのセットから構成されている。これらのフラグメントの組成は、それらの末端のペアエンド配列決定によって決定される。これらの配列は、プロトコルがキメラフラグメントの濃縮工程を伴わない場合に、新たにより長いコンティグをアセンブルするために使用可能である。これらの読み取りはまた、生物学的サンプル内に存在するゲノム（単数又は複数）の構造及び関連するパラメータを決定するために使用される（工程３１０）。

工程３００及び３０５は、図４及び図５をそれぞれ参照して説明され、一方で、工程３１０は、本発明の実施形態の２つの例を示す参照図６及び８によって説明される。

図４は、生物学的サンプルを調製する工程の例を示す（すなわち、図３の工程３００）。

生物学的サンプル、例えば３０ｍｇの湿潤物質（例えば、河川堆積物由来の湿潤物質）は、例えば１５０ｍＬのＰＢＳ（リン酸緩衝食塩水）中で希釈される（工程４００）。このような希釈工程は、固体サンプル、慎重な操作が必要なサンプル、及び／又は微量であって多量に取り扱うことができないサンプルには必要ではないことに留意されたい。

次に、それはタンパク質とＤＮＡの部分とを架橋することによって、全体的なクロマチンネットワークを凍結させるために化学的に処理される（工程４０５）。このような処理は、新鮮なホルムアルデヒド（例えば３％の最終濃度）を用いて室温で３０分間、続いて４℃で３０分間処理することで得られる。

次の工程では、架橋反応プロセスが停止される（工程４１０）。説明のために、ホルムアルデヒドは、最終濃度０．２５Ｍグリシンを用いて、室温にて５分間、続いて４℃で１５分間でクエンチ（ｑｕｅｎｃｈ）することができる。

次に、固定された細胞を、典型的には遠心分離によって回収し、洗浄し（例えば、５０ｍＬのＰＢＳを用いて）、再び回収し（例えば、遠心分離によって）、ドライアイス中で凍結し、使用するまで−８０℃で保存する（工程４１５）。

ＤＮＡフラグメントの一貫した架橋を有する初期の生物学的サンプルを得ることを目的とする工程（工程４０５）は必須であることに注意する必要がある。従って、十分な量の架橋フラグメントを得るために固定細胞の生成に特有の注意が払われるべきである。

図５は、上記のように調製された生物学的サンプルからのＭｅｔａ３Ｃライブラリの構築の例（図３の工程３０５）を示す。

図示されるように、第１の工程（工程５００）は、細胞の凍結ペレットの解凍を目的とする。説明のため、これは氷上で３０分以上実施され得る。次に、解凍された細胞を再懸濁する（工程５０５）。これは最終容量６５０μｌの１×ＴＥｐＨ８で実施することができる。

次の工程では、サンプル細胞を溶解する（工程５１０）。これは、ガラス又はセラミックビーズを用いて細胞を機械的に溶解するＰｒｅｃｅｌｌｙ（登録商標）ホモジナイザーとして公知の装置で実施することができる。説明のために、サンプル細胞は、毎秒６，７００回転の速度で６０秒ごとに実行される、２０秒、３サイクルにわたって溶解され得る。

次に、溶解した細胞をプールし、例えば０．５％ｃｃの最終ＳＤＳ濃度を得るために、１０％ｃｃの濃度にてＳＤＳ（ドデシル硫酸ナトリウム）で処理し、プールした細胞を、例えば１５分間室温でインキュベートする（工程５１５）。

次いで、処理された溶解細胞をいくつかのチューブに送付する（工程５２０）。次いで、これらの細胞内に存在するＤＮＡ分子を異なる制限酵素で断片化する（工程５２５−１〜５２５−３、総称して５２５と呼ぶ）。

最初の生物学的サンプルは典型的には異なる生物の細胞を含むので、（ＧＣ及びＡＴ塩基対の割合に関して）種々のタイプの染色体の組成は、平均サイズが所定の閾値（典型的には５００〜１０００塩基対）を超えない断片に断片化できるよう、いくつかのタイプの制限酵素を使用することができる。この閾値は、キメラ読み取りのための濃縮工程を有さないＭｅｔａ３Ｃライブラリに対して特に重要である。

３つの異なる制限酵素のみが図５（工程５２５−１〜５２５−３）に示されているが、任意の数の制限酵素が、組み合わせて又は独立したプロセスのいずれかで使用することができることに留意されたい。

工程５２５に示されるように、溶解した細胞を消化混合物（例えば、１×ＮＥＢ緩衝液（１０ｍＭＢｉｓ−Ｔｒｉｓ−プロパン−ＨＣｌ、１０ｍＭＭｇＣｌ₂、１ｍＭＤＴＴ、ｐＨ７．０、２５℃、ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）、１％トリトンＸ−１００、及び１００Ｕの所定のタイプの制限酵素）を含むチューブに入れられる。溶解した細胞と消化混合物との混合物を、対応する酵素活性温度、例えば３７℃で、所定の時間、例えば３時間インキュベートする（工程５３０）。

特定の実施形態によれば、使用される制限酵素は、４つの塩基対の組み合わせを認識するように選択される。従って、生物学的サンプルを調製するために実施される架橋工程は、ＤＮＡフラグメントライブラリを調製するために一般的に使用される濃度及び時間よりも長い時間を必要とする。６塩基対の組み合わせ又は他のものを認識する酵素を使用することができるが、ライブラリの構築には、ＤＮＡフラグメントの縁にビオチン化塩基の取り込みなどの、濃縮工程が必要である。

次に、続く工程において、溶解した細胞と消化混合物との混合物を含有するチューブを、例えば１６，０００回転／分の回転速度で２０分間遠心分離する（工程５３５）。

遠心分離後、浮遊物質（上清）を除去し、チューブの底に沈着した物質を例えば５００μＬの水に再懸濁する（工程５４０）。

次いで、チューブをプールし（例えば、３ｍＬ）、ライゲーション混合物を、得られた混合物に添加する（工程５４５）。例示のために、ライゲーション混合物は、ＮＥＢ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）ライゲーション緩衝液（例えば１．６ｍＬ）、ＢＳＡ（ウシ血清アルブミン）（例えば１０ｍｇ／ｍＬ、１６０μＬ）、２５０ＵのＴ４ＤＮＡリガーゼ、及び水を加えて、１６ｍＬの容量を得る。混合物を、例えば１６℃で４時間インキュベートする。

次に、反応を停止し、架橋を逆にする（脱架橋工程５５０）。これは、混合物にＥＤＴＡ（エチレンジアミン四酢酸）を、例えば終濃度１００ｍＭ及びＫプロテイナーゼ、例えば４ｍｇを添加し、そして例えば６５℃で１２時間インキュベートすることによって行うことができる。

次に、例えばイソプロパノールを沈殿させ、フェノールクロロホルムを沈殿させ、エタノールを沈殿させることによって（例えばトリス１０ｍＭで、例えば６０μＬのトリスで再開する）ＤＮＡフラグメントを抽出し（工程５６０）、ＲＮＡｓｅ処理を適用してＲＮＡ分子を除去する。

最後に、全てのチューブをプールし、例えばＢｉｏ−Ｒａｄ（商標）によって開発されたＱｕａｎｔｉｔｙＯｎｅ（商標）として知られているアプリケーションを用いてゲル上で定量されたＭｅｔａ３Ｃライブラリが得られる。

図４及び５を参照して記載された工程を実施することによって得られるＭｅｔａ３Ｃライブラリは、典型的には、数百塩基対以下の読み取りを含む。ライブラリの重複する読み取りは、ＩＤＢＡ−ＵＤなどの標準的なアセンブリアルゴリズムを使用して、より大きな連続配列（コンティグ）へと一緒に連結することができる。

図４及び５を参照して記載された工程を実施することによって得られたＭｅｔａ３Ｃライブラリは、キメラ配列の濃縮工程を伴わずに、主に、得られたライブラリが由来する生物学的サンプル中に存在する染色体の断片に対応するＤＮＡ分子（すなわち、染色体の連続したヌクレオチド鎖）を含む。これらの断片は、ショットガンシーケンシングライブラリで回収されたＤＮＡフラグメントと類似しているため、ショットガンタイプのＤＮＡフラグメントと呼ばれている。これらのショットガンＤＮＡフラグメントは、ライブラリの断片の約８０％を占める。

Ｍｅｔａ３Ｃライブラリはまた、キメラ分子とも呼ばれるＤＮＡ分子を含み、それは、架橋工程中に一緒に捕捉された２つの配列の組み合わせ（すなわち、連続ヌクレオチドの少なくとも２つの異なる鎖の組み合わせ）である。これらの２つの配列が互いにより近接している頻度が高いほど（図４の工程４０５）、より頻繁に一緒にトラップされる。これらの配列は、同じＤＮＡ繊維（染色体）に沿って、又は別個の染色体（すなわち、キメラ分子は、同じ染色体又は少なくとも２つの異なる染色体の隣接するヌクレオチドの少なくとも２つの異なる鎖の組み合わせである）に離れて配置され得る。

ＤＮＡフラグメント間のこれらの長距離相互作用は、ライブラリの分子の約２０％に相当する。これらのキメラ分子の濃縮工程が実施されるＨｉ−Ｃライブラリに存在するキメラ分子とは対照的に、Ｍｅｔａ３Ｃライブラリ中のキメラ分子は、組み合わされた配列の間にビオチンを含まない。

従って、Ｍｅｔａ３Ｃライブラリは、「ショットガン」及び「キメラ」の両方の形態であるＤＮＡ分子を含み、従ってコンティグを生成し、単一の実験でそれらをスキャフォールド化するために使用することができる。

「ショットガン」分子がより少ない量のＭｅｔａＨｉＣライブラリは、他の手段によって得られたコンティグをスキャフォールドにするために使用され得ることに留意されたい。

図６は、ゲノム構造及びゲノムスキャフォールドを決定するための、異なる生物の混合物から得られたＭｅｔａ３Ｃライブラリを使用する、第１の例を示す図である。

図６に示すアルゴリズムは、Ｍｅｔａ３Ｃライブラリから得られた６００で参照される未処理のサブ配列のセットに基づいている。未処理のサブ配列は、Ｍｅｔａ３Ｃライブラリに存在するＤＮＡフラグメントのペアエンド配列決定の結果として得られた読み取りのペアである。

第１の工程は、Ｍｅｔａ３ＣライブラリのＤＮＡフラグメントをコンティグと呼ばれるより広範な配列にアセンブルすることを目的とする（工程６０５）。この工程は、ＩＤＢＡ−ＵＤなどの標準的なアセンブリアルゴリズムによって実行され得る。その結果、６１０で参照されるコンティグのセットが得られる。

次に、異なるコンティグを構成する読み取りのペア末端情報が、それぞれに対して全てのコンティグの接触ネットワークを生成する。この目的のために、Ｍｅｔａ３Ｃライブラリの配列決定から得られたペア末端読み取りは、読み取りアラインメントアプリケーションを使用して工程６０５の結果として得られたコンティグ６１０上に整列される（工程６１５）。

アライナとも呼ばれる読み取りアラインメントアプリケーションは、参照として使用される染色体（又は染色体の一部）のような、より広範なＤＮＡ配列に沿った読み取りを整列させる（すなわち配置する）ことを可能にすることが想起されるべきである。説明のために、ボウタイ（Ｂｏｗｔｉｅ）２として知られるアプリケーションは、アライナであり、工程６１５を実行するために使用することができる。

ＤＮＡ分子に含まれるペア末端情報は、どのコンティグが他のコンティグと接触しているかを明らかにすることによって、コンティグ間の接触ネットワーク（参照番号６２０）を決定する。コンティグ間のこれらの相互作用が検出される頻度は、それらを境界付けするリンクの強さを明らかにする。

例えば、図７を参照すると、読み取りの接触ネットワークを決定することができる。

図７は、Ｍｅｔａ３Ｃライブラリの断片に対応する未処理のサブ配列のセット７００と、これらの未処理のサブ配列から得られコンティグのセット７０５（例えば、図６を参照して記載される工程６０５及び６１５による）を概略的に示す。図示されているように、未処理のサブ配列の末端のそれぞれは、配列決定されたデータ（これらの配列決定されたデータは読み取りである）を表す。未処理のサブ配列は、それらが同じ読み取りを共有してコンティグを形成するときに結合される。

例示のために、２４個のＤＮＡフラグメントに対応する２４個の未処理のサブ配列のみが示され、各サブ配列は読み取りのペア末端を含む。例えば、サブ配列７００−１は、ペア末端読み取りＲ₇及びＲ₈を含む。

同様に、３つのコンティグのみが表される（７０５−１、７０５−２及び７０５−３）。図示されているように、各コンティグは、サブ配列のサブセットに基づいており、読み取りのペア末端並びに内部読み取り（アセンブリ目的のために使用されている）とを含む。例えば、コンティグ７０５−１は、ペア末端読み取りＲ₀及びＲ₃を含む。

上記のように、ＩＤＢＡ−ＵＤのような標準的なアセンブリアルゴリズムの使用は、読み取りを比較してコンティグを形成することによってＤＮＡフラグメントのアセンブリを可能にする。従って、サブ配列７００−２は、サブ配列７００−３と組み合わされて、コンティグ７０５−２（すなわち、コンティグＲ₄−Ｒ₅−Ｒ₆）を形成することができる。

例示のために、コンティグ７０５−１及び７０５−２は同じ染色体に属し、一方で、コンティグ７０５−３は異なる染色体に属すると推定することができる。この場合、Ｒ₃とＲ₄との間のリンクは弱く、これらのフラグメントのアセンブリを損なう。

接触ネットワークの構築は、距離があり、非隣接の配列からなるキメラ分子に含まれる情報の項目を明らかにする。例えば、コンティグ７０５−１及び７０５−２の読み取りＲ₁及びＲ₅間の距離の観点から、サブ配列７００−４は、キメラ分子と関連しているとみなされる。

図７に示すように、サブ配列のセット７０５から確立され得るリンクは、位置Ｒ₄／Ｒ₅及びＲ₆／Ｒ₇まで連続した構造に従う。これらの位置では、いくつかの理由により、コンティグを連結するためのペア末端情報が見出されていないため、ギャップが生じる。

しかしながら、情報の長距離の項目は、アセンブルに使用されなかったキメラ分子の情報のペア末端項目から同定することができる。このような情報の項目は、アセンブルプロセスからは明らかではないコンティグ間の関係を明らかにする。情報の長距離項目は、コンティグを互いの最も可能性の高い方向に配置するために使用することができる。

コンティグ内の各サブ配列終端の位置を決定することによって（そのような距離は、多数の塩基対の関数として又は多数の制限フラグメントの関数として表現され得る）、及びこれらの位置のそれぞれに多数の接触（又は接触頻度）を関連付けることによって、サブ配列のセット７００及び得られたコンティグのセット７０５から接触配列を構築することができる。

この目的のために、全てのコンティグは、線状構造でアセンブルされ、コンティグの読み取り順序は、本明細書において以下に示されるように接触配列の行及び列の参照を形成する；

接触配列を満たすために、後半の各セルは、初期化工程において、ゼロに設定される。次に、サブ配列のセットのサブ配列が（典型的には次々に）選択され、各サブ配列に対し、サブ配列の一端に対応する読み取りの位置は、第１の座標（ａ）を決定するために、アセンブルされたコンティグの線形構造において決定される。同様に、サブ配列の他端に対応する読み取りの位置は、第２の座標（ｂ）を決定するために、アセンブルされたコンティグの線形構造において決定される。次に、第１及び第２の座標は、内容を１だけ増加する接触配列の２つの対称セル（（ａ、ｂ）及び（ｂ、ａ））を識別するために使用される。あるいは、接触配列の半分だけが満たされ、残りの半分は最初の半分から複製され得る。

図６に戻って、以下の工程は、Ｍｅｔａ３ＣライブラリのＤＮＡフラグメントをクラスタ化することに関する（工程６２５）。これは、例えばルーバインタイプのアルゴリズムを用いて実施され得る。

ルーバインアルゴリズムは、複雑なネットワーク内のクラスタ又はコミュニティを識別するための単純で効率的な方法であることが想起されるべきである。ノード（ｎｏｄｅ）のペアが、両方同じコミュニティ（単数又は複数）に属している場合は関連づけられる可能性が高く、どのコミュニティも共有していない場は、関連づけられる可能性が低いという一般的な定義に基づく。従って、ノード間のリンク及びリンクの数を知ることによって、コミュニティを表すクラスタを識別することができる。

コンティグ間の優先的な接触頻度を示す、コンティグのサブセットへクラスタ化するための全体の接触ネットワークを用いて、全体のコンティグのセットにルーバインアルゴリズムを適用することにより、参考６３０に例示されるように、ＤＮＡフラグメントを、それらが属する生物に沿ってクラスタ化することができる。従って、工程６２５にて決定されたクラスタは、それぞれのこれらの生物のスキャフォールド並びに（最終的には）それらのゲノムをより正確に決定するために、個別に処理することができるコンティグのプールに、Ｍｅｔａ３ＣライブラリのＤＮＡフラグメントの大部分を分類するために使用される。

参照６３５で示唆されているように、情報の項目は、それぞれ決定されたクラスタに関連付けることができる。

次に、続く工程において、ＧＲＡＡＬ（３Ｄコンタクトデータから尤度評価するゲノム（再）アセンブリ（Ｇｅｎｏｍｅ（Ｒｅ）−ＡｓｓｅｍｂｌｙＡｓｓｅｓｓｉｎｇＬｉｋｅｌｉｈｏｏｄｆｒｏｍ３Ｄｃｏｎｔａｃｔｄａｔａ））とも呼ばれる３Ｄスキャフォールドアルゴリズムが実行されて（工程６４０）、各生物のゲノム構造及びスキャフォールドを決定する（参照６４５及び６５０でそれぞれ示されている）。

ＧＲＡＡＬは、ＤＮＡフラグメントの初期セットに、仮想再配列（又は構造変化）を反復的に適用するアルゴリズムである。この方法は、接触ネットワークデータと、予想される接触頻度をゲノム構造に関連付ける以前の（データ非依存の）仮定とに基づき、提案されたゲノム構造の尤度（ｌｉｋｅｌｉｈｏｏｄ）を計算する確率論的定式化に基づいている。

これらの仮定は、予測され観察された染色体内の接触頻度が、遺伝子座間のゲノム分離に強く関係するという事実を活用するものであり、典型的には近似力法則関係に従い、広範なゲノム分離に対してプラトーを示し、ここで、頻度は染色体間接触頻度に匹敵するようになるものである。

ＧＲＡＡＬアルゴリズムの初期化に使用されるサブ配列は、コンティグのセット又は参照ゲノムから生成される。それらは有利には、１つの制限断片と同じくらい小さい制限断片の規則的なビン（ｂｉｎ）へと分割される。

図９〜１１を参照して説明したように、各反復において、ＧＲＡＡＬアルゴリズムは、新規ゲノムビンを選択し、測定された接触頻度からサンプリングされたＮビンについて全ゲノムをスキャンする。次に、Ｖ異なる仮想構造変化（転座、欠失、逆転、重複を含む）を考慮して、これらの潜在的に近傍のゲノムのセットを計算する。候補ビンは、その後、このゲノムのセットの局所尤度ランドスケープ（ｌａｎｄｓｃａｐｅ）上でサンプリングされ、最も可能性の高い構造の１つが次の反復に保持される。ゲノム内の各ビンの位置は、事前にアセンブルされたコンティグのみならず、ＧＲＡＡＬアルゴリズムによって数回独立してテストされ、アセンブリ誤差の緩和及び非常に小さな構造変化の識別を可能する。

図８は、ＧＲＡＡＬを使用して、単一の分析工程においてゲノム構造及びゲノムスキャフォールドを決定するための、異なる生物の混合から得られたＭｅｔａ３Ｃライブラリを使用する第２の例を示す。

図示されるように、工程６００’〜６２０’は、それぞれ図６を参照して説明される工程６００〜６２０と同様である。これらの工程は、コンティグのセット及び接触ネットワーク情報を提供することを目的とする。

次の工程（工程８００）において、得られたコンティグのセット及び情報の接触ネットワーク項目は、処理されたＭｅｔａ３Ｃライブラリを作製するために使用された生物学的サンプル中に存在する異なる生物のそれぞれのゲノム構造及びスキャフォールドを、直接的に（すなわち、図６の工程６２５を参照して記載されるルーバインアルゴリズムのようなクラスタリング工程を実行することなく）決定するために使用される（それぞれ６４５’及び６５０’が参照される）。

図８に示唆されているように、ゲノム構造及びスキャフォールドは、処理されたＭｅｔａ３Ｃライブラリを作製するために使用される生物学的サンプル中に存在する生物を特徴付けるために使用される（工程８０５）。

ゲノム構造及びスキャフォールドを決定する工程８００は、好ましくは、図６を参照して簡単に紹介され、図９〜１１を参照してより詳細に説明されるＧＲＡＡＬアルゴリズムに基づいており、ゲノムの構造の理論的モデルは、分析される生体サンプル中に存在する異なる生物の染色体を識別するために適応される。

図示されているように、ＧＲＡＡＬアルゴリズムは、染色体のセットの構造８１５を反復的に決定するための理論モデル８１０を使用し、この構造は、理論モデル８１０を更新するためにそれぞれ反復して使用される。

ここで留意すべきことは、図６に理論モデル及び染色体構造が示されていなくても、工程６４０で実行されるＧＲＡＡＬアルゴリズムは、解決に向かって収束するために相互作用する理論モデル及び染色体構造の使用にも基づいている。

ＧＲＡＡＬアルゴリズムは、モンテカルロマルコフ連鎖（ＭＣＭＣ）タイプのアルゴリズムである。それは、観察されたデータの起源（すなわち、Ｍｅｔａ３Ｃライブラリ）であり得るゲノム構造の分布を探索することを目的とする。同じ生物に属しているか否かにかかわらず、ゲノム構造の要素間の接触頻度は、計算された理論モデルでモデル化される。ゲノム構造の分布を分析することにより、処理されたＭｅｔａ３Ｃライブラリを生成するために使用される生物学的サンプル中に存在する異なる生物の推定数を決定すること、各生物のゲノムを決定することが可能になる。

生物学的サンプル中に存在する異なる生物の推定数の決定は、接触頻度の変化に基づいている。

所与のＭｅｔａ３Ｃライブラリ（Ｄで示す）について、ＧＲＡＡＬアルゴリズムは、データと一致する１次元ゲノム構造（単数又は複数）Ｇの全体の確率分布ｐ（Ｇ｜Ｄ）の推定を探索する。このアルゴリズムは、ベイズ（Ｂａｙｅｓ）の法則
を用いた確率的アプローチに基づいている。データが存在しない場合、全ての構造Ｇが等しい確率（均一優先（ｆｌａｔｐｒｉｏｒ））を有すると仮定すると、ベイズの法則は次のように減少され得る：

ｐ（Ｄ｜Ｇ）の計算は、所与のＧについてシス及びトランス染色体接触行列Ｍと呼ばれる染色体内接触及び染色体間接触を定量的に予測するモデルを必要とする。

シス接触確率Ｐ_Cは、理論的に予測されて測定された核内に閉じ込められた染色体の挙動に従って、べき乗則（ｐｏｗｅｒ−ｌａｗ）に続くプラトー：
として、ゲノム分離ｓに依存するものと仮定される。異なる生物又は染色体に対してｂ及びｓ₀は異なる値が報告されていることに留意されたい。

また、トランス接触は、染色体近傍の事前情報の欠如及びシス接触に対するトランス接触頻度の相対的弱さを考慮して、単位ゲノム長の二乗毎の均一な確率Ｐ_tが生じると仮定される。

妨害（ｎｕｉｓａｎｃｅ）パラメータとも呼ばれる、パラメータε＝（ｂ，ｓ₀，Ｐ_t）は、ＧＲＡＡＬアルゴリズムによって推定される。

さらに、測定された接触マトリックスＭのカウントはポアソン分布、すなわち、
（式中、ビン（ｉ，ｊ）に対する接触確率λ_i,jは、トランス又はシス接触それぞれに対し、Ｐｔ又はＰｃで与えられる）
に従うと仮定される。

これらの仮定は共に、Ｍｅｔａ３Ｃライブラリ（データセットＤ）が与えられた任意のゲノム構造Ｇの尤度ｐ（Ｄ｜Ｇ，ε）を計算することを可能にする確率モデルｐ（Ｇ、ε｜Ｄ）を特定する。

モンテカルロマルコフ連鎖アルゴリズム（すなわち、ギブスサンプラ（Ｇｉｂｂｓｓａｍｐｌｅｒ））を使用して、妨害パラメータ及びゲノム構造を順次生成する。妨害パラメータは、古典的メトロポリスアルゴリズムによって、ゲノム構造の変化と交互に反復して更新される。

最初のゲノム構造Ｇ₀から開始するゲノム構造の順序Ｇ_t、ｔ＝１,２....Ｎ_tを生成する、複数のトライメトロポリスサンプラ（ＭｕｌｔｉｐｌｅＴｒｙＭｅｔｒｏｐｏｌｉｓｓａｍｐｌｅｒ）は、ゲノム構造を生成するために使用される。

現在のゲノム構造Ｇ_tが与えられると、例えば、挿入、欠失、複製、逆位、転座又はそれらの同時の組み合わせからなる仮想構造変化を適用することによって、Ｎの新規構造のランダムセットが計算される。各候補構造変化について、新規構造の尤度が上記のように計算され、次の構造Ｇ_t+1を決定するためにゲノム構造の空間に対し、局所的な確率最適化が実行される。

新規ゲノムは、メトロポリストライメトロポリス法則によって指定された確率で承認され、又は拒絶される。構造変化の一様な選択とは対照的に、この手順は、計算上、構造確率密度の効率的サンプリングを可能にする。

最後に、バーンイン（ｂｕｒｎ−ｉｎ）期間を破棄した後、ジョイン確率分布（Ｇ，ｂ，ｓ₀）を推定するために、マルコフ連鎖サンプルが用いられる。

図９は、１つ又は複数の異なる生物のゲノム構造及びスキャフォールドを決定するためのＧＲＡＡＬアルゴリズムの工程を示す。

図９は、図１０に関連して記載され、図１０ａ〜１０ｅを含み、図９に示される特定の工程を示す。

図１０ａに示されるように、対応する生物の１つに関連するゲノムを含む、異なる生物由来の細胞の混合物１０００、例えば細胞１００５−１、１００５−２及び１００５−３は、図１０ｂに表されているコンティグ１０１０−１〜１０１０−４のようなコンティグを形成するために、ＤＮＡフラグメントを表すサブ配列が組み合わせられるＭｅｔａ３ｃライブラリを作製するために使用される。

例示のために、コンティグ１０１０−１は細胞１００５−１のＤＮＡフラグメントの集合体を表し、コンティグ１０１０−２は細胞１００５−２のＤＮＡフラグメントの集合体を表し、コンティグ１０１０−３は細胞１００５−３のＤＮＡフラグメントの集合体を表し、コンティグ１０１０−４は、細胞１００５−１及び１００５−３のＤＮＡフラグメントの集合体を表す。換言すれば、コンティグ１０１０−４は、細胞１００５−１のＤＮＡ部分と細胞１００５−３のＤＮＡ部分との間の接触に起因する。ＤＮＡ部分に存在しないコンティグ１０１０−４は、キメラ対の読み込みとも呼ばれる。

図９に戻り、最初に表された工程は、標準アセンブリアルゴリズムによって予め決定されたコンティグのビニング（ｂｉｎｎｉｎｇ）に特異的である（工程９００）。工程９００によれば、各コンティグは、コンティグの一部を表すビンに分割される。ビンの長さは、ユーザによって調節することができる。有利には、読み取り間の接触の数の関数として、及び／又は読み取り間の接触頻度の関数として決定される。

特定の実施形態によれば、ビンの長さは全てのビンについてほぼ同じであり、その最小サイズは制限フラグメント（すなわち、制限酵素の断片化工程から生じるＤＮＡフラグメント）と等しく設定される。Ｍｅｔａ３ＣライブラリのＤＮＡフラグメントの全セットに対応する、工程９００を実行した後に得られるｎビンのセットは、以下の関係式で表すことができる：

ビンの例を図１０ｃに示す。説明のために、コンティグ１０１０−３は、ビン１０１０’−３１〜１０１０’−３ｎを含むビン１０１０’−３のセットに分割される。

次に、図９に戻り、ビン接触配列を構築する（工程９０５）。これは、接触ネットワークの関数として、すなわちコンティグの読み取り間の接触頻度の関数として構築される。接触ネットワークは、コンティグｉの位置ａと、コンティグｊの位置ｂとの間の接触を規定するが、ビン接触配列は、コンティグｉのビンと、コンティグｊのビンｂとの間の接触数を表す。

上記のように、これらの接触の約８０％はＤＮＡ繊維に沿って隣接するＤＮＡフラグメントに由来し、これらの接触の約２０％はＤＮＡ繊維に沿って隣接していないが、架橋工程中（Ｍｅｔａ３Ｃライブラリを構築する時）、それぞれ空間的に互いに近接するＤＮＡフラグメントに由来する。

次の工程では、ＧＲＡＡＬアルゴリズムのパラメータが初期化される（工程９１０）。これらのパラメータの中で、ＧＲＡＡＬアルゴリズムの実行中に変更されるゲノム構造Ｇ_tは、参照構造Ｇ₀（すなわち、ｔ＝０）へ初期化される。そのような参照構造は、例えば、既にアセンブルされたゲノム、部分的にアセンブルされたゲノム、又はコンティグ若しくはビンのセットであり得る。例示のために、ゲノムの初期構造は、コンティグのセット、すなわち、キメラ対の読み取りを含むアセンブルされたＤＮＡフラグメントのセットであるものと設定される。

初期化されるＧＲＡＡＬアルゴリズムの別のパラメータは、ゲノム構造の理論モデルＰ（ｓ）のパラメータε＝（ｂ，ｓ₀，Ｐ_t）を表し、理論モデルは、初期化工程中、Ｐ_ε ⁰（ｓ）で示される。特定の実施形態によれば、モデルＰ（ｓ）は、２つのビンの間の接触確率を、これらの２つのビンの間の距離に関連づける（距離は、典型的には、ＤＮＡ繊維に沿ったこれらの２つのビンの間の距離の関数として、及び／又は空間距離の関数として（例えば、２つのビンの間に接触があった場合は距離が１に等しく、それ以外の場合はゼロ）決定される）。パラメータ（ｂ，ｓ₀，Ｐ_t）は、スケールファクタと、同じ染色体の２つのビンの間、１つの異なる生物の２つの染色体の２つのビンの間、及び２つの異なる生物の２つの染色体の２つのビンの間のリンクを特徴付ける２つの閾値Ｒ₀及びＲ₁とを表すと見なされ得る。そのような理論的モデルの一例を図１０ｂに示す。

Ｉで示される、初期化される、さらに別のパラメータは、ＧＲＡＡＬアルゴリズムが実行しなければならない反復回数又はサイクル数を表す。これは、ゲノム構造が供される変異の数、すなわちゲノム構造にもたらされ得る構造変化の数を表す。例えば、パラメータＩを４，５００に設定することができる。

Ｖで示される、初期化される、さらに別のパラメータは、ゲノム構造が供される構造変化のタイプを表す。そのような構造変化は、例えば、ビンの転座、欠失、逆位、若しくは重複、及び／又はこれらの構造変化の組み合わせを含む。

θで示される、さらに別のパラメータは、候補ゲノム構造を生成する際に所定のビンについて考慮されなければならない隣接ビンの数を表す。例えば、パラメータθは、１０に設定することができる。

これらのパラメータを初期化した後、インデックスｉは、１とセットＢ＝｛ｂ₁，ｂ₂,...,ｂｉ,...,ｂｎ｝のビンの数ｎとの間の値に設定され、ビンｉが選択される（工程９１５）。インデックスｉの値は、各ビンが少なくとも１回、好ましくは同じ回数、例えば１０が選択されるように選択される。

図１０ｄは、１０１０’−ｒｓで参照される、１つのビン（ビンｉ）が選択されるビンのセットの例を示す。

図９に戻って、ビンｉを選択した後、ビニング工程９００から得られたｎビンの中から１セットのθビンが選択される（工程９２０）。特定の実施形態によれば、選択されたθビンは、ビンｉに隣接する可能性のあるθであるものとして選択される。これは、ビンiとの多数の接触と関連付けられるθビンをランダムに選択することで実施され得る。

ビン（ｊ）と示された、第１の選択されたθビンは、処理されるために識別される。

次に、選択されたビンｉ及び識別されたビンｊが、Ｇ_mJで示される候補ゲノム構造のセットを生成するために使用される（工程９２５）。これらの候補ゲノム構造は、ゲノム構造が供される構造変化の所定のタイプＶのビンｉ及びビンｊの関数として決定される。

Ｇ_mJで示される、生成されたゲノム構造の各々について、対応するゲノム構造が実際のゲノム構造である尤度値が計算される（工程９３０）。尤度値は、典型的には、ビン間の予測された接触と、現在のモデルパラメータε_tが与えられたその構造に対する観測データとを比較することによって得られる。

識別されたビンｊについて候補ゲノム構造を生成し、これらの候補ゲノム構造の各々について尤度値を計算した後、パラメータθを１減分し（工程９３５）、その値がゼロであるか否かを決定するテストを実施する（工程９４０）。

変数θの値がゼロと異なる場合、最後の４つの工程（工程９２０〜９３５）は、選択されたθビンのセットの異なるビンｊを識別するために繰り返され、新しく識別されたビンｊの関数として候補のゲノム構造を生成し、生成された候補ゲノム構造の各々についての尤度値を計算する。

反対に、変数θの値がゼロに等しい場合、すなわち、選択されたビンｉ及び選択されたθビンのそれぞれについて候補ゲノム構造を生成した後、生成された候補ゲノム構造の１つは、次のゲノム構造Ｇ_t+1であるように選択される（工程９４５）、すなわちＧ_t+1＝Ｇ_m,j。特定の実施形態によれば、生成された候補ゲノム構造の１つの選択は、複数の試行メトロポリス（ｍｕｌｔｉｐｌｅｔｒｙＭｅｔｒｏｐｏｌｉｓ）ルール（ＭＴＭ）に基づく。他の基準が、計算性能を最適化するための、特に制限の少ない基準（例えば、基本的な確率的最適化）において、使用されることに留意されたい。

図１０ｅは、選択されたビンｉ及びそれぞれの選択されたθビンに対する候補ゲノム構造を生成する工程を示す。

次に、図９に戻り、ゲノム構造の理論モデルＰ（ｓ）のパラメータε_t+1（ｂ，Ｓ₀、Ｐ_t）は、観察されたデータ及びゲノム構造Ｇ_t+1の観点から更新される（工程９５０）。説明のために、これは古典的なギブスサンプラアルゴリズム（Ｇｉｂｂｓｓａｍｐｌｅｒａｌｇｏｒｉｔｈｍ）を適用することによって実施され得る。

ゲノムの構造の理論モデルＰ（ｓ）のパラメータの値を更新した後、変数ｌを１減分し（工程９５５）、その値がゼロに等しいかどうかを判定するためにテストが実行される（工程９６０）。

変数ｌの値がゼロと異なる場合、θの値は、考慮すべき近隣ビンの数を表す値に初期化され（工程９６５）、アルゴリズムは、新規ビンｉを選択し、その後、新規の選択されたビンｉを用いて工程９２０〜９５０を反復するために工程９１５に分岐される。上述したように、９００から得られるビンのセットの各ビンは、好ましくは１回、有利には約１０回選択される。

逆に、変数ｌの値がゼロに等しい場合、アルゴリズムは停止する。

図１１ａ及び図１１ｂを含む図１１は、ＤＮＡ領域間の接触確率と、これらＤＮＡ領域間の距離との間に確立され得る関係を示す。

より正確には、図１１ａは、異なる生物の１つの同じ２つの異なる染色体に属するＤＮＡ領域との間、２つの異なる生物の２つの異なる染色体に属するＤＮＡ領域との間の接触の確率を特徴付ける２つの距離閾値Ｒ₀及びＲ₁の例を示す。

特定の実施形態によれば、ＤＮＡ領域間の距離は、典型的には、一対のＤＮＡ鎖に沿った距離（これは特に同じ染色体のＤＮＡ領域に関連する）及び空間距離（異なる染色体のＤＮＡ領域により関連性が高い）に依存する特異的な関数である。

図１１ｂは、２つのＤＮＡ領域間の距離（横座標として表される）と、これらの２つの領域間の接触確率（縦座標として表される）との間の関係を表すグラフである。説明のために、染色体は生物ごとにグループ分けされ、ＤＮＡ領域間の距離が確立されるように、単一の鎖へと互いに実質的に連結されると考えられる。

図示されるように、２つのＤＮＡ領域が同一の染色体に属する場合、これらの２つのＤＮＡ領域の間の距離は、一般にＲ₀より小さく、これらの２つのＤＮＡ領域間の接触確率は曲線１１００の部分で示すように高い。

同様に、２つのＤＮＡ領域が、１つの生物の２つの異なる染色体に属する場合、これらの２つのＤＮＡ領域の間の距離は、典型的には、Ｒ₀とＲ₁の間に含まれ、これらの２つのＤＮＡ領域の接触確率は、曲線１１０５の部分で示すように中程度である。

最後に、２つのＤＮＡ領域が２つの異なる生物の２つの異なる染色体に属する場合、これらの２つのＤＮＡ領域の間の距離は一般にＲ₁より大きく、これらの２つのＤＮＡ領域間の接触確率は、曲線１１１０の部分で示すように低い。

換言すれば、理論モデルは、２つのゲノム位置の関数として接触頻度を予測することを目的とする。示された理論モデルは、３つのレベルを含む。第１のレベルは、染色体内接触に対するものであり、第２のレベルは、染色体内及び染色体間の接触に対するものであり、第３のレベルは、異なる生物間の接触に対するものである。

第１レベルと第２レベルはＲ₀値によって区切られ、第２レベルと第３レベルはＲ₁値で区切られる。最初のレベルはポリマーの物理学に基づく。

パラメータＲ₀及びＲ₁は、対応する分布を探索しながらＧＲＡＡＬアルゴリズムの実行中に調整される。

もちろん、２以上の閾値Ｒ₀及びＲ₁は、例えば、特定の生物に特異的な特性に従って、使用することができる。

特定の実施形態によれば、ＤＮＡ領域ｘとｙとの間の接触の確率ｆと、これらのＤＮＡ領域間の距離ｄとの関係は、以下のように表すことができる：

（式中、Ｃ₁及びＣ₂は、定数である）

関係ｆは、コンパートメント間の接触の可変性を考慮に入れるように、以下のように変更することができることに留意されたい：

より一般的には、この関係は特定のニーズに適合するように修正することができる。説明のために、生物内及び生体間の接触を予測するために使用される定数Ｃ₁及びＣ₂は、共生及びコンパートメント間の再組織化などのサブアセンブリを考慮に入れて、他の定数によって置き換え及び／又は完了させることができる。

図１２ａ、図１２ｂ及び図１２ｃを含む図１２は、ＧＲＡＡＬアルゴリズム（ｔ＝０、ｔ＝５０１及びｔ＝４，５００）の３つの異なる反復で、生物学的サンプル及び対応するゲノム構造のＤＮＡフラグメント間の半接触配列の例を示す。

半接触配列は、染色体構造における推定位置の関数として順序付けられた２つのビン間の接触の数を表す。

ＧＲＡＡＬアルゴリズムが起動されると、図１２ａに示すように、ビンは擬似ランダムに順序付けされ、ここで、接触配列１２００−０及び染色体構造１２０５−０はいずれの特性パターンも表さない。

５０１の反復の後、いくつかのクラスタが接触配列上に現れ始め、図１２ｂに示すように、いくつかのパターンは染色体構造１２０５−５０１上で同定可能である。

最終的に、４，５００回の反復の後、クラスタは接触配列１２００−４５００上で明確にと認識され、染色体構造１２０５−４５００は図１２ｃに示すように構造化された情報項目を示す。

図１３は、本発明の少なくとも一部の実施形態、例えば、図６、図８、及び図９を参照して説明されたアルゴリズムの１つ又は複数を実施するように構成された処理デバイス１３００を概略的に示している。処理デバイス１３００は、マイクロコンピュータ、ワークステーション、又は高度並列計算機などのデバイスである。装置１３００は、通信バス１３１３を備え、通信バス１３１３には、好ましくは、以下と連結されている：
−ＣＰＵと呼ばれるマイクロプロセッサのような中央処理装置１３１１；
−本発明を実施するためのコンピュータプログラムを記憶するための、ＲＯＭと示される、読み出し専用メモリ１３０７；
−本発明の実施形態の方法の実行可能コード並びに本発明の実施形態によるゲノム構造決定方法を実施するために必要な変数及びパラメータを記録するように適合されたレジスタを記憶するための、ＲＡＭと示される、ランダムアクセスメモリ１３１２；及び、
−通信ネットワーク１３０３に接続され、処理されるデジタルデータを送信可能な通信インターフェース１３０２。

任意に、装置１３００は、以下の構成要素も含んでもよい：
−本発明の１つ又は複数の実施形態の方法を実施するためのコンピュータプログラムと、本発明の１つ又は複数の実施形態の実施中に使用又は生成されるデータとを格納するための、ハードディスクなどのデータ記憶手段１３０４；
−ディスクドライブはディスク１３０６からのデータの読み出し、又は前記ディスクへのデータの書き込みに適した、ディスク１３０６に対するディスクドライブ１３０５；
−キーボード１３１０又は任意の他のポインティング手段を用いて、データを表示する、及び／又はユーザとのグラフィカルインタフェースとして機能するための画面１３０９。

通信バスは、装置１３００に含まれる、又はそれへ連結された様々な要素間の通信及び相互運用性を提供する。バスの表示は限定的ではなく、特に、中央処理装置は、装置１３００の任意の要素に直接的に、又は装置１３００の別の要素によって命令を通信するように動作可能である。

ディスク１３０６は、例えば、書き換え可能又は不可能なコンパクトディスク（ＣＤ−ＲＯＭ）、ＺＩＰディスク又はメモリカードのような任意の情報媒に置き換えることができ、一般的に言えば、デジタル画像の配列を符号化する方法及び／又は実施される発明にかかるビットストリームを復号化する方法を可能にする１又は複数のプログラムが、装置に組み込まれている若しくは組み込まれていない、できる限り取り外し可能であって格納するように適合された、マイクロコンピュータ又はマイクロプロセッサによって読み取り可能である情報格納手段に置き換えることが可能である。

実行可能コードは、読み出し専用メモリ１３０７、ハードディスク１３０４上、又は例えば前述のようなディスク１３０６などの取り外し可能なデジタル媒体のいずれかに格納することができる。一変形形態によれば、プログラムの実行可能コードは、実行前に装置１３００の記憶手段のうちの１つ、例えばディスク１３０４に格納されるために、インターフェース１３０２を介して通信ネットワーク１３０３によって受信することができる。

中央処理装置１３１１は、本発明のプログラムのソフトウェアコードの部分又はプログラムの命令の実行を制御及び指示するように構成されており、命令は、前述の記憶手段のうちの１つに記憶されている。電源投入時に、例えばハードディスク１３０４又は読み出し専用メモリ１３０７などの不揮発性メモリに格納されたプログラム（単数）又はプログラム（複数）は、ランダムアクセスメモリ１３１２に転送され、その後、プログラム（単数）又はプログラム（複数）の実行可能なコード並びに本発明を実施するために必要な変数及びパラメータを記憶するためのレジスタを格納する。

この実施形態では、装置は、本発明を実施するためのソフトウェアを使用するプログラム可能な装置である。しかしながら、代替的に、本発明は、ハードウェア（例えば、特定用途向け集積回路又はＡＳＩＣの形態）で実施されてもよい。

染色体の３Ｄ構造は代謝状態と相関することが示されている。従って、混合物中に共存する多くの種の３Ｄ構造を特徴付けることによって、それらの代謝状態を明らかにする可能性がある。これは、これらの種の「増殖」状態を互いに比較することによって解読し、メタ母集団の進化の間の異なる段階（例えばストレス、急速な増殖、休止など）を同定するために適用することができる。

さらに、このアプローチは、関与する異なる種の染色体間の相互作用に基づいて、共生及び寄生事象の同定に向けて押し進められる可能性がある（診断実験における潜在的な関心）。実際に、より多くの膜が遺伝物質を囲むほど、異なる細胞小器官に存在する物質が、３Ｃ再ライゲーション工程の間に相互作用することになる可能性が低くなる理由となり得る。言い換えれば、実験の「ノイズ」は、関与するＤＮＡフラグメントの空間的近接性の指標となる。寄生虫のゲノムは、２つ（寄生虫及び宿主）のゲノムが空間内でより遠く離れている時に、その後に感染が起こる前に、例えば、細胞内増殖段階の間に、例えばマクロファージの液胞において、宿主ゲノムとより多く相互作用する可能性がある。信号対雑音比（雑音に対する）を増加させるためには、新しい架橋剤の開発が必要となるかもしれない。この適用は、診断ツールに続く侵襲的プロセスの開発にとって重要である可能性がある。

１以上の生物の染色体の断片を表す配列をアセンブルするための開示された方法は、生物学的サンプル中の真核細胞、原核細胞、又は微生物のゲノムを同定するために使用され得る。特に、開示された方法は、寄生生物、細菌、古細菌、真菌、酵母、及びウイルスタイプのうちの１つである、生物学的サンプル中の微生物のゲノムを同定するために使用され得る。それらの細胞及び微生物は、病原性、すなわち植物又は動物に対して病原性、又は非病原性であり得る。より特定の実施形態では、生物学的サンプルは、１以上の細胞種又は微生物種を含む（ｃｏｎｔａｉｎ）又は含む（ｃｏｍｐｒｉｓｅ）。

ＧＲＡＡＬアルゴリズムがＭｅｔａ３Ｃライブラリとともに使用可能である場合、他のタイプのＤＮＡフラグメントのライブラリは、Ｈｉ−Ｃライブラリ又はショットガンライブラリ及びＨｉ−Ｃライブラリの組み合わせなどを使用することができることを理解されたい。より一般的には、ＧＲＡＬＬアルゴリズムは、ＤＮＡフラグメントを表し、これらのＤＮＡフラグメントの場合には、いくつかの間の接触又は近接の情報項目を含むデータと共に使用することができる。

さらに、Ｍｅｔａ３Ｃアプローチを介してゲノムの物理的特徴を利用することは、微生物、すなわちウイルス、特にバクテリオファージ（すなわち細菌内に感染し複製するウイルス）の複雑な集団の分析に関して重要な可能性を秘めていることに留意されたい。

ファージ粒子は、天然の集団において非常に多量に存在し、それらの溶解性は、それらが遠心分離によって微生物から容易に分離されることを可能にすることが想起されるべきである。バクテリオファージはバクテリア宿主内で増殖するので、バクテリオファージ粒子の全集団は微生物のサブセットに由来する。このバランスは健康状態又は環境条件を潜在的に反映するので、バクテリオファージ及び細菌集団の両方の組成を特徴付けることが重要である。

しかしながら、バクテリオファージゲノムは古典的なメタゲノム配列決定において同定することが困難であるため、バクテリオファージの粒子集団がどの細菌株由来かを解読することは困難である。同時に、可溶性画分中のファージ粒子のゲノム配列は、これらの配列の複雑なモザイクパターンが理由で、容易にアクセスすることができない。サンプル中の自然集団内のバクテリオファージ配列の良好な理解に達することは、これまで不可能であった。

上記のＭｅｔａ３Ｃソリューションは、これらの問題を解決することができる。

図１４から図１７はそのようなアプリケーションの例を示している。図１４は一般原則を示し、図１５〜図１７は図１４に示す工程の詳細を示す。

生物学的サンプルを得た後（工程１４００）、遊離又は独立したバクテリオファージ粒子の集団をサンプルの残りから単離する（工程１４０５）。次に、これらの粒子内に含まれ、サンプル又は集団のウイロームを形成する、バクテリオファージゲノム配列が同定される（工程１４１０）。そのような同定工程は、上記のようなＭｅｔａ３Ｃプロセスに基づくことができる。並行して（又は前又は後に）、バクテリオファージ粒子が除去された残りの微生物（プラスミド、ウイルス）の全てのゲノムが同定される（工程１４２０）。

１４２５で示される、工程１４０５、１４１０、及び１４１５は、図１５を参照してより詳細に説明される。

図１５に示すように、第１の工程（工程１５００）は、生物学的サンプルを２つのアリコートに分割することを目的とし、一方はバクテリオファージ粒子の配列を同定するために使用され、他方は、ゲノム、プラスミド及びバクテリオファージ粒子を除去した後の微生物のウイルス配列の全てを同定するために使用される。

次に、バクテリオファージ粒子を第１のアリコートの天然サンプルから単離する（工程１５０５）。これらの粒子を溶解し、バクテリオファージＤＮＡ分子を溶液中に回収する（工程１５１０）。このＤＮＡは裸である。

次の工程では、例えば、標準的な市販のキットを用いて、インビトロでクロマチンを再構築する（工程１５１５）。当然のことながら、広範囲の距離にわたる、架橋する化学的な、架橋する裸のＤＮＡ領域を設計すること、又は、ヒストン及びヒストン様タンパク質抽出物の使用など、他の選択肢も可能である。

次いで、クロマチンはＭｅｔａ３Ｃを用いて処理され、Ｍｅｔａ３Ｃデータは、ウイルス粒子を含む可溶性画分に存在するバクテリオファージ配列のカタログを生成することができる（工程１５２０）。

同時に、バクテリオファージ粒子を除いた天然サンプルを上記のようにＭｅｔａ３Ｃで処理する（工程１５２５）。このコミュニティに存在する微生物のゲノムが特徴付けられる。

次いで、プラスミド及びウイルス及びバクテリオファージ（両者エピソームの下、すなわち染色体外、又は統合された、すなわちプロファージ形態）も、上記のように３Ｄ接触中の濃縮に基づいて特徴付けられ、それらのそれぞれの宿主細胞に割り当てられる（図１４の工程１４２０）。

これらの生物内で同定されたバクテリオファージ配列を、可溶性画分に存在するバクテリオファージの配列と比較する。これは、どの細菌が可溶性画分に見られる異なるバクテリオファージを産生しているかを明らかにする。

１５３０で示される工程１５０５及び１５１０を実行する例が図１６に示され、１５３５で示される工程１５１５及び１５２０を実行する例が図１７に示される。

図１８は、図１４〜図１７に示された工程を示す。

図示のように、生物学的サンプル１８００は、細胞、例えば細胞１８０５−１、１８０５−２、及び１８０５−３、並びに総称して１８１０又は１８１０’で示されるバクテリオファージ粒子を含む。

各細胞は、典型的には、細菌ゲノム及びプラスミドゲノム並びにバクテリオファージゲノムを含む。例示のために、細胞１８０５−１は、バクテリオファージ粒子１８１０−１、バクテリオファージゲノム１８３５−１及び細菌ゲノム１８１５−１を含む。遊離バクテリオファージ又は独立バクテリオファージで表示されるこれらのバクテリオファージのいくつかは、参照１８１０’に示されるように、細菌の外部に存在するバクテリオファージ粒子へと増殖し得る。

上述したように、及び参照１８２０に示されるように、細菌外のバクテリオファージ粒子は、バクテリオファージゲノムの配列を決定するように生物学的サンプルから抽出され、ファージオーム（ｐｈａｇｅｏｍｅ）を形成する。

同時に、参照１８２５に例示されるように、バクテリオファージ粒子が除去された生物学的サンプルの細菌、プラスミド及びバクテリオファージゲノムが配列決定される。

次に、参考１８３０に示されるように、ファージオームとゲノムとの間の対応関係が確立される。

当然のことながら、局所的及び特定の要件を満たすために、当業者は、上述した解決策に多くの修正及び変更を適用することができるが、これらは全て、以下の特許請求の範囲に定義される本発明の保護の範囲内に含まれる。

Claims

少なくとも１つのライブラリの全てのＤＮＡフラグメントを表す未処理のサブ配列のセットに基づき、少なくとも１つの生物の少なくとも１つの染色体の少なくとも１つの断片を表す少なくとも１つの配列をアセンブルするためのコンピュータのための方法であって、前記少なくとも１つのライブラリが、前記少なくとも１つの染色体の連続したヌクレオチドの鎖を含むＤＮＡフラグメントを含み、かつ、前記少なくとも１つの染色体の連続するヌクレオチドの少なくとも２つの鎖の組合せを含むＤＮＡフラグメントを含むものであり、
前記方法が、以下の工程：
−前記少なくとも１つの染色体のＤＮＡ領域間の接触頻度を表す第１の値を得る工程であり、ここで前記第１の値が、対応するＤＮＡ領域間の距離を表す第２の値と関連づけられる、工程；及び
−反復して以下の工程を実行する工程：
−前記第１及び第２の値に基づいて、及び、ＤＮＡ領域間の接触確率と対応するＤＮＡ領域間の距離とを関連付ける理論モデルに基づいて、ゲノム構造を更新する工程であって、更新されたゲノム構造が、前記少なくとも１つの生物の前記少なくとも１つの染色体の前記少なくとも１つの断片の実際のゲノム構造を表す、工程；及び
−前記更新されたゲノム構造の関数として、前記理論的モデルのパラメータを更新する工程、
を含む、方法。
２つのＤＮＡ領域間の距離が、所定の経路に沿った２つのＤＮＡ領域間の距離及び／又は２つのＤＮＡ領域間の空間距離の関数として決定される、請求項１に記載の方法。
少なくとも１つのライブラリの全てのＤＮＡフラグメントを表す未処理のサブ配列を、複数のビンに分割する工程をさらに含む、請求項１又は２に記載の方法。
複数のゲノム候補構造を生成する工程と、生成された候補ゲノム構造のそれぞれについて、実際のゲノム構造に近い明示的尤度値を計算する工程をさらに含む、請求項１〜３のいずれか１項に記載の方法。
前記複数のゲノム候補構造を生成する工程が、転座、欠失、逆位及び重複の少なくとも１つの変異を含む所定の構造変化に基づく、請求項４に記載の方法。
前記生成されたゲノム候補構造の１つが、複数試行メトロポリスタイプ（multiple try Metropolis type）の法則に従って、関連する尤度値の関数として選択される、請求項４又は請求項５に記載の方法。
前記ゲノム候補構造が、ビンの構造的変異によって決定される、請求項３に従属する請求項４〜６のいずれか１項に記載の方法。
前記理論モデルパラメータを更新する工程が、ギブスサンプラタイプ（Gibbs sampler type）のアルゴリズムに基づく、請求項１〜７のいずれか１項に記載の方法。
前記理論モデルが、ＤＮＡ領域間の染色体内及び染色体間接触からＤＮＡ領域間の染色体内接触を識別するために使用される閾値を表す少なくとも１つのパラメータを含む、請求項１〜８のいずれか１項に記載の方法。
前記理論的モデルは、ＤＮＡ領域間の染色体内接触又はＤＮＡ領域間の染色体内及び染色体間接触と、異なる生物間の接触とを識別するために使用される閾値を表す少なくとも１つのパラメータを含む、請求項１〜９のいずれか１項に記載の方法。
前記少なくとも１つのライブラリのＤＮＡフラグメントをクラスタ化する工程をさらに含み、各クラスタが特定の生物に関連し、クラスタ化されたＤＮＡフラグメントに対応する未処理のサブ配列がクラスタベースの配列決定用に処理される、請求項１〜９のいずれか１項に記載の方法。
前記ライブラリのＤＮＡフラグメントをクラスタ化する工程が、ルーバインタイプ（Louvain type）のアルゴリズムに基づく、請求項１１に記載の方法。
前記少なくとも１つの生物の前記少なくとも１つの染色体の前記少なくとも１つの断片を表す前記少なくとも１つの配列中の少なくとも１つのＤＮＡ配列を同定する工程をさらに含む、請求項１〜１２のいずれか１項に記載の方法。
少なくとも１つの生物の全体的な染色体構造を特徴付けるための、請求項１〜１２のいずれか１項に記載の方法であって、全体的な染色体構造が対応するゲノムの三次元構造から特徴付けられる、前記少なくとも１つの生物の代謝状態を推測する工程をさらに含む、方法。
生物学的サンプル中の真核細胞、原核細胞、又は微生物のゲノムを同定するための方法であって、前記方法が、請求項１〜１４のいずれか１項に記載の少なくとも１つの生物の少なくとも１つの染色体の少なくとも１つの断片をアセンブルする方法の各工程を含む、方法。
生物学的サンプル中の微生物のゲノムを同定するための請求項１５に記載の方法であり、前記微生物が、寄生生物、細菌、古細菌、真菌、酵母及びウイルスタイプの１つである、方法。
請求項１〜１６のいずれか１項に記載の方法であり、さらに、以下の工程：
−少なくとも１つの染色体の少なくとも１つの断片を含む、調製された生物学的サンプルの染色体断片を架橋する工程；
−少なくとも２つの異なるタイプの制限酵素を用いて架橋された染色体を断片化する工程；及び
−断片化工程から得られる染色体の断片を配列決定する工程、
を含む方法。
少なくとも１つの生物の少なくとも１つの染色体の少なくとも１つの断片をアセンブルする方法であり、前記方法が、以下の工程：
−少なくとも１つの染色体の少なくとも１つの断片を含む生物学的サンプルを調製する工程；
−調製された生物学的サンプルの染色体の断片を架橋する工程；
−少なくとも２つの異なるタイプの制限酵素を用いて架橋された染色体を断片化する工程；
−断片化工程から生じる染色体の断片を配列決定する工程；及び
−染色体の配列決定された断片をアセンブルする工程、
を含む、方法。
調製された生物学的サンプルの染色体の断片の架橋が、３％の最終濃度を有するホルムアルデヒドを用いて実施される、請求項１８に記載の方法。
架橋した染色体のガラスビーズ又はセラミックビーズに基づく機械的溶解工程をさらに含み、機械的溶解が、少なくとも２つの異なるタイプの制限酵素を用いて断片化する前に実施される、請求項１８又は１９に記載の方法。
生物学的サンプルのウイローム（virome）とゲノムとの間の対応関係（correspondence）を確立する方法であり、前記方法が以下の工程：
−生物学的サンプルから独立したウイルス粒子の集団を抽出する工程；
−請求項１〜１７のいずれか１項に記載の方法に基づいて、独立したウイルス粒子の抽出された集団のウイルスゲノム配列を同定する工程であって、同定されたウイルスゲノム配列がウイロームを形成する、工程；
−生物学的サンプル中の細菌、プラスミド及びウイルスゲノム配列を同定する工程であって、ここで、生物学的サンプルのゲノムを形成するために、請求項１〜１７のいずれか１項に記載の方法に基づいて、ウイルス粒子の集団が抽出されたものである、工程；及び
−生物学的サンプルのウイロームとゲノムとの間の対応関係を、物理的接触に基づいて確立する工程、
を含む、方法。
前記ウイロームがファージオーム（phageome）であり、かつ、前記ウイルス粒子がバクテリオファージ粒子である、請求項２１に記載の方法。
抽出されたバクテリオファージ粒子集団のバクテリオファージを溶解する工程、溶解されたバクテリオファージのＤＮＡを抽出する工程、及び抽出されたＤＮＡからクロマチンを再構築する工程、をさらに含む、請求項２２に記載の方法。
請求項１〜２３のいずれか１項に記載の方法の各工程を実行するように構成された手段を含む装置。
プログラム可能な装置のためのコンピュータプログラム製品であり、プログラムがプログラム可能な装置によってロードされて実行された場合、前記コンピュータプログラム製品が、請求項１〜１６のいずれか一項に記載の方法の各工程を実行するための命令を含む、コンピュータプログラム製品。