JP6762932B2 - シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス - Google Patents

シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス Download PDF

Info

Publication number
JP6762932B2
JP6762932B2 JP2017518960A JP2017518960A JP6762932B2 JP 6762932 B2 JP6762932 B2 JP 6762932B2 JP 2017518960 A JP2017518960 A JP 2017518960A JP 2017518960 A JP2017518960 A JP 2017518960A JP 6762932 B2 JP6762932 B2 JP 6762932B2
Authority
JP
Japan
Prior art keywords
lead
contig
read
contigs
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2017518960A
Other languages
English (en)
Other versions
JP2018500625A (ja
JP2018500625A5 (ja
Inventor
コンヴィカ,カレル
ジェイコブズ,ケヴィン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Invitae Corp
Original Assignee
Invitae Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Invitae Corp filed Critical Invitae Corp
Publication of JP2018500625A publication Critical patent/JP2018500625A/ja
Publication of JP2018500625A5 publication Critical patent/JP2018500625A5/ja
Application granted granted Critical
Publication of JP6762932B2 publication Critical patent/JP6762932B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

関連出願の相互参照
本特許出願は、発明者としてKarel KonvickaおよびKevin Jacobsの名義により「METHODS,SYSTEMS AND PROCESSES OF DE NOVO ASSEMBLY OF SEQUENCING READS」という名称で2014年10月10日に出願されかつ代理人整理番号055911−0432229により指定された仮特許出願第62/062636号に基づく利益を主張する。以上の特許出願の全内容は、本文、表、および図面をすべて含めて参照により本明細書に組み込まれる。
本技術は、部分的には、核酸の操作、分析、および高スループットシーケンシングの方法およびプロセスに関する。
生物(たとえば、動物、植物、微生物、ウイルス)の遺伝情報は、デオキシリボ核酸(DNA)またはリボ核酸(RNA)にコードされている。遺伝情報は、核酸の一次構造を表す一連のヌクレオチドまたは修飾ヌクレオチドである。生物の核酸含有物(たとえば、DNA)は、ゲノムと呼ばれることが多い。ヒトにおいて、完全ゲノムは、典型的には、24個の染色体上に位置する約30,000個の遺伝子を含有する。ほとんどの遺伝子は、転写および翻訳を介する発現の後に生細胞内で1つ以上の生化学的機能を発揮する特定のタンパク質をコードする。
多くの医学的病態は、ゲノム内での1つ以上の遺伝的変異により引き起こされる。いくつかの遺伝的変異は、たとえば、糖尿病、動脈硬化症、肥満、種々の自己免疫性疾患、癌(たとえば、結腸直腸癌、乳癌、卵巣癌、肺癌)などのいくつかの疾患のいずれかの素因を個体に与えうるかまたはそれらを引き起こしうる。かかる遺伝病は、ゲノム内での1つ以上のヌクレオチドの付加、置換、挿入、または欠失から生じうる。
遺伝的変異は、核酸の分析により同定可能である。ゲノムの核酸は、たとえば、大規模並列シーケンシングを含む方法をはじめとして、種々の方法により分析可能である。大規模並列シーケンシング技術は、多くの場合、何千、何百万、さらには何十億もの小さいシーケンシングリードを生成する。ゲノム配列を決定するために、各リードは、多くの場合、参照ゲノムにマッピングされ、リードのコレクションは、個体のゲノムまたはその一部の配列表現としてアセンブルされる。リードのマッピングおよびアセンブリーのプロセスは、1台以上のコンピューター(たとえば、ハードウェアマイクロプロセッサー(すなわちマイクロプロセッサー)およびメモリー)により行われ、人の手を経て生成された命令セット(たとえば、ソフトウェア命令および/またはアルゴリズム)により駆動される。かかるマッピングおよびアセンブリーのプロセスは、被験体のゲノムで遺伝的変異に遭遇すると失敗することが多い。既存のソフトウェアおよびプログラムは、リードを誤ってマッピングしてリードのマッピングに失敗し、遺伝的変異を含むゲノムの領域を適正にアセンブルすることができない。本明細書の方法、システム、およびプロセスは、現在の核酸分析技術に大幅な進歩および改善を提供する。
いくつかの態様では、実行可能プログラムを記憶した非一時的コンピューター可読記憶媒体を含む核酸ライブラリーの分析方法が本明細書に提供される。このプログラムは、(a)複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得するステップであって、各ペアが2つのリードメイトを含み、各ペアの2つのリードメイトの少なくとも1つが、所定の対象のゲノム領域を含む参照ゲノムの少なくとも1つの部分にマッピングされ、かつペアエンドシーケンスリードのいくつかが参照ゲノムの少なくとも1つの部分にマッピングされない、ステップと、(b)シーケンスリードセットのパイルアップ関係を決定するステップと、(c)(b)で決定されたパイルアップ関係に従って1つ以上のコンティグを構築するステップであって、1つ以上のスターターリードの3’位置または5’位置に少なくとも1つのヌクレオチドを繰り返し付加するステップを含み、その位置(たとえば前進位置)がマジョリティーコンセンサスヌクレオチドを含む、ステップと、(d)2つ以上のコンティグをブリッジする1つ以上のリードメイトペアに従って1つ以上のスーパーコンティグをアセンブルするステップと、(e)1つ以上のスーパーコンティグに従って遺伝子型尤度比を生成するステップと、(f)(e)で生成した遺伝子型尤度比に従って遺伝子変異の存在または不在を決定するステップと、をマイクロプロセッサーに命令するように構成される。
いくつかの態様では、パイルアップ関係は、セットの2つ以上のリード間の複数のオーバーラップを含み、複数のオーバーラップのそれぞれは、(i)セットの第1のリードがセットの第2のリードとの第1のオーバーラップを含み、(ii)第1のオーバーラップが所定のアライメントスコア閾値よりも大きいアライメントスコアを含み、(iii)第2のリードが第1のリードの3’末端または5’末端を越えて1つ以上のヌクレオチドを伸長し、かつ(iv)第1のオーバーラップが(i)、(ii)、および(iii)を満たすすべての可能な第1のオーバーラップのうち最も高いアライメントスコアを含むように選択される。いくつかの態様では、パイルアップ関係は、セットの第3のリードとの第2のオーバーラップを含む第2のリードを含み、(i)第2のリードは第1のオーバーラップを含み、(ii)第2のオーバーラップは所定のアライメントスコア閾値よりも大きいアライメントスコアを含み、(iii)第3のリードは第2のリードの3’末端または5’末端を越えて1つ以上のヌクレオチドを伸長し、かつ第2のリードおよび第3のリードは同一の3’方向または5’方向に第1のリードを伸長し、しかも(iv)第2のオーバーラップは(i)、(ii)、および(iii)を満たすすべての可能な第2のオーバーラップのうち最も高いアライメントスコアを含む。
いくつかの態様では、マジョリティーコンセンサスヌクレオチドは、パイルアップ関係で決定された複数のオーバーラップに従って決定される。ある特定の実施形態では、コンティグを構築するステップは、1つ以上の中間コンティグのそれぞれの3’位置または5’位置に少なくとも1つのヌクレオチドを繰り返し付加するステップを含む。いくつかの実施形態では、位置(たとえば前進位置)が2つの異なるマジョリティーコンセンサスヌクレオチドを含む場合、コンティグを構築するステップは、中間コンティグのコピーを生成することにより2つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが2つの同一の中間コンティグのそれぞれに付加されるように2つの異なるマジョリティーコンセンサスヌクレオチドの1つを2つの同一の中間コンティグのそれぞれに付加するステップと、を含む。いくつかの実施形態では、位置(たとえば前進位置)が3つの異なるマジョリティーコンセンサスヌクレオチドを含む場合、コンティグを構築するステップは、中間コンティグの2つのコピーを生成することにより3つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが3つの同一の中間コンティグのそれぞれに付加されるように3つの異なるマジョリティーコンセンサスヌクレオチドの1つを3つの同一の中間コンティグのそれぞれに付加するステップと、を含む。いくつかの実施形態では、位置(たとえば前進位置)が4つの異なるマジョリティーコンセンサスヌクレオチドを含む場合、コンティグを構築するステップは、中間コンティグの3つのコピーを生成することにより4つの同一の中間コンティグを提供ステップと、異なるヌクレオチドが4つの同一の中間コンティグのそれぞれに付加されるように4つの異なるマジョリティーコンセンサスヌクレオチドの1つを4つの同一の中間コンティグのそれぞれに付加するステップと、を含む。
いくつかの態様では、サンプルは1名以上のヒト被験体から取得される。
ある特定の実施形態は、以下の説明、実施例、特許請求の範囲、および図面にさらに記載される。
図面は、技術の実施形態を例示するものであり限定するものではない。例示を明確にかつ容易にするために、図面は原寸通り作成されておらず、いくつかの場合には、種々の態様は特定の実施形態の理解を容易にするために誇張または拡大して示されることもある。
システムフローチャートの実施形態(たとえばKragle)を示している。 伸長リードのデフォルト最小カウント(1に設定)を用いたオーバーラップおよびリード−リード接続フィルタリング例の実施形態を示している。リード(赤色)は、それを右側に伸長するリードA〜G(緑色)を有する。これらの伸長リードのいくつかは、それらを右側に伸長するリード(青色)も有する。赤色リードは、それを右側に伸長するリードへの3つの接続を保持するであろう。最も高いスコアを有することからリードAを保持するであろうが、リードAはそれを右側に伸長するリードをなんら有していないので、赤色リードはリードBおよびCも保持するであろう。これらの2つのリードは同一のスコア(1200)を有し、かつそれらを右側に伸長するリードを有する。追加のリード接続は必要でなく、赤色リードは、3つの接続間にそれ自体右側に伸長可能な少なくとも1つのリードを有する(リードBおよびCは両方とも他のリードにより右側に伸長可能である)。 オーバーラップの実施形態を示している。リードAは、リードB(多型塩基Aを有するハプロタイプ上)およびリードC(多型塩基Cを有するハプロタイプ上)の両方への接続を保持しなければならない。リードAを右側に伸長する最良スコアのリードであることからリードBへの接続を保持するであろう(リードB自体がそれを右側に伸長するリードを有する場合、リードA自体は追加の接続を必要としない)。しかしながら、リードAはリードCを左側に伸長する最良スコアのリードであるので、リードAとリードCとの間の接続はリードCにより強いられる。それゆえ、リードAは、それを両方とも右側に伸長する2つの接続を有するであろうが、それぞれ異なるハプロタイプに対するものである。 「全リクルート」エッジおよびコンセンサス配列の伸長を示すコンティグアセンブリーの実施形態を示している。一塩基伸長「全リクルート」インターバル内にあるリードはすべて、現在の繰返しでリクルートされるであろう。 2つ以上のマジョリティーコンセンサスヌクレオチドが前進位置に存在するコンティグアセンブリーの実施形態を示している。図5は、コンティグのスプリット(コピー)の表現を示している。A/C多型位置は、遭遇すると現在のコンティグを2つにスプリットさせる。塩基A(青色)を有する5つのリードのうち3つのリード(またはそれらのメイト)は前のスプリット位置を横切る。塩基C(緑色)を有する3つのリードペアのうち2つは前のスプリット位置を横切る。ハプロタイプ調整カウントが0となる塩基はないので、2つの新しいコンティグが現在のコンティグから生成されるであろう。赤色リードに加えて、一方のコンティグは、塩基A(青色リード)を有するリードペアを選び、他方のコンティグは、塩基C(緑色リード)を有するリードペアを選ぶであろう。 多型塩基Cを有するリードがハプロタイプ調整カウント0を有する(たとえば、塩基Cを有するリードペアが前のスプリット位置を横切らない)ことからコンティグスプリッティングをサポートしない多型リードパイルアップを示している。したがって、塩基Cを有するリードペアはコンティグから排除され、新しいコンティグを生成しないであろう。 スーパーコンティグアセンブリーの実施形態を示している。a)の赤色コンティグは第1のA/C多型位置に遭遇し、新しいコンティグ(青色)をスプリットオフする。赤色コンティグは他のG/T多型位置に遭遇し、他のコンティグ(緑色)をスプリットオフする。青色コンティグを構築する場合、それは赤色コンティグのG/Tスプリットと同一のG/T多型位置に遭遇する(同一のリード組成およびリード中位置)。したがって、このスプリットはマーキングされるだけであり、青色コンティグの残りの部分は構築されない。しかしながら、コンティグ統合段階で、青色コンティグは、マッチングスプリットを有していた赤色コンティグの2つの可能な末端部が追加されてb)で4つのコンティグの最初の2つをもたらす。 どのようにコンティグが接続されてスーパーコンティグを形成するかの実施形態を示している。コンティグ接続の以下のグラフは、5つのスーパーコンティグもたらす(スタートノードからエンドノードまでのグラフを通る5つの経路)。 偽挿入の周りの仮説配列へのリードペアアライメントを示している。偽挿入は、メイトが近接フランクにクロスオーバーしないリード(青色)で構成される。かかる偽挿入は、通常、真リピートに由来するリードとこの領域の外側の配列に由来するリード中のリピート配列との間でいくつかの偽アライメントを達成する可能性のある繰返し領域で起こる。 パイルアップ関係を形成するステップと、コンティグをアセンブルするステップと、スーパーコンティグをアセンブルするステップと、遺伝子型確率を生成するステップと、を含む実施形態の概要を示している。 パイルアップ関係(たとえば、リード−リードアライメント)を生成するプロセスの例を記述している。 オーバーラップをフィルタリングする実施形態を示している。 リードアライメントグラフサイクルの実施形態を示している。 コンティグおよび/またはスーパーコンティグをアセンブルする実施形態を示している。 コンティグアセンブリーの実施形態を記述している。 コンティグアセンブリーの他の実施形態を示している。 コンティグアセンブリープロセス時にコンティグをスプリット(たとえばコピー)するステップを含む実施形態を記述している。 コンティグアセンブリーを最終決定する実施形態を記述している。 スーパーコンティグをアセンブルする実施形態を示している。 二倍体仮説の例を示している。 挿入ペナルティー部分を含む遺伝子型尤度モデルの例を示している。 個別対立遺伝子表現の誘導の例を示している。 Kragle法の一部の実施形態を示している。 Kragleを適用することにより得られた結果の例を示している。 CFTRコーラーの例を示している。 困難なアセンブリータスクの例を示している。 BRCA1遺伝子のエキソン19で確認されたヘテロ接合欠失に対してアセンブルされた2つのハプロタイプのマッピングの例を示している。この図は、欠失を含有するハプロタイプ2の3’側のマッピングを表している。 ハプロタイプ2の5’側のマッピングおよびBRCA1遺伝子のエキソン19で実験的に確認された欠失のアセンブリーの例を示している。
次世代シーケンシング(NGS)は、伝統的シーケンシング法よりも高速かつ安価な方法によりゲノムワイドスケールで核酸のシーケンシングを可能にする。本明細書の方法およびプロセスは、遺伝的変異の位置決定ならびに/または関連する疾患および障害の同定に使用可能な先端的シーケンシング技術の改善を提供する。いくつかの実施形態では、大規模並列シーケンシング法により得られることが多いシーケンスリードの操作および分析を部分的に含む方法が本明細書に提供される。
伝統的なアセンブラーおよびアライナーは、遺伝的変異(たとえば、ショートタンデムリピート(STR)、多型、挿入など)を含有するゲノム配列を適正にアセンブルできないことが多い。STRなどの遺伝的変異をコールすることは、ほとんどのアライナーおよびマッパーにとって難しい問題である。既存のアルゴリズムおよびソフトウェアパッケージは、かかるゲノム変異を含むゲノム領域でリードを適正にマッピングしアライメントすることができない。これに関連して試験し失敗したアセンブラーの例としては、Lobstr、Repeatseq、および一般的de−novoアセンブラー、たとえば、GATKハプロタイプコーラー、AMOS de−novoアセンブラー、Mira de−novoアセンブラー、FERMI、SGAなどが挙げられる。遺伝的変異を含むゲノム領域を適正にかつルーチンでアセンブル可能であるおよび/またはシーケンシングリードセットから遺伝的変異を正確に同定可能である新しい改善されたシステムおよび方法(たとえば、マイクロプロセッサーに依存する方法)の必要性が高い。かかる方法、システム、およびプロセスが本明細書に記載され特許請求される。
被験体
被験体は、限定されるものではないが、ヒト、非ヒト動物、植物、細菌、菌類、ウイルス、または原生生物を含めて、任意の生きているまたは生きていない生物でありうる。被験体は任意の年齢でありうる(たとえば、胚、胎児、乳児、子供、成人)。被験体は任意の性別でありうる(たとえば、男性、女性、またはそれらの組合せ)。被験体は妊娠していてもよい。被験体は患者でありうる(たとえば、ヒト患者)。
サンプル
本明細書には、サンプルを分析するための方法および組成物が提供される。サンプル(たとえば、核酸を含むサンプル)は好適な被験体から取得しうる。サンプルは被験体またはその一部から直接的に単離または取得しうる。いくつかの実施形態では、サンプルは個人または医療専門家から間接的に取得される。サンプルは、被験体またはその一部から単離または取得される任意の検体でありうる。サンプルは、複数の被験体から単離または取得される任意の検体でありうる。検体の例としては、限定されるものではないが、被験体に由来する流体または組織、たとえば、限定されるものではないが、血液または血液産物(たとえば、血清、血漿、血小板、バフィーコートなど)、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、脊髄液、洗浄液(たとえば、肺、胃、腹膜、腺管、耳、関節鏡検査)、生検サンプル、羊膜外腔穿刺サンプル、細胞(血液細胞、リンパ球、胎盤細胞、幹細胞、骨髄由来細胞、胚細胞、もしくは胎児細胞)またはその一部(たとえば、ミトコンドリア、核、抽出物など)、尿、糞便、痰、唾液、鼻粘液、前立腺液、洗浄液、***、リンパ液、胆汁、涙液、汗、母乳、胸液など、またはそれらの組合せが挙げられる。核酸が抽出される流体サンプルまたは組織サンプルは無細胞でありうる(たとえば、細胞フリー)。組織の例としては、限定されるものではないが、器官組織(たとえば、肝臓、腎臓、肺、胸腺、副腎、皮膚、膀胱、生殖器官、腸、結腸、脾臓、脳など、またはそれらの一部)、上皮組織、毛髪、毛嚢、導管、管路、骨、眼、鼻、口、咽頭、耳、爪など、それらの一部、またはそれらの組合せが挙げられる。サンプルは、正常、健常、疾患(たとえば感染)、および/または癌性の細胞または組織を含みうる(たとえば癌細胞)。被験体から取得されるサンプルは、複数の生物の細胞または細胞物質(たとえば核酸)を含みうる(たとえば、ウイルス核酸、胎児核酸、細菌核酸、寄生生物核酸)。
いくつかの実施形態では、サンプルは核酸またはその断片を含む。サンプルは1つ以上の被験体から取得した核酸を含む。いくつかの実施形態では、サンプルは単一の被験体から取得した核酸を含む。いくつかの実施形態では、サンプルは核酸の混合物を含む。核酸の混合物は、異なるヌクレオチド配列、異なる断片長さ、異なる起源(たとえば、ゲノム起源、細胞起源もしくは組織起源、被験体起源など、またはそれらの組合せ)、あるいはそれらの組合せを有する2つ以上の核酸種を含みうる。サンプルは合成核酸を含みうる。
核酸
「核酸」という用語は、DNA(たとえば、相補的DNA(cDNA)、ゲノムDNA(gDNA)など)、RNA(たとえば、メッセージRNA(mRNA)、低分子阻害RNA(siRNA)、リボソームRNA(rRNA)、tRNA、マイクロRNA)、ならびに/またはDNAアナログもしくはRNAアナログ(たとえば、塩基アナログ、糖アナログ、および/もしくは非天然骨格などを含有する)、RNA/DNAハイブリッド、さらにはポリアミド核酸(PNA)などの任意の組成の1つ以上の核酸(たとえば、核酸のセットまたはサブセット)を意味する。これらの核酸はすべて、一本鎖または二本鎖の形態でありうるとともに、とくに限定されない限り、天然に存在するヌクレオチドと同じように機能しうる天然のヌクレオチドの公知のアナログを包含しうる。とくに限定されない限り、この用語は、デオキシリボヌクレオチド、リボヌクレオチド、および天然のヌクレオチドの公知のアナログを含む核酸を包含する。核酸は、その等価体、誘導体、または変異体として、ヌクレオチドアナログ、一本鎖(「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム)ポリヌクレオチド、および二本鎖ポリヌクレオチドから合成されたRNAまたはDNAの好適なアナログを含みうる。核酸は一本鎖または二本鎖でありうる。核酸は、2以上、3以上、4以上、または5以上の任意の長さの隣接ヌクレオチドでありうる。核酸は、配列(たとえば核酸配列、たとえば配列)として当技術分野で公知の特定の5’→3’の順のヌクレオチドを含みうる。
核酸は、天然に存在しうるおよび/または人の手を経て合成、コピー、もしくは改変されうる。たとえば、核酸はアンプリコンでありうる。核酸は、核酸ライブラリー、たとえば、gDNA、cDNA、RNAのライブラリーなどに由来しうる。核酸は、合成(たとえば化学合成)可能であるかまたは生成可能である(たとえばin vitroでのポリメラーゼ伸長により、たとえば増幅により、たとえばPCRにより)。核酸は、プラスミド、ファージ、ウイルス、自律複製配列(ARS)、動原体、人工染色体、染色体、あるいは複製しうるかまたはin vitroでもしくは宿主細胞で複製されうる他の核酸、細胞、ある特定の実施形態では細胞の細胞核または細胞質でありうるか、あるいはそれらに由来しうる。核酸(たとえば、核酸のライブラリー)は、1個のサンプルまたは2個以上のサンプルに由来する(たとえば、1個以上、2個以上、3個以上、4個以上、5個以上、6個以上、7個以上、8個以上、9個以上、10個以上、11個以上、12個以上、13個以上、14個以上、15個以上、16個以上、17個以上、18個以上、19個以上、または20個以上のサンプルに由来する)核酸を含みうる。本明細書に記載のプロセスまたは方法に提供される核酸は、1〜1000個、1〜500個、1〜200個、1〜100個、1〜50個、1〜20個、または1〜10個のサンプルに由来する核酸を含みうる。
「遺伝子」という用語は、ポリペプチド鎖の産生に関与するDNAセグメントを意味し、遺伝子産物の転写/翻訳および転写/翻訳のレギュレーションに関与するコード領域の前および後の領域(リーダーおよびトレーラー)さらには個別コードセグメント(エキソン)間の介在配列(イントロン)を含みうる。遺伝子は、必ずしもペプチドを産生しうるとは限らないか、または遺伝子配列の遺伝的変異(たとえば、遺伝子のコード部分および非コード部分の突然変異)に起因してトランケートタンパク質もしくは非機能的タンパク質を産生しうる。遺伝子は、機能的か非機能的かにかかわらず、多くの場合、参照ゲノムの遺伝子に対する相同性により同定可能である。
オリゴヌクレオチドは比較的短い核酸である。オリゴヌクレオチドは、約2〜150、2〜100、2〜50、または2〜約35の核酸長でありうる。いくつかの実施形態では、オリゴヌクレオチドは一本鎖である。ある特定の実施形態では、オリゴヌクレオチドはプライマーである。プライマーは、多くの場合、選択された相補的核酸にハイブリダイズするように構成され、かつハイブリダイズ後にポリメラーゼにより伸長されるように構成される。
核酸の単離および精製
核酸は、当技術分野で公知の好適な方法を用いて1つ以上の被験体、1つ以上のサンプル、または1つ以上の供給源から誘導、単離、抽出、精製、または部分精製しうる。核酸の単離、抽出、および/または精製のために任意の好適な方法を使用可能である。
本明細書で用いられる「単離」という用語は、その元の環境(たとえば、天然に存在する場合は天然環境または外因的に発現される場合は宿主細胞)から取り出された核酸、それゆえヒトが介入して(たとえば「人の手を経て」)その元の環境から改変された核酸を意味する。本明細書で用いられる「単離された核酸」という用語は、被験体(たとえばヒト被験体)から取り出された核酸を意味しうる。単離された核酸は、サンプル源に存在する非核酸分子の量よりも少ない非核酸分子(たとえば、タンパク質、脂質、低分子化合物、炭水化物、汚染物質、粒子、凝集体、塩、界面活性剤など)を有するように提供可能である。単離された核酸を含む組成物は、非核酸分子が約50%〜99%超除去されうる。単離された核酸を含む組成物は、非核酸分子が約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%超除去されうる。本明細書で用いられる「精製」という用語は、核酸を精製手順に付す前に存在していた非核酸分子の量よりも少ない非核酸分子を含有するという条件を満たす核酸を意味しうる。精製された核酸を含む組成物は、他の非核酸分子が少なくとも約60%、70%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%超除去されうる。精製された核酸を含む組成物は、他の核酸が少なくとも約60%、70%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%超除去されうる。精製された核酸を含む組成物は、精製方法の適用前にサンプル中に存在していた全核酸の少なくとも80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%超を含みうる。
核酸シーケンシング
ある特定の実施形態では、核酸(たとえば、アンプリコン、ライブラリーの核酸、キャプチャーされた核酸)は、核酸シーケンシングを含むプロセスにより分析される。いくつかの実施形態では、核酸はシーケンシングされうる。いくつかの実施形態では、完全または実質的に完全な配列が得られ、ときには部分配列が得られる。
好適な核酸シーケンシング法を使用可能であり、その例としては、限定されるものではないが、マキサム・ギルバート法、チェーンターミネーション法、ライゲーションによるシーケンシング、合成によるシーケンシング、質量分析によるシーケンシング、顕微鏡観察に基づく技術など、またはそれらの組合せが挙げられる。いくつかの実施形態では、第1世代技術、たとえば、マイクロ流体サンガーシーケンシングを含めて自動サンガーシーケンシング法をはじめとするサンガーシーケンシング法などを本明細書に提供される方法で使用可能である。いくつかの実施形態では、核酸イメージング技術(たとえば、透過型電子顕微鏡法(TEM)および原子間力顕微鏡法(AFM))の使用を含むシーケンシング技術を使用可能である。いくつかの実施形態では、高スループットシーケンシング法が使用される。高スループットシーケンシング法は、一般に、大規模並列方式でときにはフローセル内でシーケンシングされるクローン増幅DNAテンプレートまたは単一DNA分子を含む。大規模並列方式でDNAをシーケンシング可能な次世代(たとえば第2世代および第3世代)シーケンシング技術を本明細書に記載の方法で使用可能であり、本明細書ではまとめて「大規模並列シーケンシング」(MPS)と呼ぶ。本明細書に記載の方法を実施するのに好適な任意のMPS法または次世代シーケンシング法、システム、または技術プラットフォームを用いてシーケンシングリードを取得可能であり、その例としては、限定されるものではないが、Illumina/Solex/HiSeq(たとえば、Illuminaゲノムアナライザー、ゲノムアナライザーII、HISEQ2000、HISEQ2500)、SOLiD、Roche/454、PACBIO、SMRT、Helicos True単分子シーケンシング、Ion TorrentおよびIon半導体に基づくシーケンシング、WildFire5500、5500xlW、および/または5500xlW遺伝子アナライザーに基づく技術(たとえば、Life Technologiesにより開発され販売されている)、ポロニーシーケンシング、パイロシーケンシング、大規模並列シグネチャーシーケンシング、RNAポリメラーゼ(RNAP)シーケンシング、IBS法、LaserGenシステムおよび方法、化学増感電界効果トランジスター(CHEMFET)アレイ、電子顕微鏡法に基づくシーケンシング、ナノボールシーケンシング、ライゲーションによるシーケンシング、合成によるシーケンシング、ハイブリダイゼーションによるシーケンシングなど、またはそれらの変法が挙げられる。核酸イメージング技術(たとえば、透過型電子顕微鏡法(TEM)および原子間力顕微鏡法(AFM))の開発の利用を含むそのほかのシーケンシング技術もまた、本明細書で企図される。いくつかの実施形態では、高スループットシーケンシング法が使用される。高スループットシーケンシング法は、一般に、大規模並列方式でときにはフローセル内でシーケンシングされるクローン増幅DNAテンプレートまたは単一DNA分子を含む。いくつかの実施形態では、MPSシーケンシング法は、特定の対象の染色体、遺伝子、または領域からシーケンスリードが生成される標的法を利用する。対象の特定の染色体、遺伝子、または領域は、本明細書では標的ゲノム領域とも呼ばれる。ある特定の実施形態では、サンプル中のほとんどまたはすべての核酸断片がランダムにシーケンシング、増幅、および/またはキャプチャーされる非標的法が使用される。
シーケンスリード
核酸をシーケンシング法に付すと、多くの場合、シーケンスリードが提供される。本明細書で用いられる場合、「リード」(たとえば、「リード」、「シーケンスリード」)とは、本明細書に記載のまたは当技術分野で公知の任意のシーケンシングプロセスにより生成された短いヌクレオチド配列のことである。リードは、核酸断片の一方の末端から生成可能であり(「シングルエンドリード」)、ときには核酸断片の両方の末端から生成される(たとえば、ペアエンドリード、ペアエンドシーケンスリード、ダブルエンドリード)。ペアエンドリードは、多くの場合、1つ以上のリードペア(たとえば、2つのリード、リードメイトペア)を含み、各リードペアは、シーケンシングされた核酸断片の各末端から取得したものである。リードメイトペアの各リードは、本明細書ではリードメイトと呼ばれることもある。ペアエンドシーケンシング法(たとえば、1つ以上の核酸ライブラリーがシーケンシングされる場合)は、多くの場合、複数のリードメイトペアおよび複数のリードメイトをもたらす。
シーケンスリードの長さは、多くの場合、特定のシーケンシング技術に関連する。たとえば、高スループット法および/または次世代シーケンスは、塩基対(bp)のサイズが何十〜何百の間でさまざまでありうるシーケンスリードを提供する。いくつかの実施形態では、シーケンスリードは、約15bp〜約900bpの長さの平均長、メジアン長、または絶対長である。ある特定の実施形態では、シーケンスリードは、約1000bp以上の平均長、メジアン長、または絶対長である。
シングルエンドリードは任意の好適な長さでありうる。いくつかの実施形態では、シングルエンドリードの公称長、平均長、または絶対長は、ときには、約10ヌクレオチド〜約1000隣接ヌクレオチド、約10ヌクレオチド〜約500隣接ヌクレオチド、約10ヌクレオチド〜約250隣接ヌクレオチド、約10ヌクレオチド〜約200隣接ヌクレオチド、約10ヌクレオチド〜約150隣接ヌクレオチド、約15隣接ヌクレオチド〜約100隣接ヌクレオチド、約20隣接ヌクレオチド〜約75隣接ヌクレオチド、または約30隣接ヌクレオチド、または約50隣接ヌクレオチドである。ある特定の実施形態では、シングルエンドリードの公称長、平均長、または絶対長は、約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは50ヌクレオチドまたはそれ以上の長さである。
ペアエンドリード(たとえばリードメイト)は、任意の好適な長さでありうる。ある特定の実施形態では、核酸断片の両方の末端は、各リード(たとえば、断片テンプレートの両方の末端のリード)を参照ゲノムにマッピングするのに十分な好適なリード長でシーケンシングされる。ある特定の実施形態では、ペアエンドリードの公称長、平均長、または絶対長は、約10隣接ヌクレオチド〜約500隣接ヌクレオチド、約10隣接ヌクレオチド〜約400隣接ヌクレオチド、約10隣接ヌクレオチド〜約300隣接ヌクレオチド、約50隣接ヌクレオチド〜約200隣接ヌクレオチド、約100隣接ヌクレオチド〜約200隣接ヌクレオチド、または約100隣接ヌクレオチド〜約150隣接ヌクレオチドである。ある特定の実施形態では、ペアエンドリードの公称長、平均長、または絶対長は、約125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170ヌクレオチドまたはそれ以上である。
リードは、一般に、物質核酸中のヌクレオチド配列の表現である。たとえば、配列のATGC描写を含有するリードでは、物質核酸内で「A」はアデニンヌクレオチドを表し、「T」はチミンヌクレオチドを表し、「G」はグアニンヌクレオチドを表し、かつ「C」はシトシンヌクレオチドを表す。比較的短いリードの混合物は、本明細書に記載のプロセスにより被験体に存在するゲノム核酸の表現に変換可能である。たとえば、比較的短いリードの混合物は、コピー数変異(たとえばコピー数変異)、遺伝的変異、または異数性の表現に変換可能である。複数の被験体に由来する核酸の混合物のリードは、複数の被験体のそれぞれに対してゲノムまたはその一部の表現に変換可能である。ある特定の実施形態では、被験体に由来するサンプルの核酸配列リードを「取得するステップ」および/または1名以上の参照者に由来する生物学的検体の核酸配列リードを「取得するステップ」は、核酸を直接シーケンシングして配列情報を取得するステップを含みうる。いくつかの実施形態では、「取得ステップ」は、他の方法で核酸から直接取得した配列情報を受け取るステップを含みうる。
リードのマッピング
シーケンスリードはマッピング可能である。いくつかの実施形態では、好適なマッピング方法、プロセス、またはアルゴリズムを使用可能である。ある特定の実施形態では、修正マッピング方法およびプロセスが本明細書で使用される。マッピングプロセスのある特定の態様を以下に記載する。
ヌクレオチド配列リード(たとえば、物理的ゲノム位置が未知である断片の配列情報)のマッピングは、いくつかの方法で実施可能であり、多くの場合、取得したシーケンスリードまたはその一部と参照ゲノム中のマッチング配列とのアライメントを含む。かかるアライメントでは、シーケンスリードは、一般に、参照配列にアライメントされ、アライメントするリードは、「マッピングされた」、「マッピングされたシーケンスリード」、または「マッピングされたリード」として表される。
本明細書で用いられる場合、「アライメント」という用語は、マッチ(たとえば100%の同一性)または部分マッチとして同定可能な2つ以上の核酸配列を意味する。アライメントは、手動でまたはコンピューター(たとえば、ソフトウェア、プログラム、コンピュータープログラムコンポーネント、またはアルゴリズム)により実施可能であり、その例としては、限定されるものではないが、Illuminaゲノム解析パイプラインの一部として頒布されるヌクレオチドデータコンピュータープログラムの効率的局所アライメント(ELAND)が挙げられる。シーケンスリードのアライメントは100%の配列マッチでありうる。いくつかの場合には、アライメントは、100%未満の配列マッチ(たとえば、非完全マッチ、部分マッチ、部分アライメント)である。いくつかの実施形態では、アライメントは、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、または75%のマッチである。いくつかの実施形態では、アライメントはミスマッチを含む。いくつかの実施形態では、アライメントは、1、2、3、4、5個、またはそれ以上のミスマッチを含む。いずれかの鎖を用いて2つ以上の配列をアライメント可能である。ある特定の実施形態では、核酸配列は他の核酸配列の逆相補体にアライメントされる。
種々の計算方法を用いてシーケンスリードを参照ゲノムにマッピングおよび/またはアライメントすることが可能である。マッピングコンポーネントによりまたはマッピングコンポーネント(たとえば、好適なマッピングおよび/またはアライメントプログラム)を含むマシンもしくはコンピューターによりシーケンスリードをマッピングすることが可能であり、マッピングコンポーネントは、一般に、リードを参照ゲノムまたはそのセグメントにマッピングする。シーケンスリードおよび/またはペアエンドリードは、多くの場合、好適なマッピングおよび/またはアライメントプログラムを用いて参照ゲノムにマッピングされ、その例としては、限定されるものではないが、BWA(Li H.and Durbin R.(2009)Bioinformatics 25,1754−60)、Novoalign[Novocraft(2010)]、Bowtie(Langmead B,et al.,(2009)Genome Biol.10:R25)、SOAP2(Li R,et al.,(2009)Bioinformatics 25,1966−67)、BFAST(Homer N,et al.,(2009)PLoS ONE 4,e7767)、GASSST(Rizk,G.and Lavenier,D.(2010)Bioinformatics 26,2534−2540)、およびMPscan(Rivals E.,et al.(2009)Lecture Notes in Computer Science 5724,246−260)などが挙げられる。シーケンスリードおよび/またはペアエンドリードは、好適なショートリードアライメントプログラムを用いてマッピングおよび/またはアライメントすることが可能である。ショートリードアライメントプログラムの例は、限定されるものではないが、BarraCUDA、BFAST、BLASTN、BLAST、BLAT、BLITZ、Bowtie(たとえば、BOWTIE1、BOWTIE2)、BWA、CASHX、CUDA−EC、CUSHAW、CUSHAW2、drFAST、FASTA、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP、Geneious Assembler、iSAAC、LAST、MAQ、mrFAST、mrsFAST、MOSAIK、MPscan、Novoalign、NovoalignCS、Novocraft、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、PROBEMATCH、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTG、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOCS、SSAHA、SSAHA2、Stampy、SToRM、Subread、Subjunc、Taipan、UGENE、VelociMapper、TimeLogic、XpressAlign、ZOOMなど、それらの修正版、またはそれらの組合せである。マッピングコンポーネントは、当技術分野で公知のまたは本明細書に記載の好適な方法によりシーケンシングリードをマッピングすることが可能である。いくつかの実施形態では、マッピングコンポーネントまたはマッピングコンポーネントを含むマシンもしくはコンピューターは、マッピングされたシーケンスリードを提供するのに必要である。マッピングコンポーネントは、多くの場合、好適なマッピングおよび/またはアライメントのプログラムまたはアルゴリズムを含む。
いくつかの実施形態では、1つ以上のシーケンスリードおよび/またはシーケンスリードに関連する情報は、好適なコンピューター可読形式で非一時的コンピューター可読記憶媒体に記憶されるおよび/またはそれからアクセスされる。非一時的コンピューター可読記憶媒体の記憶された情報は、ファイルまたはデータファイルと呼ばれることもある。リード(たとえば、個別リード、ペアエンドリード、リードメイト、リードメイトペア)、選択されたリード、リードのセットもしくはサブセット、および/または1つ以上のリードに関連する情報は、多くの場合、ファイルまたはデータファイルに記憶される。ファイルは形式を含むことが多い。たとえば、シーケンスリードは、1つ以上のシーケンスリードに関する情報を含む形式で記憶されることが多く、かかる情報の例としては、限定されるものではないが、完全核酸配列または部分核酸配列、マッピング性、マッピング性スコア、マッピングされた位置、他のマッピングされたもしくはマッピングされていないリードからの相対位置または距離(たとえば、リードメイト間の推定距離)、参照ゲノムまたは他のリードに対する(たとえば、リードメイトに対する)向き、リードメイトの推定位置または精密位置、G/C含有率など、またはそれらの組合せが挙げられる。「コンピューター可読形式」は、本明細書では一般に形式と呼ばれることもある。いくつかの実施形態では、シーケンスリードは、好適なバイナリー形式、テキスト形式など、またはそれらの組合せで記憶および/またはアクセスされる。バイナリー形式はBAM形式であることもある。テキスト形式は配列アライメント/マップ(SAM)形式である。バイナリー形式および/またはテキスト形式の例としては、限定されるものではないが、BAM、ソートBAM、SAM、SRF、FASTA、FASTQ、Gzipなど、またはそれらの組合せが挙げられる。
いくつかの実施形態では、本明細書のプログラムは、1つ以上のファイル(たとえばソートbamファイル)を取得または検索すべくマイクロプロセッサーに命令するように構成される。いくつかの実施形態では、本明細書のプログラムは、1つ以上のFASTQファイル(たとえば、第1のリードおよび第2のリードのためのFASTQファイル)ならびに/または1つ以上の参照ファイル(たとえば、FASTAもしくはFASTQファイル)を取得または検索すべくマイクロプロセッサーに命令するように構成される。いくつかの実施形態では、本明細書のプログラムは、1つ以上のコンピュータープログラムコンポーネント(たとえば、アダプタートリマーコンポーネント、BWA−MEMアライナー、インサートサイズ分布コンポーネント、サムツール、など)にまたはそれらからコンピュータープログラムコンポーネントおよび/または転送データおよび/または情報(たとえばファイル)をコールするようにマイクロプロセッサーに命令する。いくつかの実施形態では、プログラムは、他の処理ステップへの入力のために新しいファイルおよび形式を生成するコンピュータープログラムコンポーネントをコールするようにプロセッサーに命令する(実施例1および図1を参照されたい)。いくつかの実施形態では、第1の形式のシーケンスリードは、第1の形式よりも少ない記憶スペースを必要とする第2の形式に圧縮される。本明細書で用いられる「圧縮」という用語は、コンピューター可読データファイルのサイズが削減されるデータ圧縮、ソースコーディング、および/またはビットレート削減のプロセスを意味する。圧縮コンポーネントの例としては、限定されるものではないが、GZIP、BGZFなど、またはそれらの修正版が挙げられる。
いくつかの実施形態では、リードは、参照ゲノムに一義的にまたは非一義的にマッピングされうる。参照ゲノム中の単一の配列にアライメントされた場合、リードは「一義的にマッピングされた」とみなされる。参照ゲノム中の2つ以上の配列にアライメントされた場合、リードは「非一義的にマッピングされた」とみなされる。いくつかの実施形態では、非一義的にマッピングされたリードはさらなる分析(たとえば定量)から除外される。ある特定の実施形態では、ある特定の小さいミスマッチ度(0〜1)は、参照ゲノムとマッピング対象の個別のサンプル由来のリードと間に存在する可能性のある単一ヌクレオチド多型を補償すべく許容されうる。いくつかの実施形態では、参照配列にマッピングされたリードに対してミスマッチ度が許容されない。
本明細書で用いられる場合、「参照ゲノム」という用語は、被験体から同定された配列の参照に使用しうる任意の生物またはウイルスの任意の特定の公知のシーケンシングされたまたは特徴付けられたゲノム(一部であるか全部であるかを問わず)を意味しうる。参照ゲノムは、参照ゲノムのセグメント(たとえば、染色体またはその一部、たとえば、参照ゲノムの1つ以上の部分)を意味することもある。ヒトゲノム、ヒトゲノムアセンブリー、および/または任意の他の生物に由来するゲノムは、参照ゲノムとして使用可能である。1つ以上のヒトゲノム、ヒトゲノムアセンブリー、さらには他の生物のゲノムは、www.ncbi.nlm.nih.govの国立バイオテクノロジー情報センター(National Center for Biotechnology Information)に見いだしうる。「ゲノム」とは、核酸配列で発現される生物またはウイルスの完全遺伝情報を意味する。本明細書で用いられる場合、参照配列または参照ゲノムは、多くの場合、1つまたは複数の個体に由来するアセンブルまたは部分アセンブルされたゲノム配列である。いくつかの実施形態では、参照ゲノムは、1名以上のヒト個体に由来するアセンブルまたは部分アセンブルされたゲノム配列である。いくつかの実施形態では、参照ゲノムは、染色体に帰属される配列を含む。本明細書で用いられる「参照配列」という用語は、1つ以上の参照サンプルの1つ以上のポリヌクレオチド配列を意味する。いくつかの実施形態では、参照配列は、参照サンプルから取得したシーケンスリードを含む。いくつかの実施形態では、参照配列は、シーケンスリード、リードのアセンブリー、および/またはコンセンサスDNA配列(たとえば配列コンティグ)を含む。いくつかの実施形態では、参照サンプルは、遺伝的変異(たとえば、当該の遺伝的変異)を実質的に含まない参照被験体から取得される。いくつかの実施形態では、参照サンプルは、公知の遺伝的変異を含む参照被験体から取得される。本明細書で用いられる「参照」という用語は、参照ゲノム、参照配列、参照サンプル、および/または参照被験体を意味しうる。いくつかの実施形態では、シーケンスリードは、たとえば、GenBank、dbEST、dbSTS、EMBL(欧州分子生物学研究所(European Molecular Biology Laboratory))、およびDDBJ(日本のDNAデータバンク)を含めて、当技術分野で公知の核酸データベースに見いだしうるおよび/または核酸データベースの配列にアライメントしうる。BLASTまたは類似のツールは、同定された配列を配列データベースで検索するために使用可能である。
ある特定の実施形態では、マッピング性はゲノム領域(たとえば、一部、ゲノム部分)で評価される。マッピング性とは、たとえば、0、1、2個またはそれ以上のミスマッチを含めて、典型的には指定数までのミスマッチで、ヌクレオチド配列リードを参照ゲノムの一部に一義的にアライメントする能力のことである。いくつかの実施形態では、マッピング性はスコアまたは値として提供され、スコアまたは値は好適なマッピングアルゴリズムまたはコンピューターマッピングソフトウェアにより生成される。一義的ヌクレオチド配列のストレッチを含むゲノム領域にアライメントされた高品質シーケンスリードは、高いマッピング性値を有することが多い。
ペアエンドリードは、参照ゲノムに従って同一のポリヌクレオチド断片の対向末端にマッピングされることもある。いくつかの実施形態では、リードメイトペアの1つのリードだけが参照ゲノムにマッピングされる。いくつかの実施形態では、リードメイトペアのリードメイトは独立してマッピングされている。いくつかの実施形態では、リードメイトペアの両方のリードメイトの情報(たとえば、向き、推定インサートサイズ、リード間の推定距離)は、マッピングプロセス時に因子として組み込まれる。参照ゲノムは、多くの場合、リードメイトペア間に位置する核酸の配列を決定および/または推測するために使用される。2つのペアエンドリード間に位置する核酸は、多くの場合、本明細書ではインサートと呼ばれる。いくつかの実施形態では、インサートサイズは、リードメイトペアの両方のリードメイトを参照配列にマッピングすることにより決定または推定される。いくつかの実施形態では、インサートサイズ(たとえば長さ)は分布に従って推定または決定される。ある特定の実施形態では、利用可能インサートを含むインサートサイズの確率は、インサートサイズ分布により決定される。いくつかの実施形態では、インサートサイズは好適な分布および/または好適な分布関数により決定される。いくつかの実施形態では、インサートサイズまたは推定インサートサイズは、分布関数を含むことが多いインサートサイズ分布コンポーネントにより決定される。分布関数の例としては、限定されるものではないが、確率関数、確率分布関数、確率密度関数(PDF)、カーネル密度関数(カーネル密度推定)、累積分布関数、確率質量関数、離散確率分布、絶対連続単変量分布など、任意の好適な分布、またはそれらの組合せが挙げられる。インサートサイズは、平均、規格化、および/または加重インサート長から生成される。インサートサイズ分布は、シーケンシングされた核酸ライブラリーの断片から誘導される推定および/または既知の核酸断片長に従って推定される。いくつかの実施形態では、好適な記憶媒体は、記憶された推定インサート長、インサート長分布などを含む。ある特定の実施形態では、シーケンスリードは、インサートサイズ分布、推定インサート長、リードメイト間の推定距離など、またはそれらの組合せを含む。
リードリクルートメント
いくつかの実施形態では、本明細書の方法、プロセス、またはシステムは、リードリクルートメントプロセスを含む。リードリクルートメントプロセスは、多くの場合、リードリクルートメントコンポーネントにより行われる。ある特定の実施形態では、リードリクルートメントプロセスは、本明細書に記載のシーケンスリードを取得および/または選択するステップを含む。いくつかの実施形態では、リードリクルートメントプロセスは、複数のリードからリードサブセットを取得および/または選択する方法を含む。
いくつかの実施形態では、リードメイトペアの一方のリードメイト(たとえば、ペアエンドシーケンシング法から取得される)は参照ゲノムにマッピングされ、かつリードメイトペアの他方のリードメイトは、参照ゲノムに誤ってマッピングされるか、参照ゲノムにマッピングできないか、または低いマッピング性スコアを含む。かかるリードメイトペアは、不一致リードメイトペアと呼ばれることもある。いくつかの実施形態では、不一致リードメイトペアは、対象の参照ゲノムの領域(たとえば、対象のゲノム領域)にマッピングされる一方のリードメイトを含み、かつ他方のリードメイトは対象の参照ゲノムの一部にマッピングできない。いくつかの実施形態では、不一致リードメイトペアは、対象の参照ゲノムの一部(たとえば、対象のゲノム領域の一部)にマッピングされる第1のリードメイトと、参照ゲノムの予想外の位置にマッピングされる第2のリードメイトと、を含む。参照ゲノムの予想外の位置の例としては、限定されるものではないが、(i)第1のリードがマッピングされた染色体とは異なる染色体、(ii)第1のリードメイトから所定の距離(その例としては、限定されるものではないが、推定インサートサイズから予測される距離が挙げられる)を超えて分離された、すなわち、300bp超、500bp超、1000bp超、5000bp超、または10,000bp超の距離だけ分離されたゲノム位置、(iii)第1のリードと一致しない向き(たとえば、反対の向き)など、それらの組合せが挙げられる。いくつかの実施形態では、不一致リードメイトペアは、参照ゲノムの第1のセグメントにマッピングされる第1のリードメイトまたはその一部と、マッピングできないおよび/または低いマッピング性(たとえば、低いマッピング性スコア)を含む第2のリードメイトと、を含む。いくつかの実施形態では、不一致リードメイトペアは、参照ゲノムの第1のセグメントまたはその一部にマッピングされる第1のリードメイトと、第2のリードメイトと、を含み、第2のリードメイトまたはその一部のマッピング性は決定されない。不一致リードメイトペアは、好適な不一致リード同定コンポーネントによりまたは不一致リード同定コンポーネントを含むマシンにより同定可能であり、不一致リード同定コンポーネントは、一般に、不一致リードメイトペアを同定する。不一致リード同定コンポーネントの例としては、限定されるものではないが、SVDetect、Lumpy、BreakDancer、BreakDancerMax、CREST、DELLYなど、またはそれらの組合せが挙げられる。いくつかの実施形態では、不一致リードメイトペアはアルゴリズムやコンポーネントにより同定されない。ある特定の実施形態では、不一致リードペアは、ペアエンドリードメイトを同定するアルゴリズムにより同定され、リードメイトペアの一方のリードメイトは、参照ゲノムにマッピングされ、かつリードメイトペアの他方のリードメイトは、参照ゲノムに誤ってマッピングされるか、参照ゲノムにマッピングできないか、または低いマッピング性スコアを含む。
いくつかの実施形態では、リードリクルートメントプロセスは、対象のゲノム領域の参照ゲノムにマッピングされるすべてのペアエンドリードを(たとえば、複数のリードから)選択および/または取得する。いくつかの実施形態では、各リードメイトペアの少なくとも1つが対象のゲノム領域の参照ゲノムに完全にまたは部分的にマッピングされるペアエンドリードはすべて、本明細書の分析のために取得および/または使用される。いくつかの実施形態では、各リードメイトペアの少なくとも一方または両方が対象のゲノム領域の参照ゲノムに完全にまたは部分的にマッピングされるペアエンドリードはすべて、本明細書の分析のために取得および/または使用される。いくつかの実施形態では、各不一致リードメイトペアのリードの少なくとも1つが対象のゲノム領域の参照ゲノムにマッピングされる不一致リードメイトペアはすべて、本明細書の分析のために取得および/または使用される。
いくつかの実施形態では、本明細書の方法またはシステムは、複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得するステップを含む。いくつかの実施形態では、本明細書の方法またはシステムは、複数のリードメイトペアからなるペアエンドシーケンスリードセットを取得するステップを含む。ある特定の実施形態では、リードメイトペアのシーケンシングリードの各ペアは、ペアエンドシーケンシング法から取得される。ある特定の実施形態では、リードメイトペアのシーケンシングリードの各ペアは、2つのリードメイトからなる。リードメイトは、多くの場合、シーケンシングリードである。いくつかの実施形態では、本明細書の方法またはシステムは、複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得するステップを含み、各ペアのリードメイトの少なくとも1つまたはその一部は、所定の対象のゲノム領域を含む参照ゲノムの少なくとも一部にマッピングされ、かつペアエンドシーケンスリードのいくつかは、所定の対象のゲノム領域を含む参照ゲノムの少なくとも1つの部分にマッピングされない。
いくつかの実施形態では、本明細書の方法およびシステムは、ペアエンドシーケンスリードから取得したリードメイトペアの両方のリードメイトをリクルートすることにより、拡張STR、配列接合、および大きな複雑な変異を含む領域でリードマッピング問題を回避する。この場合、リードメイトペアの第1のリードは、リードメイトペアの第2のリードのマッピング性にかかわらず、対象のゲノム領域にマッピングされる。ある特定の実施形態では、本明細書の方法およびシステムは、マッピングされたリードメイトの位置、リードメイトペアの両方のリードメイトの向き、および/またはリードメイト間の推定距離(たとえば、推定インサートサイズ)を利用して、遺伝的変異を含みうる被験体から取得したゲノム核酸の領域をアセンブルする。
ある特定の実施形態では、本明細書の方法およびシステムは、リードがマッピングされる対象の1つのゲノム領域を使用する。ある特定の実施形態では、本明細書の方法およびシステムは、スプリットリードシグナルまたは不一致メイトシグナルを用いて同定されたものでありうる対象の2つのゲノム領域を用いて、転座および/または接合を含む遺伝的変異にまたはその近傍に位置するリードをリクルートおよび/または検索する。いくつかの実施形態では、対象のゲノム領域は事前に選択される(たとえば、リードを取得する前、リードをリクルートする前、リードを分析、マッピング、および/またはアセンブルする前)。対象のゲノム領域はゲノムの任意の好適な部分でありうる。対象のゲノム領域は、1つ以上の染色体、遺伝子、エキソン、イントロン、非翻訳領域(たとえば、調節領域、プロモーター/エンハンサー領域)、メチル化領域、非メチル化領域、またはそれらの一部を含むかまたはそれからなる。いくつかの実施形態では、対象のゲノム領域は、遺伝的変異を有する疑いのある領域または既知の遺伝的変異(たとえば、他の被験体またはサブ集団ですでに同定されている遺伝的変異)を含有する可能性のある領域を含む。いくつかの実施形態では、対象のゲノム領域は遺伝的変異を含む。いくつかの実施形態では、対象のゲノム領域は遺伝的変異を含まない。
シーケンスリード(たとえばリードメイト)は、多くの場合、既知の向きを含む。たとえば、記憶媒体は、多くの場合、リードメイトの既知の向きを含有するファイルを含む。いくつかの実施形態では、リードメイトの向きおよび/または推定インサートサイズは、パイルアップ、コンティグ、および/またはスーパーコンティグ内にあるマッピングされた、マッピングされない、不十分にマッピングされた、または一致しないリードメイトの位置を決定するために使用される。
いくつかの実施形態では、シーケンスリードはトリミングされる。ある特定の実施形態では、トリミングとは、シーケンスリードから合成核酸および/または異種核酸または核酸の一部を同定および/または除去するステップを意味する。ただし、合成核酸および/または異種核酸は、ライブラリーの構築および/またはシーケンシング法で使用したものである。異種核酸は、多くの場合、被験体ゲノムに対して異種または外来である。トリミングされることが多い合成核酸および/または異種核酸の例としては、限定されるものではないが、アダプター、プラスミド、ベクター、プライマー結合部位、インデックスタグ(たとえば、核酸バーコード配列)、核酸キャプチャー配列など、またはそれらの組合せが挙げられる。いくつかの実施形態では、トリミングは、合成および/または異種のシーケンシングリードの部分を欠失および/または無視するようにプロセッサーに命令するステップを含む。合成核酸、異種核酸、および/またはトリミングされる核酸は、多くの場合、本明細書の方法またはプロセスに含まれない。いくつかの実施形態では、シーケンスリードは、ペアエンドシーケンスリードセットの取得前または取得時にトリミングされる。いくつかの実施形態では、シーケンスリードは、パイルアップ関係の決定、フィルタリング、1つ以上のコンティグの構築、1つ以上のスーパーコンティグのアセンブリー、および/または遺伝子型尤度比の生成の実施前または実施時にトリミングされる。ある特定の実施形態では、トリミングはトリミングコンポーネントにより実施される。
パイルアップ関係
いくつかの実施形態では、本明細書の方法またはプロセスは、シーケンスリードのセットまたはサブセットでパイルアップ関係を決定するステップを含む。いくつかの実施形態では、パイルアップ関係は、対象の参照ゲノムの領域にリードのいくつかをマッピングする場合にセットの複数のリード間に1つ以上のオーバーラップ(たとえば、複数のオーバーラップ)を含む。いくつかの実施形態では、パイルアップ関係はタイリンググラフの構築を含む。いくつかの実施形態では、パイルアップ関係はペアエンドシーケンスリードセットのすべてのリードを含む。いくつかの実施形態では、パイルアップ関係はペアエンドシーケンスリードセットの選択されたリードを含む。いくつかの実施形態では、オーバーラップは2つ以上のリードのアライメントを含む。ある特定の実施形態では、オーバーラップはアライメントスコアを含む。ある特定の実施形態では、オーバーラップはk−merハッシングストラテジーに従って決定される。
いくつかの実施形態では、パイルアップ関係は複数のオーバーラップを含む。ある特定の実施形態では、パイルアップ関係は、選択および/または記憶された(たとえば、メモリーに記憶された)1つ以上のオーバーラップを含む。パイルアップ関係を決定するステップは、複数のリード間のすべての可能なオーバーラップを決定および/または評価するステップを含むこともある。ある特定の実施形態では、すべての可能なオーバーラップのうちいくつかのオーバーラップのみが選択および/または記憶される。ある特定の実施形態では、選択されたすべてのオーバーラップが記憶され、パイルアップ関係に使用される。
パイルアップ関係に使用されるオーバーラップは、多くの場合、1つ以上の基準を満たす。たとえば、いくつかの実施形態では、第1の基準は、アライメント閾値スコアを上回る第1のリードと第2のリードとの間のオーバーラップを含む。いくつかの実施形態では、セットの第1のリードがセットの第2のリードとのオーバーラップを含み、かつオーバーラップが所定のアライメントスコア閾値またはカットオフよりも大きいアライメントスコアを含む場合、オーバーラップは選択および/または記憶される。いくつかの実施形態では、セットの第1のリードがセットの1、2、3個またはそれ以上の他のリードとのオーバーラップを含み、かつオーバーラップが所定のアライメントスコア閾値よりも大きいアライメントスコアを含む場合、オーバーラップは選択および/または記憶される。いくつかの実施形態では、セットの第1のリードがセットの1、2、3個またはそれ以上の他のリードとのオーバーラップを含み、オーバーラップのそれぞれが所定のアライメントスコア閾値よりも大きいアライメントスコアを含み、かつオーバーラップのそれぞれが同一のアライメントスコアを含む場合、オーバーラップは選択および/または記憶される。アライメントスコアは任意の好適な方法またはアルゴリズムにより決定可能であり、その例としては、限定されるものではないが、SmithおよびWatermanの方法(Smith TF,Waterman MS.,1981)J.Theor.Biol.91(2):379−80、およびSmith TF,Waterman MS.,(1981)J.Mol.Biol.147(1):195−7)ならびにNeedlemanの方法(Needleman,S.B.and Wunsch,C.D.(1970)J.Mol.Biol.48(3):443−53)が挙げられる。たとえば、いくつかの実施形態では、スミス・ウォーターマンのアルゴリズムは、マッチスコアが10でありかつミスマッチペナルティーが−500である場合、500のアライメントスコアカットオフで使用される。ある特定の実施形態では、挿入および欠失(in/del)はリード−リードアライメント時に禁止および/または除外される。いくつかの実施形態では、挿入または欠失を開始または伸長するペナルティーはすべてのまたはほとんどのin/delを除外するのに十分な程度に高く設定される。いくつかの実施形態では、ギャップは許容されない。ある特定の実施形態では、いくつかのin/delはリード−リードアライメント時に許容可能または組込み可能である。
いくつかの実施形態では、第2の基準は、すべての可能なオーバーラップのうち最も高いアライメントスコアであるオーバーラップを必要とする。いくつかの実施形態では、選択および/または記憶されるオーバーラップは、リードセットの第1のリードと任意の他のリードとの間のすべての可能なオーバーラップ(たとえば、すべての可能なアライメント)のうち最も高いアライメントスコアを含む。ときには、選択および/または記憶されるオーバーラップは、第1のリードと複数の他のリードとの間で決定された複数のオーバーラップ(たとえば、複数のアライメント)のうち最も高いアライメントスコアを含む。
いくつかの実施形態では、オーバーラップは、リードの3’末端または5’末端を越えて1つ以上のヌクレオチドを伸長する。いくつかの実施形態では、第3の基準は、第1のリードの5’または3’末端を越えて第1のリードを伸長するオーバーラップを必要とする。ある特定の実施形態では、第1のリードは、5’方向または3’方向のいずれかにかつ第1のリードの末端を越えて第1のリードを伸長するオーバーラップを含む。第1のリードを伸長する第1のリードと第2のリードとの間のオーバーラップは、多くの場合、第1のリードの3’末端または5’末端を越えて伸長する第2のリードの1つ以上のヌクレオチドを含む。ときには、オーバーラップは、第1のリードと第2のリードとがオーバーラップしかつオーバーラップが第1のリードの3’末端または5’末端を越えて第1のリードを伸長する場合に選択または記憶される。いくつかの実施形態では、オーバーラップは、リードの3’末端または5’末端を越えて少なくとも1、2、3、4、5、6、7、8、9、10、15、20、50、100ヌクレオチド、または少なくとも150ヌクレオチド伸長する。ある特定の実施形態では、第1のリードは、3’方向に第1のリードを伸長する第2のリードとの第1のオーバーラップを含み、かつ第1のリードは、5’方向に第1のリードを伸長する第3のリードとの第2のオーバーラップを含む。ある特定の実施形態では、パイルアップ関係は、第1のリードと第2のリードとの間のオーバーラップと、第1のリードと第3のリードとの間のオーバーラップと、を含み、これらのオーバーラップは、3’方向および5’方向に第1のリードを伸長する。
いくつかの実施形態では、パイルアップ関係は、第1のリード、第2のリード、およびたとえば第3のリードに追加の選択されたオーバーラップを含む。たとえば、第2のリードが第2のリードを伸長する第3のリードとのオーバーラップを含む場合、第1のリードは、多くの場合、選択および/または記憶される第2のリードとの第1のオーバーラップを含む。以上の例では、オーバーラップは、同一の3’方向または5’方向に第1のリードおよび第2のリードを伸長するであろう。さらに、第3のリードは、第1のリードとオーバーラップしてもよいししなくてもよい。いくつかの実施形態では、第1のリードは、5’方向および/または3’方向に第1のリードを伸長する複数のリードとの複数のオーバーラップを含み、各オーバーラップは基準の1つ以上を満たす。いくつかの実施形態では、第1のリードは、第1のリードの5’末端を越えて伸長する少なくとも2つのオーバーラップと、第1のリードの3’末端を越えて伸長する少なくとも2つのオーバーラップと、を含む。
いくつかの実施形態では、パイルアップ関係は、複数のリードに複数の選択および/または記憶されるオーバーラップを含み、各オーバーラップは、複数のオーバーラップから選択されうる。いくつかの実施形態では、パイルアップ関係は、リードセットに複数の選択および/または記憶されるオーバーラップを含み、各オーバーラップは、次のことを満たす。すなわち、(i)アライメントスコアが所定のアライメントスコア閾値よりも高い場合、オーバーラップは、第1のリードと第2のリードとの間のアライメントを含まなければならず、(ii)第1のリードと第2のリードとの間のオーバーラップは、第1のリードの3’末端または5’末端を越えて第1のリードを伸長しなければならず、かつ(iii)第1のリードと第2のリードとの間のオーバーラップは、リードセットの第1のリードと任意の他のリードとの間で(i)および(ii)を満たすすべての可能なオーバーラップのうち最も高いアライメントスコアを含む。ある特定の実施形態では、以上の(i)、(ii)、および(iii)に加えて、第2のリードは、(iv)所定のアライメントスコア閾値よりも高く、(v)同一の3’方向または5’方向にかつ第2のリードの末端を越えては第1のリードおよび第2のリードを伸長し、しかも(vi)第2のリードと以上の(iv)および(v)を満たす任意の他のリードとの間の最も高いアライメントスコアである、オーバーラップを含む。ある特定の実施形態では、方法またはプロセスは、各オーバーラップが以上の(i)、(ii)、および(iii)を満たすセットの複数のリードのオーバーラップを選択および/または記憶するステップを含むパイルアップ関係を決定するステップを含む。いくつかの実施形態では、セットの各リードは、5’方向および/または3’方向にリードを伸長する1、2、3、4、5、6、7、8、9、10、11、12、13、14、もしくは15またはそれ以上のオーバーラップを含む。パイル関係は、多くの場合、それぞれ複数のオーバーラップを含む複数のリードを含む。
いくつかの実施形態では、オーバーラップはスコアまたはインデックスを含む。たとえば、ある特定の実施形態では、リードセットのすべての可能なオーバーラップが決定され、かつときには各オーバーラップがスコアまたは値に関連付けられる。オーバーラップに関連付けられるスコアまたは値(たとえば、ポイント値)は、ときには、以上の条件(i)、(ii)、(iii)、(iv)、および/または(v)の1つ以上により決定される合計値または平均値である。いくつかの実施形態では、オーバーラップはアライメントスコアに関連付けられる。ある特定の実施形態では、オーバーラップはフィルタリングされる。フィルタリングされるオーバーラップは、多くの場合、パイルアップ関係から除去または欠失される。欠失またはフィルタリングされるオーバーラップは、多くの場合、コンティグまたはスーパーコンティグのde novoアセンブリーで考慮されない。いくつかの実施形態では、オーバーラップは、スコアまたは所定のカットオフスコアに従ってフィルタリングされる。いくつかの実施形態では、オーバーラップは、所定のアライメントスコア閾値に従ってフィルタリングされる。いくつかの実施形態では、(i)、(ii)、(iii)、(iv)、および(v)の一部または全部の要件を満たさないオーバーラップはフィルタリングされる。フィルタリングアルゴリズムは公知であり、任意の好適なフィルターはパイル関係のオーバーラップをフィルタリングするように修正可能である。いくつかの実施形態では、フィルターは、セット中のすべてのリードにわたり繰り返して選択および/または記憶される各リードのオーバーラップのリストを(たとえば、(i)、(ii)、(iii)、(iv)、および/または(v)に従って)維持するプルーニングアルゴリズムを含む。ある特定の実施形態では、プログラムは、リードセットの複数のオーバーラップをフィルタリングするようにマイクロプロセッサーに命令する。
ある特定の実施形態では、パイルアップ関係の決定は、エラー補正を含むプロセスを含まない。いくつかの実施形態では、パイルアップ関係は、挿入または欠失を含むオーバーラップを含まない。いくつかの実施形態では、パイルアップ関係は、1つ以上のミスマッチを含むオーバーラップを含む。
コンティグ
いくつかの実施形態では、1つ以上のコンティグは、リードセットでアセンブルおよび/または構築される。いくつかの実施形態では、1つ以上のコンティグは、リードセットで選択および/または記憶される複数のオーバーラップに従って構築される。ある特定の実施形態では、1つ以上のコンティグは、リードセットの複数のオーバーラップを含むパイルアップ関係に従って構築される。ある特定の実施形態では、コンティグは、1つ以上のスターターリードから構築される。ある特定の実施形態では、1つ以上のコンティグは、1、2、3、4、5、6、7、8、9、もしくは10またはそれ以上のスターターリードから構築される。スターターリードはセットの任意の好適なリードでありうる。ときには、スターターリードは、リードセットの最も5’側のリードおよび/または最も3’側のリードを含む。最も5’側のリードは、多くの場合、セットのシーケンスリードの一部または全部がマッピングされる対象のゲノム領域の最も5’側の領域にマッピングされるリードである。同様に、最も3’側のリードは、多くの場合、セットのシーケンスリードの一部または全部がマッピングされる対象のゲノム領域の最も3’側の領域にマッピングされるリードである。ある特定の実施形態では、コンティグは、セットの最も3’側のリードでも最も5’側のリードでもないスターターリードからアセンブルされる。
いくつかの実施形態では、コンティグは、スターターリードからアセンブルされ、かつプロセスは、スターターリードの3’位置または5’位置に少なくとも1つのヌクレオチドを繰り返し付加するステップを含む。スターターリードの3’位置または5’位置は、スターターリードの任意の好適なヌクレオチドの3’位置または5’位置でありうる。いくつかの実施形態では、スターターリードの3’位置または5’位置は、スターターリードの末端(たとえば、3’末端または5’末端)の3’位置または5’位置である。いくつかの実施形態では、スターターリードの3’位置または5’位置は、スターターリードのメジアンヌクレオチドまたは中間ヌクレオチドの3’位置または5’位置である。多くの場合、スターターリードの3’位置または5’位置に少なくとも1つヌクレオチドを繰り返し付加するプロセスは、スターターリード内の好適な位置(たとえば、好適な位置に位置するヌクレオチド)を最初に選択するステップと、選択された位置でパイルアップ関係に従ってマジョリティーコンセンサスヌクレオチドを決定するステップ(たとえば、マジョリティーコンセンサスヌクレオチドの決定については以下を参照されたい)と、パイルアップ関係に従って決定されたマジョリティーコンセンサスヌクレオチドの3’位置および/または5’位置に1つ以上のヌクレオチドを繰り返し付加することによりコンティグのアセンブリーを開始するステップと、を含む。ある特定の実施形態では、スターターリードは、コンティグアセンブリープロセスを開始する第1のリードであり、かつリクルートリードのパイルアップ関係は、スターターリードの各ヌクレオチド位置のマジョリティーコンセンサスヌクレオチドを決定する。たとえば、ある特定の実施形態では、スターターリードは、コンティグまたは中間コンティグのアセンブリーに使用されるのと類似のプロセスにより再アセンブルされる。
いくつかの実施形態では、コンティグはスターターリードからアセンブルされ、かつプロセスは中間コンティグの3’位置または5’位置に少なくとも1つのヌクレオチドを繰り返し付加するステップを含む。いくつかの実施形態では、中間コンティグは、スターターリード(たとえば、スターターリードの少なくともいくつかのヌクレオチド)と、スターターリードの3’側および/または5’側に付加された1つ以上のヌクレオチドと、を含む。いくつかの実施形態では、中間コンティグは、スターターリードのヌクレオチドの一部または全部を含む。スターターリードまたは中間コンティグの3’位置または5’位置は、多くの場合、スターターリードまたは中間コンティグのin silicoアセンブルされた核酸配列の3’末端または5’末端に直接隣接したかつそれを越えたヌクレオチド位置である。いくつかの実施形態では、スターターリードまたは中間コンティグの3’末端または5’末端に直接隣接したかつそれを越えて位置する、マジョリティーコンセンサスヌクレオチドがまだ付加されていない(たとえば、in silicoコンティグアセンブリープロセス時にまだ付加されていない)ヌクレオチド位置は、本明細書では前進位置と呼ばれる(たとえば、図4を参照されたい)。いくつかの実施形態では、スターターリードの3’位置または5’位置は、スターターリードの3’位置または5’位置(たとえば、スターターリード内のヌクレオチドの3’位置または5’位置)がマジョリティーコンセンサスヌクレオチドにより満たされていない場合、前進位置と呼ばれる。ある特定の実施形態では、中間コンティグは、スターターリードと、スターターリードの3’位置または5’位置に付加された1つ以上のヌクレオチドと、を含む。ヌクレオチドは、多くの場合、マジョリティーコンセンサスヌクレオチドを含む位置(たとえば、前進位置)であるスターターリードまたは中間コンティグの3’位置または5’位置に付加される。
いくつかの実施形態では、マジョリティーコンセンサスヌクレオチドは、パイルアップ関係に従って決定された複数のオーバーラップまたはアライメントに従って決定される。ときには、選択および/または記憶されたオーバーラップに従って、1つ以上の核酸リードがスターターリード、中間コンティグ、またはそれらの一部にアライメントされる。ある特定の実施形態では、選択および/または記憶されたオーバーラップ(たとえば、オーバーラッピングリード)は、リードまたはオーバーラップの一部または全部が、前進位置でオーバーラップまたはアライメントされるヌクレオチドを含む場合、スターターリードまたは中間コンティグを含むアライメントにリクルートされる。ある特定の実施形態では、マジョリティーコンセンサスヌクレオチドは、前進位置でオーバーラップまたはアライメントされるヌクレオチドに従って決定される。いくつかの実施形態では、マジョリティーコンセンサスヌクレオチドは、オーバーラッピングリードの少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも15、少なくとも20、少なくとも30、少なくとも50、少なくとも100、または少なくとも200個が前進位置に同一のヌクレオチド(たとえば、A、T、G、C、またはU)を含む場合に前進位置に位置するまたはアライメントされるヌクレオチド(たとえば、A、T、C、G、またはU)である。いくつかの実施形態では、マジョリティーコンセンサスヌクレオチドは、オーバーラッピングリードの少なくとも5%、少なくとも6%、少なくとも7%、少なくとも8%、少なくとも9%、少なくとも10%、少なくとも15%、少なくとも20%、少なくとも25%、少なくとも30%、または少なくとも50%が前進位置に同一のヌクレオチド(たとえば、A、T、G、C、またはU)を含む場合に前進位置に位置するまたはアライメントされるヌクレオチド(たとえば、A、T、C、GまたはU)である。
コンティグアセンブリーのいくつかの実施形態では、前進位置は単一のマジョリティーコンセンサスヌクレオチドを含み、マジョリティーコンセンサスヌクレオチドはスターターリードまたは中間コンティグの3’位置または5’位置に付加され、かつin silicoプロセスはその次の前進位置で繰り返えされる。いくつかの実施形態では、たとえば、2つ以上のマジョリティーコンセンサスヌクレオチドが前進位置(たとえば多型塩基位置)に存在する場合、前進位置は多型塩基位置を含む。2つのマジョリティーコンセンサスヌクレオチドが多型塩基位置で同定される場合、多くの場合、中間コンティグのコピーが作成されて2つの同一の中間コンティグコピーをもたらす。この状況では、同定された2つのマジョリティーコンセンサスヌクレオチドの一方は2つのコピーの一方の前進位置に付加され、かつ同定された他方のマジョリティーコンセンサスヌクレオチドは他方のコピーの前進位置に付加される。このプロセスは、スプリッティングまたはコンティグのスプリッティングと呼ばれることもある。いくつかの実施形態では、本明細書のシステム、方法、プロセス、またはアルゴリズムは、1つ以上のコンティグをスプリットする方法を含む。いくつかの実施形態では、コンピュータープログラムコンポーネント(すなわちコンポーネント)は、1つ以上のコンティグをスプリットするようにマイクロプロセッサーに命令を提供する。
3つのマジョリティーコンセンサスヌクレオチドが前進位置(たとえば多型塩基位置)で同定されるある特定の実施形態では、中間コンティグの2つのコピーが生成されて3つの同一のコンティグをもたらし、3つの各マジョリティーコンセンサスヌクレオチドの1つが3つの同一のコンティグの前進位置に付加される。そのような状況下では、異なるヌクレオチドが3つの同一のコンティグのそれぞれに付加される。言い換えれば、コンティグは3つのコンティグにスプリットされる。同様に、4つのマジョリティーコンセンサスヌクレオチドが前進位置(たとえば多型塩基位置)で同定される場合、多くの場合、中間コンティグの3つのコピーが生成されて4つの同一のコンティグをもたらし、4つの各マジョリティーコンセンサスヌクレオチドの1つが4つの同一のコンティグのそれぞれの前進位置に付加される。言い換えれば、コンティグは4つのコンティグにスプリットされる。ある特定の実施形態では、中間コンティグはスプリットされたコンティグ(たとえば、コンティグをスプリットすることによりもたらされるコンティグ)を含む。ある特定の実施形態では、コンティグをアセンブルするプロセス時、コンティグまたは中間コンティグは複数回スプリットされる。たとえば、コンティグまたは中間コンティグのアセンブル時、第1の多型塩基位置および第2の多型塩基位置に遭遇することがあり、その場合、第1の多型位置はコンティグ第1のスプリッティングをもたらし、第2の多型塩基位置はコンティグの第2のスプリッティングをもたらしうる。たとえば、中間コンティグは、1回以上、5回以上、または50回以上にスプリットされうる。いくつかの実施形態では、中間コンティグは、1〜500回、1〜100回、1〜50回、1〜25回、または1〜10回スプリットされる。いくつかの実施形態では、中間コンティグはスプリットされない。ある特定の実施形態では、第1のスプリットから生じた中間コンティグ(たとえば、第1の多型塩基位置で遭遇した前のスプリットにより生じた中間コンティグ)のアセンブル時に第2の多型塩基位置に遭遇する。この状況では、中間コンティグは再度スプリットされることもあれば、コンティグはスプリットされないこともある。ある位置(たとえば第1の多型位置)でコンティグがすでにスプリットされている場合、スプリッティングプロセスは、リードペアまたはリードペアセットが第1の多型位置および現在遭遇している第2の多型塩基位置(たとえば、2つ以上のマジョリティーコンセンサスヌクレオチドがアライメントされる前進位置)の両方にオーバーラップされるかを決定する。いくつかの実施形態では、かかるオーバーラッピングリードペアセットが存在し、かつリードペアセットが(i)第1の多型位置に付加された第1の多型塩基と、(ii)第2の多型塩基位置の単一のマジョリティーコンセンサスヌクレオチド(たとえば同一のヌクレオチド)と、を含む場合、第2の多型塩基位置のマジョリティーコンセンサスヌクレオチドは前進位置で中間コンティグ鎖に付加され、コンティグはスプリットされない。さらに、(i)および(ii)の両方の条件を満たした以上のリードセットは、いずれの他のコンティグをスプリットするためにも使用されず、他のコンティグをアセンブルするために使用されない。いくつかの実施形態では、かかるオーバーラッピングリードペアセットが存在し、かつリードペアセットが(i)第1の多型位置に付加された第1の多型塩基と、(iii)第2の多型塩基位置の2つ以上のマジョリティーコンセンサスヌクレオチドと、を含む場合、中間コンティグは再度スプリットされる。ある特定の実施形態では、条件(i)を満たさないが第2の多型位置でマジョリティーコンセンサスヌクレオチドを提供するオーバーラッピングリードペアセットは、以上の例では中間コンティグをスプリットするために使用されず、かかるリードペアは、以上の例では中間コンティグのアセンブルから除外される。この設計の背後にある理論的根拠は、その多型塩基を含むハプロタイプが他のコンティグのアセンブリーにすでに含まれている場合に多型塩基でのスプリッティングを防止することである。以上の例では、条件(i)が満たされ、かつ第1の多型塩基位置でオーバーラップされるリードセットが第2の多型塩基位置で2つ以上のマジョリティーコンセンサスヌクレオチドを含む場合、コンティグはいくつかの実施形態ではそれに応じてスプリットされるであろう。同様に、いくつかの実施形態では、条件(i)が満たされない場合、コンティグはスプリットされるであろう。スプリッティングのさらなる詳細については、実施例1に記載されている。
いくつかの実施形態では、コンティグですでに採用されたスプリットをデュプリケートすることによりグラフサイクルを検出する。ある特定の実施形態では、繰返しスプリットが検出された場合、コンティグを「不良」と標識して、「不良」コンティグのアセンブリーを終了する。ある特定の実施形態では、「不良」と標識されたコンティグはスーパーコンティグの構築に使用しない。
いくつかの実施形態では、リードセットのリードはコンティグを構築するために1回だけ使用される。ある特定の実施形態では、コンティグの前進位置に組み込まれるマジョリティーコンセンサスヌクレオチドを含むリードは、追加のヌクレオチドを他のコンティグに付加するためには使用しない。いくつかの実施形態では、コンティグが2つ以上のマジョリティーコンセンサスヌクレオチドの存在に起因してコピーされる場合、リードはコンティグコピーの1つの構築を継続するためにのみ使用されるであろう。いくつかの実施形態では、リードは識別可能なコンティグで再使用することが可能である。
いくつかの実施形態では、すでに遭遇してなんらかの他のコンティグでスプリットオンされた多型位置に遭遇した場合、このコンティグではコンティグスプリッティングを実施せずにこのコンティグでは「デュプリケート」スプリットとして参照する。かかる実施形態では、デュプリケートスプリットは、同一のコンセンサス塩基セットと、リード内の同一位置にそれらをサポートする同一のリードセットと、を含有する。かかる実施形態では、すべてのコンティグをアセンブルしたら、デュプリケートスプリットを有するコンティグからのコンセンサス配列のすべての可能な末端部と、そのコンティグからスプリットオフされた他のコンティグと、を「デュプリケートスプリット」位置の後に付加することにより、これらのスキップしたスプリットを再導入する。ある特定の実施形態では、同じようにパイルアップされた同一のリードセットにコンティグ構築プロセス時に遭遇したら、その後はこれらのリードは同一のリードセットをリクルートするであろうから、その位置の後のコンセンサス配列は同一になると推定される。いくつかの実施形態では、この「デュプリケート」スプリットの検出はアセンブルされたコンティグを変化させずに、コンティグアセンブリーの計算プロセスを単にスピードアップするにすぎないはずである。
いくつかの実施形態では、スプリットオフコンティグは、コンティグを伸長する新しいリードをなんらリクルートできないが、このスプリット位置から生じる他のコンティグのいくつかは、新しいリードをリクルートできる。かかるコンティグは「終端」として標識される。これらのコンティグは、多くの場合、真多型からではなく系統的シーケンシングエラーにより生じるコンセンサス塩基に基づく結果である。いくつかの実施形態では、これらの「終端」コンティグは廃棄される。
いくつかの実施形態では、所定量未満のリードからまたは所定量未満のリードを含有するパイルアップ関係からアセンブルされたコンティグは、廃棄または除去される。いくつかの実施形態では、所定量のリードは、約200個以下のリード、100個以下のリード、50個以下のリード、25個以下のリード、または10個以下のリードである。ある特定の実施形態では、所定量未満のリードからアセンブルされたコンティグは、フィルターにより廃棄、欠失、および/または除去される。いくつかの実施形態では、廃棄、欠失、および/または除去されたコンティグは、スーパーコンティグのアセンブリーに使用されない。
スーパーコンティグ
たとえば、前のステップでアセンブルされたコンティグは、対象の全ゲノム領域に延在しうるか、またはカバレッジが低下する位置もしくは高いリードエラー率(たとえば通常系統誤差)により高スコアオーバーラップが阻止される位置で終了しうる。ある特定の実施形態では、対象の全ゲノム領域に延在するコンティグはスーパーコンティグであり、追加のアセンブリーを必要としない。スーパーコンティグは、多くの場合、対象の全ゲノム領域に延在する。対象の全ゲノム領域に延在しないコンティグは、スーパーコンティグにアセンブルしうる。いくつかの実施形態では、1つ以上のスーパーコンティグが2つ以上のコンティグからアセンブルされる。ある特定の実施形態では、コンティグを一体的にリンクしてスーパーコンティグを形成するためにするために、リードメイト(たとえばリードメイトペアのもの)が使用される。たとえば、いくつかの実施形態では、ペアの第1のリードメイトが第1のコンティグとのオーバーラップを提供し、かつペアの第2のリードメイトが他のコンティグとのオーバーラップを提供する場合、2つの近接コンティグ間のカバレッジギャップは、リードメイトペアのリードメイトによりブリッジしうる。2つの近接コンティグをブリッジまたは連結するペアのリードメイトは、コンティグ間の推定距離、コンティグの順序および向きに関する情報を提供しうる。たとえば、リードメイト間の推定インサート長は、2つのブリッジされたコンティグ間の推定距離を提供しうる。ときには、2つのコンティグをブリッジするリードメイトの向きは、2つの互いにブリッジされたコンティグの相対向きおよび順序を提供する。いくつかの実施形態では、第1のコンティグは、複数のリードメイトペアにより第2のコンティグに連結される。いくつかの実施形態では、第1のコンティグは、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも30個、または少なくとも50個のリードメイトペアにより第2のコンティグに連結される。
ある特定の実施形態では、2つのコンティグが1つ以上のリードメイトにより追加のリードにリンクされると、オーバーラップ(たとえば、パイルアップ関係に従って決定されるもの)および/またはコンティグは、ブリッジされた近接コンティグ間の介在配列をアセンブルするようにリクルートおよび/またはアライメントされる。
ある特定の実施形態では、スーパーコンティグの構築は、コンティグを頂点としておよび同定されたリンク(たとえば、2つのコンティグをリンクするリードメイト)を有向エッジとして有するグラフを構築するステップを含む。いくつかの実施形態では、2つの近接コンティグが最小限の数のリードメイトペアによりブリッジされた場合、有向エッジが記録される。ただし、最小限の数のリードメイトペアは、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも30個、または少なくとも50個のリードメイトペアである。いくつかの実施形態では、2つの近接コンティグをブリッジするのに必要な最小限の数のリードメイトペアは、少なくとも5%、少なくとも6%、少なくとも7%、少なくとも8%、少なくとも9%、少なくとも10%、少なくとも15%、少なくとも20%、少なくとも25%、少なくとも30%、または少なくとも50%の平均コンティグカバレッジである。平均コンティグカバレッジとは、コンティグまたは中間コンティグの各ヌクレオチド位置に延在するリードの平均数を意味する。たとえば、コンティグ中の各ヌクレオチド位置にオーバーラップするリードの数は、多くの場合、位置カバレッジとして計算され、コンティグ中のすべての位置にわたる位置カバレッジの平均は、平均コンティグカバレッジである。いくつかの実施形態では、2つのコンティグをブリッジするリードメイトペアは同一の向きを共有する。ある特定の実施形態では、循環を回避しつつ入次数0を有するすべての頂点から出発して出次数0を有する頂点で終了するようにグラフを介してすべての経路を通ることにより、さらに2つのコンティグをブリッジすることによりスーパーコンティグを形成する(たとえば、図8を参照されたい)。ある特定の実施形態では、いずれの他のコンティグにも接続されないコンティグ(たとえば、入次数0および出次数0の両方を有する)は、ちょうど1つのコンティグを有するスーパーコンティグを生成する。
ハプロタイピング
いくつかの実施形態では、以上に記載のプロセスによりアセンブルされるスーパーコンティグは、すべての可能な配列配置を表すので、すべての可能なハプロタイプ配列(すなわちハプロタイプ)を表す。いくつかの実施形態では、ハプロタイプは、所定の倍数性に従ってコーラーにより直接組み合わせることにより、すべての可能な遺伝子型(たとえば、遺伝子型仮説、遺伝子型尤度、または遺伝子型尤度比)を生成する。いくつかの実施形態では、ハプロタイプはすべて、コーラーにより処理される前にハプロタイピングプロセスに付される。いくつかの実施形態では、ハプロタイピングプロセスは、各ハプロタイプに関連するオブジェクト(たとえば、ハプロタイプオブジェクト)を開始する。ハプロタイプオブジェクトは、マッピングウェイト、同定された偽接合、および/または同定された偽挿入を含みうる。たとえば、ある特定の実施形態では、ハプロタイピングプロセスは、一部または全部のリードをハプロタイプ配列(たとえば、スーパーコンティグ)に再マッピングするステップを含む。ある特定の実施形態では、この再マッピングは、実施例Iの「コーラー」の節に記載のマッピングウェイトの前計算を含む。マッピングウェイトは、各ハプロタイプに関連付けられる。ある特定の実施形態では、ハプロタイパープロセスはまた、ハプロタイプ配列中の偽接合および偽挿入の同定を実施する(以下を参照されたい)。ハプロタイパープロセスは、多くの場合、遺伝子型配列仮説と組み合わせる前に、ハプロタイピングプロセスの出力に基づいて、ハプロタイプをフィルタリングする機会をコーラーコンポーネントに与えるコーラーの機能と切り離して実施される(たとえば、ハプロタイプオブジェクト、たとえば、マッピングウェイト、偽接合および/または偽挿入の同定)。いくつかの実施形態では、同定された偽接合および偽挿入は、リードによりそれらのサポートを決定する必要情報と共に各ハプロタイプオブジェクトに列挙される。次いで、コーラーコンポーネントは、偽挿入などのハプロタイプオブジェクトの属性に基づいてカットオフを用いてハプロタイプをフィルタリングおよび/または除去することが可能である。任意の好適なカットオフを使用することが可能である。
偽接合の同定
ある特定の実施形態では、ハプロタイパープロセスは、偽接合の同定方法を含む。いくつかの実施形態では、偽接合は、偽陽性アライメントに起因して生成される。いくつかの実施形態では、偽接合は、いくらかの配列類似性に起因してコンティグアセンブリー時にリクルート(たとえば取得)されて組み込まれた、ゲノムの異なる部分(たとえば、対象のゲノム領域外のゲノムの部分)に由来するシーケンスリードで構成される。かかる配列類似性は、ときには、いくつかのリードをある特定の配列に連結させうるが、接合はまばらにカバーされるであろう。ハプロタイパープロセスは、接合位置をまたぐリードペアの数が予想よりもかなり少ないハプロタイプ配列中の位置を同定しうる。いくつかの実施形態では、ハプロタイパープロセスは、ある距離だけ離れたリードメイトの期待数(たとえば、インサートサイズ分布から推定される)を計算して観測されたカウントと比較することにより可能な偽接合を見いだす。低い観測数/期待数比の位置は、偽接合の可能性があるとしてマーク付けしうる。いくつかの実施形態では、統計的当てはめ(たとえば、χ検定)の好適な推定値を用いて観測数−期待数差の有意性を決定しうる。いくつかの実施形態では、偽接合は、インサートサイズ分布の平均の周りのセンターバンドまたは非センターバンドを用いて偽接合を検定することにより同定される。インサートサイズ分布平均の周りのバンドの−20%および+80%のインターバル(たとえば、Illuminaリードペアライブラリーの現在のサイズは50)は、ときには、期待カウントを計算するために使用され、観測カウントを検索するために使用される。いくつかの実施形態では、ハプロタイパープロセスは、フォワードリードおよびリバースリード(逆方向)に対して観測カウントおよび期待カウントを個別に計算してから比の局所最小値を見いだす。ハプロタイパープロセスは、ときには、特定の比カットオフを超える局所最小値をすべて報告する。ある特定の実施形態では、順方向および逆方向の両方で検索を行って接合のアルゴリズム的確認を与えうる。
偽挿入の同定
いくつかの実施形態では、ハプロタイパープロセスは偽挿入検出プロセスを含む。いくつかの実施形態では、偽挿入は、in silicoアセンブルされたスーパーコンティグ内への外来核酸配列または誤配置核酸配列の望ましくない挿入または偽挿入である。いくつかの実施形態では、偽挿入検出プロセスは、ハプロタイプ中の偽挿入の存在または不在を決定する。いくつかの実施形態では、偽挿入検出プロセスは、偽挿入がハプロタイプ中に存在するかまたは不在である尤度または確率を決定する。いくつかの実施形態では、偽挿入検出プロセスは、可能性のある偽挿入をマーク付け、ウェイト付け、またはスコア付けして、それらのオブジェクトをハプロタイプに関連付ける。いくつかの実施形態では、偽挿入は、偽接合(たとえば、以上に記載される)と組み合わせて同定可能である。しかしながら、偽挿入の同定では、専用の偽挿入検出プロセスは、多くの場合、偽接合アルゴリズムよりも高感度かつ特異的である。
いくつかの実施形態では、偽挿入検出プロセスは、1)リードメイト間の距離が推定インサート長よりも長い場合(たとえば、インサートサイズ分布コンポーネントにより決定される)、ハプロタイプにマッピングされるリードメイトペアを同定することによりリードメイト間の仮説偽インサートを規定し、かつ2)仮説インサートが仮説インサート内に完全に含有されるリードメイトペアのみで占有されるかを決定する。仮説インサート領域を占有するリードメイトは、特定の領域のin silicoアセンブリーに寄与したリードである。任意の好適な方法を用いてリードメイトが仮説インサート内に完全に含有されるかを決定可能である。たとえば、仮説挿入にフランキングするリードメイトの中央または末端を用いて、仮説インサートの開始および終了を規定可能である。ある特定の実施形態では、仮説挿入にフランキングするリードメイトにオーバーラップするリードのコレクションの中央または末端を用いて(たとえば、パイルアップ関係に従って)、仮説挿入領域を規定可能である。ときには、方法の組合せが使用される。たとえば、偽挿入プロセスは、リードメイトの中央間距離が推定インサート長よりも長い場合(たとえば、インサートサイズ分布コンポーネントにより決定される)、ハプロタイプにマッピングされるリードメイトペアを最初に同定することにより、フランキングリードメイトの中央位置に従って仮説インサートの開始および終了を規定しうる。仮説インサートが仮説インサート内に完全に含有されるリードメイトペアのみで占有されることがアルゴリズムにより決定された場合、いくつかの実施形態では、インサートを含むリードメイトのエッジまたは末端に従って仮説インサートエッジをアルゴリズムにより再規定しる。
いくつかの実施形態では、偽挿入プロセスは、仮説インサート内の各塩基位置に対してインサート純度の尺度を再計算する。主にインサートリード(提案された偽挿入領域内に完全に含有されるリードペア)で構成されかつ挿入境界を横切るリードによりまたは挿入境界を横切るかもしくはその外側にあるメイトを有するリードにより汚染されていない位置がインサート内に存在する場合、かかる挿入は偽挿入とみなされる。仮説インサート内の塩基位置に対してインサート純度を計算するために、ならびに/または偽挿入領域の長さおよび/またはエッジを規定、再規定、および/または確認するために、任意の好適なプロセスを使用可能である。たとえば、いくつかの実施形態では、各塩基位置は、オーバーラップに基づいてかつパイルアップ関係に基づいてコンティグアセンブリープロセスにより再計算される。その際、仮説インサート内に完全に含有されるリードメイトペアは、アセンブリープロセスから除外される。かかる方法を用いる場合、偽挿入領域を規定し報告するために、マジョリティーコンセンサスヌクレオチドにより占有できない塩基位置が使用される。偽挿入領域を規定、再規定、および/または確認するために、任意の類似のプロセスを使用可能である。
いくつかの実施形態では、ハプロタイパープロセスは、偽挿入を含有すると決定されたハプロタイプをマーク付け、ウェイト付け、ペナルティー付け、またはスコア付けする。いくつかの実施形態では、ハプロタイパープロセス、偽挿入を含有しないと決定されたハプロタイプをマーク付け、ウェイト付け、またはスコア付けする。いくつかの実施形態では、コーラーは、ハプロタイプが遺伝子型仮説に含まれるかを決定するようにハプロタイパープロセスがハプロタイプを割り当てるオブジェクトを使用する。
コーラーおよびハプロタイプ尤度比
いくつかの実施形態では、コーラープロセスは、遺伝子型をアセンブルし遺伝子型尤度比を決定する。コーラーコンポーネントは、多くの場合、コーラープロセスを実施する。コーラー(たとえばコーラーコンポーネント)は、スーパーコンティグアセンブリーコンポーネントからおよび/またはハプロタイパー(たとえばハプロタイプコンポーネント)からハプロタイプを受け入れることが可能である。ある特定の実施形態では、コーラープロセスは、ハプロタイプを組み合わせて所与の倍数性のすべての可能な遺伝子型を生成する。いくつかの実施形態では、所与の倍数性のすべての可能な遺伝子型は、コーラーコンポーネント(たとえば「コーラー」)によりアセンブルされる。いくつかの実施形態では、所与の倍数性で決定された各可能な遺伝子型は遺伝子型仮説と呼ばれる。ハプロタイプは、一倍体、二倍体、三倍体の被験体、または任意の倍数性の被験体に対してすべての可能な配置で組合せ可能である。たとえば、二倍体配列仮説では、同一のハプロタイプの2つのコピーからなるホモ接合配置を含めて任意の2つのハプロタイプのすべての可能な組合せをコーラーによりアセンブル可能であり、それぞれ遺伝子型仮説と呼ばれる。
かかる二倍体遺伝子型では、ハプロタイプ寄与は各ハプロタイプにつき0.5である。いくつかの実施形態では、ハプロタイプは任意の比で組合せ可能であり、これにより遺伝子型へのハプロタイプ寄与率がもたらされる。かかる遺伝子型比率は、正常組織汚染および/または腫瘍不均一性を反映する可能性があるモザイク遺伝子型個体サンプルまたは腫瘍サンプルに使用可能である。いくつかの実施形態では、コーラーによりアセンブルされた遺伝子型はすべて、個別に遺伝子型仮説である。それゆえ、いくつかの実施形態では、本明細書の方法および/またはプロセスは、1つ以上のハプロタイプに従って遺伝子型尤度比を生成する。いくつかの実施形態では、本明細書の方法および/またはプロセスは、1つ以上のハプロタイプに基づく遺伝子型尤度比および遺伝子型へのそれらの寄与率を生成する。いくつかの実施形態では、本明細書の方法および/またはプロセスは、1つ以上の遺伝子型仮説に基づく遺伝子型尤度比を生成する。それゆえ、いくつかの実施形態では、コーラープロセスは、1つ以上のハプロタイプに基づく遺伝子型尤度比を生成する。いくつかの実施形態では、コーラープロセスは、1つ以上の遺伝子型仮説(たとえば、1つの選択された遺伝子型仮説)に基づく遺伝子型尤度比を生成する。いくつかの実施形態では、コーラープロセスは、ホモ接合参照ゲノム配置を含む遺伝子型仮説に基づく遺伝子型尤度比を生成する。
ある特定の実施形態では、コーラーによりハプロタイパーから取得したハプロタイプは、たとえば、偽接合、偽挿入の存在または不在に従っておよび/またはマッピングウェイトにより、コーラープロセスによりフィルタリング(たとえば除外)される。フィルタリングされたハプロタイプは、多くの場合、遺伝子型をアセンブルしたり遺伝子型尤度比を決定したりするためにコーラーにより使用されない。ある特定の実施形態では、ハプロタイプは、コーラープロセスによりフィルタリングされない。
いくつかの実施形態では、対象のゲノム領域でアセンブルされた遺伝子型の数は、その領域で所与の倍数性のすべての可能なハプロタイプ配列配置を表す。対象のゲノム領域で任意の好適な数の遺伝子型をアセンブル可能である。ときには複数の遺伝子型がアセンブルされる。ときには1以上の遺伝子型はアセンブルされる。ある特定の実施形態では、対象のゲノム領域で1〜100,000,000個、1〜1,000,000個、1〜100,000個、1〜10,000個、1〜1000個、1〜500個、1〜200個、1〜50個、または1〜20個の遺伝子型がアセンブルされる。いくつかの実施形態では、対象のゲノム領域で少なくとも5個、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも50個、少なくとも100個、少なくとも500個、または少なくとも1000個の遺伝子型がアセンブルされる。
いくつかの実施形態では、コーラープロセスは、1つ以上の遺伝子型尤度比に従って対象のゲノム領域(たとえば被験体の)で遺伝子型を決定する。いくつかの実施形態では、コーラープロセスは、1つ以上の遺伝子型尤度比に従って複数の可能な遺伝子型仮説のうち最も確からしい遺伝子型および/または最も可能性の高い遺伝子型を決定する。いくつかの実施形態では、コーラープロセスは、ヘルスケア専門家またはアウトカムコンポーネントに遺伝子型仮説のリストを提供可能であり、リストには、各遺伝子型仮説に関連する確率、尤度、統計学的信頼度の尺度、エラーの尺度、ランク付けなど、またはそれらの組合せが含まれる。いくつかの実施形態では、コーラープロセスは、1つ以上の遺伝子型仮説に従って遺伝子型尤度比を決定する。いくつかの実施形態では、コーラープロセスは、1つ以上の遺伝子型仮説に従って1つ以上の遺伝子型尤度比を決定する。
いくつかの実施形態では、遺伝子型尤度比は、式1に従って決定されている。
Figure 0006762932
式中、Gは所定の倍数性の遺伝子型配列であり、Gは参照配列であり、{R}はリードメイトペアRのセットであり、NAGは遺伝子型配列G中の対立遺伝子AGの数であり、NAG0は参照配列G中の対立遺伝子AG0の数であり、FAGは遺伝子型配列G中の対立遺伝子AGの分率であり、FAG0は参照配列G中の対立遺伝子AG0の分率であり、Wはリードペアマッピングウェイトであり、かつαはマッピング確率定数である。いくつかの実施形態では、遺伝子型尤度比は、式1の導出または式1の変形により決定される。式1の項およびそれらの導出は、実施例1にさらに記載される。
いくつかの実施形態では、被験体の倍数性は公知であるか、あらかじめ決められているか、または仮定される。いくつかの実施形態では、本明細書の方法またはプロセスは、被験体の倍数性を決定しない。いくつかの実施形態では、本明細書の方法またはプロセスは被験体の推定倍数性を決定可能であり、推定倍数性は確率に関連付けられる。いくつかの実施形態では、本明細書の方法またはプロセスは被験体の推定倍数性を決定可能であり、推定倍数性が最大尤度に関連付けられる。いくつかの実施形態では、倍数性は二倍体である。いくつかの実施形態では、遺伝子型確率は二倍体のヒト被験体で決定される。たとえば、二倍体のゲノムでは、対立遺伝子FAGおよびFAG0の分率はそれぞれ、0.5の値に等しい。
いくつかの実施形態では、式1のα値はリードペア(たとえば、リードペアのマッピングまたはマッピング性)に依存する。たとえば、リードペアがコンティグアセンブリー領域外または対象のゲノム領域外に第2のマッピングを有する場合、α値はより大きい(たとえば、値がWに匹敵する)。いくつかの実施形態では、リードペアのマッピング性が不十分である場合、αはW値に対応しうる。いくつかの実施形態では、第2のマッピングを有していない(たとえば、良好なマッピング性である)リードに対するαのデフォルト値は、約1e−5以下、約1e−10以下、1e−20以下、約1e−25以下、約1e−30以下、約1e−40以下、約1e−50以下、約1e−60以下、または約1e−70以下でありうる。いくつかの実施形態では、第2のマッピングを有していない(たとえば、良好なマッピング性である)リードに対するαのデフォルト値は、約1e−50以下である。αおよびWに関するさらなる詳細は実施例1に提供される。
いくつかの実施形態では、遺伝子型尤度比を生成するステップは、取得またはリクルートされた一部または全部のリードを再アライメントおよび/またはマッピングするステップを含む。いくつかの実施形態では、リードは、コーラーコンポーネント(たとえば「コーラー」)により参照(たとえば参照ハプロタイプまたは参照遺伝子型仮説)に再アライメントおよび/またはマッピングされる。いくつかの実施形態では、リードは、ハプロタイプコンポーネントにより参照(たとえば参照ハプロタイプまたは参照遺伝子型仮説)に再アライメントおよび/またはマッピングされる。いくつかの実施形態では、遺伝子型尤度比を生成するステップは、すべてリードを参照ゲノムに再アライメントおよび/またはマッピングするステップを含む。いくつかの実施形態では、遺伝子型尤度比を生成するステップは、すべてリードを1つ以上のハプロタイプに再アライメントおよび/またはマッピングするステップを含む。いくつかの実施形態では、遺伝子型尤度比を生成するステップは、すべてリードを1つ以上のハプロタイプに再アライメントおよび/またはマッピングするステップを含む。いくつかの実施形態では、遺伝子型尤度比を生成するステップは、すべてリードを参照と称される1つ以上のハプロタイプ(たとえば遺伝子型仮説)に再アライメントおよび/またはマッピングするステップを含む。いずれの好適なハプロタイプまたは遺伝子型仮説も参照でありうる。
いくつかの実施形態では、複数の遺伝子型尤度比は式1に従って決定される。いくつかの実施形態では、遺伝子型尤度比は複数の遺伝子型仮説(たとえば可能な遺伝子型)で決定される。いくつかの実施形態では、遺伝子型尤度比は、対象のゲノム領域の全長にわたり延在する1つ以上のハプロタイプまたはハプロタイプペアに従って複数の遺伝子型仮説(たとえば可能な遺伝子型)で決定される。ある特定の実施形態では、各遺伝子型仮説は、確率(たとえば、それらの合計により規格化された遺伝子型尤度比)に関連付けられる。
いくつかの実施形態では、被験体における遺伝子変異の存在または不在は、遺伝子型尤度比に従って決定される。ある特定の実施形態では、対象のゲノム領域のすべての可能な遺伝子型のうち最も高い確率(たとえば、最も高い遺伝子型尤度比)を含む遺伝子型仮説は、所与の対象のゲノム領域で最も確からしい遺伝子型である。いくつかの実施形態では、最も確からしい遺伝子型は、対象のゲノム領域の1つ以上のハプロタイプの核酸配列を表す。いくつかの実施形態では、遺伝的変異の存在または不在は最確遺伝子型に従って決定されている。
いくつかの実施形態では、最も高い尤度比を有する遺伝子型仮説は、コールするかまたはアウトカムを決定するために使用される。いくつかの実施形態では、最も高い尤度比を有する遺伝子型仮説は、被験体における遺伝子変異の存在または不在を決定するために使用される。いくつかの実施形態では、最も高い尤度比は、所定のカットオフに従って決定される。ある特定の実施形態では、2つ以上の尤度比は最も高い尤度比であると決定され、かつ他のパラメーターまたはデータは、アウトカムまたは遺伝子型を決定するために使用される。いくつかの実施形態では、最も高い尤度比値は、約800〜10,000の対数尤度比を含む。いくつかの実施形態では、最も高い尤度比は、約1000の対数尤度比を含む。
いくつかの実施形態では、上位2つの遺伝子型仮説間の尤度比は、遺伝的変異の存在下または不在下での信頼度を推定するために使用可能である。いくつかの実施形態では、遺伝子型仮説の完全セットは、遺伝的変異の存在および不在に関して評価可能であり、変異を有するおよび変異を有していない仮説のセットは、サンプル中の変異の存在下で信頼度を決定するために使用可能である。
システム、マシン、記憶媒体、およびインターフェース
本明細書に記載されるある特定のプロセスおよび方法は、多くの場合、コンピューター、マイクロプロセッサー、ソフトウェア、コンピュータープログラムコンポーネントまたは他のマシンなしでは実施できない。本明細書に記載の方法は、典型的には、コンピューターインプリメント方法であり、方法の1つ以上の一部は、ときには、1つ以上のハードウェアプロセッサー(たとえばマイクロプロセッサー)、コンピューター、またはマイクロプロセッサーにより制御されるマシンにより実施される。本文書に記載の方法に関する実施形態は、一般に、本明細書に記載のシステム、マシン、およびコンピュータープログラム製品の命令により実行されるものと同一のプロセスまたは関連するプロセスに適用可能である。本文書に記載の方法に関する実施形態は、一般に、実行可能プログラムを記憶した非一時的コンピューター可読記憶媒体により実行されるものと同一のプロセスまたは関連するプロセスに適用可能であり、このプログラムは、方法またはその一部を実行するようにマイクロプロセッサーに命令する。本明細書で用いられる「非一時的(non-transitory)」という記述語は、明示的に限定するものであり、一時的伝搬シグナル(たとえば、伝送シグナル、電子伝送、波(たとえば搬送波))を除外する。本明細書で用いられる「非一時的コンピューター可読媒体」という用語は、一時的伝搬シグナルを除くすべてのコンピューター可読媒体を含む。いくつかの実施形態では、本明細書に記載のプロセスおよび方法は、自動化された方法により実施される。いくつかの実施形態では、本明細書に記載の1つ以上のステップおよび方法は、マイクロプロセッサーおよび/もしくはコンピューターにより実施されるならびに/またはメモリーと組み合わせて実施される。いくつかの実施形態では、自動化された方法は、ソフトウェア、コンピュータープログラムコンポーネント、マイクロプロセッサー、周辺機器、および/または同様のものを含むマシンで具現化され、本方法は、(i)複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得するステップであって、各ペアが2つのリードメイトを含み、各ペアの2つのリードメイトの少なくとも1つが、所定の対象のゲノム領域を含む参照ゲノムの少なくとも1つの部分にマッピングされ、かつペアエンドシーケンスリードのいくつかが参照ゲノムの少なくとも1つの部分にマッピングされない、ステップ、(ii)シーケンスリードセットのパイルアップ関係を決定するステップ、(iii)パイルアップ関係に従って1つ以上のコンティグを構築するステップ、(iv)1つ以上のスーパーコンティグをアセンブルするステップ、(v)遺伝子型尤度比を生成するステップ、(vi)遺伝子変異の存在または不在を決定するステップ、または(vii)それらの組合せを実施するステップ、を含む。
マシン、ソフトウェア、およびインターフェースは、本明細書に記載の方法を実施するために使用しうる。マシン、ソフトウェア、およびインターフェースを用いて、ユーザーは、入力したり、要求したり、質問したり、または特定の情報、プログラム、もしくはプロセスを使用するオプション(たとえば、リードを取得したり、リードをリクルートしたり、リードをマッピングしたり、パイルアップ関係を生成したり、コンティグを構築したり、ハプロタイプをアセンブルしたり、遺伝子型尤度比を生成したり、遺伝子変異の存在または不在を決定したり、またはそれらを組み合わせたりする)を決定したりしうるとともに、こうしたオプションは、たとえば、統計解析アルゴリズム、統計的有意性アルゴリズム、統計学的誤差アルゴリズム、統計的確率アルゴリズム、繰返しステップ、検証アルゴリズム、およびグラフ表現を実現することを含みうる。いくつかの実施形態では、データファイルは、入力情報としてユーザーが入力しうるし、ユーザーは、好適なハードウェア媒体(たとえば、フラッシュドライブ)により1つ以上のデータファイルをダウンロードしうるし、および/またはユーザーは、一方のシステムから他方のシステムにデータセットを送信して後続の処理および/またはアウトカムの提供を行ったりしうる(たとえば、シーケンスリードデータをシーケンサーからコンピュータシステムに送信してシーケンスリードマッピングを行ったり、マッピングされた配列データをコンピュータシステムに送信して1つ以上の遺伝子型尤度比の処理および生成を行ったりしうる)。
システムは典型的には1つ以上のマシンを含む。各マシンは、1つ以上のメモリー、1つ以上のマイクロプロセッサー、および命令を含む。システムが2つ以上のマシンを含む場合、マシンの一部または全部は同一の場所に位置しうる、マシンの一部または全部は異なる場所に位置しうる、マシンはすべて1つの場所に位置しうる、および/またはマシンはすべて異なる場所に位置しうる。システムが2つ以上のマシンを含む場合、マシンの一部または全部はユーザーと同一の場所に位置しうる、マシンの一部または全部はユーザーと異なる場所に位置しうる、マシンはすべてユーザーと同一の場所に位置しうる、および/またはマシンはすべてユーザーと異なる1つ以上の場所に位置しうる。
システムは、ときには、コンピューター装置、またはシーケンシング装置、またはコンピューター装置およびシーケンシングする装置(すなわち、シーケンシングマシンおよび/またはコンピューターマシン)を含む。装置は、本明細書で参照される場合、マシンのこともある。シーケンシング装置は、一般に、物質核酸を受け取って核酸のヌクレオチド塩基に対応するシグナルを生成するように構成される。シーケンシング装置は、多くの場合、核酸を含むサンプルが「ロード」され、シーケンシング装置にロードされたサンプルの核酸は、一般に、核酸シーケンシングプロセスに付される。本明細書で用いられる「シーケンス装置にロードする」という用語は、シーケンシング装置の一部(たとえばフローセル)と核酸サンプルとを接触させることを意味し、シーケンシング装置の一部は、核酸シーケンシングプロセスを行うべくサンプルを受け取るように構成される。いくつかの実施形態では、シーケンシング装置は、サンプル核酸の変異体がロードされる。変異体は、ときには、サンプル核酸を修飾して核酸のシーケンシングに好適な形態にするプロセスにより産生される(たとえば、ライゲーションにより、たとえば、アダプターをサンプル核酸の末端にライゲーションにより付加することにより、増幅、制限消化などにより、またはそれらの組合せにより)。シーケンシング装置は、多くの場合、部分的には、ロードされた核酸のヌクレオチド塩基に対応するシグナル(たとえば、電子シグナル、検出器シグナル、データファイル、画像など、またはそれらの組合せ)を生成するのに好適なDNAシーケンシング法を実施するように構成される。
DNA配列のそれぞれの塩基に対応する1つ以上のシグナルは、多くの場合、好適なプロセスによりベースコール(たとえば、特定のヌクレオチド塩基、たとえば、グアニン、シトシン、チミン、ウラシル、アデニンなど)に処理および/または変換される。ロードされた核酸に由来する一群のベースコールは、多くの場合、1つ以上のシーケンスリードに処理および/またはアセンブルされる。複数のサンプル核酸が一度にシーケンシングされる実施形態では(すなわちマルチプレクシング)、好適なデマルチプレクシングプロセスは、特定のリードを由来源のサンプル核酸に関連付けるために利用可能である。シーケンスリードは、好適なプロセスにより参照ゲノムにアライメント可能であり、参照ゲノムの一部にアライメントされたリードおよび参照ゲノムにアライメントされない可能性のあるリードメイト(たとえば、低いマッピング性スコアを有するリードメイトまたはマッピングできないリードメイト)は、本明細書に記載されるように記憶および処理が可能である。
シーケンシング装置は、ときには、システム中の1つ以上のコンピューター装置に関連付けられるおよび/またはそれらを含む。1つ以上のコンピューター装置は、ときには、次のプロセス、すなわち、リードの取得、リードのリクルート、リードのフィルタリング、シーケンスリードセットのパイルアップ関係の決定、1つ以上のコンティグ(たとえば、コンティグおよび/または中間コンティグ)の構築、1つ以上のスーパーコンティグのアセンブリー、コンティグのフィルタリング、ハプロタイプのフィルタリング、ハプロタイパーの1つ以上の機能の実施、コーラーの1つ以上の機能の実施、1つ以上の遺伝子のアセンブリー、1つ以上の遺伝子型仮説の生成、1つ以上の遺伝子型尤度比の生成、遺伝子変異の存在または不在の決定など、またはそれらの組合せ、の1つ以上を実施するように構成される。1つ以上のコンピューター装置は、ときには、次の追加の処理、すなわち、シーケンシング装置シグナルからのベースコールの生成、リードの生成、リードのトリミング、リードのデマルチプレククシング、参照ゲノムへのリードのアライメントまたはマッピングなどの1つ以上を実施するように構成される。
いくつかの実施形態では、方法またはプロセスは、複数のコンピューター装置により実施され、システムにより実施された全プロセスのサブセットは、システム内の特定のコンピューター装置に割り付けうるかまたはそれらに分割しうる。プロセスの全数のサブセットは、任意の好適な組合せにより2つ以上のコンピューター装置またはそのグループに分割可能である。マルチコンピューター装置システムは、ときには、シーケンシング装置の近くの1つ以上の好適なサーバーを含み、ときには、シーケンシング装置の近くでない1つ以上の好適なサーバー(たとえば、ウェブサーバー、オンラインサーバー、アプリケーションサーバー、リモートファイルサーバー、クラウドサーバー(たとえば、クラウド環境、クラウドコンピューティング))を含む。
異なるシステム構成の装置はさまざまなタイプの出力データを生成可能である。たとえば、シーケンシング装置はベースシグナルを出力可能であり、ベースシグナル出力データは、ベースシグナルデータをベースコールに変換するコンピューター装置に導入可能である。いくつかの実施形態では、ベースコールは1つのコンピューター装置からの出力データであり、シーケンスリードを生成させるために他のコンピューター装置に転送される。ある特定の実施形態では、ベースコールは特定の装置からの出力データではなく、その代わりに、シーケンシング装置ベースシグナルを受け取ってシーケンスリードを生成する同一の装置で利用される。いくつかの実施形態では、1つの装置はシーケンシング装置ベースシグナルを受け取り、ベースコールを生成し、リードをシーケンシングし、シーケンスリードをデマルチプレックスし、サンプルのデマルチプレックスされたシーケンスリードを出力し、これを他の装置またはそのグループに転送して、シーケンスリードを参照ゲノムにアライメント可能である。1つの装置からの出力データは、任意の好適な形で第2の装置に転送可能である。たとえば、1つの装置からの出力データは、ときには、物理的記憶デバイス上に置かれ、記憶デバイスは、出力データが転送される第2の装置に輸送され接続される。出力データは、ときには、データベースとして1つの装置により記憶され、第2の装置は、同一のデータベースから出力データにアクセスする。
いくつかの実施形態では、ユーザーは装置(たとえば、コンピューター装置(シーケンシング装置))と対話する。ユーザーは、たとえば、クエリーをソフトウェアに置きうるとともに、次いで、インターネットアクセスを介してデータセットを獲得しうる。また、ある特定の実施形態では、プログラマブルマイクロプロセッサーは、所与のパラメーターに基づいて好適なデータセットを獲得するように促しうる。プログラマブルマイクロプロセッサーはまた、所与のパラメーターに基づいてマイクロプロセッサーにより選択された1つ以上のデータセットオプションを選択するようにユーザーを促しうる。プログラマブルマイクロプロセッサーは、インターネットを介して見いだされた情報、他の内部または外部の情報などに基づいてマイクロプロセッサーにより選択された1つ以上のデータセットオプションを選択するようにユーザーを促しうる。オプションは、1つ以上のデータ特徴選択、1つ以上の統計的アルゴリズム、1つ以上の統計解析アルゴリズム、1つ以上の統計的有意性アルゴリズム、繰返しステップ、1つ以上の検証アルゴリズム、1つ以上の方法グラフ表現、マシン、装置(複数の装置、本明細書では複数形でapparatus(装置)としても参照される)、コンピュータープログラム、または実行可能プログラムを記憶した非一時的コンピューター可読記憶媒体を選択すべく選びうる。
本明細書に扱われるシステムは、デバイス、周辺機器、インターフェース、記憶媒体、センサー、および典型的なコンピュータシステムの一部、たとえば、ネットワークサーバー、ラップトップシステム、デスクトップシステム、ハンドヘルドシステム、パーソナルディジタルアシスタント、携帯電話、コンピューターキオスクなどを含みうる。コンピュータシステムは、ユーザーがシステムにデータを入力するために、1つ以上の入力手段、たとえば、キーボード、タッチスクリーン、マウス、音声認識手段、または他の手段を含みうる。システムは、1つ以上の出力装置、たとえば、限定されるものではないが、ディスプレイ(たとえば、CRT、LED、またはLCD)、スピーカー、FAXマシン、プリンター(たとえば、レーザー、インクジェット、インパクト、白黒またはカラープリンター)、情報(たとえば、アウトカムおよび/またはレポート)のビジュアル、オーディオ、および/またはハードコピー出力を提供するのに有用な任意の他の好適な出力装置をさらに含みうる。
コンピュータシステムは、多くの場合、ユーザー入力コンポーネントを含む。ユーザー入力コンポーネントは、被験体および/または他のユーザーによる情報の入力および/または選択を容易にする。ユーザー入力コンポーネントは、多くの場合、ユーザーインターフェースおよび/または他のインターフェースデバイスを介して情報の入力および/または選択を容易にする。たとえば、ユーザー入力コンポーネントは、ユーザーインターフェースにより1つ以上の図のグラフ図をユーザーに表示できるようにしうるとともに、ユーザーによる情報の入力および/または選択を容易にする。いくつかの実施形態では、ユーザー入力コンポーネントは、1名以上のユーザーに関連付けられた1つ以上のユーザーインターフェースによる情報の入力および/または選択を容易にするように構成される。いくつかの実施形態では、ユーザー入力コンポーネントは、ウェブサイト、モバイルアプリ、テキストメッセージおよび/または電子メールが送信されるボット、および/または他の方法による情報の入力および/または選択を容易にするように構成される。いくつかの実施形態では、入力および/または選択された情報は、核酸配列、ユーザー、サンプル、およびマイクロプロセッサーに追加の命令を提供するオプションパラメーターに関連する情報を含む。いくつかの実施形態では、ユーザー入力コンポーネントは、特定の問題に答えるようにおよび/または他の情報を提供するように被験体またはユーザーおよび/または他のユーザーを促すように構成される。いくつかの実施形態では、ユーザー入力コンポーネントは、時刻、継続時間、および/または他の時間関連情報と、他の入力情報、選択情報、記憶情報、抽出情報、および/または処理情報と、を関連付けるように構成される。
システムでは、入出力手段は、プログラム命令を実行するためのマイクロプロセッサーならびにプログラムコードおよびデータを記憶するためのメモリーを含みうる中央処理ユニットに接続しうる。いくつかの実施形態では、プロセスは、地理的に1ヶ所に位置する単一のユーザーシステムとして実行しうる。ある特定の実施形態では、プロセスは、マルチユーザーシステムとして実行しうる。マルチユーザーで実行する場合、ネットワークにより複数の中央処理ユニットを接続しうる。ネットワークは、建物の一部の単一部門を含めて局所的でありうるか、建物全体でありうるか、複数の建物にまたがりうるか、地域にまたがりうるか、全国にまたがりうるか、または世界的でありうる。ネットワークは、個人的なものでありうるか、プロバイダーが所有し制御するものでありうるか、またはユーザーがウェブページにアクセスして情報の入出力を行うインターネットベースのサービスとして実現されるものでありうる。したがって、ある特定の実施形態では、システムは、ユーザーに対してローカルでありうるかまたはリモートでありうる1つ以上のマシンを含む。ユーザーは、1つの場所または複数の場所にある2つ以上のマシンをアクセスしうるとともに、逐次的および/または並列的にデータをマッピングおよび/または処理しうる。それゆえ、複数のマシンを用いて、たとえば、ローカルネットワーク、リモートネットワーク、および/または「クラウド」コンピューティングプラットフォームを用いて、データをマッピングおよび/または処理すべく、好適な構成および制御を利用しうる。
システムは、いくつかの実施形態では、通信インターフェースを含みうる。通信インターフェースは、コンピュータシステムと1つ以上の外部デバイスとの間でソフトウェアおよびデータの転送を可能にする。通信インターフェースの例としては、限定されるものではないが、モデム、ネットワークインターフェイス(イーサネット(登録商標)/WiFi)、通信ポート(たとえば、USBポート、HDMI(登録商標)ポート)、Bluetooth(登録商標)、PCMCIAスロット、および/またはカードなどが挙げられる。限定されるものではないが、マニュアル入力デバイスおよび/または直接データ入力デバイス(DDE)をはじめとする好適な通信インターフェース、デバイス、および/または方法により、データを入力しうる。マニュアルデバイスの例としては、限定されるものではないが、キーボード、コンセプトキーボード、タッチセンサースクリーン、ライトペン、マウス、トラックボール、ジョイスティック、グラフィックスタブレット、スキャナー、ディジタルカメラ、ビデオディジタイザー、および音声認識デバイスが挙げられる。DDEの例としては、限定されるものではないが、バーコードリーダー、磁気ストリップコード、スマートカード、磁気インク文字認識、光学式文字認識、光学マーク認識、およびターンアラウンドドキュメントが挙げられる。
ある特定の実施形態では、シミュレートデータはin silicoプロセスにより生成され、シミュレートデータは入力デバイスを介して入力可能なデータとして機能する。「in silico」という用語は、データ(たとえば、コンティグ、中間コンティグ、スーパーコンティグなど)、および/またはコンピューター、1つ以上のコンピュータープログラムコンポーネント、もしくはそれらの組合せを用いて実施されるデータの操作もしくは変換を意味する。ある特定の実施形態では、本明細書の方法およびプロセスはin silicoで実施される。in silicoプロセスは、限定されるものではないが、リードのマッピング、リードのアライメント、リードのオーバーラッピング、パイルアップ関係の生成、繰返しプロセス(たとえば、繰返しアセンブリー、またはコンティグ、中間コンティグおよび/またはスーパーコンティグまたはそれらの一部の構築)、ハプロタイプのアセンブリー、遺伝子型および/または遺伝子型仮説のアセンブリーが挙げられる。
システム、本明細書に記載のプロセスを行うのに有用なソフトウェアを含みうるとともに、ソフトウェアは、かかるプロセスを実施するための1つ以上のコンピュータープログラムコンポーネントを含みうる。「ソフトウェア」という用語は、コンピューターにより実行された時にコンピューター操作を実施するプログラム命令(たとえば実行可能プログラム)を含むコンピューター可読記憶媒体を意味する。1つ以上のマイクロプロセッサーにより実行可能な命令は、ときには、実行時に本明細書に記載の方法を1つ以上のマイクロプロセッサーに実行させる実行可能コードとして提供される。
本明細書に記載のコンピュータープログラムコンポーネント(すなわちコンポーネント)は、ソフトウェアとして、および/またはプロセッサーもしくはマイクロプロセッサーにより実行もしくは実施が可能なソフトウェアに具現化された命令(たとえば、プロセス、ルーチン、サブルーチン)として存在可能である。たとえば、コンピュータープログラムコンポーネントは、特定のプロセスまたはタスクを実施するプログラムの一部でありうる。「コンピュータープログラムコンポーネント」および「コンポーネント」という用語は、本明細書では同義的に用いられ、より大きなマシンまたはソフトウェアシステムで使用可能な内蔵型機能ユニットを意味する。コンポーネントは、1つ以上のマイクロプロセッサーによりコンピュータープログラムコンポーネントの機能を発揮するための命令セットを含みうる。コンピュータープログラムコンポーネントの命令は、好適なプログラミング言語、好適なソフトウェア、および/または好適な言語(たとえば、当技術分野で公知のコンピュータープログラミング言語)で書かれたコード、および/またはオペレーティングシステム(その例としては、限定されるものではないが、UNIX(登録商標)、Linux(登録商標)、oracle、windows、Ubuntu、ActionScript、C、C++、C#、Haskell、Java(登録商標)、JavaScript(登録商標)、Objective−C、Perl、Python、Ruby、Smalltalk、SQL、Visual Basic、COBOL、Fortran、UML、HTML(たとえば、PHP)、PGP、G、R、Sなど、またはそれらの組合せが挙げられる)の使用により計算環境で実行可能である。
いくつかの実施形態では、コンピュータープログラムコンポーネントは、1つ以上のデータファイルを含み、しかも他のコンピュータープログラムコンポーネントにデータファイルを転送可能であり、および/または他のコンピュータープログラムコンポーネントからのデータファイルを受信可能である。いくつかの実施形態では、コンポーネントは、たとえば、データおよび/または情報を、有形印刷物、ユーザーへの説明書、アウトカム、ディスプレイ、遺伝子型など、またはそれらの組合せに変換する。たとえば、本明細書に記載の1つ以上のコンポーネントおよび/またはマイクロプロセッサー(たとえば、装置またはマシン)は、被験体ゲノムのランダムで無秩序な核酸断片を表すシーケンシングリードを取得し、そうしたリードを被験体の身体の特定の部分(たとえば、被験体のゲノムの一部(たとえば、対象のゲノム領域の遺伝子型))の正確な表現(たとえば、ディスプレイ)に変換する。プロセスは、パズルの何百万ものピースを絵に変換するプロセスまたはX線データのビットを被験体身体(たとえば、骨、器官、および他の生体組織の表示)の一部の表示に変換するプロセスと比較可能である。
本明細書に記載の方法では1つ以上のコンポーネントを利用することが可能であり、その例としては、限定されるものではないが、配列コンポーネント、リクルートコンポーネント、パイルアップ関係コンポーネント、スーパーコンティガーコンポーネント、コンティグアセンブリーコンポーネント、スーパーコンティグアセンブリーコンポーネント、インサートサイズ分布コンポーネント、アダプタートリマーコンポーネント、リード−リードアライナー、ハプロタイプコンポーネント、コーラー、アウトカムコンポーネントなど、またはそれらの組合せが挙げられる。コンポーネントは、ときには、マイクロプロセッサーにより制御される。ある特定の実施形態では、コンポーネントまたは1つ以上のコンポーネントを含むマシンは、他のコンポーネント、マシン、インターフェース、周辺機器、またはマシンのオペレーター(ユーザー)との間で、データおよび/または情報の収集、アセンブル、受取り、取得、アクセス、回収、提供および/または転送を行う。いくつかの実施形態では、データおよび/または情報(たとえばシーケンスリード)は、次のもの、すなわち、1つ以上のフローセル、カメラ、検出器(たとえば、光検出器、光電池、電気検出器(たとえば、振幅変調検出器、周波数および位相変調検出器、フェーズロックループ検出器)、カウンター、センサー(たとえば、圧力、温度、体積、流量、重量のセンサー)、流体取扱いデバイス、データ入力デバイス(たとえば、キーボード、マウス、スキャナー、音声認識ソフトウェアおよびマイクロフォン、スタイラスなど)、プリンター、ディスプレイ(たとえば、LED、LCT、またはCRT)など、またはそれらの組合せ、の1つ以上を含むマシンによりコンポーネントに提供される。たとえば、ときには、マシンまたは装置のオペレーターは、定数、閾値、式、または所定の値をコンポーネントに提供する。コンピュータープログラムコンポーネントは、多くの場合、マイクロプロセッサー、記憶媒体、および/またはメモリーとの間でデータおよび/または情報の転送を行うように構成される。コンポーネントは、多くの場合、他の好適なコンポーネントまたはマシンとの間でデータおよび/または情報の転送あるいはデータおよび/または情報の受信を行うように構成される。コンポーネントは、データおよび/または情報の操作および/または変換を行うことが可能である。コンポーネントにより導出または変換されたデータおよび/または情報は、他の好適なマシンおよび/またはコンポーネントに転送可能である。コンピュータープログラムコンポーネントを含むマシンは、少なくとも1つのマイクロプロセッサーを含みうる。コンポーネントを含むマシンは、マイクロプロセッサー(たとえば、1つ以上のマイクロプロセッサー)を含みうるとともに、マイクロプロセッサーは、コンポーネントの1つ以上の命令(たとえば、プロセス、ルーチンは、および/またはサブルーチン)を実施および/または実行することが可能である。いくつかの実施形態では、コンポーネントは、1つ以上の外部マイクロプロセッサー(たとえば、内部または外部のネットワーク、サーバー、記憶デバイス、および/または記憶ネットワーク(たとえば、クラウド))で動作する。
データおよび/または情報は好適な形態でありうる。たとえば、データおよび/または情報はディジタルまたはアナログでありうる。ある特定の実施形態では、データおよび/または情報は、ときには、パケット、バイト、キャラクター、またはビットでありうる。いくつかの実施形態では、データおよび/または情報は、任意の収集された、アセンブルされた、または使用可能なデータまたは情報でありうる。データおよび/または情報の例としては、限定されるものではないが、好適な媒体、写真、ビデオ、音(たとえば、周波数、オーディブル、または非オーディブル)、数値、定数、データファイル、値、オブジェクト、時間、機能、命令、マップ、参照、配列、リード、マッピングされたリード、レベル、範囲、閾値、シグナル、表示、表現、またはそれらの変換が挙げられる。コンピュータープログラムコンポーネントは、データおよび/または情報の容認または受信、データおよび/または情報の第2の形態への変換、マシン、周辺機器、デバイス、マイクロプロセッサー、記憶デバイス、インターフェース、または他のコンピュータープログラムコンポーネントへの第2の形態の情報の提供または転送を行うことが可能である。マイクロプロセッサーは、ある特定の実施形態では、コンポーネント中の命令を実施可能である。いくつかの実施形態では、1つ以上のマイクロプロセッサーは、コンピュータープログラムコンポーネントまたはコンピュータープログラムコンポーネントのグループで命令を実施するために必要である。コンピュータープログラムコンポーネントは、他のコンピュータープログラムコンポーネント、マシン、またはソースにデータおよび/または情報を提供可能でありできる、かつ他のコンピュータープログラムコンポーネント、マシン、またはソースからデータおよび/または情報を受信可能である。
コンピュータープログラム製品は、ときには非一時的コンピューター可読媒体上で具現化され、ときには非一時的コンピューター可読媒体上で実体的に具現化される。ある特定の実施形態では、コンピューター可読記憶媒体は、実行可能プログラムを記憶して含む。コンピュータープログラムコンポーネントは、ときには、非一時的コンピューター可読媒体(たとえば、ディスク、ドライブ)またはメモリー(たとえば、ランダムアクセスメモリー)に記憶される。コンピュータープログラムコンポーネントの命令を実行可能なコンピュータープログラムコンポーネントおよびマイクロプロセッサーは、1つのマシンまたは異なるマシンに位置しうる。コンピュータープログラムコンポーネントの命令を実行可能なコンピュータープログラムコンポーネントおよび/またはマイクロプロセッサーは、ユーザーと同一の場所に位置しうるか(たとえば、ローカルネットワーク)またはユーザーと異なる場所に位置しうる(たとえば、リモートネットワーク、クラウドシステム)。2つ以上のコンピュータープログラムコンポーネントを組み合わせて方法が実施される実施形態では、コンピュータープログラムコンポーネントは同一のマシンに位置しうるし、1つ以上のコンピュータープログラムコンポーネントは同一の物理的場所で異なるマシンに位置しうるし、1つ以上のコンピュータープログラムコンポーネントは異なる物理的場所で異なるマシンに位置しうる。
ある特定の実施形態では、マシン、装置、またはコンピューターは、1つ以上のコンピューターコンポーネントパーツ(周辺機器および/またはインターフェース)を含む。周辺機器および/またはコンピューターコンポーネントパーツは、ときには、コンピュータープログラムコンポーネント、インターフェース、ディスプレイ、周辺機器、および/または他のコンピューターコンポーネントパーツとの間でデータおよび/または情報の転送を行いうる。ある特定の実施形態では、マシンは、データおよび/または情報を提供する周辺機器および/またはコンピューターコンポーネントパーツと対話する。ある特定の実施形態では、周辺機器およびコンピューターコンポーネントパーツは、機能を発揮したりまたはコンピュータープログラムコンポーネントと直接対話したりする際にマシンを支援する。周辺機器および/またはコンピューターコンポーネントパーツの例としては、限定されるものではないが、好適なコンピューター周辺機器、I/Oまたは記憶の方法またはデバイス、たとえば、限定されるものではないが、スキャナー、プリンター、ディスプレイ(たとえば、モニター、LED、LCT、またはCRT)、カメラ、マイクロフォン、パッド(たとえば、ipad、タブレット)、タッチスクリーン、スマートフォン、移動電話、USB I/Oデバイス、電子記憶装置(USB大容量記憶装置)、光学可読記憶媒体(たとえば、光ディスクなど)、磁気可読記憶媒体(たとえば、磁気テープ、磁気ハードドライブ、フロッピードライブなど)、電荷ベース記憶媒体(たとえば、EPROM、RAMなど)、ソリッドステート記憶媒体(たとえば、フラッシュドライブなど)、および/または他の電子可読記憶媒体、キーボード、コンピューターマウス、ディジタルペン、モデム、ハードドライブ、ジャンプドライブ、フラッシュドライブ、マイクロプロセッサー、サーバー、CD、DVD、グラフィックスカード、専用I/Oデバイス(たとえば、シーケンサー、フォトセル、光電子増倍管、オプティカルリーダー、センサーなど)、ネットワークインターフェイスコントローラー、リードオンリーメモリー(ROM)、ランダムアクセスメモリー(RAM)、ワイヤレストランスファーデバイス(Bluetooth(登録商標)デバイス、WiFiデバイスなど)、ワールドワイドウェブ(www)、インターネット、コンピューター、および/または他のコンピュータープログラムコンポーネントが挙げられる。
コンピュータープログラムコンポーネントおよびコンピューターインプリメンテーション
いくつかの実施形態では、システムは、シーケンスリードを生成するように構成されたシーケンスコンポーネントを含む。シーケンスコンポーネントは、核酸シーケンサー(たとえば、核酸ライブラリーのためのシーケンスリードを生成するように設計され構成されたマシンまたは装置)ならびに/またはシーケンスリードを生成、アセンブル、マッピング、およびトリミングするように構成されたソフトウェアおよび命令を含みうる。シーケンスコンポーネントは、多くの場合、データファイルの形式(たとえば、bamファイル、fastaファイルなど)でシーケンスリードを提供する。シーケンスコンポーネントは、任意の好適なファイル形式でのシーケンスリードを提供可能である。
いくつかの実施形態では、システムはリクルートコンポーネントを含む。いくつかの実施形態では、リクルートコンポーネントは、シーケンスリード(たとえば、ペアエンドシーケンスリード)を取得するように好適な供給源および/または入力手段からデータファイルの形式で構成される。たとえば、リクルートコンポーネントは、リードを生成するように構成された装置(たとえば、核酸シーケンシング用に構成された装置)から、および/またはリードをアセンブルおよび/またはマッピングするように構成されたコンピューターから、リードを取得または受け取ることが可能である。いくつかの実施形態では、リクルートコンポーネントは、シーケンスコンポーネントからリードを取得および/またはリクルートする。いくつかの実施形態では、リクルートコンポーネントは、好適な非一時的または一時的記憶媒体からリードを取得する。たとえば、人は、任意の好適な手段により(たとえば、ジャンプドライブ、ディスク、電子メール、インターネットなどを介して)、データファイルをリクルートコンポーネントに提供することにより、シーケンスリードをリクルートコンポーネントに提供可能である。ある特定の実施形態では、リクルートコンポーネントは、参照にマッピングされるリード、および/または参照にマッピングされない、一致しない、もしくは不十分にマッピングされるリード(たとえば、低いマッピング性を有するリード)を取得および/またはリクルートする。いくつかの実施形態では、リクルートコンポーネントは、マッピングされるか、マッピングされないか、一致しないか、または不十分にマッピングされるかにかかわらず、マッピングされるペアエンドシーケンスリードのリードメイトおよびその対応するリードメイトを取得する。ある特定の実施形態では、リクルートコンポーネントは、各ペアの2つのリードメイトの少なくとも1つが、所定の対象のゲノム領域を含む参照ゲノムの少なくとも一部にマッピングされ、かつペアエンドシーケンスリードのいくつかが参照ゲノムの少なくとも一部にマッピングされない場合、各ペアが2つのリードメイトを含んで複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得する。いくつかの実施形態では、リクルートコンポーネントは、リードに関連付けられる情報(たとえば、リード長、リードメイトペアの向き、およびリードメイトペアの推定インサート長)を取得および/または記憶する。いくつかの実施形態では、リクルートコンポーネントは、選択されたリード(たとえば、リクルートされたリード、取得したリード、選択されたリードセット)を他のコンピュータープログラムコンポーネントに転送するように構成される。たとえば、いくつかの実施形態では、選択されたリードをリクルートコンポーネントは、フィルターコンポーネント、トリミングコンポーネント、マッピングコンポーネント、またはパイルアップ関係コンポーネント、コンティグアセンブリーコンポーネント、スーパーコンティグアセンブリーコンポーネント、および/またはコーラーコンポーネントに転送する。
いくつかの実施形態では、システムまたは記憶媒体は、インサートサイズ分布コンポーネントを含む。いくつかの実施形態では、インサートサイズ分布コンポーネントは、リクルートコンポーネント、スーパーコンティガー、スーパーコンティグアセンブリーコンポーネント、ハプロタイプコンポーネント、または遺伝子型尤度比コンポーネントとの間でデータおよび/または情報の転送および/または受信を行いうる。いくつかの実施形態では、インサートサイズ分布コンポーネントは、多くの場合、インサートサイズ分布、推定インサートサイズ、推定インサート長、および/またはリードペアまたはペアエンドリードサブセットのインサートサイズの推定尤度を決定するように構成される。いくつかの実施形態では、インサートサイズ分布コンポーネントは、推定インサート断片長、計算インサート断片長、または測定インサート断片長の分布を生成し、ペアエンドリードサブセットの推定インサートサイズを決定する。ときには、インサートサイズ分布コンポーネントは、データファイル中に推定インサートサイズおよび/またはインサートサイズの推定尤度を導入またはインデックス付けする。いくつかの実施形態では、インサートサイズの推定尤度はリードメイトペアに関連付けられ、これを用いて所与のリードメイトペアがコンティグまたはスーパーコンティグにマッピングまたはアライメントする可能性を決定する。いくつかの実施形態では、インサートサイズ分布コンポーネントは、推定インサート長に従って、他のリードメイトペア、参照配列、コンティグ、またはスーパーコンティグへのリードメイトペアのマッピングまたはアライメントに関連する尤度または確率を決定する。
いくつかの実施形態では、インサートサイズ分布コンポーネントは、スーパーコンティグまたは遺伝子型仮説に尤度(たとえば、インサートサイズ尤度)、尤度スコア、またはペナルティーを帰属する。いくつかの実施形態では、インサートサイズ分布コンポーネントは、提案されたインサートサイズに尤度、尤度スコア、またはペナルティーを帰属する。たとえば、いくつかの実施形態では、ハプロタイパーは、リードペアをスーパーコンティグまたは遺伝子型仮説のハプロタイプに再アライメントする。ある特定の実施形態では、ハプロタイパーによりインサートサイズ分布コンポーネントをリクルートして、再アライメントされたリードペア間の距離(その距離はスーパーコンティグまたはハプロタイプにより規定される)がリードペアの推定インサートサイズまたはインサートサイズ分布と一致するかを決定する。いくつかの実施形態では、インサートサイズ分布コンポーネントは、(i)再アライメントされたリードペア間の距離(この距離は、リードペアがアライメントされるスーパーコンティグまたはハプロタイプにより規定される)と、(ii)リードペアで決定されたインサートサイズ分布または推定インサートサイズと、を比較して、いくつかの実施形態では、リードペアがアライメントされたスーパーコンティグまたは遺伝子型仮説に関連付けられる尤度、尤度スコア、または確率を戻す。たとえば、リードメイトペアのリードメイトが仮説配列(たとえば、スーパーコンティグ、遺伝子型仮説のハプロタイプ)にマッピングされ、かつ推定インサートサイズよりも互いに離れた距離でマッピングされるいくつかの実施形態では、かかる長いインサートサイズの尤度は低いであろう。この低い尤度を用いてその仮説の尤度比にペナルティーを課す。いくつかの実施形態では、インサート分布コンポーネントは、スーパーコンティグまたは遺伝子型仮説に再アライメントされる複数のリードペアに従って尤度、尤度スコア、または確率を決定する。いくつかの実施形態では、インサート分布コンポーネントは、スーパーコンティグまたは遺伝子型仮説に再アライメントされる複数のリードペアに従って尤度、尤度スコア、または確率を決定し、尤度、尤度スコア、または確率をリードが再アライメントされたスーパーコンティグまたは遺伝子型仮説に関連付ける。ある特定の実施形態では、尤度または尤度スコアは、スーパーコンティグ、ハプロタイプ、または遺伝子型仮説に関連付けられるペナルティーまたはペナルティースコアを含む。ある特定の実施形態では、データおよび/または情報(たとえば、インサートサイズ分布、推定インサートサイズ、尤度、インサートサイズ尤度、尤度スコア、ペナルティー、または確率)は、各リードペア対各ハプロタイプに対してマッピングウェイトを決定するためにまたはるあらかじめ計算するために、ハプロタイプコンポーネントに転送されるおよび/またはそれにより処理される。いくつかの実施形態では、マッピングウェイトは、部分的には、インサートサイズ分布コンポーネントにより決定された1つ以上のインサートサイズ尤度またはペナルティーに従って決定される。いくつかの実施形態では、マッピングウェイトは、インサートサイズ分布コンポーネントから導出されるインサートサイズ尤度を含む。
いくつかの実施形態では、マジョリティーコンセンサスヌクレオチドは、パイルアップ関係に従って決定される(たとえば、パイルアップ関係コンポーネントにより決定される)複数のオーバーラップまたはアライメントに従って決定される。ある特定の実施形態では、リードのオーバーラップおよび/またはアライメントは、マッピングされたリードメイト間の推定または黙示インサート長に従ってそれらの対応するリードメイトのオーバーラップおよび/またはアライメントに関してチェックされる。かかる機能は、多くの場合、インサートサイズ分布コンポーネントにより実施される。たとえば、リードメイトペアの2つのリードメイトがコンティグの一部にアライメントされ、2つのリードメイト末端間の距離がある特定のインサートサイズを示唆する場合、そのアライメントは、実験室DNA断片化プロトコルにより生成されるかかるインサートサイズの頻度に対応するインサートサイズ尤度を受け取るであろう。いくつかの実施形態では、リードメイトペアの2つのリードメイトがコンティグの一部にオーバーラップまたはアライメントされ、かつ2つのリードメイトの末端間の距離がそれらのインサート長を示唆し、DNA断片化プロセスを仮定してかなりの頻度である場合、かかるリードペアアライメントは比較的高い尤度に帰属される。一方、低い尤度は、DNA断片化プロトコルを仮定してあまりにも短いかあまりにも長いインサートサイズを示唆するリードペアアライメントに帰属されるであろう。コンティグのアセンブリー時またはスーパーコンティグのアセンブリー時、オーバーラップペナルティーおよびアライメントペナルティーを評価することもある。いくつかの実施形態では、ペナルティーを含むオーバーラップおよび/またはアライメントは含まれていないか、またはコンティグ、中間コンティグ、もしくはスーパーコンティグのアセンブリーに使用されない。リードメイトペアの2つのリードメイトを含むアライメントおよびオーバーラップは、多くの場合、インサートサイズ分布コンポーネントによりチェックされる。ある特定の実施形態では、インサートサイズ分布コンポーネントは、リードメイト末端の位置により決定されるインサート長に従って、コンティグ、中間コンティグ、スーパーコンティグ、およびハプロタイプへのリードメイトペアのオーバーラップおよびアライメントを評価する。ある特定の実施形態では、インサートサイズ分布コンポーネントは、リードメイトペアのある特定のオーバーラップおよびアライメントにウェイトおよび/またはペナルティーまたは尤度を帰属する(たとえば、コンティグ、中間コンティグ、スーパーコンティグ、およびハプロタイプへのリードメイトのアライメント)。いくつかの実施形態では、インサートサイズ分布コンポーネント、リードメイトペア(たとえば、両方のリードメイト)がin silico生成配列(たとえば、コンティグ、スーパーコンティグ、ハプロタイプ、またはハプロタイプ仮説)により生成される尤度を決定し、この場合、尤度は、配列へのアライメントにより示唆されるリードペアのインサート長に従って決定される。いくつかの実施形態では、インサート分布コンポーネントは、尤度をin silico生成配列(たとえば、コンティグ、スーパーコンティグ、ハプロタイプ、またはハプロタイプ仮説)への各リードペアのアライメントに関連付け、この場合、尤度は、インサートサイズに従って決定され、かつ尤度は、式3および6に示される確率P(I)として含まれ、式中、IはリードペアのマッピングMにより示唆されるインサートサイズである。いくつかの実施形態では、確率P(I)は経験的インサートサイズ分布から取得可能である。インサートサイズ分布コンポーネントは、多くの場合、データおよび/または情報をパイルアップ関係コンポーネント、コンティグアセンブリーコンポーネント、スーパーコンティグアセンブリーコンポーネント、コーラー、および/またはコーラーコンポーネントに送信する。
いくつかの実施形態では、システムは、パイルアップ関係コンポーネント(すなわち、関係コンポーネント)を含む。いくつかの実施形態では、パイルアップ関係コンポーネントは1つ以上のパイルアップ関係を決定する。いくつかの実施形態では、パイルアップ関係コンポーネントは、リードおよび/またはリードメイトへのアライメントを実施し、オーバーラップを生成し、かつ関係(たとえば、パイルアップ関係)を決定または帰属するように構成される。いくつかの実施形態では、パイルアップ関係コンポーネントは、リードセットに対して1つ以上のパイルアップ関係を生成するように構成される。パイルアップ関係コンポーネントは、多くの場合、リクルートコンポーネントからリードを取得しおよび/または受け取り、受け取ったリードに従って1つ以上のパイルアップ関係を生成する。ある特定の実施形態では、パイルアップ関係コンポーネントは、リードのセットまたはサブセットへのすべての可能なオーバーラップを生成する。ある特定の実施形態では、パイルアップ関係コンポーネントは、好適なk−merハッシングストラテジーに従ってリードのセットまたはサブセットのオーバーラップを生成する。ある特定の実施形態では、パイルアップ関係コンポーネントは、オーバーラップをフィルタリング、除去、および/またはプルーニングする。ある特定の実施形態では、パイルアップ関係コンポーネントは、オーバーラップを選択および/または記憶する。いくつかの実施形態では、パイルアップ関係コンポーネントは、パイルアップグラフおよび/またはタイリングを生成する。パイルアップ関係コンポーネントは、多くの場合、リードセットで選択されたオーバーラップおよび/またはリード−リードアライメントをコンティグアセンブリーコンポーネントに転送する。
いくつかの実施形態では、システムはコンティグアセンブリーコンポーネントを含む。ある特定の実施形態では、コンティグアセンブリーコンポーネントは、リクルートコンポーネントまたはパイルアップ関係コンポーネントからデータおよび/または情報(たとえば、データファイル)を受け取る。コンティグアセンブリーコンポーネントは、多くの場合、パイルアップ関係に従ってヌクレオチドをスターターリードまたは中間コンティグに繰り返し付加することにより(たとえば、in silicoで)コンティグをアセンブルするように構成される。コンティグアセンブリーコンポーネントは、多くの場合、スターターリード、コンティグ、または中間コンティグの一部へのリード、リードメイト、および/またはリードメイトペアのオーバーラップおよび/またはアライメントを決定する。いくつかの実施形態では、コンティグアセンブリーコンポーネントは、多くの場合、パイルアップ関係に従ってリード、リードメイト、および/またはリードメイトペアのオーバーラップおよび/またはアライメントを決定する。いくつかの実施形態では、コンティグアセンブリーコンポーネントは、多くの場合、リードのある特定のオーバーラップおよび/またはアライメントに対して決定されたペナルティーおよび/またはウェイトに従ってリード、リードメイト、および/またはリードメイトペアのオーバーラップおよび/またはアライメントを決定する。ペナルティー、ウェイト、および/またはそれらの不在は、多くの場合、インサートサイズ分布コンポーネントにより決定され、コンティグアセンブリーコンポーネントに送られ、コンティグのアセンブル時にその情報を用いてある特定のリードのオーバーラップまたはアライメントを含めるかまたは排除する。コンティグアセンブリーコンポーネントにより生成されたコンティグ(たとえば、コンティグおよび中間コンティグ)は、多くの場合、スーパーコンティグアセンブリーコンポーネントに送られる。
いくつかの実施形態では、システムはスーパーコンティグアセンブリーコンポーネントを含む。ある特定の実施形態では、スーパーコンティグアセンブリーコンポーネントは、コンティグアセンブリーコンポーネント、関係コンポーネント、インサートサイズ分布コンポーネント、および/またはリクルートコンポーネントからデータおよび/または情報(たとえばデータファイル)を受け取る。スーパーコンティグアセンブリーコンポーネントは、多くの場合、コンティグを1つ以上のリードメイトペアでブリッジすることによりスーパーコンティグを構築またはアセンブルするように構成される。スーパーコンティグアセンブリーコンポーネントは、多くの場合、1つ以上のコンティグまたは中間コンティグの一部へのリード、リードメイト、および/またはリードメイトペアのオーバーラップおよび/またはアライメントを決定する。いくつかの実施形態では、スーパーコンティグアセンブリーコンポーネントは、多くの場合、2つ以上のコンティグを接続するリード、リードメイト、および/またはリードメイトペアのオーバーラップおよび/またはアライメントを決定する。いくつかの実施形態では、スーパーコンティグアセンブリーコンポーネントは、多くの場合、リードおよびリードメイトペアのある特定のオーバーラップおよび/またはアライメントに対して決定されたペナルティーおよび/またはウェイトに従って、リード、リードメイト、および/またはリードメイトペアのオーバーラップおよび/またはアライメントを決定する。ペナルティー、ウェイト、および/またはそれらの不在は、多くの場合、インサートサイズ分布コンポーネントにより決定され、スーパーコンティグアセンブリーコンポーネントに送られ、スーパーコンティグのアセンブル時にその情報を用いてある特定のリードのオーバーラップまたはアライメントを含めるかまたは排除する。いくつかの実施形態では、スーパーコンティグアセンブリーコンポーネントにより生成されたスーパーコンティグは、コーラーまたはコーラーコンポーネントに送られる。いくつかの実施形態では、スーパーコンティグアセンブリーコンポーネントにより生成されたスーパーコンティグは、ハプロタイプコンポーネントに送られる。
いくつかの実施形態では、システムは、1つ以上のハプロタイパープロセスを行うハプロタイパー(たとえばハプロタイプコンポーネント)を含む。1つ以上のハプロタイパープロセスは、多くの場合、ハプロタイプコンポーネントにより実施される。ハプロタイプコンポーネントは、スーパーコンティガーコンポーネント、スーパーコンティグアセンブリーコンポーネント、パイルアップ関係コンポーネント、インサートサイズ分布コンポーネント、またはリクルートコンポーネントの1つ以上との間でデータおよび/または情報の受取りおよび/または交換を行う。ハプロタイプコンポーネントは、オブジェクト、データ、および/または情報コーラーまたはアウトカムコンポーネントに送ることが可能である。いくつかの実施形態では、システムはハプロタイプコンポーネントを含まない。
いくつかの実施形態では、システムはコーラー(たとえばコーラーコンポーネント)を含む。ある特定の実施形態では、コーラーコンポーネントは、スーパーコンティグアセンブリーコンポーネント、ハプロタイプコンポーネント、関係コンポーネント、インサートサイズ分布コンポーネントおよび/またはリクルートコンポーネントからデータおよび/または情報(たとえばデータファイル)を受け取る。ある特定の実施形態では、コーラーは、所与の倍数性のすべての可能な遺伝子型をアセンブルする。いくつかの実施形態では、コーラーは、式6および/または式1の機能を発揮する。いくつかの実施形態では、コーラーは、各リードペアおよび各対立遺伝子(スーパーコンティグ)に対してリードペアウェイトを前計算し、コーラーコンポーネントにより実施可能な仮説尤度計算時にその値を再コールする。いくつかの実施形態では、すべてのリードに対してリードウェイトの計算を容易にするために、コーラーは、すべてのリードをすべてのスーパーコンティグに再アライメントする。いくつかの実施形態では、コーラーは、すべてのリードを参照ゲノムにマッピングするか、または、参照としてハプロタイプ(たとえば配列仮説)の1つを取り出す。ある特定の実施形態では、決定された第1の仮説は参照となり、第1の仮説に対してすべての尤度が計算される。
いくつかの実施形態では、コーラーコンポーネントは、倍数性(たとえば、入力倍数性、デフォルト倍数性)に従って1つ以上のスーパーコンティグから1つ以上の遺伝子型配列を生成する。コーラーは、任意の好適な倍数性に従って遺伝子型配列(たとえば、遺伝子型可能性、遺伝子型仮説)をアセンブル可能である。遺伝子型配列は、いくつかの実施形態では、倍数性が二倍体である場合、スーパーコンティグペアでありうる。遺伝子型配列は、倍数性が一倍体である場合、単一のスーパーコンティグでありうる。遺伝子型配列は、倍数性が三倍体である場合、3つのスーパーコンティグからなりうる。いくつかの実施形態では、コーラーは、所与の倍数性のすべての可能な遺伝子型仮説を表現することにより複数の遺伝子型配列をアセンブルする。遺伝子型配列(たとえば遺伝子型仮説)は、多くの場合、コーラーからアウトカムコンポーネントに送られる。
ある特定の実施形態では、コーラーは、スーパーコンティグアセンブリーコンポーネント、パイルアップ関係コンポーネント、インサートサイズ分布コンポーネント、および/またはリクルートコンポーネントからデータおよび/または情報(たとえばデータファイル)を受け取る。いくつかの実施形態では、コーラーは、1つ以上のスーパーコンティグに対して1つ以上の遺伝子型配列尤度比を生成する。いくつかの実施形態では、コーラーコンポーネントは複数の遺伝子型尤度比を生成し、各尤度比はハプロタイプ(たとえば遺伝子型仮説)のアセンブリーのために生成される。コーラーコンポーネントにより生成される遺伝子型配列尤度比は、多くの場合、アウトカムコンポーネントに送られる。
いくつかの実施形態では、システムはアウトカムコンポーネントを含む。アウトカムコンポーネント、多くの場合、コーラーコンポーネントからデータおよび/または情報(たとえば遺伝子型確率)を受け取る。いくつかの実施形態では、アウトカムコンポーネントは、多くの場合、コーラーコンポーネントから1つ以上の遺伝子型尤度比を取得する。多くの場合、アウトカムはアウトカムコンポーネントにより提供される。アウトカムは、ときには、アウトカムコンポーネントからヘルスケア専門家(たとえば、検査技師または管理者、医師または補助者)に提供される。アウトカムコンポーネントは、好適な統計ソフトパッケージを含みうる。ある特定の実施形態では、アウトカムコンポーネントは、プロット、表、チャート、またはグラフを生成する。いくつかの実施形態では、アウトカムコンポーネントは、標準的スコア(たとえばZスコア)を生成および/または比較する。遺伝的変異および/または関連する医学的病態(たとえばアウトカム)の存在または不在は、多くの場合、アウトカムコンポーネントにより決定および/または提供される。被験体における遺伝的変異の存在または不在は、いくつかの実施形態では、アウトカムコンポーネントを含むマシンにより同定される。アウトカムコンポーネントは、特定の遺伝的変異(たとえば、STR、転座、多型、挿入)を決定することに特化可能である。たとえば、STRを同定するアウトカムコンポーネントは、転座を同定するアウトカムコンポーネントとは異なりうるおよび/または識別しうる。いくつかの実施形態では、アウトカムコンポーネントまたはアウトカムコンポーネントを含むマシンは遺伝子型配列を、参照配列にアライメントすることにより遺伝的変異または遺伝的変異の決定因子であるアウトカムを同定することが必要とされる。ある特定の実施形態では、アウトカムはアウトカムコンポーネントからディスプレイコンポーネントに送られ、そこでアウトカムはディスプレイコンポーネント(たとえば、好適なディスプレイたとえばLEDなど)により提供される。いくつかの実施形態では、アウトカムコンポーネントは、ディスプレイに遺伝子型表現(たとえば、遺伝子型配列、遺伝子型画像)を提供する。
遺伝的変異および医学的病態
いくつかの実施形態では、本明細書に記載のシステム、プロセスまたは方法は、被験体における遺伝的変異の存在または不在を決定する。いくつかの実施形態では、被験体における遺伝子変異の存在または不在は、遺伝子型尤度比および/またはアウトカムコンポーネントにより決定される。遺伝的変異は、一般に、ある特定の個体に存在する特定の遺伝子表現型である。いくつかの実施形態では、遺伝的変異は、染色体異常(たとえば、染色体の1つ以上の部分の損失または獲得)である。遺伝的変異の例としては、限定されるものではないが、1つ以上の欠失、重複、挿入、マイクロ挿入、付加、転座、突然変異、多型(たとえば、単一ヌクレオチド多型、多重ヌクレオチド多型)、融合、反復(たとえば、ショートタンデムリピート(すなわちSTR))など、およびそれらの組合せが挙げられる。挿入、反復、欠失、重複、突然変異、または多型は、任意の長さであり、いくつかの実施形態では、約1塩基または塩基対(bp)〜約250メガ塩基(Mb)の長さである。いくつかの実施形態では、挿入、反復、STR、欠失、重複、突然変異、または多型は、約1ヌクレオチド(nt)〜約50,000ntの長さである(たとえば、約1〜約10,000のヌクレオチド、約1〜約10,000ヌクレオチド、約1〜約10,000ヌクレオチド、約1〜約1,000ヌクレオチド、約1〜約500、ヌクレオチド、約1〜約400ヌクレオチド、約1〜約300ヌクレオチド、約1〜約200ヌクレオチド、約1〜約100ヌクレオチド、または約1〜約50のヌクレオチド)。いくつかの実施形態では、本明細書に記載のプロセス、システム、または方法により決定される遺伝的変異は、約2〜約500ヌクレオチド、約2〜約400ヌクレオチド、約2〜約300ヌクレオチド、約2〜約200ヌクレオチド、約2〜約100ヌクレオチド、約2〜約50ヌクレオチド、10〜約500のヌクレオチド、約10〜約400ヌクレオチド、約10〜約300のヌクレオチド、約10〜約200ヌクレオチド、約10〜約100ヌクレオチド、約10〜約50ヌクレオチド、約20〜約500ヌクレオチド、約20〜約400ヌクレオチド、約20〜約300ヌクレオチド、約20〜約200ヌクレオチド、約20〜約100ヌクレオチド、または約20〜約50のヌクレオチドの長さからなる。
遺伝的変異は遺伝子内に含まれうる。遺伝的変異を含む遺伝子は、遺伝子中またはその近傍に遺伝的変異を含みうるとともに、遺伝的変異は、遺伝子のイントロン、エキソン、非翻訳領域、またはそれらの組合せに存在しうる。いずれかの遺伝子は、本明細書に記載の方法またはプロセスにより決定される遺伝的変異を含みうる。たとえば、遺伝的変異は、AR、ATXN1、ATXNNX2、ATXN3、ATXN7、ATXN8、ATXN10、DMPK、FXN、JPH3、CACNA1A、PPP2R2B、TBP、ATN1、ARX、PHOX2B、PABPN1、ATT、CFTR、およびBRACA1の遺伝子で構成されうる。
ある特定の実施形態では、存在または不在が被験体で同定される遺伝的変異は、ときには、医学的病態に関連している。医学的病態の例としては、限定されるものではないが、知的障害(たとえばダウン症候群)、異常細胞増殖(たとえば癌)、非ホジキンリンパ腫、骨髄異形成症候群、ウィリアムズ症候群、ランガー・ギーディオン症候群、アルフィ症候群、レソール症候群、ヤコブセン症候群、網膜芽細胞腫、スミス・マゲニス、エドワーズ症候群、乳頭状腎細胞癌、ディジョージ症候群、アンゲルマン症候群、ネコ眼症候群、家族性腺腫性ポリポーシス、ミラー・ディーカー症候群、微生物核酸の存在(たとえば、ウイルス、細菌、菌類、酵母)、および子癇前症に関連したものが挙げられる。
以下に示される実施例は、ある特定の実施形態を例示したものであり、技術を限定するものではない。
実施例1: Kragle:ショートタンデムリピート配列および他の複合体遺伝子座のためのローカルde−novoアセンブラーおよび遺伝子型コーラー
Kragleは、ローカルde−novo配列アセンブリーおよびジェノタイピングパッケージとして設計された。Kragleは、ペアエンドリードから任意の倍数性配列をアセンブルするように設計された。Kragleは、リード長まで伸長するリピート配列を取り扱うために専用に設計されたものであるが、配列の逆位、転座、重複、または欠失から生じる配列接合をコールすることも可能である。Kragleは、一連の遺伝的病態に関与するAR、ATXN1、ATNX2、ATXN3、ATXN7、DMPK、FXN、およびHTT遺伝子のショートタンデムリピート(STR)の二倍体遺伝子型をコールするためにうまく適用された。Kragleは、ヒトBRACA1遺伝子における大きな欠失から生じる仮説接合を確認するためにも、さらにはヒトCFTR遺伝子におけるホモ多量体および近接ジヌクレオチドリピートが関与する複合変異をコールするためにも、使用された。
Kragleの機能は、4つの主コンポーネント、すなわち、リードリクルートコンポーネント(すなわち、リクルーター、リクルートコンポーネント)、スーパーコンティガー、ハプロタイプクリエーター(ハプロタイパー)、および遺伝子型仮説コーラー(コーラー)に分けられる(図1)。スーパーコンティガーは、3つの追加のコンポーネント、すなわち、パイルアップ関係コンポーネント、コンティグアセンブリーコンポーネント、およびスーパーコンティグアセンブリーコンポーネントを含む。最初の2つ主コンポーネント(リクルーターコンポーネントおよびスーパーコンティガー)は、ペアエンドリードを十分に利用してリード長程度の長さの非中断リピート含有物(リピートが中断を含有する場合はさらに長いこともある)を含みうる低複雑性配列をアセンブルするように設計されている。ハプロタイパーは、スーパーコンティグ配列からハプロタイプを構築し、それらにすべてのリードを再マッピングし、アセンブルされた配列中の不規則性を同定しようと試みる。遺伝子型確率コンポーネントは、スーパーコンティグアセンブリーコンポーネントからハプロタイプ配列(たとえばスーパーコンティグ)をアセンブルし、遺伝子型確率を生成し、信頼度値を割り当てる。コーラーは、アセンブルされたハプロタイプ配列からの二倍体遺伝子型をコールし、尤度比に基づいて代替遺伝子型仮説に信頼度を割り当てる。リードエラー補正アルゴリズムがリピート(たとえばSTR)の存在または不在の決定を妨害することが判明したので、この実施例のKragle実施形態は、なんらリードエラー補正を利用しない。
いくつかの実施形態では、Kragleへの入力は参照ソートbamファイルおよびインサートサイズ分布ファイルである。代替的に、Kragleは、2つのfastqファイル(リード1およびリード2用)および参照fastaファイルを受け取ってアダプタートリマーコンポーネント、BWA−MEMアライナー、インサートサイズ分布コンポーネント、およびサムツール(参照種類およびインデックスbamファイル)をコールし、前処理ステップで必要な入力を生成する(図1参照)。
リクルートコンポーネント
参照配列と有意に異なるサンプルのゲノム領域から取得されるシーケンスリードは、標準的なリードアライナーに著しい難題を課す。たとえば、ゲノムの変化部分から生じたリードは、間違ったゲノム位置にマッピングされるかまたはマッピングされずに残留することが多かった。しかしながら、そのような場合には、リードメイトペアのリードメイトは、不変の(またはほとんど変化のない)フランキング領域の配列を含有することが多いので、適正にマッピング可能である。拡張STR、配列接合、および大きな複合変異の領域におけるリードマッピング問題を回避するために、リクルートコンポーネントは、リードペアからマッピングされたリードメイトの位置を用いて、Kragleがアセンブルしようとする領域(たとえば、特定の対象のゲノム領域)の情報を与えうるリードを同定する。
いくつかの実施形態では、Kragleは、参照ソートbamファイルを用いて1つまたは複数の対象の領域中に迅速にインデックス付けするように構成される。接合の場合、Kragleは、スプリットリードシグナルまたは不一致メイトシグナルを用いて同定されうる2つのゲノム領域を用いて、情報を与えるリードを検索する。次いで、リクルートコンポーネントは、対象の領域への一次アライメントでマッピングされたメイトの少なくとも1つを有したリードを集める。
スーパーコンティガー
スーパーコンティガーは3つのコンポーネント、すなわち、パイルアップ関係コンポーネント(たとえばリード−リードアライナー)、コンティグアセンブリーコンポーネント、およびスーパーコンティグアセンブリーコンポーネントで構成される。3つのコンポーネントは、リクルートコンポーネントから取得したリクルートリードペアセットから始めて、ハプロタイプ配列セット(スーパーコンティグ)を生成する。スーパーコンティグは、対象となるアセンブルされたゲノム領域のハプロタイプ配列(たとえば、中断されている可能性のあるハプロタイプ配列)を生成するように適正な向きで一体的にリンクされかつ順序付けられる1つ以上のコンティグで構成される。
2つの一般的なパラダイム、すなわち、de Bruinグラフに基づくもの(Idury RM,et al.、Pevzner PA,et al.)およびオーバーラップグラフに依拠するOverlap−Layout−Consensus(Myers EW,et al.,(2005))をコンティグアセンブリーに使用した。Kragleはリードタイリングストラテジーを使用した。これは、Celeraアセンブラー(Myers EW,et al.,(2000))の「unitig」構築プロセスに類似しているが異なるものであり、また、Overlap−Layout−Consensusストラテジーに趣旨は類似しているが異なるものである。この実施例では、コンティグアセンブリーを始める前にリード間のすべての可能なオーバーラップを同定する。
パイルアップ関係コンポーネント
パイルアップ関係コンポーネントは、かかる可能なリード−リードオーバーラップを同定する機能を発揮するように構成され、作成されたグラフ中のある重複を除外することも可能である。他のリードの配列に完全に含まれた各リードを除外するオーバーラップグラフ(Myers EW,et al.,(2005))とは対照的に、パイルアップ関係コンポーネントにより生成されたリードタイリンググラフは、頂点としてすべてのリードを含有し、かつエッジはリード−リードオーバーラップを表す。ローカルde−novoアセンブリーのみを行ってマッピングされたメイトによりリードペアをリクルートする利点は、各リードの向き(鎖)が既知でありリードタイリンググラフが各リードに対する2つの鎖可能性を表現する必要がないことである。代替リード向きが探索されないので、これによりリードタイリンググラフおよびアセンブリータスクが単純化される。
リードタイリンググラフの構築は2ステップで実施される。第1のステップは、スコア閾値に合格するすべてのリード−リードオーバーラップを同定する。第2のステップは、コンティグの完全タイリングを構築するのに必要な最小オーバーラップセットのみを保持するようにタイリンググラフのエッジをプルーニングする。
リード−リードオーバーラップの同定を加速するためにk−merハッシングストラテジーを使用する。各リードをすべての可能なk−merのセットに分解し(たとえば、デフォルトk−merサイズは50である)、k−merのマッチングセットに関してすべてのリード−リードペアを迅速にスクリーニングする。マッチングが見いだされた場合、アライメントスコアが所定のスコアカットオフに合格し、かつ対応するk−mer位置がリード−リードアライメントに挿入や欠失(in/del)をなんら示唆しないならば、リードタイリンググラフ中の2つのリード間の推測オーバーラップを記憶する。アライメントスコアは、アライメントソフトウェア(Smith et al.,(1981)、*Smith et al.,(1981)、Needleman et al.,(1970))で慣用されるマッチおよびミスマッチのスコアの合計として計算される。完全なリード−リードアライメントは、対応するk−mer位置がアライメントに挿入または欠失を示唆する場合のみ計算される。しかしながら、挿入および欠失の開始または伸長のペナルティーはそれらを禁止するのに十分な程度に高く設定されるので、得られるリード−リードアライメントは常にin/delフリーである。この場合も、得られたグローバルアライメントスコアがカットオフに合格すれば、オーバーラップはリードタイリンググラフに記憶される。
in/delシーケンシングエラーを有するリードは、通常、リード−リードオーバーラップアライメントでin/delを許容しない結果としてアセンブリーから除外される。かかるエラーはかなり稀であり、リードカバレッジを有意に低減しない。しかしながら、in/delフリーのオーバーラップはコンティグアセンブリーを単純化し有意に加速する。なぜなら、かかるハプロタイプに由来するリードはすべて、変異を含んでおり、したがって、それらのオーバーラップは適正にアライメントされるので、真in/del変異体(参照配列と比較して)はリード間で適正にアライメントされることに留意されたい。
完全なリードタイリンググラフが作成されたら、不要で誤りの可能性の高いオーバーラップを除外するためにプルーニングされる。プルーニング後、最良スコアのオーバーラップおよびグラフの接続性を維持するのに必要なオーバーラップだけは、各リードに対して保持される(たとえば、記憶される)。グラフの接続性を維持するために、各リードは、3’および5’側のそれぞれに伸長する最小限の数(デフォルト1)の最良スコアのオーバーラップを保持するが、これらの接続リードは、同一側に伸長する最小限の数のオーバーラップを有しなければならない。たとえば、デフォルトの最小限の接続数1の場合、リードの接続は、3’側にリードを伸長する他のリードとの少なくとも1つのオーバーラップを有するならば3’側で満たされたとみなされ、伸長リード自体は、同様に3’側に伸長する他のリードとの少なくとも1つのオーバーラップを有する(たとえば、図2を参照されたい)。その場合、暗に、リードは、プロセスの開始時にかかる接続を有するならば、グラフでその接続性を維持し、3’側および5’側からオーバーラップエッジにより到達可能である。したがって、カバレッジギャップのない連続リードパイルアップによりサポートされた配列はいずれも、リード接続を介して非中断経路を維持する。
プルーニングアルゴリズムは、すべてのリードにわたり繰り返され、保持される各リードに対するオーバーラップのリストを維持する。各繰返し時、プロセスは、リードが各側に所要の最小限の数の接続をすでに満たしている場合(たとえば、片側でリードに接続され、そのリードもまた、同一側に接続を有する場合)を除いて、各リードに対して、リードを3’側および5’側に伸長する最良スコアのオーバーラップ(同一のスコアのものが2つ以上存在するならば複数)を取り出す。各リードが各側に必要な最小限の数の接続を有する場合、プルーニングの繰返しは終了する。リードは、オーバーラップがなければ所要の数の接続を満たす必要はない。かかるリードは、コンティグの末端のリードである可能性が高いか、またはあまりにも多くのシーケンシングエラーがあって他のリードとのオーバーラップをなんら有していないリードである。繰返しの終了後、次いで、アルゴリズムは、保持すべきエッジのリストに存在しないオーバーラップエッジをすべて欠失させる。オーバーラッピングリードのいずれかがその接続に必要であるとみなされるならばオーバーラップエッジが保持されることに留意すべきである。たとえば、それぞれ反対のハプロタイプに多型をまたぐ2つのリードがあり、かつ多型位置のすぐ外側にあるリードが、多型リードの両方とのオーバーラップを有する場合、外側にあるリードは、その接続を満たすために多型リードの1つのみとのオーバーラップを保持しうるが、他の多型リードは、それ自体の接続性を維持するためにそのリードとの接続を必要とするので、多型の外側にあるリードは、両方のオーバーラップを保持する(図3)。これにより、2つ以上のハプロタイプに共通する配列ストレッチからのリードは、ハプロタイプ特異的リードのすべてから到達されることが保障される。
コンティグアセンブリーコンポーネント
コンティグアセンブリーコンポーネントは、リードタイリンググラフを用いてオーバーラッピングリードを集め、グラフを介してオーバーラッピングリードの経路を伸長する。各コンティグアセンブリーは単一リードから出発する。コンティグアセンブリーは、最初に、アセンブラーがコールしようとした領域(たとえば、対象のゲノム領域)の3’側および5’側から取り出されたリードから始まる2つのコンティグをアセンブルする。各コンティグは各リードを1回のみ使用するが、異なるコンティグはリードを共有可能である。コンティグ構築プロセスは、多型位置に遭遇したら既存のコンティグをスプリットすることにより新しいコンティグを生成する。2つの初期コンティグおよびそれらのスプリットオフコンティグを終了したら、コンティグアセンブラーは、コンティグのいずれでも使用されなかったリードのセットを検査する。未使用リード間にカットオフよりも大きいリードの接続クラスターが見いだされる場合(すでにアセンブルされたコンティグの平均カバレッジ深さに対するパーセントとして計算される − デフォルト10%)、クラスター中のリードの1つから新しいコンティグの構築を始める。カットオフよりも大きい未使用リードクラスターが存在しなくなるまで、新しいコンティグが始められる。
コンティグビルダーは、コンティグで使用されるすべてのリードを追跡し、それらを2つのグループ、すなわち、オーバーラッピングリードをすでにリクルートしたリード(リードタイリンググラフ中のオーバーラップを用いて)と、まだリクルートしていないリードと、にスプリットする。ビルダーはまた、3’および5’の「全リクルート」境界(すなわちエッジ)を維持する。「全リクルート」境界は、まだリクルートされていない第1のリードの先端の直前の3’側および等価的に5’側に設定される。したがって、これらの境界は、新たにリクルートされたリードによりそのリード組成が変化しない成長中のコンティグでインターバル(たとえば前進位置)を設定する。それゆえ、「全リクルート」インターバルの内側のリードパイルアップからコンセンサス配列を計算すれば安全である。
以下の3つのステップを繰り返すことよりコンティグの構築を進行させた。
(1)まだリクルートされていないリードを用いて新しいリードをリクルートし、現在の「全リクルート」3’または5’境界の1塩基外側の位置にオーバーラップする(図4参照)。リクルートリードは、「全リクルート」エッジから離れてリクルートリードの内側または外側のいずれかにリードを伸長しなければならない。
(2)「全リクルート」境界を再計算する。境界の対応側のリードのいずれかが、コンティグ内に配置したときに同一の位置から始まるリードをリクルートした場合、3’境界は変化しないこともある。同様に、5’境界は変化しないこともある。しかしながら、新たに配置されたリードがより大きなギャップを残す場合、2つの「全リクルート」境界のいずれかは、2つ以上の塩基だけシフト可能である。
(3)「全リクルート」インターバルの内側のリードパイルアップを用いて新しい「全リクルート」インターバル境界までのコンセンサス配列を計算する。
まだリクルートされていないリードが存在しない場合、コンティグ構築の繰返しは終了する。そのことが起こるのは、コンティグ構築が、リクルートリードによりカバーされた領域の末端に達し(またはカバレッジのギャップを達し)、エッジ上のリードがいずれの側にもコンティグを伸長するオーバーラッピングリードが存在しないときである。
コンセンサス配列の計算が多型位置、すなわち、リードパイルアップが2つ以上の異なる塩基の有意なカウントを含有する位置に遭遇した場合、現在のコンティグは、2つ(またはそれ以上)にスプリットされて2つ(またはそれ以上)の可能なハプロタイプを表す。しかしながら、塩基のカウントは、その位置でまたは少なくとも5個のリードでカバレッジの10%を超える場合にのみ有意であるとみなされる。したがって、リードのランダムベースコールエラーは、おそらく、コンティグスプリッティングをトリガーしないであろう。この時点で、多型リードはまた、ハプロタイプコンプライアンスに関してチェックされる。コンティグが先行していくつかの位置ですでにスプリットされている場合、スプリッティングプロセスは、リードまたはそのメイトが、すでにスプリットされた位置にオーバーラップするかをチェックし、オーバーラップするリードのカウントを集める(図5参照)。1つの多型塩基(またはそのメイト)は有意なカウント(デフォルトでは少なくとも5)でその位置にオーバーラップするが、いくつかの他の多型塩基リードおよびそのメイトはその位置を横切らない場合(カウント0)、その多型塩基は、他のコンティグをスプリットするのに使用されず、これらの多型リードおよびそれらのメイトは、コンティグから除去されるであろう(図6参照)。この設計決定の背後にある理論的根拠は、ハプロタイプが他のコンティグですでに分離されている多型位置でのスプリットを防止することである。多型位置が、すでにコンティグを2つ(またはそれ以上)にスプリットする前の多型位置から十分に離れており、かつリードオーバーラップが、すでにスプリットオフされたハプロタイプからいくつかのリードのリクルートを再度可能にする場合、その位置は、そのハプロタイプのみに属するリードを含有するようにすでに「純化」されているので、これらのリードは、前のスプリット位置とのオーバーラップ(それ自体またはそれらのメイト)を有していないであろう。したがって、これらのリード(およびそれらのメイト)はこのコンティグから単に欠失されるであろうが、前のスプリット位置ではすでにスプリットオフされていたコンティグで使用される可能性が最も高いであろう。
コンティグスプリッティングのプロセスは、各コンティグがそれらの割り当てられた塩基を有するリードを取り込む場合、多型位置にまたがるリードを除いて、両方のコンティグでリードメンバーシップをレプリケートするステップを含む。多型リードおよびそのメイトは、そのそれぞれのコンティグに一体的に割り当てられる。メイト再割当ては「全リクルート」インターバルのいくつかのセクションでリードカバレッジを潜在的に排除する可能性があるので(これは稀である)、スプリットコンティグのそれぞれでコンセンサス配列を再コールして、カバレッジの完全な消失を有する領域にNを割り当てる必要がある。
新しいコンティグをスプリットオフしそれらを構築するのは計算上高価であるので、我々は、いくつかのチェックを利用して幾何学的コンティグ増殖を低減した。
1. 他のコンティグですでに同一のスプリットに遭遇しているのであればスプリットは新しいコンティグを生成しない(リード中の同一の位置で同一の多型リードセットを有するようにスプリットする)。これらのスプリット位置は、「クロージングハプロタイプバブル」に対応し、それらの対応する「デュプリケート」を有するこれらの「未採用」スプリットは省かれる。これらの「未採用」経路は、「未採用」スプリット後にすべての可能なコンティグ配列末端部をコンティグに連結することにより後の段階で付加される。これらの末端部は、「デュプリケート」スプリットコンティグおよびこの位置の後でスプリットオフされたすべてのコンティグから採用される(図7参照)。この基準では、「デュプリケート」スプリットに遭遇する前の潜在的に異なるリードメンバーシップは、リード再使用上の制約に起因して異なる末端部をもたらさないであろうと仮定している。そこでは、コンティグで同一のリードパイルアップに遭遇すると、可能な末端部は同一になると仮定している。
2. スプリットオフ多型リードがスプリットオフコンティグを伸長するように新しいリードをなんらリクルートできない場合、コンティグを「消滅」と標識し、スーパーコンティグ構築に使用しない。これらスプリットは、系統的ベースコールエラーを有するリードセットにコンティグが遭遇したときに起こることを、我々は観測した。これらは、とくに、STR領域などの難しい領域にかなり共通したことでありうる。
3. グラフサイクルが、コンティグですでに採用されたスプリットをデュプリケートすることにより検出される場合(非常に稀)、コンティグを「不良」と標識し、終了する。これらのコンティグは、スーパーコンティグの構築にも使用しない。
以上に記載のようにアセンブルされたコンティグは、デュプリケートに関してフィルタリングされている。これらは、一方は3’側から、他方は5’側から、2つのリードから始まる同一の領域をアセンブルするデュプリケート努力の結果でありうる。しかしながら、2つの開始点は、欲張ったリードリクルートメントプロセスの欠点に対してより良好なロバスト性をコンティグアセンブラーに与える(この場合、リードは、リードタイリンググラフでオーバーラップを有するコンティグ中の第1のリードによりリクルートされる)。2方向からグラフを通る経路を探索するといくつかの状況下ではいくらか異なってアセンブルされた配列をもたらすこともある。
スーパーコンティグアセンブリーコンポーネント
前のステップでアセンブルされたコンティグは、Kragleがコールしようとする全領域にまたがることもあれば、カバレッジが落下する位置または高いリードエラー率(通常系統誤差)により高スコアリード−リードオーバーラップが抑制される位置で終了することもある。かかる場合には、リードペアを用いてコンティグを一体的にリンクすることによりスーパーコンティグを形成することが可能である。リードペアのリード間ギャップが2つの近接コンティグ中に位置し、コンティグ間のカバレッジギャップにまたがるのを許容する場合、かかるリードペアは、コンティグリンクおよびその向きを通知しうる。
スーパーコンティグ構築は、コンティグを頂点としておよび同定されたリンクを有向エッジとして有するグラフの作成を必要とする。有向エッジは、コンティグペアが同一の向きを有する少なくとも最小限の数のリードペアを共有する場合に記録される(最小限の数は、デフォルトでは平均コンティグカバレッジの10%または少なくとも5リードペアに設定された)。次いで、コンティグは、循環を回避しつつ入次数0を有するすべての頂点から出発して出次数0を有する頂点で終了するようにグラフを介してすべての経路を通ることによりスーパーコンティグにブリッジされる(図8参照)。いずれの他のコンティグにも接続されないコンティグ(入次数および出次数が両方とも0)は、ちょうど1つのコンティグでスーパーコンティグを生成する。
ハプロタイパー
コンティグおよびスーパーコンティグの構築はすべての可能な配列配置を生成するので、スーパーコンティグは可能なハプロタイプ配列を表現し、これらを組み合わせればコーラーで適正な倍数性(すなわち二倍体)の配列仮説が生成されよう。ハプロタイパーはハプロタイプオブジェクトを開始し、すべてのリードからすべてのハプロタイプ配列への再マッピングを実施する。この再マッピングは、「コーラー」の節に記載のマッピングウェイトの前計算も含む。ハプロタイパーはまた、ハプロタイプ配列中の偽接合および偽挿入の同定を実施する。ハプロタイパーをコーラーから分離する主な理由は、配列仮説に組み合わせる前に、偽接合および偽挿入の同定のアウトカムに基づいて、コーリングプログラムにハプロタイプのフィルタリング機会を与えうることである。同定された偽接合および偽挿入は、リードによりそれらのサポートを決定する必要情報と共に各ハプロタイプオブジェクトに列挙される。コーリングプログラムは、サポート情報に基づくカットオフを使用してハプロタイプフィルタリングのそれ自体のストリンジェンシーを適用することが可能である。
偽接合の同定:
アルゴリズムは、いくらかの配列類似性に起因してアセンブリープロセスで連結されたゲノムの異なる部分に属する配列の間の接合を同定すること目的をとする。配列類似性は、いくつかのリードをある特定の配列に連結させうるが、接合はまばらにカバーされるであろう。したがって、これらの接合は、接合位置にまたがるリードペアの数が予想よりもかなり低い配列中の点として同定可能である。アルゴリズムは、ある距離だけ離れたメイトの期待数を計算してそれを観測カウントと比較することにより可能な偽接合(インサートサイズ分布の範囲)を見いだす。次いで、低い観測数/期待数比の位置を偽接合の可能性があるとしてマーク付けする。χ2検定を用いて観測数−期待数差の有意性を決定することが可能であるが、かかるp値は、インサートサイズ分布中の正規変動を有する位置に対するカバレッジの増加に伴って次第に感度が高くなるであろう。
アルゴリズムは、インサートサイズ分布の平均の周りの非センターバンドを用いて偽接合に関する検定を行いうる。インサートサイズ分布平均の周りのバンドの−20%および+80%のインターバル(Illuminaリードペアライブラリーの現在のサイズは50)は、期待カウントを計算するために使用され、観測カウントを検索するために使用される。アルゴリズムは、フォワードリードおよびリバースリード(逆方向)に対して観測カウントおよび期待カウントを個別に処理してから比の局所最小値を見いだす。アルゴリズムは、特定の比カットオフを超える局所最小値をすべて報告する。順方向および逆方向の両方で検索を行って接合のアルゴリズム的確認を与えうる。
しかしながら、アルゴリズムは、いくつかの状況で偽陽性を与える可能性があるので、偽挿入のハプロタイプのフィルタリングは、注意して行われなければならない。アルゴリズムは、対立遺伝子の両方でリード長に圧縮された大きなホモ接合リピートでは偽陽性を生じるであろう。かかる場合には、圧縮リピート配列にまたがるリードはなんら存在しないであろうが、期待カウントは依然として大きいであろう。アルゴリズムは、かなり間違いやすい位置に誤ったフラグを立てる可能性もある(Illuminaシーケンシングプロセスにおける系統誤差および相関誤差)。かなり間違いやすい配列位置は、マッピングされたリードでは低いカバレッジを有するであろうから(誤りが多すぎるリードはマッピングされない)、期待カウントと観測カウントとの間で矛盾を生じる可能性がある。
偽挿入の同定:
偽挿入検出アルゴリズムは、接合位でなんらかの配列類似性を用いてフランクで親配列に連結された外来(または誤配置)配列の挿入を検出することを目的とする。かかる挿入は、偽接合(以上に記載)の組合せを用いて潜在的に同定可能であるが、以下に記載の専用アルゴリズムは、偽接合アルゴリズムよりもかなり高感度かつ特異的である。
偽挿入は、リードペアが予想外に1片の配列を飛び越え、挿入配列がその範囲内でのみマッピングされその範囲外ではマッピングされないリードペアを有する状況で、リードメイトペア位置を検査することにより同定可能である(図9参照)。アルゴリズムは順方向および逆方向の両方で検索する。オーバーラップしないメイトペアがインサートサイズ分布の平均よりも大きい距離だけ離れている領域を最初に見いだす。リードの中間のメジアンは、仮説インサートの開始および終了をマーク付けする。次いで、アルゴリズムは、仮説インサート内に完全に含有されるリードペアの位置を決定しようとする。かかるリードペアが見いだされた場合、アルゴリズムはこれらのリードの最も左側および最も右側の塩基としてインサートエッジを純化する。次いで、このインターバル内の各位置で、アルゴリズムは、完全に含有されているわけではないリードペアにより完全に含有されたリードペアの汚染を計算する。いずれの位置でも外側のリードペアによる汚染がカットオフ未満に低下する場合、この領域は可能な偽挿入として報告される。
コーラー
ハプロタイパーにより生成されたハプロタイプは、偽接合および偽挿入に関してフィルタリング可能であり、次いで、それらを組み合わせて一倍体、二倍体、一般的には任意の倍数性の配列仮説を生成可能である。二倍体配列仮説では、コーラーは、同一のハプロタイプの2つのコピーからなるホモ接合配置を含めて、すべての可能なハプロタイプペアを探索した。したがって、二倍体仮説評価プロセスは、ハプロタイプの数の二乗で計算の複雑さをスケールインした。したがって、アドホックなハプロタイプおよび仮説フィルタリングを回避するために、仮説尤度評価は計算効率が良くなければならない。Carnevali(Carnevali et al.2012)により記載された統計的フレームワークを検討したが、ある特定の態様ではうまく行かなかった。たとえば、Carnevaliのフレームワークは、いずれの対立遺伝子比にも対処できなかった(モザイクゲノムおよび癌ゲノムの場合)。式2の統計的フレームワークは、任意の対立遺伝子比(モザイクと癌のゲノム用の)に対処するように拡張修正された。この新しいフレームワーク(たとえば、式1を参照されたい)は、各ハプロタイプに対して尤度計算の多くのコンポーネントの前計算を可能にしたので、ハプロタイプを組み合わせて二倍体仮説にしたりその尤度を計算したりするのにかなり少ない計算量を要するにすぎなかった。
Figure 0006762932
式中、Gは任意の倍数性のゲノム配列を表し、かつGは参照ゲノム配列または任意の他の固定配列仮説を表す。{R}はリードペアセットを表し、かつリードペアの数はNであった。NおよびNG0は、それぞれ、ゲノムGおよびG0の塩基数を表す。Mは、リードペアの2つのリードのマッピング位置を意味し、リードペアRのすべての可能なマッピング位置のセットは{M}により表した。
P(R|G,M)は、マッピング位置がゲノム内にあり(Carnevali et al.2012)かつインサートサイズの確率がリードペアの2つのリードのマッピングMにより示唆されると仮定して、マッチ塩基確率とミスマッチ塩基確率との積として計算可能である。マッチおよびミスマッチの確率は、シーケンシングプラットフォームにより割り当てられたベースコールエラー率から推定可能である。
Figure 0006762932
式中、Iは、リードペアのマッピングMにより示唆されるインサートサイズであり、かつ確率P(I)は、経験的インサートサイズ分布から取得可能である。積Πは、リードペアのすべての位置iにわたりとられ、かつP(b|G[M(i)])は、マッピング位置iにおけるゲノムG中のマッピング参照塩基がリードペア中のマッピング塩基bを生成した確率である。これらはシーケンサーにより提供される推定ベースコールエラー確率を用いて計算可能である。
Figure 0006762932
この式中、δは、その2つの引数が同一のときは1でありそうでなければ0であると定義されるクロネッカー記号であり、かつεは、リードペア中の位置iにおけるベースコールのエラー確率である。G[M(i)]は、リードペア中の塩基bがマッピングMを用いてマッピングされるゲノムG中の塩基である。
可能なマッピングの全セットにわたるリード確率の合計P(R|G、M)は、たとえ小さいゲノムであっても計算が困難な可能性がある。2つのリードのすべての可能な位置の組合せはあまりにも多いので列挙できない。しかしながら、合計への有意な寄与を与えるゲノムへのマッピングはごくわずかにすぎない。したがって、すべての可能なマッピングにわたる合計は、マッピングウェイトW(R,G)と呼ばれる、「良好」なマッピングにわたる合計と、小さい項αに分離可能である、合計への残りの小さい寄与と、にスプリット可能である。
Figure 0006762932
ローカルde−novoシーケンシングでは、αを用いてアセンブル領域外のマッピングウェイトの合計確率をキャプチャー可能である。いくつかのリード、とくに低複雑性配列を含有するリードは、参照ゲノムへのいくつかのマッピングを有する可能性があるので、対象の領域へのそれらの配置は不確実であり、より大きいαを伴うはずである。このことから尤度比へのそれらの寄与は効果的に低減される。
それゆえ、以上の式2は、以下の式1への拡張修正が可能であり、さまざまな比を有する対立遺伝子に対処する。
Figure 0006762932
式中、Gは所定の倍数性の遺伝子型配列であり、Gは参照配列であり、{R}はリードメイトペアRのセットであり、NAGは遺伝子型配列中の対立遺伝子Aの数であり、NAG0は参照配列G中の対立遺伝子AG0の数であり、FAGは遺伝子型配列G中の対立遺伝子AGの分率であり、FAG0は参照配列G中の対立遺伝子AG0の分率であり、Wはリードペアマッピングウェイトであり、かつαはマッピング確率定数である。いくつかの実施形態では、遺伝子型尤度比は、式1の導出または式1の変形により決定される。二倍体ゲノムでは、2つの対立遺伝子分率はそれぞれ0.5であろう。
以上の式を用いて、W(R,A)は以下の式6として表すことが可能である。
Figure 0006762932
上述したように、αは、アセンブルされる領域中のマッピング位置Mgoodのセットの外側の可能なマッピングのマッピングウェイトの合計をキャプチャーする。すべてのマッピングプログラムは、誤りのアライメントのphred変換確率であるマッピング品質値(mapQ)を提供する(mapQ=−10*log10(PwrongAlignment))。この確率は、すべての可能な代替マッピング位置でのマッピングウェイトの合計ではないので、mapQからマッピングウェイトの合計(WmapQ)への変換を近似するスケーリングを開発した。スケーリングは、高いmapQ値(すなわちBWAで60)に対してはWmapQ寄与を無視してよいほど小さいとし、かつmapQ=0に対しては寄与1(大きな値)を有するとすることを目指した。したがって、式5中のαは、さらに以下のように拡張可能である。
Figure 0006762932
式中、αは、非常に高いmapQ値(WmapQが無視しうるようになるとき)で外側の位置への残留マッピングウェイトをキャプチャーする非常に小さい定数である。
mapQは以下の式を用いて取得される。
Figure 0006762932
Figure 0006762932
Figure 0006762932
mapQ値はリードペアに対して計算されるので、以上の式中のmapQ値はリードペアの2つのリードの最大値である。したがって、リードペアのリードの1つがアセンブリー領域で信頼性のある一義的なマッピングを有する場合、第2のリードもまたアセンブリー領域に一義的に属すると仮定する。
mapQ変換の操作範囲が30〜60のmapQ値であることは、以上の式から明らかである。30未満の値では(低品質リード)、WmapQ値は良好なマッピングのマッピングウェイトに匹敵するようになる。これは、式1で全確率比へのリードペアの寄与を効果的に減少する。一方、mapQ値が60に近づくと(高品質マッピング)、WmapQはαよりも小さくなるので、無視しうるしα≒αとなる。
以上の式6〜10は、各リードペアおよび各対立遺伝子(スーパーコンティグ)に対するリードペアウェイトの前計算を可能にし、仮説尤度計算時に値を再コールすることが可能である。この前計算は、尤度比の計算を有意に加速するので、何千ものスーパーコンティグから構成されるすべての二倍体仮説の評価をリアルタイムで可能にした。いくつかの実施形態では、すべてのリードに対してリードウェイトの計算を容易にするために、コーラーは、すべてのリードをすべてのスーパーコンティグに再アライメントする。
尤度比計算は、すべてのリードを参照ゲノムにマッピングするかまたは参照として配列仮説の1つを取り出すようにコーラーに要求する。デフォルトでは、第1の仮説は参照となり、次いで、第1の仮説に対してすべての尤度が計算される。任意の2つの仮説の対数尤度比を減算するとそれらの相対尤度比が得られる。これにより上位仮説の尤度比を任意の他の仮説に対して計算すると信頼度測度が得られる。
本明細書で参照される各特許、特許出願、出版物、および文書の全体は、本出願をもって参照により組み込まれる。以上の特許、特許出願、出版物、および文書の引用は、上記のいずれかが関連先行技術であることを承認でもなければ、これらの出版物または文書の内容または日付けに関してなんら承認を与えるものでもない。
本技術の基本態様から逸脱することなく以上に変更を加えうる。1つ以上の具体的な実施形態により実質的に詳細に本技術を説明してきたが、本出願に具体的に開示された実施形態に変更を加えうること、しかもこうした変更および改善が技術の範囲および趣旨に包含されることは、当業者であれば分かるであろう。
本明細書で例示的に説明した技術は、本明細書に具体的に開示されていない要素がなんら存在しなくても好適に実施しうる。したがって、たとえば、本明細書のいずれの場合も、「comprising(〜を含む)」、「consisting essentially of(〜から本質的になる)」、および「consisting of(〜からなる)」という用語はいずれも、他の2つの用語のいずれかと置き換えうる。利用された用語および表現は、限定の用語としてではなく説明の用語として用いられており、かかる用語および表現の使用は、表示および説明された特徴の均等物またはその一部をなんら除外するものではなく、特許請求された技術の範囲内で種々の変更を加えることが可能である。「a」または「an」という用語は、要素のいずれか1つが記載されているかまたは要素の2つ以上が記載されているかが文脈上明らかでない限り、それが修飾する要素の1つまたは複数を意味しうる(たとえば、「試薬(a reagent)」は1種以上の試薬を意味しうる)。本明細書で用いられる「約」という用語は、基となるパラメーターの10%以内(すなわち、±10%)の値を意味し、一連の値の始めでの「約」という用語の使用は、値のそれぞれを修飾する(すなわち、「約1、2、および3」は、約1、約2、および約3を意味する)。たとえば、「約100グラム」の重量は、90グラム〜110グラムの重量を含みうる。さらに、値のリストが本明細書に記載されている場合(たとえば、約50%、60%、70%、80% 85%、または86%)、リストは、それらのすべての中間値および小数値(たとえば、54%、85.4%)を含む。それゆえ、本技術が代表的な実施形態により具体的に開示されたとしても、本明細書に開示された概念の任意選択的な特徴、変更、および変形を当業者であれば利用しうるし、かかる変更および変形は本技術の範囲内にあるとみなされることを理解すべきである。
本技術のある特定の実施形態は、以下の特許請求の範囲に示される。
参照文献:
Carnevali,P.,et al.2012.Computational Techniques for Human Genome Resequencing Using Mated Gapped Reads.J.Comput.Biol.19,279−292。
Idury RM,Waterman MS(1995)J.Comput.Biol.2(2):291−306。
Pevzner PA,Tang H,Waterman MS(2001)Proc.Natl.Acad.Sci.USA.98(17):9748−53)。
Myers EW(2005)Bioinformatics 21:Suppl 2:ii79−85)。
Myers EW,et al.,(2000)Science 287(5461):2196−204)。
Smith TF,Waterman MS 1981) J.Theor.Biol.91(2):379−80。
Smith TF,Waterman MS(1981)J.Mol.Biol.147(1):195−7。
Needleman SB,Wunsch CD(1970)J.Mol.Biol.48(3):443−53)。

Claims (11)

  1. 被験体で遺伝子変異の存在または不在を決定するコンピューターインプリメント方法であって、
    (a)複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得するステップであって、各ペアが2つのリードメイトを含み、各ペアの2つのリードメイトの少なくともの1つが、所定の対象のゲノム領域を含む参照ゲノムの少なくとも一部にマッピングされ、前記ペアエンドシーケンスリードのいくつかが、前記参照ゲノムの前記少なくとも一部にマッピングされない、ステップと、
    (b)前記シーケンスリードセットでパイルアップ関係を決定するステップであって、前記パイルアップ関係が前記セットの2つ以上のリード間の複数のオーバーラップを含み、前記複数のオーバーラップのそれぞれを、(i)前記セットの第1のリードが前記セットの第2のリードとの第1のオーバーラップを含み、(ii)前記第1のオーバーラップが所定のアライメントスコア閾値よりも大きいアライメントスコアを含み、(iii)前記第2のリードが前記第1のリードの3’末端または5’末端を越えて1つ以上のヌクレオチドを伸長し、かつ(iv)前記第1のオーバーラップが(i)、(ii)、および(iii)を満たす第1のリードと第2のリードとの間のすべての可能なオーバーラップのうち最も高いアライメントスコアを含むように選択する、ステップと、
    (c)(b)で決定されたパイルアップ関係に従って1つ以上のコンティグを構築するステップであって、1つのスターターリードの3’前進位置または5’前進位置に1つヌクレオチドを繰り返し付加するステップを含み、前記付加されたヌクレオチドが、(b)で決定されたオーバーラッピングリードの30%以上または5個以上前進位置に存在するマジョリティーコンセンサスヌクレオチドである、ステップと、
    (d)(c)で構築した1つ以上のコンティグおよび/または(c)で構築したコンティグの2つ以上をブリッジする1つ以上のリードメイトペアから所定の対象のゲノム領域の全長にまたがる1つ以上のスーパーコンティグをアセンブルするステップであって、これにより前記被験体の可能なハプロタイプを各々表す1つ以上のスーパーコンティグを提供する、ステップと、
    (e)すべての予想ハプロタイプから1つ以上の予想遺伝子型を決定し、および各予想遺伝子型について遺伝子型尤度比を生成するステップと、
    (f)(e)で生成した最も高い遺伝子型尤度比を有する遺伝子型に従って前記被験体で遺伝子変異の存在または不在を決定するステップと、
    を含む、方法。
  2. (c)において前記1つ以上のコンティグを構築するステップが、前記前進位置が2つの異なるマジョリティーコンセンサスヌクレオチドを含むときはコンティグの1つのコピーを生成することにより2つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが前記2つの同一の中間コンティグのそれぞれに付加されるように前記2つの異なるマジョリティーコンセンサスヌクレオチドの1つを前記2つの同一の中間コンティグのそれぞれに付加するステップと、を含む;または
    前記前進位置が3つの異なるマジョリティーコンセンサスヌクレオチドを含むときはコンティグの2つのコピーを生成することにより3つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが前記3つの同一の中間コンティグのそれぞれに付加されるように前記3つの異なるマジョリティーコンセンサスヌクレオチドの1つを前記3つの同一の中間コンティグのそれぞれに付加するステップと、を含む請求項1に記載の方法。
  3. (e)の前記遺伝子型尤度比を生成するステップが、前記1つ以上のスーパーコンティグに前記シーケンスリードを再アライメントすることにより1つ以上のマッピングウェイトを提供するステップ、および遺伝子型仮説尤度比を前記1つ以上のマッピングウェイトに従って生成するステップを含む、請求項1または2に記載の方法。
  4. 前記パイルアップ関係に従ってタイリンググラフを生成するステップを含む、請求項1〜のいずれか一項に記載の方法。
  5. 前記複数のオーバーラップのそれぞれがk−merハッシングストラテジーに従って決定される、請求項1〜のいずれか一項に記載の方法。
  6. 前記スターターリードが所定の対象のゲノム領域の最も5’側に位置するリードを含むか、または
    前記スターターリードが所定の対象のゲノム領域の最も3’側に位置するリードを含む、請求項1〜のいずれか一項に記載の方法。
  7. 前記第1のコンティグが複数のリードメイトペアに従って第2のコンティグに連結される、請求項1〜のいずれか一項に記載の方法。
  8. 前記遺伝的変異が、ショートタンデムリピートまたは1つ以上の単一ヌクレオチド多型を含む、請求項1〜のいずれか一項に記載の方法。
  9. 前記遺伝的変異が、AR、ATXN1、ATXN2、ATXN7、ATXN8、ATXN10、DMPK、FXN、JPH3、CACNA1A、PPP2R2B、TBP、ATN1、ARX、PHOX2B、PABPN1、ATT、CFTR、およびBRACA1から選択される遺伝子内に含まれる、請求項1〜のいずれか一項に記載の方法。
  10. 前記シーケンスリードが二倍体ヒト被験体から得られる、請求項1〜のいずれか一項に記載の方法。
  11. 実行可能プログラムを記憶した非一時的コンピューター可読記憶媒体であって、プログラムが請求項1〜10のいずれか一項に記載の方法の実行をマイクロプロセッサーに命令するように構成される、前記記憶媒体。
JP2017518960A 2014-10-10 2015-10-09 シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス Expired - Fee Related JP6762932B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462062636P 2014-10-10 2014-10-10
US62/062,636 2014-10-10
PCT/IB2015/057716 WO2016055971A2 (en) 2014-10-10 2015-10-09 Methods, systems and processes of de novo assembly of sequencing reads

Publications (3)

Publication Number Publication Date
JP2018500625A JP2018500625A (ja) 2018-01-11
JP2018500625A5 JP2018500625A5 (ja) 2018-11-22
JP6762932B2 true JP6762932B2 (ja) 2020-09-30

Family

ID=55653914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017518960A Expired - Fee Related JP6762932B2 (ja) 2014-10-10 2015-10-09 シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス

Country Status (8)

Country Link
US (1) US20190244678A1 (ja)
EP (1) EP3204522A4 (ja)
JP (1) JP6762932B2 (ja)
CN (1) CN106795568A (ja)
BR (1) BR112017007282A2 (ja)
CA (1) CA2963868A1 (ja)
IL (1) IL251277B (ja)
WO (1) WO2016055971A2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
WO2018057775A1 (en) 2016-09-22 2018-03-29 Invitae Corporation Methods, systems and processes of identifying genetic variations
WO2019028189A2 (en) * 2017-08-01 2019-02-07 Human Longevity, Inc. DETERMINING THE STR LENGTH BY SHORT READ SEQUENCING
US11728007B2 (en) 2017-11-30 2023-08-15 Grail, Llc Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly
EP3830828A4 (en) * 2018-07-27 2022-05-04 Myriad Women's Health, Inc. METHODS FOR DETECTING GENETIC VARIATIONS IN HIGHLY HOMOLOGOUS SEQUENCES BY INDEPENDENT ALIGNMENT AND PAIRING OF SEQUENCE READS
KR20210078488A (ko) * 2018-09-20 2021-06-28 에이아이브이에프 엘티디 이미지 특징 감지
CN113557572A (zh) * 2019-01-25 2021-10-26 加利福尼亚太平洋生物科学股份有限公司 基于图的映射核酸片段的***和方法
CN110060734B (zh) * 2019-03-29 2021-08-13 天津大学 一种高鲁棒性dna测序用条形码生成和读取方法
KR20220107117A (ko) * 2019-12-05 2022-08-02 일루미나, 인코포레이티드 유전자 융합의 신속한 검출
US20220004847A1 (en) * 2020-07-01 2022-01-06 International Business Machines Corporation Downsampling genomic sequence data
US20240117445A1 (en) * 2021-03-16 2024-04-11 University Of North Texas Health Science Center At Fort Worth Macrohaplotypes for Forensic DNA Mixture Deconvolution

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8383345B2 (en) * 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
CN102460155B (zh) * 2009-04-29 2015-03-25 考利达基因组股份有限公司 用于关于参考多核苷酸序列标注样本多核苷酸序列中的变异的方法和***
US20110257889A1 (en) * 2010-02-24 2011-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
US20120330559A1 (en) * 2011-06-21 2012-12-27 Life Technologies Corporation Systems and methods for hybrid assembly of nucleic acid sequences
WO2013103759A2 (en) * 2012-01-04 2013-07-11 Dow Agrosciences Llc Haplotype based pipeline for snp discovery and/or classification
US9916416B2 (en) * 2012-10-18 2018-03-13 Virginia Tech Intellectual Properties, Inc. System and method for genotyping using informed error profiles
CN103258145B (zh) * 2012-12-22 2016-06-29 中国科学院深圳先进技术研究院 一种基于De Bruijn图的并行基因拼接方法
CN103761453B (zh) * 2013-12-09 2017-10-27 天津工业大学 一种基于簇图结构的并行基因拼接方法

Also Published As

Publication number Publication date
JP2018500625A (ja) 2018-01-11
WO2016055971A3 (en) 2016-06-02
WO2016055971A2 (en) 2016-04-14
EP3204522A2 (en) 2017-08-16
EP3204522A4 (en) 2018-06-20
US20190244678A1 (en) 2019-08-08
IL251277B (en) 2020-08-31
CA2963868A1 (en) 2016-04-14
BR112017007282A2 (pt) 2018-06-19
IL251277A0 (en) 2017-05-29
CN106795568A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
JP6762932B2 (ja) シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス
JP7284849B2 (ja) 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
JP6854272B2 (ja) 遺伝子の変異の非侵襲的な評価のための方法および処理
Liu et al. A review of bioinformatic methods for forensic DNA analyses
JP6725481B2 (ja) 母体血漿の無侵襲的出生前分子核型分析
Robasky et al. The role of replicates for error mitigation in next-generation sequencing
JP6971845B2 (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
KR102665592B1 (ko) 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
JP6027608B2 (ja) 核酸配列データのアセンブリに関する方法
US20160117444A1 (en) Methods for determining absolute genome-wide copy number variations of complex tumors
US20130324417A1 (en) Determining the clinical significance of variant sequences
US11761036B2 (en) Methods, systems and processes of identifying genetic variations
JP2017527257A (ja) 染色体提示の決定
Sana et al. GAMES identifies and annotates mutations in next-generation sequencing projects
Kremer et al. Approaches for in silico finishing of microbial genome sequences
JP2021101629A (ja) ゲノム解析および遺伝子解析用のシステム並びに方法
Li et al. VarBen: generating in silico reference data sets for clinical next-generation sequencing bioinformatics pipeline evaluation
CN114730610A (zh) 试剂盒和使用试剂盒的方法
D’Agaro New advances in NGS technologies
Kerzendorfer et al. A thesaurus of genetic variation for interrogation of repetitive genomic regions
Mishra et al. Genome assembly and annotation
Sherman Discovering novel human structural variation from diverse populations and disease patients: an exploration of what human genomics misses by relying on reference-based analyses
Li et al. Micro-dissection and integration of long and short reads to create a robust catalog of kidney compartment-specific isoforms
Warr Lost Pigs and Broken Genes: The search for causes of embryonic loss in the pig and the assembly of a more contiguous reference genome
Heinrich Aspects of Quality Control for Next Generation Sequencing Data in Medical Genetics

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181009

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191211

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200311

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200611

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200812

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200909

R150 Certificate of patent or registration of utility model

Ref document number: 6762932

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees