JP2023529321A

JP2023529321A - 高エラー単一分子読み取りにおいて短いモチーフを同定するための配列位置合わせシステムおよび方法

Info

Publication number: JP2023529321A
Application number: JP2022572640A
Authority: JP
Inventors: ククリカー，ミロスラフ; ラウ，バヨ
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2020-05-28
Filing date: 2021-05-26
Publication date: 2023-07-10
Also published as: CN115698330A; US20230085949A1; WO2021239834A1; EP4158062A1

Abstract

本明細書に記載されているのは、多段階二次分析を利用する新規な位置合わせ方法であり、各段階は、次の段階において分析されるデータの量を徐々に減少させるが、前の段階から受け取った残りのデータに対する検索の網羅性を高める。このようにして、初期段階において最初の大きなデータプールからノイズの少ない位置合わせが迅速に同定され得る一方で、計算の後期段階において小さなデータプールから非常にノイズの多い位置合わせを同様に迅速に同定することができ、したがって、全体の計算時間を短縮しながら目標感度を維持することができる。

Description

関連出願の相互参照
なし

参照による組み込み
本明細書で述べられる全ての刊行物および特許出願は、それぞれの個々の刊行物または特許出願が参照によって組み込まれることが具体的且つ個別に示されるかのように同程度に参照によって本明細書に組み込まれる。

分野
本発明の実施形態は、一般に配列を位置合わせすることに関し、より具体的には、長い配列中の短いモチーフを高いエラー率で効率的に同定することに関する。

背景
市販の配列決定システムは、一般に、低いエラー率を有する短い読み取り（すなわち、Ｉｌｌｕｍｉｎａシーケンサ）または高いエラー率を有する長い読み取り（すなわち、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓシーケンサ）のいずれかを生成する。その結果、ほとんどの配列位置合わせツールは、これらのユースケースの双方のために開発および最適化されている：（１）低いエラー率を有する短い読み取りから短いモチーフを同定すること、または（２）高いエラー率を有する長い読み取りから長いモチーフを同定すること。しかしながら、特定のアッセイでは、高いエラー率を有する長い配列から短いモチーフを同定することができることが望ましい。

開示の概要
本発明は、一般に、配列の位置合わせに関し、より具体的には、長い配列中の短いモチーフを高いエラー率で効率的に同定することに関する。

いくつかの実施形態では、配列読み取りを参照配列に位置合わせするための方法が提供される。本方法は、第１のシード長を使用してバローズ－ホイーラー変換によって配列読み取りの集団全体からの第１の配列読み取りセットを参照配列に位置合わせすることであって、第１のシード長が、配列読み取りのエラー率に基づいて選択される、第１の配列読み取りセットを参照配列に位置合わせすることと、配列読み取りの集団全体がマスキングされた配列読み取りおよびマスキングされていない配列読み取りのサブセットを含むように、第１の配列読み取りセットをマスキングすることと、第２の位置合わせステップのより大きい感度を達成するために、第２のシード長を使用してバローズ－ホイーラー変換によってマスキングされていない配列読み取りからの第２の配列読み取りセットを参照配列に位置合わせすることであって、第２のシード長が第１のシード長よりも小さいかまたは短い、第２の配列読み取りセットを参照配列に位置合わせすることと、第１の配列読み取りセットおよび第２の配列読み取りセットに基づいて、参照配列に対する配列読み取りの位置合わせを決定することと、を含むことができる。

いくつかの実施形態では、本方法は、さらなる配列読み取りセットを反復的にマスキングし、より大きいシード長を有する各後続の読み取りセットと位置合わせすることと、さらなる配列読み取りセットとの配列読み取りの位置合わせを決定することと、をさらに含む。

いくつかの実施形態では、第１のシード長は１０塩基未満である。いくつかの実施形態では、第１のシード長は５塩基未満である。いくつかの実施形態では、第１のシード長は４塩基である。

いくつかの実施形態では、配列読み取りのエラー率は、少なくとも５％である。いくつかの実施形態では、配列読み取りのエラー率は、少なくとも１０％である。いくつかの実施形態では、配列読み取りのエラー率は、少なくとも１５％である。

いくつかの実施形態では、配列読み取りは、複数のコンカテマーから配列決定され、各コンカテマーは、互いに連結されたオリゴヌクレオチド配列から形成され、オリゴヌクレオチド配列は、染色体のセットからの複数の遺伝子座に対応する。いくつかの実施形態では、染色体のセットは、第１３、第１８、第２２、Ｘ、およびＹ染色体を含む。いくつかの実施形態では、染色体のセットは、第１３、第１８、第２２、Ｘ、およびＹ染色体からなる群から選択される。いくつかの実施形態では、本方法は、各遺伝子座が配列読み取りにおいて見出される頻度を計算することをさらに含む。

いくつかの実施形態では、配列読み取りを参照配列に位置合わせするための方法が提供される。本方法は、第１の感度パラメータセットを使用してバローズ－ホイーラー変換によって配列読み取りの集団全体からの第１の配列読み取りセットを参照配列に位置合わせすることであって、第１の感度パラメータセットが、配列読み取りのエラー率に基づいて選択される、第１の配列読み取りセットを参照配列に位置合わせすることと、配列読み取りの集団全体がマスキングされた配列読み取りおよびマスキングされていない配列読み取りのサブセットを含むように、第１の配列読み取りのセットをマスキングすることと、第２の感度パラメータセットを使用してバローズ－ホイーラー変換によってマスキングされていない配列読み取りからの第２の配列読み取りセットを参照配列に位置合わせすることであって、第２の感度パラメータセットが、第１の感度パラメータセットよりも高い感度をもたらす、第２の配列読み取りセットを参照配列に位置合わせすることと、第１の配列読み取りセットおよび第２の配列読み取りセットに基づいて、参照配列に対する配列読み取りの位置合わせを決定することと、を含むことができる。

いくつかの実施形態では、本方法は、さらなる配列読み取りセットを反復的にマスキングし、より高い感度をもたらす感度パラメータセットを有する各後続の読み取りセットと位置合わせすることと、さらなる配列読み取りセットとの配列読み取りの位置合わせを決定することと、をさらに含む。

いくつかの実施形態では、感度パラメータは、シード生成、連鎖およびフィルタリング、ならびに閾値処理からなる群から選択される。

いくつかの実施形態では、コンピュータ製品は、上記の方法のいずれかの動作を実行するようにコンピュータシステムを制御するための複数の命令を記憶するコンピュータ可読媒体を含む。

いくつかの実施形態では、システムは、上記コンピュータ製品と、コンピュータ可読媒体に記憶された命令を実行するための１つ以上のプロセッサとを含む。

いくつかの実施形態では、システムは、上記方法のいずれかを実行するための手段を含む。

いくつかの実施形態では、システムは、上記方法のいずれかを実行するように構成された１つ以上のプロセッサを含む。

いくつかの実施形態では、システムは、上記方法のいずれかのステップをそれぞれ実行するモジュールを含む。

本発明の新規の特徴は、以下の特許請求の範囲に具体的に記載されている。本発明の特徴および利点のより良い理解は、本発明の原理が利用される例示的な実施形態を説明する以下の詳細な説明、およびその添付の図面を参照することによって得られるであろう：

本発明の１つ以上の態様を実施するように構成されたコンピュータシステムの一実施形態を示すブロック図である。一実施形態では、ＮＩＰＴ二次分析におけるサンプル読み取りが、目的の染色体上のユニーク遺伝子座（すなわち、第１３、第１８、第２２、Ｘ、Ｙ）に対応する短いＮＩＰＴインデックスのコンカテマーとすることができ、サンプル読み取り中のこれらのＮＩＰＴインデックスが、サンプル読み取り中のＮＩＰＴインデックスの頻度を決定するためにインデックスデータベースに位置合わせされることを示す。多段階位置合わせプロセスの実施形態のフローチャートを示している。従来のＢＷＡアライナ（青色）と本明細書に記載の最適化されたアライナ（オレンジ色）の実施形態との間の重要なコスト／性能メトリックを比較している。

詳細な説明
ナノポアベースの配列決定システムは、感知チップ内に製造されるナノポアベースのセンサの数に応じて、膨大な量の長い読み取り配列決定データを生成することができる。いくつかの実施形態では、各感知チップは、ナノポアセンサをそれぞれ有する数百万個のセルを有することができる。ナノポアシーケンサを使用する１つの利点は、長い読み取りを生成する能力である。しかしながら、ナノポアシーケンサの現在の生の読み取り精度は、一般に、確立された短い読み取り技術（すなわち、９９％を超える精度）よりも低い（すなわち、８０から９５％の間）。

ナノポアシーケンサの長い読み取り能力を利用するために、比較的短い標的配列を、ナノポアシーケンサで効率的に配列決定することができるより長い線形配列にコンカテマー化され得る。コンカテマーは、所望の精度（すなわち、例えば、９９％、９９．９％、または９９．９９％を超える）を有するコンセンサス配列を生成するために、ナノポアシーケンサによって並行して配列決定され得る。コンセンサス配列を生成するために、配列フラグメントが位置合わせされる必要がある。

位置合わせ方法およびシステムはナノポアシーケンサの文脈で説明されているが、他のタイプのシーケンシングデバイスによって生成された他の配列も、本明細書に記載の位置合わせ方法およびシステムを使用して位置合わせされ得る。例えば、本明細書に開示される方法での使用に適した配列アッセイの非限定的な例は、ナノポアシーケンシング（米国特許出願公開第２０１３／０２４４３４０号明細書、第２０１３／０２６４２０７号明細書、第２０１４／０１３４６１６号明細書、第２０１５／０１１９２５９号明細書および第２０１５／０３３７３６６号明細書）、サンガーシーケンシング、キャピラリーアレイシーケンシング、熱サイクルシーケンシング（Ｓｅａｒｓら、Ｂｉｏｔｅｃｈｎｉｑｕｅｓ，１３：６２６－６３３（１９９２））、固相シーケンシング（Ｚｉｍｍｅｒｍａｎら、ＭｅｔｈｏｄｓＭｏｌ．ＣｅｌｌＢｉｏｌ．，３：３９－４２（１９９２））、マトリックス支援レーザー脱離／イオン化飛行時間型質量分析（ＭＡＬＤＩ－ＴＯＦ／ＭＳ；Ｆｕら、ＮａｔｕｒｅＢｉｏｔｅｃｈ．，１６：３８１－３８４（１９９８））などの質量分析によるシーケンシング、ハイブリダイゼーションによるシーケンシング（Ｄｒｍａｎａｃら、ＮａｔｕｒｅＢｉｏｔｅｃｈ．，１６：５４－５８（１９９８）、限定されないが、合成によるシーケンシング（例えば、ＨｉＳｅｑ（商標）、ＭｉＳｅｑ（商標）、またはＧｅｎｏｍｅＡｎａｌｙｚｅｒ、それぞれＩｌｌｕｍｉｎａより入手可能）を含むＮＧＳ法、ライゲーションによるシーケンシング（例えば、ＳＯＬｉＤ（商標）、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）、イオン半導体シーケンシング（例えば、ＩｏｎＴｏｒｒｅｎｔ（商標）、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）、およびＳＭＲＴ（登録商標）シーケンシング（例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）を含む。

市販のシーケンシング技術は、ＡｆｆｙｍｅｔｒｉｘＩｎｃ．（カリフォルニア州サニーベール）のハイブリダイゼーションによるシーケンシングプラットフォーム、Ｉｌｌｕｍｉｎａ／Ｓｏｌｅｘａ（カリフォルニア州サンディエゴ）およびＨｅｌｉｃｏｓＢｉｏｓｃｉｅｎｃｅｓ（マサチューセッツ州ケンブリッジ）の合成によるシーケンシングプラットフォーム、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ（カリフォルニア州フォスターシティ）のライゲーションによるシーケンシングプラットフォームを含む。他のシーケンシング技術は、限定されないが、ＩｏｎＴｏｒｒｅｎｔ技術（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ）、およびナノポアシーケンシング（カリフォルニア州サンタクララのＲｏｃｈｅＳｅｑｕｅｎｃｉｎｇＳｏｌｕｔｉｏｎｓのＧｅｎｉａＴｅｃｈｎｏｌｏｇｙ）およびＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ（英国オックスフォード）を含む。

位置合わせ分析は、新たなトピックではないが、特定の配列決定用途は課題を提示する。例えば、非侵襲的出生前検診（ＮＩＰＴ）アッセイは、バイオインフォマティクスの世界では十分に開発されていない症例を提示する。長い読み取り配列およびノイズの多い読み取り配列（一実施形態では、１０００～５０００塩基対および１０～２０％のエラーを有するコンカテマーナノポア読み取り）からの短いモチーフ、例えば、一実施形態の４０塩基対のＮＩＰＴインデックスの同定は、計算時間／リソースの制約ならびにアッセイの厳密な感度および特異性要件の双方を満たす必要があるため、アルゴリズム設計に対する新たな考慮事項である。ほとんどの既存の位置合わせツールおよび方法は、低いエラー率（例えば、Ｉｌｌｕｍｉｎａシーケンサ）で配列決定される短いモチーフおよび高いエラー率（例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅシーケンサ）を有する長いモチーフのために設計されている：実際には、短いモチーフおよび高いエラー率のＮＩＰＴアッセイのユースケースは、正確にはこれらのアプローチの弱点であり、感度、計算リソースまたはその双方の点で不利である。

具体的な検討として、ゲノムアライナは、ごく少数の非常に長い参照配列（例えば、数百万塩基対の染色体）のみが位置合わせ標的として使用され、各読み取り配列が単一の標的遺伝子座に一意的に位置合わせされることが予想される場合のために設計される。対照的に、一実施形態では、ＮＩＰＴアッセイは、人工的な短い配列モチーフ（ＮＩＰＴインデックス）を有する生物学的サンプルをプローブし、それらを制限酵素（すなわちＰｓｔｌ）で切断し、それらを、非ゲノムの短いオリゴを含有する長いテンプレート（すなわち、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、または１０００塩基を超える）に連結し、そのテンプレートを長い高エラー読み取り（すなわち、少なくとも１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０％）として配列決定する。ＮＩＰＴアッセイは、５０００を超える非常に短い参照配列（４０塩基対のＮＩＰＴインデックス）を有することができ、各コンカテマーの読み取り配列は、図２に示すように、非重複セグメントのセットとして、最大２０％のエラー率で複数の標的に位置合わせする。二次分析の目的は、コンカテマー読み取りにおいてそれらのインデックスを同定すること、すなわち所与の患者サンプルにおける各データベースインデックスの頻度を見出すことである。次いで、インデックス頻度は、染色体頻度から統計モデルを構築し、スクリーニング検査結果（確率）、臨床医への推奨などを確立する三次分析モジュール（すなわち、「Ｆｏｒｔｅ」）に送られる。

同様の理由、ならびにノイズ耐性が低いことは、他のクラスの位置合わせ問題をカバーする分析ツールにも適用可能であり、特定のタイプのシーケンシングベースのアッセイで見られる位置合わせ問題のタイプに適合しないかまたは最適ではない。例えば、短いモチーフ、および明確に定義されたグラウンドトゥルース（例えば、可能性のある対立遺伝子多型および／またはゲノム分析に典型的な他の不一致のない５０００＋標的ＮＩＰＴインデックスのセット）は、このタイプの問題を、例えば配列ｋ－ｍｅｒシーディング／ハッシングを使用する位置合わせのないアプローチに一見適したものにする。しかしながら、読み取りにおける高いノイズの存在は、高い感度を維持するために非常に短いｋ－ｍｅｒ長を必要とするであろう。例えば、内部データは、実際には、ｋ－ｍｅｒ長を４塩基対から５塩基対に変更すると、読み取りエラー率に応じて、１０％以上の感度の喪失をもたらし得ることを示した。短い（より短い）ｋ－ｍｅｒもまた、さらなる計算負荷を生じる（典型的には複雑度はＯ（ｎ^２）であり、式中、ｎはｋ－ｍｅｒの数であり、ｋ－ｍｅｒの長さに反比例する）。

本発明者らは、各段階が、次の段階において分析されるデータの量を徐々に減少させるが、前の段階から受け取った残りのデータに対する検索の網羅性を高める、多段階二次分析を利用する新規な位置合わせ方法を着想した。このようにして、初期段階において最初の大きなデータプールからノイズの少ない位置合わせが迅速に同定され得る一方で、計算の後期段階において小さなデータプールから非常にノイズの多い位置合わせが同様に迅速に同定することができ、したがって、全体の計算時間を短縮しながら目標感度を維持することができる。

本発明者らは、位置合わせ方法のナイーブで最適化されていない実装が追加の補助データ／計算コスト（位置合わせ方法の利点を否定する）および下流の処理との潜在的な非互換性をもたらすことを示したため、位置合わせ方法は自明でない計算実装を必要とすることを見出した。

これら全てに対処するために、本発明者らは、Ａｐａｃｈｅライセンスの下で十分に確立されたオープンソースのゲノム位置合わせツールである業界標準のＢＷＡ－ＭＥＭに対する高度に最適化された簡潔な拡張として、本発明者らの位置合わせ方法を実装した。本発明者らは、そのコアアルゴリズム、データ構造およびコンテキスト依存最適化を変更および調整して、ＮＩＰＴアッセイのために手元にあった位置合わせ問題の固有の性質に適合させなければならなかった。また、多段階分析機能に対応するために、その全体的なインフラストラクチャを変更する必要があった。より具体的には、ＢＷＡ－ＭＥＭの以下の部分が変更または調整された：コアアルゴリズム（シード生成、連鎖およびフィルタリング、閾値処理など）、データ構造（読み取り、参照、位置合わせ情報、ＳＡＭ記録、縮小Ｉ／Ｏ）、メモリ使用量およびアクセスパターン（Ｉ／Ｏバッファリング、アレイ作成および伝播）、ならびに実行フローの全体的なインフラストラクチャおよび論理（多段階分析機能に対応するために、ＢＷＡに新たな反復位置合わせ手順を追加し、本発明者らは、反復固有のパラメータ作成、チェックポインティングなどを追加した）。ＢＷＡ－ＭＥＭの修正および最適化されたワークフローのフローチャートを図３に示す。

例えば、いくつかの実施形態では、シードパラメータは、１９塩基または塩基対ｋｍｅｒ（すなわち、ＢＷＡ－ＭＥＭのデフォルト）から４塩基または塩基対ｋｍｅｒに減少する。縮小されたｋｍｅｒのサイズは、エラー率に基づく。配列読み取りのエラー率が減少する場合、シード長が増加されて計算時間を短縮することができる。第２のパスのシードサイズと比較して増加した第１のパスのシードサイズは、第１のパスがＮＩＰＴインデックスと一致するオリゴ配列を迅速に同定することを可能にし（しかしながら、より低い感度を有する）、これは、これらの配列を位置合わせされていない配列プールから除去することを可能にし、これは、より小さいシードサイズ（シード生成、連鎖およびフィルタリング、閾値処理など）などの次のパスでより高い感度パラメータを使用して処理され得る。シーディングのプロセスは、ｋｍｅｒを整数値（すなわち、各塩基タイプは特定の値を有し、ｋｍｅｒは塩基値の合計である）に変換することを含む。これらの整数値は、ｋｍｅｒストリング自体を一致させようとするよりも、参照ＮＩＰＴインデックスからの対応するｋｍｅｒ整数値とはるかに容易且つ迅速に比較され得る。

シード生成とともに、性能を改善するために連鎖が調整され得る。連鎖は、重なり合うシードまたは同一直線上にあり互いに近接しているシードである、鎖と呼ばれるシードの群を見出すプロセスである。鎖は、ハトホール法または貪欲クラスタリングアルゴリズムなどの様々なグルーピングアルゴリズムによって同定され得る。

このプロジェクトは、我々がおそらく今日最も人気のあるバイオインフォマティクスツールのための新規な用途を開発したため、エキサイティングであった。このプロジェクトの重要性は、ナノポアシーケンシングベースのＮＩＰＴアッセイ二次分析を迅速に完了させる（すなわち、１、２、３、４、５、または６時間未満）ことが可能になったという事実にある。また、実質的にあらゆる種類のコモディティハードウェアの分析も可能にし、非常に高価なハイエンドのコンピューティングハードウェアの初期プロジェクトの見積りとは全く対照的であった。

このプロジェクトでの作業はまた、短いおよびノイズの多いモチーフを有する長い読み取りを利用することができるが、高度に最適化されたツールおよびアルゴリズム、例えばＲＮＡ－ｓｅｑアイソフォームにおけるスプライスバリアントイベントの推論、メタトランスクリプトミクスなどがない他の領域（すなわち、配列決定に基づくアッセイ）における同様のアルゴリズムアプローチの基礎を成す。

最適化された位置合わせ方法の影響の１つは、最終製品の直接的なコスト削減である。ＮＩＰＴアッセイの二次分析に必要なハードウェア構成の最適化前の初期の見積りは、２５６～５１２ＧＢのＲＡＭおよび３２～４０個のＣＰＵコアを有する計算ワークステーションを予測することであった。最適化された位置合わせ方法は、計算時間を２倍短縮し（ＣＰＵコアの削減）、予想されるＲＡＭメモリ使用量を９８％削減した。正確なコスト削減の影響を見積もることは困難であるが、設置された各構成ごとに数万ドルであり、潜在的にコンピューティングハードウェアコストの最大５０％を節約すると言ってもよい。

第２の影響は、計算時間の短縮である。計算時間を短縮することにより、実行サイクルごとの分析を１時間の時間配分に適合させることも可能であり、その結果、機器が次の実行サイクルをシーケンシングしている間に前の実行サイクルの二次分析が実行され得、シーケンシング実験完了後１時間以内に二次実行分析結果を効果的に作成することができた。この重要な製品要件は実現可能ではなく、以前の最適化されていない手法ではリスクがあった。

本明細書に記載の位置合わせ方法は、長い高エラー読み取りから短いモチーフを同定するのに特に適している。いくつかの実施形態では、短いモチーフは、約５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、６００、７００、８００、９００または１０００塩基または塩基対未満である。いくつかの実施形態では、高エラー読み取りは、約１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９または２０％を超えるエラー率を有する生読み取りである。いくつかの実施形態では、長い読み取りは、少なくとも１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００または１００００個の塩基または塩基対を有する。いくつかの実施形態では、アルゴリズムは、シーケンサの出力に依存して、より短い長さの高エラー読み取りに適用され得る。例えば、より短い読み取りは、１０００、９００、８００、７００、６００または５００塩基未満とすることができる。

本明細書に記載の位置合わせ方法およびアルゴリズムは、コンピュータシステム上で実装され得る。例えば、図１は、本発明の１つ以上の態様を実装するように構成されたコンピュータシステム１００の一実施形態を示すブロック図である。図示のように、コンピュータシステム１００は、限定されないが、メモリブリッジ１０５および通信経路１１３を介して並列処理サブシステム１１２に結合された中央処理装置（ＣＰＵ）１０２およびシステムメモリ１０４を含む。メモリブリッジ１０５は、通信経路１０６を介してＩ／Ｏ（入力／出力）ブリッジ１０７にさらに結合され、Ｉ／Ｏブリッジ１０７は、同様にスイッチ１１６に結合される。

動作中、Ｉ／Ｏブリッジ１０７は、入力装置１０８（例えば、キーボード、マウス、ビデオ／画像キャプチャ装置など）からユーザ入力情報を受信し、通信経路１０６およびメモリブリッジ１０５を介して処理するために入力情報をＣＰＵ１０２に転送するように構成される。いくつかの実施形態では、入力情報は、物体検出動作が実行されるデジタル記憶媒体に記憶されたカメラ／画像キャプチャ装置からのライブフィードまたはビデオデータである。スイッチ１１６は、Ｉ／Ｏブリッジ１０７と、ネットワークアダプタ１１８ならびに様々なアドインカード１２０および１２１などのコンピュータシステム１００の他の構成要素との間の接続を提供するように構成される。

同様に示されるように、Ｉ／Ｏブリッジ１０７は、ＣＰＵ１０２および並列処理サブシステム１１２によって使用されるコンテンツおよびアプリケーションおよびデータを記憶するように構成され得るシステムディスク１１４に結合される。一般的な問題として、システムディスク１１４は、アプリケーションおよびデータのための不揮発性記憶装置を提供し、固定または取り外し可能なハードディスクドライブ、フラッシュメモリ装置、およびＣＤ－ＲＯＭ（コンパクトディスク読み出し専用メモリ）、ＤＶＤ－ＲＯＭ（デジタル多用途ディスク－ＲＯＭ）、ブルーレイ、ＨＤ－ＤＶＤ（高精細ＤＶＤ）、または他の磁気、光学、もしくは固体記憶装置を含むことができる。最後に、明示的に示されていないが、ユニバーサルシリアルバスまたは他のポート接続、コンパクトディスクドライブ、デジタル多用途ディスクドライブ、フィルム記録装置などの他の構成要素もＩ／Ｏブリッジ１０７に接続され得る。

様々な実施形態では、メモリブリッジ１０５は、ノースブリッジチップであってもよく、Ｉ／Ｏブリッジ１０７は、サウスブリッジチップであってもよい。さらに、通信経路１０６および１１３、ならびにコンピュータシステム１００内の他の通信経路は、限定されないが、ＡＧＰ（ＡｃｃｅｌｅｒａｔｅｄＧｒａｐｈｉｃｓＰｏｒｔ）、ＨｙｐｅｒＴｒａｎｓｐｏｒｔ、または当該技術分野で知られている任意の他のバスもしくはポイントツーポイント通信プロトコルを含む、任意の技術的に適切なプロトコルを使用して実装されてもよい。

いくつかの実施形態では、並列処理サブシステム１１２は、任意の従来の陰極線管、液晶ディスプレイ、発光ダイオードディスプレイなどとすることができる表示装置１１０に画素を供給するグラフィックスサブシステムを含む。そのような実施形態では、並列処理サブシステム１１２は、例えばビデオ出力回路を含む、グラフィックおよびビデオ処理に最適化された回路を組み込む。そのような回路は、並列処理サブシステム１１２内に含まれる１つ以上の並列処理ユニット（ＰＰＵ）にわたって組み込まれてもよい。他の実施形態では、並列処理サブシステム１１２は、汎用および／または計算処理に最適化された回路を組み込む。同様に、そのような回路は、そのような汎用および／または計算動作を実行するように構成された並列処理サブシステム１１２内に含まれる１つ以上のＰＰＵにわたって組み込まれてもよい。さらに他の実施形態では、並列処理サブシステム１１２内に含まれる１つ以上のＰＰＵは、グラフィックス処理、汎用処理、および計算処理動作を実行するように構成されてもよい。システムメモリ１０４は、並列処理サブシステム１１２内の１つ以上のＰＰＵの処理動作を管理するように構成された少なくとも１つのデバイスドライバ１０３を含む。システムメモリ１０４はまた、ＣＰＵ１０２上で実行され、ＰＰＵの動作を制御するコマンドを発行することができるソフトウェアアプリケーション１２５を含む。

様々な実施形態では、並列処理サブシステム１１２は、図１の１つ以上の他の要素と統合されて単一のシステムを形成してもよい。例えば、並列処理サブシステム１１２は、単一チップ上のＣＰＵ１０２および他の接続回路と統合されて、システムオンチップ（ＳｏＣ）を形成することができる。

本明細書に示されるシステムは例示的なものであり、変形および変更が可能であることが理解されよう。ブリッジの数および配置、ＣＰＵ１０２の数、および並列処理サブシステム１１２の数を含む接続トポロジは、必要に応じて変更されてもよい。例えば、いくつかの実施形態では、システムメモリ１０４は、メモリブリッジ１０５を介さずに直接ＣＰＵ１０２に接続することができ、他の装置は、メモリブリッジ１０５およびＣＰＵ１０２を介してシステムメモリ１０４と通信する。他の代替的なトポロジでは、並列処理サブシステム１１２は、Ｉ／Ｏブリッジ１０７に、またはメモリブリッジ１０５ではなくＣＰＵ１０２に直接接続されてもよい。さらに他の実施形態では、Ｉ／Ｏブリッジ１０７およびメモリブリッジ１０５は、１つ以上の個別の装置として存在する代わりに、単一チップに統合されてもよい。最後に、特定の実施形態では、図１に示す１つ以上の構成要素は存在しなくてもよい。例えば、スイッチ１１６は排除することができ、ネットワークアダプタ１１８およびアドインカード１２０、１２１は、Ｉ／Ｏブリッジ１０７に直接接続する。

図４は、サンノゼのテストケース２０１８０５０３＿ｕｚｕｋｉ＿０００００１＿ＷＳＫ１８Ｒ０４Ｃ８＿Ｌ０３を処理するためにＲＳＳ－ＳＣ１クラスタのｖｈｍｅｍハードウェア上で実行される従来のＢＷＡ（青色）とｖ０．４マルチステージアライナ（オレンジ色）との間の重要なコスト／性能メトリックを比較する。コスト（最初の５つのバー）は大幅に削減されるが、完全性（最後の４つのバー）は同等である。

特徴または要素が本明細書で別の特徴または要素「上」にあると言及される場合、それは、他の特徴または要素上に直接存在することができ、または介在する特徴および／または要素も存在してもよい。対照的に、特徴または要素が別の特徴または要素に「直接」あると言及される場合、介在する特徴または要素は存在しない。特徴または要素が別の特徴または要素に「接続され」、「取り付けられ」または「結合され」と言及される場合、それは他の特徴または要素に直接接続され、取り付けられ、または結合されることも可能であり、または介在する特徴または要素が存在し得ることも理解されよう。対照的に、特徴または要素が別の特徴または要素に「直接接続されている」、「直接接続されている」、または「直接結合されている」と言及される場合、介在する特徴または要素は存在しない。一実施形態に関して説明または示されているが、そのように説明または示されている特徴および要素は、他の実施形態に適用することができる。別の特徴に「隣接して」配置された構造または特徴への言及は、隣接する特徴と重複するか、またはその下にある部分を有することができることも当業者には理解されるであろう。

本明細書に使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することは意図されていない。例えば、本明細書で使用される場合、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈が明らかに他のことを示さない限り、複数形も含むことを意図している。本明細書で使用される場合、「備える（ｃｏｍｐｒｉｓｅｓ）」および／または「備える（ｃｏｍｐｒｉｓｉｎｇ）」という用語は、記載された特徴、ステップ、動作、要素、および／または構成要素の存在を指定するが、１つ以上の他の特徴、ステップ、動作、要素、構成要素、および／またはそれらのグループの存在または追加を排除するものではないことがさらに理解される。本明細書で使用される場合、「および／または」という用語は、関連するリストされた項目の１つ以上のありとあらゆる組み合わせを含み、「／」と省略され得る。

「下（ｕｎｄｅｒ）」、「下（ｂｅｌｏｗ）」、「下（ｌｏｗｅｒ）」、「上（ｏｖｅｒ）」、「上（ｕｐｐｅｒ）」などのような空間的に相対的な用語は、説明を容易にするために、ある要素または特徴と別の要素または図に示されている特徴との関係を説明するために本明細書において使用され得る。空間的に相対的な用語は、図に示されている方向に加えて、使用中または動作中の装置の異なる方向を包含することを意図していることが理解されよう。例えば、図の装置が裏返されている場合、他の要素または特徴の「下（ｕｎｄｅｒ）」または「下方（ｂｅｎｅａｔｈ）」として記述されている要素は、他の要素または特徴の「上方（ｏｖｅｒ）」になる。したがって、「下（ｕｎｄｅｒ）」という例示的な用語は、上と下の双方の方向を包含することができる。装置は、他の方法で方向付けられてもよく（例えば、９０度回転または他の方向に）、本明細書で使用される空間的に相対的な記述子がそれに応じて解釈されてもよい。同様に、「上向き（ｕｐｗａｒｄｌｙ）」、「下向き（ｄｏｗｎｗａｒｄｌｙ）」、「垂直（ｖｅｒｔｉｃａｌ）」、「水平（ｈｏｒｉｚｏｎｔａｌ）」などの用語は、特に明記しない限り、説明の目的でのみ本明細書で使用される。

「第１」および「第２」という用語は、本明細書では様々な特徴／要素（ステップを含む）を説明するために使用され得るが、文脈が別段の指示をしない限り、これらの特徴／要素はこれらの用語によって制限されるべきではない。これらの用語は、ある特徴／要素を別の特徴／要素から区別するために使用される場合がある。したがって、以下に記載される第１の特徴／要素は、第２の特徴／要素と呼ぶことができ、同様に、以下に記載される第２の特徴／要素は、本発明の教示から逸脱することなく、第１の特徴／要素と呼ぶことができる。

本明細書および以下の特許請求の範囲を通じて、文脈上別段の定めがない限り、「備える（ｃｏｍｐｒｉｓｅ）」という単語、および「備える（ｃｏｍｐｒｉｓｅｓ）」および「備える（ｃｏｍｐｒｉｓｉｎｇ）」などの変形は、方法および物品（例えば、組成物ならびに装置および方法を含む装置）において共同で使用され得ることを意味する。例えば、用語「備える（ｃｏｍｐｒｉｓｉｎｇ）」は、ここに記されるいずれの要素またはステップを含むことを暗示するが、いずれの他の要素またはステップを除外することを含まない、と理解される。

実施例で使用されるものを含め、本明細書で本明細書および特許請求の範囲で使用される場合、特に明示的に指定されない限り、全ての数は、その用語が明示的に表示されない場合でも、「約」または「およそ」という単語で始まるかのように読むことができる。「約」または「およそ」という句は、大きさおよび／または位置を説明するときに使用されて、説明される値および／または位置が値および／または位置の合理的な予想範囲内にあることを示すことができる。例えば、数値は、記載された値（または値の範囲）の＋／－０．１％、記載された値（または値の範囲）の＋／－１％、記載された値（または値の範囲）の＋／－２％の値、記載された値（または値の範囲）の＋／－５％、記載された値（または値の範囲）の＋／－１０％などを有することができる。本明細書で与えられる数値はまた、文脈が別段の指示をしない限り、約その値またはおよそその値を含むと理解されるべきである。例えば、値「１０」が開示されている場合、「約１０」も開示されている。本明細書に記載されている任意の数値範囲は、そこに含まれる全てのサブ範囲を含むことを意図している。また、当業者が適切に理解するように、値が「以下」であると開示される場合、「値以上」および値間の可能な範囲も開示されることも理解される。例えば、値「Ｘ」が開示される場合、「Ｘ以下」ならびに「Ｘ以上」（例えば、Ｘは数値である）も開示される。また、本特許出願全体で、データは多くの様々な形式で提供され、このデータは、終了点と開始点、およびデータポイントの任意の組み合わせの範囲を表すことも理解される。例えば、特定のデータポイント「１０」および特定のデータポイント「１５」が開示される場合、１０および１５よりも大きい、それ以上、それよりも小さい、それ以下、およびそれに等しいことが、１０から１５の間とともに開示されていると見なされることが理解される。２つの特定のユニット間の各ユニットもまた開示されていることも理解される。例えば、１０と１５が開示されている場合、１１、１２、１３、および１４も開示される。

様々な例示的な実施形態が上に記載されているが、特許請求の範囲に記載されているように、本発明の範囲から逸脱することなく、様々な実施形態にいくつかの変更を加えることができる。例えば、記載された様々な方法ステップが実行される順序は、代替の実施形態ではしばしば変更されることがあり、他の代替の実施形態では、１つ以上の方法ステップが完全にスキップされることがある。様々な装置およびシステムの実施形態の任意の特徴は、いくつかの実施形態には含めてもよく、他の実施形態には含めなくてもよい。したがって、前述の説明は、主に例示的な目的で提供されており、特許請求の範囲に記載されているように、本発明の範囲を限定するものと解釈されるべきではない。

本明細書に含まれる例および図は、限定ではなく例示として、主題が実施され得る特定の実施形態を示している。前述のように、他の実施形態を利用してそこから導き出すことができ、その結果、本開示の範囲から逸脱することなく、構造的および論理的な置換および変更を行うことができる。本発明の主題のそのような実施形態は、複数のものが実際に開示されている場合、単に便宜のために、そして本特許出願の範囲を任意の単一の発明または発明の概念に自発的に限定することを意図することなく、本明細書において個別にまたは集合的に「発明」という用語によって言及され得る。したがって、特定の実施形態が本明細書で例示および説明されてきたが、同じ目的を達成するために計算された任意の構成は、示された特定の実施形態の代わりに使用され得る。本開示は、様々な実施形態のありとあらゆる適応または変形を包含することを意図している。上記の実施形態、および本明細書に具体的に記載されていない他の実施形態の組み合わせは、上記の説明を検討すると、当業者にとって明らかであろう。

Claims

配列読み取りを参照配列に位置合わせするための方法であって、
第１のシード長を使用してバローズ－ホイーラー変換によって配列読み取りの集団全体からの第１の配列読み取りセットを参照配列に位置合わせすることであって、ここで、前記第１のシード長が、前記配列読み取りのエラー率に基づいて選択されるものである、
前記配列読み取りの集団全体がマスキングされた配列読み取りおよびマスキングされていない配列読み取りのサブセットを含むように、前記第１の配列読み取りのセットをマスキングすること、
第２のシード長を使用して前記バローズ－ホイーラー変換によって前記マスキングされていない配列読み取りからの第２の配列読み取りセットを前記参照配列に位置合わせすること、ここで、前記第２のシード長が前記第１のシード長よりも短いものである、および、
前記第１の配列読み取りセットおよび前記第２の配列読み取りセットに基づいて、前記参照配列に対する前記配列読み取りの位置合わせを決定すること、
を含む、前記方法。
さらなる配列読み取りセットを反復的にマスキングし、より短いシード長を有する各後続の読み取りセットと位置合わせすることと、前記さらなる配列読み取りセットとの前記配列読み取りの位置合わせを決定することと、をさらに含む、請求項１に記載の方法。
前記第１のシード長が１０塩基未満である、請求項１に記載の方法。
前記第１のシード長が５塩基未満である、請求項１に記載の方法。
前記第１のシード長が４塩基である、請求項１に記載の方法。
前記配列読み取りの前記エラー率が少なくとも５％である、請求項１に記載の方法。
前記配列読み取りの前記エラー率が少なくとも１０％である、請求項１に記載の方法。
前記配列読み取りの前記エラー率が少なくとも１５％である、請求項１に記載の方法。
前記配列読み取りが、複数のコンカテマーから配列決定され、各コンカテマーが、互いに連結されたオリゴヌクレオチド配列から形成され、前記オリゴヌクレオチド配列が、染色体のセットからの複数の遺伝子座に対応する、請求項１に記載の方法。
前記染色体のセットが、第１３、第１８、第２２、Ｘ、およびＹ染色体を含む、請求項９に記載の方法。
前記染色体のセットが、第１３、第１８、第２２、Ｘ、およびＹ染色体からなる群から選択される、請求項９に記載の方法。
各遺伝子座が前記配列読み取りにおいて見出される頻度を計算することをさらに含む、請求項９に記載の方法。
配列読み取りを参照配列に位置合わせするための方法であって、
第１の感度パラメータセットを使用してバローズ－ホイーラー変換によって配列読み取りの集団全体からの第１の配列読み取りセットを参照配列に位置合わせすること、ここで、前記第１の感度パラメータセットが、前記配列読み取りのエラー率に基づいて選択されるものである、
前記配列読み取りの集団全体がマスキングされた配列読み取りおよびマスキングされていない配列読み取りのサブセットを含むように、前記第１の配列読み取りのセットをマスキングすること、
第２の感度パラメータセットを使用して前記バローズ－ホイーラー変換によって前記マスキングされていない配列読み取りからの第２の配列読み取りセットを前記参照配列に位置合わせすること、ここで、前記第２の感度パラメータセットが、前記第１の感度パラメータセットよりも高い感度をもたらすものである、および、
前記第１の配列読み取りセットおよび前記第２の配列読み取りセットに基づいて、前記参照配列に対する前記配列読み取りの位置合わせを決定すること
を含む、前記方法。
さらなる配列読み取りセットを反復的にマスキングし、より高い感度をもたらす感度パラメータセットを有する各後続の読み取りセットと位置合わせすることと、前記さらなる配列読み取りセットとの前記配列読み取りの位置合わせを決定することと、をさらに含む、請求項１３に記載の方法。
前記感度パラメータが、シード生成、連鎖およびフィルタリング、ならびに閾値処理からなる群から選択される、請求項１３に記載の方法。
請求項１～１５のいずれか一項に記載の方法の動作を実行するようにコンピュータシステムを制御するための複数の命令を記憶するコンピュータ可読媒体を含む、コンピュータ製品。
請求項１６に記載のコンピュータ製品と、
前記コンピュータ可読媒体に記憶された命令を実行するための１つ以上のプロセッサと、を備える、システム。
請求項１～１５のいずれか一項に記載の方法を実行するための手段を備えるシステム。
請求項１～１５のいずれか一項に記載の方法を実行するように構成された１つ以上のプロセッサを備えるシステム。
請求項１～１５のいずれか一項に記載の方法のステップをそれぞれ実行するモジュールを備えるシステム。