JP2023529321A - 高エラー単一分子読み取りにおいて短いモチーフを同定するための配列位置合わせシステムおよび方法 - Google Patents

高エラー単一分子読み取りにおいて短いモチーフを同定するための配列位置合わせシステムおよび方法 Download PDF

Info

Publication number
JP2023529321A
JP2023529321A JP2022572640A JP2022572640A JP2023529321A JP 2023529321 A JP2023529321 A JP 2023529321A JP 2022572640 A JP2022572640 A JP 2022572640A JP 2022572640 A JP2022572640 A JP 2022572640A JP 2023529321 A JP2023529321 A JP 2023529321A
Authority
JP
Japan
Prior art keywords
sequence reads
sequence
reads
aligning
seed length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022572640A
Other languages
English (en)
Inventor
ククリカー,ミロスラフ
ラウ,バヨ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Original Assignee
F Hoffmann La Roche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG filed Critical F Hoffmann La Roche AG
Publication of JP2023529321A publication Critical patent/JP2023529321A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本明細書に記載されているのは、多段階二次分析を利用する新規な位置合わせ方法であり、各段階は、次の段階において分析されるデータの量を徐々に減少させるが、前の段階から受け取った残りのデータに対する検索の網羅性を高める。このようにして、初期段階において最初の大きなデータプールからノイズの少ない位置合わせが迅速に同定され得る一方で、計算の後期段階において小さなデータプールから非常にノイズの多い位置合わせを同様に迅速に同定することができ、したがって、全体の計算時間を短縮しながら目標感度を維持することができる。

Description

関連出願の相互参照
なし
参照による組み込み
本明細書で述べられる全ての刊行物および特許出願は、それぞれの個々の刊行物または特許出願が参照によって組み込まれることが具体的且つ個別に示されるかのように同程度に参照によって本明細書に組み込まれる。
分野
本発明の実施形態は、一般に配列を位置合わせすることに関し、より具体的には、長い配列中の短いモチーフを高いエラー率で効率的に同定することに関する。
背景
市販の配列決定システムは、一般に、低いエラー率を有する短い読み取り(すなわち、Illuminaシーケンサ)または高いエラー率を有する長い読み取り(すなわち、Pacific Biosciencesシーケンサ)のいずれかを生成する。その結果、ほとんどの配列位置合わせツールは、これらのユースケースの双方のために開発および最適化されている:(1)低いエラー率を有する短い読み取りから短いモチーフを同定すること、または(2)高いエラー率を有する長い読み取りから長いモチーフを同定すること。しかしながら、特定のアッセイでは、高いエラー率を有する長い配列から短いモチーフを同定することができることが望ましい。
開示の概要
本発明は、一般に、配列の位置合わせに関し、より具体的には、長い配列中の短いモチーフを高いエラー率で効率的に同定することに関する。
いくつかの実施形態では、配列読み取りを参照配列に位置合わせするための方法が提供される。本方法は、第1のシード長を使用してバローズ-ホイーラー変換によって配列読み取りの集団全体からの第1の配列読み取りセットを参照配列に位置合わせすることであって、第1のシード長が、配列読み取りのエラー率に基づいて選択される、第1の配列読み取りセットを参照配列に位置合わせすることと、配列読み取りの集団全体がマスキングされた配列読み取りおよびマスキングされていない配列読み取りのサブセットを含むように、第1の配列読み取りセットをマスキングすることと、第2の位置合わせステップのより大きい感度を達成するために、第2のシード長を使用してバローズ-ホイーラー変換によってマスキングされていない配列読み取りからの第2の配列読み取りセットを参照配列に位置合わせすることであって、第2のシード長が第1のシード長よりも小さいかまたは短い、第2の配列読み取りセットを参照配列に位置合わせすることと、第1の配列読み取りセットおよび第2の配列読み取りセットに基づいて、参照配列に対する配列読み取りの位置合わせを決定することと、を含むことができる。
いくつかの実施形態では、本方法は、さらなる配列読み取りセットを反復的にマスキングし、より大きいシード長を有する各後続の読み取りセットと位置合わせすることと、さらなる配列読み取りセットとの配列読み取りの位置合わせを決定することと、をさらに含む。
いくつかの実施形態では、第1のシード長は10塩基未満である。いくつかの実施形態では、第1のシード長は5塩基未満である。いくつかの実施形態では、第1のシード長は4塩基である。
いくつかの実施形態では、配列読み取りのエラー率は、少なくとも5%である。いくつかの実施形態では、配列読み取りのエラー率は、少なくとも10%である。いくつかの実施形態では、配列読み取りのエラー率は、少なくとも15%である。
いくつかの実施形態では、配列読み取りは、複数のコンカテマーから配列決定され、各コンカテマーは、互いに連結されたオリゴヌクレオチド配列から形成され、オリゴヌクレオチド配列は、染色体のセットからの複数の遺伝子座に対応する。いくつかの実施形態では、染色体のセットは、第13、第18、第22、X、およびY染色体を含む。いくつかの実施形態では、染色体のセットは、第13、第18、第22、X、およびY染色体からなる群から選択される。いくつかの実施形態では、本方法は、各遺伝子座が配列読み取りにおいて見出される頻度を計算することをさらに含む。
いくつかの実施形態では、配列読み取りを参照配列に位置合わせするための方法が提供される。本方法は、第1の感度パラメータセットを使用してバローズ-ホイーラー変換によって配列読み取りの集団全体からの第1の配列読み取りセットを参照配列に位置合わせすることであって、第1の感度パラメータセットが、配列読み取りのエラー率に基づいて選択される、第1の配列読み取りセットを参照配列に位置合わせすることと、配列読み取りの集団全体がマスキングされた配列読み取りおよびマスキングされていない配列読み取りのサブセットを含むように、第1の配列読み取りのセットをマスキングすることと、第2の感度パラメータセットを使用してバローズ-ホイーラー変換によってマスキングされていない配列読み取りからの第2の配列読み取りセットを参照配列に位置合わせすることであって、第2の感度パラメータセットが、第1の感度パラメータセットよりも高い感度をもたらす、第2の配列読み取りセットを参照配列に位置合わせすることと、第1の配列読み取りセットおよび第2の配列読み取りセットに基づいて、参照配列に対する配列読み取りの位置合わせを決定することと、を含むことができる。
いくつかの実施形態では、本方法は、さらなる配列読み取りセットを反復的にマスキングし、より高い感度をもたらす感度パラメータセットを有する各後続の読み取りセットと位置合わせすることと、さらなる配列読み取りセットとの配列読み取りの位置合わせを決定することと、をさらに含む。
いくつかの実施形態では、感度パラメータは、シード生成、連鎖およびフィルタリング、ならびに閾値処理からなる群から選択される。
いくつかの実施形態では、コンピュータ製品は、上記の方法のいずれかの動作を実行するようにコンピュータシステムを制御するための複数の命令を記憶するコンピュータ可読媒体を含む。
いくつかの実施形態では、システムは、上記コンピュータ製品と、コンピュータ可読媒体に記憶された命令を実行するための1つ以上のプロセッサとを含む。
いくつかの実施形態では、システムは、上記方法のいずれかを実行するための手段を含む。
いくつかの実施形態では、システムは、上記方法のいずれかを実行するように構成された1つ以上のプロセッサを含む。
いくつかの実施形態では、システムは、上記方法のいずれかのステップをそれぞれ実行するモジュールを含む。
本発明の新規の特徴は、以下の特許請求の範囲に具体的に記載されている。本発明の特徴および利点のより良い理解は、本発明の原理が利用される例示的な実施形態を説明する以下の詳細な説明、およびその添付の図面を参照することによって得られるであろう:
本発明の1つ以上の態様を実施するように構成されたコンピュータシステムの一実施形態を示すブロック図である。 一実施形態では、NIPT二次分析におけるサンプル読み取りが、目的の染色体上のユニーク遺伝子座(すなわち、第13、第18、第22、X、Y)に対応する短いNIPTインデックスのコンカテマーとすることができ、サンプル読み取り中のこれらのNIPTインデックスが、サンプル読み取り中のNIPTインデックスの頻度を決定するためにインデックスデータベースに位置合わせされることを示す。 多段階位置合わせプロセスの実施形態のフローチャートを示している。 従来のBWAアライナ(青色)と本明細書に記載の最適化されたアライナ(オレンジ色)の実施形態との間の重要なコスト/性能メトリックを比較している。
詳細な説明
ナノポアベースの配列決定システムは、感知チップ内に製造されるナノポアベースのセンサの数に応じて、膨大な量の長い読み取り配列決定データを生成することができる。いくつかの実施形態では、各感知チップは、ナノポアセンサをそれぞれ有する数百万個のセルを有することができる。ナノポアシーケンサを使用する1つの利点は、長い読み取りを生成する能力である。しかしながら、ナノポアシーケンサの現在の生の読み取り精度は、一般に、確立された短い読み取り技術(すなわち、99%を超える精度)よりも低い(すなわち、80から95%の間)。
ナノポアシーケンサの長い読み取り能力を利用するために、比較的短い標的配列を、ナノポアシーケンサで効率的に配列決定することができるより長い線形配列にコンカテマー化され得る。コンカテマーは、所望の精度(すなわち、例えば、99%、99.9%、または99.99%を超える)を有するコンセンサス配列を生成するために、ナノポアシーケンサによって並行して配列決定され得る。コンセンサス配列を生成するために、配列フラグメントが位置合わせされる必要がある。
位置合わせ方法およびシステムはナノポアシーケンサの文脈で説明されているが、他のタイプのシーケンシングデバイスによって生成された他の配列も、本明細書に記載の位置合わせ方法およびシステムを使用して位置合わせされ得る。例えば、本明細書に開示される方法での使用に適した配列アッセイの非限定的な例は、ナノポアシーケンシング(米国特許出願公開第2013/0244340号明細書、第2013/0264207号明細書、第2014/0134616号明細書、第2015/0119259号明細書および第2015/0337366号明細書)、サンガーシーケンシング、キャピラリーアレイシーケンシング、熱サイクルシーケンシング(Searsら、Biotechniques,13:626-633(1992))、固相シーケンシング(Zimmermanら、Methods Mol.Cell Biol.,3:39-42(1992))、マトリックス支援レーザー脱離/イオン化飛行時間型質量分析(MALDI-TOF/MS;Fuら、Nature Biotech.,16:381-384(1998))などの質量分析によるシーケンシング、ハイブリダイゼーションによるシーケンシング(Drmanacら、Nature Biotech.,16:54-58(1998)、限定されないが、合成によるシーケンシング(例えば、HiSeq(商標)、MiSeq(商標)、またはGenome Analyzer、それぞれIlluminaより入手可能)を含むNGS法、ライゲーションによるシーケンシング(例えば、SOLiD(商標)、Life Technologies)、イオン半導体シーケンシング(例えば、Ion Torrent(商標)、Life Technologies)、およびSMRT(登録商標)シーケンシング(例えば、Pacific Biosciences)を含む。
市販のシーケンシング技術は、Affymetrix Inc.(カリフォルニア州サニーベール)のハイブリダイゼーションによるシーケンシングプラットフォーム、Illumina/Solexa(カリフォルニア州サンディエゴ)およびHelicos Biosciences(マサチューセッツ州ケンブリッジ)の合成によるシーケンシングプラットフォーム、Applied Biosystems(カリフォルニア州フォスターシティ)のライゲーションによるシーケンシングプラットフォームを含む。他のシーケンシング技術は、限定されないが、Ion Torrent技術(ThermoFisher Scientific)、およびナノポアシーケンシング(カリフォルニア州サンタクララのRoche Sequencing SolutionsのGenia Technology)およびOxford Nanopore Technologies(英国オックスフォード)を含む。
位置合わせ分析は、新たなトピックではないが、特定の配列決定用途は課題を提示する。例えば、非侵襲的出生前検診(NIPT)アッセイは、バイオインフォマティクスの世界では十分に開発されていない症例を提示する。長い読み取り配列およびノイズの多い読み取り配列(一実施形態では、1000~5000塩基対および10~20%のエラーを有するコンカテマーナノポア読み取り)からの短いモチーフ、例えば、一実施形態の40塩基対のNIPTインデックスの同定は、計算時間/リソースの制約ならびにアッセイの厳密な感度および特異性要件の双方を満たす必要があるため、アルゴリズム設計に対する新たな考慮事項である。ほとんどの既存の位置合わせツールおよび方法は、低いエラー率(例えば、Illuminaシーケンサ)で配列決定される短いモチーフおよび高いエラー率(例えば、Pacific Bioscienceシーケンサ)を有する長いモチーフのために設計されている:実際には、短いモチーフおよび高いエラー率のNIPTアッセイのユースケースは、正確にはこれらのアプローチの弱点であり、感度、計算リソースまたはその双方の点で不利である。
具体的な検討として、ゲノムアライナは、ごく少数の非常に長い参照配列(例えば、数百万塩基対の染色体)のみが位置合わせ標的として使用され、各読み取り配列が単一の標的遺伝子座に一意的に位置合わせされることが予想される場合のために設計される。対照的に、一実施形態では、NIPTアッセイは、人工的な短い配列モチーフ(NIPTインデックス)を有する生物学的サンプルをプローブし、それらを制限酵素(すなわちPstl)で切断し、それらを、非ゲノムの短いオリゴを含有する長いテンプレート(すなわち、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、または1000塩基を超える)に連結し、そのテンプレートを長い高エラー読み取り(すなわち、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20%)として配列決定する。NIPTアッセイは、5000を超える非常に短い参照配列(40塩基対のNIPTインデックス)を有することができ、各コンカテマーの読み取り配列は、図2に示すように、非重複セグメントのセットとして、最大20%のエラー率で複数の標的に位置合わせする。二次分析の目的は、コンカテマー読み取りにおいてそれらのインデックスを同定すること、すなわち所与の患者サンプルにおける各データベースインデックスの頻度を見出すことである。次いで、インデックス頻度は、染色体頻度から統計モデルを構築し、スクリーニング検査結果(確率)、臨床医への推奨などを確立する三次分析モジュール(すなわち、「Forte」)に送られる。
同様の理由、ならびにノイズ耐性が低いことは、他のクラスの位置合わせ問題をカバーする分析ツールにも適用可能であり、特定のタイプのシーケンシングベースのアッセイで見られる位置合わせ問題のタイプに適合しないかまたは最適ではない。例えば、短いモチーフ、および明確に定義されたグラウンドトゥルース(例えば、可能性のある対立遺伝子多型および/またはゲノム分析に典型的な他の不一致のない5000+標的NIPTインデックスのセット)は、このタイプの問題を、例えば配列k-merシーディング/ハッシングを使用する位置合わせのないアプローチに一見適したものにする。しかしながら、読み取りにおける高いノイズの存在は、高い感度を維持するために非常に短いk-mer長を必要とするであろう。例えば、内部データは、実際には、k-mer長を4塩基対から5塩基対に変更すると、読み取りエラー率に応じて、10%以上の感度の喪失をもたらし得ることを示した。短い(より短い)k-merもまた、さらなる計算負荷を生じる(典型的には複雑度はO(n)であり、式中、nはk-merの数であり、k-merの長さに反比例する)。
本発明者らは、各段階が、次の段階において分析されるデータの量を徐々に減少させるが、前の段階から受け取った残りのデータに対する検索の網羅性を高める、多段階二次分析を利用する新規な位置合わせ方法を着想した。このようにして、初期段階において最初の大きなデータプールからノイズの少ない位置合わせが迅速に同定され得る一方で、計算の後期段階において小さなデータプールから非常にノイズの多い位置合わせが同様に迅速に同定することができ、したがって、全体の計算時間を短縮しながら目標感度を維持することができる。
本発明者らは、位置合わせ方法のナイーブで最適化されていない実装が追加の補助データ/計算コスト(位置合わせ方法の利点を否定する)および下流の処理との潜在的な非互換性をもたらすことを示したため、位置合わせ方法は自明でない計算実装を必要とすることを見出した。
これら全てに対処するために、本発明者らは、Apacheライセンスの下で十分に確立されたオープンソースのゲノム位置合わせツールである業界標準のBWA-MEMに対する高度に最適化された簡潔な拡張として、本発明者らの位置合わせ方法を実装した。本発明者らは、そのコアアルゴリズム、データ構造およびコンテキスト依存最適化を変更および調整して、NIPTアッセイのために手元にあった位置合わせ問題の固有の性質に適合させなければならなかった。また、多段階分析機能に対応するために、その全体的なインフラストラクチャを変更する必要があった。より具体的には、BWA-MEMの以下の部分が変更または調整された:コアアルゴリズム(シード生成、連鎖およびフィルタリング、閾値処理など)、データ構造(読み取り、参照、位置合わせ情報、SAM記録、縮小I/O)、メモリ使用量およびアクセスパターン(I/Oバッファリング、アレイ作成および伝播)、ならびに実行フローの全体的なインフラストラクチャおよび論理(多段階分析機能に対応するために、BWAに新たな反復位置合わせ手順を追加し、本発明者らは、反復固有のパラメータ作成、チェックポインティングなどを追加した)。BWA-MEMの修正および最適化されたワークフローのフローチャートを図3に示す。
例えば、いくつかの実施形態では、シードパラメータは、19塩基または塩基対kmer(すなわち、BWA-MEMのデフォルト)から4塩基または塩基対kmerに減少する。縮小されたkmerのサイズは、エラー率に基づく。配列読み取りのエラー率が減少する場合、シード長が増加されて計算時間を短縮することができる。第2のパスのシードサイズと比較して増加した第1のパスのシードサイズは、第1のパスがNIPTインデックスと一致するオリゴ配列を迅速に同定することを可能にし(しかしながら、より低い感度を有する)、これは、これらの配列を位置合わせされていない配列プールから除去することを可能にし、これは、より小さいシードサイズ(シード生成、連鎖およびフィルタリング、閾値処理など)などの次のパスでより高い感度パラメータを使用して処理され得る。シーディングのプロセスは、kmerを整数値(すなわち、各塩基タイプは特定の値を有し、kmerは塩基値の合計である)に変換することを含む。これらの整数値は、kmerストリング自体を一致させようとするよりも、参照NIPTインデックスからの対応するkmer整数値とはるかに容易且つ迅速に比較され得る。
シード生成とともに、性能を改善するために連鎖が調整され得る。連鎖は、重なり合うシードまたは同一直線上にあり互いに近接しているシードである、鎖と呼ばれるシードの群を見出すプロセスである。鎖は、ハトホール法または貪欲クラスタリングアルゴリズムなどの様々なグルーピングアルゴリズムによって同定され得る。
このプロジェクトは、我々がおそらく今日最も人気のあるバイオインフォマティクスツールのための新規な用途を開発したため、エキサイティングであった。このプロジェクトの重要性は、ナノポアシーケンシングベースのNIPTアッセイ二次分析を迅速に完了させる(すなわち、1、2、3、4、5、または6時間未満)ことが可能になったという事実にある。また、実質的にあらゆる種類のコモディティハードウェアの分析も可能にし、非常に高価なハイエンドのコンピューティングハードウェアの初期プロジェクトの見積りとは全く対照的であった。
このプロジェクトでの作業はまた、短いおよびノイズの多いモチーフを有する長い読み取りを利用することができるが、高度に最適化されたツールおよびアルゴリズム、例えばRNA-seqアイソフォームにおけるスプライスバリアントイベントの推論、メタトランスクリプトミクスなどがない他の領域(すなわち、配列決定に基づくアッセイ)における同様のアルゴリズムアプローチの基礎を成す。
最適化された位置合わせ方法の影響の1つは、最終製品の直接的なコスト削減である。NIPTアッセイの二次分析に必要なハードウェア構成の最適化前の初期の見積りは、256~512GBのRAMおよび32~40個のCPUコアを有する計算ワークステーションを予測することであった。最適化された位置合わせ方法は、計算時間を2倍短縮し(CPUコアの削減)、予想されるRAMメモリ使用量を98%削減した。正確なコスト削減の影響を見積もることは困難であるが、設置された各構成ごとに数万ドルであり、潜在的にコンピューティングハードウェアコストの最大50%を節約すると言ってもよい。
第2の影響は、計算時間の短縮である。計算時間を短縮することにより、実行サイクルごとの分析を1時間の時間配分に適合させることも可能であり、その結果、機器が次の実行サイクルをシーケンシングしている間に前の実行サイクルの二次分析が実行され得、シーケンシング実験完了後1時間以内に二次実行分析結果を効果的に作成することができた。この重要な製品要件は実現可能ではなく、以前の最適化されていない手法ではリスクがあった。
本明細書に記載の位置合わせ方法は、長い高エラー読み取りから短いモチーフを同定するのに特に適している。いくつかの実施形態では、短いモチーフは、約50、60、70、80、90、100、200、300、400、500、600、700、800、900または1000塩基または塩基対未満である。いくつかの実施形態では、高エラー読み取りは、約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19または20%を超えるエラー率を有する生読み取りである。いくつかの実施形態では、長い読み取りは、少なくとも100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000または10000個の塩基または塩基対を有する。いくつかの実施形態では、アルゴリズムは、シーケンサの出力に依存して、より短い長さの高エラー読み取りに適用され得る。例えば、より短い読み取りは、1000、900、800、700、600または500塩基未満とすることができる。
本明細書に記載の位置合わせ方法およびアルゴリズムは、コンピュータシステム上で実装され得る。例えば、図1は、本発明の1つ以上の態様を実装するように構成されたコンピュータシステム100の一実施形態を示すブロック図である。図示のように、コンピュータシステム100は、限定されないが、メモリブリッジ105および通信経路113を介して並列処理サブシステム112に結合された中央処理装置(CPU)102およびシステムメモリ104を含む。メモリブリッジ105は、通信経路106を介してI/O(入力/出力)ブリッジ107にさらに結合され、I/Oブリッジ107は、同様にスイッチ116に結合される。
動作中、I/Oブリッジ107は、入力装置108(例えば、キーボード、マウス、ビデオ/画像キャプチャ装置など)からユーザ入力情報を受信し、通信経路106およびメモリブリッジ105を介して処理するために入力情報をCPU102に転送するように構成される。いくつかの実施形態では、入力情報は、物体検出動作が実行されるデジタル記憶媒体に記憶されたカメラ/画像キャプチャ装置からのライブフィードまたはビデオデータである。スイッチ116は、I/Oブリッジ107と、ネットワークアダプタ118ならびに様々なアドインカード120および121などのコンピュータシステム100の他の構成要素との間の接続を提供するように構成される。
同様に示されるように、I/Oブリッジ107は、CPU102および並列処理サブシステム112によって使用されるコンテンツおよびアプリケーションおよびデータを記憶するように構成され得るシステムディスク114に結合される。一般的な問題として、システムディスク114は、アプリケーションおよびデータのための不揮発性記憶装置を提供し、固定または取り外し可能なハードディスクドライブ、フラッシュメモリ装置、およびCD-ROM(コンパクトディスク読み出し専用メモリ)、DVD-ROM(デジタル多用途ディスク-ROM)、ブルーレイ、HD-DVD(高精細DVD)、または他の磁気、光学、もしくは固体記憶装置を含むことができる。最後に、明示的に示されていないが、ユニバーサルシリアルバスまたは他のポート接続、コンパクトディスクドライブ、デジタル多用途ディスクドライブ、フィルム記録装置などの他の構成要素もI/Oブリッジ107に接続され得る。
様々な実施形態では、メモリブリッジ105は、ノースブリッジチップであってもよく、I/Oブリッジ107は、サウスブリッジチップであってもよい。さらに、通信経路106および113、ならびにコンピュータシステム100内の他の通信経路は、限定されないが、AGP(Accelerated Graphics Port)、HyperTransport、または当該技術分野で知られている任意の他のバスもしくはポイントツーポイント通信プロトコルを含む、任意の技術的に適切なプロトコルを使用して実装されてもよい。
いくつかの実施形態では、並列処理サブシステム112は、任意の従来の陰極線管、液晶ディスプレイ、発光ダイオードディスプレイなどとすることができる表示装置110に画素を供給するグラフィックスサブシステムを含む。そのような実施形態では、並列処理サブシステム112は、例えばビデオ出力回路を含む、グラフィックおよびビデオ処理に最適化された回路を組み込む。そのような回路は、並列処理サブシステム112内に含まれる1つ以上の並列処理ユニット(PPU)にわたって組み込まれてもよい。他の実施形態では、並列処理サブシステム112は、汎用および/または計算処理に最適化された回路を組み込む。同様に、そのような回路は、そのような汎用および/または計算動作を実行するように構成された並列処理サブシステム112内に含まれる1つ以上のPPUにわたって組み込まれてもよい。さらに他の実施形態では、並列処理サブシステム112内に含まれる1つ以上のPPUは、グラフィックス処理、汎用処理、および計算処理動作を実行するように構成されてもよい。システムメモリ104は、並列処理サブシステム112内の1つ以上のPPUの処理動作を管理するように構成された少なくとも1つのデバイスドライバ103を含む。システムメモリ104はまた、CPU102上で実行され、PPUの動作を制御するコマンドを発行することができるソフトウェアアプリケーション125を含む。
様々な実施形態では、並列処理サブシステム112は、図1の1つ以上の他の要素と統合されて単一のシステムを形成してもよい。例えば、並列処理サブシステム112は、単一チップ上のCPU102および他の接続回路と統合されて、システムオンチップ(SoC)を形成することができる。
本明細書に示されるシステムは例示的なものであり、変形および変更が可能であることが理解されよう。ブリッジの数および配置、CPU102の数、および並列処理サブシステム112の数を含む接続トポロジは、必要に応じて変更されてもよい。例えば、いくつかの実施形態では、システムメモリ104は、メモリブリッジ105を介さずに直接CPU102に接続することができ、他の装置は、メモリブリッジ105およびCPU102を介してシステムメモリ104と通信する。他の代替的なトポロジでは、並列処理サブシステム112は、I/Oブリッジ107に、またはメモリブリッジ105ではなくCPU102に直接接続されてもよい。さらに他の実施形態では、I/Oブリッジ107およびメモリブリッジ105は、1つ以上の個別の装置として存在する代わりに、単一チップに統合されてもよい。最後に、特定の実施形態では、図1に示す1つ以上の構成要素は存在しなくてもよい。例えば、スイッチ116は排除することができ、ネットワークアダプタ118およびアドインカード120、121は、I/Oブリッジ107に直接接続する。
図4は、サンノゼのテストケース20180503_uzuki_000001_WSK18R04C8_L03を処理するためにRSS-SC1クラスタのvhmemハードウェア上で実行される従来のBWA(青色)とv0.4マルチステージアライナ(オレンジ色)との間の重要なコスト/性能メトリックを比較する。コスト(最初の5つのバー)は大幅に削減されるが、完全性(最後の4つのバー)は同等である。
特徴または要素が本明細書で別の特徴または要素「上」にあると言及される場合、それは、他の特徴または要素上に直接存在することができ、または介在する特徴および/または要素も存在してもよい。対照的に、特徴または要素が別の特徴または要素に「直接」あると言及される場合、介在する特徴または要素は存在しない。特徴または要素が別の特徴または要素に「接続され」、「取り付けられ」または「結合され」と言及される場合、それは他の特徴または要素に直接接続され、取り付けられ、または結合されることも可能であり、または介在する特徴または要素が存在し得ることも理解されよう。対照的に、特徴または要素が別の特徴または要素に「直接接続されている」、「直接接続されている」、または「直接結合されている」と言及される場合、介在する特徴または要素は存在しない。一実施形態に関して説明または示されているが、そのように説明または示されている特徴および要素は、他の実施形態に適用することができる。別の特徴に「隣接して」配置された構造または特徴への言及は、隣接する特徴と重複するか、またはその下にある部分を有することができることも当業者には理解されるであろう。
本明細書に使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することは意図されていない。例えば、本明細書で使用される場合、単数形「a」、「an」および「the」は、文脈が明らかに他のことを示さない限り、複数形も含むことを意図している。本明細書で使用される場合、「備える(comprises)」および/または「備える(comprising)」という用語は、記載された特徴、ステップ、動作、要素、および/または構成要素の存在を指定するが、1つ以上の他の特徴、ステップ、動作、要素、構成要素、および/またはそれらのグループの存在または追加を排除するものではないことがさらに理解される。本明細書で使用される場合、「および/または」という用語は、関連するリストされた項目の1つ以上のありとあらゆる組み合わせを含み、「/」と省略され得る。
「下(under)」、「下(below)」、「下(lower)」、「上(over)」、「上(upper)」などのような空間的に相対的な用語は、説明を容易にするために、ある要素または特徴と別の要素または図に示されている特徴との関係を説明するために本明細書において使用され得る。空間的に相対的な用語は、図に示されている方向に加えて、使用中または動作中の装置の異なる方向を包含することを意図していることが理解されよう。例えば、図の装置が裏返されている場合、他の要素または特徴の「下(under)」または「下方(beneath)」として記述されている要素は、他の要素または特徴の「上方(over)」になる。したがって、「下(under)」という例示的な用語は、上と下の双方の方向を包含することができる。装置は、他の方法で方向付けられてもよく(例えば、90度回転または他の方向に)、本明細書で使用される空間的に相対的な記述子がそれに応じて解釈されてもよい。同様に、「上向き(upwardly)」、「下向き(downwardly)」、「垂直(vertical)」、「水平(horizontal)」などの用語は、特に明記しない限り、説明の目的でのみ本明細書で使用される。
「第1」および「第2」という用語は、本明細書では様々な特徴/要素(ステップを含む)を説明するために使用され得るが、文脈が別段の指示をしない限り、これらの特徴/要素はこれらの用語によって制限されるべきではない。これらの用語は、ある特徴/要素を別の特徴/要素から区別するために使用される場合がある。したがって、以下に記載される第1の特徴/要素は、第2の特徴/要素と呼ぶことができ、同様に、以下に記載される第2の特徴/要素は、本発明の教示から逸脱することなく、第1の特徴/要素と呼ぶことができる。
本明細書および以下の特許請求の範囲を通じて、文脈上別段の定めがない限り、「備える(comprise)」という単語、および「備える(comprises)」および「備える(comprising)」などの変形は、方法および物品(例えば、組成物ならびに装置および方法を含む装置)において共同で使用され得ることを意味する。例えば、用語「備える(comprising)」は、ここに記されるいずれの要素またはステップを含むことを暗示するが、いずれの他の要素またはステップを除外することを含まない、と理解される。
実施例で使用されるものを含め、本明細書で本明細書および特許請求の範囲で使用される場合、特に明示的に指定されない限り、全ての数は、その用語が明示的に表示されない場合でも、「約」または「およそ」という単語で始まるかのように読むことができる。「約」または「およそ」という句は、大きさおよび/または位置を説明するときに使用されて、説明される値および/または位置が値および/または位置の合理的な予想範囲内にあることを示すことができる。例えば、数値は、記載された値(または値の範囲)の+/-0.1%、記載された値(または値の範囲)の+/-1%、記載された値(または値の範囲)の+/-2%の値、記載された値(または値の範囲)の+/-5%、記載された値(または値の範囲)の+/-10%などを有することができる。本明細書で与えられる数値はまた、文脈が別段の指示をしない限り、約その値またはおよそその値を含むと理解されるべきである。例えば、値「10」が開示されている場合、「約10」も開示されている。本明細書に記載されている任意の数値範囲は、そこに含まれる全てのサブ範囲を含むことを意図している。また、当業者が適切に理解するように、値が「以下」であると開示される場合、「値以上」および値間の可能な範囲も開示されることも理解される。例えば、値「X」が開示される場合、「X以下」ならびに「X以上」(例えば、Xは数値である)も開示される。また、本特許出願全体で、データは多くの様々な形式で提供され、このデータは、終了点と開始点、およびデータポイントの任意の組み合わせの範囲を表すことも理解される。例えば、特定のデータポイント「10」および特定のデータポイント「15」が開示される場合、10および15よりも大きい、それ以上、それよりも小さい、それ以下、およびそれに等しいことが、10から15の間とともに開示されていると見なされることが理解される。2つの特定のユニット間の各ユニットもまた開示されていることも理解される。例えば、10と15が開示されている場合、11、12、13、および14も開示される。
様々な例示的な実施形態が上に記載されているが、特許請求の範囲に記載されているように、本発明の範囲から逸脱することなく、様々な実施形態にいくつかの変更を加えることができる。例えば、記載された様々な方法ステップが実行される順序は、代替の実施形態ではしばしば変更されることがあり、他の代替の実施形態では、1つ以上の方法ステップが完全にスキップされることがある。様々な装置およびシステムの実施形態の任意の特徴は、いくつかの実施形態には含めてもよく、他の実施形態には含めなくてもよい。したがって、前述の説明は、主に例示的な目的で提供されており、特許請求の範囲に記載されているように、本発明の範囲を限定するものと解釈されるべきではない。
本明細書に含まれる例および図は、限定ではなく例示として、主題が実施され得る特定の実施形態を示している。前述のように、他の実施形態を利用してそこから導き出すことができ、その結果、本開示の範囲から逸脱することなく、構造的および論理的な置換および変更を行うことができる。本発明の主題のそのような実施形態は、複数のものが実際に開示されている場合、単に便宜のために、そして本特許出願の範囲を任意の単一の発明または発明の概念に自発的に限定することを意図することなく、本明細書において個別にまたは集合的に「発明」という用語によって言及され得る。したがって、特定の実施形態が本明細書で例示および説明されてきたが、同じ目的を達成するために計算された任意の構成は、示された特定の実施形態の代わりに使用され得る。本開示は、様々な実施形態のありとあらゆる適応または変形を包含することを意図している。上記の実施形態、および本明細書に具体的に記載されていない他の実施形態の組み合わせは、上記の説明を検討すると、当業者にとって明らかであろう。

Claims (20)

  1. 配列読み取りを参照配列に位置合わせするための方法であって、
    第1のシード長を使用してバローズ-ホイーラー変換によって配列読み取りの集団全体からの第1の配列読み取りセットを参照配列に位置合わせすることであって、ここで、前記第1のシード長が、前記配列読み取りのエラー率に基づいて選択されるものである、
    前記配列読み取りの集団全体がマスキングされた配列読み取りおよびマスキングされていない配列読み取りのサブセットを含むように、前記第1の配列読み取りのセットをマスキングすること、
    第2のシード長を使用して前記バローズ-ホイーラー変換によって前記マスキングされていない配列読み取りからの第2の配列読み取りセットを前記参照配列に位置合わせすること、ここで、前記第2のシード長が前記第1のシード長よりも短いものである、および、
    前記第1の配列読み取りセットおよび前記第2の配列読み取りセットに基づいて、前記参照配列に対する前記配列読み取りの位置合わせを決定すること、
    を含む、前記方法。
  2. さらなる配列読み取りセットを反復的にマスキングし、より短いシード長を有する各後続の読み取りセットと位置合わせすることと、前記さらなる配列読み取りセットとの前記配列読み取りの位置合わせを決定することと、をさらに含む、請求項1に記載の方法。
  3. 前記第1のシード長が10塩基未満である、請求項1に記載の方法。
  4. 前記第1のシード長が5塩基未満である、請求項1に記載の方法。
  5. 前記第1のシード長が4塩基である、請求項1に記載の方法。
  6. 前記配列読み取りの前記エラー率が少なくとも5%である、請求項1に記載の方法。
  7. 前記配列読み取りの前記エラー率が少なくとも10%である、請求項1に記載の方法。
  8. 前記配列読み取りの前記エラー率が少なくとも15%である、請求項1に記載の方法。
  9. 前記配列読み取りが、複数のコンカテマーから配列決定され、各コンカテマーが、互いに連結されたオリゴヌクレオチド配列から形成され、前記オリゴヌクレオチド配列が、染色体のセットからの複数の遺伝子座に対応する、請求項1に記載の方法。
  10. 前記染色体のセットが、第13、第18、第22、X、およびY染色体を含む、請求項9に記載の方法。
  11. 前記染色体のセットが、第13、第18、第22、X、およびY染色体からなる群から選択される、請求項9に記載の方法。
  12. 各遺伝子座が前記配列読み取りにおいて見出される頻度を計算することをさらに含む、請求項9に記載の方法。
  13. 配列読み取りを参照配列に位置合わせするための方法であって、
    第1の感度パラメータセットを使用してバローズ-ホイーラー変換によって配列読み取りの集団全体からの第1の配列読み取りセットを参照配列に位置合わせすること、ここで、前記第1の感度パラメータセットが、前記配列読み取りのエラー率に基づいて選択されるものである、
    前記配列読み取りの集団全体がマスキングされた配列読み取りおよびマスキングされていない配列読み取りのサブセットを含むように、前記第1の配列読み取りのセットをマスキングすること、
    第2の感度パラメータセットを使用して前記バローズ-ホイーラー変換によって前記マスキングされていない配列読み取りからの第2の配列読み取りセットを前記参照配列に位置合わせすること、ここで、前記第2の感度パラメータセットが、前記第1の感度パラメータセットよりも高い感度をもたらすものである、および、
    前記第1の配列読み取りセットおよび前記第2の配列読み取りセットに基づいて、前記参照配列に対する前記配列読み取りの位置合わせを決定すること
    を含む、前記方法。
  14. さらなる配列読み取りセットを反復的にマスキングし、より高い感度をもたらす感度パラメータセットを有する各後続の読み取りセットと位置合わせすることと、前記さらなる配列読み取りセットとの前記配列読み取りの位置合わせを決定することと、をさらに含む、請求項13に記載の方法。
  15. 前記感度パラメータが、シード生成、連鎖およびフィルタリング、ならびに閾値処理からなる群から選択される、請求項13に記載の方法。
  16. 請求項1~15のいずれか一項に記載の方法の動作を実行するようにコンピュータシステムを制御するための複数の命令を記憶するコンピュータ可読媒体を含む、コンピュータ製品。
  17. 請求項16に記載のコンピュータ製品と、
    前記コンピュータ可読媒体に記憶された命令を実行するための1つ以上のプロセッサと、を備える、システム。
  18. 請求項1~15のいずれか一項に記載の方法を実行するための手段を備えるシステム。
  19. 請求項1~15のいずれか一項に記載の方法を実行するように構成された1つ以上のプロセッサを備えるシステム。
  20. 請求項1~15のいずれか一項に記載の方法のステップをそれぞれ実行するモジュールを備えるシステム。
JP2022572640A 2020-05-28 2021-05-26 高エラー単一分子読み取りにおいて短いモチーフを同定するための配列位置合わせシステムおよび方法 Pending JP2023529321A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063030931P 2020-05-28 2020-05-28
US63/030,931 2020-05-28
PCT/EP2021/064094 WO2021239834A1 (en) 2020-05-28 2021-05-26 Sequence alignment systems and methods to identify short motifs in high-error single-molecule reads

Publications (1)

Publication Number Publication Date
JP2023529321A true JP2023529321A (ja) 2023-07-10

Family

ID=76250322

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022572640A Pending JP2023529321A (ja) 2020-05-28 2021-05-26 高エラー単一分子読み取りにおいて短いモチーフを同定するための配列位置合わせシステムおよび方法

Country Status (5)

Country Link
US (1) US20230085949A1 (ja)
EP (1) EP4158062A1 (ja)
JP (1) JP2023529321A (ja)
CN (1) CN115698330A (ja)
WO (1) WO2021239834A1 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2641871T3 (es) 2010-12-17 2017-11-14 The Trustees Of Columbia University In The City Of New York Secuenciación de ADN mediante síntesis usando nucleótidos modificados y detección con nanoporos
CN104254771B (zh) 2012-01-20 2018-01-12 吉尼亚科技公司 基于纳米孔的分子检测与测序
JP6178805B2 (ja) 2012-02-16 2017-08-09 ジニア テクノロジーズ, インコーポレイテッド ナノ細孔センサーとともに使用するための二重層を作製するための方法
ES2779699T3 (es) 2012-06-20 2020-08-18 Univ Columbia Secuenciación de ácidos nucleicos mediante detección en nanoporos de moléculas de etiqueta
US9605309B2 (en) 2012-11-09 2017-03-28 Genia Technologies, Inc. Nucleic acid sequencing using tags
US10847251B2 (en) * 2013-01-17 2020-11-24 Illumina, Inc. Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis
BR112018014086A2 (pt) * 2016-01-11 2018-12-11 Edico Genome Corp ?infraestrutura genômica para processamento e análise de dna ou rna no local ou baseados em nuvem, plataforma de análise genômica e sistema?

Also Published As

Publication number Publication date
CN115698330A (zh) 2023-02-03
US20230085949A1 (en) 2023-03-23
WO2021239834A1 (en) 2021-12-02
EP4158062A1 (en) 2023-04-05

Similar Documents

Publication Publication Date Title
US11697835B2 (en) Systems and methods for epigenetic analysis
US20230357842A1 (en) Systems and methods for mitochondrial analysis
US10262102B2 (en) Systems and methods for genotyping with graph reference
Nawrocki et al. Query-dependent banding (QDB) for faster RNA similarity searches
US10192026B2 (en) Systems and methods for genomic pattern analysis
JP2017500004A (ja) 遺伝子試料について遺伝子型解析するための方法およびシステム
Corney RNA-seq using next generation sequencing
US20180247012A1 (en) Bioinformatics data processing systems
US20150169823A1 (en) String graph assembly for polyploid genomes
KR102425673B1 (ko) 시퀀싱 데이터 리드 재정렬 방법
Wu et al. REDO: RNA editing detection in plant organelles based on variant calling results
Wright et al. Preprocessing and quality control for whole-genome sequences from the Illumina HiSeq X platform
Zhao et al. Multitrans: an algorithm for path extraction through mixed integer linear programming for transcriptome assembly
Park et al. Detecting tandem repeat variants in coding regions using code-adVNTR
JP2023529321A (ja) 高エラー単一分子読み取りにおいて短いモチーフを同定するための配列位置合わせシステムおよび方法
Hu et al. Analysis of sequencing data for probing RNA secondary structures and protein–RNA binding in studying posttranscriptional regulations
Gaur et al. A survey of bioinformatics-based tools in RNA-sequencing (RNA-seq) data analysis
Pavlovich et al. Sequences to Differences in Gene Expression: Analysis of RNA-Seq Data
Harrath et al. Comparative evaluation of short read alignment tools for next generation DNA sequencing
Li et al. De novo assembly of transcriptome from next‐generation sequencing data
JP7520978B2 (ja) 次世代シーケンシングサンプルにおける汚染検出のためのシステムおよび方法
WO2021245926A1 (ja) 情報処理プログラム、情報処理方法および情報処理装置
Canzar et al. Computational Methods for Transcript Assembly from RNA‐SEQ Reads
Copeland Computational Analysis of High-replicate RNA-seq Data in Saccharomyces Cerevisiae: Searching for New Genomic Features
Ning et al. Next‐Generation Sequencing Technologies and the Assembly of Short Reads into Reference Genome Sequences

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240409