JP6141310B2 - 強固な変異体特定および検証 - Google Patents

強固な変異体特定および検証 Download PDF

Info

Publication number
JP6141310B2
JP6141310B2 JP2014545409A JP2014545409A JP6141310B2 JP 6141310 B2 JP6141310 B2 JP 6141310B2 JP 2014545409 A JP2014545409 A JP 2014545409A JP 2014545409 A JP2014545409 A JP 2014545409A JP 6141310 B2 JP6141310 B2 JP 6141310B2
Authority
JP
Japan
Prior art keywords
lead
sequencing
gene sequence
characteristic
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014545409A
Other languages
English (en)
Other versions
JP2015501987A (ja
Inventor
クマル,スニル
シン,ランディープ
チャクラバルティ,ビスワループ
クマル,スボード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2015501987A publication Critical patent/JP2015501987A/ja
Application granted granted Critical
Publication of JP6141310B2 publication Critical patent/JP6141310B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

以下は遺伝子解析技術に関し、また医療技術、獣医学技術、腫瘍学技術などの、その応用分野に関する。
遺伝子解析には、腫瘍学および様々な遺伝学的に関連する疾病など、多数の医学および獣医学の分野に用途が見出される。従来、臨床研究は、特定の癌または疾病と相互にその存在が関係する遺伝子変異体を特定するために行われている。このような変異体には、例示的なものとして、一塩基多型(SNP)、挿入または欠失(インデル)、コピー数多型(CNV)、染色体異常または再配置などが含まれうる。
遺伝子解析は通常、以下の作業を伴う。組織試料を患者から採取および処理し、シークエンサーの中にロードする。この装置は、長さが通常は数ダースから数百塩基程度の遺伝子配列の短い部分を表す配列決定「リード(read)」を生成する。配列決定リードをフィルタリングして、重複するリードを破棄し、容認できないほど低いカバー度、および/または、例えばphred塩基クオリティ・スコアで測定された容認できないほど低い塩基クオリティを有するリードがあれば除去する。20未満のphredスコアが一般に、リードを破棄する基準として用いられる。残りのリードを組み立てて、整列された遺伝子配列を生成する。この組立ては、配列決定リードの重なり合う部分を整列することに基づいて新規とすることができ、あるいは、ある一定の割合(例えば、5〜10%)の塩基ミスマッチを許容しながら、配列決定リードを参照配列にマッピングすることに基づくことができる。組み立てられた遺伝子配列を参照配列(場合により、マッピングによる組立てで使用されたものと同じ参照配列)と比較することによって変異体を検出し、また組み立てられた遺伝子配列に注釈を付けて、変異体およびその臨床的重要性(変異体−疾病相関情報が入手可能である場合)を特定する。配列決定または計算のエラーを(少しでもあるとしたら)検出する/特徴付けるために検証を行う。遺伝子解析の出力を記述する医療報告書を生成する。この医療報告書は、遺伝学に精通していない可能性のある治療医師が容易に理解できるという観点で書かれることが好ましく、また検証結果に関連する情報を含まなければならない。
このような解析における重要な作業は、変異体特定すなわち「コーリング(calling)」である。これは、検出された変異体を評価して、その変異体が患者のゲノム内に実際に存在するのか、それともそうではなく、配列決定および/または組立て処理の際のアーティファクトまたはエラーであるのかを特定する作業である。通常、変異体コーリングは、ヌクレオチド塩基クオリティおよびカバー度に基づいて行われる。塩基クオリティは一般に、phredのようなクオリティ・スコアで測定される。サンガー配列決定の場合、分光写真データからピーク形状および分解能などの配列塩基のパラメータを計算し、かつこれらの値を実験的に開発されたルックアップテーブルと比較することによって、phredクオリティ・スコアを計算する。phredスコアは一般に、塩基が不正確にコールされた確率と対数的関係があると考えられる。例えば、Q=20のphredスコア(Q)は99%塩基コール精度に対応し、Q=30は99.9%精度に対応し、Q=40は99.99%精度に対応する等である。カバー度は、読取りの数の計量であり、乗数の形で表されることが多い。例えば、8×のカバー度は、平均して、あるヌクレオチドが配列決定時に8回読み取られたことを示す。一般に、カバー度は冗長度を示すので、高いカバー度は高いリード信頼度に対応する。
いわゆる「次世代」配列決定(NGS)手法では、スループットを何倍も向上させる並列処理技法を使用する。従来のphredスコア計算は一般に、NGS技法には適用できないが、ほとんどのNGSプラットフォームでは、分光写真データから計算された従来のphredスコアと比較可能な、またはスケーリングされる「phredのような」塩基クオリティ・スコアを生成する。しかし、NGS技法は一般に、サンガー配列決定などの旧来の技法よりも信頼度が低いと考えられている。NGSの信頼度を向上させるために、その出力は通常、サンガー配列決定、エクソーム捕獲、遺伝子型同定アレイなどの技法を使用して検証される。NGSとこれら旧来の技法のスループットスケールが異なるので、検証は通常、(ずっと大きい)NGS出力のランダムに選択されたいくつかのターゲット部分に対して行われる。
NGSは、そのスループットが高いことにより臨床応用分野で魅力的なものになっている。しかし、医学的処置の決定が臨床NGS結果に基づくので、臨床応用分野ではまた、高い信頼度も必要とされる。したがって、以前の技法と比較してNGSの信頼度が低いことにより、NGSを臨床環境で応用することが困難になっている。
Y.Shen他、Genome Research、vol.20、no.2、2010年2月1日、273〜280頁は、系統的配列決定エラーを明らかにするのにロジスティック回帰法および標準スコアを使用して、次世代再配列決定データにより変異体対立遺伝子確率を評価するSNP発見方法に関する。
Matukumalli L.K.他、BMC Bioinformatics、BioMed Central、London、GB、Vol.7、No.1、2006年1月6日、1〜9頁は、SNP発見における機械学習に関する。ある特定の機械学習プログラムが、決定木に基づいて使用されてきた。MLプログラムでは、配列深さ、変位型および塩基頻度などの特徴のセットに基づいて分類子を作り出すことが報告されている。
以下では、前述の制限その他を克服する改善された装置および方法を企図する。
一態様によれば、当該方法は、整列された配列決定リードを含む組み立てられた遺伝子配列中の可能性がある変異体を特定するステップと、組み立てられた遺伝子配列の配列決定リードについて複数のリード特性の値を計算するステップと、受入れ基準を満たす可能性がある変異体を含む組み立てられた遺伝子配列の配列決定リードについての、複数のリード特性の計算された値を条件として、可能性がある変異体をコールするステップとを含み、特定するステップ、計算するステップ、およびコールするステップは、電子データ処理デバイスによって実施される。可能性がある変異体は、可能性がある変異体を含むリードについての、複数のリード特性の計算された値に影響を及ぼす分類子を使用して、受け入れられるもの、または拒絶されるものとして分類される。可能性がある変異体は、可能性がある変異体が受け入れられるものとして分類される場合にだけコールされ、分類は、Fスコアを使用するサポート・ベクター・マシン分類を使用して行われる。
別の態様によれば、当該装置は、整列された配列決定リードを含む組み立てられた遺伝子配列を記憶する持続性記憶媒体と、電子処理デバイスであって、組み立てられた遺伝子配列中の可能性がある変異体を特定すること、組み立てられた遺伝子配列のリードについて複数のリード特性の値を計算すること、および受入れ基準を満たす可能性がある変異体を含む組み立てられた遺伝子配列の配列決定リードについての、複数のリード特性の計算された値を条件として、可能性がある変異体をコールすることを含む動作を行うように構成された電子処理デバイスとを備える。可能性がある変異体は、可能性がある変異体を含むリードについての、複数のリード特性の計算された値に影響を及ぼす分類子を使用して、受け入れられるもの、または受け入れられないものとして分類される。可能性がある変異体は、可能性がある変異体が拒絶されるものとして分類される場合にだけコールされ、分類は、Fスコアを使用するサポート・ベクター・マシン分類を使用して行われる。
利点の1つは、より正確な変異体コーリングにある。
別の利点は、変異体コーリングにおけるより大きいプラットフォーム独立性にある。
別の利点は、遺伝子解析に関連する検証にある。
多数のさらなる利点および利益が、以下の詳細な説明を読むことによって当業者には明らかになろう。
本発明は、様々な構成要素および構成要素の配置、ならびに様々な処理作業および処理作業の配置で実施可能である。図面は、好ましい実施形態を図示することを目的とするにすぎず、本発明を限定するものと解釈されるべきではない。
本明細書に記載の遺伝子解析システムを示す図である。 図1のシステムによって適切に実行される遺伝子解析方法を示す図である。 図2の変異体コーリングと適切に置き換えられる代替変異体コーリング方法を示す図である。 トリマーで形成された2つのループを有するプローブの一例を示す図である。 本明細書に開示の実験のトップ機能の数に対する精度のグラフである。 次世代配列決定(NGS)処理時の情報の流れを示す図であり、NGS結果の検証のための検証領域を選択する箇所が太線の楕円内に示されている。
塩基クオリティ・スコアとカバー度の組合せを用いる変異体コーリングが一般に有効である。しかし、この手法にはいくつかの不利点があることが本明細書では認識されている。塩基クオリティ・スコアとカバー度の両方が配列決定プラットフォームおよび整列アルゴリズムに依存しており、その結果、この手法に依拠する、1つの研究所のために開発された遺伝子試験は、別の研究所に移すことが困難になる可能性がある。さらに、複数変異体において誤ってコールされた単一の塩基でも、誤った変異体コールを招く可能性があるので、配列決定エラーは変異体コーリングの中に伝搬する傾向がある。したがって、変異体コールエラー率は、phred(または他の塩基クオリティ)スコアから予想される塩基コールエラー率よりも大幅に高いことがある。例えば、1つの調査では、様々な次世代配列決定(NGS)プラットフォームでの99.97%を超える配列決定精度が、99%未満の変異体コーリング精度になり、いくつかの配列決定プラットフォームでは95%未満になった。Harismendy他、「Evaluation of next generation sequencing platforms for population targeted sequencing studies」、Genome Biology vol.10:R32(2009年)。
カバー度を上げると一般に、変異体コールエラーが低減するはずである。しかし、カバー度を上げることは時間がかかり、試薬コストの増大を招くと共に、変異体コールエラー率を許容レベルまで低減しない可能性がある。例えば、1つの調査では、NGSを使用するSNPコーリングにおけるエラー率は、20×のカバー度と実質的に互角であった。Wang他、「The diploid genome sequence of an Asian individual」、Nature vo.456、60〜65頁(2008年)。いかなる特定の動作理論にも限定されることなく、これは、高いカバー度によって除去されない、および/または、完全な遺伝子配列の報告された(統計的)カバー度と比較してかなり低い実際のカバー度を有するいくつかの配列部分になる遺伝子配列にわたる高いカバー度変動性によって除去されない一貫したエラーの結果でありうることが場合により疑われる。Harismendy他を参照されたい。さらに、より高いカバー度が、NGSの速度優位点を低減する可能性があるより長い配列決定および整列の時間になる。ランダムに選択されたターゲットの検証ではまた、検証ターゲットとして選択されていないNGS配列の領域内の変異体コーリング問題が検出されない可能性もある。
これらの問題の認識に関し、比較可能なデータを生成するサンガー配列決定(「黄金標準」)、エクソーム捕獲、遺伝子型同定アレイなどのより確実な(しかし遅い)技法と比較してNGS出力の検証を使用することが当技術分野で知られている。NGSとこれら他の技法のスループットスケールが異なるので、より遅い検証技法は通常、NGS出力のランダムに選択されたいくつかのターゲット部分に対して行われる。しかし、このようなランダム検証では、NGS配列決定において重要なエラーを容易に見逃す可能性があり、それゆえに誤った変異体コールを検出しない。
本明細書では、可能性がある変異体を含む根源的な配列決定リードの特性の評価を使用する、改善された変異体コーリング技法を開示する。この手法は、配列決定リードがシークエンサーの実際の(すなわち、生の)出力であることを活用する。読み取られる物理的なDNA鎖またはRNA鎖は、配列決定時に構造的および熱力学的に安定であると期待される。リードはまた、解析されるリードの種類で典型的な値の範囲に入るという特性を有することが期待される。可能性がある変異体を含む遺伝子配列のリードについて計算されたリード特性が、これらのリードが非常に不安定である、または典型的な値の範囲から逸脱していることを示す場合、これらの読取りが誤っている(つまり、エラーを含む)可能性がある。したがって、これらの疑わしいリードに含まれる、可能性がある変異体もまた誤っている可能性がある。開示された手法のさらなる利点は、分類子を使用して複数のリード特性を組み合わせることによって、変異体コーリングを分類子の訓練中に調整できることである。
本明細書ではさらに、検証処理の改善を開示する。検証のためにNGS出力のランダムな領域選択を用いるのではなく、非ランダム基準を用いて検証領域を選択することを本明細書で開示する。この非ランダム基準は、NGS出力中の関連したエラーがもし存在すれば検証により検出される可能性を向上させる。例えば、検証領域は、エラー計量の可能性に基づいて、または機能性領域である(したがって、既知の臨床的重要性の)領域に基づいて、または反復計量が低い領域に基づいて(多くの生物学的遺伝子配列における共通の反復出現を活用して)、または母集団固有の領域に基づいて(これらの領域は通常、誤って変異体と呼ばれる可能性がより高い)、などで選択することができる。
図1を参照すると、患者4が試料抽出検査室6において組織試料抽出を受けて試料が生成され、この試料は、そのDNAおよび/またはRNAを抽出、配列決定、および解析を行うためにゲノム検査室8で処理される。例えば、試料採取検査室6では、患者4から悪性病変の組織試料を、任意選択で患者4の他のところから抽出された正常組織試料と共に、抽出することができる。他のいくつかの説明的な例として、試料抽出には、生検針または他の介入器具を使用する生検手順、濾胞含有DNAを得るために髪試料を引き抜くこと、皮下針を使用して血液を引き出すこと、などが含まれてよい。図1は、例示的な抽出組織試料10を示す。この例示的な実施形態は、臨床応用例において患者4に対して実行可能であるが、他の応用例においては、組織試料は、獣医学の対象、生物学研究の対象などの人間でない対象から抽出できることに留意されたい。例示的な図1では試料10が例示的なバイアルで表されていることにも留意されたい。しかし、試料10は一般に、試料採取された組織の種類に適した任意の形を取ることができ、またその試料の種類に適した任意の容器または支持体によって収容または支持できることを理解されたい。例えば、試料10は流体試料、(例えば、口腔スワブによって取得され、滅菌スライド上または他の適切な表面に置かれる)表面試料などでよい。
ゲノム検査室8において、組織試料10はシークエンサー装置14で処理されて、配列決定リードが生成される。シークエンサー装置14は、好ましくは次世代配列決定(NGS)装置であり、Illumina、San Diego、カリフォルニア州、米国、Knome、Cambridge、マサチューセッツ州、米国、Ion Torrent Inc.、Guilford、コネチカット州、米国、または他のNGSシステム供給業者から入手できるものなどの市販の配列決定装置でよいが、市販されていない、または注文構築のシークエンサーもまた企図されている。シークエンサー14によって生成された配列決定リードは、フィルタリングモジュール16によってフィルタリングされて、重複リードが除去され、また20未満のphred(または別の選択された塩基クオリティ・スコア閾値未満の)スコアを有するリードが破棄される。残りの配列決定リードは配列組立てモジュール18によって組み立てられて遺伝子配列が生成され、この遺伝子配列は、ハード・ディスクもしくは他の磁気媒体などの持続性記憶媒体、光ディスクもしくは他の磁気媒体、ランダム・アクセス・メモリ(RAM)、フラッシュメモリ、または他の電子記憶媒体などに記憶されるSequence Alignment/Map(SAM)フォーマット、2進の同等(例えば、BAM)フォーマット、または別の適切なフォーマットの整列ファイル20の形で保存される。SAMまたはBAMフォーマットは、個々の配列リードを保持し、またそのリードがどのようにして組立て遺伝子配列を形成するかを明記するさらなるデータを含む。組み立てモジュール18によって行われる組立ては、重なり合う部分の配列リードを新規整列するものでよく、あるいは、ある一定の割合(例えば、5〜10%)の塩基ミスマッチを許容しながら、配列決定リードを参照配列22にマッピングするものでよい。後者の場合、参照配列22は、例えば、図示の人間の患者4の場合ではヒトゲノムの標準参照配列でよい。
いくつかの実施形態では、整列ファイル20に保存される組み立てられた遺伝子配列は、全ゲノム配列(WGS)である。本明細書で使用される場合、「全ゲノム配列」、すなわちWGS(当技術分野では、「フル」、「完全」、または「全体」ゲノム配列とも呼ばれる)、または類似の用語は、患者の実質的な、しかし必ずしも完全ではない、ゲノムを包含すると理解されたい。当技術分野では、「全ゲノム配列」という用語、すなわちWGSは、いくつかの用途では少なくとも95%が完全であるような、患者のほぼ完全なゲノムを指すのに用いられる。他の実施形態では、遺伝子配列は、WGSより少ない遺伝子材料を表す(例えば単一の染色体、または染色体の一部分を表す)ことがある。シークエンサー14は、高いスループットの次世代配列決定(NGS)を使用するので、遺伝子配列が通常は長く、例えば、連続した、またはほぼ連続した数百、数千、または数万以上の塩基対(bp)の配列を含む。したがって、遺伝子配列は、ゲノムの0.1%未満が通常はカバーされる一塩基多型(SNP)遺伝子型同定などの遺伝子特異的技法に通常使用される、ターゲット「配列」の型ではない。遺伝子配列は、DNA(一本鎖もしくは二本鎖)またはRNAを表すことができる。DNAとRNAの間の重要な違いは、DNAが塩基のアデニン(A)、シトシン(C)、グアニン(G)およびチミン(T)からなる配列を含むのに対し、RNAが塩基のアデニン(A)、シトシン(C)、グアニン(G)およびウラシル(U)からなる配列を含むことである。言い換えると、DNAのチミン(T)塩基が、RNAではウラシル(U)に置き換えられている。
変異体コーリングおよび注釈付けモジュール24では、遺伝子配列を、例えばヒトゲノムの文献に報告されている標準参照配列でよい参照配列22と比較する。組立てでマッピングを使用する場合、組立ておよび変異体コーリングでは通常、図1に示されるのと同じ参照配列22を使用する。しかし、組立ておよび変異体コーリングそれぞれに異なる参照配列を使用することもまた企図されている。組み立てられた遺伝子配列を参照配列22と比較することにより、可能性がある変異体(つまり、解析される遺伝子配列が参照配列22と異なる場所)を検出することが可能になる。可能性がある変異体は、本明細書で開示されるように、可能性がある変異体を含むリードの特性に基づいて「コールされる」(つまり、臨床目的で実際の変異体として受け入れられる)。
精度を確保するために、検証領域選択モジュール26は、非ランダム選択基準に基づいて検証の領域を選択する。選択された検証領域は、図示のサンガー配列決定設備28などの適切なシステムで実施される適切な検証技法によって検証される。(サンガー配列決定設備28は、図1でゲノム検査室8の一部として示されているが、選択モジュール26で選択された検証領域の検証のために、試料を異なる検査室に送り出すこともまた企図されている。)組み立てられ、注釈が付けられ、検証された遺伝子配列に基づいて、臨床評価/報告モジュール30が、患者4の治療を監督する医師が見直すのに適したフォーマットで臨床報告書を生成する。例えば、生成された報告書では、特定の癌の種類と相互に関連しているコールされた変異体を明らかにすることができ、あるいはそれと別に、疾病/変異体の相関関係(または場合により、このような相関関係がないこと)を強調表示することができる。
リードフィルタリングモジュール16、配列組立てモジュール18、変異体コーリング/注釈付けモジュール24、および検証領域選択モジュール26を含む様々な処理構成要素は、図示のコンピュータCまたは別の、デスクトップ・コンピュータ、ノート型コンピュータ、ネットワーク・サーバなどの電子データ処理デバイスによって適切に具体化される。臨床評価/報告モジュール30もまた、コンピュータCまたは別の電子データ処理デバイスによって適切に具体化されるが、治療医師を対象とする要約報告書を書くことなどの一部の報告の態様は、例えば、ゲノム検査室8で雇用されている人間の検査室技師によって手作業または半手作業で行われてよい。例示的な図1では、図示の単一のコンピュータCによって具体化された処理構成要素16、18、24、26、30を示しているが、これらの処理構成要素を具体化するために異なるコンピュータを使用することも別法として企図されている。例えば、いくつかの実施形態では、フィルタリングモジュール16および配列組立てモジュール18は、コンピュータによって、またはシークエンサー14と一体化されている他の電子データ処理デバイスによって具体化することができ、残りの組立て後の処理構成要素24、検証構成要素26、および報告構成要素30は、シークエンサー装置とデータ通信する独立型コンピュータまたはネットワーク・サーバによって具体化することができる。
さらに、モジュール16、22、26、30によって行われる処理の様々な実施形態は、開示された処理を実行するための電子データ処理デバイス(例えば、コンピュータC)によって実行可能な命令を記憶する持続性記憶媒体(図示せず)として物理的に具体化することができる。このような持続性記憶媒体には、例えば、ハード・ディスクもしくは他の磁気記憶媒体、または光ディスクもしくは他の光記憶媒体、またはフラッシュメモリ、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、もしくは他の電子記憶媒体などが含まれてよい。
図1を引き続き参照し、さらに図2を参照して、図1のシステムの動作を説明する。動作40で、配列決定装置14から配列決定リードを取得する。動作42で、リード評価/フィルタリングモジュール16は、塩基クオリティ・スコアが低すぎる(例えば、いくつかの実施形態では、20未満のphredスコアを有する)リードを破棄する。動作42では、重複リードを除去するなどの他のフィルタリング動作を任意選択で実行することができる。動作44で、配列組立てモジュール18は、残りのリードを組み立てて、整列ファイル20に保存される整列遺伝子配列を生成する。この組立ては、参照配列にマッピングすることに基づく新規のものでも、(例えば、参照配列がカバー度を提供するマッピングを使用し、また他のところの新規の整列を使用した)これらの組み合わせでもよい。通常、いくつかの配列決定リードが「残される」可能性があり、これら未整列のリードは破棄されるか、または、その未整列状態を示す適切な注釈付きで整列ファイル20の中に保存される。
動作46で、整列された遺伝子配列内で対象の領域を特定する。これらの領域は、その領域の既知の機能性、またはその領域における対象の変異体の考えられる存在などに基づく、様々な方法で特定することができる。さらなる解析のための対象の領域を(特に、整列された遺伝子配列がWGSである場合)選択することで効率を向上させる一方で、動作46に関して、整列された遺伝子配列全体を対象の領域として選択することもまた企図されている。一方、対象の領域は、疾病と相関関係がある単一ヌクレオチド変異体(SNV)の位置である可能性があると臨床研究で特定されている、単一塩基位置ほどに小さくすることもできる。
動作50で、対象の領域(1つまたは複数)と一致するリードのリード特性を計算する。配列決定リードは、それが対象の領域と重なる、対象の領域を含む、または対象の領域に含まれる場合に、対象の領域と「一致する」。リード特性は、例えば、熱力学的特性、構造上の特性、塩基組成上の特性などでありうる。様々な例については本明細書で後述する。動作52で、計算されたリード特性が受入れ基準を満たさない配列リードがあれば破棄する。動作54で、残りのリードに対し(つまり、リード受入れ基準にパスするリードに対し)変異体コーリングを実行する。変異体は、整列された遺伝子配列を塩基対ごとに(二本鎖DNAの場合に、あるいは一本鎖DNAまたはRNAの場合には塩基ごとに)参照配列22と系統的に比較することによって特定することができる。これは、変異体を特定するための包括的な手法であるが、計算的に集約したものにでき、いかなる既知の疾病相関関係もない多くの特定された変異体が結果として得られる。あるいは、いくつかの実施形態では、参照配列24は、既知の疾病相関変異体の位置(および任意選択で構成物)を示す注釈を含み、動作54でこのような注釈付けされた既知の変異体をそれぞれ順に調べる。変異体のいくつかの例示的な種類としては、単一ヌクレオチド変異体(SNV、一塩基多型すなわちSNPとしても知られている)、挿入または欠失(すなわちインデル)、コピー数多型多形(CNV)、構造多形(SV)、(参照配列24と比較した)メチル化の存在または不在などが含まれる。この手法は、塩基ごとに比較する手法よりも高速にすることができ、加えて、特定された変異体は通常、既知の疾病相関関係を有する。これらの手法の組合せもまた使用することができる。
注釈付けは、変異体のように参照配列24から逸脱する塩基のサブ配列(またはbp)を特定することを含むことができ、また任意選択で、型(例えば、SNV、CNV、SVなど)に関して変異体を標識することもできる。任意選択で、注釈付けはさらに、疾病相関がある変異体を標識することを、このような情報が参照配列24で入手可能である場合に含むことができる。
図2を引き続き参照すると、動作60で、検証領域選択モジュール26は、整列された遺伝子配列の検証のための領域を選択する。動作60は、ランダム選択基準を使用するのではなく、変異体を含む、または機能する、またはそれとは別に検証の特別の対象である、検証領域を選択するように設計された非ランダム基準を使用する。動作62で、選択された領域を、例えば図1のサンガー配列決定設備28によって検証する。
動作46、50、52、54は、図1の変異体コーリングおよび注釈付けモジュール24によって適切に実行される。図2の手法では、対象の領域は動作46で選択され、これらの領域と一致する配列決定リードをまず、動作50、52で受入れ基準に対して試験する。フィルタリング50、52をパスするリードだけを次に、動作54で調べて変異体を特定し、コールする。動作54で特定されたどの変異体も一般に、それが(図1のフィルタ16をパスすることによって)塩基/カバー度基準にパスしており、かつ(「第2のパス」動作50、52をパスすることにより)リード受入れフィルタリングをパスしているので、直ちにコールすることができる。これにより、受入れ基準を満たす、可能性がある変異体を含む組み立てられた遺伝子配列の配列決定リードについての、リード特性の計算された値を条件として、可能性がある変異体をコールするという目標が達成される。しかし、この手法では、いくつかのリードは、可能性がある変異体を何も含まなくても試験される(場合により破棄される)ことがある。
図3を参照すると、図1の変異体コーリングおよび注釈付けモジュール24の代替的動作では、可能性がある変異体をまず動作70で特定する。この時点で、(図1のリード評価/フィルタリングモジュール16の動作によって)可能性がある変異体をフィルタリングするのに塩基クオリティおよびカバー度だけを使用してきた。可能性がある変異体を特定した後、変異体を含む配列決定リードを動作72で特定する。リード特性は、可能性がある変異体を含むリードについてだけ計算される。例示的な図3で、これらには、プローブ領域のリードについて(つまり、可能性がある変異体を含むリードについて)配列パラメータおよび構成パラメータを計算する動作74と、プローブ領域のリードについて熱力学的パラメータまたはエネルギー・パラメータを計算する動作76と、プローブ領域のリードについて生物物理学的パラメータまたは二次構造パラメータを計算する動作78とが含まれる。動作74、76、78の諸例については本明細書で後述する。決定動作80で、動作74、76、78で計算された特性を受入れ基準と比較し、これらの基準が満たされる場合、変異体コーリング/注釈付けモジュール24は、可能性がある変異体を動作82での医療目的の実際の変異体としてコールし、適切な注釈(1つまたは複数)を作成する。図3の手法は、可能性がある変異体を含むリードだけが動作74、76、78、80で処理されるので、計算的により効率的でありうる。しかし、「第2のパス」フィルタ動作74、76、78、80をパスできない、可能性がある変異体が多くある場合には、図2の動作50、52、54の手法の方がより効率的でありうる。
動作80(図3)は、動作52が潜在的に誤ったリードをフィルタリングして除くのに対し、動作80では可能性がある変異体をコールするかどうかを決定する(実際には、潜在的に誤った、可能性がある変異体をフィルタリングして除く)点で、動作52(図2)と異なる。動作80の1つの適切な手法では、可能性がある変異体を含むリードを動作52と同じようにフィルタリングし、次に、残りのリードの数(つまり、受入れ基準を満たすリードの数)が、可能性がある変異体をコールするための規定の最小カバー度を超える場合にだけ、可能性がある変異体をコールする。
動作52(図2)または動作80(図3)で使用される受入れ基準は、様々なリード特性の値に基づく。例示的な図3で、値が計算される領域の特性には、ヌクレオチド頻度、GCクランプ、連続する塩基の最大長などの配列パラメータおよび構成パラメータ74と、エンタルピー、エントロピー、スタッキング・エネルギー、DNA変性温度またはエネルギー、二本鎖安定破壊エネルギーなどの熱力学的特性またはエネルギー特性76と、二量体形成、交差二量体、ヘアピン・ループ形成、可屈曲性、曲げ剛性などの生物物理学的パラメータおよび二次構造パラメータ78とが含まれる。動作80(または図2の動作52)で、これらのリード特性の計算値を受入れ基準と比較する。この第2のパス受入れ試験にも(図1のモジュール16で行われる「第1のパス」塩基クオリティ/カバー度フィルタリングに加えて)パスした場合のみ、処理の流れが動作82(または図2の動作54)に到達し、この時点で、可能性がある変異体をコールし注釈付けすることができる。
以下では、いくつかの適切なリード特性のいくつかの説明的な例について説明する。これらは説明的な例として提供されており、追加の、もっと少ない、または他のリード特性を使用することもまた企図されている。
いくつかの適切な熱力学的な、または配列組成のリード特性は以下の通りである。反塩基対組成リード特性値は、(i)リード内のアデニン(A)塩基およびチミン(T)塩基の総数を数えること、および(ii)リード内のグアニン(G)塩基およびシトシン(C)塩基の総数を数えることに基づいて計算することができる。(RNAでは、チミンがウラシルすなわち「U」に置き換えられる)。AT(またはAU)数に対するGC数の割合は、典型的なヒトDNAまたはRNA材料では約40〜60%になるはずである。使用することができる追加の組成リード特性は、リード内のどこでも連続して生じる単一種類の塩基の数である。例えば、いくつかの実施形態では、1つの特性は連続したA塩基またはT塩基の数であり、この値が例えば6を超える場合、そのリードは受け入れられない。反復塩基の数がこのように多いことは、ヒトDNA/RNA配列では普通ではなく、それが誤った配列決定の結果であることを示唆するものであり、この結果は、その領域(およびそこに含まれる、可能性がある変異体)を信用できないものにして、可能性がある変異体をコールすることが排除される。
融解温度(T)均一性は、1つの適切な熱力学的リード特性である。このパラメータの近似的な値は次式の通りに計算することができる。
Figure 0006141310
このパラメータのもっと正確な値は次式で与えられる。
Figure 0006141310
ここで、ΔHは標準エンタルピー、ΔSは標準エントロピーであり、Cは一本鎖の初期濃度、Cは相補鎖の初期濃度であり、Rは一般気体定数である。
別の適切なリード特性はGCクランプであり、これは、連続するグアニン(G)塩基とシトシン(C)塩基の、両方のプライマーの3’末端における数である。GCクランプは、ターゲットDNAとの複合体を形成するのに重要である。
オリゴヌクレオチド・プローブの安定性を決めるのに役割を果たす、いくつかの適切な熱力学的リード特性は、スタッキング・エネルギー、プロペラ・ツイスト、可屈曲性、二本鎖安定性自由エネルギー、およびDNA変性である。ジヌクレオチド塩基スタッキング・エネルギーは、DNAの一部がどれだけ容易にスタック分離するかを表す。高い値は不安定領域を表し、したがって、計算されたスタッキング・エネルギーが高いリードはフィルタリングされて除かれる。二本鎖安定性自由エネルギーが低い領域は、熱力学的エネルギー含量が高い領域よりも安定である。やはり、この値は、それがあまりに高い場合には、そのリードがフィルタリングされて除かれるべきことを示しうる。DNA変性値が低いDNA領域は、値が高い領域よりも変性しやすい。したがって、ここでは、リードをフィルタリングするのに、低すぎるDNA変性値を使用することができる。
ジヌクレオチド・プロペラ・ツイストは、らせんの可撓性の値である。低い値が、より大きい可撓性を示す。可屈曲性値が高い部分は、値が低い領域よりも可屈曲性が大きい。トリヌクレオチド可屈曲性モデルは、主溝に向かうDNAの可屈曲性をモデル化するものである。これらのパラメータの値は、リードが有効なリードである可能性に関しては、「良い」ものか「悪い」ものかについて簡単に確かめられない。しかし、これらの特性を分類子に入力する特徴として使用することによって、また標識されたデータ(すなわち、「良い」または「悪い」と標識されたリード)の分類子を訓練することによって、分類子をこれらのリード・パラメータについて有用に訓練することができる。
プローブの安定性に影響を及ぼす他のいくつかの要因は、オリゴヌクレオチドの内部安定性に関する要因である。通常、プライマーの安定な5’末端および不安定な3’末端は、未知のターゲットに対する間違ったプライミングを低減させることによって最善の結果をもたらす。DNA合成を開始する可能性のある二本鎖形成は、低い3’安定性によって防止することができ、5’末端がまた、安定した二本鎖を形成するために対にならなければならない。最適な末端ΔGは約8.5kcal/molであり、これが変動するとプライミング効率が低減する。再び、これらのパラメータそれぞれに対する受入れ基準を最適にするのに、分類子訓練を用いることができる。
受入れ基準で使用するためのいくつか適切な生物物理学的特性および二次構造リード特性には、ヘアピン・ループ形成、二本鎖安定性破壊エネルギー、DNA曲げ剛性、二量/交差二量体形成、および自己相補性に関する特性が含まれる。これらについて順に述べる。
ヘアピン・ループ形成に関して、ΔGが−2kcal/molの3’末端ヘアピン、およびΔGが−3kcal/molの内部ヘアピンは、一般に耐容性がある。これに関する1つの適切なリード特性は、三量体で形成されるループを作らないヌクレオチドの数(以後「SS特徴1」)、または四量体で形成されるループを作らないヌクレオチドの数(以後「SS特徴2」)である。別のヘアピン・ループ関連のリード特性は、ループが三量体で形成されている最長配列の長さ(以後「SS特徴3」)またはループが四量体で形成されている最長配列の長さ(以後「SS特徴4」)である。
図4を参照すると、2つのループが三量体で形成されているプローブの一例が示されている。図4のSS特徴1の値はa+b+cと計算され、SS特徴3の値は最大(a;b;c)と計算される。高い二本鎖安定性破壊エネルギーの値を有する領域は、低いエネルギー値を有する領域よりも安定である。Breslauer KJ、Frank R、Bloecker H、Marky LA、「Predicting DNA duplex stability from the base sequence」、Proc Natl Acad Sci USA、1986年6月、83(11):3746〜3750頁を参照されたい。高いDNA曲げ剛性の値は、剛性がより大きいDNA領域に対応し、低い値は、より容易に曲がる領域に対応する。Sivolob AV、Khrapunov SN、「Translational positioning of nucleosomes on DNA:the role of sequence−dependent isotropic DNA bending stiffness」J Mol Biol.1995年4月14日;247(5):918〜931頁を参照されたい。
二量体/交差二量体形成は、リード特性として以下のように特徴付けることができる。オリゴヌクレオチドが、ターゲットDNAとハイブリッド形成するよりも容易に分子間二量体を形成する場合、この分子間二量体は製品収量を低減させる。ΔGが−5kcal/molの3’末端自己二量体、およびΔGが−6kcal/molの内部自己二量体は一般に耐容性がある。プローブ自己相補性の適切な尺度は、7bp未満の回文スコアである。
以下では、実際に実施したいくつかの実験について説明する。
全ゲノム配列決定は以下のように実施した。WGSに対し対末端ライブラリを、Illumina標準対末端オリゴと共にNEBNext DNA試料Prep Master Mix Set1を使用して構築した。Illumina 115塩基対対末端リード・データを複数のランにわたって生成した。合計1,267,651,634対末端リードをWGSから生成した。塩基コーリングのためにIlluminaパイプラインv1.5/v1.6を使用してデータを処理した。Illuminaフィルタリングをパスしたリードを、30塩基種で2つのミスマッチを許容するように構成されたBurrows Wheelers Aligner(BWA)を用いて、ヒト参照ゲノム・アセンブリ(UCSC Hg19)に対して整列させた(Li他、2009年)。重複リード対を除去して、試料調製時に生成されたPCRアーティファクトを相殺した。全ゲノム組立て後のマッピングされた塩基の平均カバー度は約28×であった。
整列後SNVコーリングをSAMtoolsで、20の最小SNVクオリティ・スコアおよび20×の最小リード深さを使用して実施した(Li他、2009年)。挿入/欠失変異体(インデル)に近接したSNVと、過剰なリード深さの領域内のSNVと、10塩基対窓内に複数のSNVコールがある領域とを除去した。合計3,291,501およびSNVを全ゲノムに対しコールした。次に、SNVのリストを選択し、複数の熱力学的パラメータを抽出した。SNVはまた、サンガー・ジデオキシ毛細管配列決定法を使用する検証のためにランダムに選択した。
次に、リードを2つのカテゴリー、すなわち(1)WGSからの遺伝子型コールとサンガー配列決定が一致したカテゴリー1と、(2)WGSからの遺伝子型コールとサンガー配列決定が一致しなかったカテゴリー2とに分類した。次に、これらのリードを特徴抽出し、特徴選択し、分類した。特徴抽出では、本明細書で前述した塩基組成特徴、熱力学的特徴、および二次構造特徴を抽出した。特徴選択では、サポート・ベクター・マシン・ランク付け特徴抽出(SSVM−RFE)および最近接ランク付け特徴(NN−RF)を使用した。3’末端および5’末端を含むプローブの様々な領域、およびプローブの中間部で、合計3291の特徴を抽出および解析した。その後これらに対し分類法を、良いプローブを悪いプローブから区別するために適用した。
サポート・ベクター・マシン(SVM)が様々な分類目的に使用されてきた。サポート・ベクター・マシンはデータをより高い次元空間にマッピングする。この空間では、クラス間のより良い分離が行われると共に、最大余裕が得られる超平面が見出される。y∈{1、−1}であるように訓練ベクトルx∈R、2つのクラス内でk=l,...,m、およびラベルのベクトルy∈Rとすると、SVMで最適化問題が次式の通りに解かれる。
Figure 0006141310
ただし、
Figure 0006141310
および
Figure 0006141310
とし、
ここで、訓練データはより高い次元空間に核関数φで表され、Cは訓練エラーに対するペナルティ・パラメータである。任意の試験ベクトルxについて、決定関数は次式となる。
Figure 0006141310
特徴選択は、精度尺度として使用して実施した。プローブから計算される特徴は、より良い分類子になるように最適に選択されなければならない。特徴のいくつかは、分類子の働きを劣化させうる可能性がある。実験で用いた戦略は、上位特徴を特定し、それを使用して分類子を訓練および試験することであった。Fスコアは、良いプローブと悪いプローブの間の特徴の弁別力に基づいて特徴をランク付けできる場合には、便利な表現を提供する。訓練ベクトルx∈R、k=l,...,mとし、良いプローブおよび悪いプローブの数がそれぞれn+およびn−であれば、i番目の特徴のFスコアは次式の通りに計算される。
Figure 0006141310
ここで、記号
(外1)
Figure 0006141310
はそれぞれ、i番目の特徴の全体での平均、良いプローブ・データ・セット、および悪いプローブ・データ・セットである。
(外2)
Figure 0006141310
は、k番目の良いプローブのi番目の特徴であり、
(外3)
Figure 0006141310
はk番目の悪いプローブのi番目の特徴である。分子は、良いプローブ・セットと悪いプローブ・セットの間の区別を示し、分母は、2つのセットそれぞれのうちの1つを示す。より高いFスコアは、その特徴がより特異的であることを示唆する。
合計3219の特徴をカテゴリー1および2の両方のリードから計算した。これらの特徴は、これらについてFスコア値を計算する前に範囲0から1にスケール変更した。実験により、上位特徴がデータ・セット全体にわたって変動することが明らかになった。ほとんどの場合で、(以前の実験に基づいて)重要度の高いものと予想された特徴は、上位特徴リストの中から出てきた。表1は、様々なデータ・セットで特定された上位10の特徴を示す。ここで、プローブの長さは、これらのデータ・セット全体にわたって変動したこと、および特徴のいくつかは、短いプローブでは関連していないことに留意されたい。しかし、様々なデータ・セットで特定された上位特徴間でいくらかの重なりがあることが注目されてよい。
Figure 0006141310
以下のような実験で、Fスコアを使用してSVM分類を行った。これらの特徴のFスコア値を降順で並び替え、上位特徴の数をn個(通常は10とする)のステップで増分することによってFスコア値を使用して、SVM分類子を訓練した。上位特徴の数は、試験データについて分類子を評価することによって得られた精度に基づいて選択することができる。特徴の最適なセットは、最高の分類精度が結果として得られるものである。
図5は、このような1つのデータ・セットについて得られた上位特徴の数に対する精度のグラフである。SNV形状別カテゴリーは、良好な分離を示し、WGSデータ・セットからのリード・セットから生成されたSNVの精度を決定するために使用されるべき良好な指標になる。
上記の実験において、SNVは、サンガー・ジデオキシ毛細管配列決定法を使用する検証のためにランダムに選択した。図1の検証領域選択モジュール26を参照して論じたように、本明細書では、非ランダム選択基準を使用する検証のための領域を選択することが開示される。
図6を参照すると、検証のためのターゲット領域を抽出するステップおよびチェック点が図示されている。図6は、太線の楕円内に示されたNGS結果の検証のために検証領域を選択する箇所と共に、情報の流れを示す。検証の帯域幅/リソース(例えば、図1のサンガー配列決定設備28のスループット)に基づいて、いくつかのターゲット領域をそれぞれのステップまたはチェック点で選択することができる。検証領域を選択するための選択基準は、エラーの可能性が高いいずれの区域も検証するために、領域のエラー計量の可能性に基づいて選択すること、機能性領域である領域(つまり、ゲノム内の機能性領域)に基づいて選択すること、反復領域が実質的に無い領域を検証するために領域の低い塩基反復計量に基づいて選択すること、母集団固有の領域である(つまり、遺伝子変異体として誤って検出される可能性がある母集団固有の情報を有する)領域に基づいて選択すること、変異体を示す少なくとも1つの注釈を含む領域に基づいて選択すること、異なる構造特性を有する領域、などを含むことができる。
Figure 0006141310
表2、表3および表4は、単一のターゲット一塩基多型(SNP)と、インデルと、前述の非ランダム基準に基づく検証のために選択された構造変異体(SV)領域との諸例を提供する。
Figure 0006141310
Figure 0006141310
本発明を好ましい諸実施形態を参照して説明してきた。明らかに、前述の詳細な説明を読み理解することによって、修正形態および代替形態が他の人に想起されよう。本発明は、すべてのこのような修正形態および代替形態を、これらが添付の特許請求の範囲またはその同等物の範囲内に入る限り含むと解釈されるものである。

Claims (9)

  1. 整列された配列決定リードを含む組み立てられた遺伝子配列中の可能性がある変異体を特定するステップと、
    前記組み立てられた遺伝子配列の配列決定リードについて複数のリード特性の値を計算するステップと、
    受入れ基準を満たす前記可能性がある変異体を含む前記組み立てられた遺伝子配列の配列決定リードについての、前記少なくとも1つのリード特性の前記計算された値を条件として、前記可能性がある変異体をコールするステップと、
    を含む方法であって、
    前記可能性がある変異体が、前記可能性がある変異体を含む前記リードについての、前記複数のリード特性の計算された値に影響を及ぼす分類子を使用して、受け入れられるもの、または拒絶されるものとして分類され、前記可能性がある変異体が、前記可能性がある変異体が受け入れられるものとして分類される場合にだけコールされ、分類が、Fスコアを使用するサポート・ベクター・マシン分類を使用して行われ、
    前記特定するステップ、計算するステップ、およびコールするステップが電子データ処理デバイスによって実施され、
    前記少なくとも1つのリード特性が、前記配列決定リードの物理的特性を含む、方法。
  2. 前記少なくとも1つのリード特性が少なくとも1つの塩基組成特性を含む、請求項1に記載の方法。
  3. 前記少なくとも1つのリード特性が少なくとも1つの熱力学的特性を含む、請求項1または2に記載の方法。
  4. 前記少なくとも1つのリード特性が、リード安定性を示す少なくとも1つのエネルギー特性を含む、請求項1〜3のいずれか1項に記載の方法。
  5. 前記少なくとも1つのリード特性が少なくとも1つの二次構造特性を含む、請求項1〜4のいずれか1項に記載の方法。
  6. 配列決定リードのセットを組み立てて、前記組み立てられた遺伝子配列を生成するステップをさらに含み、
    塩基クオリティ・スコアおよびカバー度基準を満たさない配列決定リードが破棄され、前記組み立てられた遺伝子配列に含まれず、
    前記組み立てられた遺伝子配列が全ゲノム配列を含む、請求項1〜5のいずれか1項に記載の方法
  7. 請求項1〜6のいずれか1項に記載の方法が含む各ステップを、電子データ処理デバイスに実行させるコンピュータプログラム
  8. 整列された配列決定リードを含む組み立てられた遺伝子配列を記憶する持続性記憶媒体と、
    電子処理デバイスであって、
    前記組み立てられた遺伝子配列中の可能性がある変異体を特定する動作、
    前記組み立てられた遺伝子配列のリードについて複数のリード特性の値を計算する動作、および、
    受入れ基準を満たす前記可能性がある変異体を含む前記組み立てられた遺伝子配列の配列決定リードについての、前記少なくとも1つのリード特性の前記計算された値を条件として、前記可能性がある変異体をコールする動作、
    を含む動作を行うように構成された電子処理デバイスと、
    を備える装置であって、
    前記可能性がある変異体が、前記可能性がある変異体を含む前記リードについての、前記複数のリード特性の前記計算された値に影響を及ぼす分類子を使用して、受け入れられるもの、または拒絶されるのとして分類され、前記可能性がある変異体が、前記可能性がある変異体が受け入れられるものとして分類される場合にだけコールされ、分類が、Fスコアを使用するサポート・ベクター・マシン分類を使用して行われ、
    前記少なくとも1つのリード特性が、前記配列決定リードの物理的特性を含む、装置。
  9. 前記少なくとも1つのリード特性が、塩基組成特性、熱力学的特性、エネルギー特性、および二次構造特性からなる群から選択された少なくとも1つのリード特性を含む、請求項8に記載の装置。
JP2014545409A 2011-12-08 2012-12-03 強固な変異体特定および検証 Active JP6141310B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161568336P 2011-12-08 2011-12-08
US61/568,336 2011-12-08
EP11193585.4 2011-12-14
EP11193585.4A EP2602734A1 (en) 2011-12-08 2011-12-14 Robust variant identification and validation
PCT/IB2012/056911 WO2013084133A2 (en) 2011-12-08 2012-12-03 Robust variant identification and validation

Publications (2)

Publication Number Publication Date
JP2015501987A JP2015501987A (ja) 2015-01-19
JP6141310B2 true JP6141310B2 (ja) 2017-06-07

Family

ID=45445781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014545409A Active JP6141310B2 (ja) 2011-12-08 2012-12-03 強固な変異体特定および検証

Country Status (7)

Country Link
US (1) US10607719B2 (ja)
EP (2) EP2602734A1 (ja)
JP (1) JP6141310B2 (ja)
CN (1) CN103975329B (ja)
BR (1) BR112014013562A2 (ja)
IN (1) IN2014CN04568A (ja)
WO (1) WO2013084133A2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10424395B2 (en) * 2015-03-27 2019-09-24 Sentieon Inc. Computation pipeline of single-pass multiple variant calls
JP2017016665A (ja) * 2015-07-03 2017-01-19 国立大学法人東北大学 配列のデータからの変異情報の選択方法、システム、及び、コンピュータプログラム
US10600499B2 (en) 2016-07-13 2020-03-24 Seven Bridges Genomics Inc. Systems and methods for reconciling variants in sequence data relative to reference sequence data
CN107451428B (zh) * 2017-08-02 2020-05-22 广东国盛医学科技有限公司 下一代测序中末端短串联序列的优化处理方法
CN107590362B (zh) * 2017-08-21 2019-12-06 武汉菲沙基因信息有限公司 一种基于长读序测序判断重叠组装正误的方法
JP7013490B2 (ja) * 2017-11-30 2022-02-15 イルミナ インコーポレイテッド 配列バリアントコールのためのバリデーションの方法及びシステム
CN108959853B (zh) * 2018-05-18 2020-01-17 广州金域医学检验中心有限公司 一种拷贝数变异的分析方法、分析装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2763600B1 (fr) * 1997-05-20 1999-11-12 Genolife Procede de detection qualitative et quantitative d'alterations de l'adn et des ligands de ces alterations
US6714874B1 (en) * 2000-03-15 2004-03-30 Applera Corporation Method and system for the assembly of a whole genome using a shot-gun data set
US6376191B1 (en) * 2000-03-22 2002-04-23 Mergen, Ltd. Microarray-based analysis of polynucleotide sequence variations
US8364417B2 (en) * 2007-02-15 2013-01-29 454 Life Sciences Corporation System and method to correct out of phase errors in DNA sequencing data by use of a recursive algorithm
CN101131391B (zh) 2006-08-24 2011-07-20 中国科学院上海药物研究所 基于分子亲电矢量和扩展支持向量机的基因毒性概率预测方法
EP2101275A1 (en) * 2008-03-10 2009-09-16 Koninklijke Philips Electronics N.V. Method for polynucleotide design and selection
US20110190657A1 (en) * 2009-08-10 2011-08-04 Carl Zeiss Meditec, Inc. Glaucoma combinatorial analysis
KR101952965B1 (ko) * 2010-05-25 2019-02-27 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Bambam:고처리율 서열분석 데이터의 병렬 비교 분석
US9600625B2 (en) * 2012-04-23 2017-03-21 Bina Technologies, Inc. Systems and methods for processing nucleic acid sequence data

Also Published As

Publication number Publication date
EP2748749A2 (en) 2014-07-02
WO2013084133A2 (en) 2013-06-13
CN103975329A (zh) 2014-08-06
IN2014CN04568A (ja) 2015-09-18
EP2602734A1 (en) 2013-06-12
US20140336999A1 (en) 2014-11-13
BR112014013562A8 (pt) 2017-06-13
CN103975329B (zh) 2018-06-26
BR112014013562A2 (pt) 2017-06-13
US10607719B2 (en) 2020-03-31
JP2015501987A (ja) 2015-01-19
WO2013084133A3 (en) 2013-08-08

Similar Documents

Publication Publication Date Title
US11697835B2 (en) Systems and methods for epigenetic analysis
JP6141310B2 (ja) 強固な変異体特定および検証
US20230272483A1 (en) Systems and methods for analyzing circulating tumor dna
US20210065847A1 (en) Systems and methods for determining consensus base calls in nucleic acid sequencing
US20220130488A1 (en) Methods for detecting copy-number variations in next-generation sequencing
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
JP6268184B2 (ja) 患患者固有の関連性評価を用いた変異と疾患の関連付けを使用する診断的遺伝子分析
CN115151974A (zh) 使用补丁卷积神经网络的癌症分类
WO2021061473A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
US20190362807A1 (en) Genomic variant ranking system for clinical trial matching
US20210151126A1 (en) Methods for fingerprinting of biological samples
US20200357484A1 (en) Method for simultaneous multivariate feature selection, feature generation, and sample clustering
US20200105374A1 (en) Mixture model for targeted sequencing
US20160154930A1 (en) Methods for identification of individuals
Aljouie et al. Cross-validation and cross-study validation of chronic lymphocytic leukaemia with exome sequences and machine learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170502

R150 Certificate of patent or registration of utility model

Ref document number: 6141310

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250