本出願は、全体が参照により本明細書に組み込まれる、2013年3月15日に出願された「METHODS AND SYSTEMS FOR ALIGNING REPETITIVE DNA ELEMENTS」と題する国際出願番号第PCT/US2013/030867号(国際公開第2014/142831号)に記載される主題と同様の主題を含む。
本明細書に記載の実施形態は、核酸配列を解析して配列変異を同定することに適用可能であり得る。実施形態を用いて遺伝子座の潜在的アレルを解析し、該遺伝子座の遺伝子型を決定する、言い換えると、該座の遺伝子型コールを提供することができる。一部の場合では、本明細書に記載の方法およびシステムは、そのような遺伝子型コールを複数含む、サンプルレポートまたは遺伝子プロファイルを生成することができる。実施形態はまた、配列変異を含むような核酸配列のシーケンシングおよび/または解析を含むアッセイの、質のモニタリングに適用可能である。配列変異には一塩基多型(SNP)またはショートタンデムリピート(STR)などの多型反復要素が含まれ得る。配列変異は、Combined DNA Index System(CODIS)データベース内にある、さもなければ遺伝子解析で用いられるような、指定の遺伝子座に位置し得る。例えば、配列変異には、CODIS常染色体STR座、CODIS Y-STR座、EU常染色体STR座、およびEU Y-STR座などから選択されるSTRが含まれ得る。CODISはFBIの研究機関により同定されたコアSTR座の組であり、13個の座:CSF1PO、FGA、TH01、TPOX、VWA、D3S1358、D5S818、D7S820、D8S1179、D13S317、D16S539、D18S51、およびD21S11が含まれる。対象の追加STRには、PENTA DおよびPENTA Eが含まれ得るが、他のSTRも本明細書に記載の実施形態により解析することができる。SNPは、米国立生物工学情報センター(National CEnter for Biotechnology Information、NCBI)のdbSNPデータベースといった既知のデータベース内にある場合がある。STRおよびSNPも同様に、今後の研究で同定することができる。
本明細書で用いる場合、用語「配列」は、互いに結合したヌクレオチド鎖を含む、または、表す。ヌクレオチドはDNAまたはRNAに基づき得る。1つの配列が多数のサブ配列を含み得ることを理解すべきである。例えば、(例えば、PCRアンプリコンの)単一サンプルリードは、350個のヌクレオチドを有する配列を有し得る。サンプルリードは、これらの350ヌクレオチド内に多数のサブ配列を含み得る。例えば、サンプルリードは、例えば20〜50個のヌクレオチドを有する、第1フランキングサブ配列および第2フランキングサブ配列を含み得る。第1フランキングサブ配列および第2フランキングサブ配列は、対応するサブ配列(例えば、40〜100個のヌクレオチド)を有する反復セグメントの何れかの側に位置し得る。フランキングサブ配列はそれぞれプライマーサブ配列(例えば、10〜30個のヌクレオチド)(または、該プライマーサブ配列の一部)を含み得る。読みやすさのため、用語「サブ配列」は「配列」ともいうが、2つの配列は共通の鎖において必ずしも互いに離れているわけではないことが理解される。本明細書に記載の種々の配列を区別するため、該配列には異なる標識を与える場合がある(例えば、標的配列、プライマー配列、フランキング配列、および基準配列など)。「アレル」などの他の用語には、対象のように区別するために異なる標識を与える場合がある。
本明細書で用いる場合、用語「関心領域」つまり「ROI」には、1つまたは複数の反復モチーフ連続を含むサンプルリードの反復セグメントが含まれる。反復モチーフ連続はSTRであり得る。一部の実施形態では、ROIは単なる反復セグメント(例えば、STR)である。しかしながら、他の実施形態では、ROIはフランキング領域のサブ配列を含み得る。例えば、ROIは、反復セグメントと、該反復セグメントの一方の端部から伸長する約1〜5ヌクレオチドの第1フランキング領域と、該反復セグメントの反対側の端部から伸長する約1〜5ヌクレオチドの第2フランキング領域を含み得る。
反復セグメントは、全体で同一のモチーフを有する必要はないことを理解すべきである。反復セグメントはXモチーフ連続を、次にYモチーフ連続を、次にZモチーフ連続(または別のXモチーフ連続)などを含むことができる。[TAGA]11[TAGG]1[TG]5という反復セグメントは、上記の一具体例である。反復セグメントは、全体で反復モチーフを有する必要はないことも理解すべきである。上記例に示すように、反復セグメントには、非反復モチーフに割り込まれた反復モチーフが含まれ得る。上記例の[TAGG]は、このような非反復モチーフの1つである。
本明細書で用いる場合、用語「閾値」は、解析コースが変わるポイント、および/または動作が誘発されるポイントを指す。閾値は所定の数である必要はない。代わりに閾値は、例えば、複数のファクタに基づく関数であり得る。言い換えると、閾値は状況に対し適応性がある。例として、複数のサンプルリードが破棄すべきノイズを構成しているか、さらに解析すべきデータを構成しているかを判断する場合に、閾値は、設定数(例えば、10サンプルリード)、または、対応する遺伝子座についての総リード数および遺伝子座についての歴史的な知識といった異なるファクタに基づく関数の何れかとすることができる。さらに、閾値は上限、下限、または限界値に挟まれた範囲を示し得る。誘発され得る動作には、例えば、サンプルがスタッター産物を含むことが疑われること、サンプルがソースの混合物を含むこと、アッセイが特定の問題点を有すること、サンプルの質が悪いことなどをエンドユーザに通知することが含まれ得る。
一部の実施形態では、シーケンシングデータに基づく基準またはスコアを閾値と比較することができる。本明細書で用いる場合、用語「基準」または「スコア」には、シーケンシングデータから求められた値または結果が含まれるか、または、シーケンシングデータから求められた値または結果に基づく関数が含まれ得る。閾値のように、基準またはスコアも状況に適応性がある。例えば、基準またはスコアは、正規化された値とすることができる。
スコアまたは基準の例として、1つまたは複数の実施形態は、データを解析する際にカウントスコアを用いる場合がある。カウントスコアはサンプルリードの数に基づき得る。サンプルリードは、該サンプルリードが少なくとも1つの共通の特質または質を有するように1つまたは複数のフィルタリング段階にかけられている場合がある。例えば、カウントスコアを求めるために用いられるサンプルリードはそれぞれ、基準配列と整列させられた、または、潜在的アレルとして割り当てられた可能性がある。共通の特質を有するサンプルリードの数を数えてリードカウントを求めることができる。カウントスコアはリードカウントに基づき得る。一部の実施形態では、カウントスコアは、リードカウントと等しい値であり得る。他の実施形態では、カウントスコアはリードカウントと他の情報とに基づき得る。例えば、カウントスコアは、遺伝子座の特定のアレルのリードカウントおよび該遺伝子座のリード総数に基づき得る。一部の実施形態では、カウントスコアは遺伝子座のリードカウントおよび該遺伝子座について事前に得られたデータに基づき得る。一部の実施形態では、カウントスコアは所定値の間の正規化スコアであり得る。カウントスコアはまた、サンプルの他の座のリードカウント関数、または、対象のサンプルと同時に走らせた他のサンプルのリードカウント関数であり得る。例えば、カウントスコアは、特定のアレルのリードカウント、およびサンプルの他の座のリードカウント、および/または他のサンプルのリードカウントの関数であり得る。一例として、他の座のリードカウント、および/または、他のサンプルのリードカウントを用いて、特定のアレルのカウントスコアを正規化することができる。
リードカウントは、典型的には、シーケンシングデータから求める。同一のROIを含むリードカウントは、例えば、該ROIを有することが判明したサンプルリードの数であり得る。リードカウント(例えば、350個のサンプルリード)を用いて、スタッター基準を計算し、これを次に指定閾値と比較することができる。例えば、スタッター基準は、リードカウントに、歴史的な知識、サンプルについての知識、座についての知識などに基づく指定の係数を掛けることで求めることができる。スタッター基準は、リードカウントの正規化値とすることができる。
種々の実施形態についての上記及び以下の詳細な記載は、添付の図面と共に読む場合により良く理解されよう。図が種々の実施形態の機能ブロック図を示す範囲において、機能図は必ずしもハードウェア回路の境界を示すわけではない。したがって、例えば、1つまたは複数の機能ブロック(例えば、モジュール、プロセッサ、またはメモリ)は、単一のハードウェア(例えば、多目的シグナルプロセッサ、または、ランダムアクセスメモリもしくはハードディスクなどのブロック)、または複数のハードウェアに実装され得る。同様に、プログラムは、独立型プログラムとすることができ、動作システムでサブルーチンとして組み込むことができ、インストールされたソフトウェアパッケージなどの機能であり得る。種々の実施形態は、図に示される配置および手段に限定されないことを理解すべきである。
本出願は、種々の方法および該方法を実行するためのシステムについて記載する。少なくとも一部の方法を、複数のステップとして図に示す。しかしながら、実施形態は図に示されるステップに限定されないことを理解すべきである。ステップは省略でき、ステップは修正でき、および/または他のステップを追加することができる。例として、本明細書に記載の一部の実施形態は、サンプルを調製およびシーケンシングしてシーケンシングデータを得るステップを含み得るが、他の実施形態は、サンプルを調製することなく、および/または、サンプルをシーケンシングすることなく、シーケンシングデータを直接受信するステップを含み得る。さらに、本明細書に記載のステップは、組み合わせることができ、ステップは同時に行うことができ、ステップは並行して行うことができ、ステップは多数のサブステップに分割することができ、ステップは異なる順で行うことができ、または、ステップ(もしくは一連のステップ)は反復式で再度行うことができる。加えて、頃なる方法を本明細書には記載するが、該異なる方法(または該異なる方法のステップ)は、他の実施形態において組み合わせ可能であることを理解すべきである。
図1は、一実施形態に従う方法100を示す。方法100は、102で、DNAなどの核酸を含む、または含むことが疑われる生体サンプルを受け付けるステップを含む。生体サンプルは、動物(例えば、ヒト)、植物、細菌、または菌類といった既知または未知のソースに由来していてよい。生体サンプルはソースから直接採取することができる。例えば、血液または唾液を個体から直接採取することができる。あるいは、サンプルをソースから直接得ることができない場合もある。例えば、生体サンプルは、犯罪現場、発掘された遺物、または、調査中の他のエリア(例えば、史跡)から得られる場合がある。本明細書で用いる場合、用語「生体サンプル」には、生体サンプルが異なるソースに由来する多数の生体サンプルを含む可能性がある。例えば、犯罪現場から得られた生体サンプルには、異なる個体に由来するDNAの混合物が含まれる場合がある。
方法100はまた、104で、シーケンシング用のサンプルを調製するステップを含み得る。調製104は、無関係の物質を取り除くステップ、および/または、ある物質(例えば、DNA)を単離するステップを含み得る。生体サンプルは、特定のアッセイに必要な特徴を含むように調製することができる。例えば、生体サンプルは合成によるシーケンシング(sequencing-by-synthesis、SBS)用に調製することができる。ある実施形態では、調製にはあるゲノム領域の増幅を含み得る。例えば、104での調製には、STRおよび/またはSNPを含むことが知られている所定の遺伝子座を増幅することが含まれ得る。遺伝子座は、所定のプライマー配列を用いて増幅することができる。
106では、サンプルをシーケンシングすることができる。シーケンシングは、種々の既知のシーケンシングプロトコルを介して行うことができる。特定の実施形態では、シーケンシングにはSBSが含まれる。SBSでは、複数の蛍光標識ヌクレオチドを用いて、光学基板の表面(例えば、フローセルにおいてチャネルを少なくとも部分的に定義する表面)にある増幅DNAの複数のクラスタ(場合により数百万個のクラスタ)をシーケンシングする。フローセルは、シーケンシング用の核酸を含み得、ここでフローセルは、適切なフローセルホルダー内に置かれる。シーケンシング用のサンプルは、個別に解像可能であるように互いに分離した単一の核酸分子、クラスタもしくは他の形状をした核酸分子の増幅集合、または、1つまたは複数の核酸分子に付着するビーズの形をとることが可能である。
核酸は、プライマーシーケンスとも言われる、未知の標的配列に隣接する既知のオリゴヌクレオチドプライマーを含むように調製することが可能である。第1のSBSシーケンシングサイクルを開始するため、異なって標識された1つまたは複数のヌクレオチド、およびDNAポリメラーゼなどを、流体フローサブシステム(図示せず)によりフローセルに流すことが可能である。単一種類のヌクレオチドを一度に加えことができるか、または、シーケンシング手順で用いるヌクレオチドを可逆終止(reversible termination)特性を持つように特別に設計できるかの何れかにより、シーケンシング反応の各サイクルを、数種類の標識ヌクレオチド(例えば、A、C、T、G)の存在下で同時に起こす。ヌクレオチドは、フルオロフォアなどの検出可能標識部を備えることが可能である。4つのヌクレオチドが混在している場合、ポリメラーゼは正しい塩基を選択して組み込むことが可能であり、各配列は単一塩基により伸長される。組み込まれなかったヌクレオチドはフローセルに洗浄液を流すことにより洗い流すことが可能である。1つまたは複数のレーザが核酸を励起し、蛍光を引き起こすことができる。核酸から放出される蛍光は、組み込まれた塩基のフルオロフォアに基づき、異なるフルオロフォアは異なる波長の出射光を放出し得る。脱ブロック化(deblocking)試薬をフローセルに加えて、伸長および検出されたDNA鎖から可逆終止基を取り除くことが可能である。次に、洗浄液をフローセルに流すことにより脱ブロック化試薬を洗い流すことが可能である。フローセルはここで、上記のように標識ヌクレオチドの導入で始まるシーケンシングのさらなるサイクルに向けての準備ができている。流体ステップおよび検出ステップを数回繰り替えしてシーケンシングランを完了することが可能である。例示的なシーケンシング法は、例えば、Bentley et al., Nature 456:53-59 (2008)、国際公開第04/018497号、米国特許第7057026号明細書、国際公開第91/06678号、同第07/123744号、米国特許第7329492号明細書、同第7211414号明細書、同第7315019号明細書、同第7405281号明細書、および米国特許出願公開第2008/0108082号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。
一部の実施形態では、核酸を表面に付着させ、シーケンシングの前またはシーケンシング中に増幅することが可能である。例えば、ブリッジ増幅を用いて増幅を実行して、表面上に核酸クラスタを形成することが可能である。有用なブリッジ増幅法は、例えば、米国特許第5641658号明細書、米国特許出願公開第2002/0055100号明細書、米特許第7115400号明細書、米国特許出願公開第2004/0096853号明細書、同第2004/0002090号明細書、同第2007/0128624号明細書、および同第2008/0009420号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。表面において核酸を増幅するための別の有用な方法は、RCA(rolling circle amplification)法であり、これは例えば、Lizardi et al., Nat. Genet. 19:225-232 (1998)および米国特許出願公開第2007/0099208号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。
特に有用なSBSプロトコルは、除去可能な3’ブロックを有する修飾ヌクレオチドを活用し、これは例えば、国際公開第04/018497号、米国特許出願公開第2007/0166705号明細書、および米国特許第7057026号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。例えばSBS反復サイクル試薬を、例えばブリッジ増幅プロトコルの結果として、標的核酸が付着したフローセルに送達することが可能である。核酸クラスタは、線形化溶液を用いて一本鎖の形に変換することが可能である。線形化溶液には、例えば、各クラスタの一鎖を切断することが可能な制限エンドヌクレアーゼが含まれ得る。他の切断方法を制限酵素またはニッキング酵素の代わりとして用いることが可能であり、これにはとりわけ、化学的切断(例えば、ペリオデート(periodate)を用いたジオール結合の切断)、エンドヌクレアーゼ(例えば、NEB(アメリカ合衆国マサチューセッツ州イプスウィッチにより供給される「USER」、品番M5505S)、熱もしくはアルカリへの露出による切断による非塩基部位の切断、増幅産物に組み込まれた、さもなければデオキシリボヌクレオチドを含むリボヌクレオチドの切断、光化学切断、またはペプチドリンカーの切断が含まれる。線形化ステップの後、シーケンシングプライマーをシーケンシングすべき標的核酸にハイブリダイズする条件下で、シーケンシングプライマーをフローセルに送達することが可能である。
フローセルを次に、除去可能な3'ブロックと蛍光標識とを有する修飾ヌクレオチドを含むSBS伸長試薬に、各標的核酸にハイブリダイズさせたプライマーを単一ヌクレオチドの追加により伸長させるための条件下で接触させることが可能である。シーケンシングする鋳型領域に相補的な成長ポリヌクレオチド鎖に修飾ヌクレオチドをいったん組み込んだら、さらなる配列伸長を誘導するのに利用可能なフリー3'-OH基がなく、そのため、ポリメラーゼはさらなるヌクレオチドを付加することができないことから、単一ヌクレオチドのみを各プライマーに加える。SBS伸長試薬を取り除き、放射線での励起下でサンプルを保護する成分を含むスキャン試薬と交換する。スキャン試薬の例示的な成分は、米国特許出願公開第2008/0280773号明細書および米国特許出願第13/018255号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。伸長した核酸は次にスキャン試薬の存在下で蛍光検出することが可能である。蛍光がいったん検出されたら、使用したブロッキング基に適した脱ブロック試薬を用いて3'ブロックを取り除いてよい。それぞれのブロッキング基に有用な例示的な脱ブロック試薬は、国際公開第04/018497号、米国特許出願公開第2007/0166705号明細書、および米国特許第7057026号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。脱ブロック試薬を洗い流して、さらなるヌクレオチドの付加に目下適した、3'OH基を有する、伸長されるプライマーにハイブリダイズした標的核酸を残すことが可能である。したがって、伸長試薬、スキャン試薬、および脱ブロック試薬を追加するサイクルを、1つまたは複数のステップ間で任意の洗浄とともに、所望の配列が得られるまで繰り替えることが可能である。修飾ヌクレオチドそれぞれに、特定の塩基に対応することが知られている異なる標識を付着させている場合は、単一伸長試薬送達ステップをサイクルごとに用いて、上記のサイクルを実行することが可能である。異なる標識は各組み込みステップ中に付加されたヌクレオチドの識別を容易にする。あるいは、各サイクルは、伸長試薬送達という別箇のステップの後にスキャン試薬送達および検出という別箇のステップを含むことが可能であり、この場合、2つ以上のヌクレオチドが同じ標識を有することが可能で、既知の送達順に基づいて識別することが可能である。
フローセルの核酸クラスタの例を続け、核酸をさらに処置して、「ペアエンドシーケンシング(paired-end sequencing)」法として知られる方法で反対側の末端から第2リードを得ることが可能である。ペアエンドシーケンシング法は、ユーザが標的断片の両末端をシーケンシングすることを可能にする。ペアエンドシーケンシング法は、遺伝子融合および新規の転写物同様に、ゲノムの転移および反復セグメントの検出を容易にし得る。ペアエンドシーケンシング法の方法論は、国際公開第07/010252号、国際出願番号第PCT/GB2007/003798号、および米国特許出願公開第2009/0088327号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。一例では、一連のステップを以下のように行うことができる;(a)核酸クラスタを生成し、(b)核酸を線形化し、(c)第1シーケンシングプライマーをハイブリダイズし、上記のように、伸長、スキャン、および脱ブロック化の反復サイクルを実行し、(d)相補的コピーを合成することにより、標的核酸をフローセルの表面で「反転」させ、(e)再合成した鎖を線形化し、そして、(f)第2シーケンシングプライマーをハイブリダイズさせ、上記のように、伸長、スキャン、および脱ブロック化の反復サイクルを実行する。反転ステップは、ブリッジ増幅の単一サイクルについて上記したように、試薬を送達することにより実行することが可能である。
106におけるシーケンシング動作は、特定のSBSプロトコルに関して上記で例示されたが、種々の他の分子の何れかをシーケンシングするための他のプロトコルを、要望通りに実行可能であることが理解されよう。例えば、ビーズにおけるエマルジョンPCRも用いることができ、これは例えば、Dressman et al., Proc. Natl. Acad. Sci. USA 100:8817-8822 (2003)、国際公開第05/010145号、米国特許出願公開第2005/0130173号明細書、または同第2005/0064460号明細書に記載されており、これらはそれぞれその全体が参照により本明細書に組み込まれる。本明細書に記載する方法およびシステムに用いるのに適応可能な他のシーケンシング技法は、パイロシーケンシング法、ナノポアシーケンシング法、およびライゲーションによるシーケンシング法である。例示的なパイロシーケンシング技法および特に有用なサンプルは、米国特許第6210891号明細書、同第6258568号明細書、同第6274320号明細書、およびRonaghi, Genome Research 11:3-11 (2001)に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。例示的なナノポア技法および有用でもあるサンプルは、Deamer et al., Acc. Chem. Res. 35:817-825 (2002)、Li et al., Nat. Mater. 2:611-615 (2003)、Soni et al., Clin Chem. 53:1996-2001 (2007)、Healy et al., Nanomed. 2:459-481 (2007)、Cockroft et al., J. am. Chem. Soc. 130:818-820、および米国特許第7001792号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。特に、これらの方法は、反復試薬送達ステップを利用する。本明細書に記載の機器または方法は、上記参考文献に記載されているような所望のプロトコルに従って試薬を導入し、光学シグナルを検出するために、リザーバ、バルブ、流体ライン、および他の流体構成要素、ならびに、これらの構成要素のための制御システムで構成することが可能である。種々のサンプルの何れかを、エマルジョンPCRにより生成されるビーズを有する基板、zero-mode waveguideを有する基板、統合CMOS検出器を有する基板、脂質二層膜に生物学的ナノポアを有する基板、合成ナノポアを有するソリッドステート基板、および当技術分野で既知の他のものといったシステムで、用いることが可能である。このようなサンプルは、上記参考文献の種々のシーケンシング技法についての文脈で、さらには米国特許出願公開第2005/0042648号明細書、同第2005/0079510号明細書、同第2005/0130173号明細書、および国際公開第05/010145号において記載されており、これらはそれぞれ参照により本明細書に組み込まれる。
上記のSBSプロトコルのうち1つまたは複数を実行することが可能であり得るシステムとしては、Illumina社が開発したシステム、例えば、MiSeq、HiSeq 2500、HiSeq X Ten、NeoPrep、HiScan、およびiScanが挙げられる。上記のSBSプロトコルのうち1つまたは複数を実行することが可能なシステムは、米国特許出願公開第13/273666号明細書および同第13/905633号明細書に記載されており、これらはそれぞれその全体が参照により本明細書に組み込まれる。
108では、シーケンシングデータを110での後続の解析のために受信することができる。シーケンシングデータには、例えば、いくつかのサンプルリードが含まれ得る。各サンプルリードはヌクレオチド配列を含み得、これはサンプル配列または標的配列といい得る。サンプル配列には、例えば、プライマー配列、フランキング配列、および標的配列が含まれ得る。サンプル配列内のヌクレオチド数には、30、40、50、60、70、80、90、または100以上が含まれ得る。一部の実施形態では、1つまたは複数のサンプルリード(または、サンプル配列)には、少なくとも150ヌクレオチド、200ヌクレオチド、300ヌクレオチド、400ヌクレオチド、または500ヌクレオチド以上が含まれる。一部の実施形態では、サンプルリードには、1000ヌクレオチド超、または2000ヌクレオチド以上が含まれ得る。サンプルリード(または、サンプル配列)の一末端または両末端には、プライマー配列が含まれ得る。ある実施形態では、各サンプルリードは、鋳型に沿って反対向きで別のリードと関連し得る。例えば、106でのシーケンシングには、ペアエンドシーケンシングが含まれ得、ここでは第1リード(リード1)を実行し、その後に第2リード(リード2)が反対向きで続く。第1リードおよび第2リードにはそれぞれ、標的配列の全てまたは標的配列のほぼすべてが含まれ得る。しかしながら、他の実施形態では、第2リードに得られるものの一部のみが含まれる、「非対称」ペアエンドシーケンシングを用いることができる。例えば、第2リードは、第2リード配列の先頭近くに位置するプライマー配列の同一性を確かめるための、限定された数のヌクレオチドのみを含む。例として、第1リードは300〜500ヌクレオチドを含み得るが、第2リードは20〜50ヌクレオチドのみを含み得る。
110での解析を、以下でより詳細に記載する。110での解析には、サンプルリードを指定のやり方で解析して所望の情報を得る、単一プロトコルまたはプロトコルの組み合わせが含まれ得る。110での解析の非限定的例には、サンプルリードを解析してある遺伝子座に該サンプルリードを割り当てる(または、該サンプルリードを指定する)こと、前記サンプルリードを解析して該サンプルリードの長さおよび/もしくは配列を同定すること、前記サンプルリードを解析して、ある座の標的アレルに関連するROIを分類すること、異なる標的アレルのサンプルリード(もしくはROI)を解析して、一標的アレルのROIが別の標的アレルのROIのスタッター産物であると疑われるか否かを判断すること、遺伝子座の遺伝子型を同定すること、ならびに/または、アッセイの調子もしくは品質管理をモニタリングすることが含まれ得る。
方法100にはまた、112においてサンプルレポートを生成する、または提供するステップが含まれ得る。サンプルレポートには、例えば、サンプルについて、複数の遺伝子座に関する情報が含まれ得る。例えば、所定の遺伝子座の組の各遺伝子座について、サンプルレポートは、遺伝子型コールの提供、遺伝子型がコールできないことの示唆、遺伝子型コールの確実性についての信頼性スコアの提供、または、1つもしくは複数の遺伝子座に関するアッセイで起き得る問題の示唆のうち、少なくとも1つを行い得る。サンプルレポートはまた、サンプルを提供した個体の性別を示す、および/またはサンプルが多数のソールを含むことを示すことができる。本明細書で用いる場合、「サンプルレポート」には、遺伝子座もしくは所定の遺伝子座の組のデジタルデータ(例えば、データファイル)、および/または、遺伝子座もしくは遺伝子座の組の印刷されたレポートが含まれ得る。したがって、112において生成または提供するステップには、データファイルを生成するステップ、および/またはサンプルレポートを印刷するステップ、または、サンプルレポートを表示するステップが含まれ得る。
図2は、配列変異を有するサンプルリードのシーケンシングデータを解析する、方法150を示すフローチャートである。図2は、図1の異なるステップをさらに示す図3に関連して、以下に記載する。方法150は、152で1つまたは複数のソースからシーケンシングデータを受信するステップを含む。シーケンシングデータには、対応するヌクレオチドのサンプル配列を有する複数のサンプルリードが含まれ得る。図3は、サンプルリード180の例を示す。用語「同定配列」および「配列変異」は、サンプル配列の一部を表す。1つのサンプルリード180のみを示すが、配列データには、例えば、数百、数千、数十万、または数百万のサンプルリードが含まれ得ることを理解すべきである。異なるサンプルリードは、異なる数のヌクレオチドを有し得る。例えば、サンプルリードは、10ヌクレオチド〜約500ヌクレオチド以上に及び得る。しかしながら、サンプルリードは、他の実施形態においてより多くのヌクレオチドを含み得る。サンプルリードはソースの全ゲノムに及び得る。特定の実施形態では、サンプルリードは、STRまたはSNPを有すると疑われる遺伝子座など所定の遺伝子座に向けられる。サンプルリードは、対象の遺伝子座と関連する既知のプライマー配列に基づいて選択することができる。例えば、サンプルリードには、対象の遺伝子座に関連するプライマー配列を用いて得られるPCRアンプリコンが含まれ得る。
154では、サンプルリードをそれぞれ対応する遺伝子座に割り当てることができる。サンプルリードは、サンプルリードのヌクレオチド配列に基づいて、言い換えればサンプル内のヌクレオチドの順番(例えば、A、C、G、T)に基づいて、対応する遺伝子座に割り当てることができる。この解析に基づいて、サンプルリードを、特定の遺伝子座の潜在的アレルを含むものとして指定することができる。サンプルリードを、遺伝子座の潜在的アレルを含むものとして指定された他のサンプルリードとともに集める(または、集約する、またはビンに変換する)ことができる。異なる遺伝子座は、図3のビン182として示す。遺伝子座は、特定のアッセイで用いる遺伝子座の所定の組とすることができる。例えば、連邦捜査局が、犯罪の潜在的容疑者の遺伝子プロファイルを生成するのに用いることができる、13個のSTR座を同定した。FBI基準を例として用いて、方法150はサンプルリードをそれぞれ、可能であれば13個のビンのうち1つに割り当てることができる。
異なるビンのサンプルリードを、続いて別の解析にかけることができる。例えば、サンプルリードを、STRを含む遺伝子座に割り当てることができる。このような座はSTR座ということができる。しかしながら、サンプルリードはSNPを含む遺伝子座に割り当てることもできる。ことのような座はSNP座ということができる。典型的なサンプルリードでは、サンプルリードは1つの遺伝子座(または1つのビン)のみに割り当てられるだろう。このような状況では、サンプルリードは次に、遺伝子座の種類別に構成された解析にかけられよう。具体的には、STR座に割り当てられたサンプルリードはSTR解析にかけられる一方、SNP座に割り当てられたサンプルリードはSNP解析にかけられるだろう。しかしながら一部の状況では、サンプルリードが2つ以上の遺伝子座に割り当てられる可能性があるため、サンプルリードは2種類以上の解析にかけられる場合がある。
154での割り当て動作は座コーリングともいい、ここでサンプルリードが特定の座と関連する可能性があることが特定される。サンプルリードを解析して、サンプルリードを他のサンプルリードから識別する、1つまたは複数のヌクレオチドの同定配列(例えば、プライマー配列)の位置を特定することができる。具体的には、同定配列は、サンプルリードを特定の遺伝子座に関連するものとして他のサンプルリードから同定することができる。同定配列は、サンプルリードの一方の末端を含む、または、該末端の近く(例えば、10〜30ヌクレオチド内)に位置することができる。特定の実施形態では、サンプルリードの同定配列は、ソースの配列を選択的に増幅するために用いたプライマー配列に基づく。しかしながら、他の実施形態では、同定配列はサンプルリードの末端近くに位置しない場合がある。
一部の実施形態では、同定配列を複数の所定の配列と比較して、同定配列の何れかが所定配列の1つと同一またはほぼ同一であるかを判断する。例えば、各同定配列を、データベース184(例えば、参照テーブル)内の所定配列のリストと比較することができる。所定配列は、ある遺伝子座と相互に関連し得る。以下、データベースの所定配列を選択配列という。各選択配列は、ヌクレオチド配列を表す。同定配列が選択配列の何れかに実質的にマッチする場合、同定配列を有するサンプルリードを、選択配列と相互に関連する遺伝子座に割り当てることができる。サンプルリードは2つ以上の選択配列に実質的にマッチする可能性がある。このような場合、サンプルリードをその選択配列の遺伝子座それぞれに割り当て、さらなる解析にかけて、サンプルリードがコールされるべきなのはいずれの遺伝子座であるかを決定することができる。
解析中に用いられる、所定の数の選択配列が存在し得る。例えば、本明細書に記載の実施形態により生成される遺伝子プロファイルには、約5〜約300の遺伝子座の解析が含まれ得る。特定の実施形態では、遺伝子座の数は、約5〜約100の遺伝子座、具体的には約10〜約30の遺伝子座とすることができる。しかしながら、他の数の遺伝子座も用いることができる。各遺伝子座は、該遺伝子座と関連する限られた数の選択配列を有し得る。限られた数の遺伝子座と、各遺伝子座に関連する限られた数の選択配列を用いて、計算資源を過剰に用いることなく、サンプルリードを遺伝子座にコールすることができる。一部の実施形態では、選択配列は、所定のDNA配列を選択的に増幅するのに用いられたプライマー配列に基づく。
各選択配列は、遺伝子座の同定配列(例えば、プライマー配列)に基づき得るが、選択配列は、同定配列のヌクレオチドを全て含むわけではない場合がある。例として、選択配列には、1つのサンプルリードの同定配列のnヌクレオチド連続が含まれ得る。特定の実施形態では、選択配列は、同定配列の最初のnヌクレオチドを含み得る。数nは、一遺伝子座のアレルを別の標的座のアレルから識別するのに十分であり得る。一部の実施形態では、数nは、10〜30である。
154での割り当て動作には、同定配列のnヌクレオチド連続を解析して、同定配列のnヌクレオチド連続が、1つまたは複数の選択配列と実質的にマッチするか否かを判断することが含まれ得る。特定の実施形態では、154での割り当て動作には、サンプル配列の先頭のnヌクレオチドを解析して、該サンプル配列の最初のnヌクレオチドが1つまたは複数の選択配列と実質的にマッチするか否かを判断することが含まれ得る。数nは種々の値であり得、これはプロトコルにプログラミングされるか、または、ユーザにより入力され得る。例えば、数nは、データベース内の最も短い選択配列のヌクレオチド数と定義することができる。数nは、所定の数であり得る。所定の数は、例えば、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、または30ヌクレオチドであり得る。しかしながら、より少ない、またはより多いヌクレオチドも他の実施形態で用いることができる。数nはまた、システムのユーザなど個人により選択されることができる。数nは、1つまたは複数の条件に基づく場合がある。例えば、数nは、データベース内の最も短いプライマー配列のヌクレオチド数か指定の数の、何れかより小さい数と定義することができる。一部の実施形態では、nには最小値を、例えば15を用いてよく、その結果、15ヌクレオチド未満の任意のプライマー配列を例外として指定できるようにする。
一部の場合では、同定配列のnヌクレオチド連続は、選択配列のヌクレオチドに正確にマッチすることができない。そうであっても、同定配列は、該同定配列が選択配列にほぼ整列していれば、選択配列に実質的にマッチし得る。例えば、同定配列のnヌクレオチド連続(例えば、最初のnヌクレオチド)が指定の数のミスマッチ(例えば3)、および/または、指定の数のシフト(例えば2)のみをもって選択配列とマッチする場合、サンプルリードを遺伝子座にコールすることができる。各ミスマッチまたはシフトがサンプルリードとプライマー配列の相違としてカウントされ得るように、ルールを定めることができる。相違の数が指定の数未満である場合、サンプルリードを対応する遺伝子座にコールする(つまり、対応する遺伝子座に割り当てる)ことができる。一部の実施形態では、サンプルリードの同定配列と遺伝子座に関連する選択配列の相違の数に基づくマッチングスコアを求めることができる。マッチングスコアが指定したマッチング閾値を上回る場合、選択配列に対応する遺伝子座を、サンプルリードの潜在的座として指定することができる。一部の実施形態では、後続の解析を実行して、サンプルリードを遺伝子座にコールするか否かを判断することができる。
同定配列と選択配列の相違についての指定数は、例えば、対応する選択配列内のヌクレオチド総数の20%未満の数、具体的には、対応する選択配列内のヌクレオチド総数の15%未満の数とすることができる。指定相違数は、6、5、4、3、または2などの所定の値とすることができる。したがって、句「実質的にマッチする」には、選択配列と正確にマッチする、または、選択配列とnヌクレオチド連続の間に限られた数の相違をもちながら選択配列とほぼマッチするnヌクレオチド連続を有する、サンプル配列が含まれる。
サンプルリードがデータベースの選択配列の1つに実質的にマッチする(つまり、上記のように正確にマッチする、またはほぼマッチする)場合、サンプルリードは選択配列と相互に関連する遺伝子座に割り当てられる、または指定される。これは、座コーリングまたは暫定座コーリングということができ、ここでは、サンプルリードが、選択配列に相互に配列する遺伝子座にコールされる。しかしながら、上記のように、サンプルリードは2つ以上の遺伝子座にコールされる場合がある。このような実施形態では、さらなる解析を実行して、サンプルリードを潜在的遺伝子座のうち1つのみにコールする、または割り当てることができる。
一部の実施形態では、データベースと比較するサンプルリードは、ペアエンドシーケンシングの第1リードである。さらに多くの特定の実施形態では、サンプルリードと相互に関連する第2リードを解析して、第2リード内の同定配列がデータベースからの選択配列に実質的にマッチすることを確かめることができる。第2リード用データベースの選択配列は、第1リード向けに用いる選択配列とは異なる場合がある。一部の実施形態では、サンプルリードは、第2リードもデータベースの選択配列と実質的にマッチすることが確認されて初めて、遺伝子座にコールされる。第2リードが選択配列と実質的にマッチするか否かの判断は、上記と同様のやり方で行うことができる。第2リードが選択配列と実質的にマッチすることを確認することにより、標的外(off-target)サンプルリード(例えば、標的外アンプリコン)をさらなる解析から除外することができる。
特定の遺伝子座にコールされたサンプルリードを、特定の遺伝子座の「割り当てリード」ということができる。この段階では、割り当てリードは特定の遺伝子座と相互に関連する可能性があると同定されているが、該割り当てリードはさらなる解析に適さないだろうという可能性もある。具体的には、割り当てリード(read)または割り当てリード(reads)は、その後、他の要因に基づきさらなる解析から外される場合がある。
154で割り当てリードを対応する遺伝子座に割り当てた後、サンプルリードを次にさらに解析することができる。割り当てリードで行われる後続の解析は、割り当てリードをコールされた遺伝子座の種類に基づき得る。例えば、遺伝子座がSNPを含むことが知られている場合、遺伝子座にコールされた割り当てリードを156で解析にかけ、割り当てリードのSNPを同定することができる。遺伝子座が多型反復DNA要素を含むことが知られている場合、割り当てリードを158で解析し、サンプルリード内の多型反復DNA要素を同定する、または特徴付けることができる。一部の実施形態では、割り当てリードがSTR座およびSNP座と実質的にマッチする場合、警告またはフラグがサンプルリードに割り当てられる。サンプルリードはSTR座とSNP座の両方として指定され、156の解析および158の解析にかけられ得る。
一部の実施形態では、STR解析は図4〜7に関連して以下で記載するプロトコルを用いて実行することができる。158での解析には、サンプルリードを解析してROIを同定することが含まれ得、これには、ROIの配列および/またはROIの長さを求めることが含まれ得る。ROIはサンプルリード配列(例えば、サンプル配列のサブ配列)であり得る。ROIには、反復セグメントが含まれ得る。ROIは、1つまたは複数の反復モチーフ連続(つまり、反復セグメント)のみを含む、または、反復セグメントの一末端または両末端から伸長する指定の数のヌクレオチドに加えて、1つまたは複数の反復モチーフ連続を含む、ヌクレオチド配列であり得る。具体的には、ROIはそれぞれ1つまたは複数の反復モチーフ連続を含み得、ここでは各反復モチーフは、(例えば、2つ、3つ、4つ、5つ、または6つ以上の)ヌクレオチドの同一のヌクレオチド組を含む。一般的に用いられる反復モチーフにはテトラヌクレオチドが含まれるが、他のモチーフ、例えば、モノヌクレオチド、ジヌクレオチド、トリヌクレオチド、ペンタヌクレオチド、またはヘキサヌクレオチドも用いることができる。特定の実施形態では、反復モチーフにはテトラヌクレオチドが含まれる。
158での解析には、指定座それぞれの割り当てリードを解析して、割り当てリード内の対応するROIを同定することが含まれ得る。具体的には、ROIの長さおよび/または配列を求めることができる。158での解析には、割り当てリードをアライメントプロトコルに従って整列させて、割り当てリードの配列および/または長さを求めることが含まれる。アライメントプロトコルには、2013年3月15日に出願された国際出願番号第PCT/US2013/030867号(国際公開第2014/142831号)に記載された方法が含まれ、該文献はその全体が参照により本明細書に組み込まれる。
しかしながら、他のアライメントプロトコルも用いることができる。例えば、1つの既知のアライメントプロトコルはサンプルリードを基準リードに整列させる。別の既存のアプローチは、サンプルリードを基準ラダーに整列させる。この例では、NGS全ゲノム配列データまたは非反復DNA領域の標的シーケンシングで典型的になされるように、全て既知であるSTRアレルのラダーを作成し、リードを基準ゲノムに整列させることにより、「基準ゲノム」が作成される。本明細書で記載の実施形態で用いることができる別の方法論は、lobSTRとして知られる。lobSTR法は、STRについての事前知識なしに、de novoで単一サンプルのシーケンシングデータから全ての既存のSTRを感知し、コールする(Gymrek et al. 2012 Genome Research 22:1154-62(これはその全体が参照により本明細書に組み込まれる)を参照)。
国際出願番号第PCT/US2013/030867号(国際公開第2014/142831号)に記載されているアライメント法を、ここでは、ROIを含む遺伝子座のために記載する。読みやすさのため、このような遺伝子座をSTR座ということができる。一部の実施形態では、STR座の保存フランクを用いて、反復セグメントの配列を実質的に求める。154でサンプルリードを対応するSTR座に割り当てた後、実施形態は、対応する反復セグメントの各側のフランキング配列セクションを整列させて、反復セグメントの長さおよび配列を求めることができる。アライメントを、k-mer戦略を用いてシードすることができる。シード領域は、例えば、反復セグメントに近い、フランキング配列の複雑度の高い選択領域に存在することが可能だが、反復セグメントに対し相同性を有する複雑度の低い配列は避けることが可能である。このようなアプローチは、反復セグメントに近い、複雑度の低いフランキング配列のミスアライメントを避けることができる。
実施形態は、ヒト個体群間の既知の既存変異に基づき事前に定義された、STR自体のフランクにおける既知の配列を利用することができる。有利なことに、フランキング領域の短い範囲のアライメントを実行することは、他の方法よりも計算的により速い。例えば、全リードの動的プログラミングアライメント(Smith-Waterman type)は、特に多数のサンプル配列を整列させなければならない場合、CPU集約的で時間がかかる。さらに、時間のかかる全配列のアライメント(これについては基準が存在し得ない)が、高価な計算資源を独占する。
実施形態は、フランキング配列についての事前知識を利用して、STRアレルの適切なコールを確実にする。対照的に、既存の方法は各アレルの完全な基準配列に依存し、不完全な基準がある状況では重大な失敗率に直面する。配列が知られていない多くのアレルがあり、さらに未知のアレルがある可能性もある。例示のため、配列TCAGCTAで始まる3’フランクを有する単純な反復モチーフ[TCTA]を有する反復セグメントを想定する。したがって、基準には[フランク1][TCTA]nTCAGCTA[フランク2の残り](ここで、「n」はアレルにおける反復数である)などの配列が含まれ得る。9.3アレルは、配列に沿ってどこかに欠失部分を有することにより10アレルとは異なるだろう。これらは基準に含まれ得るが、全てが含まれるわけではない場合がある。[TCTA]7TCA[TCTA]2がこのようなアレルの例である。既存のアライメントプロトコルの下では、[TCTA]7の後および最終の[TCTA]の前で終端する任意のリードは、[フランク1][TCTA]7TCAGCTAに整列させられ、不適切なコールを行う。
本明細書で提供する実施形態は、多型反復DNA要素の長さ、または、第1保存フランキング領域および第2保存フランキング領域の間に位置する反復セグメントを求めることを可能にする。一実施形態では、本方法は、多型反復DNA要素の少なくとも1つのサンプルリードを含むデータ組を提供するステップと、第1保存フランキング領域および第2保存フランキング領域を含む基準配列を提供するステップと、基準配列の第1フランキング領域の一部をサンプルリードに整列させるステップと、基準配列の第2フランキング領域の一部をサンプルリードに整列させるステップと、反復セグメントの長さおよび/または配列を求めるステップとを含む。典型的な実施形態では、本方法の1つまたは複数のステップは、適切にプログラミングされたコンピュータを用いて実行される。
本明細書で用いる場合、用語「サンプルリード」は、反復要素の長さおよび/または同一性が決定される配列データを指す。サンプルリードは、DNAまたはRNAに基づき得る。サンプルリードは、反復要素の全て、またはその一部を含むことが可能である。サンプルリードはさらに、反復要素の一末端に保存フランキング領域(例えば、5’フランキング領域)を含むことが可能である。サンプルリードはさらに、反復要素の別の末端に追加の保存フランキング領域(例えば、3’フランキング領域)を含むことが可能である。典型的な実施形態では、サンプルリードには、フォワードプライマー配列およびリバースプライマー配列を有するPCRアンプリコンからの配列データが含まれる。配列データは、任意の選択配列方法論から得ることが可能である。サンプルリードは、例えば、合成によるシーケンシング(SBS)反応、ライゲーションによるシーケンシング反応、または反復要素の長さおよび/または同一性を決定することが望まれる、任意の他の適切なシーケンシング方法論に由来するものとすることが可能である。サンプルリードは、多数のサンプルリードに由来するコンセンサス(例えば、平均または加重した)配列であり得る。ある実施形態では、基準配列を提供することには、PCRアンプリコンのプライマー配列に基づき対象の座を同定することが含まれる。
本明細書で用いる場合、用語「多型反復DNA要素」は、任意の反復DNA配列を指し、これは反復セグメントということができる。本明細書で提供する方法を用いて、任意のこのような反復DNA配列の対応するフランキング領域を整列させることが可能である。本明細書で提示する方法は、反復の種類とは無関係に、整列させることが難しい任意の領域に用いることが可能である。本明細書で提示する方法は、特に、保存フランキング領域を有する領域に有用である。加えて、または、あるいは、本明細書で提示する方法は、特に、各フランキング領域の少なくとも一部を含む全反復セグメントにまたがるサンプルリードに有用である。典型的な実施形態では、反復DNA要素はVNTR(variable number tandem repeat)である。VNTRは、特定の配列が座において多数反復されている多型である。一部のVNTRには、ミニサテライトと、単純反復配列(SSR)またはショートタンデムリピート(STR)としても知られるマイクロサテライトが含まれる。一部の実施形態では、反復セグメントは100ヌクレオチド未満だが、より大きい反復セグメントも整列させることが可能である。反復セグメントの反復ユニット(例えば、反復モチーフ)は、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20以上のヌクレオチドとすることが可能であり、最大で、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、40、45、50、55、60、65、70、75、80、85、90、95回、または少なくとも100回以上、繰り返される可能性がある。
ある実施形態では、多型反復DNA要素はSTRである。一部の実施形態では、STRは法医学に関する目的で用いられる。法医学に関する用途のための典型的な実施形態では、例えば、多型反復DNA要素には、テトラヌクレオチドまたはペンタヌクレオチドの反復モチーフが含まれるが、本明細書で提供する方法はいずれの長さの反復モチーフにも適している。ある実施形態では、反復セグメントは、例えば、CODIS常染色体STR座、CODIS Y-STR座、EU常染色体STR座、およびEU Y-STR座などから選択されるSTRといった、ショートタンデムリピート(STR)である。例として、CODIS(Combined DNA Index System)データベースはFBIの研究機関により同定されたコアSTR座の組であり、13個の座:CSF1PO、FGA、TH01、TPOX、VWA、D3S1358、D5S818、D7S820、D8S1179、D13S317、D16S539、D18S51、およびD21S11が含まれる。法医学コミュニティーに関心をもたれ、本明細書で提供する方法およびシステムを用いて整列させることが可能な追加STRには、PENTA DおよびPENTA Eが含まれる。本明細書で提示する方法およびシステムは、任意の反復DNA要素に適応させることが可能であり、上記のSTRに限定されない。
本明細書で用いる場合、用語「基準配列」は、サンプル配列を整列させることのできる骨格として機能する、既知の配列を指す。本明細書で提供する方法およびシステムの典型的な実施形態では、基準配列には、少なくとも、第1保存フランキング領域および第2保存フランキング領域が含まれる。用語「保存フランキング領域」は、反復セグメント(例えばSTR)の外側の配列領域を指す。該領域は、典型的には、反復セグメントが多型だとしても、多くのアレルにわたり保存されている。本明細書で用いる保存フランキング領域は、典型的には、反復セグメントよりも複雑度が高い。典型的な実施形態では、単一基準配列を用いて、遺伝子座内のアレルを全て整列させることが可能である。一部の実施形態では、フランキング領域内の変異のために、2つ以上の基準配列を用いて遺伝子座のサンプル配列を整列させる。例えば、アメロゲニンの反復セグメントはXとYの間でフランクに差がある。ただし、単一基準は、より長い領域が基準に含まれていれば、反復セグメントを表すことが可能である。
本明細書で提示する実施形態では、基準配列のフランキング領域の一部をサンプル配列に整列させる。整列は、保存フランキング領域の位置を決め、次にフランキング領域の一部とサンプルリードの対応部分との配列アライメントを行うことにより、実行される。フランキング領域の一部の整列は、既知のアライメント法に従い行う。ある実施形態では、フランキング領域(例えば、第1フランキング領域または第2フランキング領域)の一部を整列させるステップには、(i)反復セグメントに重なる、または隣接するシーディング領域の正確なk-merマッチングを用いることにより、保存フランキング領域のサンプルリード上での位置を決定するステップと、(ii)フランキング領域をサンプルリードに整列させるステップとが含まれる。一部の実施形態では、整列にはさらに、フランキング配列と、反復セグメントの一部を含む短い隣接領域の両方を整列させるステップが含まれ得る。
このアプローチの例を図4に示す。サンプルリードともいうことができるアンプリコン(「鋳型」)は、図4において、未知の長さおよび/または同一性のSTRを有することが示されている。図2に関し上記したように、サンプルリードを解析してサンプルリードを、この場合はSTRを含むことが知られている遺伝子座に割り当てることができる。サンプルリードの遺伝子座を決定した後は、アライメントプロトコルには、サンプルリードの所定配列を、基準配列の所定配列と整列させることが含まれ得る。例えば、プライマーをp1およびp2として示すが、これらはアンプリコンを生成するために用いられたプライマー配列に基づく。図4に示す実施形態では、p1のみを最初のアライメントステップ中で用いる。一部の実施形態では、p2のみをプライマーアライメントで用いる。他の実施形態では、p1とp2の両方をプライマー整列に用いる。さらに他の実施形態では、他の配列を最初のアライメントステップで用いることができる。
STRの長さが未知であるため、フランク2についてのアライメントは以下のように行う。フランク2のシーディングを行い、STRの潜在的な末端位置を素早く見つける。フランク1のシーディングとして、シーディングをオフセットして複雑度の低い領域およびミスアライメントを避けることができる。整列に失敗したフランク2シードはいずれも破棄する。いったんフランク2を適切に整列させたら、STRの末端位置(s2)を決定することが可能である。s1で既知のSTR配列の先頭と、s2で既知のSTR配列の終わりを用いて、STRの長さを計算することが可能である。
シーディング領域は、反復セグメント(例えば、STR)に直接隣接し、および/または、反復セグメントの一部を含むことが可能である。一部の実施形態では、シーディング領域の位置は、反復セグメントに直接隣接する領域の複雑度に左右されるだろう。STRの先頭または終わりは、追加配列を含む、または複雑度の低い配列により結合している場合がある。したがって、複雑度の低い領域を避けるため、フランキング領域のシーディングをオフセットすることは有利であり得る。本明細書で用いる場合、用語「複雑度の低い」は、反復モチーフおよび/または反復セグメントの配列に似た配列を有する領域を指す。加えて、または、あるいは、複雑度の低い領域は多様性の少ないヌクレオチドを組み込む。例えば一部の実施形態では、複雑度の低い領域は、反復配列と、30%、40%、50%、60%、70%、または80%超の配列同一性を有する配列を含む。典型的な実施形態では、複雑度の低い領域は、該領域の全ヌクレオチドの20%、15%、10%、または5%未満という頻度で4つのヌクレオチドをそれぞれ組み込む。任意の適切な方法を利用して、複雑度の低い領域を明らかにすることができる。複雑度の低い領域を明らかにする方法は、Morgulis et al., (2006) Bioinformatics. 22(2):134-41で例示されるように当技術分野で既知であり、該文献はその全体が参照により組み込まれる。例えば、組み込まれたMorgulis et al.の内容に記載されているように、DUSTなどのアルゴリズムを用いて、複雑度の低い、所与のヌクレオチド配列内の領域を同定することができる。
一部の実施形態では、シーディングは、STRの先頭から少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、または40以上のヌクレオチド分オフセットされている。一部の実施形態では、フランキング領域を評価して、複雑度の高い領域を同定する。本明細書で用いる場合、用語「複雑度の高い領域」は、ミスアライメントの可能性を減少させるのに十分なほど、反復モチーフおよび/または反復セグメントの配列とは異なる配列を有する領域を指す。加えて、または、あるいは、複雑度の高い領域は種々のヌクレオチドを組み込む。例えば、一部の実施形態では、複雑度の高い領域は、反復配列との同一性が80%、70%、60%、50%、40%、30%、20%、または10%未満である配列を含む。典型的な実施形態では、複雑度の高い領域は、該領域の全ヌクレオチドの少なくとも10%、15%、20%、または少なくとも25%という頻度で4つのヌクレオチドをそれぞれ組み込む。
本明細書で用いる場合、用語「正確なk-merマッチング」は、ワードの長さが値kと定義されているワード法を用いることにより、最適なアライメントを見つける方法を指す。一部の実施形態では、kの値は、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、または40以上のヌクレオチド長さである。一部の実施形態では、kの値は5〜30のヌクレオチド長さである。一部の実施形態では、kの値は5〜16のヌクレオチド長さである。ある実施形態では、kは、1つまたは複数の要因に基づきシステムまたはユーザにより選択される。例えば、プライマー配列がSTR配列の比較的近くに位置する場合など、フランク領域が短い場合、kは適切に減らすことができる。典型的な実施形態では、kは+/−eの距離内で全てマッチするように選択される。
ワード法は、照会配列において短く、重複していないサブ配列(「ワード」)の連続を同定し、これを次に候補のデータベース配列にマッチングさせる。比較される2つの配列のワードの相対位置を引き算してオフセットを得る。これは、多数の別箇のワードが同じオフセットを生成する場合に、アライメント領域を示すだろう。この領域が検出される場合に限り、この方法はより高感度なアライメント基準を適用し、それにより、顕著な類似性のない配列との多くの不必要な比較が省略される。正確なk-merマッチングを含む、k-merマッチングを実行する方法は、Lipman, et al., (1985) Science 227:1435-41、およびAltschul, et al., (1990) Journal of Molecular Biology 215:403-410(これらの内容はそれぞれ、その全体が参照により組み込まれる)の開示により例示されるように、当技術分野で既知である。
本明細書で用いる場合、用語「アンプリコン」は、配列を得る任意の適切な増幅産物を指す。典型的には、増幅産物は、PCRプライマーなどの標的特異的プライマーを用いた、選択的増幅方法論の産物である。ある実施形態では、配列データは、フォワードプライマー配列とリバースプライマー配列を有するPCRアンプリコンに由来する。一部の実施形態では、選択的増幅方法論に、1つまたは複数の非選択的増幅ステップが含まれる可能性がある。例えば、ランダムプライマーまたは縮重プライマーを用いた増幅プロセスの後に、標的特異的プライマーを用いた1つまたは複数の増幅サイクルが続き得る。選択的増幅の適切な方法には、限定されるわけではないが、米国特許第8003354号明細書(これはその全体が参照により本明細書に組み込まれる)に記載されるように、PCR(polymerase chain reaction)法、SDA(strand displacement amplification)法、TMA(transcription mediated amplification)法、およびNASBA(nucleic acid sequence based amplification)法が含まれる。上記の増幅方法を利用して、1つまたは複数の対象核酸を選択的に増幅することが可能である。例えば、マルチプレックスPCRを含むPCR、SDA、TMA、およびNASBAなどを利用して、1つまたは複数の対象核酸を選択的に増幅することが可能である。このような実施形態では、対象核酸を特に対象とするプライマーが増幅反応に含まれる。他の適切な核酸増幅法には、オリゴヌクレオチドの伸長およびライゲーション、RCA(rolling circle amplification)法(Lizardi et al., Nat. Genet. 19:225-232 (1998)、これは参照により本明細書に組み込まれる)、ならびにOLA(oligonucleotide ligation assay)法(一般的に、米国特許第7582420号明細書、同第5185243号明細書、同第5679524号明細書、同第5573907号明細書、欧州特許第0 320 308号明細書、同第0 336 731号明細書、同第 0 439 182号明細書、国際公開第90/01069号、同第89/12696号、および同第89/09835号を参照(これらは全て、参照により組み込まれる))が含まれ得る。
これらの増幅方法論が、対象の標的核酸を選択的に増幅するように設計可能であることが理解されよう。例えば、一部の実施形態では、選択的増幅法には、対象核酸を特に対象とするプライマーを含む、ライゲーションプローブ増幅法またはOLA(oligonucleotide ligation assay)反応が含まれ得る。一部の実施形態では、選択的増幅法には、対象核酸を特に対象とするプライマーを含むプライマー伸長ライゲーション反応が含まれ得る。対象核酸を増幅するように具体的に設計することが可能なプライマー伸長およびライゲーションプライマーの非限定的例として、増幅には、米国特許第7582420号明細書(これはその全体が参照により本明細書に記載される)に記載されるように、GoldenGate(商標)アッセイ(カリフォルニア州サンディエゴ、Illumina, Inc.)で用いられるプライマーが含まれ得る。本方法は、任意の特定の増幅技法に限定されず、本明細書に記載の増幅技法は、本開示の方法および実施形態に関する単なる例示である。
反復DNA要素を増幅するためのプライマーは、典型的には、フランキング領域の固有の配列にハイブリダイズする。プライマーは、任意の適切な方法論に従い、設計および生成することが可能である。反復セグメントのフランキング領域向けのプライマーの設計は、Zhi, et al. (2006) Genome Biol, 7(1):R7(これはその全体が参照により本明細書に組み込まれる)に例示されるように、当技術分野で周知である。例えば、プライマーは手動で設計することが可能である。これには、マイクロサテライト反復を求めてゲノムDNA配列を調べることが含まれ、これは肉眼またはRepeatMaskerソフトウェアなどの自動ツールを用いて行うことが可能である。反復セグメントおよび対応するフランキング領域をいったん決めたら、フランキング配列を用いて、PCR反応で特定の反復を増幅するオリゴヌクレオチドプライマーを設計することが可能である。
以下に、上記記載に従って実行した例を記載する。
(実施例1)
座D18S51のアライメント
この例は、一実施形態に従った、座D18S51のアライメントについて記載する。一部の座は、複雑度が低く、STR反復配列に似たフランキング配列を有する。これは、フランキング配列を(時にSTR配列自体に)誤って整列させ、そのためアレルが誤ってコールされる可能性がある。問題となる座の例はD18S51である。反復モチーフは[AGAA]n AAAG AGAGAGである。隣接配列を下記に示し、複雑度の低い「問題のある」配列に下線を引く。
STRに直ぐ隣接するフランキング領域を用いて、アライメントをシードした場合、GAAAG, AAAGAA, AGAGAAA などのk-merが生成するだろう。これをSTR配列にマッピングする。これは、多くの可能性がシーディングから得られることから動作を抑制するが、最も重大なのは、アプローチが図5に示すようなミスアライメントを生成することである。図5に示す配列では、真のSTR配列を強調し、ミスアライメントから生じるSTR配列には下線を引き、リードエラーは太字で示す。
これらの複雑度の低いフランクでは、シーディング領域をSTR配列からさらに押しやることにより、確実に、該シーディング領域が複雑度の低い領域にないようにする。これにはSTRをコールするためのより長いリードが必要だが、それは高い正確性を保証し、フランキング領域のSTR配列(またはフランクの他の部分)へのミスアライメントを防ぐ。複雑度の低いフランクをなおリードに整列させてSTRの末端位置を見つけるが、アライメントが複雑度の高い配列とともにシードされることから、それは、正しい位置にあるはずである。
(実施例2)
短いSTR配列を加えることによる、座Penta-Dのアライメント
予想より1nt短い、STRを有する傾向のあるPenta-D配列の組。さらなる検査で、両フランクがpoly-A伸長を含み、シーケンシング/増幅エラーがしばしばその伸長のAの1つを取り除くことが発見された。下記の配列に示すように、ホモポリマーAの伸長が両フランクに見られる。
第1フランクの欠失を引き起こすリードエラーは、2つの等しく存続可能なアライメントに負けるだろう。
STRに最も近い塩基がマッチするように強制することは、STRの1つのフランクの1つが、その中にSNPを有することになるため、機能しなかった。STR配列のたった2つのヌクレオチドを加えることが問題を解決することが発見された。
(実施例3)
DNAサンプルの混合物の解析
サンプル混合物を、本明細書で提供する方法を用いて、法医学STRのパネルにおいて各座のコールを行った。各座では、各アレルおよび該アレルの異なる配列それぞれに対応するリード数をカウントした。
典型的な結果を図6A〜6Dに示す。示すように、各対の右のバーは得られた実際のデータを表し、各アレルのリード比率を示す。異なる暗色が、異なる配列を表す。座のリードカウントが0.1%未満であるアレルと、アレルカウントが1%未満である配列を削除する。各対の左側のバーは理論的な比率(スタッターなし)を表す。異なる暗色は、凡例に示されるように、インプット中の異なる対照DNAを表す。図6A〜6Dでは、X軸はアレルの順であり、Y軸は指定のアレルでのリード比率を示す。
図に示すように、本明細書で提示する方法を用いたSTRコーリングアプローチは、驚くべきことに、パネルにおいて各アレルの正確なコールを達成した。
(実施例4)
法医学STRパネルの解析
15個の異なる座のパネルを5つの異なるサンプルにおいて解析した。サンプルはPromega Corpから入手し、サンプル9947A、K562、2800M、NIST:AおよびB(SRM 2391c)が含まれた。座をCODIS STR法医学的マーカーから選択し、本明細書で提示するアライメント法を用いて、座にはCSF1PO、D3S1358、D7S820、D16S539、D18S51、FGA、PentaE、TH01、vWA、D5S818、D8S1179、D13S317、D21S11、PentaD、およびTPOXが含まれた。簡潔に言うと、Krenke, et al. (2002) J. Forensic Sci. 47(4): 773-785(これは参照によりその全体が組み込まれる)に記載されているように、マーカーを標準プライマーを用いて増幅した。アンプリコンをプールし、MiSeq sequencing instrument(カリフォルニア州サンディエゴ、Illumina)を1×460サイクル用いてシーケンシングデータを得た。
アライメントを本明細書に提示する方法に従い実行した。図7に示すように、これらの対照サンプルについて、100%の整列が対照データと比較して示された。加えて、この方法は、マーカーD8S1179のサンプルの1つにおいて、これまで未知のSNPを同定し、さらに、本明細書で提供するアライメント法と組み合わせた場合に、配列に基づくSTR解析の強力なツールをさらに実証した。
図8は、スタッター産物を同定する方法160を示す。割り当てリード内のROIを同定した後、本明細書に記載の実施形態は、162で、ROIの配列に基づきROI(または割り当てリード)を分類することができる。上記のように、ある状況では、アライメントプロトコルは、反復セグメントの配列に加え、フランキング領域の一方または両方の一部を解析する場合がある。従って、ある実施形態では、162での分類には、反復セグメントとの配列およびフランキング領域の一方または両方のサブ配列に基づき、分類することが含まれ得る。例として、分類には、反復セグメントと、反復セグメントから伸長するフランキング領域のそれぞれの数ヌクレオチドを解析することが含まれる場合がある。他の実施形態では、162での分類には、反復セグメントの配列のみを含むROIに基づく分類が含まれる場合がある。
ROI(または反復セグメント)を分類し、その結果、異なる配列を有するROI(または反復セグメント)が潜在的な(または疑わしい)アレルとして指定されるようにすることができる。例えば、各潜在的アレルは固有のサンプル配列および/または固有の長さを有する場合がある。具体的には各潜在的アレルはROIもしくは反復セグメントの固有配列、および/または、ROIもしくは反復セグメントの固有の長さを有し得る。下記のように、一部の実施形態では、反復セグメントをCEアレル名に基づいて順に並べることができる。
162での分類は、各指定座について行うことができる。サンプルリードを対応する遺伝子座に割り当てた後、各遺伝子座は該遺伝子座に関連する、複数の割り当てリードを有し得る。例えば、一部の実施形態では、1つまたは複数の遺伝子座が、数百の割り当てリードを有し得、これらは互いにグループ化される、またはビンに区切られる。既知のように、既知のSTR座などの対応する遺伝子座は複数のアレルを有し得、ここでは各アレルが異なる配列を含む。共通の遺伝子座に由来すると同定された複数の割り当てリードを一括して解析することにより、複数の割り当てリードを解析して、一個体または複数の個体に遺伝子型コールを提供することができる。
方法160にはまた、共通の配列を有する共通遺伝子座の割り当てリードを164でカウントする(または、合計する)ステップが含まれ得る。164でのカウントには、本明細書で記載するように、カウントスコアを求めることが含まれ得る。例として、図9はD1S1656座の潜在的アレルを含む表190を含み、図10はCEアレルの分布を示すグラフ192を含む。CEアレルには慣習に従って名前が付けられるが、該CEアレルには図10に示すようにスタッター産物が含まれる可能性がある。本例では、単一ソースに由来する核酸をシーケンシングした後、サンプルリードを解析してD1S1656座のROI(例えば、反復セグメント)を同定した。ROIを分類およびカウントして、D1S1656座内の、いくつかの潜在的アレルを同定した。本例では、D1S1656座の割り当てリード総数の1%未満だったカウントを有するアレルは、考慮しなかった。図9に示すように、フィルタリングした割り当てリードには全部で4つの固有配列が含まれ、これはD1S1656座の潜在的アレルと考えることができる。解析後、下記のように、座の遺伝子型コールはヘテロ接合型12/13である。
一部の実施形態では、遺伝子座の潜在的アレルのカウントスコアに基づき、遺伝子座の遺伝子型をコールすることが可能である。しかしながら、一部実施形態では、さらなる配列解析を行うことができる。例えば、方法160には、166で、潜在的アレルの配列を解析して、第1アレルが第2アレルのスタッター産物であることが疑われるか否かを判断するステップが含まれ得る。スタッターは、核酸、特に、STRアレル内に見られるような、1つまたは複数の反復モチーフ連続を含む核酸を増幅する間に起き得る現象である。スタッター産物は、典型的には真のアレルよりサイズの小さい(または、サイズの大きい)1つまたは複数の反復モチーフである、配列を有する。核酸配列の複製中に、二本の鎖がSTRに沿ってばらばらになり得る。各反復モチーフが同一であるため、二本の鎖は適切に再アニールすることができ、その結果、該二本の鎖が1つまたは複数の反復モチーフでオフセットされる。したがって、結果として生じる産物はさらに増幅され得るが、これは1つまたは複数の反復モチーフにより真の配列とは異なる。
スタッター産物は真のアレルとほぼ同じサイズであることから、スタッター産物が遺伝子座の真のアレルであるのか、隣接アレルのスタッター産物であるか否かを判断することは困難な場合がある。したがって、スタッター産物は遺伝子型コールの信頼度を低減する可能性がある。ある状況下では、スタッター産物は、遺伝子型コールが提供されないようにする、または、誤った遺伝子型コールを招く可能性がある。スタッター産物は、複数のソースを含むサンプルについての遺伝子型コールを特に困難にし得る。
166での解析により、第1アレルは第2アレルのスタッター産物であることが疑われるか否かを判断することができる。一部の実施形態では、解析には、1つまたは複数のルールまたは条件を第1アレルおよび第2アレルに適用することが含まれる。例えば、171で、k個の反復モチーフが第1アレルと第2アレルの間で付加された、または欠失したと判断された場合、第1アレルは第2アレルのスタッター産物であると疑われ得る。数字kは整数である。特定の実施形態では、数字kは1または2である。スタッター産物は典型的には1つ少ない反復モチーフを含むが、スタッター産物は、2つ少ない反復モチーフ、または、1つ多い反復モチーフを含む場合もある。スタッター産物はまた、反復モチーフで他の違いを含む可能性がある。166での解析には、遺伝子座に関連する各潜在的アレルを、同じ遺伝子座の他の潜在的アレルと互いに比較することが含まれ得る。
一部の実施形態では、166での解析には、172で、付加された、または欠失した反復モチーフを同定することが含まれ得る。172で、付加された、または欠失した反復モチーフを同定することには、2アレルの2配列をROIまたは反復セグメントに沿って整列させて、反復モチーフがいつ付加されたか、または欠失したかを判断することが含まれ得る。例えば、配列を一末端で互いに整列させて、反復モチーフがいつ付加されたか、または欠失したかを判断することができる。
あるいは、または、上記に加え、解析には、173で、第1アレルおよび第2アレルの反復セグメントの長さを比較して、第1アレルおよび第2アレルの反復セグメントの長さが、一反復モチーフまたは多数の反復モチーフの長さと異なるか否かを判断することが含まれ得る。例えば、図9に示す例では、反復モチーフはTAGAであり、これは4つのヌクレオチドを有するテトラヌクレオチドである。標的アレルの配列長さを図9に示す。アレル1およびアレル2はそれぞれ62ヌクレオチドを有し、アレル3およびアレル4はそれぞれ58ヌクレオチドを有する。したがって、アレル1の配列長さはアレル3の配列およびアレル4の配列とは4ヌクレオチド分、言い換えると、反復モチーフの長さ分異なる。同様に、アレル2の配列長さは、アレル3の配列およびアレル4の配列とは反復モチーフの長さ分異なる。
一部の実施形態では、166での解析には、174で、付加された、または欠失した反復モチーフが、同じ配列の隣接反復モチーフと同一であるか否かを判断することが含まれ得る。上記のように、付加された、または欠失した反復モチーフは、アレル配列を整列させて、付加された、または欠失した反復モチーフを同定することにより決定することができる。配列を整列させた後、付加された/欠失した反復モチーフが、それに隣接する反復モチーフと同一であると判断することができる。一部の実施形態では、アライメントは貪欲法を用いて達成することができる。
第1アレル(または、スタッター産物であると疑われるアレル)には、典型的には、第2アレルのリードカウント(またはカウントスコア)より少ないリードカウント(または、カウントスコア)が含まれる。サンプルがマイナーコントリビュータを含むといったある状況下では、これは当てはまらない場合がある。一部の場合では、アレルのスタッター産物は、指定のスタッター閾値未満であるか、または、座および/もしくはアレルについての所定の範囲内に収まり得る。スタッター閾値は、例えば、第2アレルのいくつかのリードカウント、対応する座および/もしくはアレルのヒストリカルデータ、ならびに/または、アッセイ中の対応する座および/もしくはアレルの観測に基づき得る。ヒストリカルデータまたはアレルの観測について例を提供するため、アレルが通常予想されるより大きいまたは小さい所定量のスタッターを提供するということを、指定アッセイに関する経験を通じて判断することができる。このデータおよび/または観察を用いて、閾値を修正することができる。アレルについての知識がスタッター閾値に影響を与え得る別の例としては、平均してより長いアレルが、より大きい比率のスタッター産物を提供し得る。したがって、スタッターの閾値は、アレルの長さに基づき変更することができる。
一部の実施形態では、166での解析には、175で、第1アレルのカウントスコアが第2アレルのカウントスコアの所定範囲に収まるか否かを判断することが含まれ得る。例えば、第1アレルのカウントスコア(例えば、リードカウント)が第2アレルのカウントスコア(例えば、リードカウント)の所定のパーセンタイル範囲内にある場合、第1アレルはスタッター産物であることが疑われ得る。所定のパーセンタイル範囲は、約5%〜約40%とすることができる。特定の実施形態では、所定のパーセンタイル範囲は、約10%〜約30%、または、約10%〜約25%とすることができる。所定のパーセンタイル範囲は、ヒストリカルデータ、またはアッセイ中の対応するSTR座についての観察を用いて計算または獲得することができる。同様に、第1アレルのカウントスコアが第2アレルのカウントスコアに基づく指定のスタッター閾値未満だった場合、第1アレルはスタッター産物であることが疑われ得る。例としては、指定のスタッター閾値は、第2アレルのカウントスコアの所定の割合に基づき得る。例えば、所定の割合は、約20%、25%、30%、35%、または40%とすることができる。所定の割合は、対応するSTRのヒストリカルデータまたはアッセイ中の対応するSTR座についての観察を用いて、決定または獲得することができる。
一部の実施形態では、潜在的アレルのカウントスコアを用いて、スタッター基準(またはスタッタースコア)を求めることができる。スタッター基準は、第1アレルのカウントスコアに基づく値または関数であり得る。スタッター基準はまた、第2アレルのカウントスコアに基づき得る。スタッター基準を指定のスタッター閾値と比較して、対応する潜在的アレルがスタッター産物であることが疑われるか否かを判断することができる。スタッター基準が指定のスタッター閾値未満である場合、第1アレルは、第2アレルのスタッター産物であると疑われ得る。スタッター基準が指定のスタッター閾値以上である場合、第1アレルは潜在的アレルと考えることができる。この場合、第1アレルと第2アレルはそれぞれ、座の真のアレルであり得る。
追加の条件を適用して、あるアレルが別のアレルのスタッター産物であるか否かを判断することができる。例えば、166での解析には、176で、第1アレルと第2アレルの間に他のミスマッチがないと判断することが含まれる。ROI、具体的には反復セグメントを解析して、それぞれの配列間の任意のミスマッチを同定することができる。例えば、一方の配列のヌクレオチドがもう一方の配列のヌクレオチド(付加された/欠失した反復モチーフ以外)とマッチしなかった場合、該配列はスタッター産物ではあり得ない。
他の実施形態では、疑わしいスタッター産物が第2アレルのスタッター産物ではないと判断することができる。その代りに、疑わしいスタッター産物は別のコントリビュータに由来する、または、シーケンシングエラーにより引き起こされる場合がある。例えば、1つまたは複数の実施形態は、第1アレルのスタッター基準(例えば、カウントスコアまたはカウントスコアに基づく他の関数)が指定のスタッター閾値よりも大きい場合、疑わしいスタッター産物は別のコントリビュータに由来すると判断することができる。指定閾値は、ヒストリカルデータおよび/または対象のアッセイ内のデータに基づき得る、第2アレルのカウントスコアおよび所定のスタッター関数に基づき得る。第1アレルのスタッター基準がベースライン値未満である場合、1つまたは複数の実施形態が、疑わしいスタッター産物がシーケンシングエラーであると判断することができる。ベースライン値は、ヒストリカルデータおよび/または対象のアッセイ内のデータに基づき得る、第2アレルのカウントスコアと所定のスタッター関数に基づき得る。例として、ある座は、歴史的に、10〜30%のスタッター範囲を有し得る。ある座の第2アレルのリードカウントが100である場合、第1アレルはリードカウントが10未満であればシーケンシングエラーであり得る。リードカウントが30超である場合、別のコントリビュータに由来する可能性がある。
特定の実施形態では、(A)第1アレルおよび第2アレルのアレル配列の長さがk反復モチーフ分異なる場合、(B)欠失した、または付加された反復モチーフが隣接反復モチーフと同一である場合、(C)2つのアレル(例えば、ROIまたは反復セグメント)間で他のミスマッチがない場合、および、オプションとして、(D)第1アレルのスタッター基準が、第2アレルのスタッター基準の所定のスタッター範囲内にある(または、指定のスタッター閾値未満である)場合に、第1アレルは第2アレルのスタッター産物であると考えられる。
図9に示す例に戻ると、D1S1656座の真の2つのアレルの配列は、アレル12が[TAGA]11[TAGG]1[TG]5、アレル13が[TAGA]13[TG]5である。アレル12は最後の「TAGA」反復ユニットでSNPを有する。ここから、アレル12の配列[TAGA]12[TG]5は、実際、アレル13の−1スタッターであり、アレル13の配列[TAGA]12[TAGG]1[TG]5はアレル12の+1スタッターであると判断することが可能である。分かるように、本明細書に記載の実施形態は、CEシステムよりも有利であり得る。具体的には、CEシステムは、アレル12の配列[TAGA]12[TG]5はアレル13の−1スタッターであり、アレル13の配列[TAGA]12[TAGG]1[TG]5はアレル12の+1スタッターであると判断することはできないだろう。
図11は、実施形態に従いシーケンシングデータを解析する方法200を示す。方法200には、本明細書に記載の他の実施形態を組み込むことができる。方法200は、202で、遺伝子座の組に対応するように構成された複数のサンプルリードを含むシーケンシングデータを受信するステップを含む、遺伝子座の組は、科学捜査または親子鑑定など、所定の遺伝子アプリケーション向けに構成することができる。サンプルリードは対応するアンプリコンのリード対を形成することができ、ここで各リード対には、対応するアンプリコンの第1リードおよび第2リードが含まれる。例えば、第1リードおよび第2リードの対は、ペアエンドシーケンシングから、特定の実施形態では非対称ペアエンドシーケンシングから、得ることができる。第1リードおよび第2リードはそれぞれ、各々の配列を有し得、該配列を以後、リード配列という。各リード配列には、例えば、同定配列(例えば、プライマー配列)、および、SNPまたはSTRなどの配列変異を含む配列が含まれ得る。
方法200は、204で、サンプルリードの1つまたは複数の潜在的遺伝子座を同定するステップを含む。同定する動作は、図2について上記した、154での割り当てと類似し得る。例えば、204では、リード対の第1リードについての1つまたは複数の遺伝子座を暫定的に同定することができる。各リード対の第1リードを比較して、データベース(例えば、参照テーブル)の配列を選択することができる。データベースの選択配列はそれぞれ、遺伝子座の組の指定の遺伝子座に対応し得る。第1リードのリード配列が1つまたは複数の選択配列と実質的にマッチする場合、第1リードは選択配列に対応する遺伝子座に暫定的にコールされ得る。例えば、第1リードの同定配列に由来するnヌクレオチド(例えば、最初のnヌクレオチド)連続が1つまたは複数の選択配列と実質的にマッチする場合、第1リードは、それらの対応する遺伝子座に暫定的にコールされ得る。対応する遺伝子座は、暫定的に指定座ということができる。
第1リードが選択配列の何れにも実質的にマッチしない場合、非割り当てリードは破棄される場合がある。オプションとして、第1リードおよび/または対応する第2リードであり得る非割り当てリードを、他の非割り当てリードとともに集める、または集約することができる。206では、非割り当てリードを品質管理のために解析することができる。例えば、第1リードのリード配列を解析して、なぜ該第1リードが割り当てられなかったかを明らかにすることができる。
方法200はまた、208で、潜在的遺伝子座を有する第1リードそれぞれについて、第1リードが潜在的遺伝子座の1つまたは複数の基準配列と整列するか否かを判断するステップを含み得る。208での判断は、1つまたは複数のアライメントプロトコルを用いてなされ得る。例えば、208での判断には、図3〜7に関し上記したように、第1リードを潜在的遺伝子座の対応する基準配列に整列させることが含まれ得る。第1リードが1つのみの遺伝子座の基準配列と整列する場合、第1リードをその1つの遺伝子座の正当なリードとして暫定的に指定することができ、方法はステップ210へと進むことができる。他の実施形態では、第1リードをその1つの遺伝子座の正当なリードとして指定することができ、方法はステップ212へと進むことができる。
しかしながら、第1リードが2つ以上の基準配列と実質的に整列する場合は、208での判断には、第1リードが最も良く整列する、または、最も多く整列する基準配列を同定することが含まれ得る。具体的には、第1リードは多数の基準配列と実質的に整列するが、1つのアライメントが他のアライメントより良好な場合がある。簡単な一例として、アライメント解析は第1リードを解析し、第1リードを、204で同定された3つの潜在的遺伝子座に関連する基準配列である3つの基準配列、Ref Seq A、Ref Seq B、およびRef Seq Cに整列させることができる。アライメント解析により、第1リードが、Ref Seq Aと第1リードの間に合計3つの相違がありながら、Ref Seq Aと実質的に整列すると判断することができる。アライメント解析により、第1リードが、Ref Seq Bと第1リードの間に合計4つの相違がありながら、Ref Seq Bと実質的に整列すると判断することができる。アライメント解析により、第1リードとRef Seq Cは互いに整列しないと判断することができる。例えば、過剰な数の相違(例えば、10超)が第1リードとRef Seq Cの間に存在し得る。別の例として、過剰な相違比率または相違割合(例えば、リードまたは基準配列における合計ヌクレオチド数に対する相違数)が、第1リードとRef Seq Cの間に存在し得る。このデータに基づき、本方法は、第1リードがRef Seq BよりもRef Seq Aとより良好に整列すると判断し得る。したがって、第1リードを、Ref Seq Aに対応する遺伝子座の正当なリードとして暫定的に指定することができる。
一部の実施形態では、どの基準配列が最も良く第1リードと整列するかを決定することに、基準配列それぞれのアライメントスコアを計算することが含まれ得、ここでアライメントスコアは相違数に基づく。上記のように、アライメントスコアは生の数字データ(例えば、相違数)とすることができる。他の実施形態では、アライメントスコアは、相違の数および/または種類の関数とすることができる。例えば、インデルとミスマッチは異なるようにスコア付けすることができる。
オプションとして、方法200は、210で、第2リードを解析して、第1リードが暫定的に指定の遺伝子座にコールされるべきであることを確かめるステップを含む。第2リードを、対応するリード対の第1リードと同様に解析することができる。第2リードを解析して、第2リードの同定配列がデータベースの1つまたは複数の選択配列に実質的にマッチするか否かを判断することができる、第2リードの同定配列が1つのみの選択配列に実質的にマッチする場合、本方法は、その1つの選択配列に対応する遺伝子座を同定するステップを含み得る。該遺伝子座が、第1リードが暫定的に指定された遺伝子座と同じである場合、該遺伝子座は第1リードの遺伝子座ということができ、第1リードを212で、遺伝子座の正当なリードとして指定することができる。
しかしながら、第2リードの同定配列が多数の選択配列と実質的にマッチする場合、本方法は、該多数の選択配列に対応する遺伝子座を同定するステップを含み得る。これらの遺伝子座の1つが、第1リードが暫定的に指定の遺伝子座と同じである場合、該遺伝子座は第1リードの遺伝子座であるといえ、該第1リードを、212で、該遺伝子座の正当なリードとして指定することができる。
210での解析で、第2リードが第1リードの暫定的に指定された座に対応することが確かめられなかった場合、方法200は、対応する第1リードを未確認リードとして指定するステップを含み得る。未確認リードを集め、オプションとして214で品質管理のためにさらに解析することができる。例えば、暫定的に指定された座の第1選択配列と実質的にマッチするが、暫定的に指定された座の第2選択配列とは実質的にマッチしないリード対は、アッセイ内の問題を示す場合がある。未確認リードは1つまたは複数の標的外アンプリコンを示す場合がある。リード対を214で解析して、例えば、アッセイに関し品質管理の問題が存在するか、またはアレルのドロップアウトを示すか否かを判断することができる。
しかしながら、第1リードが208で潜在的遺伝子座の基準配列と整列しない場合、本方法は、216で、第1リードを非整列リードとして指定するステップを含み得る。非整列リードは、フィルタリング段階を一つ通過したが、基準配列と整列し得なかった第1リードを表し得る。特に、非整列リードは、1つまたは複数の選択配列と実質的にマッチしたが、基準配列とは整列し得なかった同定配列を有することが確かめられた、第1リードであり得る。
オプションとして、方法200は、218で、各非整列リードを解析して、対応する非整列リードの最適な遺伝子座を決定するステップを含み得る。上記のように、同定配列は2つ以上の選択配列と実質的にマッチし得る。218での解析には、非整列リードの同定配列を、204で事前に同定された選択配列と比較することが含まれ得る。最適な遺伝子座は、非整列リードの同定配列と最も良く、または最も多くマッチする選択配列に対応する遺伝子座であり得る。したがって、218において、前記方法は、多数の選択配列のうちどの選択配列が同定配列と最も良くマッチするかを判断する。例えば、最適な遺伝子座は、同定配列との相違が最も少ない選択配列に対応する遺伝子座であり得る。一部の実施形態では、218での解析には、同定配列に関し、選択配列それぞれのマッチングスコアを求めることが含まれ得る。最も高いマッチングスコアで選択配列に対応する遺伝子座を、最適遺伝子座として指定することができる。
220では、非整列リード(つまり、第1リード)と関連する第2リードを解析して、第2リードにより、218で同定された最適座が確かめられるか否かを明らかにすることができる。第2リードを解析して、第2リードの同定配列が1つまたは複数の選択配列と実質的にマッチするか否かを判断することができる。第2リードの同定配列が選択配列と実質的にマッチし、その選択配列が最適遺伝子座に対応する場合、非整列リードは222でtwo-on-target非整列リード(pair-on-target非整列リードともいう)として指定され得る。two-on-target非整列リードは、非整列リードの両末端近くにデータベースの選択配列と実質的にマッチする配列を有する非整列リードを表し得る。2つの選択配列と実質的にマッチするにも関わらず、非整列リードのROIは基準配列と整列し得なかった。
しかしながら、第2リードの同定配列が最適遺伝子座に対応する選択配列と実質的にマッチしない場合、該非整列リードは224でone-on-target非整列リードとされ得る。one-on-target非整列リードは、データベースの選択配列と実質的にマッチする同定配列を1つのみ有する非整列リードを表し得る。
two-on-target非整列リードおよびone-on-target非整列リードの両方を、226および228それぞれで品質管理を目的に解析することができる。226または228での解析には、非整列リードの総数(または比較可能スコア)を解析すること、および/または、非整列リードのROIの配列を解析することが含まれ得る。例えば、one-on-target非整列リードを228で解析して、アッセイの調子を判断することができる。具体的には、one-on-target非整列リードを解析して、キメラが存在するか否か、および/または、プライマーダイマーが存在するか否かを判断することができる。過剰な数のキメラおよび/またはプライマーダイマーは、アッセイが不良であること(例えば、増幅の問題)、または、サンプルDNAの質が低いことを示し得る。オプションとして、228での解析には、214の未確認リードを解析して、アッセイの調子を判断することが含まれ得る。228での解析には、未確認リードとone-on-target非整列リードを一括して解析することが含まれ得る。あるいは、228での解析には、未確認リードとone-on-target非整列リードを別々に解析することが含まれ得る。
two-on-target非整列リードについて、そのようなリードが過剰な数であることは、アレルのドロップアウトの可能性を示し得る。一部の実施形態では、226での解析には、two-on-target非整列リードの数が指定座の合計リードの割合を超えるか否かを判断し、超えた場合、指定座に問題があると判断し得ると判断できることが含まれ得る。指定座の「合計リード」は、212で指定された正当なリードおよび216で指定された非整列リードの関数とすることができる。例えば、合計リードを、正当なリードと非整列リードの合計と等しいとすることができる。他の実施形態では、合計リードは未確認リードの関数でもあり得る。226では、two-on-target非整列リードの数(または、比較可能スコア)を閾値と比較して、問題(例えば、アレルのドロップアウト)が指定座で存在するか否かを判断することができる。
230では、アッセイの質および/または遺伝子プロファイルの信頼度に関し通知が提供され得る。例えば、通知はユーザに非整列リードの数を知らせ得る。特定の実施形態では、通知はユーザにone-on-target非整列リードの数および/またはtwo-on-target非整列リードの数を知らせ得る。一部の場合、本方法は、非整列リードの数(もしくは比較可能なスコア)、one-on-target非整列リードの数(もしくは比較可能なスコア)、および/またはtwo-on-target非整列リードの数(もしくは比較可能なスコア)を、指定閾値と比較する場合がある。数またはスコアが閾値を超える場合、通知にはユーザへの特異的な警告または特異的なガイダンスが含まれ得る。例えば、通知により、ユーザに、サンプルの質が低かった、および/またはサンプルの量が少なかったことが証拠により示されることを知らせることができる。通知は全体としてアッセイを対象とするか、または、特定の座に対し特異的とすることができる。具体的には、過剰な数のone-on-target非整列リードはアッセイの問題を示唆し得、一方、過剰な数のtwo-on-target非整列リードは、アレルのドロップアウトを示唆し得る。
232では、正当なリードを分類して、指定座のリード分布を形成することができる、リード分布には、典型的には、多数のフィルタリング段階を通過し、指定座に割り当てられた非常に多くのサンプルリードが含まれる。例えば、リード分布には、指定座に割り当てられた、数十、数百、または数千の第1リードが含まれ得る。リード分布はファイル(例えば、「分布ファイル」)に集めることができ、該リード分布には、異なる潜在的アレル、アレル配列、および各潜在的アレルのカウントスコア(例えば、リードカウントまたはリードカウントに基づいた他の値/関数)といった、サンプルリード分布に関する情報が含まれ得る。例えば、正当なリードをリード分布に分類する場合、正当なリードは配列に基づいて分離され得る。正当なリードは、異なってはいるが、指定座に割り当てられた、いくつかの異なる配列を有し得る。異なる配列はそれぞれ、指定座の潜在的アレルを表す。1つまたは複数の配列はノイズ(例えば、シーケンシングエラー)であり得、1つまたは複数の配列はスタッター産物であり得、そして、1つまたは複数の配列は真のアレルであり得る。
正当なリードは、同じ配列を有する他の正当なリードと集約することができる。同じ配列を有する正当なリードの数を、特定の配列ごとにカウントすることができる。例えば、1000の正当なリードが割り当てられた遺伝子座を仮定すると、リード分布は8つの異なる配列が存在することを示す場合がある。正当なリードは8つの異なる配列間で分布し得る。例えば、アレル1は10個の正当なリードを有し得、アレル2は20個の正当なリードを有し得、アレル3は10個の正当なリードを有し得、アレル4は400個の正当なリードを有し、アレル5は15個の正当なリードを有し得、アレル6は500個の正当なリードを有し得、アレル7は25個の正当なリードを有し得、アレル8は20個の正当なリードを有し得る。下記のように、さらなる解析により、アレルの一部がノイズおよび/またはスタッター産物であると判断することができる。
一部の実施形態では、潜在的アレルにCEアレル名を提供することができ、これはCEにおける慣習的な名づけ手法に基づく。潜在的アレルのCEアレル名は、部分的に、配列内の反復モチーフ数に基づき得る。CEアレルの名づけはまた、歴史的な慣習に基づき得る。一部の実施形態では、潜在的アレルを、CEアレル名に基づきリード分布内で順に並べる。例えば、CEアレル名には、典型的には数値が含まれる。数値に基づき、潜在的アレルを順に並べることができる。一例として、図10に示すグラフ192は、1つのリード分布を示す。示すように、潜在的アレルには、11、11.2、12、13、および14が含まれる。グラフ192に示す遺伝子座のリード分布は、11、11.2、12、および13と順に並べることができる。
一部の状況下では、2つの異なる潜在的アレルが同じCEアレル名を持つ場合がある。例えば、慣習的な名づけ手法に基づき、潜在的アレルは同じCEアレル名を与えられる場合がある。一部の実施形態では、リード分布は、2つの異なる配列が同じCEアレル名を有することを示す場合がある。例えば、リード分布は、CEアレル名(例えば、13)を示し、次に、同じCEアレル名に対応する異なる配列を列記する場合がある。
リードを分類しリード分布を形成した後、リード分布は異なる解析のために伝達され得る。例えば、SNPを含むことが知られている遺伝子座は、SNP解析を介して方向づけられ得る。STRで知られている遺伝子座は、STR解析を介して方向づけられ得る。SNPおよびSTRの解析には異なるステップが含まれ得るが、解析はまた、同様のステップも含み得る。
図12は、実施形態に従いシーケンシングデータを解析する方法240を示す。特に、方法240は、指定座のリード分布を解析するステップを含む。リード分布は、STR座、SNP座、または配列変異に関連する他の座であってよい。方法240は、242で、指定座のリード分布を受信するステップを含む。以下のステップに関し、各ステップは少なくとも部分的に指定座に基づき得る。例えば、種々の関数(例えば、閾値)を適用することができるが、これらの関数は指定座に基づく。具体的には、ある遺伝子座についての関数は、別の遺伝子座の関数と同じではない場合がある。
オプションとして、方法240は、244で、指定の遺伝子座の潜在的アレルそれぞれのカウントスコアを求めるステップを含む。カウントスコアは、潜在的アレルのリードカウントに基づき得る。リードカウントは、共通の配列を含む正当なリードの数を表す。一部の実施形態では、カウントスコアは、潜在的アレルのリードカウントと等しい値である。例えば、リードカウントが300である場合、カウントスコアは300であり得る。他の実施形態では、潜在的アレルのカウントスコアは遺伝子座のリードカウントおよびリード総数に基づき得る。リード総数は、例えば、全潜在的アレルのリード分布内のリード総数であり得る。一部の実施形態では、潜在的アレルのカウントスコアは、遺伝子座のリードカウントおよび該遺伝子座について事前に得たデータに基づき得る。特定の実施形態では、カウントスコアは所定の数の間(例えば、0および1)の正規化スコアであり得る。正規化スコアは、遺伝子座のリード総数に基づき得る。オプションとして、正規化スコアは、他の座のリードカウントおよび/または他のサンプルのリードカウントの関数である。カウントスコアは、また、サンプルの他の座のリードカウントの関数、または、対象のサンプルと同時にランを行った他のサンプルに由来するリードカウントの関数であり得る。カウントスコアはまた、ヒストリカルデータの関数であり得る。例えば、異なる種類のアッセイのランを行い、リードカウントを得ることができる。一部の実施形態では、カウントスコアは特定のアッセイに関するヒストリカルデータに基づく。
方法240はまた、245で、1つまたは複数の潜在的アレルのカウントスコアが解釈閾値を上回るか否かを判断するステップを含む。解釈閾値は所定の値とすることができる、または、複数のファクタに基づく関数とすることができる。例えば、解釈閾値は指定座に対応するリード総数に基づき得る。リード総数には座内の全ての潜在的アレルの正当なリードが含まれ得る。一部の実施形態では、リード総数には、座の正当なリードおよび座の非整列リードが含まれ得る。特定の実施形態では、リード総数には、座の正当なリード、非整列リード、および未確認リードが含まれ得る。カウントスコアの1つが245で解釈閾値を上回る場合、方法240はステップ246または別の後続のステップに進み得る。一部の実施形態では、解釈閾値はサンプルのリード総数に基づき得る。一部の実施形態では、解釈閾値は複数のサンプルのリード総数に基づき得る。
カウントスコアが全て、245で解釈閾値を上回らない場合、方法240は、248で、指定座に関する警告、または他の通知を提供し得る。例えば、警告はユーザに、指定座のカバレッジが低いことを知らせ得る。具体的には、警告はユーザに、指定座に関するデータ量が遺伝子型コールを提供するのに不十分な場合があることを知らせ得る。
特定の実施形態では、方法240は、リード分布内で最大のリードカウント(または、アレルカウント)を有する潜在的アレルを同定するステップを含む。リードカウントは共通の配列を含む正当なリードの数を表す。STRについては、リードカウントは、ROIまたは反復セグメントの共通配列を含む、正当なリードの数を表し得る。方法240はまた、最大リードカウントを、解釈閾値と比較するステップを含み得る。245で、最大リードカウントが解釈閾値を上回る場合、方法240はステップ246または別の後続ステップに進み得る。最大アレルカウントが解釈閾値を上回らない場合、方法240は、248で、上記のように、指定座に関する警告または他の通知を提供する場合がある。
他の実施形態では、カウントスコアを下記の解析閾値といった別の閾値と比較することができる。解析閾値は、典型的には、解釈閾値より上回ることが易しい。潜在的アレルが解析閾値を上回るカウントスコアを持たない場合、遺伝子座のカバレッジは低いと判断することができる。遺伝子座のカバレッジが十分であるか否かを判断する別の例としては、遺伝子座のリード(例えば正当なリード)の総数を、リード閾値と比較することができる。リード閾値は、サンプルのリード総数および/またはヒストリカルデータに基づき得る。遺伝子座のリード総数がリード閾値を上回らない場合、遺伝子座のカバレッジは低いと判断することができる。他の実施形態では、上記のようなステップの1つまたは複数の組み合わせを用いて、遺伝子座のカバレッジが低いか否かを判断することができる。
オプションとして、246で、カウントスコアまたはリード分布内の対応するリードカウントをそれぞれ、解析閾値と比較することができる。解釈閾値のように、解析閾値は所定の値、または、座のリード総数(例えば、正当なリードの総数)および/もしくは指定座の歴史的な知識といった複数のファクタに基づく関数であり得る。解析閾値は、解釈閾値より厳しくない(例えば、上回ることが易しい)場合がある。具体的には、解釈閾値を超えるには、解析閾値よりも多くのリードカウントが必要な場合がある。
246で解析閾値を上回った後、方法240は、247で、潜在的アレルがスタッター産物と疑われるか否かを判断するステップを含み得る。潜在的アレルがスタッター産物と疑われるか否かを判断するために、種々のルールまたは条件を適用することができる。例えば、図8に関する、上記の1つまたは複数のファクタ171〜175を適用することができる。特定の実施形態では、247の判断には、第1アレルが、第2アレルに対し、付加された、または欠失した反復モチーフを有するか否かを判断することが含まれる。
潜在的アレルがスタッター産物であることが疑われない場合、潜在的アレルは、250で、座の指定アレル、またはコールされたアレルとして指定される。潜在的アレルがスタッター産物であると疑われる場合、方法240は、249で、第1アレルのカウントスコアが指定閾値より少ないか否かを判断するステップを含む。カウントスコアは、リードカウント、またはリードカウントに基づく関数とすることができる。指定閾値は、第2アレルのカウントスコアに基づき得る。特定の実施形態では、249での判断には、第1アレルのカウントスコアが、第2アレルのカウントスコアの所定の範囲(例えば10%〜30%)内にあるか否かを判断することが含まれ得る。
図12には示さないが、潜在的アレルが指定閾値よりも少ない、または、所定の範囲内にある場合、潜在的アレルを第2アレルのスタッター産物として指定することができる。スタッター産物は座の遺伝子型コールとともに言及され得る。例えば、サンプルレポートには、スタッター産物が存在するという指摘とともに、座の遺伝子型が含まれ得る。スタッター産物に関する情報(例えば、第2アレルの配列および割合)がサンプルレポート内で提供され得る。しかしながら、カウントスコアまたはリードカウントが指定閾値を上回る(または、所定の範囲内にある)場合、潜在的アレルは、250で、遺伝子座の指定アレルとして指定され得る。
一部の実施形態では、ノイズアレルのカウントスコアが、252で集められる。ノイズアレルには、246で解析閾値を上回らなかった潜在的アレルが含まれ得る。一部の実施形態では、ノイズアレルにはまた、非整列リードに由来するカウントスコアと、オプションとして上記の未確認リードが含まれ得る。ノイズアレルのカウントスコアを252で集め、254で解析して、過剰な数のリードが、対応する座の潜在的問題を示すか否かを判断することができる。例えば、全てのノイズアレルのカウントスコアを合計し、所定のノイズ閾値と比較することができる。ノイズ閾値は、リードの総数および/またはヒストリカルデータに基づき得る。ノイズ閾値を254で上回った場合、座が過剰な量のノイズを有するという警告が256で提供され得る。
一部の実施形態では、ノイズアレルを258で品質管理のために解析することができる。特定の実施形態では、STR座のノイズアレルは、コールされたアレルと同じ長さの配列を有するノイズアレルと、コールされたアレルと同じ長さではない配列を有するノイズアレルにさらに分けることができる。ノイズアレルの分割は、なぜ過剰なノイズが対応する座で存在するか否かについて追加の情報を提供し得る。
250で指定アレルを決定した後、方法240は、さらに、指定座の遺伝子型コールを作成する前に指定アレルの解析を含み得る。遺伝子型コールは、典型的には、ヘテロ接合型コール(つまり、2つの異なるアレル)またはホモ接合型コール(つまり、1つの観察されるアレル)を含むだろう。ヘテロ接合型コールでは、データは、典型的には、リードが実質的に均一に配分されていることを裏付けるだろう。2つのアレルが、データにおいて、実質的に等しいと表されない場合、座に問題が存在し得る。したがって、一部の実施形態では、方法240は、260で、コールされたアレルを解析して、コールされたアレルの均衡がとれているか、または釣り合っているか否かを判断するステップを含み得る。例えば、コールされたアレルの比率を計算して、比率が均衡閾値を満たしているか否かを判断することができる。ほんの一例として、あるアレルのカウントスコア(例えば、リードカウント)が別のアレルのカウントスコア(例えば、リードカウント)の50%未満または75%未満である場合、アレルは不均衡であると指定することができる。したがって、アレル比率の警告が262で提供され得、アレルが不均衡であることを示唆する。以下で論じるように、アレル比率警告を他の証拠(例えば、他の警告)とともに解析して、サンプルが複数のソースを含むか否かを判断することができる。
一部の実施形態では、方法240は、264で、座のコピー数がコピー閾値を超えるか否かを判断するステップを含み得る。常染色体座では、コピー数は、典型的には多くて2つである。X座またはY座などの非常染色体座では、コピー数は異なり得る。例えば、Y座のコピー数は多くて1つであり得る。X座のコピー数は多くて2つであり得る。以下に記載するように、一部の場合では、サンプルの性別を予測でき、複数のソースがサンプル内に存在するか否かを照会する際にサンプルの性別を用いることができる。
したがって、264での判断には、指定座のコピー数(例えば、0、1、または2)を得ること、および、指定座の、コールされたアレルの数をコピー数と比較することが含まれ得る。コールされたアレルの数がコピー数を超える場合、266で、座が過剰な数のアレルを含むというアレル数警告が提供され得る。以下に記載するように、アレル数警告を他の証拠(例えば、他の警告)とともに解析して、サンプルが複数のソースを含むか否かを判断することができる。
268では、座の遺伝子型がコールされ得る。遺伝子型コールは、250で指定されたアレルに基づき、典型的には1つまたは2つのアレルであるだろう。しかしながら、一部の実施形態では、遺伝子型コールは3つ以上のアレルを含むだろう。3つ以上のアレルを有する遺伝子型コールには、問題が座またはサンプル全般に存在し得ることを示唆する通知が含まれ得る。270では、可能であれば所定の組の遺伝子座についての遺伝子型コールを含むサンプルレポートが生成され得る。サンプルレポートにはまた、方法240または方法200(図11)により同定されたいくつかの通知(例えば、警告)が含まれ得る。一部の実施形態では、座の遺伝子型コールは、座に関する潜在的問題(例えば、カバレッジ、ノイズ、アレルドロップアウト、スタッターなど)を読者に通知するインジケータに沿って提供され得る。他の実施形態では、遺伝子座についてある警告が同定された場合(例えば、カバレッジまたはノイズ)、遺伝子型コールは該遺伝子座に対し提供されない。一部の実施形態では、サンプルレポートには、コールされたアレルの配列、ならびに、オプションとして、スタッター産物および/または他の同定された潜在的アレルの配列が含まれ得る。一部の実施形態では、サンプルレポートには、サンプル全体に関する信頼度スコアが含まれ得る。例えば、多数のone-on-target非整列リードが存在する場合、サンプルレポートは、サンプルの質が低い可能性があることを示し得る。
図13は、サンプルのソースの性別を予測する方法300を示すフローチャートである。方法300は、サンプルが単一ソースに由来すると仮定する。サンプルが、以下に記載するように多数のソースに由来すると十分に判断される場合、性別予測を取り消すことができる。一部の実施形態では、サンプルに多数のソースが含まれると判断した後、方法は、サンプルのソースが全て、単一の性別、例えば男性であると予測することができる。
方法300には、方法240(図12)を組み込むことができる。方法300は、遺伝子座の組に由来する各遺伝子座の指定アレルを決定した後、実行することができる。例えば、方法300は、図12のステップ250が、遺伝子座の組内の複数の遺伝子座(または、組内の全ての遺伝子座)の複数のアレル全てについて行われた後、実行することができる。方法300は、302で、複数の遺伝子座の座データを受信するステップを含む。座データには、対応する遺伝子座についての1つまたは複数の指定された(または、コールされた)アレルが含まれ得る。複数の遺伝子座は、サンプルの性別に基づき異なる数のアレルを有すると予想される座であり得る。言い換えると、座データはX座およびY座に対応し得る。X座には、X染色体上の既知のSNP座またはSTR座が含まれ得る。Y座には、Y染色体上の既知のSNP座またはSTR座が含まれ得る。
方法300は、304で、各Y座の指定アレルの数を、サンプルが男性である場合の予想数、および/または、サンプルが女性である場合の予想数と比較するステップを含み得る。予想数は、ヒストリカルデータに基づく予め設定された数であり得る。男性サンプルの場合の指定アレルの予想数は、座またはアレルがY染色体に現れる回数に基づき得る。これは典型的には1だが、2以上(例えば2)の場合がある。Y座内の女性サンプルの場合の指定アレルの予想数は0である。
オプションとして、方法300は、306で、各X座の指定アレルの数を、サンプルが男性である場合の予想数、および/または、サンプルが女性である場合の予想数と比較するステップを含み得る。X座内の男性サンプルの指定アレルの予測数は、典型的には1だが、座またはアレルがX染色体上に2回以上現れる場合は2以上であり得る。X座内の女性サンプルの指定アレルの予想数は典型的には2だが、座/アレルがX染色体上に2回以上現れる場合はより多い場合がある。
方法300はまた、308で、304での比較の結果および/または306での比較の結果に基づき、サンプルの性別を予測するステップを含む。理想的には、サンプルが男性であった場合は、Y座にはそれぞれ、1つの指定アレルが含まれ、サンプルが女性であった場合は含まれる指定アレルは0個だろう。同様に、X座にはそれぞれ、理想的には、サンプルが男性であった場合は1つの指定アレルが含まれ、サンプルが女性だった場合は1つまたは2つの指定アレルが含まれよう。しかしながら、シーケンシングエラー、汚濁、不適切な解析などのために、X座およびY座がサンプルの性別予測において一貫性を持たない可能性がある。ある場合では、解析は多数の遺伝子座を考慮することができる。例えば、約5〜約10のY座と、約20〜約30のX座があってよい。したがって、サンプルは男性であり得るが、1つまたは複数のY座の指定アレルが0である可能性がある。同様に、サンプルは女性であり得るが、1つまたは複数のY座が指定アレルを有する可能性がある。
したがって、サンプルの性別を予測するための解析には、証拠の全体を解析してサンプルの性別を予測することが含まれ得る。例えば、解析には、(i)サンプルが男性であることと合致するY座の数、(ii)サンプルが女性であることと合致するY座の数、(iii)サンプルが男性であることと合致するX座の数、または(iv)サンプルが男性であることと合致するX座の数のうち、少なくとも1つをカウントすることが含まれ得る。ある実施形態では、Y座の数のみが308での解析で考慮されるか、または、X座の数のみが考慮される場合がある。一部の実施形態では、X座とY座の両方の数が、308での解析で考慮され得る。一部の実施形態では、1つもしくは複数のX座および/または1つもしくは複数のY座が、他の座よりも重要視され得る。
一例として、解析は10個のY座をレビューすることができる。10個のうち9個のY座に指定アレルが含まる場合、これはサンプルが男性であることと合致し、サンプルの性別は男性であると予測することができる、10個のうち1個のY座に指定アレルが含まれる場合、サンプルの性別は女性であると予測することができる。一部の実施形態では、解析により、サンプルが混合物を含むと判断される場合がある。例えば、308での解析が、Y座の数およびX座の数が男性サンプルと女性サンプルの両方を支持すると判断する場合、ソースの混合物が予測され得る。
図14は、サンプルがソースの混合物を含むか否かを検出する方法320を示すフローチャートである。方法320には、方法240(図12)を組み込むことができ、オプションとして、サンプルの性別を予測した後に実行することができる。方法300には、322で、遺伝子座の組の各遺伝子座の、座データを受信するステップが含まれる。座データには、対応する遺伝子座の、1つまたは複数の指定アレルまたはコールされたアレルが含まれ得る。座データには、指定アレルのカウントスコア(例えば、リードカウント)、ノイズアレルのカウントスコア、およびスタッター産物のカウントスコアが含まれ得る。カウントスコアは本明細書に記載のように得ることができる。
各遺伝子座について、方法320は、324で、遺伝子座のコピー数が最大許容可能アレル数(以後、「最大アレル数」という)を超えるか否かを判断するステップを含み得る。上記のように、常染色体の座の最大アレル数は、典型的には2である。X座またはY座の最大アレル数は、サンプル(単一ソースサンプルであると仮定する)が男性であるか、女性であるかに基づく。サンプルが男性である場合、Y座の最大アレル数は1であり、X座の最大アレル数は1である。サンプルが女性である場合、Y座の最大アレル数は0であり、Xの最大アレル数は2である。サンプルは、上記の方法300に基づき、男性または女性であると予測することができる。
したがって、324での判断には、遺伝子座の最大アレル数(例えば、0、1、2)を得ること、および、各遺伝子座のコピー数(つまり、指定アレルの数)を対応する最大アレル数と比較することが含まれ得る。コピー数が最大アレル数を超える場合、アレル数警告またはアレル数フラグが該遺伝子座について提供され得る。
各遺伝子座について、方法300はまた、326で、指定アレルのアレル比率が不均衡であるか否かを判断するステップを含み得る。上記のように、遺伝子座のアレル比率は第1指定アレルのカウントスコア(例えば、リードカウント)および第2指定アレルのカウントスコア(例えば、リードカウント)に基づき得る。単一ソースのサンプルが遺伝子座でホモ接合型である、または、遺伝子座でヘテロ接合型であると予想することができる。ヘテロ接合型の場合、アレル比率は約1:1の比率であろうことが予想され得る。実質的に不均衡な比率は、遺伝子座がヘテロ接合型ではないこと、またはサンプルが2つ以上のソースを含むことを示唆し得る。具体的には、計算された比率が1:1から離れているほど、遺伝子座がホモ接合型であるか、サンプルが全体としてソースの混合物を含む、何れかである可能性が高い。以下に記載するように、サンプルがソースの混合物を含むと判断することは、多数の遺伝子座(例えば、コールされた全ての遺伝子座)の解析に基づく。
一部の実施形態では、326での判断には、遺伝子座の2つの指定アレル間のカウントスコアの比率に基づく、均衡スコアを計算することが含まれ得る。均衡スコアが0.8:1.0〜約1.2:1.0などの指定の範囲内にない場合、均衡スコアは、アレル比率が不均衡であることを示唆し得る。遺伝子座アレル比率が不均衡であると判断される場合、アレル比率警告が遺伝子座に対し生成され得る。一部の実施形態では、均衡スコアを指定閾値と比較して、アレル比率が不均衡であるか否かを判断することができる。
方法320はまた、328で、324での判断および326での判断の結果を解析して、複数のソースがサンプル内に存在するか否かを判断するステップを含み得る。328での解析は、遺伝子座の組に対するアレル数警告の数およびアレル比率警告の数に基づき得る。一実施形態では、警告の総数を計算することができる。警告の総数が混合物閾値を超える場合、サンプルには、複数のソースを有し得るとしてフラグが立てられ得る。混合物閾値は、解析した遺伝子座の数(つまり、遺伝子座の組の遺伝子座の数)に基づき得る。特定の実施形態では、混合物閾値は、コールされた遺伝子の数に基づき得る。一部の実施形態では、混合物閾値は、特定のアッセイに関するヒストリカルデータまたは知識に基づく。
一部の実施形態では、遺伝子座の組には、例えば、10、20、30、40、50、60、70、80、90、または100以上の遺伝子座が含まれ得る。特定の実施形態では、遺伝子座の組には、120、140、160、180、または200以上の遺伝子座が含まれ得る。より特定の実施形態では、遺伝子座の組には、250、300、または350以上の遺伝子座が含まれ得る。
一部の実施形態では、混合物閾値は所定の値であり、これは組内の遺伝子座の所定の割合と等しい。所定の割合は、少なくとも、例えば、5%、10%、15%、20%、25%、30%、35%、40%、50%、60%、または70%以上であり得る。
一部の実施形態では、アレル数警告には、指定アレルの数に基づくアレル数スコアが含まれ得る。具体的には、遺伝子座の最大許容可能アレル数を超える指定アレルの数が増えるほど、サンプルが混合物を含む可能性が高まる。説明のため、第1遺伝子座の指定アレルの数が3であり、第2遺伝子座の指定アレルの数が4である場合、第2遺伝子座のアレル数スコアには、混合物が存在するか否かを判断する際に、第1遺伝子座のアレル数スコアよりも大きい値(または、大きい重み)が割り当てられ得る。
一部の実施形態では、アレル比率警告には、遺伝子座の指定アレルの比率に基づくアレル比率スコアが含まれ得る。具体的には、指定アレルの比率がより不均衡になると、サンプルが混合物を含む可能性が高まり得る。例えば、第1遺伝子座のアレル比率が1.3:1.0であり、第2遺伝子座のアレル比率が2.0:1.0であった場合、混合物が存在するか否かを判断する際に、第2遺伝子座のアレル数スコアは、第1遺伝子座のアレル比率スコアよりもより大きい値(または、より大きい重み)が割り当てられ得る。
一部の実施形態では、サンプルレポートには混合物警告が含まれ得、これはユーザに、サンプルが複数のソースを含む疑いがあることを知らせる。一部の実施形態では、混合物警告には、混合物警告における信頼度のレベルをユーザに知らせる信頼度スコアが伴い得る。信頼度スコアは、アレル数警告の数、アレル数警告に関連するアレル数スコア、アレル比率警告の数、および、アレル比率警告に関するアレル比率スコアのうち少なくとも1つに基づき得る。
図15は、一部の実施形態に従って形成されたシステム400を示し、これを用いて本明細書に記載の種々の方法を実行することができる。例えば、システム400を用いて、方法100(図1)、方法150(図1)、方法160(図8)、方法200(図11)、方法240(図12)、方法300(図13)、および方法340(図14)のうち1つまたは複数を実行することができる。シーケンシングなどの種々のステップがシステム400により自動化され得る一方、1つまたは複数のステップを手動で実行でき、さもなければユーザの相互作用を必要とする場合がある。特定の実施形態では、ユーザは、サンプル(例えば、血液、唾液、髪、***など)を提供することができ、システム400はサンプルを自動的に調製し、シーケンシングし、解析して、サンプルのソースの遺伝子プロファイルを提供することができる。一部の実施形態では、システム400は一か所に置かれた、一体型の独立システムである。他の実施形態では、システムの1つまたは複数の構成要素は互いに離れて位置付けられる。
示すように、システム400には、サンプルジェネレータ402、シーケンサ404、およびサンプルアナライザ406が含まれる。サンプルジェネレータ402は、指定のシーケンシングプロトコル用のサンプルを調製することができる。例えば、サンプルジェネレータはSBS用のサンプルを調製することができる。シーケンサ404は、シーケンシングを実行して、シーケンシングデータを生成することができる。上記のように、シーケンシングデータには複数のサンプルリードが含まれ得る。各サンプルリードにはサンプル配列が含まれ得る。特定の実施形態では、サンプルリードは、ペアエンドシーケンシング、具体的には非対称ペアエンドシーケンシングから生成されるリード対を形成する。
サンプルアナライザ406は、シーケンサ404からシーケンシングデータを受信することができる。図15には、一実施形態に従って形成されたサンプルアナライザ406のブロック図が含まれる。サンプルアナライザ406を用いて、例えば、シーケンシングデータを解析し、特定の座の遺伝子型コールを提供する、または、サンプルの遺伝子プロファイルを生成することができる。サンプルアナライザ406には、システムコントローラ412とユーザインターフェース414が含まれる。システムコントローラ412は、ユーザインターフェース414に通信可能に連結し、また、シーケンサ404および/またはサンプルジェネレータ402とも通信可能に連結する。
例示的な実施形態では、システムコントローラ412には、本明細書に記載の1つまたは複数の方法に従いシーケンシングデータを処理し、オプションとして解析するように構成された、1つまたは複数のプロセッサ/モジュールが含まれる。例えば、システムコントローラ412には、1つまたは複数の記憶素子に記憶された一組の指示(例えば、信号を除く、有形および/または非一時的なコンピュータの可読記憶媒体に記憶される指示)を実行してシーケンシングデータを処理するように構成された、1つまたは複数のモジュールが含まれ得る。命令の組には種々のコマンドが含まれ、これは処理機であるシステムコントローラ412に、本明細書で記載するワークフロー、プロセス、および方法などの特定の動作を実行するように指示する。例として、サンプルアナライザ406は、デスクトップコンピュータ、ラップトップ型、ノート型パソコン、タブレットコンピュータ、またはスマートフォンであるか、またはそれらを含むことができる。ユーザインターフェース414には、ハードウェア、ファームウェア、ソフトウェア、またはその組み合わせが含まれ得、これは個人(例えば、ユーザ)が、システムコントローラ412およびその種々の構成要素の動作を直接的または間接的に制御することを可能にする。示すように、ユーザインターフェース414には、オペレータ用ディスプレイ410が含まれる。
図示する実施形態では、システムコントローラ412は、システムコントローラ412の動作を制御する複数のモジュールまたはサブモジュールを含む。例えば、システムコントローラ412には、モジュール421〜426、およびモジュール421〜426の少なくとも一部と通信する記憶システム426が含まれ得る。モジュールには、第1フィルタモジュール421、アライナモジュール422、第2フィルタモジュール423、スタッターモジュール424、検出器モジュール425、および解析モジュール426が含まれる。システム400には、本明細書に記載の動作を実行するように構成された他のモジュールまたは該モジュールのサブモジュールが含まれ得る。第1フィルタモジュール421は、サンプルリードを解析して、本明細書に記載するように、サンプルリードが指定座の確認リードであるか否かを判断するように構成される。アライナ―モジュール422は、確認リードを解析して、本明細書に記載するように、該確認リードが指定座の整列リードであるか否かを判断するように構成される。第2フィルタモジュール423は、正当なリードを受信し、本明細書に記載するように、該正当なリードが対応する座の潜在アレルを表すか否かを判断するように構成される。スタッターモジュール424は、本明細書に記載するように、正当なリードが別のアレルのスタッター産物であるか否かを判断するように構成される。検出器モジュール425は、本明細書に記載するように、任意のエラーまたは警告が対応する座に対し示されるべきか否かを判断するように構成される。例えば、検出器モジュール425は、座が、過剰な数の非整列リード、低いカバレッジ、過剰な数のノイズアレル、不均衡なアレル、および/または、異なるソースに由来するアレルの混合物を有すると判断し得る。解析モジュール426は、本明細書で記載するように、遺伝子座の遺伝子型を決定するように構成される。
本明細書で用いる場合、「モジュール」、「システム」、または「システムコントローラ」という用語には、ハードウェアシステムおよび/またはソフトウェアシステム、ならびに、動作して1つまたは複数の機能を実行する回路が含まれる。例えば、モジュール、システム、またはシステムコントローラは、コンピュータメモリなどの、有形で非一時的なコンピュータの可読記憶媒体に記憶される指示に基づき動作を実行する、コンピュータプロセッサ、コントローラ、または他の論理系装置を備え得る。あるいは、モジュール、システム、またはシステムコントローラは、ハードワイヤードロジックおよび回路に基づき動作を実行する、ハードワイヤード装置を備え得る。添付の図面に示す、モジュール、システム、またはシステムコントローラは、ハードウェア、および、ソフトウェアもしくはハードワイヤード指示に基づき動作する回路、ハードウェアを指示して動作を実行するソフトウェア、またはその組み合わせを表し得る。モジュール、システム、またはシステムコントローラは、1つもしくはコンピュータマイクロプロセッサなどの1つもしくは複数のプロセッサを備える、および/または、該プロセッサと接続する、ハードウェア回路もしくは回路を備える、または、表すことが可能である。
本明細書で用いる場合、用語「ソフトウェア」および「ファームウェア」は互換性があり、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、および不揮発性RAM(NVRAM)メモリを含む、コンピュータによる実行のためのメモリに記憶された任意のコンピュータプログラムを備える。上記のメモリの種類は単なる例示であり、したがって、コンピュータプログラムの記憶に使用できるメモリの種類を限定しない。
一部の実施形態では、タスクまたは動作を実行するように「構成」されたプロセシングユニット、プロセッサ、モジュール、またはコンピューティングシステムは、タスクまたは動作を実行するように特に構築されている(例えば、1つもしくは複数のプログラムもしくは指示が記憶されている、または、タスクまたは動作を実行するように調整もしくは意図されたそれと共に用いられる1つもしくは複数のプログラムもしくは指示を有する、および/または、タスクまたは動作を実行するように調整もしくは意図されたプロセッシング回路の配置を有する)と理解することができる。明確性のため、および疑いを避けることを目的に、(適切にプログラミングされればタスクまたは動作を実行するように「構成」され得る)汎用コンピュータは、タスクもしくは動作を実行するように特にプログラミングされる、もしくは構造的に修正されなければ、または、そのようにプログラミングされる、もしくは構造的に修正されるまで、タスクまたは動作を実行するように「構成」されない。
図16A、16B、および17A〜17Fは、本明細書に記載の実施形態により生成することができるサンプルレポート500、520を示す。サンプルレポート500、520は1つまたは複数のファイルに保存し、通信ネットワークを介して送ることができる。サンプルレポート500、520は、例えば、スクリーンに表示する、または、紙に印刷することができる。図16Aおよび16Bは、全サンプルレポート500の一部のみを示す。示すように、サンプルレポート500には、単一ソースサンプルであると初めは思われていたものの概要または概略解析が含まれ得る。サンプルレポート500には、STR解析用の第1セクション511およびSNP解析用の第2セクション512が含まれる。サンプルレポート500は、フラグまたはインジケータ510を用い、サンプルが単一ソースであることを確かめることができる。
サンプルレポート500には、コールボックス504のアレイ502が含まれる。各コールボックス504は、指定の遺伝子座に相互に関連し得る。例えば、コールボックス504Aは遺伝子座Amelogeninに対応し、コールボックス504Bは遺伝子座TPOXに対応する。コールボックス504にはそれぞれ、遺伝子座の遺伝子型コール506が含まれる。Amelogeninの遺伝子型コール506はX、Yであり、TPOXの遺伝子型コールはアレル11、11である。アレル名は、慣習的な名づけに基づくか、または、他の名づけプロトコル(例えば、プロプライエタリ・プロトコル)により決定され得る。
コールボックス504はそれぞれ、フラグまたは通知が遺伝子座と関連するか否かを示し得る。例えば、図16では、コールボックス504を色分けし、フラグまたは通知が存在するか否かを示す。コールボックス504Aは灰色であり、コールボックス504Cはオレンジ色または赤色である。他の表示法を代替の実施形態で用いることができる。図16では、色分けしたカラーボックス504にはそれぞれフラグ508が含まれる。フラグ508は、フラグ508を定義する凡例516において上記で言及されている。例えば、サンプルレポート500には、「スタッター」、「アレルカウント」、「不均衡」、「低カバレッジ」、「解釈閾値」、および「ユーザ修正済み」のフラグ508が含まれる。これらのフラグ508は、例えば、本明細書に記載の解析後、コールボックス504に割り当てることができる。
図17A〜17Fは、遺伝子座についてのより詳細な解析を提供する。一部の実施形態では、サンプルレポート520は、サンプルレポート500(図16)の一部であり得る。示すように、遺伝子座にはそれぞれグラフ522が割り当てられ、これは対応する遺伝子座データを視覚的に表現する。図示する実施形態では、グラフ522は棒グラフだが、他のグラフを用いてデータを視覚的に表現することができる。グラフ522は、異なるアレルに対するリード強度を特に示す。リード強度はカウントスコアとすることができる、または、上記のようにカウントスコアに基づき得る。一部の実施形態では、リード強度/カウントスコアはリードカウントである。
グラフ522は、リード強度(または、カウントスコア)に関する解釈閾値および解析閾値を示し得る。例えば、D2S441座は、解釈閾値530および解析閾値532を有する。解釈閾値530および解析閾値532は、上記の解釈閾値および解析閾値と似ている。図17に示すように、座が異なれば解釈閾値および解析閾値も異なり得る。例えば、D21S11座は、PentaE座の解釈閾値551より大きい解釈閾値550を有する。上記のように、解釈閾値および/または解析閾値は、指定座に対応するリード総数に基づき得る(つまり、該リード総数の関数であり得る)。オプションとして、解釈閾値および/または解析閾値は、特定の座のリードカウントの関数であり得、他の座のリードカウントおよび/または他のサンプルのリードカウントの関数でもあり得る。
一部の実施形態では、グラフ522はまた、スタッター産物を示し得る。グラフ522は視覚的に、スタッター産物を真のアレルから区別することができる。例えば、D1S1656座には、D1S1656のCEアレル11、12、13それぞれと相互に関連する棒541〜543が含まれる。棒541〜543は、各アレルのリード強度(または、カウントスコア)を示し得る。図17に示すD1S1656座のアレルは、歴史的にCEデータに基づき、慣例により11、12、および13とラベル付けされている。図17の異なる色(例えば、青色および茶色)で示すように、D1S1656座のアレルはスタッター産物を含み得る。具体的には、棒541はスタッター産物であり、D1S1656座の解釈閾値555を超えない、棒542は棒部546、547を備える。棒部546、547はそれぞれ、視覚的にリード強度を表す。棒部546、547に対応するリードの配列は同じ長さだが、棒部546、547に対応するリードの配列は異なる。棒部546はスタッター産物を表す。しかしながら、上記のように、棒部546で表されるスタッター産物は、CEアレル13など、別のアレルである場合がある。したがって、色分け(または、スタッター産物および真のアレルを区別する他のインジケータ)によりユーザに通知または警告し、CEアレル11、12、13の異なる配列を解析してより確信のある遺伝子コールの決定を提供できるようにする。図17では、D1S1656座の遺伝子コールは12/13である。しかしながら、他の場合では、スタッター産物の配列の解析により遺伝子コールは変更され得る。具体的には、一部の場合で、既知のCEプロセスを用いる遺伝子コールは正しくない場合がある。本明細書に記載の実施形態は、正しい遺伝子コールを提供可能であり得る。
サンプルレポート520はまた、異なる遺伝子座についてのフラグまたは通知を提供する。凡例524は通知を定義する。一例として、D21S11座は「不均衡」および「アレルカウント」のフラグを有する。言い換えると、サンプルレポート520は、閲覧者に、アレルの数が予想されないこと、およびアレルの均衡が予想されないことを示す。閲覧者は、D21S11座に関するデータをさらに調査することを望み得る。
一実施形態では、方法を提供する。方法には、対応するヌクレオチド配列を有する複数のサンプルリードを含むシーケンシングデータを受信するステップを含む。前記方法はまた、ヌクレオチド配列に基づき、サンプルリードを指定座に割り当てるステップを含み、ここにおいて対応する指定座に割り当てられるサンプルリードは、対応する指定座の割り当てリードである。前記方法はまた、各指定座の割り当てリードを解析して、割り当てリード内の対応する関心領域(ROI)を同定するステップを含む。ROIはそれぞれ1つまたは複数の反復モチーフ連続を有し、対応する連続の各反復モチーフは、同一のヌクレオチド組を含む。前記方法はまた、多数の割り当てリードを有する指定座について、ROIの配列に基づき割り当てリードを分類し、その結果、異なる配列を有するROIが異なる潜在的アレルとして割り当てられるようにする、ステップを含む。各潜在的アレルは、指定座内の他の潜在的アレルの配列とは異なる配列を有する。前記方法はまた、多数の潜在的アレルを有する指定座について、潜在的アレルの配列を解析して、潜在的アレルの第1アレルが潜在的アレルの第2アレルのスタッター産物であると疑われるか否かを判断するステップを含む。対応する配列内のk(kは整数)個の反復モチーフが第1アレルと第2アレルの間で付加された、または欠失した場合に、第1アレルは第2アレルのスタッター産物であると疑われる。オプションとして、kは1または2と等しい。
一態様では、多数の潜在的アレルを有する指定座について、潜在的アレルの配列を解析して、第1アレルが第2アレルのスタッター産物であると疑われるか否かを判断するステップには、第1アレルと第2アレルのROIの長さを比較して、第1アレルと第2アレルのROIの長さが、1反復モチーフまたは多数の反復モチーフにより異なるか否かを判断するステップが含まれ得る。
別の態様では、多数の潜在的アレルを有する指定座について、潜在的アレルの配列を解析して、第1アレルが第2アレルのスタッター産物であると疑われるか否かを判断するステップには、付加された、または欠失した反復モチーフを同定し、前記付加された、または欠失した反復モチーフが、対応する配列において隣接反復モチーフと同一であるか否かを判断するステップが含まれ得る。
別の態様では、第1アレルと第2アレルのROIの配列間に他のミスマッチがない場合、第1アレルは第2アレルのスタッター産物であり得る。
別の態様では、前記方法はまた、少なくとも複数の指定座の遺伝子型をコールする遺伝子型プロファイルを生成するステップを含み得、疑わしいスタッター産物を有する指定座は、疑わしいスタッター産物を有することが示される。
別の態様では、前記方法はまた、少なくとも複数の指定座に遺伝子型コールを提供するステップを含み得、遺伝子型コールの少なくとも1つは、少なくとも1つの遺伝子型コールの指定座に疑わしいスタッター産物が存在することを示す。
別の態様では、前記方法はまた、多数の潜在的アレルを有する各指定座について、潜在的アレルに対しコールされたサンプルリードの総数をカウントするステップを含むことができる。第1アレルのサンプルリードが、第2アレルのサンプルリードの指定の閾値未満である場合、第1アレルは第2アレルのスタッター産物である場合がある。オプションとして、指定閾値は第2アレルのサンプルリードの約40%である。オプションとして、第1アレルのサンプルリードが第2アレルのサンプルリードの所定の割合を超える場合、疑わしいスタッター産物は別のコントリビュータに由来すると指定される。オプションとして、第1アレルのサンプルリードが第2アレルのサンプルリードの所定の割合未満である場合、疑わしいスタッター産物はノイズとして指定される。
別の態様では、割り当てリードは第1保存フランキング領域と第2保存フランキング領域を含み、その間に対応する反復セグメントが位置する。各割り当てリードについて、前記方法は、(a)第1保存フランキング領域と第2保存フランキング領域を含む基準配列を提供するステップと、(b)基準配列の第1フランキング領域の一部を対応する割り当てリードに整列させるステップと、(c)基準配列の第2フランキング領域の一部を対応する割り当てリードに整列させるステップと、(d)反復セグメントの長さおよび/または配列を求めるステップとを含み得る。
オプションとして、ステップ(b)またはステップ(c)の一方または両方でフランキング領域の一部を整列させるステップには、(i)反復セグメントに重なる、または隣接するシーディング領域の正確なk-merマッチングを用いることにより、対応する保存フランキング領域の割り当てリード上での位置を決定するステップと、(ii)フランキング領域を割り当てリードに整列させるステップとが含まれる。
オプションとして、シーディング領域には、保存されたフランキング領域の複雑度の高い領域が含まれる。例えば、複雑度の高い領域には、ミスアライメント防ぐために反復セグメントとは十分に異なる配列が含まれ得る。別の例として、複雑度の高い領域にはヌクレオチドの多様な混合物を有する配列が含まれ得る。
オプションとして、シーディング領域は、対応する保存されたフランキング領域の複雑度の低い領域を避ける。例えば、複雑度の低い領域は、複数の反復モチーフと実質的に似た配列を有し得る。
オプションとして、シーディング領域は反復セグメントに直接隣接するか、シーディング領域には反復セグメントの一部が含まれ得るか、または、シーディング領域は反復セグメントからオフセットしている。
別の態様では、サンプルリードは、フォワードプライマー配列およびリバースプライマー配列を有するPCRアンプリコンであり得る。
別の態様では、サンプルリードを指定座に割り当てるステップには、PCRアンプリコンのプライマー配列に対応するサンプルリードの配列を同定するステップが含まれ得る。
別の態様では、シーケンシングデータは、合成によるシーケンシング(SBS)アッセイに由来し得る。
別の態様では、ROIにはショートタンデムリピート(STR)が含まれる。オプションとして、STRは、CODIS常染色体STR座、CODIS Y-STR座、EU常染色体STR座、またはEU Y-STR座の少なくとも1つから選択される。
一実施形態では、遺伝子座の組に対応するアンプリコンの複数のサンプルリードを有するシーケンシングデータを受信するステップを含む方法を提供する。サンプルリードはリード対を含み、対応するアンプリコンの各リード対は対応するアンプリコンの第1リードおよび第2リードを含む。第1リードおよび第2リードはそれぞれ、各々のリード配列を有する。前記方法はまた、第1リードの潜在的遺伝子座を、第1リードのリード配列の解析に基づき同定するステップを含む。潜在的遺伝子座は遺伝子座の組に由来する。前記方法はまた、少なくとも1つの潜在的座を有する第1リードそれぞれについて、第1リードが潜在的遺伝子座それぞれの基準配列と整列するか否かを判断するステップを含む。第1リードが1つの遺伝子座のみの基準配列と整列する場合、前記方法は第1リードがその1つの遺伝子座の潜在的アレルを含むと判断するステップを含む。第1リードが2つ以上の基準配列と整列する場合、前記方法は、第1リードが、該第1リードと最もよく整列する基準配列を有する遺伝子座の潜在的アレルを含むと判断するステップを含む。第1リードが基準配列と整列しない場合、前記方法は第1リードを非整列リードとして指定し、非整列リードを解析して該非整列リードと最も合う遺伝子座を潜在的遺伝子座から同定するステップを含む。前記方法はまた、少なくとも複数の遺伝子座について、コールされた遺伝子型を含む遺伝子プロファイルを生成するステップを含み、コールされた遺伝子型は、対応する遺伝子座の潜在的アレルに基づく。遺伝子プロファイルはまた、非整列リードを有する遺伝子座についての1つまたは複数の通知を含む。
一態様では、少なくとも1つの通知は、対応する遺伝子座と関連する信頼度スコアを含む。信頼度スコアは、対応する遺伝子座と最も合う非整列リードの数に基づき得、より大きい数の非整列リードは、コールされた遺伝子型の信頼度がより低いことを示す。
別の態様では、非整列リードを解析して該非整列リードと最も合う遺伝子座を潜在的遺伝子座から同定するステップには、非整列リードの同定サブ配列を解析して、同定サブ配列と最も合う遺伝子座を同定するステップが含まれ得る。
別の態様では、同定サブ配列にはプライマー配列の少なくとも一部が含まれる。
別の態様では、第1リードの潜在的遺伝子座を同定するステップには、第1リードのプライマー配列が、潜在的遺伝子座に関連する配列に実質的にマッチすると判断するステップが含まれる。
別の態様では、シーケンシングデータは、非対称ペアエンドシーケンシングを介して生成される。
別の態様では、前記方法はまた、非整列リードを解析して、潜在的アレルのドロップアウトが存在するか否かを判断するステップを含み得る。
別の態様では、前記方法はまた、非整列リードを解析してアッセイの調子を判断するステップを含み得る。
別の態様では、前記方法はまた、非整列リードを解析して、非整列リードがキメラを示すか否かを判断するステップを含み得る。
別の態様では、前記方法はまた、非整列リードを解析してプライマーダイマーの数を決定するステップを含み得る。
別の態様では、第1リードに遺伝子座の潜在的アレルが含まれると判断するステップには、第1リードに対応する第2リードも前記遺伝子座と相互に関連することを確かめるステップが含まれ得る。
別の態様では、前記方法はまた、非整列リードを解析して、該非整列リードがone-on-targetリードであるかpair-on-targetリードであるかを判断するステップが含まれ得る。pair-on-targetリードは、データベースの第1選択配列および第2選択配列と実質的にマッチする第1同定サブ配列および第2同定サブ配列を有し得る。one-on-targetリードは、データベースの第1選択配列と実質的にマッチする第1同定サブ配列のみを有し得る。
一実施形態では、遺伝子座の組に対応するアンプリコンの複数のサンプルリードを有するシーケンシングデータを受信するステップを含む方法を提供する。サンプルリードはリード対を含み、対応するアンプリコンの各リード対は、対応するアンプリコンの第1リードおよび第2リードを含む。第1リードおよび第2リードはそれぞれ、各々のリード配列を有する。前記方法はまた、第1リードの潜在的遺伝子座を、第1リードのリード配列の解析に基づき同定するステップを含む。潜在的遺伝子座は遺伝子座の組に由来する。前記方法はまた、少なくとも1つの潜在的座を有する第1リードそれぞれについて、第1リードが潜在的遺伝子座それぞれの基準配列と整列するか否かを判断するステップを含む。前記方法はまた、基準配列と整列しない第1リードを非整列リードとして指定するステップを含む。前記方法はまた、非整列リードを解析して、非整列リードと最も合う遺伝子座を、潜在的遺伝子座から同定するステップを含む。前記方法はまた、非整列リードを解析して、最も合う遺伝子座について、潜在的アレルのドロップアウトが存在するか否かを判断するステップを含む。
一態様では、前記方法はまた、非整列リードを解析して、該非整列リードがone-on-targetリードであるかpair-on-targetリードであるかを判断するステップを含み得る。pair-on-targetリードは、データベースの第1選択配列および第2選択配列と実質的にマッチする第1同定サブ配列および第2同定サブ配列を有し得る。one-on-targetリードは、データベースの第1選択配列と実質的にマッチする第1同定サブ配列のみを有し得る。非整列リードを解析して、最も合う遺伝子座について潜在的アレルのドロップアウトが存在するか否かを判断するステップは、pair-on-targetリードの数に基づき得る。
一実施形態では、複数の遺伝子座の各遺伝子座についてのリード分布を受信するステップを含む方法を提供する。リード分布は複数の潜在的アレルを含み、各潜在的アレルは、アレル配列とリードカウントを有する。リードカウントは、潜在的アレルを含むと判断された、シーケンシングデータのサンプルリードの数を表す。前記方法はまた、複数の遺伝子座の各遺伝子座について、リード分布のうち、最大リードカウントを有する潜在的アレルの1つを同定するステップを含み得る。前記方法はまた、複数の遺伝子座の各遺伝子座について、最大リードカウントが解釈閾値を超えるか否かを判断するステップを含み得る。最大リードが解釈閾値を超える場合、前記方法は、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップを含む。最大リードが解釈閾値未満である場合、前記方法は、遺伝子座のカバレッジが低いという警告を生成するステップを含む。前記方法はまた、遺伝子型がコールされた遺伝子座それぞれの遺伝子型と、カバレッジの低い遺伝子座についての警告とを含む、遺伝子プロファイルを生成するステップを含む。
一態様では、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップには、また、各遺伝子座の潜在的アレルの数を、遺伝子座の所定の最大許容可能アレル数と比較するステップと、潜在的アレルの数が所定の最大許容可能アレル数を超える場合、遺伝子座は過剰な数のアレルを有するという警告を生成するステップとが含まれ得る。
別の態様では、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップには、また、遺伝子座の複数の潜在的アレルの比率が互いに不十分である場合、遺伝子座は不均衡であるという警告を生成するステップが含まれ得る。
別の態様では、前記方法はまた、複数の遺伝子座の各遺伝子座について、潜在的アレルのリードカウントが解析閾値を上回るか否かを判断するステップを含み得る。解析閾値は解釈閾値より上回ることが易しい場合がある。
別の態様では、解釈閾値を上回らないリードカウントを有する潜在的アレルはノイズアレルとして指定され、前記方法はさらに、ノイズアレルのリードカウントの合計をノイズ閾値と比較し、合計がノイズ閾値を超える場合、遺伝子座は過剰なノイズを含むという警告を生成するステップをさらに含む。
オプションとして、遺伝子座にはタンデムショートリピート(STR)座と一塩基多型(SNP)座が含まれる。
一実施形態では、(a)遺伝子座のリード分布を受信するステップを含む方法を提供する。リード分布は複数の潜在的アレルを含み、各潜在的アレルは、アレル配列とカウントスコアを有する。カウントスコアは、潜在的アレルを含むことが明らかにされた、シーケンシングデータのサンプルリードの数に基づく。前記方法はまた、(b)もう1つの潜在的アレルのカウントスコアに基づき、遺伝子座のカバレッジが低いが否かを判断するステップを含む。遺伝子座のカバレッジが低い場合、前記方法は、遺伝子座のカバレッジが低いという通知を生成するステップを含む。遺伝子座のカバレッジが低くない場合、前記方法は、潜在的アレルのカウントスコアを解析して遺伝子座の遺伝子型を決定するステップを含む。前記方法はまた、(d)遺伝子座の遺伝子型または遺伝子座のカバレッジが低いという警告を含む、遺伝子プロファイルを生成するステップを含む。
一態様では、遺伝子座のカバレッジが低いか否かを判断するステップには、潜在的アレルの1つまたは複数のカウントスコアが、解釈閾値を上回るか否かを判断するステップが含まれ得る。カウントスコアの少なくとも1つが解釈閾値を上回る場合、前記方法はまた、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップを含み得る。カウントスコアがいずれも解釈閾値を上回らない場合、前記方法は、遺伝子座のカバレッジが低いという通知を生成するステップを含み得る。
別の態様では、遺伝子座のカバレッジが低いか否かを判断するステップには、潜在的アレルの1つまたは複数のカウントスコアが解析閾値を上回るか否かを判断するステップが含まれる。カウントスコアの少なくとも1つが解析閾値を上回る場合、前記方法はまた、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップを含み得る。カウントスコアがいずれも解析閾値を上回らない場合、前記方法はまた、遺伝子座のカバレッジが低いという通知を生成するステップを含み得る。
別の態様では、遺伝子座のカバレッジが低いか否かを判断するステップには、遺伝子座の整列リード総数をリード閾値と比較するステップが含まれる。整列リード総数がリード閾値を上回る場合、前記方法は、対応する遺伝子座の潜在的アレルを解析して遺伝子座の遺伝子型をコールするステップを含み得る。整列リード総数がリード閾値を上回らない場合、前記方法は、遺伝子座のカバレッジが低いという通知を生成するステップを含み得る。
別の態様では、カウントスコアはそれぞれ、対応する潜在的アレルのリードカウントに等しい値である。
別の態様では、カウントスコアはそれぞれ、遺伝子座のリードカウントおよびリード総数に基づく関数である。
別の態様では、カウントスコアはそれぞれ、遺伝子座のリードカウントおよび該遺伝子座について事前に得られたデータに基づく関数である。
別の態様では、カウントスコアはそれぞれ、サンプルの他の遺伝子座のリードカウントに基づく関数である。
別の態様では、カウントスコアはそれぞれ、他のサンプルの遺伝子座のリードカウントに基づく関数である。
別の態様では、遺伝子座の潜在的アレルを解析して遺伝子座の遺伝子型をコールするステップには、遺伝子座の潜在的アレルの数を、遺伝子座の所定の最大許容可能アレル数と比較するステップと、潜在的アレルの数が所定の最大許容可能アレル数を超える場合、遺伝子座は過剰な数のアレルを有するという警告を生成するステップも含まれる。
別の態様では、遺伝子座の潜在的アレルを解析して遺伝子座の遺伝子型をコールするステップには、遺伝子座の複数の潜在的アレルの比率が互いに不十分である場合、遺伝子座は不均衡であるという通知を生成するステップも含まれ得る。
別の態様では、前記方法はまた、潜在的アレルのカウントスコアが解析閾値を上回るか否かを判断するステップを含み得る。解析閾値は解釈閾値よりも上回ることが易しい場合がある。オプションとして、解析閾値を上回らないカウントスコアを有する潜在的アレルはノイズアレルとして指定される。前記方法はまた、ノイズスコアをノイズ閾値と比較するステップと、ノイズスコアがノイズ閾値を上回る場合、遺伝子座は過剰なノイズを含むという警告を生成するステップとを含み得る。ノイズスコアはノイズアレルのカウントスコアに基づき得る。
オプションとして、遺伝子座は、ショートタンデムリピート(STR)座または一塩基多型(SNP)座の一方である。
別の態様では、前記方法は、複数の遺伝子座について、(a)〜(c)を反復するステップを含み、遺伝子プロファイルを生成するステップには、遺伝子座それぞれの遺伝子型をコールするステップ、または、カバレッジの低い遺伝子座それぞれについての通知を提供するステップが含まれる。
一実施形態では、遺伝子座のリード分布を受信するステップを含む方法を提供する。リード分布は複数の潜在的アレルを含み、各潜在的アレルは、アレル配列とリードカウントを有する。リードカウントは、遺伝子座に割り当てられた、シーケンシングデータのサンプルリードの数を表す。前記方法はまた、潜在的アレルそれぞれのカウントスコアを求めるステップを含み得る。カウントスコアは潜在的アレルのリードカウントに基づき得る。前記方法はまた、潜在的アレルのカウントスコアが解析閾値を上回るか否かを判断するステップを含み得る。対応する潜在的アレルのカウントスコアが解析閾値を上回らない場合、前記方法は、対応する潜在的アレルを破棄するステップを含む。対応する潜在的アレルのカウントスコアが解析閾値を上回る場合、前記方法は、潜在的アレルを遺伝子座の指定アレルとして指定するステップを含む。
一態様では、対応する潜在的アレルを破棄するステップには、潜在的アレルをノイズアレルとして指定するステップが含まれる。前記方法はまた、ノイズアレルのカウントスコアが一括してノイズ閾値を上回るか否かを判断するステップを含む。カウントスコアが一括してノイズ閾値を上回る場合、前記方法は、遺伝子座は過剰なノイズを有するという警告を生成するステップを含み得る。
別の態様では、カウントスコアはそれぞれ、対応する潜在的アレルのリードカウントと等しい値である。
別の態様では、カウントスコアはそれぞれ、遺伝子座のリードカウントおよびリード総数に基づく関数である。
別の態様では、カウントスコアはそれぞれ、遺伝子座のリードカウントおよび該遺伝子座について事前に得たデータに基づく関数である。
別の態様では、前記方法はまた、指定アレルの数を、遺伝子座の所定の最大許容可能アレル数と比較するステップと、指定アレルの数が、所定の最大許容可能アレル数を超える場合、遺伝子座は過剰な数のアレルを有するという警告を生成するステップとを含み得る。
別の態様では、前記方法はまた、遺伝子座の複数の指定アレルの比率が互いに不十分である場合、遺伝子座は不均衡であるという警告を生成するステップを含む。
オプションとして、遺伝子座にはショートタンデムリピート(STR)座と一塩基多型(SNP)座が含まれる。
一実施形態では、遺伝子座のリード分布を受信するステップを含む方法を提供する。リード分布は複数の潜在的アレルを含み、各潜在的アレルはアレル配列とリードカウントを有する。リードカウントは、遺伝子座に割り当てられた、シーケンシングデータのサンプルリードの数を表す。前記方法はまた、リードカウントが解析閾値を超えるか否かを判断するステップを含む。対応する潜在的アレルのリードカウントが解析閾値未満である場合、前記方法は、対応する潜在的アレルをノイズアレルとして指定するステップを含む。対応する潜在的アレルのリードカウントが解析閾値を上回る場合、前記方法は、潜在的アレルを遺伝子座のアレルとして指定するステップを含む。前記方法はまた、ノイズアレルのリードカウントの合計がノイズ閾値を超えるか否かを判断するステップを含む。合計がノイズ閾値を超える場合、前記方法は、遺伝子座は過剰なノイズを有するという警告を生成するステップを含む。
一態様では、前記方法はまた、指定アレルの数を、遺伝子座の所定の最大許容可能アレル数と比較するステップと、指定アレルの数が、所定の最大許容可能アレル数を超える場合、遺伝子座は過剰な数のアレルを有するという警告を生成するステップとを含み得る。
別の態様では、前記方法はまた、遺伝子座の複数の指定アレルの比率が互いに不十分である場合、遺伝子座は不均衡であるという警告を生成するステップを含み得る。
オプションとして、遺伝子座にはショートタンデムリピート(STR)座と一塩基多型(SNP)座が含まれる。
一実施形態では、複数の遺伝子座の各遺伝子座の座データを受信するステップを含む方法を提供する。座データは対応する遺伝子座について1つまたは複数の指定アレルを含む。各指定アレルは、シーケンシングデータから得られたリードカウントに基づく。前記方法はまた、複数の遺伝子座の各遺伝子座について、対応する遺伝子座の指定アレルの数が、対応する遺伝子座の所定の最大許容可能アレル数より大きいか否かを判断するステップを含む。前記方法は、指定アレルの数が所定の最大許容可能アレル数を超える場合、アレル数警告を生成するステップを含み得る。前記方法はまた、複数の遺伝子座の各遺伝子座について、指定アレルのアレル比率が不十分であるか否かを判断するステップを含む。アレル比率は指定アレルのリードカウントに基づき得る。前記方法はまた、アレル比率が不均衡である場合、アレル比率警告を生成するステップを含み得る。前記方法はまた、遺伝子座の組のアレル数警告とアレル比率警告の数に基づき、サンプルが複数のソースの混合物を含むと判断するステップを含み得る。
一態様では、サンプルが複数のソースの混合物を含むと判断するステップには、警告の総数が混合物閾値を上回ると判断するステップが含まれる。オプションとして、混合物閾値は、遺伝子座の組における遺伝子座の数に基づく。オプションとして、混合物閾値は、組内の遺伝子座の所定の割合に等しい所定値である。
別の態様では、アレル数警告を生成するステップには、指定アレルの数に基づくアレル数スコアを提供するステップが含まれる。サンプルが複数のソースの混合物を含むと判断するステップには、アレル数スコアを解析するステップが含まれ得る。オプションとして、サンプルが混合物を含む可能性は、最大許容可能アレル数を超える指定アレルの数が増えるほど高まる。
別の態様では、アレル比率警告を生成するステップには、アレル比率に基づくアレル比率スコアを提供するステップが含まれる。サンプルが複数のソースの混合物を含むと判断するステップには、アレル比率スコアを解析するステップが含まれる。オプションとして、サンプルが混合物を含む可能性は、アレル間の不均衡が増すほど高まる。
オプションとして、遺伝子座にはショートタンデムリピート(STR)座と一塩基多型(SNP)座が含まれる。
一実施形態において、複数のY座の座データを受信するステップを含む方法を提供する。座データにはY座の指定アレルが含まれる。各指定アレルはシーケンシングデータから得られるリードカウントに基づく。前記方法はまた、各Y座の指定アレルの数を、Y座の予想アレル数と比較するステップを含む。前記方法はまた、比較動作の結果に基づき、サンプルが男性または女性であるという予測を生成するステップを含む。オプションとして、遺伝子座にはショートタンデムリピート(STR)座と一塩基多型(SNP)座が含まれる。
1つまたは複数の実施形態において、本明細書に記載の、1つまたは複数の請求項を実行するように構成されたサンプルアナライザを含むシステムを提供する。
本出願を通して、種々の刊行物、特許、および/または特許出願が言及されている。これらの刊行物の開示は、その全体が、参照により本出願に組み込まれる。
本明細書で用いる場合、「含み(comprising)」、「含み(including)」、および「有し(having)」などの用語は非限定的であり、言及された要素だけでなく、場合により追加の要素を包含する。
上記記載は例示のためであり、限定することを意図しないことが理解されるべきである。例えば、上記実施形態(および/またはその態様)は互いに組み合わせて用いることができる。加えて、多くの修正を加えて、特定の状況または物質を本明細書の趣旨から離れることなく、その教示に適合させることができる。本明細書に記載の、寸法、物質の種類、種々の構成要素の向き、ならびに、種々の構成要素の数および位置は、ある実施形態のパラメータを定義することを意図し、決して限定するものではなく、単なる例示的な実施形態である。特許請求の趣旨および範囲内にある多くの他の実施形態および修正が、上記記載をレビューする際、当業者には明らかであろう。そのため、本発明の範囲は、添付の特許請求の範囲に照らし、そのような特許請求の範囲が権利を持つ対応特許の全範囲に沿って、決定されるべきである。
本記載で用いる場合、「例示的な実施形態において」、「一部の実施形態において」、および「特定の実施形態において」という句は、記載される実施形態が、本出願に従って形成または実行され得る実施形態の例であることを意味する。該句は、発明の主題を該実施形態に限定することを意図しない。具体的には、発明の主題の他の実施形態は、特定の実施形態を用いて記載される、言及された特徴または構造を含まない場合がある。
添付の特許請求の範囲において、「含み(including)」および「ここにおいて(in which)」という用語は、「含み(comprising)」および「ここにおいて(wherein)」という各用語の平易な英語の同義語として用いられる。さらに、以下の特許請求の範囲では、「第1」、「第2」、「第3」などの用語は単なるラベルとして用いられ、数値的要件をその対象に課すことを意図しない。さらに、以下の特許請求の範囲の限定は、ミーンズ・プラス・ファンクション形式(means-plus-function format)では書かれず、そのような特許請求の範囲の限定が、追加的な構造を含まない機能の陳述が後続する「means for」フレーズを明白に使用しない限り、かつ、使用するまで、米国特許法第112条(f)に従って解釈されることを意図しない。
以下の特許請求の範囲は本出願の1つまたは複数の実施形態に言及し、該特許請求の範囲はそれにより本出願の記載に組み込まれる。