JP6802154B2

JP6802154B2 - 核酸シーケンシングデータを解析するための方法およびシステム

Info

Publication number: JP6802154B2
Application number: JP2017514334A
Authority: JP
Inventors: ブリュアンジョセリーン; ヨハンシュレンジャーフェリックス
Original assignee: イラミーナインコーポレーテッド
Priority date: 2014-09-18
Filing date: 2015-09-15
Publication date: 2020-12-16
Anticipated expiration: 2035-09-15
Also published as: CN107002121B; WO2016044233A1; JP2017528140A; US20210375396A1; SA517381091B1; EP3194627A1; KR102538753B1; AU2015318017A1; US20160085910A1; EP3194627C0; CN107002121A; AU2015318017B2; EP3194627B1; KR20170056682A; EP3194627A4; CA2960840A1

Description

〔関連出願の相互参照〕
本出願は、全体が参照により本明細書に組み込まれる、２０１４年９月１８日に出願された「METHODS AND SYSTEMS FOR ANALYZING NUCLEIC ACID SEQUENCING DATA」と題する米国仮特許出願第62/052189号の優先権を主張する。

種個体群（例えば、ヒト）の個体を区別する、または、該群もしくは該群内の個体に関する他の有用な情報を提供するのに有用な、種々の遺伝子座が同定されてきた。例えば、遺伝子座はアレルと呼ばれるいくつかの異型を有し得、群の各個体は特定の座において１つまたは複数のアレルを有し得る。座のアレルは、長さ（つまり、ヌクレオチド総数）が同じ座および／またはヌクレオチド配列が同じ座の他のアレルとは異なり得る。遺伝子座のアレルを解析する種々の遺伝子アプリケーションが存在する。これらの遺伝子アプリケーションには、父子鑑別、人物同定（例えば、法医学解析）、キメラモニタリング（例えば、組織移植モニタリング）、ならびに、植物および動物の研究における他の遺伝子アプリケーションが含まれる。多くの遺伝子アプリケーションは、ショートタンデムリピート（ＳＴＲ）および／または一塩基多型（ＳＮＰ）を含む座を解析する。ＳＴＲは反復モチーフを含むＤＮＡの反復領域である。該反復モチーフは、例えば、２〜６のヌクレオチド長であり得るが、他のサイズの反復モチーフも存在する。

ＳＴＲおよび／またはＳＮＰの解析は近年改良されてきたが、課題がまだ存在する。例えば、ＳＴＲの解析には、概して、ヌクレオチドの実際の配列の解析が含まれていない。ＳＴＲは典型的には、キャピラリ電気泳動（ＣＥ）システムを用いて解析される。ＣＥシステムはアレルの長さを決定するのみで、アレルの配列を同定しない。したがって、ＣＥデータは、個体が、実際には、長さは同じだが配列は異なる２つの異なるアレルを有している場合でも、該個体が特定のアレルについてホモ接合型であることを示す可能性がある。

核酸配列を解析するシステムについて、品質管理の課題が存在する場合もある。例えば、一部のアッセイには、生体サンプルの調整、該生体サンプルのＳＴＲアレルの増幅、およびその後の、結果として生じるアンプリコンのシーケンシングが含まれる。サンプルの調整および増幅後、１つまたは複数のアンプリコンがプライマーダイマーを介して生じ、および／または、１つまたは複数のアンプリコンが２つ以上のソースに由来する核酸を含み（例えば、キメラ）、対応するデータを信頼できないようにする可能性があり得る。不所望のデータが同定されず、除外されない場合、例えば、ソースの正確な遺伝子プロファイルを提供すること、または多数のソースの存在を同定することがより難しくなり得る。不所望のデータが同定された場合は、該データは典型的には除外され、破棄されるが、さらなる解析はない。同様に、シーケンシング中に起きるエラーも、解析をより難しくし得、このようなデータは典型的には破棄される。最後に、未知のソースから個体の性別を信頼性をもって決定することも困難になり得る。

したがって、シーケンシングデータを解析するための方法およびシステムを改良する必要がある。

一実施形態では、対応するヌクレオチド配列を有する複数のサンプルリードを含むシーケンシングデータを受信するステップを含む方法を提供する。前記方法はまた、ヌクレオチド配列に基づき指定の座にサンプルリードを割り当てるステップを含み、ここにおいて、対応する指定座に割り当てられる前記サンプルリードは、対応する指定座の割り当てリードである。前記方法はまた、各指定座の割り当てリードを解析して、割り当てリード内の対応する関心領域（ＲＯＩ）を同定するステップも含む。ＲＯＩはそれぞれ１つまたは複数の反復モチーフ連続を有し、対応する連続の各反復モチーフは、同一のヌクレオチドの組を含む。前記方法はまた、多数の割り当てリードを有する指定座について、ＲＯＩの配列に基づき割り当てリードを分類し、その結果、異なる配列を有するＲＯＩが異なる潜在的アレルとして割り当てられるようにする、ステップを含む。各潜在的アレルは、指定座内にある他の潜在的アレルの配列とは異なる配列を有する。前記方法はまた、多数の潜在的アレルを有する指定座について、潜在的アレルの配列を解析して、潜在的アレルの第１アレルが潜在的アレルの第２アレルのスタッター産物であると疑われるか否かを判断するステップを含む。対応する配列内のk個（kは整数）の反復モチーフが第１アレルおよび第２アレルの間で付加された、または欠失した場合に、第１アレルは第２アレルのスタッター産物であることが疑われる。オプションとして、kは１または２と等しい。

一実施形態では、遺伝子座の組に対応するアンプリコンの複数のサンプルリードを有するシーケンシングデータを受信するステップを含む方法を提供する。サンプルリードはリード対を含み、対応するアンプリコンの各リード対は、対応するアンプリコンの第１リードおよび第２リードを含む。第１リードおよび第２リードはそれぞれ、各々のリード配列を有する。前記方法はまた、第１リードのリード配列の解析に基づき、第１リードの潜在的遺伝子座を同定するステップを含む。潜在的遺伝子座は、遺伝子座の組に由来する。前記方法はまた、少なくとも１つの潜在的座を有する第１リードのそれぞれについて、第１リードが潜在的遺伝子座のそれぞれの基準配列と整列するか否かを判断するステップを含む。第１リードが１つの遺伝子座のみの基準配列と整列する場合、前記方法は、第１リードがその１つの遺伝子座の潜在的アレルを含むと判断するステップを含む。第１リードが２つ以上の基準配列と整列する場合、前記方法は、第１リードが、第１リードと最もよく整列する基準配列を有する遺伝子座の潜在的アレルを含むと判断するステップを含む。第１リードが基準配列と整列しない場合、前記方法は、第１リードを非整列リードとして指定し、該非整列リードを解析して該非整列リードと最も合う遺伝子座を潜在的遺伝子座から同定するステップを含む。前記方法はまた、少なくとも複数の遺伝子座について、コールされた遺伝子型を含む遺伝子プロファイルを生成するステップを含み、ここにおいて前記コールされた遺伝子型は、対応する遺伝子座の潜在的アレルに基づく。遺伝子プロファイルはまた、非整列リードを有する遺伝子座についての１つまたは複数の通知を含む。

一実施形態では、遺伝子座の組に対応するアンプリコンの複数のサンプルリードを有するシーケンシングデータを受信するステップを含む方法を提供する。サンプルリードはリード対を含み、対応するアンプリコンの各リード対は、対応するアンプリコンの第１リードおよび第２リードを含む。第１リードおよび第２リードはそれぞれ、各々のリード配列を有する。前記方法はまた、第１リードのリード配列の解析に基づき、第１リードの潜在的遺伝子座を同定するステップを含む。潜在的遺伝子座は、遺伝子座の組に由来する。前記方法はまた、少なくとも１つの潜在的座を有する第１リードのそれぞれについて、第１リードが潜在的遺伝子座のそれぞれの基準配列と整列するか否かを判断するステップを含む。前記方法はまた、基準配列と整列しない第１リードを非整列リードとして指定するステップを含む。前記方法はまた、非整列リードを解析して、該非整列リードと最も合う遺伝子座を潜在的遺伝子座から区別するステップを含む。前記方法はまた、非整列リードを解析して、最適な遺伝子座について潜在的アレルのドロップアウトがあるか否かを判断するステップを含む。

一実施形態では、複数の遺伝子座の各遺伝子座についてのリード分布を受信するステップを含む方法を提供する。リード分布には複数の潜在的アレルが含まれ、各潜在的アレルはアレル配列およびリードカウントを有する。リードカウントは、潜在的アレルを含むことが判明した、シーケンシングデータのサンプルリードの数を表す。前記方法はまた、複数の遺伝子座の各遺伝子座について、最大リードカウントを有するリード分布の潜在的アレルの１つを同定するステップを含み得る。前記方法はまた、複数の遺伝子座の各遺伝子座について、最大リードカウントが解釈閾値を超えるか否かを判断するステップを含み得る。最大リードが解釈閾値を超える場合、前記方法は、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップを含む。最大リードが解釈閾値未満である場合、前記方法は、遺伝子座のカバレッジが低いという警告を生成するステップを含む。前記方法はまた、遺伝子型がコールされた遺伝子座それぞれの遺伝子型と、カバレッジの低い遺伝子座についての警告とを有する遺伝子プロファイルを生成するステップを含む。

一実施形態では、（ａ）遺伝子座についてのリード分布を受信するステップを含む方法を提供する。リード分布には複数の潜在的アレルが含まれ、各潜在的アレルはアレル配列とカウントスコアを有する。カウントスコアは、潜在的アレルを含むことが判明した、シーケンシングデータのサンプルリードの数に基づく。前記方法はまた、（ｂ）もう１つの潜在的アレルのカウントスコアに基づき、遺伝子座のカバレッジが低いか否かを判断するステップを含む。遺伝子座のカバレッジが低い場合、前記方法は、遺伝子座のカバレッジが低いという通知を生成するステップを含む。遺伝子座のカバレッジが低くない場合、前記方法は、潜在的アレルのカウントスコアを解析して、遺伝子座の遺伝子型を判断するステップを含む。前記方法はまた、（ｄ）遺伝子座の遺伝子型、または、遺伝子座のカバレッジが低いという警告を含む遺伝子プロファイルを生成するステップを含む。

一実施形態では、遺伝子座についてのリード分布を受信するステップを含む方法を提供する。リード分布には複数の潜在的アレルが含まれ、各潜在的アレルはアレル配列およびリードカウントを有する。リードカウントは、遺伝子座に割り当てられた、シーケンシングデータのサンプルリードの数を表す。前記方法はまた、潜在的アレルそれぞれのカウントスコアを求めるステップを含み得る。カウントスコアは、潜在的アレルのリードカウントに基づき得る。前記方法はまた、潜在的アレルのカウントスコアが解析閾値を上回る否かを判断するステップを含み得る。対応する潜在的アレルのカウントスコアが解析閾値を上回らない場合、前記方法は対応する潜在的アレルを破棄するステップを含む。対応する潜在的アレルのカウントスコアが解析閾値を上回る場合、前記方法は、該潜在的アレルを遺伝子座の指定アレルとして指定するステップを含む。

一実施形態では、遺伝子座についてのリード分布を受信するステップを含む方法を提供する。リード分布には複数の潜在的アレルが含まれ、各潜在的アレルはアレル配列およびリードカウントを有する。リードカウントは、遺伝子座に割り当てられた、シーケンシングデータのサンプルリードの数を表す。前記方法はまた、リードカウントが解析閾値を超えるか否かを判断するステップを含む。対応する潜在的アレルのリードカウントが解析閾値未満である場合、前記方法は、対応する潜在的アレルをノイズアレルとして指定するステップを含む。対応する潜在的アレルのリードカウントが解析閾値を上回る場合、前記方法は潜在的アレルを遺伝子座のアレルとして指定するステップを含む。前記方法はまた、ノイズアレルのリードカウントの合計が、ノイズ閾値を超えるか否かを判断するステップを含む。合計がノイズ閾値を超える場合、前記方法は、遺伝子座が過剰なノイズを有するという警告を生成するステップを含む。

一実施形態では、複数の遺伝子座の各遺伝子座について、座データを受信するステップを含む方法を提供する。座データには、対応する遺伝子座の、１つまたは複数の指定アレルが含まれる。各指定アレルは、シーケンシングデータから得られるリードカウントに基づく。前記方法はまた、複数の遺伝子座の各遺伝子座について、対応する遺伝子座の指定アレルの数が、対応する遺伝子座の所定の最大許容可能アレル数より多いか否かを判断するステップを含む。前記方法は、指定アレルの数が、所定の最大許容可能アレル数を超える場合、アレル数警告を生成するステップを含み得る。前記方法はまた、複数の遺伝子座の各遺伝子座について、指定アレルのアレル比率が不十分であるか否かを判断するステップを含む。アレル比率は、指定アレルのリードカウントに基づき得る。前記方法はまた、アレル比率が不均衡である場合、アレル比率警告を生成するステップを含み得る。前記方法はまた、遺伝子座の組についてのアレル数警告およびアレル比率警告の数に基づき、サンプルが複数のソースの混合物を含むと判断するステップを含み得る。

一実施形態では、複数のＹ座についての座データを受信するステップを含む方法を提供する。座データには、Ｙ座の指定アレルが含まれる。各指定アレルは、シーケンシングデータから得られるリードカウントに基づく。前記方法はまた、各Ｙ座の指定アレルの数を、Ｙ座のアレルの予想数と比較するステップを含む。前記方法はまた、比較動作の結果に基づき、サンプルが男性または女性であるという予測を生成するステップを含む。オプションとして、遺伝子座には、ショートタンデムリピート（ＳＴＲ）の座と、一塩基多型（ＳＮＰ）の座が含まれる。

一実施形態に従う方法を示すフローチャートである。異なる解析のために異なる種類のサンプルリードを指定する方法を示すフローチャートである。図２の方法の一部を示す概略図である。関心領域（ＲＯＩ）を一実施形態に従って如何に同定し得るかを示す概略図である。ＳＴＲに直接隣接するフランキング領域を用いてアライメントをシード（seed）する場合に起き得る種々のミスアライメントエラーを示す図である。サンプル混合物からのサンプルインプットに基づき理論上の結果と比較した、実際のＳＴＲコーリングを示す、グラフの組である。サンプル混合物からのサンプルインプットに基づき理論上の結果と比較した、実際のＳＴＲコーリングを示す別のグラフの組である。サンプル混合物からのサンプルインプットに基づき理論上の結果と比較した、実際のＳＴＲコーリングを示す別のグラフの組である。サンプル混合物からのサンプルインプットに基づき理論上の結果と比較した、実際のＳＴＲコーリングを示す別のグラフの組である。５つの対照ＤＮＡサンプルの既知の座のアレルコールについてのコンコーダンスを示す表である。一実施形態に従う、サンプルリード内のスタッター産物を同定する方法を示すフローチャートである。 D1S1656座の潜在的アレルのリードカウントを示す表である。図９の表にあるデータに基づくグラフである。サンプルリードを解析して、１つまたは複数の遺伝子座の遺伝子型を決定する方法を示すフローチャートである。複数の遺伝子型コールを含むサンプルレポートを生成する方法を示すフローチャートである。サンプルがソースの混合物を含むか否かを検出する方法を示すフローチャートである。サンプルの性別を決定する方法を示すフローチャートである。本明細書に記載の種々の方法を実行するのに用いることができる、実施形態に従って形成されたシステムを示す図である。１つまたは複数の実施形態に従うサンプルレポートの一部を示す図である。１つまたは複数の実施形態に従うサンプルレポートの別の一部を示す図である。１つまたは複数の実施形態に従うサンプルレポートの一部を示す図である。サンプルレポートの別の一部を示す図である。サンプルレポートの別の一部を示す図である。サンプルレポートの別の一部を示す図である。サンプルレポートの別の一部を示す図である。サンプルレポートの別の一部を示す図である。

本出願は、全体が参照により本明細書に組み込まれる、２０１３年３月１５日に出願された「METHODS AND SYSTEMS FOR ALIGNING REPETITIVE DNA ELEMENTS」と題する国際出願番号第PCT/US2013/030867号（国際公開第2014/142831号）に記載される主題と同様の主題を含む。

本明細書に記載の実施形態は、核酸配列を解析して配列変異を同定することに適用可能であり得る。実施形態を用いて遺伝子座の潜在的アレルを解析し、該遺伝子座の遺伝子型を決定する、言い換えると、該座の遺伝子型コールを提供することができる。一部の場合では、本明細書に記載の方法およびシステムは、そのような遺伝子型コールを複数含む、サンプルレポートまたは遺伝子プロファイルを生成することができる。実施形態はまた、配列変異を含むような核酸配列のシーケンシングおよび／または解析を含むアッセイの、質のモニタリングに適用可能である。配列変異には一塩基多型（ＳＮＰ）またはショートタンデムリピート（ＳＴＲ）などの多型反復要素が含まれ得る。配列変異は、Combined ＤＮＡ Index System（ＣＯＤＩＳ）データベース内にある、さもなければ遺伝子解析で用いられるような、指定の遺伝子座に位置し得る。例えば、配列変異には、ＣＯＤＩＳ常染色体ＳＴＲ座、ＣＯＤＩＳＹ-ＳＴＲ座、ＥＵ常染色体ＳＴＲ座、およびＥＵＹ-ＳＴＲ座などから選択されるＳＴＲが含まれ得る。ＣＯＤＩＳはＦＢＩの研究機関により同定されたコアＳＴＲ座の組であり、１３個の座：CSF1PO、FGA、TH01、TPOX、VWA、D3S1358、D5S818、D7S820、D8S1179、D13S317、D16S539、D18S51、およびD21S11が含まれる。対象の追加ＳＴＲには、PENTA DおよびPENTA Eが含まれ得るが、他のＳＴＲも本明細書に記載の実施形態により解析することができる。ＳＮＰは、米国立生物工学情報センター（National ＣＥnter for Biotechnology Information、NCBI）のｄｂＳＮＰデータベースといった既知のデータベース内にある場合がある。ＳＴＲおよびＳＮＰも同様に、今後の研究で同定することができる。

本明細書で用いる場合、用語「配列」は、互いに結合したヌクレオチド鎖を含む、または、表す。ヌクレオチドはＤＮＡまたはＲＮＡに基づき得る。１つの配列が多数のサブ配列を含み得ることを理解すべきである。例えば、（例えば、ＰＣＲアンプリコンの）単一サンプルリードは、３５０個のヌクレオチドを有する配列を有し得る。サンプルリードは、これらの３５０ヌクレオチド内に多数のサブ配列を含み得る。例えば、サンプルリードは、例えば２０〜５０個のヌクレオチドを有する、第１フランキングサブ配列および第２フランキングサブ配列を含み得る。第１フランキングサブ配列および第２フランキングサブ配列は、対応するサブ配列（例えば、４０〜１００個のヌクレオチド）を有する反復セグメントの何れかの側に位置し得る。フランキングサブ配列はそれぞれプライマーサブ配列（例えば、１０〜３０個のヌクレオチド）（または、該プライマーサブ配列の一部）を含み得る。読みやすさのため、用語「サブ配列」は「配列」ともいうが、２つの配列は共通の鎖において必ずしも互いに離れているわけではないことが理解される。本明細書に記載の種々の配列を区別するため、該配列には異なる標識を与える場合がある（例えば、標的配列、プライマー配列、フランキング配列、および基準配列など）。「アレル」などの他の用語には、対象のように区別するために異なる標識を与える場合がある。

本明細書で用いる場合、用語「関心領域」つまり「ＲＯＩ」には、１つまたは複数の反復モチーフ連続を含むサンプルリードの反復セグメントが含まれる。反復モチーフ連続はＳＴＲであり得る。一部の実施形態では、ＲＯＩは単なる反復セグメント（例えば、ＳＴＲ）である。しかしながら、他の実施形態では、ＲＯＩはフランキング領域のサブ配列を含み得る。例えば、ＲＯＩは、反復セグメントと、該反復セグメントの一方の端部から伸長する約１〜５ヌクレオチドの第１フランキング領域と、該反復セグメントの反対側の端部から伸長する約１〜５ヌクレオチドの第２フランキング領域を含み得る。

反復セグメントは、全体で同一のモチーフを有する必要はないことを理解すべきである。反復セグメントはＸモチーフ連続を、次にＹモチーフ連続を、次にＺモチーフ連続（または別のＸモチーフ連続）などを含むことができる。[TAGA]11[TAGG]1[TG]5という反復セグメントは、上記の一具体例である。反復セグメントは、全体で反復モチーフを有する必要はないことも理解すべきである。上記例に示すように、反復セグメントには、非反復モチーフに割り込まれた反復モチーフが含まれ得る。上記例の[TAGG]は、このような非反復モチーフの１つである。

本明細書で用いる場合、用語「閾値」は、解析コースが変わるポイント、および／または動作が誘発されるポイントを指す。閾値は所定の数である必要はない。代わりに閾値は、例えば、複数のファクタに基づく関数であり得る。言い換えると、閾値は状況に対し適応性がある。例として、複数のサンプルリードが破棄すべきノイズを構成しているか、さらに解析すべきデータを構成しているかを判断する場合に、閾値は、設定数（例えば、１０サンプルリード）、または、対応する遺伝子座についての総リード数および遺伝子座についての歴史的な知識といった異なるファクタに基づく関数の何れかとすることができる。さらに、閾値は上限、下限、または限界値に挟まれた範囲を示し得る。誘発され得る動作には、例えば、サンプルがスタッター産物を含むことが疑われること、サンプルがソースの混合物を含むこと、アッセイが特定の問題点を有すること、サンプルの質が悪いことなどをエンドユーザに通知することが含まれ得る。

一部の実施形態では、シーケンシングデータに基づく基準またはスコアを閾値と比較することができる。本明細書で用いる場合、用語「基準」または「スコア」には、シーケンシングデータから求められた値または結果が含まれるか、または、シーケンシングデータから求められた値または結果に基づく関数が含まれ得る。閾値のように、基準またはスコアも状況に適応性がある。例えば、基準またはスコアは、正規化された値とすることができる。

スコアまたは基準の例として、１つまたは複数の実施形態は、データを解析する際にカウントスコアを用いる場合がある。カウントスコアはサンプルリードの数に基づき得る。サンプルリードは、該サンプルリードが少なくとも１つの共通の特質または質を有するように１つまたは複数のフィルタリング段階にかけられている場合がある。例えば、カウントスコアを求めるために用いられるサンプルリードはそれぞれ、基準配列と整列させられた、または、潜在的アレルとして割り当てられた可能性がある。共通の特質を有するサンプルリードの数を数えてリードカウントを求めることができる。カウントスコアはリードカウントに基づき得る。一部の実施形態では、カウントスコアは、リードカウントと等しい値であり得る。他の実施形態では、カウントスコアはリードカウントと他の情報とに基づき得る。例えば、カウントスコアは、遺伝子座の特定のアレルのリードカウントおよび該遺伝子座のリード総数に基づき得る。一部の実施形態では、カウントスコアは遺伝子座のリードカウントおよび該遺伝子座について事前に得られたデータに基づき得る。一部の実施形態では、カウントスコアは所定値の間の正規化スコアであり得る。カウントスコアはまた、サンプルの他の座のリードカウント関数、または、対象のサンプルと同時に走らせた他のサンプルのリードカウント関数であり得る。例えば、カウントスコアは、特定のアレルのリードカウント、およびサンプルの他の座のリードカウント、および／または他のサンプルのリードカウントの関数であり得る。一例として、他の座のリードカウント、および／または、他のサンプルのリードカウントを用いて、特定のアレルのカウントスコアを正規化することができる。

リードカウントは、典型的には、シーケンシングデータから求める。同一のＲＯＩを含むリードカウントは、例えば、該ＲＯＩを有することが判明したサンプルリードの数であり得る。リードカウント（例えば、３５０個のサンプルリード）を用いて、スタッター基準を計算し、これを次に指定閾値と比較することができる。例えば、スタッター基準は、リードカウントに、歴史的な知識、サンプルについての知識、座についての知識などに基づく指定の係数を掛けることで求めることができる。スタッター基準は、リードカウントの正規化値とすることができる。

種々の実施形態についての上記及び以下の詳細な記載は、添付の図面と共に読む場合により良く理解されよう。図が種々の実施形態の機能ブロック図を示す範囲において、機能図は必ずしもハードウェア回路の境界を示すわけではない。したがって、例えば、１つまたは複数の機能ブロック（例えば、モジュール、プロセッサ、またはメモリ）は、単一のハードウェア（例えば、多目的シグナルプロセッサ、または、ランダムアクセスメモリもしくはハードディスクなどのブロック）、または複数のハードウェアに実装され得る。同様に、プログラムは、独立型プログラムとすることができ、動作システムでサブルーチンとして組み込むことができ、インストールされたソフトウェアパッケージなどの機能であり得る。種々の実施形態は、図に示される配置および手段に限定されないことを理解すべきである。

本出願は、種々の方法および該方法を実行するためのシステムについて記載する。少なくとも一部の方法を、複数のステップとして図に示す。しかしながら、実施形態は図に示されるステップに限定されないことを理解すべきである。ステップは省略でき、ステップは修正でき、および／または他のステップを追加することができる。例として、本明細書に記載の一部の実施形態は、サンプルを調製およびシーケンシングしてシーケンシングデータを得るステップを含み得るが、他の実施形態は、サンプルを調製することなく、および／または、サンプルをシーケンシングすることなく、シーケンシングデータを直接受信するステップを含み得る。さらに、本明細書に記載のステップは、組み合わせることができ、ステップは同時に行うことができ、ステップは並行して行うことができ、ステップは多数のサブステップに分割することができ、ステップは異なる順で行うことができ、または、ステップ（もしくは一連のステップ）は反復式で再度行うことができる。加えて、頃なる方法を本明細書には記載するが、該異なる方法（または該異なる方法のステップ）は、他の実施形態において組み合わせ可能であることを理解すべきである。

図１は、一実施形態に従う方法１００を示す。方法１００は、１０２で、ＤＮＡなどの核酸を含む、または含むことが疑われる生体サンプルを受け付けるステップを含む。生体サンプルは、動物（例えば、ヒト）、植物、細菌、または菌類といった既知または未知のソースに由来していてよい。生体サンプルはソースから直接採取することができる。例えば、血液または唾液を個体から直接採取することができる。あるいは、サンプルをソースから直接得ることができない場合もある。例えば、生体サンプルは、犯罪現場、発掘された遺物、または、調査中の他のエリア（例えば、史跡）から得られる場合がある。本明細書で用いる場合、用語「生体サンプル」には、生体サンプルが異なるソースに由来する多数の生体サンプルを含む可能性がある。例えば、犯罪現場から得られた生体サンプルには、異なる個体に由来するＤＮＡの混合物が含まれる場合がある。

方法１００はまた、１０４で、シーケンシング用のサンプルを調製するステップを含み得る。調製１０４は、無関係の物質を取り除くステップ、および／または、ある物質（例えば、ＤＮＡ）を単離するステップを含み得る。生体サンプルは、特定のアッセイに必要な特徴を含むように調製することができる。例えば、生体サンプルは合成によるシーケンシング（sequencing-by-synthesis、ＳＢＳ）用に調製することができる。ある実施形態では、調製にはあるゲノム領域の増幅を含み得る。例えば、１０４での調製には、ＳＴＲおよび／またはＳＮＰを含むことが知られている所定の遺伝子座を増幅することが含まれ得る。遺伝子座は、所定のプライマー配列を用いて増幅することができる。

１０６では、サンプルをシーケンシングすることができる。シーケンシングは、種々の既知のシーケンシングプロトコルを介して行うことができる。特定の実施形態では、シーケンシングにはＳＢＳが含まれる。ＳＢＳでは、複数の蛍光標識ヌクレオチドを用いて、光学基板の表面（例えば、フローセルにおいてチャネルを少なくとも部分的に定義する表面）にある増幅ＤＮＡの複数のクラスタ（場合により数百万個のクラスタ）をシーケンシングする。フローセルは、シーケンシング用の核酸を含み得、ここでフローセルは、適切なフローセルホルダー内に置かれる。シーケンシング用のサンプルは、個別に解像可能であるように互いに分離した単一の核酸分子、クラスタもしくは他の形状をした核酸分子の増幅集合、または、１つまたは複数の核酸分子に付着するビーズの形をとることが可能である。

核酸は、プライマーシーケンスとも言われる、未知の標的配列に隣接する既知のオリゴヌクレオチドプライマーを含むように調製することが可能である。第１のＳＢＳシーケンシングサイクルを開始するため、異なって標識された１つまたは複数のヌクレオチド、およびＤＮＡポリメラーゼなどを、流体フローサブシステム（図示せず）によりフローセルに流すことが可能である。単一種類のヌクレオチドを一度に加えことができるか、または、シーケンシング手順で用いるヌクレオチドを可逆終止（reversible termination）特性を持つように特別に設計できるかの何れかにより、シーケンシング反応の各サイクルを、数種類の標識ヌクレオチド（例えば、Ａ、Ｃ、Ｔ、Ｇ）の存在下で同時に起こす。ヌクレオチドは、フルオロフォアなどの検出可能標識部を備えることが可能である。４つのヌクレオチドが混在している場合、ポリメラーゼは正しい塩基を選択して組み込むことが可能であり、各配列は単一塩基により伸長される。組み込まれなかったヌクレオチドはフローセルに洗浄液を流すことにより洗い流すことが可能である。１つまたは複数のレーザが核酸を励起し、蛍光を引き起こすことができる。核酸から放出される蛍光は、組み込まれた塩基のフルオロフォアに基づき、異なるフルオロフォアは異なる波長の出射光を放出し得る。脱ブロック化（deblocking）試薬をフローセルに加えて、伸長および検出されたＤＮＡ鎖から可逆終止基を取り除くことが可能である。次に、洗浄液をフローセルに流すことにより脱ブロック化試薬を洗い流すことが可能である。フローセルはここで、上記のように標識ヌクレオチドの導入で始まるシーケンシングのさらなるサイクルに向けての準備ができている。流体ステップおよび検出ステップを数回繰り替えしてシーケンシングランを完了することが可能である。例示的なシーケンシング法は、例えば、Bentley et al., Nature 456:53-59 (2008)、国際公開第04/018497号、米国特許第7057026号明細書、国際公開第91/06678号、同第07/123744号、米国特許第7329492号明細書、同第7211414号明細書、同第7315019号明細書、同第7405281号明細書、および米国特許出願公開第2008/0108082号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。

一部の実施形態では、核酸を表面に付着させ、シーケンシングの前またはシーケンシング中に増幅することが可能である。例えば、ブリッジ増幅を用いて増幅を実行して、表面上に核酸クラスタを形成することが可能である。有用なブリッジ増幅法は、例えば、米国特許第5641658号明細書、米国特許出願公開第2002/0055100号明細書、米特許第7115400号明細書、米国特許出願公開第2004/0096853号明細書、同第2004/0002090号明細書、同第2007/0128624号明細書、および同第2008/0009420号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。表面において核酸を増幅するための別の有用な方法は、ＲＣＡ（rolling circle amplification）法であり、これは例えば、Lizardi et al., Nat. Genet. 19:225-232 (1998)および米国特許出願公開第2007/0099208号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。

特に有用なＳＢＳプロトコルは、除去可能な3’ブロックを有する修飾ヌクレオチドを活用し、これは例えば、国際公開第04/018497号、米国特許出願公開第2007/0166705号明細書、および米国特許第7057026号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。例えばＳＢＳ反復サイクル試薬を、例えばブリッジ増幅プロトコルの結果として、標的核酸が付着したフローセルに送達することが可能である。核酸クラスタは、線形化溶液を用いて一本鎖の形に変換することが可能である。線形化溶液には、例えば、各クラスタの一鎖を切断することが可能な制限エンドヌクレアーゼが含まれ得る。他の切断方法を制限酵素またはニッキング酵素の代わりとして用いることが可能であり、これにはとりわけ、化学的切断（例えば、ペリオデート（periodate）を用いたジオール結合の切断）、エンドヌクレアーゼ（例えば、NEB（アメリカ合衆国マサチューセッツ州イプスウィッチにより供給される「USER」、品番M5505S）、熱もしくはアルカリへの露出による切断による非塩基部位の切断、増幅産物に組み込まれた、さもなければデオキシリボヌクレオチドを含むリボヌクレオチドの切断、光化学切断、またはペプチドリンカーの切断が含まれる。線形化ステップの後、シーケンシングプライマーをシーケンシングすべき標的核酸にハイブリダイズする条件下で、シーケンシングプライマーをフローセルに送達することが可能である。

フローセルを次に、除去可能な3'ブロックと蛍光標識とを有する修飾ヌクレオチドを含むＳＢＳ伸長試薬に、各標的核酸にハイブリダイズさせたプライマーを単一ヌクレオチドの追加により伸長させるための条件下で接触させることが可能である。シーケンシングする鋳型領域に相補的な成長ポリヌクレオチド鎖に修飾ヌクレオチドをいったん組み込んだら、さらなる配列伸長を誘導するのに利用可能なフリー3'-OH基がなく、そのため、ポリメラーゼはさらなるヌクレオチドを付加することができないことから、単一ヌクレオチドのみを各プライマーに加える。ＳＢＳ伸長試薬を取り除き、放射線での励起下でサンプルを保護する成分を含むスキャン試薬と交換する。スキャン試薬の例示的な成分は、米国特許出願公開第2008/0280773号明細書および米国特許出願第13/018255号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。伸長した核酸は次にスキャン試薬の存在下で蛍光検出することが可能である。蛍光がいったん検出されたら、使用したブロッキング基に適した脱ブロック試薬を用いて3'ブロックを取り除いてよい。それぞれのブロッキング基に有用な例示的な脱ブロック試薬は、国際公開第04/018497号、米国特許出願公開第2007/0166705号明細書、および米国特許第7057026号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。脱ブロック試薬を洗い流して、さらなるヌクレオチドの付加に目下適した、3'OH基を有する、伸長されるプライマーにハイブリダイズした標的核酸を残すことが可能である。したがって、伸長試薬、スキャン試薬、および脱ブロック試薬を追加するサイクルを、１つまたは複数のステップ間で任意の洗浄とともに、所望の配列が得られるまで繰り替えることが可能である。修飾ヌクレオチドそれぞれに、特定の塩基に対応することが知られている異なる標識を付着させている場合は、単一伸長試薬送達ステップをサイクルごとに用いて、上記のサイクルを実行することが可能である。異なる標識は各組み込みステップ中に付加されたヌクレオチドの識別を容易にする。あるいは、各サイクルは、伸長試薬送達という別箇のステップの後にスキャン試薬送達および検出という別箇のステップを含むことが可能であり、この場合、２つ以上のヌクレオチドが同じ標識を有することが可能で、既知の送達順に基づいて識別することが可能である。

フローセルの核酸クラスタの例を続け、核酸をさらに処置して、「ペアエンドシーケンシング（paired-end sequencing）」法として知られる方法で反対側の末端から第２リードを得ることが可能である。ペアエンドシーケンシング法は、ユーザが標的断片の両末端をシーケンシングすることを可能にする。ペアエンドシーケンシング法は、遺伝子融合および新規の転写物同様に、ゲノムの転移および反復セグメントの検出を容易にし得る。ペアエンドシーケンシング法の方法論は、国際公開第07/010252号、国際出願番号第PCT/GB2007/003798号、および米国特許出願公開第2009/0088327号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。一例では、一連のステップを以下のように行うことができる；（ａ）核酸クラスタを生成し、（ｂ）核酸を線形化し、（ｃ）第１シーケンシングプライマーをハイブリダイズし、上記のように、伸長、スキャン、および脱ブロック化の反復サイクルを実行し、（ｄ）相補的コピーを合成することにより、標的核酸をフローセルの表面で「反転」させ、（ｅ）再合成した鎖を線形化し、そして、（ｆ）第２シーケンシングプライマーをハイブリダイズさせ、上記のように、伸長、スキャン、および脱ブロック化の反復サイクルを実行する。反転ステップは、ブリッジ増幅の単一サイクルについて上記したように、試薬を送達することにより実行することが可能である。

１０６におけるシーケンシング動作は、特定のＳＢＳプロトコルに関して上記で例示されたが、種々の他の分子の何れかをシーケンシングするための他のプロトコルを、要望通りに実行可能であることが理解されよう。例えば、ビーズにおけるエマルジョンＰＣＲも用いることができ、これは例えば、Dressman et al., Proc. Natl. Acad. Sci. USA 100:8817-8822 (2003)、国際公開第05/010145号、米国特許出願公開第2005/0130173号明細書、または同第2005/0064460号明細書に記載されており、これらはそれぞれその全体が参照により本明細書に組み込まれる。本明細書に記載する方法およびシステムに用いるのに適応可能な他のシーケンシング技法は、パイロシーケンシング法、ナノポアシーケンシング法、およびライゲーションによるシーケンシング法である。例示的なパイロシーケンシング技法および特に有用なサンプルは、米国特許第6210891号明細書、同第6258568号明細書、同第6274320号明細書、およびRonaghi, Genome Research 11:3-11 (2001)に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。例示的なナノポア技法および有用でもあるサンプルは、Deamer et al., Acc. Chem. Res. 35:817-825 (2002)、Li et al., Nat. Mater. 2:611-615 (2003)、Soni et al., Clin Chem. 53:1996-2001 (2007)、Healy et al., Nanomed. 2:459-481 (2007)、Cockroft et al., J. am. Chem. Soc. 130:818-820、および米国特許第7001792号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。特に、これらの方法は、反復試薬送達ステップを利用する。本明細書に記載の機器または方法は、上記参考文献に記載されているような所望のプロトコルに従って試薬を導入し、光学シグナルを検出するために、リザーバ、バルブ、流体ライン、および他の流体構成要素、ならびに、これらの構成要素のための制御システムで構成することが可能である。種々のサンプルの何れかを、エマルジョンＰＣＲにより生成されるビーズを有する基板、zero-mode waveguideを有する基板、統合ＣＭＯＳ検出器を有する基板、脂質二層膜に生物学的ナノポアを有する基板、合成ナノポアを有するソリッドステート基板、および当技術分野で既知の他のものといったシステムで、用いることが可能である。このようなサンプルは、上記参考文献の種々のシーケンシング技法についての文脈で、さらには米国特許出願公開第2005/0042648号明細書、同第2005/0079510号明細書、同第2005/0130173号明細書、および国際公開第05/010145号において記載されており、これらはそれぞれ参照により本明細書に組み込まれる。

上記のＳＢＳプロトコルのうち１つまたは複数を実行することが可能であり得るシステムとしては、Illumina社が開発したシステム、例えば、MiSeq、HiSeq 2500、HiSeq X Ten、NeoPrep、HiScan、およびiScanが挙げられる。上記のＳＢＳプロトコルのうち１つまたは複数を実行することが可能なシステムは、米国特許出願公開第13/273666号明細書および同第13/905633号明細書に記載されており、これらはそれぞれその全体が参照により本明細書に組み込まれる。

１０８では、シーケンシングデータを１１０での後続の解析のために受信することができる。シーケンシングデータには、例えば、いくつかのサンプルリードが含まれ得る。各サンプルリードはヌクレオチド配列を含み得、これはサンプル配列または標的配列といい得る。サンプル配列には、例えば、プライマー配列、フランキング配列、および標的配列が含まれ得る。サンプル配列内のヌクレオチド数には、３０、４０、５０、６０、７０、８０、９０、または１００以上が含まれ得る。一部の実施形態では、１つまたは複数のサンプルリード（または、サンプル配列）には、少なくとも１５０ヌクレオチド、２００ヌクレオチド、３００ヌクレオチド、４００ヌクレオチド、または５００ヌクレオチド以上が含まれる。一部の実施形態では、サンプルリードには、１０００ヌクレオチド超、または２０００ヌクレオチド以上が含まれ得る。サンプルリード（または、サンプル配列）の一末端または両末端には、プライマー配列が含まれ得る。ある実施形態では、各サンプルリードは、鋳型に沿って反対向きで別のリードと関連し得る。例えば、１０６でのシーケンシングには、ペアエンドシーケンシングが含まれ得、ここでは第１リード（リード１）を実行し、その後に第２リード（リード２）が反対向きで続く。第１リードおよび第２リードにはそれぞれ、標的配列の全てまたは標的配列のほぼすべてが含まれ得る。しかしながら、他の実施形態では、第２リードに得られるものの一部のみが含まれる、「非対称」ペアエンドシーケンシングを用いることができる。例えば、第２リードは、第２リード配列の先頭近くに位置するプライマー配列の同一性を確かめるための、限定された数のヌクレオチドのみを含む。例として、第１リードは３００〜５００ヌクレオチドを含み得るが、第２リードは２０〜５０ヌクレオチドのみを含み得る。

１１０での解析を、以下でより詳細に記載する。１１０での解析には、サンプルリードを指定のやり方で解析して所望の情報を得る、単一プロトコルまたはプロトコルの組み合わせが含まれ得る。１１０での解析の非限定的例には、サンプルリードを解析してある遺伝子座に該サンプルリードを割り当てる（または、該サンプルリードを指定する）こと、前記サンプルリードを解析して該サンプルリードの長さおよび／もしくは配列を同定すること、前記サンプルリードを解析して、ある座の標的アレルに関連するＲＯＩを分類すること、異なる標的アレルのサンプルリード（もしくはＲＯＩ）を解析して、一標的アレルのＲＯＩが別の標的アレルのＲＯＩのスタッター産物であると疑われるか否かを判断すること、遺伝子座の遺伝子型を同定すること、ならびに／または、アッセイの調子もしくは品質管理をモニタリングすることが含まれ得る。

方法１００にはまた、１１２においてサンプルレポートを生成する、または提供するステップが含まれ得る。サンプルレポートには、例えば、サンプルについて、複数の遺伝子座に関する情報が含まれ得る。例えば、所定の遺伝子座の組の各遺伝子座について、サンプルレポートは、遺伝子型コールの提供、遺伝子型がコールできないことの示唆、遺伝子型コールの確実性についての信頼性スコアの提供、または、１つもしくは複数の遺伝子座に関するアッセイで起き得る問題の示唆のうち、少なくとも１つを行い得る。サンプルレポートはまた、サンプルを提供した個体の性別を示す、および／またはサンプルが多数のソールを含むことを示すことができる。本明細書で用いる場合、「サンプルレポート」には、遺伝子座もしくは所定の遺伝子座の組のデジタルデータ（例えば、データファイル）、および／または、遺伝子座もしくは遺伝子座の組の印刷されたレポートが含まれ得る。したがって、１１２において生成または提供するステップには、データファイルを生成するステップ、および／またはサンプルレポートを印刷するステップ、または、サンプルレポートを表示するステップが含まれ得る。

図２は、配列変異を有するサンプルリードのシーケンシングデータを解析する、方法１５０を示すフローチャートである。図２は、図１の異なるステップをさらに示す図３に関連して、以下に記載する。方法１５０は、１５２で１つまたは複数のソースからシーケンシングデータを受信するステップを含む。シーケンシングデータには、対応するヌクレオチドのサンプル配列を有する複数のサンプルリードが含まれ得る。図３は、サンプルリード１８０の例を示す。用語「同定配列」および「配列変異」は、サンプル配列の一部を表す。１つのサンプルリード１８０のみを示すが、配列データには、例えば、数百、数千、数十万、または数百万のサンプルリードが含まれ得ることを理解すべきである。異なるサンプルリードは、異なる数のヌクレオチドを有し得る。例えば、サンプルリードは、１０ヌクレオチド〜約５００ヌクレオチド以上に及び得る。しかしながら、サンプルリードは、他の実施形態においてより多くのヌクレオチドを含み得る。サンプルリードはソースの全ゲノムに及び得る。特定の実施形態では、サンプルリードは、ＳＴＲまたはＳＮＰを有すると疑われる遺伝子座など所定の遺伝子座に向けられる。サンプルリードは、対象の遺伝子座と関連する既知のプライマー配列に基づいて選択することができる。例えば、サンプルリードには、対象の遺伝子座に関連するプライマー配列を用いて得られるＰＣＲアンプリコンが含まれ得る。

１５４では、サンプルリードをそれぞれ対応する遺伝子座に割り当てることができる。サンプルリードは、サンプルリードのヌクレオチド配列に基づいて、言い換えればサンプル内のヌクレオチドの順番（例えば、Ａ、Ｃ、Ｇ、Ｔ）に基づいて、対応する遺伝子座に割り当てることができる。この解析に基づいて、サンプルリードを、特定の遺伝子座の潜在的アレルを含むものとして指定することができる。サンプルリードを、遺伝子座の潜在的アレルを含むものとして指定された他のサンプルリードとともに集める（または、集約する、またはビンに変換する）ことができる。異なる遺伝子座は、図３のビン１８２として示す。遺伝子座は、特定のアッセイで用いる遺伝子座の所定の組とすることができる。例えば、連邦捜査局が、犯罪の潜在的容疑者の遺伝子プロファイルを生成するのに用いることができる、１３個のＳＴＲ座を同定した。ＦＢＩ基準を例として用いて、方法１５０はサンプルリードをそれぞれ、可能であれば１３個のビンのうち１つに割り当てることができる。

異なるビンのサンプルリードを、続いて別の解析にかけることができる。例えば、サンプルリードを、ＳＴＲを含む遺伝子座に割り当てることができる。このような座はＳＴＲ座ということができる。しかしながら、サンプルリードはＳＮＰを含む遺伝子座に割り当てることもできる。ことのような座はＳＮＰ座ということができる。典型的なサンプルリードでは、サンプルリードは１つの遺伝子座（または１つのビン）のみに割り当てられるだろう。このような状況では、サンプルリードは次に、遺伝子座の種類別に構成された解析にかけられよう。具体的には、ＳＴＲ座に割り当てられたサンプルリードはＳＴＲ解析にかけられる一方、ＳＮＰ座に割り当てられたサンプルリードはＳＮＰ解析にかけられるだろう。しかしながら一部の状況では、サンプルリードが２つ以上の遺伝子座に割り当てられる可能性があるため、サンプルリードは２種類以上の解析にかけられる場合がある。

１５４での割り当て動作は座コーリングともいい、ここでサンプルリードが特定の座と関連する可能性があることが特定される。サンプルリードを解析して、サンプルリードを他のサンプルリードから識別する、１つまたは複数のヌクレオチドの同定配列（例えば、プライマー配列）の位置を特定することができる。具体的には、同定配列は、サンプルリードを特定の遺伝子座に関連するものとして他のサンプルリードから同定することができる。同定配列は、サンプルリードの一方の末端を含む、または、該末端の近く（例えば、１０〜３０ヌクレオチド内）に位置することができる。特定の実施形態では、サンプルリードの同定配列は、ソースの配列を選択的に増幅するために用いたプライマー配列に基づく。しかしながら、他の実施形態では、同定配列はサンプルリードの末端近くに位置しない場合がある。

一部の実施形態では、同定配列を複数の所定の配列と比較して、同定配列の何れかが所定配列の１つと同一またはほぼ同一であるかを判断する。例えば、各同定配列を、データベース１８４（例えば、参照テーブル）内の所定配列のリストと比較することができる。所定配列は、ある遺伝子座と相互に関連し得る。以下、データベースの所定配列を選択配列という。各選択配列は、ヌクレオチド配列を表す。同定配列が選択配列の何れかに実質的にマッチする場合、同定配列を有するサンプルリードを、選択配列と相互に関連する遺伝子座に割り当てることができる。サンプルリードは２つ以上の選択配列に実質的にマッチする可能性がある。このような場合、サンプルリードをその選択配列の遺伝子座それぞれに割り当て、さらなる解析にかけて、サンプルリードがコールされるべきなのはいずれの遺伝子座であるかを決定することができる。

解析中に用いられる、所定の数の選択配列が存在し得る。例えば、本明細書に記載の実施形態により生成される遺伝子プロファイルには、約５〜約３００の遺伝子座の解析が含まれ得る。特定の実施形態では、遺伝子座の数は、約５〜約１００の遺伝子座、具体的には約１０〜約３０の遺伝子座とすることができる。しかしながら、他の数の遺伝子座も用いることができる。各遺伝子座は、該遺伝子座と関連する限られた数の選択配列を有し得る。限られた数の遺伝子座と、各遺伝子座に関連する限られた数の選択配列を用いて、計算資源を過剰に用いることなく、サンプルリードを遺伝子座にコールすることができる。一部の実施形態では、選択配列は、所定のＤＮＡ配列を選択的に増幅するのに用いられたプライマー配列に基づく。

各選択配列は、遺伝子座の同定配列（例えば、プライマー配列）に基づき得るが、選択配列は、同定配列のヌクレオチドを全て含むわけではない場合がある。例として、選択配列には、１つのサンプルリードの同定配列のｎヌクレオチド連続が含まれ得る。特定の実施形態では、選択配列は、同定配列の最初のｎヌクレオチドを含み得る。数ｎは、一遺伝子座のアレルを別の標的座のアレルから識別するのに十分であり得る。一部の実施形態では、数ｎは、１０〜３０である。

１５４での割り当て動作には、同定配列のｎヌクレオチド連続を解析して、同定配列のｎヌクレオチド連続が、１つまたは複数の選択配列と実質的にマッチするか否かを判断することが含まれ得る。特定の実施形態では、１５４での割り当て動作には、サンプル配列の先頭のｎヌクレオチドを解析して、該サンプル配列の最初のｎヌクレオチドが１つまたは複数の選択配列と実質的にマッチするか否かを判断することが含まれ得る。数ｎは種々の値であり得、これはプロトコルにプログラミングされるか、または、ユーザにより入力され得る。例えば、数ｎは、データベース内の最も短い選択配列のヌクレオチド数と定義することができる。数ｎは、所定の数であり得る。所定の数は、例えば、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、または３０ヌクレオチドであり得る。しかしながら、より少ない、またはより多いヌクレオチドも他の実施形態で用いることができる。数ｎはまた、システムのユーザなど個人により選択されることができる。数ｎは、１つまたは複数の条件に基づく場合がある。例えば、数ｎは、データベース内の最も短いプライマー配列のヌクレオチド数か指定の数の、何れかより小さい数と定義することができる。一部の実施形態では、ｎには最小値を、例えば１５を用いてよく、その結果、１５ヌクレオチド未満の任意のプライマー配列を例外として指定できるようにする。

一部の場合では、同定配列のｎヌクレオチド連続は、選択配列のヌクレオチドに正確にマッチすることができない。そうであっても、同定配列は、該同定配列が選択配列にほぼ整列していれば、選択配列に実質的にマッチし得る。例えば、同定配列のｎヌクレオチド連続（例えば、最初のｎヌクレオチド）が指定の数のミスマッチ（例えば３）、および／または、指定の数のシフト（例えば２）のみをもって選択配列とマッチする場合、サンプルリードを遺伝子座にコールすることができる。各ミスマッチまたはシフトがサンプルリードとプライマー配列の相違としてカウントされ得るように、ルールを定めることができる。相違の数が指定の数未満である場合、サンプルリードを対応する遺伝子座にコールする（つまり、対応する遺伝子座に割り当てる）ことができる。一部の実施形態では、サンプルリードの同定配列と遺伝子座に関連する選択配列の相違の数に基づくマッチングスコアを求めることができる。マッチングスコアが指定したマッチング閾値を上回る場合、選択配列に対応する遺伝子座を、サンプルリードの潜在的座として指定することができる。一部の実施形態では、後続の解析を実行して、サンプルリードを遺伝子座にコールするか否かを判断することができる。

同定配列と選択配列の相違についての指定数は、例えば、対応する選択配列内のヌクレオチド総数の２０％未満の数、具体的には、対応する選択配列内のヌクレオチド総数の１５％未満の数とすることができる。指定相違数は、６、５、４、３、または２などの所定の値とすることができる。したがって、句「実質的にマッチする」には、選択配列と正確にマッチする、または、選択配列とｎヌクレオチド連続の間に限られた数の相違をもちながら選択配列とほぼマッチするｎヌクレオチド連続を有する、サンプル配列が含まれる。

サンプルリードがデータベースの選択配列の１つに実質的にマッチする（つまり、上記のように正確にマッチする、またはほぼマッチする）場合、サンプルリードは選択配列と相互に関連する遺伝子座に割り当てられる、または指定される。これは、座コーリングまたは暫定座コーリングということができ、ここでは、サンプルリードが、選択配列に相互に配列する遺伝子座にコールされる。しかしながら、上記のように、サンプルリードは２つ以上の遺伝子座にコールされる場合がある。このような実施形態では、さらなる解析を実行して、サンプルリードを潜在的遺伝子座のうち１つのみにコールする、または割り当てることができる。

一部の実施形態では、データベースと比較するサンプルリードは、ペアエンドシーケンシングの第１リードである。さらに多くの特定の実施形態では、サンプルリードと相互に関連する第２リードを解析して、第２リード内の同定配列がデータベースからの選択配列に実質的にマッチすることを確かめることができる。第２リード用データベースの選択配列は、第１リード向けに用いる選択配列とは異なる場合がある。一部の実施形態では、サンプルリードは、第２リードもデータベースの選択配列と実質的にマッチすることが確認されて初めて、遺伝子座にコールされる。第２リードが選択配列と実質的にマッチするか否かの判断は、上記と同様のやり方で行うことができる。第２リードが選択配列と実質的にマッチすることを確認することにより、標的外（off-target）サンプルリード（例えば、標的外アンプリコン）をさらなる解析から除外することができる。

特定の遺伝子座にコールされたサンプルリードを、特定の遺伝子座の「割り当てリード」ということができる。この段階では、割り当てリードは特定の遺伝子座と相互に関連する可能性があると同定されているが、該割り当てリードはさらなる解析に適さないだろうという可能性もある。具体的には、割り当てリード（read）または割り当てリード（reads）は、その後、他の要因に基づきさらなる解析から外される場合がある。

１５４で割り当てリードを対応する遺伝子座に割り当てた後、サンプルリードを次にさらに解析することができる。割り当てリードで行われる後続の解析は、割り当てリードをコールされた遺伝子座の種類に基づき得る。例えば、遺伝子座がＳＮＰを含むことが知られている場合、遺伝子座にコールされた割り当てリードを１５６で解析にかけ、割り当てリードのＳＮＰを同定することができる。遺伝子座が多型反復ＤＮＡ要素を含むことが知られている場合、割り当てリードを１５８で解析し、サンプルリード内の多型反復ＤＮＡ要素を同定する、または特徴付けることができる。一部の実施形態では、割り当てリードがＳＴＲ座およびＳＮＰ座と実質的にマッチする場合、警告またはフラグがサンプルリードに割り当てられる。サンプルリードはＳＴＲ座とＳＮＰ座の両方として指定され、１５６の解析および１５８の解析にかけられ得る。

一部の実施形態では、ＳＴＲ解析は図４〜７に関連して以下で記載するプロトコルを用いて実行することができる。１５８での解析には、サンプルリードを解析してＲＯＩを同定することが含まれ得、これには、ＲＯＩの配列および／またはＲＯＩの長さを求めることが含まれ得る。ＲＯＩはサンプルリード配列（例えば、サンプル配列のサブ配列）であり得る。ＲＯＩには、反復セグメントが含まれ得る。ＲＯＩは、１つまたは複数の反復モチーフ連続（つまり、反復セグメント）のみを含む、または、反復セグメントの一末端または両末端から伸長する指定の数のヌクレオチドに加えて、１つまたは複数の反復モチーフ連続を含む、ヌクレオチド配列であり得る。具体的には、ＲＯＩはそれぞれ１つまたは複数の反復モチーフ連続を含み得、ここでは各反復モチーフは、（例えば、２つ、３つ、４つ、５つ、または６つ以上の）ヌクレオチドの同一のヌクレオチド組を含む。一般的に用いられる反復モチーフにはテトラヌクレオチドが含まれるが、他のモチーフ、例えば、モノヌクレオチド、ジヌクレオチド、トリヌクレオチド、ペンタヌクレオチド、またはヘキサヌクレオチドも用いることができる。特定の実施形態では、反復モチーフにはテトラヌクレオチドが含まれる。

１５８での解析には、指定座それぞれの割り当てリードを解析して、割り当てリード内の対応するＲＯＩを同定することが含まれ得る。具体的には、ＲＯＩの長さおよび／または配列を求めることができる。１５８での解析には、割り当てリードをアライメントプロトコルに従って整列させて、割り当てリードの配列および／または長さを求めることが含まれる。アライメントプロトコルには、２０１３年３月１５日に出願された国際出願番号第PCT/US2013/030867号（国際公開第2014/142831号）に記載された方法が含まれ、該文献はその全体が参照により本明細書に組み込まれる。

しかしながら、他のアライメントプロトコルも用いることができる。例えば、１つの既知のアライメントプロトコルはサンプルリードを基準リードに整列させる。別の既存のアプローチは、サンプルリードを基準ラダーに整列させる。この例では、ＮＧＳ全ゲノム配列データまたは非反復ＤＮＡ領域の標的シーケンシングで典型的になされるように、全て既知であるＳＴＲアレルのラダーを作成し、リードを基準ゲノムに整列させることにより、「基準ゲノム」が作成される。本明細書で記載の実施形態で用いることができる別の方法論は、ｌｏｂＳＴＲとして知られる。ｌｏｂＳＴＲ法は、ＳＴＲについての事前知識なしに、de novoで単一サンプルのシーケンシングデータから全ての既存のＳＴＲを感知し、コールする（Gymrek et al. 2012 Genome Research 22:1154-62（これはその全体が参照により本明細書に組み込まれる）を参照）。

国際出願番号第PCT/US2013/030867号（国際公開第2014/142831号）に記載されているアライメント法を、ここでは、ＲＯＩを含む遺伝子座のために記載する。読みやすさのため、このような遺伝子座をＳＴＲ座ということができる。一部の実施形態では、ＳＴＲ座の保存フランクを用いて、反復セグメントの配列を実質的に求める。１５４でサンプルリードを対応するＳＴＲ座に割り当てた後、実施形態は、対応する反復セグメントの各側のフランキング配列セクションを整列させて、反復セグメントの長さおよび配列を求めることができる。アライメントを、k-mer戦略を用いてシードすることができる。シード領域は、例えば、反復セグメントに近い、フランキング配列の複雑度の高い選択領域に存在することが可能だが、反復セグメントに対し相同性を有する複雑度の低い配列は避けることが可能である。このようなアプローチは、反復セグメントに近い、複雑度の低いフランキング配列のミスアライメントを避けることができる。

実施形態は、ヒト個体群間の既知の既存変異に基づき事前に定義された、ＳＴＲ自体のフランクにおける既知の配列を利用することができる。有利なことに、フランキング領域の短い範囲のアライメントを実行することは、他の方法よりも計算的により速い。例えば、全リードの動的プログラミングアライメント（Smith-Waterman type）は、特に多数のサンプル配列を整列させなければならない場合、CPU集約的で時間がかかる。さらに、時間のかかる全配列のアライメント（これについては基準が存在し得ない）が、高価な計算資源を独占する。

実施形態は、フランキング配列についての事前知識を利用して、ＳＴＲアレルの適切なコールを確実にする。対照的に、既存の方法は各アレルの完全な基準配列に依存し、不完全な基準がある状況では重大な失敗率に直面する。配列が知られていない多くのアレルがあり、さらに未知のアレルがある可能性もある。例示のため、配列TCAGCTAで始まる3’フランクを有する単純な反復モチーフ[TCTA]を有する反復セグメントを想定する。したがって、基準には[フランク1][TCTA]_nTCAGCTA[フランク2の残り]（ここで、「ｎ」はアレルにおける反復数である）などの配列が含まれ得る。9.3アレルは、配列に沿ってどこかに欠失部分を有することにより10アレルとは異なるだろう。これらは基準に含まれ得るが、全てが含まれるわけではない場合がある。[TCTA]₇TCA[TCTA]₂がこのようなアレルの例である。既存のアライメントプロトコルの下では、[TCTA]₇の後および最終の[TCTA]の前で終端する任意のリードは、[フランク1][TCTA]₇TCAGCTAに整列させられ、不適切なコールを行う。

本明細書で提供する実施形態は、多型反復ＤＮＡ要素の長さ、または、第１保存フランキング領域および第２保存フランキング領域の間に位置する反復セグメントを求めることを可能にする。一実施形態では、本方法は、多型反復ＤＮＡ要素の少なくとも１つのサンプルリードを含むデータ組を提供するステップと、第１保存フランキング領域および第２保存フランキング領域を含む基準配列を提供するステップと、基準配列の第１フランキング領域の一部をサンプルリードに整列させるステップと、基準配列の第２フランキング領域の一部をサンプルリードに整列させるステップと、反復セグメントの長さおよび／または配列を求めるステップとを含む。典型的な実施形態では、本方法の１つまたは複数のステップは、適切にプログラミングされたコンピュータを用いて実行される。

本明細書で用いる場合、用語「サンプルリード」は、反復要素の長さおよび／または同一性が決定される配列データを指す。サンプルリードは、ＤＮＡまたはＲＮＡに基づき得る。サンプルリードは、反復要素の全て、またはその一部を含むことが可能である。サンプルリードはさらに、反復要素の一末端に保存フランキング領域（例えば、5’フランキング領域）を含むことが可能である。サンプルリードはさらに、反復要素の別の末端に追加の保存フランキング領域（例えば、3’フランキング領域）を含むことが可能である。典型的な実施形態では、サンプルリードには、フォワードプライマー配列およびリバースプライマー配列を有するＰＣＲアンプリコンからの配列データが含まれる。配列データは、任意の選択配列方法論から得ることが可能である。サンプルリードは、例えば、合成によるシーケンシング（ＳＢＳ）反応、ライゲーションによるシーケンシング反応、または反復要素の長さおよび／または同一性を決定することが望まれる、任意の他の適切なシーケンシング方法論に由来するものとすることが可能である。サンプルリードは、多数のサンプルリードに由来するコンセンサス（例えば、平均または加重した）配列であり得る。ある実施形態では、基準配列を提供することには、ＰＣＲアンプリコンのプライマー配列に基づき対象の座を同定することが含まれる。

本明細書で用いる場合、用語「多型反復ＤＮＡ要素」は、任意の反復ＤＮＡ配列を指し、これは反復セグメントということができる。本明細書で提供する方法を用いて、任意のこのような反復ＤＮＡ配列の対応するフランキング領域を整列させることが可能である。本明細書で提示する方法は、反復の種類とは無関係に、整列させることが難しい任意の領域に用いることが可能である。本明細書で提示する方法は、特に、保存フランキング領域を有する領域に有用である。加えて、または、あるいは、本明細書で提示する方法は、特に、各フランキング領域の少なくとも一部を含む全反復セグメントにまたがるサンプルリードに有用である。典型的な実施形態では、反復ＤＮＡ要素はＶＮＴＲ（variable number tandem repeat）である。ＶＮＴＲは、特定の配列が座において多数反復されている多型である。一部のＶＮＴＲには、ミニサテライトと、単純反復配列（ＳＳＲ）またはショートタンデムリピート（ＳＴＲ）としても知られるマイクロサテライトが含まれる。一部の実施形態では、反復セグメントは１００ヌクレオチド未満だが、より大きい反復セグメントも整列させることが可能である。反復セグメントの反復ユニット（例えば、反復モチーフ）は、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０以上のヌクレオチドとすることが可能であり、最大で、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５回、または少なくとも１００回以上、繰り返される可能性がある。

ある実施形態では、多型反復ＤＮＡ要素はＳＴＲである。一部の実施形態では、ＳＴＲは法医学に関する目的で用いられる。法医学に関する用途のための典型的な実施形態では、例えば、多型反復ＤＮＡ要素には、テトラヌクレオチドまたはペンタヌクレオチドの反復モチーフが含まれるが、本明細書で提供する方法はいずれの長さの反復モチーフにも適している。ある実施形態では、反復セグメントは、例えば、ＣＯＤＩＳ常染色体ＳＴＲ座、ＣＯＤＩＳＹ-ＳＴＲ座、ＥＵ常染色体ＳＴＲ座、およびＥＵＹ-ＳＴＲ座などから選択されるＳＴＲといった、ショートタンデムリピート（ＳＴＲ）である。例として、ＣＯＤＩＳ（Combined DNA Index System）データベースはＦＢＩの研究機関により同定されたコアＳＴＲ座の組であり、１３個の座：CSF1PO、FGA、TH01、TPOX、VWA、D3S1358、D5S818、D7S820、D8S1179、D13S317、D16S539、D18S51、およびD21S11が含まれる。法医学コミュニティーに関心をもたれ、本明細書で提供する方法およびシステムを用いて整列させることが可能な追加ＳＴＲには、PENTA DおよびPENTA Eが含まれる。本明細書で提示する方法およびシステムは、任意の反復ＤＮＡ要素に適応させることが可能であり、上記のＳＴＲに限定されない。

本明細書で用いる場合、用語「基準配列」は、サンプル配列を整列させることのできる骨格として機能する、既知の配列を指す。本明細書で提供する方法およびシステムの典型的な実施形態では、基準配列には、少なくとも、第１保存フランキング領域および第２保存フランキング領域が含まれる。用語「保存フランキング領域」は、反復セグメント（例えばＳＴＲ）の外側の配列領域を指す。該領域は、典型的には、反復セグメントが多型だとしても、多くのアレルにわたり保存されている。本明細書で用いる保存フランキング領域は、典型的には、反復セグメントよりも複雑度が高い。典型的な実施形態では、単一基準配列を用いて、遺伝子座内のアレルを全て整列させることが可能である。一部の実施形態では、フランキング領域内の変異のために、２つ以上の基準配列を用いて遺伝子座のサンプル配列を整列させる。例えば、アメロゲニンの反復セグメントはＸとＹの間でフランクに差がある。ただし、単一基準は、より長い領域が基準に含まれていれば、反復セグメントを表すことが可能である。

本明細書で提示する実施形態では、基準配列のフランキング領域の一部をサンプル配列に整列させる。整列は、保存フランキング領域の位置を決め、次にフランキング領域の一部とサンプルリードの対応部分との配列アライメントを行うことにより、実行される。フランキング領域の一部の整列は、既知のアライメント法に従い行う。ある実施形態では、フランキング領域（例えば、第１フランキング領域または第２フランキング領域）の一部を整列させるステップには、（ｉ）反復セグメントに重なる、または隣接するシーディング領域の正確なk-merマッチングを用いることにより、保存フランキング領域のサンプルリード上での位置を決定するステップと、（ｉｉ）フランキング領域をサンプルリードに整列させるステップとが含まれる。一部の実施形態では、整列にはさらに、フランキング配列と、反復セグメントの一部を含む短い隣接領域の両方を整列させるステップが含まれ得る。

このアプローチの例を図４に示す。サンプルリードともいうことができるアンプリコン（「鋳型」）は、図４において、未知の長さおよび／または同一性のＳＴＲを有することが示されている。図２に関し上記したように、サンプルリードを解析してサンプルリードを、この場合はＳＴＲを含むことが知られている遺伝子座に割り当てることができる。サンプルリードの遺伝子座を決定した後は、アライメントプロトコルには、サンプルリードの所定配列を、基準配列の所定配列と整列させることが含まれ得る。例えば、プライマーをp1およびp2として示すが、これらはアンプリコンを生成するために用いられたプライマー配列に基づく。図４に示す実施形態では、p1のみを最初のアライメントステップ中で用いる。一部の実施形態では、p2のみをプライマーアライメントで用いる。他の実施形態では、p1とp2の両方をプライマー整列に用いる。さらに他の実施形態では、他の配列を最初のアライメントステップで用いることができる。

最初のアライメントに続き、図４で「f1_al.」として指定するフランク１を整列させる。フランク１のアライメントは、図４で「f1_シード.」として指定するフランク１のシーディングに先行され得る。フランク１のシーディングとは、サンプル配列の先頭とＳＴＲの間の少数（「e」と指定される）インデルを補正することである。シーディング領域はＳＴＲの先頭のすぐ隣にあってよく、または、（図のように）オフセットして複雑度の低い領域を避けることができる。シーディングは、正確なk-merマッチングによりなすことが可能である。フランク１のアライメントが進んで、ＳＴＲ配列の先頭部分が決定される。ＳＴＲパターンが先頭の数ヌクレオチド（s1）を予測できるほど十分に保存されている場合、これらは、正確性の改善のためにアライメントに加えられる。

ＳＴＲの長さが未知であるため、フランク２についてのアライメントは以下のように行う。フランク２のシーディングを行い、ＳＴＲの潜在的な末端位置を素早く見つける。フランク１のシーディングとして、シーディングをオフセットして複雑度の低い領域およびミスアライメントを避けることができる。整列に失敗したフランク２シードはいずれも破棄する。いったんフランク２を適切に整列させたら、ＳＴＲの末端位置（s2）を決定することが可能である。s1で既知のＳＴＲ配列の先頭と、s2で既知のＳＴＲ配列の終わりを用いて、ＳＴＲの長さを計算することが可能である。

シーディング領域は、反復セグメント（例えば、ＳＴＲ）に直接隣接し、および／または、反復セグメントの一部を含むことが可能である。一部の実施形態では、シーディング領域の位置は、反復セグメントに直接隣接する領域の複雑度に左右されるだろう。ＳＴＲの先頭または終わりは、追加配列を含む、または複雑度の低い配列により結合している場合がある。したがって、複雑度の低い領域を避けるため、フランキング領域のシーディングをオフセットすることは有利であり得る。本明細書で用いる場合、用語「複雑度の低い」は、反復モチーフおよび／または反復セグメントの配列に似た配列を有する領域を指す。加えて、または、あるいは、複雑度の低い領域は多様性の少ないヌクレオチドを組み込む。例えば一部の実施形態では、複雑度の低い領域は、反復配列と、３０％、４０％、５０％、６０％、７０％、または８０％超の配列同一性を有する配列を含む。典型的な実施形態では、複雑度の低い領域は、該領域の全ヌクレオチドの２０％、１５％、１０％、または５％未満という頻度で４つのヌクレオチドをそれぞれ組み込む。任意の適切な方法を利用して、複雑度の低い領域を明らかにすることができる。複雑度の低い領域を明らかにする方法は、Morgulis et al., (2006) Bioinformatics. 22(2):134-41で例示されるように当技術分野で既知であり、該文献はその全体が参照により組み込まれる。例えば、組み込まれたMorgulis et al.の内容に記載されているように、ＤＵＳＴなどのアルゴリズムを用いて、複雑度の低い、所与のヌクレオチド配列内の領域を同定することができる。

一部の実施形態では、シーディングは、ＳＴＲの先頭から少なくとも１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、または４０以上のヌクレオチド分オフセットされている。一部の実施形態では、フランキング領域を評価して、複雑度の高い領域を同定する。本明細書で用いる場合、用語「複雑度の高い領域」は、ミスアライメントの可能性を減少させるのに十分なほど、反復モチーフおよび／または反復セグメントの配列とは異なる配列を有する領域を指す。加えて、または、あるいは、複雑度の高い領域は種々のヌクレオチドを組み込む。例えば、一部の実施形態では、複雑度の高い領域は、反復配列との同一性が８０％、７０％、６０％、５０％、４０％、３０％、２０％、または１０％未満である配列を含む。典型的な実施形態では、複雑度の高い領域は、該領域の全ヌクレオチドの少なくとも１０％、１５％、２０％、または少なくとも２５％という頻度で４つのヌクレオチドをそれぞれ組み込む。

本明細書で用いる場合、用語「正確なk-merマッチング」は、ワードの長さが値kと定義されているワード法を用いることにより、最適なアライメントを見つける方法を指す。一部の実施形態では、kの値は、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、または４０以上のヌクレオチド長さである。一部の実施形態では、kの値は５〜３０のヌクレオチド長さである。一部の実施形態では、kの値は５〜１６のヌクレオチド長さである。ある実施形態では、kは、１つまたは複数の要因に基づきシステムまたはユーザにより選択される。例えば、プライマー配列がＳＴＲ配列の比較的近くに位置する場合など、フランク領域が短い場合、kは適切に減らすことができる。典型的な実施形態では、kは＋／−eの距離内で全てマッチするように選択される。

ワード法は、照会配列において短く、重複していないサブ配列（「ワード」）の連続を同定し、これを次に候補のデータベース配列にマッチングさせる。比較される２つの配列のワードの相対位置を引き算してオフセットを得る。これは、多数の別箇のワードが同じオフセットを生成する場合に、アライメント領域を示すだろう。この領域が検出される場合に限り、この方法はより高感度なアライメント基準を適用し、それにより、顕著な類似性のない配列との多くの不必要な比較が省略される。正確なk-merマッチングを含む、k-merマッチングを実行する方法は、Lipman, et al., (1985) Science 227:1435-41、およびAltschul, et al., (1990) Journal of Molecular Biology 215:403-410（これらの内容はそれぞれ、その全体が参照により組み込まれる）の開示により例示されるように、当技術分野で既知である。

本明細書で用いる場合、用語「アンプリコン」は、配列を得る任意の適切な増幅産物を指す。典型的には、増幅産物は、ＰＣＲプライマーなどの標的特異的プライマーを用いた、選択的増幅方法論の産物である。ある実施形態では、配列データは、フォワードプライマー配列とリバースプライマー配列を有するＰＣＲアンプリコンに由来する。一部の実施形態では、選択的増幅方法論に、１つまたは複数の非選択的増幅ステップが含まれる可能性がある。例えば、ランダムプライマーまたは縮重プライマーを用いた増幅プロセスの後に、標的特異的プライマーを用いた１つまたは複数の増幅サイクルが続き得る。選択的増幅の適切な方法には、限定されるわけではないが、米国特許第8003354号明細書（これはその全体が参照により本明細書に組み込まれる）に記載されるように、ＰＣＲ（polymerase chain reaction）法、ＳＤＡ（strand displacement amplification）法、ＴＭＡ（transcription mediated amplification）法、およびＮＡＳＢＡ（nucleic acid sequence based amplification）法が含まれる。上記の増幅方法を利用して、１つまたは複数の対象核酸を選択的に増幅することが可能である。例えば、マルチプレックスＰＣＲを含むＰＣＲ、ＳＤＡ、ＴＭＡ、およびＮＡＳＢＡなどを利用して、１つまたは複数の対象核酸を選択的に増幅することが可能である。このような実施形態では、対象核酸を特に対象とするプライマーが増幅反応に含まれる。他の適切な核酸増幅法には、オリゴヌクレオチドの伸長およびライゲーション、ＲＣＡ（rolling circle amplification）法（Lizardi et al., Nat. Genet. 19:225-232 (1998)、これは参照により本明細書に組み込まれる）、ならびにＯＬＡ（oligonucleotide ligation assay）法（一般的に、米国特許第7582420号明細書、同第5185243号明細書、同第5679524号明細書、同第5573907号明細書、欧州特許第0 320 308号明細書、同第0 336 731号明細書、同第 0 439 182号明細書、国際公開第90/01069号、同第89/12696号、および同第89/09835号を参照（これらは全て、参照により組み込まれる））が含まれ得る。

これらの増幅方法論が、対象の標的核酸を選択的に増幅するように設計可能であることが理解されよう。例えば、一部の実施形態では、選択的増幅法には、対象核酸を特に対象とするプライマーを含む、ライゲーションプローブ増幅法またはＯＬＡ（oligonucleotide ligation assay）反応が含まれ得る。一部の実施形態では、選択的増幅法には、対象核酸を特に対象とするプライマーを含むプライマー伸長ライゲーション反応が含まれ得る。対象核酸を増幅するように具体的に設計することが可能なプライマー伸長およびライゲーションプライマーの非限定的例として、増幅には、米国特許第7582420号明細書（これはその全体が参照により本明細書に記載される）に記載されるように、GoldenGate（商標）アッセイ（カリフォルニア州サンディエゴ、Illumina, Inc.）で用いられるプライマーが含まれ得る。本方法は、任意の特定の増幅技法に限定されず、本明細書に記載の増幅技法は、本開示の方法および実施形態に関する単なる例示である。

反復ＤＮＡ要素を増幅するためのプライマーは、典型的には、フランキング領域の固有の配列にハイブリダイズする。プライマーは、任意の適切な方法論に従い、設計および生成することが可能である。反復セグメントのフランキング領域向けのプライマーの設計は、Zhi, et al. (2006) Genome Biol, 7(1):R7（これはその全体が参照により本明細書に組み込まれる）に例示されるように、当技術分野で周知である。例えば、プライマーは手動で設計することが可能である。これには、マイクロサテライト反復を求めてゲノムＤＮＡ配列を調べることが含まれ、これは肉眼またはRepeatMaskerソフトウェアなどの自動ツールを用いて行うことが可能である。反復セグメントおよび対応するフランキング領域をいったん決めたら、フランキング配列を用いて、ＰＣＲ反応で特定の反復を増幅するオリゴヌクレオチドプライマーを設計することが可能である。

以下に、上記記載に従って実行した例を記載する。

（実施例１）
座D18S51のアライメント
この例は、一実施形態に従った、座D18S51のアライメントについて記載する。一部の座は、複雑度が低く、ＳＴＲ反復配列に似たフランキング配列を有する。これは、フランキング配列を（時にＳＴＲ配列自体に）誤って整列させ、そのためアレルが誤ってコールされる可能性がある。問題となる座の例はD18S51である。反復モチーフは[AGAA]n AAAG AGAGAGである。隣接配列を下記に示し、複雑度の低い「問題のある」配列に下線を引く。

ＳＴＲに直ぐ隣接するフランキング領域を用いて、アライメントをシードした場合、GAAAG, AAAGAA, AGAGAAA などのk-merが生成するだろう。これをＳＴＲ配列にマッピングする。これは、多くの可能性がシーディングから得られることから動作を抑制するが、最も重大なのは、アプローチが図５に示すようなミスアライメントを生成することである。図５に示す配列では、真のＳＴＲ配列を強調し、ミスアライメントから生じるＳＴＲ配列には下線を引き、リードエラーは太字で示す。

これらの複雑度の低いフランクでは、シーディング領域をＳＴＲ配列からさらに押しやることにより、確実に、該シーディング領域が複雑度の低い領域にないようにする。これにはＳＴＲをコールするためのより長いリードが必要だが、それは高い正確性を保証し、フランキング領域のＳＴＲ配列（またはフランクの他の部分）へのミスアライメントを防ぐ。複雑度の低いフランクをなおリードに整列させてＳＴＲの末端位置を見つけるが、アライメントが複雑度の高い配列とともにシードされることから、それは、正しい位置にあるはずである。

（実施例２）
短いＳＴＲ配列を加えることによる、座Penta-Dのアライメント
予想より１ｎｔ短い、ＳＴＲを有する傾向のあるPenta-D配列の組。さらなる検査で、両フランクがpoly-A伸長を含み、シーケンシング／増幅エラーがしばしばその伸長のＡの１つを取り除くことが発見された。下記の配列に示すように、ホモポリマーＡの伸長が両フランクに見られる。

第１フランクの欠失を引き起こすリードエラーは、２つの等しく存続可能なアライメントに負けるだろう。

ＳＴＲに最も近い塩基がマッチするように強制することは、ＳＴＲの１つのフランクの１つが、その中にＳＮＰを有することになるため、機能しなかった。ＳＴＲ配列のたった２つのヌクレオチドを加えることが問題を解決することが発見された。

（実施例３）
ＤＮＡサンプルの混合物の解析
サンプル混合物を、本明細書で提供する方法を用いて、法医学ＳＴＲのパネルにおいて各座のコールを行った。各座では、各アレルおよび該アレルの異なる配列それぞれに対応するリード数をカウントした。

典型的な結果を図６Ａ〜６Ｄに示す。示すように、各対の右のバーは得られた実際のデータを表し、各アレルのリード比率を示す。異なる暗色が、異なる配列を表す。座のリードカウントが０．１％未満であるアレルと、アレルカウントが１％未満である配列を削除する。各対の左側のバーは理論的な比率（スタッターなし）を表す。異なる暗色は、凡例に示されるように、インプット中の異なる対照ＤＮＡを表す。図６Ａ〜６Ｄでは、Ｘ軸はアレルの順であり、Ｙ軸は指定のアレルでのリード比率を示す。

図に示すように、本明細書で提示する方法を用いたＳＴＲコーリングアプローチは、驚くべきことに、パネルにおいて各アレルの正確なコールを達成した。

（実施例４）
法医学ＳＴＲパネルの解析
１５個の異なる座のパネルを５つの異なるサンプルにおいて解析した。サンプルはPromega Corpから入手し、サンプル9947A、K562、2800M、NIST：AおよびB（SRM 2391c）が含まれた。座をＣＯＤＩＳＳＴＲ法医学的マーカーから選択し、本明細書で提示するアライメント法を用いて、座にはCSF1PO、D3S1358、D7S820、D16S539、D18S51、FGA、PentaE、TH01、vWA、D5S818、D8S1179、D13S317、D21S11、PentaD、およびTPOXが含まれた。簡潔に言うと、Krenke, et al. (2002) J. Forensic Sci. 47(4): 773-785（これは参照によりその全体が組み込まれる）に記載されているように、マーカーを標準プライマーを用いて増幅した。アンプリコンをプールし、MiSeq sequencing instrument（カリフォルニア州サンディエゴ、Illumina）を１×４６０サイクル用いてシーケンシングデータを得た。

アライメントを本明細書に提示する方法に従い実行した。図７に示すように、これらの対照サンプルについて、１００％の整列が対照データと比較して示された。加えて、この方法は、マーカーD8S1179のサンプルの１つにおいて、これまで未知のＳＮＰを同定し、さらに、本明細書で提供するアライメント法と組み合わせた場合に、配列に基づくＳＴＲ解析の強力なツールをさらに実証した。

図８は、スタッター産物を同定する方法１６０を示す。割り当てリード内のＲＯＩを同定した後、本明細書に記載の実施形態は、１６２で、ＲＯＩの配列に基づきＲＯＩ（または割り当てリード）を分類することができる。上記のように、ある状況では、アライメントプロトコルは、反復セグメントの配列に加え、フランキング領域の一方または両方の一部を解析する場合がある。従って、ある実施形態では、１６２での分類には、反復セグメントとの配列およびフランキング領域の一方または両方のサブ配列に基づき、分類することが含まれ得る。例として、分類には、反復セグメントと、反復セグメントから伸長するフランキング領域のそれぞれの数ヌクレオチドを解析することが含まれる場合がある。他の実施形態では、１６２での分類には、反復セグメントの配列のみを含むＲＯＩに基づく分類が含まれる場合がある。

ＲＯＩ（または反復セグメント）を分類し、その結果、異なる配列を有するＲＯＩ（または反復セグメント）が潜在的な（または疑わしい）アレルとして指定されるようにすることができる。例えば、各潜在的アレルは固有のサンプル配列および／または固有の長さを有する場合がある。具体的には各潜在的アレルはＲＯＩもしくは反復セグメントの固有配列、および／または、ＲＯＩもしくは反復セグメントの固有の長さを有し得る。下記のように、一部の実施形態では、反復セグメントをＣＥアレル名に基づいて順に並べることができる。

１６２での分類は、各指定座について行うことができる。サンプルリードを対応する遺伝子座に割り当てた後、各遺伝子座は該遺伝子座に関連する、複数の割り当てリードを有し得る。例えば、一部の実施形態では、１つまたは複数の遺伝子座が、数百の割り当てリードを有し得、これらは互いにグループ化される、またはビンに区切られる。既知のように、既知のＳＴＲ座などの対応する遺伝子座は複数のアレルを有し得、ここでは各アレルが異なる配列を含む。共通の遺伝子座に由来すると同定された複数の割り当てリードを一括して解析することにより、複数の割り当てリードを解析して、一個体または複数の個体に遺伝子型コールを提供することができる。

方法１６０にはまた、共通の配列を有する共通遺伝子座の割り当てリードを１６４でカウントする（または、合計する）ステップが含まれ得る。１６４でのカウントには、本明細書で記載するように、カウントスコアを求めることが含まれ得る。例として、図９はD1S1656座の潜在的アレルを含む表１９０を含み、図１０はＣＥアレルの分布を示すグラフ１９２を含む。ＣＥアレルには慣習に従って名前が付けられるが、該ＣＥアレルには図１０に示すようにスタッター産物が含まれる可能性がある。本例では、単一ソースに由来する核酸をシーケンシングした後、サンプルリードを解析してD1S1656座のＲＯＩ（例えば、反復セグメント）を同定した。ＲＯＩを分類およびカウントして、D1S1656座内の、いくつかの潜在的アレルを同定した。本例では、D1S1656座の割り当てリード総数の１％未満だったカウントを有するアレルは、考慮しなかった。図９に示すように、フィルタリングした割り当てリードには全部で４つの固有配列が含まれ、これはD1S1656座の潜在的アレルと考えることができる。解析後、下記のように、座の遺伝子型コールはヘテロ接合型12/13である。

一部の実施形態では、遺伝子座の潜在的アレルのカウントスコアに基づき、遺伝子座の遺伝子型をコールすることが可能である。しかしながら、一部実施形態では、さらなる配列解析を行うことができる。例えば、方法１６０には、１６６で、潜在的アレルの配列を解析して、第１アレルが第２アレルのスタッター産物であることが疑われるか否かを判断するステップが含まれ得る。スタッターは、核酸、特に、ＳＴＲアレル内に見られるような、１つまたは複数の反復モチーフ連続を含む核酸を増幅する間に起き得る現象である。スタッター産物は、典型的には真のアレルよりサイズの小さい（または、サイズの大きい）１つまたは複数の反復モチーフである、配列を有する。核酸配列の複製中に、二本の鎖がＳＴＲに沿ってばらばらになり得る。各反復モチーフが同一であるため、二本の鎖は適切に再アニールすることができ、その結果、該二本の鎖が１つまたは複数の反復モチーフでオフセットされる。したがって、結果として生じる産物はさらに増幅され得るが、これは１つまたは複数の反復モチーフにより真の配列とは異なる。

スタッター産物は真のアレルとほぼ同じサイズであることから、スタッター産物が遺伝子座の真のアレルであるのか、隣接アレルのスタッター産物であるか否かを判断することは困難な場合がある。したがって、スタッター産物は遺伝子型コールの信頼度を低減する可能性がある。ある状況下では、スタッター産物は、遺伝子型コールが提供されないようにする、または、誤った遺伝子型コールを招く可能性がある。スタッター産物は、複数のソースを含むサンプルについての遺伝子型コールを特に困難にし得る。

１６６での解析により、第１アレルは第２アレルのスタッター産物であることが疑われるか否かを判断することができる。一部の実施形態では、解析には、１つまたは複数のルールまたは条件を第１アレルおよび第２アレルに適用することが含まれる。例えば、１７１で、k個の反復モチーフが第１アレルと第２アレルの間で付加された、または欠失したと判断された場合、第１アレルは第２アレルのスタッター産物であると疑われ得る。数字kは整数である。特定の実施形態では、数字ｋは１または２である。スタッター産物は典型的には１つ少ない反復モチーフを含むが、スタッター産物は、２つ少ない反復モチーフ、または、１つ多い反復モチーフを含む場合もある。スタッター産物はまた、反復モチーフで他の違いを含む可能性がある。１６６での解析には、遺伝子座に関連する各潜在的アレルを、同じ遺伝子座の他の潜在的アレルと互いに比較することが含まれ得る。

一部の実施形態では、１６６での解析には、１７２で、付加された、または欠失した反復モチーフを同定することが含まれ得る。１７２で、付加された、または欠失した反復モチーフを同定することには、２アレルの２配列をＲＯＩまたは反復セグメントに沿って整列させて、反復モチーフがいつ付加されたか、または欠失したかを判断することが含まれ得る。例えば、配列を一末端で互いに整列させて、反復モチーフがいつ付加されたか、または欠失したかを判断することができる。

あるいは、または、上記に加え、解析には、１７３で、第１アレルおよび第２アレルの反復セグメントの長さを比較して、第１アレルおよび第２アレルの反復セグメントの長さが、一反復モチーフまたは多数の反復モチーフの長さと異なるか否かを判断することが含まれ得る。例えば、図９に示す例では、反復モチーフはTAGAであり、これは４つのヌクレオチドを有するテトラヌクレオチドである。標的アレルの配列長さを図９に示す。アレル１およびアレル２はそれぞれ６２ヌクレオチドを有し、アレル３およびアレル４はそれぞれ５８ヌクレオチドを有する。したがって、アレル１の配列長さはアレル３の配列およびアレル４の配列とは４ヌクレオチド分、言い換えると、反復モチーフの長さ分異なる。同様に、アレル２の配列長さは、アレル３の配列およびアレル４の配列とは反復モチーフの長さ分異なる。

一部の実施形態では、１６６での解析には、１７４で、付加された、または欠失した反復モチーフが、同じ配列の隣接反復モチーフと同一であるか否かを判断することが含まれ得る。上記のように、付加された、または欠失した反復モチーフは、アレル配列を整列させて、付加された、または欠失した反復モチーフを同定することにより決定することができる。配列を整列させた後、付加された／欠失した反復モチーフが、それに隣接する反復モチーフと同一であると判断することができる。一部の実施形態では、アライメントは貪欲法を用いて達成することができる。

第１アレル（または、スタッター産物であると疑われるアレル）には、典型的には、第２アレルのリードカウント（またはカウントスコア）より少ないリードカウント（または、カウントスコア）が含まれる。サンプルがマイナーコントリビュータを含むといったある状況下では、これは当てはまらない場合がある。一部の場合では、アレルのスタッター産物は、指定のスタッター閾値未満であるか、または、座および／もしくはアレルについての所定の範囲内に収まり得る。スタッター閾値は、例えば、第２アレルのいくつかのリードカウント、対応する座および／もしくはアレルのヒストリカルデータ、ならびに／または、アッセイ中の対応する座および／もしくはアレルの観測に基づき得る。ヒストリカルデータまたはアレルの観測について例を提供するため、アレルが通常予想されるより大きいまたは小さい所定量のスタッターを提供するということを、指定アッセイに関する経験を通じて判断することができる。このデータおよび／または観察を用いて、閾値を修正することができる。アレルについての知識がスタッター閾値に影響を与え得る別の例としては、平均してより長いアレルが、より大きい比率のスタッター産物を提供し得る。したがって、スタッターの閾値は、アレルの長さに基づき変更することができる。

一部の実施形態では、１６６での解析には、１７５で、第１アレルのカウントスコアが第２アレルのカウントスコアの所定範囲に収まるか否かを判断することが含まれ得る。例えば、第１アレルのカウントスコア（例えば、リードカウント）が第２アレルのカウントスコア（例えば、リードカウント）の所定のパーセンタイル範囲内にある場合、第１アレルはスタッター産物であることが疑われ得る。所定のパーセンタイル範囲は、約５％〜約４０％とすることができる。特定の実施形態では、所定のパーセンタイル範囲は、約１０％〜約３０％、または、約１０％〜約２５％とすることができる。所定のパーセンタイル範囲は、ヒストリカルデータ、またはアッセイ中の対応するＳＴＲ座についての観察を用いて計算または獲得することができる。同様に、第１アレルのカウントスコアが第２アレルのカウントスコアに基づく指定のスタッター閾値未満だった場合、第１アレルはスタッター産物であることが疑われ得る。例としては、指定のスタッター閾値は、第２アレルのカウントスコアの所定の割合に基づき得る。例えば、所定の割合は、約２０％、２５％、３０％、３５％、または４０％とすることができる。所定の割合は、対応するＳＴＲのヒストリカルデータまたはアッセイ中の対応するＳＴＲ座についての観察を用いて、決定または獲得することができる。

一部の実施形態では、潜在的アレルのカウントスコアを用いて、スタッター基準（またはスタッタースコア）を求めることができる。スタッター基準は、第１アレルのカウントスコアに基づく値または関数であり得る。スタッター基準はまた、第２アレルのカウントスコアに基づき得る。スタッター基準を指定のスタッター閾値と比較して、対応する潜在的アレルがスタッター産物であることが疑われるか否かを判断することができる。スタッター基準が指定のスタッター閾値未満である場合、第１アレルは、第２アレルのスタッター産物であると疑われ得る。スタッター基準が指定のスタッター閾値以上である場合、第１アレルは潜在的アレルと考えることができる。この場合、第１アレルと第２アレルはそれぞれ、座の真のアレルであり得る。

追加の条件を適用して、あるアレルが別のアレルのスタッター産物であるか否かを判断することができる。例えば、１６６での解析には、１７６で、第１アレルと第２アレルの間に他のミスマッチがないと判断することが含まれる。ＲＯＩ、具体的には反復セグメントを解析して、それぞれの配列間の任意のミスマッチを同定することができる。例えば、一方の配列のヌクレオチドがもう一方の配列のヌクレオチド（付加された／欠失した反復モチーフ以外）とマッチしなかった場合、該配列はスタッター産物ではあり得ない。

他の実施形態では、疑わしいスタッター産物が第２アレルのスタッター産物ではないと判断することができる。その代りに、疑わしいスタッター産物は別のコントリビュータに由来する、または、シーケンシングエラーにより引き起こされる場合がある。例えば、１つまたは複数の実施形態は、第１アレルのスタッター基準（例えば、カウントスコアまたはカウントスコアに基づく他の関数）が指定のスタッター閾値よりも大きい場合、疑わしいスタッター産物は別のコントリビュータに由来すると判断することができる。指定閾値は、ヒストリカルデータおよび／または対象のアッセイ内のデータに基づき得る、第２アレルのカウントスコアおよび所定のスタッター関数に基づき得る。第１アレルのスタッター基準がベースライン値未満である場合、１つまたは複数の実施形態が、疑わしいスタッター産物がシーケンシングエラーであると判断することができる。ベースライン値は、ヒストリカルデータおよび／または対象のアッセイ内のデータに基づき得る、第２アレルのカウントスコアと所定のスタッター関数に基づき得る。例として、ある座は、歴史的に、１０〜３０％のスタッター範囲を有し得る。ある座の第２アレルのリードカウントが１００である場合、第１アレルはリードカウントが１０未満であればシーケンシングエラーであり得る。リードカウントが３０超である場合、別のコントリビュータに由来する可能性がある。

特定の実施形態では、（Ａ）第１アレルおよび第２アレルのアレル配列の長さがk反復モチーフ分異なる場合、（Ｂ）欠失した、または付加された反復モチーフが隣接反復モチーフと同一である場合、（Ｃ）２つのアレル（例えば、ＲＯＩまたは反復セグメント）間で他のミスマッチがない場合、および、オプションとして、（Ｄ）第１アレルのスタッター基準が、第２アレルのスタッター基準の所定のスタッター範囲内にある（または、指定のスタッター閾値未満である）場合に、第１アレルは第２アレルのスタッター産物であると考えられる。

図９に示す例に戻ると、D1S1656座の真の２つのアレルの配列は、アレル１２が[TAGA]11[TAGG]1[TG]5、アレル１３が[TAGA]13[TG]5である。アレル１２は最後の「TAGA」反復ユニットでＳＮＰを有する。ここから、アレル１２の配列[TAGA]12[TG]5は、実際、アレル１３の−１スタッターであり、アレル１３の配列[TAGA]12[TAGG]1[TG]5はアレル１２の＋１スタッターであると判断することが可能である。分かるように、本明細書に記載の実施形態は、ＣＥシステムよりも有利であり得る。具体的には、ＣＥシステムは、アレル１２の配列[TAGA]12[TG]5はアレル１３の−１スタッターであり、アレル１３の配列[TAGA]12[TAGG]1[TG]5はアレル１２の＋１スタッターであると判断することはできないだろう。

図１１は、実施形態に従いシーケンシングデータを解析する方法２００を示す。方法２００には、本明細書に記載の他の実施形態を組み込むことができる。方法２００は、２０２で、遺伝子座の組に対応するように構成された複数のサンプルリードを含むシーケンシングデータを受信するステップを含む、遺伝子座の組は、科学捜査または親子鑑定など、所定の遺伝子アプリケーション向けに構成することができる。サンプルリードは対応するアンプリコンのリード対を形成することができ、ここで各リード対には、対応するアンプリコンの第１リードおよび第２リードが含まれる。例えば、第１リードおよび第２リードの対は、ペアエンドシーケンシングから、特定の実施形態では非対称ペアエンドシーケンシングから、得ることができる。第１リードおよび第２リードはそれぞれ、各々の配列を有し得、該配列を以後、リード配列という。各リード配列には、例えば、同定配列（例えば、プライマー配列）、および、ＳＮＰまたはＳＴＲなどの配列変異を含む配列が含まれ得る。

方法２００は、２０４で、サンプルリードの１つまたは複数の潜在的遺伝子座を同定するステップを含む。同定する動作は、図２について上記した、１５４での割り当てと類似し得る。例えば、２０４では、リード対の第１リードについての１つまたは複数の遺伝子座を暫定的に同定することができる。各リード対の第１リードを比較して、データベース（例えば、参照テーブル）の配列を選択することができる。データベースの選択配列はそれぞれ、遺伝子座の組の指定の遺伝子座に対応し得る。第１リードのリード配列が１つまたは複数の選択配列と実質的にマッチする場合、第１リードは選択配列に対応する遺伝子座に暫定的にコールされ得る。例えば、第１リードの同定配列に由来するｎヌクレオチド（例えば、最初のｎヌクレオチド）連続が１つまたは複数の選択配列と実質的にマッチする場合、第１リードは、それらの対応する遺伝子座に暫定的にコールされ得る。対応する遺伝子座は、暫定的に指定座ということができる。

第１リードが選択配列の何れにも実質的にマッチしない場合、非割り当てリードは破棄される場合がある。オプションとして、第１リードおよび／または対応する第２リードであり得る非割り当てリードを、他の非割り当てリードとともに集める、または集約することができる。２０６では、非割り当てリードを品質管理のために解析することができる。例えば、第１リードのリード配列を解析して、なぜ該第１リードが割り当てられなかったかを明らかにすることができる。

方法２００はまた、２０８で、潜在的遺伝子座を有する第１リードそれぞれについて、第１リードが潜在的遺伝子座の１つまたは複数の基準配列と整列するか否かを判断するステップを含み得る。２０８での判断は、１つまたは複数のアライメントプロトコルを用いてなされ得る。例えば、２０８での判断には、図３〜７に関し上記したように、第１リードを潜在的遺伝子座の対応する基準配列に整列させることが含まれ得る。第１リードが１つのみの遺伝子座の基準配列と整列する場合、第１リードをその１つの遺伝子座の正当なリードとして暫定的に指定することができ、方法はステップ２１０へと進むことができる。他の実施形態では、第１リードをその１つの遺伝子座の正当なリードとして指定することができ、方法はステップ２１２へと進むことができる。

しかしながら、第１リードが２つ以上の基準配列と実質的に整列する場合は、２０８での判断には、第１リードが最も良く整列する、または、最も多く整列する基準配列を同定することが含まれ得る。具体的には、第１リードは多数の基準配列と実質的に整列するが、１つのアライメントが他のアライメントより良好な場合がある。簡単な一例として、アライメント解析は第１リードを解析し、第１リードを、２０４で同定された３つの潜在的遺伝子座に関連する基準配列である３つの基準配列、Ref Seq A、Ref Seq B、およびRef Seq Cに整列させることができる。アライメント解析により、第１リードが、Ref Seq Aと第１リードの間に合計３つの相違がありながら、Ref Seq Aと実質的に整列すると判断することができる。アライメント解析により、第１リードが、Ref Seq Bと第１リードの間に合計４つの相違がありながら、Ref Seq Bと実質的に整列すると判断することができる。アライメント解析により、第１リードとRef Seq Cは互いに整列しないと判断することができる。例えば、過剰な数の相違（例えば、１０超）が第１リードとRef Seq Cの間に存在し得る。別の例として、過剰な相違比率または相違割合（例えば、リードまたは基準配列における合計ヌクレオチド数に対する相違数）が、第１リードとRef Seq Cの間に存在し得る。このデータに基づき、本方法は、第１リードがRef Seq BよりもRef Seq Aとより良好に整列すると判断し得る。したがって、第１リードを、Ref Seq Aに対応する遺伝子座の正当なリードとして暫定的に指定することができる。

一部の実施形態では、どの基準配列が最も良く第１リードと整列するかを決定することに、基準配列それぞれのアライメントスコアを計算することが含まれ得、ここでアライメントスコアは相違数に基づく。上記のように、アライメントスコアは生の数字データ（例えば、相違数）とすることができる。他の実施形態では、アライメントスコアは、相違の数および／または種類の関数とすることができる。例えば、インデルとミスマッチは異なるようにスコア付けすることができる。

オプションとして、方法２００は、２１０で、第２リードを解析して、第１リードが暫定的に指定の遺伝子座にコールされるべきであることを確かめるステップを含む。第２リードを、対応するリード対の第１リードと同様に解析することができる。第２リードを解析して、第２リードの同定配列がデータベースの１つまたは複数の選択配列に実質的にマッチするか否かを判断することができる、第２リードの同定配列が１つのみの選択配列に実質的にマッチする場合、本方法は、その１つの選択配列に対応する遺伝子座を同定するステップを含み得る。該遺伝子座が、第１リードが暫定的に指定された遺伝子座と同じである場合、該遺伝子座は第１リードの遺伝子座ということができ、第１リードを２１２で、遺伝子座の正当なリードとして指定することができる。

しかしながら、第２リードの同定配列が多数の選択配列と実質的にマッチする場合、本方法は、該多数の選択配列に対応する遺伝子座を同定するステップを含み得る。これらの遺伝子座の１つが、第１リードが暫定的に指定の遺伝子座と同じである場合、該遺伝子座は第１リードの遺伝子座であるといえ、該第１リードを、２１２で、該遺伝子座の正当なリードとして指定することができる。

２１０での解析で、第２リードが第１リードの暫定的に指定された座に対応することが確かめられなかった場合、方法２００は、対応する第１リードを未確認リードとして指定するステップを含み得る。未確認リードを集め、オプションとして２１４で品質管理のためにさらに解析することができる。例えば、暫定的に指定された座の第１選択配列と実質的にマッチするが、暫定的に指定された座の第２選択配列とは実質的にマッチしないリード対は、アッセイ内の問題を示す場合がある。未確認リードは１つまたは複数の標的外アンプリコンを示す場合がある。リード対を２１４で解析して、例えば、アッセイに関し品質管理の問題が存在するか、またはアレルのドロップアウトを示すか否かを判断することができる。

しかしながら、第１リードが２０８で潜在的遺伝子座の基準配列と整列しない場合、本方法は、２１６で、第１リードを非整列リードとして指定するステップを含み得る。非整列リードは、フィルタリング段階を一つ通過したが、基準配列と整列し得なかった第１リードを表し得る。特に、非整列リードは、１つまたは複数の選択配列と実質的にマッチしたが、基準配列とは整列し得なかった同定配列を有することが確かめられた、第１リードであり得る。

オプションとして、方法２００は、２１８で、各非整列リードを解析して、対応する非整列リードの最適な遺伝子座を決定するステップを含み得る。上記のように、同定配列は２つ以上の選択配列と実質的にマッチし得る。２１８での解析には、非整列リードの同定配列を、２０４で事前に同定された選択配列と比較することが含まれ得る。最適な遺伝子座は、非整列リードの同定配列と最も良く、または最も多くマッチする選択配列に対応する遺伝子座であり得る。したがって、２１８において、前記方法は、多数の選択配列のうちどの選択配列が同定配列と最も良くマッチするかを判断する。例えば、最適な遺伝子座は、同定配列との相違が最も少ない選択配列に対応する遺伝子座であり得る。一部の実施形態では、２１８での解析には、同定配列に関し、選択配列それぞれのマッチングスコアを求めることが含まれ得る。最も高いマッチングスコアで選択配列に対応する遺伝子座を、最適遺伝子座として指定することができる。

２２０では、非整列リード（つまり、第１リード）と関連する第２リードを解析して、第２リードにより、２１８で同定された最適座が確かめられるか否かを明らかにすることができる。第２リードを解析して、第２リードの同定配列が１つまたは複数の選択配列と実質的にマッチするか否かを判断することができる。第２リードの同定配列が選択配列と実質的にマッチし、その選択配列が最適遺伝子座に対応する場合、非整列リードは２２２でtwo-on-target非整列リード（pair-on-target非整列リードともいう）として指定され得る。two-on-target非整列リードは、非整列リードの両末端近くにデータベースの選択配列と実質的にマッチする配列を有する非整列リードを表し得る。２つの選択配列と実質的にマッチするにも関わらず、非整列リードのＲＯＩは基準配列と整列し得なかった。

しかしながら、第２リードの同定配列が最適遺伝子座に対応する選択配列と実質的にマッチしない場合、該非整列リードは２２４でone-on-target非整列リードとされ得る。one-on-target非整列リードは、データベースの選択配列と実質的にマッチする同定配列を１つのみ有する非整列リードを表し得る。

two-on-target非整列リードおよびone-on-target非整列リードの両方を、２２６および２２８それぞれで品質管理を目的に解析することができる。２２６または２２８での解析には、非整列リードの総数（または比較可能スコア）を解析すること、および／または、非整列リードのＲＯＩの配列を解析することが含まれ得る。例えば、one-on-target非整列リードを２２８で解析して、アッセイの調子を判断することができる。具体的には、one-on-target非整列リードを解析して、キメラが存在するか否か、および／または、プライマーダイマーが存在するか否かを判断することができる。過剰な数のキメラおよび／またはプライマーダイマーは、アッセイが不良であること（例えば、増幅の問題）、または、サンプルＤＮＡの質が低いことを示し得る。オプションとして、２２８での解析には、２１４の未確認リードを解析して、アッセイの調子を判断することが含まれ得る。２２８での解析には、未確認リードとone-on-target非整列リードを一括して解析することが含まれ得る。あるいは、２２８での解析には、未確認リードとone-on-target非整列リードを別々に解析することが含まれ得る。

two-on-target非整列リードについて、そのようなリードが過剰な数であることは、アレルのドロップアウトの可能性を示し得る。一部の実施形態では、２２６での解析には、two-on-target非整列リードの数が指定座の合計リードの割合を超えるか否かを判断し、超えた場合、指定座に問題があると判断し得ると判断できることが含まれ得る。指定座の「合計リード」は、２１２で指定された正当なリードおよび２１６で指定された非整列リードの関数とすることができる。例えば、合計リードを、正当なリードと非整列リードの合計と等しいとすることができる。他の実施形態では、合計リードは未確認リードの関数でもあり得る。２２６では、two-on-target非整列リードの数（または、比較可能スコア）を閾値と比較して、問題（例えば、アレルのドロップアウト）が指定座で存在するか否かを判断することができる。

２３０では、アッセイの質および／または遺伝子プロファイルの信頼度に関し通知が提供され得る。例えば、通知はユーザに非整列リードの数を知らせ得る。特定の実施形態では、通知はユーザにone-on-target非整列リードの数および／またはtwo-on-target非整列リードの数を知らせ得る。一部の場合、本方法は、非整列リードの数（もしくは比較可能なスコア）、one-on-target非整列リードの数（もしくは比較可能なスコア）、および／またはtwo-on-target非整列リードの数（もしくは比較可能なスコア）を、指定閾値と比較する場合がある。数またはスコアが閾値を超える場合、通知にはユーザへの特異的な警告または特異的なガイダンスが含まれ得る。例えば、通知により、ユーザに、サンプルの質が低かった、および／またはサンプルの量が少なかったことが証拠により示されることを知らせることができる。通知は全体としてアッセイを対象とするか、または、特定の座に対し特異的とすることができる。具体的には、過剰な数のone-on-target非整列リードはアッセイの問題を示唆し得、一方、過剰な数のtwo-on-target非整列リードは、アレルのドロップアウトを示唆し得る。

２３２では、正当なリードを分類して、指定座のリード分布を形成することができる、リード分布には、典型的には、多数のフィルタリング段階を通過し、指定座に割り当てられた非常に多くのサンプルリードが含まれる。例えば、リード分布には、指定座に割り当てられた、数十、数百、または数千の第１リードが含まれ得る。リード分布はファイル（例えば、「分布ファイル」）に集めることができ、該リード分布には、異なる潜在的アレル、アレル配列、および各潜在的アレルのカウントスコア（例えば、リードカウントまたはリードカウントに基づいた他の値／関数）といった、サンプルリード分布に関する情報が含まれ得る。例えば、正当なリードをリード分布に分類する場合、正当なリードは配列に基づいて分離され得る。正当なリードは、異なってはいるが、指定座に割り当てられた、いくつかの異なる配列を有し得る。異なる配列はそれぞれ、指定座の潜在的アレルを表す。１つまたは複数の配列はノイズ（例えば、シーケンシングエラー）であり得、１つまたは複数の配列はスタッター産物であり得、そして、１つまたは複数の配列は真のアレルであり得る。

正当なリードは、同じ配列を有する他の正当なリードと集約することができる。同じ配列を有する正当なリードの数を、特定の配列ごとにカウントすることができる。例えば、１０００の正当なリードが割り当てられた遺伝子座を仮定すると、リード分布は８つの異なる配列が存在することを示す場合がある。正当なリードは８つの異なる配列間で分布し得る。例えば、アレル１は１０個の正当なリードを有し得、アレル２は２０個の正当なリードを有し得、アレル３は１０個の正当なリードを有し得、アレル４は４００個の正当なリードを有し、アレル５は１５個の正当なリードを有し得、アレル６は５００個の正当なリードを有し得、アレル７は２５個の正当なリードを有し得、アレル８は２０個の正当なリードを有し得る。下記のように、さらなる解析により、アレルの一部がノイズおよび／またはスタッター産物であると判断することができる。

一部の実施形態では、潜在的アレルにＣＥアレル名を提供することができ、これはＣＥにおける慣習的な名づけ手法に基づく。潜在的アレルのＣＥアレル名は、部分的に、配列内の反復モチーフ数に基づき得る。ＣＥアレルの名づけはまた、歴史的な慣習に基づき得る。一部の実施形態では、潜在的アレルを、ＣＥアレル名に基づきリード分布内で順に並べる。例えば、ＣＥアレル名には、典型的には数値が含まれる。数値に基づき、潜在的アレルを順に並べることができる。一例として、図１０に示すグラフ１９２は、１つのリード分布を示す。示すように、潜在的アレルには、１１、１１．２、１２、１３、および１４が含まれる。グラフ１９２に示す遺伝子座のリード分布は、１１、１１．２、１２、および１３と順に並べることができる。

一部の状況下では、２つの異なる潜在的アレルが同じＣＥアレル名を持つ場合がある。例えば、慣習的な名づけ手法に基づき、潜在的アレルは同じＣＥアレル名を与えられる場合がある。一部の実施形態では、リード分布は、２つの異なる配列が同じＣＥアレル名を有することを示す場合がある。例えば、リード分布は、ＣＥアレル名（例えば、１３）を示し、次に、同じＣＥアレル名に対応する異なる配列を列記する場合がある。

リードを分類しリード分布を形成した後、リード分布は異なる解析のために伝達され得る。例えば、ＳＮＰを含むことが知られている遺伝子座は、ＳＮＰ解析を介して方向づけられ得る。ＳＴＲで知られている遺伝子座は、ＳＴＲ解析を介して方向づけられ得る。ＳＮＰおよびＳＴＲの解析には異なるステップが含まれ得るが、解析はまた、同様のステップも含み得る。

図１２は、実施形態に従いシーケンシングデータを解析する方法２４０を示す。特に、方法２４０は、指定座のリード分布を解析するステップを含む。リード分布は、ＳＴＲ座、ＳＮＰ座、または配列変異に関連する他の座であってよい。方法２４０は、２４２で、指定座のリード分布を受信するステップを含む。以下のステップに関し、各ステップは少なくとも部分的に指定座に基づき得る。例えば、種々の関数（例えば、閾値）を適用することができるが、これらの関数は指定座に基づく。具体的には、ある遺伝子座についての関数は、別の遺伝子座の関数と同じではない場合がある。

オプションとして、方法２４０は、２４４で、指定の遺伝子座の潜在的アレルそれぞれのカウントスコアを求めるステップを含む。カウントスコアは、潜在的アレルのリードカウントに基づき得る。リードカウントは、共通の配列を含む正当なリードの数を表す。一部の実施形態では、カウントスコアは、潜在的アレルのリードカウントと等しい値である。例えば、リードカウントが３００である場合、カウントスコアは３００であり得る。他の実施形態では、潜在的アレルのカウントスコアは遺伝子座のリードカウントおよびリード総数に基づき得る。リード総数は、例えば、全潜在的アレルのリード分布内のリード総数であり得る。一部の実施形態では、潜在的アレルのカウントスコアは、遺伝子座のリードカウントおよび該遺伝子座について事前に得たデータに基づき得る。特定の実施形態では、カウントスコアは所定の数の間（例えば、０および１）の正規化スコアであり得る。正規化スコアは、遺伝子座のリード総数に基づき得る。オプションとして、正規化スコアは、他の座のリードカウントおよび／または他のサンプルのリードカウントの関数である。カウントスコアは、また、サンプルの他の座のリードカウントの関数、または、対象のサンプルと同時にランを行った他のサンプルに由来するリードカウントの関数であり得る。カウントスコアはまた、ヒストリカルデータの関数であり得る。例えば、異なる種類のアッセイのランを行い、リードカウントを得ることができる。一部の実施形態では、カウントスコアは特定のアッセイに関するヒストリカルデータに基づく。

方法２４０はまた、２４５で、１つまたは複数の潜在的アレルのカウントスコアが解釈閾値を上回るか否かを判断するステップを含む。解釈閾値は所定の値とすることができる、または、複数のファクタに基づく関数とすることができる。例えば、解釈閾値は指定座に対応するリード総数に基づき得る。リード総数には座内の全ての潜在的アレルの正当なリードが含まれ得る。一部の実施形態では、リード総数には、座の正当なリードおよび座の非整列リードが含まれ得る。特定の実施形態では、リード総数には、座の正当なリード、非整列リード、および未確認リードが含まれ得る。カウントスコアの１つが２４５で解釈閾値を上回る場合、方法２４０はステップ２４６または別の後続のステップに進み得る。一部の実施形態では、解釈閾値はサンプルのリード総数に基づき得る。一部の実施形態では、解釈閾値は複数のサンプルのリード総数に基づき得る。

カウントスコアが全て、２４５で解釈閾値を上回らない場合、方法２４０は、２４８で、指定座に関する警告、または他の通知を提供し得る。例えば、警告はユーザに、指定座のカバレッジが低いことを知らせ得る。具体的には、警告はユーザに、指定座に関するデータ量が遺伝子型コールを提供するのに不十分な場合があることを知らせ得る。

特定の実施形態では、方法２４０は、リード分布内で最大のリードカウント（または、アレルカウント）を有する潜在的アレルを同定するステップを含む。リードカウントは共通の配列を含む正当なリードの数を表す。ＳＴＲについては、リードカウントは、ＲＯＩまたは反復セグメントの共通配列を含む、正当なリードの数を表し得る。方法２４０はまた、最大リードカウントを、解釈閾値と比較するステップを含み得る。２４５で、最大リードカウントが解釈閾値を上回る場合、方法２４０はステップ２４６または別の後続ステップに進み得る。最大アレルカウントが解釈閾値を上回らない場合、方法２４０は、２４８で、上記のように、指定座に関する警告または他の通知を提供する場合がある。

他の実施形態では、カウントスコアを下記の解析閾値といった別の閾値と比較することができる。解析閾値は、典型的には、解釈閾値より上回ることが易しい。潜在的アレルが解析閾値を上回るカウントスコアを持たない場合、遺伝子座のカバレッジは低いと判断することができる。遺伝子座のカバレッジが十分であるか否かを判断する別の例としては、遺伝子座のリード（例えば正当なリード）の総数を、リード閾値と比較することができる。リード閾値は、サンプルのリード総数および／またはヒストリカルデータに基づき得る。遺伝子座のリード総数がリード閾値を上回らない場合、遺伝子座のカバレッジは低いと判断することができる。他の実施形態では、上記のようなステップの１つまたは複数の組み合わせを用いて、遺伝子座のカバレッジが低いか否かを判断することができる。

オプションとして、２４６で、カウントスコアまたはリード分布内の対応するリードカウントをそれぞれ、解析閾値と比較することができる。解釈閾値のように、解析閾値は所定の値、または、座のリード総数（例えば、正当なリードの総数）および／もしくは指定座の歴史的な知識といった複数のファクタに基づく関数であり得る。解析閾値は、解釈閾値より厳しくない（例えば、上回ることが易しい）場合がある。具体的には、解釈閾値を超えるには、解析閾値よりも多くのリードカウントが必要な場合がある。

２４６で解析閾値を上回った後、方法２４０は、２４７で、潜在的アレルがスタッター産物と疑われるか否かを判断するステップを含み得る。潜在的アレルがスタッター産物と疑われるか否かを判断するために、種々のルールまたは条件を適用することができる。例えば、図８に関する、上記の１つまたは複数のファクタ１７１〜１７５を適用することができる。特定の実施形態では、２４７の判断には、第１アレルが、第２アレルに対し、付加された、または欠失した反復モチーフを有するか否かを判断することが含まれる。

潜在的アレルがスタッター産物であることが疑われない場合、潜在的アレルは、２５０で、座の指定アレル、またはコールされたアレルとして指定される。潜在的アレルがスタッター産物であると疑われる場合、方法２４０は、２４９で、第１アレルのカウントスコアが指定閾値より少ないか否かを判断するステップを含む。カウントスコアは、リードカウント、またはリードカウントに基づく関数とすることができる。指定閾値は、第２アレルのカウントスコアに基づき得る。特定の実施形態では、２４９での判断には、第１アレルのカウントスコアが、第２アレルのカウントスコアの所定の範囲（例えば１０％〜３０％）内にあるか否かを判断することが含まれ得る。

図１２には示さないが、潜在的アレルが指定閾値よりも少ない、または、所定の範囲内にある場合、潜在的アレルを第２アレルのスタッター産物として指定することができる。スタッター産物は座の遺伝子型コールとともに言及され得る。例えば、サンプルレポートには、スタッター産物が存在するという指摘とともに、座の遺伝子型が含まれ得る。スタッター産物に関する情報（例えば、第２アレルの配列および割合）がサンプルレポート内で提供され得る。しかしながら、カウントスコアまたはリードカウントが指定閾値を上回る（または、所定の範囲内にある）場合、潜在的アレルは、２５０で、遺伝子座の指定アレルとして指定され得る。

一部の実施形態では、ノイズアレルのカウントスコアが、２５２で集められる。ノイズアレルには、２４６で解析閾値を上回らなかった潜在的アレルが含まれ得る。一部の実施形態では、ノイズアレルにはまた、非整列リードに由来するカウントスコアと、オプションとして上記の未確認リードが含まれ得る。ノイズアレルのカウントスコアを２５２で集め、２５４で解析して、過剰な数のリードが、対応する座の潜在的問題を示すか否かを判断することができる。例えば、全てのノイズアレルのカウントスコアを合計し、所定のノイズ閾値と比較することができる。ノイズ閾値は、リードの総数および／またはヒストリカルデータに基づき得る。ノイズ閾値を２５４で上回った場合、座が過剰な量のノイズを有するという警告が２５６で提供され得る。

一部の実施形態では、ノイズアレルを２５８で品質管理のために解析することができる。特定の実施形態では、ＳＴＲ座のノイズアレルは、コールされたアレルと同じ長さの配列を有するノイズアレルと、コールされたアレルと同じ長さではない配列を有するノイズアレルにさらに分けることができる。ノイズアレルの分割は、なぜ過剰なノイズが対応する座で存在するか否かについて追加の情報を提供し得る。

２５０で指定アレルを決定した後、方法２４０は、さらに、指定座の遺伝子型コールを作成する前に指定アレルの解析を含み得る。遺伝子型コールは、典型的には、ヘテロ接合型コール（つまり、２つの異なるアレル）またはホモ接合型コール（つまり、１つの観察されるアレル）を含むだろう。ヘテロ接合型コールでは、データは、典型的には、リードが実質的に均一に配分されていることを裏付けるだろう。２つのアレルが、データにおいて、実質的に等しいと表されない場合、座に問題が存在し得る。したがって、一部の実施形態では、方法２４０は、２６０で、コールされたアレルを解析して、コールされたアレルの均衡がとれているか、または釣り合っているか否かを判断するステップを含み得る。例えば、コールされたアレルの比率を計算して、比率が均衡閾値を満たしているか否かを判断することができる。ほんの一例として、あるアレルのカウントスコア（例えば、リードカウント）が別のアレルのカウントスコア（例えば、リードカウント）の５０％未満または７５％未満である場合、アレルは不均衡であると指定することができる。したがって、アレル比率の警告が２６２で提供され得、アレルが不均衡であることを示唆する。以下で論じるように、アレル比率警告を他の証拠（例えば、他の警告）とともに解析して、サンプルが複数のソースを含むか否かを判断することができる。

一部の実施形態では、方法２４０は、２６４で、座のコピー数がコピー閾値を超えるか否かを判断するステップを含み得る。常染色体座では、コピー数は、典型的には多くて２つである。Ｘ座またはＹ座などの非常染色体座では、コピー数は異なり得る。例えば、Ｙ座のコピー数は多くて１つであり得る。Ｘ座のコピー数は多くて２つであり得る。以下に記載するように、一部の場合では、サンプルの性別を予測でき、複数のソースがサンプル内に存在するか否かを照会する際にサンプルの性別を用いることができる。

したがって、２６４での判断には、指定座のコピー数（例えば、０、１、または２）を得ること、および、指定座の、コールされたアレルの数をコピー数と比較することが含まれ得る。コールされたアレルの数がコピー数を超える場合、２６６で、座が過剰な数のアレルを含むというアレル数警告が提供され得る。以下に記載するように、アレル数警告を他の証拠（例えば、他の警告）とともに解析して、サンプルが複数のソースを含むか否かを判断することができる。

２６８では、座の遺伝子型がコールされ得る。遺伝子型コールは、２５０で指定されたアレルに基づき、典型的には１つまたは２つのアレルであるだろう。しかしながら、一部の実施形態では、遺伝子型コールは３つ以上のアレルを含むだろう。３つ以上のアレルを有する遺伝子型コールには、問題が座またはサンプル全般に存在し得ることを示唆する通知が含まれ得る。２７０では、可能であれば所定の組の遺伝子座についての遺伝子型コールを含むサンプルレポートが生成され得る。サンプルレポートにはまた、方法２４０または方法２００（図１１）により同定されたいくつかの通知（例えば、警告）が含まれ得る。一部の実施形態では、座の遺伝子型コールは、座に関する潜在的問題（例えば、カバレッジ、ノイズ、アレルドロップアウト、スタッターなど）を読者に通知するインジケータに沿って提供され得る。他の実施形態では、遺伝子座についてある警告が同定された場合（例えば、カバレッジまたはノイズ）、遺伝子型コールは該遺伝子座に対し提供されない。一部の実施形態では、サンプルレポートには、コールされたアレルの配列、ならびに、オプションとして、スタッター産物および／または他の同定された潜在的アレルの配列が含まれ得る。一部の実施形態では、サンプルレポートには、サンプル全体に関する信頼度スコアが含まれ得る。例えば、多数のone-on-target非整列リードが存在する場合、サンプルレポートは、サンプルの質が低い可能性があることを示し得る。

図１３は、サンプルのソースの性別を予測する方法３００を示すフローチャートである。方法３００は、サンプルが単一ソースに由来すると仮定する。サンプルが、以下に記載するように多数のソースに由来すると十分に判断される場合、性別予測を取り消すことができる。一部の実施形態では、サンプルに多数のソースが含まれると判断した後、方法は、サンプルのソースが全て、単一の性別、例えば男性であると予測することができる。

方法３００には、方法２４０（図１２）を組み込むことができる。方法３００は、遺伝子座の組に由来する各遺伝子座の指定アレルを決定した後、実行することができる。例えば、方法３００は、図１２のステップ２５０が、遺伝子座の組内の複数の遺伝子座（または、組内の全ての遺伝子座）の複数のアレル全てについて行われた後、実行することができる。方法３００は、３０２で、複数の遺伝子座の座データを受信するステップを含む。座データには、対応する遺伝子座についての１つまたは複数の指定された（または、コールされた）アレルが含まれ得る。複数の遺伝子座は、サンプルの性別に基づき異なる数のアレルを有すると予想される座であり得る。言い換えると、座データはＸ座およびＹ座に対応し得る。Ｘ座には、Ｘ染色体上の既知のＳＮＰ座またはＳＴＲ座が含まれ得る。Ｙ座には、Ｙ染色体上の既知のＳＮＰ座またはＳＴＲ座が含まれ得る。

方法３００は、３０４で、各Ｙ座の指定アレルの数を、サンプルが男性である場合の予想数、および／または、サンプルが女性である場合の予想数と比較するステップを含み得る。予想数は、ヒストリカルデータに基づく予め設定された数であり得る。男性サンプルの場合の指定アレルの予想数は、座またはアレルがＹ染色体に現れる回数に基づき得る。これは典型的には１だが、２以上（例えば２）の場合がある。Ｙ座内の女性サンプルの場合の指定アレルの予想数は０である。

オプションとして、方法３００は、３０６で、各Ｘ座の指定アレルの数を、サンプルが男性である場合の予想数、および／または、サンプルが女性である場合の予想数と比較するステップを含み得る。Ｘ座内の男性サンプルの指定アレルの予測数は、典型的には１だが、座またはアレルがＸ染色体上に２回以上現れる場合は２以上であり得る。Ｘ座内の女性サンプルの指定アレルの予想数は典型的には２だが、座／アレルがＸ染色体上に２回以上現れる場合はより多い場合がある。

方法３００はまた、３０８で、３０４での比較の結果および／または３０６での比較の結果に基づき、サンプルの性別を予測するステップを含む。理想的には、サンプルが男性であった場合は、Ｙ座にはそれぞれ、１つの指定アレルが含まれ、サンプルが女性であった場合は含まれる指定アレルは０個だろう。同様に、Ｘ座にはそれぞれ、理想的には、サンプルが男性であった場合は１つの指定アレルが含まれ、サンプルが女性だった場合は１つまたは２つの指定アレルが含まれよう。しかしながら、シーケンシングエラー、汚濁、不適切な解析などのために、Ｘ座およびＹ座がサンプルの性別予測において一貫性を持たない可能性がある。ある場合では、解析は多数の遺伝子座を考慮することができる。例えば、約５〜約１０のＹ座と、約２０〜約３０のＸ座があってよい。したがって、サンプルは男性であり得るが、１つまたは複数のＹ座の指定アレルが０である可能性がある。同様に、サンプルは女性であり得るが、１つまたは複数のＹ座が指定アレルを有する可能性がある。

したがって、サンプルの性別を予測するための解析には、証拠の全体を解析してサンプルの性別を予測することが含まれ得る。例えば、解析には、（ｉ）サンプルが男性であることと合致するＹ座の数、（ｉｉ）サンプルが女性であることと合致するＹ座の数、（ｉｉｉ）サンプルが男性であることと合致するＸ座の数、または（ｉｖ）サンプルが男性であることと合致するＸ座の数のうち、少なくとも１つをカウントすることが含まれ得る。ある実施形態では、Ｙ座の数のみが３０８での解析で考慮されるか、または、Ｘ座の数のみが考慮される場合がある。一部の実施形態では、Ｘ座とＹ座の両方の数が、３０８での解析で考慮され得る。一部の実施形態では、１つもしくは複数のＸ座および／または１つもしくは複数のＹ座が、他の座よりも重要視され得る。

一例として、解析は１０個のＹ座をレビューすることができる。１０個のうち９個のＹ座に指定アレルが含まる場合、これはサンプルが男性であることと合致し、サンプルの性別は男性であると予測することができる、１０個のうち１個のＹ座に指定アレルが含まれる場合、サンプルの性別は女性であると予測することができる。一部の実施形態では、解析により、サンプルが混合物を含むと判断される場合がある。例えば、３０８での解析が、Ｙ座の数およびＸ座の数が男性サンプルと女性サンプルの両方を支持すると判断する場合、ソースの混合物が予測され得る。

図１４は、サンプルがソースの混合物を含むか否かを検出する方法３２０を示すフローチャートである。方法３２０には、方法２４０（図１２）を組み込むことができ、オプションとして、サンプルの性別を予測した後に実行することができる。方法３００には、３２２で、遺伝子座の組の各遺伝子座の、座データを受信するステップが含まれる。座データには、対応する遺伝子座の、１つまたは複数の指定アレルまたはコールされたアレルが含まれ得る。座データには、指定アレルのカウントスコア（例えば、リードカウント）、ノイズアレルのカウントスコア、およびスタッター産物のカウントスコアが含まれ得る。カウントスコアは本明細書に記載のように得ることができる。

各遺伝子座について、方法３２０は、３２４で、遺伝子座のコピー数が最大許容可能アレル数（以後、「最大アレル数」という）を超えるか否かを判断するステップを含み得る。上記のように、常染色体の座の最大アレル数は、典型的には２である。Ｘ座またはＹ座の最大アレル数は、サンプル（単一ソースサンプルであると仮定する）が男性であるか、女性であるかに基づく。サンプルが男性である場合、Ｙ座の最大アレル数は１であり、Ｘ座の最大アレル数は１である。サンプルが女性である場合、Ｙ座の最大アレル数は０であり、Ｘの最大アレル数は２である。サンプルは、上記の方法３００に基づき、男性または女性であると予測することができる。

したがって、３２４での判断には、遺伝子座の最大アレル数（例えば、０、１、２）を得ること、および、各遺伝子座のコピー数（つまり、指定アレルの数）を対応する最大アレル数と比較することが含まれ得る。コピー数が最大アレル数を超える場合、アレル数警告またはアレル数フラグが該遺伝子座について提供され得る。

各遺伝子座について、方法３００はまた、３２６で、指定アレルのアレル比率が不均衡であるか否かを判断するステップを含み得る。上記のように、遺伝子座のアレル比率は第１指定アレルのカウントスコア（例えば、リードカウント）および第２指定アレルのカウントスコア（例えば、リードカウント）に基づき得る。単一ソースのサンプルが遺伝子座でホモ接合型である、または、遺伝子座でヘテロ接合型であると予想することができる。ヘテロ接合型の場合、アレル比率は約１：１の比率であろうことが予想され得る。実質的に不均衡な比率は、遺伝子座がヘテロ接合型ではないこと、またはサンプルが２つ以上のソースを含むことを示唆し得る。具体的には、計算された比率が１：１から離れているほど、遺伝子座がホモ接合型であるか、サンプルが全体としてソースの混合物を含む、何れかである可能性が高い。以下に記載するように、サンプルがソースの混合物を含むと判断することは、多数の遺伝子座（例えば、コールされた全ての遺伝子座）の解析に基づく。

一部の実施形態では、３２６での判断には、遺伝子座の２つの指定アレル間のカウントスコアの比率に基づく、均衡スコアを計算することが含まれ得る。均衡スコアが０．８：１．０〜約１．２：１．０などの指定の範囲内にない場合、均衡スコアは、アレル比率が不均衡であることを示唆し得る。遺伝子座アレル比率が不均衡であると判断される場合、アレル比率警告が遺伝子座に対し生成され得る。一部の実施形態では、均衡スコアを指定閾値と比較して、アレル比率が不均衡であるか否かを判断することができる。

方法３２０はまた、３２８で、３２４での判断および３２６での判断の結果を解析して、複数のソースがサンプル内に存在するか否かを判断するステップを含み得る。３２８での解析は、遺伝子座の組に対するアレル数警告の数およびアレル比率警告の数に基づき得る。一実施形態では、警告の総数を計算することができる。警告の総数が混合物閾値を超える場合、サンプルには、複数のソースを有し得るとしてフラグが立てられ得る。混合物閾値は、解析した遺伝子座の数（つまり、遺伝子座の組の遺伝子座の数）に基づき得る。特定の実施形態では、混合物閾値は、コールされた遺伝子の数に基づき得る。一部の実施形態では、混合物閾値は、特定のアッセイに関するヒストリカルデータまたは知識に基づく。

一部の実施形態では、遺伝子座の組には、例えば、１０、２０、３０、４０、５０、６０、７０、８０、９０、または１００以上の遺伝子座が含まれ得る。特定の実施形態では、遺伝子座の組には、１２０、１４０、１６０、１８０、または２００以上の遺伝子座が含まれ得る。より特定の実施形態では、遺伝子座の組には、２５０、３００、または３５０以上の遺伝子座が含まれ得る。

一部の実施形態では、混合物閾値は所定の値であり、これは組内の遺伝子座の所定の割合と等しい。所定の割合は、少なくとも、例えば、５％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、５０％、６０％、または７０％以上であり得る。

一部の実施形態では、アレル数警告には、指定アレルの数に基づくアレル数スコアが含まれ得る。具体的には、遺伝子座の最大許容可能アレル数を超える指定アレルの数が増えるほど、サンプルが混合物を含む可能性が高まる。説明のため、第１遺伝子座の指定アレルの数が３であり、第２遺伝子座の指定アレルの数が４である場合、第２遺伝子座のアレル数スコアには、混合物が存在するか否かを判断する際に、第１遺伝子座のアレル数スコアよりも大きい値（または、大きい重み）が割り当てられ得る。

一部の実施形態では、アレル比率警告には、遺伝子座の指定アレルの比率に基づくアレル比率スコアが含まれ得る。具体的には、指定アレルの比率がより不均衡になると、サンプルが混合物を含む可能性が高まり得る。例えば、第１遺伝子座のアレル比率が１．３：１．０であり、第２遺伝子座のアレル比率が２．０：１．０であった場合、混合物が存在するか否かを判断する際に、第２遺伝子座のアレル数スコアは、第１遺伝子座のアレル比率スコアよりもより大きい値（または、より大きい重み）が割り当てられ得る。

一部の実施形態では、サンプルレポートには混合物警告が含まれ得、これはユーザに、サンプルが複数のソースを含む疑いがあることを知らせる。一部の実施形態では、混合物警告には、混合物警告における信頼度のレベルをユーザに知らせる信頼度スコアが伴い得る。信頼度スコアは、アレル数警告の数、アレル数警告に関連するアレル数スコア、アレル比率警告の数、および、アレル比率警告に関するアレル比率スコアのうち少なくとも１つに基づき得る。

図１５は、一部の実施形態に従って形成されたシステム４００を示し、これを用いて本明細書に記載の種々の方法を実行することができる。例えば、システム４００を用いて、方法１００（図１）、方法１５０（図１）、方法１６０（図８）、方法２００（図１１）、方法２４０（図１２）、方法３００（図１３）、および方法３４０（図１４）のうち１つまたは複数を実行することができる。シーケンシングなどの種々のステップがシステム４００により自動化され得る一方、１つまたは複数のステップを手動で実行でき、さもなければユーザの相互作用を必要とする場合がある。特定の実施形態では、ユーザは、サンプル（例えば、血液、唾液、髪、***など）を提供することができ、システム４００はサンプルを自動的に調製し、シーケンシングし、解析して、サンプルのソースの遺伝子プロファイルを提供することができる。一部の実施形態では、システム４００は一か所に置かれた、一体型の独立システムである。他の実施形態では、システムの１つまたは複数の構成要素は互いに離れて位置付けられる。

示すように、システム４００には、サンプルジェネレータ４０２、シーケンサ４０４、およびサンプルアナライザ４０６が含まれる。サンプルジェネレータ４０２は、指定のシーケンシングプロトコル用のサンプルを調製することができる。例えば、サンプルジェネレータはＳＢＳ用のサンプルを調製することができる。シーケンサ４０４は、シーケンシングを実行して、シーケンシングデータを生成することができる。上記のように、シーケンシングデータには複数のサンプルリードが含まれ得る。各サンプルリードにはサンプル配列が含まれ得る。特定の実施形態では、サンプルリードは、ペアエンドシーケンシング、具体的には非対称ペアエンドシーケンシングから生成されるリード対を形成する。

サンプルアナライザ４０６は、シーケンサ４０４からシーケンシングデータを受信することができる。図１５には、一実施形態に従って形成されたサンプルアナライザ４０６のブロック図が含まれる。サンプルアナライザ４０６を用いて、例えば、シーケンシングデータを解析し、特定の座の遺伝子型コールを提供する、または、サンプルの遺伝子プロファイルを生成することができる。サンプルアナライザ４０６には、システムコントローラ４１２とユーザインターフェース４１４が含まれる。システムコントローラ４１２は、ユーザインターフェース４１４に通信可能に連結し、また、シーケンサ４０４および／またはサンプルジェネレータ４０２とも通信可能に連結する。

例示的な実施形態では、システムコントローラ４１２には、本明細書に記載の１つまたは複数の方法に従いシーケンシングデータを処理し、オプションとして解析するように構成された、１つまたは複数のプロセッサ／モジュールが含まれる。例えば、システムコントローラ４１２には、１つまたは複数の記憶素子に記憶された一組の指示（例えば、信号を除く、有形および／または非一時的なコンピュータの可読記憶媒体に記憶される指示）を実行してシーケンシングデータを処理するように構成された、１つまたは複数のモジュールが含まれ得る。命令の組には種々のコマンドが含まれ、これは処理機であるシステムコントローラ４１２に、本明細書で記載するワークフロー、プロセス、および方法などの特定の動作を実行するように指示する。例として、サンプルアナライザ４０６は、デスクトップコンピュータ、ラップトップ型、ノート型パソコン、タブレットコンピュータ、またはスマートフォンであるか、またはそれらを含むことができる。ユーザインターフェース４１４には、ハードウェア、ファームウェア、ソフトウェア、またはその組み合わせが含まれ得、これは個人（例えば、ユーザ）が、システムコントローラ４１２およびその種々の構成要素の動作を直接的または間接的に制御することを可能にする。示すように、ユーザインターフェース４１４には、オペレータ用ディスプレイ４１０が含まれる。

図示する実施形態では、システムコントローラ４１２は、システムコントローラ４１２の動作を制御する複数のモジュールまたはサブモジュールを含む。例えば、システムコントローラ４１２には、モジュール４２１〜４２６、およびモジュール４２１〜４２６の少なくとも一部と通信する記憶システム４２６が含まれ得る。モジュールには、第１フィルタモジュール４２１、アライナモジュール４２２、第２フィルタモジュール４２３、スタッターモジュール４２４、検出器モジュール４２５、および解析モジュール４２６が含まれる。システム４００には、本明細書に記載の動作を実行するように構成された他のモジュールまたは該モジュールのサブモジュールが含まれ得る。第１フィルタモジュール４２１は、サンプルリードを解析して、本明細書に記載するように、サンプルリードが指定座の確認リードであるか否かを判断するように構成される。アライナ―モジュール４２２は、確認リードを解析して、本明細書に記載するように、該確認リードが指定座の整列リードであるか否かを判断するように構成される。第２フィルタモジュール４２３は、正当なリードを受信し、本明細書に記載するように、該正当なリードが対応する座の潜在アレルを表すか否かを判断するように構成される。スタッターモジュール４２４は、本明細書に記載するように、正当なリードが別のアレルのスタッター産物であるか否かを判断するように構成される。検出器モジュール４２５は、本明細書に記載するように、任意のエラーまたは警告が対応する座に対し示されるべきか否かを判断するように構成される。例えば、検出器モジュール４２５は、座が、過剰な数の非整列リード、低いカバレッジ、過剰な数のノイズアレル、不均衡なアレル、および／または、異なるソースに由来するアレルの混合物を有すると判断し得る。解析モジュール４２６は、本明細書で記載するように、遺伝子座の遺伝子型を決定するように構成される。

本明細書で用いる場合、「モジュール」、「システム」、または「システムコントローラ」という用語には、ハードウェアシステムおよび／またはソフトウェアシステム、ならびに、動作して１つまたは複数の機能を実行する回路が含まれる。例えば、モジュール、システム、またはシステムコントローラは、コンピュータメモリなどの、有形で非一時的なコンピュータの可読記憶媒体に記憶される指示に基づき動作を実行する、コンピュータプロセッサ、コントローラ、または他の論理系装置を備え得る。あるいは、モジュール、システム、またはシステムコントローラは、ハードワイヤードロジックおよび回路に基づき動作を実行する、ハードワイヤード装置を備え得る。添付の図面に示す、モジュール、システム、またはシステムコントローラは、ハードウェア、および、ソフトウェアもしくはハードワイヤード指示に基づき動作する回路、ハードウェアを指示して動作を実行するソフトウェア、またはその組み合わせを表し得る。モジュール、システム、またはシステムコントローラは、１つもしくはコンピュータマイクロプロセッサなどの１つもしくは複数のプロセッサを備える、および／または、該プロセッサと接続する、ハードウェア回路もしくは回路を備える、または、表すことが可能である。

本明細書で用いる場合、用語「ソフトウェア」および「ファームウェア」は互換性があり、ＲＡＭメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、および不揮発性ＲＡＭ（ＮＶＲＡＭ）メモリを含む、コンピュータによる実行のためのメモリに記憶された任意のコンピュータプログラムを備える。上記のメモリの種類は単なる例示であり、したがって、コンピュータプログラムの記憶に使用できるメモリの種類を限定しない。

一部の実施形態では、タスクまたは動作を実行するように「構成」されたプロセシングユニット、プロセッサ、モジュール、またはコンピューティングシステムは、タスクまたは動作を実行するように特に構築されている（例えば、１つもしくは複数のプログラムもしくは指示が記憶されている、または、タスクまたは動作を実行するように調整もしくは意図されたそれと共に用いられる１つもしくは複数のプログラムもしくは指示を有する、および／または、タスクまたは動作を実行するように調整もしくは意図されたプロセッシング回路の配置を有する）と理解することができる。明確性のため、および疑いを避けることを目的に、（適切にプログラミングされればタスクまたは動作を実行するように「構成」され得る）汎用コンピュータは、タスクもしくは動作を実行するように特にプログラミングされる、もしくは構造的に修正されなければ、または、そのようにプログラミングされる、もしくは構造的に修正されるまで、タスクまたは動作を実行するように「構成」されない。

図１６Ａ、１６Ｂ、および１７Ａ〜１７Ｆは、本明細書に記載の実施形態により生成することができるサンプルレポート５００、５２０を示す。サンプルレポート５００、５２０は１つまたは複数のファイルに保存し、通信ネットワークを介して送ることができる。サンプルレポート５００、５２０は、例えば、スクリーンに表示する、または、紙に印刷することができる。図１６Ａおよび１６Ｂは、全サンプルレポート５００の一部のみを示す。示すように、サンプルレポート５００には、単一ソースサンプルであると初めは思われていたものの概要または概略解析が含まれ得る。サンプルレポート５００には、ＳＴＲ解析用の第１セクション５１１およびＳＮＰ解析用の第２セクション５１２が含まれる。サンプルレポート５００は、フラグまたはインジケータ５１０を用い、サンプルが単一ソースであることを確かめることができる。

サンプルレポート５００には、コールボックス５０４のアレイ５０２が含まれる。各コールボックス５０４は、指定の遺伝子座に相互に関連し得る。例えば、コールボックス５０４Ａは遺伝子座Amelogeninに対応し、コールボックス５０４Ｂは遺伝子座TPOXに対応する。コールボックス５０４にはそれぞれ、遺伝子座の遺伝子型コール５０６が含まれる。Amelogeninの遺伝子型コール５０６はＸ、Ｙであり、TPOXの遺伝子型コールはアレル１１、１１である。アレル名は、慣習的な名づけに基づくか、または、他の名づけプロトコル（例えば、プロプライエタリ・プロトコル）により決定され得る。

コールボックス５０４はそれぞれ、フラグまたは通知が遺伝子座と関連するか否かを示し得る。例えば、図１６では、コールボックス５０４を色分けし、フラグまたは通知が存在するか否かを示す。コールボックス５０４Ａは灰色であり、コールボックス５０４Ｃはオレンジ色または赤色である。他の表示法を代替の実施形態で用いることができる。図１６では、色分けしたカラーボックス５０４にはそれぞれフラグ５０８が含まれる。フラグ５０８は、フラグ５０８を定義する凡例５１６において上記で言及されている。例えば、サンプルレポート５００には、「スタッター」、「アレルカウント」、「不均衡」、「低カバレッジ」、「解釈閾値」、および「ユーザ修正済み」のフラグ５０８が含まれる。これらのフラグ５０８は、例えば、本明細書に記載の解析後、コールボックス５０４に割り当てることができる。

図１７Ａ〜１７Ｆは、遺伝子座についてのより詳細な解析を提供する。一部の実施形態では、サンプルレポート５２０は、サンプルレポート５００（図１６）の一部であり得る。示すように、遺伝子座にはそれぞれグラフ５２２が割り当てられ、これは対応する遺伝子座データを視覚的に表現する。図示する実施形態では、グラフ５２２は棒グラフだが、他のグラフを用いてデータを視覚的に表現することができる。グラフ５２２は、異なるアレルに対するリード強度を特に示す。リード強度はカウントスコアとすることができる、または、上記のようにカウントスコアに基づき得る。一部の実施形態では、リード強度／カウントスコアはリードカウントである。

グラフ５２２は、リード強度（または、カウントスコア）に関する解釈閾値および解析閾値を示し得る。例えば、D2S441座は、解釈閾値５３０および解析閾値５３２を有する。解釈閾値５３０および解析閾値５３２は、上記の解釈閾値および解析閾値と似ている。図１７に示すように、座が異なれば解釈閾値および解析閾値も異なり得る。例えば、D21S11座は、PentaE座の解釈閾値５５１より大きい解釈閾値５５０を有する。上記のように、解釈閾値および／または解析閾値は、指定座に対応するリード総数に基づき得る（つまり、該リード総数の関数であり得る）。オプションとして、解釈閾値および／または解析閾値は、特定の座のリードカウントの関数であり得、他の座のリードカウントおよび／または他のサンプルのリードカウントの関数でもあり得る。

一部の実施形態では、グラフ５２２はまた、スタッター産物を示し得る。グラフ５２２は視覚的に、スタッター産物を真のアレルから区別することができる。例えば、D1S1656座には、D1S1656のＣＥアレル１１、１２、１３それぞれと相互に関連する棒５４１〜５４３が含まれる。棒５４１〜５４３は、各アレルのリード強度（または、カウントスコア）を示し得る。図１７に示すD1S1656座のアレルは、歴史的にＣＥデータに基づき、慣例により１１、１２、および１３とラベル付けされている。図１７の異なる色（例えば、青色および茶色）で示すように、D1S1656座のアレルはスタッター産物を含み得る。具体的には、棒５４１はスタッター産物であり、D1S1656座の解釈閾値５５５を超えない、棒５４２は棒部５４６、５４７を備える。棒部５４６、５４７はそれぞれ、視覚的にリード強度を表す。棒部５４６、５４７に対応するリードの配列は同じ長さだが、棒部５４６、５４７に対応するリードの配列は異なる。棒部５４６はスタッター産物を表す。しかしながら、上記のように、棒部５４６で表されるスタッター産物は、ＣＥアレル１３など、別のアレルである場合がある。したがって、色分け（または、スタッター産物および真のアレルを区別する他のインジケータ）によりユーザに通知または警告し、ＣＥアレル１１、１２、１３の異なる配列を解析してより確信のある遺伝子コールの決定を提供できるようにする。図１７では、D1S1656座の遺伝子コールは１２／１３である。しかしながら、他の場合では、スタッター産物の配列の解析により遺伝子コールは変更され得る。具体的には、一部の場合で、既知のＣＥプロセスを用いる遺伝子コールは正しくない場合がある。本明細書に記載の実施形態は、正しい遺伝子コールを提供可能であり得る。

サンプルレポート５２０はまた、異なる遺伝子座についてのフラグまたは通知を提供する。凡例５２４は通知を定義する。一例として、D21S11座は「不均衡」および「アレルカウント」のフラグを有する。言い換えると、サンプルレポート５２０は、閲覧者に、アレルの数が予想されないこと、およびアレルの均衡が予想されないことを示す。閲覧者は、D21S11座に関するデータをさらに調査することを望み得る。

一実施形態では、方法を提供する。方法には、対応するヌクレオチド配列を有する複数のサンプルリードを含むシーケンシングデータを受信するステップを含む。前記方法はまた、ヌクレオチド配列に基づき、サンプルリードを指定座に割り当てるステップを含み、ここにおいて対応する指定座に割り当てられるサンプルリードは、対応する指定座の割り当てリードである。前記方法はまた、各指定座の割り当てリードを解析して、割り当てリード内の対応する関心領域（ＲＯＩ）を同定するステップを含む。ＲＯＩはそれぞれ１つまたは複数の反復モチーフ連続を有し、対応する連続の各反復モチーフは、同一のヌクレオチド組を含む。前記方法はまた、多数の割り当てリードを有する指定座について、ＲＯＩの配列に基づき割り当てリードを分類し、その結果、異なる配列を有するＲＯＩが異なる潜在的アレルとして割り当てられるようにする、ステップを含む。各潜在的アレルは、指定座内の他の潜在的アレルの配列とは異なる配列を有する。前記方法はまた、多数の潜在的アレルを有する指定座について、潜在的アレルの配列を解析して、潜在的アレルの第１アレルが潜在的アレルの第２アレルのスタッター産物であると疑われるか否かを判断するステップを含む。対応する配列内のk（kは整数）個の反復モチーフが第１アレルと第２アレルの間で付加された、または欠失した場合に、第１アレルは第２アレルのスタッター産物であると疑われる。オプションとして、kは１または２と等しい。

一態様では、多数の潜在的アレルを有する指定座について、潜在的アレルの配列を解析して、第１アレルが第２アレルのスタッター産物であると疑われるか否かを判断するステップには、第１アレルと第２アレルのＲＯＩの長さを比較して、第１アレルと第２アレルのＲＯＩの長さが、１反復モチーフまたは多数の反復モチーフにより異なるか否かを判断するステップが含まれ得る。

別の態様では、多数の潜在的アレルを有する指定座について、潜在的アレルの配列を解析して、第１アレルが第２アレルのスタッター産物であると疑われるか否かを判断するステップには、付加された、または欠失した反復モチーフを同定し、前記付加された、または欠失した反復モチーフが、対応する配列において隣接反復モチーフと同一であるか否かを判断するステップが含まれ得る。

別の態様では、第１アレルと第２アレルのＲＯＩの配列間に他のミスマッチがない場合、第１アレルは第２アレルのスタッター産物であり得る。

別の態様では、前記方法はまた、少なくとも複数の指定座の遺伝子型をコールする遺伝子型プロファイルを生成するステップを含み得、疑わしいスタッター産物を有する指定座は、疑わしいスタッター産物を有することが示される。

別の態様では、前記方法はまた、少なくとも複数の指定座に遺伝子型コールを提供するステップを含み得、遺伝子型コールの少なくとも１つは、少なくとも１つの遺伝子型コールの指定座に疑わしいスタッター産物が存在することを示す。

別の態様では、前記方法はまた、多数の潜在的アレルを有する各指定座について、潜在的アレルに対しコールされたサンプルリードの総数をカウントするステップを含むことができる。第１アレルのサンプルリードが、第２アレルのサンプルリードの指定の閾値未満である場合、第１アレルは第２アレルのスタッター産物である場合がある。オプションとして、指定閾値は第２アレルのサンプルリードの約４０％である。オプションとして、第１アレルのサンプルリードが第２アレルのサンプルリードの所定の割合を超える場合、疑わしいスタッター産物は別のコントリビュータに由来すると指定される。オプションとして、第１アレルのサンプルリードが第２アレルのサンプルリードの所定の割合未満である場合、疑わしいスタッター産物はノイズとして指定される。

別の態様では、割り当てリードは第１保存フランキング領域と第２保存フランキング領域を含み、その間に対応する反復セグメントが位置する。各割り当てリードについて、前記方法は、（ａ）第１保存フランキング領域と第２保存フランキング領域を含む基準配列を提供するステップと、（ｂ）基準配列の第１フランキング領域の一部を対応する割り当てリードに整列させるステップと、（ｃ）基準配列の第２フランキング領域の一部を対応する割り当てリードに整列させるステップと、（ｄ）反復セグメントの長さおよび／または配列を求めるステップとを含み得る。

オプションとして、ステップ（ｂ）またはステップ（ｃ）の一方または両方でフランキング領域の一部を整列させるステップには、（ｉ）反復セグメントに重なる、または隣接するシーディング領域の正確なk-merマッチングを用いることにより、対応する保存フランキング領域の割り当てリード上での位置を決定するステップと、（ｉｉ）フランキング領域を割り当てリードに整列させるステップとが含まれる。

オプションとして、シーディング領域には、保存されたフランキング領域の複雑度の高い領域が含まれる。例えば、複雑度の高い領域には、ミスアライメント防ぐために反復セグメントとは十分に異なる配列が含まれ得る。別の例として、複雑度の高い領域にはヌクレオチドの多様な混合物を有する配列が含まれ得る。

オプションとして、シーディング領域は、対応する保存されたフランキング領域の複雑度の低い領域を避ける。例えば、複雑度の低い領域は、複数の反復モチーフと実質的に似た配列を有し得る。

オプションとして、シーディング領域は反復セグメントに直接隣接するか、シーディング領域には反復セグメントの一部が含まれ得るか、または、シーディング領域は反復セグメントからオフセットしている。

別の態様では、サンプルリードは、フォワードプライマー配列およびリバースプライマー配列を有するＰＣＲアンプリコンであり得る。

別の態様では、サンプルリードを指定座に割り当てるステップには、ＰＣＲアンプリコンのプライマー配列に対応するサンプルリードの配列を同定するステップが含まれ得る。

別の態様では、シーケンシングデータは、合成によるシーケンシング（ＳＢＳ）アッセイに由来し得る。

別の態様では、ＲＯＩにはショートタンデムリピート（ＳＴＲ）が含まれる。オプションとして、ＳＴＲは、ＣＯＤＩＳ常染色体ＳＴＲ座、ＣＯＤＩＳＹ-ＳＴＲ座、ＥＵ常染色体ＳＴＲ座、またはＥＵＹ-ＳＴＲ座の少なくとも１つから選択される。

一実施形態では、遺伝子座の組に対応するアンプリコンの複数のサンプルリードを有するシーケンシングデータを受信するステップを含む方法を提供する。サンプルリードはリード対を含み、対応するアンプリコンの各リード対は対応するアンプリコンの第１リードおよび第２リードを含む。第１リードおよび第２リードはそれぞれ、各々のリード配列を有する。前記方法はまた、第１リードの潜在的遺伝子座を、第１リードのリード配列の解析に基づき同定するステップを含む。潜在的遺伝子座は遺伝子座の組に由来する。前記方法はまた、少なくとも１つの潜在的座を有する第１リードそれぞれについて、第１リードが潜在的遺伝子座それぞれの基準配列と整列するか否かを判断するステップを含む。第１リードが１つの遺伝子座のみの基準配列と整列する場合、前記方法は第１リードがその１つの遺伝子座の潜在的アレルを含むと判断するステップを含む。第１リードが２つ以上の基準配列と整列する場合、前記方法は、第１リードが、該第１リードと最もよく整列する基準配列を有する遺伝子座の潜在的アレルを含むと判断するステップを含む。第１リードが基準配列と整列しない場合、前記方法は第１リードを非整列リードとして指定し、非整列リードを解析して該非整列リードと最も合う遺伝子座を潜在的遺伝子座から同定するステップを含む。前記方法はまた、少なくとも複数の遺伝子座について、コールされた遺伝子型を含む遺伝子プロファイルを生成するステップを含み、コールされた遺伝子型は、対応する遺伝子座の潜在的アレルに基づく。遺伝子プロファイルはまた、非整列リードを有する遺伝子座についての１つまたは複数の通知を含む。

一態様では、少なくとも１つの通知は、対応する遺伝子座と関連する信頼度スコアを含む。信頼度スコアは、対応する遺伝子座と最も合う非整列リードの数に基づき得、より大きい数の非整列リードは、コールされた遺伝子型の信頼度がより低いことを示す。

別の態様では、非整列リードを解析して該非整列リードと最も合う遺伝子座を潜在的遺伝子座から同定するステップには、非整列リードの同定サブ配列を解析して、同定サブ配列と最も合う遺伝子座を同定するステップが含まれ得る。

別の態様では、同定サブ配列にはプライマー配列の少なくとも一部が含まれる。

別の態様では、第１リードの潜在的遺伝子座を同定するステップには、第１リードのプライマー配列が、潜在的遺伝子座に関連する配列に実質的にマッチすると判断するステップが含まれる。

別の態様では、シーケンシングデータは、非対称ペアエンドシーケンシングを介して生成される。

別の態様では、前記方法はまた、非整列リードを解析して、潜在的アレルのドロップアウトが存在するか否かを判断するステップを含み得る。

別の態様では、前記方法はまた、非整列リードを解析してアッセイの調子を判断するステップを含み得る。

別の態様では、前記方法はまた、非整列リードを解析して、非整列リードがキメラを示すか否かを判断するステップを含み得る。

別の態様では、前記方法はまた、非整列リードを解析してプライマーダイマーの数を決定するステップを含み得る。

別の態様では、第１リードに遺伝子座の潜在的アレルが含まれると判断するステップには、第１リードに対応する第２リードも前記遺伝子座と相互に関連することを確かめるステップが含まれ得る。

別の態様では、前記方法はまた、非整列リードを解析して、該非整列リードがone-on-targetリードであるかpair-on-targetリードであるかを判断するステップが含まれ得る。pair-on-targetリードは、データベースの第１選択配列および第２選択配列と実質的にマッチする第１同定サブ配列および第２同定サブ配列を有し得る。one-on-targetリードは、データベースの第１選択配列と実質的にマッチする第１同定サブ配列のみを有し得る。

一実施形態では、遺伝子座の組に対応するアンプリコンの複数のサンプルリードを有するシーケンシングデータを受信するステップを含む方法を提供する。サンプルリードはリード対を含み、対応するアンプリコンの各リード対は、対応するアンプリコンの第１リードおよび第２リードを含む。第１リードおよび第２リードはそれぞれ、各々のリード配列を有する。前記方法はまた、第１リードの潜在的遺伝子座を、第１リードのリード配列の解析に基づき同定するステップを含む。潜在的遺伝子座は遺伝子座の組に由来する。前記方法はまた、少なくとも１つの潜在的座を有する第１リードそれぞれについて、第１リードが潜在的遺伝子座それぞれの基準配列と整列するか否かを判断するステップを含む。前記方法はまた、基準配列と整列しない第１リードを非整列リードとして指定するステップを含む。前記方法はまた、非整列リードを解析して、非整列リードと最も合う遺伝子座を、潜在的遺伝子座から同定するステップを含む。前記方法はまた、非整列リードを解析して、最も合う遺伝子座について、潜在的アレルのドロップアウトが存在するか否かを判断するステップを含む。

一態様では、前記方法はまた、非整列リードを解析して、該非整列リードがone-on-targetリードであるかpair-on-targetリードであるかを判断するステップを含み得る。pair-on-targetリードは、データベースの第１選択配列および第２選択配列と実質的にマッチする第１同定サブ配列および第２同定サブ配列を有し得る。one-on-targetリードは、データベースの第１選択配列と実質的にマッチする第１同定サブ配列のみを有し得る。非整列リードを解析して、最も合う遺伝子座について潜在的アレルのドロップアウトが存在するか否かを判断するステップは、pair-on-targetリードの数に基づき得る。

一実施形態では、複数の遺伝子座の各遺伝子座についてのリード分布を受信するステップを含む方法を提供する。リード分布は複数の潜在的アレルを含み、各潜在的アレルは、アレル配列とリードカウントを有する。リードカウントは、潜在的アレルを含むと判断された、シーケンシングデータのサンプルリードの数を表す。前記方法はまた、複数の遺伝子座の各遺伝子座について、リード分布のうち、最大リードカウントを有する潜在的アレルの１つを同定するステップを含み得る。前記方法はまた、複数の遺伝子座の各遺伝子座について、最大リードカウントが解釈閾値を超えるか否かを判断するステップを含み得る。最大リードが解釈閾値を超える場合、前記方法は、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップを含む。最大リードが解釈閾値未満である場合、前記方法は、遺伝子座のカバレッジが低いという警告を生成するステップを含む。前記方法はまた、遺伝子型がコールされた遺伝子座それぞれの遺伝子型と、カバレッジの低い遺伝子座についての警告とを含む、遺伝子プロファイルを生成するステップを含む。

一態様では、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップには、また、各遺伝子座の潜在的アレルの数を、遺伝子座の所定の最大許容可能アレル数と比較するステップと、潜在的アレルの数が所定の最大許容可能アレル数を超える場合、遺伝子座は過剰な数のアレルを有するという警告を生成するステップとが含まれ得る。

別の態様では、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップには、また、遺伝子座の複数の潜在的アレルの比率が互いに不十分である場合、遺伝子座は不均衡であるという警告を生成するステップが含まれ得る。

別の態様では、前記方法はまた、複数の遺伝子座の各遺伝子座について、潜在的アレルのリードカウントが解析閾値を上回るか否かを判断するステップを含み得る。解析閾値は解釈閾値より上回ることが易しい場合がある。

別の態様では、解釈閾値を上回らないリードカウントを有する潜在的アレルはノイズアレルとして指定され、前記方法はさらに、ノイズアレルのリードカウントの合計をノイズ閾値と比較し、合計がノイズ閾値を超える場合、遺伝子座は過剰なノイズを含むという警告を生成するステップをさらに含む。

オプションとして、遺伝子座にはタンデムショートリピート（ＳＴＲ）座と一塩基多型（ＳＮＰ）座が含まれる。

一実施形態では、（ａ）遺伝子座のリード分布を受信するステップを含む方法を提供する。リード分布は複数の潜在的アレルを含み、各潜在的アレルは、アレル配列とカウントスコアを有する。カウントスコアは、潜在的アレルを含むことが明らかにされた、シーケンシングデータのサンプルリードの数に基づく。前記方法はまた、（ｂ）もう１つの潜在的アレルのカウントスコアに基づき、遺伝子座のカバレッジが低いが否かを判断するステップを含む。遺伝子座のカバレッジが低い場合、前記方法は、遺伝子座のカバレッジが低いという通知を生成するステップを含む。遺伝子座のカバレッジが低くない場合、前記方法は、潜在的アレルのカウントスコアを解析して遺伝子座の遺伝子型を決定するステップを含む。前記方法はまた、（ｄ）遺伝子座の遺伝子型または遺伝子座のカバレッジが低いという警告を含む、遺伝子プロファイルを生成するステップを含む。

一態様では、遺伝子座のカバレッジが低いか否かを判断するステップには、潜在的アレルの１つまたは複数のカウントスコアが、解釈閾値を上回るか否かを判断するステップが含まれ得る。カウントスコアの少なくとも１つが解釈閾値を上回る場合、前記方法はまた、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップを含み得る。カウントスコアがいずれも解釈閾値を上回らない場合、前記方法は、遺伝子座のカバレッジが低いという通知を生成するステップを含み得る。

別の態様では、遺伝子座のカバレッジが低いか否かを判断するステップには、潜在的アレルの１つまたは複数のカウントスコアが解析閾値を上回るか否かを判断するステップが含まれる。カウントスコアの少なくとも１つが解析閾値を上回る場合、前記方法はまた、対応する遺伝子座の潜在的アレルを解析して、遺伝子座の遺伝子型をコールするステップを含み得る。カウントスコアがいずれも解析閾値を上回らない場合、前記方法はまた、遺伝子座のカバレッジが低いという通知を生成するステップを含み得る。

別の態様では、遺伝子座のカバレッジが低いか否かを判断するステップには、遺伝子座の整列リード総数をリード閾値と比較するステップが含まれる。整列リード総数がリード閾値を上回る場合、前記方法は、対応する遺伝子座の潜在的アレルを解析して遺伝子座の遺伝子型をコールするステップを含み得る。整列リード総数がリード閾値を上回らない場合、前記方法は、遺伝子座のカバレッジが低いという通知を生成するステップを含み得る。

別の態様では、カウントスコアはそれぞれ、対応する潜在的アレルのリードカウントに等しい値である。

別の態様では、カウントスコアはそれぞれ、遺伝子座のリードカウントおよびリード総数に基づく関数である。

別の態様では、カウントスコアはそれぞれ、遺伝子座のリードカウントおよび該遺伝子座について事前に得られたデータに基づく関数である。

別の態様では、カウントスコアはそれぞれ、サンプルの他の遺伝子座のリードカウントに基づく関数である。

別の態様では、カウントスコアはそれぞれ、他のサンプルの遺伝子座のリードカウントに基づく関数である。

別の態様では、遺伝子座の潜在的アレルを解析して遺伝子座の遺伝子型をコールするステップには、遺伝子座の潜在的アレルの数を、遺伝子座の所定の最大許容可能アレル数と比較するステップと、潜在的アレルの数が所定の最大許容可能アレル数を超える場合、遺伝子座は過剰な数のアレルを有するという警告を生成するステップも含まれる。

別の態様では、遺伝子座の潜在的アレルを解析して遺伝子座の遺伝子型をコールするステップには、遺伝子座の複数の潜在的アレルの比率が互いに不十分である場合、遺伝子座は不均衡であるという通知を生成するステップも含まれ得る。

別の態様では、前記方法はまた、潜在的アレルのカウントスコアが解析閾値を上回るか否かを判断するステップを含み得る。解析閾値は解釈閾値よりも上回ることが易しい場合がある。オプションとして、解析閾値を上回らないカウントスコアを有する潜在的アレルはノイズアレルとして指定される。前記方法はまた、ノイズスコアをノイズ閾値と比較するステップと、ノイズスコアがノイズ閾値を上回る場合、遺伝子座は過剰なノイズを含むという警告を生成するステップとを含み得る。ノイズスコアはノイズアレルのカウントスコアに基づき得る。

オプションとして、遺伝子座は、ショートタンデムリピート（ＳＴＲ）座または一塩基多型（ＳＮＰ）座の一方である。

別の態様では、前記方法は、複数の遺伝子座について、（ａ）〜（ｃ）を反復するステップを含み、遺伝子プロファイルを生成するステップには、遺伝子座それぞれの遺伝子型をコールするステップ、または、カバレッジの低い遺伝子座それぞれについての通知を提供するステップが含まれる。

一実施形態では、遺伝子座のリード分布を受信するステップを含む方法を提供する。リード分布は複数の潜在的アレルを含み、各潜在的アレルは、アレル配列とリードカウントを有する。リードカウントは、遺伝子座に割り当てられた、シーケンシングデータのサンプルリードの数を表す。前記方法はまた、潜在的アレルそれぞれのカウントスコアを求めるステップを含み得る。カウントスコアは潜在的アレルのリードカウントに基づき得る。前記方法はまた、潜在的アレルのカウントスコアが解析閾値を上回るか否かを判断するステップを含み得る。対応する潜在的アレルのカウントスコアが解析閾値を上回らない場合、前記方法は、対応する潜在的アレルを破棄するステップを含む。対応する潜在的アレルのカウントスコアが解析閾値を上回る場合、前記方法は、潜在的アレルを遺伝子座の指定アレルとして指定するステップを含む。

一態様では、対応する潜在的アレルを破棄するステップには、潜在的アレルをノイズアレルとして指定するステップが含まれる。前記方法はまた、ノイズアレルのカウントスコアが一括してノイズ閾値を上回るか否かを判断するステップを含む。カウントスコアが一括してノイズ閾値を上回る場合、前記方法は、遺伝子座は過剰なノイズを有するという警告を生成するステップを含み得る。

別の態様では、カウントスコアはそれぞれ、対応する潜在的アレルのリードカウントと等しい値である。

別の態様では、カウントスコアはそれぞれ、遺伝子座のリードカウントおよび該遺伝子座について事前に得たデータに基づく関数である。

別の態様では、前記方法はまた、指定アレルの数を、遺伝子座の所定の最大許容可能アレル数と比較するステップと、指定アレルの数が、所定の最大許容可能アレル数を超える場合、遺伝子座は過剰な数のアレルを有するという警告を生成するステップとを含み得る。

別の態様では、前記方法はまた、遺伝子座の複数の指定アレルの比率が互いに不十分である場合、遺伝子座は不均衡であるという警告を生成するステップを含む。

オプションとして、遺伝子座にはショートタンデムリピート（ＳＴＲ）座と一塩基多型（ＳＮＰ）座が含まれる。

一実施形態では、遺伝子座のリード分布を受信するステップを含む方法を提供する。リード分布は複数の潜在的アレルを含み、各潜在的アレルはアレル配列とリードカウントを有する。リードカウントは、遺伝子座に割り当てられた、シーケンシングデータのサンプルリードの数を表す。前記方法はまた、リードカウントが解析閾値を超えるか否かを判断するステップを含む。対応する潜在的アレルのリードカウントが解析閾値未満である場合、前記方法は、対応する潜在的アレルをノイズアレルとして指定するステップを含む。対応する潜在的アレルのリードカウントが解析閾値を上回る場合、前記方法は、潜在的アレルを遺伝子座のアレルとして指定するステップを含む。前記方法はまた、ノイズアレルのリードカウントの合計がノイズ閾値を超えるか否かを判断するステップを含む。合計がノイズ閾値を超える場合、前記方法は、遺伝子座は過剰なノイズを有するという警告を生成するステップを含む。

一態様では、前記方法はまた、指定アレルの数を、遺伝子座の所定の最大許容可能アレル数と比較するステップと、指定アレルの数が、所定の最大許容可能アレル数を超える場合、遺伝子座は過剰な数のアレルを有するという警告を生成するステップとを含み得る。

別の態様では、前記方法はまた、遺伝子座の複数の指定アレルの比率が互いに不十分である場合、遺伝子座は不均衡であるという警告を生成するステップを含み得る。

一実施形態では、複数の遺伝子座の各遺伝子座の座データを受信するステップを含む方法を提供する。座データは対応する遺伝子座について１つまたは複数の指定アレルを含む。各指定アレルは、シーケンシングデータから得られたリードカウントに基づく。前記方法はまた、複数の遺伝子座の各遺伝子座について、対応する遺伝子座の指定アレルの数が、対応する遺伝子座の所定の最大許容可能アレル数より大きいか否かを判断するステップを含む。前記方法は、指定アレルの数が所定の最大許容可能アレル数を超える場合、アレル数警告を生成するステップを含み得る。前記方法はまた、複数の遺伝子座の各遺伝子座について、指定アレルのアレル比率が不十分であるか否かを判断するステップを含む。アレル比率は指定アレルのリードカウントに基づき得る。前記方法はまた、アレル比率が不均衡である場合、アレル比率警告を生成するステップを含み得る。前記方法はまた、遺伝子座の組のアレル数警告とアレル比率警告の数に基づき、サンプルが複数のソースの混合物を含むと判断するステップを含み得る。

一態様では、サンプルが複数のソースの混合物を含むと判断するステップには、警告の総数が混合物閾値を上回ると判断するステップが含まれる。オプションとして、混合物閾値は、遺伝子座の組における遺伝子座の数に基づく。オプションとして、混合物閾値は、組内の遺伝子座の所定の割合に等しい所定値である。

別の態様では、アレル数警告を生成するステップには、指定アレルの数に基づくアレル数スコアを提供するステップが含まれる。サンプルが複数のソースの混合物を含むと判断するステップには、アレル数スコアを解析するステップが含まれ得る。オプションとして、サンプルが混合物を含む可能性は、最大許容可能アレル数を超える指定アレルの数が増えるほど高まる。

別の態様では、アレル比率警告を生成するステップには、アレル比率に基づくアレル比率スコアを提供するステップが含まれる。サンプルが複数のソースの混合物を含むと判断するステップには、アレル比率スコアを解析するステップが含まれる。オプションとして、サンプルが混合物を含む可能性は、アレル間の不均衡が増すほど高まる。

一実施形態において、複数のＹ座の座データを受信するステップを含む方法を提供する。座データにはＹ座の指定アレルが含まれる。各指定アレルはシーケンシングデータから得られるリードカウントに基づく。前記方法はまた、各Ｙ座の指定アレルの数を、Ｙ座の予想アレル数と比較するステップを含む。前記方法はまた、比較動作の結果に基づき、サンプルが男性または女性であるという予測を生成するステップを含む。オプションとして、遺伝子座にはショートタンデムリピート（ＳＴＲ）座と一塩基多型（ＳＮＰ）座が含まれる。

１つまたは複数の実施形態において、本明細書に記載の、１つまたは複数の請求項を実行するように構成されたサンプルアナライザを含むシステムを提供する。

本出願を通して、種々の刊行物、特許、および／または特許出願が言及されている。これらの刊行物の開示は、その全体が、参照により本出願に組み込まれる。

本明細書で用いる場合、「含み（comprising）」、「含み（including）」、および「有し（having）」などの用語は非限定的であり、言及された要素だけでなく、場合により追加の要素を包含する。

上記記載は例示のためであり、限定することを意図しないことが理解されるべきである。例えば、上記実施形態（および／またはその態様）は互いに組み合わせて用いることができる。加えて、多くの修正を加えて、特定の状況または物質を本明細書の趣旨から離れることなく、その教示に適合させることができる。本明細書に記載の、寸法、物質の種類、種々の構成要素の向き、ならびに、種々の構成要素の数および位置は、ある実施形態のパラメータを定義することを意図し、決して限定するものではなく、単なる例示的な実施形態である。特許請求の趣旨および範囲内にある多くの他の実施形態および修正が、上記記載をレビューする際、当業者には明らかであろう。そのため、本発明の範囲は、添付の特許請求の範囲に照らし、そのような特許請求の範囲が権利を持つ対応特許の全範囲に沿って、決定されるべきである。

本記載で用いる場合、「例示的な実施形態において」、「一部の実施形態において」、および「特定の実施形態において」という句は、記載される実施形態が、本出願に従って形成または実行され得る実施形態の例であることを意味する。該句は、発明の主題を該実施形態に限定することを意図しない。具体的には、発明の主題の他の実施形態は、特定の実施形態を用いて記載される、言及された特徴または構造を含まない場合がある。

添付の特許請求の範囲において、「含み（including）」および「ここにおいて（in which）」という用語は、「含み（comprising）」および「ここにおいて（wherein）」という各用語の平易な英語の同義語として用いられる。さらに、以下の特許請求の範囲では、「第１」、「第２」、「第３」などの用語は単なるラベルとして用いられ、数値的要件をその対象に課すことを意図しない。さらに、以下の特許請求の範囲の限定は、ミーンズ・プラス・ファンクション形式（means-plus-function format）では書かれず、そのような特許請求の範囲の限定が、追加的な構造を含まない機能の陳述が後続する「means for」フレーズを明白に使用しない限り、かつ、使用するまで、米国特許法第１１２条（ｆ）に従って解釈されることを意図しない。

以下の特許請求の範囲は本出願の１つまたは複数の実施形態に言及し、該特許請求の範囲はそれにより本出願の記載に組み込まれる。

Claims

対応するヌクレオチド配列を有する複数のサンプルリードを含むシーケンシングデータを受信するステップと、
前記サンプルリードを、前記ヌクレオチド配列に基づき指定座に割り当てるステップであって、対応する指定座に割り当てられる前記サンプルリードは、対応する前記指定座の割り当てリードである、ステップと、
各指定座の前記割り当てリードを解析して、前記割り当てリード内の対応する関心領域（ＲＯＩ）を同定するステップであって、前記ＲＯＩはそれぞれ１つまたは複数の反復モチーフ連続を有し、対応する連続の各反復モチーフは同一のヌクレオチドの組を含む、ステップと、
多数の割り当てリードを有する指定座について、前記ＲＯＩの配列に基づき前記割り当てリードを分類し、その結果、異なる配列を有する前記ＲＯＩが異なる潜在的アレルとして割り当てられるようにするステップであって、各潜在的アレルは、前記指定座内の他の潜在的アレルの配列とは異なる配列を有する、ステップと、
多数の潜在的アレルを有する指定座について、前記潜在的アレルの配列を解析して、前記潜在的アレルの第１アレルが前記潜在的アレルの第２アレルのスタッター産物であると疑われるか否かを判断するステップであって、対応する前記配列内のk（kは整数）個の反復モチーフが前記第１アレルと前記第２アレルの間で付加された、または欠失した場合に、前記第１アレルは前記第２アレルのスタッター産物であると疑われる、ステップを含み、
前記ステップのうち１つまたは複数は、適切にプログラミングされたコンピュータを用いて実行される、一のアレルが他のアレルの疑わしいスタッター産物であるかどうかを決定する方法。
多数の潜在的アレルを有する前記指定座について、前記潜在的アレルの配列を解析して、前記第１アレルが前記第２アレルのスタッター産物であると疑われるか否かを判断するステップには、前記第１アレルと前記第２アレルのＲＯＩの長さを比較して、前記第１アレルと前記第２アレルのＲＯＩの長さが、１反復モチーフまたは多数の反復モチーフにより異なるか否かを判断するステップが含まれる、請求項１に記載の方法。
多数の潜在的アレルを有する前記指定座について、前記潜在的アレルの配列を解析して、前記第１アレルが前記第２アレルのスタッター産物であると疑われるか否かを判断するステップには、付加された、または欠失した前記反復モチーフを同定し、前記付加された、または欠失した反復モチーフが、対応する前記配列において隣接反復モチーフと同一であるか否かを判断するステップが含まれる、請求項１または２に記載の方法。
kは１または２と等しい、請求項１〜３の何れか一項に記載の方法。
前記方法はさらに、少なくとも複数の前記指定座の遺伝子型をコールする遺伝子型プロファイルを生成するステップを含み、疑わしいスタッター産物を有する前記指定座は、前記疑わしいスタッター産物を有することが示される、請求項１〜４の何れか一項に記載の方法。
前記方法はさらに、少なくとも複数の前記指定座に遺伝子型コールを提供するステップを含み、前記遺伝子型コールの少なくとも１つは、前記少なくとも１つの遺伝子型コールの指定座に疑わしいスタッター産物が存在することを示す、請求項１〜５の何れか一項に記載の方法。
前記第１アレルと前記第２アレルのＲＯＩの配列間に他のミスマッチがない場合、前記第１アレルは前記第２アレルのスタッター産物である、請求項１〜６の何れか一項に記載の方法。
多数の潜在的アレルを有する各指定座について、前記潜在的アレルに対しコールされた前記サンプルリードの総数をカウントするステップをさらに含む、請求項１〜６の何れか一項に記載の方法。
前記第１アレルのサンプルリードが、前記第２アレルのサンプルリードの指定閾値未満である場合、前記第１アレルは前記第２アレルのスタッター産物である、請求項８に記載の方法。
前記指定閾値は、前記第２アレルのサンプルリードの４０％である、請求項９に記載の方法。
前記第１アレルのサンプルリードが前記第２アレルのサンプルリードの所定の割合を超える場合、前記疑わしいスタッター産物は別のコントリビュータに由来すると指定される、請求項８に記載の方法。
前記第１アレルのサンプルリードが前記第２アレルのサンプルリードの所定の割合未満である場合、前記疑わしいスタッター産物はノイズとして指定される、請求項８に記載の方法。
請求項１〜１２の何れか一項に記載の方法であって、前記割り当てリードは第１保存フランキング領域と第２保存フランキング領域を含み、その間に対応する反復セグメントが位置し、各割り当てリードについて、
（ａ）前記第１保存フランキング領域と前記第２保存フランキング領域を含む基準配列を提供するステップと、
（ｂ）前記基準配列の第１フランキング領域の一部を対応する前記割り当てリードに整列させるステップと、
（ｃ）前記基準配列の第２フランキング領域の一部を対応する前記割り当てリードに整列させるステップと、
（ｄ）前記反復セグメントの長さおよび／または配列を求めるステップをさらに含む、方法。
ステップ（ｂ）またはステップ（ｃ）の一方または両方で前記フランキング領域の一部を整列させるステップには、
（ｉ）前記反復セグメントに重なる、または隣接するシーディング領域の正確なk-merマッチングを用いることにより、対応する前記保存フランキング領域の前記割り当てリード上での位置を決定するステップと、
（ｉｉ）前記フランキング領域を前記割り当てリードに整列させるステップが含まれる、請求項１３に記載の方法。
（ａ）前記シーディング領域には、前記保存されたフランキング領域の複雑度の高い領域が含まれ、前記複雑度の高い領域は、前記保存されたフランキング領域の全ヌクレオチドの少なくとも１０％、１５％、２０％または２５％という頻度で4つのヌクレオチドをそれぞれ組み込む、
（ｂ）前記シーディング領域は、対応する前記保存されたフランキング領域の複雑度の低い領域を含まず、前記複雑度の低い領域は、前記反復セグメントに対して３０％、４０％、５０％、６０％、７０％または８０％超の配列同一性を有する配列を含む、
（ｃ）前記シーディング領域は前記反復セグメントに直接隣接する、
（ｄ）前記シーディング領域には前記反復セグメントの一部が含まれる、および／または
（ｅ）前記シーディング領域は前記反復セグメントからオフセットしている、
請求項１４に記載の方法。
前記ＲＯＩにはショートタンデムリピート（ＳＴＲ）が含まれる、請求項１〜１５の何れか一項に記載の方法。
前記ＳＴＲは、ＣＯＤＩＳ常染色体ＳＴＲ座、ＣＯＤＩＳＹ-ＳＴＲ座、ＥＵ常染色体ＳＴＲ座、またはＥＵＹ-ＳＴＲ座の少なくとも１つから選択される、請求項１６に記載の方法。
前記ＳＴＲは、ＣＳＦ１ＰＯ、ＦＧＡ、ＴＨ０１、ＴＰＯＸ、ＶＷＡ、Ｄ３Ｓ１３５８、Ｄ５Ｓ８１８、Ｄ７Ｓ８２０、Ｄ８Ｓ１１７９、Ｄ１３Ｓ３１７、Ｄ１６Ｓ５３９、Ｄ１８Ｓ５１、Ｄ２１Ｓ１１、ＰＥＮＴＡＤ、およびＰＥＮＴＡＥからなる遺伝子座の群から選択される、請求項１７に記載の方法。