JP2023538043A

JP2023538043A - 合成アレリックラダーライブラリーを有するｄｎａ分析装置

Info

Publication number: JP2023538043A
Application number: JP2023511807A
Authority: JP
Inventors: マティアスヴァンボ
Original assignee: ライフテクノロジーズコーポレーション
Priority date: 2020-08-15
Filing date: 2021-08-13
Publication date: 2023-09-06
Also published as: BR112023002772A2; EP4196986A1; CN116134526A; US20220051754A1; KR20230053647A; CA3191872A1; WO2022040053A1

Abstract

複数の対立遺伝子の存在についてデオキシリボ核酸（ＤＮＡ）分子を含む生物学的サンプルを試験する方法が記載され、ＤＮＡフラグメントは、生物学的サンプルを使用して得られ、異なるフラグメントサイズを有する異なる対立遺伝子に対応する。キャピラリー電気泳動（ＣＥ）機器を使用して、生物学的サンプルについての試験フラグメントのサイズ決めデータを得る。予め計算されたモデルを使用して、１つ以上の合成アレリックラダーを動的に決定し、このとき、予め計算されたモデルは、ＣＥ機器を使用して行われた複数の以前のアレリックラダーサンプルランから得られた複数のフラグメントのサイズ決めデータセットの分析を介して誘導される。１つ以上の合成的に又は実験的に得られたアレリックラダーを使用して、試験フラグメントのサイズ決めデータへの十分な適合を見出し、複数の対立遺伝子のうちのどれが生物学的サンプル中に存在するかを同定する。統計分析は、２つの主成分を含む主成分分析を含んでもよい。

Description

本開示は、概して、デオキシリボ核酸（ＤＮＡ）分析のためのシステム、デバイス、及び方法に関し、より具体的には、キャピラリー電気泳動を使用する法医学又は父子鑑定目的のための短いタンデム反復（ＳＴＲ）配列のＤＮＡフラグメント分析のためのシステム、デバイス、及び方法に関する。

ヒトゲノムの９９．７％以上が個体間で同一であると推定されているため、遺伝子レベルで人を区別するためには、残りの０．３％において異なる領域を見出す必要がある。ヒトゲノム全体に散在する多くの反復ＤＮＡ配列が存在する。

真核生物ゲノムは、反復ＤＮＡ配列に満ちている（Ｅｌｌｅｇｒｅｎ２００４）。これらの反復ＤＮＡ配列のサイズは様々であり、典型的にはコア反復単位の長さ及び連続反復単位の数又は反復領域の全長によって指定される。長い反復単位は、コア反復中に数百から数千の塩基を含み得る。

２塩基対（ｂｐ）～７ｂｐの長さの反復単位を有するＤＮＡ領域は、マイクロサテライト、単純配列反復（ＳＳＲ）、又は最も一般的には短いタンデム反復（ＳＴＲ）と呼ばれる。ＳＴＲは、増幅に差が出る問題がなくポリメラーゼ連鎖反応（ＰＣＲ）によって容易に増幅されるため、一般的なＤＮＡ反復マーカーとなっている。これは、反復サイズが小さいため、ヘテロ接合個体由来の両方の対立遺伝子のサイズが類似しているからである。ＳＴＲマーカー中の反復の数は、個体間で非常に変動し得るので、これらのＳＴＲはヒト同定目的に有効である。

歴史的に、ＤＮＡ配列決定産物は、２枚のガラスプレートの間に手作業で注がれたポリアクリルアミドゲルを使用して分離されていた。変性流動性ふるい分けポリマー（本明細書では「ゲル」とも称する）を使用したキャピラリー電気泳動は、ワークフロー、スループット、及び使いやすさが大幅に向上したため、古いゲル分離技術の使用に大きく取って代わった。蛍光標識されたＤＮＡフラグメントは、分子量に従って分離される。キャピラリー電気泳動でゲルを注入する必要がないため、ＣＥを使用したＤＮＡシーケンス分析はより簡単に自動化され、一度により多くのサンプルを処理できる。

ＳＴＲタイピングキットは、ＳＴＲ遺伝子座のセットを増幅するように設計されたオリゴヌクレオチドを含むＰＣＲプライマー混合物、デオキシヌクレオチド三リン酸、ＭｇＣｌ₂、及びＰＣＲを行うために必要な他の試薬を含むＰＣＲ緩衝液、ＰＣＲ緩衝液と予め混合されることもあるＤＮＡポリメラーゼ、対立遺伝子反復サイズの較正を可能にするために増幅されるＳＴＲ遺伝子座についての共通対立遺伝子を有するアレリックラダーサンプル、並びにキット試薬が適切に機能していることを確認するための陽性対照ＤＮＡサンプルの、５つの構成要素からなる。（ＪｏｈｎＭ．Ｂｕｔｌｅｒ，Ｃｈａｐｔｅｒ５ｉｎＡｄｖａｎｃｅｄＴｏｐｉｃｓｉｎＦｏｒｅｎｓｉｃＤＮＡＴｙｐｉｎｇ：Ｍｅｔｈｏｄｏｌｏｇｙ，２０１２，ｐ．９９－１３９参照）。サンプル間の比較を可能にするために、内部レーン標準（ＩＬＳ）とも呼ばれる内部サイズ標準もまた、各試験サンプル及びアレリックラダーサンプルに添加される。

キャピラリー電気泳動中、サイクルシーケンシング反応の伸長産物は、動電学的注入の結果としてキャピラリーに入る。緩衝化された配列決定反応に印加される電圧は、負に荷電したフラグメントをキャピラリーに押し込み、このとき、電圧はゲルを通って印加されるため、電圧の一部がフラグメントに印加される。伸長産物は、それらの立体構造及び全電荷に基づいてサイズによって分離される。サンプルの電気泳動移動度は、実行条件（緩衝液の種類、濃度、及びｐＨ、実行温度、印加された電圧の量、及び使用されるポリマーの種類）によって影響を受ける可能性がある。

正極に到達する少し前に、サイズによって分離された蛍光標識されたＤＮＡフラグメントは、レーザビームの経路を横切って移動する。レーザビームによりフラグメント上の色素が蛍光を発し、その蛍光が光学検出器によって検出される。データ収集ソフトウェアにより、検出された蛍光シグナルをデジタルデータに変換し、次いで、例えば、コンマで区切られたテキストファイルでデータを記録する。各色素は、レーザによって励起されたときに異なる波長で発光するため、同様のサイズのフラグメントのいくつかのセットを１回のキャピラリー注入で検出及び区別することができる。

キャピラリー電気泳動（ＣＥ）では、核酸サンプルなどの生物学的サンプルは、キャピラリーの入口末端でキャピラリー内の変性分離媒体（当業者によって「ゲル」と称される場合がある）に注入され、キャピラリーの末端に電界が印加される。サンプル、例えば、ポリメラーゼ連鎖反応（ＰＣＲ）混合物又は他のサンプル中の異なる核酸成分は、それらの電気泳動特性の違いにより、異なる速度で検出器ポイントに移動する。その結果、光検出器（通常は可視光範囲で動作する蛍光検出器又は紫外（ＵＶ）吸光度検出器）に異なる時間で到達する。結果は一連の検出されたピークとして表示され、各ピークは、理想的にはサンプルの１つの核酸成分又は種を表す。

アーチファクトピークを含む任意の所与のピークの大きさは、ほとんどの場合、核酸、例えば、ＤＮＡによるＵＶ吸収、又は核酸に関連付けられた１つ以上の標識色素からの蛍光発光のいずれかに基づいて光学的に判定される。核酸ＣＥ検出に適用可能なＵＶ及び蛍光検出器は、当技術分野で周知である。

ＣＥキャピラリー自体は石英であることが多いが、当業者に既知である他の材料を使用することもできる。単一及び複数のキャピラリー機能の両方を有するいくつかのＣＥシステムが市販されている。本明細書に記載の方法は、核酸サンプルのＣＥのための任意のデバイス又はシステムに適用可能である。

ＤＮＡフラグメント分析では、未知の同一性のＳＴＲフラグメントを、内部レーン標準（ＩＬＳ）としても知られている既知のサイズのフラグメントのセットと比較する。内挿によって、未知のフラグメントの見かけのサイズを決定することができ、フラグメントの同一性を推測することができる。しかしながら、当業者の間でよく知られている問題として、この見かけのサイズが、他の要因の中でも、温度の影響、並びにゲルのタイプ及び状態によって、時々変化することがある。ＤＮＡフラグメント分析において所定のＳＴＲフラグメントについて測定されるサイズは、その「真の」サイズではなく、特定の時間において、特定の条件下で、ＳＴＲフラグメントが、同じサイズの仮想ＩＬＳフラグメントが移動するのと同じ速度で移動することを意味するにすぎない。

簡単な例として、実験により、温度が、移動、ひいては分子について測定されるサイズに強く影響を及ぼすことが見出されている。全般的には、より高い温度はより速い移動を意味するが、サンプル及びＩＬＳの移動速度が同様に変化する限り、サイズ決めに影響を及ぼさない。しかしながら、通常、異なるフラグメントに対する速度の変化にはわずかな差があり、一般に、サンプルフラグメントは、ＩＬＳフラグメントの移動速度の上昇に遅れ、したがって、より高温でより大きなサイズになる。一方、一部のサンプルフラグメントは、代わりに、ＩＬＳと比較して速く移動することができ、したがって、より小さいサイズになり得る。これは、特定のフラグメント及びＩＬＳフラグメントの選択に依存する。対立遺伝子とＩＬＳとの間の移動速度の変化における任意の差異は、ピークの大きさを変化させる。例えば、５０℃の対照温度に対して６０℃の対照温度では、所与のＤＮＡフラグメントに１塩基対以上大きいサイズが割り当てられる場合がある。

サンプルのセットを並行して実行することができるＣＥ機器では、これらの変動は、各セットに標準サンプルを含めることによってほとんど対処することができる。アレリックラダーとしても知られるＳＴＲ分析目的のための標準サンプルは、調査される各対立遺伝子についてのほとんど又は全ての可能なフラグメントが単一のサンプルに集められているサンプルである。セットが既知であるので、各フラグメントの同一性を決定することができ、所定の条件下でＩＬＳと比較するとき、見かけのサイズと関連付けることができる。

ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ，Ｉｎｃ．製のＲａｐｉｄＨＩＴ（商標）ＩＤシステムなどの単一のキャピラリー装置では、標準サンプルをサンプルと同時に行うことはできないが、その代わりに、サンプルランと可能な限り同様の条件下で、かつ短時間内に標準サンプルランを行うことが一般的である。これは、犯罪現場検証及び事故現場検証が、多くの場合、多数のＤＮＡサンプルのヒト同定及びＤＮＡ試験のために迅速な検査所要時間を要求する法医学的分析において不利であり得る。

多くの場合、システムは、バックアップとして、比較するためのより古いアレリックラダーのライブラリーを有し、このシステムは、試験サンプル中の対立遺伝子を同定するために使用され得る、十分な適合又は最良の適合の既知のアレリックラダーを見出すための選択を行うためのアルゴリズムを有する。上述のように、温度、ゲル分解、緩衝液、電圧変化、及びゲルロットにおける系統的な変動は、ランごとに生じ得、フラグメントをサイズ決めするデータ測定に影響を及ぼし得る。電流、光学ノイズ、ゲル不均一性、不純物、及び二次構造由来のノイズ効果も生じ得る。

更に、これらのより古いアレリックラダーのライブラリーは、ＣＥ機器の典型的な又は有効な操作範囲を完全には表さない場合があり、これらのライブラリーへの依存は、ＤＮＡ同定プロセスの精度に潜在的に影響を与え得る。より古いアレリックラダーのライブラリーにおける１つの問題は、それらがいかに構築されたか（例えば、手動で選択）、及びライブラリーがいかに良好に変動をカバーするかにおいて生じる。ライブラリーの適用範囲の密度及び次元、並びに含まれるラダーがどの程度代表的であるかもまた、影響を有し得る。全ての外部パラメータを理論的に一定に保つことができる場合であっても、測定における組成、注入及びノイズの差は、それが典型的な又は特定のサンプルをどれだけ良好に表すか又は適合するかに対して影響を及ぼす可能性がある。より古い対立遺伝子ライブラリーを使用する際の別の問題は、アレリックラダーライブラリーから最良適合又は十分に適合するアレリックラダーをどのように選択するかである。ラダーライブラリー中のラダーが、典型的な又は特定のサンプルランから外れる顕著なノイズ又は他の効果を有する場合、曖昧な選択のリスクが増加する。例えば、ラダーライブラリー中の２つのラダーが非常に類似している場合、ラダー選択において曖昧さが生じ得る。いくつかの場合において、試験サンプル中のピークは、２つのラダーのうちのいずれが同定のために選択されるかにかかわらず、同一として同定され得、曖昧さは問題にならない。別の場合において、２つの非常に異なるラダーは、試験サンプルに対する十分な適合を提供し得、わずかな差異（例えば、ノイズ）のみが、どのラダーがサンプルの参照として最終的に選択されるかを決定し得る。これは、試験サンプルがピークを全く含まないか、又は非常に少数のピーク、例えば５個又は１０個未満のピークを含む場合に起こる危険性がより高い。

法医学的分析におけるＤＮＡフラグメントの不正確な同定は、例えば、法執行機関による犯罪調査において、並びに個人の生命の運命が決定される刑事及び民事裁判において、非常に重大な意味を有し得る。したがって、ＤＮＡフラグメント分析を用いたサンプル同定の精度を向上させ、分析時間を短縮する方法が必要である。

本発明の実施形態は、複数の対立遺伝子の存在についてデオキシリボ核酸（ＤＮＡ）分子を含む生物学的サンプルを試験する方法であって、生物学的サンプルを使用して得られ、異なる対立遺伝子に対応するＤＮＡフラグメントが異なるフラグメントサイズを有する、方法を記載する。キャピラリー電気泳動（ＣＥ）機器を使用して、生物学的サンプルについての試験フラグメントのサイズ決めデータを得る。予め計算されたモデルを使用して、１つ以上の合成又は実験的に誘導されたアレリックラダーを生成し、このとき、予め計算されたモデルは、ＣＥ機器を使用して行われた複数の以前のアレリックラダーサンプルランから得られた複数のフラグメントのサイズ決めデータセットの統計分析を介して誘導される。１つ以上の合成アレリックラダーを使用して、試験フラグメントのサイズ決めデータへの十分な適合を見出し、複数の対立遺伝子のうちのどれが生物学的サンプル中に存在するかを同定する。統計分析は、２つの主成分を含む主成分分析（ＰＣＡ）を含んでもよい。

ＰＣＡを組み込み、２つの主成分を組み込む統計モデルは、そうでなければ固定された安定なＤＮＡフラグメント分析システム、特にＣＥ機器を組み込むものに関して、ＤＮＡフラグメントの見かけのサイズに影響を及ぼす最も重要な影響のうちの２つが、温度及びゲルがどの程度分解したかであるという概念を利用する。

一実施形態では、予め計算されたモデルは、これらの効果（温度及びゲル分解）のそれぞれからの各ＤＮＡフラグメントの応答を実験的に測定することによって開発することができる。特に、分析される各ＤＮＡフラグメントの応答は、温度及びゲル分解を厳密に制御して経験的移動モデルを導出する実験から決定することができる。線形回帰分析を使用してこれらの応答を線形に結合することによって、任意の条件セットでのフラグメントの見かけのサイズが推定され得る。このような推定は、限られた範囲の条件に対して正確であることを経験的に示すことができる。

ゲル分解及び温度の影響に対するＤＮＡフラグメントのこれらの応答を決定するための異なるアプローチは、温度（例えば、室温及び／又は分離ヒーター温度）及びゲル分解をランダムに変化させた、及び／又は未知である多くのサンプルランから見かけのサイズを組み合わせ、主成分分析（ＰＣＡ）を行うことによって予め計算されたモデルを開発することである。このような分析は、一般に、より多くのランを考慮に入れるため、このアプローチはノイズを低減するという更なる利点を有する。しかし、ＰＣＡ分析は、温度及びゲル分解の応答を別々に提供せず、むしろ、上述したような様々な制御された単離された温度及び分解応答の測定と同じ推定セットを作成するために線形に結合され得る２セットの応答を提供する。特に、温度及びゲル分解それぞれの主に又は大部分が単離された影響からの応答は、ＰＣＡ出力の線形結合として再構成され得る。ＰＣＡ分析はまた、考慮する必要がある追加のパラメータがあるかどうかを示す。

予め計算されたモデルを構築するためにとられたアプローチにかかわらず、そのようなモデルは、モデルが有効である任意の条件における任意のフラグメントの見かけのサイズを予測することができる。したがって、任意の条件セット下で参照ランの結果を予測することが可能であり、逆比較によって、どの条件下で任意の参照ラン又は任意のサンプルランが行われたかを推論することが可能である。
本特許又は出願ファイルには、カラーで作成された少なくとも１つの図面が含まれる。カラー図面を含む本特許又は特許出願公開のコピーは、要求及び必要な料金の支払いに応じて、特許庁（Office）によって提供される。

本発明の実施形態によるキャピラリー電気泳動系ＤＮＡ分析システムを示す。本発明の実施形態による例示的なＤＮＡ分析機器を示す。本発明の実施形態に従って使用され得る図２Ａのシステムのための例示的サンプルカートリッジの２つの斜視図を示す。本発明の実施形態に従って使用され得る図２Ａのシステムのための例示的一次カートリッジの斜視図を示す。本発明の実施形態によるＣＥ系ＤＮＡ分析システムのワークフロープロセスを示す。本発明の実施形態に従って表示され得るＳＴＲ分析サンプルランからの例示的なスキャンのセットを示す。本発明の実施形態に従って使用され得る従来技術のＳＴＲ分析ワークフロープロセスを示す。本発明の実施形態によるＳＴＲ分析ワークフロープロセスを示す。本発明の実施形態による経験的移動モデルを構築するためのプロセスを示す。本発明の実施形態による経験的移動モデルについてのゲル分解変数の実験結果を示す。本発明の実施形態による経験的移動モデルについての温度変数の実験結果を示す。本発明の実施形態による主成分分析（ＰＣＡ）に基づいて移動モデルを構築するためのプロセスを示す。本発明の実施形態によるＰＣＡに基づく移動モデルにおいて生成される主成分のグラフ表現を示す。本発明の実施形態によるＰＣＡに基づくＳＴＲ分析ワークフロープロセスを示す。本発明の別の実施形態によるＰＣＡに基づくＳＴＲ分析ワークフロープロセスを示す。手動で集めたラダーライブラリーのＰＣＡ分析のグラフ表示を示す。本発明の実施形態による合成ラダーライブラリーのＰＣＡ分析のグラフ表示を示す。本発明の実施形態による合成アレリックラダーを生成するためのＰＣＡに基づくプロセスを示す。本発明の実施形態による例示的なＰＣＡに基づく移動モデルを示す。本発明の実施形態による合成アレリックラダーを使用するＰＣＡに基づくＣＥ機器バリデーションプロセスを示す。本発明の実施形態を組み込むことができる例示的なコンピューティングデバイスのブロック図を示す。

本発明を上記の図面を参照して説明したが、図面は例示であることを意図したものであり、他の実施形態は本発明の趣旨と一致し、本発明の範囲内にある。

ここで、本明細書の一部を形成し、実施形態を実施する特定の例を例示する目的で示す添付の図面を参照して、様々な実施形態が、以下により詳細に説明される。しかしながら、本明細書は、多くの異なる形態で具現化されてもよく、本明細書に記載される実施形態に限定されると解釈されるべきではない。むしろ、これらの実施形態は、本明細書が徹底的かつ完全であり、本発明の範囲を当業者に十分に伝えるように提供される。とりわけ、本明細書は、方法又はデバイスとして具体化できる。したがって、本明細書の様々な実施形態のいずれも、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、又はソフトウェア及びハードウェアの態様を組み合わせた実施形態の形態をとることができる。したがって、以下の明細書は、限定的な意味で解釈されるべきではない。

図１は、本発明の例示的な実施形態によるシステム１００を示している。システム１００は、キャピラリー電気泳動（「ＣＥ」）ＤＮＡ分析機器１０１、１つ以上のコンピュータ１０３、及びユーザデバイス１０７を備える。

本発明の一実施形態では、システム１００は、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ，Ｉｎｃ．のＲａｐｉｄＨＩＴ（商標）ＩＤＳｙｓｔｅｍ及び／又はＲａｐｉｄＨＩＴ（商標）２００Ｓｙｓｔｅｍを含み得る、本明細書で定義される例示的な市販のＣＥデバイスを含む。しかしながら、本発明の実施形態において使用され得る他の例示的な市販のＣＥデバイスとしては、とりわけ、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ，Ｉｎｃ．（ＡＢＩ）の遺伝子アナライザーモデル３１０（単一キャピラリー）、３１３０（４キャピラリー）、３１３０ｘＬ（１６キャピラリー）、３５００（８キャピラリー）、３５００ｘＬ（２４キャピラリー）、及びＳｅｑＳｔｕｄｉｏ遺伝子アナライザーモデル、ＤＮＡアナライザーモデル３７３０（４８キャピラリー）、及び３７３０ｘＬ（９６キャピラリー）、並びに、Ａｇｉｌｅｎｔの７１００デバイス、ＰｒｉｎｃｅＴｅｃｈｎｏｌｏｇｉｅｓ，Ｉｎｃ．のＰｒｉｎＣＥ（商標）ＣａｐｉｌｌａｒｙＥｌｅｃｔｒｏｐｈｏｒｅｓｉｓＳｙｓｔｅｍ、Ｌｕｍｅｘ，Ｉｎｃ．のＣａｐｅｌ－１０５（商標）ＣＥシステム、及びＢｅｃｋｍａｎＣｏｕｌｔｅｒのＰ／ＡＣＥ（商標）ＭＤＱシステムが挙げられるが、これらに限定されない。本発明の実施形態はまた、ＤＮＡフラグメントのサイズ決めデータを生成する他の電気泳動システム、例えばゲル電気泳動における使用のために企図され得る。

図１のシステム１００を参照すると、一実施形態におけるＣＥＤＮＡ分析機器１０１は、緩衝液を含み、蛍光標識されたサンプル１２０を受け取るソース緩衝液１１８、ゲルキャピラリー１２２、デスティネーション緩衝液１２６、電源１２８、及び制御装置１１２を備える。ソース緩衝液１１８は、キャピラリー１２２を介して、デスティネーション緩衝液１２６と流体連通している。電源１２８は、ソース緩衝液１１８及びデスティネーション緩衝液１２６に電圧を印加し、ソース緩衝液１１８のカソード１３０及びデスティネーション緩衝液１２６のアノード１３２を介して電圧バイアスを生成する。電源１２８によって印加される電圧は、コンピューティングデバイス１０３によって操作される制御装置１１２によって構成される。ソース緩衝液１１８の蛍光標識されたサンプル１２０は、電圧勾配によってキャピラリー１２２を通して引き込まれ、サンプル内のＤＮＡフラグメントの光学的に標識されたヌクレオチドは、デスティネーション緩衝液１２６に至る途中で光学検出器１２４を通過する際に検出される。蛍光標識されたサンプル１２０内の異なるサイズのＤＮＡフラグメントは、それらのサイズのために異なる時間にキャピラリーを通して引き込まれる。

光学センサ１２４は、ヌクレオチド上の蛍光標識を画像信号として検出し、画像信号をコンピューティングデバイス１０３に通信する。コンピューティングデバイス１０３は、画像信号をサンプルデータとして集約し、コンピュータプログラム製品１０４を利用して統計モデル１０２を操作し、サンプルデータを１ｔｕ以上のベースコールシーケンス及び／又はフラグメントサイズを含む処理済みデータに変換し、ユーザデバイス１０７のディスプレイ１０８上に表示され得るＤＮＡプロファイル、例えば、１つ以上の電気泳動図を生成する。本発明の一実施形態では、ＤＮＡ分析機器１０１は、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓのＲａｐｉｄＨＩＴ（商標）ＩＤシステム又はＲａｐｉｄＨＩＴ（商標）２００システムの１つ以上のバージョンを含むことができる。

予め計算された統計モデル１０２を実装するための命令は、ストレージ１０５に記憶されているコンピュータプログラム製品１０４内のコンピューティングデバイス１０３に存在し、それらの命令はプロセッサ１０６によって実行可能である。本発明の一実施形態では、コンピュータプログラム製品１０４は、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓのＲａｐｉｄＬＩＮＫ（商標）ソフトウェア製品の１つ以上のバージョンを含むことができ、これは、ネットワークインターフェースを介して遠隔位置からコンピューティングデバイス１０３によって全体的又は部分的にアクセスすることができる。プロセッサ１０６がコンピュータプログラム製品１０４の命令を実行している際に、命令又はその一部は、通常、ワーキングメモリ１０９にロードされ、そこからプロセッサ１０６によって命令に容易にアクセスされる。１つの実施形態では、コンピュータプログラム製品１０４は、ストレージ１０５又は他の非一時的なコンピュータ可読媒体に記憶される（異なるデバイス及び異なる場所の媒体に分散されることを含み得る）。代替の実施形態では、ストレージ媒体は一時的なものである。

一実施形態では、プロセッサ１０６は、大規模な並列計算をサポートする少なくとも数千の算術論理演算装置を含むグラフィックスプロセッシングユニット（ＧＰＵ）を含む追加のワーキングメモリ（追加のプロセッサ及び個別に図示されていないメモリ）を含み得る複数のプロセッサを含み得る。ＧＰＵは、一般的な汎用プロセッサ（ＣＰＵ）よりも効率的に関連する処理タスクを実行できるため、機械学習用途で頻繁に利用される。他の実施形態は、効率的な並列処理をサポートするシストリックアレイ及び／又は他のハードウェア構成を含む１つ又は複数の特殊な処理ユニットを含む。いくつかの実施形態では、そのような特殊なハードウェアは、ＣＰＵ及び／又はＧＰＵと連動して動作して、本明細書で説明される様々な処理を実行する。いくつかの実施形態では、そのような特殊なハードウェアは、特定用途向け集積回路等（特定用途向け集積回路の一部を指す場合がある）、フィールドプログラマブルゲートアレイ等、又はそれらの組み合わせを含む。しかしながら、いくつかの実施形態では、プロセッサ１０６等のプロセッサは、必ずしも本発明の趣旨及び範囲から逸脱することなく、１つ又は複数の汎用プロセッサ（好ましくは複数のコアを有する）として実装され得る。

ユーザデバイス１０７は、統計モデル１０２によって実行された処理の結果を表示するためのディスプレイ１０８を含む。代替の実施形態では、統計モデル１０２又はその一部を記憶装置に記憶し、ＣＥ機器１０１及び／又はユーザデバイス１０７に存在する１つ以上のプロセッサによって実行することができる。そのような代替物は、本発明の範囲から逸脱しない。

上述したように、犯罪現場で回収されたサンプルからのＤＮＡプロファイリングは、法医学的検査の「ゴールドスタンダード」となっている。犯罪現場の法医学的証拠を処理することは、サンプル選択、ＤＮＡ抽出及び定量、短いタンデム反復（ＳＴＲ）のＰＣＲ増幅、並びにキャピラリー電気泳動（ＣＥ）によるＤＮＡプロファイルの生成と、多くの労働集約的工程を伴う。緊急サンプルの場合、結果までの時間は、今日の法執行機関の要求によって望まれるものよりもはるかに長いことが多い。

ＲａｐｉｄＤＮＡシステムは、ＤＮＡプロファイルを生成するための高度に自動化されたサンプルから答えまで一貫したプラットフォームである。本発明の実施形態で使用される例示的なＲａｐｉｄＤＮＡシステムは、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓのＲａｐｉｄＨＩＴ（商標）ＩＤシステムであり、科学捜査研究所での使用、及び法執行機関又は他の研究所でない環境での未熟練ユーザによる使用の両方のための分散操作に最適化されている。ＲａｐｉｄＨＩＴ（商標）ＩＤシステムに関する更なる情報は、その全体が参照により本明細書に組み込まれる、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓのＲａｐｉｄＨＩＴ（商標）ＩＤシステムｖ１．０ユーザーガイド（発行Ｎｏ．ＭＡＮ００１８０３９）にある。本発明のいくつかの実施形態において使用される別の例示的なＲａｐｉｄＤＮＡシステムは、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓのＲａｐｉｄＨＩＴ（商標）２００システムである。

本発明のいくつかの実施形態において使用される例示的なＤＮＡ分析装置２００Ａを図２Ａに示す。システム２００Ａの例示的な実施形態は、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓのＲａｐｉｄＨＩＴ（商標）ＩＤシステムを含むが、システム２００Ａの他の実施形態は、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓのＲａｐｉｄＨＩＴ（商標）２００システムを含んでもよい。この実施形態では、機器２００Ａは、ＳＴＲに基づく人物同定（ＨＩＤ）のための完全に自動化されたサンプルからＣＯＤＩＳ（ＣｏｍｂｉｎｅｄＤＮＡＩｎｄｅｘＳｙｓｔｅｍ）まで一貫したシステムを備え、推定された単一ソースサンプルを９０分未満で、１分未満の実践時間で処理し得る。機器２００Ａは、機器２００Ａ上に提供される１つ以上のアレリックラダーのライブラリーを使用して、一部の分析を行ってもよい。キャピラリー電気泳動を実施し、ＳＴＲプロファイルを生成した後、システム２００Ａは、生成されたフラグメントのサイズ決めデータセットを処理のためにＲａｐｉｄＬＩＮＫ（商標）ソフトウェアに転送し、必要であれば、手動でプロファイルを確認する。ＲａｐｉｄＬＩＮＫ（商標）はまた、ＤＮＡ装置のネットワーク全体で試薬供給及びオペレータアクセスを管理する。本発明の一実施形態では、ＲａｐｉｄＬＩＮＫ（商標）ソフトウェアは、コンピュータプログラム製品１０４としてコンピュータ１０３上に常駐し、更なる分析を実行するための命令を含むことができる。ＲａｐｉｄＨＩＴ（商標）ＩＤシステムに関する更なる情報は、その全体が参照により本明細書に組み込まれる、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓのＲａｐｉｄＬＩＮＫ（商標）ソフトウェアｖ１．０ユーザーガイド（発行Ｎｏ．ＭＡＮ００１８０３８）にある。

本発明の一実施形態では、システム２００Ａは、ＤＮＡサンプルを処理するために１つ以上のサンプルカートリッジを使用するように設計される。そのようなサンプルカートリッジは、犯罪現場からのＤＮＡサンプル、又は口腔スワブのＤＮＡサンプル（例えば、ＤＮＡについて人の頬の内側をスワブするとき）を処理し得る。本発明の実施形態で使用される１つの例示的なカートリッジは、図２Ｂに示される、口腔スワブを処理するためのＲａｐｉｄＨＩＴ（商標）ＡＣＥサンプルカートリッジ２００Ｂである。一実施形態では、カートリッジ２００Ｂは、ＧｌｏｂａｌＦｉｌｅｒ（登録商標）Ｅｘｐｒｅｓｓ又はＡｍｐＦＬＳＴＲ（登録商標）ＮＧＭＳＥＬｅｃｔ（商標）Ｅｘｐｒｅｓｓ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ，Ｉｎｃ．）マルチプレックスを利用する。ＰＣＲ増幅、電気泳動、及び増幅産物の分析は全て、システム２００Ａ内で行われる。

例示的なサンプルカートリッジ２００Ｂなどのサンプルカートリッジとは別に、キャピラリー２１０Ｃ及びゲルカートリッジ２２０Ｃを含む、器具２００Ａの他の消耗品が、図２Ｃに示される一次カートリッジ２００Ｃ上に提供され、これは、器具２００Ａ上に設置され、器具２００Ａの定期的なメンテナンスの一部として定期的に交換され得る。器具２００Ａはまた、温度及び湿度を監視する内部環境センサを含む。

図３は、本発明の一実施形態で使用されるＳＴＲ分析ワークフロー３００を含む。本発明の一実施形態では、システム１００は、機器２００Ａ、サンプルカートリッジ２００Ｂ、及びコンピュータプログラム製品１０４を含むいくつかの構成要素を使用する。工程３１０では、サンプルが取得され（例えば、口腔スワブから）、ＳＴＲ化学物質を含有するサンプルカートリッジ２００Ｂが調製される。次に、機器２００Ａ上のユーザインターフェースは、起動／呼び出しに応じて、工程３２０において、サンプルＩＤを機器２００Ａに入力すること、及び工程３３０において、サンプルカートリッジを機器２００Ａに挿入し、サンプルランを開始することを含む、ルーチン使用にユーザを導く。工程３４０において、機器２００Ａは、約９０～１１０分でＤＮＡプロファイルを生成する。工程３５０においてサンプルランが完了すると、サンプルカートリッジは機器２００Ａから取り外され、機器２００Ａは結果画面を表示する。器具２００Ａの例示的な状態インジケータは、ＤＮＡプロファイルが生成され、品質スコアフラグを含まないことを示す緑色、ＤＮＡプロファイルが１つ以上の品質スコアフラグを含んで生成されたことを示す黄色、又はＤＮＡプロファイルが生成されなかったことを示す赤色を含む。工程３６０において、生成されたＤＮＡプロファイルは、コンピュータプログラム製品１０４での更なる分析のためにコンピュータ１０３にエクスポートされ得る。

図４は、本発明の実施形態によるＳＴＲ分析サンプルランからの例示的なスキャンのセットを示す。このスキャンのセットは、機器２００Ａによって生成されたＤＮＡプロファイルを含む。各スキャンについて、各スキャンの上部に沿って走る水平ｘ軸は塩基対の数を示し、ｙ軸に沿って上昇するピークは、蛍光標識フラグメントが検出された蛍光値を示す。

スキャン４１０は内部レーン標準（ＩＬＳ）を表し、これは既知のサイズのＤＮＡフラグメントのセットを含む。スキャン４１０の下部のｘ軸に沿った各ピークの下のボックスは、そのピークで検出されたフラグメントの塩基対の数を示す。スキャン４２０～４６０は、様々なＤＮＡ遺伝子座で対立遺伝子を標識するために使用される異なる色で示される５つの異なる蛍光色素マーカー（例えば、ＦＡＭ、ＶＩＣ、ＮＥＤ、ＴＡＺ、ＳＩＤ）を表す。スキャン４２０～４６０の各々の上部に沿って並ぶ長方形のボックスは、ＤＮＡ遺伝子座の名称で示され、その遺伝子座についての対立遺伝子のサイズ範囲を示し、スキャン４２０～４６０の各々の下部ｘ軸に沿って走る番号付けされたボックスは、対立遺伝子が検出されたピークを示し、対立遺伝子サイズで示される。各サンプルは、一般に、母親由来及び父親由来の染色体ＤＮＡを表す各ＤＮＡ遺伝子座について２つのピーク（異なる対立遺伝子を表す）を示すが、いくつかの遺伝子座は、１つのピークのみを有し得る。したがって、アレリックラダーは、複数のＤＮＡ遺伝子座の各々についての既知の対立遺伝子のセットを表す。しかし、本明細書中の他の場所で議論されるように、試験サンプル及びアレリックラダーについてのＳＴＲ分析サンプルランのフラグメントサイズ決め結果は、日ごと又は時間ごとに変化し得るが、必ずしもランダムではない。他の因子の中でも、温度変化、ゲル作製後時間、ゲルタイプ、及びゲル状態は全て、見かけのフラグメントサイズを変化させ得る。これらの変動に対応する１つの方法は、アレリックラダーサンプルなどの標準サンプルを、試験サンプルの各セットのランと共に含めることである。

図５は、本発明の実施形態においても使用され得る従来技術のＳＴＲ分析ワークフロープロセスを示す。工程５１０において、アレリックラダー標準サンプルランが実施される。サンプルのセットを並行して実行することができる機器では、上記変動は、各セットに標準サンプルを含めることによって対処することができる。ＲａｐｉｄＨＩＴ（商標）ＩＤ装置などの単一キャピラリー装置では、好ましくは試験サンプルと可能な限り同様の条件内で、かつ同じ装置で短時間内に標準サンプルのランを行うことが一般的である。工程５２０において、ユーザは、予測されたピークがアレリックラダー標準サンプルから得られることを確認する。工程５３０において、アレリックラダー標準サンプルのラン結果が記録され、更なる分析のために記憶される。工程５４０において、被験者由来の１つ以上の試験サンプル（例えば、容疑者、参考人、又は犯罪現場から得られた法医学的サンプル）が、機器上で実行される。工程５５０において、試験サンプル中の対立遺伝子は、対立遺伝子標準サンプルラン結果由来のピークを試験サンプルラン結果と比較することによって同定される。次いで、工程５６０において、被験者の試験サンプルが参照のものと一致する（例えば、犯罪データベースに含まれる個人の身元、又は容疑者若しくは犠牲者の身元と一致する）かどうかが決定される。

図６は、本発明の実施形態によるＳＴＲ分析ワークフロープロセス６００を示しており、これは、上記の図５に記載されているような既知の手法で使用される標準サンプルランの必要性をなくし、それによって、ＤＮＡ分析及び同定プロセスをより高速及び／又はより正確にすることができる。図６のアプローチは、そうでなければ固定された安定なシステムについて、ＣＥ機器上で実行されるサンプル中のフラグメントの見かけのサイズに影響を及ぼす最も顕著な影響のうちの２つが、温度及びゲルの分解程度であるという観察結果を利用する。温度及びゲル分解が所定の対立遺伝子の見かけのフラグメントサイズの摂動に対して顕著な効果を有する１つの理由は、これらの２つの変数が一定に保持することが事実上不可能であることである。

工程６１０において、プロセスは、温度及びゲル分解（及び可能性として、機器又はサンプルカートリッジタイプ／モデル等の付加的パラメータ）が変動した、多くのサンプルランから見かけサイズを構築することによって開始する。工程６２０における１つのアプローチにおいて、一連の較正ランがアレリックラダーサンプルに対して実施され、温度及びゲル分解が厳密に制御される、一連の実験を実施することによって、経験的モデルを、これらの影響（例えば、温度及びゲル分解）の各々に対する各フラグメントの応答を決定するために構築できる。これらの応答を線形に結合することによって、任意の条件セットでのフラグメントの見かけのサイズが推定され得る。また、実験及び経験的観察を介して、そのような推定が、上記条件のそれぞれの限定された範囲内で正確であることを示すことができる。

あるいは、工程６２０において、フラグメントのサイズ決めデータに対するこれらの影響を考慮するための異なるアプローチは、温度及びゲル分解がユースケースの多様なセットにわたってランダムに変化した（及び／又は未知である）多くの以前のサンプルランのトレーニングセットから各対立遺伝子についての見かけのフラグメントサイズを構築し、主成分分析（ＰＣＡ）を行ってＰＣＡに基づく移動モデルを生成することである。このＰＣＡに基づくアプローチは、このタイプの統計的分析が、一般に、上述の経験的アプローチよりも多くの実行を考慮に入れることができる及び／又は考慮に入れるため、ノイズを低減するという更なる利点を有する。当業者によって理解され得るように、ＰＣＡに基づく分析は、温度及びゲル分解の応答を別々に提供せず、むしろ、上述したような経験的移動モデルにおける制御された実験によって導かれる単離された温度及びゲル分解応答と同じ推定セットを作成するために線形結合され得る２セットの応答を提供する。特に、温度及びゲル分解の単離された影響からの応答はそれぞれ、ＰＣＡ出力の線形結合として再構築され得ることが期待される。本明細書の他の箇所で述べたように、ＰＣＡは、当技術分野で知られているいくつかの「相関発見」又は次元削減解析方法の代表と見なされるべきである。このような分析方法は、移動挙動の変動に起因するアレリックラダーにおける変動を十分に捕捉するために２つ以上のパラメータを利用し得ることにも留意すべきである。

モデルを構築するためにとられたアプローチにかかわらず、そのようなモデルは、モデルが有効である任意の条件における任意のフラグメントの見かけのサイズを予測することができる。したがって、任意の条件セット下で参照ランの結果を予測することが可能であり、逆比較によって、どの条件下で任意の参照ランが行われたかを推論することが可能である。

したがって、ＰＣＡに基づく移動モデルが選択されるか、又は経験的な移動モデルが選択されるかにかかわらず、別個の標準サンプルランを並行して又は短時間内に、試験サンプルランと同じ又は類似の条件下で完了させる必要なく、正確な分析を達成することができる。工程６３０において、試験用生物学的サンプル（例えば、顧客、被験者、容疑者、犠牲者、又は犯罪現場由来）は、ＤＮＡ法医学的又は父子分析のために実行される。工程６４０において、生成された経験的又はＰＣＡに基づく移動モデルを用いて、試験サンプルに十分に適合する１つ以上のアレリックラダーを決定する。工程６５０において、法医学的分析試験サンプルの結果を、移動モデルにおいて決定されたアレリックラダーと比較し、試験サンプル中の対立遺伝子を同定する。このプロセスは、全ての試験サンプルランが完了した後、工程６６０で終了し、容疑者、犠牲者、及び／又は犯罪現場の試験サンプルラン結果が一致するかどうかを判定することができる。

図７は、本発明の実施形態による経験的移動モデルを構築するためのプロセスを示す。工程７１０において、ゲル分解及び温度は、経験的モデルの２つの変数として定義される。本発明の他の実施形態では、他のＣＥシステムは、アレリックラダー間の全ての変動をカバーするために、２つ以上の変数又はパラメータを利用し得る。工程７２０において、各変数に対する実験範囲が決定され、各変数に対する実験範囲内の基準条件が選択される。

工程７３０において、各変数について実験を行い、他の変数を基準条件で一定に維持しながら、アレリックラダーサンプルに対する一連の較正ランが変数の関連範囲にわたって行われる実験が行われる。

本発明の一実施形態では、基準条件は、実験条件が両方の実験で共通である各実験におけるデータ点の１つとして使用することができ、一方の変数を基準条件に固定したまま、他方の変数を変化させることができる。基準条件が実験に明示的に含まれるか否かにかかわらず、本発明の一実施形態では、基準条件は戦略的に、例えば、組み合わせた範囲の中心に選択される。

工程７４０において、パラメータは、基準条件において０であり、任意の非０値がその条件に対する変数の偏差を示すように、各変数に対して定義される。パラメータは、変数の線形関数である必要はない。例えば、Ｔが温度であり、Ｔ₀が基準条件の温度である場合、ｌｏｇ（Ｔ）－ｌｏｇ（Ｔ₀）をパラメータとして選択することは、最終モデルの精度を改善することが見出された場合に有効である。本発明の一実施形態では、ゲル導電率又は一定温度での分解時間が、ゲル分解のパラメータ（又は代理）として使用される。

工程７５０において、各変数について、実験ランで測定された各対立遺伝子の見かけのサイズが集計され、各対立遺伝子が、調べられているパラメータに対して別々にプロットされる。次に、回帰パラメータ（線形フィットパラメータ）を各プロット（各対立遺伝子）について決定する。工程７６０において、各変数について、各対立遺伝子の傾きが集計される。この集合は、この変数の「特性成分」を構成する。

工程７７０において、各変数について、各対立遺伝子の切片が集計される。この集合は、変数の「参照ラダー」を構成する。経験的モデル実験が、議論されるような制御された厳密な様式で忠実に行われる場合、２つの変数についての参照ラダーは、非常に類似しているはずであり、基準条件での実験ラダーからの結果に非常に類似しているはずである。本発明の一実施形態では、対立遺伝子の各々についての参照ラダーの平均、又は基準条件でのいくつかの実験ラダーの平均をとることによって、共通の参照ラダーを自由裁量で選択することができ、いずれも、（実験からの組み合わされたデータセット又は検証データのセットと比較した場合に）経験的モデルのより良好な精度を生じることが証明される。

図７の経験的線形回帰法を使用して生成されたモデルは、図１５に関連して以下で更に図示され説明されるＰＣＡ生成モデルと同様の形態であり得る。換言すれば、このモデルは、例えば、温度及びゲル作製後時間に対応する成分を含むが、これらの成分は、任意の特定の物理的パラメータを参照することなく表現され得、各成分は、各対立遺伝子について所定の正規化された値を有する。十分に良好な適合ラダーが見出されるまで、異なるラダーがモデルから生成されることを可能にするために、各成分についての更なる「重み」値がモデルに加えられる。これは、図１５に関連して更に示され説明される。便宜上、本発明の一実施形態では、各成分の値は、その最大絶対値が１に等しくなるように、対応する重みの単位が塩基対であるように、正規化することができる。そのような正規化された値は、説明を容易にするために本明細書に含まれるが、必須ではない。

図８Ａは、本発明の実施形態による経験的移動モデルについてのゲル分解変数の例示的な実験結果を示す。グラフ８１０Ａには、ゲル分解に対するＧＦＥ（ＧｌｏｂａｌＦｉｌｅＥｘｐｒｅｓｓ）アレリックラダーの全体的な応答が示されている。ｘ軸に沿ってプロットされた分離電流は、ゲル分解の代用として使用され、電流が高くなると、ゲルがより分解されることを意味する。本発明の一実施形態では、ゲルは、ある期間にわたって機器中に残り、アレリックラダーは、同じゲルを使用して規則的な間隔で泳動される。例えば、一実施形態では、ゲル分解速度を増加させるために、アレリックラダーサンプルランを、１日１回、数週間、室温で（例えば、機器の冷却器をオフにして）行われる。

この実験における温度は一定に保持される。実験的に、本発明の実施形態では、ゲル分解と各対立遺伝子のフラグメントサイズ（塩基対又はｂｐの数におけるパターン重みとも呼ばれる）との間の関係が、特定の範囲内で線形であることを示すことができる。ゲルが分解されればされるほど、フラグメントのサイズ決めにおけるシフトはより大きくなり、分子はサイズがより大きく見える。例えば、グラフ８１０Ａに示される全体的な応答挙動を見ると、最も強い相対活性を有する対立遺伝子の見かけのフラグメントサイズは、ゲルが分解し、分離電流が２６マイクロアンペアであり、パターン重量が０ｂｐである参照ランとして１８．２マイクロアンペアでのランを仮定する場合、およそ１塩基対シフトしていることが分かる。

グラフ８２０Ａには、ゲル分解に対するアレリックラダー中の各対立遺伝子の相対応答が示されている。ラダー中の各ピークを考慮すると、全ての他の対立遺伝子は、正規化された相対活性値のｙ軸上で１と測定されるピークを有する対立遺伝子よりもいくらか少ない割合でシフトする。

図８Ｂは、本発明の実施形態による経験的移動モデルについての温度変数の実験結果を示す。グラフ８１０Ｂでは、温度に対するＧＦＥ（ＧｌｏｂａｌＦｉｌｅｒＥｘｐｒｅｓｓ）アレリックラダーの全体的な応答は、グラフ８１０Ｂに表される３つの異なる機器ヒーターで温度がシフトされる場合に示されるように、線形関係を有することが示され、キャピラリーにおける温度シフトは、最も高い応答を有する。この実験におけるゲル分解（例えば、分離電流）は、一定に保持される。実験的に、本発明の実施形態では、温度と各対立遺伝子のフラグメントサイズ（塩基対又はｂｐの数におけるパターン重みとも呼ばれる）との間の関係が、特定の範囲内で線形であることを示すことができる。一般に、（特定の選択されたＩＬＳと組み合わせたＧＦＥについて）、温度が低いほど、分子のサイズが大きく見える。同様に、グラフ８２０Ｂでは、アレリックラダー中の各対立遺伝子の温度に対する相対応答が示されている。上記のように、ラダー中の各ピークを考慮すると、全ての他の対立遺伝子は、相対活性のｙ軸上で１と測定されるピークを有する対立遺伝子よりもいくらか少ない割合でシフトする。

主成分分析
フラグメント分析電気泳動図を評価する場合、ピークによって表されるフラグメントの見かけのサイズは、既知のサイズの参照ピークのセット、内部レーン標準（ＩＬＳ）に対するピークの相対位置を内挿することによって決定される。次に、決定されたサイズは、それぞれのフラグメント中の塩基対の数を推定し、全てのフラグメントが一緒になってサンプルの固有の同一性を定義し、ＨＩＤの分野では、そのソースを１人又は数人の個人として暗示する。残念なことに、ＩＬＳとフラグメントピークとの間の相対移動速度は変化するため、内挿されたサイズは、異なる時間で実行された単一サンプルに対してさえ、ラン間で変化する。したがって、塩基対カウントを推測するための「ルックアップ」表又はラダーは、常に同じであるとは限らない。先行技術のアプローチは、マッチング、すなわち、任意の所与のサンプルに最大に一致するラダーを選択するために、システム上で利用可能な限られたセットのラダー、ラダーライブラリーを提供してきた。

他の固定されたシステムでは、ゲルがどの程度分解しているか、つまり「古い」かどうか、及びゲル温度（組み立てられ制御されたキャピラリーヒーターの温度と、例えば晴れた窓辺などの環境温度との組み合わせ）の２つのパラメータが、相対移動速度を決定できる。ゲル孔サイズ及び増幅されたフラグメントの変性の程度など、他の根底にある物理的因子が、移動におけるこれらの差異を駆動し得、これらの各々は、少なくとも上記のパラメータによって影響されることを留意すべきである。

分解及び温度の影響は同じではない。例えば、１つの例では（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓのＲａｐｉｄＨＩＴ（商標）ＩＤ機器で使用されるＧＦＥ化学物質及びＩＬＳを利用）、より分解されたゲルは、遺伝子座Ｄ１９Ｓ４３３から始まるピークをもたらし、比較的遅く移動させ、より大きく見えるようにする。一方、温度は、ＩＬＳと比較して、これらの特異的フラグメントの移動に実質的に全く影響を及ぼさない。

一般に、ゲルがより分解するほど、又は温度が低いほど、基準条件又は他の理想的条件下での仮想ランのサイズと比較して見かけのサイズが大きくなる。しかしながら、各フラグメントは各パラメータに対して異なる応答を有する。上記の例について、グラフ８１０Ｂに示されるように、又は例えば、以下で議論される図１０のグラフ１０００の構成要素Ｃ２に示されるように、温度が変動する場合、遺伝子座Ｄ１８Ｓ５１の長いフラグメントは、ＦＧＡの長いフラグメントピークのシフトの約７０％しかシフトせず、ＳＥ３３の短いフラグメントと長いフラグメントとの間に約５０％の応答の差がある。いくつかのフラグメントピークは、他の方向にもシフトし、より短く見える。これら全ての相対的応答のリストは、移動がパラメータによって影響を受ける「パターン」又は特性成分を説明する。

したがって、任意の所与のランについて、正確な条件が既知であると仮定すると、ピークの各々についてのシフトは、２つの効果を組み合わせることによって計算することができる。逆に、サンプルランのピークサイズから、そのランが仮想基準理想ランに対して、及びその代表的アレリックラダーによって、任意の他のランに対して、どれだけゲルの温度が高かったか、低かったか、又は分解していたかについて、最良の推定を行うことができる（一般に、常にノイズがあるため）。この代表的アレリックラダーによって比較を行うために、同じセットのピークを有する必要はなく、すなわち、発明者らが比較するランにおいて、異なるセットのフラグメントを有する異なるサンプルが使用され得る。仮想参照ランは、本明細書において「代表的アレリックラダー」として説明され、全ての想像可能なフラグメントについての理想的なピークサイズを含むと考えられ得る。

時間と共に、多くのサンプルランが実行され、全てがこれらの２つのパラメータによって影響される。パラメータの各々が各ランにどの程度影響を与えたかが先験的に知られていない場合であっても、データを使用して、集団内の全てのシフトを最もよく説明できる応答のセット（又は「パターン」）を見つけることができる。これを行うための１つの機械学習手法は、主成分分析（ＰＣＡ）と呼ばれる。

安定したＣＥシステムは、前述の変動を表す２つの重要なＰＣＡ成分を生じるはずであると予想される。本発明の実施形態の移動モデルは、以下の分解に基づいて、各ラダー

（各対立遺伝子に関するｂｐリスト）を次式に分解する。

このとき、

は、「代表的ラダー」であり、

は、ｎ異なるパターン（成分、摂動）であり、ｗ_ijは、各パターン（ｊ）が各ラダー（ｉ）に寄与する程度、すなわち、重みであり、

（又は

）の重みは、常に１であると制約されることに留意されたい。最後に、

は、モデルによって説明できない任意の剰余である（ノイズ又は説明されないパターン）。本発明のいくつかの実施形態では、ｎは２又は３などの小さい数である。

であるモデルの定義は可能であるが、これは典型的にはｎのインクリメントを必要とすることに留意されたい。

を決定するための複数のアプローチがある。１つの例は、実験的アプローチの使用である。別の例は、

の決定に過去の参照データを使用すること、及び、

の決定にそのような過去の参照データをＰＣＡと組み合わせて使用することである。別の例は、当業者に知られている他の機械学習アルゴリズムを使用することである。

トレーニングデータを完全なラダーサンプルのラン由来のデータに限定する必要なく、試験サンプルデータから有効なモデルを生成することができるように、他の次元削減（又は相関発見）アルゴリズムがサンプルを不完全なラダーとして扱うことができる場合があることに留意されたい。そうするための１つのアプローチは、欠けているピークの剰余を常に０にし、次いで、総誤差を最小化する

を見つけることである。このアプローチの１つの利点は、新しい試験サンプルを実行する通常の過程において機器が使用されるときに、より大きなデータセットに対して経時的にモデルを訓練することを可能にすることである。

図９は、本発明の実施形態によるＰＣＡに基づいて移動モデルを構築するためのプロセスを示す。ＰＣＡは、変動を強調し、データセット内の強いパターンを明らかにするために使用される技法である。本発明の一実施形態では、ＰＣＡは、主成分を見つけるために相関行列の特性を利用する。主成分は、主成分が、任意の選択された物理的パラメータによる変化ではなく、データセットにおける最も強い依存性を記述するという点で、上述のゲル分解及び温度などの特性的な成分とは異なる。例えば、５つの数列のデータセットの場合、ＰＣＡアルゴリズムは、固有値を伴う５つの固有ベクトルを返すことになり、これらの固有値は、完全なデータセットを再構成するために線形に再結合され得る。しかしながら、より重要なことには、数列が互いに相関している場合、小さな誤差でデータセットを再構成することができる場合には、最も高い固有値に関連付けられた固有ベクトルのサブセットのみを使用すればよい。本発明の実施形態において上述したように、見かけのフラグメントサイズの変動は、温度及びゲル分解の変化によって最も顕著に影響を受けることが見出される。したがって、本発明の一実施形態では、２つの主成分を有するＰＣＡに基づくモデルを使用することができる。

ＰＣＡに基づく移動モデルを構築するためのプロセスは、工程９１０で始まり、ここで、機器の動作範囲内の種々の条件（例えば、温度及びゲル分解）を表す実験ラダーのトレーニングセットが得られる。ＰＣＡに基づく移動モデルでは、各ラダーランの条件は既知である必要はない。加えて、ＰＣＡに基づく移動モデルは、それらがトレーニングデータ内にないときにそれらの条件をモデル化することを可能にするので、全ての条件がトレーニングセット内にある（又は全ての条件に近い）必要はない。本発明の一実施形態では、全ての（又は実行可能な限り多くの）実際の使用事例を代表する、したがって、様々な条件の全ての（又は実行可能な限り多くの）条件を代表する実験ラダーのセットが、トレーニングセットとして使用される。

工程９２０において、基準条件が戦略的に、例えば、機器の動作範囲の中心又はその付近で決定される。次に、工程９３０において、代表的アレリックラダーは、多くのラダーがこの基準条件で実行されるべき実験結果の平均（又は中央値）を表すように決定される。本発明の一実施形態では、代表的アレリックラダーは、各対立遺伝子についてのトレーニングセットの実験結果の平均又は中央値であると決定される。いくつかの実施形態では、各対立遺伝子について最も大きいフラグメントサイズ値及び最も小さいフラグメントサイズ値を有するトレーニングセットにおける１つ以上のアレリックラダーは、平均又は中央値を計算する前に廃棄され得る。

本発明の他の実施形態は、代表的アレリックラダーを決定するための異なる方法を利用する。一実施形態では、多くのラダーが基準条件で実行される実験が実施され、この実験において決定された各対立遺伝子の平均サイズが、代表的アレリックラダーであると解釈される。別の実施形態では、基準条件を中心とするトレーニングセットのサブセットが選択され、サブセットの平均又は中央値が、代表的アレリックラダーであると解釈される。別の実施形態では、平均ラダーに最も類似するトレーニングセット中の単一の実験ラダーは、代表的アレリックラダーであると決定されるか、又は平均ラダーに類似するいくつかの実験ラダーを選択し、代表的アレリックラダーであるそれらの平均をとる。

工程９４０において、トレーニングセット中のラダーの各々について、各対立遺伝子の偏差は、各対立遺伝子について、代表的アレリックラダーの対立遺伝子サイズを差し引くことによって測定される。次いで、工程９５０において、トレーニングセットラダーの各々が各対立遺伝子についての偏差を列挙する行として表される行列が作成される。工程９６０において、主成分分析（ＰＣＡ）ツールの行列演算を実行して、ＰＣＡに基づく移動モデルを生成する。本発明の一実施形態では、ＭＡＴＬＡＢ並びに当業者に知られている他の類似の数値計算ツール及びプログラミング言語を使用して、ＰＣＡの行列演算及び本明細書で説明する他の統計分析を実行することができる。

本発明の別の実施形態では、代表的アレリックラダーは、ＰＣＡを使用して推定され得る。予備的なＰＣＡに基づく移動モデルは、工程９４０に示されるように、各対立遺伝子の偏差を計算することなく開発され得る。この実施形態では、ＰＣＡを適用して、任意の代表的ラダーを差し引くことなくデータを記述する予備成分を決定する。次に、最も強い予備成分のどれだけを使用して各ラダーを最良の二乗適合近似に再構成する必要があるかが決定される。次に、これらの値の中央値が求められ、上記最も強い成分における値の各々が、その中央値と乗算される。次いで、この一連の数は、代表的アレリックラダーとして使用される。別の実施形態では、「代表的ラダー」を全く具体的に定義せず、むしろ最終モデルとして当該予備的ＰＣＡベースモデルを使用することが可能である。この実施形態では、「代表的ラダー」の機能は、ＰＣＡ分析の第１の構成要素によって適応され、したがって、２つではなく３つの主成分を使用するようにモデルを拡張することが推奨される。

図１０は、本発明の実施形態によるＰＣＡに基づく移動モデルにおいて生成される２つの最上位主成分の２つの線形結合のグラフ１０００を示す。ＰＣＡ出力から戻された最上位の２つの主成分によって構成することができる任意の線形結合も、これらの２つの線形結合成分から構成できることに留意されたい。成分Ｃ１は、ゲル分解に関連する経験的に同定された摂動を厳密に追跡する摂動を示し、Ｃ２は、温度変化に関連する経験的に同定された摂動を厳密に追跡する摂動を示す。この類似性は、図１０の２つの主成分のグラフを、図８Ａのグラフ８２０Ａ（ゲル分解について）及び図８Ｂのグラフ８２０Ｂ（温度変化について）に示される実験結果と比較することによって見ることができる。先に論じたように、フラグメントのサイズ決めデータにおける変動に対する２つの最も強い影響因子は、温度変化及びゲル分解であると予想される。

図１１は、標準サンプルランが必要とされない本発明の実施形態によるＰＣＡに基づくＳＴＲ分析ワークフロープロセスを示す。工程１１１０において、機器の動作範囲内の実験的アレリックラダーのトレーニングセットを使用して生成された、予め計算されたＰＣＡに基づく移動モデルがアクセスされる。工程１１２０において、試験用生物学的サンプル（例えば、容疑者又は犠牲者の口腔スワブ、犯罪現場サンプル）のＰＣＲ増幅フラグメントを移動させ、走査することによって、試験用生物学的サンプルのフラグメントのサイズ決めデータが得られる。工程１１３０において、試験サンプルについてのフラグメントのサイズ決めデータに適合する合成アレリックラダーが、ＰＣＡに基づく移動モデルを使用して生成される。一実施形態では、合成アレリックラダーは、ラダーのセットからラダーを選択することによって生成され、ラダーのセットは、有効な動作範囲内の規則的な間隔の主成分値のセットに対応する。別の実施形態では、生成された合成アレリックラダーは、主成分値の有効な動作範囲内でランダムに生成される。

工程１１４０において、同定された合成アレリックラダーが試験サンプルフラグメントのサイズ決めデータに十分に適合するか否かについての決定がなされる。本発明の一実施形態では、同定された合成アレリックラダーが、試験サンプルフラグメントのサイズ決めデータ中の各対立遺伝子について０．１０ｂｐ以内である測定値を含まない場合、同定されたラダーは十分に適合しない。別の実施形態では、同定された合成アレリックラダーが、試験サンプルフラグメントのサイズ決めデータ中の各対立遺伝子について０．３５ｂｐ以内である測定値を含まない場合、同定されたラダーは十分に適合しない。工程１１４０に対する答えが「はい」である場合、工程１１６０において、合成アレリックラダーを使用して、どの対立遺伝子が試験サンプル中に存在するかを決定する。工程１１４０における答えが「いいえ」である場合、工程１１５０において、予め計算されたＰＣＡに基づく移動モデルを使用して、試験サンプルフラグメントのサイズ決めデータに対する合成アレリックラダーの適合を（モデルにおける重みを調節することによって）調節する。本発明の一実施形態では、十分な適合を有する合成ラダーが構築され得ない試験サンプルについて、十分な適合である合成ラダーを見出すプロセスを中断するための機構が、実装され得る（例えば、予め決定された数の調整の繰り返しに達した後にプロセスを中断する）。

本発明の一実施形態では、十分な適合を達成するために２つの部分がある。第１の部分では、適合のスコアが定義され、適合を最適化するためにアルゴリズムが使用される。本発明の一実施形態において使用される試験サンプル又はラダーに適合する合成ラダーを生成するために、モデルの重みを調整及び／又は最適化するためのアルゴリズムの例は、Ｍａｔｈ．ＮＥＴツールキットにおいて利用可能なＢｒｏｙｄｅｎ－Ｆｌｅｔｃｈｅｒｓ－Ｇｏｌｄｆａｒｂ－ＳｈａｎｎｏＢｏｕｎｄｅｄ（ＢＦＧＳ－Ｂ）アルゴリズムである。このアルゴリズムは、この目的のために使用することができる多くの可能な最適化アルゴリズムのうちの１つである。この場合、アルゴリズムは、関数Ｆ（ｗ₁，ｗ₂）の最小値を見出し、ここで、ｗ₁及びｗ₂は、合成ラダーを再構築するためにモデルにおいて使用される重みである。関数Ｆは、良好な適合が小さい数を返すように定義される。アルゴリズムは、関数を検査し、最適化関数Ｆについて最適化された最小の数を返すｗ₁及びｗ₂の値を見つける。最適化アルゴリズムは、典型的には、最適化のために追加のパラメータを使用する。そのようなパラメータの例は、ｗ₁及びｗ₂の許容範囲である。別の例は、ｗ₁及びｗ₂の値を決定する精度である（例えば、パラメータ公差）。Ｆの一例は、サンプル中の各ピークについて、所与のｗ₁及びｗ₂について最も近い合成ピークを見つけ、上記サンプルピークと上記合成ピークとの間の塩基対の絶対差を計算し、全てのピークについて算術平均を返すことである。まれな遺伝子型及び予期しないアーチファクトの存在を可能にする別の例は、上記算術平均を計算する前に２つの最大差を除外することである。別の例は、上記算術平均の代わりに絶対差の和を使用することである。

第２の部分では、適合が十分であると考える前にどれだけの最適化が必要であるかが決定される。本発明のいくつかの実施形態では、それらの絶対最大値が１であるように正規化された成分について、ｗ₁及びｗ₂は、０．３５ｂｐ又は０．１ｂｐ又は０．０１ｂｐの「パラメータ公差」で最適化され得る（＝ｗ₁及びｗ₂値を決定する精度、上記参照）。これは、アルゴリズムが、この公差に対してＦを最小化するｗ₁及びｗ₂を決定したと「結論付ける」まで反復することを意味し、すなわち、理論的最小値は、無限に最適化する場合、返された値の０．３５ｂｐ又は０．１ｂｐ又は０．０１ｂｐ以内である。成分の他の絶対最大値については、パラメータ公差をこの数で除算して同じ効果を達成することができる。（重みが０．３５ｂｐ以内である場合、これは、成分が１に正規化されている場合、最も活性な対立遺伝子の耐性が０．３５ｂｐであり、他の全てがより良好であることを意味する。

図１２は、ここでも標準サンプルランが必要とされない、本発明の別の実施形態によるＰＣＡに基づくＳＴＲ分析ワークフロープロセスを示す。図１２のプロセスは、機器の所望の動作範囲内の複数の合成アレリックラダーが予め生成され、記憶されているという点で、図１１のプロセスとは異なる。主成分の範囲を表すアレリックラダーの予め生成されたセットを有することは、ＰＣＡに基づく移動モデルを使用するＳＴＲ分析における計算要件を減少させ得る。更に、図１１及び１２は、ＰＣＡ作成モデルからラダーを生成することを参照するが、図１１及び１２の工程は、他の開示された方法を介して生成された移動モデルに適用される。

工程１２２０において、試験用生物学的サンプル（例えば、容疑者の口腔スワブ、顧客、容疑者若しくは被害者、又は犯罪現場サンプル）のＰＣＲ増幅フラグメントを移動させ、走査することによって、試験用生物学的サンプルのフラグメントのサイズ決めデータが得られる。工程１２３０において、試験サンプルのフラグメントのサイズ決めデータに最も密接に一致する、予め生成され記憶された合成アレリックラダーが同定される。一実施形態では、記憶された実験的に得られたアレリックラダーのセットは、合成アレリックラダーのセットと共に含まれ、記憶された実験的に得られたアレリックラダーは、合成アレリックラダーの代わりに同定され得る。工程１２４０において、同定された合成アレリックラダーが試験サンプルフラグメントのサイズ決めデータに十分に適合するか否かについての決定がなされる。工程１２４０に対する答えが「はい」である場合、工程１２６０において、同定された合成（又は記憶された天然）アレリックラダーは、どの対立遺伝子が試験サンプル中に存在するかを決定するために使用される。工程１２４０における答えが「いいえ」である場合、工程１２５０において、予め計算されたＰＣＡに基づく移動モデルを使用して、上記のように、適合が十分であると決定される（又はプロセスが中止される）まで、試験サンプルフラグメントのサイズ決めデータに対する合成アレリックラダーの適合を調整する。別の実施形態では、予め記憶されたラダーの密度は、最初に同定された合成（又は天然）アレリックラダーが試験サンプルに十分に適合するような密度であり、最適化工程１２４０及び１２５０は実施されない。

図１３Ａは、ラダーライブラリーのＰＣＡ分析のグラフ表示を示す。グラフ１３００Ａは、各ラダーに対応するそれぞれの成分Ｃ１及びＣ２に対する重みｗ₁及びｗ₂を示す、「ナイーブ」（例えば、密度又はカバーエリアに特に注意せずに手動で整理した）ラダーライブラリーのＰＣＡ分析を示す。図１３Ａにおいて、成分Ｃ１及びＣ２は、ＰＣＡ分析から得られた主成分の線形結合であり、Ｃ１は、ゲル分解とより関連する成分である。Ｃ２は、温度変化とより関連する成分である。黒い点はアレリックラダーライブラリーを表す。色付きの点は、試験サンプルランを表す。グラフ１３００Ａに示されるように、ＰＣＡ分析は、ナイーブラダーライブラリー中のアレリックラダーが、１３１０Ａで示される小さな範囲の成分値の近くに大きくクラスター化されることを明らかにする。クラスター１３１０Ａから遠く離れた合成ラダーに十分に適合する重みｗ₁及びｗ₂を有する試験サンプルは、赤色の点によって示されるように、ラダーライブラリー中のラダーのいずれかに対して有効なマッチ生成に失敗する可能性がより高いが、緑色の点は有効なマッチを示す。ライブラリー中の全てのラダーは、２つのパラメータを用いて十分に説明され得る。

図１３Ａでは、色を用いて、特定の試験サンプルについての最大偏差（モデル誤差＋ノイズ）を示してもよく、例えば、赤色＝マッチ失敗、黄色＝０．３５～０．５ｂｐ、一方、全ての緑色＝モデル誤差＋ノイズが小さく、有効なマッチである。

図１３Ｂは、本発明の実施形態による合成ラダーライブラリーのＰＣＡ分析のグラフ表示を示す。グラフ１３００Ｂは、各ラダーに対応するそれぞれの成分Ｃ１及びＣ２に対する重みｗ₁及びｗ₂を示す、合成的に生成されたラダーライブラリーのＰＣＡ分析を示す。Ｃ１は、ゲル分解により関連する成分である。Ｃ２は、温度変化とより関連する成分である。グラフ１３００Ｂにおける黒い点は、合成アレリックラダーライブラリーを表す。色付きの点は、試験サンプルランを表す。グラフ１３００Ｂに示されるように、ＰＣＡ分析は、合成ラダーライブラリーが、主成分値の範囲に沿って規則的な間隔でラダーを含むことを示し、したがって、合成的に生成されたラダーライブラリーが、「ナイーブ」なラダーライブラリーよりも操作条件の全範囲にわたってより広くカバーすることを示す。グラフ１３００Ｂは、合成ラダーライブラリーが、「ナイーブ」なラダーライブラリーの有効な試験サンプルランを確認するだけでなく、「ナイーブ」なラダーライブラリーによって生成された有効なマッチによってカバーされる主成分範囲外のより多くのサンプルランとして、機器の潜在的に改善された精度も有することを示す。

図１４は、本発明の実施形態に従って、移動モデル（ＰＣＡ又は実験的若しくは他の方法で構築された）から合成アレリックラダーを生成し、当該合成ラダーを試験サンプルと比較するためのプロセスを示す。工程１４１０において、代表的ラダーＧ、及び摂動ベクトル（又は「成分」）Ｐｊを含む事前に記憶された移動モデルがアクセスされる。本発明のいくつかの実施形態では、成分の数ｎは、２又は３など小さい。工程１４２０において、試験サンプルは、試験サンプル中に存在する各対立遺伝子についての実験的フラグメントサイズ結果を決定するために、分析機器中で実行される。

工程１４３０において、成分の各々に起因する重みｗ_jが入力パラメータとして使用され、合成ラダーが以下の式を使用して計算される

工程１４４０において、試験サンプル中に存在し得るが、移動モデル中に見出されない任意の仮想対立遺伝子（仮想ビンとも呼ばれる）が挿入される。これらの仮想対立遺伝子の予測位置は、移動モデルのアレリックラダー中に存在する対立遺伝子の予測サイズから内挿又は外挿され得る。工程１４５０において、各サンプルピークのサイズは、挿入された仮想ビンを有する合成ラダー中のピークと比較される。サンプルピークに対するサイズの差が最小であるラダーピークが選択されるが、サンプルピークと同じ色素色に関連するピークのみが考慮される。最小差の集合から、マッチ誤差が計算される。マッチ誤差は、合成ラダーとサンプルとがどの程度よくマッチするかを反映するスカラーである。マッチ誤差の計算方法の一例は、当該全ての最小差の算術平均をとることである。別の例は、当該算術平均を計算する前に、当該最小差のうちの２つの最大差を除外することである。これは、仮想ビンの中に含まれないまれな遺伝子型、並びに試験サンプル中の予期されないアーチファクトピークの存在に対応することができる。別の例は、上記算術平均の代わりに絶対差の和を使用することである。

ラダーを再構成することは、得られた数列と実験ラダー（又は試験サンプル）の対立遺伝子サイズとの間の総差が可能な限り小さくなるようにｗ_ijを発見すること見なされ得、この総差は、対立遺伝子の各々についての差の二乗の和である。ラダーを再構成し、全体の差が小さい場合、モデルはラダーを十分に説明すると言うことができる。大きなデータセットが、中央値、標準偏差、及び最大誤差などの統計的手段によって定義される小さな誤差のみで再構成され得る場合、モデルは正確であると言うことができる。

追加の変数を識別し、それらの特徴的な成分を用いてモデルを拡張すること、又はＰＣＡアルゴリズムから返されたより多くの主成分をモデルに組み込むことが考えられる。各コンポーネントは適切に実装することで、モデルはより正確になる。しかしながら、ここで説明される本発明のいくつかの実施形態では、適切な精度で安定したシステムのモデル化を提供するのに２つの主成分が十分であるが、他の実施形態は３つ以上の主成分を使用してもよい。

図１５は、所与のアレリックラダーを再構築するために本明細書で使用される、本発明の実施形態による例示的なＰＣＡに基づく移動モデル１５００を示す。アレリックラダーサンプルラン１５１０のセットから、代表的ラダー１５２０が、サンプルラン１５１０における対立遺伝子の各々について決定される。ここで、代表的ラダー１５２０は、対立遺伝子１～７として標識される最初の７つの対立遺伝子の各々について示される。次に、アレリックラダーサンプルラン１５１０のセットに対してＰＣＡ分析を実施して、１５３１及び１５３２に示されるように、各対立遺伝子について主要成分（パターン）Ｐ₁及びＰ₂を生成する。重みｗ_ijのセット、例えば、各パターン（ｊ）が再構成を受けるラダー（ｉ）に寄与する程度は、上述の方法を使用して計算され、列１５４０において白地に太字で示される。これらの値を用いて、再構築されたアレリックラダーは、１５５０に示されるように計算され得る。列１５４０の重み値を変えることによって、同じモデルから他のラダーを生成することができる。先に述べたように、成分Ｃ₁及びＣ₂は、Ｐ₁及びＰ₂、の線形結合として構成され、同等に使用することができる。

一実施形態では、機器によって記憶又はアクセスされる移動モデル（ＰＣＡに基づく移動モデルなど）は、サンプルランデータの機械学習に基づいて経時的に系統的に改善され得る。ある実施形態では、当技術分野で知られている他の「相関発見」（あるいは「次元削減」として知られている）アルゴリズムを使用して、上述のＰＣＡに基づく移動モデルと同様に移動モデルを構築することができる。ＰＣＡに加えて、そのような手法は、とりわけ、非負行列因子分解（ＮＭＦ）、カーネルＰＣＡ、グラフに基づくカーネルＰＣＡ、線形判別分析（ＬＤＡ）、一般化判別分析（ＧＤＡ）、及びオートエンコーダを含み得る。そのような「相関発見」アルゴリズムは、移動モデルを開発するために、不完全なラダー（試験サンプルランから生じるラダーなど）を利用することが可能であり得る。一実施形態では、移動モデルは、外部調整を使用して、例えば、モデルが完全なラダーよりも良好に試験サンプルに適合するように、代表的ラダーにオフセットを加えることによって調整され得る。これは、試験サンプルが、アレリックラダーサンプルの移動方法とは異なって移動することを意味する、系統的オフセットを有し得るためであり得る。移動挙動におけるこの差異を補償するためにオフセットがなされ得、その結果、サンプル対立遺伝子は、平均して、０偏差で移動し得るが、アレリックラダーは、非０偏差を有し得る。そのようなオフセットは、例えば、移動モデルを用いて試験サンプルランの大きなデータセットを分析し、統計的偏差を見出すことによって決定され得る。別の実施形態では、移動モデルは、内部調整を使用して、例えば、物理的現実（例えば、現実的な動作条件であるゲル分解（例えば、ゲル作製後時間）及び温度の組み合わせ）とより良好に整合される、移動モデル構成要素及び基準（又は代表的ラダー）の線形組み合わせを作成することによって、調整されてもよい。

本発明の実施形態に従って議論されるようなＰＣＡに基づく移動モデル及び合成アレリックラダーライブラリーは、以下を含むいくつかの用途を有し得る。
● 任意の特定のランが、モデルによって高品質で説明され得ることを確認し、ランが損なわれなかったことを確信する。
● 機器の動作状態を監視して、承認された範囲内で動作していることを確認する。
● 温度及びゲル分解以外の移動に影響を及ぼす他のシステムパラメータが一定に保たれることを確認する。特に、ゲル及びキャピラリー置換などのシステムの部品は、並びにゲル、カートリッジ、キャピラリー置換、及び他の消耗品の製造中の品質管理のために、変更されている。
● 合成的に生成されたノイズフリーの参照ラン（ラダーライブラリー用）
● アレリックラダーを含まない解析の実施

図１６は、本発明の実施形態による合成アレリックラダーを使用するＰＣＡに基づくＣＥ機器バリデーションプロセスを示す。工程１６１０において、ＰＣＡに基づく統計モデル及び代表的ラダーＧがアクセスされる。工程１６２０において、既知のアレリックラダーサンプルのサンプルランが、検証されるべきＣＥ機器上で実行される。工程１６３０において、ＰＣＡに基づく統計モデルを使用して、既知のアレリックラダーサンプルラン結果に十分に適合する合成アレリックラダーを生成できることを検証する。工程１６４０において、生成された合成アレリックラダーの主成分重みを使用して、生成された合成アレリックラダーの主成分重みが許容範囲内にある（例えば、有効な動作条件に対応する）ことを検証する。これは、パターンの各々がサンプルデータに適合するためにどれだけ使用され得るかを制限することによって検証され得る。本発明のいくつかの実施形態では、同様のプロセスを使用して、ゲル、キャピラリー、及びカートリッジの製造中の品質管理のための機器性能を検証することもできる。本発明のいくつかの実施形態では、例えば、０．１ｂｐ、０．１５ｂｐ、又は０．３５ｂｐ未満でモデルから外れる既知のアレリックラダーサンプルランの結果は、機器操作が有効であることを示し得る。ラダー間の差の他の集合体を、検証基準として使用することができる。本発明の一実施形態では、サンプルは、既知のアレリックラダーサンプルの代わりに使用され、その重みは、最適化された又は十分な適合を有する合成アレリックラダーを見出すことによって決定される。ピークが当該合成ラダーから例えば０．１ｂｐ、０．１５ｂｐ、又は０．３５ｂｐを超えて外れない場合、機器の操作は有効であると見なすことができる。

上記の本発明の実施形態における移動モデルを使用して、実際のラダーがモデルによって生成されたラダーにどれだけうまく適合するかを分析することができる。例えば、アレリックラダーライブラリーが、ランが実施され得る全ての種々の環境において正常な挙動を代表するラダーを含むことが所望され得る。本発明によるモデルを使用して過去のデータを分析することによって、どのラダーをアレリックラダーライブラリーに含めるかについての情報に基づく決定を行うことが可能である。モデル、好ましくは機器の挙動を良好に捕捉するモデルは、モデルにあまり適合しないサンプル及びラダーランを同定することができる。不適合の例は、ピークがシフトされ、したがって不正確なサイズが割り当てられるように、光ノイズによって歪められたピークであり得る。ラダーライブラリーにおいてそのような非系統的事象を表さないことが好ましい。本発明のいくつかの実施形態では、十分に適合するラダーは、例えば、０．１ｂｐ、０．１５ｂｐ、又は０．３５ｂｐを超えてモデルから外れるピークを有さない。この偏差は、最大（ｍａｘ）偏差と呼ぶことができる。このモデルによって生成された合成アレリックラダーは、０の最大偏差を有するか、又は少なくとも、分析の間に数が丸められる偏差（０．０５ｂｐ又は０．１ｂｐ）より大きくない偏差を有することが予測される。

モデルを使用して大量のモデルを使用して分析される場合、各対立遺伝子が理論的モデルからどのように分布するかが決定され得る（すなわち、各サンプルについて、理論的モデルを使用して最良のラダーを見出し、各対立遺伝子がそれとどれだけ異なるか（モデルピークからのサンプルピークの偏差）を決定し、次いで、各対立遺伝子について全てのサンプルから統計を収集する）。本発明の一実施形態では、モデルからのピークの偏差の各分布は、中心が０に近く、例えば、０．１ｂｐより良好であるべきであり、対応する３シグマ（３標準偏差）は低く、例えば、０．１５ｂｐであるべきである。ガウス分布で分布を近似すると、前述の分布を有する対立遺伝子で呼ばれるピークの９９％超が０．２５ｂｐ内にあることを意味する。

上述した本発明の一実施形態では、特定の密度レベルを有する静的な（予め選択された及び／又は予め計算された）ラダーライブラリーが構築され、分析機器又はシステムに記憶される。この静的ライブラリーは、合成ラダーを生成する前に検索されてもよく、「オンザフライ」で１つ以上の合成ラダーを動的に生成することが効率的又は実現可能でない等、計算リソースが制約される状況において、より効率的であってもよい。本発明の一実施形態では、ラダーライブラリーは、システムについての有効な操作値の範囲にわたって約０．２ｂｐ以内で間隔を空けられた、ｗ₁及びｗ₂値を有する複数のラダーを含む。ラダーの別個のセットを有する静的な（予め選択された及び／又は予め計算された）ラダーライブラリーについて、試験サンプルに適合する最良のラダーを決定する場合、モデルが再構成し得る理論的に理想的な最適ラダーが存在しない場合がある。しかし、各０．２ｂｐ間隔のそれぞれｗ₁及びｗ₂について少なくとも１つのラダーが存在するようにライブラリー中のラダーが選択された場合、当該理想的なラダーの重みのそれぞれから約０．１ｂｐ以下「離れた」利用可能な少なくとも１つのラダーが常に存在する。ライブラリー中のラダーが０．１ｂｐ以下の非適合性を有する場合、０．２５ｂｐ外れるサンプルは、最も活性な対立遺伝子について合計で約０．４５ｂｐを超えて外れ得ない（最大偏差）。この最大偏差は以下のように決定される。最も活性な対立遺伝子（起こり得るワーストケース）は、ノイズ及び系統的変動のために理論的に理想的なラダーから０．２５ｂｐ外れ得ることが実験的に見出され得るので、上記の静的ラダーライブラリーの０．２ｂｐ間隔密度のための０．１ｂｐの偏差、及びライブラリーラダーにおけるノイズのための０．１ｂｐの偏差を加えると、０．４５ｂｐの合計最大偏差が生じる。これらの数は、例示的な例として意図されるが、より高い密度又はより低い密度のライブラリーが構築され得る。より高い密度のライブラリーは、マッチ失敗の可能性を減少させるが、計算及び記憶制限（例えば、分析ソフトウェアのための）は、制約であり得る。逆に、より低い計算能力のシステムでは、より低い密度のライブラリーが使用され得るが、マッチが失敗する又は不正確である可能性は、より高い。正確な計算は、偏差がｗ₁又はｗ₂の値のうちの２つ以上で外れている場合、成分間の関係に依存する。上記のような本発明の一実施形態では、実験データは、偏差が、例えば、０．４５ｂｐ又は０．５ｂｐより大きい場合、ピークが不正確にコールされ得ることを示した。

過去のラダーは、マッチ誤差を最小化することによってｗ₁及びｗ₂値を割り当てることができる。合成ラダーは、これらのｗ₁及びｗ₂値を使用して作成することができ、当該過去のラダーと当該合成ラダーとの間の任意の対立遺伝子についての最大偏差は、当該過去のラダーがどれだけ不適合であるかの測定基準である。十分に適合する過去のラダー（例えば、０．１ｂｐ、０．１５ｂｐ、又は０．３５ｂｂ以下の最大偏差を有する）のｗ₁及びｗ₂を同定することによって、及び／又は、選択されたｗ₁及びｗ₂値から合成ラダーを作製することによって、情報を元に、ｗ₁及びｗ₂の範囲にわたって十分な密度ｄを有するように設計されたラダーライブラリーを集めることが可能であり、このとき、密度ｄは、かかる範囲内のｗ₁’及びｗ₂’の組み合わせはなく、｜ｗ₁－ｗ₁’｜＜ｄ、かつ、｜ｗ₂－ｗ₂’｜＜ｄのラダーライブラリーがないように定義される（その他、より高次元）。異なる次元に対して異なる密度を定義することが可能であることに留意されたい。先の例示的な実施例において議論された特定の状況及び統計について、０．２ｂｐ以下のラダー密度が、高い確率で、操作の全範囲にわたって（欠陥のない）機器上の全ての実行条件をカバーするのに十分であることが示唆される。そのような設計されたライブラリーの説明については図１３Ｂを参照されたい。

設計されたラダーライブラリーの検証のために、大量のサンプルとラダーデータを、設計されたラダーライブラリーを使用して分析することができ、対立遺伝子の各々について、当該データがラダーライブラリーからどのように分布するかを決定することができる。本発明の一実施形態では、ラダーライブラリーについて、各対立遺伝子についての偏差の分布は、中心が０に近く、例えば、０．１ｂｐ以内にあるべきであり、対応する３シグマ（３標準偏差）は低く、例えば、０．３５ｂｐ以下）であるべきである。

例示的なコンピューティングデバイスの実施形態
図１７は、本発明の実施形態を組み込むことができるコンピューティングデバイス１７００の例示的なブロック図である。図１７は、本明細書に記載の技術的プロセスの態様を実行するための機械システムの単なる例示であり、特許請求の範囲を限定するものではない。当業者は、他の変形、修正、及び代替を認識するであろう。一実施形態では、コンピューティングデバイス１７００は、典型的には、モニタ又はグラフィカルユーザインターフェース１７０２、データ処理システム１７２０、通信ネットワークインターフェース１７１２、入力デバイス１７０８、出力デバイス１７０６などを含む。

図１７に示されるように、データ処理システム１７２０は、バスサブシステム１７１８を介していくつかの周辺デバイスと通信する１つ以上のプロセッサ１７０４を含み得る。これらの周辺デバイスは、入力デバイス１７０８、出力デバイス１７０６、通信ネットワークインターフェース１７１２、並びに揮発性メモリ１７１０及び不揮発性メモリ１７１４などの記憶サブシステムを含み得る。揮発性メモリ１７１０及び／又は不揮発性メモリ１７１４は、コンピュータ実行可能命令を記憶することができ、したがって、プロセッサ１７０４に適用され、かつそれによって実行されると、本明細書に開示されるプロセスの実施形態を実装するロジック１７２２を形成する。

入力デバイス１７０８は、データ処理システム１７２０に情報を入力するためのデバイス及び機構を含む。これらは、キーボード、キーパッド、モニタ又はグラフィカルユーザインターフェース１７０２に組み込まれたタッチスクリーン、音声認識システム、マイクロフォンなどの音声入力デバイス、及び他のタイプの入力デバイスを含み得る。様々な実施形態では、入力デバイス１７０８は、コンピュータマウス、トラックボール、トラックパッド、ジョイスティック、ワイヤレスリモート、描画タブレット、音声コマンドシステム、視線追跡システムなどとして具体化することができる。入力デバイス１７０８は、典型的には、ユーザが、ボタンのクリックなどのコマンドを介して、モニタ又はグラフィカルユーザインターフェース１７０２に表示されるオブジェクト、アイコン、制御領域、テキストなどを選択することを可能にする。

出力デバイス１７０６は、データ処理システム１７２０から情報を出力するためのデバイス及び機構を含む。これらは、当技術分野でよく理解されているように、モニタ又はグラフィカルユーザインターフェース１７０２、スピーカ、プリンタ、赤外線ＬＥＤなどを含み得る。

通信ネットワークインターフェース１７１２は、通信ネットワーク（例えば、通信ネットワーク１７１６）及びデータ処理システム１７２０の外部デバイスにインターフェースを提供する。通信ネットワークインターフェース１７１２は、他のシステムからデータを受信し、他のシステムにデータを送信するためのインターフェースとして機能し得る。通信ネットワークインターフェース１７１２の実施形態は、Ｅｔｈｅｒｎｅｔインターフェース、モデム（電話、衛星、ケーブル、ＩＳＤＮ）、（非同期）デジタル加入者線（ＤＳＬ）、ＦｉｒｅＷｉｒｅ、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ又はＷｉＦｉなどの無線通信インターフェース、近距離通信無線インターフェース、セルラーインターフェースなどを含み得る。通信ネットワークインターフェース１７１２は、アンテナ、ケーブルなどを介して通信ネットワーク１７１６に結合され得る。いくつかの実施形態では、通信ネットワークインターフェース１７１２は、データ処理システム１７２０の回路基板上に物理的に統合され得るか、又は場合によっては、「ソフトモデム」などのソフトウェア又はファームウェアにおいて実装され得る。コンピューティングデバイス１７００は、ＨＴＴＰ、ＴＣＰ／ＩＰ、ＲＴＰ／ＲＴＳＰ、ＩＰＸ、ＵＤＰなどのプロトコルを使用してネットワークを介した通信を可能にするロジックを含み得る。

揮発性メモリ１７１０及び不揮発性メモリ１７１４は、本明細書に記載のプロセスの態様を実装するためのロジックを形成する、コンピュータ可読データ及び命令を記憶するように構成された有形媒体の例である。他のタイプの有形媒体には、リムーバブルメモリ（例えば、プラグイン式ＵＳＢメモリデバイス、モバイルデバイスＳＩＭカード）、ＣＤ－ＲＯＭ、ＤＶＤなどの光記憶媒体、フラッシュメモリなどの半導体メモリ、非一時的な読み取り専用メモリ（ＲＯＭ）、バッテリバックアップされた揮発性メモリ、ネットワーク化された記憶デバイスなどが含まれる。揮発性メモリ１７１０及び不揮発性メモリ１７１４は、本発明の範囲に該当する開示されたプロセス及び他の実施形態の機能を提供する基本的なプログラミング及びデータ構築を記憶するように構成され得る。本発明の実施形態を実装するロジック１７２２は、コンピュータ可読命令を記憶する揮発性メモリ１７１０及び／又は不揮発性メモリ１７１４によって形成され得る。当該命令は、揮発性メモリ１７１０及び／又は不揮発性メモリ１７１４から読み取られ、プロセッサ１７０４によって実行され得る。揮発性メモリ１７１０及び不揮発性メモリ１７１４は更に、ロジック１７２２によって使用されるデータを記憶するためのリポジトリを提供し得る。揮発性メモリ１７１０及び不揮発性メモリ１７１４は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ（ＲＡＭ）及び読み取り専用の非一時的な命令が記憶される読み取り専用メモリ（ＲＯＭ）を含むいくつかのメモリを含み得る。揮発性メモリ１７１０及び不揮発性メモリ１７１４は、プログラム及びデータファイルのための永続的（不揮発性）ストレージを提供するファイルストレージサブシステムを含み得る。揮発性メモリ１７１０及び不揮発性メモリ１７１４は、取り外し可能なフラッシュメモリなどの取り外し可能なストレージステムを含み得る。

バスサブシステム１７１８は、データ処理システム１７２０の様々な構成要素及びサブシステムが意図されたように互いに通信することを可能にするための機構を提供する。通信ネットワークインターフェース１７１２は、単一のバスとして概略的に示されているが、バスサブシステム１７１８のいくつかの実施形態は、複数の別個のバスを利用することができる。

コンピューティングデバイス１７００が、スマートフォン、デスクトップコンピュータ、ラップトップコンピュータ、ラックマウント型コンピュータシステム、コンピュータサーバ、又はタブレットコンピュータデバイスなどのデバイスであり得ることは、当業者には容易に明らかであろう。当技術分野で一般に既知であるように、コンピューティングデバイス１７００は、複数のネットワーク化されたコンピューティングデバイスの集合として実装され得る。更に、コンピューティングデバイス１７００は、典型的には、そのタイプ及び性質が当技術分野で周知であるオペレーティングシステムロジック（図示せず）を含むであろう。

本発明の一実施形態は、システム、方法、及びコンピュータプロセッサによって実行することができるコンピュータプログラムロジックを具体的に保存する非一時的なコンピュータ可読ストレージ媒体（複数可）を含む。

当業者は、コンピュータシステム１７００が、本発明の実施形態によるコンピュータプログラム製品を実施することができるシステムのほんの一例を示していることを理解するであろう。代替実施形態の一例を挙げると、本発明の一実施形態によるコンピュータプログラム製品に含まれる命令の実行は、例えば、分散型コンピューティングネットワークのコンピュータ等の複数のコンピュータにわたって分散されてもよい。

例示された実施形態に関して本発明を具体的に説明したが、本開示に基づいて様々な変更、修正、及び適合を行うことができ、本発明の範囲内にあることが意図される。現在最も実用的かつ好ましい実施形態であると考えられるものに関連して本発明を説明したが、本発明は開示された実施形態に限定されず、反対に、上記及び下記に参照される様々な実施形態によって、記載されているような本発明の根底にある基本原理の範囲内に含まれる、様々な修正及び同等の構成を網羅することを意図していることが理解される。

用語
本明細書で開示される本発明の実施形態を参照して本明細書で使用される用語は、特に明示的に又は文脈によって示されない限り、当業者による通常の意味を与えられるべきである。

「アレリックラダー」又は「アレリックラダーデータ」とは、本明細書では、ＣＥ機器上で実行されるアレリックラダーサンプルについてのフラグメントのサイズ決めデータセットを指す。

「アレリックラダーサンプル」は、ＣＥ機器が試験している既知のＳＴＲ対立遺伝子のコレクションを含み、一般に多数（例えば、数百）の既知のＳＴＲ対立遺伝子を含む較正サンプルを指す。

「合成アレリックラダー」又は「合成アレリックラダーデータ」とは、アレリックラダーサンプルの実際のランからではなく、モデルから生成されたアレリックラダーデータを指す。

この文脈における「キャピラリー電気泳動遺伝子分析装置」又は「キャピラリー電気泳動ＤＮＡ分析装置」は、生物学的サンプルを充填したキャピラリーに電界を印加して、負に帯電したＤＮＡフラグメントが正電極に向かって移動するようにする機器を指す。ＤＮＡフラグメントが媒体を移動する速度は、その分子量に概ね反比例する。電気泳動のこのプロセスは、好ましくは１塩基以下の分解能でサイズによって伸長産物を分離することができる。

この文脈における「例示的な市販のＣＥデバイス」は、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ，Ｉｎｃ．のＲａｐｉｄＨＩＴ（商標）ＩＤＳｙｓｔｅｍ（単一キャピラリー）及びＲａｐｉｄＨＩＴ（商標）２００Ｓｙｓｔｅｍ（８キャピラリー）、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ，Ｉｎｃ．（ＡＢＩ）の遺伝子アナライザーモデル３１０（単一キャピラリー）、３１３０（４キャピラリー）、３１３０ｘＬ（１６キャピラリー）、３５００（８キャピラリー）、３５００ｘＬ（２４キャピラリー）、ＡＢＩのＳｅｑＳｔｕｄｉｏ遺伝子アナライザーモデル、ＡＢＩのＤＮＡアナライザーモデル３７３０（４８キャピラリー）、及び３７３０ｘＬ（９６キャピラリー）、並びに、Ａｇｉｌｅｎｔの７１００デバイス、ＰｒｉｎｃｅＴｅｃｈｎｏｌｏｇｉｅｓ，Ｉｎｃ．のＰｒｉｎＣＥ（商標）ＣａｐｉｌｌａｒｙＥｌｅｃｔｒｏｐｈｏｒｅｓｉｓＳｙｓｔｅｍ、Ｌｕｍｅｘ，Ｉｎｃ．のＣａｐｅｌ－１０５（商標）ＣＥシステム、及びＢｅｃｋｍａｎＣｏｕｌｔｅｒのＰ／ＡＣＥ（商標）ＭＤＱシステムを指してよく、これらを挙げることができるが、これらに限定されない。

この文脈における「塩基対」は、ＤＮＡシーケンス中の相補的ヌクレオチドを指す。チミン（Ｔ）は、アデニン（Ａ）と相補的であり、グアニン（Ｇ）は、シトシン（Ｃ）と相補的である。

Claims

複数の対立遺伝子の存在についてデオキシリボ核酸（ＤＮＡ）分子を含む生物学的サンプルを試験する方法であって、前記生物学的サンプルを使用して得られ、前記複数の対立遺伝子の異なる対立遺伝子に対応するＤＮＡフラグメントが、異なるフラグメントサイズを有し、
分析機器を使用して、前記生物学的サンプルに対応する複数の標識されたＤＮＡフラグメントを移動及び走査することによって、試験フラグメントのサイズ決めデータを取得することと、
予め計算されたモデルを使用して、１つ以上の第１の合成アレリックラダーを動的に生成することであって、前記予め計算されたモデルが、フラグメントサイズを測定するために、同じ分析機器を使用するか、又は別の同等の分析機器を使用するかのいずれかで、複数の以前に行われたサンプルランから得られた複数のフラグメントのサイズ決めデータセットの分析に基づく、ことと、
前記１つ以上の第１の合成アレリックラダーが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定することと、
前記決定が、前記１つ以上の第１の合成アレリックラダーが前記試験フラグメントのサイズ決めデータに十分に適合しないというものである場合、前記予め計算されたモデルの１つ以上のパラメータを変化させることによって１つ以上の追加の合成アレリックラダーを生成し、前記１つ以上の追加の合成アレリックラダーのいずれかが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定することと、
合成アレリックラダーの十分な適合が確認されると、前記十分に適合する合成アレリックラダーを使用して、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを決定することと、を含む、方法。
前記分析機器が、キャピラリー電気泳動（ＣＥ）機器を含む、請求項１に記載の方法。
前記複数の以前に行われたサンプルランが、１つ以上のアレリックラダーサンプルランを含む、請求項１に記載の方法。
前記複数の以前に行われたサンプルランが、他の生物学的サンプル由来の１つ以上の１つ以上の試験サンプルランを含む、請求項１に記載の方法。
前記１つ以上の追加の合成アレリックラダーが、１つ以上の最適化基準を満たすために、十分に適合するアレリックラダーが同定された後に生成される、請求項１に記載の方法。
前記予め計算されたモデルが、主成分分析（ＰＣＡ）に基づく、請求項１に記載の方法。
前記主成分分析が、第１の主成分範囲を有する第１の主成分と、第２の主成分範囲を有する第２の主成分とを決定することを含む、請求項６に記載の方法。
前記主成分分析が、各々が代表的なフラグメントサイズに関連する複数の対立遺伝子を含む代表的アレリックラダーを決定することを更に含み、前記代表的アレリックラダーは、基準条件のセットに関連する、請求項７に記載の方法。
前記代表的アレリックラダーを決定することが、
前記基準条件のセット下で、アレリックラダーサンプルに対して複数の実験サンプルランを実行することと、
前記実験サンプルランにおける前記複数の対立遺伝子の各々の平均フラグメントサイズを計算することと、を更に含む、請求項８に記載の方法。
前記代表的アレリックラダーを決定することが、
前記基準条件のセットの指定された範囲内にある前記複数のフラグメントのサイズ決めデータセットのサブセットを選択することと、
前記複数の対立遺伝子の各々の平均フラグメントサイズを計算することと、を更に含む、請求項８に記載の方法。
前記代表的アレリックラダーを決定することが、代表的アレリックラダーを決定することなく予備的移動モデルを生成することであって、前記予備的移動モデルは、前記基準条件のセットに対応する代表的合成アレリックラダーを生成する、ことを更に含む、請求項８に記載の方法。
前記代表的合成アレリックラダーに十分に適合する前記複数のフラグメントのサイズ決めデータセットのフラグメントのサイズ決めデータセットを見出すことを更に含む、請求項８～１０のいずれか一項に記載の方法。
前記複数のフラグメントのサイズ決めデータセットのサブセットを見出すことであって、前記サブセット中の各フラグメントのサイズ決めデータセットは、前記代表的アレリックラダーに対する十分な適合を含む、ことと、
前記サブセット内の前記対立遺伝子の各々について平均フラグメントサイズを計算することと、を更に含む、請求項８～１０のいずれか一項に記載の方法。
前記第１の主成分及び第２の主成分を線形結合して温度成分及びゲル分解成分と整列させることと、前記温度成分の中心値に第１の基準条件を設定することと、前記ゲル分解成分の上限値に第２の基準条件を設定することと、を更に含む、請求項８に記載の方法。
前記複数のフラグメントのサイズ決めデータセットの各々について、前記データセットのフラグメントサイズ値から前記参照フラグメントサイズ値を差し引くことによって、前記フラグメントのサイズ決めデータセット中の各対立遺伝子について偏差値を計算することと、
前記複数のフラグメントのサイズ決めデータセットについての前記偏差値を含む行列を記憶することと、
主成分を決定するために１回以上の主成分分析行列演算を実行することと、更に含む、請求項８に記載の方法。
前記予め計算されたモデルが、
第１の変数及び第２の変数を定義することであって、前記第１の変数及び前記第２の変数は、前記予め計算されたモデルにおける移動に影響を与える、こと、
前記第１の変数についての第１の実験範囲及び前記第２の変数についての第２の実験範囲を決定すること、
前記第１の実験範囲及び第２の実験範囲内の基準条件を選択すること、
前記第２の変数を前記基準条件で一定に保持しながら、前記第１の変数について前記第１の実験範囲にわたって第１の一連の較正サンプルランを、前記第２の変数を前記基準条件で一定に保持しながら、前記第２の変数について前記第２の実験範囲にわたって第２の一連の較正サンプルランを実行すること、
前記第１の変数に対する第１のパラメータ及び前記第２の変数に対する第２のパラメータを定義することであって、前記第１及び第２のパラメータは前記基準条件において０であり、前記第１のパラメータは、前記基準条件からの前記第１の変数の偏差において非０値を含み、前記第２のパラメータは、前記基準条件からの前記第２の変数の偏差において非０値を含む、こと、
前記第１の変数及び前記第２の変数について、回帰パラメータを決定し、第１のプロット及び第２のプロットにおける各対立遺伝子の傾きを集計して、第１の特性成分及び第２の特性成分を生成すること、並びに、
前記較正サンプル中の前記対立遺伝子の各々の前記傾きについて切片を集計することによって、参照ラダーを生成すること、によって生成される経験的モデルを含む、請求項１に記載の方法。
前記予め計算されたモデルを使用して１つ以上の第１の合成アレリックラダーを動的に生成する前に、まず、予め記憶されたアレリックラダーが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定することであって、前記予め記憶されたアレリックラダーは、フラグメントサイズを測定するために、同じＣＥ機器を使用するか又は別の同等のＣＥ機器を使用するかのいずれかで、アレリックラダーサンプルに対して以前に行われた１回以上のサンプルランから得られたフラグメントのサイズ決めデータセットを含む、ことと、
前記予め記憶されたアレリックラダーが十分に適合する場合、前記十分に適合する予め記憶されたアレリックラダーを使用して、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを、第１の合成アレリックラダーも追加の合成アレリックラダーも生成することなく決定することと、を更に含む、請求項１に記載の方法。
デオキシリボ核酸（ＤＮＡ）分析装置であって、
キャピラリー電気泳動（ＣＥ）遺伝子分析装置であって、
１つ以上のＤＮＡ分子を含む試験用生物学的サンプルを受容するように動作可能なサンプルポートであって、前記ＤＮＡ分子は１つ以上のＤＮＡ遺伝子座を含み、各ＤＮＡ遺伝子座は複数の対立遺伝子と関連付けられている、サンプルポートと、
前記サンプルポートに接続されたサーマルサイクラーであって、前記試験用生物学的サンプルのＤＮＡフラグメントのＤＮＡ増幅を実行するように動作可能なポリメラーゼ連鎖反応（ＰＣＲ）チャンバを含む、サーマルサイクラーと、
前記試験用生物学的サンプルの前記増幅されたＤＮＡフラグメントを受容し、分離するように動作可能な、前記サーマルサイクラーに接続された少なくとも１つのＣＥキャピラリーと、
前記試験用生物学的サンプルの前記増幅されたＤＮＡフラグメントの蛍光値を検出するために、前記ＣＥキャピラリーを走査するように動作可能な光学検出器と、
前記光学検出器に接続され、前記試験用生物学的サンプルの前記増幅されたＤＮＡフラグメントの蛍光値に対応する試験フラグメントのサイズ決めデータを生成するように動作可能な信号プロセッサと、を備える、ＣＥ遺伝子分析装置と、
前記ＣＥ遺伝子分析装置に接続されたＤＮＡプロファイル生成装置であって、
第１の合成アレリックラダーを動的に生成するための予め計算されたモデルであって、フラグメントサイズを測定するために、同じＣＥ機器を使用するか、又は別の同等のＣＥ機器を使用するかのいずれかで、アレリックラダーサンプルに対して以前に行われた複数のサンプルランから得られた複数のフラグメントのサイズ決めデータセットの統計解析に基づいて導出されている、予め計算されたモデルと、
前記第１の合成アレリックラダーが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するかどうかを決定し、前記適合が十分でない場合、前記予め計算されたモデルの１つ以上のパラメータを変化させることによって１つ以上の追加の合成アレリックラダーを生成するように前記予め計算されたモデルに信号を送り、前記１つ以上の追加の合成アレリックラダーのいずれかが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するかどうかを決定する、フィッターと、
十分に適合する合成アレリックラダーが同定されると、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを決定する、対立遺伝子コーラーと、を備える、ＤＮＡプロファイル生成装置を、を含む、ＤＮＡ分析装置。
前記ＤＮＡプロファイル生成装置が、フラグメントサイズを測定するために、同じＣＥ機器を使用するか、又は別の同等のＣＥ機器を使用するかのいずれかで、アレリックラダーサンプルに対して以前に行われた前記複数のサンプルランから得られた前記複数のフラグメントのサイズ決めデータセットを記憶するデータベースを更に備える、請求項１８に記載のＤＮＡ分析機器。
前記ＤＮＡプロファイル生成装置が、フラグメントサイズを測定するために、同じＣＥ機器を使用するか、又は別の同等のＣＥ機器を使用するかのいずれかで、アレリックラダーサンプルに対して以前に行われた複数のサンプルランから得られた前記複数のフラグメントのサイズ決めデータセットに遠隔アクセスする、請求項１８に記載のＤＮＡ分析機器。
前記ＤＮＡ分析装置が、前記予め計算されたモデルに遠隔アクセスする、請求項１８に記載のＤＮＡ分析装置。
前記予め計算されたモデルを使用して前記第１の合成アレリックラダーを動的に生成する前に、前記フィッターによってアクセスされる複数の合成アレリックラダーを記憶する合成アレリックラダーデータベースを更に備え、記憶された合成アレリックラダーが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するため、前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定する、請求項１８に記載のＤＮＡ分析装置。
前記ＤＮＡプロファイル生成装置が、前記合成アレリックラダーデータベースに遠隔アクセスする、請求項２２に記載のＤＮＡ分析装置。
複数の対立遺伝子の存在についてデオキシリボ核酸（ＤＮＡ）分子を含む生物学的サンプルを試験する方法であって、前記生物学的サンプルを使用して得られ、前記複数の対立遺伝子の異なる対立遺伝子に対応するＤＮＡフラグメントが、異なるフラグメントサイズを有し、
キャピラリー電気泳動（ＣＥ）機器を使用して、前記生物学的サンプルに対応する複数の蛍光標識されたＤＮＡフラグメントを移動及び走査することによって、試験フラグメントのサイズ決めデータを取得することと、
前記試験フラグメントのサイズ決めデータを使用して、記憶されたアレリックラダーライブラリーを検索することであって、前記記憶されたアレリックラダーライブラリーは、予め計算されたモデルを使用して合成的に生成されている１つ以上の記憶された合成アレリックラダーを含み、前記予め計算されたモデルは、フラグメントサイズを測定するために、同じＣＥ機器を使用するか、又は別の同等のＣＥ機器を使用するかのいずれかで、アレリックラダーサンプルに対して以前に行われた複数のサンプルランから得られた複数のフラグメントのサイズ決めデータセットの統計解析に基づいて導出されている、ことと、
前記１つ以上の記憶されたアレリックラダーが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、十分に適合するアレリックラダーを含むように前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定することと、
前記１つ以上の記憶されたアレリックラダーが前記試験フラグメントのサイズ決めデータに十分に適合しない場合、前記予め計算されたモデルの１つ以上のパラメータを変化させることによって前記予め計算されたモデルを使用して１つ以上の追加の合成アレリックラダーを動的に生成し、前記１つ以上の追加の合成アレリックラダーのいずれかが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、十分に適合するアレリックラダーを含むように前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定することと、
アレリックラダーの十分な適合が確認されると、前記十分に適合するアレリックラダーを使用して、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを決定することと、を含む、方法。
前記予め計算されたモデルが、主成分分析（ＰＣＡ）に基づく、請求項２４に記載の方法。
前記主成分分析が、第１の主成分範囲を有する第１の主成分と、第２の主成分範囲を有する第２の主成分とを決定することを含む、請求項２５に記載の方法。
前記記憶されたアレリックラダーライブラリーが、前記第１の主成分範囲にわたる異なる第１の主成分値、及び前記第２の主成分範囲にわたる異なる第２の主成分値に関連する複数の合成アレリックラダーを含む、請求項２６に記載の方法。
前記主成分分析が、各々が代表的なフラグメントサイズに関連する複数の対立遺伝子を含む代表的アレリックラダーを決定することを更に含み、前記代表的アレリックラダーは、基準条件のセットに関連する、請求項２６に記載の方法。
前記代表的アレリックラダーを決定することが、
前記基準条件のセット下で、アレリックラダーサンプルに対して複数の実験サンプルランを実行することと、
前記実験サンプルランにおける前記複数の対立遺伝子の各々の平均フラグメントサイズを計算することと、を更に含む、請求項２８に記載の方法。
前記代表的アレリックラダーを決定することが、
前記基準条件のセットの指定された範囲内にある前記複数のフラグメントのサイズ決めデータセットのサブセットを選択することと、
前記複数の対立遺伝子の各々の平均フラグメントサイズを計算することと、を更に含む、請求項２８に記載の方法。
前記代表的アレリックラダーを決定することが、代表的アレリックラダーを決定することなく予備的移動モデルを生成することであって、前記予備的移動モデルは、前記基準条件のセットに対応する代表的合成アレリックラダーを生成する、ことを更に含む、請求項２８に記載の方法。
前記代表的アレリックラダーとして前記代表的合成アレリックラダーに十分に適合する前記複数のフラグメントのサイズ決めデータセットのフラグメントのサイズ決めデータセットを設計することを更に含む、請求項２８～３１のいずれか一項に記載の方法。
前記複数のフラグメントのサイズ決めデータセットのサブセットを見出すことであって、前記サブセット中の各フラグメントのサイズ決めデータセットは、前記代表的アレリックラダーに対する十分な適合を含む、ことと、
前記サブセット内の前記対立遺伝子の各々について平均フラグメントサイズを計算することと、を更に含む、請求項２８～３１のいずれか一項に記載の方法。
前記第１の主成分及び第２の主成分を線形結合して温度成分及びゲル分解成分と整列させることと、前記温度成分の中心値に第１の基準条件を設定することと、前記ゲル分解成分の上限値に第２の基準条件を設定することと、を更に含む、請求項２８に記載の方法。
前記複数のフラグメントのサイズ決めデータセットの各々について、前記データセットのフラグメントサイズ値から前記参照フラグメントサイズ値を差し引くことによって、前記フラグメントのサイズ決めデータセット中の各対立遺伝子について偏差値を計算することと、
前記複数のフラグメントのサイズ決めデータセットについての前記偏差値を含む行列を記憶することと、
主成分を決定するために１回以上の主成分分析行列演算を実行することと、更に含む、請求項２８に記載の方法。
前記予め計算されたモデルが、
第１の変数及び第２の変数を定義することであって、前記第１の変数及び前記第２の変数は、前記予め計算されたモデルにおける移動に影響を与える、こと、
前記第１の変数についての第１の実験範囲及び前記第２の変数についての第２の実験範囲を決定すること、
前記第１の実験範囲及び第２の実験範囲内の基準条件を選択すること、
前記第２の変数を前記基準条件で一定に保持しながら、前記第１の変数について前記第１の実験範囲にわたって第１の一連の較正サンプルランを、前記第２の変数を前記基準条件で一定に保持しながら、前記第２の変数について前記第２の実験範囲にわたって第２の一連の較正サンプルランを実行すること、
前記第１の変数に対する第１のパラメータ及び前記第２の変数に対する第２のパラメータを定義することであって、前記第１及び第２のパラメータは前記基準条件において０であり、前記第１のパラメータは、前記基準条件からの前記第１の変数の偏差において非０値を含み、前記第２のパラメータは、前記基準条件からの前記第２の変数の偏差において非０値を含む、こと、
前記第１の変数及び前記第２の変数について、回帰パラメータを決定し、第１のプロット及び第２のプロットにおける各対立遺伝子の傾きを集計して、第１の特性成分及び第２の特性成分を生成すること、並びに、
前記較正サンプル中の前記対立遺伝子の各々の前記傾きについて切片を集計することによって、参照ラダーを生成すること、によって生成される経験的モデルを含む、請求項２４に記載の方法。
前記記憶されたアレリックラダーライブラリーが、１つ以上の記憶された天然アレリックラダーを更に含む、請求項２４に記載の方法。
１つ以上の命令を記憶するメモリを含む非一時的コンピュータ可読媒体であって、少なくとも１つのコンピューティングデバイスの１つ以上のプロセッサによって実行されると、１つ以上のデオキシリボ核酸（ＤＮＡ）分子を含む生物学的サンプルを試験するためのＤＮＡ分析機器の検証を実行し、前記ＤＮＡ分子は１つ以上のＤＮＡ遺伝子座を含み、各ＤＮＡ遺伝子座は複数の対立遺伝子と関連付けられており、
対照生物学的サンプルの複数のフラグメントに対応するフラグメントのサイズ決め値に対応する試験フラグメントのサイズ決めデータを取得することであって、前記複数のフラグメントは、前記ＤＮＡ分析機器の電気泳動遺伝子分析装置によって検出される、こと、
１つ以上の第１の合成アレリックラダーを動的に生成するための予め計算されたモデルを使用することであって、前記予め計算されたモデルは、フラグメントサイズを測定するために、同じ電気泳動機器を使用するか、又は別の同等の電気泳動機器を使用するかのいずれかで、アレリックラダー生物学的サンプルに対して以前に行われた複数のサンプルランから得られた複数のフラグメントのサイズ決めデータセットの統計解析に基づいて導出されている、こと、
前記第１の合成アレリックラダーが、前記複数の対立遺伝子のうちのどれが前記対照生物学的サンプル中に存在するかを同定するために、前記対照サンプルフラグメントのサイズ決めデータに十分に適合するか否か、かつ予め特定した検証基準のセットを満たすか否かを決定すること、
前記第１の合成アレリックラダーが前記対照サンプルフラグメントのサイズ決めデータに十分に適合しない場合、前記予め計算されたモデルの１つ以上のパラメータを変化させることによって１つ以上の追加の合成アレリックラダーを生成し、前記１つ以上の追加の合成アレリックラダーのいずれかが、前記複数の対立遺伝子のうちのどれが前記対照生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するか否か、かつ予め特定した検証基準のセットを満たすか否かを決定すること、並びに、
合成アレリックラダーの十分な適合が確認されると、前記対照生物学的サンプルの前記複数の対立遺伝子が、前記十分に適合する合成アレリックラダーの対応する複数の対立遺伝子とマッチするか否かを決定すること、によって前記検証を実行する、非一時的コンピュータ可読媒体。
１つ以上の命令を記憶するメモリを含む非一時的コンピュータ可読媒体であって、少なくとも１つのコンピューティングデバイスの１つ以上のプロセッサによって実行されると、１つ以上のデオキシリボ核酸（ＤＮＡ）分子を含む生物学的サンプルの試験を実行し、前記ＤＮＡ分子は１つ以上のＤＮＡ遺伝子座を含み、各ＤＮＡ遺伝子座は複数の対立遺伝子と関連付けられており、
分析機器を使用して、前記生物学的サンプルに対応する複数の標識されたＤＮＡフラグメントを移動及び走査することによって、試験フラグメントのサイズ決めデータを取得すること、
予め計算されたモデルを使用して、少なくとも１つの第１の合成アレリックラダーを動的に生成することであって、前記予め計算されたモデルが、フラグメントサイズを測定するために、同じ分析機器を使用するか、又は別の同等の分析機器を使用するかのいずれかで、複数の以前に行われたサンプルランから得られた複数のフラグメントのサイズ決めデータセットの分析に基づく、こと、
前記第１の合成アレリックラダーのいずれかが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定すること、
前記第１の合成アレリックラダーが前記試験フラグメントのサイズ決めデータに十分に適合しない場合、前記予め計算されたモデルの１つ以上のパラメータを変化させることによって１つ以上の追加の合成アレリックラダーを生成し、前記１つ以上の追加の合成アレリックラダーのいずれかが、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを同定するために、前記試験フラグメントのサイズ決めデータに十分に適合するか否かを決定すること、並びに、
合成アレリックラダーの十分な適合が確認されると、前記十分に適合する合成アレリックラダーを使用して、前記複数の対立遺伝子のうちのどれが前記生物学的サンプル中に存在するかを決定すること、によって前記試験を実行する、非一時的コンピュータ可読媒体。
前記分析機器が、キャピラリー電気泳動（ＣＥ）機器を含む、請求項３９に記載の非一時的コンピュータ可読媒体。
前記複数の以前に行われたサンプルランが、１つ以上のアレリックラダーサンプルランを含む、請求項３９に記載の非一時的コンピュータ可読媒体。
前記複数の以前に行われたサンプルランが、他の生物学的サンプル由来の１つ以上の１つ以上の試験サンプルランを含む、請求項３９に記載の非一時的コンピュータ可読媒体。
前記１つ以上の追加の合成アレリックラダーが、１つ以上の最適化基準を満たすために、十分に適合するアレリックラダーが同定された後に生成される、請求項３９に記載の非一時的コンピュータ可読媒体。