JP6066924B2

JP6066924B2 - Ｄｎａ配列のデータ解析法

Info

Publication number: JP6066924B2
Application number: JP2013547551A
Authority: JP
Inventors: スリラム，シュリーダラン; エランゴ，ネィヴィン; サストゥリー−デント，ラクシュミ; ペトリノ，ジョセフ
Original assignee: ダウアグロサイエンシィズエルエルシー
Priority date: 2010-12-29
Filing date: 2011-12-20
Publication date: 2017-01-25
Anticipated expiration: 2031-12-20
Also published as: ZA201305274B; CA2823061A1; IL227246A; US20120173153A1; KR20140006846A; AU2011352786B2; EP2659411A1; AU2011352786A1; BR112013016631A2; AR084631A1; WO2012092039A1; JP2014505935A; CN103403725A; RU2013135282A

Description

（関連出願の相互参照）
本願は、２０１０年１２月２９日に出願された米国仮特許出願第６１／４２８，１９１号および２０１１年７月１日に出願された米国仮特許出願第６１／５０３，７８４号（これらの全開示は、参照により援用される）に基づく優先権を主張する。

ジンクフィンガーヌクレアーゼ（ＺＦＮ）は、ゲノム中の特定の配列でＤＮＡ鎖を切断して二本鎖切断端を生成するように遺伝子工学により作製され得る酵素である。二本鎖切断端が修復される１つのプロセスは、非相同末端結合（ＮＨＥＪ）である。ＮＨＥＪ媒介性修復は、ＺＦＮ切断部位においてランダムな塩基対の付加および／または欠失をもたらし、ＺＦＮによって誘導されるゲノム改変が生じる。その改変は、生物学的解析のために使用され得る、異なってコードされるＤＮＡ鎖を生成し得る。ＺＦＮによって誘導されたゲノム改変の解析は、ゲノム中の特定の切断位置／部位における特定のＺＦＮの相対的な有効性を示唆し得る。

様々なツールを使用することにより、ＤＮＡの配列を切断または改変できる。例えば、９３３０ＺｉｏｎｓｖｉｌｌｅＲｏａｄｉｎＩｎｄｉａｎａｐｏｌｉｓ，Ｉｎｄｉａｎａ４６２６８に存在するＤｏｗＡｇｒｏｓｃｉｅｎｃｅｓから入手可能なＥＸＺＡＣＴＰｒｅｃｉｓｉｏｎＴｅｃｈｎｏｌｏｇｙブランドの機器は、ゲノム改変のための最先端の万能かつロバストなツールキットである。それは、ＺＦＮのデザインおよび使用に基づくものである。

新しい配列決定技術の急速な発展は、ゲノムワイドな変異のスキャン、新しいゲノムの構築およびトランスクリプトミクス研究を含む多くの生物学的応用法のスケールおよび解明を実質的に拡大する。製造されているすべての次世代シーケンシング（ＮＧＳ）プラットフォーム（ＲｏｃｈｅＤｉａｇｎｏｓｔｉｃｓＣｏｒｐ．，ＩＬＬＵＭＩＮＡから入手可能なＲｏｃｈｅ４５４ブランドのシーケンシングプラットフォームおよび／またはＩｌｌｕｍｉｎａ，Ｉｎｃ．から入手可能なＳＯＬＥＸＡブランドのシーケンシングプラットフォームならびにＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓから入手可能なＳＯＬｉＤブランドのシーケンシングプラットフォームを含む）が、１装置１日あたりギガ塩基対（Ｇｂｐ）の桁数のデータを生成することができる。Ｒｏｃｈｅ４５４ブランドのシーケンシングプラットフォームは、長い「リード（read）」配列を生成し、一方、Ｉｌｌｕｍｉｎａ（Ｓｏｌｅｘａ）およびＳＯＬｉＤブランドのシーケンサーは、短いリードシーケンシングプラットフォームである（典型的には、約３６〜１００ｂｐ）。次世代シーケンシング（ＮＧＳ）技術では、大量の配列決定データの生成が可能であり、高レベルの検出感度が提供され、多数のサンプルの解析が可能である。

本開示の例示的な実施形態において、ジンクフィンガーヌクレアーゼの標的化活性を定量化する解析システムおよび計算方法が提供される。特定のゲノム系における特定の標的において多数のＺＦＮをスクリーニングおよびランク付けするために使用され得るシステムおよび方法が提供される。そのシステムおよび方法は、任意の技術（例示的な技術としては、タンパク質もしくは小分子に特異的な方法またはその両方の組み合わせあるいは物理的方法が挙げられる）を使用して行われる任意のゲノム改変（例示的なゲノム改変としては、ヌクレオチド挿入／欠失、遺伝子付加、点変異およびメチル化が挙げられる）を確認するために使用され得る。さらに、そのシステムおよび方法は、ゲノム改変の機能的な読み出しを可能にする翻訳スクリプト（すなわち、改変されたゲノムのタンパク質産物）を提供するようにさらに改変され得る。

本開示の例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード（読取り）配列を特定する工程、その複数の高品質リード配列から複数のユニーク（独特の、普通でない）リード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。

本開示の別の例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。その方法はさらに、その複数のユニークリード配列を参照サンプルに対応する参照配列データとアライメント（配列比較）した後、高品質アライメントを計算する工程を包含する。

本開示のさらに別の例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。その方法はさらに、アライメントされたユニークリード配列の定性的解析を行う工程を包含する。

本開示のなおも別の例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。その方法はさらに、アライメントされたユニークリード配列の定量的解析を包含する。

本開示のなおもさらに別の例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。その方法はさらに、アライメントされたユニークリード配列を可視化する工程を包含する。

本開示のさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。その方法はさらに、その複数のユニークリード配列の各々と参照配列とのアライメントを計算する工程を包含する。

本開示のなおもさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。その方法はさらに、その配列データに関する信頼区間データを電子的に受信する工程（その信頼区間データは、複数の高品質リード配列を特定するために少なくとも部分的に使用される）を包含する。

本開示のなおもさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含し、ここで、その複数の配列の各々は、植物ゲノムの少なくとも一部を記述している。

本開示のなおもさらにさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含し、ここで、１またはそれ以上のバーコードを記述しているバーコード情報が、配列データに伴って電子的に受信される。

本開示のなおもさらにさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含し、ここで、１またはそれ以上のバーコードを記述しているバーコード情報が、配列データに伴って電子的に受信され、配列データを少なくとも２つの群のうちの１つと関連づける工程が、配列データに付随するバーコード情報を読み出す工程、および１またはそれ以上のバーコードに従って配列データを関連づける工程を包含する。

本開示のなおもさらにさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程、その複数の配列の中から複数の高品質リード配列を特定する工程、その複数の高品質リード配列から複数のユニークリード配列を抽出する工程、およびその複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程を包含する。その方法はさらに、配列データを少なくとも２つの群のうちの１つと関連づける工程を包含する。

本開示の別の例示的な実施形態において、解析のためのシステムが提供される。そのシステムは、複数の配列に関する配列データを受信するためのモジュール、および計算モジュールを備える。その計算モジュールは、その複数の配列の中から複数の高品質リード配列を特定し、その複数の高品質リード配列から複数のユニークリード配列を抽出し、そしてその複数のユニークリード配列を参照サンプルに対応する参照配列と比較するように動作可能である。

本開示のさらに別の例示的な実施形態において、解析のためのシステムが提供される。そのシステムは、複数の配列に関する配列データを受信するためのモジュール、および計算モジュールを備える。その計算モジュールは、その複数の配列の中から複数の高品質リード配列を特定し、その複数の高品質リード配列から複数のユニークリード配列を抽出し、そしてその複数のユニークリード配列を参照サンプルに対応する参照配列と比較するように動作可能であり、ここで、その計算モジュールはさらに、その複数の高品質リード配列から高品質アライメントを計算するように動作可能である。

本開示のなおも別の例示的な実施形態において、解析のためのシステムが提供される。そのシステムは、複数の配列に関する配列データを受信するためのモジュール、および計算モジュールを備える。その計算モジュールは、その複数の配列の中から複数の高品質リード配列を特定し、その複数の高品質リード配列から複数のユニークリード配列を抽出し、そしてその複数のユニークリード配列を参照サンプルに対応する参照配列と比較するように動作可能である。そのシステムはさらに、アライメントされたユニークリード配列の定性的解析を行うモジュールを備える。

本開示のなおもさらに別の例示的な実施形態において、解析のためのシステムが提供される。そのシステムは、複数の配列に関する配列データを受信するためのモジュール、および計算モジュールを備える。その計算モジュールは、その複数の配列の中から複数の高品質リード配列を特定し、その複数の高品質リード配列から複数のユニークリード配列を抽出し、そしてその複数のユニークリード配列を参照サンプルに対応する参照配列と比較するように動作可能である。そのシステムはさらに、アライメントされたユニークリード配列の定性的解析を行うモジュールを備える。

本開示のなおもさらに別の例示的な実施形態において、解析のためのシステムが提供される。そのシステムは、複数の配列に関する配列データを受信するためのモジュール、および計算モジュールを備える。その計算モジュールは、その複数の配列の中から複数の高品質リード配列を特定し、その複数の高品質リード配列から複数のユニークリード配列を抽出し、そしてその複数のユニークリード配列を参照サンプルに対応する参照配列と比較するように動作可能である。そのシステムはさらに、アライメントされたユニークリード配列を可視化するモジュールを備える。

本開示のさらなる例示的な実施形態において、解析のためのシステムが提供される。そのシステムは、複数の配列に関する配列データを受信するためのモジュール、および計算モジュールを備える。その計算モジュールは、その複数の配列の中から複数の高品質リード配列を特定し、その複数の高品質リード配列から複数のユニークリード配列を抽出し、そしてその複数のユニークリード配列を参照サンプルに対応する参照配列と比較するように動作可能であり、ここで、その計算モジュールはさらに、複数の高品質アライメントの各々と参照配列とのアライメントを計算するように動作可能である。

本開示のさらなる例示的な実施形態において、解析のためのシステムが提供される。そのシステムは、複数の配列に関する配列データを受信するためのモジュール、および計算モジュールを備える。その計算モジュールは、その複数の配列の中から複数の高品質リード配列を特定し、その複数の高品質リード配列から複数のユニークリード配列を抽出し、そしてその複数のユニークリード配列を参照サンプルに対応する参照配列と比較するように動作可能であり、ここで、その計算モジュールはさらに、配列データを少なくとも２つの群のうちの１つと関連づける。

本開示の別の例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程（その複数の配列は、植物ゲノムの少なくとも一部を記述しており、その複数の配列は、その配列を切断する１またはそれ以上のジンクフィンガーヌクレアーゼに事前に曝露されている）、その配列データに関する信頼区間データを電子的に受信する工程、その信頼区間データに少なくとも部分的に基づいてその複数の配列の中から複数の高品質リード配列を特定する工程、その１またはそれ以上の高品質リード配列からユニークリード配列を抽出する工程、およびそのユニークリード配列を参照サンプルに対応する配列データとアライメントする工程を包含する。

本開示の別の例示的な実施形態において、解析のための方法が提供される。その方法は、複数の配列に関する配列データを電子的に受信する工程（その複数の配列は、植物ゲノムの少なくとも一部を記述しており、その複数の配列は、その配列を切断する１またはそれ以上のジンクフィンガーヌクレアーゼに事前に曝露されている）、その配列データに関する信頼区間データを電子的に受信する工程、その信頼区間データに少なくとも部分的に基づいてその複数の配列の中から複数の高品質リード配列を特定する工程、その１またはそれ以上の高品質リード配列からユニークリード配列を抽出する工程、およびそのユニークリード配列を参照サンプルに対応する配列データとアライメントする工程を包含する。その方法はさらに、その配列データに付随するバーコード情報を電子的に受信する工程、およびそのバーコード情報に少なくとも部分的に基づいて配列データを少なくとも（a least）２つの群のうちの１つと関連づける工程を包含する。

本開示のさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第１の数の配列に関する配列データを電子的に受信する工程（その第１の数の配列は、複数のジンクフィンガーヌクレアーゼ（ＺＦＮ）によって切断された後に修復された複数の配列を含み、第１の数の配列の第１の部分は、第１のＺＦＮによって切断された後に修復され、第１の数の配列の第２の部分は、第２のＺＦＮによって切断された後に修復されている）、および第１の数の配列の部分群である第２の数の配列を参照配列に部分的に基づいて電子的に決定する工程（その第２の数の配列は、その配列を切断するために使用されたＺＦＮおよびその配列に対する修復の少なくとも１つの特徴に基づいて選択され、第２の数の配列は、第１の数の配列より少なくとも２桁少ない）を包含する。

本開示のなおもさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第１の数の配列に関する配列データを電子的に受信する工程（その第１の数の配列は、複数のジンクフィンガーヌクレアーゼ（ＺＦＮ）によって切断された後に修復された複数の配列を含み、第１の数の配列の第１の部分は、第１のＺＦＮによって切断された後に修復され、第１の数の配列の第２の部分は、第２のＺＦＮによって切断された後に修復されている）、および第１の数の配列の部分群である第２の数の配列を参照配列に部分的に基づいて電子的に決定する工程（その第２の数の配列は、その配列を切断するために使用されたＺＦＮおよびその配列に対する修復の少なくとも１つの特徴に基づいて選択され、第２の数の配列は、第１の数の配列より少なくとも２桁少ない）を包含し、ここで、第２の数の配列は、第１の数の配列よりも少なくとも４桁少ない。

本開示のなおもさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第１の数の配列に関する配列データを電子的に受信する工程（その第１の数の配列は、複数のジンクフィンガーヌクレアーゼ（ＺＦＮ）によって切断された後に修復された複数の配列を含み、第１の数の配列の第１の部分は、第１のＺＦＮによって切断された後に修復され、第１の数の配列の第２の部分は、第２のＺＦＮによって切断された後に修復されている）、および第１の数の配列の部分群である第２の数の配列を参照配列に部分的に基づいて電子的に決定する工程（その第２の数の配列は、その配列を切断するために使用されたＺＦＮおよびその配列に対する修復の少なくとも１つの特徴に基づいて選択され、第２の数の配列は、第１の数の配列より少なくとも２桁少ない）を包含し、ここで、その配列に対する修復の第１の特徴は、標的切断領域中の挿入数および欠失数のうちの少なくとも１つの基準を含む。

本開示のなおもさらにさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第１の数の配列に関する配列データを電子的に受信する工程（その第１の数の配列は、複数のジンクフィンガーヌクレアーゼ（ＺＦＮ）によって切断された後に修復された複数の配列を含み、第１の数の配列の第１の部分は、第１のＺＦＮによって切断された後に修復され、第１の数の配列の第２の部分は、第２のＺＦＮによって切断された後に修復されている）、および第１の数の配列の部分群である第２の数の配列を参照配列に部分的に基づいて電子的に決定する工程（その第２の数の配列は、その配列を切断するために使用されたＺＦＮおよびその配列に対する修復の少なくとも１つの特徴に基づいて選択され、第２の数の配列は、第１の数の配列より少なくとも２桁小さい）を包含し、ここで、その第２の数の配列を参照配列に部分的に基づいて電子的に決定する工程は、それぞれの配列を切断するために使用されたＺＦＮに基づいて第１の数の配列を複数の群に分ける工程、第１の数の配列中の複数の高品質リード配列を特定する工程（その複数の高品質リード配列は、第１の数の配列より少なく、かつ第２の数の配列より多い第３の数の配列を有する）、第３の数の配列から複数のユニークリード配列を特定する工程（その複数のユニークリード配列は、第３の数の配列より少なく、かつ第２の数の配列より多いまたは少ない第４の数の配列を有する）およびその第４の数の配列の各々を参照配列と比較して、複数の高品質アライメント配列を特定する工程を包含する。

本開示のさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第１の数の配列に関する配列データを電子的に受信する工程（その第１の数の配列は、複数のジンクフィンガーヌクレアーゼ（ＺＦＮ）によって切断された後に修復された複数の配列を含み、第１の数の配列の第１の部分は、第１のＺＦＮによって切断された後に修復され、第１の数の配列の第２の部分は、第２のＺＦＮによって切断された後に修復されている）、および第１の数の配列の部分群である第２の数の配列を参照配列に部分的に基づいて電子的に決定する工程（その第２の数の配列は、その配列を切断するために使用されたＺＦＮおよびその配列に対する修復の少なくとも１つの特徴に基づいて選択され、第２の数の配列は、第１の数の配列の１パーセント未満である）を包含する。

本開示のなおもさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第１の数の配列に関する配列データを電子的に受信する工程（その第１の数の配列は、複数のジンクフィンガーヌクレアーゼ（ＺＦＮ）によって切断された後に修復された複数の配列を含み、第１の数の配列の第１の部分は、第１のＺＦＮによって切断された後に修復され、第１の数の配列の第２の部分は、第２のＺＦＮによって切断された後に修復されている）、および第１の数の配列の部分群である第２の数の配列を参照配列に部分的に基づいて電子的に決定する工程（その第２の数の配列は、その配列を切断するために使用されたＺＦＮおよびその配列に対する修復の少なくとも１つの特徴に基づいて選択され、第２の数の配列は、第１の数の配列の１パーセント未満である）を包含し、ここで、第２の数の配列は、第１の数の配列の０．１パーセント未満である。

本開示のなおもさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第１の数の配列に関する配列データを電子的に受信する工程（その第１の数の配列は、複数のジンクフィンガーヌクレアーゼ（ＺＦＮ）によって切断された後に修復された複数の配列を含み、第１の数の配列の第１の部分は、第１のＺＦＮによって切断された後に修復され、第１の数の配列の第２の部分は、第２のＺＦＮによって切断された後に修復されている）、および第１の数の配列の部分群である第２の数の配列を参照配列に部分的に基づいて電子的に決定する工程（その第２の数の配列は、その配列を切断するために使用されたＺＦＮおよびその配列に対する修復の少なくとも１つの特徴に基づいて選択され、第２の数の配列は、第１の数の配列の１パーセント未満である）を包含し、ここで、第２の数の配列は、第１の数の配列の０．０１パーセント未満である。

本開示のなおもさらにさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第１の数の配列に関する配列データを電子的に受信する工程（その第１の数の配列は、複数のジンクフィンガーヌクレアーゼ（ＺＦＮ）によって切断された後に修復された複数の配列を含み、第１の数の配列の第１の部分は、第１のＺＦＮによって切断された後に修復され、第１の数の配列の第２の部分は、第２のＺＦＮによって切断された後に修復されている）、および第１の数の配列の部分群である第２の数の配列を参照配列に部分的に基づいて電子的に決定する工程（その第２の数の配列は、その配列を切断するために使用されたＺＦＮおよびその配列に対する修復の少なくとも１つの特徴に基づいて選択され、第２の数の配列は、第１の数の配列の１パーセント未満である）を包含し、ここで、第２の数の配列は、第１の数の配列の０．０１パーセント未満であり、第１の数の配列は、少なくとも１００万個の配列である。

本開示のなおもさらに別の例示的な実施形態において、解析のための方法が提供される。その方法は、第１の数の配列に関する配列データを電子的に受信する工程（その第１の数の配列は、複数のジンクフィンガーヌクレアーゼ（ＺＦＮ）によって切断された後に修復された複数の配列を含み、第１の数の配列の第１の部分は、第１のＺＦＮによって切断された後に修復され、第１の数の配列の第２の部分は、第２のＺＦＮによって切断された後に修復されている）、および第１の数の配列の部分群である第２の数の配列を参照配列に部分的に基づいて電子的に決定する工程（その第２の数の配列は、その配列を切断するために使用されたＺＦＮおよびその配列に対する修復の少なくとも１つの特徴に基づいて選択され、第２の数の配列は、第１の数の配列の１パーセント未満である）を包含し、ここで、その配列に対する修復の第１の特徴は、標的切断領域中の挿入数および欠失数のうちの少なくとも１つの基準を含む。

本開示のなおもさらなる例示的な実施形態において、解析のための方法が提供される。その方法は、第１の数の配列に関する配列データを電子的に受信する工程（その第１の数の配列は、複数のジンクフィンガーヌクレアーゼ（ＺＦＮ）によって切断された後に修復された複数の配列を含み、第１の数の配列の第１の部分は、第１のＺＦＮによって切断された後に修復され、第１の数の配列の第２の部分は、第２のＺＦＮによって切断された後に修復されている）、および第１の数の配列の部分群である第２の数の配列を参照配列に部分的に基づいて電子的に決定する工程（その第２の数の配列は、その配列を切断するために使用されたＺＦＮおよびその配列に対する修復の少なくとも１つの特徴に基づいて選択され、第２の数の配列は、第１の数の配列の１パーセント未満である）を包含し、ここで、第２の数の配列を参照配列に部分的に基づいて電子的に決定する工程は、それぞれの配列を切断するために使用されたＺＦＮに基づいて第１の数の配列を複数の群に分ける工程、第１の数の配列中の複数の高品質リード配列を特定する工程（その複数の高品質リード配列は、第１の数の配列より少なく、かつ第２の数の配列より多い第３の数の配列を有する）、第３の数の配列から複数のユニークリード配列を特定する工程（その複数のユニークリード配列は、第３の数の配列より少なく、かつ第２の数の配列より多いまたは少ない第４の数の配列を有する）および第４の数の配列の各々をその参照配列と比較して、複数の高品質アライメント配列を特定する工程を包含する。

図面の詳細な説明は、添付の図について特に言及する。

図１は、本開示の実施形態に係るデータ解析の方法を示しているフローチャートである。図２は、本開示の実施形態に係る図１のデータの前処理を示しているフローチャートである。図３は、本開示の実施形態に係る図１のデータのアライメントを示しているフローチャートである。図４は、本開示の実施形態に係る図１のデータの後処理を示しているフローチャートである。図５は、本開示の実施形態に係るシーケンサーからデータ分析装置へのデータおよび資料のフローチャートである。図６は、本開示の実施形態に係るデータ分析装置のシステムの略図である。図７は、本開示の実施形態に係るバーコードを有する例示的な配列セットである。図８Ａは、本開示の実施形態に係るバーコードに従って配列を整理した図７の例示的な配列セットの図表である。図８Ｂは、本開示の実施形態に係るユニーク配列に従って配列を整理した図７の例示的な配列セットの図表である。図８Ｃは、ユニーク配列の各々に結びつけられた配列の数のカウントを含む図８Ｂの例示的な配列セットの図表である。図９は、本開示の実施形態に係る各塩基に対する信頼区間を含む２つの配列の例示的なセットである。図１０は、本開示の実施形態に係るいくつかの配列の例示的な可視化である。図１１は、シーケンサーからの全リード間の例示的な比較セット、および１またはそれ以上のフィルターが本開示の実施形態に係る全リードに適用された後に得られた高品質リードの数である。図１２は、本開示の実施形態に係るいくつかのＺＦＮの例示的な定量的解析である。図１３は、本開示の実施形態に係るＺＦＮ活性を詳述している例示的なグラフのセットである。図１４は、本開示の実施形態に係るＺＦＮ活性を詳述している例示的なグラフのセットである。

対応する参照文字は、いくつかの図にわたって対応する部分を示している。本明細書中に明示される例証は、本開示の例示的な実施形態を例証しており、そのような例証は、いかなる方法によっても本開示の範囲を限定すると解釈されるべきでない。

（図面の詳細な説明）
本明細書中に記載される本開示の実施形態は、網羅的であるかまたは開示される厳密な形態に本開示を限定すると意図されていない。むしろ、説明のために選択された実施形態は、当業者が本開示の主題を実施できるように選択されている。本開示は、解析システムの特定の構成を記載しているが、本明細書中に提示される概念は、本開示と矛盾しない他の様々な構成で使用されてもよいと理解されるべきである。さらに、ＺＦＮに曝露されたＤＮＡ配列の解析が論じられるが、本明細書中の教示は、ＺＦＮまたは他の酵素に曝露された他の配列の解析に適用されてもよい。

図１は、本開示の実施形態に係るデータ解析の方法を示しているフローチャートを示している。ボックス１０１に図示されているように、１またはそれ以上のシーケンサーが、１またはそれ以上のサンプルから配列データを生成する。ボックス１０３に図示されているように、シーケンサーから収集されたデータは、前処理されて、利用可能なデータを整理し、解析されるデータの全体の量を減少させる。ボックス１０５に図示されているように、配列を参照サンプルとアライメントし、解析する。ボックス１０７に図示されているように、後処理において、アライメントされた配列からの配列データを分別し、各ＺＦＮの有効性を定量的および定性的に解析し得る。この方法は、図２〜４に照らして説明され、前処理を例証的に示す例示的な配列セットが、図７〜９に関して示される。

解析されるサンプルは、目的の生物由来の１またはそれ以上の細胞／組織を含むサンプルにある量のＺＦＮを添加することによって調製され得る。その１またはそれ以上の細胞は、そのＺＦＮによって標的化される特定の切断部位を含むゲノムＤＮＡを含む。ＺＦＮ分子は、ＤＮＡ鎖の１つ以上を特定の切断部位で切断し得る。そのＤＮＡは、１またはそれ以上の他の酵素によって修復されることがあり、そのＤＮＡの修復は、その切断部位における１またはそれ以上のランダムな改変を含むことがある。場合によっては、そのＤＮＡ鎖は、その配列が切断前のＤＮＡ鎖の配列と全く等しくなるように修復されることがある。他の場合では、そのＤＮＡ鎖は、１またはそれ以上の追加の塩基を含むことがあるか、またはそのＤＮＡ鎖は、１またはそれ以上の塩基が除去されることがある。さらに、ＺＦＮが添加されずに、目的の生物由来の１またはそれ以上の細胞／組織だけを含む１またはそれ以上のサンプルが調製されることがある。ＺＦＮを含まないサンプルは、コントロールサンプルと呼ばれる。通常、複数のサンプルが調製され、その各々が、ユニークなＺＦＮ処理を有する。反復処理のために、２またはそれ以上のサンプルが同じＺＦＮを含むことがある。各ＺＦＮの効果を解析することによって、所与のゲノムＤＮＡに対して対象となる１またはそれ以上のＺＦＮが特定され得る。

共通のＤＮＡ鎖および共通のＺＦＮが使用されるサンプルでは、ユニークな識別マーカーまたはバーコードがＤＮＡ鎖に付加される。１つの実施形態において、そのバーコードは、例えば、ＤＮＡ鎖の５’末端における一続きの６ヌクレオチドおよびＤＮＡ鎖の３’末端における一続きの６ヌクレオチドである。ある実施形態において、そのバーコードは、各末端における６ヌクレオチド超または未満であり得る。ある実施形態において、そのバーコードは、ＤＮＡ鎖の５’末端だけまたはＤＮＡ鎖の３’末端だけに存在し得、６ヌクレオチド、６ヌクレオチド未満または６ヌクレオチド超のうちの１つを含む。それより長いまたは短いヌクレオチドが、バーコードとして使用されてもよい。そのバーコードは、複数のサンプルのＤＮＡ鎖がシーケンサーの１回のランで解析されることを可能にする。そのバーコードが存在するおかげで、複数の配列の各々の起源であるサンプルをシーケンサーは認識できる。それらの配列は、配列決定後にバーコードによって分別され得、添加されたジンクフィンガーヌクレアーゼに従って処理中および解析中に分別され得る。１つの実施形態において、少なくとも１つのバーコードが、ＺＦＮで処理されていないコントロールＤＮＡ鎖に付加される。

シーケンサーのプロトコルまたは操作説明書に従って、上記のサンプルをシーケンサーに充填する。例えば、ＳｏｌｅｘａＩＬＬＵＭＩＮＡブランドの配列決定装置またはＲｏｃｈｅ４５４ブランドの配列決定装置が使用され得る。そのシーケンサーは、配列に関するデータを生成する。そのデータとしては、サンプル中のＤＮＡ鎖の配列に関する情報を含む１またはそれ以上のテキストファイルまたは他のデータファイルが挙げられ得るがこれらに限定されない。ある実施形態において、配列情報は、配列中の各塩基がそれに関連する信頼区間を有し得るようなまたは各配列がそれに関連する信頼区間を有するような信頼データも含む。信頼区間は、シーケンサーによって計算される数学的計算値であり、シーケンサーによる特定の塩基のリードの強さを含み得る。１つの例証的な例において、信頼区間は、１から９までの整数である。その例では、１という信頼区間は、そのシーケンサーが、報告された塩基がそのＤＮＡ鎖中の塩基だったという相対的に低い信頼度を有することを示唆する。９という信頼区間は、そのシーケンサーが、報告された塩基がそのＤＮＡ鎖中の塩基だったという相対的に高い信頼度を有することを示唆する。ある実施形態において、シーケンサーは、信頼区間に加えて他の情報も報告する。例えば、塩基を読み出せなかったとき、シーケンサーは報告し得る。

ここで図２を参照すると、本開示の実施形態に係る図１のデータの前処理を示しているフローチャートが示されている。ボックス２０１に図示されているように、配列決定ランに対するデータがシーケンサーから読み出される。ある実施形態において、そのデータは、１またはそれ以上のテキストファイルの形態であり、そのテキストファイルは、配列情報、ならびにシーケンサーおよび／またはデータセットに関する他のデータを含む。そのデータは、短いＤＮＡ配列、すなわち「リード」を含む。ある実施形態において、そのデータは、各リード中のシーケンサーによって読み出された各塩基に対する信頼区間スコアも含む。そのバーコードデータは、図５および６に照らして下記でさらに詳細に記載されるように解析システム５０７によって読み出され、サンプルがバーコードとともにコードされている場合、それらのリードは、バーコードによって分別され、その結果、同じバーコードを有するリードは、集められる。ある実施形態において、バーコードに関する情報は、データベース、スプレッドシートまたは他のデータファイルとして記憶され、そのバーコード情報およびバーコードに関する情報は、解析システム５０７にとって利用可能にされる。

バーコードを有する例示的な配列セットが、図７に示されている。各配列が、標的部位ならびに５’末端および３’末端を有する。例証的な例では、それらのバーコードは、配列の５’および３’末端の両方に結合されている。ある実施形態において、それらのバーコードは、配列の５’末端だけに、または配列の３’末端だけに結合され得る。図７では、２つのバーコード、バーコード１およびバーコード２が存在している。各配列は、それらのバーコードのうちの１つを伴っており、配列１、配列２、配列４、配列７および配列８の各々が、バーコード１を有し、配列３、配列５、配列６、配列９および配列１０の各々が、バーコード２を有する。１つの実施形態において、第１のＺＦＮで処理されたすべての配列が、バーコード１を有し、第２のＺＦＮで処理されたすべての配列が、バーコード２を有する。１つの実施形態において、それらの配列に対応するＤＮＡ鎖が、シーケンサー内のサンプル回収チャンバーに入れられる。別の実施形態において、それらのＤＮＡ鎖は、３’末端と５’末端（適切なバーコードを有する）とを結合されて、連続したＤＮＡ鎖を形成し、その連続した鎖が、シーケンサー内のサンプル回収チャンバーに入れられる。この実施形態では、シーケンサーおよび／または解析システム５０７が、配列決定後に配列を分別する。

図２のボックス２０３に図示されているように、同じバーコードを有するリードは、集められる。解析システム５０７または他の前処理システムは、リードからバーコード情報を除去するので、それらのリードに対するＤＮＡ配列情報が、解析のために残る。

バーコードに従って整理された図７の例示的な配列セットが、図８Ａに示されている。配列１、配列２、配列４、配列７および配列８は、配列３、配列５、配列６、配列９および配列１０と区別される。それらの配列は、バーコードによって分類され、次いで、バーコードが、配列から除去される。１つの実施形態において、配列がメモリーに記憶され、バーコードによって分類される。

図２のボックス２０５に図示されているように、リードに対する配列データが精査される。低品質リードをさらなる考慮から除去することによって、配列数が減少される。

１つの実施形態において、ある配列が低品質リードと考えられるか否かは、その配列データに付随する信頼区間情報に基づく。信頼区間情報が、シーケンサーによって提供されるかまたは計算され得る場合、各塩基に対する信頼区間情報が、精査される。１つの実施形態において、所定の信頼区間値を下回る１またはそれ以上の塩基を有するリードは、低品質リードとして却下される。すべての塩基が所定の信頼区間値を上回っているリードは、高品質リードとして許容される。０〜１００の信頼区間（ここで、０が低信頼区間であり、１００が高信頼区間である）、および３０という信頼区間閾値を有するシーケンサーの場合、６５、５０、４０および７０という信頼区間を有する例示的なリードは、各信頼区間が３０を超えているので、高品質リードとして許容される。２５、１０、９０および５６という信頼区間を有する別の例示的なリードは、それらの信頼区間の少なくとも１つが３０を下回ったので、低品質リードとして却下される。１またはそれ以上の選択基準を決定するために、他の形態の解析も使用してよい。例えば、あるリード中の各塩基に対する信頼区間の平均が算出されてもよく、その平均信頼区間が信頼区間閾値より低い場合、そのリードは、却下され得る。ある実施形態において、信頼区間は、プロトコルによって設定されるか、または解析システム５０７の入力デバイス６０１を介してユーザーによって設定される。ユーザーまたはプロトコルによって判断されるとき、却下されるリードが多すぎるかまたは許容されるリードが多すぎる場合も、ユーザーは、信頼区間値を調整し得る。また、解析システム５０７は、却下されるリードが多すぎるかまたは許容されるリードが多すぎる場合、さらなるユーザーの入力無しに信頼区間を調整し得る。

図９は、信頼区間を含む例示的な２つの配列９０１、９０５のセットを示している。第１の配列９０１は、５０塩基、および各塩基に付随する１〜９の信頼区間９０３を含む。それらの信頼区間は、シーケンサーによって割り当てられ、特定の塩基が正しく特定されているというシーケンサーの相対的な信頼度を示唆している。この例における９という信頼区間は、シーケンサーが、その塩基が正しく特定されていると非常に確信していることを示唆する。この例における１という信頼区間は、シーケンサーが、その塩基が正しく特定されていると確信していないことを示唆する。その例では、信頼区間閾値は、４に設定されており、これは、４より低い任意の塩基信頼区間を有する配列は却下されることを意味する。解析システム５０７は、第１の例示的な配列９０１と第２の例示的な配列９０５の両方を精査し得る。第１の例示的な配列９０１は、５またはそれ以上である各塩基に対する信頼区間９０３を含むので、解析システム５０７は、さらなる処理に対して第１の配列９０１を許容する。第２の例示的な配列９０５に付随する信頼区間９０７は、２という値を有する１つの信頼区間９０９を示唆しているので、解析システム５０７は、第２の例示的な配列を却下する。ある実施形態において、平均信頼区間が、特定の配列の塩基に付随する一連の信頼区間から決定される。平均信頼区間が、例えば、信頼区間値より低い場合、その配列は、却下される。別の実施形態において、ある配列は、却下されることになる信頼区間値より低い２またはそれ以上の信頼区間を有さなければならない。解析システムは、配列全体の信頼区間に基づいてどの配列を許容または却下するかを決定してもよいし、配列全体のサブセットに基づいてどの配列を許容または却下するかを決定してもよい。例えば、解析システムは、配列の標的部位または標的部位に隣接する１またはそれ以上の塩基に対する信頼区間を精査し得る。

信頼区間によって判定された低品質リードは、解析システム５０７によって除去されてもよいし、さらに考慮されなくてもよい。信頼区間によって判定された高品質リードは、さらなる処理のために解析システム５０７によって許容され得る。その高品質リードは、バーコードによって分別されたままである。１つの実施形態において、それらのリードは、バーコードによる分別の前に低品質または高品質であると判定される。

ボックス２０７に図示されているように、ユニークリード配列が高品質リードから抽出される。解析システム５０７は、所与のバーコードについてリードを精査し、それらのリードを互いに比較し、ユニークであるリードを抽出する。ある実施形態において、解析システム５０７は、ユニーク配列と同一であるリードの数も数え、特定のユニーク配列と同一であるリードの数に基づいてさらなる解析を重み付ける。

図８Ｂは、ユニーク配列に選別された図７および図８Ａの配列を示している。バーコード１を伴っている配列のうち、配列１、配列４および配列７は、ユニークであり、配列２および配列８は、ユニークである。バーコード２を伴っている配列のうち、配列３、配列６および配列１０は、同一であり、配列３は、ユニークであり、配列９は、ユニークである。

図８Ｃは、各ユニーク配列を伴っている配列の数のカウントとともに、図８Ｂの例示的な配列セットの図表を示している。この例では、ユニーク配列は、図８Ｂに示されたユニーク配列のセットにおける１番目の配列の識別子によって特定されている。バーコード１を伴うとき、配列１によって識別されたユニーク配列は、３つの同一配列（配列１、配列４および配列７）を有し、配列２と識別されたユニーク配列は、２つの同一配列（配列２および配列８）を有する。バーコード２を伴うとき、配列５によって識別されたユニーク配列は、３つの同一配列（配列５、配列６および配列１０）を有し、配列３によって識別されたユニーク配列は、ユニークであり、配列９によって識別されたユニーク配列は、ユニークである。

ここで図３を参照すると、本開示の実施形態に係る図１のデータのアライメントを示しているフローチャートが示されている。ボックス３０１に図示されているように、参照サンプル（ＺＦＮで処理されていない）の配列とリードをアライメントして、修復メカニズムがそのリードに対してもたらした変化をもしあれば判定する。

１つの実施形態において、解析システム５０７は、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムを使用して、リードと参照サンプルの配列とをアライメントする。ある実施形態において、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムは、パフォーマンスを高めるためまたは他の改変を行うために、改変またはカスタマイズされることがある。ある実施形態において、リードと参照サンプルの配列とをアライメントするために、ＪＡｌｉｇｎｅｒオープンソースソフトウェアパッケージが使用され得るか、またはＳｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムを実装しているＪＡｌｉｇｎｅｒソフトウェアパッケージの改良版が使用され得る。

Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムは、ヌクレオチド配列間またはタンパク質配列間の類似度を測定するためのダイナミックプログラミング法である。このアルゴリズムは、最適な局所アライメントを探索することによって配列間の相同領域を特定するために使用される。最適な局所アライメントを見つけるために、指定のギャップペナルティのセットを含むスコアリングシステムが使用される。Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムは、最良の局所アライメントを特定するために、２つの配列間の可能性のあるすべての長さのセグメントを比較するという考えに基づいている。このアルゴリズムは、問題全体に及ぶ完全な解のために、その問題をより小さい問題に分け、これらのより小さい問題を解いた後、その小さな問題の各々に対する解を集約するために使用される一般的手法であるダイナミックプログラミングに基づいている。そのダイナミックプログラミングの手法を実行して、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムは、比較される２つの配列中の任意の位置で始まるおよび終わる任意の可能性のある長さのアライメントを考慮して最適な局所アライメントを見つける。

配列アライメントは、通常、４つのカテゴリーのうちの１つに入る。第１のカテゴリーでは、リードと参照サンプル配列とが、正確に一致する。そのリードおよび参照サンプル配列は、２つの条件下で正確に一致する。第１に、そのＺＦＮが、その特定のリードにおいて活性でなかった（すなわち、そのＺＦＮはそのＤＮＡ鎖を切断しなかった）。第２に、そのＺＦＮは、そのＤＮＡ鎖を切断したが、修復メカニズムがその鎖を完璧に修復し、修復された鎖が参照サンプル配列と全く同じだった。

第２のカテゴリーでは、１またはそれ以上の塩基が参照サンプル配列から変更または変異される場合に、リードが参照サンプル配列と整列する。変異した塩基は、標的部位内または標的部位外に存在し得る。変異した塩基が、標的部位の内側である場合、そのＺＦＮは、そのＤＮＡ鎖を標的部位で切断したかもしれず、修復メカニズムが、ランダムな塩基を付加してそのＤＮＡ鎖を修復したかもしれない。変異した塩基が、標的部位の外側である場合、修復メカニズムが、そのＤＮＡ鎖を不正確に修復したかもしれないし、シーケンサーが、そのＤＮＡ鎖を不正確に読み出したかもしれないし、そのＺＦＮが、そのＤＮＡ鎖を標的部位以外の位置で切断したかもしれない。ある実施形態において、変異した塩基が、標的部位の内側である場合、リードは保持される。変異した塩基が、標的部位の外側である場合、リードは、却下される。

第３のカテゴリーでは、１またはそれ以上の塩基が挿入される場合に、リードが参照サンプル配列と整列する（すなわち、リードが参照サンプル配列と整列するように１またはそれ以上の塩基が挿入されなければならない）。

第４のカテゴリーでは、１またはそれ以上の塩基がリードから欠失される場合に、リードが参照サンプル配列と整列する（すなわち、リードが参照サンプル配列と整列するように１またはそれ以上の塩基が欠失されなければならない）。

１つの実施形態において、リードは、上記の４つのカテゴリーのうちの１つに入るように評価される。ある実施形態において、リードが第１のカテゴリーに入る場合、そのリードは、さらなる考慮から除去される。リードが第２のカテゴリーに入る場合、そのリードは、さらなる考慮から除去される。第３または第４のカテゴリーに入るリードが、さらに考慮される。

上記アライメントアルゴリズムは、パラメータの最適化、特定のスコアリング基準の開発、および出力アライメント形式の操作（その結果、その形式は、他の可視化または解析のプログラムまたはアルゴリズムと互換性になる）を含むように改変され得る。例えば、パラメータ値を使用して、リードを「スコア付けする」ことにより、リードが高品質であるか低品質であるかが判定される。改変されたアルゴリズムとともに使用され得るパラメータ値としては、一致スコア３、不一致スコア０、ギャップオープンペナルティ２およびギャップ伸長ペナルティ１が挙げられる。各塩基は、スコアを割り当てられ得、各塩基の集計スコアもしくは平均スコアに応じて、そのリードはさらなる処理に対して許容または却下され得る。

上記アルゴリズムは、２つの配列間の各残基の比較に対してスコアを割り当てる。
一致もしくは置換および挿入／欠失に対してスコアを割り当てることによって、その所与のセルに対する可能性のあるすべての経路の計算ごとに、文字の各対の比較結果を重み付けして行列にする。任意の行列セルにおいて、値は、これらの座標で終わる最適なアライメントのスコアを表しており、その行列は、最高スコアのアライメントを最適なアライメントとして報告する。その行列から最適な局所アライメントを構築する場合、出発点は、最高スコアの行列セルである。次いで、０のスコアのセルに遭遇するまで、そのアレイを通って経路をトレースバックする。各セル内のスコアは、この特定のセルの座標で終わる任意の長さのアライメントに対する最大可能スコアであるので、この最高スコアのセグメントの整列は、最高スコアの局所アライメント、すなわち最適な局所アライメントをもたらし得る。１つの実施形態において、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎ探索から最適なパフォーマンスを得るために行列、ギャップペナルティ（ギャップイニシャルコスト（gap initial costs）およびギャップ伸長コスト（gap extension costs）を含む）、Ｅ値などが考慮されるべきである。

そのアルゴリズムの行列の構成は、以下のとおりである。Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムを用いて比較される２つの配列の長さが、その行列の行および列の次元として使用される。例えば、行列Ｈは、以下のとおり構築される。

Ｈ（ｔ，０）＝０，０≦ｔ≦ｍ（式１）

Ｈ（０，ｊ）＝０，０≦ｊ≦ｎ（式２）

ａ_ｉ＝ｂ_ｊである場合、ｗ（ａ_ｉ，ｂ_ｊ）＝ｗ（一致）であるか、またはａ_ｉ！＝ｂ_ｊである場合、ｗ（ａ_ｉ，ｂ_ｊ）＝ｗ（不一致）である。

式中：

ａ，ｂ＝ヌクレオチドまたはタンパク質配列、

ｍ＝長さ（ａ）、

ｎ＝長さ（ｂ）、

Ｈ（ｉ，ｊ）は、［１．．．ｉ］の下付き数字とｂ［１．．．ｊ］の下付き数字との間の最大類似度スコアであり、

ここで、’−’は、ギャップスコアリングスキームである。

追加のデータが、各リードに対して計算され得る。例えば、パーセントアライメントが、以下に従って計算され得る。

このパーセントアライメントの数字は、リードの相対的な品質を評価するために使用され得る。ある実施形態では、他のデータも計算される。他のデータとしては、例えば、限定されないが、リード中の単一ヌクレオチド多型（ＳＮＰ）の総数、参照サンプル配列と比べてリード中にもたらされた挿入数または欠失数、およびリード上の標的部位内の挿入または欠失の上流および下流に存在する整列塩基数（該当する場合）が挙げられる。多くのリードに対して、リード上の標的部位内の挿入または欠失の上流および下流に存在する整列塩基数は、そのＺＦＮが、特定の位置で確実に切断できることを示唆し得る。

ボックス３０３に図示されているように、それらのリードは、ランク付けされ得るか、またはスコア付けされ得るか、またはフィルターにかけられ得、高品質アライメントが、抽出され得る。ある実施形態では、１またはそれ以上のフィルターを用いて、高品質アライメントを低品質アライメントと区別する。例えば、限定されないが、リードを選別するためにパーセンテージアライメント値が使用され得る。高品質アライメントと低品質アライメントを区別するために、ユーザーが、パーセンテージアライメント値を選択してもよいし、解析システム５０７にパーセンテージアライメント値を提供してもよい。例えば、ユーザーが、判定基準として９５％のアライメントパーセンテージを選択する場合、解析システム５０７は、９５％より低いアライメントパーセンテージを有したリードを棄却し、９５％より高いアライメントパーセンテージを有したリードを維持する。別のフィルターは、リード中のＳＮＰの数であり得る。例えば、４またはそれ以上のＳＮＰを有するリードが、却下され得るか、または別の数のＳＮＰが、リードを許容もしくは却下するために使用され得る。さらに別のフィルターは、標的部位の上流および／または下流に存在する整列塩基数であり得る。例えば、標的部位内の挿入または欠失の上流および／または下流に存在するいくつかの塩基において２未満の塩基しか参照サンプルと整列しない場合、そのリードは、却下され得る。別の実施形態において、整列した上流または下流の塩基の別の数が選択される。さらに別のフィルターは、リード上の挿入または欠失の数であり得る。例えば、あるリードが、参照サンプルと比べて２またはそれ以上の挿入または欠失を有する場合、そのリードは却下され得るか、または別の挿入数もしくは欠失数が選択され得る。標的部位に挿入または欠失を有しないリードは、ＺＦＮによって改変されていない可能性があるので、リードが標的部位に少なくとも１つの挿入または欠失を有さなければならないことが、さらに別のフィルターになり得る。ある実施形態において、定義された各フィルターを通過するリードは、高品質アライメントであり得る。

図１１は、シーケンサーからの全リード間の例示的な比較セット、および１またはそれ以上の品質スコア閾値フィルターが全リードに適用された後に得られた高品質リードの数を示している。図１１に示されている例示的な比較セットでは、その配列内の任意の位置に５未満の品質スコア信頼区間を有する任意のヌクレオチドを含む、各バーコードの内側の配列は除去される。さらに、その配列内の任意の位置に「Ｎ」を含む（１またはそれ以上の塩基を読み出せなかったことを示唆する）、各バーコードの内側の配列も除去される。この例では、これらのフィルターを通過する配列が、高品質配列を構成する。

ここで図４を参照すると、本開示の実施形態に係る図１のデータの後処理を示しているフローチャートが示されている。ボックス４０１に図示されているように、潜在的なＺＦＮ媒介性ゲノム改変が、各リードにおいて特定される。ある実施形態において、そのプロセスは、ボックス４０７に図示されているＺＦＮ媒介性改変の定性的解析を含み、ここで、ＺＦＮ処理サンプルおよびコントロールサンプルについて、参照配列の各位置に挿入および欠失を有する配列のパーセンテージが比較される。上記プロセスは、ＺＦＮ媒介性改変の定量的解析も含み得る。その定量的解析は、標的部位に挿入または欠失を含む高品質リードのパーセンテージをコンピュータで計算する工程を包含し得る。ＺＦＮの有効性を計算するためにある実施形態において使用され得る式は、次の通りである。

このＺＦＮの有効性の数値は、すべてのＺＦＮタンパク質が同等に発現されるとの条件で、他のＺＦＮタンパク質に対する有効性の数値およびＺＦＮ添加無しのコントロールサンプルに対する有効性の数値と比較されたときの、その活性部位における種々のＺＦＮタンパク質の相対的な活性の定量化を提供する。

上記のアライメントには、注釈が付けられることがあり、それらのアライメントは、ボックス４０３および４０５に図示されているように、可視化のソフトウェアおよび／またはハードウェアに入力されて、ＺＦＮによって標的部位に生成された改変が視覚的に調べられることがある。ユーザーまたは解析システム５０７は、例えば、限定されないが、Ｇｂｒｏｗｓｅまたは注釈を付けるためおよび／もしくは配列と情報交換するための他のゲノムビューアーを使用して、高品質リードを可視化し得る。例示的な可視化が、図１０に示されている。いくつかの高品質配列および参照配列１００１に対するそれらのアライメントを示している例示的な可視化が、図１０に示されている。この例示的な可視化では、参照配列中のＺＦＮの標的部位は、ボックス１００３内のヌクレオチドによって表されている。各高品質配列は、参照配列１００１の対応ヌクレオチドとアライメントされている。配列の見出しまたはＩＤ１００５は、各高品質配列と関連づけられており、配列の最初に示されている。ＩＤ１００５は、その配列に関するシーケンサー特異的情報、およびこの正確な配列が配列データセットにおいて見出された数を示すカウントを含む。その可視化では、高品質配列中のヌクレオチドと参照との完全な一致は、第１の視覚的特徴によって示され、ミスマッチヌクレオチドは、第２の視覚的特徴によって示され、欠失は、第３の視覚的特徴によって示されている。図示されているアライメントでは、高品質配列中のヌクレオチドと参照配列との完全な一致は、そのヌクレオチドを第１の色１００７で強調することによって示されており、ミスマッチヌクレオチドは、そのヌクレオチドを第２の色１００９で強調することによって示されている。高品質配列の中の欠失は、「−」１０１１として示されている。

いくつかのＺＦＮの例示的な定量的解析が、図１２に示されている。図１３および図１４は、ＺＦＮ活性を詳述している例示的なグラフのセットを示している。このグラフのＹ軸は、参照配列中の位置を詳述しており、このグラフのＸ軸は、参照配列中の特定の位置に挿入または欠失を有する配列のパーセンテージを示している。このグラフ中のとがった部分は、特定の位置における高い活性を示唆している。特に有効なＺＦＮは、標的部位においてこのグラフ中に高くとがった部分を有し得る。さらに、特に有効なＺＦＮは、参照サンプルの分布形態と異なる分布形態を有し得る。１つの例において、参照サンプルは、標的部位の始めに低いピークを含む分布形態を有し得るが、ＺＦＮ処理サンプルの分布形態は、より広がっていることがあり、標的部位にわたってより高く広いピークを有することがある。特に効果のないＺＦＮは、参照サンプルのグラフと区別できないグラフを有し得る。種々のＺＦＮの活性分布をさらに、Ｙ軸について同じスケールで比較して、最も高い活性を有する候補が特定され得る。統計的検定を使用し、処理サンプルと野生型サンプルとの活性の分布の差を用いることにより、有効なＺＦＮと効果のないＺＦＮとが区別され得る。

いくつかの候補ＺＦＮの活性の例示的な定量的解析が、図１２に示されている。この図の１番目の縦列は、特定の候補ＺＦＮで処理されたサンプルのＩＤ、およびその植物系における標的のゲノム位置における生物学的ノイズを捕捉するためのコントロールサンプルのＩＤを示している。コントロールサンプルにおける生物学的ノイズは、標的位置における既存のゲノム変異、または植物サンプルからのＤＮＡの抽出および配列決定の実験手順中に誘導されたゲノム変異を含む。２番目の縦列は、サンプルまたは実験に基づいて配列を区別するために使用された６ヌクレオチドバーコードを示している。３番目の縦列は、すべての高品質配列のうち、標的部位に挿入または欠失を含んだ配列の数を示している。４番目および５番目の縦列は、それぞれ欠失および挿入を含む、縦列３における配列のサブセットの数を示している。６番目の縦列は、縦列３に示されたすべての配列の中のユニークな挿入または欠失の数を示している。７番目の縦列は、ＺＦＮ活性（処理サンプルの場合）またはノイズレベル（コントロールサンプルの場合）を、挿入または欠失を含む高品質配列に対するパーセンテージとして表しており、式５を用いて計算されている。特定のＺＦＮ処理サンプルのＺＦＮ活性と、対応するコントロールサンプルにおける生物学的ノイズのレベルとを比較することによって、そのゲノム中の標的位置におけるその特定のＺＦＮの効率の定量的基準が提供される。すべての候補ＺＦＮが、この基準に基づいてさらにランク付けされ得る。

１つの例示的な実施形態において、シーケンサーは、少なくとも２００万個の配列に関するデータを提供する。解析システム５０７は、高品質リード配列を特定することによって、配列の数をおよそ１８０万個に、すなわち、最初の配列のおよそ５パーセント減少させる。その１８０万個の配列のうち、２０００〜５０００個の配列が、解析システム５０７によってユニークと特定される。解析システム５０７は、その２０００〜５０００個の配列を参照配列とアライメントし、高品質アライメントを計算する。高品質アライメントは、１００〜５００個存在し得る。ゆえに、解析システム５０７は、種々のＺＦＮで処理された配列を含む配列の数を４桁減少させ、少なくとも約９９．９７５パーセント〜９９．９９５パーセント減少させた。１つの実施形態において、解析システム５０７は、配列の数を少なくとも約９９パーセント減少させた。

ここで図５を参照すると、本開示の実施形態に係る、シーケンサーからデータ分析装置へのデータおよび資料のフローチャートが示されている。ボックス５０１に図示されているように、１またはそれ以上のサンプルが調製される。各サンプルは、ＤＮＡ鎖の多くのコピーを含み得、ある量のＺＦＮが、それらのサンプルに添加され得る。各サンプルは、異なるＺＦＮを有し得る。本明細書中で論じられるように、ＺＦＮは、標的領域でＤＮＡ鎖を切断するように機能する。次いで、それらのＤＮＡ鎖は、修復される。解析されるのは、ＤＮＡ鎖を切断するＺＦＮの能力およびそのＤＮＡ鎖の修復の特徴である。ある実施形態において、サンプルには、そのサンプルとＺＦＮとの組み合わせにとってユニークなバーコードが付与される。ボックス５０３に示されるように、上記サンプルに対して使用されたものと同じＤＮＡ鎖を含む参照サンプルも調製される。多くの異なるＺＦＮで処理されたサンプルおよび参照サンプルが、ボックス５０５に示されているシーケンサーに入れられる。そのシーケンサーは、例えば、限定されないが、１またはそれ以上のシーケンサーであり得るが、サンプルの解析を提供する任意のタイプの装置またはプロセスを使用してよい。シーケンサー５０５は、サンプル中のＤＮＡ鎖の配列を決定する。ある実施形態において、シーケンサー５０５は、例えば、限定されないが、シーケンサーが特定する塩基の各々に対する信頼区間を決定する追加の計算も行う。シーケンサー５０５は、データを生成する。そのデータは、例えば、限定されないが、配列情報、またはその配列情報に関する他の計算値（例えば、信頼区間）の形態であり、テキストファイルまたは他のデータファイルとして提供される。

シーケンサーからのデータは、解析システム５０７に提供される。そのデータは、シーケンサーと解析システム５０７との間のネットワークもしくは専用接続または着脱可能な記憶装置によって、シーケンサーから解析システム５０７に提供され得る。別の実施形態において、シーケンサーは、データをスクリーンまたはプリンターに出力し、そのデータは、例えば、限定されないが、キーボードまたはスキャナーから解析システム５０７に入力される。１つの実施形態において、解析システムは、シーケンサーの一部である。

解析システム５０７は、シーケンサーからデータを受け取り、高品質アライメントに対する配列情報またはリードに関する他のデータを計算する。また、ある実施形態において、解析システム５０７は、計算されたデータを他の解析システム、データ記憶システムまたは１またはそれ以上の可視化システムもしくは可視化モジュールに提供する。別の実施形態において、解析システム５０７は、データをスクリーンまたはプリンターに出力し、そのデータは、例えば、限定されないが、キーボードまたはスキャナーによって可視化システムまたはデータ記憶システムに入力される。

図６は、本開示の実施形態に係る図５の解析システム５０７の構成要素図を示している。解析システム５０７は、入力モジュール６０３、計算モジュール６０５、出力モジュール６０７および可視化モジュール６１１（これらは、解析システム５０７のメモリー６１５の中に存在し得る）を備え得る。これらのモジュールは、解析システム５０７の制御装置６２５によって実行され得る。制御装置６２５は、１またはそれ以上の処理装置であり得る。メモリー６１５は、コンピュータ可読媒体を備える。コンピュータ可読媒体は、解析システム５０７の１またはそれ以上の処理装置によってアクセスされ得る任意の利用可能な媒体であり得、揮発性媒体と不揮発性媒体の両方を含む。さらに、コンピュータ可読媒体は、着脱可能および着脱不可能な媒体の一方または両方であり得る。例としては、コンピュータ可読媒体には、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリーもしくは他のメモリー技術、ＣＤ−ＲＯＭ、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ（ＤＶＤ）もしくは他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、または所望の情報を記憶するために使用され得、かつ解析システム５０７によってアクセスされ得る他の任意の媒体が含まれ得るが、これらに限定されない。解析システム５０７は、単一のシステムであってもよいし、互いに通信し合っている２またはそれ以上のシステムであってもよい。１つの実施形態において、解析システム５０７は、１またはそれ以上の入力デバイス、１またはそれ以上の出力デバイス、１またはそれ以上の処理装置、およびその１またはそれ以上の処理装置に付随するメモリーを備える。その１またはそれ以上の処理装置に付随するメモリーには、モジュールの実行に関連するメモリーおよびデータの記憶に関連するメモリーが含まれ得るが、これらに限定されない。ある実施形態において、解析システム５０７は、１またはそれ以上のネットワークと結びついており、その１またはそれ以上のネットワークを介して１またはそれ以上の追加のシステムと通信する。上記モジュールは、ハードウェアもしくはソフトウェアまたはハードウェアとソフトウェアとの組み合わせにおいて実行され得る。ある実施形態において、解析システム５０７は、解析システム５０７が入力デバイス、出力デバイス、処理装置、メモリーおよびモジュールにアクセスできるようにする追加のハードウェアおよび／またはソフトウェアも備える。それらのモジュールまたはモジュールの組み合わせは、例えば、異なるシステム上の異なる処理装置および／またはメモリーと結びついていてもよく、それらのシステムは、互いに別々に配置され得る。１つの実施形態において、それらのモジュールは、１またはそれ以上のプロセスまたはサービスと同じシステム上で実行される。それらのモジュールは、互いに通信し合うようにおよび情報を共有するように動作可能である。それらのモジュールは、互いに別個であるおよび異なると記載されるが、その代わりに、２またはそれ以上のモジュールの機能が、同じプロセスまたは同じシステムにおいて実行されてもよい。

入力モジュール６０３は、入力デバイス６０１からデータを受け取る。入力モジュール６０３は、別のシステムからネットワークを通じて入力を受け取ってもよい。例えば、限定されないが、入力モジュール６０３は、コンピュータから１またはそれ以上のネットワークを通じて１またはそれ以上のシグナルを受け取る。入力モジュール６０３は、入力デバイス６０１からデータを受け取り、そのデータを計算モジュール６０５が認識できる形式に再配列または再処理し得、そのデータは、計算モジュール６０５に送信され得る。

入力デバイス６０１は、専用接続または他の任意のタイプの接続を介して、入力モジュール６０３と通信し得る。例えば、限定されないが、入力デバイス６０１は、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ（「ＵＳＢ」）接続、入力モジュール６０３とのシリアルもしくはパラレル接続、または入力モジュール６０３との光リンクもしくは無線リンクを介して、入力モジュール６０３と通信し得る。その送信は、１またはそれ以上の物理的物体を介して行われてもよい。例えば、シーケンサーが、１またはそれ以上のファイルを生成し、そのシーケンサーまたはユーザーが、その１またはそれ以上のファイルを着脱可能な記憶デバイス（例えば、ＵＳＢ記憶デバイスまたはハードドライブ）にコピーし、ユーザーが、その着脱可能な記憶デバイスをシーケンサーから取り出し、それを解析システム５０７の入力モジュール６０３に取り付けてもよい。入力デバイス６０１と入力モジュール６０３との間を通信するために、任意のコミュニケーションプロトコルを使用してよい。例えば、限定されないが、ＵＳＢプロトコルまたはＢｌｕｅｔｏｏｔｈ（登録商標）プロトコルが使用され得る。

１つの実施形態において、入力デバイス６０１は、シーケンサーである。そのシーケンサーは、１またはそれ以上のサンプルに関して、１またはそれ以上のサンプルに関する配列データを生成する。ある実施形態において、そのデータは、１またはそれ以上のファイルの形態であるか、またはそのシーケンサーが、そのデータをスクリーンまたはプリンターに出力し得、そのデータは、例えば、限定されないが、キーボード、マウスまたはスキャナーによって、解析システム５０７に入力される。ある実施形態において、そのシーケンサーは、サンプルを記述する追加のデータも含む。

ネットワークは、ローカルエリアネットワーク、広域ネットワーク、無線ネットワーク（例えば、ＩＥＥＥ８０２．１１ｘコミュニケーションプロトコルを使用する無線ネットワーク）、有線ネットワーク、ファイバーネットワークまたは他の光ネットワーク、トークンリングネットワークのうちの１つ以上を含んでもよいし、他の任意の種類のパケット交換網も使用してよい。そのネットワークは、インターネットを含んでもよいし、他の任意のタイプの公的または私的なネットワークも含んでもよい。用語「ネットワーク」の使用は、そのネットワークを単一のネットワークのスタイルもしくはタイプに限定しないか、または１つのネットワークが使用されることを意味しない。任意のコミュニケーションプロトコルまたはタイプのネットワークの組み合わせが使用され得る。例えば、２またはそれ以上のパケット交換網が使用されてもよいし、パケット交換網が、無線ネットワークと通信してもよい。

計算モジュール６０５は、入力モジュール６０３からの入力を受け取り、その入力に基づいて１またはそれ以上の計算を行う。例えば、限定されないが、計算モジュール６０５は、リードからバーコードを分離し、１またはそれ以上のアルゴリズムを適用して、他のリード配列から高品質リード配列を抽出し、それらのリードを解析して、高品質リード配列からユニークリード配列を抽出する。計算モジュール６０５はまた、その高品質リード配列から配列情報を読み出し、それらの配列を１またはそれ以上の参照サンプル配列とアライメントしようと試みることがある。それらの高品質リード配列と参照サンプル配列とのアライメントは、追加のデータ（例えば、改変の数に関するデータ、または参照サンプル配列に対する高品質リード配列の挿入および／もしくは欠失の数に関するデータ）を生成する。ある実施形態において、計算モジュール６０５は、図１〜４に関して記載されるとき、高品質リード配列をスコア付けし、高品質リード配列から高品質アライメントを抽出する。その高品質アライメントは、上で図４に関して示されたようにさらに解析され得、ＺＦＮに関するデータが解析される。さらに、ある実施形態において、その高品質アライメントは、解析および／または可視化される。

計算モジュール６０５は、出力、例えば、高品質アライメントに関するデータとして、その高品質アライメントに対するリード配列、および／またはその高品質アライメントの１つ以上を可視化する可視化モジュールによって使用されるデータを提供する。

可視化モジュール６１１は、高品質アライメントの１またはそれ以上の配列に関するデータを計算モジュールからの入力として受け取る。その可視化モジュールは、ユーザーが、高品質アライメントを可視化および／または操作できるようにする。ある実施形態において、可視化モジュール６１１は、ＧｂｒｏｗｓｅまたはＧｂｒｏｗｓｅの改良版を使用し得る。ユーザーは、高品質アライメントの１またはそれ以上の視覚表示を操作する能力を有し得る。その可視化モジュールは、ユーザーが、元の参照配列とゲノム改変を有する高品質配列とのアライメントを見られるようにする。可視化工程は、ユーザーが、ＺＦＮの活性、コントロールサンプルにおけるバックグラウンドノイズ、または特定のゲノム改変のタイプもしくは長さもしくは頻度を理解できるようにする。この可視化は、あるＺＦＮヌクレアーゼを活性または不活性な候補として推奨するのに役立つ。改変された配列の可視化およびその後の翻訳は、その改変のタンパク質としての読み出しを提供する。その読み出しは、遺伝子ノックアウトの応用法において使用され得る。遺伝子ノックアウトの応用法の例としては、ＤｏｗＡｇｒｏＳｃｉｅｎｃｅｓから入手可能なＥＸＺＡＣＴ（商標）ＰｒｅｃｉｓｉｏｎＴｅｃｈｎｏｌｏｇｙブランドによって媒介される遺伝子ノックアウトの応用法が挙げられ得る。

出力モジュール６０７は、入力を受け取り、その入力を出力デバイス６０９に送信する。１つの実施形態において、出力モジュール６０７は、英数字データの形態で計算モジュール６０５から入力を受け取り、そのデータを出力デバイス６０９が理解できる形式に再フォーマットし、そのデータを出力デバイス６０９に送信する。出力モジュール６０７および出力デバイス６０９は、互いに通信し合っている。例えば、限定されないが、出力モジュール６０７と出力デバイス６０９とは、ネットワークを介して通信しているか、または専用接続（例えば、有線または無線リンク）を介して通信している。出力モジュール６０７はまた、計算モジュール６０５から受け取ったデータを出力デバイス６０９が使用できる形式に再フォーマットし得る。例えば、出力モジュール６０７は、出力デバイス６０９が読み出し得る１またはそれ以上のファイルを作成し得る。

出力デバイス６０９は、ある実施形態において、可視化システム、別のデータ解析システム５０７またはデータ記憶システムである。出力モジュール６０７は、１またはそれ以上の電子ファイルを出力デバイス６０９に送信することによって出力デバイス６０９と通信する。その送信は、専用リンク、例えば、ＵＳＢ接続もしくはシリアル接続を通じて行われてもよいし、１またはそれ以上のネットワーク接続を通じて行われてもよい。その送信は、１またはそれ以上の物理的物体を介して行われてもよい。例えば、出力モジュール６０７は、１またはそれ以上のファイルを生成し得、その１またはそれ以上のファイルを着脱可能記憶デバイス（例えば、ＵＳＢ記憶デバイスまたはハードドライブ）にコピーし得、ユーザーが、その着脱可能記憶デバイスを解析システム５０７から取り出し、それを可視化システム、別のデータ解析システムまたはデータ記憶システムに取り付け得る。

本開示は、例示的な意図を有すると説明されてきたが、本開示は、本開示の精神および範囲内でさらに改変され得る。ゆえに、本願は、その一般原則を使用した本開示の任意のバリエーション、用途または翻案を包含すると意図されている。さらに、本願は、本開示が属する分野において公知または通例の実施の範囲内であるそのような本開示からの逸脱を包含すると意図されている。

Claims

ジンクフィンガーヌクレアーゼ（ＺＦＮ）の効率を解析する装置における、ＺＦＮによって処理されたＤＮＡ鎖の解析を向上する方法において、
（ａ）第１のセットの配列データを電子的に受信する工程であって、前記第１のセットの配列データは、第１のサンプルに対応する複数の配列を含み、前記第１のサンプルは、ＺＦＮで処理された第１のＤＮＡ鎖を含み、それぞれの配列は、ヌクレオチド塩基の配列及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基がＤＮＡ鎖中の塩基に対応するかに関わる、信頼度に対応する、第１のセットの配列データを電子的に受信する工程と、
（ｂ）閾値以上の配列に関わる前記信頼区間データに応じて、前記複数の配列の間から複数の高品質リード配列を電子的に特定する工程と、
（ｃ）複数のユニークリード配列の高品質のセットを提供するために、前記特定された複数の高品質リード配列から複数のユニークリード配列を抽出する工程であって、前記高品質のセットのそれぞれの部分は、前記複数のユニークリード配列の高品質のセットの他の部分に対してユニークである、複数のユニークリード配列を抽出する工程と、
（ｄ）前記複数のユニークリード配列の前記高品質のセットの抽出に続いて、複数の潜可能なアライメントでヌクレオチド塩基の参照配列に対して複数のユニークリード配列のそれぞれをアライメントする工程と、
（ｅ）複数のリード配列の前記高品質のセットの前記複数のユニークリード配列のそれぞれの前記ヌクレオチド塩基と、前記参照配列とを、可能なアライメントのそれぞれで比較する工程であって、前記複数の可能なアライメントから、ユニークリード配列のそれぞれのためのアライメントを選択する、比較する工程と、
（ｆ）ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのカテゴリーを決定する工程であって、当該カテゴリーを決定する工程は、
前記ユニークリード配列と参照配列とが、正確に標的部位に一致するとき、可能なアライメントを第１のカテゴリーに分類する工程と、
参照配列の１またはそれ以上の塩基が変更または変異される場合において、前記ユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第２のカテゴリーに分類する工程と、
前記参照配列の１またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記ユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第３のカテゴリーに分類する工程と、
前記参照配列の１またはそれ以上の塩基が前記ユニークリード配列から欠失される場合において、前記ユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第４のカテゴリーにする工程とを備え、
（ｇ）前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのための活性データを決定する工程であって、前記活性データは、前記第３のカテゴリー及び前記第４のカテゴリー中のユニークリード配列のためのヌクレオチド塩基の前記比較を含む、活性データを決定する工程と、
（ｈ）前記活性データの決定に応じ、かつ、前記第１のセットの配列データ中のすべての配列を前記参照配列で整列することなく、第１のＤＮＡ鎖を標的部位で切断するために第１のＺＥＮの効率を決定する工程とを含む、方法。
前記方法は、さらに、前記選択されたアライメントを可視化する工程を含み、前記アライメントは、１またはそれ以上の分離フィルターを通過したものである、請求項１に記載の方法。
前記複数の配列の各々が、植物ゲノムの少なくとも一部からなる、請求項１に記載の方法。
１またはそれ以上のバーコードを記述しているバーコードの情報が、電子的に受信され、ぞれぞれのバーコードは、ＤＮＡ鎖の末端におけるヌクレオチド塩基の配列である、
請求項１に記載の方法。
前記第１のセットの配列データは、さらに１またはそれ以上のバーコードを含み、それぞれのバーコードは、特定のＤＮＡ及び特定のＺＦＮを共に有するサンプルに対応し、前記方法は、さらに前記複数の高品質リード配列を１またはそれ以上の群に選別する工程を含み、同じ群中の高品質リード配列は、同じバーコードを有する、請求項１に記載の方法。
ジンクフィンガーヌクレアーゼ（ＺＦＮ）の効率を解析する装置であって、当該解析装置はＺＦＮによって処理されたＤＮＡ鎖の向上された解析を実行し、前記装置は、
少なくとも１つの処理装置と、
複数の配列を含む配列データを受け取るように構成された入力モジュールであって、前記複数の配列は、第１のＺＦＮで処理された第１のＤＮＡ鎖を含む第１のサンプルに対応し、それぞれの配列は、ヌクレオチド配列及び信頼区間情報を含み、前記信頼区間情報は、ヌクレオチド配列中の塩基がＤＮＡ鎖中の塩基に対応するかに関わる、信頼度に対応し、前記入力モジュールは、さらに前記少なくとも１つの処理装置に利用可能な前記配列データを作るように動作可能である、入力モジュールと、
前記少なくとも１つの処理装置内に設けられた電子的な計算モジュールとを備え、当該電子的な計算モジュールは、
（ａ）前記複数の配列のどの配列が閾値以上である信頼区間情報と関連するかを決定することによって、かつ、そのような信頼区間を有するそのような配列を高品質リード配列として分類することによって、複数の高品質リード配列を特定し、
（ｂ）前記特定された複数の高品質リード配列から複数のユニークリード配列を抽出し、
（ｃ）ヌクレオチド塩基の参照配列に対して前記複数のユニークリード配列を整列し、前記参照配列は、複数の可能なアライメントにおける参照サンプルに対応し、前記参照サンプルは、前記第１のＺＦＮによって処理されていない第１のＤＮＡ鎖に対応し、
（ｄ）前記ユニークリード配列及び前記参照配列のそれぞれの塩基を、前記複数の可能なアライメントのそれぞれで比較し、それぞれのユニークリード配列のための前記複数の可能なアライメントからアライメントを選択し、
（ｅ）ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及びヌクレオチド塩基の前記比較に応じて、次のプロセスにしたがってユニークリード配列のそれぞれのカテゴリーを決定するものであり、前記プロセスは、
前記整列されたユニークリード配列と参照配列とが、正確に一致するとき、可能なアライメントを第１のカテゴリーに分類すること、
参照配列の１またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第２のカテゴリーに分類すること、
前記参照配列の１またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第３のカテゴリーに分類すること、及び
前記参照配列の１またはそれ以上の塩基が前記ユニークリード配列から欠失される場合に、前記整列されたユニークリード配列と参照配列とが一致するとき、前記可能なアライメントを第４のカテゴリーに分類すること、を含み、
（ｆ）前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのための活性データを決定し、前記活性データは、前記第３のカテゴリー及び前記第４のカテゴリー中のユニークリード配列のためのヌクレオチド塩基の比較を含み、
（ｇ）前記決定された活性データに応じ、前記第１のＤＮＡ鎖を切断するために前記第１のＺＥＮの効率を決定する、装置。
前記電子的計算モジュールがさらに、前記高品質アライメントに応じて、前記選択されたアライメントのためにパーセンテージアライメントの値を計算し、かつ前記選択されたアライメントから高品質アライメントを抽出するように動作可能であり、前記高品質アライメントは、アライメントパーセンテージの基準値より高い計算されたパーセントアライメントを有する、請求項６に記載の装置。
前記ユニークリード配列の前記選択されたアライメントの定性的解析を行うモジュールをさらに備える、請求項６に記載の装置。
前記ユニークリード配列の前記選択されたアライメントの定量的解析を行うモジュールをさらに備える、請求項６に記載の装置。
前記ユニークリード配列の前記選択されたアライメントを可視化するモジュールをさらに備える、請求項６に記載の装置。
前記電子的計算モジュールが、さらにそれぞれの可能なアライメントのためのアライメントスコアを計算して、前記選択されたアライメントを決定するように構成される、請求項６に記載の装置。
ジンクフィンガーヌクレアーゼ（ＺＦＮ）の効率を解析する装置であって、当該解析装置はＺＦＮによって処理されたＤＮＡ鎖の向上された解析を実行し、前記装置は、
処理装置と、
複数の配列を含む配列データを受け取るためのモジュールであって、前記複数の配列は、第１のＺＦＮで処理された第１のＤＮＡ鎖を含む第１のサンプルに対応し、前記複数の配列のそれぞれの配列は、ヌクレオチド塩基の配列を含む、モジュールと、
計算モジュールとを備え、当該計算モジュールは、
（ａ）閾値以上の配列のそれぞれに対応する信頼区間データに応じて、前記複数の配列の間から複数の高品質リード配列を電子的に特定し、
（ｂ）前記特定された複数の高品質リード配列から複数のユニークリード配列を抽出し、
（ｃ）複数の可能なアライメントで、参照サンプルに対応する参照配列に対して、ユニークリード配列のそれぞれの前記ヌクレオチド塩基を比較して、それぞれのユニークリード配列のために、前記複数の可能なアライメントからアライメントを選択し、前記計算モジュールは、ユニークリード配列のそれぞれ及び前記参照配列の間でパーセンテージアライメント値を計算し、さらに前記計算されたパーセンテージアライメント値がアライメントパーセンテージ基準値より高い場合、前記配列データを第１の群に分類し
（ｄ）ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのカテゴリーを決定するものであり、前記決定は、
前記整列されたユニークリード配列と参照配列とが、正確に一致するとき、可能なアライメントを第１のカテゴリーに分類すること、
参照配列の１またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第２のカテゴリーに分類すること、
前記参照配列の１またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、前記可能なアライメントを第３のカテゴリーに分類すること、及び
前記参照配列の１またはそれ以上の塩基が前記ユニークリード配列から欠失される場合に、前記整列されたユニークリード配列と参照配列とが一致するとき、前記可能なアライメントを第４のカテゴリーに分類すること、を含み、
（ｅ）前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのための活性データを決定し、前記活性データは、前記第３のカテゴリー及び前記第４のカテゴリー中のユニークリード配列のための前記ヌクレオチド塩基の比較を含み、
（ｆ）前記決定された前記活性データに応じ、前記第１のＤＮＡ鎖を切断するための前記第１のＺＥＮの効率を決定する、装置。
ジンクフィンガーヌクレアーゼ（ＺＦＮ）の効率を解析する装置における、ＺＦＮによって処理されたＤＮＡ鎖の解析を向上する方法において、
（ａ）複数のＤＮＡ鎖を１つ以上のジンクフィンガーヌクレアーゼ（ＺＦＮ）に曝露する工程と、
（ｂ）複数の配列を含む配列データを電子的に受信する工程であって、前記複数の配列のそれぞれの配列は、複数のＤＮＡ鎖の１つからのヌクレオチド塩基の配列を含み、前記ヌクレオチド塩基の配列中の塩基が前記ＤＮＡ鎖中の塩基に対応するかに関わる、信頼度に対応するデータを含む、配列データを電子的に受信する工程と、
（ｃ）閾値以上の信頼度に応じて、前記複数の配列の間から複数の高品質リード配列を電子的に特定する工程と、
（ｄ）ユニーク高品質リード配列のセットを生成するために、前記特定された複数の高品質リード配列からユニークリード配列を抽出する工程と、
（ｅ）前記ユニーク高品質リード配列のセットの前記高品質リード配列のそれぞれを、配列データに対して整列する工程であって、前記配列データは、複数の可能なアライメントで参照サンプルに対応し、前記参照サンプルは、1以上のＦＺＮに曝露されていない複数のＤＮＡ鎖の１つに対応する、配列データに対して整列する工程と、
（ｆ）前記複数のユニークリード配列の前記ヌクレオチド塩基、及び前記配列データを、前記可能なアライメントのそれぞれで比較する工程であって、これによってユニークリード配列のそれぞれのための複数の可能なアライメントからアライメントを選択する、比較する工程と、
（ｇ）ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのカテゴリーを決定する工程であって、当該カテゴリーを決定する工程は、
前記整列されたユニークリード配列と参照配列とが、正確に一致するとき、可能なアライメントを第１のカテゴリーに分類する工程と、
参照配列の１またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが整列するとき、可能なアライメントを第２のカテゴリーに分類する工程と、
前記参照配列の１またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが整列するとき、可能なアライメントを第３のカテゴリーに分類する工程と、
前記参照配列の１またはそれ以上の塩基が前記ユニークリード配列から欠失される場合に、前記整列されたユニークリード配列と参照配列とが整列するとき、可能なアライメントを第４のカテゴリーに分類する工程と、を含み、
（ｈ）前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのための活性データを決定する工程であって、前記活性データは、前記第３のカテゴリー及び前記第４のカテゴリー中のユニークリード配列のためのヌクレオチド塩基の前記比較を含む、活性データを決定する工程と、
（ｉ）前記決定された活性データに応じ、複数のＤＮＡ鎖の１つを切断するために第１のＺＥＮの一つの効率を決定する工程とを含む、方法。
前記配列データは、１またはそれ以上のバーコードを含み、それぞれのバーコードは、特定のＤＮＡ鎖及び特定のＺＦＮを共に有するサンプルに対応し、前記方法は、さらに前記複数の配列データを１、２またはそれ以上の群に選別する工程を含み、同じ群の高品質リード配列は、同じバーコードを有する、請求項１３に記載の方法。
ジンクフィンガーヌクレアーゼ（ＺＦＮ）の効率を解析する装置における、ＺＦＮによって処理されたＤＮＡ鎖の解析を向上する方法において、
（ａ）第１の数のＤＮＡ鎖を第１の複数のＺＦＮで切断して、前記切断された鎖を実質的に修復する、工程と、
（ｂ）第２の数のＤＮＡ鎖を第２の複数のＺＦＮで切断して、前記切断された鎖を実質的に修復する、工程と、
（ｃ）配列データを電子的に受信する工程であって、前記配列データは、第１の数の配列を含み、前記第１の数の配列は、第１の複数の配列及び第２の複数の配列を含み、前記第１の複数の配列は、前記第１の数のＤＡＮ鎖からの複数のヌクレオチド塩基配列、及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基が前記第１の数のＤＮＡ鎖における塩基に対応するかに関わる、信頼度に対応し、前記第２の複数の配列は、前記第２の数のＤＡＮ鎖からの複数のヌクレオチド塩基配列、及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基が前記第２の数のＤＮＡ鎖における塩基に対応するかに関わる、信頼度に対応する、配列データを電子的に受信する工程と、
（ｄ）閾値以上の前記信頼区間データに応じて、前記第１の複数の配列の間から第１の複数の高品質リード配列を、前記第２の複数の配列の間から第２の複数の高品質リード配列を、電子的に特定する工程と、
（ｅ）前記特定された前記第１の複数の高品質リード配列から第１の複数のユニークリード配列を、前記特定された前記第２の複数の高品質リード配列から第２の複数のユニークリード配列を、抽出する工程と、
（ｆ）複数の可能なアライメントで前記第１及び第２の数のヌクレオチド塩基鎖の少なくとも１つ中で、参照ＤＮＡ鎖に対応する参照配列に対して、前記第１及び第２の複数のユニークリード配列を整列し、前記複数の可能なアライメントのそれぞれで前記参照配列に対して前記第１及び第２の複数のユニークリード配列の前記ヌクレオチド塩基を比較して、前記複数の可能なアライメントからそれぞれのユニークリード配列のためのアライメントを選択し、前記配列に対する少なくとも１つの特徴となる修復を特定する、工程と、
（ｇ）ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのカテゴリーを決定する工程であって、当該カテゴリーを決定する工程は、
前記整列されたユニークリード配列と参照配列とが正確に一致するとき、可能なアライメントを第１のカテゴリーに分類する工程と、
参照配列の１またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第２のカテゴリーに分類する工程と、
前記参照配列の１またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第３のカテゴリーに分類する工程と、
前記参照配列の１またはそれ以上の塩基が前記ユニークリード配列から欠失される場合において、前記整列されたユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第４のカテゴリーに分類する工程とを備え、
（ｈ）第２の数の配列を電子的に決定する工程であって、前記第２の数の配列は、前記第１の数の配列の部分群であり、前記第２の数の配列は、前記配列を切断するために使用されたＺＦＮおよび前記配列に対する修復の少なくとも１つの特徴を共に有し、前記第２の数の配列は、前記第１の数の配列の１パーセント未満である、工程と、
（ｉ）前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、前記第２の数の配列中で、ユニークリード配列のそれぞれのための活性データを決定する工程であって、前記活性データは、前記第３のカテゴリー及び前記第４のカテゴリー中のユニークリード配列のためのヌクレオチド塩基の比較を含む、活性データを決定する工程と、
（ｊ）前記決定された活性データに応じ、前記参照ＤＮＡ鎖を切断するために、前記第２の数の配列のＺＥＮの効率を決定する工程とを含む、方法。
前記第２の数の配列が、前記第１の数の配列の０．１パーセント未満である、請求項１５に記載の方法。
前記第２の数の配列が、前記第１の数の配列の０．０１パーセント未満である、請求項１５に記載の方法。
前記第２の数の配列が、前記第１の数の配列の０．０１パーセント未満であり、前記第１の数の配列が、少なくとも１００万個の配列である、請求項１５に記載の方法。
前記配列に対する修復の第１の特徴が、標的切断領域中の挿入数および欠失数のうちの少なくとも１つの基準を含む、請求項１５に記載の方法。
ジンクフィンガーヌクレアーゼ（ＺＦＮ）の効率を解析する装置における、解析方法であって、前記方法は、
第１の数のＤＮＡ鎖を第１の複数のジンクフィンガーヌクレアーゼ（ＺＦＮ）で切断して、前記切断された鎖を実質的に修復する、工程と、
第２の数のＤＮＡ鎖を第２の複数のＺＦＮで切断して、前記切断された鎖を実質的に修復する、工程と、
配列データを電子的に受信する工程であって、前記配列データは、第１の数の配列を含み、前記第１の数の配列は、第１の複数の配列及び第２の複数の配列を含み、前記第１の複数の配列は、前記第１の数のＤＡＮ鎖からの複数のヌクレオチド塩基、及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基が前記第１の数のＤＮＡ鎖における塩基に対応するかに関わる、信頼度に対応し、前記第２の複数の配列は、前記第２の数のＤＡＮ鎖からの複数のヌクレオチド塩基、及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基が前記第２の数のＤＮＡ鎖における塩基に対応するかに関わる、信頼度に対応する、配列データを電子的に受信する工程と、
閾値以上の前記信頼区間データに応じて、前記第１の複数の配列の間から第１の複数の高品質リード配列を、前記第２の複数の配列の間から第２の複数の高品質リード配列を、電子的に特定する工程と、
前記特定された第１の複数の高品質リード配列から第１の複数のユニークリード配列を、前記特定された第２の複数の高品質リード配列から第２の複数のユニークリード配列を、抽出する工程と、
第２の数の配列を電子的に決定する工程であって、前記第２の数の配列は、前記第１の数の配列の部分群であり、前記第２の数の配列は、前記配列を切断するために使用されたＺＦＮおよび前記配列に対する修復の少なくとも１つの特徴を共に有し、前記第２の数の配列は、前記第１の数の配列の１パーセント未満である、第２の数の配列を電子的に決定する工程とを備え、当該第２の数の配列を電子的に決定する工程は、
（ａ）第１の数の配列を複数の群に分離する工程であって、同じＺＦＮがそれぞれの群のそれぞての配列を切断するために用いられる、分離する工程と、
（ｂ）第１の数の配列中で複数の高品質リード配列を電子的に特定する工程であって、前記複数の高品質リード配列は第３の数の配列を含み、前記第３の数の配列は、前記第１の数の配列より少なく、かつ前記第２の数の配列より多い、複数の高品質リード配列を電子的に特定する工程と、
（ｃ）前記第３の数の配列から複数のユニークリード配列を抽出する工程であって、前記複数のユニークリード配列は、前記第３の数の配列より少なく、かつ前記第２の数の配列以上の第４の数の配列を有する、ユニークリード配列を抽出する工程と、
（ｄ）前記第４の数の配列のそれぞれのヌクレオチド塩基を参照配列と比較する工程であって、前記参照配列は、複数の可能なアライメントで前記第１及び第２の数のＤＮＡ鎖の少なくとも１つの中で参照ＤＮＡ鎖に対応して、前記第２の数の配列を有する複数の高品質アライメント配列を特定する、比較する工程とを備え、
前記第２の数の配列及び前記ヌクレオチド塩基の比較に応じて、第２の数の配列のそれぞれのためのカテゴリーを決定する工程を備え、当該カテゴリーを決定する工程は、
前記整列されたユニークリード配列と参照配列とが正確に一致するとき、可能なアライメントを第１のカテゴリーに分類する工程と、
参照配列の１またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第２のカテゴリーに分類する工程と、
前記参照配列の１またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第３のカテゴリーに分類する工程と、
前記参照配列の１またはそれ以上の塩基が前記ユニークリード配列から欠失される場合において、前記整列されたユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第４のカテゴリーに分類する工程とを含み、
前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、前記第２の数の配列のそれぞれのための活性データを決定する工程であって、前記活性データは、前記第３のカテゴリー及び前記第４のカテゴリー中の前記ヌクレオチド塩基の比較を含む、活性データを決定する工程と、
前記決定された活性データに応じ、前記第２の数の配列中の配列を切断するために用いられる前記ＺＥＮの効率を決定する工程とを含む、方法。
前記方法は、
配列中の総塩基数によって整列された塩基数を割ることによって、パーセントアライメントを決定する工程と、
前記パーセントアライメントに応じて、さらに整列した複数のユニークリード配列及び参照配列の間から複数の高品質アライメントを特定する工程とを含む、請求項１に記載の方法。
前記標的部位で前記第１のＤＮＡ鎖を切断するための前記第１のＺＥＮの効率は、挿入及び／または欠落の数を高品質配列数で割ることにより決定される、請求項１に記載の方法。
前記方法は、さらに、ある量の第１のＺＦＮを、ＤＮＡを含む第１のサンプルに添加する工程と、
第１の組の配列データを得るために前記第１のサンプルの配列を決定する工程とを含む、請求項１に記載の方法。
前記方法は、さらに、ＤＮＡを含む第２のサンプルを提供する工程と、
参照配列を得るためにＺＦＮの添加せずに前記第２のサンプルの配列を決定する工程とを含む、請求項２３に記載の方法。
アライメントを選択するために前記複数のユニークリード配列の前記ヌクレオチド塩基と前記参照配列とを比較する工程は、前記ユニークリード配列のそれぞれのための前記アライメントを選択するために、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムを用いることを含む、請求項１に記載の方法。
前記参照配列は、酵素で処理されていない参照サンプルから得られる、請求項１に記載の方法。
前記複数のユニークリード配列の前記ヌクレオチド塩基と前記参照配列とを比較する工程は、ヌクレオチド塩基の配列中のヌクレオチド塩基のそれぞれに、アライメントのスコアを割り当てる工程を含み、前記スコアは、一致である第１の値、不一致である第２の値、挿入である第３の値、欠失である第４の値を有し、ユニークリード配列のそれぞれのためのアライメントのスコアを決定する工程を含み、前記アライメントのスコアは、前記ユニークリード配列中の塩基の集計スコアである、請求項１に記載の方法。
前記アライメントを選択するために前記複数のユニークリード配列の前記ヌクレオチド塩基と前記参照配列とを比較する工程は、前記ユニークリード配列のそれぞれのための前記アライメントを選択するために、行列Ｈを使用するＳｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムを用いることを含み、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズムを用いて比較される２つの配列の長さは、前記行列の行および列の次元として使用され、前記行列の構築は、は以下の通り、
Ｈ（ｔ，０）＝０，０≦ｔ≦ｍ（式１）、
Ｈ（０，ｊ）＝０，０≦ｊ≦ｎ（式２）、
ａｉ＝ｂｊである場合、ｗ（ａｉ，ｂｊ）＝ｗ（一致）であるか、またはａｉ！＝ｂｊである場合、ｗ（ａｉ，ｂｊ）＝ｗ（不一致）であり、

式中：
ａ，ｂ＝ヌクレオチドまたはタンパク質配列、
ｍ＝長さ（ａ）、
ｎ＝長さ（ｂ）、
Ｈ（ｉ，ｊ）は、［１．．．ｉ］の下付き数字とｂ［１．．．ｊ］の下付き数字との間の最大類似度スコアであり、

ここで、’−’は、ギャップスコアリングスキームである、請求項２７に記載の方法。
前記方法は、ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び高品質アライメントのみを通過するように構成された１つまたはそれ以上の分離フィルターに応じて、当該１つまたはそれ以上の分離フィルターを通過しない選択されたされたアライメントを取り除く工程を含む、請求項１に記載の方法。
前記第１のセットの配列データは、さらに複数のサンプルに対応する複数の配列を含み、それぞれのサンプルはＺＦＮで処理されたＤＮＡ鎖を含み、前記複数のサンプルのＤＮＡ鎖は、標的部位を有し、前記方法は、さらに
対応する標的部位で対応するＤＮＡ鎖を切断するために、前記複数のサンプルのＺＦＮのそれぞれの効率を決定する工程と
前記ＺＦＮの効率をランク付けする工程とを含む、請求項５に記載の方法。