JP6066924B2 - Dna配列のデータ解析法 - Google Patents
Dna配列のデータ解析法 Download PDFInfo
- Publication number
- JP6066924B2 JP6066924B2 JP2013547551A JP2013547551A JP6066924B2 JP 6066924 B2 JP6066924 B2 JP 6066924B2 JP 2013547551 A JP2013547551 A JP 2013547551A JP 2013547551 A JP2013547551 A JP 2013547551A JP 6066924 B2 JP6066924 B2 JP 6066924B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- sequences
- unique
- lead
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Description
本願は、2010年12月29日に出願された米国仮特許出願第61/428,191号および2011年7月1日に出願された米国仮特許出願第61/503,784号(これらの全開示は、参照により援用される)に基づく優先権を主張する。
本明細書中に記載される本開示の実施形態は、網羅的であるかまたは開示される厳密な形態に本開示を限定すると意図されていない。むしろ、説明のために選択された実施形態は、当業者が本開示の主題を実施できるように選択されている。本開示は、解析システムの特定の構成を記載しているが、本明細書中に提示される概念は、本開示と矛盾しない他の様々な構成で使用されてもよいと理解されるべきである。さらに、ZFNに曝露されたDNA配列の解析が論じられるが、本明細書中の教示は、ZFNまたは他の酵素に曝露された他の配列の解析に適用されてもよい。
一致もしくは置換および挿入/欠失に対してスコアを割り当てることによって、その所与のセルに対する可能性のあるすべての経路の計算ごとに、文字の各対の比較結果を重み付けして行列にする。任意の行列セルにおいて、値は、これらの座標で終わる最適なアライメントのスコアを表しており、その行列は、最高スコアのアライメントを最適なアライメントとして報告する。その行列から最適な局所アライメントを構築する場合、出発点は、最高スコアの行列セルである。次いで、0のスコアのセルに遭遇するまで、そのアレイを通って経路をトレースバックする。各セル内のスコアは、この特定のセルの座標で終わる任意の長さのアライメントに対する最大可能スコアであるので、この最高スコアのセグメントの整列は、最高スコアの局所アライメント、すなわち最適な局所アライメントをもたらし得る。1つの実施形態において、Smith−Waterman探索から最適なパフォーマンスを得るために行列、ギャップペナルティ(ギャップイニシャルコスト(gap initial costs)およびギャップ伸長コスト(gap extension costs)を含む)、E値などが考慮されるべきである。
ここで、’−’は、ギャップスコアリングスキームである。
Claims (30)
- ジンクフィンガーヌクレアーゼ(ZFN)の効率を解析する装置における、ZFNによって処理されたDNA鎖の解析を向上する方法において、
(a)第1のセットの配列データを電子的に受信する工程であって、前記第1のセットの配列データは、第1のサンプルに対応する複数の配列を含み、前記第1のサンプルは、ZFNで処理された第1のDNA鎖を含み、それぞれの配列は、ヌクレオチド塩基の配列及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基がDNA鎖中の塩基に対応するかに関わる、信頼度に対応する、第1のセットの配列データを電子的に受信する工程と、
(b)閾値以上の配列に関わる前記信頼区間データに応じて、前記複数の配列の間から複数の高品質リード配列を電子的に特定する工程と、
(c)複数のユニークリード配列の高品質のセットを提供するために、前記特定された複数の高品質リード配列から複数のユニークリード配列を抽出する工程であって、前記高品質のセットのそれぞれの部分は、前記複数のユニークリード配列の高品質のセットの他の部分に対してユニークである、複数のユニークリード配列を抽出する工程と、
(d)前記複数のユニークリード配列の前記高品質のセットの抽出に続いて、複数の潜可能なアライメントでヌクレオチド塩基の参照配列に対して複数のユニークリード配列のそれぞれをアライメントする工程と、
(e)複数のリード配列の前記高品質のセットの前記複数のユニークリード配列のそれぞれの前記ヌクレオチド塩基と、前記参照配列とを、可能なアライメントのそれぞれで比較する工程であって、前記複数の可能なアライメントから、ユニークリード配列のそれぞれのためのアライメントを選択する、比較する工程と、
(f)ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのカテゴリーを決定する工程であって、当該カテゴリーを決定する工程は、
前記ユニークリード配列と参照配列とが、正確に標的部位に一致するとき、可能なアライメントを第1のカテゴリーに分類する工程と、
参照配列の1またはそれ以上の塩基が変更または変異される場合において、前記ユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第2のカテゴリーに分類する工程と、
前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記ユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第3のカテゴリーに分類する工程と、
前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列から欠失される場合において、前記ユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第4のカテゴリーにする工程とを備え、
(g)前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのための活性データを決定する工程であって、前記活性データは、前記第3のカテゴリー及び前記第4のカテゴリー中のユニークリード配列のためのヌクレオチド塩基の前記比較を含む、活性データを決定する工程と、
(h)前記活性データの決定に応じ、かつ、前記第1のセットの配列データ中のすべての配列を前記参照配列で整列することなく、第1のDNA鎖を標的部位で切断するために第1のZENの効率を決定する工程とを含む、方法。 - 前記方法は、さらに、前記選択されたアライメントを可視化する工程を含み、前記アライメントは、1またはそれ以上の分離フィルターを通過したものである、請求項1に記載の方法。
- 前記複数の配列の各々が、植物ゲノムの少なくとも一部からなる、請求項1に記載の方法。
- 1またはそれ以上のバーコードを記述しているバーコードの情報が、電子的に受信され、ぞれぞれのバーコードは、DNA鎖の末端におけるヌクレオチド塩基の配列である、
請求項1に記載の方法。 - 前記第1のセットの配列データは、さらに1またはそれ以上のバーコードを含み、それぞれのバーコードは、特定のDNA及び特定のZFNを共に有するサンプルに対応し、前記方法は、さらに前記複数の高品質リード配列を1またはそれ以上の群に選別する工程を含み、同じ群中の高品質リード配列は、同じバーコードを有する、請求項1に記載の方法。
- ジンクフィンガーヌクレアーゼ(ZFN)の効率を解析する装置であって、当該解析装置はZFNによって処理されたDNA鎖の向上された解析を実行し、前記装置は、
少なくとも1つの処理装置と、
複数の配列を含む配列データを受け取るように構成された入力モジュールであって、前記複数の配列は、第1のZFNで処理された第1のDNA鎖を含む第1のサンプルに対応し、それぞれの配列は、ヌクレオチド配列及び信頼区間情報を含み、前記信頼区間情報は、ヌクレオチド配列中の塩基がDNA鎖中の塩基に対応するかに関わる、信頼度に対応し、前記入力モジュールは、さらに前記少なくとも1つの処理装置に利用可能な前記配列データを作るように動作可能である、入力モジュールと、
前記少なくとも1つの処理装置内に設けられた電子的な計算モジュールとを備え、当該電子的な計算モジュールは、
(a)前記複数の配列のどの配列が閾値以上である信頼区間情報と関連するかを決定することによって、かつ、そのような信頼区間を有するそのような配列を高品質リード配列として分類することによって、複数の高品質リード配列を特定し、
(b)前記特定された複数の高品質リード配列から複数のユニークリード配列を抽出し、
(c)ヌクレオチド塩基の参照配列に対して前記複数のユニークリード配列を整列し、前記参照配列は、複数の可能なアライメントにおける参照サンプルに対応し、前記参照サンプルは、前記第1のZFNによって処理されていない第1のDNA鎖に対応し、
(d)前記ユニークリード配列及び前記参照配列のそれぞれの塩基を、前記複数の可能なアライメントのそれぞれで比較し、それぞれのユニークリード配列のための前記複数の可能なアライメントからアライメントを選択し、
(e)ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及びヌクレオチド塩基の前記比較に応じて、次のプロセスにしたがってユニークリード配列のそれぞれのカテゴリーを決定するものであり、前記プロセスは、
前記整列されたユニークリード配列と参照配列とが、正確に一致するとき、可能なアライメントを第1のカテゴリーに分類すること、
参照配列の1またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第2のカテゴリーに分類すること、
前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第3のカテゴリーに分類すること、及び
前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列から欠失される場合に、前記整列されたユニークリード配列と参照配列とが一致するとき、前記可能なアライメントを第4のカテゴリーに分類すること、を含み、
(f)前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのための活性データを決定し、前記活性データは、前記第3のカテゴリー及び前記第4のカテゴリー中のユニークリード配列のためのヌクレオチド塩基の比較を含み、
(g)前記決定された活性データに応じ、前記第1のDNA鎖を切断するために前記第1のZENの効率を決定する、装置。 - 前記電子的計算モジュールがさらに、前記高品質アライメントに応じて、前記選択されたアライメントのためにパーセンテージアライメントの値を計算し、かつ前記選択されたアライメントから高品質アライメントを抽出するように動作可能であり、前記高品質アライメントは、アライメントパーセンテージの基準値より高い計算されたパーセントアライメントを有する、請求項6に記載の装置。
- 前記ユニークリード配列の前記選択されたアライメントの定性的解析を行うモジュールをさらに備える、請求項6に記載の装置。
- 前記ユニークリード配列の前記選択されたアライメントの定量的解析を行うモジュールをさらに備える、請求項6に記載の装置。
- 前記ユニークリード配列の前記選択されたアライメントを可視化するモジュールをさらに備える、請求項6に記載の装置。
- 前記電子的計算モジュールが、さらにそれぞれの可能なアライメントのためのアライメントスコアを計算して、前記選択されたアライメントを決定するように構成される、請求項6に記載の装置。
- ジンクフィンガーヌクレアーゼ(ZFN)の効率を解析する装置であって、当該解析装置はZFNによって処理されたDNA鎖の向上された解析を実行し、前記装置は、
処理装置と、
複数の配列を含む配列データを受け取るためのモジュールであって、前記複数の配列は、第1のZFNで処理された第1のDNA鎖を含む第1のサンプルに対応し、前記複数の配列のそれぞれの配列は、ヌクレオチド塩基の配列を含む、モジュールと、
計算モジュールとを備え、当該計算モジュールは、
(a)閾値以上の配列のそれぞれに対応する信頼区間データに応じて、前記複数の配列の間から複数の高品質リード配列を電子的に特定し、
(b)前記特定された複数の高品質リード配列から複数のユニークリード配列を抽出し、
(c)複数の可能なアライメントで、参照サンプルに対応する参照配列に対して、ユニークリード配列のそれぞれの前記ヌクレオチド塩基を比較して、それぞれのユニークリード配列のために、前記複数の可能なアライメントからアライメントを選択し、前記計算モジュールは、ユニークリード配列のそれぞれ及び前記参照配列の間でパーセンテージアライメント値を計算し、さらに前記計算されたパーセンテージアライメント値がアライメントパーセンテージ基準値より高い場合、前記配列データを第1の群に分類し
(d)ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのカテゴリーを決定するものであり、前記決定は、
前記整列されたユニークリード配列と参照配列とが、正確に一致するとき、可能なアライメントを第1のカテゴリーに分類すること、
参照配列の1またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第2のカテゴリーに分類すること、
前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、前記可能なアライメントを第3のカテゴリーに分類すること、及び
前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列から欠失される場合に、前記整列されたユニークリード配列と参照配列とが一致するとき、前記可能なアライメントを第4のカテゴリーに分類すること、を含み、
(e)前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのための活性データを決定し、前記活性データは、前記第3のカテゴリー及び前記第4のカテゴリー中のユニークリード配列のための前記ヌクレオチド塩基の比較を含み、
(f)前記決定された前記活性データに応じ、前記第1のDNA鎖を切断するための前記第1のZENの効率を決定する、装置。 - ジンクフィンガーヌクレアーゼ(ZFN)の効率を解析する装置における、ZFNによって処理されたDNA鎖の解析を向上する方法において、
(a)複数のDNA鎖を1つ以上のジンクフィンガーヌクレアーゼ(ZFN)に曝露する工程と、
(b)複数の配列を含む配列データを電子的に受信する工程であって、前記複数の配列のそれぞれの配列は、複数のDNA鎖の1つからのヌクレオチド塩基の配列を含み、前記ヌクレオチド塩基の配列中の塩基が前記DNA鎖中の塩基に対応するかに関わる、信頼度に対応するデータを含む、配列データを電子的に受信する工程と、
(c)閾値以上の信頼度に応じて、前記複数の配列の間から複数の高品質リード配列を電子的に特定する工程と、
(d)ユニーク高品質リード配列のセットを生成するために、前記特定された複数の高品質リード配列からユニークリード配列を抽出する工程と、
(e)前記ユニーク高品質リード配列のセットの前記高品質リード配列のそれぞれを、配列データに対して整列する工程であって、前記配列データは、複数の可能なアライメントで参照サンプルに対応し、前記参照サンプルは、1以上のFZNに曝露されていない複数のDNA鎖の1つに対応する、配列データに対して整列する工程と、
(f)前記複数のユニークリード配列の前記ヌクレオチド塩基、及び前記配列データを、前記可能なアライメントのそれぞれで比較する工程であって、これによってユニークリード配列のそれぞれのための複数の可能なアライメントからアライメントを選択する、比較する工程と、
(g)ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのカテゴリーを決定する工程であって、当該カテゴリーを決定する工程は、
前記整列されたユニークリード配列と参照配列とが、正確に一致するとき、可能なアライメントを第1のカテゴリーに分類する工程と、
参照配列の1またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが整列するとき、可能なアライメントを第2のカテゴリーに分類する工程と、
前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが整列するとき、可能なアライメントを第3のカテゴリーに分類する工程と、
前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列から欠失される場合に、前記整列されたユニークリード配列と参照配列とが整列するとき、可能なアライメントを第4のカテゴリーに分類する工程と、を含み、
(h)前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのための活性データを決定する工程であって、前記活性データは、前記第3のカテゴリー及び前記第4のカテゴリー中のユニークリード配列のためのヌクレオチド塩基の前記比較を含む、活性データを決定する工程と、
(i)前記決定された活性データに応じ、複数のDNA鎖の1つを切断するために第1のZENの一つの効率を決定する工程とを含む、方法。 - 前記配列データは、1またはそれ以上のバーコードを含み、それぞれのバーコードは、特定のDNA鎖及び特定のZFNを共に有するサンプルに対応し、前記方法は、さらに前記複数の配列データを1、2またはそれ以上の群に選別する工程を含み、同じ群の高品質リード配列は、同じバーコードを有する、請求項13に記載の方法。
- ジンクフィンガーヌクレアーゼ(ZFN)の効率を解析する装置における、ZFNによって処理されたDNA鎖の解析を向上する方法において、
(a)第1の数のDNA鎖を第1の複数のZFNで切断して、前記切断された鎖を実質的に修復する、工程と、
(b)第2の数のDNA鎖を第2の複数のZFNで切断して、前記切断された鎖を実質的に修復する、工程と、
(c)配列データを電子的に受信する工程であって、前記配列データは、第1の数の配列を含み、前記第1の数の配列は、第1の複数の配列及び第2の複数の配列を含み、前記第1の複数の配列は、前記第1の数のDAN鎖からの複数のヌクレオチド塩基配列、及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基が前記第1の数のDNA鎖における塩基に対応するかに関わる、信頼度に対応し、前記第2の複数の配列は、前記第2の数のDAN鎖からの複数のヌクレオチド塩基配列、及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基が前記第2の数のDNA鎖における塩基に対応するかに関わる、信頼度に対応する、配列データを電子的に受信する工程と、
(d)閾値以上の前記信頼区間データに応じて、前記第1の複数の配列の間から第1の複数の高品質リード配列を、前記第2の複数の配列の間から第2の複数の高品質リード配列を、電子的に特定する工程と、
(e)前記特定された前記第1の複数の高品質リード配列から第1の複数のユニークリード配列を、前記特定された前記第2の複数の高品質リード配列から第2の複数のユニークリード配列を、抽出する工程と、
(f)複数の可能なアライメントで前記第1及び第2の数のヌクレオチド塩基鎖の少なくとも1つ中で、参照DNA鎖に対応する参照配列に対して、前記第1及び第2の複数のユニークリード配列を整列し、前記複数の可能なアライメントのそれぞれで前記参照配列に対して前記第1及び第2の複数のユニークリード配列の前記ヌクレオチド塩基を比較して、前記複数の可能なアライメントからそれぞれのユニークリード配列のためのアライメントを選択し、前記配列に対する少なくとも1つの特徴となる修復を特定する、工程と、
(g)ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び前記ヌクレオチド塩基の比較に応じて、ユニークリード配列のそれぞれのカテゴリーを決定する工程であって、当該カテゴリーを決定する工程は、
前記整列されたユニークリード配列と参照配列とが正確に一致するとき、可能なアライメントを第1のカテゴリーに分類する工程と、
参照配列の1またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第2のカテゴリーに分類する工程と、
前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第3のカテゴリーに分類する工程と、
前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列から欠失される場合において、前記整列されたユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第4のカテゴリーに分類する工程とを備え、
(h)第2の数の配列を電子的に決定する工程であって、前記第2の数の配列は、前記第1の数の配列の部分群であり、前記第2の数の配列は、前記配列を切断するために使用されたZFNおよび前記配列に対する修復の少なくとも1つの特徴を共に有し、前記第2の数の配列は、前記第1の数の配列の1パーセント未満である、工程と、
(i)前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、前記第2の数の配列中で、ユニークリード配列のそれぞれのための活性データを決定する工程であって、前記活性データは、前記第3のカテゴリー及び前記第4のカテゴリー中のユニークリード配列のためのヌクレオチド塩基の比較を含む、活性データを決定する工程と、
(j)前記決定された活性データに応じ、前記参照DNA鎖を切断するために、前記第2の数の配列のZENの効率を決定する工程とを含む、方法。 - 前記第2の数の配列が、前記第1の数の配列の0.1パーセント未満である、請求項15に記載の方法。
- 前記第2の数の配列が、前記第1の数の配列の0.01パーセント未満である、請求項15に記載の方法。
- 前記第2の数の配列が、前記第1の数の配列の0.01パーセント未満であり、前記第1の数の配列が、少なくとも100万個の配列である、請求項15に記載の方法。
- 前記配列に対する修復の第1の特徴が、標的切断領域中の挿入数および欠失数のうちの少なくとも1つの基準を含む、請求項15に記載の方法。
- ジンクフィンガーヌクレアーゼ(ZFN)の効率を解析する装置における、解析方法であって、前記方法は、
第1の数のDNA鎖を第1の複数のジンクフィンガーヌクレアーゼ(ZFN)で切断して、前記切断された鎖を実質的に修復する、工程と、
第2の数のDNA鎖を第2の複数のZFNで切断して、前記切断された鎖を実質的に修復する、工程と、
配列データを電子的に受信する工程であって、前記配列データは、第1の数の配列を含み、前記第1の数の配列は、第1の複数の配列及び第2の複数の配列を含み、前記第1の複数の配列は、前記第1の数のDAN鎖からの複数のヌクレオチド塩基、及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基が前記第1の数のDNA鎖における塩基に対応するかに関わる、信頼度に対応し、前記第2の複数の配列は、前記第2の数のDAN鎖からの複数のヌクレオチド塩基、及び信頼区間データを含み、前記信頼区間データは、ヌクレオチド塩基の配列中の塩基が前記第2の数のDNA鎖における塩基に対応するかに関わる、信頼度に対応する、配列データを電子的に受信する工程と、
閾値以上の前記信頼区間データに応じて、前記第1の複数の配列の間から第1の複数の高品質リード配列を、前記第2の複数の配列の間から第2の複数の高品質リード配列を、電子的に特定する工程と、
前記特定された第1の複数の高品質リード配列から第1の複数のユニークリード配列を、前記特定された第2の複数の高品質リード配列から第2の複数のユニークリード配列を、抽出する工程と、
第2の数の配列を電子的に決定する工程であって、前記第2の数の配列は、前記第1の数の配列の部分群であり、前記第2の数の配列は、前記配列を切断するために使用されたZFNおよび前記配列に対する修復の少なくとも1つの特徴を共に有し、前記第2の数の配列は、前記第1の数の配列の1パーセント未満である、第2の数の配列を電子的に決定する工程とを備え、当該第2の数の配列を電子的に決定する工程は、
(a)第1の数の配列を複数の群に分離する工程であって、同じZFNがそれぞれの群のそれぞての配列を切断するために用いられる、分離する工程と、
(b)第1の数の配列中で複数の高品質リード配列を電子的に特定する工程であって、前記複数の高品質リード配列は第3の数の配列を含み、前記第3の数の配列は、前記第1の数の配列より少なく、かつ前記第2の数の配列より多い、複数の高品質リード配列を電子的に特定する工程と、
(c)前記第3の数の配列から複数のユニークリード配列を抽出する工程であって、前記複数のユニークリード配列は、前記第3の数の配列より少なく、かつ前記第2の数の配列以上の第4の数の配列を有する、ユニークリード配列を抽出する工程と、
(d)前記第4の数の配列のそれぞれのヌクレオチド塩基を参照配列と比較する工程であって、前記参照配列は、複数の可能なアライメントで前記第1及び第2の数のDNA鎖の少なくとも1つの中で参照DNA鎖に対応して、前記第2の数の配列を有する複数の高品質アライメント配列を特定する、比較する工程とを備え、
前記第2の数の配列及び前記ヌクレオチド塩基の比較に応じて、第2の数の配列のそれぞれのためのカテゴリーを決定する工程を備え、当該カテゴリーを決定する工程は、
前記整列されたユニークリード配列と参照配列とが正確に一致するとき、可能なアライメントを第1のカテゴリーに分類する工程と、
参照配列の1またはそれ以上の塩基が変更または変異される場合において、前記整列されたユニークリード配列と参照配列とが一致するとき、可能なアライメントを第2のカテゴリーに分類する工程と、
前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列に挿入される場合において、前記整列されたユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第3のカテゴリーに分類する工程と、
前記参照配列の1またはそれ以上の塩基が前記ユニークリード配列から欠失される場合において、前記整列されたユニークリード配列と参照配列とが標的部位で一致するとき、可能なアライメントを第4のカテゴリーに分類する工程とを含み、
前記決定されたカテゴリー及び前記ヌクレオチド塩基の比較に応じて、前記第2の数の配列のそれぞれのための活性データを決定する工程であって、前記活性データは、前記第3のカテゴリー及び前記第4のカテゴリー中の前記ヌクレオチド塩基の比較を含む、活性データを決定する工程と、
前記決定された活性データに応じ、前記第2の数の配列中の配列を切断するために用いられる前記ZENの効率を決定する工程とを含む、方法。 - 前記方法は、
配列中の総塩基数によって整列された塩基数を割ることによって、パーセントアライメントを決定する工程と、
前記パーセントアライメントに応じて、さらに整列した複数のユニークリード配列及び参照配列の間から複数の高品質アライメントを特定する工程とを含む、請求項1に記載の方法。 - 前記標的部位で前記第1のDNA鎖を切断するための前記第1のZENの効率は、挿入及び/または欠落の数を高品質配列数で割ることにより決定される、請求項1に記載の方法。
- 前記方法は、さらに、ある量の第1のZFNを、DNAを含む第1のサンプルに添加する工程と、
第1の組の配列データを得るために前記第1のサンプルの配列を決定する工程とを含む、請求項1に記載の方法。 - 前記方法は、さらに、DNAを含む第2のサンプルを提供する工程と、
参照配列を得るためにZFNの添加せずに前記第2のサンプルの配列を決定する工程とを含む、請求項23に記載の方法。 - アライメントを選択するために前記複数のユニークリード配列の前記ヌクレオチド塩基と前記参照配列とを比較する工程は、前記ユニークリード配列のそれぞれのための前記アライメントを選択するために、Smith−Watermanアルゴリズムを用いることを含む、請求項1に記載の方法。
- 前記参照配列は、酵素で処理されていない参照サンプルから得られる、請求項1に記載の方法。
- 前記複数のユニークリード配列の前記ヌクレオチド塩基と前記参照配列とを比較する工程は、ヌクレオチド塩基の配列中のヌクレオチド塩基のそれぞれに、アライメントのスコアを割り当てる工程を含み、前記スコアは、一致である第1の値、不一致である第2の値、挿入である第3の値、欠失である第4の値を有し、ユニークリード配列のそれぞれのためのアライメントのスコアを決定する工程を含み、前記アライメントのスコアは、前記ユニークリード配列中の塩基の集計スコアである、請求項1に記載の方法。
- 前記アライメントを選択するために前記複数のユニークリード配列の前記ヌクレオチド塩基と前記参照配列とを比較する工程は、前記ユニークリード配列のそれぞれのための前記アライメントを選択するために、行列Hを使用するSmith−Watermanアルゴリズムを用いることを含み、Smith−Watermanアルゴリズムを用いて比較される2つの配列の長さは、前記行列の行および列の次元として使用され、前記行列の構築は、は以下の通り、
H(t,0)=0,0≦t≦m(式1)、
H(0,j)=0,0≦j≦n(式2)、
ai=bjである場合、w(ai,bj)=w(一致)であるか、またはai!=bjである場合、w(ai,bj)=w(不一致)であり、
式中:
a,b=ヌクレオチドまたはタンパク質配列、
m=長さ(a)、
n=長さ(b)、
H(i,j)は、[1...i]の下付き数字とb[1...j]の下付き数字との間の最大類似度スコアであり、
ここで、’−’は、ギャップスコアリングスキームである、請求項27に記載の方法。 - 前記方法は、ユニークリード配列のそれぞれのために選択されたアライメントのそれぞれ、及び高品質アライメントのみを通過するように構成された1つまたはそれ以上の分離フィルターに応じて、当該1つまたはそれ以上の分離フィルターを通過しない選択されたされたアライメントを取り除く工程を含む、請求項1に記載の方法。
- 前記第1のセットの配列データは、さらに複数のサンプルに対応する複数の配列を含み、それぞれのサンプルはZFNで処理されたDNA鎖を含み、前記複数のサンプルのDNA鎖は、標的部位を有し、前記方法は、さらに
対応する標的部位で対応するDNA鎖を切断するために、前記複数のサンプルのZFNのそれぞれの効率を決定する工程と
前記ZFNの効率をランク付けする工程とを含む、請求項5に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201061428191P | 2010-12-29 | 2010-12-29 | |
US61/428,191 | 2010-12-29 | ||
US201161503784P | 2011-07-01 | 2011-07-01 | |
US61/503,784 | 2011-07-01 | ||
PCT/US2011/066284 WO2012092039A1 (en) | 2010-12-29 | 2011-12-20 | Data analysis of dna sequences |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014505935A JP2014505935A (ja) | 2014-03-06 |
JP6066924B2 true JP6066924B2 (ja) | 2017-01-25 |
Family
ID=45509679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013547551A Expired - Fee Related JP6066924B2 (ja) | 2010-12-29 | 2011-12-20 | Dna配列のデータ解析法 |
Country Status (13)
Country | Link |
---|---|
US (1) | US20120173153A1 (ja) |
EP (1) | EP2659411A1 (ja) |
JP (1) | JP6066924B2 (ja) |
KR (1) | KR20140006846A (ja) |
CN (1) | CN103403725A (ja) |
AR (1) | AR084631A1 (ja) |
AU (1) | AU2011352786B2 (ja) |
BR (1) | BR112013016631A2 (ja) |
CA (1) | CA2823061A1 (ja) |
IL (1) | IL227246A (ja) |
RU (1) | RU2013135282A (ja) |
WO (1) | WO2012092039A1 (ja) |
ZA (1) | ZA201305274B (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140195216A1 (en) * | 2013-01-08 | 2014-07-10 | Imperium Biotechnologies, Inc. | Computational design of ideotypically modulated pharmacoeffectors for selective cell treatment |
JP6560205B2 (ja) | 2013-11-04 | 2019-08-14 | ダウ アグロサイエンシィズ エルエルシー | 最適なダイズ遺伝子座 |
CN106164085A (zh) | 2013-11-04 | 2016-11-23 | 美国陶氏益农公司 | 最优玉米座位 |
CN104200135A (zh) * | 2014-08-30 | 2014-12-10 | 北京工业大学 | 基于MFA score和排除冗余的基因表达谱特征选择方法 |
JP6593763B2 (ja) * | 2015-04-30 | 2019-10-23 | 株式会社テンクー | ゲノム解析装置及びゲノム可視化方法 |
US10395759B2 (en) | 2015-05-18 | 2019-08-27 | Regeneron Pharmaceuticals, Inc. | Methods and systems for copy number variant detection |
CN108350494B (zh) * | 2015-08-06 | 2024-02-27 | 阿柯生物有限公司 | 用于基因组分析的***和方法 |
CN108885648A (zh) * | 2016-02-09 | 2018-11-23 | 托马生物科学公司 | 用于分析核酸的***和方法 |
TWI695890B (zh) * | 2017-12-29 | 2020-06-11 | 行動基因生技股份有限公司 | 序列比對與突變位點分析的方法及系統 |
KR102488671B1 (ko) | 2020-09-15 | 2023-01-13 | 전남대학교산학협력단 | Dna 연성 정보 연산 방법, 이를 위한 dna 저장 장치 및 이를 위한 프로그램 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020021779A (ko) * | 1999-03-23 | 2002-03-22 | 바이오베이션 리미티드 | 단백질 단리 및 분석 |
DK2205749T3 (en) * | 2007-09-27 | 2016-08-22 | Dow Agrosciences Llc | MODIFIED PROTEINS zinc finger, which target the 5-enolpyruvylshikimate-3-phosphate synthase genes |
CN102159722B (zh) * | 2008-08-22 | 2014-09-03 | 桑格摩生物科学股份有限公司 | 用于靶向单链切割和靶向整合的方法和组合物 |
CN101429559A (zh) * | 2008-12-12 | 2009-05-13 | 深圳华大基因研究院 | 一种环境微生物检测方法和*** |
AU2010226313B2 (en) * | 2009-03-20 | 2014-10-09 | Sangamo Therapeutics, Inc. | Modification of CXCR4 using engineered zinc finger proteins |
-
2011
- 2011-12-20 EP EP11811247.3A patent/EP2659411A1/en not_active Withdrawn
- 2011-12-20 BR BR112013016631A patent/BR112013016631A2/pt not_active Application Discontinuation
- 2011-12-20 WO PCT/US2011/066284 patent/WO2012092039A1/en active Application Filing
- 2011-12-20 KR KR1020137019861A patent/KR20140006846A/ko not_active Application Discontinuation
- 2011-12-20 AU AU2011352786A patent/AU2011352786B2/en not_active Ceased
- 2011-12-20 RU RU2013135282/10A patent/RU2013135282A/ru unknown
- 2011-12-20 US US13/332,242 patent/US20120173153A1/en not_active Abandoned
- 2011-12-20 CA CA2823061A patent/CA2823061A1/en not_active Abandoned
- 2011-12-20 CN CN2011800687314A patent/CN103403725A/zh active Pending
- 2011-12-20 JP JP2013547551A patent/JP6066924B2/ja not_active Expired - Fee Related
- 2011-12-28 AR ARP110104982A patent/AR084631A1/es unknown
-
2013
- 2013-06-27 IL IL227246A patent/IL227246A/en active IP Right Grant
- 2013-07-12 ZA ZA2013/05274A patent/ZA201305274B/en unknown
Also Published As
Publication number | Publication date |
---|---|
ZA201305274B (en) | 2014-09-25 |
CA2823061A1 (en) | 2012-07-05 |
IL227246A (en) | 2017-03-30 |
US20120173153A1 (en) | 2012-07-05 |
KR20140006846A (ko) | 2014-01-16 |
AU2011352786B2 (en) | 2016-09-22 |
EP2659411A1 (en) | 2013-11-06 |
AU2011352786A1 (en) | 2013-08-01 |
BR112013016631A2 (pt) | 2016-10-04 |
AR084631A1 (es) | 2013-05-29 |
WO2012092039A1 (en) | 2012-07-05 |
JP2014505935A (ja) | 2014-03-06 |
CN103403725A (zh) | 2013-11-20 |
RU2013135282A (ru) | 2015-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6066924B2 (ja) | Dna配列のデータ解析法 | |
US10127351B2 (en) | Accurate and fast mapping of reads to genome | |
CN104302781B (zh) | 一种检测染色体结构异常的方法及装置 | |
Merkel et al. | Detecting short tandem repeats from genome data: opening the software black box | |
CN106033502B (zh) | 鉴定病毒的方法和装置 | |
CN109243530B (zh) | 遗传变异判定方法、***以及存储介质 | |
CN111139291A (zh) | 一种单基因遗传性疾病高通量测序分析方法 | |
CN112289376B (zh) | 一种检测体细胞突变的方法及装置 | |
CN107480470A (zh) | 基于贝叶斯与泊松分布检验的已知变异检出方法和装置 | |
CN112599198A (zh) | 一种用于宏基因组测序数据的微生物物种与功能组成分析方法 | |
Moyers et al. | Toward reducing phylostratigraphic errors and biases | |
Michaeli et al. | Automated cleaning and pre-processing of immunoglobulin gene sequences from high-throughput sequencing | |
JP5403563B2 (ja) | 網羅的フラグメント解析における遺伝子同定方法および発現解析方法 | |
GB2579110A (en) | Method for determining a consensus sequence of a target polymer | |
CN104598775A (zh) | 一种rna编辑事件识别机制及其高效实现方案 | |
Kaiser et al. | Automated structural variant verification in human genomes using single-molecule electronic DNA mapping | |
JP2008161056A (ja) | Dna配列解析装置、dna配列解析方法およびプログラム | |
CN111028885B (zh) | 一种检测牦牛rna编辑位点的方法及装置 | |
CN116097361A (zh) | 用于在来自单细胞分区的多基因组特征数据中鉴定特征连锁的***和方法 | |
Cook et al. | A deep-learning-based RNA-seq germline variant caller | |
KR102110017B1 (ko) | 분산 처리에 기반한 miRNA 분석 시스템 | |
CN117789823B (zh) | 病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备 | |
CN113496761B (zh) | 确定核酸样本中cnv的方法、装置及应用 | |
Ettetuani et al. | Meta-analysis for a therapeutic target involved in the activation of the genes associated with c3 glomerulopathy | |
WO2024140881A1 (zh) | 胎儿dna浓度的确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160315 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20160608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160708 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6066924 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |