JP6904953B2

JP6904953B2 - 細胞クローン性を決定する方法

Info

Publication number: JP6904953B2
Application number: JP2018528767A
Authority: JP
Inventors: ラネーベファビオ; フェジェジョルジュ; トーゾエミリアーノ
Original assignee: アレストレーディングソシエテアノニム
Priority date: 2015-12-03
Filing date: 2016-12-01
Publication date: 2021-07-21
Anticipated expiration: 2036-12-01
Also published as: US20180327830A1; HUE054222T2; CN108368549A; IL259750B; DK3384045T3; US20230151421A1; CA3005386A1; AU2023204140A1; EP3384045B1; AU2016363746A1; CN108368549B; IL259750A; PL3384045T3; JP2018537097A; HK1253370A1; WO2017093400A1; ES2861477T3; EP3384045A1; KR20180088867A

Description

組換え哺乳動物細胞株は、タンパク質を、適切にフォールド・会合し、翻訳後修飾により、ヒトにおいて見られるものに類似の複雑なタンパク質にすることができるため、治療用タンパク質の産生に強力な手段である。ほとんどの場合、これまでバイオ医薬品タンパク質産生に用いられてきた細胞株は、哺乳動物を起源とする、様々な方法で不死化されたものであった。今日、全ての組換えタンパク質医薬品の約６０〜７０％が哺乳動物細胞中で産生されている。さらに、数百種類の臨床候補治療用タンパク質が、現在、企業により供給されている。これらのタンパク質の多くは不死化されたチャイニーズハムスター卵巣（ＣＨＯ）細胞中で発現されるが、他の細胞株、例えば、マウス骨髄腫（ＮＳ０、ＳＰ２／０）、ベビーハムスター腎細胞（ＢＨＫ）、ヒト胎児腎細胞（ＨＥＫ−２９３）、およびヒト網膜細胞に由来する細胞株が、医薬品産業におけるタンパク質産生の一般的手段として規制当局の承認を得ている。

哺乳動物細胞系におけるバイオ医薬品タンパク質の製造の最初の工程は、そのゲノムに目的のタンパク質をコードする導入遺伝子を安定的に組み込んだ、安定なモノクローナルな細胞株の生成である。リン酸カルシウム沈殿、電気穿孔、リポフェクタミン、およびウイルス形質移入(transfection)などのいくつかの形質移入方法が、染色体の組み込みを目的として導入遺伝子を宿主細胞核に送達するために一般に用いられている。臨床研究で最も一般的に用いられている形質移入方法の一つは、形質導入(transduction)としても知られているウイルス媒介性形質移入である。この技術は、治療用タンパク質の製造に向けて組換え細胞株を生成するのにも用いられている。ウイルス媒介性形質移入は非常に効率的であり、持続可能な導入遺伝子発現の達成が容易である。ＤＮＡが核に入ると、導入遺伝子は宿主細胞ゲノムに組み込まれ、導入遺伝子が含む目的遺伝子（ＧＯＩ）の発現が、周囲の染色体の構造および関連する特徴によって、部分的に命令される。しかしながら、ウイルス形質移入の大きな欠点の一つは、宿主細胞ゲノムへの導入遺伝子の挿入が予測できないということである。そのような挿入は、タンパク質の品質および量の両方がタンパク質をコードする導入遺伝子のゲノム位置に大きく依存するようになるという効果を持っている。

タンパク質産生細胞株の生成に関し、選択マーカーがＧＯＩとともに、宿主細胞ゲノムに同時形質移入される。次いで、確実に形質移入された細胞が、適切な選択培地での培養により選択される。選択される最も一般的な遺伝子は、ヌクレオチドの代謝に関わる酵素であるジヒドロ葉酸レダクターゼ（ＤＨＦＲ）およびグルタミン合成酵素（ＧＳ）である。どちらの場合も、適切な代謝物がない場合に選択が起こり、形質移入していない細胞の成長を防止する。通常、形質移入された細胞は、最初に、増殖およびタンパク質発現に関して選別されて、最良の産生能力および成長特性を有する候補を特定する。次工程で、細胞のプールが、特異的産生能の高いクローンに関して単離・富化される。しかしながら、このプールは不均質であり、異なる導入遺伝子挿入部位および異なるゲノムのコピー数を有する細胞を含んでいるため、結果としてタンパク質発現レベルにばらつきが生じる。

哺乳動物細胞株由来の生物学的製剤の産生を制御する決定的要素は、細胞基質の特性決定および試験を行い、これらの細胞の同一性、純度および適合性を製造プロセスの間に確保することである。従って、非常に高いタンパク質発現レベル、増殖速度、および最良の生成物品質を示す単一細胞(ICH Q5D)由来のクローンを単離する必要がある。このために、単一細胞を、同時撮像および精巧な選別を伴うＦＡＣＳを用いて、一連の限界希釈工程または単一細胞の沈殿により不均質な細胞のプールから回収し、少数の候補クローンを単離する。次いで、最も有望な候補を前万能細胞バンク(pre-master cell bank = pre-MCB)として凍結保存し、考えられ得る限り最も長い製造期間を超えるべき継代安定性について評価する。表現型の安定性に加えて、選択圧がない場合には、遺伝的安定性について細胞株を評価する必要があるが、これは一般に産生段階で適用されることはない。最適な細胞株が特定されると、万能細胞バンク（ＭＣＢ）が作製される。ＭＣＢは、規定の条件で単一の選択された細胞クローンから調製され、複数のバイアルに分注され、規定の条件（通常、−１００℃以下）で保管される、細胞の単一プールの分割量(aliquot)と定義される。市販品のプロセス開発は、増殖して製造プロセスに用いられる機能する細胞バンク(working cell bank =WCB)を生成する、そのようなＭＣＢに基づいて開始される。ＭＣＢおよびＷＣＢが医薬品産業における産生細胞株として承認されるかどうかは、国内外の保健医療当局によって課される厳しい要件を満たせるかどうかにかかっている。組換え細胞株が産生細胞株として承認されるための重要な要件には、クローン性の検証および細胞株の微生物汚染（例えば、レトロウイルスまたはマイコプラズマ）に関する試験の検証が含まれる。

２ラウンドではなく１ラウンドの限定的な希釈クローニング、ＦＡＣＳクローニングの場合における１日目の画像の不足、または不完全な記録のためにクローン性の文献証拠が不足している場合は、ＭＣＢのクローン性の保証を高める追加の証拠が保健医療当局によって求められる。最も受け入れられている方法は、ＦＩＳＨ法およびＭＣＢとＷＣＢのサザンブロット分析である。しかしながら、これらの方法は、特にＧＯＩのコピー数が少ない細胞株では感度が不足することが多いため、しばしば解釈が難しい。加えて、数十または数百もの挿入部位を含む、ウイルス形質導入によって生成された細胞株のような、多数の挿入部位を有する細胞株の全てをＦＩＳＨ法によって分析できるわけではない。サザンブロット分析もまた、用いることはできるが、汚染の割合が非常に低い場合、および十分な数の制限酵素が用いられない限り、感度が不足する。サザンブロット分析は、ＧＯＩ挿入部位に隣接する既知のゲノム領域を必要とする。タンパク質産生力価、ならびに細胞形態、細胞生存率、細胞成長および生成物品質などの細胞培養パラメータを含む様々な具体的特性をモニタリングすることで裏付けになる追加の証拠を得ることができる。しかしながら、そのような方法は非常に多くの人手と時間を要する。従って、所与の細胞株が医薬品タンパク質の産生における使用のために承認され得る前に、産生細胞株（ＭＣＢ）のクローン性を決定する新規の方法を提供し、現在必要とされている、多くの労力を要し、高価で、遅い選別を回避するということへの強い必要性がある。所与のＭＣＢのクローン性を、多くの時間と労力を要する評価工程を大幅に減らす手段によって決定する方法を提供することは、産生細胞株のクローン性に関する迅速で信頼性の高い品質評価を促進する大きな一助となる。本発明の目的は、そのような必要性に対処することである。

上述の目的に従って、本発明は、既知の配列の導入遺伝子の、既知の配列の宿主前駆細胞（ＨＰＣ）ゲノムへの、予測可能または予測不能な挿入から生じる万能細胞バンク（ＭＣＢ）のクローン性を決定する方法に関する。
本発明の一側面において、この方法は、
Ａ）クローン性が決定されることになるＭＣＢから増殖された参照サブクローン細胞（ＲＳＣ）のゲノム中の１つ以上の導入遺伝子挿入領域（ＴＩＲ）を特定する工程であって、この特定は
ｉ）前記ＲＳＣゲノムのペアエンド（両端読み込み）配列決定により１つ以上のＲＳＣゲノム配列を得ること、および
ｉｉ）前記１つ以上のＲＳＣゲノム配列を、前記既知のＨＰＣゲノム配列および前記既知の導入遺伝子配列に対して整列させること
により達成され、これによって１つ以上の導入遺伝子挿入領域（ＴＩＲ）を産生する、工程、
Ｂ）最も高い配列包括度を有する、工程（Ａ）で特定された１つ以上のＴＩＲを決定する工程であって、
前記配列包括度は、所与のＴＩＲを含む所与の核酸配列が配列決定プロセス中に部分的に重複する読み取りによって読み取られる回数を指し、
最も高い配列包括度を有する前記１つ以上のＴＩＲは参照ＴＩＲ（ＲＴＩＲ）として指定される、工程、
Ｃ）クローン性が決定されることになるＭＣＢから増殖されているが前記ＲＳＣからは独立している１つ以上のサブクローン細胞（ＳＣ）のそれぞれのゲノム中の１つ以上の導入遺伝子挿入領域（ＴＩＲ）を特定する工程であって、この特定は、
ｉ）それぞれのＳＣゲノムのペアエンド配列決定により１つ以上のＳＣゲノム配列を得ること、および
ｉｉ）それぞれの１つ以上のＳＣゲノム配列を、前記既知のＨＰＣゲノム配列および前記既知の導入遺伝子配列に対して整列させること
により達成され、これによって１つ以上の比較導入遺伝子挿入領域（ＣＴＩＲ）を産生する、工程、
Ｄ）工程（Ｂ）で決定された前記１つ以上のＲＴＩＲを工程（Ｃ）で決定されたそれぞれのＣＴＩＲと比較する工程、
Ｅ）それぞれのＳＣに存在する前記１つ以上のＣＴＩＲの各々と、前記ＲＳＣに存在する対応するＲＴＩＲとの対応関係を評価する工程、ならびに、
Ｆ）工程（Ｅ）で評価された前記対応関係に基づいて前記ＭＣＢのクローン性を決定する工程、を含む。
本発明の別の側面において、この方法は、
Ｇ）クローン性が決定されることになるＭＣＢから増殖された参照サブクローン細胞（ＲＳＣ）のゲノム中の１つ以上の導入遺伝子挿入領域（ＴＩＲ）を特定する工程であって、この特定は
ｉｉｉ）前記ＲＳＣゲノムのペアエンド配列決定により１つ以上のＲＳＣゲノム配列を得ること、および
iｖ) 前記１つ以上のＲＳＣゲノム配列を、前記既知のＨＰＣゲノム配列および前記既知の導入遺伝子配列に対して整列させること
により達成され、これによって１つ以上の導入遺伝子挿入領域（ＴＩＲ）を産生する、工程、
Ｈ）最も高い配列包括度を有する、工程（Ａ）で特定された１つ以上のＴＩＲを決定する工程であって、
前記配列包括度は、所与のＴＩＲを含む所与の核酸配列が配列決定プロセス中に部分的に重複する読み取りによって読み取られる回数を指し、
最も高い配列包括度を有する前記１つ以上のＴＩＲは参照ＴＩＲ（ＲＴＩＲ）として指定される、工程、
Ｉ）クローン性が決定されることになるＭＣＢから増殖されているが前記ＲＳＣからは独立している１つ以上のサブクローン細胞（ＳＣ）のそれぞれのゲノム中の１つ以上の導入遺伝子挿入領域（ＴＩＲ）を特定する工程であって、この特定は、
ｉｉｉ）それぞれのＳＣゲノムのペアエンド配列決定により１つ以上のＳＣゲノム配列を得ること、および
ｉｖ）それぞれの１つ以上のＳＣゲノム配列を、前記既知のＨＰＣゲノム配列および前記既知の導入遺伝子配列に対して整列させること
により達成され、これによって１つ以上の比較導入遺伝子挿入領域（ＣＴＩＲ）を産生する、工程、
Ｊ）工程（Ｂ）で決定された前記１つ以上のＲＴＩＲを工程（Ｃ）で決定されたそれぞれのＣＴＩＲと比較する工程、
Ｋ）それぞれのＳＣに存在する前記１つ以上のＣＴＩＲの各々と、前記ＲＳＣに存在する対応するＲＴＩＲとの対応関係を評価する工程、ならびに、
ｌ）工程（Ｅ）で評価された前記対応関係に基づいて前記ＭＣＢのクローン性を決定する工程、
を含み、前記ＭＣＢは、前記ＲＳＣおよび前記１つ以上のＳＣが同じ集団に分類される場合、モノクローナルと見なされる。

上で説明したように、ＭＣＢの単クローン性は、従来、導入遺伝子が挿入された細胞のプールを限界希釈して、マルチウェルプレートのウェル当たり１個の単一細胞を得ることにより達成される。個々の標的細胞への導入遺伝子挿入は異なるので（ランダムまたはほぼランダム）、１つのウェル中の１個のＭＣＢ細胞は、各ＭＣＢ細胞が細胞のゲノム内の異なる位置で独立した導入遺伝子挿入の結果を示すために、別のウェル中の別のＭＣＢ細胞と異なると考えられる。このことは、以前に均質だった宿主前駆細胞の集合への導入遺伝子挿入後、異なる細胞の形質転換的に不均質な混合物を得て、これを希釈後、マルチウェルプレートの単一のウェルに単離して形質転換的に別個な細胞から分離する、ということを意味している。

しかしながら、希釈によるそのような単離は、計算された統計的確率に基づいている。従って、マルチウェルプレートのほとんどのウェルが１個だけのＭＣＢ細胞を含んでいる可能性がある一方で、一部のウェルが２個以上のＭＣＢ細胞を含むが、他のウェルはＭＣＢ細胞を含んでいないという可能性を排除できない。特に、単一のウェルが不均質なＭＣＢを生じ得る複数の形質転換的に不均質な細胞を含むという前者のシナリオは、規制当局によって承認される、挿入された導入遺伝子の発現から生じる医薬品タンパク質のためのプロセスを複雑にするばかりか、危うくさえしてしまう。これは、そのようなシナリオでは、実際はそれぞれが別個な導入遺伝子挿入プロファイルを有する複数種の細胞から発現されているにもかかわらず、当該タンパク質は一様な導入遺伝子挿入プロファイルを有するわずか１種の細胞から発現されていると（希釈因子の統計的計算に基づいて）不正確に想定するからである。そのようなばらつきは、産生されたタンパク質の性質の相違をもたらす場合があり、これは規制当局が承認する過程では排除されていなければならない。従って、通常は２ラウンドの限界希釈クローニングを適用して、ウェル当たり２個以上のＭＣＢ細胞を有する可能性を最小にする。あるいは、１ラウンドの限界希釈または単一細胞の沈殿を画像でモニタリングして単一のＭＣＢ細胞が単一のウェルに入ったことを確認することが可能である。しかしながら、これらの方法のいずれも、単一細胞がウェルに沈殿したという事実を保証することができない。限界希釈の場合、２ラウンドの限界希釈クローニングにおいて、たとえわずかであっても、常に統計的不確実性がある。細胞画像の場合、第２の細胞が、ウェルの隅にある、ウェルの壁にくっついている、またはカメラの焦点面の外にあるために検出されないことがある。

（モノクローナルと推定される）ＭＣＢから増殖され、ランダムに選択された参照細胞中の選択された導入遺伝子挿入部位を、（モノクローナルと推定される）ＭＣＢからそれとは別に増殖された他の細胞中の対応する挿入部位と比較することで、上述の方法は信頼性の高い単クローン性の決定を可能にするので有利である。所与のモノクローナルと推定されるＭＣＢから増殖された全細胞が同一の導入遺伝子挿入部位を示す場合、ＭＣＢは実際にモノクローナルであると信頼性高く結論付けることができる。しかしながら、所与のモノクローナルと推定されるＭＣＢから増殖された細胞が違った導入遺伝子挿入プロファイルを示す場合、モノクローナルと推定されるＭＣＢは実際にはモノクローナルではなく、一致していないゲノム位置での導入遺伝子挿入から生じていると信頼性高く結論付けることができる。そのような信頼性の高い情報は、規制当局によって承認される、医薬品としての応用が意図された組換え産生タンパク質に関するプロセスにおいては非常に重要である。

本発明の一実施形態において、ペアエンド配列決定は、所与の核酸分子をその両末端から配列決定することによって、配列決定されることになるゲノムの断片を示す所与の核酸分子の読み取りデータ対を生成することに関わる。

本発明のさらなる実施形態において、ＲＳＣは、前記１つ以上のＳＣと比較してより高い配列包括度で配列決定される。

本発明のさらなる実施形態において、前記ＭＣＢは、前記導入遺伝子を複数の位置で前記ＨＰＣゲノムへ挿入することから生じ、前記挿入は、好ましくは、レトロウイルスベクターを用いて行われる。

本発明のさらなる実施形態において、ＴＩＲの決定は、ペアエンドライブラリに由来するペアエンド「読み取り１」配列およびペアエンド「読み取り２」配列を４つのクラスに分類することを含み、
クラス１は、前記導入遺伝子にマッピングする「読み取り１」配列を含み、クラス２は、前記ＨＰＣゲノムにマッピングする「読み取り１」配列を含み、クラス３は、前記導入遺伝子にマッピングする「読み取り２」配列を含み、クラス４は、前記ＨＰＣゲノムにマッピングする「読み取り２」配列を含み、
前記「読み取り１」および前記「読み取り２」は、前記ＲＳＣまたは前記１つ以上のＳＣの核酸ライブラリの配列決定で生成した核酸集団内の所与の核酸分子の５’末端および３’末端に対応する、それぞれの順方向(forward)および逆方向(reverse)読み取りを示す。

本発明のさらなる実施形態において、ＴＩＲの決定は、ペアエンドライブラリに由来するペアエンド「読み取り１」配列およびペアエンド「読み取り２」配列を４つのクラスに分類することを含み、
クラス１は、前記導入遺伝子に排他的にマッピングする「読み取り１」配列を含み、クラス２は、前記ＨＰＣゲノムに排他的にマッピングする「読み取り１」配列を含み、クラス３は、前記導入遺伝子に排他的にマッピングする「読み取り２」配列を含み、クラス４は、前記ＨＰＣゲノムに排他的にマッピングする「読み取り２」配列を含み、
前記「読み取り１」および前記「読み取り２」は、前記ＲＳＣまたは前記１つ以上のＳＣの核酸ライブラリの配列決定で生成した核酸集団内の所与の核酸分子の５’末端および３’末端に対応する、それぞれの順方向および逆方向読み取りを示す。

本発明のさらなる実施形態において、「読み取り１」配列は、フローセル配列識別子を用いて、対応する「読み取り２」配列と組み合わせられ、
前記配列識別子は、フローセルのレーン、フローセル内のタイル番号、タイル内の核酸集団の「ｘ」座標、およびタイル内の核酸集団の「ｙ」座標に関する情報を含み、これによって「読み取り１」および「読み取り２」配列に対応する各配列対をフローセル内の固有の位置に割り当てる。

本発明のさらなる実施形態において、それぞれの読み取りデータ対のそれぞれの「読み取り１」および「読み取り２」配列は、導入遺伝子およびＨＰＣゲノムの既知の配列に対して別々に整列される。

本発明のさらなる実施形態において、クラス１および４配列を含む読み取りデータ対ならびにクラス２およびクラス３配列を含む読み取りデータ対のみが、さらなる分析のために選択される。

本発明のさらなる実施形態において、前記ＴＩＲは、クラス２およびクラス４に対応するペアエンド読み取り配列をＨＰＣゲノムに対して整列させ、これによって前記ＴＩＲの各々につき２ｋｂの領域をＨＰＣゲノム中に規定することによって特定される。

本発明のさらなる実施形態において、ＭＣＢのクローン性を決定する方法は、ペアエンドＮＧＳライブラリ中の最も高い配列包括度を有するｎ個（ｎは５〜５０の整数）のＲＴＩＲを決定する工程を含む。例えば、この整数は、５、１０、１５、２０、２５、３０、３５、４０、４５または５０であってもよい。

本発明のさらなる実施形態において、最も高い配列包括度を有するｎ個の第１ＲＴＩＲは、（Ａ）ＨＰＣゲノムにマッピングするクラス２およびクラス４に対応するそれぞれのペアエンド配列の読み取り数で、より多いとＲＴＩＲとして含まれることを示す、読み取り数、ならびに（Ｂ）クラス２およびクラス４に対応するそれぞれのペアエンド読み取り配列の読み取り数の部分的な重複で、より少ないとＲＴＩＲとして含まれることを示す、読み取り数の部分的な重複、に基づいて決定される。

本発明のさらなる実施形態において、前記ＲＳＣゲノム中のｎ個の第１ＲＴＩＲの各々は、前記１つ以上のＳＣゲノムの各々における前記ＣＴＩＲの対応するゲノム位置と比較される。

本発明のさらなる実施形態において、前記ＲＳＣ中の前記ＲＴＩＲと前記１つ以上のＳＣ中の前記ＣＴＩＲとの比較は、挿入領域の存在／不在マトリックスを生成することによって達成され、マトリックスの１つの次元は、前記ＲＳＣゲノム中の前記導入遺伝子の前記ｎ個のＲＴＩＲを示し、マトリックスのもう一つの、好ましくは直交する次元は、前記ＲＳＣおよび前記１つ以上のＳＣの各々を示す。

本発明のさらなる実施形態において、前記１つ以上のＳＣ中のそれぞれのＣＴＩＲの、前記ＲＳＣ中のそれぞれのＲＴＩＲに対する存在または不在は、マトリックス中に二色コードとして示され、第１の色は、前記ＲＳＣ中のそれぞれのＲＴＩＲのそれぞれの存在または不在、前記１つ以上のＳＣ中のそれぞれのＣＴＩＲのそれぞれの存在または不在を示し、第２の色は、前記ＲＳＣ中のそれぞれのＲＴＩＲのそれぞれの不在または存在、前記１つ以上のＳＣ中のそれぞれのＣＴＩＲのそれぞれの不在または存在を示す。

本発明のさらなる実施形態において、前記ＲＳＣと前記１つ以上のＳＣの各々との関係は、距離行列を計算することによって評価される。

本発明のさらなる実施形態において、距離行列は次式（Ｉ）に基づいて計算される。
Ｄ_ｄ（ＲＳＣ，ＳＣ_ｍ）＝１-（２＊Ｎ_{（ｔｏｔａｌ）}／［Ｎ_{（ＣＴＩＲ）}＋Ｎ_{（ＲＴＩＲ）}］）
式中、Ｄ_ｄ（ＲＳＣ，ＳＣ_ｍ）は、前記ＲＳＣゲノムとそれぞれのＳＣ_ｍゲノムとの間の距離関数を示し、Ｎ_{（ｔｏｔａｌ）}は、前記ＲＳＣゲノムおよび前記ＳＣ_ｍゲノムの両方に存在する挿入領域の数であり、Ｎ_{（ＣＴＩＲ）}は、前記ＳＣ_ｍゲノムに存在する挿入領域の総数であり、Ｎ_{（ＲＴＩＲ）}は、前記ＲＳＣゲノムに存在する挿入領域の総数であり、Ｄ_ｄ（ＲＳＣ，ＳＣ_ｍ）は、距離を０〜１の尺度で示し、０の距離は、前記ＲＳＣとそれぞれのＳＣ_ｍとの間でのクローン同一性を示し、１は、クローン相違性を示す。

本発明のさらなる実施形態において、パラメータＮ_{（ｔｏｔａｌ）}、Ｎ_{（ＣＴＩＲ）}および／またはＮ_{（ＲＴＩＲ）}は、挿入領域の存在／不在マトリックスに基づいて計算される。

本発明のさらなる実施形態において、方法は、共通の距離行列で前記１つ以上のＳＣをＲＳＣに対して示す工程を含む。

本発明のさらなる実施形態において、２つのそれぞれのゲノムは、式（Ｉ）に従って計算された互いの距離が０の場合、共通の集団に属していると見なされる。

本発明のさらなる実施形態において、前記ＭＣＢは、前記ＲＳＣおよび前記１つ以上のＳＣが同じ集団に分類される場合、モノクローナルと見なされる。

当然だが、上記の一般的説明および下記の詳細な説明は、例示と説明だけを目的としており、特許請求されている本発明を限定するものではない。用語「含んでいる（comprising）」ならびに他の文法形式、例えば「含む（comprises）」および「含まれる（comprised）」の使用は、非限定的である。同様に、用語「含んでいる（involving）」または「有している（having）」ならびに他のそれぞれの文法形式、例えば「含む（involves）」および「含まれる（involved）」または「有する（has）」もしくは「有される（had）」は非限定的である。同じことが、用語「含んでいる（including）」ならびに他の文法形式、例えば「含む（includes）」および「含まれる（included）」に当てはまる。本明細書を通じて、節の見出しは構成だけを目的としている。特に、それらはそこに記載されている様々な実施形態を限定することが意図されておらず、１つの小見出しの下に記載されている実施形態（およびそこにおける特徴）は別の小見出しの下に記載されている実施形態（およびそこにおける特徴）と自由に組み合わせることができる。

上述および続く説明において、任意の一実施形態は、任意の他の実施形態と組み合わせることができることが意図されている。さらに、上述および続く説明において、任意の一実施形態の特徴事項は、任意の他の実施形態の特徴事項と組み合わせることができることが意図されている。そのような１つ以上の実施形態の組合せ、および／または任意の一実施形態における１つ以上の特徴事項と任意の他の実施形態における１つ以上の特徴事項との組合せは、出願時の本出願の開示に属する。

図１は、万能細胞バンク（ＭＣＢ）のクローン性を決定する本発明の方法の一実施形態を例示する、３つの部分からなる連続した流れ図である。導入遺伝子を有する宿主前駆細胞（ＨＰＣ）（１００）の形質移入、例えば、レトロウイルス媒介性形質移入および限界希釈（１０１）（すなわち、意図された分割量容積あたり２個以上の細胞を生じない希釈）後、それぞれのゲノム中の複数の位置に導入遺伝子を含む、ＭＣＢ（１０２）の候補となりうるものを単離し、個々の細胞をさらに増殖し（１０３）、１つ以上のサブクローン（ＳＣ）（１０４）を得る。単一細胞分析の場合、個々の細胞に対して、直接、ＤＮＡ抽出を実施する。次に、１つ以上のサブクローンの全ＤＮＡを抽出し（１０５、１０６）、配列決定（例えば、「次世代配列決定」（ＮＧＳ））のための調製において、それぞれのＤＮＡライブラリに変換する（１０７、１０８）。この調製の一部として、それぞれのライブラリを、ゲノムＤＮＡ断片に相補的な固定されたアダプター配列で予め調製されたフローセルでハイブリダイズしてもよい（１０９）。次いで、固定された鋳型の増幅および集団生成（１１０）が続く。これによりフローセルのそれぞれのタイルに固定された配列集団が生じ（１１１）、その固定された位置は、上述の相補的なアダプター配列の元々の固定された位置を反映している。

ライブラリのペアエンド配列決定を実施し（１１２）、次いで得られた配列を、どちらも既知の、ＨＰＣゲノムに対応する配列または導入遺伝子に対応する配列のいずれかと整列、例えば、コンピュータ整列させる（１１３）。次いで、概念上、配列を以下の４つのクラスに分ける：導入遺伝子に対して整列させる読み取り１配列に対応するクラス１（１１４）；ＨＰＣゲノムに対して整列させる読み取り１配列に対応するクラス２（１１５）；導入遺伝子に対して整列させる読み取り２配列に対応するクラス３（１１６）；およびＨＰＣゲノムに対して整列させる読み取り２配列に対応するクラス４（１１７）。読み取り１および読み取り２配列は、所与の核酸ライブラリ（１０８）の配列決定で生成した所与の核酸集団（１１１）内の所与の核酸分子のそれぞれの５’末端および３’末端に対応する、それぞれの順方向および逆方向読み取りを示す。上述の配列分類の後、読み取りデータ対を割り当てる（１１８）。クラス１または２の読み取り１配列は、クラス３または４の対応する読み取り２配列と組み合わされる。同類の読み取りデータ対の正確な割り当ては、例えば、各核酸分子の配列決定工程中に生成されたＦａｓｔＱファイルにコードされている配列識別子によって達成することができる。次いで、それぞれの読み取りデータ対のそれぞれの読み取り１および読み取り２配列を、導入遺伝子配列またはＨＰＣゲノムに対して別々に整列させる。読み取り１が導入遺伝子にマッピングし（１１４）、読み取り２がＨＰＣゲノムにマッピングする（１１７）配列対（すなわち、クラス１／４対（１２０））、および読み取り１がＨＰＣゲノムにマッピングし（１１５）、読み取り２が導入遺伝子にマッピングする（１１６）配列対（すなわち、クラス２／３対（１２２））をさらなる分析のために保持する。読み取り１および読み取り２配列の両方が導入遺伝子（１１４、１１６、１１９）またはＨＰＣゲノム（１１５、１１７、１２１）のいずれかにマッピングする配列対は、導入遺伝子挿入領域（ＴＩＲ）の特定に適していないため、配列対のプールから廃棄される（１１９、１２１）。ＨＰＣゲノムにマッピングする、クラス１／４（１１４、１１７、１２０）またはクラス２／３（１１５、１１６、１２２）読み取りデータ対に対応する配列対は、ＨＰＣゲノムと導入遺伝子との間の境界を包含するＨＰＣゲノム内の領域を示すゲノム配列を含む。

クラス２およびクラス４に対応するペアエンド配列をＨＰＣゲノムに対して整列させることによってＴＩＲを特定する（１２３）。説明を明瞭にするため、図１（ｃ）はクラス２配列をＨＰＣゲノムに対して整列させるという前者の場合のみを示すが、挿入された導入遺伝子の反対側でクラス４配列をＨＰＣゲノムと整列させるとすれば、鏡像関係を想像することができる。読み取りデータをＨＰＣゲノムに対して整列させることで、ＨＰＣゲノム内の導入遺伝子挿入領域に約１０００ヌクレオチド（１ｋｂ）の窓が生じる。約１０００ヌクレオチドの窓は、ＤＮＡライブラリの平均挿入サイズによって決定されるので、具体的な必要性に合わせて調整することができる。つまり、上述の、および図１（ｃ）に記載した整列（１２３）により、約１ｋｂ以内の精度で導入遺伝子挿入の領域を突き止めることが可能となる。ＴＩＲの位置に関するこの予測の統計的堅牢性を強化するため、決定されたＴＩＲを２ｋｂの窓（１ｋｂ領域の中央から出発し、この１ｋｂ領域の両側を各５００ｂｐ伸長）に伸長する（１２４）。次に、ランダムに選択されたサブクローン（ＲＳＣ）（残りのサブクローン（ＳＣ）と比較してより高い配列包括度で配列決定された）中の特定されたＴＩＲを、その配列包括度および読み取り数に関して分析し、１つ以上の参照導入遺伝子挿入領域（ＲＴＩＲ）を得る（１２５）。特に、ＲＴＩＲは、ＨＰＣゲノムの所与の位置にマッピングする配列読み取りの総数に基づいて選択される。他と比べてより高い配列包括度で示されるＴＩＲをＲＴＩＲとして指定する。ＲＴＩＲの指定に関するさらなる要件は、所与のＴＩＲを示すそれぞれの配列読み取り間の低重複度である。配列読み取りが低重複度を有するＴＩＲ（例えば、図１（ｃ）のＴＩＲ_２、ＴＩＲ_５、ＴＩＲ_６、およびＴＩＲ_８（１２６））は、読み取り数の重複が大きいことを特徴とする配列（例えば、図１（ｃ）のＴＩＲ_１、ＴＩＲ_７、およびＴＩＲ_１０（１２６））よりも、ＨＰＣゲノム内の信用できる挿入領域を示す可能性が高い。これは、厳密な重複度合が高いことを特徴とする推定ＴＩＲが増幅プロセス時にＰＣＲによるアーチファクト（人工的な結果）を示す可能性があるからである。次いで、ランダムに選択されたサブクローン（ＲＳＣ）中で得られたＲＴＩＲを用いて、上に示したプロセスと同様に決定された、１つ以上のサブクローン（ＳＣ）中の対応する比較導入遺伝子挿入領域（ＣＴＩＲ）と比較する（１２７）。所与のＳＣゲノム中のＣＴＩＲは、例えば、二色コードの存在／不在マトリックスにおけるＲＳＣ中の対応するＲＴＩＲと比較することができる（１２８）。

そのようなマトリックスにおいて、１つの色（例えば、（１２８）では黒）は、それぞれのＳＣ中のＣＴＩＲがＲＳＣ中の対応するＲＴＩＲと一致していることを示す。反対に、もう一つの色（例えば、（１２８）では白）は、それぞれのＳＣ中のＣＴＩＲがＲＳＣ中の対応するＲＴＩＲと一致していないことを示す。例示的な存在／不在マトリックス（１２８）において、ＳＣ_２、ＳＣ_３、およびＳＣ_５中の全ＣＴＩＲがＲＳＣ中のＲＴＩＲの各々と一致していることは、ＳＣ_２、ＳＣ_３、およびＳＣ_５がそれぞれ、遺伝子構造の点で互いに同一であること、および導入遺伝子挿入の位置に関してＲＴＩＲと同一であることを示唆する。対照的に、ＳＣ_１およびＳＣ_４に対応する列中に白い四角が存在していることは、ＲＳＣ中の特定のＲＴＩＲがこれらのＳＣ中に存在しないことを示す。ＳＣ_１およびＳＣ_４は互いに同一でない、または導入遺伝子挿入の位置に関してＲＳＣと同一でない。

ＳＣの各々およびＲＳＣは同じ（モノクローナルと推定される）ＭＣＢの独立した増殖から生じたため、基本的に、所与のＳＣ中の任意の１つのＣＴＩＲの、ＲＳＣ中の対応するＲＴＩＲからの逸脱（すなわち、存在／不在マトリックス（１２８）における任意の場所の白い四角）は、統計的な限界希釈に基づいてモノクローナルであると元々想定したＭＣＢが実際はモノクローナルではなく、同じウェル中に複数の遺伝的に別個な細胞を含んでいた可能性があるということを示している。または、配列包括度があまりにも小さく、挿入部位がＳＣ中に存在したが、得られた場所での配列読み取りがなされなかったため技術的に見落とされた。あるいは、元々のクローン細胞株が、一部の細胞は特定の挿入部位を喪失したが、他の細胞は元々の導入遺伝子挿入部位を維持していたという仕方で、遺伝的に変化した（これは、ＭＣＢが不安定で、ポリクローナルになったことを示している）。反対に、各評価されたＳＣ中の各および全てのＣＴＩＲとＲＳＣ中の対応するＲＴＩＲとの一致（すなわち、存在／不在マトリックス（１２８）における全ての黒い四角）は、ＭＣＢがモノクローナルであるとする元々の想定が正しく、実際、統計的な限界希釈後の最初のウェル中に細胞が１つしかなかったことを示している。従って、存在／不在マトリックス（１２８）をクローン性の定性的指標と見なすことができる。さらに、ＲＳＣと１つ以上のＳＣとの間のクローン性は、例えば、評価されたＳＣの各々に関するＤｉｃｅ係数を計算することで、定量的に評価することができる。Ｄｉｃｅ係数は、ＲＳＣとそれぞれのＳＣとの間の類似度を、ＲＳＣ中のＲＴＩＲと所与のＳＣ中の対応するＣＴＩＲとの間の一致度に基づいて表したものである。このように存在／不在マトリックス（１２８）から得られた結果を、さらに距離行列（１３０）に示すことができる。それぞれのＳＣのＲＳＣに対する距離は、二次元距離行列（１３０）中に０〜１の尺度に沿った点として示すことができ、０は評価された全ＴＩＲに関する完全なクローン同一性を示し、１は評価された全ＴＩＲに関する完全なクローン非類似性を示す。互いに重なる点はいわゆる「集団」を形成し、これはＲＳＣゲノムからの距離が等しい、従って、ＲＳＣゲノムと遺伝的に一致していることを示すそれぞれのＳＣゲノムの群である。これは、例えば、（１３０）におけるＳＣ_２、ＳＣ_３、およびＳＣ_５の場合である。１つ以上のそれぞれのＳＣゲノムは、Ｄｉｃｅ係数に基づいて計算された互いの距離が０である場合（すなわち、データ点が重なっている限り）、ＲＳＣゲノムと比較して同じ集団に属していると見なされる。２つのそれぞれのクローン間のＤｉｃｅ係数が「０」であることは、当該の２つのクローンがゲノム同一性を共有する、すなわち、それらの導入遺伝子挿入領域が一致することを意味する。ＲＳＣと１つ以上のＳＣの各々が同じ集団に分類される場合、クローン性が決定されなければならないＭＣＢはモノクローナルと見なされる。

上に述べたことは、存在／不在マトリックス中の全遺伝子座が、ＲＳＣおよび全ＳＣのものを含め、同色である場合、単クローン性と結論付けることができるということを意味する。存在／不在マトリックスの結果がＤｉｃｅ係数によって数値で表される場合、上に述べたことは、ＳＣに対応する全データ点が単一の点で重なっている場合に単クローン性と結論付けることができ、単一の点が、Ｄｉｃｅ係数が０に等しいことに対応していることを意味する。

確度は、比較され、一致していることが見出されるＴＩＲの数とともに増す。最終的に、ＲＳＣとＳＣの全ゲノムが完全に配列決定される場合、これにより、所与のＳＣがＲＳＣと同一であるという１００％の確実性が得られる。分析されるＳＣの数が多いほど、ＭＣＢがモノクローナルであるかどうかを決定する可能性が高くなる。理想的な場合、数百または数千ものクローンをそのような方法で分析する。

図２は、所与のＤＮＡライブラリのＤＮＡ分子を不死化し、「架橋」増幅して集団を生成し、配列決定してそれぞれのＤＮＡ分子の数百万のコピーを得る例示的なフローセル（２００）の概略図を例示する。フローセルは８つのレーンに分かれており（２０１）、各レーン（２０２）は、ＤＮＡ分子がアダプターハイブリダイズを介して結合される５０のタイル（２０３）を備える。次いで、ＤＮＡ分子を増幅して単一のＤＮＡ分子の数千のコピーを生成する（「集団」（２０４））。これらの集団の各々に対し、配列決定中に「ｘ」および「ｙ」座標を割り当て、フローセル（２００）のタイル（２０３）内の所与の集団（２０４）またはＤＮＡ分子の厳密な位置を正確に特定する。次世代配列決定（ＮＧＳ）中に生データを生成する。次いで、この生データをＦａｓｔＱファイルに変換する。ＦａｓｔＱファイルは、ＤＮＡ分子の生物学的配列およびそれに対応する品質スコアをテキストベースの形式で保管する。ＦａｓｔＱファイルは、さらに、配列決定に使用する固有の機器名、フローセルのレーン、フローセル内のタイル番号、ならびにタイル（２０３）内の所与のＤＮＡ分子に対応するＤＮＡ集団（２０４）の「ｘ」座標（２０５）および「ｙ」座標（２０６）に関する情報を含む配列識別子を含む。配列識別子は、さらに、所与のペアエンド配列決定読み取りの要素に関する情報を含む（すなわち、所与の配列を「読み取り１」または「読み取り２」のいずれかとして特定する）。従って、この配列識別子に基づいて、フローセル（２００）内のＤＮＡ集団またはＤＮＡ分子の位置または固定された位置を厳密に特定することができる。より重要なことに、配列決定されたＤＮＡ分子に関して生成されたＦａｓｔＱファイルに保管された配列識別子の情報に基づいて、ペアエンド配列決定工程で生成された対応する読み取りデータ対（すなわち、読み取り１および読み取り２）を特定することができる。

図３は、クラス２読み取りデータ（３０２）をＨＰＣゲノム（３００）に対して、またクラス３読み取りデータ（３０３）を導入遺伝子（３０１）に対して整列させることによる、導入遺伝子挿入領域（ＴＩＲ）の特定を例示する。図３の導入遺伝子（３０１）の反対側にクラス１およびクラス４読み取りデータを描くことも同様に可能だが、図１に関する説明と同様、これらは、説明を簡潔にするために省略した。整列された読み取りデータは、ＨＰＣゲノム（３００）内の約１０００ヌクレオチド（１ｋｂ）（３０４）の領域に及び、これは導入遺伝子挿入の推定領域を規定する。統計的堅牢性を増し、ＴＩＲの位置に関する予測をより信用できるものとするため、導入遺伝子挿入の推定領域を２ｋｂの窓（３０６）（１ｋｂ領域（３０４）の中央から出発し、両側の領域を各５００ｂｐ（灰色の四角（３０５））伸長）に伸長する。１ｋｂ挿入領域の中央は、最も高い配列包括度を有するＨＰＣゲノム中のヌクレオチドとして規定される（ガウス分布（３０７）を参照のこと）。導入遺伝子の２ｋｂ挿入領域を考慮することで、１つ以上のサブクローンの配列整列におけるばらつきがわずかにあったとしても、異なるサブクローン間のＴＩＲの比較の信頼性をより高くすることができるので、ＨＰＣゲノム中のＴＩＲの予測がはるかに信用できるものとなる。さらに、ペアエンド配列決定対の読み取り１または読み取り２に対応する配列が通常２００〜５００ｂｐにしか及ばないので、クラス２（３０２）およびクラス３（３０３）配列のＨＰＣゲノム（３００）に対する整列は、ＨＰＣゲノム中の導入遺伝子挿入領域の厳密な位置を示さない。しかしながら、配列決定されることになる鋳型は、８００ｂｐ以上の長さになる可能性がある（ＤＮＡライブラリの平均挿入サイズによって決定される）。この差は３００〜６００ｂｐの差に至り、この差の中に実際の導入遺伝子挿入部位が位置する可能性がある。従って、予測された導入遺伝子挿入領域を、１ｋｂ領域の両側の５００ｂｐの追加の領域だけ拡張することで、実際の導入遺伝子挿入部位が位置し得る、配列中の考え得る差が考慮されることになるので、予測されたＴＩＲの信用性が増す。

図４は、ＲＳＣゲノム（４００）中の参照導入遺伝子挿入領域（ＲＴＩＲ）の決定に関する概念図を例示する。ＲＳＣ中の特定されたＴＩＲをその配列包括度および読み取り数に関して分析し、１つ以上のＳＣ中のＴＩＲを比較するための参照として使用され得る信用できるＴＩＲを得る。ＲＳＣをより高い配列包括度で配列決定し、ＲＳＣゲノム（４００）中の導入遺伝子挿入領域に関するより信頼性の高い予測を可能にする。特に、より高い配列包括度により、ＰＣＲによるアーチファクトに起因するＲＳＣゲノム中の誤ったＴＩＲの特定が回避される。ＲＴＩＲは、配列読み取りの総数および配列読み取りの少ない重複に基づいて選択される。この理由は、ＰＣＲによるアーチファクトが厳密に同じ配列である複数のコピーを生成する傾向がある一方で、単一の位置に集中する多くの部分的に重複する配列は、ライブラリ調製中の宿主ゲノムのランダムな断片化のみを原因とし得るためである。前者は（Ｒ）ＴＩＲの位置を正確に予測するものではないとして排除すべきだが、後者は含めるべきである。

このことを例示するため、図４は、ＲＳＣゲノム中に位置する１０の異なる導入遺伝子挿入領域（ＴＩＲ_１〜ＴＩＲ_１０）を示す。ＴＩＲ_７は、１０のＴＩＲ全てのうちで最も高い配列包括度を有する（すなわち、重複する読み取りの数が最も多い）が、ＴＩＲ_７における読み取りは同一なので、信用できるＴＩＲを示す可能性はあまりない。同じことが、ＴＩＲ_１、ＴＩＲ_１０、およびＴＩＲ_３（この３つのＴＩＲの各々における重複する読み取りの数はＴＩＲ_７における数より少ないにもかかわらず）に当てはまる。上で説明したように、そのような「積み重ね」配列は、ライブラリ調製またはＰＣＲ増幅中に導入され得る、配列決定の「アーチファクト」に起因する、例えば、配列の偏りに起因する可能性が高いが、１つ以上のＳＣをＲＳＣと比較するための参照として適する信頼性の高い導入遺伝子挿入領域を示さない。従って、上述の要件に基づいて、５つの最良の挿入領域は、信頼性の高い順に、ＴＩＲ_２（例えば、ＲＴＩＲ_２）続いてＲＴＩＲ_５、ＲＴＩＲ_８、ＲＴＩＲ_６、およびＲＴＩＲ_４となる。これらの５つのＴＩＲの各々は、部分的な配列重複を示し、１つの位置での部分的に重複する読み取りの数が多いほど信頼性が高いことを示す。

図５は、例示的な２５のサブクローン、ＭＣＢ、および分岐(divergent)ＭＣＢ_Δ（ＭＣＢ_Δは、ＭＣＢと異なる遺伝子挿入から生じる）間の導入遺伝子挿入領域（ＴＩＲ）を比較することによって得られ、上述の存在／不在マトリックスにおいて示された（例えば、実施例５の）結果を例示する。存在／不在マトリックスの「ｙ」軸はサブクローン番号２５（ＳＣ_２５）のゲノム中の２０のＲＴＩＲ（例えば、上述のように、最も高い配列包括度を有する２０のＲＴＩＲ）の位置を示す。例示的な図において、ＳＣ_２５は、フローセルの３つのレーンで配列決定されて、他の関連するライブラリ（すなわち、それぞれフローセルの１つのレーンで配列決定される、ＭＣＢ、ＭＣＢ_Δ、およびＳＣ_１〜ＳＣ_２４のライブラリ）と比較してより高い配列包括度を得る（表１；第２列を参照のこと）。従って、ＳＣ_２５に関して得られた結果における、このより高い配列包括度および対応するより高い堅牢性によって、ＳＣ_２５をＲＳＣとして指定することが正当化される。従って、２０のＲＴＩＲの位置は、ＳＣ_２５ライブラリにおける、他の配列決定されたライブラリの配列包括度と比較してより高い配列包括度に基づいて決定される。

「ｘ」軸は、試験された２５のサブクローンの各々、ＭＣＢ、およびＭＣＢ_Δを示す。二色コードによって示されるように、ＳＣ_２５中の特定された２０のＲＴＩＲはいずれもＭＣＢ_Δ中に存在していないが、ＭＣＢおよび試験されたサブクローンの大部分（すなわち、ＳＣ_１〜ＳＣ_３およびＳＣ_５〜ＳＣ_２３）はＳＣ_２５、つまりＲＳＣと２０のＲＴＩＲを共有する（ＭＣＢ_Δを示す右端のレーン中の「白い」帯を参照のこと）。この結果により、ＭＣＢ_Δが、ＨＰＣゲノム中の異なる位置で導入遺伝子の挿入を生じる、ＭＣＢをもたらすものと異なるランダムな形質移入の結果であることが確認される。さらに、例示的なデータは、ＭＣＢおよび２５のサブクローンの大部分が特定された全ＲＴＩＲを共有する（ＳＣ_４とＳＣ_２４は除く）ことを示し、これは、これらのＳＣが単一のモノクローナルな細胞（ＭＣＢ）を起源としたことを示す。しかしながら、ＳＣ_４およびＳＣ_２４は、そのそれぞれのゲノム中、ＲＴＩＲを１つ欠いているように見える。ＳＣ_４は、見かけ上、ＲＴＩＲ_１８を欠いており、ＳＣ_２４は、見かけ上、ＲＴＩＲ_１を欠いている。

このように、ほとんど全てのＲＴＩＲが所与のＳＣ中に存在するような場合、当該ＳＣは実際にはＴＩＲがＲＳＣと同一であり、ＳＣ中の単一のＴＩＲの、それに対応するＲＳＣ中のＲＴＩＲからの逸脱は配列決定のアーチファクトに起因している可能性が高い。従って、この可能性を排除し、所与のＳＣが対応するＲＳＣと同一であるかどうかを明確に決定するために、当該の異常なＴＩＲをさらに分析することは有用であり得る。これは、例えば、サンガー法によって行うことができる。そのようなさらなる配列決定分析により、ＳＣ中のＴＩＲの、対応するＲＳＣ中のＲＴＩＲからの観察された逸脱が異常なものであり、ＳＣは実際にはこの位置でＲＳＣと同一であるということが示される場合、ＳＣ中のＴＩＲの見かけ上の不在は低い配列包括度から生じるもので、それぞれのＳＣ中のそれぞれのＴＩＲが本当に存在していないわけではないと合理的に結論付けることができる。そのような場合、例えば、ＳＣ_４中のＲＴＩＲ_１８およびＳＣ_２４中のＲＴＩＲ_１の存在を確認することができ、これは、試験された全サブクローンが、クローン性が決定されることになるＭＣＢと同じ（Ｒ）ＴＩＲを共有することを示す。そのような場合、限界希釈に基づいた、ＭＣＢはモノクローナルであるという最初の想定が正しく、ＭＣＢは実際にモノクローナルであると結論付けることができる。ＭＣＢに由来する全ＳＣ中のＴＩＲプロファイルがＲＳＣ中のＲＴＩＲプロファイルと同一である場合、所与のＭＣＢの単クローン性は、存在／不在マトリックスに基づいて結論付けることができる。

図６は、ＭＣＢ、ＳＣ_１〜ＳＣ_２５の各々、および分岐ＭＣＢ_Δ中のＲＴＩＲ／ＴＩＲ間の一致を空間的に示す距離行列を示す。描かれる距離は、本明細書および図６において示される式（Ｉ）に従ったそれぞれのＤｉｃｅ係数の計算に基づく。計算された距離行列から理解されるように、全サブクローンは、ＳＣ_４およびＳＣ_２４を除いて、クローン性が決定されることになるＭＣＢに関して同じ集団に分類される。ＳＣ_４およびＳＣ_２４は、ＳＣ_２４中のＲＴＩＲ_１およびＳＣ_４中のＲＴＩＲ_１８を見かけ上欠いているため、この集団とわずかに違っている。しかしながら、上で図５に関して説明したように、違ったＴＩＲのさらなる分析を他の方法（例えば、サンガー法）によって実施して、見かけ上不在のＴＩＲが実際には存在しているかどうかを決定することができる。この場合、それに応じて、存在／不在マトリックス（図５）および対応する距離行列（図６）を訂正してもよい。試験されたサブクローンに関して式（Ｉ）に従って計算された距離が「０」の場合、所与のＭＣＢの単クローン性を距離行列に基づいて結論付けることができる。予想されるように、遺伝的に別個なＭＣＢ_Δの計算された距離は「１」であり、これは、このクローンが独立に形質移入された細胞に由来したことを示している。定義クローン性

本明細書で使用する場合、用語「クローン性」は、当該細胞の、特に、参照遺伝子構成との類似性または非類似性に関する、遺伝子構成を意味する。例えば、「クローン」は、共通の前駆体を共有する、すなわち、単一細胞に由来しているために同一のゲノムを有する、遺伝的に同一な細胞の群を指す。用語「モノクローナル（単クローン性）」は、本明細書で使用する場合、単一の遺伝的に同一な前駆細胞に由来する遺伝的に同一な細胞の群を意味する。モノクローナルな細胞は、単一の前駆細胞から反復される細胞複製によって産生される細胞の群と定義されるため、類似した遺伝子発現プロファイルおよび増殖特性を有する単一の「クローン」を形成することができる。特に、用語「モノクローナル」は、本明細書で使用する場合、導入遺伝子挿入の同一なゲノム位置を共有する細胞またはクローンの群を指す。用語「ポリクローナル（多クローン性）」は、本明細書で使用する場合、２個以上の前駆細胞に由来する、互いに遺伝的に別個な細胞の群を指す。ポリクローナルな細胞は、異なる遺伝子発現プロファイルおよび／または増殖特性を有する、遺伝的起源が異なる２個以上の細胞の混合物を含む。特に、用語「ポリクローナル」は、本明細書で使用する場合、導入遺伝子挿入のゲノム位置が異なる多数の細胞またはクローンを指す。
万能細胞バンク（ＭＣＢ）

用語「万能細胞バンク」（ＭＣＢ）は、本明細書で使用する場合、規定の条件で選択された細胞クローンから調製され、複数の容器に分注され、規定の条件で保管される、細胞のプールの分割量を指す。ＭＣＢは、目的遺伝子を通常含む組換え核酸配列（または導入遺伝子）をゲノム中に組み入れた、形質移入された宿主前駆細胞に由来する（すなわち、次いで、組換え核酸配列がＭＣＢ中に含まれる）。次いで、確実に形質移入された細胞を選択条件下で培養し、細胞間で異なるゲノム位置ではあるが、目的の導入遺伝子をゲノム中に組み入れたポリクローナルな細胞のプールを得る。次いで、この細胞のプールを、導入遺伝子発現の最良の候補を求めて、一連の限界希釈（すなわち、意図された分割量容積あたり１個未満の細胞を生じる希釈）による試験を、タンパク質発現と増殖プロファイルとの分析を組み合わせて実施する。次いで、最良の候補をさらに希釈して、後にＭＣＢの起源となる１個の単一細胞を統計的に産生する。次いで、これらのＭＣＢ候補（前ＭＣＢ）を、タンパク質発現、ならびに、細胞形態、タンパク質発現レベル、発現の安定性、増殖速度、および生成物品質を含む様々な具体的特性に関してさらに試験する。さらに、ＭＣＢを、内因性の物質、例えば、レトロウイルス、真菌またはマイコプラズマによる汚染に関して試験すべきである。従って、保存された特性を有する確立されたＭＣＢは、既定の条件で保管され、例えば、組換えタンパク質発現のための産生細胞株として使用することができる、「細胞予備」を示す。
宿主前駆細胞

用語「宿主前駆細胞」（ＨＰＣ）は、本明細書で使用する場合、導入遺伝子とも称される組換え核酸配列の組み入れ、例えば、ゲノム組み入れのための宿主として機能する細胞を指す。組換え核酸配列は、通常、例えば、治療に関連するタンパク質をコードする目的遺伝子（ＧＯＩ）を含む。一部の例において、組換え核酸配列は、治療用ＤＮＡまたはＲＮＡ、例えば、ＤＮＡアプタマーまたはｓｉＲＮＡも含んでよい。組換え核酸配列は、既知の形質移入方法によってＨＰＣゲノムに導入し、安定的に組み込むことができる。ＨＰＣは一般に哺乳動物起源であり、例えば、チャイニーズハムスター卵巣（ＣＨＯ）細胞、マウス骨髄腫（ＮＳ０、ＳＰ２／０）、ベビーハムスター腎細胞（ＢＨＫ）、ヒト胎児腎細胞（ＨＥＫ−２９３）、およびヒト網膜細胞を含むが、これらに限定されない。
安定な遺伝子組み込み

用語「安定な遺伝子組み込み」または文法的に関連する用語、例えば、「安定的に組み込まれた」などは、ＧＯＩを含む所与の導入遺伝子をＨＰＣゲノムへ組み入れ、その結果、ＧＯＩを含む導入遺伝子が、細胞増殖サイクル中、宿主細胞ゲノム中に維持され、宿主ゲノムとともに複製されて、子孫細胞に現れることを指す。従って、安定な遺伝子組み込みを受けた細胞株は、ＧＯＩを含む導入遺伝子をそのゲノム中に組み入れており、その娘細胞も、ＧＯＩを含む導入遺伝子を各複製された娘細胞中に含むことになる。

安定な形質移入を行う際は、例えば、導入遺伝子にも含まれる選択可能なマーカーを用いて一過性形質移入と安定形質移入とを区別することが有利である。マーカーと所与のＧＯＩとの同時発現は、所与の組換え核酸配列がゲノムに組み込まれた細胞を特定・選択することに役立つ一方で、一過性形質移入された細胞、すなわち、マーカーおよびＧＯＩを有する所与の組換え核酸配列をゲノムに組み入れていない細胞を選択しないことにも役立つ。例えば、一般的な選択方法は、ＧＯＩと抗生物質耐性を付与する遺伝子（例えば、ネオマイシン耐性遺伝子、ｎｅｏ）とをコードする導入遺伝子の形質移入である。次いで、一過性形質移入された細胞を、選択に適した抗生物質（例えば、新しく形質移入された細胞に適したゲネチシンまたはＧ４１８）で処理する。ＧＯＩと抗生物質耐性を付与する遺伝子とを含む組換え核酸配列を安定的に組み込んだ細胞のみが長期培養で生存し、導入遺伝子を安定的に組み込んだ所望の細胞の選択および増殖を可能にする。
レトロウイルス形質移入

レトロウイルスは、二本鎖ＤＮＡ中間体を介して宿主細胞のゲノムに安定的に組み込む一本鎖ＲＮＡウイルスである。従って、マウス白血病ウイルス由来ベクターなどのレトロウイルスベクター系を、組換え核酸配列を宿主前駆細胞（ＨＰＣ）ゲノムに安定的に組み込む効率的な手段として用いることができ、これは、本明細書で使用する場合、「レトロウイルス形質移入」の意味である。レトロウイルスベクターは、組換え核酸配列を収容し、これのＨＰＣゲノムへの組み入れを可能にするプロウイルス配列を含むことができる。このベクターは、強いＣＭＶプロモーターなどのウイルスおよび細胞遺伝子プロモーターも含み、ＧＯＩを含む導入遺伝子の宿主前駆細胞中での発現を高めることができる。ウイルス媒介性形質移入により、ランダムまたはほぼランダムな挿入、例えば、組換え核酸配列のＨＰＣゲノム中の転写活性のある部位での好ましい挿入が、ＨＰＣゲノム中の複数の部位で生じる。
組換え核酸配列

用語「組換え核酸配列」は、本明細書で使用する場合、遺伝的に操作された核酸分子、例えば、実験室的方法（例えば、分子クローニング）によって生成される、遺伝的に操作されたＤＮＡ分子を指す。これは、導入遺伝子とも称される。組換え核酸配列は、通常、ＭＣＢ中での最終的な発現が意図された目的遺伝子（ＧＯＩ）を含む。これは、安定的に形質移入された細胞を特定するのに有用もしくは必要とされる追加の核酸配列（例えば、抗生物質耐性マーカーなど）および／またはＭＣＢ中でのＧＯＩの発現を容易にするのに有用もしくは必要とされる追加の核酸配列をさらに含むことができる。組換え核酸配列は、異なる生物学的供給源（例えば、細胞または生物）由来の遺伝子材料（例えば、ＤＮＡ断片）を含み、これによって、そうでなければ天然に存在しない、宿主前駆細胞のゲノムに導入され得る組換え配列を創製することができる。あるいは、組換え核酸配列は、単一の生物学的供給源（例えば、単一細胞または生物）由来の遺伝子材料（例えば、ＤＮＡ断片）を、その生物学的供給源中に存在するのと同じまたは類似の形態だが、当業者に公知の組換え実験技術によって操作および／または単離された形態で、含むことができる。組換え核酸配列は、ＭＣＢ中での最終的な発現が意図されたＧＯＩを含む。ＧＯＩ以外のさらなる配列が組換え核酸配列に含まれていない場合、用語「組換え核酸配列」および「ＧＯＩ」は同一となる。この場合、組換え核酸配列または導入遺伝子は、ＧＯＩからなる。本発明は、用語「組換え核酸配列」の上記変形の全てを想定する。
目的遺伝子

用語「目的遺伝子」または「ＧＯＩ」は、本明細書で使用する場合、組換えタンパク質の少なくとも一部をコードする核酸配列、例えば、ＤＮＡ配列を指す。ＧＯＩは、組換え核酸配列に含まれる。組換えタンパク質をコードするＧＯＩは、生物または細胞のゲノムから直接取得してもよい。あるいは、ＧＯＩは、ゲノムの複数のエクソンを、目的のタンパク質をコードする単一の連続した核酸配列にスプライシングすることから生じる翻訳領域（オープンリーディングフレーム）に由来してもよい、またはそれと同一であってもよい、すなわち、ＧＯＩは、組換えタンパク質をコードするｍＲＮＡに相補的なＤＮＡ（すなわち、ｃＤＮＡ）と同等であってもよい。ＧＯＩは、適切な生物学的供給源から完全な形態で単離してもよい、または化学的に合成してもよい。ＧＯＩは、転写後修飾、例えば、修飾ヌクレオシドおよび／または修飾ヌクレオチドをさらに含んでもよい。次いで、導入遺伝子の一部としてのＧＯＩは、宿主前駆細胞のゲノムに導入され得る。ＧＯＩは、導入遺伝子中に単独で存在してもよく、その場合、導入遺伝子およびＧＯＩは同一の範囲に及んでいる。
組換えタンパク質および組換えタンパク質発現

用語「組換えタンパク質発現」は、本明細書で使用する場合、所与の組換え核酸配列によってコードされる宿主細胞中でのタンパク質の発現を指す。ほとんどの場合、タンパク質は導入遺伝子に含まれるＧＯＩから発現される、すなわち、組換えタンパク質はＧＯＩによって発現される。しかしながら、組換えタンパク質が導入遺伝子内のＧＯＩと他の配列との組合せから発現される場合のあることは排除されない。

本明細書で使用する場合、用語「組換えタンパク質」は、組換え核酸配列から発現されるタンパク質を指す。多くの場合、組換えタンパク質は治療的価値を有するタンパク質であり、組換え核酸配列は宿主前駆細胞のゲノムに安定的に組み込まれて、このタンパク質の産生に使用されることになるＭＣＢを生じる。上で説明したように、タンパク質は、例えば、遺伝子配列の制御された操作および／または単離をin vitroで行うための既知の実験室的方法を用いて、そうでなければ天然には存在しない形態の、異なる生物学的供給源または生物に由来する複数の核酸配列を組み合わせることから生じる核酸配列によってコードされるおよび／またはそこから発現されるため、「組換え」と見なしてもよい。あるいは、タンパク質は、すでに天然に存在しているが、遺伝子配列の制御された操作および／または単離をin vitroで行うための既知の実験室的方法を用いて操作および／または単離された、組換え核酸配列によってコードされるおよび／またはそこから発現されるため、「組換え」と見なしてもよい。組換えタンパク質は、組換え核酸配列に含まれるＧＯＩを、組換え核酸配列に含まれる他の配列とともに含む組換え核酸配列によってコードおよび／またはそこから発現されてもよい。あるいは、組換えタンパク質は、組換え核酸配列にＧＯＩ以外の配列が存在しているにもかかわらず、組換え核酸配列に含まれるＧＯＩのみによってコードおよび／またはそこから発現されてもよい。あるいは、組換えタンパク質は、組換え核酸配列がＧＯＩ以外の配列を含んでいない場合、組換え核酸配列に含まれるＧＯＩのみによってコードおよび／またはそこから発現されてもよい。この後者の場合、組換えタンパク質は、「導入遺伝子」または「ＧＯＩ」のいずれかによってコードされるおよび／またはそこから発現される組換えタンパク質を指すことができ、これら２つのものは、組換え核酸配列中に他の非ＧＯＩが存在しない場合、同一である。
プロモーター

本明細書で使用する場合、用語「プロモーター」は、転写因子およびＲＮＡポリメラーゼによって認識されてｍＲＮＡの転写を開始する、ＤＮＡ中の配列特異的な部位を指す。
ビリオン

用語「ビリオン」は、本明細書で使用する場合、タンパク質エンベロープによって囲まれてウイルスの感染形態を構成する、ＲＮＡまたはＤＮＡからなる完全なウイルス粒子を指す。
配列整列（マッピング）

本明細書で使用する場合、用語「配列整列」または「配列マッピング」は、ＤＮＡまたはＲＮＡの配列を互いに対して揃え、類似性を有する領域を特定する方法を指す。そのような配列は、配列間の機能的、構造的、または進化的な関係の結果の可能性がある。本発明の文脈では、特に、整列を用いて、細胞の起源および細胞内に含まれている核酸を、例えば、そのような細胞は共通の細胞前駆体から生じるのかまたは異なる細胞前駆体から生じるのか、ということを解明するかもしれない。整列されたヌクレオチドの配列は、典型的には、マトリックス中に行として示される。用語「整列」および「マッピング」は、本明細書で使用する場合、同じ意味を有するので、言い換え可能である。配列整列のためのよく知られているアルゴリズムは、例えば、Ｎｅｅｄｌｅｍａｎ−Ｗｕｎｓｃｈアルゴリズム、Ｓｍｉｔｈ-Ｗａｔｅｒｍａｎアルゴリズム、もしくはＷａｔｅｒｍａｎ−Ｅｇｇｅｒｔアルゴリズム、またはＢｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒ変換である。配列整列のためのよく知られている手段は、例えば、ＢＬＡＳＴ、ＢＬＡＴ、ＷＭＢＯＳＳ、Ｃｌｕｓｔａｌ、ＢＷＡ、Ｂｏｗｔｉｅである。
サブクローン

用語「サブクローン」は、本明細書で使用する場合、万能細胞バンク（ＭＣＢ）から単一細胞として、例えば、限界希釈（すなわち、意図された分割量容積あたり２個以上の細胞を生じない希釈）の結果として単離され、続いて細胞のプールに増殖された、細胞のプールを指す。サブクローンの全細胞は、同一のゲノム構成を共有する。本発明において、サブクローンは、モノクローナルと想定される細胞のプールからなる所与のＭＣＢ培養液から増殖される。従って、ＭＣＢは、各細胞分割量が特定のサブクローンを示す、異なる細胞分割量に分けられる。次いで、増殖後、サブクローンは、例えば、タンパク質発現、クローン性分析などのために使用することができる。モノクローナルなＭＣＢを起源とするサブクローン（１個の単一細胞を起源とする細胞のプール）は、同一のゲノム特性を共有するので、各サブクローンは、同じ、すなわち、共通のＭＣＢを起源とする任意の他のサブクローンに関してモノクローナルと見なされる。ポリクローナルなＭＣＢを起源とするサブクローン（少なくとも２個の異なる細胞を起源とする細胞のプール）は、異なるゲノム特性およびタンパク質発現プロファイルを有しているので、互いに関してポリクローナルであると見なされる。
参照サブクローン（ＲＳＣ）

用語「参照サブクローン」（ＲＳＣ）は、本明細書で使用する場合、クローン性が決定されることになるＭＣＢから増殖されたサブクローンの群からランダムに選択されたサブクローンを指す。ＲＳＣは、残りのサブクローンと比較してより高い配列包括度で配列決定され、参照配列中の所与のヌクレオチドを示す、より多い平均読み取り数を得る。ＲＳＣの配列決定データを用いて１つ以上の参照導入遺伝子挿入領域（ＲＴＩＲ）を特定する。
参照導入遺伝子挿入領域（ＲＴＩＲ）

用語「参照導入遺伝子挿入領域」（ＲＴＩＲ）は、本明細書で使用する場合、参照サブクローン（ＲＳＣ）のゲノム中で特定された導入遺伝子挿入領域を指す。導入遺伝子挿入領域は、本明細書において詳細に説明されるように、他の導入遺伝子挿入領域と比較して、配列包括度が高く、読み取られた読み取り数の重複が少ない場合、ＲＴＩＲとして指定される。ＲＳＣ中のＲＴＩＲを、ＲＳＣと同じＭＣＢを起源とする１つ以上の、最も好ましくは複数の、サブクローン中の対応する導入遺伝子挿入領域と比較して、ＭＣＢのクローン性を決定する。
比較導入遺伝子挿入領域（ＣＴＩＲ）

用語「比較導入遺伝子挿入領域」（ＣＴＩＲ）は、本明細書で使用する場合、ＲＳＣと同じＭＣＢを起源とする１つ以上のサブクローン中の導入遺伝子挿入領域を指し、前記導入遺伝子挿入領域は、ＲＳＣ中のＲＴＩＲと、対応するゲノム位置で比較される。
ＤＮＡ配列決定ライブラリ

用語「ＤＮＡ配列決定ライブラリ」は、本明細書で使用する場合、特定の生物学的供給源（例えば、ＭＣＢ、ＲＳＣ、ＳＣ、またはＭＣＢ_Δ）の全ゲノムを示す前記生物学的供給源から精製されたゲノムＤＮＡ断片の試料を指す。ＤＮＡ配列決定ライブラリにおいて、ゲノムＤＮＡ断片は、ゲノムＤＮＡ断片のさらなる分析（例えば、配列決定分析）のために、プライマーおよびアダプター配列に３’および５’連結してもよい。

例えば、配列決定のためのＤＮＡライブラリの調製は、特定の生物学的供給源から精製されたＤＮＡ試料を断片化することから始めてもよい。断片化により、配列決定読み取りのための分子の入り口点が規定される。次の工程で、ＤＮＡ末端を酵素により修復して、アデニン（Ａ）をＤＮＡ断片の３’末端に付加してもよい。次いで、末端が（Ａ）のＤＮＡ断片を鋳型として増幅し、二本鎖の、部分的に相補的なアダプターをＤＮＡ断片に連結してもよい。次いで、ＤＮＡライブラリをサイズ選択し増幅して、配列読み取りの品質を改善してもよい。増幅反応により、特異的なＰＣＲプライマーが、フローセルでの配列決定に必要とされるアダプター配列に導入される。
単一細胞配列決定

単一細胞ＤＮＡゲノム配列決定は、単一細胞の単離、続く全ゲノム増幅、およびその後の次世代シーケンサーを用いたＤＮＡ配列決定に関わる。単一細胞配列決定は、個々の細胞の配列情報を調べる。
次世代配列決定

当業者であれば理解するように、核酸配列決定は、所与の核酸分子中のヌクレオチドの厳密な順番を決定する方法である。用語「次世代配列決定」（ＮＧＳ）は、本明細書で使用する場合、多くの核酸を並列して同時に配列決定することを可能にする、任意の配列決定プラットフォームまたは配列決定技術を指す。これにより、単一の試料に由来する多くの、例えば数百万の、ＤＮＡの断片を並列して配列決定することが可能になる。従って、ＮＧＳ技術により、最大１ヌクレオチドの分解物を配列決定することが可能になり、全ゲノムを高速に、例えば、数時間で配列決定することが可能になる。「ＮＧＳ方法」および「ＮＧＳ技術」は、本明細書で使用する場合、鋳型調製、配列決定および撮像、ならびにデータ分析を含む。

例えば、Illumina/Solexa（登録商標）法では、一本鎖ＤＮＡ断片を、単分子アレイとして知られている固体表面、またはフローセルに結合し、単分子鋳型の固相「架橋」増幅を行うことによって、ＤＮＡ増幅が達成される。このプロセスでは、単一ＤＮＡ分子の一末端を、アダプターを用いて固体表面に結合する。続いて、分子が上に曲がり、相補的なアダプターにハイブリダイズし、これによって相補的な鎖の合成のための鋳型を形成する「橋」を創製する。増幅後、フローセルは４０００万を超える集団を含んでいる可能性があり、各集団は、単一鋳型分子の１０００ものクローンな（同一な）コピーを含んでいるかもしれない。鋳型を、除去可能な蛍光部分を有する可逆的終結剤と、成長するオリゴヌクレオチド鎖にこれらの終結剤を組み入れることができる特別なＤＮＡポリメラーゼとを使用するＤＮＡ合成時解読法（以下の定義を参照のこと）を用いて、並列して配列決定する。終結剤を異なる４つの色で標識し、所与の配列位置で異なる塩基を区別し、次いで、各集団の鋳型配列を、各連続したヌクレオチド付加時に各蛍光体の読み取られた色によって決定する。この読み取りは、断片を既知のヌクレオチドで順番に洗浄しそれに浸すサイクル中に行われる。

配列決定が完了したら、配列の生データはいくつかの分析工程を受けなければならない。ＮＧＳデータの生成データ分析過程には、データを前処理してアダプター配列と低品質の読み取りデータを除去すること、データを参照ゲノムにマッピングするまたは配列読み取りデータを新たに整列させること、および編集された配列を分析することが含まれる。配列の分析には、小ヌクレオチド多型（ＳＮＰ）の検出、新規遺伝子、導入遺伝子挿入部位の検出を必要とする遺伝的変異体の評価、および／または転写発現レベルの評価などの、多様な生物情報学的評価が含まれ得る。
フローセル

用語「フローセル」は、本明細書で使用する場合、核酸集団を「架橋」増幅によって生成し、配列決定工程を実施する、複数レーンの、典型的にはガラス製の基盤を指す。レーンの各々は個々に固定可能であるので、フローセルあたり複数の別個な試料を配列決定することができる。

フローセルの各レーン内で、数百万のプライマーが、断片化されたＤＮＡライブラリの捕捉プローブとして作用する。フローセルの各レーンは、各々が特定のＤＮＡ断片を含む数百万の別個な核酸集団を産生して、大規模な配列決定データを生成することができる、すなわち、別個なＤＮＡ断片を「架橋増幅」して配列決定を百万回実施し、信頼性の高い配列決定結果を生じる。
合成時解読

本明細書で使用する場合、用語「合成時解読」は、蛍光標識されたヌクレオチドの組み入れ後、次のヌクレオチドの組み入れ前に蛍光シグナルを直接検出する、実時間法を示す。具体的には、この方法は、各々が異なる色の蛍光体で蛍光標識された４つのヌクレオチドを用いて、フローセルの核酸集団を並列して配列決定する。各配列決定サイクル中、単一標識の可逆的終結剤であるデオキシヌクレオチド三リン酸（ｄＮＴＰ）を核酸鎖に付加する。ヌクレオチド標識は重合の終結剤として機能するので、各ｄＮＴＰ組み入れ後、蛍光色素を撮像して塩基を特定し、次いで、３’終結剤ブロックを酵素により切断して次のヌクレオチドの組み入れを可能にする。４つの可逆的終結剤結合ｄＮＴＰ（Ａ、Ｃ、Ｔ、およびＧ）の全てが別々の単分子として存在するので、自然な競合により組み入れの偏りが最小化される。塩基決定を、各サイクル中、シグナル強度測定によって直接行う。最終結果は、信頼性の高い塩基決定および配列文脈に特異的なエラーの除去を可能にする、塩基ごとの配列決定である。
塩基決定は、ヌクレオチドを、読み取られた特異的蛍光体に割り当てるプロセスである。

塩基決定ファイル（．ｂｃｌ）は、各サイクル中の各タイルに関する塩基決定および品質を含むバイナリファイルである。
ペアエンド配列決定

本明細書で使用する場合、用語「ペアエンド配列決定」は、単一断片を５’末端および３’末端の両末端から配列決定し、順方向読み取り（読み取り１）および逆方向読み取り（読み取り２）を生じるプロセスを指す。配列決定された断片は、ある特定の塩基のギャップにより分離され、または重なり、統合後、連続した、より長いシングルエンド（片末端）断片を生じ得る。ペアエンド読み取りを使用することで、参照ゲノムまたは導入遺伝子にマッピングする読み取りの精度が改善する。
ＦａｓｔＱファイルおよび配列識別子

ＦａｓｔＱ形式は、１文字コードとそれに対応する品質スコアを用いて生物学的配列（例えば、ヌクレオチド配列またはペプチド配列）を保管するテキストベースの形式である（ＦａｓｔＱはWellcome Trust Sanger Instituteにより開発された）。配列文字および品質スコアの両方は、それぞれ、１文字のＡＳＣＩＩ（American Standard Code for Informion Interchange）文字でコードされる。ＦａｓｔＱファイルは、配列あたり４つの行からなる。１行目は文字「＠」で始まり、その後に配列識別子と任意選択の説明が続く。２行目は未処理配列文字を示す。３行目は文字「＋」で始まり、任意選択で同じ配列識別子（および任意の説明）が再び続く。４行目は、配列の品質値をコードし、配列中の文字と同じ数の記号を含んでいなければならない、すなわち、核酸配列中の特定のヌクレオチドを示す各文字につき、その特定のヌクレオチドの品質スコアを示す対応する文字が存在する。各配列決定読み取りの「配列識別子」は、配列決定に使用する固有の機器名、フローセルのレーン、フローセルのレーン内のタイル番号、タイル内の集団の「ｘ」座標、タイル内の集団の「ｙ」座標、多重試料の索引番号、および対の要素（／１または／２、ペアエンド読み取りの場合のみ）に関する情報を含む。この配列識別子に基づいて、読み取り１配列を、ペアエンド配列決定中に生成された対応する配列対の対応する読み取り２配列と組み合わせることができる。
読み取り数

用語「読み取り数」は、本明細書で使用する場合、それぞれの核酸分子がＮＧＳプロセス中に増幅される回数を指す。「読み取り数」は、所与の核酸ライブラリ中のそれぞれの核酸分子の豊富さに関する直接的な尺度である。
配列包括度

用語「配列包括度」は、本明細書で使用する場合、各ゲノム塩基対を包含する読み取り数を指す。
「高い」または「より高い」配列包括度

用語「高い」または「より高い」配列包括度は、本明細書で使用する場合、所与のヌクレオチドを示す平均読み取り数が、別の核酸ライブラリ中の対応するヌクレオチドを示す平均読み取り数よりも大きい核酸ライブラリを意味する。これは、本質的には、任意の所与のゲノム位置が配列決定される際の読み取りの繰り返しを表すものであり、より高いレベルの読み取りの繰り返しはより高い配列包括度と相関する（「大規模配列決定」と称されることもある）。例えば、所与の核酸ライブラリの「より高い」配列包括度は、フローセルの複数の、すなわち、多数のレーンで所与の核酸ライブラリを配列決定することによって達成することができる。配列包括度がより高いと、堅牢性もより高くなるので、より低い配列包括度を使用する場合に比べて統計的に信頼性の高い、配列決定データの分析が可能となる。
ＰＨＲＥＤ品質スコア

本明細書で使用する場合、用語「ＰＨＲＥＤ品質スコア」（Ｑ）は、塩基決定誤差率に対数的に関連する特性を指す（Ewing B and Green P (1998). Base-calling of automated sequencer traces using phred. II. Error probabilities. Genome Res. 8: 186-194.）。ＰＨＲＥＤ品質スコアは、式Ｑ＝−１０ｌｏｇ_１０Ｐに基づいて計算され、式中、Ｐは塩基決定誤差率と定義される。例えば、ＰＨＲＥＤが３０のＱスコア（Ｑ３０）を塩基に割り当てる場合、これは、不正確な塩基決定が１０００回中１回であるという確率と同等である。これは塩基精度（すなわち、正確な塩基決定の確率）が９９．９％であることを意味する。より低い塩基決定精度である９９％（Ｑ２０）は、１００回中１回という不正確な塩基決定率を有し、これは所与の配列決定読み取り中１００ｂｐごとに１つの誤差が含まれている可能性が高いことを意味する。配列決定品質がＱ３０のＰＨＲＥＤに達すると、実質的に全ての読み取りが完璧で誤差または曖昧さがないことになる。
位相化および前位相化

用語「位相化」は、本明細書で使用する場合、ヌクレオチドを、所与の集団中の小部分のＤＮＡ鎖に、所与の配列決定サイクル中のゲノム鋳型の正しいヌクレオチドの１つ後ろの位置（−１ｎｔ）で組み入れることを指す。用語「前位相化」は、本明細書で使用する場合、ヌクレオチドを、所与の集団内の小部分のＤＮＡ鎖に、所与の配列決定サイクル中のゲノム鋳型の正しいヌクレオチドの１つ前の位置（＋１）で組み入れることを指す。例えば、小部分の鎖は、現在のサイクルの相から外れ、鋳型の特定の位置の正しいヌクレオチドに対して、塩基が後方に後退（位相化）または塩基が前方に飛び越える（前位相化）ことがある。位相化および前位相化は３’終結剤および蛍光体の不完全な除去、組み入れサイクルを欠く集団中の配列、ならびに効果的な３’終結剤を有していないヌクレオチドの組み入れによって引き起こされる。
コンティグ

用語「コンティグ」は、本明細書で使用する場合、例えば、染色体を起源とする核酸配列の、配列決定された重複する断片を構築することによって創製される、ＤＮＡの連続した配列を指す。
足場

用語「足場」は、本明細書で使用する場合、正しい順番であるが、必ずしも１つの連続した配列に接続されている必要はない、一連のコンティグを指す。
集団

用語「集団」は使用される文脈に応じて異なる意味を有し得る。用語「集団」が２つ以上の配列の互いに対する遺伝的関連性または遺伝的非関連性を説明する文脈で使用される場合、本明細書で使用されるこの用語は、同一の導入遺伝子挿入部位を有する独立したサブクローンの群を指す。同じ集団に分類されるサブクローンはモノクローナルと見なされる。用語「集団」が核酸配列の物理的位置の文脈で使用される場合、本明細書で使用されるこの用語は、本明細書に記載したように、配列決定プロセス、例えばＮＧＳプロセス中にフローセルで「架橋増幅された」それぞれの核酸分子の同一のコピーの群を指す。
対応関係

用語「対応関係」は、本明細書で使用する場合、２つ以上のサブクローンの各々におけるそれぞれの導入遺伝子挿入領域の存在または不在によって決定される、前記２つ以上のサブクローン間の関係を指す。導入遺伝子挿入領域が２つ以上のサブクローン間で、または所与のサブクローンもしくはサブクローンの群とクローン性が評価されることになるＭＣＢとの間で一致している、すなわち同一である場合、これら２つ以上のサブクローンは互いに「対応する」。従って、用語「対応関係」は、「合致」、「一致」、および「同一性」と同じ意味を持つ可能性があるので、言い換え可能と理解されるべきである。
境界

境界は、導入遺伝子が挿入される宿主細胞ゲノム位置である。境界は導入遺伝子の「側面」または他の用語では挿入部位に対応する。

発明の詳細な説明

上述のように、本発明の一側面は、既知の配列の導入遺伝子を既知の配列の宿主前駆細胞（ＨＰＣ）ゲノムにランダムに挿入することによって生成される万能細胞バンク（ＭＣＢ）のクローン性を決定する方法に関する。

ＭＣＢおよびＷＣＢは、大規模な治療用タンパク質産生のための発現系として機能する。治療用タンパク質の産生のためのＭＣＢと見なされることになる発現系の必須要件は、産業規模産生に適した量での、宿主前駆細胞中での高品質なタンパク質の発現である。培養された哺乳動物細胞株は、治療用タンパク質生成物の産生においてますます重要になってきている。例えば細菌系または酵母系と比較した、哺乳動物発現系の１つの大きな利点は、適切なタンパク質フォールディング、翻訳後修飾、生成物会合をもたらす可能性であり、これらは全て、タンパク質生成物の完全な生物学的活性の重要な要件である。

過去１０年、哺乳動物細胞系に基づくバイオプロセスが、ワクチン、診断および治療用タンパク質の製造に適用されてきた。最も広く使用される宿主哺乳動物細胞系は、チャイニーズハムスター卵巣（ＣＨＯ）細胞およびＨＥＫ２９３（ヒト胎児腎）細胞である。これらの細胞は、ポリエチレンイミン（ＰＥＩ）、リン酸カルシウム、またはレトロウイルスベクターなどの多くの形質移入方法によって形質移入することができ、現在、一過性形質移入および安定な細胞株の形成の両方による組換えタンパク質の産生に広く使用されている。

大規模なタンパク質産生に適したさらなる哺乳動物細胞系としては、ＨｅＬａ、ＨＥＫ２９３Ｔ、Ｕ２ＯＳ、Ａ５４９、ＨＴ１０８０、ＣＡＤ、Ｐ１９、ＮＩＨ３Ｔ３Ｉ、Ｌ９２９、Ｎ２ａ、ヒト胎児腎２９３細胞、ＳＰ２／０、ＮＳ０が挙げられるが、これらに限定されない（例えば、Manual of industrial microbiology and biotechnology, 3^rd edition, chapter 12 “Mammalian cel culture for biopharamcutical production”, Jinyou Zhangを参照のこと）。

形質移入後、細胞株を無血清培養条件における選択の下で増殖する。形質移入された細胞は、ゲノム中の異なる位置で導入遺伝子を組み入れたポリクローナルな細胞のプールである。この不均質性は、一般に、導入遺伝子の宿主ゲノムへの、ランダムまたは部分的にランダムな挿入が原因である。次に、細胞の不均質なプールを、最も効率的にタンパク質を産生する候補を求めて、限界希釈と呼ばれるプロセスによって選別する。一般に、用語「限界希釈」は、単一工程または複数の連続工程で実施され、所与の意図された分割量容積あたり１個の細胞を生じることができる希釈を指す。例えば、溶液をマルチウェルプレート、例えば９６ウェルプレートの個々のウェルに等分化することが意図される場合、ポリクローナルな細胞株の限界希釈は、培養液を単一のウェルに対応する容積に等分化したときに、そのようなウェルの各々が（統計的に）１個だけまたはそれ以下の細胞を含むような細胞濃度を生じる。次いで、別々のウェルのそれぞれの細胞を適切な条件でさらに増殖し、候補クローンを得る。次いで、理論上１個の単一前駆細胞に由来するこれらのクローンを、増殖およびタンパク質発現プロファイルに関して試験する。次いで、最良のクローンを用いて万能細胞バンク（ＭＣＢ）を生成する。

この手法の大きな欠点の一つは、各候補クローンが実際にウェル当たり１個の単一細胞のみに由来していると想定することである。上述したように、この想定は、等分化に先立って希釈因子を決定する統計的計算に基づいている。しかしながら、この計算は統計的であるため、有望なＭＣＢが単一のウェル中の複数の細胞のうちの１個のみであり、この単一のウェルの内容物を増殖した場合、細胞の不必要に不均質な（すなわち、ポリクローナルな）混合物をもたらしたという可能性を排除することが困難である。これにより、より低い再現性、および所与のＭＣＢ内のタンパク質品質の差異が生じる可能性がある。さらに、規制当局は、通常、治療用タンパク質の産生に使用するＭＣＢは均質、すなわち、モノクローナルであることを求めているため、そのような不均質な混合物では、治療が意図されたタンパク質の産生に関する規制当局のふさわしい要件を満たすことは困難である。

従来、タンパク質生成物の高品質産生に関するＭＣＢの試験は、例えば、細胞形態、産生安定性およびタンパク質品質、ならびに遺伝子型特性などのＭＣＢ特性を、時間、労力および費用を集約して評価することによって達成される。単クローン性の決定に必要とされるそのような評価は、典型的には、６〜１２か月を必要とする。しかしながら、これらのパラメータは、当該ＭＣＢがモノクローナルである可能性が高いということを示しているに過ぎず、これらの試験は、今なお、所与のＭＣＢがモノクローナルであるということを決定的に証明することはできない。現在、保健医療当局によって受け入れられている主な方法は、二重限界希釈クローニングである。

本発明は、既知の配列の所与のＨＰＣゲノム中の固有な導入遺伝子挿入領域（ＴＩＲ）の選択を、サブクローニング、配列決定、例えば、次世代配列決定（ＮＧＳ）、および生物情報学的分析を組み合わせた新規の手法によって分析することでＭＣＢのクローン性を確認する新規の方法に関する。この新規の手法により、従来のＭＣＢの同一性試験に伴う時間および労力集約的な試みが回避されるだけでなく、当該ＭＣＢのクローン性、従って、完全な産生過程中の再現可能なタンパク質発現品質に関するＭＣＢの信頼性を結論付けることが可能になる。

一般に、本発明の方法は、推定ＭＣＢから増殖された、ランダムな、すなわち、ランダムに選択されたサブクローン（ＲＳＣ）のゲノム中の１つ以上の導入遺伝子挿入領域（ＴＩＲ）を特定することに関わる。従って、本発明の方法に先立って、ＭＣＢを１つ以上のサブクローン（ＳＣ）に増殖して、１つ以上のサブクローンを適切な条件で別々に培養する。ＤＮＡ抽出およびライブラリ調製後、１つ以上のサブクローンに由来するＤＮＡライブラリをペアエンド配列決定により分析する。（ランダムに選択された）参照サブクローン（ＲＳＣ）のＤＮＡライブラリをより高い配列包括度で配列決定する。本明細書で別途説明したように、ＲＳＣのＤＮＡライブラリにおける「より高い」配列包括度は、フローセルの複数のレーンでＲＳＣのＤＮＡライブラリを配列決定し、これによって、フローセルの１つだけのレーンで配列決定される残りのＳＣのＤＮＡライブラリにおける配列決定読み取り数と比較して多い、ＲＳＣのＤＮＡライブラリにおける配列決定読み取り数を生成することで、達成することができる。次いで、ＲＳＣに関して得られた配列決定データを用いてＲＳＣゲノム中の導入遺伝子挿入領域（ＴＩＲ）を特定する。ＴＩＲの特定は、得られた配列をＨＰＣゲノムと導入遺伝子の既知の配列とに対して別々に整列させることによって達成することができる。次いで、ＲＳＣゲノム中の特定されたＴＩＲを、その配列包括度および読み取り数のばらつきに関して分析して、最も高い配列包括度および部分的に重複する読み取り数を有する１つ以上のＴＩＲを参照ＴＩＲ（ＲＴＩＲ）として指定する。次いで、これらのＲＴＩＲを、ＭＣＢからそれとは別に生成され配列決定された１つ以上のＳＣのゲノム中に特定された、ＲＴＩＲに関して上述したのと同様の方法で生成された比較ＴＩＲ（ＣＴＩＲ）と比較する。次いで、ＲＳＣゲノム中に存在するＲＴＩＲと１つ以上のＳＣゲノム中に存在するＣＴＩＲとの対応関係に基づいて、ＭＣＢのクローン性を決定する。

一般に、複数のサブクローンを起源とするＣＴＩＲとランダムに選択された参照サブクローンを起源とするＲＴＩＲとの対応関係は、十分な数のＳＣおよびＲＴＩＲが試験されている限り、ＭＣＢが実際にモノクローナルであるということを示していると見なすことができる。これは、ＭＣＢがポリクローナルである場合、参照および比較サブクローンは実際に異なる、すなわち、ポリクローナルなＭＣＢ細胞を起源としたという事実から生じる、ＲＴＩＲと１つ以上のＣＴＩＲとの間の違いが観察されると考えられるからである。他方、比較サブクローンの各々のＣＴＩＲがランダムな（参照）サブクローン中のＲＴＩＲに対応する（従って、別々の比較サブクローンに由来するＣＴＩＲも互いに同一である）場合、このことは、ランダムに選択された参照サブクローンおよび比較サブクローンが全て同じＭＣＢ細胞を起源とし、従って、上述の限界希釈が、予想されたように、９６ウェルプレートの単一のウェル中で単一のＭＣＢを産生することに実際に成功したということを示していると見なすことができる。この場合、ＲＴＩＲと複数の比較サブクローン中のＣＴＩＲとの対応関係は、ＭＣＢがモノクローナルであり、従って、導入遺伝子によってコードされたタンパク質の産生におけるさらなる使用に適している証拠と見なすことができる。

ＴＩＲの特定は、ペアエンド配列決定によって達成される。これは、所与の核酸分子を鋳型の両末端から配列決定し、これによって所与の核酸分子の読み取り配列データ対を生成することに関わる。ペアエンド配列決定は、鋳型の配列包括度、従って、マッピング精度を増すという利点を有し、初回は５’（読み取り１）末端から開始し、次いで３’末端（読み取り２）から開始する。以下により詳細に述べるように、ペアエンド配列決定は、ＲＳＣゲノム中および１つ以上のＳＣゲノム中のＴＩＲを特定するのに有用である。

本発明の一実施形態において、ランダムサブクローン（ＲＳＣ）を、１つ以上のＳＣと比較してより高い配列包括度で配列決定する（「より高い」の意味については、上記を参照のこと）。より高い配列包括度は、例えば、ＲＳＣライブラリを、複数回またはフローセルの２つ以上のレーンで、配列決定することによって達成される。ＲＳＣライブラリにおける配列包括度がより高いほど、ＲＳＣ中の導入遺伝子挿入領域（ＴＩＲ）の分析に対する信頼性が高くなり、挿入領域（ＲＴＩＲ）の特定に対する信頼性も増す。以下でより詳細に明らかとなるように、ＲＳＣゲノム中の信用できるＲＴＩＲの特定は、これらのＲＴＩＲが１つ以上のサブクローンとＲＳＣを比較するための参照として機能するため、本発明にとって重要である。ＲＳＣ中のＲＴＩＲの指定が不正確であると、ＲＳＣゲノム中の不正確に指定されたＲＴＩＲと１つ以上のＳＣゲノム中のＣＴＩＲとの対応関係の評価により、ＲＴＩＲが比較されることになる（ＣＴＩＲとしての）サブクローンのクローン性に関して誤った結論がもたらされる可能性があるので、ＭＣＢクローン性に対しても不正確な評価がもたらされる可能性がある。特に、ＲＳＣ中の所与のＴＩＲが、ＲＳＣの配列決定ライブラリにおける低い配列包括度のために、ＲＴＩＲとして不正確に割り当てられた場合、そのような推定ＲＴＩＲは、それぞれのＳＣゲノム中の１つ以上のＣＴＩＲのいずれにも対応しない可能性がある。その結果、ＲＳＣおよびそれぞれのＳＣは、そしてそれゆえにＭＣＢも、ポリクローナルであると不正確に結論付ける可能性がある。従って、ＲＳＣ中の１つ以上のＴＩＲを正確にかつ信頼性高くＲＴＩＲとして指定することは本発明にとって重要であり、ＲＴＩＲの信頼性の高い特定は、ＲＳＣライブラリにおけるより高い配列包括度および少ない配列重複によって達成される。

本発明のさらなる実施形態において、万能細胞バンク（ＭＣＢ）は、導入遺伝子がゲノム中の複数の位置でランダムに挿入される宿主前駆細胞（ＨＰＣ）を形質移入することによって生成される。ＨＰＣとして用いられる哺乳動物細胞系は、例えば、チャイニーズハムスター卵巣（ＣＨＯ）細胞株であってもよい。ＣＨＯ細胞は、いくつかの理由のために、組換えタンパク質ベースの治療剤の産生に選択される哺乳動物細胞株であることが多い。ＣＨＯ細胞は懸濁培養に適応して成長することができ、これは医薬品産業における大規模培養にとって理想的である。ＣＨＯ細胞は、その中ではわずかなヒトウイルスしか繁殖できないため、他の細胞よりも及ぼすリスクが少ない。これにより、産生過程中の感染性汚染およびウイルスの伝播のリスクが低減する（Boeger et al. (2005). Structural basis of eukaryotic gene expression. FEBS Lett; 579:899-903）。さらに、ＣＨＯ細胞は、無血清の化学的に規定された培地中で成長することができ、これにより、別々のバッチの細胞培養間での再現性が確保されるとともに、保健医療当局によって求められるＭＣＢの培養条件の厳密な記録も可能になる。ＣＨＯ細胞は、ヒトにおいて適合性および生活性のある組換えタンパク質の翻訳後修飾も可能にする（Kim et al. (2012). CHO cells in biotechnology for production of recombinant proteins: Current state and further potential. Appl Microbiol Biotechnol; 93:917-30）。具体的には、ＣＨＯ細胞によって産生された糖タンパク質のグリコシル化が、免疫原性のα−ガラクトースエピトープが存在しない場合、よりヒト様となる（Ghaderi et al. (2012). Production platforms for biotherapeutic glycoproteins. Occurrence, impact, and challenges of non-human sialylation. Biotechnol Genet Eng Rev; 28:147-75）。最後に、ＣＨＯ細胞のゲノム不安定性を利用してより高収率の組換えタンパク質を最終的に生じる遺伝子増幅を可能にする十分に確立された遺伝子増幅系がいくつか存在する。ＣＨＯ細胞をＭＣＢとして使用することに関する上述の利点にもかかわらず、本明細書で上述したような他の種類の哺乳動物細胞も、本発明の方法における使用に適している。

さらなる実施形態において、導入遺伝子のランダムまたはほぼランダムな挿入は、レトロウイルスベクター形質移入系を用いて行われる。レトロウイルスは、二本鎖（ｄｓ）ＤＮＡ中間体を介して複製するＲＮＡウイルスである。レトロウイルスベクターを適用して安定的に形質転換された細胞株を作製することができる。さらに、レトロウイルス遺伝子発現を、破壊されて導入遺伝子の発現を制御することができる強力なプロモーターによって推進し、これによって目的のタンパク質のより高い発現レベルを得る。最後に、レトロウイルス系は広い宿主範囲を有し、多くの異なる細胞種の形質移入を可能にする。本発明においてＨＰＣの形質移入に有利に使用することができる１つのレトロウイルス系は、ＧＰＥｘ（登録商標）系である。この方法では、水胞性口炎ウイルス糖タンパク質（ＶＳＶ−Ｇ）で偽型化されたモロニーマウス白血病ウイルス（ＭＬＶ）に由来する複製欠損性レトロウイルスベクターを利用して、ゲノムの単一コピーを複数のゲノム位置で、***しているＨＰＣに安定的に挿入する。

本発明の別の実施形態において、導入遺伝子挿入領域（ＴＩＲ）は、ペアエンド配列決定読み取りを４つのクラスに分類することによって特定される。クラス１は、導入遺伝子配列に、例えば排他的に、マッピングする読み取り１（すなわち、順方向）配列を示す。クラス２は、ＨＰＣゲノムに、例えば排他的に、マッピングする読み取り１（すなわち、順方向）配列を示す。クラス３は、導入遺伝子配列に、例えば排他的に、マッピングする読み取り２（すなわち、逆方向）配列を示し、クラス４は、ＨＰＣゲノムに、例えば排他的に、マッピングする読み取り２（すなわち、逆方向）配列を示す。前記読み取り１および読み取り２配列は、核酸ライブラリのペアエンド配列決定で生成した核酸集団内の所与の核酸分子の５’末端と３’末端に対応する、それぞれの順方向および逆方向読み取りを示す。両方の参照、すなわち、導入遺伝子配列およびＨＰＣゲノムの両方にマッピングする配列読み取りは、別々の参照ゲノムに対して適切に整列させることができないので、分析過程から除去される。この理由は、２つの参照配列、例えば、導入遺伝子またはＨＰＣゲノムの一方に対してそのような配列読み取りを整列させると、その配列読み取りが整列されなかった他方の参照配列、例えば、ＨＰＣゲノムまたは導入遺伝子のヌクレオチド配列を示す配列読み取りとのかなり長い不整合が、それぞれ、生じ得るためである。例えば、導入遺伝子およびＨＰＣゲノムの両方にマッピングする配列読み取りは、ＨＰＣゲノムに対して整列された場合、導入遺伝子の配列に対応するかなり多くのマッピングされていない領域をなお含んでいることになる。その結果、導入遺伝子とＨＰＣゲノムとの間の境界に及ぶそのような配列読み取りは、２つの参照配列の一方（すなわち、ＨＰＣゲノムまたは導入遺伝子配列）に対して不正確な塩基対を多く含んでいるため、整列プログラムによって低品質な配列として廃棄される。

さらなる実施形態において、クラス１または２の読み取り１配列は、それぞれのクラス４または３の対応する読み取り２配列と組み合わされる。同類の読み取りデータ対の正確な割り当ては、配列読み取りに関して生成されたＦａｓｔＱファイルにコードされている配列識別子によって達成される。配列識別子は、フローセルのレーン番号、それぞれの配列がフローセルに結合されたレーン内のタイル番号、ならびにタイル内の核酸集団の「ｘ」座標および「ｙ」座標に関する情報を含む。さらに、配列識別子は、ペアエンド配列決定対（すなわち、読み取り１または読み取り２）の要素を示す索引番号を含む（図２）。

さらなる実施形態において、読み取りデータ対のそれぞれの読み取り１および読み取り２配列を、導入遺伝子配列またはＨＰＣゲノムに対して別々に整列させる。読み取り１が導入遺伝子にマッピングし、読み取り２が宿主前駆細胞（ＨＰＣ）ゲノムにマッピングする配列対（すなわち、クラス１／４対）および読み取り１がＨＰＣゲノムにマッピングし、読み取り２が導入遺伝子にマッピングする配列対（すなわち、クラス２／３対）を、さらなる分析のために保持する。読み取り１および読み取り２配列がともに導入遺伝子にマッピングする読み取りデータ対（例えば、クラス１／３対）またはＨＰＣゲノムにマッピングする読み取りデータ対（例えば、クラス２／４対）は、導入遺伝子挿入領域（ＴＩＲ）の特定に適していないので、配列読み取りデータ対のプールから廃棄される。この手法により、ＨＰＣゲノム中の導入遺伝子挿入部位の厳密な位置を知らないとしても、ＨＰＣゲノム中のＴＩＲの特定が有利に可能になる。上で説明したように、ＮＧＳデータ分析に関する従来の方法では、結果として生じる不整合の部分が多いために、１つ以上の別々の参照ゲノムの重複する領域に対応する配列読み取りを整列させることができない。このため、従来のシングルエンド配列決定データ処理または従来のペアエンド配列決定データ処理は、既知の配列の所与のＨＰＣゲノム内のＴＩＲを新たに特定することに適していない。

この目的を達成するため、本発明は、上述したペアエンド配列決定データ処理手法によって得られたクラス１／４およびクラス２／３読み取りデータ対に含まれる情報を利用する。クラス１およびクラス３配列に対応する配列読み取り、すなわち、導入遺伝子の既知の配列にマッピングする配列読み取りを用いて、ＨＰＣゲノムにマッピングする対応する相補読み取り、すなわち、クラス４およびクラス３の配列に対応する配列読み取りを、それぞれ、特定する。従って、ＨＰＣゲノムにマッピングする、クラス１／４またはクラス２／３読み取りデータ対に対応する配列は、その相補読み取りデータ対（クラス１またはクラス３のいずれか）が導入遺伝子配列にマッピングするため、所与のＴＩＲの境界に隣接するＨＰＣゲノム内の領域を示す。ペアエンド配列決定データを分析するこの手法により、当技術分野で一般に知られている方法を使用する場合に不可能なＨＰＣゲノム内のＴＩＲの特定が可能になる。本発明の方法の一部として、所与のＨＰＣゲノム中の導入遺伝子挿入領域を特定すること、および所与のＭＣＢに由来する異なる試料内のＴＩＲを比較することによって、ＭＣＢのクローン性を決定することができる。

従って、本発明のさらなる実施形態において、ＴＩＲは、クラス２およびクラス４に対応するペアエンド配列をＨＰＣゲノムに対して整列させることによって特定される。読み取りデータの整列により、ペアエンド配列決定読み取りのクラス２およびクラス４配列によって示されるＨＰＣゲノム内の１０００ヌクレオチド（１ｋｂ）長の導入遺伝子挿入領域が特定される。ＴＩＲの予測をより信頼性の高いものにするため、導入遺伝子挿入の領域を２ｋｂ（１ｋｂ領域の中央から出発し、この１ｋｂ領域の両側を各５００塩基対伸長）に拡張する。１ｋｂ挿入領域の中央は、最も高い配列包括度を有するＨＰＣゲノム内のヌクレオチドとして規定される。導入遺伝子の２ｋｂ挿入領域を考慮することで、１つ以上のサブクローンの配列整列でわずかなばらつきがあったとしても、異なるサブクローン間のＴＩＲの堅牢な比較が可能になるので、ＨＰＣゲノム中のＴＩＲの予測がはるかに信頼性の高いものとなる。

なお、ペアエンド配列決定対の読み取り１または読み取り２に対応する配列が通常２００〜５００ｂｐにしか及ばないので、クラス２およびクラス４配列のＨＰＣゲノムに対する整列は、ＨＰＣゲノム中の導入遺伝子挿入領域の厳密な位置を示さない。しかしながら、配列決定されることになる鋳型は、８００ｂｐ以上の長さになる可能性がある。この差は、例えば３００〜６００ｂｐの差に至り、この差の中に実際の導入遺伝子挿入部位が位置する可能性がある。従って、予測された導入遺伝子挿入領域を、１ｋｂ領域の両側の５００ｂｐの追加の領域だけ拡張することで、予測されたＴＩＲの信用性が増す（図３）。

本発明の一実施形態において、残りのサブクローンの配列包括度と比較してより高い配列包括度で配列決定されたランダムサブクローン（ＲＳＣ）中の特定されたＴＩＲを、その配列包括度および読み取り数のばらつきに関して分析し、１つ以上の参照導入遺伝子挿入領域（ＲＴＩＲ）を得る。ＲＴＩＲは、ＨＰＣゲノムの所与の位置にマッピングする配列読み取りの総数に基づいて選択される。ＴＩＲの任意の所与のプール内で、最も高い配列包括度によって示されるＴＩＲを潜在的ＲＴＩＲとして指定する。高い配列包括度に加えて、ＲＴＩＲの指定に関するさらなる要件は、所与のＴＩＲを示す異なる読み取り配列間の重複度が低いことである、すなわち、所与のＴＩＲを示す配列読み取り間の重複は同一ではなく部分的であるべきで、重複が部分的であるほどＴＩＲの特定が予測可能ではなく堅牢なものとなる。低重複度を有する同じ領域中の配列のコピーは、読み取り数の重複が大きいことを特徴とする配列よりも、ＨＰＣゲノム内の信用できる挿入領域を示す可能性が高い。同一の、すなわち同一の範囲に及んでいる配列のそのような「積み重ね」は、例えばライブラリ調製およびＰＣＲ増幅中に導入された配列決定のアーチファクトに起因する可能性が高いが、信頼性の高い導入遺伝子挿入領域を示さない（図４）。

上述のように、ＲＳＣゲノム中の信用できるＲＴＩＲの特定は、これらのＲＴＩＲが１つ以上のサブクローンとＲＳＣを比較するための参照として機能するため、重要である。不正確に指定されたＲＴＩＲは、実際にはＲＳＣと比較される１つ以上のサブクローン（ＳＣ）のゲノム中に存在していない可能性があるため、ＲＳＣ中のＲＴＩＲの指定が不正確だと、ＭＣＢに対する不正確なクローン性評価に至る可能性がある。従って、不正確に指定されたＲＳＣゲノム中のＲＴＩＲが１つ以上のＳＣゲノム中の対応するＣＴＩＲを持たない場合、ＲＳＣと１つ以上のＳＣとの対応関係に対する評価によって、１つ以上のＳＣは所与のＲＴＩＲに対応するＣＴＩＲを欠いているため、たとえＲＴＩＲが実際には真の導入遺伝子挿入領域ではなかったとしてもポリクローナルである、という誤った結論がもたらされる可能性がある。例えば、ＲＳＣ中の所与のＴＩＲが、ＲＳＣの配列決定ライブラリにおける低い配列包括度のために不正確にＲＴＩＲとして指定された場合、そのような推定ＲＴＩＲはそれぞれのＳＣゲノム中の１つ以上のＣＴＩＲのいずれにも対応しない可能性がある。その結果、ＲＳＣとそれぞれのＳＣは違っていると（不正確に）決定され、従って、ＭＣＢはポリクローナルであると（これもまた不正確に）決定される可能性がある。

さらなる実施形態において、最も高い配列包括度と最も少ない読み取り数重複とを有するｎ個（ｎは、好ましくは５〜５０の整数で、例えば、５、１０、１５、２０、２５、３０、３５、４０、４５および５０、またはこれらの間の任意の他の単一の整数値である）の第１ＲＴＩＲを決定する。決定されることになるＲＴＩＲの数は、形質移入方法、ＴＩＲの総数、ＨＰＣゲノムサイズ、および配列決定データの品質などの様々なパラメータに依存する。従って、所与の万能細胞バンク（ＭＣＢ）のクローン性を決定するのに必要とされるＲＴＩＲの数は、当業者によってその都度評価されなければならない。必要とされるＲＴＩＲの数は、一般に、１）挿入される導入遺伝子の数（例えば、挿入の数が少ないほど分析に必要なＲＳＣの数は少なくなる、および２）各ＲＳＣの読み取り数の影響を受ける。実際、困難なＤＮＡが存在する場合（これは、導入遺伝子がテロメア領域のような配列決定が困難なＤＮＡの領域に挿入されていることを意味する）、各ＲＳＣを特徴付ける読み取り数は非常に少なくなり、これは最も堅牢なＲＳＣが予想されたよりも少ない（例えば、２０と予想されたが１０だった）ことを意味する。一般に、より大きいｎの値は、最終的なクローン性決定に対するより高い統計的優位性と相関する。例えば、ＳＣ中の２０のＣＴＩＲがＲＳＣ中の対応するＲＴＩＲと同一である場合の方が、例えば、ＳＣ中の５のＣＴＩＲがＲＳＣ中の対応するＲＴＩＲと同一である場合よりも、ＭＣＢが２個の異なる細胞から生じた可能性は低い。

本発明のさらなる実施形態において、ランダムサブクローン（ＲＳＣ）中の得られた参照導入遺伝子挿入領域（ＲＴＩＲ）は、ＭＣＢからそれとは別に増殖され配列決定された１つ以上のサブクローン（ＳＣ）中の対応する比較導入遺伝子挿入領域（ＣＴＩＲ）との比較の基準として使用される。従って、１つ以上のＳＣゲノムの各々におけるＣＴＩＲのゲノム位置は、ＲＳＣゲノム中のＲＴＩＲの対応するゲノム位置と比較される。

本発明のさらなる実施形態において、ＲＳＣゲノム中のＲＴＩＲと１つ以上のＳＣゲノム中の対応するＣＴＩＲとの比較は、存在／不在マトリックスを生成することによって実施することができる。このマトリックスにおいて、各挿入領域は、ＲＳＣゲノム中の対応するＲＴＩＲに対する、所与のＳＣゲノム中の対応するＣＴＩＲの存在または不在を示す二色コードによって示すことができる。ＲＴＩＲはマトリックスの第１の次元によって示され、ＲＳＣおよび１つ以上のＳＣはマトリックスの第２の、例えば直交する次元によって示される。上で説明したように、ＲＳＣゲノム中のそれぞれのＲＴＩＲに対する所与のＳＣゲノム中のそれぞれのＣＴＩＲの存在または不在は、マトリックス中に好ましくは二色コードとして示され、第１の色、例えば黒はＲＳＣゲノム中のそれぞれのＲＴＩＲのそれぞれの存在または不在およびＳＣゲノムの各々におけるそれぞれのＣＴＩＲのそれぞれの存在または不在を示し、第２の色、例えば白はＲＳＣゲノム中のそれぞれのＲＴＩＲのそれぞれの不在または存在およびＳＣゲノムの各々におけるそれぞれのＣＴＩＲのそれぞれの不在または存在を示す。この手法により、ＲＳＣゲノム中のＲＴＩＲとＳＣゲノムの各々におけるそれぞれのＣＴＩＲとの容易な光学的比較が促進される（図１（ｃ））。例えば、さらなる実施形態において、黒をＣＴＩＲと対応するＲＴＩＲの対応関係を示すのに選択し、白を非対応関係を示すのに選択すると、全マトリックス位置が黒の存在／不在マトリックスはＳＣの各々における全ＣＴＩＲとＲＳＣ中の全ＲＴＩＲとの完璧な対応関係を示し、これはＭＣＢの適度なクローン性を示す。

本発明のさらなる実施形態によれば、ランダムサブクローン（ＲＳＣ）と１つ以上のサブクローン（ＳＣ）の各々との関係は、距離行列のさらなる計算によって評価することができる。クローン性を確認するため、予想された距離は０に等しい。さらなる計算、言い換えれば、距離の定量化は結果の解釈に役立つ可能性がある。「非クローン」試料は「クローン」試料と比較して非常に低い類似性（または非常に大きい距離）を示すと予想される。距離行列は、例えば、式（Ｉ）に基づいて計算することができる。

式（Ｉ）は、２つの試料の類似性を比較する一般に知られている統計的手法であるＤｉｃｅ係数を示す。距離関数Ｄｄ（ＲＳＣ，ＳＣ_ｎ）は、ＲＳＣゲノムとｍ個のＳＣゲノムの１つとの間のＤｉｃｅ係数に基づいて計算される。式（Ｉ）の変数Ｎ_{（ｔｏｔａｌ）}は、ＲＳＣゲノムおよびｎ個のＳＣゲノムの１つの両方に存在する導入遺伝子挿入領域の総数を示す。変数Ｎ_{（ＣＴＩＲ）}は、ｍ個のＳＣゲノムの１つに存在する導入遺伝子挿入領域の総数を示し、Ｎ_{（ＲＴＩＲ）}は、上述の実施形態の１つにおいて決定されたＲＳＣゲノム中の参照導入遺伝子挿入領域の総数を示す。距離関数Ｄｄ（ＲＳＣ，ＳＣ_ｍ）の計算結果により、２つの個々の試料間の遺伝的距離、すなわち、遺伝的類似性または非類似性に関する情報が０〜１の尺度で得られ、ここで、２つの試料間の遺伝的同一性、従ってクローン同一性は０の距離で示され、遺伝的非類似性、従ってクローン非類似性は０から増えていき、計算されたＤｉｃｅ係数が１で完全な非類似性、すなわち、遺伝的関係が全くない状態に達する。

本発明のさらなる実施形態において、式（Ｉ）の変数Ｎ_{（ｔｏｔａｌ）}、Ｎ_{（ＣＴＩＲ）}、およびＮ_{（ＲＴＩＲ）}は、導入遺伝子挿入領域の存在／不在マトリックスによって得られたデータに基づいて計算される。視認が容易な分析、すなわち、導入遺伝子挿入領域を存在／不在マトリックス中に示すことと、Ｄｉｃｅ係数に基づく類似性分析との組合せにより、異なるサブクローン間の対応関係の評価に関する、信頼性が高く簡単な、数値によるさらなる手法が得られる。上述の存在／不在マトリックスに加えて、ランダムサブクローン（ＲＳＣ）と１つ以上のサブクローン（ＳＣ）の各々との間の類似性を、距離行列によってさらに分析することができる。距離行列は、ＲＳＣと１つ以上のＳＣの各々との間の類似性に基づいて距離関数Ｄｄを計算することによって得られたデータを、「ｙ」軸がＲＳＣおよび１つ以上のサブクローンの各々を示し「ｘ」軸が特定の試料のＲＳＣに対する距離を示す二次元座標系に移行することで生成される。この二次元グラフは、ＲＳＣ自体と１つ以上のＳＣの各々との距離を例示する。２つ以上の試料が遺伝的に同一である場合、すなわち、それらの試料が同じ導入遺伝子挿入領域を共有する場合、これら２つ以上の試料間の距離は「０」である。また、試料が遺伝的に同一でない場合、すなわち、試料が異なる導入遺伝子挿入領域を有している場合、これらの試料間の距離は「０」より大きい、好ましくは「１」である。１つ以上のＳＣのＲＳＣに対する距離は、距離行列中に点として示される。互いに重なる点はいわゆる集団を形成する。集団は、ＲＳＣゲノムに対して同じ距離を有するそれぞれのＳＣゲノムの群である。最後に、１つ以上のそれぞれのＳＣゲノムは、式（Ｉ）に従って計算された互いの距離が「０」である場合、ＲＳＣゲノムと同じ集団に属していると見なされる（図１（ｃ）、（１２９））。

本発明のさらなる実施形態によれば、クローン性が決定されることになる万能細胞バンク（ＭＣＢ）は、ランダムサブクローン（ＲＳＣ）および１つ以上のＳＣ、好ましくは全ＳＣが同じ集団に分類される（すなわち、Ｄｉｃｅ係数＝０）場合、距離行列に基づいてモノクローナルと見なされる。この場合、ＲＳＣゲノムおよび評価された１つ以上のＳＣゲノム、好ましくは全ＳＣゲノムは同じ導入遺伝子挿入領域を共有し、これは、ＲＳＣおよび１つ以上のＳＣが単一のＭＣＢ細胞を起源とする遺伝的に同一の細胞のプール（ＭＣＢ）から増殖された可能性が非常に高いことを示している。この場合、ＭＣＢはモノクローナルと見なすことができる。これは、ＭＣＢが規制当局のふさわしい基準に従った、挿入された導入遺伝子によってコードされた治療用タンパク質のさらなる産生に適していることを意味する。

対照的に、評価された１つ以上のＳＣがその１つ以上のＣＴＩＲでＲＳＣ中の対応するＲＴＩＲから逸脱しており、この逸脱が信用できる（すなわち、配列決定またはＰＣＲによるアーチファクトと関係がない）と見なされる場合、ＲＳＣおよびＳＣが由来する細胞のプール（ＭＣＢ）は単一のＭＣＢ細胞ではなく複数のＭＣＢ細胞を起源としていたと問題なく想定することができる。次いで、このことを、例えば９６ウェルプレート中のウェルあたり１個のＭＣＢ細胞を統計的に生じる限界希釈にもかかわらず、当該ウェルは実際に、（異なるランダム導入遺伝子挿入から生じる）複数の、遺伝的に不均質な細胞を含んでいたという証拠、または元々の単一細胞がＤＮＡ複製を経験したため細胞重複により特定の挿入部位が喪失し、ＭＣＢの不均質性が生じたという証拠と見なすことができる。この場合、当該ＭＣＢは、モノクローナルではなくポリクローナルであった、またはゲノム不安定性のためにポリクローナルになったと結論付けることができる。これは、ＭＣＢが規制当局のふさわしい基準に従った、挿入された導入遺伝子によってコードされた治療用タンパク質のさらなる産生に適しておらず、従って、新規のモノクローナルなＭＣＢを、挿入された導入遺伝子から目的のタンパク質を産生するために特定しなければならないことを意味する。

上述の全ての方法および実施形態は単一細胞にも適用される。そのような場合、単一細胞配列決定プロトコルを実施する。単一細胞配列決定とＭＣＢまたはサブクローンの配列決定との違いは、ＤＮＡを抽出する方法のみに関する（実施例９を参照のこと）。説明を簡潔にするため、方法および実施形態を全て繰り返すことはしない。単に、一部の表現を調整すればよいだけである。単一細胞の導入遺伝子挿入部位を特定する方法に適用される場合、用語ＲＳＣおよびＨＣＰはＲＳｇＣ（参照単一細胞）に変更され、用語ＳＣおよびＭＣＢはＳｇＣ（単一細胞）に変更される。

要するに、本発明は、既知の配列の導入遺伝子の、既知の配列の参照単一細胞（ＲＳｇＣ）ゲノムへの、予測可能または予測不能な挿入から生じる単一細胞の導入遺伝子挿入部位を特定する方法であって、
Ａ）単離された単一細胞（ＳｇＣ）のゲノム中の１つ以上の導入遺伝子挿入領域（ＴＩＲ）を特定する工程であって、この特定は、前記ＳｇＣゲノムのペアエンド配列決定により１つ以上のＳｇＣゲノム配列を得ること、および前記１つ以上のＳｇＣゲノム配列を、前記既知のＲＳｇｃゲノム配列および前記既知の導入遺伝子配列に対して整列させることにより達成され、これによって１つ以上の導入遺伝子挿入領域（ＴＩＲ）を産生する、工程、
Ｂ）最も高い配列包括度を有する、工程（Ａ）で特定された１つ以上のＴＩＲを決定する工程であって、前記配列包括度は、所与のＴＩＲを含む所与の核酸配列が配列決定プロセス中に部分的に重複する読み取りによって読み取られる回数を指し、最も高い配列包括度を有する前記１つ以上のＴＩＲは参照ＴＩＲ（ＲＴＩＲ）として指定される、工程、
を含む方法も開示する。

好ましくは、ペアエンド配列決定は、所与の核酸分子をその両末端から配列決定することによって、配列決定されることになるゲノムの断片を示す所与の核酸分子の読み取りデータ対を生成することに関わる。また、好ましくは、ＳｇＣは、前記導入遺伝子を複数の位置で前記ＲＳｇｃゲノムへ挿入することから生じ、前記ランダムな挿入は、好ましくは、レトロウイルスベクターを用いて行われる。

前記方法において、ＴＩＲの決定は、ペアエンドライブラリに由来するペアエンド読み取り１配列およびペアエンド読み取り２配列を４つのクラスに分類することを含み、
クラス１は、前記導入遺伝子にマッピングする読み取り１配列を含み、
クラス２は、前記ＲＳｇｃゲノムにマッピングする読み取り１配列を含み、
クラス３は、前記導入遺伝子にマッピングする読み取り２配列を含み、
クラス４は、前記ＲＳｇｃゲノムにマッピングする読み取り２配列を含み、
前記読み取り１および前記読み取り２は、前記ＲＳｇＣまたは前記１つ以上のＳｇＣの核酸ライブラリの配列決定で生成した核酸集団内の所与の核酸分子の５’末端および３’末端に対応する、それぞれの順方向および逆方向読み取りを示す。好ましくは、読み取り１配列は、フローセル配列識別子を用いて、対応する読み取り２配列と組み合わせられ、前記配列識別子は、フローセルのレーン、フローセル内のタイル番号、タイル内の核酸集団の「ｘ」座標、およびタイル内の核酸集団の「ｙ」座標に関する情報を含み、これによって読み取り１および読み取り２配列に対応する各配列対をフローセル内の固有の位置に割り当てる。また、好ましくは、それぞれの読み取りデータ対のそれぞれの読み取り１および読み取り２配列は、導入遺伝子およびＲＳｇＣゲノムの既知の配列に対して別々に整列される。一層好ましくは、クラス１および４配列を含む読み取りデータ対ならびにクラス２およびクラス３配列を含む読み取りデータ対のみが、さらなる分析のために選択される。より一層好ましくは、ＴＩＲは、クラス２およびクラス４に対応するペアエンド読み取り配列をＲＳｇＣゲノムに対して整列させ、これによって前記ＴＩＲの各々につき２ｋｂの領域をＲＳｇＣゲノム中に規定することによって特定される。要約すると、本発明者らは、ＭＣＢのクローン性を確認する新規の方法を提供し、これにより、ＭＣＢを医薬品としての応用が意図されたタンパク質の製造における産生細胞株として承認するために保健医療当局が求める、従来の時間および労力集約的なＭＣＢの試験が回避される。本発明の方法は、ＭＣＢの堅牢なクローン性評価を可能にする厳密な再現性から利益を受ける。本発明者らは、この有益な効果を、ペアエンド配列決定とそれに続く、得られた配列決定データの生物情報学的データ処理とを組み合わせた新規の手法によって達成する。特に、ペアエンド配列決定データを処理する新規の手法により、従来のシングル読み取り配列決定または従来のペアエンド配列決定データの処理では不可能な、ＨＰＣゲノムの既知の配列中の導入遺伝子挿入部位の特定が新たに可能になる。従って、本発明は、医薬品としての応用が意図されたタンパク質生成物の産生において使用するＭＣＢの品質を堅牢に評価するための強力な手段を提供する。

本発明は、ＭＣＢのクローン性を評価するためのものと同じ手法に基づいて、単一細胞の導入遺伝子挿入部位を特定する新規の方法も提供する。

以下の実施例は、行われた実験および達成された結果を含め、例示だけの目的で提供されており、本発明を限定するものと解釈されない。

〔実施例１〕
クローン選択および配列決定

軽鎖と重鎖を保有する２つの導入遺伝子を、宿主前駆細胞（ＨＰＣ）として機能するチャイニーズハムスター卵巣（ＣＨＯ）細胞株のゲノムに形質移入することによって、クローン性を評価されることになるＭＣＢを生成した。形質移入をGPEx（登録商標）技術を用いてGala（登録商標）（catalent）によって実施し、単回限界希釈を実施してモノクローナルな細胞株を得た（“GPEx（登録商標）: a flexible method for the rapid generation of stable, high expressing, antibody producing mammalian cell lines”, Gregory T. Beck, Book: Current Trends in Monoclonal Antibody Development and Manufacturing, Publisher: Springer New York, 2010を参照のこと）。この細胞株のクローン性を調べるため、２５のサブクローン（ＳＣ）をＭＣＢの希釈によって生成した。限界希釈を以下のようにして実施した。ＭＣＢを室温で解凍し、次いで、Ｔ７５フラスコ中、１０％ＦＢＳを含む２０ｍＬのＤＭＥＭで２４時間、３７℃、５％ＣＯ_２でインキュベートした。翌日、培地を除去し、トリプシンを用いて細胞を分離し、細胞計数のために新鮮な培地に再懸濁した。次いで、限界希釈を実施して、５細胞／ｍｌの濃度を得た。次いで、希釈物を、９６ウェルプレートの各ウェルに１００μＬ播種して、理論上ウェル当たり０．５個の細胞を得た。ここで、一部のウェルは細胞を含んでいない可能性があるが、細胞／ウェル比が低いことを考慮すれば、仮に１つのウェルが１個の細胞を含んでいたとしても２個以上の細胞を含んではいない可能性が高いことが推測された。次いで、プレートを３７℃、５％ＣＯ_２で２４時間インキュベートした。翌日、９６ウェルプレートを顕微鏡下で分析し、１個の細胞を含んでいるウェルに印をつけた。プレートをさらにインキュベートし、以前に印をつけた集密状態の細胞を得た。集密状態に達した細胞をさらなる分析のためにサブクローンとして選択した。

それとは別に、分岐(divergent)ＭＣＢ（ＭＣＢ_Δ）を使用した。分岐ＭＣＢ_Δは、宿主前駆細胞に導入遺伝子を独立に形質移入することから生じた、陰性対照としての使用が意図されたものであり、ＭＣＢと遺伝的に異なることが初めから知られている細胞を提供する。従って、ＭＣＢ_Δは、サブクローンまたはクローン性が決定されることになるＭＣＢと共通の導入遺伝子挿入領域を持たないと考えられる。ＭＣＢおよび分岐ＭＣＢ_Δは、特許請求される方法を評価するための、それぞれの陽性対照および陰性対照として機能する。実際、ＭＣＢクローン性の決定は、対照試料がない場合でも、ＭＣＢに由来するサブクローンのクローン性評価に基づいて評価することができる。
〔実施例２〕
ＤＮＡ抽出

２５のサブクローン、ＭＣＢおよび分岐ＭＣＢ_ΔからのＤＮＡ抽出を、QIAamp Blood DNA Mini kit（QIAGEN）を製造者の内部作業指示書に従って使用して、親和性カラムで実施した。簡潔に述べると、細胞ペレットを試料濃度に従ったリン酸緩衝生理食塩水（ＰＢＳ）中に再懸濁し、異なる分割量に分けた。２００μＬの溶解緩衝液と２０μＬのプロテイナーゼＫを各試料に添加した。試料をボルテックスすることによりよく混合し、５６℃で１０分間インキュベートした。次いで、２００μＬのエタノール（９６〜１００％）を添加し、混合物を２ｍＬ採取管中に置かれたDNeasy Mini spin column（QIAGEN）中に移した。試料を洗浄し、１分間、１３，０００ｒｐｍで遠心分離して、全ての残留エタノールを除去した。１５０μＬの水をDNeasy membrane（QIAGEN）に直接添加して溶出を実施した。同じクローンの溶出液を組み合わせた。

各試料を、ＲＮａｓｅ酵素（Roche）とともに３７℃で３０分間インキュベートし、全ての残留ＲＮＡを除去した。インキュベート後、試料をNanoDrop（登録商標）ND-1000分光光度計および評価された吸光度比２６０／２８０により定量化し、ＤＮＡの品質を評価した。
〔実施例３〕
Illuminaライブラリ調製および配列決定

２５のサブクローン、ＭＣＢおよびＭＣＢ_Δのライブラリ調製を、TruSeq DNA kit（Illumina）を製造者の指示書に従って使用して、実施した。簡潔に述べると、２．６μｇの各サブクローンＤＮＡをCovaris S220機器により断片化し、３’または５’が突出した３００ｂｐのｄｓＤＮＡ断片を得た。突出を酵素により平滑末端に変換した。単一のアデニン（Ａ）ヌクレオチドを平滑断片の３’末端に付加し、アダプター連結のための断片を調製した。複数の索引アダプターをＤＮＡ断片の末端に連結することで、フローセルでのハイブリダイズが可能になる。アダプター分子を両端に有するそれらのＤＮＡ断片の選択的な富化を実施し、ライブラリ収率を増した。

ＤＮＡライブラリの品質をAgilent 2100バイオアナライザによって分析してＤＮＡライブラリ中の断片の平均サイズを検証した。ライブラリを、Fluorometer Qubit（登録商標）2.0によりさらに定量化した。

ＤＮＡライブラリ集団をIllumina cBot機器（Illumina, TruSeq PE Cluster Kit v3 cBot HS kit）を用いて製造者の指示に従って生成した。配列決定を、ペアエンド方式（２ｘ１００サイクル）で、Illumina HiSeq 1000機器を用いて実施した。配列決定を、TruSeq SBS Kit v3-HS-200‐cycles kit(Illumina（登録商標））を用いて実施した。試料をフローセルｖ３に装填した。２５のサブクローン、ＭＣＢおよび分岐ＭＣＢ_Δをそれぞれ別々のレーンに装填した。サブクローン番号２５（ＳＣ_２５）を３つのレーンに装填し、より高い配列包括度を得た。ＳＣ_２５を、最も高い部分的に重複する配列包括度で特定されたＴＩＲを参照ＴＩＲ（ＲＴＩＲ）として特定するランダムサブクローン（ＲＳＣ）として使用する狙いであった。このため、ＳＣ_２５の配列包括度を最大化して、ＲＴＩＲの信頼性の高い特定を確保することが望まれた。繰り返しの装填とそれに続くＳＣ_２５に由来するＤＮＡ断片の配列決定は、この目的に資するものであった。

全試料をIllumina HiSeq1000により配列決定した。各試料につき、少なくとも１億７０００万の２×１００ｂｐ読み取りデータを得た。分析された各試料のＰＨＲＥＤ品質スコアは７０％を超えていた。結果を表１に要約する。配列決定された各試料の平均包括度は、少なくとも１６×（ＣＨＯゲノムの総サイズを２．４Ｇｂと見なした）であった。ＳＣ_２５のライブラリは３つのレーンで配列決定されたため、ＳＣ_２５の包括度は約５０Ｘであったが、残りのライブラリは１つのレーンで配列決定された（表１を参照のこと）。

次いで、生データをCASAVA V. 1.8.2（Illumina）でさらに処理し、塩基決定ファイル（．ｂｃｌ）をＦａｓｔＱファイルに変換した。ＦａｓｔＱファイルは、読み取りデータのヌクレオチド配列と各塩基対の相対的品質スコアとを含むテキストファイルである。次いで、得られたＦａｓｔＱファイルを、ＣＨＯ参照ゲノムにマッピングする全読み取りデータを含む各サンプルのバイナリ（．ｂａｍ）ファイル（参照ゲノムに対する座標を含む）を生成する生物情報学的過程によって処理した。
〔実施例４〕
生物情報学的分析

ＭＣＢ、２５のサブクローン、および分岐ＭＣＢ_Δの分析のため、異なる生物情報学的手法を適用して、ＣＨＯゲノムにランダムに挿入された導入遺伝子の境界を検出した。境界検出に関し、図１Ｂに記載した概念を使用した。選択後、境界を統計的手段（式Ｉに記載した統計的手法を参照のこと）によって分析した。

実施したペアエンド配列決定を用いて、別々の読み取り１および読み取り２配列を検討した。生物情報学的分析を以下のように実施した。読み取り１および読み取り２を、Burrows-Wheeler Aligner（BWA）V. 0.6.1-r104を使用して、（宿主前駆細胞（ＨＰＣ）ゲノムに対応する）既知の配列のＣＨＯゲノムの導入遺伝子配列に別々にマッピングした（Li et al. (2009). Fast and accurate short read alignment with Burrows Wheeler transform. Bioinformatics; 25(14): 1754-60）。マッピング後、４種類のファイルを得た：導入遺伝子にマッピングされた読み取り１（クラス１配列）、ＣＨＯゲノムにマッピングされた読み取り１（クラス２配列）、導入遺伝子にマッピングされた読み取り２（クラス３配列）、およびＣＨＯゲノムにマッピングされた読み取り２（クラス４配列）（図１（ｂ））。

導入遺伝子にマッピングする読み取り１および読み取り２（それぞれ、クラス１および３）に関し、読み取りデータのリストを作成した。次いで、対応する「対になった」読み取りデータを、Illumina配列識別子によって、ＣＨＯゲノムにマッピングする読み取り１および読み取り２配列（それぞれ、クラス２および４）中に探した（図２）。これらの読み取りデータを、Burrows-Wheeler Aligner（BWA）V. 0.6.1-r104によってＣＨＯ参照ゲノムにマッピングした。

ＣＨＯに対して整列された読み取りデータは、導入遺伝子にマッピングする相補読み取りデータ対を有するので、ＣＨＯゲノムに挿入された導入遺伝子の境界に隣接する領域を示す。最後に、挿入領域を、ＣＨＯ参照ゲノムの異なる足場の位置に基づいて、Geneious（登録商標）software V. 6.0（このソフトウェアにより、最も高い包括度のＴＩＲの視認が容易な特定が可能になるので、結果が容易に視覚化される）によって特定した。

全試料中の導入遺伝子挿入領域の特定後、統計的分析手法を実施して１つ以上の参照導入遺伝子挿入領域（ＲＴＩＲ）を決定した。この選択を２つの特性値に基づいて実施した：（１）各挿入領域に関して示された読み取り数、および（２）挿入領域の範囲におけるこれらの読み取りの重複度（図４）。これら２つのパラメータの組合せは、最も高い包括度を有する挿入部位を特定すると同時にＰＣＲおよび／またはライブラリ調製から生じる偏りに起因する異常な読み取りの積み重ねを避けるのに重要であった。

上述のように、ＲＴＩＲの選択をＳＣ_２５に関して実施し、これはＳＣ_２５をより高い配列包括度で配列決定するためであった（フローセルの３つのレーン、上で説明したものの繰り返し）。この試料の整列ファイルをGeneious（登録商標）softwareで開いて、上に述べた要件を満たす２０の第１ＴＩＲを決定し、これらの要件を満たしていたため、ＲＴＩＲとして定めた。従って、これらの２０のＲＴＩＲは、最も信頼性の高い導入遺伝子挿入領域（ＴＩＲ）を示すので、続く統計的分析における比較の基準として使用した（ＲＴＩＲの位置は示していない）。
〔実施例５〕
挿入領域の比較

存在／不在マトリックスを作成して全試料中の選択されたＲＴＩＲの比較を提供した。存在／不在マトリックスを電気泳動ゲルに従って作り、「帯」により（ＲＳＣに対応する）ＳＣ_２５中のＲＴＩＲと所与のＳＣ中の対応するＣＴＩＲとの共通部分を示した。所与のＲＴＩＲの、所与のＳＣ中のＣＴＩＲとしての存在／不在を、所与のＣＴＩＲの存在（１、黒）または不在（０、白）を示す二値コード様式によって示した。次いで、全試料を、特定された全挿入領域に関して互いに比較した（図１（ｃ）および５）。

理論的には、この分析の根拠は、導入遺伝子を複数の位置でＨＰＣゲノムにランダムに挿入するＧＰＥｘ（登録商標）系の機構に関する。実際、クローン性が決定されることになるＭＣＢがモノクローナルである場合、ＨＰＣゲノムにランダムに挿入された導入遺伝子挿入領域（ＴＩＲ）は、２５のサブクローンおよびＭＣＢ間で同一であるが、分岐ＭＣＢ_Δは、サブクローンおよびＭＣＢと共通のいかなる挿入部位も持たないはずである。

このため、存在／不在マトリックスを設計して、サブクローンの各々における各参照導入遺伝子挿入領域（ＲＴＩＲ）の存在／不在に関する情報を供する（図５）。結果は、ほとんど全てのサブクローンおよびＭＣＢがランダムサブクローン（ＲＳＣ）ゲノム、すなわち、ＳＣ_２５中のＲＴＩＲに対して同じ導入遺伝子挿入領域を共有することを示す。対照的に、分岐ＭＣＢ_ΔのＴＩＲは、２０のＲＴＩＲがいずれも存在しないという異なる結果を示した。

さらに、存在／不在マトリックスは、２つの試料に関して、１つの導入遺伝子挿入領域が、見かけ上、ないことを示した。特に、ＳＣ_４中のＲＴＩＲ_１８およびＳＣ_２４中のＲＴＩＲ_１が観察されなかった（図５）。これら２つの試料に対して、ＰＣＲおよび従来のサンガー法によりさらなる調査を実行した。このために、２組の特異的プライマーを設計して、それぞれのＳＣ_４およびＳＣ_２４中のＲＴＩＲ_１およびＲＴＩＲ_１８を増幅した。ＳＣ_４およびＳＣ_２４に対して、ＲＴＩＲ_１およびＲＴＩＲ_１８に対する特異的な組のプライマーを使用してＰＣＲ反応を実施した。さらに、ＳＣ_１および（いずれのＴＩＲも含まない）ＣＨＯ宿主細胞ＤＮＡをそれぞれの陽性対照および陰性対照として使用した。

ＲＴＩＲ_１およびＲＴＩＲ_１８に関するＰＣＲ生成物を、ＳＣ_４とＳＣ_２４の両試料中およびＳＣ_１の陽性対照中で観察した。陰性対照試料中ではＰＣＲ生成物は観察されなかった。それぞれのＲＴＩＲのＰＣＲ生成物を精製して、精製した鋳型をABI Prism 3130配列決定プラットフォームで配列決定した。サンガー法の結果は、ＲＴＩＲ_１およびＲＴＩＲ_１８の両方に関してＳＣ_４およびＳＣ_２４は陽性であったことを示し、これは、これら２つの試料中にＲＴＩＲ_１およびＲＴＩＲ_１８が存在したことも示す（データは示していない）。
〔実施例６〕
類似性分析

試料間の類似性を、集団分析手法を使用することで数値により表した。具体的には、ＭＣＢ、２５のサブクローンの各々、および分岐ＭＣＢ_Δの間の距離を、Ｄｉｃｅ係数を使用して次式に基づいて計算した。

式中、Ｄｄ（Ａ，Ｂ）は２つの試料ＡとＢの間の距離関数を示し、Ｎ_{（ｔｏｔａｌ）}は試料ＡとＢの両方に存在する挿入領域の数であり、Ｎ_（Ａ）は試料Ａに存在する挿入領域の総数であり、Ｎ_（Ｂ）は試料Ｂに存在する挿入領域の総数であり、Ｄｄ（Ａ，Ｂ）は距離を０〜１の尺度で示し、０の距離は前記ＲＳＣとそれぞれのＳＣ_ｎの間のクローン同一性を示し、１はクローン相違性を示す。

全試料間の距離をグラフにより示すため、多次元尺度（ＭＤＳ）法を使用した（図６）（Kruskal and Wish (1978), Multidimensional Scaling, Sage University Paper series on Quantitative Application in the Social Sciences, 07-011, Beverly Hills and London, Sage Publications; Michael R. Anderberg (1973) Cluster analysis for applications, Academic Press, New York）。

類似性分析の結果は、２つの別個な下位群が得られたことを示す。第１の下位群は、２５のサブクローンおよびＭＣＢに対応し、第２の下位群は分岐ＭＣＢ_Δに対応する。これら２つの下位群間の距離は、１または１００％であり、これは２５の全サブクローンおよびＭＣＢが同じ下位群（集団）に対応し、分岐ＭＣＢが異なる集団（サブクローン）に対応することを示している（図６）。
〔実施例７〕
確率分析

異なる集合に由来する、すなわち、異なる導入遺伝子挿入領域を有する２つの試料が同じ２０のＲＴＩＲを共有する可能性を評価するため、次式に基づいて実験的計算を実施した。

式中、Ｍはあり得る導入遺伝子挿入領域の数であり、Ｓは形質移入された導入遺伝子の読み取り数である。

ＣＨＯゲノムは２．４Ｇｂ長である。ＮＧＳ分析と生物情報学的データ処理との組合せを適用した技術に基づいて、ＣＨＯゲノム内の２ｋｂの分解物に対して導入遺伝子挿入領域を決定することができる。この技術はＣＨＯゲノム（２．４Ｇｂ／２ｋｂ）内の１２０万のあり得る導入遺伝子挿入領域を特定することができる可能性があるという想定、および７００の導入遺伝子のコピーのＣＨＯ前駆細胞への想定形質移入率に基づくと、ｐ（１）０〜１０^−３０という確率が得られる。

この結果は、異なるＭＣＢ集合に由来する２つのサブクローンが共通の導入遺伝子挿入領域を共有する尤度が０である傾向があるということを示している。実際、ＭＣＢのクローン性を決定するという課題は二値決定であることが多く、これは、サブクローンが、互いに１００％同一である、すなわち、全挿入領域を共通に有しているか、０％またはごくわずかな（おそらくは偶然の）導入遺伝子挿入領域しか共通に有していないかのいずれかであることを意味する。一般に、ＭＣＢ単クローン性の決定は、典型的には、ＲＳＣ中のＲＴＩＲと評価されるサブクローンの各々における全ＣＴＩＲとが１００％遺伝的に一致していることを必要とする。所与のＲＴＩＲとそれに対応する所与のサブクローン中のＣＴＩＲとの間の任意の個々の違いは、代替的な配列決定法、例えば、サンガー法を用いてより精密に評価され得る。

確率は、異なる生物学的側面を考慮して計算された：１）理論上、レトロベクターは導入遺伝子をＤＮＡにランダムに挿入する（しかしながら、いくつかの文献は、レトロウイルス（およびレトロベクター）が挿入を好む標的ゲノムの特定の範囲が一部存在することを実証している）、および２）ＧＯＩの挿入は、形質移入に使用されるレトロベクターの種類にも関係する（Bushman et al. Genome‐wide analysis of retroviral DNA integration. Nat Rev Microbiol 2005;3(11):848‐858; Felice et al. Transcription factor binding sites are genetic determinants of retroviral integration in the human genome. PLoS ONE 2009;4(2):e4571.）。例えば、最近、研究により、ＭＬＶ由来ベクターは、転写開始部位、エンハンサー、またはプロモーターなどの細胞制御に関わる遺伝子内またはその周辺に優先的に組み込むことが示された。さらに、標的ＤＮＡの利用可能性は、導入遺伝子の組み込みに重要な役割を果たしているようである（例えば、セントロメアヘテロクロマチン領域は組み込みにあまり好ましくないようである）（LaFavey et al., MLV integration site selection is driven by strong enhancers and active promoters Nucleic Acids Research, 2014, Vol. 42, No. 7 4257-4269.。これらの理由により、レトロウイルスベクターによる挿入は完全にはランダムではないと規定し、適切な確率手法を適用した。
〔実施例８〕
方法の実現性の確認

実施例１から７に記載した方法を、異なるモノクローナル抗体（ｍＡｂ２）を発現する第２の種類のＭＣＢに適用した。この第２のＭＣＢは、ｍＡｂ２の軽鎖と重鎖を発現する導入遺伝子をＨＰＣとして機能するＣＨＯ細胞株のゲノムへ形質移入することで生成した。本発明の方法に従ってｍＡｂ２を発現するこのＭＣＢのクローン性を評価し（データ示さず）、いかなる導入遺伝子であっても、場合によってはいかなる細胞株であっても、本発明による方法が再現可能であるということを確認することができた。
〔実施例９〕
単一細胞分析

導入遺伝子挿入部位の特定に関して記載された方法は、単一細胞配列決定プロトコルを実施する場合、単一細胞に適用することができる。単一細胞配列決定とＭＣＢまたはサブクローンの配列決定との相違は、ＤＮＡを抽出する方法のみに関する。実際、単一細胞配列決定の場合、細胞に対して全ゲノム増幅を実施し、十分な量のＤＮＡを得る。一方、ＭＣＢおよびサブクローンのＤＮＡ抽出は、実施例２に記載した従来のＤＮＡ抽出法で実施され得る。

Claims

既知の配列の導入遺伝子の、既知の配列の宿主前駆細胞（ＨＰＣ）ゲノムへの、予測可能または予測不能な挿入から生じる万能細胞バンク（ＭＣＢ）のクローン性を決定する方法であって、
Ａ）クローン性が決定されることになるＭＣＢから単離された参照サブクローン細胞（ＲＳＣ）のゲノム中の１つ以上の導入遺伝子挿入領域（ＴＩＲ）を特定する工程であって、この特定は
ｉ）前記ＲＳＣゲノムのペアエンド配列決定により１つ以上のＲＳＣゲノム配列を得ること、および
ｉｉ）前記１つ以上のＲＳＣゲノム配列を、前記既知のＨＰＣゲノム配列および前記既知の導入遺伝子配列に対して整列させること
により達成され、これによって１つ以上の導入遺伝子挿入領域（ＴＩＲ）を産生する、工程、
Ｂ）最も高い配列包括度を有する、工程（Ａ）で特定された１つ以上のＴＩＲを決定する工程であって、
前記配列包括度は、所与のＴＩＲを含む所与の核酸配列が配列決定プロセス中に部分的に重複する読み取りによって読み取られる回数を指し、
最も高い配列包括度を有する前記１つ以上のＴＩＲは参照ＴＩＲ（ＲＴＩＲ）として指定される、工程、
Ｃ）クローン性が決定されることになるＭＣＢから単離されているが前記ＲＳＣからは独立している１つ以上のサブクローン（ＳＣ）のそれぞれのゲノム中の１つ以上の導入遺伝子挿入領域（ＴＩＲ）を特定する工程であって、この特定は、
ｉ）それぞれのＳＣゲノムのペアエンド配列決定により１つ以上のＳＣゲノム配列を得ること、および
ｉｉ）それぞれの１つ以上のＳＣゲノム配列を、前記既知のＨＰＣゲノム配列および前記既知の導入遺伝子配列に対して整列させること
により達成され、これによって１つ以上の比較導入遺伝子挿入領域（ＣＴＩＲ）を産生する、工程、
Ｄ）工程（Ｂ）で決定された前記１つ以上のＲＴＩＲを工程（Ｃ）で決定されたそれぞれのＣＴＩＲと比較する工程、
Ｅ）それぞれのＳＣに存在する前記１つ以上のＣＴＩＲの各々と、前記ＲＳＣに存在する対応するＲＴＩＲとの対応関係を評価する工程、ならびに、
Ｆ）工程（Ｅ）で評価された前記対応関係に基づいて前記ＭＣＢのクローン性を決定する工程、を含み、
前記ＭＣＢは、前記ＲＳＣおよび前記１つ以上のＳＣが同じ集団に分類される場合、モノクローナルと見なされる、方法。
ペアエンド配列決定が、所与の核酸分子をその両末端から配列決定することによって、配列決定されることになるゲノムの断片を示す所与の核酸分子の読み取りデータ対を生成することに関わる、請求項１に記載の方法。
前記ＲＳＣが、前記１つ以上のＳＣと比較してより高い配列包括度で配列決定される、請求項１または２に記載の方法。
前記ＭＣＢが、前記導入遺伝子を複数の位置で前記ＨＰＣゲノムへ挿入することから生じ、複数の位置における前記導入遺伝子の挿入は、レトロウイルスベクターを用いて行われる、請求項１から３のいずれか一項に記載の方法。
ＴＩＲの決定が、ペアエンドライブラリに由来するペアエンド読み取り１配列およびペアエンド読み取り２配列を４つのクラスに分類することを含み、
クラス１は、前記導入遺伝子にマッピングする読み取り１配列を含み、
クラス２は、前記ＨＰＣゲノムにマッピングする読み取り１配列を含み、
クラス３は、前記導入遺伝子にマッピングする読み取り２配列を含み、
クラス４は、前記ＨＰＣゲノムにマッピングする読み取り２配列を含み、
前記読み取り１および前記読み取り２は、前記ＲＳＣまたは前記１つ以上のＳＣの核酸ライブラリの配列決定で生成した核酸集団内の所与の核酸分子の５’末端および３’末端に対応する、それぞれの順方向および逆方向読み取りを示す、請求項１から４のいずれか一項に記載の方法。
読み取り１配列が、フローセル配列識別子を用いて、対応する読み取り２配列と組み合わせられ、前記配列識別子は、フローセルのレーン、フローセル内のタイル番号、タイル内の核酸集団の「ｘ」座標、およびタイル内の核酸集団の「ｙ」座標に関する情報を含み、これによって読み取り１および読み取り２配列に対応する各配列対をフローセル内の固有の位置に割り当てる、請求項５に記載の方法。
それぞれの読み取りデータ対のそれぞれの読み取り１および読み取り２配列が、導入遺伝子およびＨＰＣゲノムの既知の配列に対して別々に整列される、請求項５または６に記載の方法。
クラス１および４配列を含む読み取りデータ対ならびにクラス２およびクラス３配列を含む読み取りデータ対のみが、さらなる分析のために選択される、請求項５から７のいずれか一項に記載の方法。
前記ＴＩＲが、クラス２およびクラス４に対応するペアエンド読み取り配列をＨＰＣゲノムに対して整列させ、これによって前記ＴＩＲの各々につき２ｋｂの領域をＨＰＣゲノム中に規定することによって特定される、請求項５から８のいずれか一項に記載の方法。
ペアエンドＮＧＳライブラリ中の最も高い配列包括度を有するｎ個のＲＴＩＲを決定する工程を含み、ｎは５〜５０の整数である、請求項１から９のいずれか一項に記載の方法。
最も高い配列包括度を有するｎ個の第１ＲＴＩＲが、
（Ａ）ＨＰＣゲノムにマッピングするクラス２およびクラス４に対応するそれぞれのペアエンド読み取り配列の読み取り数で、より多いとＲＴＩＲとして含まれることを示す、読み取り数、ならびに
（Ｂ）クラス２およびクラス４に対応するそれぞれのペアエンド読み取り配列の読み取り数の部分的な重複で、より少ないとＲＴＩＲとして含まれることを示す、読み取り数の部分的な重複
に基づいて決定される、請求項１０に記載の方法。
前記ＲＳＣゲノム中のｎ個の第１ＲＴＩＲの各々が、前記１つ以上のＳＣゲノムの各々における前記ＣＴＩＲの対応するゲノム位置と比較される、請求項１０または１１に記載の方法。
前記ＲＳＣ中の前記ＲＴＩＲと前記１つ以上のＳＣ中の前記ＣＴＩＲとの比較が、挿入領域の存在／不在マトリックスを生成することによって達成され、マトリックスの１つの次元は、前記ＲＳＣゲノム中の前記導入遺伝子の前記ｎ個のＲＴＩＲを示し、マトリックスのもう一つの次元は、前記ＲＳＣおよび前記１つ以上のＳＣの各々を示す、請求項１２に記載の方法。
前記１つ以上のＳＣ中のそれぞれのＣＴＩＲの、前記ＲＳＣ中のそれぞれのＲＴＩＲに対する存在または不在は、マトリックス中に二色コードとして示され、第１の色は、前記ＲＳＣ中のそれぞれのＲＴＩＲのそれぞれの存在または不在、前記１つ以上のＳＣ中のそれぞれのＣＴＩＲのそれぞれの存在または不在を示し、第２の色は、前記ＲＳＣ中のそれぞれのＲＴＩＲのそれぞれの不在または存在、前記１つ以上のＳＣ中のそれぞれのＣＴＩＲのそれぞれの不在または存在を示す、請求項１３に記載の方法。
前記ＲＳＣと前記１つ以上のＳＣの各々との関係が、距離行列を計算することによって評価される、請求項１から１４のいずれか一項に記載の方法。
距離行列が次式（Ｉ）
Ｄ_ｄ（ＲＳＣ，ＳＣ_ｍ）＝１-（２＊Ｎ_{（ｔｏｔａｌ）}／［Ｎ_{（ＣＴＩＲ）}＋Ｎ_{（ＲＴＩＲ）}］）
［式中、Ｄ_ｄ（ＲＳＣ，ＳＣ_ｍ）は、前記ＲＳＣゲノムとそれぞれのＳＣ_ｍゲノムとの間の距離関数を示し、Ｎ_{（ｔｏｔａｌ）}は、前記ＲＳＣゲノムおよび前記ＳＣ_ｍゲノムの両方に存在する挿入領域の数であり、Ｎ_{（ＣＴＩＲ）}は、前記ＳＣ_ｍゲノムに存在する挿入領域の総数であり、Ｎ_{（ＲＴＩＲ）}は、前記ＲＳＣゲノムに存在する挿入領域の総数であり、Ｄ_ｄ（ＲＳＣ，ＳＣ_ｍ）は、距離を０〜１の尺度で示し、０の距離は、前記ＲＳＣとそれぞれのＳＣ_ｍとの間でのクローン同一性を示し、１は、クローン相違性を示す］に基づいて計算される、請求項１５に記載の方法。
パラメータＮ_{（ｔｏｔａｌ）}、Ｎ_{（ＣＴＩＲ）}および／またはＮ_{（ＲＴＩＲ）}が、請求項１４または１５のいずれかに従って生成された挿入領域の存在／不在マトリックスに基づいて計算される、請求項１６に記載の方法。
共通の距離行列で前記１つ以上のＳＣをＲＳＣに対して示す工程を含む、請求項１６または１７に記載の方法。
２つのそれぞれのゲノムが、式（Ｉ）に従って計算された互いの距離が０の場合、共通の集団に属していると見なされる、請求項１８に記載の方法。