定義
数値範囲は、範囲を規定する数を含む。本明細書を通して与えられる、あらゆる最大値限界は、そのような下方数値限界が、本明細書で明記された場合と同様に、あらゆる下方数値限界を含むことが意図される。本明細書を通して与えられる、あらゆる最小値限界は、そのような上方数値限界が、本明細書で明記された場合と同様に、あらゆる上方数値限界を含むであろう。本明細書を通して与えられる、あらゆる数値範囲は、そのような狭い数値範囲の全てが、本明細書で明記された場合と同様に、そのような広い数値範囲内に収まる、あらゆる狭い数値範囲を含むであろう。
「約」という用語を使用して、数量を修飾する場合、用語は、数量-10%~数量+10%の範囲を指す。
本明細書で提供される小見出しは、本開示を限定することを意図しない。
本明細書でそうでないことが規定されない限りにおいて、本明細書で使用される、全ての技術用語及び科学用語は、当業者により一般に理解される意味と同じ意味を有する。当業者には、本明細書に含まれる用語を含む、多様な学術辞書が周知であり、利用可能である。本明細書で開示される実施形態の実施又は試験において、本明細書で記載される方法及び材料と同様又は同等な、任意の方法及び材料を使用しうるが、一部の方法及び材料について記載する。
すぐ下記で規定する用語は、明細書全体を参照することにより、より完全に記載される。記載される、特定の方法、プロトコール、及び試薬は、それらが当業者により使用される文脈に応じて変動しうるので、本開示は、これらに限定されないことを理解されたい。本明細書で使用される、単数形の「ある(a)」、「ある(an)」、及び「その」は、文脈によりそうでないことが明らかに指示されない限りにおいて、複数の指示対象を含む。
「突然変異」という用語は、後続の世代へと伝えられうる、変異体形態を結果としてもたらす、遺伝子構造の変化であって、DNA内の塩基単位の変更、又は遺伝子若しくは染色体の「大型の」セクションの、欠失、挿入、若しくは再配列により引き起こされる変化を指す。
突然変異は、その突然変異体が、一塩基変異体(SNV)として公知である、一塩基多型(SNP);インデル;及びコピー数変異(CNV)を含むがこれらに限定されない。しかし、「突然変異」という用語は、一部の場合にはまた、前者を、後者から識別する文脈から明らかである通り、SNV及びインデルを含むが、CNVを除外するように、狭義でも使用される。一部の突然変異は、がんと関連することが公知である。このような突然変異を、がん突然変異と称し、対応する変異体を、がん変異体と称する。
一塩基多型(SNP)とは、ゲノム内の特異的な位置で生じる単一のヌクレオチドの変異であり、この場合、各変異は、集団内で、かなりの程度で(例えば、>1%)存在する。
本明細書では、多型と遺伝子多型とは、同じ集団内の、1つのゲノム遺伝子座における、2つ以上のアレルの、各々がかなりの頻度の発生を指すように、互換的に使用される。
本明細書では、多型部位と多型性部位とは、2つ以上のアレルが存在する、ゲノム上の遺伝子座を指すように、互換的に使用される。一部の実施では、多型部位又は多型性部位は、異なる塩基の、2つのアレルを伴う、単一のヌクレオチド変異を指すように使用される。
「アレル」という用語は、遺伝子の、2つ以上の代替的形態を指し、ゲノム上の、同じ遺伝子座において見出される。
「アレルカウント」という用語は、特定のアレルを含む配列リードの数を指す。一部の実施では、アレルカウントは、リードを、基準ゲノム内の位置へとマッピングし、アレル配列を含み、基準ゲノムへとマッピングされたリードをカウントすることにより決定することができる。
アレル頻度とは、分率又は百分率として表されうる、遺伝子の全てのアレルと比べた、遺伝子(又は遺伝子の変異体)のアレルの頻度である。遺伝子は、1つ又は複数の遺伝子座に位置することが多いため、アレル頻度は、特定のゲノム遺伝子座と関連することが多い。
本明細書では、「変異体アレル」という用語を、目的の変異体のアレル、又は、より具体的には、がん関連変異体のアレルを指すように使用する。
「変異体アレル頻度」という用語は、全てのアレルと比べた、変異体アレルの頻度を指す。
「がん細胞分率」(CCF)又は「がん細胞突然変異分率」という用語は、全てのがん細胞の中の体細胞突然変異の変異体アレルを有するがん細胞の分率を指す。CCFは、対象の1つ又は複数の試料について計算することができる。一部の実施に従い、複数の試料を使用する場合、CCFは、単一の試料を使用する場合より、妥当であり、且つ/又は信頼できる。
がん純度とは、試料中の全ての細胞と比べた、がん細胞の部分を指す。
ある特定の体細胞突然変異は、創始細胞内で生じ、細胞の後代細胞の全てへと受け渡される。これらの突然変異を、クローン性突然変異と称する。後代細胞の増殖を、クローン性拡大と称する。本明細書では、後代細胞の集団を、細胞の「クローン」又はクローン性変異種と称する。しかし、別の使用では、「クローン」という用語はまた、後代細胞の集団内の細胞を指すのにも使用される。
一部の体細胞突然変異は、サブクローン性であり、これは、がんクローン内の、既存の新生物性細胞内で生じ、これに由来する細胞の部分集団だけに受け渡される。細胞の部分集団を、細胞の「サブクローン」又はサブクローン性変異種と称する。
「クラスター化」又はクラスター解析とは、同じ群(クラスターと呼ばれる)内の項目が、ある特定の基準に従い、他の群(クラスター)内の項目に対するより、互いに対して類似するように、項目のセットを群分けする方法を指す。クラスター化は、何がクラスターを構成するのか、及びどのようにしてそれらを効率的に見出すのかについてのそれらの理解において著明に異なる、多様な技法により達成することができる。クラスターを形成するための、一般的な基準は、クラスターメンバーの間の距離が小さな群、データ空間の稠密な領域、区間、又は特定の統計学的分布を含む。したがって、クラスター化は、多目的最適化問題として定式化することができる。適切なクラスター化アルゴリズム及びパラメータ設定(使用すべき距離関数、密度の閾値、又は期待クラスターの数等のパラメータを含む)は、個別のデータセット、及び意図される結果の使用に依存する。クラスター化法は、接続性ベースのクラスター化(例えば、階層的クラスター化)、重心ベースのクラスター化(例えば、k-meansによるクラスター化)、分布ベースのクラスター化、及び密度ベースのクラスター化を含むがこれらに限定されない。
二項実験とは、以下の特性:n回の試行の繰返しからなる実験であること;各試行は、2つの可能なアウトカム(成功/失敗)だけを結果としてもたらすこと;pで表される成功の確率が、毎回の試行において同じであること;及び試行が独立であることを有する、統計学的実験である。二項実験の試行の、n回の繰返しにおける、成功の回数Xは、二項ランダム変数である。
二項ランダム変数は、X≒B(n,p)又はX≒BN(n,p)として表記することができる。
二項ランダム変数の確率分布を、二項分布と呼ぶ。単回の実験、すなわち、n=1では、二項分布は、ベルヌーイ分布である。二項分布は、以下の特性:平均値of分布が、μ=n×pであること;分散が、σ2=n×p×(1-p)であること;及び標準偏差が、σ=sqrt[n×P×(1-P)]であることを有する。
二項確率とは、二項実験が、正確にx回の成功を結果としてもたらす確率を指す。二項確率は、以下:
の通りに計算することができる。
ベータ分布は、ランダム変数の指数として現れ、分布の形状を制御する、2つの正の形状パラメータであって、例えば、α及びβ(又はu及びv)により表されるパラメータによりパラメータ化された、区間[0、1]上で規定される、連続確率分布のファミリーである。ベータ分布は、多種多様な専門分野において、有限の長さの区間に限定的なランダム変数の挙動をモデル化するのに適用されている。ベイズ推論では、ベータ分布は、ベルヌーイ分布のための既往の確率分布、二項分布、負の二項分布、及び幾何分布のコンジュゲートである。例えば、ベータ分布を、ベイズ解析において使用して、成功の確率に関する初期知見について記載することができる。
ランダム変数Xの確率分布が、ベータ分布である場合、ランダム変数Xは、ベータランダム変数と称される。ベータランダム変数は、X≒ベータ(α,β)又はX≒β(α,β)として表記することができる。
ベータ確率とは、ベータランダム変数が、値xを有する確率を指す。ベータ確率は、以下:
[式中、ベータ(x;α,β)は、ベータ分布の確率密度関数である、ベータ(α,β)であり、
は、ガンマ関数である]
の通りに計算することができる。
循環無細胞DNA、又は、単に、無細胞DNA(cfDNA)とは、細胞内に閉じ込められておらず、血流中又は他の体液中で循環するDNA断片である。cfDNAは、一部の場合には、腫瘍細胞又は腫瘍罹患細胞と異なり、他の場合には、母胎血液中で循環する胎児性DNAと異なる由来を有することが公知である。一般に、cfDNAは、断片化されており、cfDNAが得られる個体のゲノムと異なりうる、ゲノムの小部分だけを含む。
非循環ゲノムDNA(gDNA)又は細胞内DNAという用語は、細胞内に閉じ込められ、完全ゲノムを含むことが多いDNA分子を指すのに使用される。
「リード」という用語は、核酸試料の部分から得られた配列を指す。リードは、必ずしも、試料中の連続塩基対の短い配列を表すわけではないが、典型的に、これらの短い配列を表す。リードは、試料部分の塩基対配列(A、T、C、又はG)により、記号的に表すことができる。リードは、メモリデバイス内に記憶し、適宜、それが、基準配列とマッチするのか、他の基準を満たすのかを決定するように、加工することができる。リードは、シーケンシング装置から、直接的に得ることもでき、試料に関して記憶された配列情報から、間接的に得ることもできる。場合によって、リードは、例えば、染色体又はゲノム領域又は遺伝子に対してアライメントされ、これらへと具体的に割り当てられる、大型の配列又は領域を同定するのに使用しうるのに、十分な長さ(例えば、少なくとも約25bp)のDNA配列である。
本明細書で使用される「パラメータ」という用語は、その値又は他の特徴が、コピー数変異等、関連する状態に対して影響を及ぼす物理的特色を表す。場合によって、パラメータという用語は、数学的関係又は数学的モデルの出力に影響を及ぼす変数であって、独立変数(すなわち、モデルに対する入力)の場合もあり、1つ又は複数の独立変数に基づく媒介変数の場合もある変数に言及して使用される。モデルの範囲に応じて、1つのモデルの出力は、別のモデルの入力となる場合があり、これにより、他のモデルに対するパラメータとなりうる。
本明細書における「コピー数変異」という用語は、被験試料中に存在する核酸配列のコピー数の変動であって、基準試料中に存在する核酸配列のコピー数と比較した変動を指す。ある特定の実施形態では、核酸配列は、1kb又はこれを超える。場合によって、核酸配列は、全染色体又はその著明な部分である。「コピー数変異体」とは、被験試料中の、目的の核酸配列の、目的の核酸配列の期待レベルとの比較により、コピー数の差違が見出される、核酸の配列を指す。例えば、被験試料中の、目的の核酸配列のレベルを、適格試料中に存在するレベルと比較する。コピー数変異体/変異は、マイクロ欠失を含む欠失、マイクロ挿入を含む挿入、重複、増殖、及び転位を含む。CNVは、染色体異数性及び部分的異数性を包含する。
本明細書における「異数性」という用語は、全染色体又は染色体の一部の喪失又は獲得により引き起こされる、遺伝子素材の不均衡を指す。
本明細書における「染色体異数性」及び「完全な染色体異数性」という用語は、全染色体の喪失又は獲得により引き起こされる、遺伝子素材の不均衡を指し、生殖細胞系列異数性及び異数性モザイクを含む。
「複数」という用語は、1つを超えるエレメントを指す。例えば、本明細書では、この用語は、本明細書で開示される方法を使用して、被験試料中及び適格試料中のコピー数変異の有意な差違を同定するのに十分な、多数の核酸分子又は配列タグに言及して使用される。一部の実施形態では、約20~40bpの間の配列タグ少なくとも約3×106を、各被験試料について得る。一部の実施形態では、各被験試料は、各配列タグが、約20~40bpの間を含む、少なくとも約5×106、8×106、10×106、15×106、20×106、30×106、40×106、又は50×106の配列タグについてのデータをもたらす。
「ポリヌクレオチド」、「核酸」、及び「核酸分子」という用語は、互換的に使用され、共有結合的に連結されたヌクレオチドの配列(すなわち、RNAについてのリボヌクレオチド、及びDNAについてのデオキシリボヌクレオチド)であって、1つのヌクレオチドの五炭糖の3'位を、次のヌクレオチドの五炭糖の5'位へと、ホスホジエステル基により接合した配列を指す。ヌクレオチドは、cfDNA分子等、RNA及びDNA分子を含むがこれらに限定されない、任意の形態の核酸の配列を含む。「ポリヌクレオチド」という用語は、限定せずに述べると、一本鎖ポリヌクレオチド及び二本鎖ポリヌクレオチドを含む。
本明細書における「被験試料」という用語は、典型的に、体液、細胞、組織、内蔵、又は生物に由来する試料であって、検査において解析される、少なくとも1つの核酸配列を含む、核酸又は核酸の混合物を含む試料を指す。ある特定の実施形態では、試料は、少なくとも1つの核酸配列を含む。このような試料は、硬組織及び軟組織、痰/口腔液、羊水、血液、血液画分、又は細針生検試料(例えば、外科生検、細針生検等)、尿、腹水、胸水等を含むがこれらに限定されない。試料は、ヒト対象(例えば、患者)から採取されることが多いが、アッセイを使用して、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタ等を含むがこれらに限定されない、任意の哺乳動物に由来する試料について検査することができる。試料を、生物学的供給源から得られた通りに、直接使用することもでき、試料の特徴を修飾するための前処理の後で使用することもできる。例えば、このような前処理は、血液から血漿を調製すること、粘性流体を希釈すること等を含みうる。前処理の方法はまた、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、乾燥凍結、濃縮、増幅、核酸の断片化、干渉成分の不活化、試薬の添加、溶解等も伴いうるがこれらに限定されない。このような前処理の方法を、試料に関して援用する場合、このような前処理法は、典型的に、目的の核酸が、被験試料中に、場合によって、非処理被験試料(例えば、すなわち、任意のこのような前処理法にかけられていない試料)中の濃度と比例する濃度で、なおも存在するような前処理法である。このような「処理された」又は「加工された」試料もやはり、本明細書で記載される方法に関して、生物学的「被験」試料であると考えられる。
本明細書における「トレーニングセット」という用語は、影響を受けた試料及び/又は影響を受けていない試料を含みうるトレーニング試料のセットを指し、被験試料を解析するためのモデルを開発するのに使用される。一部の実施形態では、トレーニングセットは、影響を受けていない試料を含む。これらの実施形態では、目的のコピー数変異について影響を受けていない試料のトレーニングセットを使用して、CNVを決定するための閾値を確立する。トレーニングセット内の影響を受けていない試料を、正規化配列、例えば、正規化染色体を同定するための適格試料として使用することができ、影響を受けていない試料の染色体量を、目的の配列、例えば、染色体の各々について、閾値を設定するのに使用する。一部の実施形態では、トレーニングセットは、影響を受けた試料を含む。トレーニングセット内の影響を受けた試料を使用して、影響を受けた被験試料を、影響を受けていない試料から、容易に鑑別しうることを検証することができる。
トレーニングセットはまた、目的の集団内の統計学的試料であって、生物学的試料と交絡されない統計学的試料でもある。統計学的試料は、複数の個体を含むことが多く、それらの個体のデータを使用して、集団へと一般化可能な、1つ又は複数の目的の定量値を決定する。統計学的試料は、目的の集団内の個体のサブセットである。個体は、人間、動物、組織、細胞、他の生物学的試料(すなわち、統計学的試料は、複数の生物学的試料を含みうる)、及び統計学的解析のためのデータ点をもたらす、他の個体実体でありうる。
通例、トレーニングセットを、バリデーションセットと共に使用する。「バリデーションセット」という用語は、統計学的試料中の個体であって、それらのデータが、トレーニングセットを使用して決定された、目的の定量値を、バリデーションするか、又は査定するのに使用される個体のセットを指すように使用される。一部の実施形態では、例えば、トレーニングセットが、基準配列についてのマスクを計算するためのデータをもたらすのに対し、バリデーションセットは、マスクの妥当性又は有効性を査定するためのデータをもたらす。
本明細書では、配列のコピー数に関する、遺伝子配列の状態についての統計学的査定に言及して、「コピー数の査定」を使用する。例えば、一部の実施形態では、査定は、遺伝子配列の存在又は非存在の決定を含む。一部の実施形態では、査定は、遺伝子配列の、部分的な異数性又は完全な異数性の決定を含む。他の実施形態では、査定は、遺伝子配列のコピー数に基づく、2つ以上の試料の間の弁別を含む。一部の実施形態では、査定は、統計学的解析、例えば、遺伝子配列のコピー数に基づく正規化及び比較を含む。
「カバレッジ」という用語は、規定された配列へとマッピングされた配列タグの存在度を指す。カバレッジは、配列タグ密度(又は配列タグのカウント)、配列タグ密度比、正規化カバレッジ量、補正カバレッジ値等により、定量的に指し示すことができる。
本明細書における「次世代シーケンシング(NGS)」という用語は、クローン的に増幅された分子及び単一の核酸分子の超並列シーケンシングを可能とするシーケンシング法を指す。NGSの非限定例は、可逆性色素ターミネーターを使用する、合成によるシーケンシング、及びライゲーションによるシーケンシングを含む。
本明細書における「パラメータ」という用語は、系の特性を特徴付ける数値を指す。しばしば、パラメータは、定量データセット及び/又は定量データセットの間の数値関係を、数値的に特徴付ける。例えば、染色体へとマッピングされた配列タグの数と、タグがマッピングされる染色体の長さとの比(又は比の関数)は、パラメータである。
本明細書における「閾値」及び「適格閾値」という用語は、医学的状態を有することが疑われる生物に由来する核酸を含有する被験試料等の試料を特徴付けるためのカットオフとして使用される、任意の数を指す。閾値を、パラメータ値と比較して、このようなパラメータ値をもたらす試料は、生物が、医学的状態を有することを示唆するのかどうかを決定することができる。ある特定の実施形態では、適格閾値は、適格化データセットを使用して計算され、生物におけるコピー数変異、例えば、異数性についての診断限界として用いられる。本明細書で開示される方法から得られた結果が、閾値を上回る場合、対象を、コピー数変異、例えば、トリソミー21を伴うと診断することができる。本明細書で記載される方法に適切な閾値は、試料のトレーニングセットのために計算された正規化値(例えば、染色体量、NCV、又はNSV)を解析することにより同定することができる。閾値は、適格(すなわち、影響を受けていない)試料を、適格(すなわち、影響を受けていない)試料、及び影響を受けた試料の両方を含むトレーニングセット内で使用して同定することができる。染色体異数性を有することが公知である、トレーニングセット内の試料(すなわち、影響を受けた試料)を使用して、選択された閾値が、テストセット内の、影響を受けた試料を、影響を受けていない試料から鑑別するのに有用であることを確認することができる(本明細書の実施例を参照されたい)。閾値の選択は、使用者が、分類を行うのに有することを望む、信頼性の水準に依存する。一部の実施形態では、適切な閾値を同定するのに使用されるトレーニングセットは、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも2000、少なくとも3000、少なくとも4000例、又はこれを超える例数の適格試料を含む。適格試料の大きなセットを使用して、閾値の診断的有用性を改善することは、有利でありうる。
「ビン」という用語は、配列のセグメント、又はゲノムのセグメントを指す。一部の実施形態では、ビンは、ゲノム内又は染色体内で、互いと連続的である。各ビンは、基準ゲノム等の基準配列内のヌクレオチドの配列を規定しうる。ビンのサイズは、特定の適用により要求される解析、及び配列タグの密度に応じて、1kb、100kb、1Mb等でありうる。基準配列内のそれらの位置に加えて、ビンは、試料カバレッジ、及びG-C画分等の配列構造特徴等、他の特徴を有しうる。
「リード」という用語は、核酸試料の部分から得られた配列を指す。リードは、必ずしも、試料中の連続塩基対の短い配列を表すわけではないが、典型的には、これらを表す。リードは、試料部分の塩基対配列(A、T、C、又はG)により、記号的に表すことができる。リードは、メモリデバイス内に記憶し、適宜、それが、基準配列とマッチするのか、他の基準を満たすのかを決定するように、加工することができる。リードは、シーケンシング装置から、直接的に得ることもでき、試料に関して記憶された配列情報から、間接的に得ることもできる。場合によって、リードは、例えば、染色体又はゲノム領域又は遺伝子に対してアライメントされ、これらへと具体的に割り当てられる、大型の配列又は領域を同定するのに使用しうるのに、十分な長さ(例えば、少なくとも約25bp)のDNA配列である。
本明細書では、「配列タグ」という用語は、アライメントにより、大型の配列、例えば、基準ゲノムへと、特異的に割り当てられた、すなわち、マッピングされた配列リードを指すように、「マッピングされた配列タグ」という用語と互換的に使用される。マッピングされた配列タグは、基準ゲノムへと、固有にマッピングされる、すなわち、マッピングされた配列タグは、基準ゲノムの単一の位置へと割り当てられる。そうでないことが指定されない限りにおいて、基準配列上の同じ配列へとマッピングされるタグは、1回カウントされる。タグは、データ構造又は他のデータの集合として提供することができる。ある特定の実施形態では、タグは、リード配列と、ゲノム内の配列の位置、例えば、染色体上の位置等、このリードに関連する情報とを含有する。ある特定の実施形態では、位置を、プラス鎖の配向性に指定する。タグは、基準ゲノムに対してアライメントするときのミスマッチの量の制限を可能とするように規定することができる。一部の実施形態では、基準ゲノム上の、1つを超える位置へとマッピングされうるタグ、すなわち、固有にマッピングされないタグは、解析に組み入れることができない。
「遺伝子座」又は「部位」という用語は、基準ゲノム上の固有の位置(すなわち、染色体ID、染色体の位置及び配向性)を指す。一部の実施形態では、部位は、残基、配列タグ、又は配列上のセグメントについての位置をもたらしうる。
本明細書で使用される、「アライメントされた」、「アライメント」、又は「~をアライメントすること」という用語は、リード又はタグを、基準配列と比較し、これにより、基準配列が、リード配列を含有するのかどうかを決定する方法を指す。基準配列が、リードを含有する場合、リードを、基準配列へとマッピングすることもでき、ある特定の実施形態では、基準配列の特定の位置へとマッピングすることもできる。場合によって、アライメントは単に、リードが、特定の基準配列のメンバーであるのかどうか(すなわち、リードが、基準配列内に存在するのか、存在しないのか)を告げる。例えば、リードの、ヒト第13染色体についての基準配列に対するアライメントは、リードが、第13染色体についての基準配列内に存在するのかどうかを告げるであろう。この情報をもたらすツールを、セットメンバーシップテスターと呼ぶことができる。場合によって、アライメントは、加えて、リード又はタグがマッピングされる、基準配列内の位置も指し示す。例えば、基準配列が、全ヒトゲノム配列である場合、アライメントは、リードが、第13染色体上に存在することを指し示すことが可能であり、リードが、第13染色体の特定の鎖及び/又は部位上に存在することを更に指し示しうる。
アライメントされたリード又はタグは、基準ゲノムに由来する公知の配列に対する、それらの核酸分子の順序の関係で、マッチとして同定される、1つ又は複数の配列である。アライメントは、手動でなされうるが、リードを、本明細書で開示される方法を実施するために妥当な時間内でアライメントすることは不可能であるので、典型的に、コンピュータアルゴリズムにより実行される。配列をアライメントするためのアルゴリズムの一例は、Illumina Genomics Analysisパイプラインの一部として頒布されている、Efficient Local Alignment of Nucleotide Data(ELAND)コンピュータプログラムである。代替的に、ブルームフィルター又は類似のセットメンバーシップテスターを援用して、リードを、基準ゲノムに対してアライメントすることができる。参照によりその全体において本明細書に組み込まれる、2011年10月27日に出願された、米国特許出願第61/552,374号を参照されたい。アライメントにおける配列リードのマッチングは、100%の配列マッチの場合もあり、100%未満の配列マッチ(不完全なマッチ)の場合もある。
本明細書で使用される「~をマッピングすること」という用語は、アライメントにより、配列リードを、より大型の配列、例えば、基準ゲノムへと、具体的に割り当てることを指す。
本明細書の、核酸又は核酸の混合物の文脈で使用される場合の、「導出された」という用語は、核酸を、それらが由来する供給源から得る手段を指す。例えば、一実施形態では、2つの異なるゲノムに由来する核酸の混合物は、核酸、例えば、cfDNAが、天然で、ネクローシス又はアポトーシス等の自然発生の過程を介して、細胞により放出されたことを意味する。別の実施形態では、2つの異なるゲノムに由来する核酸の混合物は、核酸が、対象に由来する2つの異なる種類の細胞から抽出されたことを意味する。
本明細書では、具体的な定量値を得る文脈において使用される場合の、「~に基づき」という用語は、入力としての別の数量を使用して、具体的な定量値を、出力として計算することを指す。
本明細書における「体液」という用語は、生物学的供給源から採取された液体を指し、例えば、血液、血清、血漿、痰、洗浄液、脳脊髄液、尿、***、汗、涙液、唾液等を含む。本明細書で使用される「血液」、「血漿」、及び「血清」は、画分又は加工されたその部分を明示的に包含する。同様に、試料を、生検、スワブ、スミア等から採取する場合、「試料」は、生検、スワブ、スミア等に由来する加工された画分又は部分を明示的に包含する。
本明細書で使用される「染色体」という用語は、生細胞の遺伝形質を保有する遺伝子担体であって、DNA及びタンパク質成分(とりわけ、ヒストン)を含む、クロマチン鎖に由来する遺伝子担体を指す。本明細書では、従来の国際的に認知された、個体のヒトゲノム染色体番号付けシステムが援用される。
本明細書で使用される「感度」という用語は、目的の状態が存在する場合に、検査結果が陽性である確率を指す。「感度」は、真陽性と偽陰性との合計で除した真陽性の数として計算することができる。
本明細書で使用される「特異度」という用語は、目的の状態が存在しない場合に、検査結果が陰性である確率を指す。「特異度」は、真陰性と偽陽性との合計で除した真陰性の数として計算することができる。
序説及び背景
本技法は、体細胞突然変異のクローン性を、シーケンシングデータから推論するための、新規の手法をもたらす。数百に及ぶ体細胞突然変異のセットを解析するのに、数時間を要する、他の技法とは対照的に、開示される技法は、数百~数千に及ぶ体細胞突然変異のクローン性を、1分間以内に推論し、実質的なコンピュータリソースを節約する。更に、開示される技法は、既存の方法と同様の精度ももたらす。開示される技法のさらなる利点は、体細胞突然変異のクローン性を、単一の腫瘍試料から推論する場合の、同じ腫瘍からの多重部位サンプリングと対比した精度の喪失が、既存の方法と比べて軽減されることである。
本技法は、ネオ抗原の予測/優先パイプラインの一部として実行することができる。図1は、がんの進行時に生じうる体細胞突然変異により引き起こされる、突然変異ペプチドの例についての概略図である。突然変異ペプチドは、突然変異ペプチドネオ抗原に対する免疫反応であって、ネオ抗原を発現している細胞をターゲティングする免疫療法により利用される免疫反応を発生させうる。このような治療は、チェックポイント阻害剤療法のほか、患者によって発現されるネオ抗原のセットへとカスタマイズされた、ワクチンベースの療法を含みうる。このような療法は、高価であり、且つ、投与が複雑であるため、どの患者が、免疫ベースの療法の企図から、改善を受ける可能性が高いのかを決定することは、有益であろう。ネオ抗原ターゲティングに依拠する免疫療法の成功が、腫瘍細胞の集団内のネオ抗原の頻発に依存する場合があり、ネオ抗原のクローン性が、チェックポイント阻害剤療法に対するレスポンダーの、非レスポンダーからの弁別において、重要な因子であることが裏付けられている。図2は、サブクローン性のネオ抗原を発現している腫瘍へと適用された、チェックポイント阻害剤療法についての概略的例示である。抑制されたT細胞であって、ネオ抗原12をターゲティングするT細胞は、チェックポイント阻害剤療法に応答して活性化する。しかし、ネオ抗原12は、腫瘍内の全ての腫瘍細胞において発現するわけではないため、療法は、腫瘍細胞のサブセットだけをターゲティングし、ネオ抗原12を発現していない腫瘍細胞は、T細胞の影響を受けないので、これは、不完全な腫瘍ターゲティング、及び治療の不成功を結果としてもたらす。
本技法は、ワークフローの全試行時間の著明な増大の必要を伴わずに、ネオ抗原の発現を呈示する腫瘍細胞の集団の予測、及び所与の腫瘍試料と関連する、特定のネオ抗原の特徴付けの改善をもたらす。このような予測は、免疫ベースの療法の、このような治療に応答する可能性が小さい腫瘍を有する患者への投与を防止しうる。加えて、がんは、時間と共に進行するため、個々の患者の腫瘍をモニタリングして、かつて、免疫ベースの療法の候補と考えられなかった患者の腫瘍状態が、患者の、免疫ベースの療法に対して応答する可能性を高くするように変化するのかどうかを決定することができる。かつての技法は、体細胞突然変異のクローン性を推論するのに、リソース集約的な計算を伴うが、開示される新規の手法は、クローン性の正確な推論を、数時間ではなく、数分間で可能とすることから、このような決定を、臨床的にアクセス可能とする。
図3は、正常細胞、及び特定の体細胞突然変異を伴う腫瘍細胞と、特定の体細胞突然変異を伴わない腫瘍細胞との異種混合物を含む腫瘍についての概略的例示である。例示された例は、単一の体細胞突然変異へと適用されるものであり、他の体細胞突然変異は、試料中で、異なる分布を有しうることを理解されたい。更に、試料中の、正常細胞と、腫瘍細胞との混合は、腫瘍内の異なる部位から採取された試料について異なりうる。例示された例における、体細胞突然変異のがん細胞分率は、70%であり、体細胞突然変異を含む腫瘍細胞の百分率に基づき、体細胞突然変異を含む正常細胞には基づかない。
体細胞突然変異の影響を受けた細胞の分率が増大するのにつれて、突然変異した遺伝子座へとマッピングされ、この突然変異を表示する配列リードの期待分率である、変異体アレル頻度(VAF)もまた、増大するであろう。試料が、腫瘍細胞だけから構成され、体細胞突然変異が、2つのアレルのうちの1つだけに影響を及ぼす場合、CCFは、正常細胞14及び腫瘍細胞16の全てが、変異体アレル20として指し示される、体細胞突然変異の1つのコピーを含む、図4の例において示される通り、単純に、期待変異体アレル頻度の2倍である。すなわち、変異体アレル頻度が、0.5(配列変異体を含む配列リードのうちの50%を示す)である場合、CCFは、1(試料中の細胞の100%に存在する変異体アレルを示す)である。
しかし、図5の例において示される通り、腫瘍試料は、腫瘍細胞だけから構成されるわけではなく、また、正常細胞22からも構成される。更に、腫瘍試料中の腫瘍細胞は、互いと相違し、異なる特徴の体細胞突然変異を有する細胞を含む、異種でありうる。したがって、腫瘍は、特定の体細胞突然変異を含まない細胞24と、特定の体細胞突然変異を含む細胞26との混合物を含む。更に、第2の(又は異なる)体細胞突然変異を考える場合、混合は、第2の突然変異を有する細胞24、及び第2の突然変異を含まない細胞26により変化しうる。クローン性集団では、同様の腫瘍細胞の画分内で見出される体細胞突然変異の同定が、本明細書で提供される、同じサブクローンの一部であると考えうるように、ある特定の体細胞突然変異は、一体に遺伝するであろう。一実施形態では、別の体細胞突然変異の、別のがん細胞分率と比べて、±5%内のがん細胞分率を有する、個別の体細胞突然変異は、同じサブクローンの一部である可能性が高いと考えられうる。すなわち、ある体細胞突然変異が、x%のがん細胞分率を有する場合、x-5%~x+5%の範囲のがん細胞分率を有する他の体細胞突然変異は、同じサブクローンの一部である可能性が高いと考えられうる。他の実施形態では、同じサブクローンの一部である体細胞突然変異は、本明細書で提供される、クラスター化解析を介して同定することができる。
図5は、70%のCCFを有する体細胞突然変異の例についてのVAFが、20%であることを示すが、これは、非腫瘍細胞のほか、体細胞突然変異を有さない腫瘍細胞を含む試料を反映する。このような場合、変異体アレル頻度は、腫瘍純度(p)と、がん細胞分率との関数である。図6において示される通り、5つの非腫瘍細胞28と、10の腫瘍細胞とを伴い、腫瘍細胞が、体細胞突然変異を伴わない細胞30と、体細胞突然変異が、変異体アレル34として指し示される、体細胞突然変異を伴う細胞32との混合物を含む腫瘍について、腫瘍純度(p)は、33%と表される。
しかし、これは、期待VAFと、がん細胞分率との関係にもまた、影響を与えうる、腫瘍細胞内のコピー数変異を明らかにしない。図7は、腫瘍細胞の一部だけにおいて、体細胞突然変異を含む遺伝子座が、正常細胞と比べて、非変異体アレルのコピー数を獲得させる例を示す。すなわち、腫瘍細胞34において示される通り、体細胞突然変異は、サブクローン性であるが、非変異体アレルにおけるコピー数獲得は、正常細胞38と比べて、体細胞突然変異を含まない腫瘍細胞36を含む、腫瘍細胞の集団にわたる。更に、CNVは、サブクローン性であることが可能であり、図8の例において示される通り、体細胞突然変異と同じ、腫瘍サブクローンのセットに影響を及ぼす場合もあり、体細胞突然変異と異なる、腫瘍サブクローンのセットに影響を及ぼす場合もある。ある特定のCNVは、突然変異を保有するアレルに影響を及ぼすが、他のCNVは、他のアレルに影響を及ぼす。例示した例において示される通り、腫瘍細胞の1つの集団42は、CNV及び体細胞突然変異に関して、正常細胞44と同様の表現型を呈示する。腫瘍細胞の別の集団46は、体細胞突然変異を含むが、CNVを含まないのに対し、腫瘍細胞の更に別の集団48は、CNV及び体細胞突然変異の両方を含む。以上の全てにより、期待VAFとCCFとの一般的関係は、
[式中、pは、腫瘍純度であり、nは、突然変異を保有する細胞内の、このゲノム遺伝子座の突然変異コピーの平均数であり、Nは、試料中の全ての細胞にわたる、このゲノムの遺伝子座の平均コピー数であり、p、n、N、及びCCFは全て、未知の数量である]と書くことができる。
観察されるVAFは、期待VAFの推定値(これについては、CCFに対する関係が成り立つ)である。シーケンシング深度が増大するにつれて、観察されるVAFは、期待VAFに近づく。したがって、大きな深度は、通例、良好なCCF推定値をもたらすであろう。しかし、ある特定の実施形態では、観察されるVAFのばらつきは、同じ腫瘍サブクローン内に存在する、全ての体細胞突然変異にわたる情報を使用して対処することができる。複数の体細胞突然変異が、同じ腫瘍サブクローン内に存在する場合、それらは、定義により、同じCCF(且つ、それらが、CNVと重複しない場合は、同じ期待VAF)を有するであろう。
どの体細胞突然変異が、同じ腫瘍サブクローンに属するのか、又はどのくらい多くのサブクローンが、特定の腫瘍内に見出されうるのかは、不明である。しかし、体細胞突然変異を、それらのVAF又はCCFに基づきクラスター化することにより、腫瘍サブクローンの数を推定することができ、各クラスター内の全ての突然変異についての最終CCF推定値を、このクラスターについての平均値(又は他の統計量)CCFとして割り当てることができる。
体細胞突然変異は、単一の試料に基づきクラスター化することができる。しかし、同じ腫瘍に由来する複数の試料が利用可能である場合に、クラスター化は、より信頼できるものとなる。複数の試料が、利用可能である場合、同じサブクローンに由来する突然変異が、全ての試料にわたり、一貫して、同じがん細胞分率を有する(共変異)ことが期待される。したがって、このような共変異のパターンが、観察される場合、変異体は、より信頼できる形で、併せてクラスター化することができる。
本技法は、既存の方法に対して、VAFから、CCFを推定するために、ある種の簡略式仮定を行う利点をもたらす。これらの方法の欠点は、CNV状況の多様性及び腫瘍純度のばらつきの効果を顧みないことに起因する不正確さを含む。更に、ある特定の技法は、CNVと重複する体細胞突然変異により引き起こされる、推定値の不正確さを明らかにしない。これは、腫瘍内の分率が極めて大きな体細胞突然変異が、CNVと重複することが多いためである。
別の一般的な仮定は、CNVが、クローン性であることである。これを仮定する方法はまた、腫瘍細胞内の、CNVに影響を受ける遺伝子座のコピー数と、腫瘍純度とが、既に試行されたCNV判定ツールにより、正確に推定されたことも仮定する。このような仮定が満たされる場合、Nは、
N=p×C+(1-p)×2
[式中、Cは、全ての腫瘍細胞における、この遺伝子座のコピー数である]として推定されるであろう。この場合、nもまた、1~Cの間の、限定数の整数値、なお又は、アレルのコピー数の値が入手可能である場合、より少数の可能な値だけを仮定しうる。このような方法は、n及びCCFのどの値が、観察されるVAFをもたらす可能性が最も高いのかを決定するであろう。ある特定の方法によりなされたクローン性CNV仮定に対する変化形は、CNVは、必ずしも、クローン性ではないが、体細胞突然変異を保有する全ての細胞は、CNVの影響を受けるか、又はCNVの影響を受けない(CNVは、突然変異を保有する細胞の部分だけに影響を及ぼすわけではありえない)ことである。これは、他の方法の欠陥に取り組みうるものの、大半のCNV判定ツールはまた、CNV領域のコピー数を推定する場合に、CNVが、クローン性であることも仮定するので、より複雑なモデルから得られうる利益は、それほど顕著ではない可能性がある。腫瘍サブクローンの数、及び、どの突然変異が、同じサブクローンに属するのかについての推論は、場合によって、マルコフ連鎖モンテカルロ解析又は関連する方法を使用して、他のパラメータについての推論と同時になされ、潜在的に、最も可能性が高いCCFと、体細胞突然変異の全セットにわたるnの値とを決定する一助となりうる。このような手法の否定的側面は、完全な解析に必要な時間である。
本技法は、共時的に、複雑な演算負荷を追加せずには、腫瘍試料中のCNVの複雑性に正確に取り組むことがない、他の方法の欠陥に取り組む。したがって、より迅速に実行され、本技法を使用するデバイスが、より効率的に作動するように、より小さな演算負荷を使用する、体細胞突然変異のクローン性の効率的推論が提供される。
本技法は、この突然変異を保有する各細胞内に、突然変異アレルのコピーが1つだけ存在する(n=1)と仮定することにより、CNV複雑性の問題に取り組む。この仮定は、CNVと重複しないか、コピー数の喪失と重複するか、又はコピー数の獲得と重複する、全ての体細胞変異体であって、突然変異アレルに特異的に影響を及ぼさなかった体細胞変異体について成り立つであろう。これにより、CCFと、期待VAFとの関係は、
[式中、pは、腫瘍純度であり、Nは、試料中の全ての細胞にわたる、このゲノムの遺伝子座の平均コピー数である]となる。p及びNの推定値は、腫瘍-正常-濃縮モードにおけるCanvas判定アルゴリズム(Illumina, Inc)等のCNV判定アルゴリズムにより求める。Canvasとは、(a)大半が二倍体の生殖細胞系列である試料、又は(b)同じ個体に由来する腫瘍試料と併せた生殖細胞系列試料に由来するコピー数変異体を判定するためのアルゴリズムである。正常生殖細胞系列試料の大多数は、二倍体である、すなわち、2つのコピーを有するであろう。しかし、腫瘍試料は、大半が、より広範に再配列されている。Canvasは、ゲノム内に、0、1、又は2回を超えて存在する、試料のゲノム領域を同定する。略述すると、これは、期待されない数の、短いリードアライメントを有する領域について、ゲノムを走査することにより達成される。期待されるより少ないアライメントを伴う領域を、喪失として分類する。期待されるより多くのアライメントを有する領域を、獲得として分類する。次いで、この解析を使用して、個別の遺伝子座におけるコピー数変異を推定する。整数のコピー数推定値を使用するのではなく、本技法は、試料中の全ての細胞にわたる、このゲノム遺伝子座の平均コピー数(N)を推定する、正規化カバレッジ推定値を使用する。実数値による正規化カバレッジを使用することの利点は、これが、CNVのクローン性を仮定する、他の技法の欠陥に対処することである。これにより、初期仮定が成り立つ限りにおいて、本技法により生成されるCCF推定値は、クローン性CNV及びサブクローン性CNVのいずれとも重複する変異体に妥当であろう。
n>1である場合、本技法によりもたらされるCCF推定値は、潜在的に、1より大きいであろう。このような無意味なCCF推定値を回避するために、CCF推定値の上限を1とする。したがって、初期CCF推定値は、以下の式:
を使用して求める。
初期CCF値を推定したら、SciClone Rパッケージを使用して、それらのCCFに基づき、体細胞突然変異をクラスター化する。SciCloneは、それらのVAFに基づき、CNV領域の外部にある体細胞変異体をクラスター化する。クラスター化のための、SciCloneによる、変分ベイズ混合モデルの使用は、同時的なクラスター化、及びクラスター数の推論を可能とし、他の方法により使用される、確率的マルコフ連鎖モンテカルロ技法より、著明に効果的である。しかし、本技法は、体細胞変異体を、VAFの代わりに、CCF(コピー数について正規化された)に基づきクラスター化したが、これは、CNVが重複する体細胞変異体のクラスター化を可能とする。SciCloneはまた、単一試料内のクラスター化、及び同じ腫瘍の複数の試料にわたるクラスター化のいずれも可能とする。本明細書で提供される通り、クラスター化法は、二項混合モデル、ベータ混合モデル、又はガウス混合モデルを含む、様々な異なる混合モデルを使用して実行することができる。このような確率的クラスター化は、異なるクラスターの各々に属する、個別の配列変異体(体細胞突然変異を表す)の確率推定値の出力の生成をもたらす。ある特定の実施形態では、本技法は、クラスター化後のCCF推定値を、各クラスター内の体細胞突然変異についての平均値CCFと、各クラスターに属する突然変異の事後確率との線形結合へと更新する。実際のシーケンシング深度と、代替的アレルのカウントとに依存する、クラスター工程の二項混合モードを使用する場合、代替的アレルカウントを、VAFの代わりに、CCFと符合させるように補正する(代替的カウント=深度×ccf)。
技法上の問題及び技術的改善
がんを有効に処置するために、がんの基底をなす突然変異だけでなく、また、突然変異のクローン構成も理解することが重要である。がんのクローン構成に関連する多数のパラメータは、治療を設計するために有用である。例えば、がん細胞の分率と、サブクローンの数とは、がんのクローン性についての、重要な尺度である。これらのパラメータを決定するための、1つの方途は、単一細胞シーケンシング法を使用して、がん試料中の、個別の細胞の突然変異を決定することである。個別の細胞の遺伝情報に基づき、がん細胞のクローン構造を決定することができる。しかし、単一細胞シーケンシング法は、多様な限界を有する。現時点で、単一細胞シーケンシングは、高価であり、多数のがん細胞を検討するように、効率的に実行することができない。更に、単一細胞シーケンシング法を使用する場合、アレルの欠落等、技法上の難題も、依然として存在する。
複数の細胞のシーケンシングデータを使用して、がん変異体の変異体アレル頻度を直接測定することができる。しかし、変異体アレル頻度の直接的な測定は、突然変異の、ある特定のクローン構造についての情報をもたらさない。がん細胞分率(CCF)は、変異体アレル頻度に関するだけでなく、また、コピー数変異及び腫瘍純度も考慮に入れることから、がん突然変異の特徴についての、より多くの情報をもたらす。しかし、個別の突然変異についてのがん細胞分率は、シーケンシング深度が限定的であり、これにより、観察又は測定されたがん細胞分率は、ノイズが多く、信頼できないものとなる。
観察されるVAF又はCCFは、期待VAF又は期待CCFの推定値である。シーケンシング深度が増大するにつれて、観察値は、期待値に近づく。シーケンシング深度を増大させることにより、観察値の信頼性を増大させることができる。しかし、このような手法は、シーケンシング深度の増大を実現するのに、より多くの時間、素材、及び費用を要求する。一部の既存の方法は、サブクローン内に存在する突然変異の測定値を集計することにより、結果の信頼性を改善しようと試みる。サブクローン性の細胞は、同じ突然変異を有し、したがって、同じCCFを有すると想定される。しかし、これらの方法は、多様な技法上の限界を含む。例えば、広く使用される方法であるPyCloneは、マルコフ連鎖モンテカルロ(MCMC)シミュレーション法を使用する。しかし、MCMC法は、演算的に要求が多く、連鎖の収束についての仮定に依拠し、これは、不確実性を導入する。更に、方法は、部分的に突然変異と重複する、コピー数変異を明らかにしない。
コピー数を使用してクローン性を推論する、他の方法は、腫瘍試料が、サブクローン性のコピー数事象を保有しないという、簡略式の仮定を行うことにより、演算上のオーバーヘッドを回避する。このような仮定は、正しくないことが多い。一部の方法は、単に、CNV及び腫瘍純度の効果を、完全に無視するか、又はCNVと重複する体細胞突然変異を扱わない。代わりに、これらの方法は、どの体細胞突然変異が、同じサブクローンに属するのかを決定すること、すなわち、クラスター化の問題に焦点を当てる。腫瘍内の分率が極めて大きい体細胞突然変異が、CNVと重複するため、これらの既存の方法は、所望されない。多くの方法は、CNVが、クローン性であることを仮定する。しかし、上記で説明した通り、CNVは、常にクローン性であるわけではない。
広く使用されるツールであるPyCloneによりなされる、クローン性CNV仮定についての変化形は、CNVは、必ずしも、クローン性ではなく、体細胞突然変異を保有する全ての細胞は、CNVの影響を受けているか、又は影響を受けていないということである(Rothら(2014)、Nat Meth、11:396~398)。言い換えると、PyCloneは、CNVが、突然変異を保有する細胞のごく一部に影響を及ぼしうるわけではないことを仮定する。この仮定は、やはり、常に真ではなく、CCF又は変異体アレル頻度(VAF)推定値の不正確さをもたらしうる。
既存の一方法である、SciCloneは、VAFをクラスター化し、1つ又は複数のクラスターに属する変異体の確率を決定することにより、変異体アレル頻度を決定するのに、変分混合モデルを使用する。しかし、SciCloneによるクラスター化は、突然変異遺伝子座における平均コピー数、変異体アレルのコピー数、又は腫瘍純度レベルを明らかにしない(Millerら(2014)、PLoS Comput Biol、10(8):e1003665)。
突然変異の影響を受けるがん細胞の分率(CCF)が増大すると、突然変異の遺伝子座へとマッピングされ、突然変異を表示するリードの期待分率(VAF)もまた増大する。試料が、腫瘍細胞だけから構成され、体細胞突然変異が、2つのアレルのうちの1つだけに影響を及ぼす場合、CCFは、単に、期待変異体アレル頻度の2倍である。しかし、腫瘍試料は、腫瘍細胞だけでなく、また、正常細胞も含む。また、コピー数変異も、期待VAFと、CCFとの関係に影響を与えうる。更に、CNVは、体細胞突然変異と同じ、腫瘍又はクローンのセットに影響を及ぼす場合もあり、体細胞突然変異と異なる、腫瘍又はクローンのセットに影響を及ぼす場合もある。CNVは、一部の場合には、突然変異を保有するアレルに影響を及ぼし、一部の場合には、他のアレルに影響を及ぼす。これらの全てにより、期待VAFとCCFとの一般的関係は、
[式中、pは、腫瘍純度であり、nは、突然変異を保有する細胞内の、このゲノム遺伝子座の突然変異コピーの平均数であり、Nは、試料中の全ての細胞にわたる、このゲノムの遺伝子座の平均コピー数である]と書くことができる。VAFを測定し、クラスター化する、SciClone等の方法は、腫瘍純度又はコピー数変異を十分に明らかにする。
本開示の一部の実施は、既存の方法の多様な欠点に対処しながら、CCFを推定し、がん細胞のクローン性を査定するための方法及びシステムを提供する。本開示の実施は、サブクローン内の、複数の突然変異に由来する情報を集約して、推定CCFの信頼性を増大させる。本開示の実施は、同じサブクローン内の体細胞突然変異に由来するデータを集約することにより、シーケンシング深度を増大させずに、尺度の精度を増大させうる。どの体細胞突然変異が、同じ腫瘍サブクローンに属するのか、又はどのくらい多くのサブクローンが、この腫瘍内に見出されうるのかは、事前には知られていない。本開示の実施は、それらのCCFに基づき、体細胞突然変異をクラスター化するクラスター化法を使用する。開示される実施は、腫瘍純度、並びに突然変異体及び突然変異遺伝子座のコピー数を考慮に入れて、VAFの代わりに、CCFをクラスター化する。次いで、開示される実施は、突然変異が属するクラスターについての、CCF値の平均値(又は他の統計学的平均)に基づき、突然変異についての最終CCFを決定する。
PyCloneと異なり、開示される実施は、MCMCに依拠せず、これにより、不確実性を低減し、演算速度を増大させる。一部の実施では、方法は、結果を数秒間で達成し、得るが、MCMC法を使用する既存の方法は、結果を7時間で得る。
MCMCは、実施するのに、大量のコンピュータメモリを要求することが周知である。MCMCを使用しない、開示される方法は、タスクを実行するのに要求されるコンピュータメモリを、大幅に低減しうる。
オンライン刊行物で、Guilhotoは、MCMCを使用して解析された二次元の例について、各次元を、500に分割する場合、これは、サイズを5002=250000とする状態空間と、要素の総数を12500000000とする遷移行列とを結果としてもたらすことを例示する。各要素が、4バイトのメモリ(少なく見積もって)を使用して記憶されるとすると、全行列では、250GBのメモリを要求することを意味する。各々がm個の区画へと分割される、n次元では、要求されるメモリの量は、O(m2n)となるであろう。このようなコンピュータメモリへの要求は、リソースへの要求過多である。要求されるコンピュータメモリを低減しようとするための1つの次善策は、メモリ内の全ての値を記憶するのではなく、それが要求された時点ごとに、任意の具体的な遷移確率を計算することである。しかし、これは、プログラムを、更に遅延させる。math dot uchicago dot edu/~may/REU2017/REUPapers/Guilhoto.pdfを参照されたい。
したがって、MCMCに依拠しない、開示される方法は、コンピュータメモリの使用を低減し、演算速度を、PyClone等、MCMC法を適用する、既存の方法と比較して改善しうる。
更に、本開示の多様な実施は、クローン性ではないCNVを明らかにしうる。すなわち、本開示の多様な実施は、全てのがん細胞が、CNVの影響を受けるか、又はCNVの影響を受けないことを仮定しない。本開示の多様な実施はまた、体細胞突然変異を保有する全てのがん細胞が、CNVの影響を受けるか、又はCNVの影響を受けないことも仮定しない。
上記の技法上の特性のために、開示される実施は、CCF及びがんのクローン性についての、より正確で、且つ、より妥当な推定値を達成しうる。開示される実施は、多様な試料にわたり、一貫した結果をもたらす。複数の試料を使用する、一部の実施では、CCF及びクローン性の推定値は、更に改善される。実施は、MCMCを要求しないため、MCMC法を使用する既存の方法より、5桁大きな速度で、結果を得うる。開示される実施はまた、コンピュータメモリへの要求も、MCMC法を使用する既存の方法より、はるかに小さい。
がん細胞のCCF及びクローン性の推定
ワークフローについての概観
(i)試料の採取
ワークフローは、単一の腫瘍試料を採取することで始まる。腫瘍は、体細胞突然変異を含む場合もあり、これらを含まない場合もある、非がん細胞を含みうるであろう。腫瘍試料はまた、サブクローンに固有の、1つ又は複数の体細胞突然変異、及び他のサブクローン又は創始クローンにおいて現れる、1つ又は複数の突然変異を含みうる、第1のサブクローン変異種、又は、単に、サブクローン性のがん細胞も含む。加えて、試料は、第1のサブクローンのほかに、1つ又は複数のサブクローンも有するがん細胞を含みうる。これらのさらなるサブクローンの各々は、その独自のサブクローンに固有の、1つ又は複数の突然変異、及び/又はそれが、1つ又は複数の他のサブクローンと共有する、1つ又は複数の突然変異(例えば、創始クローンのクローン性突然変異)を有しうるであろう。ある特定の突然変異は、全てのサブクローン内に見出されうる。このような突然変異は、クローン性突然変異又は生殖細胞系列突然変異である。サブクローン内だけに見出される突然変異を、サブクローン性突然変異と考える。腫瘍内の全てのがん細胞(すなわち、全てのサブクローン)にわたる、体細胞突然変異を含むがん細胞の分率は、腫瘍の重要な特性である。
一部の実施では、試料は、対象の組織から得られた細胞内DNAを含む。一部の実施では、腫瘍試料は、体液中で循環し、がん細胞に由来する無細胞DNA(cfDNA)を含む。
開示される方法を適用するために、試料は、与えられた腫瘍細胞内に、少なくとも2つの体細胞突然変異が存在することを前提とすることに注目されたい。しかし、単一試料は、1つ又は複数のサブクローンを含みうる。単一の変異体とは、定義により、前記変異体が、クローン性であり、試料中の他の全ての細胞が、非がん性であることを意味する。
本明細書で開示される方法は、被験個体に由来する1つ又は複数のがん試料について解析しうる。一部の実施では、複数の試料を解析することは、結果の精度及び妥当性を改善する。
開示される工程に使用される被験試料は、腫瘍細胞に由来するDNAを含む。被験試料は、多様な腫瘍試料であることが可能であり、例えば、組織試料及び流体試料を参照されたい。関連する被験試料についてのさらなる記載については、「試料」節を参照されたい。
(ii)試料から配列リードを得る工程
ワークフローは、被験試料をシーケンシングして、体細胞突然変異を保有する複数の遺伝子座のうちの各遺伝子座について、カバレッジ(リードのカウント又はリードの存在度)をもたらす工程を伴う。「シーケンシング法」節において記載される、多様なシーケンシング技術を使用することができる。遺伝子座について、がん関連アレル及び野生型アレルを同定する。これらの 遺伝子座は、がんと関連するSNP等の変異体を同定する、公知の変異体判定法を使用して同定することができる。例えば、変異体を判定するための方法を、Dingら(2012)、Nature 481:506~10において記載されている通りに使用することができる。Strelka2は、目的の変異体を報告する、変異体判定ツールの別の例である。
一部の実施では、SNP突然変異を同定する。他の実施形態では、インデル突然変異を同定する。がん変異体アレル及び基準アレルについての配列リードカウントを使用して、がん変異体アレルについての、変異体アレル頻度(VAF)を測定することができる。しかし、事前のこの段階では、変異体が、がん細胞のクローン又はサブクローンに由来するのかどうかは未知である。
(iii)初期がん細胞分率(iCCF)を、配列リードから決定する工程
シーケンシングされ、VAFが測定される、複数の遺伝子座の各々について、初期がん細胞分率(iCCF)は、
iCCF=(VAF×N)/(p×n)
[式中、Nは、遺伝子座における平均コピー数であり、pは、試料の腫瘍純度であり、nは、突然変異体アレルのコピー数である]
として計算される。
この段階で、iCCFを、解析において考えられる、体細胞突然変異の、変異体アレルの各々について近似する。一部の実施では、がん細胞分率を近似するために、ある特定の仮定を行う。一部の実施では、突然変異体アレルの平均コピー数(n)が、1であることを仮定する。仮定は、CNVと重複しないか、基準アレル(体細胞突然変異を有さないアレル)のコピー数喪失と重複するか、又は基準アレルのコピー数獲得と重複する、全ての体細胞変異体について成り立つであろう。これは、コピー数変化が、小規模の変異体と比べて、稀少であると期待されるため、合理的に許容可能な仮定である。
一部の実施では、腫瘍純度値pは、腫瘍純度を直接測定する経験的方法により決定することができる。他の実施形態では、p及び/又はNは、Canvas等のCNV判定ツールを使用して、配列リードに基づき決定することができる。参照によりその全体において全ての目的で組み込まれる、Rollerら(2016)、Bioinformatics、32(15)、2375~2377頁を参照されたい。
実施は、Nについての、整数のコピー数推定値を要求せず、試料中の全ての細胞にわたり、このゲノム遺伝子座の平均コピー数を推定する、正規化カバレッジ推定値を要求する。カバレッジに対して正規化された実際の値を使用することの利点は、方法が、CNVのクローン性の仮定を回避することである。これにより、上記の初期仮定が成り立つ限りにおいて、CCF推定値は、クローン性CNV及びサブクローン性CNVの両方と重複する変異体について妥当となるであろう。
一部の実施では、N>1の場合、開示される方法によりもたらされるiCCF推定値は、潜在的に、1より大きくなりうるであろう。このような結果を回避するために、iCCF推定値の上限を1とする。したがって、iCCF推定値は、以下の式を使用してもたらす。
(iv)iCCFに基づき、体細胞突然変異をクラスター化する
クラスター化は、それらのiCCFに基づき、複数の異なる体細胞突然変異を、1つ又は複数のクラスターへと群分けする方法である。次いで、クラスター内のiCCFを使用して、突然変異についての最終CCFを決定する。iCCFに関する1つの問題は、それらが、多様なエラー源に起因して、真のCCFの、ノイズの多い推定値であることである。変異体のセットのiCCFが、クラスターを形成する場合、変異体のセットが、同じサブクローン又は同じサブクローンのセットに存在することが推論される。この推論によれば、クラスター内の変異体のセットの真のCCF(iCCFと対比した)は、同じとなるはずである。クラスター内のiCCFの平均又は別の主要な推定値は、クラスター内の、任意の変異体の、真のCCFについて、変異体のiCCFより信頼できる推定値となるであろう。したがって、クラスター化を使用して、目的の変異体についての、がん細胞分率の良好な推定値を獲得することができる。一部の実施では、iCCFのクラスターをもたらすサブクローンの数もまた、推定することができる。
開示される実施は、クラスター化のために、変分ベイズ混合モデルを使用する。方法は、同時的なクラスター化、及びクラスター数の推論を可能とする。開示される実施は、PyClone等、従来の方法により使用される確率的MCMC法より、著明に効果的である。開示される実施は、VAFの代わりに、CCFに基づき、体細胞変異体をクラスター化する。これは、CNVが重複する体細胞変異体をクラスター化する実施を可能とする。開示される実施はまた、単一の試料中、及び複数の試料にわたる、いずれにおけるクラスター化も可能とする。クラスター化は、二項混合モデル、ベータ混合モデル、又はガウス混合モデルを含む、様々な異なる混合モデルを使用して行うことができる。このような確率的クラスター化は、異なるクラスターの各々に属する、1つ又は複数の変異体についての、事後確率推定値をもたらす。これらの確率を使用して、突然変異についての全CCFを計算することができる。
一部の模倣では、iCCFのクラスター化は、がんの臨床的に関連する特徴である、がん細胞内のサブクローンの数を決定することができる。例えば、サブクローンの数が大きい、一部のがんは、より薬物耐性であるか、又はより悪性である。
(v)各突然変異について、最終CCF(fCCF)を決定する
fCCFは、試料又は対象における突然変異についての全スコアである。突然変異についての最終CCFは、突然変異が、1つ又は複数のクラスターに属する確率と、クラスター内の平均CCFとから計算される。
最終CCFを決定することの、1つの目標は、試料又は対象における、全てのがん細胞の中で、目的の、特定の体細胞突然変異が、どのくらい高頻度であるのかを決定することである。例えば、特定の体細胞突然変異は、がんの形成及び/又は発症の特定の機構と関連することが公知である。体細胞突然変異が、高値のfCCFを有する場合、特定の機構をターゲティングするがん治療は、大部分のがん細胞に影響を及ぼすことが可能であり、したがって、がんの有効な処置をもたらす。このような場合、がん治療を処方又は開始すべきである。逆に、体細胞突然変異が、低値のfCCFを有する場合、特定の機構をターゲティングするがん治療は、それ自体、有効ではない場合もある。このような場合、がん治療は、変更するか、終結させるか、又は他の治療と組み合わせるべきである。
例えば、体細胞突然変異は、ネオ抗原の創出をもたらしうる。ネオ抗原の負荷は、免疫チェックポイント阻害剤に対する応答についてのマーカーである。ネオ抗原レベルは、非小細胞肺がんにおける、抗P1療法の有効性と、正に相関することが示されている。Rizviら、Science、2015、348(6230):124~128を参照されたい。また、McGranahanら、Science、2016、351(6280):1463~1469も参照されたい。研究において使用されているがん治療等のがん治療は、特定の突然変異と関連するネオ抗原をターゲティングする免疫療法を含む。突然変異のCCFが低値であり、ネオ抗原がサブクローンである場合、サブクローン性ネオ抗原に対する、治療の免疫反応が影響を及ぼしうるがん細胞の部分は小さく、処置の有効性は思わしくない場合がある。
(vi)CCF又はサブクローン性アレルの分布を使用して、がん処置を決定する
一部の実施は、変異体CCF及び/又はサブクローン性アレル分布を使用して、サブクローン集団の抗原性相補体及び/又は全てのサブクローン集団に対処する処置選択肢を決定する。一部の実施では、処置選択肢は、突然変異のfCCF、サブクローンの平均CCF、又はサブクローンの数に基づきうる。
がん細胞分率を決定するための工程の例
図9は、一部の実施に従い、がん細胞分率を決定するための方法100を例示するフローチャートを示す。方法100を、1つ又は複数のプロセッサー及びシステムメモリを含むコンピュータシステムを使用して実行する。方法100は、対象に由来する少なくとも1つの被験試料を得る工程を伴う。少なくとも1つの被験試料は、がん細胞の1つ又は複数のサブクローンに由来する核酸を含む。ブロック102を参照されたい。一部の実施では、少なくとも1つの被験試料は、2つ以上の被験試料を含む。多様な試料及び試料加工法を、「試料」節の下で更に記載される通りに使用することができる。
一部の実施では、方法は、少なくとも1つの被験試料を個体から得る工程と;少なくとも1つの被験試料から、細胞内DNA又は無細胞DNA(cfDNA)を得る工程と;細胞内DNA又はcfDNAをシーケンシングして、配列リードをもたらす工程とを伴う。ブロック104を参照されたい。一部の実施では、核酸をシーケンシングする工程は、核酸を単離及び/又は増幅することを伴う。一部の実施では、核酸をシーケンシングする工程は、全ゲノムシーケンシングを伴う。他の実施形態では、核酸をシーケンシングする工程は、ターゲティングされたシーケンシングを含む。多様なシーケンシング法を、「シーケンシング法」節で記載される通りに使用することができる。
方法100は、配列リードを、基準ゲノムに対してアライメントして、配列タグをもたらす工程を更に伴う。基準ゲノムは、複数の体細胞突然変異を保有する複数の遺伝子座を含む。配列タグとは、基準ゲノムに対してアライメントされ、配列位置を割り当てられた配列リードである。一部の実施では、複数の体細胞突然変異は、一塩基変異体(SNV)、インデル、又はこれらの組合せからなる群から選択される突然変異を含む。ブロック106を参照されたい。
方法100は、複数の遺伝子座のうちの各遺伝子座について、遺伝子座のカバレッジと、遺伝子座の変異体アレル頻度(VAF)とを決定する工程を更に伴う。遺伝子座のカバレッジは、遺伝子座に対してアライメントされたリードの数量(例えば、カウント又は正規化されたカウント)である。VAFとは、体細胞突然変異の、変異体アレルの頻度である。ブロック108を参照されたい。
方法100は、被験試料中の全ての細胞の中の腫瘍細胞の分率である、腫瘍純度値(p)を提供する工程を更に伴う。ブロック110を参照されたい。方法100はまた、複数の遺伝子座のうちの各遺伝子座について、且つ、被験試料中の全ての細胞について、遺伝子座における全てのアレルの平均コピー数(N)を提供する工程も伴う。ブロック112を参照されたい。異なる細胞についてのコピー数は、異なりうる。このため、平均コピー数は、整数ではない場合もある。工程内の平均コピー数は、複数の遺伝子座を含む領域について決定することができる。このような場合、領域についてのコピー数を、領域内の遺伝子座についてのコピー数として使用する。一部の実施では、腫瘍純度値(p)は、配列リードを使用して推定される。一部の実施では、アレル(N)の平均コピー数は、配列リードを使用して推定される。配列リードを使用して、腫瘍純度及びコピー数を推定するのに、多様な技法を使用することができる。
図9は、配列リードを使用して、腫瘍純度及びコピー数を推定するための方法を例示する。方法200は、複数の遺伝子座のうちの各遺伝子座について、被験試料のカバレッジと、マイナーアレル頻度(MAF)とを測定する工程を伴う。ブロック202を参照されたい。
方法200は、パラメータ値の新たなセット:候補二倍体カバレッジ、候補腫瘍純度(p)、及び候補コピー数状態を有するモデルをもたらす工程を更に伴う。二倍体カバレッジは、試料の二倍体細胞についての、リードカウント又は存在度尺度である。候補コピー数状態は、ゲノム遺伝子座における、アレル及びそれらのコピー数について記載する。これらのパラメータ値を与えられたら、以下の関係に従い、期待カバレッジ及び期待MAFを決定することができる。
・倍数性A:MAF=0
・倍数性AB(正常):MAF=0.5
・倍数性AA(コピー中性LOH):MAF=0
・倍数性AAB:MAF=0.33333
・倍数性AAA:MAF=0
・倍数性AABB:MAF=0.5
・倍数性AAAB:MAF=0.25
・倍数性AAAA:MAF=0
(等)
方法200は、上記の関係に従い、候補二倍体カバレッジ、腫瘍純度、及びコピー数状態に基づき、期待カバレッジ及び期待MAFを算出する工程を伴う。ブロック206を参照されたい。
次いで、方法200は、(a)ブロック206内で得られる、期待カバレッジと期待MAFとのモデル偏差、及び(b)ブロック202内で得られる、測定カバレッジと、測定MAFとのモデル偏差を決定する。ブロック208を参照されたい。
方法200はまた、トレーニングデータを使用して、ペナルティー項値を推定する工程も伴う。ブロック210を参照されたい。モデルペナルティー項のさらなる詳細については、参照によりその全体において全ての目的で組み込まれる、Rollerら(2016)、Bioinformatics、32(15)、2375~2377頁において記載されている。
方法200はまた、どのようにして、データが、がん細胞の基底をなすサブクローンに対応するクラスターから逸脱するのかと関連するポリクローン性エラーを推定する工程も伴う。ブロック212を参照されたい。ポリクローン性エラーのさらなる詳細については、Rollerらにおいて記載されている。
次いで、方法200は、さらなるモデルを検討すべきなのかどうかを査定する。決定ブロック214を参照されたい。そうである場合、方法は、ブロック204へとループバックして、パラメータ値の新たなセットを有する、次のモデルをもたらす。次いで、方法は、次のモデルについて、モデル偏差、モデルペナルティー項、及びポリクローン性エラーを決定するように繰り返される。検討すべきモデルがもはや存在しない場合、方法200は、進んで、208のモデル偏差、210のモデルペナルティー項値、及びブロック212のポリクローン性の類似性エラーを明らかにする、最小の全偏差を有するモデルを選択する。ブロック216を参照されたい。
次いで、この後、方法200は、被験試料についての腫瘍純度(p)及びコピー数を、選択されたモデルの腫瘍純度及びコピー数として決定する工程を伴う。ブロック218を参照されたい。
変異体アレル頻度(VAF)、腫瘍純度値(p)、及びアレル(N)の平均コピー数を提示する図1に戻ると、方法100は、VAF、p、及びNを使用して、複数の遺伝子座のうちの各遺伝子座について、初期がん細胞分率(iCCF)を計算する。ブロック114を参照されたい。がん細胞分率は、遺伝子座において、体細胞突然変異を有するがん細胞の分率である。この操作は、複数の遺伝子座/突然変異について、複数のiCCFをもたらす。一部の実施では、iCCFは、(VAF×N)/pに基づき計算される。
一部の患者において、iCCFの計算は、変異体アレルのコピー数(n)、並びにVAF、p、及びNを使用して、iCCFを計算することを含む。一部の実施では、iCCFは、(VAF×N)/(p×n)に基づき計算される。
一部の実施では、iCCFは、nが1であると仮定して計算される。一部の実施では、iCCFは、iCCF推定値の上限を1とする、以下の式を使用して計算される。
一部の実施では、複数の体細胞突然変異の1つ又は複数の突然変異は、1つ又は複数のコピー数変異(CNV)と重複する。一部の実施では、方法は、全てのがん細胞が、CNVの影響を受けるか、又はCNVの影響を受けない工程を仮定しない。言い換えると、CNVは、必ずしも、クローン性ではない。このような実施では、パラメータNは、常に整数というわけではない。一部の実施では、方法は、体細胞突然変異を保有する全てのがん細胞が、CNVの影響を受けるか、又はCNVの影響を受けない工程を仮定しない。このような実施では、パラメータnの値は、異なる突然変異について異なりうる。
方法100は、複数の遺伝子座について、複数のiCCFをクラスター化し、これにより、iCCの、1つ又は複数のクラスターを得る工程を更に伴う。ブロック116を参照されたい。一部の実施では、クラスター化する工程は、1つ又は複数のクラスターに属する各突然変異の1つ又は複数の事後確率を決定することを含む。一部の実施では、クラスター化する工程は、混合モデルを使用して、1つ又は複数のクラスターを決定することを伴う。一部の実施では、混合モデルは、変分ベイズ混合モデルを含む。一部の実施では、クラスター化する工程は、iCCFの複数のクラスターをもたらす、変異体のサブクローンの数を決定することを含む。
一部の実施では、混合モデルは、2つ以上のサブクローンについての、変異体アレルカウントの2つ以上の確率分布の混合を含み、変異体アレルは、突然変異体のアレルである。一部の実施では、変異体アレルカウントの各確率分布は、二項分布、ベータ分布、ガウス分布、及びこれらの任意の組合せである。一部の実施では、変異体アレルカウントの各確率分布は、二項分布である。一部の実施では、変異体アレルカウントは、シーケンシング深度及びiCCFに基づき計算される。一部の実施では、変異体アレルカウントは、変異体アレルカウント=深度×iCCFとして計算される。
一部の実施では、変異体のiCCFは、ベータ分布に由来するランダム変数としてモデル化される。一部の実施では、クラスター化する工程は、マルコフ連鎖モンテカルロ(MCMC)法を使用しない。一部の実施では、ブロック116のクラスター化する工程は、図11に描示される工程を使用して実施することができる。
図11は、iCCF値をクラスター化するための方法300を示す。方法300は、K-meansによるクラスター化等のクラスター化法を使用して、iCCFの初期クラスターを形成することにより始まる。ブロック302を参照されたい。
次いで、方法300は、混合モデルを、パラメータ値の新たなセットと共に提供する工程を伴う。混合モデルは、変分ベイズ混合モデルである。ブロック304を参照されたい。混合モデルは、突然変異mについてのアレルカウントを、以下:
カウントm≒BN(x,qk)
[式中、BN(,)は、二項分布を表し、xは、全アレルカウントであり、qkは、クラスターkについての、全てのアレルの中の、変異体アレルの分率である]
の通りに、クラスターkについての二項分布に由来する二項ランダム変数としてモデル化する。ブロック306を参照されたい。
混合モデルはまた、突然変異mについてのiCCFを、以下:
iCCFm≒ベータ(uk,vk)
[式中、ベータは、ベータ分布を表し;uk及びvkは、クラスターkについてのベータ分布の形状パラメータである]
の通りに、クラスターkについてのベータ分布に由来するベータランダム変数としてもモデル化する。ブロック308を参照されたい。
方法300は、クラスターkに属する、突然変異mについてのiCCFの確率を、以下:
[式中、pr
m,
kは、突然変異mが、クラスターkに属する確率であり;ベータ(;)は、クラスターkについてのベータ分布の確率密度関数であり;
fは、突然変異mについてのiCCFであり;
は、ガンマ関数である]
の通りに計算する工程を伴う。ブロック310を参照されたい。この実施では、少なくとも1つの被験試料は、1つの試料である。
他の実施形態では、少なくとも1つの被験試料は、2つ以上の被験試料を含み、クラスターに属する突然変異の確率は、
[式中、u
k及びu
vは、それらのs番目の成分が、それぞれ、u
ks及びv
ksである、S次元ベクトルである]
としてモデル化される。
K個(多次元)のベータ成分の混合について考えると、実施は、iCCFであるf
nが、成分kに属する(z
nk=1)のか、属さない(z
nk=0)のかを指し示し、
である1-of-K表示を満たす、K次元潜在二項ランダム変数z
nを使用する。
iCCFが、成分kに属する周辺確率p(z
nk=1)は、その混合係数π
kにより与えられ、
p(z
nk=1)=π
k
確率制限
0≦π
k≦1
下に置かれる。
z
nについての1-of-K表示を踏まえると、これは、
として書くことができる。
同様に、混合物から、iCCFであるf
nが生じる条件分布p(f
n|z
n、U、V)は、
と、パラメータの総計をU≡{u
k}及びV≡{v
k}とする、k番目のベータ成分の形状パラメータベクトルである、u
k及びv
kとの関係で書くことができる。
クラスター化モデルのさらなる詳細については、参照によりその全体において全ての目的で組み込まれる、Millerら(2014)、PLoS Comput Biol、10(8):e1003665を参照されたい。
方法300は、期待されるデータと、観察されるデータとを比較することにより、現行の混合モデルがカバレッジするのかどうかを決定する工程を更に伴う。ブロック312を参照されたい。モデルの収束を決定するための方法については、Millerら(2014)において更に記載されている。ブロック312を参照されたい。モデルが収束しない場合、方法は、ブロック304へとループバックして、パラメータ値の新たなセットを伴う、次の混合モデルをもたらし、iCCFの事後確率の新たなセットを計算する。モデルが収束する場合、方法300は、進んで、最良のモデルに基づき、クラスターと、各突然変異が、クラスターに属する確率とを得る。ブロック314を参照されたい。
図1に戻り、一部の実施では、ブロック116のクラスター化法は、細胞のクラスター又はクローンについての、平均iCCFの決定を可能とする。一部の実施では、クラスター化法は、iCCFのクラスターをもたらす、サブクローンの数の決定を可能とする。一部の実施では、これらの値は、がん細胞のクローン構造について記載し、それらを使用して、本明細書の他の箇所で記載されるがん治療を設計する一助となることができる。
クラスター及び事後確率を得た後で、方法100は、1つ又は複数のクラスターのiCCFを使用して、1つ又は複数の体細胞突然変異について、1つ又は複数の最終がん細胞分率(fCCF)を決定するように進む。ブロック118を参照されたい。一部の実施では、各fCCFは、複数のクラスターに属する突然変異の事後確率、及びクラスターのiCCFの平均を使用して計算される。一部の実施では、突然変異についてのfCCFは、各クラスター内の体細胞突然変異の平均値iCCFと、各クラスターに属する突然変異の事後確率との線形結合として計算される。一部の実施では、突然変異mについてのfCCFは、
[式中、
は、クラスターkの平均iCCFであり;pr
m,
kは、突然変異mが、クラスターkに属する確率である]
として計算される。
一部の実施では、方法は、任意選択で、少なくとも部分的に、1つ又は複数のfCCFに基づく処置レジメンを適用する工程を更に含みうる。一部の実施では、処置レジメンを適用する工程は、1つ又は複数の体細胞突然変異について、1つ又は複数のfCCFを、1つ又は複数の基準又は閾値と比較することと;比較に基づき、処置レジメンを処方、開始、及び/又は変更することとを含む。一部の実施では、処置レジメンは、1つ又は複数の体細胞突然変異と関連する生物学的経路に影響を及ぼす。一部の実施では、処置レジメンは、免疫療法を含む。
試料
本明細書で使用される試料は、細胞に結合した核酸(例えば、細胞内DNA)又は「無細胞」核酸(例えば、cfDNA)を含有する。細胞内DNAは、固体組織(例えば、骨及び骨髄)、軟組織(例えば、内臓、筋肉、脂肪、及び皮膚)、又は体液(例えば、血液、血漿、血清、尿、腹水、脳脊髄液、胸水、及び羊水)から得ることができる。無細胞DNAを含む無細胞核酸は、当技術分野で公知の多様な方法により、血漿、血清、及び尿を含むがこれらに限定されない生物学的試料から得ることができる(例えば、Fanら、Proc Natl Acad Sci、105:16266~16271[2008];Koideら、Prenatal Diagnosis、25:604~607[2005];Chenら、Nature Med、2:1033~1035[1996];Loら、Lancet、350:485~487[1997];Botezatuら、Clin Chem.、46:1078~1084、2000;及びSuら、J Mol. Diagn.、6:101~107[2004]を参照されたい)。試料中の細胞から、無細胞DNAを分離するために、分画、遠心分離(例えば、密度勾配遠心分離)、DNA特異的沈殿、若しくはハイスループット細胞分取、及び/又は他の分離法を含むがこれらに限定されない、多様な方法を使用することができる。cfDNAの手動式分離及び自動式分離のための、市販のキットが利用可能である(Roche Diagnostics、Indianapolis、IN、Qiagen、Valencia、CA、Macherey-Nagel、Duren、DE)。アッセイでは、染色体異常、例えば、染色体異数性及び/又は多様な多型を検出しうるシーケンシングアッセイにより、トリソミー21の存在又は非存在を決定するのに、cfDNAを含む生物学的試料が使用されている。
多様な実施形態では、試料中に存在するDNAを、使用の前に(例えば、シーケンシングライブラリーを調製する前に)、特異的に濃縮することもでき、非特異的に濃縮することができる。試料DNAの非特異的濃縮とは、DNAシーケンシングライブラリーを調製する前に、試料DNAのレベルを上昇させるのに使用されうる、試料のゲノムDNA断片の全ゲノム増幅を指す。非特異的濃縮は、1つを超えるゲノムを含む試料中に存在する、2つのゲノムのうちの1つの、選択的濃縮でありうる。例えば、非特異的濃縮は、血漿試料中のがんゲノムに選択的であることが可能であり、これは、試料中のがんDNAの、正常DNAに対する相対比率を増大させることが公知の方法により得ることができる。代替的に、非特異的濃縮は、試料中に存在する両方のゲノムの、非選択的増幅でありうる。例えば、非特異的増幅は、がんゲノム及び正常ゲノムに由来するDNAの混合物を含む試料中の、がんDNA及び正常DNAの非特異的増幅でありうる。当技術分野では、全ゲノム増幅のための方法が公知である。変性オリゴヌクレオチドプライミングによるPCR(DOP)、プライマー伸長によるPCR法(PEP)、及び多重置換増幅(MDA)は、全ゲノム増幅法の例である。一部の実施形態では、異なるゲノムに由来するcfDNAの混合物を含む試料は、混合物中に存在するゲノムのcfDNAについて、非濃縮である。他の実施形態では、異なるゲノムに由来するcfDNAの混合物を含む試料は、試料中に存在するゲノムのうちのいずれか1つについて、非特異的に濃縮されている。
本明細書で記載される方法が適用される核酸を含む試料は、典型的に、例えば、上記で記載した、少なくとも1つの生物学的試料(「被験試料」)を含む。一部の実施形態では、解析される核酸を、多数の周知の方法のうちのいずれかにより精製又は単離する。
したがって、ある特定の実施形態では、試料は、精製若しくは単離されたポリヌクレオチドを含むか、若しくはこれらからなるか、又は試料は、組織試料、体液試料、細胞試料等の試料を含みうる。適切な体液試料は、血液試料、血漿試料、血清試料、汗試料、涙液試料、痰試料、尿試料、痰試料、耳だれ試料、リンパ液試料、唾液試料、脳脊髄液試料、洗浄液試料、骨髄懸濁液試料、膣液試料、経頸管洗浄液試料、脳液試料、腹水試料、母乳試料、気道、腸管、及び尿生殖路の分泌物試料、羊水試料、母乳試料、及びリューカフェレーシス試料を含むがこれらに限定されない。一部の実施形態では、試料は、非侵襲性手順により容易に得られる試料、例えば、血液試料、血漿試料、血清試料、汗試料、涙液試料、痰試料、尿試料、痰試料、耳だれ試料、唾液試料、又は糞便試料である。ある特定の実施形態では、試料は、末梢血試料、又は末梢血試料の血漿画分及び/若しくは血清画分である。他の実施形態では、生物学的試料は、スワブ若しくはスミア、生検検体、又は細胞培養物である。別の実施形態では、試料は、2つ以上の生物学的試料の混合物である、例えば、生物学的試料は、体液試料、組織試料、及び細胞培養物試料のうちの2つ以上を含みうる。本明細書で使用される「血液」、「血漿」、及び「血清」は、画分又は加工されたその部分を明示的に包含する。同様に、試料を、生検、スワブ、スミア等から採取する場合、「試料」は、生検、スワブ、スミア等に由来する加工された画分又は部分を明示的に包含する。
ある特定の実施形態では、試料は、異なる個体に由来する試料、異なる発達段階の、同じ個体又は異なる個体に由来する試料、異なる罹患個体(例えば、がんを伴うか、又は遺伝子障害を有することが疑われる個体)、正常個体に由来する試料、個体の異なる病期において得られる試料、疾患のための異なる処置にかけられた個体から得られる試料、異なる環境因子にかけられた個体に由来する試料、病態に対する素因を伴う個体に由来する試料、感染性疾患作用物質(例えば、HIV)へと曝露された個体に由来する試料等を含むがこれらに限定されない供給源から得ることができる。
ある特定の実施形態では、試料はまた、in vitroにおいて培養された組織、細胞、又は他のポリヌクレオチドを含有する供給源からも得ることができる。培養試料は、異なる媒体中及び条件(例えば、pH、圧力、又は温度)下で維持される培養物(例えば、組織又は細胞)、異なる長さの時間にわたり維持される培養物(例えば、組織又は細胞)、異なる因子若しくは試薬(例えば、薬物候補物質又はモジュレーター)で処理される培養物(例えば、組織又は細胞)、又は異なる種類の組織及び/若しくは細胞の培養物を含むがこれらに限定されない供給源から採取することができる。
核酸を、生物学的供給源から単離する方法は周知であり、供給源の性格に応じて異なるであろう。当業者は、核酸を、本明細書で記載される方法に必要とされる通りに、供給源から、たやすく単離することができる。一部の場合には、核酸試料中の核酸分子を断片化することが有利でありうる。断片化は、ランダムな場合もあり、例えば、制限エンドヌクレアーゼ消化を使用して達成される通り、特異的な場合もある。当技術分野では、ランダムな断片化のための方法が周知であり、例えば、限定的なDNアーゼ消化、アルカリ処置、及び物理的せん断を含む。一実施形態では、試料核酸を、断片化にかけられない、cfDNAから得る。
シーケンシングライブラリーの調製
一実施形態では、本明細書で記載される方法は、複数の試料を、ゲノム分子(すなわち、シングルプレックスシーケンシング)として、個別にシーケンシングするか、又は単一のシーケンシングランにおいて、インデックス付けされたゲノム分子(例えば、マルチプレックスシーケンシング)を含むプール試料としてシーケンシングすることを可能とする次世代シーケンシング技術(NGS)を活用しうる。これらの方法は、最大で数億リードのDNA配列を生成しうる。多様な実施形態では、ゲノム核酸、及び/又はインデックス付けされたゲノム核酸の配列は、例えば、本明細書で記載される次世代シーケンシング技術(NGS)を使用して決定することができる。多様な実施形態では、NGSを使用して得られる、大量の配列データについての解析は、本明細書で記載される、1つ又は複数のプロセッサーを使用して実施することができる。
多様な実施形態では、このようなシーケンシング技術の使用は、シーケンシングライブラリーの調製を伴わない。
しかし、ある特定の実施形態では、本明細書で想定されるシーケンシング法は、シーケンシングライブラリーの調製を伴う。例示的な一手法では、シーケンシングライブラリーの調製は、シーケンシングされる準備のできた、アダプター修飾されたDNA断片(例えば、ポリヌクレオチド)のランダムコレクションの作製を伴う。ポリヌクレオチドのシーケンシングライブラリーは、DNA又はcDNAの同等物、類似体、例えば、逆転写酵素の作用により、RNA鋳型から作製された、相補的DNA又はコピーDNAであるDNA又はcDNAを含む、DNA又はRNAから調製することができる。ポリヌクレオチドは、二本鎖形態(例えば、ゲノムDNA断片、cDNA、PCR増幅産物等のdsDNA)に由来する場合もあり、ある特定の実施形態では、ポリヌクレオチドは、一本鎖形態(例えば、ssDNA、RNA等)に由来し、dsDNA形態へと転換される場合もある。例示を目的とすると、ある特定の実施形態では、一本鎖mRNA分子は、シーケンシングライブラリーの調製における使用に適する二本鎖cDNAへとコピーすることができる。一次ポリヌクレオチド分子の正確な配列は一般に、ライブラリー調製法の素材ではなく、既知の場合もあり、未知の場合もある。一実施形態では、ポリヌクレオチド分子は、DNA分子である。より特定すると、ある特定の実施形態では、ポリヌクレオチド分子は、生物の遺伝子相補体の全体又は生物の遺伝子相補体の実質的全体を表し、典型的に、イントロン配列及びエクソン配列(コード配列)の両方のほか、プロモーター配列及びエンハンサー配列等の、非コード調節配列を含む、ゲノムDNA分子(例えば、細胞内DNA、無細胞DNA(cfDNA)等)である。ある特定の実施形態では、一次ポリヌクレオチド分子は、ヒトゲノムDNA分子、例えば、妊娠対象の末梢血中に存在するcfDNA分子を含む。
一部のNGSシーケンシングプラットフォームのための、シーケンシングライブラリーの調製は、特異的な範囲の断片サイズを含むポリヌクレオチドの使用により容易とされる。このようなライブラリーの調製は、典型的に、所望のサイズ範囲内のポリヌクレオチドを得るための、大型のポリヌクレオチド(例えば、細胞内ゲノムDNA)の断片化を伴う。
断片化は、当業者に公知である、多数の方法のうちのいずれかにより達成することができる。例えば、断片化は、噴霧化、超音波処理、及びハイドロシアを含むがこれらに限定されない、機械的手段により達成することができる。しかし、機械的断片化は、典型的にDNA骨格を、C-O結合、P-O結合、及びC-C結合において切断する結果として、平滑末端と、後続の酵素反応、例えば、シーケンシングのためのDNAを調製するために要求される、シーケンシングアダプターのライゲーションに必須の5'リン酸を欠くので、修復の必要がありうる、C-O、P-O、及び/又はC-C結合が破損した、3'突出末端及び5'突出末端との異種ミックス(例えば、Alnemri及びLiwack、J Biol. Chem、265:17323~17333[1990];Richards及びBoyer、J Mol Biol、11:327~240[1965]を参照されたい)をもたらす。
これに対し、cfDNAは、典型的に、約300塩基対未満の断片として存在し、その結果、断片化は、典型的に、cfDNA試料を使用して、シーケンシングライブラリーを作出するために必要ではない。
典型的に、強制的に断片化される(例えば、in vitroにおいて断片化される)のであれ、天然で、断片として存在するのであれ、ポリヌクレオチドは、5'-リン酸及び3'-ヒドロキシル.を有する平滑末端DNAへと転換される。標準的なプロトコール、例えば、例えば、本明細書の他の箇所で記載されている通りに、Illuminaプラットフォームを使用してシーケンシングするためのプロトコールは、使用者に、試料DNAを末端修復し、dAテーリングの前に、末端修復産物を精製し、ライブラリー調製の、アダプターライゲーション工程の前に、dAテーリング産物を精製するように指示する。
本明細書で記載される配列ライブラリーの調製法についての多様な実施形態は、典型的に、NGSによりシーケンシングされうる修飾DNA産物を得るのに、標準的なプロトコールにより指示される工程のうちの1つ又は複数を実行する必要を回避する。縮約法(ABB方法)、1工程法、及び2工程法は、参照によりその全体が組み込まれる、2012年7月20日に出願された、特許出願第13/555,037号において見出されうる、シーケンシングライブラリーを調製するための方法の例である。
シーケンシング法
上記で指し示した通り、調製された試料(例えば、シーケンシングライブラリー)を、がん試料のCCFを推定するための手順の一部としてシーケンシングする。多数のシーケンシング技術のうちのいずれかを活用することができる。
下記で記載される通り、Affymetrix Inc.(Sunnyvale、CA)製の、ハイブリダイゼーションによるシーケンシングプラットフォーム、並びに454 Life Sciences(Bradford、CT)、Illumina/Solexa(Hayward、CA)、及びHelicos Biosciences (Cam架橋、MA)製の、合成によるシーケンシングプラットフォーム並びにApplied Biosystems (Foster City、CA)製の、ライゲーションによるシーケンシングプラットフォーム等、一部のシーケンシング技術は、市販されている。Helicos Biosciencesの、合成によるシーケンシングを使用して実行される単一分子シーケンシングに加えて、他の単一分子シーケンシング技術は、Pacific BiosciencesのSMRT(商標)技術、ION TORRENT(商標)技術、及び、例えば、Oxford ナノ小孔 Technologiesにより開発されたナノ小孔シーケンシングを含むがこれらに限定されない。
自動化サンガー方法は、「第一世代」の技術であると考えられるが、自動化サンガーシーケンシングを含むサンガーシーケンシングもまた、本明細書で記載される方法において援用することができる。さらなる適切なシーケンシング法は、核酸イメージング技術、例えば、原子力顕微鏡(AFM)又は透過電子顕微鏡(TEM)を含むがこれらに限定されない。例示的なシーケンシング技術については、下記で、より詳細に記載する。
例示的で非限定的な一実施形態では、本明細書で記載される方法は、Illumina製の合成によるシーケンシング、及び可逆性ターミネーターベースのシーケンシング化学反応(例えば、Bentleyら、Nature、6:53~59[2009]において記載されている)等を使用して、被験試料中の核酸、例えば、がんについてスクリーニングされる対象におけるcfDNA又は細胞内DNAについての配列情報を得る工程を含む。鋳型DNAは、ゲノムDNA、例えば、細胞内DNA又はcfDNAでありうる。一部の実施形態では、単離細胞に由来するゲノムDNAを、鋳型として使用し、数百塩基対の長さへと断片化する。他の実施形態では、cfDNAを、鋳型として使用するが、cfDNAは、短い断片として存在するので、断片化は要求されない。循環中の腫瘍DNAは、短い断片で存在し、サイズ分布は、約150~170bpで、ピークに達する。Illumina製のシーケンシング技術は、断片化されたゲノムDNAの、オリゴヌクレオチドアンカーを結合させた、光学的に透明な平面への接合に依拠する。鋳型DNAを、末端修復して、5'-リン酸化平滑末端を作出し、クレノウ断片のポリメラーゼ活性を使用して、単一のA塩基を、平滑リン酸化DNA断片の3'末端へと付加する。この付加は、DNA断片を、ライゲーション効率を増大させるように、それらの3'末端において、単一のT塩基突出を有する、オリゴヌクレオチドアダプターとのライゲーションのために準備する。アダプターオリゴヌクレオチドは、フローセルアンカーオリゴと相補的(反復拡大についての解析における、アンカー/アンカリングリードと混同しないために)である。限界希釈条件下で、アダプターにより修飾した一本鎖鋳型DNAを、フローセルへと添加し、アンカーオリゴとのハイブリダイゼーションにより固定化した。接合させたDNA断片を伸長させ、架橋増幅して、各々が、約1,000コピーずつの同じ鋳型を含有する、数億に及ぶクラスターを伴う、超高密度シーケンシングフローセルを創出した。一実施形態では、クラスター増幅にかける前に、PCRを使用して、ランダムに断片化されたゲノムDNAを増幅する。代替的に、増幅を伴わない(例えば、PCRを伴わない)ゲノムライブラリー調製物を使用し、クラスター増幅単独を使用して、ランダムに断片化されたゲノムDNAを濃縮する(Kozarewaら、Nature Methods、6:291~295[2009])。除去可能な蛍光色素を伴う、可逆性ターミネーターを援用する、頑健な4色式の、DNA合成によるシーケンシング技術を使用して、鋳型をシーケンシングする。レーザー励起及び内部全反射光学を使用して、高感度蛍光検出を達成する。約数十~数百塩基対の、短い配列リードを、基準ゲノムに対してアライメントし、特別に開発されたデータ解析パイプラインソフトウェアを使用して、短い配列リードの、基準ゲノムへの、固有のマッピングを同定する。第1の読取りを完了した後、鋳型を、in situで再生して、断片の反対側の末端からの、第2の読取りを可能とすることができる。したがって、DNA断片のシングルエンド又はペアドエンドシーケンシングのいずれも使用することができる。
本開示の多様な実施形態は、ペアドエンドシーケンシングを可能とする、合成によるシーケンシングを使用しうる。一部の実施形態では、Illumina製の、合成によるシーケンシングプラットフォームは、断片のクラスター形成を伴う。クラスター形成とは、各断片分子を、等温的に増幅する方法である。一部の実施形態では、本明細書で記載される例として述べると、断片は、断片の2つの末端へと接合させた、2つの異なるアダプターを有し、アダプターは、断片が、フローセルレーンの表面上の、2つの異なるオリゴとハイブリダイズすることを可能とする。断片は、断片の2つの末端における、2つのインデックス配列であって、マルチプレックスシーケンシングにおいて、異なる試料を同定するための標識をもたらすインデックス配列を更に含むか、又は断片の2つの末端における、2つのインデックス配列であって、マルチプレックスシーケンシングにおいて、異なる試料を同定するための標識をもたらすインデックス配列へと接続される。一部のシーケンシングプラットフォームでは、シーケンシングされる断片はまた、インサートとも称する。
一部の実施では、Illuminaプラットフォームにおけるクラスター形成のためのフローセルは、レーンを伴うスライドガラスである。各レーンは、2種類のオリゴによる薄層でコーティングされたガラスチャネルである。ハイブリダイゼーションは、表面上の、2種類のオリゴのうちの第1のオリゴにより可能となる。このオリゴは、断片の1つの末端上の、第1のアダプターと相補的である。ポリメラーゼは、ハイブリダイズさせた断片の相補鎖を創出する。二本鎖分子を変性させ、元の鋳型鎖を洗い流す。残りの鎖を、架橋の適用を介して、他の多くの残りの鎖と並列的に、クローン増幅する。
架橋増幅では、鎖は、折り重なり、鎖の第2の末端上の、第2のアダプター領域は、フローセル表面上の、第2の種類のオリゴとハイブリダイズする。ポリメラーゼは、相補鎖を発生させ、二本鎖架橋分子を形成する。この二本鎖分子を変性させる結果として、2つの異なるオリゴを介して、フローセルへとテザリングされた、2つの一本鎖分子をもたらす。次いで、方法を、何度も繰り返すと、結果として得られる、全ての断片のクローン性増幅が、数百万に及ぶクラスターについて、同時に生じる。架橋増幅の後、リバース鎖を切断し、洗い流し、フォワード鎖だけを残す。3'末端をブロッキングして、望ましくないプライミングを防止する。
クラスター形成の後、シーケンシングは、第1のシーケンシングプライマーを伸長させて、第1のリードを生成することで始まる。各サイクルで、蛍光タグ付けされたヌクレオチドは、増殖鎖への付加について競合する。1つのヌクレオチドだけが、鋳型の配列に基づき組み込まれる。各ヌクレオチドの付加の後、クラスターを、光源により励起し、特徴的な蛍光シグナルを発光させる。サイクル数が、リードの長さを決定する。発光波長及びシグナル強度が、塩基判定を決定する。所与のクラスターについて、全ての同一な鎖を、同時に読み取る。数億に及ぶクラスターを、超並列的にシーケンシングする。第1の読取りが完了したら、読取り産物を洗い流す。
2つのインデックスプライマーを伴うプロトコールの次の工程では、インデックス1のプライマーを導入し、鋳型上のインデックス1の領域へとハイブリダイズさせる。インデックス領域は、マルチプレックスシーケンシング工程における、脱マルチプレックス化試料に有用な断片の同定をもたらす。インデックス1のリードを、第1のリードと同様に生成する。インデックス1の読取りが完了したら、読取り産物を洗い流し、鎖の3'末端の保護を解除する。次いで、鋳型鎖は、折り重なり、フローセル上の、第2のオリゴに結合する。インデックス2の配列を、インデックス1と同様に読み取る。次いで、インデックス2の読取り産物を、工程の完了時に洗い流す。
2つのインデックスを読み取った後で、ポリメラーゼを使用して、第2のフローセルオリゴを伸長させることにより、読取り2が開始されることから、二本鎖架橋が形成される。この二本鎖DNAを変性させ、3'末端をブロッキングする。元のフォワード鎖を切り離し、洗い流し、リバース鎖を残す。読取り2は、読取り2のシーケンシングプライマーの導入と共に始まる。読取り1と同様に、所望の長さを達成するまで、シーケンシング工程を繰り返す。読取り2の産物を洗い流す。この方法の全体は、数百万に及ぶリードを生成し、全ての断片を表す。プールされた試料ライブラリーからの配列を、試料調製時に導入される、固有のインデックスに基づき分離する。各試料について、同様の、一連の塩基判定の読取りを、局所的にクラスター化する。フォワードリードと、リバースリードとを対にすることから、連続配列を創出する。これらの連続配列を、変異体同定のために、基準ゲノムに対してアライメントする。
上記で記載した、合成によるシーケンシングの例は、開示される方法についての実施形態の多くで使用されるペアドエンドリードを伴う。ペアドエンドシーケンシングは、2つの断片の末端に由来する2つのリードを伴う。リードの対を、基準配列に対してマッピングすると、2つのリードの間の塩基対距離を決定することができ、次いで、この距離を使用して、リードを得た断片の長さを決定することができる。一部の場合に、2つのビンにまたがる断片であれば、1つのビンに対してアライメントされた、そのペアドエンドリードのうちの1つと、隣接するビンに対する別のペアドエンドリードとを有するであろう。ビンが長くなるか、又はリードが短くなるほど、これは稀になる。多様な方法を使用して、これらの断片のビン帰属を明らかにすることができる。例えば、これらの断片を、ビンの断片サイズ頻度の決定において省略することもでき;これらの断片が、隣接するビンの両方を占める場合もあり;これらの断片を、2つのビンの、多数の塩基対を包含するビンへと割り当てることもでき;これらの断片を、各ビン内の塩基対の分量に関する重みづけを伴って、両方のビンへと割り当てることもできる。
ペアドエンドリードは、異なる長さの(すなわち、シーケンシングされる断片サイズが異なる)インサートを使用しうる。本開示におけるデフォルトの意味として、ペアドエンドリードは、多様なインサートの長さから得られるリードを指すのに使用される。一部の場合、短いインサートのペアドエンドリードを、長いインサートのペアドエンドリードから識別するために、後者はまた、メイトペアドリードとも称する。メイトペアドリードを伴う、一部の実施形態では、2つのビオチン接合部アダプターを、まず、比較的長いインサート(例えば、数kb)の2つの末端へと接合させる。次いで、ビオチン接合部アダプターが、インサートの2つの末端を連結して、環化分子を形成する。次いで、環化分子を、更に断片化することにより、ビオチン接合部アダプターを包含する部分断片を得ることができる。次いで、元の断片の2つの末端を、反対の配列順序で含む部分断片を、上記で記載した、短いインサートのペアドエンドシーケンシングの場合と同じ手順により、シーケンシングすることができる。Illuminaプラットフォームを使用する、メイトペアドをシーケンシングについてのさらなる詳細は、参照によりその全体が組み込まれる、以下のURL:res|.|illumina|.|com/documents/products/technotes/technote_nextera_matepair_data_processingにおけるオンライン刊行物において示されている。ペアドエンドシーケンシングについてのさらなる情報は、ペアドエンドシーケンシングの方法及び装置についての材料に関して、参照により組み込まれる、米国特許第7601499号及び米国特許公開第2012/0,053,063号において見出すことができる。
DNA断片をシーケンシングした後で、所定の長さ、例えば、100bpの配列リードを、公知の基準ゲノムへとマッピングするか、又はこれに対してアライメントする。マッピング又はアライメントされたリード及び基準配列上のそれらの対応する位置はまた、タグとも称する。一実施形態では、基準ゲノム配列は、NCBI36/hg18の配列であり、これは、genome dot ucsc dot edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105のワールドワイドウェブにおいて入手可能である。代替的に、基準ゲノム配列は、GRCh37/hg19の配列であり、これは、genome dot ucsc dot edu/cgi-bin/hgGatewayのワールドワイドウェブにおいて入手可能である。公開配列情報の他の供給源は、GenBank、dbEST、dbSTS、EMBL(the European Molecular Biology Laboratory)、及びDDBJ(the DNA Databank of Japan)を含む。BLAST(Altschulら、1990)、BLITZ(MPsrch)(Sturrock & Collins、1993)、FASTA(Person & Lipman、1988)、BOWTIE(Langmeadら、Genome Biology、10:R25.1~R25.10[2009])、又はELAND(Illumina, Inc.、San Diego、CA、USA)を含むがこれらに限定されない、配列をアライメントするための、多数のコンピュータプログラムが利用可能である。一実施形態では、血漿cfDNA分子のクローン拡大コピーの1つの末端を、Efficient Large-Scale アライメント of Nucleotide Databases(ELAND)ソフトウェアを使用する、Illumina Genome Analyzerのためのバイオインフォマティクスアライメント解析により、シーケンシングし、加工する。
例示的で非限定的な一実施形態では、本明細書で記載される方法は、Helicos True Single Molecule Sequencing(tSMS)技術による単一分子シーケンシング技術(例えば、Harris T.D.ら、Science、320:106~109[2008]において記載されている)等を使用して、被験試料中の核酸、例えば、がんについてスクリーニングされる対象におけるcfDNA又は細胞内DNAについての配列情報を得る工程を含む。tSMS法では、DNA試料を、約100~200ヌクレオチドの鎖へと切断し、ポリA配列を、各DNA鎖の3'末端へと付加する。蛍光標識化アデノシンヌクレオチドを付加することにより、各鎖を標識化する。次いで、DNA鎖を、フローセル表面へと固定化した、数百万に及ぶオリゴ-T捕捉部位を含有するフローセルへとハイブリダイズさせる。ある特定の実施形態では、鋳型は、1cm2当たりの鋳型約1億の密度でありうる。次いで、フローセルを、測定器、例えば、HeliScope(商標)シーケンサーへとロードし、レーザーにより、フローセルの表面を照射し、各鋳型の位置を明らかにする。CCDカメラにより、フローセル表面上の鋳型の位置をマッピングすることができる。次いで、鋳型の蛍光標識を切断し、洗い流す。シーケンシング反応は、DNAポリメラーゼと、蛍光標識化ヌクレオチドとを導入することにより開始される。オリゴT核酸は、プライマーとして用いられる。ポリメラーゼは、標識化ヌクレオチドを、プライマーへと、鋳型指向的に組み込む。ポリメラーゼと、組み込まれなかったヌクレオチドとを除去する。蛍光標識化ヌクレオチドの組込みを方向付けた鋳型は、イメージングフローセルの表面により弁別される。イメージングの後、切断工程により、蛍光標識を除去し、他の蛍光標識化ヌクレオチドにより、所望のリード長さが達成されるまで、方法を繰り返す。配列情報を、各ヌクレオチド付加工程により収集する。単一分子シーケンシング技術による全ゲノムシーケンシングは、シーケンシングライブラリーの調製における、PCRベースの増幅を除外するか、又は、典型的に、これを回避し、方法は、この試料のコピーの測定ではなく、試料の直接的な測定を可能とする。
例示的で非限定的な、別の実施形態では、本明細書で記載される方法は、454 Sequencing(Roche)(例えば、Margulies, M.ら、Nature 437:376-380 [2005]において記載されている)等を使用して、被験試料中の核酸、例えば、がんについてスクリーニングされる対象におけるcfDNA又は細胞内DNAについての配列情報を得る工程を含む。454 Sequencingは、典型的に、2つの工程を伴う。第1の工程では、DNAを、約300~800塩基対の断片へとせん断し、断片を、平滑末端とする。次いで、オリゴヌクレオチドアダプターを、断片の末端へとライゲーションする。アダプターは、断片の増幅及びシーケンシングのためのプライマーとして用いられる。断片を、例えば、5'-ビオチンタグを含有するAdaptor Bを使用して、DNA捕捉ビーズ、例えば、ストレプトアビジンコーティングビーズへと接合させることができる。ビーズへと接合させた断片を、油-水エマルジョンの液滴内でPCR増幅する。結果は、各ビーズ上の、クローン増幅されたDNA断片の複数のコピーである。第2の工程では、ビーズを、ウェル(例えば、ピコリットルサイズのウェル)内に捕捉する。パイロシーケンシングを、各DNA断片上で、並列的に実行する。1つ又は複数のヌクレオチドの付加は、シーケンシング測定器内のCCDカメラにより記録される光シグナルを発生させる。シグナル強度は、組み込まれるヌクレオチドの数に比例する。パイロシーケンシングは、ヌクレオチドが付加されると放出されるピロリン酸(PPi)を活用する。PPiは、アデノシン5'ホスホスルフェートの存在下で、ATPスルフリラーゼにより、ATPへと転換される。ルシフェラーゼは、ATPを使用して、ルシフェリンを、オキシルシフェリンへと転換し、この反応は、測定及び解析される光を発生させる。
例示的で非限定的な、別の実施形態では、本明細書で記載される方法は、SOLiD(商標)技術(Applied Biosystem)等を使用して、被験試料中の核酸、例えば、被験試料中のcfDNA、がんについてスクリーニングされる対象におけるcfDNA又は細胞内DNAについての配列情報を得る工程を含む。ライゲーションによるシーケンシングであるSOLiD(商標)では、ゲノムDNAを、断片へとせん断し、アダプターを、断片の5'末端及び3'末端へと接合させて、断片ライブラリーを作出する。代替的に、アダプターを、断片の5'末端及び3'末端へとライゲーションし、断片を環化し、環化された断片を消化して、内部アダプターを作出し、アダプターを、結果として得られる断片の5'末端及び3'末端へと接合させることにより、内部アダプターを導入して、メイトペアドライブラリーを作出することができる。次に、クローンビーズ集団を、ビーズ、プライマー、鋳型、及びPCR成分を含有するマイクロリアクター内で調製する。PCRの後、鋳型を変性させ、伸長させた鋳型を伴うビーズを分離するために濃縮する。選択されたビーズ上の鋳型を、スライドガラスへの結合を可能とする3'修飾にかける。配列は、中心となる決定塩基(又は塩基の対)が、特異的なフルオロフォアにより同定される、部分的にランダムなオリゴヌクレオチドの、逐次的なハイブリダイゼーション及びライゲーションにより決定することができる。色を記録した後で、ライゲーションされたオリゴヌクレオチドを切断及び除去し、次いで、方法を繰り返す。
例示的で非限定的な、別の実施形態では、本明細書で記載される方法は、Pacific Biosciencesによる、単一分子リアルタイム(SMRT(商標))シーケンシング技術等を使用して、被験試料中の核酸、例えば、被験試料中のcfDNA、がんについてスクリーニングされる対象におけるcfDNA又は細胞内DNAについての配列情報を得る工程を含む。SMRTシーケンシングでは、色素標識化ヌクレオチドの連続的組込みを、DNA合成時にイメージングする。単一のDNAポリメラーゼ分子を、リン酸連結ヌクレオチドが、増殖するプライマー鎖へと組み込まれるときに、配列情報を得る、個別のゼロモード波長検出器(ZMW検出器)の底面へと接合させる。ZMW検出器は、DNAポリメラーゼによる、単一のヌクレオチドの組込みの、ZMWの外部へと、急速に(例えば、マイクロ秒間で)拡散する蛍光のヌクレオチドのバックグラウンドに対する観察を可能とする閉止構造を含む。ヌクレオチドを、増殖する鎖へと組み込むには、典型的に、数ミリ秒間を要する。この時間中に、蛍光標識が励起され、蛍光シグナルがもたらされ、蛍光タグが切断される。対応する色素の蛍光の測定は、塩基が組み込まれたことを指し示す。方法を繰り返して、配列をもたらす。
例示的で非限定的な、別の実施形態では、本明細書で記載される方法は、ナノ小孔シーケンシング(例えば、Soni GV及びMeller A.、Clin Chem、53: 1996~2001[2007]において記載されている)等を使用して、被験試料中の核酸、例えば、がんについてスクリーニングされる対象におけるcfDNA又は細胞内DNAについての配列情報を得る工程を含む。ナノ小孔シーケンシングDNA解析法は、例えば、Oxford Nanopore Technologies(Oxford、United Kingdom)、Sequenom、NABsys等を含む、多数の企業により開発されている。ナノ小孔シーケンシングは、単一分子のDNAを、それが、ナノ小孔を通過するときに、直接シーケンシングする、単一分子シーケンシング技術である。ナノ小孔は、典型的に、1ナノメートルの桁数の直径の小孔である。ナノ小孔を、導電液中に浸漬し、これを隔てて、電位(電圧)を印加する結果として、ナノ小孔を介するイオンの伝導に起因する、微量の電流がもたらされる。流れる電流の量は、ナノ小孔のサイズ及び形状に対して感受性である。DNA分子が、ナノ小孔を通過するとき、DNA分子上の各ヌクレオチドは、ナノ小孔を、異なる程度に塞ぎ、ナノ小孔を通る電流の大きさを、異なる程度に変化させる。したがって、DNA分子が、ナノ小孔を通過するときの、この電流の変化は、DNA配列の読取りをもたらす。
例示的で非限定的な、別の実施形態では、本明細書で記載される方法は、化学感応性電界効果トランジスター(chemFET)アレイ(例えば、米国特許出願第2009/0026082号において記載されている)等を使用して、被験試料中の核酸、例えば、がんについてスクリーニングされる対象におけるcfDNA又は細胞内DNAについての配列情報を得る工程を含む。この技法の一例では、DNA分子を、反応チャンバーに入れ、鋳型分子を、ポリメラーゼに結合したシーケンシングプライマーとハイブリダイズさせることができる。シーケンシングプライマーの3'末端における、1つ又は複数の三リン酸の、新たな核酸鎖への組込みは、chemFETにより、電流の変化として弁別することができる。アレイは、複数のchemFETセンサーを有しうる。別の例では、単一の核酸を、ビーズへと接合させ、核酸を、ビーズ上で増幅し、個別のビーズを、各チャンバーが、chemFETセンサーを有する、chemFETアレイ上の、個別の反応チャンバーへと移し、核酸をシーケンシングすることができる。
別の実施形態では、本方法は、透過電子顕微鏡(TEM)を使用して、被験試料中の核酸についての配列情報を得る工程を含む。Individual Molecule Placement Rapid Nano Transfer(IMPRNT)と称する方法は、高質量原子マーカーで選択的に標識化された、高分子量(150kb又はこれを超える)DNAの、単一原子分解型透過電子顕微鏡イメージングを活用する工程と、これらの分子を、塩基間間隔を一定とする、超高密度(鎖間を3nmとする)並列アレイ内の超薄膜上に配列する工程を含む。薄膜上の分子をイメージングして、高質量原子マーカーの位置を決定し、DNAから、塩基配列情報を抽出するのに、電子顕微鏡を使用する。方法については、PCT特許公開第WO2009/046445号において更に記載されている。方法は、完全ヒトゲノムを、10分間未満でシーケンシングすることを可能とする。
別の実施形態では、DNAシーケンシング技術は、半導体技術を、単純なシーケンシング化学反応と組み合わせて、化学的にコードされた情報(A、C、G、T)を、半導体チップ上のデジタル情報(0、1)へと、直接変換する、Ion Torrent単一分子シーケンシングである。天然では、ヌクレオチドが、ポリメラーゼにより、DNAの鎖へと組み込まれると、水素イオンが、副産物として放出される。Ion Torrentは、マイクロ加工ウェルによる高密度アレイを使用して、この生化学法を、超並列的に実行する。各ウェルは、異なるDNA分子を保持する。ウェルの下方には、イオン感受性層があり、この下方には、イオンセンサーがある。ヌクレオチド、例えば、Cが、DNA鋳型へと付加され、次いで、DNAの鎖へと組み込まれると、水素イオンが放出されるであろう。このイオンに由来する電荷が、溶液のpHを変化させるが、これを、Ion Torrent製のイオンセンサーにより検出することができる。シーケンサー(本質的に、世界で最小の固体状態pHメーター)は、化学情報から、デジタル情報へと、直接移行して、塩基を判定する。次いで、Ion personal Genome Machine(PGM(商標))シーケンサーが、チップを、1ヌクレオチドずつ、逐次的に満たす。チップを満たす、次のヌクレオチドが、マッチしない場合、電圧の変化は記録されず、塩基も判定されない。DNA鎖上に、2つの同一な塩基が存在する場合、電圧は倍加し、チップも2つの同一な塩基が判定されたことを記録する。直接的な検出は、ヌクレオチドの組込みを、数秒間で記録することを可能とする。
別の実施形態では、本方法は、ハイブリダイゼーションによるシーケンシングを使用して、被験試料中の核酸についての配列情報を得る工程を含む。ハイブリダイゼーションによるシーケンシングは、複数のポリヌクレオチド配列を、複数のポリヌクレオチドプローブと接触させることを含み、この場合、複数のポリヌクレオチドプローブの各々を、任意選択で、基板へとテザリングすることができる。基板は、公知のヌクレオチド配列のアレイを含む平面でありうるであろう。アレイとのハイブリダイゼーションのパターンを使用して、試料中に存在するポリヌクレオチド配列を決定することができる。他の実施形態では、各プローブを、ビーズ、例えば、磁気ビーズ等へとテザリングする。ビーズとのハイブリダイゼーションを決定し、試料中の、複数のポリヌクレオチド配列を同定するのに使用することができる。
本明細書で記載される方法についての一部の実施形態では、マッピングされた配列タグは、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、又は約500bpの配列リードを含む。技術的進歩が、ペアドエンドリードが生成されると、約1000bpを超えるリードを可能とする、500bpを超えるシングルエンドリードを可能とすることが期待される。一実施形態では、マッピングされた配列タグは、36bpである配列リードを含む。配列タグのマッピングは、タグの配列を、基準の配列と比較して、シーケンシングされる核酸(例えば、cfDNA)分子の染色体由来を決定することにより達成するので、具体的な遺伝子配列情報を必要としない。小さな程度のミスマッチ(配列タグ1つ当たり0~2つのミスマッチ)により、基準ゲノムと、混合試料中のゲノムとの間に存在しうる、マイナー多型を明らかにすることができる。
複数の配列タグは、典型的に、試料ごとに得られる。一部の実施形態では、75bpのリードを含む、少なくとも約1×105の配列タグを、試料ごとの、リードの、基準ゲノムへのマッピングから得る。
がん試料のCCFを正しく推定するために要求される精度は、シーケンシングラン内の、試料間の、基準ゲノムへとマッピングされる配列タグの変動の数(試行間のばらつき)、及び異なるシーケンシングランにおいて、基準ゲノムへとマッピングされる配列タグの変動の数(試行間のばらつき)に基づき予測される。他の変動は、核酸の抽出及び精製、シーケンシングライブラリーの調製のために、異なるプロトコールを使用すること、並びに異なるシーケンシングプラットフォームの使用から生じうる。
がん細胞分率(CCF)を推定するための装置及びシステム
シーケンシングデータの解析及びこれに由来する診断は、典型的に、多様なコンピュータプログラムを使用して実行する。したがって、ある特定の実施形態は、1つ又は複数のコンピュータシステム若しくは他の処理システムに記憶されるデータ、又はこれらを介して転送されるデータを伴う方法を援用する。本明細書で開示される実施形態はまた、これらの操作を実行するための装置にも関する。この装置は、要求される目的のために、特別に構築される場合もあり、コンピュータプログラム及び/又はコンピュータ内に記憶されるデータ構造により選択的に起動又は再構成される汎用コンピュータ(又はコンピュータ群)の場合もある。一部の実施形態では、プロセッサー群は、列挙される解析的操作の一部又は全部を、協同的に(例えば、ネットワーク又はクラウドコンピューティングを介して)、且つ/又は並列的に実行する。本明細書で記載される方法を実行するためのプロセッサー又はプロセッサー群は、ゲートアレイASIC又は汎用マイクロプロセッサー等、プログラム型デバイス(例えば、CPLD及びFPGA)及び非プログラム型デバイス等、マイクロコントローラー及びマイクロプロセッサーを含む、多様な種類のプロセッサー又はプロセッサー群でありうる。
加えて、ある特定の実施形態は、多様なコンピュータ実施型操作を実行するための、プログラム命令及び/又はデータ(データ構造を含む)を含む、有形のコンピュータ読取り型媒体及び/若しくは非一時的コンピュータ読取り型媒体、又はコンピュータプログラム製品に関する。コンピュータ読取り型媒体の例は、半導体メモリデバイス、ディスクドライブ、磁気テープ等の磁性媒体、CD等の光学媒体、磁性-光学媒体、及びリードオンリーメモリデバイス(ROM)及びランダムアクセスメモリ(RAM)等、プログラム命令を記憶し、実行するように、特別に構成されたハードウェアデバイスを含むがこれらに限定されない。コンピュータ読取り型媒体は、末端使用者により、直接的に制御される場合もあり、末端使用者により、間接的に制御される場合もある。直接的に制御される媒体の例は、使用者施設に配置された媒体、及び/又は他の実体と共有されない媒体を含む。間接的に制御される媒体の例は、外部ネットワークを介して、且つ/又は「クラウド」等、サービスプロバイダーにより共有されるリソースを介して、使用者に間接的にアクセス可能な媒体を含む。プログラム命令の例は、コンプライアーにより作製されるコード等のマシンコード、及び解釈プログラムを使用して、コンピュータにより実行されうる高レベルコードを含有するファイルの両方を含む。
多様な実施形態では、開示される方法及び装置において援用されるデータ又は情報は、電子的フォーマットで提供される。このようなデータ又は情報は、核酸試料に由来するリード及びタグ、基準配列の特定の領域と一致する(例えば、染色体又は染色体セグメントと一致する)ようなタグのカウント又は密度、基準配列(多型だけを提供するか、又は主に多型を提供する基準配列を含む)、SNV又は異数性判定等の判定、CCFの推定値、カウンセリングにおける推奨、診断等を含みうる。本明細書で使用される、電子的フォーマットで提供されるデータ又は他の情報は、マシン上の記憶、及びマシン間の送信に利用可能である。従来、電子的フォーマットにおけるデータは、多様なデータ構造にあるビット及び/又はバイト、リスト、データベース等として、デジタル的に提供され、記憶されうる。データは、電子的に具体化される、光学的に具体化される等である。
一実施形態は、被験試料中の変異体、例えば、がんと関連する変異体のCCFを指し示す出力を生成するためのコンピュータプログラム製品を提供する。コンピュータ製品は、染色体異常を決定するための、上記で記載された方法のうちの、任意の1つ又は複数を実行するための命令を含有しうる。説明される通り、コンピュータ製品は、プロセッサーが、1つ又は複数のがん試料中の、1つ又は複数の変異体のCCFを推定することを可能とするために、その上に記録されたコンピュータ実行型又はコンピュータコンパイル型の論理回路(例えば、命令)を有する非一時的コンピュータ読取り型媒体及び/若しくは有形のコンピュータ読取り型媒体を含みうる。一例では、コンピュータ製品は、プロセッサーが、1つ又は複数のがん試料中の、1つ又は複数の変異体のCCFを決定することを可能とするために、その上に記録されたコンピュータ実行型又はコンピュータコンパイル型の論理回路(例えば、命令)を有するコンピュータ読取り型媒体を含む。
検討下にある試料に由来する配列情報を、任意の1つ又は複数の目的の染色体の各々について、多数の配列タグを同定するように、染色体の基準配列へとマッピングすることができる。多様な実施形態では、基準配列を、例えば、リレーショナルデータベース又はオブジェクトデータベース等のデータベースに記憶する。
大半の場合、支援を受けずに、手作業で、本明細書で開示される方法の演算操作を実行することは、実践的ではないか、又は可能ですらないことを理解されたい。例えば、演算装置の支援を伴わずに、試料に由来する単一の30bpのリードを、ヒト染色体のいずれか1つへとマッピングするとすれば、数年間にわたる労力を要求するであろう。手作業で、混合モデルの最適化又はコンピュータシミュレーションを実行することは、困難又は不可能であろう。
本明細書で開示される方法は、がん試料のCCFを推定するためのシステムを使用して実施することができる。システムは、(a)被験試料に由来する核酸を受け取り、被験試料についての核酸配列情報を提供するためのシーケンサーと;(b)プロセッサーと;(c)1つ又は複数のがん試料中の、1つ又は複数の変異体のCCFを決定するように、前記プロセッサー上で実行するための命令を、その上に記憶している、1つ又は複数のコンピュータ読取り型記憶媒体とを含む。
一部の実施形態では、方法は、がん試料のCCFを推定するための方法を実行するためのコンピュータ読取り型命令をその上に記憶している、コンピュータ読取り型媒体により命令される。したがって、一実施形態は、コンピュータシステムの1つ又は複数のプロセッサーにより実行されると、コンピュータシステムに、がん試料のCCFを推定するための方法を実施させるコンピュータ実行型命令をその上に記憶している1つ又は複数のコンピュータ読取り型の非一時的記憶媒体を含むコンピュータプログラム製品を提供する。方法は、(a)対象に由来する少なくとも1つの被験試料中の核酸をシーケンシングすることにより得られた配列リードを受け取る工程であって、核酸が、がん細胞の1つ又は複数のサブクローンに由来する工程と;(b)配列リードを、基準ゲノムに対してアライメントして、配列タグをもたらす工程であって、基準ゲノムが、複数の遺伝子座を含み、複数の遺伝子座のうちの各遺伝子座が、複数の体細胞突然変異のうちの1つの体細胞突然変異を保有する工程と;(c)複数の遺伝子座のうちの各遺伝子座について、遺伝子座のカバレッジ及び遺伝子座の変異体アレル頻度(VAF)を決定する工程であって、VAFが、体細胞突然変異体のアレル頻度である工程と;(d)被験試料中の全ての細胞の中の腫瘍細胞の分率である腫瘍純度値(p)を提供する工程と;(e)被験試料中の全ての細胞の、複数の遺伝子座のうちの各遺伝子座について、遺伝子座における全てのアレルの平均コピー数(N)を提供する工程と;(f)VAF、p、及びNを使用して、複数の遺伝子座のうちの各遺伝子座について、初期がん細胞分率(iCCF)を計算し、この場合、がん細胞分率が、遺伝子座において、体細胞突然変異を有するがん細胞の分率であり、これにより、複数の遺伝子座について、複数のiCCFを得る工程と;(g)複数の遺伝子座について、複数のiCCFをクラスター化し、これにより、iCCFの1つ又は複数のクラスターを得る工程と;(h)1つ又は複数のクラスターのiCCFを使用して、複数の体細胞突然変異のうちの1つ又は複数の体細胞突然変異について、1つ又は複数の最終がん細胞分率(fCCF)を決定する工程を含む。
一部の実施形態では、命令は、被験試料を提供するヒト対象についての患者医療記録中の、方法に関する自動記録情報を更に含みうる。患者医療記録は、例えば、検査室、医師のオフィス、病院、保健機構、保険会社、又は個人医療記録のウェブサイトにより維持されうる。更に、プロセッサー実装型解析の結果に基づき、方法は、被験試料を採取したヒト対象の処置を処方する工程、これを開始する工程、及び/又はこれを変更する工程を更に伴いうる。これは、対象から採取したさらなる試料に対する、1つ又は複数のさらなる検査又は解析を実行する工程を伴いうる。
開示される方法はまた、がん試料のCCFを推定するための方法を実行するように適合させるか、又は構成されたコンピュータ処理システムを使用しても実行することができる。一実施形態は、本明細書で記載される方法を実行するように適合させるか、又は構成されたコンピュータ処理システムを提供する。一実施形態では、装置は、試料中の核酸分子のうちの少なくとも一部をシーケンシングして、本明細書の他の箇所で記載される種類の配列情報を得るために適合させるか、又は構成されたシーケンシングデバイスを含む。装置はまた、試料を加工するための構成要素も含みうる。このような構成要素については、本明細書の他の箇所で記載する。
配列又は他のデータは、コンピュータへと入力することもでき、コンピュータ読取り型媒体上に、直接的に又は間接的に記憶することもできる。一実施形態では、コンピュータシステムを、試料に由来する核酸の配列を読み取り、且つ/又は解析する、シーケンシングデバイスへと、直接的にカップリングさせる。このようなツールからの配列又は他の情報は、コンピュータシステム内のインターフェースを介して提供することができる。代替的に、システムにより加工された配列は、データベース又は他のリポジトリー等、配列記憶源から提供することができる。処理装置に利用可能となったら、メモリデバイス又は大容量記憶デバイスは、核酸の配列を、少なくとも一時的に、バッファーに格納するか、又は記憶する。加えて、メモリデバイスは、多様な染色体又はゲノム等についてのタグカウントも記憶しうる。メモリはまた、配列を解析及び提示するための、多様なルーチン及び/若しくはプログラム、又はマッピングされたデータも記憶しうる。このようなプログラム/ルーチンは、統計学的解析等を実行するためのプログラムを含みうる。
一例では、使用者は、試料を、シーケンシング装置へと供給する。コンピュータへと接続されたシーケンシング装置により、データを収集及び/又は解析する。コンピュータ上のソフトウェアは、データの回収及び/又は解析を可能とする。データを、記憶し、表示し(モニター又は他の同様のデバイスを介して)、且つ/又は別の場所へと送ることができる。データを、遠隔使用者(例えば、医師、研究者、又は分析者)により活用される携帯型デバイスへと送信するのに使用される、インターネットへと、コンピュータを接続することができる。送付の前に、データを、記憶及び/又は解析しうることが理解される。一部の実施形態では、生データを、回収し、データを解析及び/又は記憶する遠隔使用者又は装置へと送る。送付は、インターネットを介して生じうるが、また、衛星又は他の接続を介しても生じうる。代替的に、データを、コンピュータ読取り型媒体上に記憶し、媒体を、末端使用者へと(例えば、郵便を介して)発送することができる。遠隔使用者は、同じ又は異なる地理的場所であって、建物、市、州、国、又は大陸を含むがこれらに限定されない地理的場所に存在しうる。
一部の実施形態では、方法はまた、複数のポリヌクレオチド配列(例えば、リード、タグ、及び/又は基準染色体配列)に関するデータを収集する工程と、データを、コンピュータ又は他の演算システムへと送る工程とも含む。例えば、コンピュータを、検査室設備、例えば、試料の回収装置、ヌクレオチドの増幅装置、ヌクレオチドのシーケンシング装置、又はハイブリダイゼーション装置へと接続することができる。次いで、コンピュータは、検査室デバイスにより集積される、該当するデータを回収しうる。データは、任意の工程において、例えば、リアルタイムで回収しながら、送る前に、送るときに、若しくは送ることと共に、又は送った後で、コンピュータ上に記憶することができる。データは、コンピュータから取り出すことができる、コンピュータ読取り型媒体上に記憶することができる。回収又は記憶されたデータは、例えば、ローカルネットワーク又はインターネット等の広域ネットワークを介して、コンピュータから、遠隔地へと送信することができる。遠隔地では、下記で記載される通り、送信されたデータに対して、多様な操作を実施することができる。
本明細書で開示されるシステム、装置、及び方法において、記憶され、送信され、解析され、且つ/又は操作されうる、電子フォーマットデータの種類の中には、以下の種類:
被験試料中の核酸シーケンシングにより得られるリード
リードを、基準ゲノム又は他の基準配列若しくは配列に対してアライメントすることにより得られるタグ
基準ゲノム又は基準配列
アレルカウント(基準ゲノム又は他の基準配列の各アレル及び領域についての、タグのカウント又は数)
決定されたCCF値、がん細胞のクローン性、又はがん細胞のサブクローンの数
診断(判定と関連する臨床状態)
判定及び/又は診断から導出される、さらなる検査の推奨
判定及び/又は診断から導出される、処置及び/又はモニタリングの計画
がある。
1つ又は複数の場所において、顕著に異なる装置を使用して、これらの多様な種類のデータを、得、記憶し、送信し、解析し、且つ/又は操作することができる。加工の選択肢は、広範なスペクトルにわたる。スペクトルの一端では、この情報の全て又は大半を、被験試料が加工される場所、例えば、医師のオフィス又は他の臨床環境において、記憶し、使用する。他の極では、試料を、1つの場所において得、これを、異なる場所において、加工し、任意選択で、シーケンシングし、1つ又は複数の異なる場所において、リードを、アライメントし、判定を下し、更に別の場所(これは、試料が得られた場所でもよい)において、診断、推奨、及び/又は計画を作成する。
多様な実施形態では、シーケンシング装置により、リードを生成し、次いで、遠隔施設へと送信し、そこで、リードを加工して、判定を行う。例として述べると、この遠隔場所において、リードを、基準配列に対してアライメントして、タグを作製し、これをカウントし、目的の染色体又はセグメントへと割り当てる。遠隔場所ではまた、その量を使用して、判定も生成する。
顕著に異なる場所で援用されうる加工操作には、以下の操作:
試料の回収
シーケンシングに対して準備的な、試料の加工
シーケンシング
配列データを解析し、被験試料を定量化すること
診断
患者又は医療ケア従事者へと、診断及び/又は判定を報告すること
さらなる処置、検査、及び/又はモニタリングのための計画を立案すること
計画を実行すること
カウンセリングすること
がある。
これらの操作のうちの、任意の1つ又は複数は、本明細書の他の箇所で記載されている通りに自動化することができる。典型的に、配列データのシーケンシング及び解析並びにCCFの推定は、演算により実行されるであろう。他の操作は、手動で実行することもでき、自動で実行することもできる。
試料の回収を実施しうる場所の例は、医療従事者のオフィス、診療所、患者の自宅(試料の回収ツール又はキットが用意されている)、及び医療ケア用移動車両を含む。シーケンシングの前に試料の加工を実施しうる場所の例は、医療従事者のオフィス、診療所、患者の自宅(試料の加工装置又はキットが用意されている)、医療ケア用移動車両、及びDNA解析従事者の施設を含む。シーケンシングを実施しうる場所の例は、医療従事者のオフィス、診療所、医療従事者のオフィス、診療所、患者の自宅(試料のシーケンシング装置及び/又はキットが用意されている)、医療ケア用移動車両、及びDNA解析従事者の施設を含む。シーケンシングがなされる場所は、配列データ(典型的にリード)を、電子的フォーマットで送信するための、専用のネットワーク接続により提供されうる。このような接続は、有線の場合もあり、無線の場合もあり、データを、加工施設への送信の前に、データを加工及び/又は集計しうる施設へと送るように構成することができる。データ集計装置は、健康維持機構(HMO)等の保健機構により維持されうる。
解析操作及び/又は導出操作は、前出の場所のうちのいずれかにおいて実行することもでき、代替的に、核酸配列データの演算及び/又は解析サービスに特化した、更に遠隔の施設において実行することもできる。このような場所は、例えば、汎用のサーバーファーム、DNA解析サービス事業の施設等のクラスターを含む。一部の実施形態では、解析を実行するのに援用される演算装置は、リース又はレンタルである。演算リソースは、プロセッサーとして巷間で公知の加工リソース等、インターネットでアクセス可能なプロセッサーのコレクションの一部でありうる。場合によって、演算は、互いと系列化されているか、又は系列化されていない、並列プロセッサー群又は超並列プロセッサー群により実行する。処理は、クラスターコンピューティング、グリッドコンピューティング等の分散処理を使用して達することができる。このような実施形態では、演算リソースのクラスター又はグリッドは、総体として、本明細書で記載される解析及び/又は導出を実行するように、一体に作用する、複数のプロセッサー又はコンピュータから構成される、スーパーバーチャルコンピュータを形成する。これらの技術、並びにより従来のスーパーコンピュータを援用して、本明細書で記載される配列データを処理することができる。各々が、プロセッサー又はコンピュータに依拠する、パラレルコンピューティングの形態である。グリッドコンピューティングの場合、これらのプロセッサー(コンピュータ全体であることが多い)は、イーサーネット等、従来のネットワークプロトコールを介するネットワーク(プライベートネットワーク、パブリックネットワーク、又はインターネット)により接続される。これに対し、スーパーコンピュータは、ローカル高速コンピュータバスにより接続された、多くのプロセッサーを有する。
ある特定の実施形態では、診断を、解析操作と同じ場所で作成する。他の実施形態では、異なる場所で診断を下す。一部の例では、診断の報告を、試料を採取した場所で実行するが、その必要がない場合もある。診断を作成若しくは報告することが可能であり、且つ/又は計画の立案を実施する場所の例は、医療従事者のオフィス、診療所、コンピュータ、及びセルフォン、タブレット、スマートフォン等の携帯型デバイスであって、ネットワークへの有線又は無線の接続を有する携帯型デバイスによりアクセス可能なインターネットサイトを含む。カウンセリングを実施する場所の例は、医療従事者のオフィス、診療所、コンピュータ、携帯型デバイス等によりアクセス可能なインターネットサイトを含む。
一部の実施形態では、試料の回収、試料の加工、及びシーケンシング操作を、第1の場所において実行し、解析操作及び導出操作を、第2の場所で実行する。しかし、場合によって、試料を、1つの場所(例えば、医療従事者のオフィス又は診療所)で回収し、試料の加工及びシーケンシングを、任意選択で、解析と導出とを行う同じ場所である、異なる場所で実行する。
多様な実施形態では、上記で列挙された、一連の操作は、試料の回収、試料の加工、及び/又はシーケンシングを開始する使用者又は実体により始動されうる。1つ又は複数のこれらの操作が実行を開始した後では、当然ながら、他の操作も後続しうる。例えば、シーケンシング操作は、リードを、自動的に収集させ、処理装置へと送らせ、次いで、この処理装置は、しばしば自動的に、おそらく、さらなる使用者の介入を伴わずに、配列の解析を実行することから、がん試料のCCFを推定する。一部の実施では、次いで、この処理操作の結果を、おそらく、診断としてのリフォーマット処理を伴い、システムの構成要素、又は情報を処理し、医療従事者及び/若しくは患者へと報告する実体へと自動的に送達する。説明される通り、このような情報はまた、処置、検査、及び/又はモニタリングの計画を策定するように、カウンセリング情報と共に、自動的に処理することもできる。したがって、早期段階の操作を開始することは、医療従事者、患者、又は他の関係者に、診断、計画、カウンセリング、及び/又は身体状態に働きかけるために有用な他の情報を提供する、一連の過程の全体を始動しうる、これは、システム全体の一部が、例えば、試料及び配列装置の場所から、物理的に隔てられ、おそらく、遠隔にある場合であってもなお達せられる。
図12は、単純なブロックフォーマットにおいて、適正に構成又は設計されれば、ある特定の実施形態に従い、演算装置として用いられうる、典型的なコンピュータシステムを例示する。コンピュータシステム2000は、一次記憶装置2006(典型的に、ランダムアクセスメモリ又はRAM)、一次記憶装置2004(典型的に、リードオンリーメモリ又はROM)を含む記憶デバイスへとカップリングさせた、任意の数のプロセッサー2002(また、中央処理装置又はCPUとも称する)を含む。CPU 2002は、ゲートアレイASIC又は汎用マイクロプロセッサー等、プログラム型デバイス(例えば、CPLD及びFPGA)及び非プログラム型デバイス等、マイクロコントローラー及びマイクロプロセッサーを含む、多様な種類のCPUでありうる。描示される実施形態では、一次記憶装置2004は、データ及び命令を、CPUへと、一方向的に転送するように作動し、一次記憶装置2006は、典型的に、データ及び命令を、双方向的に転送するのに使用される。これらの一次記憶デバイスのいずれも、上記で記載したコンピュータ読取り型媒体等、任意の適切なコンピュータ読取り型媒体を含みうる。大容量記憶デバイス2008もまた、一次記憶装置2006へと、双方向的にカップリングさせ、さらなるデータ記憶容量をもたらし、上記で記載したコンピュータ読取り型媒体のうちのいずれかを含みうる。大容量記憶デバイス2008は、プログラム、データ等を記憶するのに使用することができ、典型的に、ハードディスク等、二次記憶媒体である。しばしば、このようなプログラム、データ等は、CPU 2002上の実行のために、一次メモリ2006へと一時的にコピーされる。大容量記憶デバイス2008内に保持された情報は、適切な場合、標準的な形で、一次記憶装置2004の一部として組み込まれうることが察知されるであろう。CD-ROM 2014等、具体的な大容量記憶デバイスもまた、データを、CPU又は一次記憶装置へと、一方向的に受け渡しうる。
また、CPU2002を、核酸シーケンサー(2020)、ビデオモニター、トラックボール、マウス、キーボード、マイクロフォン、タッチセンサー式ディスプレイ、トランスデューサーカードリーダー、磁気テープ若しくは紙テープのリーダー、タブレット、スタイラスペン、人声又は筆跡を認識する周辺機器、USBポート等、1つ又は複数の入力/出力デバイス、又は当然ながら、他のコンピュータ等、他の周知の入力デバイスへと接続されるインターフェース2010へもカップリングさせる。最後に、CPU2002は、任意選択で、一般に、2012に示される外部接続を使用して、データベース又はコンピュータ又は遠隔通信ネットワーク等の外部デバイスへとカップリングさせることができる。このような接続により、CPUは、本明細書で記載される方法工程を実行する経過において、ネットワークから情報を受け取る場合もあり、ネットワークへと、情報を出力する場合もありうることが想定される。一部の実施では、核酸シーケンサー(2020)は、インターフェース2010を介する代わりに、又はこれに加えて、ネットワーク接続2012を介して、CPU2002へと、通信的に連結することができる。
一実施形態では、コンピュータシステム2000等のシステムを、本明細書で記載されるタスクの一部又は全部を実行することが可能な、データインポートシステム、データ相関システム、及び検索システムとして使用する。データファイルを含む情報及びプログラムは、研究者によるアクセス又はダウンロードのための、ネットワーク接続2012を介して提供することができる。代替的に、このような情報、プログラム、及びファイルは、研究者の記憶デバイスへと提供することができる。
具体的な実施形態では、コンピュータシステム2000を、試料からデータを捕捉する、マイクロアレイ、高スループットスクリーニングシステム、又は核酸シーケンサー(2020)等のデータ収集システムへと、直接的にカップリングさせる。このようなシステムからのデータは、システム2000による解析のためのインターフェース2010を介して提供することができる。代替的に、システム2000により加工されたデータは、関連するデータについての、データベース又は他のリポジトリー等、データ記憶源から提供することができる。装置2000内では、一次記憶装置2006又は大容量記憶装置2008等のメモリデバイスは、関連するデータを、少なくとも一時的に、バッファーに格納するか、又は記憶する。メモリはまた、配列リード、UMIを含むデータを、インポートし、解析し、提示するための、多様なルーチン及び/又はプログラム、配列リードを決定し、配列リードを折りたたみ、リード内のエラーを補正するためのコード等も記憶しうる。
ある特定の実施形態では、本明細書で使用されるコンピュータは、任意の種類のコンピュータ(例えば、デスクトップ、ラップトップ、タブレット等)、メディア演算プラットフォーム(例えば、ケーブル、サテライトセットトップボックス、デジタルビデオレコーダー等)、携帯型の演算デバイス(例えば、PDA、eメールクライアント等)、セルフォン、又は他の任意の種類の演算プラットフォーム若しくは通信プラットフォームでありうる使用者端末を含みうる。
ある特定の実施形態では、本明細書で使用されるコンピュータはまた、使用者末端と通信するサーバーシステムであって、サーバーデバイス又は脱中心化サーバーデバイスを含むことが可能であり、メーンフレームコンピュータ、ミニコンピュータ、スーパーコンピュータ、パーソナルコンピュータ、又はこれらの組合せを含みうるサーバーシステムも含みうる。本発明の範囲から逸脱しない限りにおいて、また、複数のサーバーシステムも使用することができる。使用者末端と、サーバーシステムとは、ネットワークを介して、互いと通信しうる。ネットワークは、本発明の範囲を限定しない限りにおいて、例えば、LAN(ローカルエリアネットワーク)、WAN(ワイドエリアネットワーク)、MAN(メトロポリタンエリアネットワーク)、ISDN(Intergrated Service Digital Networks)等の有線ネットワークのほか、無線LAN、CDMA、Bluetooth(登録商標)、及び衛星通信ネットワーク等の無線ネットワークを含みうる。
図13は、被験試料から、判定又は診断をもたらすための分散システムの、1回の実施を示す。試料回収場所01を、被験試料を、妊婦又は推定がん患者等、患者から得るために使用する。次いで、試料を、加工/シーケンシング場所03へと供給し、ここで、上記で記載した通り、被験試料を、加工し、シーケンシングすることができる。場所03は、試料を加工するための装置のほか、加工された試料をシーケンシングするための装置を含む。本明細書の他の箇所で記載されている通り、シーケンシングの結果は、典型的に、電子フォーマットでもたらされ、図13では、参照番号05により指し示される、インターネット等のネットワークへと提供されるリードの収集である。
配列データを、解析及び判定の作成を実施する遠隔地07へと供給する。この場所は、コンピュータ又はプロセッサー等、1つ又は複数の強力な演算デバイスを含みうる。場所07における演算リソースが、それらの解析を完了し、受け取った配列情報からの判定を作成した後で、判定を、ネットワーク05へと送り返す。一部の実施では、場所07では、判定を作成するだけではなく、関連する診断もまた作成する。次いで、図5に例示される通り、判定及び/又は診断を、ネットワークを隔てて送信し、試料回収場所01へと戻す。説明される通り、これは、判定又は診断の作成と関連する多様な操作を、多様な場所の間で、どのように分与しうるのかについての、多くの変化形のうちの1つに過ぎない。1つの一般的な変化形は、試料の回収及び加工並びにシーケンシングを、単一の場所においてもたらすことを伴う。別の変化形は、加工及びシーケンシングを、解析及び判定の作成と同じ場所においてもたらすことを伴う。
図14は、顕著に異なる場所において、多様な操作を実行するための選択肢について詳述する。図14で描示される、最も精細な意味では、以下の操作の各々:試料の回収、試料の加工、シーケンシング、リードのアライメント、判定、診断、及び報告及び/又は計画の立案を、個別の場所で実行する。
これらの操作の一部を集約する、一実施形態では、試料の加工及びシーケンシングを、1つの場所で実行し、リードのアライメント、判定、及び診断を、個別の場所で実行する。参照文字Aにより同定される、図14の部分を参照されたい。図14の文字Bにより同定される、別の実施では、試料の回収、試料の加工及びシーケンシングの全てを、同じ場所で実行する。この実施では、リードのアライメント及び判定を、第2の場所で実行する。最後に、診断及び報告並びに/又は計画の立案を、第3の場所で実行する。図14の文字Cにより描示される実施では、試料の回収を、第1の場所で実行し、試料の加工、シーケンシング、リードのアライメント、判定、及び診断の全てを、併せて、第2の場所で実行し、報告及び/又は計画の立案を、第3の場所で実行する。最後に、図14でDと表示された実施では、試料の回収を、第1の場所で実行し、試料の加工、シーケンシング、リードのアライメント、及び判定の全てを、第2の場所で実行し、診断及び報告並びに/又は計画の管理を、第3の場所で実行する。
一実施形態は、腫瘍と関連する単純ヌクレオチド変異体について、無細胞DNA(cfDNA)を解析するためのシステムであって、被験試料を受け取り、核酸試料についての核酸配列情報を提供するためのシーケンサーと;プロセッサーと;前記プロセッサー上で実行するための命令を含む、マシン読取り型記憶媒体とを含むシステムを提供し、命令は、(a)対象に由来する少なくとも1つの被験試料中の核酸をシーケンシングすることにより得られた、ゲノム配列データを受け取ることであって、核酸が、がん細胞の1つ又は複数のサブクローンに由来することと;(b)ゲノム配列データ内の、複数の体細胞突然変異体を決定することと;(c)VAFを使用して、各体細胞突然変異体について、初期がん細胞分率(iCCF)を計算することであって、がん細胞分率が、全てのがん細胞の中の体細胞突然変異体を有するがん細胞の分率であり、VAFが、体細胞突然変異体のアレル頻度であり、これにより、複数の体細胞突然変異体について、複数のiCCFを得ることと;(d)複数の遺伝子座について、複数のiCCFをクラスター化し、これにより、iCCFの1つ又は複数のクラスターを得ることであって、各クラスターが、1つ又は複数の腫瘍サブクローンのうちの同じサブクローン内に存在する変異体に対応することと;(e)1つ又は複数のクラスターのiCCFを使用して、複数の体細胞突然変異のうちの1つ又は複数の体細胞突然変異について、1つ又は複数の最終がん細胞分率(fCCF)を決定することとを含む。
本明細書で提供されるシステムのうちのいずれかについての、一部の実施形態では、シーケンサーを、次世代シーケンシング(NGS)を実行するように構成する。一部の実施形態では、シーケンサーを、可逆性色素ターミネーターを伴う、合成によるシーケンシングを使用して、超並列シーケンシングを実行するように構成する。他の実施形態では、シーケンサーを、ライゲーションによるシーケンシングを実行するように構成する。更に他の実施形態では、シーケンサーを、単一分子シーケンシングを実行するように構成する。
(実施例1)
シミュレーションデータ
本実施例は、シミュレーションデータを使用して、一部の実施に従い、ClonScoreと称する方法と、既往の方法である、PyCloneとを比較する。図15は、正常細胞及び2つの腫瘍サブクローンに由来する、異なる組成を有する、20例の腫瘍試料についてのシミュレーションデータを生成するための例において使用された方法を例示する。正常細胞集団を、丸704として例示する。腫瘍創始クローンを、丸708として例示する。2つの腫瘍サブクローンを、丸714及び716として例示する。正常細胞は、生殖細胞系列突然変異「G」(702)を含む。腫瘍創始クローン(708)は、クローン性体細胞突然変異「C」(706)を含む。腫瘍サブクローン1(714)は、サブクローン性体細胞突然変異1「SC1」(710)を含む。腫瘍サブクローン2(716)は、サブクローン性体細胞突然変異2「SC2」(712)を含む。2つの腫瘍サブクローンはまた、クローン性体細胞突然変異「C」(706)も含む。腫瘍試料718a、718b、及び718cは、異なる細胞組成及び突然変異組成を有する。試料の腫瘍純度(p)は、20~80%の範囲である。2つのシミュレートされた全エクソーム配列(WES)のデータセットを、この例のために生成した。各データセットは、2つの異なる腫瘍サブクローン及び正常細胞による可変部分を伴う、20例の試料を含む。
データセット内の、ターゲティング領域を、TruSeqエクソームアッセイ(約45Mbをカバレッジする)において指定されるターゲティング領域であって、各標的の上流及び下流における、150bpのパディングを伴うターゲティング領域として規定した。生殖細胞系列SNP(90,000)及びインデル(12,000)を、dbsnpから、ランダムに選択し、全ての腫瘍サブクローン及び正常細胞に組み入れた。生殖細胞系列CNVの影響を受けた領域を、DGVから、ランダムに選択し、このような領域にわたるコピー数の変異を、ランダムに、且つ、両方のコピーの喪失から、両方のアレルの重複にわたり選択した。これらの生殖細胞系列突然変異を、「G」波の突然変異(702)として例示する。2つの異なる腫瘍サブクローン「SC1」(710)及び「SC2」(712)もまた、創出した。少なくとも1つのターゲティング領域と重複する、500の体細胞SNV、200のインデル、及び75のCNV(5つのLOH、1つのアレルの5コピーの獲得30、単一コピーの欠失20、及び1つのアレルの8コピーの獲得20)のセットを、COSMICからランダムに選択し、両方の腫瘍サブクローン(クローン性変異体)に組み入れた。これらを、「C」波の突然変異(706)として例示する。COSMICに由来する、500の体細胞SNV、200のインデル、及び75のCNV(上記と同じコピー数の分布)の異なるセットを、サブクローン「SC1」(710)に組み入れ、同じサイズの突然変異の異なるセットを、サブクローン「SC2」(712)に組み入れた。CNVが、SNVと重複する場合、それらは、突然変異を保有するアレル又は他のアレルに影響を及ぼす、同等の可能性を有した。したがって、多くのこのようなCNVは、突然変異アレルのコピー数の増大(ClonScoreが、困難を有すると予測される状況)を実際にもたらす。20例の異なる腫瘍試料を創出するために、各サブクローン及び正常細胞に由来するリードをシミュレートし、異なる比率で、一体に混合した。
Enrichment and TumorNormalワークフローを使用して、このデータセットを加工した後で、本発明者らは、判定された各体細胞SNVについて、fCCFを推定した。fCCFの推定は、PyClone及びClonScoreの両方を、単一試料モードで使用して行った。PyCloneには、CNV判定と重複する、Canvasアレルコピー数判定を、任意の体細胞SNVについて使用した。ClonScoreには、正規化カバレッジが、[1.9,2.1]区間の外にある場合ならいつでも、Canvas正規化カバレッジを、Nの推定値として使用し、他の場合には、Nを、2であると仮定した。Canvasによりもたらされた腫瘍純度推定値を、PyClone推定値及びClonScore推定値のいずれにおいても使用した。
図16は、PyCloneについての、推定CCFの、真のCCFからの偏差を示す。図17は、ClonScoreについての結果を示す。これらの結果は、2つのシミュレートされたWESデータセットにわたる、40例の試料の全ての中の全てのSNVについての推定値を含む。ClonScoreの推定値は、PyCloneの推定値より、真のCCFに近いことに注目されたい。更に、PyCloneが、各腫瘍WES実験を行うのに、約7時間を要したのに対し、ClonScoreは、数秒間だけであった。
(実施例2)
実際のがんデータ
腫瘍内異種性を研究するために、最も一般的に使用される方法は、現在のところ、腫瘍試料の多重部位シーケンシングである。同じ腫瘍の複数の試料を同時に解析する場合の、クローン性推定ツールの精度は、達成されうる体細胞突然変異のクラスター化の信頼度の増大に起因して増大する。Haoらによる近年の研究では、多重部位WESを、11の食道扁平上皮がんに対して実施した。11の腫瘍の各々は、空間的に隔てられた試料4例ずつを有するほか、WESによりプロファイリングされた正常試料ともマッチした。
本発明者らは、このデータセットをダウンロードし、Enrichment + TumorNormalワークフローにより加工した。次いで、PyClone及びClonScoreを、単一試料モードにおいて、且つ、各腫瘍の4例ずつの試料全てを、同時に解析することによりこのデータセットへと適用した。本発明者らは、まず、多重試料ClonScore、多重試料PyClone、及び公表されたCCF推定値の結果を比較した。図18は、ClonScoreと、HaoらとのCCFの差違を示す。図19は、PyCloneと、HaoらとのCCFの差違を示す。図は、全ての多重試料推定値の結果は、比較的符合しているが、PyCloneの推定値は、他の2つの方法の推定値から、遠く逸脱していることを示す。
次いで、本発明者らは、単一の腫瘍試料中で、ClonScore及びPyCloneにより作成されたCCF推定値を、複数の試料にわたり作成された推定値に対して比較した。本発明者らは、単一試料中の、ClonScoreの推定値が、Hao(図20)PyClone(図21)、及びClonScore(図22)により、試料にわたり作成された推定値と、高度に符合することを観察した。PyCloneの、単一試料モードにおける成績は、Hao(図23)、PyClone(図24)、及びClonScore(図25)により、試料にわたり作成された推定値と、驚くほどに符合しなかった。
単一試料中のClonScore結果と、試料にわたるCCF推定値との符合にもかかわらず、交差試料結果は、必ずしも、真のCCF値ではない。したがって、本発明者らは、ClonScoreが、クローン性である可能性が高いSNVを、サブクローン性である可能性が高いSNVから識別するのかどうかを点検することにより、ClonScoreの成績を査定した。本発明者らが、SNVの、「真の」クローン性状態を規定した方式は、それが、空間的に隔てられた腫瘍試料4例全てにおいて判定されており、4例の腫瘍試料の全てにおいて、90%を超える交差試料のCCF推定値(交差試料ClonScore)を有することによった。予測クローン性SNVは、単一試料によるClonScoreが、>95%のCCFを割り当てた、クローン性SNVであると決定することにより、本発明者らは、単一の腫瘍試料に由来する、クローン性状態の予測における、0.91の感度及び0.89の特異度を観察した。全データセットにわたる結果についての、表1(Table 1)を参照されたい。
本開示は、その精神又は不可欠の特徴から逸脱しない限りにおいて、他の具体的な形態でも具体化することができる。したがって、記載された実施形態は、全ての点で、例示的なものであり、制限的なものではないと考えられる。こうして、本開示の範囲は、前出の記載ではなく、付属の特許請求の範囲により指し示される。特許請求の範囲と同等な意味及び範囲の中に納まる全ての変化は、それらの範囲内にあると考えられる。