詳細な説明
開示される態様は、胎児および母体の細胞フリー核酸を含む検査サンプルにおける、Y染色体のコピー数についての評価のための方法、機器、およびシステムに関する。いくつかの態様において、関心対象の配列には、遺伝的状態または疾患状態と関連することが知られるまたは疑われる、例えばキロベース(kb)〜メガベース(Mb)から染色体全体に及ぶゲノムセグメント配列が含まれる。いくつかの態様において、Y染色体のコピー数を用いて、胎児の性別を判定する。いくつかの態様において、本方法に従って判定され得るCNVには、Y性染色体のモノソミーおよびトリソミー(例えば、47,XXYおよび47,XYY)、テトラソミーおよびペンタソミーなど、性染色体の他のポリソミー(例えば、XXXXYおよびXYYYY)、ならびに性染色体のうちのいずれか1つまたは複数のセグメントの欠失および/または重複が含まれる。関心対象の配列の他の例には、周知の異数性、例えばトリソミーXXX、トリソミー21と関連した染色体、および癌などの疾患において増倍している染色体のセグメント、例えば急性骨髄性白血病における部分的トリソミー8が含まれる。
別様に示されない限り、本明細書において開示される方法およびシステムの履行は、当技術分野の技能の範囲内である、分子生物学、微生物学、タンパク質精製、タンパク質工学、タンパク質およびDNAシーケンシング、ならびに組換えDNAの分野において一般に用いられる従来的な技法および機器を伴う。そのような技法および機器は当業者に公知であり、かつ無数の教材および参考図書において記載されている(例えば、Sambrook et al.,「Molecular Cloning: A Laboratory Manual」, Third Edition (Cold Spring Harbor), [2001];およびAusubel et al.,「Current Protocols in Molecular Biology」[1987]を参照されたい)。
数値範囲は、範囲を規定する数を含む。本明細書を通して与えられるあらゆる最大数値限定は、あらゆるより低い数値限定を、あたかもそのようなより低い数値限定が本明細書において明示的に記されているかのように含むことが意図される。本明細書を通して与えられるあらゆる最小数値限定は、あらゆるより高い数値限定を、あたかもそのようなより高い数値限定が本明細書において明示的に記されているかのように含む。本明細書を通して与えられるあらゆる数値範囲は、そのようなより広い数値範囲内に入るあらゆるより狭い数値範囲を、あたかもそのようなより狭い数値範囲がすべて本明細書において明示的に記されているかのように含む。
本明細書において提供される見出しは、本開示を限定することを意図されるわけではない。
本明細書において別様に定義されない限り、本明細書において用いられるすべての技術的および科学的な用語は、当業者によって一般に理解されるものと同じ意味を有する。本明細書において含まれる用語を含む様々な科学辞書は、当業者に周知でありかつ利用可能である。本明細書において記載されるものと同様または同等の任意の方法および材料は、本明細書において開示される態様の履行または検査における用途を見出すものの、一部の方法および材料を記載する。
すぐ下に定義される用語は、本明細書を全体として参照することによってより十分に記載される。本開示は、記載される特定の方法論、プロトコール、および試薬に限定されるわけではないことが理解されるべきである、というのもこれらは、それらが当業者によって用いられる状況に依存して変動し得るためである。
定義
本明細書において使用するとき、「a」、「an」、および「the」という単数形の用語は、文脈上はっきりと別様に示されない限り、複数形の指示対象(reference)を含む。
別様に示されない限り、それぞれ、核酸は5'から3'方向に左から右へ記され、かつアミノ酸配列はアミノからカルボキシ方向に左から右へ記される。
「査定する」という用語は、本明細書においてCNVについて核酸サンプルを解析する文脈で用いられる場合、「正常」すなわち「影響なし」、「影響あり」、および「コールなし」という3つのタイプのコールのうちの1つによって、染色体またはセグメントの異数性の状況を特徴付けすることを指す。正常および影響ありとコールするための閾値は、典型的に設定される。異数性または他のコピー数変異に関係したパラメーターをサンプルにおいて測定し、かつ測定された値を閾値と比較する。重複型異数性に関しては、染色体またはセグメントの量(または配列含有量の他の測定値)が、影響ありのサンプルに対して設定された既定閾値を上回る場合に、影響ありというコールがなされる。そのような異数性に関しては、染色体またはセグメントの量が正常なサンプルに対して設定された閾値を下回る場合に、正常というコールがなされる。対照的に、欠失型異数性に関しては、染色体またはセグメントの量が、影響ありのサンプルに対する既定閾値を下回る場合に、影響ありというコールがなされ、かつ染色体またはセグメントの量が、正常なサンプルに対して設定された閾値を上回る場合に、正常というコールがなされる。例えば、トリソミーの存在下において、「正常」というコールは、信頼性についてのユーザーにより規定された閾値を下回るパラメーターの値、例えば検査染色体量によって決定され、かつ「影響あり」というコールは、信頼性についてのユーザーにより規定された閾値を上回るパラメーター、例えば検査染色体量によって決定される。「コールなし」という結果は、「正常」または「影響あり」というコールを付けるための閾値間にあるパラメーター、例えば検査染色体量によって決定される。「コールなし」という用語は、「未分類」と互換可能に用いられる。
本明細書における「コピー数変異」という用語は、参照サンプル中に存在している核酸配列のコピー数と比較した、検査サンプル中に存在している核酸配列のコピーの数の変動を指す。ある特定の態様において、核酸配列は1kbまたはそれよりも大きい。ある場合には、核酸配列は、染色体全体またはその相当部分である。「コピー数変種」とは、検査サンプルにおける関心対象の核酸配列と該関心対象の核酸配列の予想されるレベルとの比較によって、コピー数の差異が見出される核酸の配列を指す。例えば、検査サンプルにおける関心対象の核酸配列のレベルを、適格サンプル中に存在しているものと比較する。コピー数変種/変異には、微小欠失を含めた欠失、微小挿入を含めた挿入、重複、増倍、および転座が含まれる。CNVは、染色体異数性および部分的異数性を包含する。
本明細書における「異数性」という用語は、染色体全体または染色体の一部の損失または増大によって引き起こされる遺伝物質の不均衡を指す。
本明細書における「染色体異数性」および「完全染色体異数性」という用語は、染色体全体の損失または増大によって引き起こされる遺伝物質の不均衡を指し、生殖細胞異数性およびモザイク異数性を含む。
本明細書における「部分的異数性」および「部分的染色体異数性」という用語は、染色体の一部の損失または増大、例えば部分的モノソミーおよび部分的トリソミーによって引き起こされる遺伝物質の不均衡を指し、転座、欠失、および挿入により生じる不均衡を包含する。
「複数」という用語は、1つを上回る要素を指す。例えば、該用語は、本明細書において開示される方法を用いて、検査サンプルおよび適格サンプルにおけるコピー数変異の有意な差異を同定するのに十分である、いくつかの核酸分子または配列タグに対して本明細書において用いられる。いくつかの態様において、各検査サンプルに対して、約20〜40bpの少なくとも約3×106個の配列タグを獲得する。いくつかの態様において、各検査サンプルは、少なくとも約5×106、8×106、10×106、15×106、20×106、30×106、40×106、または50×106個の配列タグについてのデータを提供し、各配列タグは約20〜40bpを含む。
「ポリヌクレオチド」、「核酸」、および「核酸分子」という用語は互換可能に用いられ、1個のヌクレオチドのペントースの3'箇所が、次のもののペントースの5'箇所にホスホジエステル基によって接合している、共有結合で連結したヌクレオチドの配列(すなわち、RNAに対するリボヌクレオチド、およびDNAに対するデオキシリボヌクレオチド)を指す。ヌクレオチドは、cfDNA分子などのRNAおよびDNA分子を含むがそれらに限定されない、任意の形態の核酸の配列を含む。「ポリヌクレオチド」という用語は、一本鎖および二本鎖ポリヌクレオチドを含むが、それらに限定されるわけではない。
「一部分」という用語は、生物学的サンプルにおける胎児および母体の核酸分子についての配列情報の量、要するに1つのヒトゲノムについての配列情報に満たない量に対して本明細書において用いられる。
本明細書における「検査サンプル」という用語は、典型的に、コピー数変異についてスクリーニングされる対象となる少なくとも1種の核酸配列を含む核酸または核酸の混合物を含む、生物学的流体、細胞、組織、臓器、または生物に由来するサンプルを指す。ある特定の態様において、サンプルは、そのコピー数が変異を受けていることが疑われる少なくとも1種の核酸配列を含む。そのようなサンプルには、痰/口腔液、羊水、血液、血液画分、または細針生検サンプル(例えば、外科的生検、細針生検など)、尿、腹水、胸水などが含まれるが、それらに限定されるわけではない。サンプルは、しばしばヒト対象(例えば、患者)から採取されるものの、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含むがそれらに限定されない、任意の哺乳類由来のサンプルにおけるコピー数変異(CNV)に対してアッセイを用いることができる。サンプルは、生物学的供給源から得られたものとして直接的に、またはサンプルの特徴を改変する前処理の後に用いられ得る。例えば、そのような前処理には、血液から血漿を調製する工程、粘性流体を希釈する工程などが含まれ得る。前処理方法は、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸フラグメント化、干渉成分の不活性化、試薬の添加、溶解なども伴うが、それらに限定されるわけではない。そのような前処理の方法がサンプルに対して採用される場合、そのような前処理方法は、典型的に、ときには、未処理の検査サンプル(例えば、つまり、任意のそのような前処理方法に供されていないサンプル)中のものに比例した濃度で、関心対象の核酸が検査サンプル中に留まっているそのようなものである。そのような「処理された」または「加工された」サンプルは、本明細書において記載される方法に関して、なおも生物学的「検査」サンプルであると見なされる。
本明細書における「適格サンプル」または「影響なしのサンプル」という用語は、検査サンプル中の核酸を比較する対象となる、公知のコピー数で存在している核酸の混合物を含むサンプルを指し、それは、関心対象の核酸配列に対して正常である、すなわち異数性でないサンプルである。いくつかの態様において、適格サンプルは、配列マスクまたは配列プロファイルを導き出すための、トレーニングセットの影響なしのトレーニングサンプルとして用いられる。ある特定の態様において、適格サンプルは、検討中の染色体に対する1種または複数種の正規化染色体またはセグメントを同定するために用いられる。例えば、適格サンプルは、第21染色体に対する正規化染色体を同定するために用いられ得る。そのような場合、適格サンプルは、トリソミー21サンプルではないサンプルである。別の例では、X染色体の適格化サンプルとして女性のみを用いることを伴う。適格サンプルは、影響ありのサンプルとコールするための閾値を決定すること、参照配列上でマスク領域を定義するための閾値を特定すること、ゲノムの異なる領域の予想被覆分量を決定すること等の他の目的のためにも採用され得る。
本明細書における「トレーニングセット」という用語は、影響ありおよび/または影響なしのサンプルを含み得、かつ検査サンプルを解析するためのモデルを開発するために用いられるサンプルのセットを指す。いくつかの態様において、トレーニングセットは、影響なしのサンプルを含む。これらの態様において、CNVを判定するための閾値は、関心対象のコピー数変異に対して影響を受けていないサンプルのトレーニングセットを用いて確立される。トレーニングセット中の影響なしのサンプルを適格サンプルとして用いて、正規化配列、例えば正規化染色体を同定し得、かつ影響なしのサンプルの染色体量を用いて、関心対象の配列、例えば染色体のそれぞれに対する閾値を設定する。いくつかの態様において、トレーニングセットは、影響ありのサンプルを含む。トレーニングセット中の影響ありのサンプルを用いて、影響ありの検査サンプルは影響なしのサンプルと容易に識別され得ることを立証することができる。
「トレーニングセット」は、本明細書において、関心対象の集団の統計サンプルの個体のセットに対しても用いられ、その個体についてのデータを用いて、該集団に一般化可能な関心対象の1つまたは複数の定量値を決定する。統計サンプルとは、関心対象の集団における個体の部分集合である。個体は、人間、動物、組織、細胞、他の生物学的サンプル(すなわち、統計サンプルは複数の生物学的サンプルを含み得る)、および統計解析のためのデータ点を提供する他の個々の実体であり得る。
通常、トレーニングセットは検証セットと合わせて用いられる。「検証セット」という用語は、本明細書において、統計サンプルにおける個体のセットに対して用いられ、その個体についてのデータは、トレーニングセットを用いて決定された関心対象の定量値を検証するまたは評価するために用いられる。いくつかの態様において、例えば、トレーニングセットは、参照配列に対するマスクを算出するためのデータを提供し、検証セットは、該マスクを検証するまたは評価するデータを提供する。
「コピー数の評価」は、本明細書において、配列のコピー数に関係した遺伝子配列の状況についての統計的評価に対して用いられる。例えば、いくつかの態様において、評価は、遺伝子配列の有無についての判定を含む。いくつかの態様において、評価は、遺伝子配列の部分的または完全な異数性についての判定を含む。他の態様において、評価は、遺伝子配列のコピー数に基づく、2個またはそれを上回る数のサンプル間の判別を含む。いくつかの態様において、評価は、遺伝子配列のコピー数に基づく統計解析、例えば正規化および比較を含む。
「適格核酸」という用語は、それに対して検査配列または検査核酸の量が比較される配列である「適格配列」と互換可能に用いられる。適格配列とは、好ましくは公知の構成で生物学的サンプル中に存在しているものであり、すなわち適格配列の量は公知である。一般的に、適格配列は、「適格サンプル」中に存在している配列である。「関心対象の適格配列」とは、適格サンプル中での量が公知である適格配列であり、かつ医学的状態を有する個体における配列表現の差異と関連する配列である。
本明細書における「関心対象の配列」または「関心対象の核酸配列」という用語は、健常個体対罹患個体における配列表現の差異と関連する核酸配列を指す。関心対象の配列は、疾患状態または遺伝的状態において誤って構成されている、すわなち過剰にまたは過少に構成されている、染色体上の配列であり得る。関心対象の配列は、染色体の一部分、すなわち染色体セグメント、または染色体全体であり得る。例えば、関心対象の配列は、異数性状態において過剰に構成されている染色体、または癌において過少に構成されている、腫瘍抑制因子をコードする遺伝子であり得る。関心対象の配列には、対象の細胞の集団全体または部分集団において過剰にまたは過少に構成されている配列が含まれる。「関心対象の適格配列」は、適格サンプル中の関心対象の配列である。「関心対象の検査配列」は、検査サンプル中の関心対象の配列である。
本明細書における「正規化配列」という用語は、正規化配列と関連した関心対象の配列にマッピングされた配列タグの数を正規化するために用いられる配列を指す。いくつかの態様において、正規化配列はロバストな染色体を含む。「ロバストな染色体」とは、異数性である可能性が低いものである。ヒト染色体を伴ういくつかの場合において、ロバストな染色体は、X染色体、Y染色体、第13染色体、第18染色体、および第21染色体以外の任意の染色体である。いくつかの態様において、正規化配列は、それが正規化パラメーターとして用いられる関心対象の配列の変動性を近似する、サンプル間およびシーケンシングラン間での、それにマッピングされる配列タグの数の変動性を呈する。正規化配列は、影響ありのサンプルと1つまたは複数の影響なしのサンプルとを識別し得る。いくつかの実践において、正規化配列は、他の染色体などの他の潜在的正規化配列と比較した場合に、影響ありのサンプルと1つまたは複数の影響なしのサンプルとを最良にまたは有効に識別する。いくつかの態様において、正規化配列の変動性は、サンプルおよびシーケンシングランにわたる、関心対象の配列に対する染色体用量の変動性として算出される。いくつかの態様において、正規化配列は、影響なしのサンプルのセットにおいて同定される。
「正規化染色体」、「正規化分母染色体」、または「正規化染色体配列」は、「正規化配列」の一例である。「正規化染色体配列」は、単一染色体または染色体の群から構成され得る。いくつかの態様において、正規化配列は、2種またはそれを上回る種類のロバストな染色体を含む。ある特定の態様において、ロバストな染色体は、X、Y、第13、第18、および第21染色体以外のすべての常染色体の染色体である。「正規化セグメント」は、「正規化配列」の別の例である。「正規化セグメント配列」は、染色体の単一セグメントから構成され得、またはそれは、同じもしくは異なる染色体の2つもしくはそれを上回る数のセグメントから構成され得る。ある特定の態様において、正規化配列は、過程に関係した、染色体間(ラン内)およびシーケンシング間(ラン間)の変動性などの変動性に対して正規化することを意図される。
本明細書における「識別能」という用語は、1個または複数個の影響なしのサンプル、すなわち正常なサンプルと、1個または複数個の影響ありのサンプル、すなわち異数性サンプルとを区別するのを可能にする、正規化染色体の特徴を指す。最大の「識別能」を呈する正規化染色体は、適格サンプルのセットにおける関心対象の染色体に関する染色体量、および1個または複数個の影響ありのサンプルにおける対応する染色体における関心対象の同じ染色体に関する染色体量の分布間で、最大の統計的差異を提供する染色体または染色体の群である。
本明細書における「変動性」という用語は、1個または複数個の影響なしのサンプル、すなわち正常なサンプルと、1個または複数個の影響ありのサンプル、すなわち異数性サンプルとを区別するのを可能にする、正規化染色体の別の特徴を指す。適格サンプルのセットにおいて測定される、正規化染色体の変動性とは、それが正規化パラメーターとして働く、関心対象の染色体にマッピングされる配列タグの数の変動性を近似する、それにマッピングされる配列タグの数の変動性を指す。
本明細書における「配列タグ密度」という用語は、参照ゲノム配列にマッピングされる配列読み取りの数を指し、例えば第21染色体に対する配列タグ密度は、参照ゲノムの第21染色体にマッピングされる、シーケンシング法によって生成された配列読み取りの数である。
本明細書における「配列タグ密度比」という用語は、参照ゲノム染色体の長さに対する、参照ゲノムの染色体、例えば第21染色体にマッピングされる配列タグの数の割合を指す。
本明細書における「配列用量」という用語は、関心対象の配列に対して同定された配列タグの数と、正規化配列に対して同定された配列タグの数とを関連付けするパラメーターを指す。ある場合には、配列用量は、正規化配列に関する配列タグ被覆率に対する、関心対象の配列に関する配列タグ被覆率の割合である。ある場合には、配列用量は、関心対象の配列の配列タグ密度を、正規化配列の配列タグ密度に関連付けするパラメーターを指す。「検査配列用量」とは、検査サンプルにおいて決定される、関心対象の配列、例えば第21染色体の配列タグ密度を、正規化配列、例えば第9染色体のものに関連付けするパラメーターである。同様に、「適格配列用量」とは、適格サンプルにおいて決定される、関心対象の配列の配列タグ密度を、正規化配列のものに関連付けするパラメーターである。
「被覆率」という用語は、規定された配列にマッピングされる配列タグの存在度を指す。被覆率は、配列タグ密度(または配列タグの計数)、配列タグ密度比、正規化された被覆率量、調整された被覆率値などによって定量的に示され得る。
「被覆分量」という用語は、生の被覆率の改変型であり、ビンなど、ゲノムの領域における配列タグ(計数と呼ばれることもある)の相対的分量を表すことが多い。被覆分量は、ゲノムの領域に対する生の被覆率または計数を正規化し、調整し、かつ/または補正することによって獲得され得る。例えば、領域に対する正規化された被覆分量は、該領域にマッピングされた配列タグ計数を、ゲノム全体にマッピングされた配列タグの総数で割ることによって獲得され得る。正規化された被覆分量は、種々の深度のシーケンシングを有し得る種々のサンプルにわたる、ビンの被覆率の比較を可能にする。それは、配列用量とは、後者が典型的に、ゲノム全体の部分集団にマッピングされたタグ計数で割ることによって獲得されるという点において異なる。該部分集団は、正規化セグメントまたは正規化染色体である。正規化されたか否かにかかわらず、被覆分量は、ゲノム上の領域ごとの全体プロファイル変動、G-C画分変動、ロバストな染色体における外れ値などに対して補正され得る。
本明細書における「次世代シーケンシング(NGS)」という用語は、クローン的に増幅された分子および単一核酸分子の超並列シーケンシングを可能にするシーケンシング法を指す。NGSの非限定的な例には、可逆的ダイターミネーターを用いた合成によるシーケンシング、およびライゲーションによるシーケンシングが含まれる。
本明細書における「パラメーター」という用語は、物理的特性を特徴付けする数値を指す。しばしば、パラメーターは、定量的データセット、および/または定量的データセット間の数的関係を数的に特徴付けする。例えば、染色体にマッピングされた配列タグの数と、タグがマッピングされる染色体の長さとの間の割合(または割合の関数)はパラメーターである。
本明細書における「閾値の値」および「適格閾値の値」という用語は、医学的状態を有することが疑われる生物由来の核酸を含有する検査サンプルなどのサンプルを特徴付けするカットオフとして用いられる任意の数を指す。閾値をパラメーター値と比較して、そのようなパラメーター値を生じさせるサンプルは、生物が医学的状態を有することを示唆するかどうかを判定し得る。ある特定の態様において、適格閾値の値は、適格化データセットを用いて算出され、かつ生物におけるコピー数変異、例えば異数性の診断の境界として働く。本明細書において開示される方法から得られる結果が閾値を超えた場合、対象は、コピー数変異、例えばトリソミー21を有すると診断され得る。本明細書において記載される方法に対する適当な閾値の値は、サンプルのトレーニングセットに対して算出される正規化値(例えば、染色体量、NCV、またはNSV)を解析することによって同定され得る。閾値の値は、適格(すなわち、影響なしの)サンプルおよび影響ありのサンプルの両方を含むトレーニングセットにおいて、適格(すなわち、影響なしの)サンプルを用いて同定され得る。染色体異数性を有することが知られる、トレーニングセット中のサンプル(すなわち、影響ありのサンプル)を用いて、検査セットにおいて、選定された閾値は、影響ありのサンプルと影響なしのサンプルとを識別するのに有用であることを確認することができる(本明細書における実施例を参照されたい)。閾値の選定は、分類をする必要があるとユーザーが望む信頼性のレベルに依存する。いくつかの態様において、適当な閾値の値を同定するために用いられるトレーニングセットは、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも600個、少なくとも700個、少なくとも800個、少なくとも900個、少なくとも1000個、少なくとも2000個、少なくとも3000個、少なくとも4000個、またはそれを上回る数の適格サンプルを含む。閾値の値の診断的実用性を向上させるために、適格サンプルのより大きなセットを用いることが有利であり得る。
「ビン」という用語は、配列のセグメントまたはゲノムのセグメントを指す。いくつかの態様において、ビンは互いに連続しており、かつゲノム内または染色体内の箇所によって分離している。各ビンは、参照ゲノムにおけるヌクレオチドの配列を規定し得る。ビンのサイズは、特定の適用によって必要とされる解析および配列タグ密度に依存して、1kb、100kb、1Mbなどであり得る。参照配列内でのそれらの箇所に加えて、ビンは、サンプル被覆率、およびG-C画分などの配列構造特徴など、他の特徴を有し得る。
「マスキング閾値」という用語は、本明細書において、それに対して配列ビンにおける配列タグの数に基づく値が比較される分量を指すために用いられ、マスキング閾値を超える値を有するビンはマスキングされる。いくつかの態様において、マスキング閾値は、パーセンタイル順位、絶対計数、マッピング精度スコア、または他の適切な値であり得る。いくつかの態様において、マスキング閾値は、複数の影響なしのサンプルにわたる変動係数についてのパーセンタイル順位として規定され得る。他の態様において、マスキング閾値は、配列読み取りを参照ゲノムにアラインメントする信頼性に関係するマッピング精度スコア、例えばMapQスコアとして規定され得る。マスキング閾値の値はコピー数変動(CNV)閾値の値とは異なり、後者は、CNVに関係する医学的状態を有することが疑われる生物由来の核酸を含有するサンプルを特徴付けするカットオフであることに留意されたい。いくつかの態様において、CNV閾値の値は、本明細書における他の箇所で記載される正規化された染色体値(NCV)または正規化されたセグメント値(NSV)と相対的に規定される。
本明細書における「正規化値」という用語は、関心対象の配列(例えば、染色体または染色体セグメント)に対して同定された配列タグの数を、正規化配列(例えば、正規化染色体または正規化染色体セグメント)に対して同定された配列タグの数に関連付けする数値を指す。例えば、「正規化値」は、本明細書における他の箇所で記載される染色体量であり得、またはそれは、本明細書における他の箇所で記載されるNCVであり得、またはそれは、本明細書における他の箇所で記載されるNSVであり得る。
「読み取り」という用語は、核酸サンプルの一部分からの配列読み取りを指す。必ずではないものの、典型的に、読み取りは、サンプルにおける連続塩基対の短い配列を表す。読み取りは、サンプル一部分の塩基対配列による記号で(ATCGで)表され得る。それをメモリー装置に保存しかつ必要に応じて加工して、それが参照配列に一致するかどうかまたは他の基準を満たすかどうかを判定し得る。読み取りは、シーケンシング機器から直接的に、またはサンプルに関する保存された配列情報から間接的に獲得され得る。ある場合には、読み取りは、より大きな配列または領域を同定するために用いられ得る、例えば染色体またはゲノム領域または遺伝子にアラインメントされ得かつ特異的に割り当てられ得る、十分な長さ(例えば、少なくとも約25bp)のDNA配列である。
「ゲノム読み取り」という用語は、個体の全ゲノムにおける任意のセグメントの読み取りに対して用いられる。
「配列タグ」という用語は、本明細書において、「マッピングされた配列タグ」という用語と互換可能に用いられて、アラインメントによってより大きな配列、例えば参照ゲノムに特異的に割り当てられている、すなわちマッピングされている配列読み取りを指す。マッピングされた配列タグは、参照ゲノムに一意的にマッピングされる、すなわちそれらは、参照ゲノムに対して単一位置に割り当てられる。別様に指定されない限り、参照配列上の同じ配列にマッピングするタグは1回計数される。タグは、データ構造またはデータの他の集合体として提供され得る。ある特定の態様において、タグは、読み取り配列、およびゲノムにおける配列の位置、例えば染色体上の箇所など、その読み取りについての関連情報を含有する。ある特定の態様において、位置は、プラス鎖方向に対して指定される。タグは、参照ゲノムにアラインメントする際にミスマッチの限界量を提供するように規定され得る。いくつかの態様において、参照ゲノム上の複数の位置にマッピングされ得るタグ、すなわち一意的にマッピングしないタグは、解析に含まれ得ない。
「非冗長の配列タグ」という用語は、同じ部位にマッピングしない配列タグを指し、それは、いくつかの態様において、正規化された染色体値(NCV)を決定する目的のために計数される。ときには、複数の配列読み取りが参照ゲノム上の同じ位置にアラインメントされ、冗長のまたは重複した配列タグがもたらされる。いくつかの態様において、同じ個所にマッピングする重複配列タグは、NCVを決定する目的のために省かれるまたは1つの「非冗長の配列タグ」として計数される。いくつかの態様において、非除外部位にアラインメントされた非冗長の配列タグを計数して、NCVを決定するための「非除外部位計数」(NES計数)を産出する。
「部位」という用語は、参照ゲノム上の一意的な箇所(すなわち、染色体ID、染色体の箇所および方向)を指す。いくつかの態様において、部位は、配列上の残基、配列タグ、またはセグメントの箇所であり得る。
「除外部位」とは、配列タグを計数する目的のために除外された、参照ゲノムの領域に見出される部位である。いくつかの態様において、除外部位は、反復配列を含有する染色体の領域、例えば動原体およびテロメア、ならびに1種を上回る種類の染色体に共通する染色体の領域、例えばX染色体上にも存在しているY染色体上に存在している領域に見出される。
「非除外部位」(NES)とは、配列タグを計数する目的のために、参照ゲノムにおいて除外されない部位である。
「非除外部位計数」(NES計数)とは、参照ゲノム上のNESにマッピングされる配列タグの数である。いくつかの態様において、NES計数は、NESにマッピングされた非冗長の配列タグの数である。いくつかの態様において、正規化された被覆分量、全体プロファイルで除去された被覆分量、および染色体用量などの被覆率および関連パラメーターは、NES計数に基づく。一例において、染色体用量は、正規化染色体に関するNES計数の数に対する、関心対象の配列に関するNES計数の数の割合として算出される。
正規化された染色体値(NCV)は、検査サンプルの被覆率を、トレーニング/適格サンプルのセットの被覆率に関連付けする。いくつかの態様において、NCVは染色体用量に基づく。いくつかの態様において、NCVは、検査サンプルにおける関心対象の染色体の染色体用量と、適格サンプルのセットにおける対応する染色体用量の平均との間の差異に関係し、かつ
式中、
および
は、適格サンプルのセットにおける第j染色体用量に対する、それぞれ、推定される平均および標準偏差であり、かつx
ijは、検査サンプルiに対する観察される第j染色体の割合(用量)である、
として算出され得る。
いくつかの態様において、NCVは、
式中、M
jは、同じフローセル上に配列された多重化サンプルのセットにおける第j染色体用量に対する推定中央値であり;
は、1つまたは複数のフローセル上に配列された多重化サンプルの1つまたは複数のセットにおける第j染色体用量に対する標準偏差であり;かつx
iは、検査サンプルiに対する観察される第j染色体用量である、
として、検査サンプルにおける関心対象の染色体の染色体用量を、同じフローセル上に配列された多重化サンプルにおける対応する染色体用量の中央値に関連付けすることによって、「オンザフライで(on the fly)」算出され得る。この態様において、検査サンプルiは、それからM
jが決定される、同じフローセル上に配列された多重化サンプルの1つである。
例えば、1つのフローセル上の64個の多重化サンプルのうちの1つとして配列される、検査サンプルAにおける関心対象の第21染色体に関して、検査サンプルAにおける第21染色体に対するNCVは、サンプルAにおける第21染色体の用量から、64個の多重化サンプルにおいて決定された第21染色体に対する用量の中央値を引き、それをフローセル1上または付加的フローセル、例えば20上の64個の多重化サンプルに対して決定された第21染色体に対する用量の標準偏差で割ったものとして算出される。
本明細書において使用するとき、「アラインメントされた」、「アラインメント」、または「アラインメントする」という用語は、読み取りまたはタグと参照配列とを比較し、かつそれによって該参照配列が該読み取り配列を含有するかどうかを判定する過程を指す。参照配列が読み取りを含有する場合、該読み取りは該参照配列にマッピングされ得、またはある特定の態様において、該参照配列における特定の位置にマッピングされ得る。ある場合には、アラインメントは、読み取りが特定の参照配列のメンバーであるか否か(すなわち、読み取りが参照配列中に存在しているまたは存在していないかどうか)を単に伝える。例えば、ヒト第13染色体に対する参照配列への読み取りのアラインメントは、該読み取りが第13染色体に対する参照配列中に存在しているかどうかを伝える。この情報を提供するツールは、セットメンバーシップテスターと称され得る。ある場合には、アラインメントは、読み取りまたはタグがマッピングする、参照配列における位置を付加的に示す。例えば、参照配列がヒトゲノム配列全体である場合、アラインメントは、読み取りが第13染色体上に存在していることを示し得、かつ該読み取りが第13染色体の特定の鎖および/または部位にあることをさらに示し得る。
アラインメントされる読み取りまたはタグは、参照ゲノム由来の公知の配列に、それらの核酸分子の順序という点で一致するものとして同定される1つまたは複数の配列である。アラインメントは手動でなされ得るが、本明細書において開示される方法を実践するための妥当な期間で読み取りをアラインメントすることは不可能であろうため、それは典型的にはコンピューターアルゴリズムによって実践される。配列をアラインメントすることによるアルゴリズムの一例は、Illuminaのゲノム解析パイプラインの一部として配布される、ヌクレオチドデータの効率的局所的アラインメント(Efficient Local Alignment of Nucleotide Data)(ELAND)コンピュータープログラムである。代替的には、ブルームフィルタまたは同様のセットメンバーシップテスターを採用して、読み取りを参照ゲノムにアラインメントし得る。参照によりその全体として本明細書に組み入れられる、2011年10月27日に提出された米国特許出願第61/552,374号を参照されたい。アラインメントする際の配列読み取りの一致は、100%の配列一致または100%未満(不完全一致)であり得る。
「アラインメントプロファイル」という用語は、関心対象の参照配列における塩基対ビンとして同定され得る位置にアラインメントされた配列タグの分布に対して用いられる。
本明細書において用いられる「マッピング」という用語は、アラインメントによってより大きな配列、例えば参照ゲノムに配列読み取りを特異的に割り当てることを指す。
本明細書において使用するとき、「参照ゲノム」または「参照配列」という用語は、対象由来の同定された配列を参照するために用いられ得る、任意の生物またはウイルスの、部分的または完全であるかどうかにかかわらない、任意の特定の公知のゲノム配列を指す。例えば、ヒト対象ならびに他の多くの生物に用いられる参照ゲノムは、国立生物工学情報センター(National Center for Biotechnology Information)でncbi.nlm.nih.gov.にて見出される。「ゲノム」とは、核酸配列で構成される、生物またはウイルスの完全な遺伝情報を指す。
様々な態様において、参照配列は、それに対してアラインメントされる読み取りよりも有意に大きい。例えば、それは少なくとも約100倍大きく、または少なくとも約1000倍大きく、または少なくとも約10,000倍大きく、または少なくとも約105倍大きく、または少なくとも約106倍大きく、または少なくとも約107倍大きくあり得る。
一例において、参照配列は、全長ヒトゲノムのものである。そのような配列は、ゲノム参照配列と呼ばれ得る。別の例において、参照配列は、第13染色体などの特定のヒト染色体に限定される。いくつかの態様において、参照Y染色体は、ヒトゲノムバージョンhg19からのY染色体配列である。そのような配列は、染色体参照配列と呼ばれ得る。参照配列の他の例には、他の種のゲノム、ならびに任意の種の染色体、染色体部分(sub-chromosomal)領域(鎖など)等が含まれる。
様々な態様において、参照配列は、複数の個体に由来するコンセンサス配列または他の組み合わせである。しかしながら、ある特定の適用において、参照配列は、特定の個体から選ばれ得る。
本明細書における「臨床的に関連する配列」という用語は、遺伝的状態または疾患状態と関連するまたは関与することが知られるまたは疑われる核酸配列を指す。臨床的に関連する配列の有無を判定することは、診断を決定するもしくは医学的状態の診断を裏付けすることにおいて、または疾患の発症の予後を提供することにおいて有用であり得る。
「由来する」という用語は、本明細書において、核酸または核酸の混合物の文脈で用いられる場合、核酸が、それらが起因する供給源から獲得される手段を指す。例えば、一態様において、2種の異なるゲノムに由来する核酸の混合物は、該核酸、例えばcfDNAが、ネクローシスまたはアポトーシスなどの天然に存在する過程を通じて、細胞によって天然に放出されたことを意味する。別の態様において、2種の異なるゲノムに由来する核酸の混合物は、該核酸が、対象由来の2種の異なるタイプの細胞から抽出されたことを意味する。
「に基づく」という用語は、本明細書において、特定の定量値を得る文脈で用いられる場合、別の分量をインプットとして用いて、特定の定量値をアウトプットとして算出することを指す。
本明細書における「患者サンプル」という用語は、患者、すなわち医学的な配慮、ケア、または治療のレシピエントから得られた生物学的サンプルを指す。患者サンプルは、本明細書において記載されるサンプルのいずれかであり得る。ある特定の態様において、患者サンプル、例えば末梢血サンプルまたは***物サンプルは、非侵襲的手順によって得られる。本明細書において記載される方法は、ヒトに限定される必要はない。ゆえに、様々な獣医学的適用が企図され、その場合には、患者サンプルは、非ヒト哺乳類(例えば、猫、豚、馬、牛など)由来のサンプルであり得る。
本明細書における「混合サンプル」という用語は、異なるゲノムに由来する核酸の混合物を含有するサンプルを指す。
本明細書における「母体サンプル」という用語は、妊娠した対象、例えば女性から得られた生物学的サンプルを指す。
本明細書における「生物学的流体」という用語は、生物学的供給源から採取された液体を指し、例えば血液、血清、血漿、痰、洗浄液、脳脊髄液、尿、***、汗、涙、唾液などを含む。本明細書において使用するとき、「血液」、「血漿」、および「血清」という用語は、画分またはその加工された一部分を明示的に包含する。同様に、サンプルが、生検、スワブ、スメアなどから採取される場合、「サンプル」は、生検、スワブ、スメアなどに由来する加工された画分または一部分を明示的に包含する。
本明細書における「母体核酸」および「胎児核酸」という用語は、それぞれ、妊娠した雌性対象の核酸および妊娠した雌によって宿されている胎児の核酸を指す。
本明細書において使用するとき、「に対応する」という用語は、異なる対象のゲノムに存在しており、かつすべてのゲノムにおいて必ずしも同じ配列を有するわけではないが、関心対象の配列、例えば遺伝子または染色体の遺伝情報よりも、素性を提供するのに役立つ核酸配列、例えば遺伝子または染色体を指すこともある。
本明細書において使用するとき、所望のサンプルに関連して用いられる「実質的に細胞フリー」という用語は、サンプルに通常付随している細胞成分が除去されている、所望のサンプルの調製物を包含する。例えば、血漿サンプルは、それに通常付随している血液細胞、例えば赤血球を除去することによって実質的に細胞フリーの状態になる。いくつかの態様において、実質的に細胞フリーのサンプルは、そうでなければ、CNVについて検査される対象となる所望の遺伝物質に寄与すると考えられる細胞を除去するように加工される。
本明細書において使用するとき、「胎児画分」という用語は、胎児および母体の核酸を含むサンプル中に存在している胎児核酸の画分を指す。胎児画分は、しばしば、母親の血中におけるcfDNAを特徴付けするために用いられる。
本明細書において使用するとき、「染色体」という用語は、DNAおよびタンパク質成分(とりわけ、ヒストン)を含むクロマチン鎖に由来する、生細胞の遺伝性を担う遺伝子キャリアを指す。本明細書においては、国際的に認められた従来的な個々のヒトゲノム染色体付番システムが採用される。
本明細書において使用するとき、「ポリヌクレオチド長」という用語は、配列におけるまたは参照ゲノムの領域における、核酸分子(ヌクレオチド)の絶対数を指す。「染色体長」という用語は、塩基対で与えられる、例えばワールド・ワイド・ウェブでgenome.ucsc.edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=にて見出されるヒト染色体についてのNCBI36/hg18アセンブリで提供される、染色体の公知の長さを指す。
本明細書における「対象」という用語は、哺乳動物、無脊椎動物、脊椎動物、真菌、酵母、細菌、およびウイルスなど、ヒト対象ならびに非ヒト対象を指す。本明細書における例はヒトに関し、かつ言葉は主にヒト関係事項に向けられているが、本明細書において記載される概念は、任意の植物または動物由来のゲノムに適用可能であり、かつ獣医学、動物科学、研究用実験室などの分野において有用である。
本明細書における「状態」という用語は、人間の健康に影響を及ぼし得、医学的支援からの恩恵を受け得、または医学的治療に関わりがあり得る、すべての疾患および障害を含むが、[負傷]および妊娠など正常な健康の状況を含み得る広義の用語としての「医学的状態」を指す。
「完全」という用語は、本明細書において染色体異数性に対して用いられる場合、染色体全体の増大または損失を指す。
「部分的」という用語は、本明細書において染色体異数性に対して用いられる場合、染色体の一部分、すなわちセグメントの増大または損失を指す。
本明細書における「モザイク」という用語は、単一受精卵から発生した1つの個体において、異なる核型を有する細胞の2つの集団の存在を示すことを指す。モザイクは、発生の間の突然変異により生じ得、それは成体細胞の部分集団のみに伝わる。
本明細書における「非モザイク」という用語は、1種の核型の細胞から構成される生物、例えばヒト胎児を指す。
「染色体を用いる」という用語は、本明細書において、染色体量を決定することに対して用いられる場合、染色体に関して得られた配列情報、すなわち染色体に関して得られた配列タグの数を用いることを指す。
本明細書において用いられる「感度」という用語は、真陽性および偽陰性の合計で割った、真陽性の数に等しい。
本明細書において用いられる「特異性」という用語は、真陰性および偽陽性の合計で割った、真陰性の数に等しい。
本明細書における「富化する」という用語は、母体サンプルの一部分に含有される多型標的核酸を増幅し、かつ増幅産物と、該一部分が取り出された母体サンプルの残りとを組み合わせる過程を指す。例えば、母体サンプルの残りは、元の母体サンプルであり得る。
本明細書における「元の母体サンプル」という用語は、そこから一部分が取り出されて多型標的核酸を増幅する供給源として働く、妊娠している対象、例えば女性から得られた、富化されていない生物学的サンプルを指す。「元のサンプル」は、妊娠している対象から得られた任意のサンプル、およびその加工された画分、例えば母体血漿サンプルから抽出された精製cfDNAサンプルであり得る。
本明細書において用いられる「プライマー」という用語は、伸長産物の合成にとって誘導的な条件下に置かれた場合に、合成の開始点として作用し得る単離オリゴヌクレオチドを指す(例えば、条件には、ヌクレオチド、DNAポリメラーゼなどの誘導剤、ならびに適切な温度およびpHが含まれる)。プライマーは、増幅の最大効率のために好ましくは一本鎖であるが、代替的に二本鎖であり得る。二本鎖の場合、プライマーは、伸長産物を調製するために用いられる前に、その鎖を分離するようにまず処理される。好ましくは、プライマーはオリゴデオキシリボヌクレオチドである。プライマーは、誘導剤の存在下で伸長産物の合成を点火するのに十分に長くなければならない。プライマーの正確な長さは、温度、プライマーの供給源、方法の使用法、およびプライマー設計に用いられるパラメーターを含めた多くの因子に依存する。
「投与させる(cause to be administered)」という語句は、問題の剤/化合物の対象への投与を制御しかつ/または許可する医学専門家(例えば、医師)、つまり対象の医学的ケアを制御するまたは指揮する人間によって取られる行動を指す。投与させることは、診断、および/または適当な治療的もしくは予防的レジメンの決定、ならびに/あるいは対象に対して特定の剤/化合物を処方することを伴い得る。そのような処方には、例えば処方箋書式を書くこと、医療記録に注釈付けすることなどが含まれ得る。同様に、例えば診断手順に関する「実施させる(cause to be performed)」とは、対象へのまたは対象に対する1つまたは複数の診断プロトコールの実施を制御しかつ/または許可する医学専門家(例えば、医師)、つまり対象の医学的ケアを制御するまたは指揮する人間によって取られる行動を指す。
序論
2種以上の異なるゲノムに由来する核酸の混合物を含み、かつ関心対象の1種または複数種の配列の量が異なることが知られるまたは疑われる検査サンプルにおける、関心対象の種々の配列のコピー数およびコピー数変異(CNV)を判定するための、方法、機器、およびシステムが本明細書において開示される。本明細書において開示される方法および機器によって判定されるコピー数変異には、染色体全体の増大または損失、顕微鏡で見える非常に大きな染色体セグメントを伴う変更、およびサイズが単一ヌクレオチドからキロベース(kb)に、メガベース(Mb)に及ぶDNAセグメントの多数の超顕微鏡的(sub-microscopic)コピー数変異が含まれる。
いくつかの態様において、母体および胎児の細胞フリーDNAを含有する母体サンプルを用いた、胎児のコピー数変動(CNV)を判定するための方法が提供される。本明細書において開示されるいくつかの態様は、サンプル内GC含有量バイアスを除去することによって、配列データ解析の感度および/または特異性を向上させる方法を提供する。いくつかの態様において、サンプル内GC含有量バイアスの除去は、影響なしのトレーニングサンプルにわたってよく見られる体系的変動に対して補正された配列データに基づく。
開示されるいくつかの態様は、低いノイズおよび高いシグナルを有する配列被覆分量を決定する方法を提供し、従来的方法によって獲得される配列被覆分量と比べて向上した感度、選択性、および/または効率で、コピー数およびCNVに関係した様々な遺伝的状態を判定するデータを提供する。描かれる過程は、検討中のゲノム(例えば、胎児のゲノム)由来の比較的低いDNA画分を有するサンプルにおいて、シグナルを向上させるのにとくに有効であることが見出されている。そのようなサンプルの例は、二卵性双生児、三つ子などを妊娠している個体由来の母体血液サンプルであり、該過程は、胎児のうちの1人のゲノムにおけるコピー数変動を査定する。
方法は、任意の胎児異数性についてのCNV、および多様な医学的状態と関連することが知られるまたは疑われるCNVを判定することに適用可能である。ヒト対象を伴ういくつかの態様において、本方法に従って判定され得るCNVには、検査サンプルの核酸を1回だけシーケンシングすることによって検出され得る、第1〜22、X、およびY染色体のうちのいずれか1種または複数種のトリソミーおよびモノソミー、他の染色体ポリソミー、ならびに該染色体のうちのいずれか1つまたは複数のセグメントの欠失および/または重複が含まれる。任意の異数性は、検査サンプルの核酸を1回だけシーケンシングすることによって得られるシーケンシング情報から判定され得る。
ヒトゲノムにおけるCNVは、ヒト多様性および疾患にかかりやすい傾向に重大に影響する(Redon et al., Nature 23:444-454 [2006]、Shaikh et al. Genome Res 19:1682-1690 [2009])。CNVは、種々のメカニズムを通じて遺伝的疾患に寄与することが知られており、ほとんどの場合において遺伝子量の不均衡または遺伝子破壊のいずれかをもたらす。遺伝的障害とのそれらの直接的な相関に加えて、CNVは、有害であり得る表現型変化を仲介することが知られる。近年、いくつかの調査により、正常対照と比較して、自閉症、ADHD、および統合失調症などの複雑な障害における、希少なまたは新たなCNVの負荷の増加が報告されており、希少なまたは特有のCNVの潜在的病原性を浮き彫りにしている(Sebat et al., 316:445-449 [2007];Walsh et al., Science 320:539-543 [2008])。CNVは主に欠失、重複、挿入、および不平衡転座の事象による、ゲノム再編成により生じる。
本明細書において記載される方法および機器は、超並列シーケンシングである次世代シーケンシング技術(NGS)を採用し得る。ある特定の態様において、クローン的に増幅されたDNA鋳型または単一DNA分子を、フローセル内にて超並列形式でシーケンシングする(例えば、Volkerding et al. Clin Chem 55:641-658 [2009];Metzker M Nature Rev 11:31-46 [2010]に記載されている)。ハイスループットな配列情報に加えて、NGSは、各配列読み取りが、個々のクローン的DNA鋳型または単一DNA分子を表す計数可能な「配列タグ」であるという点において、定量的な情報を提供する。NGSのシーケンシング技術には、パイロシーケンシング、可逆的ダイターミネーターを伴う合成によるシーケンシング、オリゴヌクレオチドプローブライゲーションによるシーケンシング、およびイオン半導体シーケンシングが含まれる。個々のサンプル由来のDNAを個々にシーケンシングして(すなわち、シングルプレックスシーケンシング)、または複数のサンプル由来のDNAをプールしかつ単一シーケンシングランで指標付きゲノム分子としてシーケンシングして(すなわち、マルチプレックスシーケンシング)、最高数億個のDNA配列の読み取りを生成することができる。本方法に従って配列情報を獲得するために用いられ得るシーケンシング技術の例は、本明細書において後に記載される。
DNAサンプルを用いた様々なCNV解析は、シーケンサーからの配列読み取りを参照配列にアラインメントするまたはマッピングする工程を伴う。参照配列は、ゲノム全体の配列、染色体の配列、染色体部分領域などであり得る。参照配列の特徴により、Y染色体のCNVについての診断は、Y染色体の被覆率が常染色体のものよりも低く、かつY染色体上の反復配列が、読み取りのそれらの正しい位置へのマッピングを複雑にするため、常染色体と比較して高度の技術的課題を伴う。現在のNGS技術によって入手可能な約10Mbの一意的なY配列が存在するが、母体サンプルにおける胎児cfDNAの量が、母体DNAのものよりも少なくとも1桁低い胎児診断の世界において、性別検出は依然として困難な仕事であり、非特異的マッピングの問題を際立たせている。
加えて、いくつかの現在のシーケンシングプロトコールは、25merの読み取りおよびタグなどの超短読み取りを利用する。ヒトゲノムのほぼ半分は反復によってカバーされているため、シーケンシングプロトコールの過程において利用される超短シーケンシングは、配列アラインメントに関する技術的課題を提示した短い読み取りの長さをもたらし、その多くについては約数十年にわたって知られている。コンピューターによる見通しから、反復は、アラインメントにおいて曖昧性を創出し、それが今度は、染色体全体の計数レベルでさえバイアスおよびエラーを生成し得る。
CNVを評価する
CNVについての判定のための方法
本明細書において開示される方法によって提供される配列被覆率値を用いると、従来的方法によって獲得される配列被覆率値を用いるのと比べて、向上した感度、選択性、および/または効率で、配列、染色体、または染色体セグメントのコピー数およびCNVに関係した様々な遺伝的状態を判定することができる。例えば、いくつかの態様において、マスキングされた参照配列は、胎児および母体の核酸分子を含む母体検査サンプルにおける、任意の2種またはそれを上回る種類の異なる完全胎児染色体異数性の有無を判定するために用いられる。下記で提供される例示的な方法は、読み取りを参照配列(参照ゲノムを含む)にアラインメントする。アラインメントは、マスキングされていないまたはマスキングされた参照配列に対して実施され得、それによって、参照配列にマッピングされた配列タグがもたらされる。いくつかの態様において、参照配列のマスキングされていないセグメントに収まる配列タグのみを、コピー数変動を判定する考慮に入れる。
いくつかの態様において、母体検査サンプルにおける任意の完全胎児染色体異数性の有無を判定するための方法は、(a)母体検査サンプルにおける胎児および母体の核酸についての配列情報を獲得する工程;(b)配列情報および上記で記載される方法を用いて、第1〜22、X、およびY染色体より選択される関心対象の染色体のそれぞれに対する配列タグの数またはそこから導き出される配列被覆分量を同定し、かつ1つまたは複数の正規化染色体配列に対する配列タグの数を同定する工程;(c)関心対象の染色体のそれぞれに対して同定された配列タグの数、および正規化染色体のそれぞれに対して同定された配列タグの数を用いて、関心対象の染色体のそれぞれに対する単一染色体用量を算出する工程;ならびに(d)各染色体用量と閾値の値とを比較し、かつそれによって、母体検査サンプルにおける任意の完全胎児染色体異数性の有無を判定する工程、を含む。
いくつかの態様において、上記で記載される工程(a)は、検査サンプルの核酸分子の少なくとも一部分をシーケンシングして、該検査サンプルの胎児および母体の核酸分子についての配列情報を獲得する工程を含み得る。いくつかの態様において、工程(c)は、関心対象の染色体のそれぞれに対して同定された配列タグの数と、正規化染色体配列に対して同定された配列タグの数との比として、関心対象の染色体のそれぞれに対する単一染色体用量を算出する工程を含む。いくつかの他の態様において、染色体用量は、配列タグの数から導き出される処理された配列被覆分量に基づく。いくつかの態様において、一意的な非冗長の配列タグのみを用いて、処理された配列被覆分量を算出する。いくつかの態様において、処理された配列被覆分量は配列タグ密度比であり、それは、配列の長さによって標準化された配列タグの数である。いくつかの態様において、処理された配列被覆分量は正規化された配列タグであり、それは、ゲノムのすべてまたは実質的な部分で割られた、関心対象の配列の配列タグの数である。いくつかの態様において、処理された配列被覆分量は、関心対象の配列の全体プロファイルに従って調整される。いくつかの態様において、処理された配列被覆分量は、検査されているサンプルに関するGC含有量と配列被覆率との間のサンプル内相関に従って調整される。いくつかの態様において、処理された配列被覆分量は、本明細書における他の箇所でさらに記載される、これらの過程の組み合わせにより生じる。
いくつかの態様において、染色体用量は、関心対象の染色体のそれぞれに対する処理された配列被覆分量と、正規化染色体配列に対する処理された配列被覆分量との比として算出される。
上記の態様のいずれか1つにおいて、完全染色体異数性は、完全染色体トリソミー、完全染色体モノソミー、および完全染色体ポリソミーより選択される。完全染色体異数性は、第1〜22、X、およびY染色体のうちのいずれか1つの完全異数性より選択される。例えば、異なる完全胎児染色体異数性は、トリソミー2、トリソミー8、トリソミー9、トリソミー20、トリソミー21、トリソミー13、トリソミー16、トリソミー18、トリソミー22、47,XXX、47,XYY、およびモノソミーXより選択される。
上記の態様のいずれか1つにおいて、工程(a)〜(d)は、種々の母体対象由来の検査サンプルに対して反復され、かつ方法は、検査サンプルのそれぞれにおける任意の2種またはそれを上回る種類の異なる完全胎児染色体異数性の有無を判定する工程を含む。
上記の態様のいずれか1つにおいて、方法は、正規化された染色体値(NCV)を算出する工程をさらに含み得、該NCVは、
式中、
および
は、適格サンプルのセットにおける第j染色体用量に対する、それぞれ、推定される平均および標準偏差であり、かつx
ijは、検査サンプルiに対する観察される第j染色体用量である、
として、染色体用量を適格サンプルのセットにおける対応する染色体用量の平均に関連付けする。
いくつかの態様において、NCVは、
式中、M
jは、同じフローセル上に配列された多重化サンプルのセットにおける第j染色体用量に対する推定中央値であり;
は、1つまたは複数のフローセル上に配列された多重化サンプルの1つまたは複数のセットにおける第j染色体用量に対する標準偏差であり;かつx
iは、検査サンプルiに対する観察される第j染色体用量である、
として、検査サンプルにおける関心対象の染色体の染色体用量を、同じフローセル上に配列された多重化サンプルにおける対応する染色体用量の中央値に関連付けすることによって、「即座に」算出され得る。この態様において、検査サンプルiは、それからM
jが決定される、同じフローセル上に配列された多重化サンプルの1つである。
いくつかの態様において、胎児および母体の核酸を含む母体検査サンプルにおける異なる部分的胎児染色体異数性の有無を判定するための方法が提供される。方法は、上記で概説される完全異数性を検出するための方法に類似した手順を伴う。しかしながら、完全染色体を解析する代わりに、染色体のセグメントを解析する。米国特許出願公報第2013/0029852号を参照されたく、それは参照により組み入れられる。
図1は、いくつかの態様に従った、コピー数変動の存在を判定するための方法を示している。作業130および135において、適格配列タグ被覆率および検査配列タグ被覆率を決定する。本開示は、従来的方法と比べて向上した感度および選択性を提供する被覆分量を決定する過程を提供する。作業130および135は、これらの作業が先行技術を上回る向上に寄与することを示すために、星印によってマーク付けされかつ太線の枠によって強調されている。いくつかの態様において、配列タグ被覆分量を正規化し、調整し、トリミングし、かつ別様に処理して、解析の感度および選択性を向上させる。これらの過程は、本明細書における他の箇所でさらに記載される。
概観的視点から、方法は、検査サンプルのCNVについての判定において、適格トレーニングサンプルの正規化配列を使用する。いくつかの態様において、適格トレーニングサンプルは影響なしであり、かつ正常なコピー数を有する。正規化配列は、ラン内およびラン間の変動性についての測定結果を正規化するメカニズムを提供する。正規化配列は、関心対象の任意の1種の配列、例えば染色体またはそのセグメントに対して正常なコピー数を有する細胞を含むことが知られる対象から得られた適格サンプルのセットからの配列情報を用いて同定される。正規化配列の決定は、図1に描かれる方法の態様の工程110、120、130、145、および146において概説されている。いくつかの態様において、正規化配列を用いて、検査配列に対する配列用量を算出する。工程150を参照されたい。いくつかの態様において、正規化配列を用いて、それに対して検査配列の配列用量を比較する閾値も算出する。工程150を参照されたい。正規化配列および検査配列から得られた配列情報を、検査サンプルにおける染色体異数性の統計的に意味のある同定を判定するために用いる(工程160)。
いくつかの態様に従った、コピー数変動の存在を判定するための方法の詳細に目を向けると、図1は、生物学的サンプルにおける関心対象の配列、例えば染色体またはそのセグメントのCNVを判定するための態様の流れ図100を提供している。いくつかの態様において、生物学的サンプルは対象から得られ、異なるゲノムによって寄与される核酸の混合物を含む。異なるゲノムは2つの個体によってサンプルに寄与され得、例えば、異なるゲノムは、胎児および該胎児を保持する母親によって寄与される。また、異なるゲノムは、3つまたはそれを上回る数の個体によってサンプルに寄与され得、例えば、異なるゲノムは、2人またはそれを上回る数の胎児および該胎児を保持する母親によって寄与される。代替的に、ゲノムは、同じ対象由来の異数性癌性細胞および正常な正倍数性細胞によってサンプル、例えば癌患者由来の血漿サンプル、に寄与される。
患者の検査サンプルを解析することは別として、関心対象の考え得る各染色体に対して、1種もしくは複数種の正規化染色体、または1種もしくは複数種の正規化染色体セグメントを選択する。正規化染色体またはセグメントは、臨床設定において起こり得る、患者サンプルの通常の検査から非同期的に同定される。言い換えれば、正規化染色体またはセグメントは、患者サンプルを検査する前に同定される。正規化染色体またはセグメントと関心対象の染色体またはセグメントとの間の関連性は、検査の間、使用のために保存される。下記で説明されるように、そのような関連性は、典型的に、多くのサンプルの検査に渡る期間にわたって維持される。以下の考察は、関心対象の個々の染色体またはセグメントに対して、正規化染色体または染色体セグメントを選択するための態様に関する。
適格サンプルのセットを獲得して、適格正規化配列を同定し、かつ検査サンプルにおけるCNVの統計的に意味のある同定を判定することにおける使用のための分散値を提供する。工程110において、複数の生物学的適格サンプルを、関心対象の任意の1種の配列に対して正常なコピー数を有する細胞を含むことが知られる複数の対象から獲得する。一態様において、適格サンプルを、正常なコピー数の染色体を有することが細胞遺伝学的手段を用いて確認されている胎児を妊娠している母親から獲得する。生物学的適格サンプルは、生物学的流体、例えば血漿、または下記で記載される任意の適切なサンプルであり得る。いくつかの態様において、適格サンプルは、核酸分子、例えばcfDNA分子の混合物を含有する。いくつかの態様において、適格サンプルは、胎児および母体のcfDNA分子の混合物を含有する母体血漿サンプルである。正規化染色体および/またはそのセグメントについての配列情報を、任意の公知のシーケンシング法を用いて、核酸、例えば胎児および母体の核酸の少なくとも一部分をシーケンシングすることによって得る。好ましくは、本明細書における他の箇所で記載される次世代シーケンシング(NGS)法のいずれか1つを用いて、単分子またはクローン的に増幅された分子として、胎児および母体の核酸をシーケンシングする。様々な態様において、シーケンシング前およびシーケンシングの間に、適格サンプルを下記で開示されるように加工する。それらは、本明細書において開示される機器、システム、およびキットを用いて加工され得る。
工程120において、適格サンプルに含有されるすべての適格核酸のそれぞれの少なくとも一部分をシーケンシングして、数百万個の配列読み取り、例えば36bpの読み取りを生成し、それを参照ゲノム、例えばhg18にアラインメントする。いくつかの態様において、配列読み取りは、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、または約500bpを含む。技術的進歩により、500bpよりも大きな単一末端の読み取りが可能となり、対合末端の読み取りが生成される場合には、約1000bpよりも大きな読み取りが可能となることが予想される。一態様において、マッピングされた配列読み取りは36bpを含む。別の態様において、マッピングされた配列読み取りは25bpを含む。
配列読み取りを参照ゲノムにアラインメントし、参照ゲノムに一意的にマッピングされる読み取りは、配列タグとして知られる。マスキングされた参照配列のマスクセグメントに収まる配列タグを、CNVの解析のために計数する。
一態様において、20〜40bpの読み取りを含む、少なくとも約3×106個の適格配列タグ、少なくとも約5×106個の適格配列タグ、少なくとも約8×106個の適格配列タグ、少なくとも約10×106個の適格配列タグ、少なくとも約15×106個の適格配列タグ、少なくとも約20×106個の適格配列タグ、少なくとも約30×106個の適格配列タグ、少なくとも約40×106個の適格配列タグ、または少なくとも約50×106個の適格配列タグが、参照ゲノムに一意的にマッピングする読み取りから獲得される。
工程130において、適格サンプルにおける核酸をシーケンシングすることにより得られたすべてのタグを計数して、適格配列タグ被覆率を獲得する。同様に、作業135において、検査サンプルから得られたすべてのタグを計数して、検査配列タグ被覆率を獲得する。本開示は、従来的方法と比べて向上した感度および選択性を提供する被覆分量を決定する過程を提供する。作業130および135は、これらの作業が先行技術を上回る向上に寄与することを示すために、星印によってマーク付けされかつ太線の枠によって強調されている。いくつかの態様において、配列タグ被覆分量を正規化し、調整し、トリミングし、かつ別様に処理して、解析の感度および選択性を向上させる。これらの過程は、本明細書における他の箇所でさらに記載される。
すべての適格配列タグが適格サンプルのそれぞれにおいてマッピングされかつ計数されるため、正規化配列が後に同定される由来の付加的配列に対する配列タグ被覆率がそうであるように、適格サンプルにおける関心対象の配列、例えば臨床的に関連する配列に対する配列タグ被覆率は決定される。
いくつかの態様において、関心対象の配列は、完全染色体異数性と関連する染色体、例えば第21染色体であり、かつ適格正規化配列は、染色体異数性と関連せずかつその配列タグ被覆率の変動が、関心対象の配列(すなわち、染色体)、例えば第21染色体のものを近似する完全染色体である。選択される正規化染色体は、関心対象の配列の配列タグ被覆率の変動を最良に近似する1つまたは群であり得る。第1〜22、X、およびY染色体のうちのいずれか1つまたは複数は、関心対象の配列であり得、かつ1種または複数種の染色体は、適格サンプルにおけるいずれか1つの第1〜22、X、およびY染色体のそれぞれに対する正規化配列として同定され得る。正規化染色体は個々の染色体であり得、またはそれは、本明細書における他の箇所で記載される染色体の群であり得る。
別の態様において、関心対象の配列は、部分的異数性と関連した染色体のセグメント、例えば染色体の欠失もしくは挿入、または不平衡な染色体転座であり、かつ正規化配列は、部分的異数性と関連せずかつその配列タグ被覆率の変動が、部分的異数性と関連した染色体セグメントのものを近似する染色体セグメント(またはセグメントの群)である。選択される正規化染色体セグメントは、関心対象の配列の配列タグ被覆率の変動を最良に近似する1つまたは複数のものであり得る。いずれか1つまたは複数の第1〜22、X、およびY染色体のいずれか1つまたは複数のセグメントは、関心対象の配列であり得る。
他の態様において、関心対象の配列は、部分的異数性と関連した染色体のセグメントであり、かつ正規化配列は、1種または複数種の染色体全体である。さらに他の態様において、関心対象の配列は、異数性と関連した染色体全体であり、かつ正規化配列は、異数性と関連しない1種または複数種の染色体セグメントである。
単一配列または配列の群が、適格サンプルにおいて、関心対象のいずれか1種または複数種の配列に対する正規化配列として同定されるかどうかにかかわらず、適格正規化配列は、適格サンプルにおいて決定される、関心対象の配列のものを最良にまたは有効に近似する配列タグ被覆率の変動を有するように選定され得る。例えば、適格正規化配列は、関心対象の配列を正規化するために用いられる場合、適格サンプルにわたって最小の変動性をもたらす配列である、すなわち正規化配列の変動性は、適格サンプルにおいて判定される、関心対象の配列のものに最も近い。別の言い方をすれば、適格正規化配列は、適格サンプルにわたって、(関心対象の配列に対する)配列量の最少の変動をもたらすように選択された配列である。ゆえに、過程は、正規化染色体として用いられる場合に、関心対象の配列に対するランからランへの染色体量の最小の変動性をもたらすことが予想される配列を選択する。
シーケンシングライブラリーを生成するために必要とされる手順、およびサンプルをシーケンシングする工程が経時的に本質的に変更されないという条件で、関心対象のいずれか1種または複数種の配列に対する、適格サンプルにおいて同定される正規化配列は、数日間、数週間、数ヶ月間、およびおそらく数年間にわたって、検査サンプルにおける異数性の有無を判定するための選定の正規化配列のままである。上記で記載されるように、異数性の存在を判定するための正規化配列は、(おそらく同様の他の理由の中でも、)それが正規化パラメーターとして用いられる関心対象の配列の変動性を最良に近似する、サンプル間、例えば異なるサンプル間、およびシーケンシングラン間、例えば同じ日および/または異なる日に生じるシーケンシングラン間での、それにマッピングされる配列タグの数の変動性で選定される。これらの手順の実質的な変更は、すべての配列にマッピングされるタグの数に影響を及ぼし、それが今度は、配列のうちのどの1つまたは群が、関心対象の配列のものを最も厳密に近似する、同じ日または異なる日の、同じおよび/または異なるシーケンシングランにおけるサンプルにわたる変動性を有するかを決定すると考えられ、それは、正規化配列のセットが再決定されることを要すると考えられる。手順の実質的な変更には、シングルプレックスシーケンシングの代わりにマルチプレックスシーケンシングのためのサンプルを調製する工程に関係した変化を含めた、シーケンシングライブラリーを調製するために用いられる実験室プロトコールの変化、およびシーケンシングに用いられる化学反応の変化を含めた、シーケンシングプラットフォームの変化が含まれる。
いくつかの態様において、関心対象の特定の配列を正規化するために選定される正規化配列は、1つまたは複数の適格サンプルを1つまたは複数の影響ありのサンプルから最良に区別する配列であり、それは、正規化配列が最大の識別能を有する配列であることを暗示する、すなわち正規化配列の識別能は、それが、影響ありの検査サンプルにおける関心対象の配列に対して最適な識別を提供して、影響ありの検査サンプルを他の影響なしのサンプルから容易に区別するそのようなものである。他の態様において、正規化配列は、最小の変動性と最大の識別能との組み合わせを有する配列である。
識別能のレベルは、下記で記載されかつ実施例において示されるように、適格サンプルの集団における配列量、例えば染色体量またはセグメント量と、1つまたは複数の検査サンプルにおける染色体量との間の統計的差異として判定され得る。例えば、識別能は、適格サンプルの集団における染色体量と、1つまたは複数の検査サンプルにおける染色体量との間の統計的差異を表すt検定値として数的に表され得る。同様に、識別能は、染色体量の代わりにセグメント量に基づき得る。代替的に、識別能は、NCVに対する分布が正常である限り、染色体量に対するzスコアである正規化された染色体値(NCV)として数的に表され得る。同様に、染色体セグメントが関心対象の配列である場合、セグメント量の識別能は、NSVに対する分布が正常である限り、染色体セグメント量に対するzスコアである正規化されたセグメント値(NSV)として数的に表され得る。zスコアの決定において、適格サンプルのセットにおける染色体量またはセグメント量の平均および標準偏差が用いられ得る。代替的に、適格サンプルおよび影響ありのサンプルを含むトレーニングセットにおける染色体量またはセグメント量の平均および標準偏差が用いられ得る。他の態様において、最小の変動性および最大の識別能、または小さな変動性と大きな識別能との最適な組み合わせを有する配列である。
方法は、同様の特徴を本質的に有し、かつサンプル間およびシーケンシングラン間で同様の変動の傾向があり、かつ検査サンプルにおける配列量を決定するのに有用である配列を同定する。
配列量の決定
いくつかの態様において、関心対象の1種または複数種の染色体またはセグメントについての染色体量またはセグメント量を、図1に示される工程146に記載されるように、すべての適格サンプルにおいて決定し、かつ正規化染色体またはセグメントの配列を工程145で同定する。一部の正規化配列は、配列量が算出される前に提供されることに留意されたい。次いで、1種または複数種の正規化配列を、下記でさらに記載される様々な基準に従って同定する(工程145を参照されたい)。いくつかの態様において、例えば、同定された正規化配列は、すべての適格サンプルにわたって、関心対象の配列にについての配列量の最小の変動性をもたらす。
工程146において、算出された適格配列タグ密度に基づき、関心対象の配列についての適格配列量、すなわち染色体量またはセグメント量を、関心対象の配列についての配列タグ被覆率と付加的配列についての適格配列タグ被覆率との比として決定し、それにより工程145において、正規化配列がその後同定される。同定された正規化配列をその後用いて、検査サンプルにおける配列量を決定する。
一態様において、適格サンプルにおける配列量は、関心対象の染色体についての配列タグの数と、適格サンプルにおける正規化染色体配列についての配列タグの数との比として算出される染色体量である。正規化染色体配列は、単一染色体、染色体の群、1種の染色体のセグメント、または異なる染色体由来のセグメントの群であり得る。したがって、関心対象の染色体についての染色体量は、適格サンプルにおいて、関心対象の染色体についてのタグの数と、(i)単一染色体から構成される正規化染色体配列、(ii)2種もしくはそれを上回る種類の染色体から構成される正規化染色体配列、(iii)染色体の単一セグメントから構成される正規化セグメント配列、(iv)1種の染色体由来の2つもしくはそれを上回る数のセグメントから構成される正規化セグメント配列、または(v)2種もしくはそれを上回る種類の染色体の2つもしくはそれを上回る数のセグメントから構成される正規化セグメント配列、についてのタグの数との比として決定される。(i)〜(v)に従った、関心対象の第21染色体についての染色体量を決定するための例は、下記のとおりである:関心対象の染色体、例えば第21染色体についての染色体量を、第21染色体の配列タグ被覆率と、以下の配列タグ被覆率:(i)残りすべての染色体、すなわち第1〜20染色体、第22染色体、X染色体、およびY染色体のそれぞれ;(ii)2種またはそれを上回る種類の残りの染色体の考え得るすべての組み合わせ;(iii)別の染色体、例えば第9染色体のセグメント;(iv)他の1種の染色体の2つのセグメント、例えば第9染色体の2つのセグメント;(v)2種の異なる染色体の2つのセグメント、例えば第9染色体のセグメントおよび第14染色体のセグメント、のうちの1つとの比として決定する。
別の態様において、適格サンプルにおける配列量は、染色体量とは対照的なセグメント量であり、セグメント量は、染色体全体ではない関心対象のセグメントについての配列タグの数と、適格サンプルにおける正規化セグメント配列についての配列タグの数との比として算出される。正規化セグメント配列は、上述される正規化染色体またはセグメント配列のいずれかであり得る。
正規化配列の同定
工程145において、正規化配列を、関心対象の配列について同定する。いくつかの態様において、例えば正規化配列は、例えばすべての適格トレーニングサンプルにわたって関心対象の配列についての配列量の最小の変動性をもたらす、算出された配列量に基づく配列である。方法は、同様の特徴を本質的に有しかつサンプル間およびシーケンシングラン間で同様の変動の傾向があり、かつ検査サンプルにおける配列量を決定するのに有用である配列を同定する。
関心対象の1種または複数種の配列についての正規化配列は、適格サンプルのセットにおいて同定され得、かつ適格サンプルにおいて同定される配列をその後用いて、検査サンプルのそれぞれにおける関心対象の1種または複数種の配列についての配列量を算出して(工程150)、検査サンプルのそれぞれにおける異数性の有無を判定する。関心対象の染色体またはセグメントについて同定される正規化配列は、異なるシーケンシングプラットフォームが用いられる場合に、ならびに/またはシーケンシングされる対象となる核酸の精製および/もしくはシーケンシングライブラリーの調製に差異が存在する場合に異なり得る。本明細書において記載される方法に従った正規化配列の使用により、サンプル調製および/または用いられるシーケンシングプラットフォームにかかわりなく、染色体またはそのセグメントのコピー数の変動についての特異的かつ高感度な測定が提供される。
いくつかの態様において、1種を上回る種類の正規化配列が同定される、すなわち関心対象の1種の配列について、種々の正規化配列が決定され得、かつ関心対象の1種の配列について、複数の配列量が決定され得る。例えば、関心対象の第21染色体についての染色体量の変動、例えば変動係数(CV=標準偏差/平均)は、第14染色体の配列タグ被覆率が用いられる場合に最少である。しかしながら、検査サンプルにおける関心対象の配列についての配列量の決定における使用のために、2、3、4、5、6、7、8種、またはそれを上回る種類の正規化配列を同定することができる。例として、任意の1つの検査サンプルにおける第21染色体についての第2の量は、第7染色体、第9染色体、第11染色体、または第12染色体を正規化染色体配列として用いて決定され得る、というのもこれらの染色体はすべて、第14染色体についてのものに近いCVを有するためである。
いくつかの態様において、単一染色体が、関心対象の染色体についての正規化染色体配列として選定される場合、正規化染色体配列は、検査されるすべてのサンプル、例えば適格サンプルにわたって最小の変動性を有する、関心対象の染色体についての染色体量をもたらす染色体であると考えられる。ある場合には、最良の正規化染色体は、最少の変動を有し得ないが、1つまたは複数の検査サンプルを適格サンプルから最良に区別する適格量の分布を有し得る、すなわち最良の正規化染色体は、最低の変動を有さないこともあるが、最大の識別能を有し得る。
いくつかの態様において、正規化配列は、1つまたは複数のロバストな常染色体配列またはそのセグメントを含む。いくつかの態様において、ロバストな常染色体は、関心対象の染色体を除いたすべての常染色体を含む。いくつかの態様において、ロバストな常染色体は、X、Y、第13、第18、および第21染色体を除いたすべての常染色体を含む。いくつかの態様において、ロバストな常染色体は、正常な二倍体状態から逸脱していると判定されるものをサンプルから除いたすべての常染色体を含み、それは、正常な二倍体ゲノムと比べて異常なコピー数を有する癌ゲノムを判定することにおいて有用であり得る。
検査サンプルにおける異数性についての判定
適格サンプルにおける正規化配列の同定に基づき、関心対象の1種または複数種の配列の点で異なるゲノムに由来する核酸の混合物を含む検査サンプルにおいて、関心対象の配列について、配列量を決定する。
工程115において、関心対象の配列の臨床的に関連するCNVを保持することが疑われるまたは知られる対象から検査サンプルを獲得する。検査サンプルは、生物学的流体、例えば血漿、または下記で記載される任意の適切なサンプルであり得る。説明されるように、サンプルは、単純な採血などの非侵襲的手順を用いて獲得され得る。いくつかの態様において、検査サンプルは、核酸分子、例えばcfDNA分子の混合物を含有する。いくつかの態様において、検査サンプルは、胎児および母体のcfDNA分子の混合物を含有する母体血漿サンプルである。
工程125において、検査サンプルにおける検査核酸の少なくとも一部分を、適格サンプルに関して記載されているようにシーケンシングして、数百万個の配列読み取り、例えば36bpの読み取りを生成する。工程120にあるように、検査サンプルにおける核酸をシーケンシングすることから生成される読み取りを、参照ゲノムに一意的にマッピングしまたはアラインメントして、タグを生成する。工程120に記載されるように、20〜40bpの読み取りを含む、少なくとも約3×106個の適格配列タグ、少なくとも約5×106個の適格配列タグ、少なくとも約8×106個の適格配列タグ、少なくとも約10×106個の適格配列タグ、少なくとも約15×106個の適格配列タグ、少なくとも約20×106個の適格配列タグ、少なくとも約30×106個の適格配列タグ、少なくとも約40×106個の適格配列タグ、または少なくとも約50×106個の適格配列タグが、参照ゲノムに一意的にマッピングする読み取りから獲得される。ある特定の態様において、シーケンシング機器によって生成された読み取りは、電子形式で提供される。アラインメントは、下記で記述される計算機器を用いて達成される。しばしば膨大(数百万個の塩基対)である、個々の読み取りを参照ゲノムに対して比較して、読み取りが参照ゲノムと一意的に対応する部位を同定する。いくつかの態様において、アラインメント手順は、読み取りと参照ゲノムとの間の限られたミスマッチを容認する。ある場合には、読み取りにおける1、2、または3個の塩基対は、参照ゲノムにおける対応する塩基対とミスマッチすることが容認され、なおかつマッピングはなおもなされる。
工程135において、下記で記載されるように、計算機器を用いて、検査サンプルにおける核酸をシーケンシングすることから得られたタグのすべてまたはほとんどを計数して、検査配列タグ被覆率を決定する。いくつかの態様において、各読み取りを参照ゲノム(ほとんどの場合、染色体またはセグメント)の特定の領域にアラインメントし、かつ部位情報を読み取りに添えることによって、読み取りをタグに変換する。この過程により明らかとなるように、計算機器は、参照ゲノム(ほとんどの場合、染色体またはセグメント)の各領域にマッピングするタグ/読み取りの数の累計を保ち得る。計数は、関心対象の各染色体またはセグメント、および対応する各正規化染色体またはセグメントに対して保存される。
ある特定の態様において、参照ゲノムは、真の生物学的ゲノムの一部であるが参照ゲノムには含まれない、1つまたは複数の除外された領域を有する。これらの除外された領域に潜在的にアラインメントする読み取りは、計数されない。除外される領域の例には、長い反復配列の領域、XおよびY染色体間での類似性の領域などが含まれる。上記で記載されるマスキング技法によって得られるマスキングされた参照配列を用いて、参照配列のマスキングされていないセグメント上のタグのみを、CNVについての解析の考慮に入れる。
いくつかの態様において、方法は、複数の読み取りが参照ゲノムまたは参照配列上の同じ部位にアラインメントする場合に、タグを1回よりも多く計数するかどうかを判定する。2つのタグが同じ配列を有し、したがって参照配列上の同一部位にアラインメントする場合が存在し得る。タグを計数するために採用される方法は、ある特定の状況下で、同じシーケンスを有するサンプルに由来する同一タグを計数から除外する。所与のサンプルにおいて不均衡な数のタグが同一である場合、手順における強いバイアスまたは他の欠陥が存在することが示唆される。したがって、ある特定の態様に従って、計数法は、以前に計数されたサンプル由来のタグと同一である、所与のサンプル由来のタグを計数しない。
単一サンプル由来の同一タグをいつ無視するかを選定するために、様々な基準を設定し得る。ある特定の態様において、計数されるタグについての規定されるパーセンテージは、一意的でなければならない。この閾値よりも多くのタグが一意的でない場合、それらは無視される。例えば、規定パーセンテージが、少なくとも50%が一意的であることを要する場合、一意的なタグのパーセンテージがサンプルに対して50%を超えるまで、同一タグは計数されない。他の態様において、一意的なタグの閾値数は少なくとも約60%である。他の態様において、一意的なタグの閾値パーセンテージは、少なくとも約75%、または少なくとも約90%、または少なくとも約95%、または少なくとも約98%、または少なくとも約99%である。第21染色体に対して、閾値は90%に設定され得る。30Mのタグが第21染色体にアラインメントされる場合には、それらの少なくとも27Mは一意的でなければならない。3Mの計数されたタグが一意的でなく、かつ3000万1番目のタグが一意的でない場合、それは計数されない。さらなる同一タグをいつ計数しないかを判定するために用いられる特定の閾値または他の基準の選定は、適当な統計解析を用いて選択され得る。この閾値または他の基準に影響する1つの因子は、タグがアラインメントし得るゲノムのサイズに対する、シーケンシングされたサンプルの相対量である。他の因子には、読み取りのサイズおよび同様の検討事項が含まれる。
一態様において、関心対象の配列にマッピングされた検査配列タグの数を、それらがマッピングする関心対象の配列の公知の長さに対して正規化して、検査配列タグ密度比を提供する。適格サンプルに関して記載されているように、関心対象の配列の公知の長さに対する正規化は必要とされるわけではなく、ヒト解釈のためにそれを単純化する数の桁数を低減させる工程として含まれ得る。すべてのマッピングされた検査配列タグが検査サンプルにおいて計数されるため、適格サンプルにおいて同定された少なくとも1種の正規化配列に対応する付加的配列に対する配列タグ被覆率がそうであるように、検査サンプルにおける関心対象の配列、例えば臨床的に関連する配列に対する配列タグ被覆率は決定される。
工程150において、適格サンプルにおける少なくとも1種の正規化配列の同一性に基づき、検査サンプルにおける関心対象の配列について、検査配列量を決定する。様々な態様において、本明細書において記載されるように、検査配列量は、関心対象の配列の配列タグ被覆率および対応する正規化配列を用いてコンピューターにより決定される。この取り組みに関わる計算機器は、関心対象の配列とその関連する正規化配列との間の関連性に電子的にアクセスし、それは、データベース、表、グラフで保存され得、またはプログラム命令にコードとして含まれ得る。
本明細書における他の箇所で記載されるように、少なくとも1種の正規化配列は、単一配列または配列の群であり得る。検査サンプルにおける関心対象の配列についての配列量は、検査サンプルにおける関心対象の配列について決定された配列タグ被覆率と、検査サンプルにおいて決定された、少なくとも1種の正規化配列の配列タグ被覆率との比であり、検査サンプルにおける正規化配列は、関心対象の特定の配列に対する適格サンプルにおいて同定された正規化配列に対応する。例えば、適格サンプルにおいて、第21染色体に対して同定された正規化配列が染色体、例えば第14染色体であると決定された場合には、第21染色体(関心対象の配列)に対する検査配列量は、それぞれ検査サンプルにおいて決定される、第21染色体に対する配列タグ被覆率と第14染色体に対する配列タグ被覆率との比として決定される。同様に、第13、第18、X、Y染色体、および染色体異数性と関連した他の染色体に対する染色体量が決定される。関心対象の染色体に対する正規化配列は、1つの染色体もしくは染色体の群、または1つの染色体セグメントもしくは染色体セグメントの群であり得る。以前に記載されるように、関心対象の配列は、染色体の一部、例えば染色体セグメントであり得る。したがって、染色体セグメントに対する量は、検査サンプルにおけるセグメントについて決定された配列タグ被覆率と、検査サンプルにおける正規化染色体セグメントについての配列タグ被覆率との比として決定され得、検査サンプルにおける正規化セグメントは、関心対象の特定のセグメントについての適格サンプルにおいて同定された正規化セグメント(単一セグメントまたはセグメントの群)に対応する。染色体セグメントは、サイズがキロベース(kb)からメガベース(Mb)(例えば、約1kb〜10kb、または約10kb〜100kb、または約100kb〜1Mb)に及び得る。
工程155において、閾値の値は、複数の適格サンプルにおいて決定された適格配列量に対して確立された標準偏差値、および関心対象の配列に対して異数性であることが知られるサンプルについて決定された配列量から導き出される。この作業は、典型的に、患者検査サンプルについての解析とは非同期的に実施される。それは、例えば、適格サンプルからの正規化配列の選択と同時に実施され得る。正確な分類は、種々のクラス、すなわち異数性のタイプに対する確率分布間の差異に依存する。いくつかの例において、閾値は、各タイプの異数性、例えばトリソミー21に対する経験分布から選定される。胎児および母体の核酸の混合物を含む母体サンプルから抽出されたcfDNAをシーケンシングすることによる、染色体異数性を判定するための方法の使用を記載する実施例において記載されるように、トリソミー13、トリソミー18、トリソミー21、およびモノソミーX異数性を分類するために確立された考え得る閾値の値。染色体の異数性について影響を受けたサンプルを区別するために決定される閾値の値は、異なる異数性についての閾値と同じであり得るまたは異なり得る。実施例において示されるように、関心対象の各染色体に対する閾値の値を、サンプルおよびシーケンシングランにわたる関心対象の染色体の量の変動性から決定する。関心対象の任意の染色体についての染色体量の変動性が少なければ少ないほど、すべての影響なしのサンプルにわたる関心対象の染色体についての量の広がりは狭く、それは、異なる異数性を判定するための閾値を設定するために用いられる。
患者検査サンプルを分類することに関連したプロセスフローに戻ると、工程160において、関心対象の配列のコピー数変異は、検査サンプルにおいて、関心対象の配列についての検査配列量と、適格配列量から確立された少なくとも1つの閾値の値とを比較することによって判定される。この作業は、配列タグ被覆率を測定しかつ/またはセグメント量を算出するために採用された同じ計算機器によって実施され得る。
工程160において、関心対象の検査配列についての算出された量と、サンプルを「正常」、「影響あり」、または「コールなし」として分類するための、ユーザーにより規定された「信頼性の閾値」に従って選定される閾値の値として設定されるものとを比較する。「コールなし」サンプルは、信頼性を有して確定診断がなされ得ないサンプルである。影響ありのサンプルの各タイプ(例えば、トリソミー21、部分的トリソミー21、モノソミーX)は、一方は正常な(影響なしの)サンプルをコールするためのもの、およびもう一方は影響ありのサンプルをコールするためのものであるそれ独自の閾値を有する(ある場合には、2つの閾値が重なるものの)。本明細書における他の箇所で記載されるように、ある状況下で、検査サンプルにおける核酸の胎児画分が十分に高い場合、コールなしはコール(影響ありまたは正常)に変換され得る。検査配列の分類は、このプロセスフローの他の作業において採用される計算機器によって報告され得る。ある場合には、分類は電子形式で報告され、かつ呈示され得、電子メールで送信され得、携帯メールで送信され得るなどされて、人間に関心を抱かせる。
いくつかの態様において、上記で記載されるように、CNVについての判定は、染色体用量またはセグメント用量を、適格サンプルのセットにおける対応する染色体用量またはセグメント用量の平均に関連付けするNCVまたはNSVを算出する工程を含む。次いで、NCV/NSVと事前に規定されたコピー数評価閾値の値とを比較することによって、CNVを判定することができる。
コピー数評価閾値は、偽陽性と偽陰性との割合を最適化するように選定され得る。コピー数評価閾値が高ければ高いほど、偽陽性の発生の可能性は低くなる。同様に、閾値が低ければ低いほど、偽陰性の発生の可能性は低くなる。ゆえに、それを上回る真陽性のみが分類される第1の理想閾値と、それを下回る真陰性のみが分類される第2の理想閾値との間にはトレードオフが存在する。
閾値は、影響なしのサンプルのセットにおいて決定される、関心対象の特定の染色体に対する染色体用量の変動性に大きく依存して設定される。変動性は、サンプル中に存在している胎児cDNAの画分を含めた、いくつかの因子に依存している。変動性(CV)は、影響なしのサンプルの集団にわたる、染色体用量に対する平均または中央値および標準偏差によって判定される。ゆえに、異数性を分類するための閾値は、
のように、関連する胎児画分とともに、
(式中、
および
は、適格サンプルのセットにおける第j染色体用量に対する、それぞれ、推定される平均および標準偏差であり、かつx
ijは、検査サンプルiに対する観察される第j染色体用量である)
に従って、NCVを用いる。
ゆえに、関心対象の染色体のあらゆるNCVに関して、所定のNCV値に伴う予想胎児画分は、影響なしのサンプルの集団にわたる、関心対象の染色体に対する染色体比の平均および標準偏差に基づくCVから算出され得る。
その後、胎児画分とNCV値との間の関係に基づき、それを上回るサンプルは、正常な分布の分位数に基づいて陽性(影響あり)であると判定される判定境界が選定され得る。上記で記載されるように、閾値は、真陽性の検出と偽陰性結果の割合との間の最適なトレードオフに設定される。したがって、設定される閾値は、偽陽性および偽陰性を最適化するように選定される。
ある特定の態様は、胎児および母体の核酸分子を含む生物学的サンプルにおける胎児染色体異数性の出生前診断を提供するための方法を提供する。生物学的検査サンプル、例えば母体血漿サンプルに由来する、胎児および母体の核酸分子の混合物の少なくとも一部分から配列情報を獲得する工程、シーケンシングデータから、関心対象の1種もしくは複数種の染色体に対する正規化染色体用量および/または関心対象の1つもしくは複数のセグメントに対する正規化セグメント用量を計算する工程、ならびに検査サンプルにおける、それぞれ関心対象の染色体に対する染色体用量および/または関心対象のセグメントに対するセグメント用量と、複数の適格(正常)サンプルにおいて確立された閾値の値との間の統計的に有意な差異を判定する工程、ならびに統計的な差異に基づき出生前診断を提供する工程、に基づいて診断がなされる。方法の工程160に記載されるように、正常または影響ありという診断がなされる。正常または影響ありに対する診断が信頼を有してなされ得ない事象において、「コールなし」が提供される。
いくつかの態様において、2つの閾値が選定され得る。第1の閾値は偽陽性率を最小限に抑えるように選定され、それを上回るサンプルは「影響あり」と分類され、かつ第2の閾値は偽陰性率を最小限に抑えるように選定され、それを下回るサンプルは「影響なし」と分類される。第2の閾値を上回るが第1の閾値を下回るNCVを有するサンプルは、「異数性が疑われる」または「コールなし」サンプルとして分類され得、それに対して、異数性の有無は独立した手段によって確認され得る。第1と第2の閾値との間の領域は、「コールなし」領域と呼ばれ得る。
いくつかの態様において、疑われるまたはコールなしの閾値は、表2に示されている。見て分かるように、NCVの閾値は、異なる染色体によって変動する。いくつかの態様において、上記で説明されるように、閾値は、サンプルに対するFFに従って変動する。ここで適用される閾値技法は、いくつかの態様において、感度および選択性の向上に寄与する。
(表2)
コールなし範囲をひとまとめにした、疑われるおよび影響ありのNCV閾値
配列被覆率を決定する
配列被覆率を決定するための一般的な過程
開示されるいくつかの態様は、低いノイズおよび高いシグナルを有する配列被覆分量を決定する方法を提供し、従来的方法によって獲得される配列被覆分量と比べて向上した感度、選択性、および/または効率で、コピー数およびCNVに関係した様々な遺伝的状態を判定するデータを提供する。ある特定の態様において、検査サンプル由来の配列を処理して、配列被覆分量を獲得する。
過程は、他の供給源から入手可能なある特定の情報を使用する。いくつかの実践において、この情報のすべては、影響なしである(例えば、異数性でない)ことが知られるサンプルのトレーニングセットから獲得される。他の態様において、情報の一部またはすべては他の検査サンプルから獲得され、それは、複数のサンプルが同じ過程で解析されるため「即座に」提供され得る。
ある特定の態様において、配列マスクを採用して、データノイズを低下させる。いくつかの態様において、関心対象の配列およびその正規化配列の両方をマスキングする。いくつかの態様において、関心対象の異なる染色体またはセグメントが考慮される場合、異なるマスクが採用され得る。例えば、第13染色体が関心対象の染色体である場合、1つのマスク(またはマスクの群)が採用され得、かつ第21染色体が関心対象の染色体である場合、異なるマスク(またはマスクの群)が採用され得る。ある特定の態様において、マスクは、ビンの分解能で規定される。したがって、一例において、マスク分解能は100kbである。いくつかの態様において、個別のマスクをY染色体に適用し得る。2013年6月17日に提出された米国仮特許出願第61/836,057号[代理人整理番号ARTEP008P]に記載されるように、Y染色体に対するマスキングされた除外領域は、関心対象の他の染色体に対してよりも微細な分解能(1kb)で提供され得る。マスクは、除外されたゲノム領域を同定するファイルの形態で提供される。
ある特定の態様において、過程は、正規化された被覆率の予想値を利用して、関心対象の配列のプロファイルにおけるビンごとの変動を除去し、変動は検査サンプルに対するCNVについての判定にとって無益である。過程は、ゲノム全体にわたる各ビンに対するまたは参照ゲノムにおける少なくともロバストな染色体のビンに対する、正規化された被覆率の予想値に従って、正規化された被覆分量を調整する(下記の作業317における使用のために)。予想値は、影響なしのサンプルのトレーニングセットから決定され得る。例として、予想値は、トレーニングセットサンプルにわたる中央値の値であり得る。サンプルの予想被覆率値は、参照ゲノムのロバストな染色体におけるすべてのビンにアラインメントされた一意的な非冗長のタグの総数で割った、ビンにアラインメントされた一意的な非冗長のタグの数として決定され得る。
図2は、関心対象の配列の被覆率を決定するための過程200のフローチャートを描いており、それを用いて、ブロック214において、検査サンプルにおける関心対象の配列のコピー数を評価する。この過程は、影響なしのトレーニングサンプルにわたってよく見られる体系的変動を除去し、変動はCNV評価のための解析におけるノイズを増加させる。それは、検査サンプルに特異的なGCバイアスも除去し、それによって、データ解析におけるシグナル対ノイズ比を増加させる。
ブロック202に示されるように、過程は、検査サンプルの配列読み取りを提供することによって開始する。いくつかの態様において、配列読み取りは、母親および胎児のcfDNAを含む妊娠女性の血液から得られるDNAセグメントをシーケンシングすることによって獲得される。過程は進んで、配列読み取りを、関心対象の配列を含む参照ゲノムにアラインメントし、検査配列タグが提供される。ブロック204。参照配列上の各ビンにおける配列タグ計数を検査することにより、ビンの被覆率が規定される。ブロック206。いくつかの態様において、1箇所を上回る部位にアラインメントされる読み取りは除外される。いくつかの態様において、同じ部位にアラインメントされた複数の読み取りは除外される、または1回の読み取り計数に低下される。いくつかの態様において、除外部位にアラインメントされた読み取りも除外される。したがって、いくつかの態様において、非除外部位にアラインメントされた、一意的にアラインメントされた非冗長のタグのみを計数して、各ビンの被覆率を決定するための非除外部位計数(NES計数)を提供する。いくつかの態様において、各ビンの被覆率を、同じサンプルにおける正規化配列の被覆率で割り、正規化された被覆分量が提供される。
次いで、過程200は、関心対象の配列の全体プロファイルを提供する。全体プロファイルは、影響なしのトレーニングサンプルのトレーニングセットから獲得された、各ビンにおける予想被覆率を含む。ブロック208。過程200は、予想被覆率に従って検査配列タグの正規化された被覆分量を調整することによって、トレーニングサンプルにおいてよく見られる変動を除去して、全体プロファイル補正被覆率を獲得する。ブロック210。いくつかの態様において、ブロック208において提供される、トレーニングセットから獲得された予想被覆率は、トレーニングサンプルにわたる中央値である。いくつかの態様において、作業2010は、正規化された被覆率から予想被覆率を差し引くことによって、正規化された被覆分量を調整する。他の態様において、作業2010は、正規化された被覆分量を各ビンの予想被覆率で割って、全体プロファイル補正被覆率を生成する。
さらに、過程200は、調整された被覆分量をさらに調整することによって、検査サンプルに特異的なGCバイアスを除去して、全体プロファイルを除去する。ブロック212に示されるように、過程は、検査サンプルに存在する、GC含有量レベルと全体プロファイル補正被覆率との間の関係に基づき、全体プロファイル補正被覆率を調整し、それによってサンプルGC補正被覆率が獲得される。影響なしのトレーニングサンプルにおいてよく見られる体系的変動、および対象内GCバイアスに対して調整した後、過程は、向上した感度および特異性でサンプルのCNVを評価する被覆分量を提供する。
配列被覆率を決定するための例示的な過程についての詳細
図3Aは、検査サンプルからの配列データにおけるノイズを低下させるための、過程301の例を提示している。図3B〜3Jは、該過程の様々な段階におけるデータ解析を提示している。図3Aに示されるように、描かれる過程は、1つまたは複数のサンプルからのcfDNAの抽出で始まる。ブロック303を参照されたい。適切な抽出過程および機器は、本明細書における他の箇所で記載されている。いくつかの態様において、2013年3月15日に提出された米国特許出願第61/801,126号(参照によりその全体として本明細書に組み入れられる)に記載される過程は、cfDNAを抽出する。いくつかの実践において、機器は、複数のサンプル由来のcfDNAを一緒に加工して、多重化ライブラリーおよび配列データを提供する。図3Aにおけるブロック305および307を参照されたい。いくつかの態様において、機器は、8個またはそれを上回る数の検査サンプル由来のcfDNAを並列して加工する。本明細書における他の箇所で記載されるように、シーケンシングシステムは、抽出されたcfDNAを加工して、コード化された(例えば、バーコード化された)cfDNAフラグメントのライブラリーを生成し得る。シーケンサーは、cfDNAのライブラリーをシーケンシングして、非常に多くの数の配列読み取りを生成する。サンプルコード化により、多重化サンプルにおける読み取りの多重分離が可能となる。8個またはそれを上回る数のサンプルのそれぞれは、数十万個または数百万個の読み取りを有し得る。過程は、図3Aにおける付加的作業の前に、読み取りをフィルタリングし得る。いくつかの態様において、読み取りのフィルタリングとは、誤った読み取りおよび低精度の読み取りをフィルター除去するために、シーケンサーにおいて実践されるソフトウェアプログラムによって可能となる精度フィルタリング過程である。例えば、Illumina製のSequencing Control Software(SCS)およびConsensus Assessment of Sequence and Variationソフトウェアプログラムは、シーケンシング反応によって作成された生の画像データを、強度スコア、塩基コール、精度スコア化されたアラインメント、および付加的形式に変えることによって、誤った読み取りおよび低精度の読み取りをフィルター除去して、下流の解析のための生物学的に関連する情報を提供する。
シーケンサーまたは他の機器によりサンプルに対する読み取りが生成された後、システムの要素は、読み取りを参照ゲノムにコンピューターによりアラインメントする。ブロック309を参照されたい。アラインメントは、本明細書における他の箇所で記載されている。アラインメントは、参照ゲノム上の一意的箇所を特定する注釈付けされた位置情報とともに読み取り配列を含有するタグを生成する。ある特定の実践において、システムは、同一配列を有する2つまたはそれを上回る数の読み取りである重複読み取りを考慮せずに第1のパスアラインメント(pass alignment)を行って、非重複配列タグを生成する。他の実践において、システムは重複読み取りを除去しない。いくつかの態様において、過程は、ゲノム上の複数の位置にアラインメントされる読み取りを検討から除去して、一意的にアラインメントされたタグを生成する。いくつかの態様において、非除外部位(NES)にマッピングされた、一意的にアラインメントされた非冗長の配列タグを勘定して(accounted for)、被覆率を推定するデータを提供する非除外部位計数(NES計数)を産出する。
他の箇所で説明されるように、除外部位とは、配列タグを計数する目的のために除外された、参照ゲノムの領域に見出される部位である。いくつかの態様において、除外部位は、反復配列を含有する染色体の領域、例えば動原体およびテロメア、ならびに1種を上回る種類の染色体に共通する染色体の領域、例えばX染色体上にも存在しているY染色体上に存在している領域に見出される。非除外部位(NES)とは、配列タグを計数する目的のために、参照ゲノムにおいて除外されない部位である。
次に、システムは、アラインメントされたタグを参照ゲノム上のビンに分割する。ブロック311を参照されたい。参照ゲノムの長さに沿ってビンを離間する。いくつかの態様において、参照ゲノム全体を、規定された等しいサイズ(例えば、100kb)を有し得る連続ビンに分割する。代替的に、ビンは、おそらくサンプルごとに、動的に決定された長さを有し得る。シーケンシング深度は、最適なビンサイズの選択に影響を与える。動的なサイズであるビンは、ライブラリーサイズによって決定されるそれらのサイズを有し得る。例えば、ビンサイズは、平均して1000個のタグを収容するのに必要とされる配列の長さであるように決定され得る。
各ビンは、検討中のサンプル由来のいくつかのタグを有する。アラインメントされた配列の「被覆率」を反映するこのタグの数は、サンプルデータをフィルタリングする、そうでなければクリーニングするための開始点として働いて、サンプルにおけるコピー数変動を確実に判定する。図3Aは、ブロック313〜321においてクリーニング作業を示している。
図3Aに描かれる態様において、過程は、マスクを参照ゲノムのビンに適用する。ブロック313を参照されたい。システムは、以下の処理作業の一部またはすべてにおいて、マスキングされたビンにおける被覆率を検討から除外し得る。多くの場合、マスキングされたビンからの被覆率値は、図3Aにおける残りの作業のいずれにおいても考慮されない。
様々な実践において、1つまたは複数のマスクを適用して、サンプルごとに高い変動性を呈することが見出された、ゲノムの領域に対するビンを除外する。そのようなマスクを、関心対象の染色体(例えば、第13、第18、および第21染色体)および他の染色体の両方に提供する。他の箇所で説明されるように、関心対象の染色体とは、コピー数変動または他の異常を潜在的に持するとして検討中の染色体である。
いくつかの実践において、マスクは、以下の手法を用いて、適格サンプルのトレーニングセットから同定される。初めに、図3Aにおける作業315〜319に従って、各トレーニングセットサンプルを処理しかつフィルタリングする。次いで、正規化されかつ補正された被覆分量を各ビンに対して書き留め、かつ標準偏差、中央値絶対偏差、および/または変動係数などの統計値を各ビンに対して算出する。様々なフィルターの組み合わせが、関心対象の各染色体に対して評価され得る。フィルターの組み合わせにより、関心対象の染色体のビンに対して1つのフィルター、および他のすべての染色体のビンに対して異なるフィルターが提供される。
いくつかの実践において、(例えば、上記で記載されるように、関心対象の染色体に対するカットオフを選定することによって)マスクを獲得した後に、正規化染色体(または染色体の群)の選定を再検討する。配列マスクを適用した後、1種または複数種の正規化染色体を選定する過程は、本明細書における他の箇所で記載されるように行われ得る。例えば、染色体の考え得るすべての組み合わせを正規化染色体として評価し、かつ影響ありおよび影響なしのサンプルを判別し得るそれらの能力に従って順位付けする。この過程は、異なる最適な正規化染色体または染色体の群を見出し得る(または見出し得ない)。他の態様において、正規化染色体は、すべての適格サンプルにわたって、関心対象の配列に対する配列用量の最小の変動性をもたらすものである。異なる正規化染色体または染色体の群が同定された場合、過程は、任意で、上記で記載されるフィルターに対するビンの同定を実行する。おそらく、新たな正規化染色体は、異なるカットオフをもたらす。
ある特定の態様において、異なるマスクをY染色体に対して適用する。適切なY染色体マスクの例は、2013年6月17日に提出された米国仮特許出願第61/836,057号[代理人整理番号ARTEP008P]に記載されており、それはすべての目的のために参照により本明細書に組み入れられる。
システムがコンピューターによりビンをマスキングした後、それは、マスクによって除外されないビンにおける被覆率値をコンピューターにより正規化する。ブロック315を参照されたい。ある特定の態様において、システムは、各ビンにおける検査サンプル被覆率値(例えば、ビンごとのNES計数)を、参照ゲノムまたはその一部分における被覆率(例えば、参照ゲノムのロバストな染色体における被覆率)のほとんどまたはすべてに対して正規化する。ある場合には、システムは、検討中のビンに対する計数を、参照ゲノムにおけるすべてのロバストな染色体にアラインメントするすべての非除外部位の総数で割ることによって、(ビンごとの)検査サンプル被覆率値を正規化する。いくつかの態様において、システムは、線形回帰を実施することによって、(ビンごとの)検査サンプル被覆率値を正規化する。例えば、システムは、まず、ロバストな染色体におけるビンの部分集団に対する被覆率を、ya=切片+傾き*gwpa(式中、yaはビンaに対する被覆率であり、かつgwpaは同じビンに対する全体プロファイルである)として算出する。次いで、システムは、正規化された被覆率zbを、zb=yb/(切片+傾き*gwpb)−1として算出する。
上記で説明されるように、ロバストな染色体とは、異数性である可能性が低いものである。ある特定の態様において、ロバストな染色体は、第13、第18、および第21染色体以外のすべての常染色体の染色体である。いくつかの態様において、ロバストな染色体は、正常な二倍体ゲノムから逸脱すると判定された染色体以外のすべての常染色体の染色体である。
ビンの変換された計数値または被覆率は、さらなる処理に対して「正規化された被覆分量」と呼ばれる。正規化は、各サンプルに一意的な情報を用いて実施される。典型的に、トレーニングセットからの情報は用いられない。正規化により、種々のライブラリーサイズ(およびその結果として、種々の数の読み取りおよびタグ)を有するサンプルからの被覆分量が、同じ基盤で扱われることが可能となる。後続の処理作業のいくつかは、検討中の検査サンプルに対して用いられるライブラリーよりも大きいまたは小さいライブラリーからシーケンシングされ得るトレーニングサンプルから導き出される被覆分量を用いる。参照ゲノム全体(または少なくともロバストな染色体)にアラインメントされた読み取りの数に基づく正規化なしでは、トレーニングセットから導き出されたパラメーターを用いた取り扱いは、いくつかの実践において確実であり得ないまたは一般化可能であり得ない。
図3Bは、多くのサンプルに対する第21、第13、および第18染色体にわたる被覆率を例証している。サンプルのいくつかを、互いに差異的に処理した。その結果として、任意の所定のゲノム箇所においてサンプルごとの幅広い変動を見ることができる。正規化は、サンプルごとの変動の一部を除去する。図3Cの左のパネルは、ゲノム全体にわたる正規化された被覆分量を描いている。
図3Aの態様において、システムは、作業315において生成された、正規化された被覆分量から「全体プロファイル」を除去するまたは低下させる。ブロック317を参照されたい。この作業は、ゲノムの構造、ライブラリー生成過程、およびシーケンシング過程から生じる、正規化された被覆分量における体系的バイアスを除去する。加えて、この作業を、任意の所定のサンプルにおける予想プロファイルからの任意の体系的な線形偏差(linear deviation)を補正するように設計する。
いくつかの実践において、全体プロファイル除去は、各ビンの正規化された被覆分量を、各ビンの対応する予想値で割る工程を伴う。他の態様において、全体プロファイル除去は、各ビンの正規化された被覆分量から、各ビンの予想値を差し引く工程を伴う。予想値は、影響なしのサンプル(または、X染色体に関して影響なしの雌性サンプル)のトレーニングセットから獲得され得る。影響なしのサンプルとは、関心対象の染色体に関して異数性を有しないことが知られる個体由来のサンプルである。いくつかの実践において、全体プロファイル除去は、各ビンの正規化された被覆分量から、(トレーニングセットから獲得された)各ビンの予想値を差し引く工程を伴う。いくつかの態様において、過程は、トレーニングセットを用いて決定される、各ビンに対する正規化された被覆分量の中央値の値を用いる。言い換えれば、中央値の値は予想値である。
いくつかの態様において、全体プロファイル除去は、全体プロファイルへのサンプル被覆率の依存度に対する線形補正を用いて実践される。示されるように、全体プロファイルは、トレーニングセットから決定される、各ビンに対する予想値(例えば、各ビンに対する中央値の値)である。これらの態様は、各ビンに対して獲得された全体中央値プロファイルに対して、検査サンプルの正規化された被覆分量を適合させることによって獲得されるロバストな線形モデルを採用し得る。いくつかの態様において、線形モデルは、全体中央値(または他の予想値)プロファイルに対して、サンプルの観察される正規化された被覆分量を回帰させることによって獲得される。
線形モデルは、サンプル被覆分量が全体プロファイル値と線形の関係性を有し、線形の関係性はロバストな染色体/領域および関心対象の配列の両方に対して保たれるはずであるという想定に基づく。図3Dを参照されたい。そのような場合、全体プロファイルの予想被覆分量に対する、サンプルの正規化された被覆分量の回帰は、傾きおよび切片を有する直線を作り出す。ある特定の態様において、そのような直線の傾きおよび切片を用いて、ビンに対する全体プロファイル値から「予測される」被覆分量を算出する。いくつかの実践において、全体プロファイル補正は、ビンに対する予測被覆分量によって、各ビンの正規化された被覆分量をモデル化する工程を伴う。いくつかの実践において、検査配列タグの被覆率を、(i)1種または複数種のロバストな染色体または領域における複数のビンにおいて、検査配列タグの被覆率対予想被覆率の間の数学的関係を獲得し;かつ(ii)該数学的関係を、関心対象の配列におけるビンに適用することによって調整する。いくつかの実践において、検査サンプルにおける被覆率を、ゲノムのロバストな染色体または他のロバストな領域における、影響なしのトレーニングサンプルからの予想被覆率値と検査サンプルに対する被覆率値との間の線形の関係性を用いて、変動に対して補正する。調整により、全体プロファイル補正被覆率がもたらされる。ある場合には、調整は、以下のように、ロバストな染色体または領域におけるビンの部分集団に対して、検査サンプルに対する被覆率を獲得する工程を伴い、
ya=切片+傾き*gwpa
式中、yaは、1種または複数種のロバストな染色体または領域における検査サンプルに対するビンaの被覆率であり、かつgwpaは、影響なしのトレーニングサンプルに対するビンaに対しての全体プロファイルである。次いで、過程は、
zb=yb/(切片+傾き*gwpb)−1
式中、ybは、関心対象の配列における検査サンプルに対するビンbの観察される被覆率であり(ロバストな染色体または領域の外側にあり得る)、かつgwpbは、影響なしのトレーニングサンプルに対するビンbに対しての全体プロファイルである、
として、関心対象の配列または領域に対する全体プロファイル補正被覆率zbを計算する。分母(切片+傾き*gwpb)は、ゲノムのロバストな領域から推定される関係性に基づき影響なしの検査サンプルにおいて観察されると予測される、ビンbに対する被覆率である。コピー数変動を持する関心対象の配列の場合、観察される被覆率、およびそれゆえビンbに対する全体プロファイル補正被覆率値は、影響なしのサンプルの被覆率から有意に逸脱すると考えられる。例えば、補正された被覆率zbは、影響ありの染色体上のビンに関してトリソミーサンプルの場合、胎児画分に比例すると考えられる。この過程は、ロバストな染色体に関する切片および傾きを計算することによってサンプル内で正規化し、次いで、関心対象のゲノム領域が、同じサンプル内のロバストな染色体に対して保たれる関係性(傾きおよび切片によって記載される)からどれくらい逸脱するかを評価する。
傾きおよび切片は、図3Dに示される直線から獲得される。全体プロファイル除去の例は、図3Cに描かれている。左のパネルは、多くのサンプルにわたる、正規化された被覆分量の、ビンごとの高い変動を示している。右のパネルは、上記で記載される全体プロファイル除去後の、同じ正規化された被覆分量を示している。
ブロック317において、システムが全体プロファイル変動を除去したまたは低下させた後、それは、サンプル内GC(グアニン-シトシン)含有量変動に対して補正する。ブロック319を参照されたい。あらゆるビンは、GCからの、それ自体の小部分の寄与を有する。画分は、ビンにおけるGおよびCヌクレオチドの数を、ビンにおけるヌクレオチドの総数(例えば、100,000)で割ることによって決定される。一部のビンは、他のものよりも大きなGC画分を有すると考えられる。図3Eおよび3Fに示されるように、異なるサンプルは、異なるGCバイアスを呈する。これらの差異およびそれらの補正は、下記でさらに説明される。図3E〜Gは、(ビンごとの)GC画分の関数として、全体プロファイル補正された正規化された(ビンごとの)被覆分量を示している。驚くべきことには、異なるサンプルは、異なるGC依存度を呈する。一部のサンプルは、(図3Eにあるように)単調減少する依存度を示し、一方で他のものは、(図3Fおよび3Gにあるように)コンマの形状をした依存度を呈する。これらのプロファイルは各サンプルに一意的であり得るため、この工程で記載される補正は、各サンプルに対して別個にかつ一意的に実施される。
いくつかの態様において、図3E〜Gに例証されるように、システムは、GC画分に基づいて、ビンをコンピューターにより編成する。次いで、それは、同程度のGC含有量を有する他のビンからの情報を用いて、ビンの全体プロファイル補正された正規化された被覆分量を補正する。この補正を、マスキングされていない各ビンに適用する。
いくつかの過程において、各ビンは、以下のやり方でGC含有量に対して補正される。システムは、検討中のビンのものと同程度のGC画分を有するビンをコンピューターにより選択し、次いで、選択されたビンにおける情報から補正パラメーターを決定する。いくつかの態様において、類似性についての任意に規定されたカットオフ値を用いて、同程度のGC画分を有するそうしたビンが選択される。一例において、すべてのビンの2%が選択される。これらのビンは、検討中のビンとほぼ同程度のGC含有量のビンを有する2%である。例えば、わずかにより多くのGC含有量を有するビンの1%、およびわずかにより少ないGC含有量を有する1%が選択される。
選択されたビンを用いて、システムは、補正パラメーターをコンピューターにより決定する。一例において、補正パラメーターは、選択されたビンにおける(全体プロファイル除去後の)正規化された被覆分量の代表的値である。そのような代表的値の例には、選択されたビンにおける正規化された被覆分量の中央値または平均が含まれる。システムは、検討中のビンに対する算出された補正パラメーターを、検討中のビンに対する(全体プロファイル除去後の)正規化された被覆分量に適用する。いくつかの実践において、代表的値(例えば、中央値の値)を、検討中のビンの正規化された被覆分量から差し引く。いくつかの態様において、正規化された被覆分量の中央値の値(または他の代表的値)は、ロバストな常染色体の染色体(第13、第18、および第21染色体以外のすべての常染色体)に対する被覆分量のみを用いて選択される。
例えば100kbのビンを用いる一例において、各ビンは、GC画分の一意的な値を有すると考えられ、かつビンは、それらのGC画分含有量に基づく群に分割される。例えば、ビンは、群境界がGC分布%の(0、2、4、6、...、および100)分位数に対応する50個の群に分割される。正規化された被覆分量中央値を、(サンプルにおける)同じGC群にマッピングするロバストな常染色体からのビンの各群に対して算出し、次いで、(同じGC群におけるゲノム全体にわたるすべてのビンに対して)正規化された被覆分量から中央値の値を差し引く。これにより、任意の所定のサンプル内のロバストな染色体から推定されるGC補正が、同じサンプル内の潜在的に影響ありの染色体に適用される。例えば、0.338660〜0.344720のGC含有量を有するロバストな染色体上のすべてのビンを一緒にグループ化し、中央値をこの群に対して算出し、かつこのGC範囲内のビンの正規化された被覆率から差し引く、ビンは、(第13、第18、第21、およびX染色体を除く)ゲノム上のいずれかの箇所に見出され得る。ある特定の態様において、Y染色体は、このGC補正過程から除外される。
図3Gは、まさに記載されるように、正規化された被覆分量中央値を補正パラメーターとして用いた、GC補正の適用を示している。左のパネルは、補正されていない被覆分量対GC画分プロファイルを示している。示されるように、プロファイルは、非線形の形状を有する。右のパネルは、補正された被覆分量を示している。図3Hは、GC画分補正の前(左のパネル)およびGC画分補正の後(右のパネル)の、多くのサンプルに対する正規化された被覆率を示している。図3Iは、GC画分補正の前(赤色)およびGC画分補正の後(緑色)の、多くの検査サンプルに対する正規化された被覆率の変動係数(CV)を示しており、GC補正は、正規化された被覆率の実質的により小さな変動につながる。
上記の過程は、GC補正の比較的単純な実践である。GCバイアスに対して補正する代替的な手法は、スプラインまたは他の非線形の適合技法を採用し、それは連続的GC空間において適用され得、かつGC含有量によって被覆分量をビン化(binning)する工程を伴わない。適切な技法の例には、連続的loess補正および平滑化スプライン補正が含まれる。適合関数は、ビンごとの正規化された被覆分量対検討中のサンプルに関するGC含有量から導き出され得る。各ビンに対する補正は、検討中のビンに関するGC含有量を適合関数に適用することによって算出される。例えば、正規化された被覆分量は、検討中のビンのGC含有量において、スプラインの予想被覆率値を差し引くことによって調整され得る。代替的に、調整は、スプライン適合に従って予想被覆率値を割ることによって達成され得る。
作業319においてGC依存度を補正した後、システムは、検討中のサンプルにおける外れ値のビンをコンピューターにより除去する。ブロック321を参照されたい。この作業は、単一サンプルフィルタリングまたはトリミングと呼ばれ得る。図3Jは、GC補正の後でさえ、被覆率が小さな領域内でサンプル特異的変動をなおも有することを示している。例えば、予想値からの予想外に高い逸脱が生じる、第12染色体上の位置1.1 e8における被覆率を参照されたい。この逸脱は、母体ゲノムにおける小さなコピー数変動により生じる可能性がある。代替的に、これは、コピー数変動とは関係ないシーケンシングにおける技術的理由によるものであり得る。典型的に、この作業は、ロバストな染色体にのみ適用される。
一例として、システムは、フィルタリングについて検討中のビンを持する染色体におけるすべてのビンにわたるGC補正された正規化された被覆分量の中央値から、3を上回る中央値絶対偏差のGC補正された正規化された被覆分量を有する任意のビンをコンピューターによりフィルタリングする。一例において、カットオフ値は、標準偏差と一致するように調整された中央値絶対偏差3として規定され、そのため実際には、カットオフは、中央値からの1.4826*中央値絶対偏差である。ある特定の態様において、この作業は、ロバストな染色体および異数性が疑われる染色体の両方を含めた、サンプルにおけるすべての染色体に適用される。
ある特定の実践において、精度管理として特徴付けされ得る付加的作業を実施する。ブロック323を参照されたい。いくつかの態様において、精度管理測定基準は、任意の潜在的な分母染色体、すなわち「正規化染色体」もしくは「ロバストな染色体」が異数性であるかどうか、またはそうでなければ、検査サンプルが関心対象の配列においてコピー数変動を有するかどうかを判定するのに不適当であるかどうかについての検出を伴う。過程が、ロバストな染色体が不適当であると判定した場合、過程は、検査サンプルを切り捨て得かつコールなしを出し得る。代替的に、このQC測定基準の失敗は、コールのための、代替セットの正規化染色体の使用のきっかけとなり得る。一例において、精度管理法は、ロバストな常染色体の染色体に対する予想値に対して、ロバストな染色体に対する実際の正規化された被覆率値を比較する。予想値は、多変量正常モデルを影響なしのトレーニングサンプルの正規化されたプロファイルに適合させ、データまたはベイズ基準の尤度に従って最良のモデル構造を選択し(例えば、モデルは、赤池情報量基準またはおそらくベイズ情報量基準を用いて選択される)、かつQCにおける使用のための最良のモデルを定めることによって獲得され得る。ロバストな染色体の正常モデルは、例えば、正常サンプルにおける染色体被覆率に対する平均および標準偏差を有する確率関数を同定するクラスタリング技法を用いて獲得され得る。当然、他のモデル形態が用いられ得る。過程は、取り決められたモデルパラメーターを考慮して、任意の新入検査サンプルにおける、観察される正規化された被覆率の尤度を評価する。それは、各新入検査サンプルを該モデルでスコア化して尤度を獲得し、それによって、正常なサンプルセットと比べた外れ値を同定することによって、これを行い得る。トレーニングサンプルのものからの検査サンプルの尤度の逸脱は、正しくないサンプル分類をもたらし得る、正規化染色体における異常またはサンプルの操作/アッセイ過程のアーティファクトのいずれかを示唆し得る。このQC測定基準を用いて、これらのサンプルアーティファクトのいずれかに関連した、分類における誤りを低下させることができる。図3Kの右のパネルは、x軸に染色体番号を示しており、かつy軸は、上記で記載されるように獲得されたQCモデルを用いた比較に基づく、正規化された染色体被覆率を示している。グラフは、第2染色体に関して過度の被覆率を有する1つのサンプル、および第20染色体に関して過度の被覆率を有する他のサンプルを示している。これらのサンプルは、ここで記載されるQC測定基準を用いて排除される、または代替セットの正規化染色体を用いることに方向転換される。図3Kの左のパネルは、染色体に関するNCV対尤度を示している。
図3Aに描かれた一連のことは、ゲノムにおけるすべての染色体のすべてのビンに対して用いられ得る。ある特定の態様において、異なる過程がY染色体に適用される。染色体用量もしくはセグメント用量、NCV、および/またはNSVを算出するために、用量、NCV、および/またはNSVの表現において用いられる、染色体またはセグメントにおけるビンからの、補正され正規化された被覆分量(図3Aにおいて決定される)を用いる。ブロック325を参照されたい。ある特定の態様において、本明細書における他の箇所で記載されるように、正規化された被覆分量平均を、関心対象の染色体におけるすべてのビンから算出し、正規化染色体、関心対象のセグメント、および/または正規化セグメントを用いて、配列用量、NCV、および/もしくはNSVを算出する。
ある特定の態様において、Y染色体を差異的に処理する。それは、Y染色体に一意的なビンのセットをマスキングすることによってフィルタリングされ得る。いくつかの態様において、Y染色体フィルターは、参照により以前に組み入れられた米国仮特許出願第61/836,057号における過程に従って決定される。いくつかの態様において、該フィルターは、他の染色体のフィルターにおけるものよりも小さいビンをマスキングする。例えば、Y染色体マスクは1kbレベルでフィルタリングし得、一方で他の染色体マスクは100kbレベルでフィルタリングし得る。それにもかかわらず、Y染色体は、他の染色体と同じビンサイズで正規化され得る(例えば、100kb)。
ある特定の態様において、フィルタリングされたY染色体を、上記の図3Aの作業315に記載されるように正規化する。しかしながら、その他の点で、Y染色体はさらに補正されない。ゆえに、Y染色体ビンは、全体プロファイル除去に供されない。同様に、Y染色体ビンは、GC補正またはそれ以降に実施される他のフィルタリング工程に供されない。これは、サンプルが加工された場合、過程は、該サンプルが雄性または雌性であるかどうか分からないためである。雌性サンプルは、Y参照染色体にアラインメントする読み取りを有しないはずである。
配列マスクを創出する
本明細書において開示されるいくつかの態様は、配列マスクを用いた、関心対象の配列上の非判別配列読み取りをフィルター除去する(またはマスキングする)ためのストラテジーを採用し、それは、CNV評価に用いられる被覆率値において、従来的方法によって算出される値と比べてより高いシグナルおよびより低いノイズにつながる。そのようなマスクは、様々な技法によって同定され得る。一態様において、マスクは、下記でさらに詳細に説明される図4A〜4Bに例証される技法を用いて同定される。
いくつかの実践において、マスクは、関心対象の配列の正常なコピー数を有することが知られる代表的サンプルのトレーニングセットを用いて同定される。下記で記載されるように、マスクは、まずトレーニングセットサンプルを正規化し、次いで配列の範囲(例えば、プロファイル)にわたる体系的変動に対して補正し、かつ次いでGC変動性に対してそれらを補正する技法を用いて同定され得る。正規化および補正は、検査サンプルではなく、トレーニングセットからのサンプルに対して実施される。マスクが同定されると、次いで多くの検査サンプルに適用される。
図4Aは、そのような配列マスクを創出するための過程400のフローチャートを示しており、それを1つまたは複数の検査サンプルに適用して、コピー数についての評価における検討から、関心対象の配列上のビンを除去することができる。過程は、複数の影響なしのトレーニングサンプルからの配列読み取りを含むトレーニングセットを提供することによって開始する。ブロック402。次いで、過程は、トレーニングセットの配列読み取りを、関心対象の配列を含む参照ゲノムにアラインメントし、それによってトレーニングサンプルに対するトレーニング配列タグが提供される。ブロック404。いくつかの態様において、非除外部位にマッピングされた、一意的にアラインメントされた非冗長のタグのみを、さらなる解析に用いる。過程は、参照ゲノムを複数のビンに分割する工程、および影響なしの各トレーニングに対して、各トレーニングサンプルに対する、各ビンにおけるトレーニング配列タグの被覆率を決定する工程を伴う。ブロック406。過程は、各ビンに対して、すべてのトレーニングサンプルにわたるトレーニング配列タグの予想被覆率も決定する。ブロック408。いくつかの態様において、各ビンの予想被覆率は、トレーニングサンプルにわたる中央値または平均である。予想被覆率は、全体プロファイルをなす。次いで、過程は、全体プロファイルにおける変動を除去することによって、各トレーニングサンプルに対して各ビンにおけるトレーニング配列タグの被覆率を調整し、それによって各トレーニングサンプルに対してビンにおけるトレーニング配列タグの全体プロファイル補正被覆率を獲得する。次いで、過程は、参照ゲノムにわたる、マスキングされていないおよびマスキングされたビンを含む配列マスクを創出する。マスキングされた各ビンは、マスキング閾値を超える分布特徴を有する。分布特徴は、トレーニングサンプルにわたるビンにおけるトレーニング配列タグの調整された被覆率に対して提供される。いくつかの実践において、マスキング閾値は、トレーニングサンプルにわたるビン内の、正規化された被覆率の観察される変動に関係し得る。サンプルにわたる正規化された被覆率についての高い変動係数または中央値絶対偏差を有するビンは、それぞれの測定基準の経験分布に基づいて同定され得る。いくつかの代替的な実践において、マスキング閾値は、トレーニングサンプルにわたるビン内の、正規化された被覆率の観察される変動に関係し得る。サンプルにわたる正規化された被覆率についての高い変動係数または中央値絶対偏差を有するビンは、それぞれの測定基準の経験分布に基づいてマスキングされ得る。
いくつかの実践において、関心対象の染色体に対しておよび他のすべての染色体に対して、マスキングされたビンを同定するための別個のカットオフ、すなわちマスキング閾値を規定する。さらに、関心対象の各染色体に対して別個のマスキング閾値が別個に規定され得、かつ影響なしのすべての染色体のセットに対して単一のマスキング閾値が規定され得る。例として、ある特定のマスキング閾値に基づくマスクを第13染色体に対して規定し、かつ別のマスキング閾値を用いて、他の染色体に対するマスクを規定する。影響なしの染色体は、染色体ごとに規定されるそれらのマスキング閾値も有し得る。
様々なマスキング閾値の組み合わせを、関心対象の各染色体について評価し得る。マスキング閾値の組み合わせは、関心対象の染色体のビンに対して1つのマスク、および他のすべての染色体のビンに対して異なるマスクを提供する。
一手法において、変動係数(CV)に対する値の範囲、またはサンプル分布のカットオフの尺度を、ビンCV値の経験分布のパーセンタイル(例えば、95、96、97、98、99)として規定し、かつこれらのカットオフ値を、関心対象の染色体を除くすべての常染色体に適用する。さらに、CVに対するパーセンタイルカットオフ値の範囲を、CV経験分布に対して規定し、かつこれらのカットオフ値を関心対象の染色体(例えば、第21染色体)に適用する。いくつかの態様において、関心対象の染色体は、X染色体、ならびに第13、第18、および第21染色体である。当然、他の手法が考慮され得、例えば、各染色体に対して別個の最適化が実施され得る。まとめると、並列して最適化される対象となる範囲(例えば、検討中の関心対象の染色体に対する1つの範囲、および他のすべての染色体に対する別の範囲)は、CVカットオフの組み合わせのグリッドを規定する。図4Bを参照されたい。トレーニングセットに対するシステムの性能を、2つのカットオフ(正規化染色体(または関心対象の染色体以外の常染色体)に対するもの、および関心対象の染色体に対するもの)にわたって評価し、かつ最良の性能組み合わせを最終構成に選定する。この組み合わせは、関心対象の染色体のそれぞれに対して異なり得る。ある特定の態様において、トレーニングセットの代わりに検証セットに対して性能を評価する、つまり、交差検証を用いて性能を評価する。
いくつかの態様において、カットオフ範囲を決定するために最適化された性能は、(正規化染色体の暫定的選定に基づく)染色体用量の変動係数である。過程は、現時点で選択された1種(または複数種)の正規化染色体を用いて、関心対象の染色体の染色体用量(例えば、割合)のCVを最小限に抑えるカットオフの組み合わせを選択する。一手法において、過程は、以下のように、グリッドにおけるカットオフの各組み合わせの性能を検査する:(1)カットオフの組み合わせを適用して、すべての染色体に対するマスクを規定し、かつそれらのマスクを適用して、トレーニングセットのタグをフィルタリングする;(2)フィルタリングされたタグに図3Aの過程を適用することによって、影響なしのサンプルのトレーニングセットにわたる正規化された被覆率を算出する;(3)例えば検討中の染色体に対してビンの正規化された被覆率を合計することによって、染色体ごとの代表的な正規化された被覆率を決定する;(4)現時点での正規化染色体を用いて、染色体用量を算出する;かつ(5)染色体用量のCVを決定する。過程は、トレーニングセットの元の部分から分離された検査サンプルのセットにそれらを適用することによって、選択されたフィルターの性能を査定し得る。すなわち、過程は、元のトレーニングセットを、トレーニング部分集団および検査部分集団に分ける。トレーニング部分集団を用いて、上記で記載されるマスクカットオフを規定する。
代替的な態様において、被覆率のCVに基づいてマスクを規定する代わりに、ビン内のトレーニングサンプルにわたるアラインメント結果からのマッピング精度スコアの分布によって、マスクを規定し得る。マッピング精度スコアは、読み取りが参照ゲノムにマッピングされる一意性を反映する。言い換えれば、マッピング精度スコアは、読み取りがミスアラインメントされる確率を定量する。低いマッピング精度スコアは、低い一意性(ミスアラインメントの高い確率)と関連する。一意性は、(シーケンサーによって生成される)読み取り配列における1つまたは複数の誤りを説明する。マッピング精度スコアについての詳細な記載は、Li H, Ruan J, Durbin R. (2008) Mapping short DNA sequencing reads and calling variants using mapping quality scores. Genome Research 18:1851-8に提示されており、それは参照によりその全体として本明細書に組み入れられる。いくつかの実践において、マッピング精度スコアは、本明細書において、MapQスコアと呼ばれる。図4Bは、MapQスコアが、処理された被覆率のCVと強い単調な相関を有することを示している。例えば、図4Bにおいて、0.4よりも高いCVを有するビンは、ほぼ完全にプロットの左側にクラスター形成し、約4よりも低いMapQスコアを有する。したがって、小さなMapQを有するビンをマスキングすることにより、高いCVを有するビンをマスキングすることによって規定されるものとかなり類似したマスクが産出され得る。
サンプルおよびサンプル加工
サンプル
CNV、例えば染色体異数性、部分的異数性などを判定するために用いられるサンプルには、関心対象の1種または複数種の配列に対するコピー数変異が判定される対象となる、任意の細胞、組織、または臓器から採取されたサンプルが含まれ得る。望ましくは、サンプルは、細胞内に存在している核酸、および/または「細胞フリー」である核酸(例えば、cfDNA)を含有する。
いくつかの態様において、細胞フリー核酸、例えば細胞フリーDNA(cfDNA)を獲得することが有利である。細胞フリーDNAを含めた細胞フリー核酸は、血漿、血清、および尿を含むがそれらに限定されない生物学的サンプルから、当技術分野において公知の様々な方法によって獲得され得る(例えば、Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008];Koide et al., Prenatal Diagnosis 25:604-607 [2005];Chen et al., Nature Med. 2:1033-1035 [1996];Lo et al., Lancet 350:485-487 [1997];Botezatu et al., Clin Chem. 46:1078-1084, 2000;およびSu et al., J Mol. Diagn. 6:101-107 [2004]を参照されたい)。サンプル中の細胞から細胞フリーDNAを分離するために、分画、遠心分離(例えば、密度勾配遠心分離)、DNA特異的沈殿、もしくはハイスループット細胞選別、および/または他の分離法を含むがそれらに限定されない様々な方法が用いられ得る。cfDNAの手作業によるおよび自動化された分離のための市販のキットが入手可能である(Roche Diagnostics, Indianapolis, IN、Qiagen, Valencia, CA、Macherey-Nagel, Duren, DE)。染色体異数性および/または様々な多型を検出し得るシーケンシングアッセイによって、染色体異常、例えばトリソミー21の有無を判定するアッセイにおいて、cfDNAを含む生物学的サンプルが用いられている。
様々な態様において、サンプル中に存在しているcfDNAを、使用前に(例えば、シーケンシングライブラリーを調製する前に)特異的または非特異的に富化することができる。サンプルDNAの非特異的富化とは、cfDNAシーケンシングライブラリーを調製する前にサンプルDNAのレベルを増加させるために用いられ得る、サンプルのゲノムDNAフラグメントについての全ゲノム増幅を指す。非特異的富化は、1種を上回るゲノムを含むサンプル中に存在している2種のゲノムのうちの一方の選択的富化であり得る。例えば、非特異的富化は、母体サンプル中の胎児ゲノムに選択的であり得、それは、サンプルにおける母体DNAに対する胎児DNAの相対的割合を増加させる公知の方法によって獲得され得る。代替的に、非特異的富化は、サンプル中に存在している両ゲノムの非選択的増幅であり得る。例えば、非特異的増幅は、胎児および母体のゲノム由来のDNAの混合物を含むサンプルにおける胎児および母体のDNAについてのものであり得る。全ゲノム増幅のための方法は、当技術分野において公知である。縮重オリゴヌクレオチドプライマーによるPCR(DOP)、プライマー伸長PCR技法(PEP)、および多置換増幅(MDA)は、全ゲノム増幅法の例である。いくつかの態様において、種々のゲノム由来のcfDNAの混合物を含むサンプルは、該混合物中に存在しているゲノムのcfDNAについて富化されない。他の態様において、種々のゲノム由来のcfDNAの混合物を含むサンプルは、該サンプル中に存在しているゲノムの任意の1種について非特異的に富化される。
本明細書において記載される方法が適用される、核酸を含むサンプルは、典型的に、例えば上記で記載される生物学的サンプル(「検査サンプル」)を含む。いくつかの態様において、1種または複数種のCNVについてスクリーニングされる対象となる核酸を、いくつかの周知の方法のいずれかによって精製するかまたは単離する。
したがって、ある特定の態様において、サンプルは、精製されたもしくは単離されたポリヌクレオチドを含みもしくはそれらからなり、またはそれは、組織サンプル、生物学的流体サンプル、細胞サンプルなどのサンプルを含み得る。適切な生物学的流体サンプルには、血液、血漿、血清、汗、涙、痰、尿、痰、耳流出物(ear flow)、リンパ液、唾液、脳脊髄液、洗浄液(ravage)、骨髄懸濁液、膣流出物、経頸部洗浄液、脳液、腹水、母乳、呼吸器の分泌物、腸管および泌尿生殖器路、羊水、母乳、ならびに白血球除去(leukophoresis)サンプルが含まれるが、それらに限定されるわけではない。いくつかの態様において、サンプルは、非侵襲的手順によって容易に獲得可能であるサンプル、例えば血液、血漿、血清、汗、涙、痰、尿、痰、耳流出物、唾液、または糞便である。ある特定の態様において、サンプルは、末梢血サンプル、または末梢血サンプルの血漿画分および/もしくは血清画分である。他の態様において、生物学的サンプルは、スワブもしくはスメア、生検標本、または細胞培養物である。別の態様において、サンプルは、2種またはそれを上回る種類の生物学的サンプルの混合物であり、例えば生物学的サンプルは、生物学的流体サンプル、組織サンプル、および細胞培養物サンプルのうちの2種またはそれを上回る種類を含み得る。本明細書において使用するとき、「血液」、「血漿」、および「血清」という用語は、画分またはその加工された一部分を明示的に包含する。同様に、サンプルが、生検、スワブ、スメアなどから採取される場合、「サンプル」は、生検、スワブ、スメアなどに由来する加工された画分または一部分を明示的に包含する。
ある特定の態様において、サンプルは、異なる個体由来のサンプル、同じまたは異なる個体の異なる発生段階由来のサンプル、異なる疾患を有する個体(例えば、癌を有する個体または遺伝的障害を有することが疑われる個体)由来のサンプル、正常個体、個体における疾患の異なる段階で得られたサンプル、疾患に対する異なる治療に供された個体から得られたサンプル、異なる環境因子に供された個体由来のサンプル、病変にかかりやすい傾向を有する個体由来のサンプル、感染性疾患物質(例えば、HIV)への曝露を有する個体由来のサンプルなどを含むがそれらに限定されない供給源から獲得され得る。
例証的であるが非限定的な一態様において、サンプルは、妊娠している雌、例えば妊娠している女性から獲得される母体サンプルである。この場合、サンプルを本明細書において記載される方法を用いて解析して、胎児における潜在的染色体異常の出生前診断を提供することができる。母体サンプルは、組織サンプル、生物学的流体サンプル、または細胞サンプルであり得る。生物学的流体には、非限定的な例として、血液、血漿、血清、汗、涙、痰、尿、痰、耳流出物、リンパ液、唾液、脳脊髄液、洗浄液、骨髄懸濁液、膣流出物、経頸部洗浄液、脳液、腹水、母乳、呼吸器の分泌物、腸管および泌尿生殖器路、ならびに白血球除去サンプルが含まれる。
例証的であるが非限定的な別の態様において、母体サンプルは、2種またはそれを上回る種類の生物学的流体サンプルの混合物であり、例えば生物学的サンプルは、生物学的流体サンプル、組織サンプル、および細胞培養物サンプルのうちの2種またはそれを上回る種類を含み得る。いくつかの態様において、サンプルは、非侵襲的手順によって容易に獲得可能であるサンプル、例えば血液、血漿、血清、汗、涙、痰、尿、母乳、痰、耳流出物、唾液、および糞便である。いくつかの態様において、生物学的サンプルは、末梢血サンプル、ならびに/またはその血漿画分および血清画分である。他の態様において、生物学的サンプルは、スワブもしくはスメア、生検標本、または細胞培養物のサンプルである。上述されるように、「血液」、「血漿」、および「血清」という用語は、画分またはその加工された一部分を明示的に包含する。同様に、サンプルが、生検、スワブ、スメアなどから採取される場合、「サンプル」は、生検、スワブ、スメアなどに由来する加工された画分または一部分を明示的に包含する。
ある特定の態様において、サンプルは、インビトロで培養された組織、細胞、または他のポリヌクレオチド含有供給源からも獲得され得る。培養サンプルは、種々の培地および条件(例えば、pH、圧力、または温度)で維持された培養物(例えば、組織または細胞)、種々の長さの期間維持された培養物(例えば、組織または細胞)、種々の因子または試薬(例えば、候補薬物または変調因子)で処理された培養物(例えば、組織または細胞)、または種々のタイプの組織および/もしくは細胞の培養物を含むがそれらに限定されない供給源から採取され得る。
生物学的供給源から核酸を単離する方法は周知であり、かつ供給源の性質に依存して異なる。当業者であれば、本明細書において記載される方法の必要に応じて、供給源から核酸をすぐに単離することができる。ある場合には、核酸サンプルにおける核酸分子をフラグメント化することが有利であり得る。フラグメント化は無作為であり得、またはそれは、例えば制限エンドヌクレアーゼ消化を用いて達成されるような特異的であり得る。無作為フラグメント化のための方法は、当技術分野において周知であり、例えば限定的DNAse消化、アルカリ処理、および物理的剪断を含む。一態様において、サンプル核酸は、フラグメント化に供されないcfDNAから獲得される。
他の例証的な態様において、サンプル核酸は、およそ300個もしくはそれを上回る、およそ400個もしくはそれを上回る、またはおよそ500個もしくはそれを上回る数の塩基対のフラグメントへのフラグメント化に供され、かつNGS法がすぐに適用され得る、ゲノムDNAとして獲得される。
シーケンシングライブラリーの調製
一態様において、本明細書において記載される方法は、単一シーケンシングランで、多数のサンプルが、ゲノム分子として個々に(すなわち、シングルプレックスシーケンシング)、または指標付きゲノム分子を含むプールされたサンプル(例えば、マルチプレックスシーケンシング)としてシーケンシングされるのを可能にする次世代シーケンシング技術(NGS)を利用し得る。これらの方法は、DNA配列の最高数億個の読み取りを生成し得る。様々な態様において、ゲノム核酸および/または指標付きゲノム核酸の配列は、例えば本明細書において記載される次世代シーケンシング技術(NGS)を用いて決定され得る。様々な態様において、NGSを用いて獲得された大量の配列データについての解析は、本明細書において記載されるように、1つまたは複数のプロセッサーを用いて実施され得る。
様々な態様において、そのようなシーケンシング技術の使用は、シーケンシングライブラリーの調製を伴うわけではない。
しかしながら、ある特定の態様において、本明細書において企図されるシーケンシング法は、シーケンシングライブラリーの調製を伴う。1つの例証的な手法において、シーケンシングライブラリーの調製は、いつでもシーケンシングされる状態にある、アダプターが修飾されたDNAフラグメント(例えば、ポリヌクレオチド)の無作為収集物の生成を伴う。ポリヌクレオチドのシーケンシングライブラリーは、DNAまたはcDNAのいずれかの同等物、類似体、例えば相補的であるDNAもしくはcDNA、または逆転写酵素の作用によってRNA鋳型から生成されたコピーDNAを含めた、DNAまたはRNAから調製され得る。ポリヌクレオチドは、二本鎖形態(例えば、ゲノムDNAフラグメント、cDNA、PCR増幅産物などのdsDNA)に由来し得、またはある特定の態様において、ポリヌクレオチドは、一本鎖形態(例えば、ssDNA、RNAなど)に由来しかつdsDNA形態へ変換されている可能性がある。例証として、ある特定の態様において、一本鎖mRNA分子は、シーケンシングライブラリーの調製における使用に適した二本鎖cDNAにコピーされ得る。主要ポリヌクレオチド分子の正確な配列は、一般的に、ライブラリー調製の方法にとって重要ではなく、かつ公知であり得るまたは未知であり得る。一態様において、ポリヌクレオチド分子はDNA分子である。よりとくに、ある特定の態様において、ポリヌクレオチド分子は、生物の全遺伝子相補体または生物の実質的に全遺伝子相補体に相当し、かつイントロン配列およびエクソン配列(コード配列)の両方、ならびにプロモーターおよびエンハンサー配列などの非コード調節配列を典型的に含むゲノムDNA分子(例えば、細胞DNA、細胞フリーDNA(cfDNA)など)である。ある特定の態様において、主要ポリヌクレオチド分子は、ヒトゲノムDNA分子、例えば妊娠している対象の末梢血中に存在しているcfDNA分子を含む。
一部のNGSシーケンシングプラットフォームのためのシーケンシングライブラリーの調製は、特定の範囲のフラグメントサイズを含むポリヌクレオチドの使用によって容易となる。そのようなライブラリーの調製は、典型的に、所望のサイズ範囲のポリヌクレオチドを獲得するために、大きなポリヌクレオチド(例えば、細胞ゲノムDNA)のフラグメント化を伴う。
フラグメント化は、当業者に公知のいくつかの方法のいずれかによって達成され得る。例えば、フラグメント化は、噴霧化、超音波処理、およびハイドロシェアを含むがそれらに限定されない機械的方法によって達成され得る。しかしながら、機械的フラグメント化は、典型的に、C-O、P-O、およびC-C結合でDNA骨格を切断し、破壊されたC-O、P-O、およびC-C結合を有する、平滑末端、ならびに3'および5'突出末端の不均一混合物をもたらし(例えば、AlnemriおよびLiwack, J Biol. Chem 265:17323-17333 [1990];RichardsおよびBoyer, J Mol Biol 11:327-240 [1965]を参照されたい)、それは修復される必要があり得る、というのもそれらは、後続の酵素反応、例えばシーケンシング用のDNAを調製するために必要とされるシーケンシングアダプターのライゲーションにとって必須の5'-ホスフェートを欠いている可能性があるためである。
対照的に、cfDNAは、典型的に約300塩基対未満のフラグメントとして存在し、その結果として、cfDNAサンプルを用いたシーケンシングライブラリーの調製に、フラグメント化は典型的に必要ではない。
典型的に、ポリヌクレオチドが強制的にフラグメント化される(例えば、インビトロでフラグメント化される)、または天然にフラグメントとして存在するかどうかにかかわらず、それらは、5'-ホスフェートおよび3'-ヒドロキシルを有する平滑末端DNAに変換される。標準的プロトコール、例えば、本明細書における他の箇所で記載される例えばIlluminaプラットフォームを用いたシーケンシングのためのプロトコールは、サンプルDNAを末端修復するように、dAテーリングの前に末端修復産物を精製するように、かつライブラリー調製のアダプターライゲーション工程の前にdAテーリング産物を精製するようにユーザーに指示する。
本明細書において記載されるシーケンスライブラリーの調製の方法の様々な態様は、NGSによってシーケンシングされ得る改変DNA産物を獲得するための標準的プロトコールによって典型的に命じられる工程のうちの1つまたは複数を実施する必要性を取り除く。簡略法(ABB法)、1工程法、および2工程法は、シーケンシングライブラリーの調製のための方法の例であり、それらは、参照によりその全体が組み入れられる2012年7月20日に提出された特許出願第13/555,037号に見出され得る。
サンプル完全性を追跡するおよび立証するためのマーカー核酸
様々な態様において、サンプルの完全性の立証およびサンプル追跡は、サンプルゲノム核酸、例えばcfDNAおよび、例えば加工前に、サンプル中に導入されている付随するマーカー核酸の混合物をシーケンシングすることによって達成され得る。
マーカー核酸を、検査サンプル(例えば、生物学的供給源サンプル)と組み合わせることができ、かつ例えば、生物学的供給源サンプルを分画する工程、例えば全血サンプルから本質的に細胞フリーの血漿画分を獲得する工程、分画された例えば血漿、または分画されていない生物学的供給源サンプル、例えば組織サンプルから核酸を精製する工程、およびシーケンシングする工程のうちの1つまたは複数を含む過程に供することができる。いくつかの態様において、シーケンシングは、シーケンシングライブラリーを調製する工程を含む。供給源サンプルと組み合わされるマーカー分子の配列または配列の組み合わせは、供給源サンプルに一意的であるように選定される。いくつかの態様において、サンプル中の一意的マーカー分子はすべて、同じ配列を有する。他の態様において、サンプル中の一意的マーカー分子は、複数の配列、例えば2、3、4、5、6、7、8、9、10、15、20種、またはそれを上回る種類の異なる配列である。
一態様において、サンプルの完全性は、同一配列を有する複数のマーカー核酸分子を用いて立証され得る。代替的に、サンプルの同一性は、少なくとも2種、少なくとも3種、少なくとも4種、少なくとも5種、少なくとも6種、少なくとも7種、少なくとも8種、少なくとも9種、少なくとも10種、少なくとも11種、少なくとも12種、少なくとも13種、少なくとも14種、少なくとも15種、少なくとも16種、少なくとも17種、少なくとも18種、少なくとも19種、少なくとも20種、少なくとも25種、少なくとも30種、少なくとも35種、少なくとも40種、少なくとも50種、またはそれを上回る種類の異なる配列を有する複数のマーカー核酸分子を用いて立証され得る。複数の生物学的サンプル、すなわち2種またはそれを上回る種類の生物学的サンプルの完全性についての立証は、該2種またはそれを上回る種類の生物学的サンプルのそれぞれが、マーク付けされている複数の検査サンプルのそれぞれに一意的である配列を有するマーカー核酸でマーク付けされることを要する。例えば、第1のサンプルは、配列Aを有するマーカー核酸でマーク付けされ得、かつ第2のサンプルは、配列Bを有するマーカー核酸でマーク付けされ得る。代替的に、第1のサンプルは、すべてが配列Aを有するマーカー核酸分子でマーク付けされ得、かつ第2のサンプルは、配列BおよびCの混合物でマーク付けされ得、配列A、B、およびCは、異なる配列を有するマーカー分子である。
マーカー核酸を、ライブラリー調製(ライブラリーが調製される予定である場合)およびシーケンシングの前に存在するサンプル調製の任意の段階で、サンプルに添加することができる。一態様において、マーカー分子を、加工されていない供給源サンプルと組み合わせることができる。例えば、マーカー核酸を、血液サンプルを収集するために用いられる収集チューブに提供することができる。代替的に、マーカー核酸を、採血後の血液サンプルに添加することができる。一態様において、マーカー核酸を、生物学的流体サンプルを収集するために用いられる容器に添加し、例えばマーカー核酸を、血液サンプルを収集するために用いられる血液収集チューブに添加する。別の態様において、マーカー核酸を、生物学的流体サンプルの画分に添加する。例えば、マーカー核酸を、血液サンプルの血漿画分および/または血清画分、例えば母体血漿サンプルに添加する。さらに別の態様において、マーカー分子を、精製されたサンプル、例えば生物学的サンプルから精製されている核酸のサンプルに添加する。例えば、マーカー核酸を、精製された母体および胎児のcfDNAのサンプルに添加する。同様に、マーカー核酸を、標本を加工する前の生検標本に添加することができる。いくつかの態様において、マーカー核酸を、生物学的サンプルの細胞内にマーカー分子を送達するキャリアと組み合わせることができる。細胞送達キャリアには、pH感受性およびカチオン性のリポソームが含まれる。
様々な態様において、マーカー分子は、生物学的供給源サンプルのゲノムに存在しない配列であるアンチゲノム配列を有する。例示的な態様において、ヒト生物学的供給源サンプルの完全性を立証するために用いられるマーカー分子は、ヒトゲノムに存在しない配列を有する。代替的な態様において、マーカー分子は、供給源サンプルおよび他のいずれか1種または複数種の公知のゲノムに存在しない配列を有する。例えば、ヒト生物学的供給源サンプルの完全性を立証するために用いられるマーカー分子は、ヒトゲノムおよびマウスゲノムに存在しない配列を有する。代替手段は、2種またはそれを上回る種類のゲノムを含む検査サンプルの完全性を立証することを可能にする。例えば、病原体、例えば細菌によって影響を受けた対象から得られたヒト細胞フリーDNAサンプルの完全性は、該ヒトのゲノムおよび影響を及ぼしている細菌のゲノムの両方に存在しない配列を有するマーカー分子を用いて立証され得る。数々の病原体、例えば細菌、ウイルス、酵母、真菌、原生動物などのゲノムの配列は、ワールド・ワイド・ウェブでncbi.nlm.nih.gov/genomesにて公的に入手可能である。別の態様において、マーカー分子は、任意の公知のゲノムに存在しない配列を有する核酸である。マーカー分子の配列は、アルゴリズムにより無作為に生成され得る。
様々な態様において、マーカー分子は、天然に存在するデオキシリボ核酸(DNA)、リボ核酸、または、ホスホジエステル骨格を有しない分子もしくはDNA模倣体の骨格への変化によって、天然に存在するDNAもしくはRNAと区別される、ペプチド核酸(PMA)、モルフォリノ核酸、ロックド核酸、グリコール核酸、およびトレオース核酸を含めた人工的核酸類似体(核酸模倣体)であり得る。デオキシリボ核酸は、天然に存在するゲノム由来であり得、または酵素の使用によりもしくは固相化学合成によって実験室で生成され得る。化学的方法を用いて、天然には見出されないDNA模倣体を生成することもできる。ホスホジエステル連結は置換されているがデオキシリボースが保持されている、入手可能であるDNAの誘導体には、優れた構造DNA模倣体であることが示されている、チオホルムアセタール(thioformacetal)またはカルボキサミド連結によって形成される骨格を有するDNA模倣体が含まれるが、それらに限定されるわけではない。他のDNA模倣体には、N-(2-アミノエチル)グリシンに基づく疑似ペプチド骨格を含有する、モルフォリノ誘導体およびペプチド核酸(PNA)が含まれる(Ann Rev Biophys Biomol Struct 24:167-183 [1995])。PNAは、DNAの(またはリボ核酸[RNA]の)極めて優れた構造模倣体であり、かつPNAオリゴマーは、ワトソン-クリック相補的DNAおよびRNA(またはPNA)オリゴマーにより非常に安定した二重鎖構造を形成し得、かつそれらは、ヘリックス侵入によって二重鎖DNAの状態の標的に結合することもできる(Mol Biotechnol 26:233-248 [2004])。マーカー分子として用いられ得る、DNA類似体の別の優れた構造模倣体/類似体は、非架橋酸素のうちの1個が硫黄によって置換されているホスホロチオエートDNAである。この改変は、5'→3'および3'→5' DNA POL 1エキソヌクレアーゼ、ヌクレアーゼS1およびP1、RNase、血清ヌクレアーゼ、ならびにヘビ毒ホスホジエステラーゼを含めた、エンドおよびエキソヌクレアーゼ2の作用を低減させる。
マーカー分子の長さは、サンプル核酸のものとは異なっていてもよくもしくは異なっていなくてもよい、すなわちマーカー分子の長さは、サンプルゲノム分子のものと同程度であり得、またはそれは、サンプルゲノム分子のものより大きくもしくは小さくあり得る。マーカー分子の長さは、該マーカー分子をなすヌクレオチドまたはヌクレオチド類似塩基の数によって測定される。サンプルゲノム分子のものとは異なる長さを有するマーカー分子は、当技術分野において公知の分離法を用いて、供給源核酸と区別され得る。例えば、マーカーおよびサンプル核酸分子の長さの差異は、電気泳動分離、例えばキャピラリー電気泳動によって判定され得る。サイズの差異は、マーカーおよびサンプル核酸を定量しかつそれらの質を査定するのに有利であり得る。好ましくは、マーカー核酸はゲノム核酸よりも短く、かつそれらがサンプルのゲノムにマッピングされるのを除外するのに十分な長さのものである。例えば、30塩基のヒト配列が、それをヒトゲノムに一意的にマッピングするために必要とされるように。したがって、ある特定の態様において、ヒトサンプルのシーケンシングバイオアッセイにおいて用いられるマーカー分子は、長さが少なくとも30bpであるべきである。
マーカー分子の長さの選定は、供給源サンプルの完全性を立証するために用いられるシーケンシング技術によって主に決定される。シーケンシングされているサンプルゲノム核酸の長さも考慮され得る。例えば、一部のシーケンシング技術は、ポリヌクレオチドのクローン的増幅を採用し、それは、クローン的に増幅される対象となるゲノムポリヌクレオチドが最小限の長さのものであることを必要とし得る。例えば、Illumina GAIIシーケンスアナライザーを用いたシーケンシングは、110bpという最小限の長さを有するポリヌクレオチドのブリッジPCR(クラスター増幅としても知られる)によるインビトロでのクローン的増幅を含み、それにアダプターがライゲーションして、クローン的に増幅され得かつシーケンシングされ得る少なくとも200bpかつ600bp未満の核酸を提供する。いくつかの態様において、アダプターがライゲーションされたマーカー分子の長さは、約200bp〜約600bp、約250bp〜550bp、約300bp〜500bp、または約350〜450である。他の態様において、アダプターがライゲーションされたマーカー分子の長さは約200bpである。例えば、母体サンプル中に存在している胎児cfDNAをシーケンシングする場合、マーカー分子の長さは、胎児cfDNA分子のものと同程度であるように選定され得る。ゆえに、一態様において、胎児染色体異数性の有無を判定するための、母体サンプルにおけるcfDNAの超並列シーケンシングを含むアッセイにおいて用いられるマーカー分子の長さは、約150bp、約160bp、170bp、約180bp、約190bp、または約200bpであり得;好ましくは、マーカー分子は約170ppである。他のシーケンシング手法、例えばSOLiDシーケンシング、ポロニー(Polony)シーケンシング、および454シーケンシングは、エマルジョンPCRを用いてシーケンシングのためのDNA分子をクローン的に増幅し、かつ各技術は、増幅される対象となる分子の最小限および最大限の長さを定める。クローン的に増幅された核酸としてシーケンシングされる対象となるマーカー分子の長さは、最高約600bpであり得る。いくつかの態様において、シーケンシングされる対象となるマーカー分子の長さは、600bpよりも大きくあり得る。
分子のクローン的増幅を採用せず、かつほとんどの状況において、非常に広範な鋳型の長さにわたって核酸をシーケンシングすることが可能である単分子シーケンシング技術は、シーケンシングされる対象となる分子が任意の特定の長さのものであることを必要としない。しかしながら、単位質量あたりの配列の収率は、3'末端ヒドロキシル基の数に依存し、ゆえにシーケンシングのために比較的短い鋳型を有することは、長い鋳型を有するよりも効率的である。1000ntよりも長い核酸で開始する場合、核酸を100〜200ntの平均長に剪断することが一般的に得策であり、それにより、同じ質量の核酸から、より多くの配列情報が生成され得る。ゆえに、マーカー分子の長さは、数十塩基から数千塩基に及び得る。単分子シーケンシングに用いられるマーカー分子の長さは、長さが最高約25bp、最高約50bp、最高約75bp、最高約100bp、最高約200bp、最高約300bp、最高約400bp、最高約500bp、最高約600bp、最高約700bp、最高約800bp、最高約900bp、最高約1000bp、またはそれを上回る数であり得る。
マーカー分子に選定される長さは、シーケンシングされているゲノム核酸の長さによっても決定される。例えば、cfDNAは、細胞ゲノムDNAのゲノムフラグメントとして、ヒト血流中を循環している。妊娠している女性の血漿中に見出される胎児cfDNA分子は、一般的に母体cfDNA分子よりも短い(Chan et al., Clin Chem 50:8892 [2004])。循環胎児DNAのサイズ分画により、循環胎児DNAフラグメントの平均長は<300bpであることが確認されており、一方で母体DNAは約0.5〜1Kbであると推定されている(Li et al., Clin Chem, 50:1002-1011 [2004])。これらの知見は、胎児cfDNAが>340bpであることは滅多にないことをNGSを用いて判定したFanらのもの(Fan et al., Clin Chem 56:1279-1286 [2010])と合致する。標準的シリカベースの方法で尿から単離されたDNAは、離脱細胞に起因する高分子量DNA、および腎臓透過性(transrenal)DNA(Tr-DNA)の低分子量(150〜250塩基対)画分という2つの画分からなる(Botezatu et al., Clin Chem. 46:1078-1084, 2000;およびSu et al., J Mol. Diagn. 6:101-107, 2004)。体液由来の細胞フリー核酸の単離のために新しく開発された技法の腎臓透過性核酸の単離への適用により、150塩基対よりもはるかに短いDNAおよびRNAフラグメントの尿中での存在が明らかになった(米国特許出願公報第20080139801号)。cfDNAが、シーケンシングされるゲノム核酸である態様において、選定されるマーカー分子は、最高約cfDNAの長さであり得る。例えば、単一核酸分子としてまたはクローン的に増幅された核酸としてシーケンシングされる対象となる母体cfDNAサンプルにおいて用いられるマーカー分子の長さは、約100bp〜600であり得る。他の態様において、サンプルゲノム核酸は、より大きな分子のフラグメントである。例えば、シーケンシングされるサンプルゲノム核酸は、フラグメント化された細胞DNAである。態様において、フラグメント化された細胞DNAがシーケンシングされる場合、マーカー分子の長さは、最高で該DNAフラグメントの長さであり得る。いくつかの態様において、マーカー分子の長さは、少なくとも、配列読み取りを適当な参照ゲノムに一意的にマッピングするのに必要とされる最小限の長さである。他の態様において、マーカー分子の長さは、マーカー分子がサンプル参照ゲノムにマッピングされるのを除外するのに必要とされる最小限の長さである。
加えて、マーカー分子を用いて、核酸シーケンシングによってアッセイされずかつシーケンシング以外の一般的バイオ技法、例えばリアルタイムPCRによって立証され得るサンプルを立証することができる。
サンプル対照(例えば、シーケンシングおよび/または解析のための作業中陽性対照)
様々な態様において、例えば上記で記載されるように、サンプル中に導入されるマーカー配列は、シーケンシング、ならびに後続の加工および解析の精度および有効性を立証する陽性対照として機能し得る。
したがって、サンプル中のDNAのシーケンシングのための作業中陽性対照(IPC)を提供するための組成物および方法が提供される。ある特定の態様において、ゲノムの混合物を含むサンプル中のcfDNAのシーケンシングのための陽性対照が提供される。IPCを用いて、異なるセットのサンプル、例えば異なるシーケンシングランで異なるときにシーケンシングされるサンプルから得られた配列情報におけるベースライン推移を関連付けすることができる。ゆえに、例えば、IPCは、母体検査サンプルに関して得られた配列情報を、異なるときにシーケンシングされた適格サンプルのセットから得られた配列情報に関連付けすることができる。
同様に、セグメント解析の場合、IPCは、特定のセグメントに関して対象から得られた配列情報を、異なるときにシーケンシングされた(類似した配列の)適格サンプルのセットから得られた配列情報に関連付けすることができる。ある特定の態様において、IPCは、特定の癌関連遺伝子座に関して対象から得られた配列情報を、適格サンプルのセットから得られた配列情報に関連付けすることができる(例えば、公知の増幅/欠失などによる)。
加えて、IPCを、シーケンシング過程を通じてサンプルを追跡するためのマーカーとして用いることができる。IPCは、関心対象の染色体の1種または複数種の異数性、例えばトリソミー21、トリソミー13、トリソミー18に対する定性的な陽性の配列量値、例えばNCVを提供して、適正な解釈も提供し得かつデータの信頼度および精度も確保し得る。ある特定の態様において、雄性および雌性ゲノム由来の核酸を含むようにIPCを創出して、母体サンプルにおけるXおよびY染色体量を提供して、胎児が雄であるかどうかを判定することができる。
作業中対照のタイプおよび数は、必要とされる検査のタイプまたは性質に依存する。例えば、染色体異数性が存在するかどうかを判定するための、ゲノムの混合物を含むサンプル由来のDNAのシーケンシングを必要とする検査に関して、作業中対照は、検査されている同じ染色体異数性を含むことが知られるサンプルから得られたDNAを含み得る。いくつかの態様において、IPCは、関心対象の染色体の異数性を含むことが知られるサンプル由来のDNAを含む。例えば、母体サンプルにおける胎児トリソミー、例えばトリソミー21の有無を判定する検査に対するIPCは、トリソミー21を有する個体から得られたDNAを含む。いくつかの態様において、IPCは、異なる異数性を有する2つまたはそれを上回る数の個体から得られたDNAの混合物を含む。例えば、トリソミー13、トリソミー18、トリソミー21、およびモノソミーXの有無を判定する検査に関して、IPCは、検査されているトリソミーのうちの1種を有する胎児をそれぞれが保持している妊娠女性から得られたDNAサンプルの組み合わせを含む。完全染色体異数性に加えて、部分的異数性の有無を判定する検査に対する陽性対照を提供するようにIPCを創出することができる。
単一異数性を検出するための対照として働くIPCを、一方は異数性ゲノムの寄与因子である、2つの対象から得られた細胞ゲノムDNAの混合物を用いて創出することができる。例えば、胎児トリソミー、例えばトリソミー21を判定する検査に対する対照として創出されるIPCを、トリソミー染色体を保持する雄性または雌性対象由来のゲノムDNAと、トリソミー染色体を保持しないことが知られる雌性対象に関するゲノムDNAとを組み合わせることによって創出することができる。ゲノムDNAを両対象の細胞から抽出しかつ剪断して、母体サンプルにおける循環cfDNAフラグメントを模擬する約100〜400bp、約150〜350bp、または約200〜300bpのフラグメントを提供することができる。異数性、例えばトリソミー21を保持する対象由来のフラグメント化されたDNAの割合を、母体サンプルに見出される循環胎児cfDNAの割合を模擬するように選定して、異数性を保持する対象由来のDNAの約5%、約10%、約15%、約20%、約25%、約30%を含む、フラグメント化DNAの混合物を含むIPCを提供する。IPCは、それぞれが異なる異数性を保持する異なる対象由来のDNAを含み得る。例えば、IPCは、約80%の影響なしの雌性DNAを含み得、かつ残りの20%は、それぞれが第21トリソミー染色体、第13トリソミー染色体、および第18トリソミー染色体を保持する3つの異なる対象由来のDNAであり得る。シーケンシングのために、フラグメント化されたDNAの混合物を調製する。フラグメント化されたDNAの混合物の加工は、シーケンシングライブラリーを調製する工程を含み得、それは、シングルプレックスまたはマルチプレックス形式での任意の超並列法を用いてシーケンシングされ得る。ゲノムIPCのストック溶液は、保存され得かつ複数の診断検査において用いられ得る。
代替的に、公知の染色体異数性を有する胎児を保持することが知られる母親から得られたcfDNAを用いて、IPCを創出することができる。例えば、トリソミー21を有する胎児を保持している妊娠女性からcfDNAを獲得することができる。cfDNAを母体サンプルから抽出し、かつ細菌ベクター内にクローニングし、かつ細菌内で増大させて、IPCの継続的供給源を提供する。制限酵素を用いて、DNAを細菌ベクターから取り出すことができる。代替的に、クローン化cfDNAを、例えばPCRによって増幅することができる。染色体異数性の有無について解析される対象となる検査サンプル由来のcfDNAと同じランでのシーケンシングに対して、IPC DNAを加工することができる。
IPCの創出は、トリソミーに関して上記で記載されているが、例えば様々なセグメントの増幅および/または欠失を含めた他の部分的異数性を反映するように、IPCを創出し得ることが解されるであろう。ゆえに、例えば、様々な癌が、特定の増幅と関連することが知られている場合(例えば、20Q13と関連した乳癌)、そうした公知の増幅を組み入れるIPCを創出することができる。
シーケンシング法
上記で示されるように、調製されたサンプル(例えば、シーケンシングライブラリー)を、コピー数変異を同定するための手順の一部としてシーケンシングする。いくつかのシーケンシング技術のいずれかを利用することができる。
下記で記載される、Affymetrix Inc.(Sunnyvale, CA)製のハイブリダイゼーションによるシーケンシングプラットフォーム、ならびに454 Life Sciences(Bradford, CT)、Illumina/Solexa(Hayward, CA)、およびHelicos Biosciences(Cambridge, MA)製の合成によるシーケンシングプラットフォーム、ならびにApplied Biosystems(Foster City, CA)製のライゲーションによるシーケンシングプラットフォームなど、いくつかのシーケンシング技術は商業的に利用可能である。Helicos Biosciences製の合成によるシーケンシングを用いて実施される単分子シーケンシングに加えて、他の単分子シーケンシングには、Pacific BiosciencesのSMRT(商標)技術、ION TORRENT(商標)技術、および例えばOxford Nanopore Technologiesによって開発されたナノポアシーケンシングが含まれるが、それらに限定されるわけではない。
自動化されたサンガー法は「第1世代」技術と見なされるものの、本明細書において記載される方法では、自動化サンガーシーケンシングを含めたサンガーシーケンシングも採用することができる。さらなる適切なシーケンシング法には、核酸イメージング技術、例えば原子間力顕微鏡法(AFM)または透過電子顕微鏡法(TEM)が含まれるが、それらに限定されるわけではない。例証的なシーケンシング技術は、下記でより詳細に記載されている。
例証的であるが非限定的な一態様において、本明細書において記載される方法は、HelicosのTrue Single Molecule Sequencing(tSMS)技術(例えば、Harris T.D. et al., Science 320:106-109 [2008]に記載されている)の単分子シーケンシング技術を用いて、検査サンプルにおける核酸、例えば母体サンプルにおけるcfDNA、癌についてスクリーニングされている対象におけるcfDNAまたは細胞DNAなどについての配列情報を獲得する工程を含む。tSMS技法では、DNAサンプルをおよそ100〜200個のヌクレオチドの鎖に切断し、かつポリA配列を各DNA鎖の3'末端に付加する。各鎖を、蛍光標識されたアデノシンヌクレオチドの付加によって標識する。次いで、該DNA鎖を、フローセル表面に固定化されている数百万個のオリゴT捕捉部位を含有するフローセルにハイブリダイズさせる。ある特定の態様において、鋳型は、約1億個の鋳型/cm2の密度であり得る。次いで、フローセルを計器、例えばHeliScope(商標)シーケンサー内に載せ、かつレーザーがフローセルの表面を照射し、各鋳型の箇所が明らかとなる。CCDカメラにより、フローセル表面上の鋳型の箇所がマッピングされ得る。次いで、鋳型蛍光標識を切断し、かつ洗い流す。DNAポリメラーゼおよび蛍光標識されたヌクレオチドを導入することによって、シーケンシング反応が始まる。オリゴT核酸はプライマーとして働く。ポリメラーゼは、鋳型指向的様式でプライマーに標識ヌクレオチドを組み入れる。ポリメラーゼおよび組み入れられていないヌクレオチドを除去する。蛍光標識されたヌクレオチドの組み入れに指向している鋳型は、フローセル表面を撮像することによって見分けられる。撮像後、切断工程により蛍光標識を除去し、かつ該過程を、所望の読み取りの長さが達成されるまで、他の蛍光標識されたヌクレオチドを用いて反復する。各ヌクレオチド付加工程に関して配列情報が収集される。単分子シーケンシング技術による全ゲノムシーケンシングは、シーケンシングライブラリーの調製におけるPCRベースの増幅を除外しまたは典型的には取り除き、かつ方法は、そのサンプルのコピーの測定よりもむしろ、サンプルの直接的測定を可能にする。
例証的であるが非限定的な別の態様において、本明細書において記載される方法は、454シーケンシング(Roche)(例えば、Margulies, M. et al. Nature 437:376-380 [2005]に記載されている)を用いて、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNA、癌についてスクリーニングされている対象におけるcfDNAまたは細胞DNAなどについての配列情報を獲得する工程を含む。454シーケンシングは、典型的に2つの工程を伴う。第1の工程において、DNAをおよそ300〜800塩基対のフラグメントに剪断し、かつ該フラグメントを平滑末端化する。次いで、オリゴヌクレオチドアダプターを、フラグメントの末端にライゲーションさせる。アダプターは、フラグメントの増幅およびシーケンシングのためのプライマーとして働く。フラグメントは、例えば5'-ビオチンタグを含有するアダプターBを用いて、DNA捕捉ビーズ、例えばストレプトアビジンコートされたビーズに接着し得る。ビーズに接着したフラグメントは、油−水エマルジョンの液滴内でPCR増幅される。結果は、各ビーズ上でクローン的に増幅されたDNAフラグメントの多コピーである。第2の工程において、ビーズをウェル(例えば、ピコリットルサイズのウェル)中で捕捉する。各DNAフラグメントに対して、パイロシーケンシングを並列して実施する。1個または複数個のヌクレオチドの付加により、シーケンシング計器内のCCDカメラによって記録される光シグナルが生成される。シグナル強度は、組み入れられたヌクレオチドの数に比例する。パイロシーケンシングは、ヌクレオチド付加時に放出されるピロホスフェート(PPi)を使用する。PPiは、アデノシン5'ホスホスルフェートの存在下で、ATPスルフリラーゼによってATPに変換される。ルシフェラーゼは、ATPを用いてルシフェリンをオキシルシフェリンに変換し、かつこの反応は、測定されかつ解析される光を生成する。
例証的であるが非限定的な別の態様において、本明細書において記載される方法は、SOLiD(商標)技術(Applied Biosystems)を用いて、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNA、癌についてスクリーニングされている対象におけるcfDNAまたは細胞DNAなどについての配列情報を獲得する工程を含む。SOLiD(商標)のライゲーションによるシーケンシングでは、ゲノムDNAをフラグメントに剪断し、かつアダプターを該フラグメントの5'および3'末端に接着させて、フラグメントライブラリーを生成する。代替的に、アダプターをフラグメントの5'および3'末端にライゲーションさせ、フラグメントを循環させ、循環フラグメントを消化して内部アダプターを生成し、かつアダプターを結果として生じたフラグメントのフラグメントの5'および3'末端に接着させることによって内部アダプターを導入して、メイトペアのライブラリーを生成することができる。次に、ビーズ、プライマー、鋳型、およびPCR構成要素を含有するマイクロリアクター内で、クローン的ビーズ集団を調製する。PCRの後、鋳型を変性し、かつビーズを富化して、伸長した鋳型を有するビーズを分離する。選択されたビーズ上の鋳型を、ガラススライドへの結合を可能にする3'修飾に供する。配列は、部分的ランダムオリゴヌクレオチドと、特異的フルオロフォアによって同定される中心規定塩基(または塩基対)との逐次的ハイブリダイゼーションおよびライゲーションによって決定され得る。色が記録された後、ライゲーションしたオリゴヌクレオチドは切断されかつ除去され、次いで該過程が反復される。
例証的であるが非限定的な別の態様において、本明細書において記載される方法は、Pacific Biosciencesの単分子リアルタイム(SMRT(商標))シーケンシング技術を用いて、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNA、癌についてスクリーニングされている対象におけるcfDNAまたは細胞DNAなどについての配列情報を獲得する工程を含む。SMRTシーケンシングでは、色素標識されたヌクレオチドの連続的組み入れが、DNA合成中に撮像される。単一DNAポリメラーゼ分子は、ゼロモードにある個々の波長検出器(ZMW検出器)の底面に接着し、それは、ホスホ連結したヌクレオチドが、増大するプライマー鎖に組み入れられている間に配列情報を獲得する。ZMW検出器は、ZMWの内外に急速に(例えば、マイクロ秒で)拡散する蛍光ヌクレオチドのバックグラウンドに対して、DNAポリメラーゼによる単一ヌクレオチドの組み入れの観察を可能にする閉じ込め構造を含む。増大する鎖にヌクレオチドを組み入れるには、典型的に数ミリ秒かかる。この時間の間、蛍光標識は励起されかつ蛍光シグナルを生成し、かつ蛍光タグは切除される。色素の対応する蛍光についての測定は、どの塩基が組み入れられたかを示す。該過程が反復されて、配列が提供される。
例証的であるが非限定的な別の態様において、本明細書において記載される方法は、ナノポアシーケンシング(例えば、Soni GVおよびMeller A. Clin Chem 53:1996-2001 [2007]に記載されている)を用いて、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNA、癌についてスクリーニングされている対象におけるcfDNAまたは細胞DNAなどについての配列情報を獲得する工程を含む。ナノポアシーケンシングDNA解析技法は、例えばOxford Nanopore Technologies(Oxford, United Kingdom)、Sequenom、NABsysなどを含めたいくつかの会社によって開発されている。ナノポアシーケンシングは、DNAの単分子が、それがナノポアを通過するときに直接シーケンシングされる、単分子シーケンシング技術である。ナノポアは、典型的に直径1ナノメートルの桁の小さな穴である。導電性流体中へのナノポアの浸漬およびその両端間への電位(電圧)の印加は、ナノポアを通じたイオンの伝導により、わずかな電流をもたらす。流れる電流の量は、ナノポアのサイズおよび形状に敏感である。DNA分子がナノポアを通過するとき、該DNA分子上の各ヌクレオチドは種々の程度にナノポアを塞ぎ、ナノポアを通じた電流の大きさが種々の程度で変化する。ゆえに、DNA分子がナノポアと通過するときのこの電流の変化により、DNA配列の読み取りが提供される。
例証的であるが非限定的な別の態様において、本明細書において記載される方法は、化学的感受性電界効果トランジスタ(chemFET)アレイ(例えば、米国特許出願公報第2009/0026082号に記載されている)を用いて、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNA、癌についてスクリーニングされている対象におけるcfDNAまたは細胞DNAなどについての配列情報を獲得する工程を含む。この技法の一例において、DNA分子は反応チャンバー内に置かれ得、かつ鋳型分子は、ポリメラーゼに結合しているシーケンシングプライマーにハイブリダイズされ得る。シーケンシングプライマーの3'末端における、新しい核酸鎖への1個または複数個のトリホスフェートの組み入れは、chemFETによって電流の変化として見分けられ得る。アレイは、複数のchemFETセンサーを有し得る。別の例において、単一核酸はビーズに接着され得、かつ該核酸はビーズ上で増幅され得、かつ個々のビーズは、各チャンバーがchemFETセンサーを有するchemFETアレイ上の個々の反応チャンバーに移され得、かつ核酸がシーケンシングされ得る。
別の態様において、本方法は、透過電子顕微鏡法(TEM)を用いるHalcyon Molecularの技術を用いて、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNAについての配列情報を獲得する工程を含む。個別分子配置迅速ナノ移動(Individual Molecule Placement Rapid Nano Transfer)(IMPRNT)と称される方法は、重原子マーカーで選択的に標識された高分子量(150kbまたはそれを上回る)DNAの単原子分解能透過電子顕微鏡イメージングを利用する工程、およびこれらの分子を、塩基から塩基までの一貫した間隔を有する超高密度(鎖から鎖まで3nm)並列アレイにおける超薄フィルム上に配置する工程を含む。電子顕微鏡を用いてフィルム上の分子を撮像して、重原子マーカーの箇所を決定し、かつDNAからの塩基配列情報を抽出する。該方法は、PCT特許公報WO 2009/046445にさらに記載されている。該方法は、10分間未満で完全ヒトゲノムをシーケンシングすることを可能にする。
別の態様において、DNAシーケンシング技術は、Ion Torrentの単分子シーケンシングであり、それは、半導体技術と単純シーケンシング化学とを合わせて、化学的にコードされた情報(A、C、G、T)をデジタル情報(0、1)に半導体チップ上で直接翻訳する。本来、ポリメラーゼによってヌクレオチドがDNAの鎖に組み入れられる場合、水素イオンが副産物として放出される。Ion Torrentは、微細機械加工されたウェルの高密度アレイを用いて、超並列様態でこの生化学的過程を実施する。各ウェルは、異なるDNAを持つ。ウェルの下にイオン感受性層があり、その下にイオンセンサーがある。ヌクレオチド、例えばCがDNA鋳型に付加し、次いでDNAの鎖に組み入れられる場合、水素イオンが放出される。そのイオンからの電荷は、溶液のpHを変化させ、それがIon Torrentのイオンセンサーによって検出され得る。本質的に世界最小の固体pHメーターであるシーケンサーは、塩基を呼び出し、化学的情報からデジタル情報に直接進む。次いで、Ion personal Genome Machine(PGM(商標))シーケンサーは、次から次にチップを1種のヌクレオチドで逐次的に浸水させる。チップを浸水させる次のヌクレオチドが一致しない場合、電圧変化は記録されずかつ塩基は呼び出されない。DNA鎖上に2個の同一塩基が存在する場合、電圧は2倍になり、かつチップは、呼び出された2個の同一塩基を記録する。直接的検出により、数秒でのヌクレオチド組み入れの記録が可能となる。
別の態様において、本方法は、ハイブリダイゼーションによるシーケンシングを用いて、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNAについての配列情報を獲得する工程を含む。ハイブリダイゼーションによるシーケンシングは、複数のポリヌクレオチド配列と複数のポリヌクレオチドプローブとを接触させる工程を含み、該複数のポリヌクレオチドプローブのそれぞれは、任意で基板に係留され得る。基板は、公知のヌクレオチド配列を含む平面であり得る。アレイへのハイブリダイゼーションのパターンを用いて、サンプル中に存在しているポリヌクレオチド配列を決定することができる。他の態様において、各プローブはビーズ、例えば磁気ビーズなどに係留される。ビーズへのハイブリダイゼーションを判定しかつ用いて、サンプル内の複数のポリヌクレオチド配列を同定することができる。
別の態様において、本方法は、Illuminaの合成によるシーケンシングおよび可逆的ターミネーターに基づくシーケンシング化学(例えば、Bentley et al., Nature 6:53-59 [2009]に記載されている)を用いた、数百万個のDNAフラグメントの超並列シーケンシングによって、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNAについての配列情報を獲得する工程を含む。鋳型DNAはゲノムDNA、例えばcfDNAであり得る。いくつかの態様において、単離された細胞由来のゲノムDNAを鋳型として用い、かつそれを、数百個の塩基対の長さにフラグメント化する。他の態様において、cfDNAを鋳型として用い、cfDNAは短いフラグメントとして存在するため、フラグメント化は必要とされない。例えば、胎児cfDNAは、長さがおよそ170塩基対(bp)のフラグメントとして血流中を循環しており(Fan et al., Clin Chem 56:1279-1286 [2010])、シーケンシング前にDNAのフラグメント化は必要とされない。Illuminaのシーケンシング技術は、オリゴヌクレオチドアンカーが結合している平らな光透過性表面への、フラグメント化されたゲノムDNAの接着に依存する。鋳型DNAを末端修復して5'リン酸化平滑末端を生成し、かつKlenowフラグメントのポリメラーゼ活性を用いて、平滑のリン酸化DNAフラグメントの3'末端に単一A塩基を付加する。この付加により、それらの3'末端に単一T塩基の突出を有してライゲーション効率を増加させる、オリゴヌクレオチドアダプターへのライゲーションのためのDNAフラグメントが調製される。アダプターオリゴヌクレオチドは、フローセルアンカーに相補的である。限界希釈条件下で、アダプター修飾された一本鎖鋳型DNAは、フローセルに添加されかつハイブリダイゼーションによってアンカーに固定される。接着したDNAフラグメントは伸長されかつブリッジ増幅されて、それぞれが約1,000コピーの同じ鋳型を含有する何億個ものクラスターを有する超高密度シーケンシングフローセルを創出する。一態様において、無作為にフラグメント化されたゲノムDNA、例えばcfDNAを、それがクラスター増幅に供される前に、PCRを用いて増幅する。代替的に、増幅なしのゲノムライブラリー調製を用い、かつ無作為にフラグメント化されたゲノムDNA、例えばcfDNAを、クラスター増幅のみを用いて富化する(Kozarewa et al., Nature Methods 6:291-295 [2009])。除去可能な蛍光色素を有する可逆的ターミネーターを採用する、堅牢な4色DNAの合成によるシーケンシング技術を用いて、鋳型をシーケンシングする。高感度の蛍光検出は、レーザー励起および内部全反射光学を用いて達成される。約20〜40bp、例えば36bpの短い配列読み取りを、反復マスキングされた参照ゲノムに対してアラインメントし、かつ参照ゲノムへの短い配列読み取りの一意的マッピングを、特別に開発されたデータ解析パイプラインソフトウェアを用いて同定する。反復マスキングされていない参照ゲノムも用いることができる。反復マスキングされたまたは反復マスキングされていない参照ゲノムを用いるかどうかにかかわらず、参照ゲノムに一意的にマッピングする読み取りのみが計数される。第1の読み取りの完了後、鋳型をインサイチューで再生して、フラグメントの反対末端からの第2の読み取りを可能にすることができる。ゆえに、DNAフラグメントの単一末端または対合末端シーケンシングのいずれかを用いることができる。サンプル中に存在しているDNAフラグメントの部分的シーケンシングを実施し、かつ事前に規定された長さ、例えば36bpの読み取りを含む配列タグを、公知の参照ゲノムにマッピングし、計数する。一態様において、参照ゲノム配列はNCBI36/hg18配列であり、それは、ワールド・ワイド・ウェブでgenome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105にて入手可能である。代替的に、参照ゲノム配列はGRCh37/hg19であり、それは、ワールド・ワイド・ウェブでgenome.ucsc.edu/cgi-bin/hgGatewayにて入手可能である。公的配列情報の他の供給源には、GenBank、dbEST、dbSTS、EMBL(欧州分子生物学研究所(European Molecular Biology Laboratory))、およびDDBJ(日本DNAデータバンク(DNA Databank of Japan))が含まれる。BLAST(Altschul et al., 1990)、BLITZ(MPsrch)(Sturrock & Collins, 1993)、FASTA(Person & Lipman, 1988)、BOWTIE(Langmead et al., Genome Biology 10:R25.1-R25.10 [2009])、またはELAND(Illumina, Inc., San Diego, CA, USA)を含むがそれらに限定されない、配列をアラインメントするためのいくつかのコンピューターアルゴリズムが利用可能である。一態様において、血漿cfDNA分子のクローン的に拡大したコピーの一方の末端をシーケンシングし、かつヌクレオチドデータベースの効率的大規模アラインメント(Efficient Large-Scale Alignment of Nucleotide Databases)(ELAND)ソフトウェアを用いる、Illumina Genome Analyzer用のバイオインフォマティクスアラインメント解析によって処理する。
本明細書において記載される方法のいくつかの態様において、マッピングされた配列タグは、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、または約500bpの配列読み取りを含む。技術的進歩により、500bpよりも大きな単一末端の読み取りが可能となり、対合末端の読み取りが生成される場合には、約1000bpよりも大きな読み取りが可能となることが予想される。一態様において、マッピングされた配列読み取りは、36bpである配列読み取りを含む。配列タグのマッピングは、タグの配列と参照の配列とを比較して、シーケンシングされた核酸(例えば、cfDNA)分子の染色体起源を決定することによって達成され、具体的な遺伝子配列情報は必要とされない。参照ゲノムと混合サンプル中のゲノムとの間に存在し得る微量の多型を説明する、わずかな程度のミスマッチ(1個の配列タグあたり0〜2個のミスマッチ)は許され得る。
典型的に、1個のサンプルあたり複数の配列タグが獲得される。いくつかの態様において、1個のサンプルあたり、読み取りを参照ゲノムにマッピングすることにより、20〜40bpの読み取り、例えば36bpを含む、少なくとも約3×106個の配列タグ、少なくとも約5×106個の配列タグ、少なくとも約8×106個の配列タグ、少なくとも約10×106個の配列タグ、少なくとも約15×106個の配列タグ、少なくとも約20×106個の配列タグ、少なくとも約30×106個の配列タグ、少なくとも約40×106個の配列タグ、または少なくとも約50×106個の配列タグが獲得される。一態様において、すべての配列読み取りを、参照ゲノムのすべての領域にマッピングする。一態様において、参照ゲノムのすべての領域、例えばすべての染色体にマッピングされたタグを計数し、かつ混合DNAサンプルにおける関心対象の配列、例えば染色体またはその一部分のCNV、すなわち過剰または過少な構成を判定する。方法は、2種のゲノム間の識別を必要としない。
CNV、例えば異数性がサンプル中に存在しているまたは存在していないかどうかを正しく判定するために必要とされる精度は、シーケンシングラン内のサンプル間での、参照ゲノムにマッピングする配列タグの数の変動(染色体間の変動性)、および異なるシーケンシングランにおける、参照ゲノムにマッピングする配列タグの数の変動(シーケンシング間の変動性)に基礎を置いている。例えば、変動は、GCに富んだまたはGCが乏しい参照配列にマッピングするタグに関してとくに顕著であり得る。他の変動は、核酸の抽出および精製、シーケンシングライブラリーの調製、ならびに異なるシーケンシングプラットフォームの使用に対して、異なるプロトコールを用いることにより生じる。本方法は、正規化配列(正規化染色体配列または正規化セグメント配列)についての知識に基づく配列量(染色体量またはセグメント量)を用いて、染色体間(ラン内)およびシーケンシング間(ラン間)から生じる発生した変動、ならびにプラットフォーム依存的な変動を本質的に説明する。染色体量は、単一染色体から、または第1〜22、X、およびY染色体より選択される2種もしくはそれを上回る種類の染色体から構成され得る、正規化染色体配列についての知識に基づく。代替的に、正規化染色体配列は、単一染色体セグメントから、あるいは1種の染色体または2種もしくはそれを上回る種類の染色体の2つまたはそれを上回る数のセグメントから構成され得る。セグメント量は、いずれか1種の染色体の単一セグメントから、または第1〜22、X、およびY染色体のうちのいずれか2種もしくはそれを上回る種類の2つもしくはそれを上回る数のセグメントから構成され得る、正規化セグメント配列についての知識に基づく。
CNVおよび出生前診断
母体血中を循環している細胞フリーの胎児DNAおよびRNAを、妊娠管理のためにおよび生殖意思決定を支援するための両方に対して、増加する数の遺伝的状態についての早期の非侵襲的出生前診断(NIPD)に用いることができる。血流中を循環している細胞フリーDNAの存在は、50年間以上にわたって知られてきた。より近年には、少量の循環胎児DNAの存在が、妊娠中の母体血流中で発見された(Lo et al., Lancet 350:485-487 [1997])。死にゆく胎盤細胞に起因すると考えられ、細胞フリー胎児DNA(cfDNA)は、妊娠4週には早くも見分けられ得る(Illanes et al., Early Human Dev 83:563-566 [2007])典型的に長さが200bpよりも少ない短いフラグメントからなることが示されており(Chan et al., Clin Chem 50:88-92 [2004])、かつ分娩の数時間以内に母体循環から一掃されることが知られている(Lo et al., Am J Hum Genet 64:218-224 [1999])。cfDNAに加えて、胎児または胎盤において転写される遺伝子に起因する、細胞フリー胎児RNA(cfRNA)のフラグメントも母体血流中で見分けることができる。母体血液サンプル由来のこれらの胎児遺伝子要素の抽出および後続の解析は、NIPDに新規な機会を与える。
本方法は、NIPDにおける使用のための、かつ胎児異数性についての判定を可能にするのに胎児cfDNAが母体cfDNAと区別されることを必要としない、多型独立的方法である。いくつかの態様において、異数性は、完全染色体トリソミーもしくはモノソミー、または部分的トリソミーもしくはモノソミーである。部分的異数性は、染色体の一部の損失または増大によって引き起こされ、不平衡転座、不平衡逆位、欠失、および挿入により生じる染色体不平衡を包含する。群を抜いて、生命と共生可能である最もよく知られる異数性は、第21染色体の一部またはすべての存在によって引き起こされるトリソミー21、すなわちダウン症候群(DS)である。稀に、DSは、第21染色体のすべてまたは一部の余分なコピーが別の染色体(通常、第14染色体)に接着して単一の異常な染色体を形成する、遺伝性または孤発性の欠陥によって引き起こされ得る。DSは、知的障害、重度の学習困難、および心疾患などの長期の健康問題によって引き起こされる超死亡率と関連している。公知の臨床的意義を有する他の異数性には、エドワーズ(Edward)症候群(トリソミー18)およびパトー症候群(トリソミー13)が含まれ、それらは、生後初めの数ヶ月以内に高頻度で死に至る。性染色体の数と関連した異常も公知であり、雌性出生におけるモノソミーX、例えばターナー症候群(XO)、およびトリプルX症候群(XXX)、ならびに雄性出生におけるクラインフェルター(Kleinefelter)症候群(XXY)およびXYY症候群が含まれ、それらはすべて、不妊症および知的技能の低減を含めた様々な表現型と関連している。モノソミーX[45,X]は、自然流産の約7%を占める早期妊娠損失の一般的原因である。1〜2/10,000という45,X(ターナー症候群とも呼ばれる)の生産頻度に基づくと、45,X受胎の1%未満が期日まで生存すると推定される。ターナー症候群患者の約30%は、45,X細胞系列と、46,XX細胞系列または再編成されたX染色体を含有するもののいずれかとのモザイクである(HookおよびWarburton 1983)。高い胚性致死性を考慮すると、生産児における表現型は比較的軽度であり、ターナー症候群を有するおそらくすべての雌性生産児は、2つの性染色体を含有する細胞系列を保持するという仮説が立てられている。モノソミーXは、雌において45,Xまたは45,X/46XXとして、雄において45,X/46XYとして生じ得る。ヒトにおける常染色体モノソミーは、生命と共生不能であると一般的に示唆されているが、しかしながら、生産児における1本の第21染色体の完全モノソミーを記載している相当な数の細胞遺伝学的報告が存在する(Vosranova et al., Molecular Cytogen. 1:13 [2008];Joosten et al., Prenatal Diagn. 17:271-5 [1997])。本明細書において記載される方法を用いて、これらおよび他の染色体異常を出生前に診断することができる。
いくつかの態様に従って、本明細書において開示される方法は、第1〜22、X、およびY染色体のうちのいずれか1つの染色体トリソミーの有無を判定することができる。本方法に従って検出され得る染色体トリソミーの例には、トリソミー21(T21;ダウン症候群)、トリソミー18(T18;エドワーズ症候群)、トリソミー16(T16)、トリソミー20(T20)、トリソミー22(T22;ネコ眼症候群)、トリソミー15(T15;プラダー・ウィリー症候群)、トリソミー13(T13;パトー症候群)、トリソミー8(T8;Warkany症候群)、トリソミー9、およびXXY(クラインフェルター症候群)、XYY、またはXXXトリソミーが含まれるが、それらに限定されるわけではない。非モザイク状態で存在する他の常染色体の完全トリソミーは致死性であるが、モザイク状態で存在している場合、生命と共生可能であり得る。モザイクまたは非モザイク状態で存在するかどうかにかかわらない様々な完全トリソミー、および部分的トリソミーを、本明細書において提供される教示に従って、胎児cfDNAにおいて判定することができる。
本方法によって判定され得る部分的トリソミーの非限定的な例には、部分的トリソミー1q32-44、トリソミー9p、トリソミー4モザイク、トリソミー17p、部分的トリソミー4q26-qter、部分的2pトリソミー、部分的トリソミー1q、および/または部分的トリソミー6p/モノソミー6qが含まれるが、それらに限定されるわけではない。
本明細書において開示される方法を用いて、妊娠流産に関与することが知られる、染色体モノソミーX、染色体モノソミー21、ならびにモノソミー13、モノソミー15、モノソミー16、モノソミー21、およびモノソミー22などの部分的モノソミーも判定することができる。完全異数性に典型的に関与する染色体の部分的モノソミーも、本明細書において記載される方法によって判定することができる。本方法に従って判定され得る欠失症候群の非限定的な例には、染色体の部分的欠失によって引き起こされる症候群が含まれる。本明細書において記載される方法に従って判定され得る部分的欠失の例には、以下に記載される、第1、第4、第5、第7、第11、第18、第15、第13、第17、第22、および第10染色体の部分的欠失が含まれるが、それらに限定されるわけではない。
1q21.1欠失症候群または1q21.1(再発性)微小欠失は、第1染色体の稀な異常である。欠失症候群とは別に、1q21.1重複症候群も存在する。特定の地点に欠失症候群に関するDNA欠損の部分が存在する一方で、重複症候群に関しては同じ地点にDNAの同様の部分の2つまたは3つのコピーが存在する。文献は、1q21.1コピー数変異(CNV)として、欠失および重複の両方を言及している。1q21.1欠失は、TAR症候群(橈骨欠損症を伴う血小板減少症)と関連し得る。
ウォルフ・ヒルシュホーン症候群(WHS)(OMIN #194190)は、染色体4p16.3の半接合欠失と関連した連続的遺伝子欠失症候群である。ウォルフ・ヒルシュホーン症候群は、出生前または出生後の発育不全、様々な程度の発達障害、特徴的な頭蓋顔貌(鼻、広い額、***した眉間、隔離症、高いアーチ形の眉、突き出した目、内眼角贅皮、短い人中、下向きの口角を有する独特な口、および小顎症という「ギリシャ戦士ヘルメット」の外見)、ならびに発作性障害を特徴とする先天性奇形症候群である。
5p−または5pマイナスとしても知られかつネコ鳴き(Cris du Chat)症候群(OMIN #123450)と呼ばれる、第5染色体の部分的欠失は、第5染色体の短腕(p腕)(5p15.3-p15.2)の欠失によって引き起こされる。この病状を有する幼児は、しばしば、ネコのもののように聞こえる高い調子の鳴き声を有する。該障害は、知的障害および発達の遅れ、小さな頭のサイズ(小頭症)、低出生体重、ならびに幼児期の弱い筋緊張(低緊張症)、独特な顔貌、ならびに場合により心臓欠陥を特徴とする。
染色体7q11.23欠失症候群(OMIN 194050)としても知られるウィリアム・ボイレン症候群は、およそ28個の遺伝子を含有する、染色体7q11.23上の1.5〜1.8Mbの半接合欠失によって引き起こされる多系統障害をもたらす連続的遺伝子欠失症候群である。
11q欠失障害としても知られるヤコブセン症候群は、バンド11q24.1を含む、第11染色体の末端領域の欠失により生じる稀な先天性障害である。それは、知的障害、独特な顔貌、ならびに心臓欠陥および出血性障害を含めた多様な身体的問題を引き起こし得る。
モノソミー18pとして知られる第18染色体の部分的モノソミーは、第18染色体の短腕(p)のすべてまたは一部が欠失してる(一染色体性の)稀な染色体障害である。該障害は、典型的に、低身長、様々な程度の精神遅滞、発話遅延、頭蓋骨および顔面(頭蓋顔面)領域の奇形、ならびに/またはさらなる身体的異常を特徴とする。関連した頭蓋顔面欠陥は、症例ごとに範囲および重症度が大幅に変動し得る。
第15染色体の構造またはコピーの数の変化によって引き起こされる病状には、アンジェルマン症候群およびプラダー・ウィリー症候群が含まれ、それらは、第15染色体の同じ部分である15q11-q13領域における遺伝子活性の損失を伴う。いくらかの転座および微小欠失は、キャリアの親において無症候性であり得るが、子孫においては大きな遺伝子疾患を引き起こし得ると解される。例えば、15q11-q13微小欠失を保持する健常な母親は、重度の神経変性障害であるアンジェルマン症候群を有する子どもを出産し得る。ゆえに、本明細書において記載される方法、機器、およびシステムを用いて、胎児におけるそのような部分的欠失および他の欠失を同定することができる。
部分的トリソミー13qは、第13染色体の長腕(q)の一片が欠損している(一染色体性の)場合に生じる稀な染色体障害である。部分的モノソミー13qを有して生まれた幼児は、低出生体重、頭部および顔面(頭蓋顔面領域)の奇形、(とりわけ、手および足の)骨格異常、ならびに他の身体的異常を呈し得る。精神遅滞は、この病状の特徴である。幼児期の間の死亡率は、この障害を有して生まれた個体の間で高い。部分的モノソミー13qのほぼすべての症例は、明白な理由なし(孤発性)で無作為に起こる。
スミス・マゲニス症候群(SMS−OMIM #182290)は、1コピーの第17染色体上の欠失、つまり遺伝物質の欠失によって引き起こされる。この周知の症候群は、発達遅延、精神遅滞、心臓および腎臓の欠陥などの先天性異常、ならびに重度の睡眠障害および自傷行為などの神経行動学的異常と関連している。スミス・マゲニス症候群(SMS)は、ほとんどの症例(90%)で染色体17p11.2における3.7Mbの中間部欠失によって引き起こされる。
ディジョージ症候群としても知られる22q11.2欠失症候群は、第22染色体の小片の欠失によって引き起こされる症候群である。欠失(22q11.2)は、染色体のペアの一方の長腕上の染色体の中央付近で起こる。この症候群の特質は、同じ家族のメンバーの間でさえ大きく変動し、かつ身体の多くの部分に影響を及ぼす。特徴的な兆候および症候には、先天性心疾患などの出生時欠陥、口蓋における欠陥、閉鎖に関する神経筋問題に最も一般的に関係するもの(口蓋帆咽頭不全)、学習障害、顔貌の軽度の差異、ならびに再発性感染症が含まれ得る。染色体領域22q11.2における微小欠失は、統合失調症の20〜30倍のリスクの増加と関連している。
第10染色体の短腕上の欠失は、ディジョージ症候群様表現型と関連している。染色体10pの部分的モノソミーは稀であるが、ディジョージ症候群の特質を示す患者の一部分で観察されている。
一態様において、本明細書において記載される方法、機器、およびシステムを用いて、第1、第4、第5、第7、第11、第18、第15、第13、第17、第22、および第10染色体の部分的モノソミー、例えば部分的モノソミー1q21.11、部分的モノソミー4p16.3、部分的モノソミー5p15.3-p15.2、部分的モノソミー7q11.23、部分的モノソミー11q24.1、部分的モノソミー18p、第15染色体の部分的モノソミー(15q11-q13)、部分的モノソミー13q、部分的モノソミー17p11.2、第22染色体の部分的モノソミー(22q11.2)、および部分的モノソミー10pを含むがそれらに限定されない、部分的モノソミーを判定する。
本明細書において記載される方法に従って判定され得る他の部分的モノソミーには、不平衡転座t(8;11)(p23.2;p15.5);11q23微小欠失;17p11.2欠失;22q13.3欠失;Xp22.3微小欠失;10p14欠失;20p微小欠失、[del(22)(q11.2q11.23)]、7q11.23および7q36欠失;1p36欠失;2p微小欠失;神経線維腫症タイプ1(17q11.2微小欠失)、Yq欠失;4p16.3微小欠失;1p36.2微小欠失;11q14欠失;19q13.2微小欠失;ルビンスタイン・テイビ(16p13.3微小欠失);7p21微小欠失;ミラー・ディッカー症候群(17p13.3);ならびに2q37微小欠失が含まれる。部分的欠失は染色体の一部の小さな欠失であり得、またはそれらは、単一遺伝子の欠失が起こり得る染色体の微小欠失であり得る。
染色体腕の一部の重複によって引き起こされるいくつかの重複症候群が同定されている(OMIN [ncbi.nlm.nih.gov/omimにてオンラインで閲覧されるOnline Mendelian Inheritance in Man]を参照されたい)。一態様において、本方法を用いて、第1〜22、X、およびY染色体のうちのいずれか1つのセグメントの重複および/または増倍の有無を判定することができる。本方法に従って判定され得る重複症候群の非限定的な例には、以下に記載される、第8、第15、第12、および第17染色体の一部の重複が含まれる。
8p23.1重複症候群は、ヒト第8染色体由来の領域の重複によって引き起こされる稀な遺伝的障害である。この重複症候群は、64,000回の出生のうちの1回という推定有病率を有し、8p23.1欠失症候群と相互的である。8p23.1重複は、発語遅延、発達遅延、***した額およびアーチ形の眉を有する軽度の異形症、ならびに先天性心疾患(CHD)のうちの1つまたは複数を含む様々な表現型と関連している。
染色体15q重複症候群(Dup15q)は、染色体15q11-13.1の重複により生じる臨床的に特定可能な症候群である。Dup15q有する赤ん坊は、通常、低緊張症(乏しい筋緊張)、発育遅滞を有し;彼らは、***裂および/もしくは口蓋裂、または心臓、腎臓、もしくは他の臓器の奇形を有して生まれ得;彼らは、ある程度の認知遅延/障害(精神遅滞)、発語および言語遅延、ならびに感覚処理障害を示す。
パリスター・キリアン症候群は、余分な第12染色体物質の結果である。通常、一部は余分な第12物質を有しかつ一部は正常である(余分な第12物質を有しない46本の染色体)、細胞の混合物(モザイク)が存在する。この症候群を有する赤ん坊は、重度の精神遅滞、乏しい筋緊張、「粗野な」顔貌、および***した額を含めた多くの問題を有する。彼らは、より厚い下唇とともに非常に薄い上唇、および低い鼻を有する傾向がある。他の健康問題には、発作、乏しい食欲、硬直した関節、成人期における白内障、聴力損失、および心臓欠陥が含まれる。パリスター・キリアンを有する人間は、短縮した寿命を有する。
dup(17)(p11.2p11.2)またはdup17pと称される遺伝的病状を有する個体は、第17染色体の短腕上に余分な遺伝情報(重複として知られる)を保持する。染色体17p11.2の重複は、医学文献において数十の症例しか報告されていない新たに認められた遺伝的病状である、ポトツキー・ルプスキー(Potocki-Lupski)症候群(PTLS)の根底にある。この重複を有する患者は、低い筋緊張、乏しい食欲、および幼児期の間の成長不良をしばしば有し、かつ運動および言葉の主要管理点(milestone)の発達の遅延も提示する。PTLSを有する多くの個体は、明瞭な発音および言語処理の困難を有する。加えて、患者は、自閉症または自閉症スペクトラム障害を有する人間に見られるものと同様の行動特徴を有し得る。PTLSを有する個体は、心臓欠陥および睡眠時無呼吸を有し得る。PMP22遺伝子を含む染色体17p12における大きな領域の重複は、シャルコー・マリー・トゥース病を引き起こすことが知られている。
CNVは死産と関連付けされている。しかしながら、従来的な細胞遺伝学の固有の制約により、CNVの死産への寄与は、過少に表現されていると考えられる(Harris et al., Prenatal Diagn 31:932-944 [2011])。実施例に示されかつ本明細書における他の箇所で記載されるように、本方法は、部分的異数性、例えば染色体セグメントの欠失および増倍の存在を判定し得、そして死産に関連しているCNVの有無を同定しかつ判定するために用いられ得る。
CNVを判定するための機器およびシステム
シーケンシングデータの解析およびそこから導き出される診断は、典型的に、様々なコンピューター実行アルゴリズムおよびプログラムを用いて実施される。したがって、ある特定の態様は、1つもしくは複数のコンピューターシステムまたは他の処理システムに保存されたまたはそこから移されたデータを伴う過程を採用する。本明細書において開示される態様は、これらの作業を実施するための機器にも関する。この機器は、必要とされる目的のために特別に構築され得、またはそれは、コンピュータープログラムおよび/もしくはコンピューターに保存されたデータ構造によって選択的に活性化されたもしくは再構成された汎用コンピューター(もしくはコンピューターの群)であり得る。いくつかの態様において、プロセッサーの群は、列挙された解析作業のいくつかまたはすべてを協調的に(例えば、ネットワークまたはクラウドコンピューティングを介して)かつ/または並列に実施する。本明細書において記載される方法を実施するためのプロセッサーまたはプロセッサーの群は、プログラマブル装置(例えば、CPLDおよびFPGA)、およびゲートアレイASICなどの非プログラマブル装置、または汎用マイクロプロセッサーなど、マイクロコントローラーおよびマイクロプロセッサーを含めた様々なタイプのものであり得る。
加えて、ある特定の態様は、様々なコンピューター実践作業を実施するためのプログラムおよび/またはデータ(データ構造を含む)を含む、有形のかつ/もしくは非一時的なコンピューター可読媒体またはコンピュータープログラム製品に関する。コンピューター可読媒体の例には、半導体メモリー装置、ディスクドライブ、磁気テープなどの磁気媒体、CDなどの光学式媒体、光磁気媒体、ならびに読み取り専用メモリー装置(ROM)およびランダムアクセスメモリー(RAM)など、プログラム命令を保存しかつ実施するために特別に構成されているハードウェア装置が含まれるが、それらに限定されるわけではない。コンピューター可読媒体はエンドユーザーによって直接制御され得、または媒体はエンドユーザーによって間接的に制御され得る。直接制御される媒体の例には、ユーザー機能(facility)に位置する媒体、および/または他の実体と共有されていない媒体が含まれる。間接的に制御される媒体の例には、外部ネットワークを介しておよび/または「クラウド」などのサービス提供共有リソースを介して、ユーザーにとって間接的にアクセス可能である媒体が含まれる。プログラム命令の例には、コンパイラーによって作り出されるような機械コード、およびインタープリターを用いたコンピューターによって実行され得るより高レベルなコードを含有するファイルの両方が含まれる。
様々な態様において、開示される方法および機器において採用されるデータまたは情報は、電子形式で提供される。そのようなデータまたは情報には、核酸サンプルに由来する読み取りおよびタグ、参照配列の特定の領域とアラインメントする(例えば、染色体または染色体セグメントにアラインメントする)そのようなタグの計数または密度、参照配列(唯一または主に多型を提供する参照配列を含む)、染色体量およびセグメント量、異数性コールなどのコール、正規化された染色体値およびセグメント値、染色体またはセグメントのペアおよび対応する正規化染色体または正規化セグメント、カウンセリング勧告、診断などが含まれ得る。本明細書において使用するとき、電子形式で提供されるデータまたは他の情報は、機械上での保存および機械間での伝送に利用可能である。従来的に、電子形式のデータはデジタル的に提供され、かつ様々なデータ構造、リスト、データベースなどでビットおよび/またはバイトとして保存され得る。データは、電子的に、光学的になど具体化され得る。
一態様は、検査サンプルにおける異数性、例えば胎児異数性、または癌の有無を示すアウトプットを生成するためのコンピュータープログラム製品を提供する。コンピューター製品は、染色体異常を判定するための上記方法のいずれか1つまたは複数を実施するための命令を含有し得る。説明されているように、コンピューター製品には、染色体量、およびある場合には、胎児異数性が存在しているまたは存在していないかどうかをプロセッサーが判定するのを可能にするための、そこに記録されたコンピューター実行可能なまたはコンパイル可能な論理回路(例えば、命令)を有する非一時的なかつ/または有形のコンピューター可読媒体が含まれ得る。一例において、コンピューター製品は、母体生物学的サンプル由来の核酸分子の少なくとも一部分からシーケンシングデータを受信するための受信手順であって、該シーケンシングデータは、算出された染色体量および/またはセグメント量を含む;受信したデータから胎児異数性を解析するためのコンピューター支援論理回路;ならびに胎児異数性の存在、非存在、または種類を示すアウトプットを生成するためのアウトプット手順を含む、プロセッサーが胎児異数性を診断するのを可能にするための、そこに記録されたコンピューター実行可能なまたはコンパイル可能な論理回路(例えば、命令)を有するコンピューター可読媒体を含む。
検討中のサンプルからの配列情報を染色体参照配列にマッピングして、関心対象のいずれか1種または複数種の染色体のそれぞれに対する配列タグの数を同定し得、かつ関心対象のいずれか1種または複数種の染色体のそれぞれに対する正規化セグメント配列に対する配列タグの数を同定し得る。様々な態様において、参照配列は、例えば関係データベースまたはオブジェクトデータベースなどのデータベースに保存される。
支援のない人間が、本明細書において開示される方法の計算作業を実施するのは現実的でない、またはほとんどの場合には可能でさえないことが理解されるべきである。例えば、計算機器の支援なしで、ヒト染色体のいずれか1つに、サンプルからの単一の30bp読み取りをマッピングすることは、数年間の労力を要するであろう。当然、確実な異数性コールは、一般的に、数千個の(例えば、少なくとも約10,000個)またはさらに数百万個の読み取りを1種または複数種の染色体にマッピングすることを要するため、問題は悪化する。
本明細書において開示される方法は、検査サンプルにおける関心対象の遺伝子配列のコピー数についての評価のためのシステムを用いて実施され得る。システムは、(a)サンプルからの核酸配列情報を提供する、検査サンプル由来の核酸を受け取るためのシーケンサー;(b)プロセッサー;および(c)任意のCNV、例えば染色体異数性または部分的異数性を同定するための方法を行う、該プロセッサーへの実行のための命令をそこに保存している1つまたは複数のコンピューター可読記憶媒体、を含む。
いくつかの態様において、方法は、任意のCNV、例えば染色体異数性または部分的異数性を同定するための方法を行うためのコンピューター可読命令をそこに保存しているコンピューター可読媒体によって命令される。ゆえに、一態様は、コンピューターシステムの1つまたは複数のプロセッサーによって実行される場合、胎児および母体の細胞フリー核酸を含む検査サンプルにおける関心対象の配列のコピー数についての評価のための方法を該コンピューターシステムに実践させる、コンピューター実行可能な命令をそこに保存している1つまたは複数の非一時的なコンピューター可読記憶媒体を含むコンピュータープログラム製品を提供する。方法は、(a)検査サンプルの配列読み取りを提供する工程;(b)検査サンプルの配列読み取りを、関心対象の配列を含む参照ゲノムにアラインメントし、それによって検査配列タグを提供する工程;(c)各ビンに位置する検査配列タグの被覆率を決定する工程であって、参照ゲノムが複数のビンに分割されている工程;(d)関心対象の配列に対して全体プロファイルを提供する工程であって、該全体プロファイルは、各ビンにおける予想被覆率を含み、かつ該予想被覆率は、検査サンプルと実質的に同じ様式でシーケンシングされかつアラインメントされた、影響なしのトレーニングサンプルのトレーニングセットから獲得され、該予想被覆率はビンごとに変動を呈する工程;(e)各ビンにおける予想被覆率に従って、検査配列タグの被覆率を調整し、それによって検査配列タグの各ビンにおける全体プロファイル補正被覆率を獲得する工程;(f)検査配列タグのビンに関するGC含有量レベルと全体プロファイル補正被覆率との間の関係に基づき、全体プロファイル補正被覆率を調整し、それによって関心対象の配列上の検査配列タグのサンプルGC補正被覆率を獲得する工程;および(g)サンプルGC補正被覆率に基づき、検査サンプルにおける関心対象の配列のコピー数を評価する工程、を含む。いくつかの態様において、工程(c)において決定される被覆率を正規化する。正規化は、ロバストな染色体にマッピングする読み取りの総数で被覆率を割る工程、またはそれから被覆率をモデル化する工程を伴い得る(ライブラリー深度の正規化とも呼ばれることもある)。
いくつかの態様において、命令は、母体検査サンプルを提供するヒト対象についての患者医療記録に、染色体量および胎児染色体異数性の有無など、方法に関する情報を自動的に記録する工程をさらに含み得る。患者医療記録は、例えば実験室、診療所、病院、健康維持機構、保険会社、または個人医療記録ウェブサイトによって維持され得る。さらに、プロセッサーにより実践された解析の結果に基づき、方法は、母体検査サンプルが採取されたヒト対象の治療を処方する、開始する、および/または変更する工程をさらに伴い得る。これは、対象から採取された付加的サンプルに対する1つまたは複数の付加的検査または解析を実施する工程を伴い得る。
開示される方法は、任意のCNV、例えば染色体異数性または部分的異数性を同定するための方法を実施するように適応したまたは構成されたコンピューター処理システムを用いても実施され得る。一態様は、本明細書において記載される方法を実施するように適応したまたは構成されたコンピューター処理システムを提供する。一態様において、機器は、本明細書における他の箇所で記載される、配列情報のタイプを獲得するように、サンプルにおける核酸分子の少なくとも一部分をシーケンシングするために適応したまたは構成されたシーケンシング装置を含む。機器は、サンプルを処理するための構成要素も含み得る。そのような構成要素は、本明細書における他の箇所で記載されている。
配列または他のデータをコンピューターにインプットし得、またはコンピューター可読媒体に直接的または間接的に保存し得る。一態様において、コンピューターシステムを、サンプル由来の核酸の配列を読み取りかつ/または解析するシーケンシング装置に直接連結する。そのようなツールからの配列または他の情報は、コンピューターシステムにおけるインターフェースを介して提供される。代替的に、システムによって処理された配列は、データベースまたは他のリポジトリーなどの配列保存元から提供される。処理機器がいったん利用可能になると、メモリー装置または大容量記憶装置は、核酸の配列を少なくとも一時的にバッファリングするまたは保存する。加えて、メモリー装置は、様々な染色体またはゲノムに対するタグ計数などを保存し得る。メモリーは、配列データまたはマッピングされたデータの提示を解析するための様々なルーチンおよび/またはプログラムも保存し得る。そのようなプログラム/ルーチンには、統計解析を実施するためのプログラムなどが含まれ得る。
一例において、ユーザーは、サンプルをシーケンシング機器内に提供する。コンピューターに接続されているシーケンシング機器によって、データは収集されかつ/または解析される。コンピューターのソフトウェアにより、データの収集および/または解析が可能となる。データは保存され得、呈示され得(モニターまたは他の同様の装置を介して)、かつ/または別の場所に送信され得る。コンピューターは、遠隔ユーザー(例えば、医師、科学者、または分析者)によって利用される携帯用装置にデータを伝送するために用いられるインターネットに接続され得る。データを伝送前に保存し得かつ/または解析し得ると理解される。いくつかの態様において、生データが収集され、かつ該データを解析しかつ/または保存する遠隔ユーザーまたは機器に送信される。伝送はインターネットを介して生じ得るが、衛星または他の接続を介しても生じ得る。代替的に、データはコンピューター可読媒体に保存され得、かつ媒体はエンドユーザーに発送され得る(例えば、郵便物を介して)。遠隔ユーザーは、建物、都市、州、国、または大陸を含むがそれらに限定されない、同じまたは異なる地理的場所にあり得る。
いくつかの態様において、方法は、複数のポリヌクレオチド配列に関するデータ(例えば、読み取り、タグ、および/または参照染色体配列)を収集する工程、および該データをコンピューターまたは他のコンピューターシステムに送信する工程も含む。例えば、コンピューターは、実験室備品、例えばサンプル収集機器、ヌクレオチド増幅機器、ヌクレオチドシーケンシング機器、またはハイブリダイゼーション機器に接続され得る。次いで、コンピューターは、実験室装置によって集められた適用可能なデータを収集し得る。データは任意の工程で、例えばリアルタイムで収集される一方で、送信前に、送信中もしくは送信と同時に、または送信後に、コンピューターに保存され得る。データは、コンピューターから取り出され得るコンピューター可読媒体に保存され得る。収集されたまたは保存されたデータは、コンピューターから遠隔地に、例えばローカルネットワーク、またはインターネットなどの広域ネットワークを介して伝送され得る。遠隔地では、下記で記載されるように、様々な作業が、伝送されたデータに対して実施され得る。
本明細書において開示されるシステム、機器、および方法で保存され得、伝送され得、解析され得、かつ/または操作され得る、電子的にフォーマットされたデータのタイプの中には、以下のものがある。
検査サンプルにおける核酸をシーケンシングすることによって得られた読み取り
読み取りを、参照ゲノムまたは他の1種または複数種の参照配列にアラインメントすることによって得られたタグ
参照ゲノムまたは参照配列
配列タグ密度−参照ゲノムまたは他の参照配列の2つまたはそれを上回る数の領域(典型的には、染色体または染色体セグメント)のそれぞれに対するタグの計数または数
関心対象の特定の染色体または染色体セグメントに対する正規化染色体または正規化染色体セグメントの素性
関心対象の染色体またはセグメント、および対応する正規化染色体または正規化セグメントから得られた、染色体または染色体セグメント(または他の領域)に対する量
影響あり、影響なし、またはコールなしのいずれかとして、染色体量をコールするための閾値
染色体量の実際のコール
診断(コールと関連した臨床的病状)
コールおよび/または診断から導き出されたさらなる検査の勧告
コールおよび/または診断から導き出された治療および/またはモニタリング計画
これらの様々なタイプのデータは、個別の機器を用いて、1つまたは複数の場所で獲得され得、保存され得、伝送され得、解析され得、かつ/または操作され得る。処理の選択肢は、広域スペクトルに及ぶ。スペクトルの一末端において、この情報のすべてまたはほとんどは保存され、かつ、検査サンプルが加工される場所、例えば診療所(doctor's office)または他の臨床設定で用いられる。他の端において、サンプルは、1つの場所で獲得され、それは異なる場所で加工されかつ任意でシーケンシングされ、読み取りはアラインメントされ、かつコールは1つまたは複数の異なる場所でなされ、かつ診断、勧告、および/または計画はさらに別の場所で準備される(サンプルが獲得された場所であり得る)。
様々な態様において、読み取りは、シーケンシング機器で生成され、次いで、それらが処理されて異数性コールを生成する遠隔部位に伝送される。この遠隔地において、一例として、読み取りは参照配列にアラインメントされてタグを生成し、それは計数されかつ関心対象の染色体またはセグメントに割り当てられる。また遠隔地において、計数は、関連した正規化染色体または正規化セグメントを用いて量に変換される。なおさらに、遠隔地において、量を用いて、異数性コールが生成される。
個別の場所において採用され得る処理作業の中には、以下のものがある。
サンプル収集
シーケンシング前のサンプル加工
シーケンシング
配列データの解析および異数性コールの導出
診断
患者または健常なケア提供者への診断および/またはコールの報告
さらなる治療、検査、および/またはモニタリングの計画の立案
計画の実行
カウンセリング
本明細書における他の箇所で記載されるように、これらの作業のいずれか1つまたは複数は自動化され得る。典型的に、シーケンシング、ならびに配列データの解析および異数性コールの導出は、コンピューターにより実施される。他の作業は、手動または自動で実施され得る。
サンプル収集が実施され得る場所の例には、診療所(health practitioners' office)、クリニック、患者の自宅(サンプル収集ツールまたはキットが提供される場所)、および医療用移動車両が含まれる。シーケンシング前のサンプル加工が実施され得る場所の例には、診療所、クリニック、患者の自宅(サンプル加工用機器またはキットが提供される場所)、医療用移動車両、および異数性解析提供者の設備が含まれる。シーケンシングが実施され得る場所の例には、診療所、クリニック、診療所、クリニック、患者の自宅(サンプルシーケンシング用機器および/またはキットが提供される場所)、医療用移動車両、および異数性解析提供者の設備が含まれる。シーケンシングが行われる場所には、電子形式のシーケンシングデータ(典型的には、読み取り)を伝送するための特化したネットワーク接続が提供され得る。そのような接続は、有線または無線であり得、かつ、処理サイトへの伝送前に、データが処理され得かつ/または集約され得るサイトにデータを送信するように構成され得る。データ集約機関(aggregator)は、健康維持機構(HMO)などの保健機関によって維持され得る。
解析および/または導出の作業は、前述の場所のいずれかで、または代替的に、計算および/もしくは核酸配列データを解析するサービスに特化したさらなる遠隔部位で実施され得る。そのような場所には、例えば汎用サーバーファームなどのクラスター、異数性解析サービス業の設備などが含まれる。いくつかの態様において、解析を実施するために採用される計算機器は、リースされるまたはレンタルされる。計算リソースは、クラウドとして口語的に知られる処理リソースなど、インターネットアクセス可能なプロセッサーの収集物の一部であり得る。ある場合には、計算は、互いに加入しているまたは加入していない、並列または超並列のプロセッサー群によって実施される。処理は、クラスターコンピューティング、グリッドコンピューティングなどの分散処理を用いて達成され得る。そのような態様において、計算リソース共同体のクラスターまたはグリッドは、一緒に作動する複数のプロセッサーまたはコンピューターから構成される超仮想コンピューターを形成して、本明細書において記載される解析および/または導出を実施する。これらの技術ならびにより従来的なスーパーコンピューターを採用して、本明細書において記載される配列データを処理し得る。それぞれは、プロセッサーまたはコンピューターに依存する並列コンピューティングの形態である。グリッドコンピューティングの場合、これらのプロセッサー(しばしば、コンピューター全体)は、イーサネットなどの従来的ネットワークプロトコールによるネットワーク(プライベート、パブリック、またはインターネット)によって接続される。対照的に、スーパーコンピューターは、ローカル高速コンピューターバスによって接続された多くのプロセッサーを有する。
ある特定の態様において、診断(例えば、胎児はダウン症候群を有する、または患者は特定のタイプの癌を有する)は、解析作業と同じ場所で出される。他の態様において、それは異なる場所で実施される。いくつかの例において、診断の報告は、サンプルが採取された場所で実施されるが、とはいえこれが事実である必要はない。診断が出され得るもしくは報告され得る場所、および/または計画の立案が実施される場所の例には、診療所、クリニック、コンピューターによるアクセス可能なインターネットサイト、およびネットワークへの有線または無線の接続を有する、携帯電話、タブレット、スマートフォンなどの携帯用装置などが含まれる。カウンセリングが実施される場所の例には、診療所、クリニック、コンピューターによるアクセス可能なインターネットサイト、携帯用装置などが含まれる。
いくつかの態様において、サンプル収集、サンプル加工、およびシーケンシングの作業は、第1の場所で実施され、かつ解析および導出の作業は、第2の場所で実施される。しかしながら、ある場合には、サンプル収集は1つの場所(例えば、診療所またはクリニック)で収集され、かつサンプル加工およびシーケンシングは異なる場所で実施され、これは、任意で、解析および導出が行われるのと同じ場所である。
様々な態様において、上記で挙げられた一連の作業は、ユーザー、またはサンプル収集、サンプル加工、および/もしくはシーケンシングを開始する実体によって始動され得る。1つまたは複数のこれらの作業が実行し始めた後、他の作業が自然に続き得る。例えば、シーケンシング作業は、読み取りが自動的に収集されかつ処理機器に送信されることを引き起こし得、それは次いで、しばしば自動的にかつおそらくさらなるユーザーの介入なしで、配列解析および異数性の導出の作業を行う。いくつかの実践において、次いで、この処理作業の結果は、システム構成要素、または医療専門家および/もしくは患者への情報の報告を処理する実体に、おそらく診断としての再フォーマットとともに自動的に送達される。説明されているように、そのような情報は自動的に処理されて、おそらくカウンセリング情報とともに、治療、検査、および/またはモニタリング計画も作り出し得る。ゆえに、早期段階の作業を開始することは、身体的病状に働きかけるのに有用な診断、計画、カウンセリング、および/または他の情報が医療専門家、患者、または他の関係当事者に提供される、端から端までの一連のものを始動し得る。これは、たとえシステム全体の一部が物理的に分離しており、かつおそらく、例えばサンプル用および配列用の機器の場所から離れているとしても達成される。
図5は、検査サンプルからのコールまたは診断を作り出すための分散型システムの一実践を示している。サンプル収集の場所01は、妊娠している雌または推定癌患者などの患者から検査サンプルを獲得するために用いられる。次いで、サンプルは、上記で記載されるように、検査サンプルが加工され得かつシーケンシングされ得る、加工およびシーケンシングの場所03に提供される。場所03は、サンプルを加工するための機器、ならびに加工されたサンプルをシーケンシングするための機器を含む。本明細書における他の箇所で記載されるように、シーケンシングの結果は、典型的に、電子形式で提供される読み取りの収集物であり、かつ、図5における参照番号05によって示される、インターネットなどのネットワークに提供される。
配列データは、解析およびコール作成が実施される遠隔地07に提供される。この場所は、コンピューターまたはプロセッサーなどの1つまたは複数の強力な計算装置を含み得る。場所07における計算リソースが、受信した配列情報から、それらの解析を完了させかつコールを作成した後、コールはネットワーク05に送り返される。いくつかの実践において、場所07ではコールが作成されるだけでなく、関連した診断も作成される。コールおよび/または診断は、図5に図解されているように、次いで、ネットワークにわたって伝送されかつサンプル収集の場所01に返される。説明されているように、これは、コールまたは診断の作成と関連した様々な作業が、様々な場所の間でどのように分割され得るかに関する、多くのバリエーションのうちの単なる1つである。よく見られる1つの変種は、単一の場所で、サンプルの収集および加工、ならびにシーケンシングを提供する工程を伴う。別のバリエーションは、解析およびコール作成と同じ場所で、加工およびシーケンシングを提供する工程を伴う。
図6は、個別の場所で様々な作業を実施するための選択肢に関して詳述している。図6に描かれた最も細かい意味で、以下の作業のそれぞれは、別個の場所で実施される:サンプル収集、サンプル加工、シーケンシング、読み取りアラインメント、コール、診断、ならびに報告および/または計画立案。
これらの作業のいくつかを集約する一態様において、サンプル加工およびシーケンシングは1つの場所で実施され、かつ読み取りアラインメント、コール、および診断は別個の場所で実施される。参照文字Aによって識別される、図6の一部分を参照されたい。図6における文字Bによって識別される別の実践において、サンプル収集、サンプル加工、およびシーケンシングはすべて同じ場所で実施される。この実践において、読み取りアラインメントおよびコールは第2の場所で実施される。最後に、診断、ならびに報告および/または計画立案は第3の場所で実施される。図6における文字Cによって描かれた実践において、サンプル収集は第1の場所で実施され、サンプル加工、シーケンシング、読み取りアラインメント、コール、および診断はすべて第2の場所で一緒に実施され、かつ報告および/または計画立案は第3の場所で実施される。最後に、図6におけるDで標識された実践において、サンプル収集は第1の場所で実施され、サンプル加工、シーケンシング、読み取りアラインメント、およびコールはすべて第2の場所で実施され、かつ診断、ならびに報告および/または計画管理は第3の場所で実施される。
一態様は、胎児および母体の核酸を含む母体検査サンプルにおけるいずれか1種または複数種の完全胎児染色体異数性の有無を判定することにおける使用のためのシステムを提供し、該システムは、核酸サンプルを受け取りかつ該サンプルからの胎児および母体の核酸配列情報を提供するためのシーケンサー;プロセッサー;ならびに該プロセッサーに対する実行のための命令を含む機械可読記憶媒体を含み、該命令は、
(a)サンプルにおける胎児および母体の核酸についての配列情報を獲得するためのコード;
(b)該配列情報を用いて、第1〜22、X、およびY染色体より選択される関心対象のいずれか1種または複数種の染色体のそれぞれに対する、胎児および母体の核酸からの配列タグの数をコンピューターにより同定し、かつ関心対象のいずれか1種または複数種の染色体のそれぞれに対する少なくとも1種の正規化染色体配列または正規化染色体セグメント配列に対する配列タグの数を同定するためのコード;
(c)関心対象のいずれか1種または複数種の染色体のそれぞれに対して同定された配列タグの数、および各正規化染色体配列または正規化染色体セグメント配列に対して同定された配列タグの数を用いて、関心対象のいずれか1種または複数種の染色体のそれぞれに対する単一染色体量を算出するためのコード;ならびに
(d)関心対象のいずれか1種または複数種の染色体のそれぞれに対する単一染色体量のそれぞれと、関心対象のいずれか1種または複数種の染色体のそれぞれに対する対応する閾値の値とを比較し、それによって、サンプルにおけるいずれか1種または複数種の異なる完全胎児染色体異数性の有無を判定するためのコード
を含む。
いくつかの態様において、関心対象のいずれか1種または複数種の染色体のそれぞれに対する単一染色体量を算出するためのコードは、関心対象の染色体のうちの選択された1つに対する染色体量を算出するためのコードを、関心対象の選択された染色体に対して同定された配列タグの数と、関心対象の選択された染色体に対する対応する少なくとも1種の正規化染色体配列または正規化染色体セグメント配列に対して同定された配列タグの数との比として含む。
いくつかの態様において、システムは、関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数のセグメントの任意の残りの染色体セグメントのそれぞれに対する染色体量の算出を反復するためのコードをさらに含む。
いくつかの態様において、第1〜22、X、およびY染色体より選択される関心対象の1種または複数種の染色体は、第1〜22、X、およびY染色体より選択される少なくとも20種の染色体を含み、かつ命令は、少なくとも20種の異なる完全胎児染色体異数性の有無を判定するための命令を含む。
いくつかの態様において、少なくとも1種の正規化染色体配列は、第1〜22、X、およびY染色体より選択される染色体の群である。他の態様において、少なくとも1種の正規化染色体配列は、第1〜22、X、およびY染色体より選択される単一染色体である。
別の態様は、胎児および母体の核酸を含む母体検査サンプルにおけるいずれか1種または複数種の部分的胎児染色体異数性の有無を判定することにおける使用のためのシステムを提供し、該システムは、核酸サンプルを受け取りかつ該サンプルからの胎児および母体の核酸配列情報を提供するためのシーケンサー;プロセッサー;ならびに該プロセッサーに対する実行のための命令を含む機械可読記憶媒体を含み、該命令は、
(a)サンプルにおける胎児および母体の核酸についての配列情報を獲得するためのコード;
(b)該配列情報を用いて、第1〜22、X、およびY染色体より選択される関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数のセグメントのそれぞれに対する、胎児および母体の核酸からの配列タグの数をコンピューターにより同定し、かつ関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数のセグメントのそれぞれに対する少なくとも1種の正規化セグメント配列に対する配列タグの数を同定するためのコード;
(c)関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数のセグメントのそれぞれに対して同定された配列タグの数、および正規化セグメント配列に対して同定された配列タグの数を用いて、関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数のセグメントのそれぞれに対する単一染色体セグメント量を算出するためのコード;ならびに
(d)関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数のセグメントのそれぞれに対する単一染色体セグメント量のそれぞれと、関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数の染色体セグメントのそれぞれに対する対応する閾値の値とを比較し、それによって、サンプルにおけるいずれか1種または複数種の異なる部分的胎児染色体異数性の有無を判定するためのコード
を含む。
いくつかの態様において、単一染色体セグメント量を算出するためのコードは、染色体セグメントのうちの選択された1つに対する染色体セグメント量を算出するためのコードを、選択された染色体セグメントに対して同定された配列タグの数と、選択された染色体セグメントに対する対応する正規化セグメント配列に対して同定された配列タグの数との比として含む。
いくつかの態様において、システムは、関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数のセグメントの任意の残りの染色体セグメントのそれぞれに対する染色体セグメント量の算出を反復するためのコードをさらに含む。
いくつかの態様において、システムは、(i)種々の母体対象由来の検査サンプルに対して(a)〜(d)を反復するためのコード、および(ii)該サンプルのそれぞれにおけるいずれか1種または複数種の異なる部分的胎児染色体異数性の有無を判定するためのコードをさらに含む。
本明細書において提供されるシステムのいずれかについての他の態様において、コードは、母体検査サンプルを提供するヒト対象についての患者医療記録に、(d)で判定された胎児染色体異数性の有無を自動的に記録するためのコードをさらに含み、該記録はプロセッサーを用いて実施される。
本明細書において提供されるシステムのいずれかについてのいくつかの態様において、シーケンサーは、次世代シーケンシング(NGS)を実施するように構成される。いくつかの態様において、シーケンサーは、可逆的ダイターミネーターを伴う合成によるシーケンシングを用いた超並列シーケンシングを実施するように構成される。他の態様において、シーケンサーは、ライゲーションによるシーケンシングを実施するように構成される。さらに他の態様において、シーケンサーは、単分子シーケンシングを実施するように構成される。
実験
実施例1
一次および富化したシーケンシングライブラリーの調製およびシーケンシング
a. シーケンシングライブラリーの調製−簡略プロトコール(ABB)
すべてのシーケンシングライブラリー、すなわち一次および富化したライブラリーを、母体血漿から抽出されたおよそ2ngの精製cfDNAから調製した。Illumina(登録商標)用のNEBNext(商標)DNA Sample Prep DNA Reagent Set 1(品番E6000L;New England Biolabs, Ipswich, MA)を用いて、ライブラリー調製を以下のとおりに実施した。細胞フリー血漿DNAは天然にフラグメント化されているため、血漿DNAサンプルに対して、噴霧化または超音波処理によるさらなるフラグメント化は行わなかった。NEBNext(登録商標)End Repair Moduleに従って、1.5ml微量遠心(microfuge)チューブ中で、cfDNAと、NEBNext(商標)DNA Sample Prep DNA Reagent Set 1において提供されている5μlの10×リン酸化バッファー、2μlのデオキシヌクレオチド溶液ミックス(10mMの各dNTP)、1μlの1:5希釈のDNAポリメラーゼI、1μlのT4 DNAポリメラーゼ、および1μlのT4ポリヌクレオチドキナーゼとを20℃で15分間インキュベートすることによって、40μl中に含有されるおよそ2ngの精製cfDNAフラグメントの突出をリン酸化平滑末端に変換した。次いで、反応混合液を75℃で5分間インキュベートすることによって、酵素を熱不活性化した。混合液を4℃に冷却し、かつKlenowフラグメント(3'→5'exo−)(NEBNext(商標)DNA Sample Prep DNA Reagent Set 1)を含有する10μl のdAテーリングマスターミックスを用いかつ37℃で15分間インキュベートすることによって、平滑末端化DNAのdAテーリングを達成した。その後、反応混合液を75℃で5分間インキュベートすることによって、Klenowフラグメントを熱不活性化した。Klenowフラグメントの不活性化後、1μlの1:5希釈のIllumina製Genomic Adaptor Oligo Mix(品番1000521;Illumina Inc., Hayward, CA)を用い、NEBNext(商標)DNA Sample Prep DNA Reagent Set 1において提供されている4μlのT4 DNAリガーゼを用いて、反応混合液を25℃で15分間インキュベートすることによって、Illuminaアダプター(指標なしのYアダプター)を、dAテーリングされたDNAにライゲーションした。混合液を4℃に冷却し、かつアダプターがライゲーションされたcfDNAを、Agencourt AMPure XP PCR purification system(品番A63881;Beckman Coulter Genomics, Danvers, MA)において提供されている磁気ビーズを用いて、ライゲーションされていないアダプター、アダプターダイマー、および他の試薬から精製した。Phusion(登録商標)High-Fidelity Master Mix(25μl;Finnzymes, Woburn, MA)、およびアダプターに相補的なIllumina製PCRプライマー(それぞれ0.5μM)(品番1000537および1000537)を用い、18サイクルのPCRを実施して、アダプターがライゲーションされたcfDNAを選択的に富化した(25μl)。メーカーの指示書に従い、Illumina製ゲノム用PCRプライマー(品番100537および1000538)、およびNEBNext(商標)DNA Sample Prep DNA Reagent Set 1において提供されているPhusion HF PCR Master Mixを用いて、アダプターがライゲーションされたDNAをPCR(98℃30秒間;98℃10秒間、65℃30秒間、および72℃30の18サイクル;72℃5分間での最終伸長、ならびに4℃保持)に供した。www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdfにて入手可能なメーカーの指示書に従い、Agencourt AMPure XP PCR purification system(Agencourt Bioscience Corporation, Beverly, MA)を用いて、増幅産物を精製した。精製された増幅産物を40μlのQiagen EB Buffer中に溶出し、かつ2100 Bioanalyzer(Agilent technologies Inc., Santa Clara, CA)用のAgilent DNA 1000 Kitを用いて、増幅ライブラリーの濃度およびサイズ分布を解析した。
b. シーケンシングライブラリーの調製−全長プロトコール
ここに記載される全長プロトコールは、本質的に、Illuminaによって提供されている標準的プロトコールであり、増幅ライブラリーの精製の点でIlluminaプロトコールと異なるだけである。Illuminaプロトコールは、ゲル電気泳動を用いて増幅ライブラリーを精製するように指示しているが、一方で本明細書において記載されるプロトコールは、同じ精製工程に磁気ビーズを用いる。母体血漿から抽出されたおよそ2ngの精製cfDNAを用い、本質的にメーカーの指示書に従い、Illumina(登録商標)用のNEBNext(商標)DNA Sample Prep DNA Reagent Set 1(品番E6000L;New England Biolabs, Ipswich, MA)を用いて、一次シーケンシングライブラリーを調製した。精製カラムの代わりにAgencourtの磁気ビーズおよび試薬を用いて実施した、アダプターがライゲーションされた産物の最終精製を除くすべての工程を、Illumina(登録商標)GAIIを用いてシーケンシングされるゲノムDNAライブラリー用のサンプル調製のための、NEBNext(商標)試薬に添付しているプロトコールに従って実施した。NEBNext(商標)プロトコールは、本質的に、Illuminaによって提供されているものに従い、それは、grcf.jhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdfにて入手可能である。
NEBNext(登録商標)End Repair Moduleに従って、200μl微量遠心チューブ中で、40μlのcfDNAと、NEBNext(商標)DNA Sample Prep DNA Reagent Set 1において提供されている5μlの10×リン酸化バッファー、2μlのデオキシヌクレオチド溶液ミックス(10mMの各dNTP)、1μlの1:5希釈のDNAポリメラーゼI、1μlのT4 DNAポリメラーゼ、および1μlのT4ポリヌクレオチドキナーゼとを、サーマルサイクラーにて20℃で30分間インキュベートすることによって、40μl中に含有されるおよそ2ngの精製cfDNAフラグメントの突出をリン酸化平滑末端に変換した。サンプルを4℃に冷却し、かつQIAQuick PCR Purification Kit(QIAGEN Inc., Valencia, CA)において提供されているQIAQuickカラムを用いて以下のとおりに精製した。50μlの反応液を1.5ml微量遠心チューブに移し、かつ250μlのQiagen Buffer PBを添加した。結果として生じた300μlをQIAquickカラムに移し、それを微量遠心機にて13,000RPMで1分間遠心分離した。カラムを750μlのQiagen Buffer PEで洗浄しかつ再遠心分離した。残余エタノールを13,000RPMで5分間のさらなる遠心分離によって除去した。遠心分離によって、DNAを39μlのQiagen Buffer EB中に溶出した。メーカーのNEBNext(登録商標)dA-Tailing Moduleに従い、Klenowフラグメント(3'→5'exo−)(NEBNext(商標)DNA Sample Prep DNA Reagent Set 1)を含有する16μlのdAテーリングマスターミックスを用いかつ37℃で30分間インキュベートすることによって、34μlの平滑末端化DNAのdAテーリングを達成した。サンプルを4℃に冷却し、かつMinElute PCR Purification Kit(QIAGEN Inc., Valencia, CA)において提供されているカラムを用いて以下のとおりに精製した。50μlの反応液を1.5ml微量遠心チューブに移し、かつ250μlのQiagen Buffer PBを添加した。300μlをMinEluteカラムに移し、それを微量遠心機にて13,000RPMで1分間遠心分離した。カラムを750μlのQiagen Buffer PEで洗浄しかつ再遠心分離した。残余エタノールを13,000RPMで5分間のさらなる遠心分離によって除去した。遠心分離によって、DNAを15μlのQiagen Buffer EB中に溶出した。NEBNext(登録商標)Quick Ligation Moduleに従い、10μlのDNA溶出液を、1μlの1:5希釈のIllumina製Genomic Adapter Oligo Mix(品番1000521)、15μlの2×Quick Ligation Reaction Buffer、および4μlのQuick T4 DNA Ligaseとともに25℃で15分間インキュベートした。サンプルを4℃に冷却し、かつMinEluteカラムを用いて以下のとおりに精製した。150μlのQiagen Buffer PEを30μlの反応液に添加し、全容量をMinEluteカラムに移し、それを微量遠心機にて13,000RPMで1分間遠心分離した。カラムを750μlのQiagen Buffer PEで洗浄しかつ再遠心分離した。残余エタノールを13,000RPMで5分間のさらなる遠心分離によって除去した。遠心分離によって、DNAを28μlのQiagen Buffer EB中に溶出した。メーカーの指示書に従い、Illumina製ゲノム用PCRプライマー(品番100537および1000538)、およびNEBNext(商標)DNA Sample Prep DNA Reagent Set 1において提供されているPhusion HF PCR Master Mixを用いて、アダプターがライゲーションされた23μlのDNA溶出液を18サイクルのPCR(98℃30秒間;98℃10秒間、65℃30秒間、および72℃30の18サイクル;72℃5分間での最終伸長、ならびに4℃保持)に供した。www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdfにて入手可能なメーカーの指示書に従い、Agencourt AMPure XP PCR purification system(Agencourt Bioscience Corporation, Beverly, MA)を用いて、増幅産物を精製した。Agencourt AMPure XP PCR purification systemは、組み入れられていないdNTP、プライマー、プライマーダイマー、塩、および他の夾雑物を除去し、かつ100bpを上回るアンプリコンを収集する。精製された増幅産物を、Agencourt ビーズから40μlのQiagen EB Buffer中に溶出し、かつ2100 Bioanalyzer(Agilent technologies Inc., Santa Clara, CA)用のAgilent DNA 1000 Kitを用いて、ライブラリーのサイズ分布を解析した。
c. 簡略(a)および全長(b)プロトコールに従って調製されたシーケンシングライブラリーの解析
Bioanalyzerによって作成されたエレクトロフェログラムは、図7Aおよび7Bに示されている。図7Aは、(a)で記載される全長プロトコールを用いて、血漿サンプルM24228から精製されたcfDNAから調製されたライブラリーDNAのエレクトロフェログラムを示しており、図7Bは、(b)で記載される全長プロトコールを用いて、血漿サンプルM24228から精製されたcfDNAから調製されたライブラリーDNAのエレクトロフェログラムを示している。両方の図において、ピーク1および4は、それぞれ15bpの低量マーカー(Lower Marker)および1,500の高量マーカー(Upper Marker)を表し;ピークの上の数は、ライブラリーフラグメントに関する移動時間を示し;かつ水平線は、積分のための設定閾値を示す。図7Aにおけるエレクトロフェログラムは、187bpのフラグメントの小さなピークおよび263bpのフラグメントの大きなピークを示しており、一方で図7Bにおけるエレクトロフェログラムは、265bpにおける1つのピークのみを示している。ピークエリアの積分により、図7Aにおける187bpのピークのDNAに対して0.40ng/μlという算出濃度、図7Aにおける263bpのピークのDNAに対して7.34ng/μlという濃度、および図7Bにおける265bpのピークのDNAに対して14.72ng/μlという濃度がもたらされた。cfDNAにライゲーションされたIlluminaアダプターは92bpであることが知られており、それを265bpから差し引いた場合、cfDNAのピークサイズは173bpであることを示す。187bpにおける小さなピークは、端から端までライゲーションした2つのプライマーのフラグメントを表す。線状の2つのプライマーフラグメントは、簡略プロトコールが用いられる場合、最終ライブラリー産物から排除される。簡略プロトコールは、187bp未満のより小さな他のフラグメントも排除する。本実施例において、アダプターがライゲーションされた精製cfDNAの濃度は、全長プロトコールを用いて生成された、アダプターがライゲーションされたcfDNAのものの2倍である。アダプターがライゲーションされたcfDNAフラグメントの濃度は、全長プロトコールを用いて獲得されたものよりも常に大きかったことが留意される(データ示さず)。
ゆえに、簡略プロトコールを用いてシーケンシングライブラリーを調製する利点は、獲得されたライブラリーが、一貫して、262〜267bpの範囲に1つの大きなピークのみを含み、一方で、全長プロトコールを用いて調製されたライブラリーの質は、cfDNAを表すもの以外のピークの数および移動度に反映されているように変動する。非cfDNA産物は、フローセルの空間を占有し、かつクラスター増幅および後続のシーケンシング反応のイメージングの質を軽減すると考えられ、それは異数性状態の全体的割り当ての根拠をなす。簡略プロトコールは、ライブラリーのシーケンシングに影響を及ぼさないことが示された。
簡略プロトコールを用いてシーケンシングライブラリーを調製する別の利点は、平滑末端化、d-Aテーリング、およびアダプターライゲーションの3つの酵素工程が、完了するのに1時間未満しかかからず、迅速な異数性診断サービスの検証および実践を支持することである。
別の利点は、平滑末端化、d-Aテーリング、およびアダプターライゲーションの3つの酵素工程が同じ反応チューブ内で実施され、ゆえに、材料の損失、およびより重要なことには、考え得るサンプル混同およびサンプル汚染に潜在的につながると考えられる複数回のサンプル移動が回避されることである。
実施例2
双胎妊娠における正確な異数性検出
序論
全ゲノム超並列シーケンシングを用いた、全細胞フリーDNA(cfDNA)の非侵襲的出生前検査(NIPT)は、胎児染色体異数性を検出する非常に正確でかつロバストな方法であることが示されている。Bianchi DW, Platt LD, Goldberg JD, et al. Genome-wide fetal aneuploidy detection by maternal plasma DNA sequencing. Obstet Gynecol 2012;119:890-901;Fan HC, Blumenfeld YJ, Chitkara U, Hudgins L, Quake SR. Noninvasive diagnosis of fetal aneuploidy by shotgun sequencing DNA from maternal blood. Proc Natl Acad Sci U S A 2008;105:16266-71;Sehnert AJ, Rhees B, Comstock D, et al. Optimal detection of fetal chromosomal abnormalities by massively parallel DNA sequencing of cell-free fetal DNA from maternal blood. Clin Chem 2011;57:1042-9を参照されたい。本検査は、単一の母体血液サンプルからトリソミー21、18、13、および性染色体異数性を検出する。本検査は、現在、10+週における単胎妊娠を有しかつ胎児異数性の高いリスクがある妊娠女性に適応される。近年、米国産科婦人科学会(American College of Obstetricians and Gynecologists)(ACOG)、国際出生前診断学会(International Society for Prenatal Diagnosis)(ISPD)、米国臨床遺伝学ゲノム学学会(American College of Medical Genetics and Genomics)(ACMG)、および国立遺伝カウンセラー協会(National Society of Genetic Counselors)(NSGC)は、胎児異数性の高いリスクがある女性に対して、NIPTの使用を考慮することを勧告している。
アメリカ合衆国では、双生児はおよそ30回中1回の生児出生を占め、かつ双生児出生の割合は増加傾向にある(全米保健医療統計センター(National Center for Health Statistics)のデータ概要、No.80、2012年1月)。女性は高齢化するにつれて、彼女らは月経周期ごとに1個を上回る数の卵を放出しやすい傾向にあり、そのため30より上の女性は、双胎妊娠の増加の約1/3を占める。インビトロ受精の間にしばしば1個を上回る数の胚を移す生殖補助技法が、双胎妊娠の残りの増加の大部分を占める。
予備的証拠により、母体循環中に存在している胎児DNAの量は、単胎妊娠と比較した場合、双胎妊娠においておよそ35%増加することが示唆されているが、調査は、各胎児に由来するcfDNAの量を見ていなかった。Canick JA, Kloza EM, Lambert-Messerlian GM, et al. DNA sequencing of maternal plasma to identify Down syndrome and other trisomies in multiple gestations. Prenat Diagn 2012;32:730-4。研究者らは、双胎妊娠において循環胎児DNAの量の全体的な増加はあるものの、各胎児に対するcfDNAの量は減少することを実証している。Srinivasan A, Bianchi D, Liao W, Sehnert A, Rava R. 52: Maternal plasma DNA sequencing: effects of multiple gestation on aneuploidy detection and the relative cell-free fetal DNA (cffDNA) per fetus. American journal of obstetrics and gynecology 2013;208:S31、Srinivasan A, Bianchi DW, Huang H, Sehnert AJ, Rava RP. Noninvasive detection of fetal subchromosome abnormalities via deep sequencing of maternal plasma. American journal of human genetics 2013;92:167-76。したがって、双胎妊娠における異数性の正しい分類を確実にするために、高感度の方法論が必要とされる。
NIPTが異数性サンプルを正確に分類し得る能力を最大限に高める因子は、解析において用いられるシーケンシング読み取りの数の増加であり、それにより統計的ノイズは最小限に抑えられ、およびラン間の変動性を低下させるような、染色体シグナルを正規化し得る能力である。近年、出願者は、サンプルあたりの使用可能な読み取りの数を増加させる向上した自動化サンプル調製ワークフロー、および異数性染色体の特異的シグナルを増加させる向上した解析方法論を開発した。これらの増強により、影響ありの異数性サンプルを分類する全体的な正確性が向上する。
本実施例は、これまで用いられてきた最大の双生児検証コホートへの、向上した分類アルゴリズムの適用を記載する。本発明者らは、SAFeR(胎児結果の選択的アルゴリズム(Selective Algorithm for Fetal Result))アルゴリズムの向上により、胎児あたり低下した量の細胞フリーDNAを有することが知られる双生児サンプルにおける正確な異数性検出が可能となることを実証している。
方法
高いリスクおよび平均的リスクの母体集団の両方を伴う2つの独立した臨床試験の一部として、サンプルを回収した。母体血液は胎児異数性を正確に診断するための供給源である調査(MatErnal BLood IS Source to Accurately Diagnose Fetal Aneuploidy study)(MELISSA;NCT01122524)を、高リスク妊娠における染色体全体の異数性を検出するように設計した。Bianchi DW, Platt LD, Goldberg JD, et al. Genome-wide fetal aneuploidy detection by maternal plasma DNA sequencing. Obstet Gynecol 2012;119:890-901。異数性リスク評価の比較試験(CARE;NCT01663350)を、平均的リスクの母体集団におけるトリソミー21およびトリソミー18に対する従来的出生前血清スクリーニング法と比較して、本検査の優れた特異性を実証するように設計した(発表のために提出された)。データセットについての詳細は、表3に示されている。臨床結果を、出生前の侵襲的手順からの核型によって、または新生児身体検査によって判定した。
(表3)双生児サンプルの核型および本発明による分類: 118例の双胎妊娠からの母体サンプルを、第21、第18、および第13染色体の異数性について、ならびにY染色体の存在について、本出生前検査を用いて解析した。本発明によるデータを、核型解析または新生児身体検査のいずれかによって判定される臨床結果と比較した。
以前に記載されるように、細胞フリーDNAを凍結した血漿サンプルから抽出し、かつHiSeq2000シーケンサーでシーケンシングした。Sehnert AJ, Rhees B, Comstock D, et al. Optimal detection of fetal chromosomal abnormalities by massively parallel DNA sequencing of cell-free fetal DNA from maternal blood. Clin Chem 2011;57:1042-9。超並列シーケンシング(MPS)による配列タグをヒトゲノム参照ビルドhg19にマッピングし、そして、シグナル対ノイズ比を最大限に高めかつ検出の全体的感度を向上させる向上した解析ワークフローを用いて、第21、第18、第13、X、およびY染色体に対して、正規化された染色体値(NCV)を算出した。アルゴリズム構成要素には、向上したゲノムフィルタリング、分子生物学工程を通じて導入された体系的バイアスの除去、ならびに向上した正規化および分類の方法が含まれた。シーケンシングを行う実験室職員は、臨床結果が分からないようにされていた。
結果
本試験において、臨床的に規定された結果を有する118例の双胎妊娠からの母体血漿サンプルを調べた(表3)。第21、第18、および第13染色体に対する異数性分類を、試験におけるサンプルのすべてに対して作成し、1人または複数の異数性胎児を有する妊娠からの4つのサンプルが正しく同定された(図8)。これらのサンプルのうちの2つは、それぞれが、1人のT21影響ありの雄性胎児および1人の影響なしの雄性胎児(47,XY+21/46,XY)の二絨毛膜性双生児ペア由来であり;1つは、47,XY+18核型を有する単一絨毛膜性双生児サンプルであり;かつ1つのサンプルは、1人の双生児がモザイク核型47,XY+T21[7]/46,XY[11]を有する二絨毛膜性双生児であった。本試験において、臨床的に規定された影響なしのサンプル(N=114)のいずれも、異数性について影響ありと分類されなかった。
胎児の性別を、cfDNAにおけるY染色体の存在によって判定することができる。本明細書において開示される検査は、少なくとも1人の雄性胎児を有するすべてのサンプルにおいて、Y染色体の存在を陽性に同定し得た(図8)。さらに、該検査は、2人の雌性胎児を有するサンプルにおいて、Y染色体の非存在も正しく同定した。
結論
本試験は、双生児サンプルについて最も高感度な常染色体異数性検査を可能にする、向上した解析方法論を実証している。増強した解析法は、ゲノムフィルタリングの向上、体系的ノイズの低下、および向上した分類法を活用する。双生児における常染色体異数性およびY染色体の存在を検出するMPSの任意の検証において用いられた最大数のサンプルである、118例の双生児サンプルのセットに対して、向上した解析ワークフローの有用性が実証された(図9)。図9は、NIPT試験において解析された双生児サンプルを示している。市販のNIPT検査の性能を査定するために、様々な試験において用いられた双生児サンプルの数。Canick JA, Kloza EM, Lambert-Messerlian GM, et al. DNA sequencing of maternal plasma to identify Down syndrome and other trisomies in multiple gestations. Prenat Diagn 2012;32:730-4、Lau TK, Jiang F, Chan MK, Zhang H, Lo PSS, Wang W. Non-invasive prenatal screening of fetal Down syndrome by maternal plasma DNA sequencing in twin pregnancies. Journal of Maternal-Fetal and Neonatal Medicine 2013;26:434-7。向上した解析法は、いかなる偽陽性結果も生み出すことなく、トリソミー21に対してモザイクである影響ありの胎児を含めた、コホートにおけるすべてのトリソミー21およびトリソミー18のサンプルの存在を正しく検出することによって、正確に実施することが示された。加えて、向上した解析法は、少なくとも1人の雄性胎児を有するすべての双胎妊娠においてY染色体の存在を正しく検出し、かつ2人の雌性胎児を有する双胎妊娠のいずれにおいてもY染色体を検出しなかった。
高感度な方法の1つの特徴は、体系的ノイズを最小限に抑え得、かつ全体的なシグナル対ノイズ比を増加させ得る能力である。本試験は、他の市販のNIPTアッセイ(およそ28Mシーケンシング読み取り/サンプル)のいずれかよりも多くの、サンプルあたりのシーケンシング読み取りを生成することによって、かつ解析方法論を、複合DNAサンプルの生化学的操縦に伴う体系的ノイズをより上手く操作するための解析方法論を向上させることによって、これを達成した。向上した解析ワークフローは、最終的に、正規化された染色体計数分布の深度を低下させ、影響なしおよび影響ありの集団のより良好な分離、ならびに低量の胎児DNAを有する影響ありの異数性胎児を正確に同定する向上した能力を可能にする。
双胎妊娠における異数性を検出するための、非常に正確でかつ高感度な方法論を有し得ることは、細胞フリー胎児DNAの総量は双胎妊娠において増加するものの、各胎児に起因する量は減少するため、重要である。したがって、A)この知見および検査サンプルを、それらがあたかも単胎妊娠と等しいかのように無視し、かつ偽陰性結果の可能性を増加させ得、B)不十分なDNAが理由で、サンプルの数の増加を拒否し得、またはC)より高感度な方法論を作り上げ得る(表4)。
表2:市販のNIPT検査を用いて双胎妊娠を処理するためのストラテジー
SAFeR(商標)アルゴリズムへの解析の向上は、双胎妊娠における正確な異数性分類を可能にすることを超えて拡大する。影響なしおよび影響ありの集団の分離の向上は、異数性が疑われるとして分類されるサンプルの全体的頻度も低下させる。加えて、向上した解析ワークフローを、異数性検出および性別分類における同様の向上を有して、単胎妊娠に適用することができる。
結論として、本研究は、異数性の影響なしおよび影響ありのサンプルのより良好な分離、ならびに低量の胎児DNAを含有するサンプルからのより正確な常染色体異数性分類につながる向上した解析法を記載する。これらの向上を組み入れることによって、出生前検査の能力は、双胎妊娠を検査するまでに拡大されている。
本開示は、その精神または必須の特徴から外れることなく、他の特異的形態で具体化され得る。記載される態様は、あらゆる点において、例証的なものでありかつ制限的なものではないと見なされるべきである。したがって、本開示の域は、前述の記載によってよりもむしろ添付の特許請求の範囲によって示される。特許請求の範囲と同等の意味および範囲の内にあるすべての変化は、それらの範囲内に包含されるべきである。