JP6839268B2

JP6839268B2 - 体細胞コピー数多型検出

Info

Publication number: JP6839268B2
Application number: JP2019515874A
Authority: JP
Inventors: ハン−ユチュアン; チェンジャオ
Original assignee: イルミナインコーポレイテッド
Priority date: 2016-09-22
Filing date: 2017-09-21
Publication date: 2021-03-03
Anticipated expiration: 2037-09-21
Also published as: KR20220098812A; CN110024035B; RU2019111924A; JP2019537095A; CA3214358A1; CA3037917C; RU2768718C2; AU2021200154A1; CN117352050A; NZ751798A; KR102416441B1; WO2018057770A1; US20230207048A1; AU2021200154B2; CN110024035A; RU2019111924A3; AU2017332381A1; CA3037917A1; KR20190058556A; EP3516564A1

Description

本開示は、一般に、配列データのような、生物学的サンプルに関連したデータの分野に関する。より具体的には、本開示は、シーケンシング・データに基づいてコピー数多型を判定するための技術に関する。

関連出願の相互参照
本出願は、すべての目的で引用により本明細書に組み入れられる、２０１６年９月２２日出願の「ＳＯＭＡＴＩＣＣＯＰＹＮＵＭＢＥＲＶＡＲＩＡＴＩＯＮＤＥＴＥＣＴＩＯＮ」と題する米国特許仮出願番号第６２／３９８，３５４号及び２０１７年１月１７日出願の「ＳＯＭＡＴＩＣＣＯＰＹＮＵＭＢＥＲＶＡＲＩＡＴＩＯＮＤＥＴＥＣＴＩＯＮ」と題する米国特許仮出願番号６２／４４７，０６５号に対する優先権を主張する。

遺伝子シーケンシングは、診断その他の用途おける将来の使用が見込まれており、遺伝子研究のますます重要な分野になってきている。一般に、遺伝子シーケンシングは、ＲＮＡ又はＤＮＡの断片等の核酸についてヌクレオチドの順序を判定することを伴う。幾つかの技術は全ゲノム・シーケンシングを伴い、これはゲノムを分析する包括的方法を伴う。他の技術は、遺伝子のサブセット又はゲノムの領域の標的化シーケンシングを伴う。標的化シーケンシングは、注目領域に焦点を合わせ、より小さく、よりコンパクトなデータセットを生成する。さらに、標的化シーケンシングは、シーケンシングのコスト及びデータ分析の負担を削減すると同時に、注目領域内の変異体（ｖａｒｉａｎｔ）の検出のための高いカバレッジ（ｃｏｖｅｒａｇｅ）レベルでの深いシーケンシングを可能にする。このような変異体の例には、体細胞変異、一塩基多型、及びコピー数多型が含まれ得る。変異体の検出は、疾患の可能性又は感受性に関する情報を臨床医にもたらすことができる。したがって、シーケンシング・データにおける変異体の改善された検出が必要とされている。

米国特許出願公開第２００７／０１６６７０５号明細書米国特許出願公開第２００６／０１８８９０１号明細書米国特許出願公開第２００６／０２４０４３９号明細書米国特許出願公開第２００６／０２８１１０９号明細書米国特許出願公開第２００５／０１００９００号明細書米国特許第７，０５７，０２６号明細書国際公開第０５／０６５８１４号国際公開第０６／０６４１９９号国際公開第０７／０１０，２５１号米国特許第６，９６９，４８８号明細書米国特許第６，１７２，２１８号明細書米国特許第６，３０６，５９７号明細書米国特許第７，００１，７９２号明細書米国特許出願公開第２００９／００２６０８２号明細書米国特許出願公開第２００９／０１２７５８９号明細書米国特許出願公開第２０１０／０１３７１４３号明細書米国特許出願公開第２０１０／０２８２６１７号明細書米国特許第７，３２９，８６０号明細書

Ｓｏｎｉ及びＭｅｌｌｅｒ、Ｃｌｉｎ．Ｃｈｅｍ．第５３巻、ｐ．１９９６−２００１（２００７年）；Ｈｅａｌｙ、Ｎａｎｏｍｅｄ．第２巻、ｐ．４５９−４８１（２００７年）Ｃｏｃｋｒｏｆｔ他、Ｊ．Ａｍ．Ｃｈｅｍ．Ｓｏｃ．第１３０巻、ｐ．８１８−８２０（２００８年）Ｌｅｖｅｎｅ他、Ｓｃｉｅｎｃｅ第２９９巻、ｐ．６８２−６８６（２００３年）Ｌｕｎｄｑｕｉｓｔ他、Ｏｐｔ．Ｌｅｔｔ．第３３巻、ｐ１０２６−１０２８（２００８年）Ｋｏｒｌａｃｈ他、Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．米国、第１０５巻、ｐ．１１７６−１１８１（２００８年）

本開示は、生物学的サンプルにおけるコピー数多型の検出のための新規手法を提供する。本明細書で提供される場合、コピー数多型（ＣＮＶ：ｃｏｐｙｎｕｍｂｅｒｖａｒｉａｔｉｏｎ）は、１つ以上のゲノム領域の異常な数のコピーをもたらすゲノムの変更である。重複、増殖、欠失、転座、及び反転といった構造的なゲノム再配列がＣＮＶを引き起こし得る。一塩基多型（ＳＮＰ）と同様に、特定のＣＮＶが疾患感受性（ｄｉｓｅａｓｅｓｕｓｃｅｐｔｉｂｉｌｉｔｙ）に関連付けられている。本明細書における「コピー数多型」という用語は、注目するテストサンプル中に存在する核酸配列のコピー数の、期待コピー数と比較した変動を意味し得る。例えば、ヒトの場合、常染色体配列（及び女性のＸ染色体配列）の期待コピー数は２である。他の生物は、そのゲノム構造に従って異なる期待コピー数を有し得る。コピー数多型は、重複又は欠失の結果であり得る。特定の実施形態において、コピー数変異体は、重複又は欠失した少なくとも１ｋｂの配列を意味する。１つの実施形態において、コピー数変異体は、少なくとも単一遺伝子のサイズであり得る。別の実施形態において、コピー数変異体は、少なくとも１４０ｂｐ、１４０−２８０ｂｐ、又は少なくとも５００ｂｐであり得る。

１つの実施形態において、「コピー数変異体」は、テストサンプル中の注目配列とその注目配列の期待レベルとの比較によってコピー数の差異が見いだされた核酸の配列を意味する。本明細書で提供される場合、基準サンプルは、非適合サンプル（ｕｎｍａｔｃｈｅｄｓａｍｐｌｅｓ）のシーケンシング・データのセットから誘導されて正規化情報を生成し、正規化情報は、個々のテストサンプルが正規化されることを可能にして、正規化されたシーケンシング・データに基づいて期待コピー数からの偏差を決定することができるようにする。正規化データは、本明細書で提供される技術を用いて生成され、テストサンプルと適合する仮説的に最も代表的なサンプル（ｈｙｐｏｔｈｅｔｉｃａｌｍｏｓｔｒｅｐｒｅｓｅｎｔａｔｉｖｅｓａｍｐｌｅ）に対する正規化を可能にする。テストサンプルを正規化することにより、シーケンシングによって導入されるノイズ又は他のバイアスが除去される。

特定の実施形態において、標的化シーケンシングの実行から得られた生シーケンシング・データ・カバレッジを正規化して技術的及び生物学的ノイズを低減し、ＣＮＶ検出を改善する。１つの実施形態において、注目サンプル（例えば、ホルマリン固定パラフィン包埋サンプル）は、所望のシーケンシング技術、例えば注目する標的領域に対するプローブのシーケンシング・パネルを用いる標的化シーケンシング技術によって、シーケンシングされる。ひとたびシーケンシング・データが収集されると、シーケンシング・データを正規化してノイズを除去し、次いで正規化されたデータを分析してＣＮＶを検出する。

１つの実施形態において、コピー数を正規化する方法が提供され、これは、ユーザからシーケンシング要求を受けて、生物学的サンプル内の１つ以上の注目領域をシーケンシングするステップと；生物学的サンプルと適合しない複数のベースライン生物学的サンプル由来の１つ以上の注目領域から、ベースライン・シーケンシング・データを取得するステップと；ベースライン・シーケンシング・データを用いて、１つ以上の注目領域のうちの注目領域についての少なくとも１つのコピー数ベースラインを含む、コピー数正規化情報を決定するステップと；コピー数正規化情報をユーザに提供するステップとを含む。

別の実施形態において、コピー数多型を検出する方法が提供され、これは、生物学的サンプルから、それぞれの複数の注目領域についての複数の生シーケンシング・リードカウントを含むシーケンシング・データを取得するステップと；領域依存カバレッジ・バイアスを除去するためにシーケンシング・データを正規化するステップとを含む。正規化するステップは、各注目領域について、生物学的サンプルの領域内の１つ以上のビンの生シーケンシング・リードカウントをベースライン・メジアン・シーケンシング・リードカウントと比較して、注目領域内の１つ以上のビンについてのベースライン補正シーケンシング・リードカウントを生成することを含み、ここで注目領域内の１つ以上のビンについてのベースライン・メジアン・シーケンシング・リードカウントは、生物学的サンプルと適合しない複数のベースライン・サンプル由来であり、各注目領域についてのベースライン・シーケンシング・データの最も代表的な部分のみから決定されたものであり；ベースライン補正シーケンシング・リードカウントからＧＣバイアスを除去して、各注目領域についての正規化シーケンシング・リードカウントを生成することを含む。上記方法はまた、各注目領域内の１つ以上のビンの正規化シーケンシング・リードカウントに基づいて、各注目領域内のコピー数多型を判定することも含む。

別の実施形態において、標的化シーケンシング・パネルを査定する方法が提供され、これは、標的化シーケンシング・パネルに対して、それぞれの複数の遺伝子の部分に対応する第１の複数の標的をゲノム内で同定するステップと；第１の複数の標的の各々のＧＣ含量を判定するステップと；第１の複数の標的のうち所定の範囲外のＧＣ含量を有する標的を排除して、第１の複数の標的より小さい第２の複数の標的を得るステップと；排除の後、個々の遺伝子が、その個々の遺伝子の部分に対応する標的を所定の数より少なく有する場合、その個々の遺伝子内で追加の標的を同定するステップと；追加の標的を第２の複数の標的に追加して、第３の複数の標的を得るステップと；第３の複数の標的に対して特異的なプローブを含むシーケンシング・パネルを提供するステップとを含む。

本技術によるコピー数変異体を検出するための方法の図式的概要である。図１の方法に関連して用いることができるシーケンシング装置のブロック図である。本開示の実施形態による正規化技術の一例の模式的な概要である。本明細書で提供される正規化の前及び後のシーケンシング結果についてのビン・プロファイル・データを示す。正常ＦＦＰＥサンプルにおいて存在するノイズを、非常に劣化した細胞系及び正常な細胞系混合物と比べて示す。異なるサンプルタイプ間でのベースライン相関が乏しいことを示すプロットのパネルである。不良ビンを除去して正規化のためのベースラインを生成するために非適合試料由来のベースライン基準シーケンシング・データに適用することができる、ビン・フィルタリングの１つ以上のタイプの例を示す。非適合正常サンプル由来のベースライン基準シーケンシング・データを用いて代表ベースラインを同定するための階層的クラスタリングを示す。ノイズを除去するための線形回帰によるベースライン補正の結果を示し、ここでｃ１及びｃ２は、階層的クラスタリングから学習される２つの代表ベースラインである。サンプルＳ１、Ｓ２、Ｓ３及びＳ４間の可変かつサンプル依存的なＧＣバイアスを示す。入力データＡを用いてプロットＤの補正データを与える、ベースライン及びＧＣバイアス補正を含む正規化を示し、ここで、ＡからＢは、トレーニングされたアルゴリズムのベースラインを用いた線形回帰を表し、ＢからＣは、そのサンプルについてのＧＣバイアスを代表するフィッティングされた曲線の生成を表し、ＣからＤは、サンプルからＧＣバイアスを除去するためのフィッティングされた曲線の平坦化を表す。ＥＲＢＢ２についての配列ビンを含む、正規化の前及び後の結果を示す。３４０個のＦＦＰＥサンプルにわたってＲ²＝０．９９であり、倍率変化検出が、使用されるベースラインから安定に独立であることを示す。ＥＧＦＲ、ＥＲＢＢ２、ＦＧＦＲ１、ＭＤＭ２、ＭＥＴ、及びＭＹＣを含む幾つかの注目領域についてのパネルを用いてテストされた２２個のＦＦＰＥサンプルにわたって、本明細書で提供される正規化技術と、ｄｄＰＣＲとの間の高い一致を示す。ＥＧＦＲについて、本明細書で提供される正規化技術を用いた結果と、コントロールフリー・サンプルを用いた結果との比較を示す。本明細書で提供される正規化技術を用いた結果と、適合正常サンプルを用いた結果とのメジアン絶対偏差の比較を示し、対応のあるｔ検定のｐ値は０．０２０２である。本明細書で提供される正規化技術（ｙ軸）と適合正常（ｘ軸）との間での、検出された倍率変化（ＦＣ）による、倍率変化比較を示す。本明細書で提供される正規化技術を用いて検出されたＫＩＴ変異体を示す。代替的な主成分分析技術を用いて検出されたＫＩＴ変異体を示す。本明細書で提供される正規化技術を用いて検出されたＢＲＣＡ２変異体を示す。代替的な主成分分析技術を用いて検出できなかったＢＲＣＡ２変異体を示す。ビン領域を示す、例示的な遺伝子のためのプローブ設計の模式的表示である。リードではなくフラグメントに基づくビン・カウントの模式的表示である。ビンの名称及び特性の表である。プローブに対する標的サイズ分布のプロットである。遺伝子メジアンの絶対分布、並びに標的の数及び標的のＧＣ含量に対する比較を示す。ＦＦＰＥサンプルの性別分類及びＹ染色体カバレッジの存在を示す。カバレッジ・エンハンサーを伴う及び伴わないプローブ・カバレッジの比較を示す。多様な遺伝子についてプローブ・カバレッジの概要を示す検出されたコピー数多型のグラフィカル・ユーザ・インタフェースの一例を示す。

本技術は、改善された体細胞コピー数多型（ＣＮＶ）検出のためのシーケンシング・データの分析及び処理に向けられる。ＣＮＶ検出は、サンプル保存、ライブラリ調製、又はシーケンシングの際に導入される種々のタイプのバイアスによって乱されることが多い。バイアスがなければ、リード深さ（ｒｅａｄｄｅｐｔｈ）／カバレッジは、二倍体領域についてはゲノム全体にわたって均一になり、コピー数が多い（少ない）領域については比例的に高く（低く）なるはずである。バイアスがあると、この仮定は、少なくともバイアスを受けるゲノムの領域についてはもはや有効ではなくなる。バイアスを除去すること、又はデータを最初に例えばＣＮＶ検出に先立って正規化することで、本明細書で提供されるような、より正確なＣＮＶコーリングが達成される。

本明細書では、ゲノム内の１つ以上の注目領域についてのコピー数の変化を代表する変動を査定する前にシーケンシング・データを正規化するのに有用な、個々の生物学的サンプルのための基準ベースラインを作成する技術が提供される。開示される技術は、テストサンプルを正規化するために、テストサンプルを採取した個人からの適合サンプルに依存することなく、基準又は正規化情報を提供する。他の技術は、基準を生成するために患者自身の組織を使用することがあるが、生物学的サンプルと同じ個体から取得した適合サンプルを使用することはある種の課題を提示する。例えば、サンプル収集における変動（サンプル品質、選択された組織）は、基準サンプルが正常組織の真の代表ではないことを意味することがある。さらに、シーケンシング・データに影響を与えるバイアスの導入がサンプル間で異なることがある限り、適合基準サンプルは、テストサンプルと比べて異なるレベルの導入されたバイアスを有することがあり、これがひいては不正確さ、及び不適切に正規化されたデータをもたらしかねない。さらに、すべてのテストサンプルが、利用可能な適合組織を有しているわけでもなく、又はシーケンシングに十分な高品質の適合組織を有しているわけでもない。

したがって、開示される技術は、適合サンプルを用いることなく、バイアスが低減した正規化情報を生成することによって、より正確なコピー数多型の査定（ａｓｓｅｓｓｍｅｎｔ）を促進する。個々のサンプルにおけるＣＮＶ検出に先立って、正規化情報を用いてシーケンシング・データのセットを正規化することができる。正規化情報は、非適合基準ベースライン生物学的サンプルのセット又はプールを用いて生成される。次いで、このセットから生成されたシーケンシング・データを用いて、最も典型的な仮説的適合基準サンプルである正規化情報を生成する。すなわち、正規化情報は、いかなる個々のテストサンプルもそれに対して正規化することができる、仮想的な較正された金基準（ｇｏｌｄｓｔａｎｄａｒｄｒｅｆｅｒｅｎｃｅ）を表す。

ある種の実施形態において、ＣＮＶは、全ゲノム・シーケンシング技術を用いて検出することができる。しかしながら、このような技術は、高価であり、かつ注目領域外にあるかもしれないデータを生成することを伴う。他の実施形態において、標的化シーケンシング技術を用いてＣＮＶを検出することは、より安価であり、かつターンアラウンド・タイムがより速い。標的化シーケンシングにおいて、標的化プローブを用いて、シーケンシングのためにサンプルＤＮＡから注目領域をプルダウンする。使用されるプローブは、注目領域及び所望の検出結果に応じて変更し得る。しかしながら、標的化シーケンシングの実行から得られるシーケンシング・データのカバレッジは、ゲノム内の注目領域（例えば標的配列）、プローブ、及びサンプル自体の品質の変化する特性に起因して、可変であり得る。例えば、より大きい標的（例えば、より長いエキソン）に対して特異的なプローブは、典型的には、より小さい標的に対するプローブよりも多くのリード又はカバレッジを有することになる。別の例において、生物学的サンプルにおけるＤＮＡの劣化区域は、より少ないリードを有することになる。さらに別の例において、ＧＣリッチ又はＧＣプアな注目領域は、非線形であり得るカバレッジの変動を有することになる。したがって、標的化シーケンシングの実行から得られるシーケンシング・データに対するカバレッジの変動性は、カバレッジ／リード深さに基づくＣＮＶ検出の正確さを妨害するノイズを導入することがある。

表１は、濃縮データ内に存在するシーケンシング・バイアス／ノイズの共通のタイプを示す。例えば、異なるプローブは、異なるプルダウン効率を有することがあるので、これにより、異なる領域にわたって一様ではないカバレッジを生じさせる（ベースライン効果）。カバレッジはまたＧＣ依存性であり得、すなわち低い又は高いＧＣ含量を有する領域は、一般により低いカバレッジを有する。さらに、カバレッジは、ホルマリン固定パラフィン埋設（ＦＦＰＥ）サンプルの品質又はサンプルタイプによって影響を受けることがある。上記のアーチファクトのすべてが、増幅検出に対する課題を提示する。ＣＮＶロバスト分析（ＣＮＶＲｏｂｕｓｔＡｎａｌｙｓｉｓ）は、ＣＮＶコーリングの前にこれらのバイアスを除去する（すなわちデータ正規化を用いる）ことを目的とする。

表１：生物学的サンプルにおけるバイアス源

開示される技術は、腫瘍サンプルのリードカウント正規化において、基準正常サンプルのパネルを利用し、適合正常サンプルを使用する必要性を解消する。詳細には、配列リードカウント・バイアスは、組織型及びＤＮＡ品質と強く相関し、より強力でないとしても、サンプルの生殖細胞系列の遺伝と同等のインパクトを有する。したがって、異なる組織型及び異なるＤＮＡ品質を代表する好適な多様な基準正常サンプルを用いて、ＣＲＡＦＴイン・シリコン（ｉｎｓｉｌｉｃｏｎ）は、すべての基準正常サンプルの線形結合を通じて、テスト腫瘍サンプルに対する「仮想」適合正常サンプルを組み立てる。

基準正常サンプルのパネルは、データ駆動クラスタリング・プロセスを経て、リードカウント・ベースラインを形成する。各基準ベースラインは、ゲノムにおける真のコピー数変化ではなく、特定の組織型、ＤＮＡ品質、及びその他のリードカウント・バイアスに対する系統的バックグラウンドの代表である。テストサンプルについて、サンプル・リードカウント・データに対して基準ベースラインの線形回帰を行って、各ベースラインの係数を決定する。各テストサンプルは、一意の係数のセットをもたらし、仮想適合正常サンプルを模倣する。ユーザが、特定のシーケンシング・パネルでシーケンシング・データを取得すると、ユーザは、該係数を用いて、取得したシーケンシング・データを正規化することができる。１つの実施形態において、係数は、線形結合を経て適用することができ、特定の注目領域（例えば遺伝子）についての重み付きコピー数の値を与える。

そのために、開示される技術は、シーケンシング・バイアスの結果生じるコピー数多型査定の誤りを排除し又は低減する。図１は、本明細書で提供される正規化技術を用いる、エンドユーザとプロバイダとの間の相互作用を示すフロー図１０である。図示したフロー図１０は、標的化シーケンシング・パネルの状況で提示されている。しかしながら、同様の相互作用は、全ゲノム・シーケンシング反応の状況においてもまた起こり得ることを理解されたい。

ステップ１２において、ユーザは、査定のための注目する生物学的サンプルを取得する。生物学的サンプルは、組織サンプル、液体サンプル、又はその他のゲノム若しくはゲノムＤＮＡの少なくとも一部を含有するサンプルとすることができる。特定の実施形態において、生物学的サンプルは、新鮮なもの、凍結されたもの、又はＦＦＰＥのような標準的な組織病理学的保存法を用いて保存されたものである。生物学的サンプルは、テストサンプルであってもよく、又は正規化情報を生成するために用いられる内部サンプルであってもよい。標的化シーケンシング・パネルを用いて生物学的サンプルを査定する実施形態において、ユーザは、標的化シーケンシング要求をプロバイダに送信し、この要求は、サンプルのゲノムＤＮＡ内の所望の注目領域に基づいて、選択された既存のシーケンシング・パネル及び／又はカスタマイズされたシーケンシング・パネルを含む。要求は、顧客情報、生物学的サンプル生物体情報、生物学的サンプルタイプ情報（例えば、サンプルが新鮮なもの、凍結されたもの、又は保存されもののいずれであるかを識別する情報）、組織型、及び所望のシーケンシング・アッセイタイプを含むことができる。要求はまた、シーケンシング・パネルの所望のプローブのための核酸配列、及び／又は標的化シーケンシング・パネルのためのプローブを設計及び／又は生成するためにプロバイダによって使用され得るゲノム内の注目領域の核酸配列を含むこともできる。

プロバイダは、ステップ１４において要求を受け取り、ステップ１６において、指定されたプローブセット及び／又は指定された注目領域（例えばビン）に基づいて、シーケンシングにおいて用いられるプローブを設計及び／又は生成する。特定の実施形態において、既存のシーケンシング・パネルの場合、プローブは、ステップ１４において要求を受け取る前に生成されてインベントリに保存されている場合もある。プローブは、ステップ２０においてユーザに提供され、ステップ２２におけるいずれかの関連したサンプル調製に続いて、ステップ２４において生物学的サンプルのシーケンシングに用いられる。ユーザは、ステップ２６において、シーケンシングからシーケンシング・データを取得する。

ユーザが標的化シーケンシング・パネルのためのプローブを選択した場合、そのプローブは、ステップ２８において、非適合サンプルのセット（例えば、適合していない他の生物学的サンプル、又は生物学的サンプルとしての同じ個体からのもの）に対するベースライン・シーケンシング反応においても用いられ、ベースライン・シーケンシング・データが取得される。ベースライン・シーケンシング・データは、ステップ３０において正規化情報を生成するために用いられ、この正規化情報はステップ３２においてユーザに提供される。正規化情報を用いて、ユーザは、テストサンプルのシーケンシング・データを正規化し、その後、ステップ３４において、取得された生物学的サンプルのシーケンシング・データを分析して、コピー数変異体を、標的化シーケンシング・パネル内に含まれる位置に対して同定する。すなわち、ゲノムの一部のみのシーケンシングを促進する標的化シーケンシング・パネルの状況では、シーケンシングされた部分に存在するコピー数変異体のみを同定することができる。これは、本技術によるゲノム全体にわたってコピー数変異体を同定することができる全ゲノム適用とは対照的である。

コピー数変異体の同定に応答して、ステップ３６においてユーザに対して出力を提供することができる。出力は、ゲノム内の特定の位置におけるコピー数のグラフィカル・アイコンを含む、表示されるグラフィカル・ユーザ・インタフェース（図３０参照）を含むことができる。

ユーザは、プロバイダのシーケンシング・サービスの外部ユーザ又は内部ユーザであり得る。例えば、フロー図１０のステップは、任意の新規な標的化シーケンシング・パネル産物を較正すること又は生成することの一部として行うことができ、これはカスタマイズされたシーケンシング・パネルに対する外部要求も含み得る。所与の標的化シーケンシング・パネルは、パネルプローブによって標的化される注目領域に基づいて特定のバイアス傾向に関連付けられる。このバイアスは、コピー数多型の正確な査定に干渉することがある。したがって、フロー図１０のステップを、プローブのセットを含む任意の標的化シーケンシング・パネルが設計、修正、又は更新されたときに行うことができる。他の実施形態において、ユーザ要求がゲノム内の注目領域を含む場合、開示の技術を用いてプローブのセットを含むパネルを生成及び評価して、正規化情報を与えることができる。正規化情報は、メトリック（ｍｅｔｒｉｃ）のセットを用いて評価することができる。メトリックが、そのパネルが不十分な（ｐｏｏｒ）正規化情報を与えることを示した場合、そのパネルを棄却してプローブを再設計する（例えば、いずれかの方向に５０ｂｐシフトさせる）ことができる。高品質の正規化情報が得られるまで、フロー図５０のステップを用いて新たなプローブをテストすることができる。１つの実施形態において、メトリックは、内部サンプル中のコピー数変異体を同定する前に正規化情報を適用することによって得られる。シーケンシングされた領域にわたって同定されたコピー数変異体が期待分布（ｅｘｐｅｃｔｅｄｄｉｓｔｒｉｂｕｔｉｏｎ）から逸脱していた場合、新たなシーケンシング・パネル（例えばプローブ再設計）をトリガすべきであることを示す出力を提供することができる。期待分布は、コピー数変異体の尤度分布に関連付けることができる。例えば、大部分の変異体は、いずれかの方向で２又は３倍率変化内にある。内部サンプルが、期待分布より大きい１０倍以上の変異体を有することが示された場合、分析されたサンプルは、期待分布から逸脱していると示すことができる。

生物学的サンプルをシーケンシングすることによって生成されたシーケンシング・データを、正規化情報を用いて正規化した後、分析して、任意のコピー数多型を特徴づけることができる。生物学的サンプル・シーケンシング・データ及びベースライン・シーケンシング・データは、生データ、ベースコール・データ、又は一次若しくは二次分析を経たデータの形態とすることができることを理解されたい。

さらに、ＣＮＶは、遺伝子の一部、遺伝子内領域等として同定することができることを理解されたい。ＣＮＶ検出を重複又は欠失配列に関連付けることができることもまた理解されたい。したがって、ＣＮＶ検出は、１つ以上の遺伝子を含む領域のような、核酸領域の重複コピーを表すことができる。１つの実施形態において、ＣＮＶは、少なくとも１ｋｂのサイズの重複又は欠失ゲノム領域である。

シーケンシング・カバレッジは、既知の基準塩基にアライメントする、すなわち「カバー」する、シーケンシング・リードカウントの平均数を記述する。カバレッジ・レベルは、しばしば、特定の塩基位置において特定の信頼度で変異体の発見を行うことができるかどうかを決める。カバレッジのレベルがより高いところでは、各塩基は、より多数のアライメントされた配列リードによってカバーされるので、より高い信頼度でベースコールを行うことができる。リードは、ゲノム全体にわたって一様に分布しているわけではなく、その理由は単にリードがゲノムをランダムかつ独立した方式でサンプリングするからである。したがって、多くの塩基が平均カバレッジよりも少ないリードによってカバーされる一方で、他の塩基が平均より多くのリードによってカバーされることになる。これは、あるゲノムがシーケンシングされる回数（シーケンシングの深さ）である、カバレッジ・メトリックによって表現される。標的化リシーケンシング（ｒｅｓｅｑｕｅｎｃｉｎｇ）の場合、カバレッジは、ある領域がシーケンシングされる回数の量を指す。例えば、標的化リシーケンシングの場合、カバレッジは、ゲノムの標的化サブセットがシーケンシングされる回数を意味する。開示される実施形態は、バイアスに起因する、シーケンシング・カバレッジにおけるノイズに対処する。

図２は、コピー数多型を査定するために用いられる、シーケンシング・データ（例えば、テストサンプル・シーケンシング・データ、ベースライン・シーケンシング・データ）を取得するために図１のフロー図のステップに関連して用いることができるシーケンシング装置６０の模式図である。シーケンス装置６０は、任意のシーケンシング技術、例えば、その開示の全体が引用により本明細書に組み入れられる特許文献１、特許文献２、特許文献３、特許文献４、特許文献５、特許文献６、特許文献７、特許文献８、特許文献９に記載されている合成によるシーケンシング（ｓｅｑｕｅｎｃｉｎｇ−ｂｙ−ｓｙｎｔｈｅｓｉｓ）法を組み込んだ技術に従って実装することができる。あるいは、ライゲーション技術によるシーケンシングを、シーケンシング装置６０において用いることができる。このような技術は、ＤＮＡリガーゼを使用してオリゴヌクレオチドを組み込み、そうしたオリゴヌクレオチドの組み込みを同定するものであり、その開示の全体が引用により本明細書に組み入れられる特許文献１０、特許文献１１、及び特許文献１２に記載されている。幾つかの実施形態は、標的核酸ストランド又はヌクレオチドがエキソヌクレアーゼによって標的核酸から除去されてナノポアを通過する、ナノポア・シーケンシングを利用することができる。標的核酸又はヌクレオチドがナノポアを通過するときに、ポアの電気伝導度のゆらぎを測定することによって塩基の各タイプを同定することができる（その開示の全体が引用により本明細書に組み入れられる特許文献１３、非特許文献１、非特許文献２、及び非特許文献３）。さらに他の実施形態は、ヌクレオチドが延長産物内に取り込まれるときに放出されるプロトンの検出を含む。例えば、放出されたプロトンの検出に基づくシーケンシングは、ＩｏｎＴｏｒｒｅｎｔ（Ｇｕｉｌｆｏｒｄ、ＣＴ、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓの子会社）から市販されている電気検出器及び関連の技術、又はその開示の全体が引用により本明細書に組み入れられる特許文献１４、特許文献１５、特許文献１６、又は特許文献１７に記載されているシーケンシング方法及びシステムを使用することができる。特定の実施形態は、ＤＮＡポリメラーゼ活性の実時間モニタリングを伴う方法を利用することができる。ヌクレオチドの組み込みは、フルオロフォアを持つポリメラーゼとγ−ホスフェート標識ヌクレオチドとの間の蛍光共鳴エネルギー移動（ＦＲＥＴ）相互作用を通じて、又は、例えば、その開示の全体が引用により本明細書に組み入れられる非特許文献４、非特許文献５、非特許文献６に記載されているようなゼロモード導波管を用いて検出することができる。他の好適な代替的技術は、例えば、蛍光インサイチュシーケンシング（ＦＩＳＳＥＱ）、及びＭａｓｓｉｖｅｌｙＰａｒａｌｌｅｌＳｉｇｎａｔｕｒｅＳｅｑｕｅｎｃｉｎｇ（ＭＰＳＳ）を含む。具体的な実施形態において、シーケンシング装置６０は、Ｉｌｌｕｍｉｎａ（ＬａＪｏｌｌａ、ＣＡ）のＨｉＳｅｑ、ＭｉＳｅｑ、又はＨｉＳｃａｎＳＱとすることができる。

図示された実施形態において、シーケンシング装置６０は、分離したサンプル処理装置６２と、関連付けられたコンピュータ６４とを含む。しかしながら、前述のように、これらは単一装置として実装することができる。さらに、関連付けられたコンピュータ６４は、サンプル処理装置６２に対してローカルにすることもでき、又はネットワーク接続することもできる。図示された実施形態において、生物学的サンプルは、サンプルスライド７０としてサンプル処理装置６２内に装填することができ、これをイメージングして配列データを生成する。例えば、生物学的サンプルと相互作用する試薬がイメージング・モジュール７２によって発生された励起ビームに応答して特定の波長で蛍光を発し、それによりイメージングのための放射を返す。例えば、蛍光成分は、その成分の相補的分子にハイブリダイズする、又はポリメラーゼを用いてオリゴヌクレオチドに組み込まれた蛍光標識ヌクレオチドにハイブリダイズする、蛍光標識核酸によって生成することができる。当業者に理解されるように、サンプルの染料が励起される波長及びそれらが蛍光を発する波長は、特定の染料の吸収及び発光スペクトルに依存する。このようにして戻される放射は、方向付けするオプティクスを通って戻り方向に伝搬することができる。この逆行ビーム（ｒｅｔｒｏｂｅａｍ）は、一般に、イメージング・モジュール７２の検出オプティクスに向かって方向付けすることができる。

イメージング・モジュールの検出オプティクスは、任意の適切な技術に基づくものとすることができ、例えば、デバイス内の位置に衝突する光子に基づいて画素化されたイメージデータを生成する電荷結合素子（ＣＣＤ）センサとすることができる。しかしながら、時間遅延積分（ＴＤＩ）演算用に構成された検出器アレイ、相補型金属酸化膜半導体（ＣＭＯＳ）検出器、アバランシェ・フォトダイオード（ＡＰＤ）検出器、ガイガー方式の光子カウンタ、又は他のいずれかの適切な検出器を含むがこれらに限定されない様々なその他の検出器のいずれをも使用することができることが理解されるであろう。ＴＤＩ方式の検出は、引用により本明細書に組み入れられる特許文献１８に記載されているようなライン・スキャニングと結合することができる。他の有用な検出器は、例えば、種々の核酸シーケンシング方法に関連して本明細書で先に提示した参考文献に記載されている。

イメージング・モジュール７２は、例えばプロセッサ７４を介して、プロセッサ制御下にあってもよく、サンプル受入装置６２は、Ｉ／Ｏコントロール７６、内部バス７８、不揮発性メモリ８０、ＲＡＭ８２、及び他のいずれかのメモリ構造も含むことができ、そのメモリが実行可能命令を格納することが可能であるようになっており、また、図２に関連して説明したものと同様なものとすることができる他の適切なハードウェアコンポーネントを含むことができる。さらに、関連付けられたコンピュータ６４もまた、プロセッサ８４、Ｉ／Ｏコントロール８６、通信モジュール８４、並びにＲＡＭ８８及び不揮発性メモリ９０を含むメモリアーキテクチャを含むことができ、メモリアーキテクチャが実行可能命令９２を格納することができるようになっている。ハードウェアコンポーネントは、内部バス９４によって連結することができ、これはディスプレイ９６にも連結することができる。シーケンシング装置がオールインワン装置として実装される実施形態においては、特定の冗長なハードウェア要素を省略することができる。

本技術は、生物学的サンプル（例えば腫瘍サンプル）中のＣＮＶの検出又はコーリングを、最初にそのシーケンシング・データを適合シーケンシング・データに対して正規化することなく、促進する。本技術は、前処理ステップを用いてマニフェスト・ファイル及びベースライン・ファイルを生成し、これらは正規化ステップに対する入力パラメータとして使用される。マニフェスト・ファイル及びベースライン・ファイルは、コピー数多型を判定するための注目サンプルの分析とは独立して、分析に先立って生成される。マニフェスト・ファイル及びベースライン・ファイルは、非適合サンプル（すなわち非適合正常サンプル）から作成され、本明細書で提供されるベースライン生成技術によって決定される。ベースライン生成は、非適合正常サンプルに対して行われ、ベースライン生成の結果は、正規化技術の実行可能命令によるアクセスのためのベースライン情報（又は正規化情報）として格納される。例えば、注目サンプルを有するユーザは、１つ以上のＣＮＶの分析を行うことができる。特定の実施形態において、生成及び格納の後、ベースライン情報は、異なる時点及び／又はその後の時点で、複数の注目サンプルの分析において用いられる。ユーザは、ベースライン情報に対応するシーケンシング・パネルに基づいて、格納されたファイルにアクセスすることができる。

１つの実施形態において、コピー数正規化情報は、ひとたび生成されると、特定のシーケンシング・パネルに対して固定される。すなわち、コピー数正規化情報は、シーケンシング・パネルの特定のプローブと関連付けられ、プロバイダによって格納され、その特定のシーケンシング・パネルのユーザに対して送られる。異なるシーケンシング・パネルは、異なるコピー数正規化情報を有する。別の例において、ＣＮＶコーリング・ソフトウェアパッケージは、各々が異なるシーケンシング・パネルに関連付けられた複数の異なるコピー数正規化情報を格納することができる。ユーザは、シーケンシング・データを取得するために用いられるシーケンシング・パネルに基づいて、適切な正規化情報を選択することができる。あるいは、シーケンシング装置６０は、用いられるシーケンシング・パネルに関連したユーザによる情報入力に基づいて、適切なコピー数正規化情報を自動的に取得することができる。ＣＮＶコーリング・ソフトウェアパッケージはまた、コピー数正規化情報がプロバイダによって改良された場合、遠隔サーバから更新を受け取ることもできる。

体細胞コピー数多型検出の問題は、図３にまとめたように、階層的クラスタリング法を使用し、次いでデータ正規化のための線形回帰及びＬｏｅｓｓ回帰を利用して、代表ベースライン・カバレッジ挙動を同定することによって解決される。この技術は、構成１００（例えば、アルゴリズム・トレーニング）と、注目サンプルの正規化１０２と、コピー数の倍率変化（ｆｏｌｄｃｈａｎｇｅ）及び個々の遺伝子ベースのＴ統計量（Ｔ−ｓｔａｔｓ）などの出力又は統計量の提供１０４とを含む。例えば、ＦＣは、注目遺伝子のメジアン値とゲノム・メジアンとの間の比である。Ｔ統計量は、注目遺伝子を残りのゲノム（例えば、二倍体生物について）と比較した、ビン・カウント分布とすることができる。

前処理（アルゴリズム・トレーニング）は、以下のステップを含むことができる。
１．ビン／エキソン選択１１０：トレーニングする正常サンプル（例えば、ＦＦＰＥ正常サンプル）のセットから、各ビンについてメジアン、メジアン絶対偏差（ｍｅｄｉａｎａｂｓｏｌｕｔｅｄｅｖｉａｔｉｏｎ）、ＧＣ含量及びサイズを計算する（図７参照）。次いで、低いメジアン、大きいＭＡＤ、極端なＧＣ含量及び小さいサイズを有するビンをマニフェスト・ファイル内で不良ビンとしてマークする。このステップで影響を受けるビンの割合はわずかである（〜５％）。例えば、図６に示すように、用いられるフィルタリングパラメータは、
メジアン＞０．２５
ＣＶ：（０，２）
ＧＣ：（０．２５，０．８）
標的サイズ：＞２０ｂｐ
である。
２．ベースライン又は正常サンプル（例えば、ＦＦＰＥ正常サンプル）からのベースライン生成１１２：異なる組織型由来のサンプル又は異なるＤＮＡ品質を有するサンプルは、極めて異なるベースライン挙動を有し得る。したがって、ベースライン効果を補正するために複数のベースラインが用いられる。一例において、各組織型由来の４−５個の正常ＦＦＰＥサンプルを用いて、各ビンについてメジアン挙動を決定して、異なる組織型を表す。ベースラインを生成するために、階層的クラスタリングを用いて、正常サンプルポピュレーションにおける、複数の根底にあるカバレッジを反映する代表グループを同定する。図８参照。クラスタリングを、サンプル品質と相関させる。ひとたびクラスタが同定されると、各ビンについてのメジアン値を用いてベースライン・ファイルを作成し、これがその後の正規化に用いられる。すなわち、各クラスタ内のメジアン・ビン・カウントをベースラインとして採用する。クラスタリング法を用いることによって、正常サンプルにおける最も「代表的」な挙動が下流の正規化のために用いられる。

上記で生成された基準ベースラインを用いたベースライン又は正規化（査定されるサンプルに適用される）の後、新たなサンプルを標的サイズ及びメジアン・ビン・カウントによって正規化情報に対してスケール変更する１１４。
１．ベースライン補正１１６：新たなサンプルに対して、そのビン・カウントをベースラインの線形結合：Ｙ〜ｃ１＋ｃ２＋ｃ３としてモデル化する。新たなサンプルにおける潜在的なＣＮＶゆえに、最初に外れ値がＹから除去され、外れ値が除去された値に基づいて線形モデルが構築される。特定の実施形態において、外れ値はマスクされる。他の実施形態において、極端な外れ値のみが除去され又はマスクされる。次いで、Ｙと線形モデル予測との比がベースライン補正値として用いられる。３標準偏差を上回る又は下回るビン・カウントが外れ値とみなされる。
Ｌｍ（Ｙ［ｇｏｏｄ．ｉｄｘ］〜ｃ１［ｇｏｏｄ．ｉｄｘ］＋ｃ２［ｇｏｏｄ．ｉｄｘ］＋ｃ３［ｇｏｏｄ．ｉｄｘ］）
Ｙ＿ｎｅｗ〜Ｙ／ｐｒｅｄｉｃｔ（ｌｍ，ｄａｔａ＝ＡＬＬ）

２．ステップ１の後、ＧＣバイアスを除去するためのロバストｌｏｅｓｓ回帰１１８。
３．各遺伝子について、そのメジアン・ビン値をゲノム・メジアンと比較することによって、その倍率変化１２４を計算する。追加の統計量、例えば各遺伝子についてのｔ−統計量１２６を決定することもできる。

図４は、幾つかのビンにわたる、本明細書で提供される正規化の前及び後のシーケンシング結果についてのビン・プロファイル・データを示す。「前」の結果において存在するノイズは、示されるように「後」の結果において低減される。ノイズは、コピー数変異体の正確なコーリングを妨げる。図５は、正常ＦＦＰＥサンプルに存在するノイズを、非常に劣化した細胞系及び正常細胞系混合物と比べて示す。データ内に存在するノイズは、正確なＣＮＶコーリングに干渉する。さらに、ノイズは、様々な品質のサンプルに存在する。しかしながら、ベースライン補正は、異なるサンプルタイプ間では不十分である。したがって、本技術は、適切な正規化情報を選択するためにユーザがサンプルタイプを入力することを可能にする。

図９は、ノイズを除去するための線形回帰によるベースライン補正の結果を示し、ここでｃ１及びｃ２は、階層的クラスタリングから学習される２つの代表ベースラインである。図１０に示すように、ＧＣバイアスはサンプル特異的である。一般に、極端に低いＧＣ又は高いＧＣ領域は、リードにおける提示不足（ｕｎｄｅｒ−ｒｅｐｒｅｓｅｎｔｅｄ）である。幾つかのサンプルは他のサンプルよりも曲率が高い。図１１は、段階的手法のための正規化ステップの図である。（Ａ）大きいベースライン効果に起因して、エキソン・カウントとＧＣとの間には目に見える関係は存在しない。（Ｂ）ベースライン補正後、カウントとＧＣとの間には目に見える負の傾向がある。（Ｃ）外れ値が同定され、外れ値が除去されたデータに対してｌｏｅｓｓ回帰がフィッティングされる。（Ｄ）ＧＣバイアス除去後の最終的な正規化の結果。

図１２は、ＥＲＢＢ２遺伝子についての配列ビンを含む、正規化の前及び後の結果を示す。「後」の結果は、本明細書で提供される正規化によるノイズの著しい低減を実証する。図１３は、３４０個のＦＦＰＥサンプルにわたってＲ²＝０．９９であり、倍率変化検出が、使用されるベースラインから安定に独立であることを示す。図１４は、ＥＧＦＲ、ＥＲＢＢ２、ＦＧＦＲ１、ＭＤＭ２、ＭＥＴ、及びＭＹＣを含む幾つかの注目領域についてのパネルを用いてテストされた２２個のＦＦＰＥサンプルにわたって、本明細書で提供される正規化技術と、ｄｄＰＣＲとの間の高い一致を示す。

図１５は、ベースライン又はコントロールフリー法に対する本明細書で用いられる正規化技術の比較である。コントロールフリー法は、正規化のためにいかなる追加のコントロール又は正常サンプルも必要としない。その代わり、データ正規化のためにテストサンプル自体に依拠する。本明細書で用いられる正規化技術と比べると、コントロールフリー法は、測定される倍率変化（ＦＣ）値に関して、遺伝子増幅を小さく見積もる傾向がある。さらに、コントロールフリー法を正常テストサンプルに対して適用すると、ＦＣ変動性が本正規化技術よりかなりも大きくなることが示されたが、それは、より高いブランク上限（ｌｉｍｉｔｏｆｂｌａｎｄ）（ＬｏＢ）をもたらすことになる。一般に、コントロールフリー法は、本明細書で提供されるような正規化技術より、感度及び特異性の両方が低い。図１５において、Ｙ軸はコントロールフリー法の内部実施（ｉｎｔｅｒｎａｌｉｍｐｌｅｍｅｎｔａｔｉｏｎ）であり、Ｘ軸は本明細書で説明される正規化技術の実施形態である。正規化技術と比べて、コントロールフリー法は、倍率変化値を小さく見積もる傾向がある。

図１６は、本明細書で提供される正規化技術を用いた結果と、適合正常サンプルを用いた結果とのメジアン絶対偏差の比較を示し、対応のあるｔ検定（ｐａｉｒｅｄｔｔｅｓｔ）のｐ値は０．０２０２である。図１７は、本明細書で提供される正規化技術（ｙ軸）と、適合正常（ｍａｔｃｈｅｄｎｏｒｍａｌ）（ｘ軸）との間での、検出された倍率変化（ＦＣ）による、倍率変化比較を示す。

図１８〜図２１は、本明細書で提供される正規化技術と、適合正常サンプルを必要としない機械学習ＰＣＡ手法に基づくＣＮＶ法であるＸＨＭＭとの間の比較を示す。データ正規化後、これはセグメンテーション法を使用してサンプル内のＣＮＶをコールする。ＸＨＭＭについて示した結果は、ダウンロードしたプログラムを１５個のＣＮＶサンプルに対して実行し、正規化技術と比較することによって得たものである。ＸＨＭＭは、１５増幅から１０を検出したのに対し、正規化技術は、１４ＣＮＶから１４を検出し、ノーコールは１であった。この結果に基づいて、正規化技術はＸＨＭＭよりも良好な感度を有する。

本技術は、正規化を行うために適合正常サンプルを使用せず又は必要としない。その代わり、本明細書における正規化技術は、非適合正常サンプルを用いて基準ベースラインを生成し、そこから倍率変化が検出される。特定の実施形態において、複数の正常サンプルを用いて基準ベースラインが決定され、複数のサンプルのシーケンシング・データのクラスタリングを行って、最も代表的な正常ビンが決定される。したがって、基準ベースライン値は、サンプルベースで査定されるのではなく、ビンベースで査定される。さらに、本技術は、歴史的な（ｈｉｓｔｏｒｉｃａｌ）正常サンプルに、１より多くのベースライン挙動値を組み込む。本技術は、ベースライン補正のために線形回帰を利用し、ＧＣ補正のためにＬｏｅｓｓを利用する。Ｒ２ＤＶＴ研究において、達成された結果は感度１００％を含む（特定のノーコールを含む）。

他の技術と比較すると、提供される正規化は、ＬｏＢ及びＬｏＤに関してコントロールフリーよりも優れた性能をもたらす。さらに、正規化は、追加のサンプル処理を必要とする適合正常を用いる技術に比べてより経済的である。正規化を用いるＣＮＶコーリングは、シーケンシングコストが適合正常サンプルのシーケンシングのためのコストを含まないので、より経済的である。したがって、シーケンシングの実行及びシーケンシング装置の動作がより効率的である。基準フリー手法のような他の手法は、プローブ・プルダウン効果ゆえに高品質の結果をもたらさない。ＳＶＤ分解又はＰＣＡを用いる統計的技術もまた、高品質の結果をもたらさず、及び／又は特定のサンプルタイプに限定された適用性を有する。

特定の実施形態において、本明細書で提供されビンは、ゲノムの、連続的な核酸の注目領域を指す。ビンは、エキソン、イントロン、又は遺伝子内のものであり得る。ビン又はビン領域は、変異体を含むことがあり、したがって、一般に、固定された核酸配列ではなくゲノムの位置又は領域を指す。ビンのカウントは、リード・レベルではなくフラグメント・レベルで行われる。例えば、遺伝子Ａ及びＢは、図２２に示すように、個々のビン（網掛区域）を標的とする種々のプローブを有することができる。図２３は、リードではなくフラグメントに基づくビン・カウントの模式的表示である。ビンと重なるフラグメントは、そのビンに対するビン・カウントに寄与する。単一のフラグメントが複数のビンのビン・カウントに寄与することができる。したがって、各フラグメントについて、それが重なるすべての標的が見いだされる。リード・フィルタリングを行って、適正にアライメントしたペア、非ＰＣＲ複製、正のストランド（二重カウントを避けるため）及びＭＡＰＱ＞２０を判定する。

特定の実施形態において、プローブ標的選択を改善して、シーケンシング・データへのノイズの導入を低減することができる。例えば、１つの技術において、プローブ選択は、概説するように行うことができる。すなわち、各遺伝子に対して、ＧＣ含量が０．３と０．８との間の標的の数を同定する。その数が２０未満の場合、現在のプローブ設計でカバーされない領域を同定する。等しく間隔を空けたサイズ１４０ｂｐのウインドウを作成し、各ウインドウに対してＧＣ及びマッパビリティ（ｍａｐｐａｂｉｌｉｔｙ）（７５マー（ｍｅｒ））を計算する。マッパビリティ及びＧＣ含量によって上位Ｋウインドウを選択する。性別分類に使用されるＹ染色体の場合、マッパビリティが１、かつＧＣが０．４と０．６との間の４０領域をランダムに選択する。図２４は、例示的なビンの名称及び特性の表であり、試験されるビンの開始部位及び終了部位、ＧＣ含量、及び特定の遺伝子について判定された品質を示す。

図２５は、プローブに対する標的サイズ分布のプロットである。図２６は、遺伝子メジアンの絶対分布、並びに標的の数及び標的のＧＣ含量に対する比較を示す。１つの実施形態において、ｇＤＮＡサンプルにおける遺伝子ＭＡＤを安定化するには２０個の良い標的（３０−８０％ＧＣ）で十分である（中央のプロット）。

１つの実施形態において、プローブセット２Ｃにおける１７０遺伝子のうち１１６個は、２０個未満の標的を有する。１０４２個の追加の標的が選択される。４９個のａｍｐ遺伝子のうち３１個は２０個未満の標的を有する。３５０個の追加の標的が選択される。Ｙ染色体の場合、４０個の標的が性別分類のために選択される。要するに、４９個のａｍｐ遺伝子すべてを少なくとも２０個の標的／遺伝子でカバーするために、３９０個の追加標的（１４０ｂｐウインドウ）をプローブセット２Ｃに追加する。ＦＧＦ４、ＣＫＤ４及びＭＹＣは、遺伝子サイズが小さいので、依然として２０個未満の標的を有する。特定の遺伝子のための遺伝子標的を表２に示す。

表２：遺伝子標的

図２７は、２９個のＦＦＰＥサンプルの性別分類及びＹ染色体カバレッジの存在を示す。Ｙ染色体は、右のプロットにおける矢印によって示される。

図２８は、カバレッジ・エンハンサーを伴う及び伴わないプローブ・カバレッジの比較を示す。図２９は、様々な遺伝子についてプローブ・カバレッジの概要を示す。

開示された技術の実施形態は、コピー数多型情報を表示するためのグラフィカル・ユーザ・インタフェースを含み、これはユーザ入力を使用する及び／又は受け取る、出力又は指示を提供する。図３０は、グラフィカル・ユーザ・インタフェース２００の例である。例えばプロセッサ（図２）による正規化技術の実行により、ＣＮＶ情報が表示される。軸に沿った変異体の数を含む表示されたＣＮＶ情報は、正規化後のものである。すなわち、取得されたシーケンシング・データについてのコピー数は、正規化を行った後、コピー数変異体について分析される。したがって、グラフィカル・ユーザ・インタフェース２００は、正規化されたＣＮＶ情報を表示する。

開示された実施形態の技術的効果は、生物学的サンプルにおける、改善された、より正確なＣＮＶの決定を含む。コピー数変異体は、遺伝子異常、がんの進行、又は他の有害な臨床症状に関連付けられることがある。したがって、改善されたＣＮＶ検出は、シーケンシング・データが、より豊富な、より意味のある情報を臨床医に提供することを可能にすることができる。さらに、開示されたＣＮＶ査定技術は、その配列がゲノムの一部のみである標的化シーケンシング技術と関連して用いることができる。このようにしてＣＮＶをより効率的なシーケンシング戦略で同定することができる。本明細書で提供される正規化技術は、シーケンシング・カバレッジ・カウントに影響を及ぼすシーケンシング・データへのバイアスの導入に対処する。

本明細書では開示の特定の特徴のみ示し、説明してきたが、当業者は多くの修正及び変更に想到するであろう。したがって、添付の特許請求の範囲は、本開示の真意の範囲内のそのような修正及び変更のすべてを網羅することが意図される。

１０：フロー図
６０：シーケンシング装置
６２：サンプル処理装置
６４：コンピュータ
２００：グラフィカル・ユーザ・インタフェース

Claims

コンピュータによって実行される、コピー数を正規化する方法であって、
ユーザからシーケンシング要求を受けて、生物学的サンプル内の１つ以上の注目領域をシーケンシングするステップと、
前記生物学的サンプルと適合しない複数のベースライン生物学的サンプル由来の前記１つ以上の注目領域から、ベースライン・シーケンシング・データを取得するステップと、
前記ベースライン・シーケンシング・データを用いて、前記１つ以上の注目領域のうちの注目領域についての少なくとも１つのコピー数ベースラインを含む、コピー数正規化情報を決定するステップと、
前記コピー数正規化情報を前記ユーザに提供するステップと、
を含むことを特徴とする方法。
前記ベースライン・シーケンシング・データが、複数のビンの各ビンについてのシーケンシング・リードカウントを代表するデータを含み、前記複数のビンの各ビンは、それぞれの注目領域に関連付けられることを特徴とする請求項１に記載の方法。
前記ベースライン・シーケンシング・データを取得するステップが、標的化シーケンシング・パネルを用いることを含み、前記複数のビンは、前記標的化シーケンシング・パネルにおける前記注目領域に対応する配列を用いて定められることを特徴とする請求項２に記載の方法。
前記ベースライン・シーケンシング・データを取得するステップが、全ゲノムシーケンシング・データを取得することを含むことを特徴とする請求項２に記載の方法。
前記シーケンシング・リードカウントが、各ビンに対応する前記ベースライン・シーケンシング・データにおける個々のシーケンシング・リードの数の尺度であることを特徴とする請求項２に記載の方法。
前記複数のビンの各ビンについて、メジアン・シーケンシング・リードカウント、メジアン絶対偏差、ＧＣ含量、及びサイズのうちの１つ以上を決定するステップを含むことを特徴とする請求項３に記載の方法。
前記コピー数正規化情報を決定するステップの前に、前記ベースライン・シーケンシング・データから、低メジアン、大きいメジアン配列カバレッジ絶対偏差、所定の範囲外のＧＣ含量、又はサイズ閾値を下回るサイズのうちの１つ以上を有する、前記複数のビンからのビンを排除又はマスクするステップを含み、前記コピー数正規化情報が、前記排除又はマスクするステップ後に残ったビンのみを用いて決定されるようにすることを特徴とする請求項６に記載の方法。
前記ビンを排除又はマスクするステップが、メジアン配列カバレッジ・カウントが０．２５未満のビンを排除又はマスクすることを含むことを特徴とする請求項７に記載の方法。
前記ビンを排除又はマスクするステップが、閾値を上回る絶対偏差を有するメジアン配列カバレッジを有するビンを排除又はマスクすることを含むことを特徴とする請求項７に記載の方法。
前記ビンを排除又はマスクするステップが、ＧＣ含量が２５％未満又は８０％より大きいビンを排除又はマスクすることを含むことを特徴とする請求項７に記載の方法。
前記ビンを排除又はマスクするステップが、標的サイズが２０塩基未満のビンを排除又はマスクすることを含むことを特徴とする請求項７に記載の方法。
前記コピー数ベースラインを決定するために、各ビンについて前記ベースライン・シーケンシング・データをクラスタリングするステップを含み、前記コピー数ベースラインは、前記注目領域に関連付けられた前記複数のビンのビン毎のメジアン・シーケンシング・リードカウントから生成されることを特徴とする請求項２に記載の方法。
前記複数のビンの追加のビンについてコピー数ベースラインを決定するステップを含むことを特徴とする請求項１２に記載の方法。
前記生物学的サンプルは個体由来のサンプルであり、複数のベースライン・サンプルは異なる個体由来のサンプルであることを特徴とする請求項１に記載の方法。
前記生物学的サンプルは個体の腫瘍組織由来であり、複数のベースライン・サンプルはその個体由来ではない正常組織由来であることを特徴とする請求項１に記載の方法。
前記ユーザから前記生物学的サンプルのシーケンシング・データを受け取り、前記シーケンシング・データが前記注目領域における前記コピー数ベースラインからの変動を含むことを判定するステップを含むことを特徴とする請求項１に記載の方法。
前記変動の指標を生成し、前記指標を前記ユーザに提供するステップを含むことを特徴とする請求項１６に記載の方法。
前記指標が、前記注目領域についての前記コピー数ベースラインに対する、前記生物学的サンプルのコピー数における倍率変化であることを特徴とする請求項１７に記載の方法。
前記シーケンシング・データが前記注目領域における前記コピー数ベースラインからの変動を含むことを判定するステップの前に、前記シーケンシング・データにおける外れ値ビンをマスクするステップを含むことを特徴とする請求項１６に記載の方法。
前記外れ値ビンをマスクするステップの後、ＧＣバイアスを排除するために前記シーケンシング・データに対してｌｏｅｓｓ回帰を適用するステップを含むことを特徴とする請求項１９に記載の方法。
前記外れ値ビンをマスクするステップの後、前記シーケンシング・データを曲線にフィッティングするステップを含むことを特徴とする請求項１９に記載の方法。
前記シーケンシング・データが、エキソーム・シーケンシング・パネルを用いて取得されることを特徴とする請求項１９に記載の方法。
前記コピー数ベースラインを前記ユーザに提供するステップが、前記ユーザに対する適合サンプルを模倣し、かつ適合サンプルを用いて生成されたものではない、仮説的基準サンプルを代表する情報を提供することを含むことを特徴とする請求項１に記載の方法。
コンピュータによって実行される、コピー数多型を検出する方法であって、
生物学的サンプルから、それぞれの複数の注目領域についての複数の生シーケンシング・リードカウントを含むシーケンシング・データを取得するステップと、
領域依存カバレッジ・バイアスを除去するために前記シーケンシング・データを正規化するステップと、
を含み、前記正規化するステップは、
各注目領域について、前記生物学的サンプルの領域内の１つ以上のビンの生シーケンシング・リードカウントとベースライン・メジアン・シーケンシング・リードカウントとを比較して、前記注目領域内の１つ以上のビンについてのベースライン補正シーケンシング・リードカウントを生成することを含み、ここで前記注目領域内の１つ以上のビンについての前記ベースライン・メジアン・シーケンシング・リードカウントは、前記生物学的サンプルと適合しない複数のベースライン・サンプル由来であり、各注目領域についてのベースライン・シーケンシング・データの最も代表的な部分のみから決定されたものであり、
前記ベースライン補正シーケンシング・リードカウントからＧＣバイアスを除去して、各注目領域についての正規化シーケンシング・リードカウントを生成することを含み、
前記方法は、各注目領域内の前記１つ以上のビンの前記正規化シーケンシング・リードカウントに基づいて、各注目領域内のコピー数多型を判定するステップをさらに含むことを特徴とする方法。
各注目領域が単一のビンを含むことを特徴とする請求項２４に記載の方法。
各注目領域が複数のビンを含み、前記ベースライン・メジアン・シーケンシング・リードカウントが前記複数のビンにわたるメジアンであることを特徴とする請求項２４に記載の方法。
適合した生物学的サンプルからシーケンシング・データを取得するステップを含まないことを特徴とする請求項２４に記載の方法。
前記方法がコントロールフリーであることを特徴とする請求項２４に記載の方法。
各注目領域内の前記コピー数多型に基づいて前記生物学的サンプルの臨床的状態を判定するステップを含むことを特徴とする請求項２４に記載の方法。
前記生物学的サンプルが体細胞サンプルであり、前記臨床的状態が腫瘍又は正常の指定を含むことを特徴とする請求項２９に記載の方法。
各注目領域についての前記ベースライン・メジアン・シーケンシング・リードカウントが前記ベースライン・シーケンシング・データのクラスタリングによって決定されることを特徴とする請求項２４に記載の方法。
第１の注目領域についての第１のベースライン・メジアン配列カバレッジ・カウントが、前記複数のベースライン・サンプルの第１のサブセットに由来し、第２の注目領域についての第２のベースライン・メジアン配列カバレッジ・カウントが、前記第１のサブセットとは異なる前記複数のベースライン・サンプルの第２のサブセットに由来することを特徴とする請求項２４に記載の方法。
前記シーケンシング・データを正規化するステップの前に、前記シーケンシング・データから外れ値ビンを除去又はマスクするステップを含むことを特徴とする請求項３２に記載の方法。
前記シーケンシング・データを正規化するステップが、前記外れ値ビンを除去又はマスクするステップの後、前記シーケンシング・データにｌｏｅｓｓ回帰を適用して前記シーケンシング・データを曲線にフィッティングすることを含むことを特徴とする請求項３３に記載の方法。
前記領域依存カバレッジ・バイアスが、ＧＣバイアス、ＰＣＲバイアス、又はＤＮＡ品質バイアスのうちの１つ以上を含むことを特徴とする請求項２４に記載の方法。
コンピュータによって実行される、標的化シーケンシング・パネルを査定する方法であって、
標的化シーケンシング・パネルに対して、それぞれの複数の遺伝子の部分に対応する第１の複数の標的をゲノム内で同定するステップと、
前記第１の複数の標的の各々のＧＣ含量を判定するステップと、
前記第１の複数の標的のうち所定の範囲外のＧＣ含量を有する標的を排除して、前記第１の複数の標的より小さい第２の複数の標的を得るステップと、
前記排除の後、個々の遺伝子が、その個々の遺伝子の部分に対応する標的を所定の数のより少なく有する場合、前記個々の遺伝子内で追加の標的を同定するステップと、
前記追加の標的を前記第２の複数の標的に追加して、第３の複数の標的を得るステップと、
前記第３の複数の標的に対して特異的なプローブを含むシーケンシング・パネルを提供するステップと
を含むことを特徴とする方法。