JP6829211B2

JP6829211B2 - 癌スクリーニング及び胎児分析のための変異検出

Info

Publication number: JP6829211B2
Application number: JP2017559756A
Authority: JP
Inventors: ユイク−ミーンデニスロ; ロッサワイクーンチーウ; クワンチーチャン; ペイヨーンジアーン
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2015-02-10
Filing date: 2016-02-14
Publication date: 2021-02-10
Anticipated expiration: 2036-02-14
Also published as: EP3256605B1; EP4012715A1; US10240209B2; HK1244515A1; CN113957124A; HK1251018A1; AU2016218631A1; US20220127683A1; TW201700732A; US20170073774A1; TW202400808A; JP2021061861A; US20190153541A1; ES2908347T3; TWI817187B; TWI740817B; US11168370B2; EP3256605A1; SG11201706529TA; CA2976303A1

Description

関連出願の相互参照
本出願は、２０１５年２月１０日に出願された「ＤｅｔｅｃｔｉｎｇＣａｎｃｅｒ」と題される米国仮特許出願第６２／１１４，４７１号、及び２０１５年１２月２２日に出願された「ＤｅｔｅｃｔｉｎｇＤｅＮｏｖｏＭｕｔａｔｉｏｎｓ」と題される米国仮特許出願第６２／２７１，１９６号の利益を主張し、かつこれらのＰＣＴ出願であり、これらの内容全体は、あらゆる目的において参照により本明細書に組み込まれている。

本出願はまた、２０１３年３月１３日に出願されたＬｏ等の「ＭｕｔａｔｉｏｎａｌＡｎａｌｙｓｉｓＯｆＰｌａｓｍａＤＮＡＦｏｒＣａｎｃｅｒＤｅｔｅｃｔｉｏｎ」と題される、自己の米国特許出願公開第２０１４／０１００１２１号（代理人整理番号８００１５−０１２０１０ＵＳ）、及び２０１３年９月２０日に出願されたＬｏ等の「Ｎｏｎ−ＩｎｖａｓｉｖｅＤｅｔｅｒｍｉｎａｔｉｏｎＯｆＭｅｔｈｙｌｏｍｅＯｆＦｅｔｕｓＯｒＴｕｍｏｒＦｒｏｍＰｌａｓｍａ」と題されるＰＣＴ出願公開第ＷＯ２０１４／０４３７６３号（代理人整理番号８００１５−０１３０１０ＰＣ）に関し、これらの開示は、あらゆる目的において参照により本明細書に組み込まれている。

腫瘍由来ＤＮＡが、癌患者の無細胞血漿／血清中に存在することが示されてきた（Ｃｈｅｎｅｔａｌ．ＮａｔＭｅｄ１９９６；２：１０３３−１０３５）。ほとんどの現行方法は、癌に関連付けられることが既知である変異の直接分析に基づいている（Ｄｉｅｈｌｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ２００５；１０２：１６３６８−１６３７３、Ｆｏｒｓｈｅｗｅｔａｌ．ＳｃｉＴｒａｎｓｌＭｅｄ２０１２；４：１３６ｒａ６８）。しかしながら、分析する所定の変異のパネルのそのような直接分析は、例えば、血漿ＤＮＡの分析による癌のためのスクリーニングにおいて低い精度を有してきた。

さらに、所定の変異のパネルを使用するそのような直接分析は、腫瘍の体質への限定された見方を提供する。したがって、腫瘍上の配列決定を実施するために、通常、外科生検を行って、腫瘍についての遺伝情報を得る。外科手術の要件は、リスク及びコストを増加させる。加えて、腫瘍の位置を探すために、外科生検を実施する前に高価なスキャニング技術が必要とされる。

したがって、癌のための広範なスクリーニング、検出、または評価を、とりわけ非侵襲的に実施するための新規の技術を提供することが望ましい。

実施形態は、癌患者、及び癌についてスクリーニングされている対象の血漿（または無細胞ＤＮＡを含有する他の試料）における体細胞変異の正確な検出に関する。これらの分子マーカーの検出は、癌患者のスクリーニング、検出、監視、管理、及び予後診断において有用となるであろう。例えば、特定された体細胞変異から変異負荷を判定することができ、変異負荷を使用して、任意のまたは様々なタイプの癌をスクリーニングすることができ、対象の腫瘍または癌の可能性についての先行知識は必要とされないことが可能である。実施形態は、癌のための療法（例えば、標的療法、免疫療法、ゲノム編集、外科手術、化学療法、栓塞治療法、抗血管新生療法）の使用を導くために有用であり得る。実施形態はまた、胎児に由来する無細胞ＤＮＡを有する母体試料を分析することによって、胎児におけるデノボ変異を特定することを対象とする。

他の実施形態は、本明細書に記載される方法に関連付けられるシステム及びコンピュータ可読媒体を対象とする。

以下の発明を実施するための形態及び添付の図面を参照することで、本発明の実施形態の性質及び利点についてのより良好な理解を得ることができる。

上位２８個の、癌において最も一般的に特定される変異の表１００を示す。異なる腫瘍ＤＮＡ分率、シーケンシング深度、ゲノム当たりの変異の数、及び探索されるゲノムの分率について、検出される変異の予期される数を示す表２００である。ＰＣＲ複製からの配列リードの割合とシーケンシング深度との間の関係を示すプロット３００である。本発明の実施形態に従い、様々な腫瘍ＤＮＡ分率での癌対象の血漿中における癌関連変異を検出する、ＰＣＲ及びＰＣＲフリープロトコルで必要とされるシーケンシング深度の間の比較を示す。本発明の実施形態に従い、様々な腫瘍ＤＮＡ分率での癌対象の血漿中における癌関連変異を検出する、ＰＣＲ及びＰＣＲフリープロトコルで必要とされるシーケンシング深度の間の比較を示す。本発明の実施形態に従い、ＨＣＣ症例において特異的であるか、妊娠女性において特異的であるか、または両方の症例において共有される高頻度の終結位置の数を示すベン図である。ＨＣＣ患者における１−Ｍｂセグメントの増加、減少、または無変化を示すプロット６００である。本発明の実施形態に従い、ダイナミックカットオフ、再アライメント、及び変異分率を使用するフィルタリングプロセス７００、ならびに腫瘍生検から特定された変異について得られたデータを示す。野生型アレルを有するものとして特定された血漿ＤＮＡ断片と比較した、ＨＣＣ患者において変異アレルを有するものとして特定された血漿ＤＮＡ断片のサイズのプロット８００を示す。本発明の実施形態に従い、ダイナミックカットオフ、再アライメント、及び変異分率を使用するフィルタリングプロセス９００、ならびに隣接する正常肝生検から特定された変異について得られたデータを示す。隣接正常肝生検から特定された２０３個の推定変異を担持する血漿ＤＮＡ断片の評価されたサイズプロファイルと、他の情報価値のない血漿ＤＮＡ分子のサイズとの比較を示す。隣接正常肝生検から特定された２０３個の推定変異を担持する血漿ＤＮＡ断片の評価されたサイズプロファイルと、他の情報価値のない血漿ＤＮＡ分子のサイズとの比較を示す。本発明の実施形態に従い、フィルタリングプロセス１１００（ダイナミックカットオフ、再アライメント、変異分率、及びサイズを使用する）、ならびに血漿から特定された変異について得られたデータを示す。本発明の実施形態に従い、フィルタリングプロセス１２００、及びより低い変異分率カットオフを使用して血漿から特定された変異について得られたデータを示す。本発明の実施形態に従い、フィルタリングプロセス１３００（ダイナミックカットオフ、再アライメント、及びサイズを使用する）、ならびに血漿から特定された変異について得られたデータを示す。血漿を使用して野生型アレルを有するものとして特定された血漿ＤＮＡ断片と比較した、変異アレルを有するものとして特定された血漿ＤＮＡ断片のサイズのプロット１４００を示す。本発明の実施形態に従い、フィルタリングプロセス１５００、及び増加したシーケンシング深度を使用して血漿から特定された変異について得られたデータを示す。変異分率の様々な値を有する座位の数（密度）を示すプロット１６００である。染色体アーム１ｐ及び１ｑに及び分布のためのｚスコアを示す。染色体アーム１ｐ及び１ｑに及び明白な変異分率を示す。本発明の実施形態に従い、特定のアレルのカウントカットオフについて、様々な変異分率及びシーケンシング深度における変異検出の予期される感度を示す表である。本発明の実施形態に従い、０．１％の偽陽性検出率での特定のアレルのカウントカットオフについて、様々な変異分率及びシーケンシング深度における変異検出の予期される感度を示す表１９００である。本発明の実施形態に従い、フィルタリングプロセス２０００、及びより緩やかなダイナミックカットオフを使用して血漿から特定された変異について得られたデータを示す。胎児及び癌シナリオにおける推定変異の数の分布を示すプロット２１００である。再アライメントを使用した場合の胎児及び癌シナリオにおける推定変異の数の分布を示すプロット２２００である。本発明の実施形態に従う再アライメントを伴わない場合のＰＰＶ及び回収率を示す表２３００である。本発明の実施形態に従う再アライメントを伴う場合のＰＰＶ及び回収率を示す表２４００である。本発明の実施形態に従い、フィルタリングプロセス２５００（ダイナミックカットオフ、再アライメント、変異分率、及びサイズを使用する）、ならびに臍帯血の血漿から特定された変異について得られたデータを示す。本発明の実施形態に従う、プロセス２５００から判定される変異ＤＮＡ断片及び野生型アレルのサイズ分布のプロット２６００である。本発明の実施形態に従い、フィルタリングプロセス２７００（ダイナミックカットオフ、再アライメント、及びサイズを使用する）、ならびにＨＣＣ試料の血漿から特定された変異について得られたデータを示す。本発明の実施形態に従う、プロセス２７００から判定される変異ＤＮＡ断片及び野生型アレルのサイズ分布のプロット２８００である。本発明の実施形態に従い、臍帯血の血漿から特定された変異について、ＳＮＰベースのフィルタリングを使用するフィルタリングプロセス２９００である。本発明の実施形態に従い、ＨＣＣ血漿から特定された変異について、ＳＮＰベースのフィルタリングを使用するフィルタリングプロセス３０００である。ヒストン修飾を有する組織の相関を示す表３１００である。個々のＳＮＰ部位で測定された胎児分率の頻度分布を示す。胎児特異的ＤＮＡ及び母体血漿中の共有ＤＮＡのサイズ分布を示す。胎児特異的ＤＮＡ断片及び共有ＤＮＡ断片の血漿ＤＮＡサイズにおける累積度数のプロットを示す。 ΔＦとして示される累積度数の差異を示す。変異アレルを有する血漿ＤＮＡ断片のサイズ分布を示す。変異アレル及び野生型アレルの血漿ＤＮＡサイズにおける累積度数のプロットを示す。 ΔＦとして示される累積度数の差異を示す。本発明の実施形態に従い、フィルタリングプロセス３３００（ダイナミックカットオフ、再アライメント、及び変異分率、及びサイズカットオフを使用する）、ならびに血漿から特定されたデノボ変異について得られたデータを示す。野生型アレルと比較した、段階Ａのフィルタリング基準を使用して血漿中で特定された推定変異を有するＤＮＡ断片のサイズプロファイルを示す。段階Ｂのフィルタリング基準を使用して血漿中で特定された推定変異を有するＤＮＡ断片のサイズプロファイルを示す。段階Ｃのフィルタリング基準を使用して血漿中で特定された推定変異を有するＤＮＡ断片のサイズプロファイルを示す。段階Ｄのフィルタリング基準を使用して血漿中で特定された推定変異を有するＤＮＡ断片のサイズプロファイルを示す。フィルタリング基準の異なる段階、すなわちＡ、Ｂ、Ｃ、及びＤを使用して特定された推定変異に対応するΔＦ値のプロファイルを示す。母体血漿試料及び臍帯血中の様々な変異タイプの頻度カウントを示す。本発明の実施形態に従う、異なるサイズフィルターにおけるＰＰＶ％及び回収率のグラフを示す。は、異なる変異分率カットオフにおけるＰＰＶ％及び回収率のグラフを示す。異なる変異分率カットオフでの様々なサイズフィルターにおけるＰＰＶ％及び回収率のグラフを示す。異なる変異分率カットオフでの様々なサイズフィルターにおけるＰＰＶ％及び回収率のグラフを示す。異なる変異分率カットオフでの様々なサイズフィルターにおけるＰＰＶ％及び回収率のグラフを示す。異なる変異分率カットオフでの様々なサイズフィルターにおけるＰＰＶ％及び回収率のグラフを示す。サイズカットオフの関数として異なる変異分率カットオフでの回収率及びＰＰＶ％の曲線を示すプロットである。４７個のデノボ変異の表を示す。４７個のデノボ変異の表を示す。４７個のデノボ変異及び３，０００個の推定体細胞変異の検出における回収率及びＰＰＶを示す。可変量の変異での様々なシーケンシング深度及び腫瘍分率についてのシミュレーションを示す。可変量の変異での様々なシーケンシング深度及び腫瘍分率についてのシミュレーションを示す。可変量の変異での様々なシーケンシング深度及び腫瘍分率についてのシミュレーションを示す。可変量の変異での様々なシーケンシング深度及び腫瘍分率についてのシミュレーションを示す。可変量の変異での様々なシーケンシング深度及び腫瘍分率についてのシミュレーションを示す。可変量の変異での様々なシーケンシング深度及び腫瘍分率についてのシミュレーションを示す。本発明の実施形態に従う、ヒト対象の生体試料を分析することによってヒト対象における体細胞変異を特定するための方法４７００を示すフローチャートである。本発明の実施形態に従う、特定された体細胞変異を使用して、対象の生体試料を分析する方法４８００を示すフローチャートである。本発明の実施形態に従う、胎児を懐胎する女性対象の生体試料を分析することによって胎児のデノボ変異を特定するための方法４９００を示すフローチャートである。本発明の実施形態に従うシステム及び方法と共に使用可能な、例示的なコンピュータシステム１０のブロック図である。用語

「生体試料」という用語は、ある対象（例えば、ヒト、癌を有する人物、癌を有する疑いがある人物、癌のためにスクリーニングされる人物、妊娠女性、または他の有機体）から取得される任意の試料を指す。生体試料には、無細胞ＤＮＡが含まれ得、そのいくつかは健常細胞に起源を持ち、いくつかは腫瘍細胞に起源を持ち得る。無細胞ＤＮＡは、血液もしくはその構成成分（例えば、血漿もしくは血小板）、もしくはその誘導体（例えば、血清）、または他の体液、例えば、尿、尿生殖路からの他の体液、汗、胸水、腹水、腹膜液、唾液、涙、乳頭分泌、脳脊髄液、眼内液、羊水、及び子宮灌流液中に見出すことができる。非体液の例は、下痢性の体液と混合され得る大便試料である。かかる試料のいくつかについて、生体試料は、非侵襲的に得ることができる。いくつかの実施形態では、生体試料は、生得的試料として使用することができる。

本明細書で使用される場合、「座位（ｌｏｃｕｓ）」またはその複数形「座位（ｌｏｃｉ）」は、異なる個体のゲノムにわたる変動、またはある個体中の異なる細胞（例えば、腫瘍細胞と健常細胞との間）にわたる変動を有し得る任意の長さのヌクレオチド（または塩基対）の位置またはアドレスである。

本明細書で使用される場合、「ランダム配列決定」という用語は、配列決定手順の前に、配列決定される核酸断片が具体的に特定または既定されていない配列決定を指す。特定の遺伝子座位を標的とするための配列特異的プライマーは必要とされない。一実施形態では、断片の端部にアダプターを付加し、配列決定のためのプライマーをアダプターに結合させる。よって、任意の断片を同じプライマーで配列決定することができ、よって、配列決定はランダムであり得る。ランダム配列決定を使用して大規模並列配列決定（ｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｓｅｑｕｅｎｃｉｎｇ）を実施してもよい。

本明細書で使用される場合、「配列タグ」（配列リードとも称される）という用語は、核酸分子の任意の部分またはその全てから配列決定されたヌクレオチドの列を指す。例えば、配列決定されたタグは、核酸断片から配列決定されたヌクレオチドの短い列（例えば、約３０個）、核酸断片の両端のヌクレオチドの短い列、または生体試料中に存在する核酸断片の全体の配列決定であってもよい。核酸断片は、より大きい核酸分子の任意の一部である。断片（例えば、遺伝子）は、より大きい核酸分子の他の部分と別個に（すなわち、接続していない）存在し得る。

「配列変異体」（変異体とも称される）は、有機体の生得的ゲノムまたは親ゲノムであり得る参照ゲノムとの差異に対応する。配列変異体は、一塩基変異体（ＳＮＶ）及び２つ以上のヌクレオチドが関与する変異体を含む。ＳＮＶの例としては、一塩基多型（ＳＮＰ）及び点変異が挙げられる。例として、変異は、「デノボ変異」（例えば、胎児の生得的ゲノムにおける新規の変異）または「体細胞変異」（例えば、腫瘍中の変異）であり得る。野生型アレルは、生得的ゲノム中の有れるに対応吸する野生型アレルに対応する。生得的ゲノムは、対象がその座位において異型接合である場合、２つの野生型アレルを含有し得る。野生型配列変異体は、生得的ゲノム中の特定の位置における配列に対応する。生得的ゲノムは、対象がその座位において異型接合である場合、２つの野生型配列変異体を含有し得る。

「体細胞変異」は、出生後に発生する、組織または細胞における変異を指す。有機体は、ＤＮＡ複製におけるエラーに起因して、または発癌物質もしくは他の環境要因への曝露の結果として、経時的により多くの変異を蓄積する。典型的に、ヒトは、細胞***ごとに、細胞当たり１つの変異を獲得する。しかし、個別的には、これらは非クローン性であるため、かかる変異は組織中で非常に低い濃度で存在する。しかしながら、腫瘍関連変異は、クローン性に増幅し、腫瘍組織中でより高い分率濃度で存在する。癌における異なる変異の分率濃度は、腫瘍異質性に起因して異なり得る。これは、腫瘍が、典型的には、多くの異なるクローンからなり、各クローンが、それらの独自の変異プロファイルを有することを意味する。

「癌関連変化」または「癌特異的変化」は、癌由来変異（一塩基変異、ヌクレオチドの欠失または挿入、遺伝子または染色体セグメントの欠失、転座、反転を含む）、遺伝子、遺伝子セグメント、または染色体セグメントの増幅、ウイルス関連配列（例えば、ウイルスエピソーム及びウイルス挿入）、異常メチル化プロファイルまたは腫瘍特異的メチル化シグネチャ、異常無細胞ＤＮＡサイズプロファイル、異常ヒストン修飾マーク及び他のエピジェネティックな修飾、ならびに癌関連または癌特異的である無細胞ＤＮＡ断片の端部の位置を含むが、これらに限定されない。

「情報価値のある癌ＤＮＡ断片」は、癌関連または癌特異的な変化または変異のうちの任意の１つ以上を保持または担持するＤＮＡ断片に対応する。「情報価値のある胎児ＤＮＡ断片」は、両親のゲノムのいずれにも見出されない変異を担持する胎児ＤＮＡ断片に対応する。「情報価値のあるＤＮＡ断片」は、ＤＮＡ断片の上記のタイプのいずれかを指し得る。

「シーケンシング深度」という用語は、座位が、座位にアラインされた配列リードによってカバーされる回数を指す。座位は、ヌクレオチドの小ささ、または染色体アームの大きさ、またはゲノム全体の大きさであってもよい。シーケンシング深度は、５０ｘ、１００ｘ等と表され、「ｘ」は、座位が配列リードでカバーされる回数を指す。配列リードはまた、複数の座位またはゲノム全体に適用され得、その場合、ｘは、座位またはゲノム全体がそれぞれ配列決定される平均回数を指す。ウルトラディープ配列決定は、少なくとも１００ｘのシーケンシング深度を指し得る。

「シーケンシング幅」という用語は、特定の参照ゲノム（例えば、ヒト）またはゲノムの部分のどの分率が分析されたかを指す。分率の分母はリピートマスクされたゲノムであってもよく、よって、１００％は、全ての参照ゲノムからマスクされた部分を減算したものに相当する。ゲノムの任意の部分をマスクすることができ、よって、分析において、参照ゲノムの任意の特定の部分に焦点を当てることができる。広範な配列決定は、例えば、参照ゲノムのその部分にアラインする配列リードを特定することによって、少なくとも０．１％のゲノム分析することを指し得る。

「網羅的配列決定」は、試料、例えば血漿中のほぼ全ての実質的に分析可能な臨床関連または生物学的関連核酸断片から分子情報を得ることを指す。試料調製ステップ、配列決定用ライブラリ調製ステップ、配列決定、塩基割当、及びアライメントにおける制限によって、試料中の血漿核分子（例えば、ＤＮＡまたはＲＮＡ）の全てが分析可能または配列決定可能ではない。

「分析可能なＤＮＡ分子」は、全ての分析ステップを順調に通過し、配列決定を含む任意の好適な手段によって分析及び検出される任意のＤＮＡ分子を指す。「配列決定可能なＤＮＡ分子」は、全ての分析ステップを順調に通過し、生物情報学的に配列決定及び検出される任意のＤＮＡ分子を指す。よって、網羅的配列決定は、有限血漿試料中のできるだけ多くの臨床関連または生物学的関連ＤＮＡ分子（例えば、情報価値のあるＤＮＡ断片）を配列決定可能な分子に形質転換する能力を最大化するために行われる手順を指し得る。かかる手順を使用して配列決定可能なＤＮＡ分子の配列決定用ライブラリを作製した後に、ライブラリの全てまたは一部を配列決定することができる。有限試料から配列決定可能なＤＮＡ分子を実際に完全に消費して配列情報を得た場合、これを「全鋳型配列決定」と称することができ、これは網羅的配列決定の範囲の１つに相当する。

試料の「変異負荷」は、測定された変異の数に基づく測定値である。変異負荷は、変異の未処理数、塩基の数当たりの変異の密度、変異を有するものとして特定されたゲノム領域の座位の割合、特定量（例えば、体積）の試料において認められた変異の数、及び参照データまたは前回の評価と比較した比例増加または倍数増加等の様々な手法で判定することができる。「変異負荷評価」は、試料の変異負荷の測定を指す。

スクリーニング試験の「陽性的中率（ＰＰＶ）」は、試験によって特定された真陽性（ＴＰ）の数を指し、これは、試験によって分類された真陽性及び偽陽性（ＦＰ）の和に対する割合、例えば、ＴＰ／（ＴＰ＋ＦＰ）として表される。「陰性的中率（ＮＰＶ）」は、試験によって特定された真陰性（ＴＮ）の数を指し、これは、試験によって分類された真陰性及び偽陰性（ＦＮ）の和に対する割合、例えば、ＴＮ／（ＴＮ＋ＦＮ）として表される。

「生得的ゲノム」（ＣＧとも称される）は、ゲノム内の座位にあるコンセンサスヌクレオチドで構成され、よって、コンセンサス配列と考えられ得る。ＣＧは、対象（例えば、ヒトゲノム）の全ゲノムをカバーしてもよく、またはゲノムの一部のみをカバーしてもよい。生得的ゲノム（ＣＧ）は、細胞のＤＮＡならびに無細胞ＤＮＡ（例えば、血漿中で見出されるように）から得ることができる。理想的には、コンセンサスヌクレオチドは、座位が１つのアレルについて同型接合であるか、または２つのアレルについて異型接合であることを示すべきである。異型接合座位は、典型的には、遺伝的多型のメンバーである２つのアレルを含有する。例として、座位が異型接合であるかどうかを判定する基準は、それぞれが座位にアラインされたリードに少なくとも所定の割合（例えば、３０％または４０％）で出現する、２つのアレルの閾値であり得る。１つのヌクレオチドが十分な割合（例えば、７０％以上）で出現する場合、座位はＣＧにおいて同型接合であると判定することができる。細胞***中に自然発生するランダム変異に起因して、１つの健常細胞のゲノムは、別の健常細胞のゲノムと異なり得るが、かかるコンセンサスが使用される場合、ＣＧは変化し得ない。いくつかの細胞、例えば、Ｂ及びＴリンパ球はそれぞれ、抗体及びＴ細胞受容体遺伝子を巻き込むこと等のゲノム再編成を伴うゲノムを有し得る。かかる大規模な差異は、血液中の全有核細胞集団のうちの比較的小さい集団であり、よって、かかる再編成は、血液細胞の十分な試料採取（例えば）、シーケンシング深度）による生得的ゲノムの判定に影響を及ぼすことはないであろう。口腔細胞、皮膚細胞、毛包、または様々な正常体組織の生検を含む他の細胞タイプもまた、ＣＧの供給源として機能し得る。

「生得的ＤＮＡ」という用語は、対象が持って生まれた遺伝的体質を反映するＤＮＡの任意の供給源を指す。ランダム変異は、細胞***中に発生し得る。癌関連変異とは異なり、ランダム変異のクローン性増幅は存在しない。よって、生得的ＤＮＡのコンセンサス配列から得られたＣＧは、対象が持って生まれた遺伝的体質を反映する。対象において、生得的ＤＮＡが得られる「生得的試料」の例としては、健常血液細胞ＤＮＡ、口腔細胞ＤＮＡ、毛根ＤＮＡ、唾液ＤＮＡ、及び皮膚擦過からのＤＮＡが挙げられる。これらの健常細胞からのＤＮＡは、対象のＣＧを規定する。細胞は、例えば、ある人物が癌を有しないことが既知である場合、または試料が癌性もしくは前悪性細胞（例えば、肝癌が疑われる場合の毛根ＤＮＡ）を含有する可能性が低い組織から得られる場合等、多様な手法で健常であると特定することができる。別の例として、血漿試料は、患者が癌を有しない場合に得ることができ、判定された生得的ＤＮＡは、後続の血漿試料（例えば、１年後またはそれ以上）からの結果と比較される。別の実施形態では、腫瘍ＤＮＡの＜５０％を含有する単一の生体試料を使用して、生得的ゲノム及び腫瘍関連遺伝的改変を推測することができる。かかる例において、腫瘍関連一塩基変異の濃度は、ＣＧ中の異型接合ＳＮＰの各アレルのものよりも低くなる。かかる試料は、以下に記載する試料ゲノムを判定するために使用される生体試料と同じであってもよい。

「試料ゲノム」（ＳＧとも称される）は、ゲノム（例えば、ヒトゲノム）の位置にアラインされた配列リードのコレクションである。試料ゲノム（ＳＧ）は、コンセンサス配列ではないが、十分な数のリード（例えば、少なくとも２つもしくは３つ、またはより高いカットオフ値）にのみ出現するヌクレオチドを含む。アレルが十分な回数で出現し、ＣＧの一部ではない（すなわち、コンセンサス配列の一部でない）場合、そのアレルは、「一塩基変異」（ＳＮＭとも称される）を示し得る。他のタイプの変異、例えば、２つ以上のヌクレオチドが関与する変異（マイクロサテライト中のタンデムリピートユニットまたはシンプルタンデムリピート多型の数に影響を及ぼすもの等）、染色体転座（染色体内または染色体間であってもよい）、及び配列反転もまた検出することができる。

「参照ゲノム」（ＲＧとも称される）は、生体試料及び生得的試料からの配列リードがアライン及び比較され得る、半数または倍数ゲノムを指す。半数ゲノムについて、各座位において１つのヌクレオチドのみが存在する。倍数ゲノムについて、異型接合座位が特定され得、かかる座位は２つのアレルを有し、いずれかのアレルが、座位へのアライメントへのマッチングを可能にする。

「癌のレベル」という用語は、癌が存在するかどうか、癌の段階、腫瘍のサイズ、治療への癌の応答性、及び／または癌の重症度もしくは進行性についての他の尺度を指し得る。変異負荷を使用して、癌のレベルを判定することができる。癌がより進行している程、変異負荷はより高くなる。癌のレベルは、数または他の特徴、例えば文字もしくは他のシンボルであってもよい。レベルは、ゼロであってもよい。癌のレベルはまた、変異または変異の数に関連付けられる前悪性または前癌性の病態（状態）を含む。癌のレベルは、様々な手法で使用することができる。例えば、スクリーニングにより、癌を有することが今まで既知ではなかったある人物において癌が存在するかどうかを確認することができる。評価により、癌と診断されたある人物を調べることができる。検出とは、「スクリーニング」を意味し得、あるいは癌を示唆する特徴（例えば、症状または他の陽性試験）を有するか、もしくは癌の危険因子（例えば、喫煙もしくはアルコール摂取等の習慣、またはウイルス感染、例えば肝炎ウイルス感染の既往歴）を有するある人物が、癌を有するかどうかを確認することを意味し得る。

本明細書で使用される場合、「分類」という用語は、ある試料のある特定の特性に関連付けられる任意の数（複数可）または他の特徴（複数可）を指す。例えば、「＋」記号（または「陽性」という単語）は、試料が特定のレベルの癌を有するものとして分類されることを示し得る。分類は、二元性（例えば、陽性または陰性）であってもよく、またはより多くのレベルの分類（例えば、１〜１０もしくは０〜１のスケール）を有してもよい。「カットオフ」及び「閾値」という用語は、ある捜査において使用される所定の数を指す。閾値は、それを超えるか、またはそれ未満であると特定の分類が適用される値であり得る。カットオフは、試料またはその人物の特徴に関連して、または関連せずに既定され得る。例えば、カットオフは、試験される個体の年齢または性別に基づいて選択され得る。カットオフは、試験データの出力後に、それに基づいて選択され得る。例えば、試料の配列決定が特定の深度に達したときに、特定のカットオフを使用する場合がある。

（例えば、癌に起因する、または胎児における）有機体の生体試料における変異の特定は、配列決定エラー及び他の障害の蔓延によって妨害される。実施形態は、有機体の無細胞ＤＮＡ分子（断片）を分析することによって有機体における変異を正確に特定するための技巧を提供する。非侵襲的に得られた試料の胎児分析において、胎児の無細胞ＤＮＡ分子は、妊娠女性の無細胞ＤＮＡ分子も含有する母体試料（例えば、母体血漿）におけるものである。特定の配列決定技巧（例えば、ＰＣＲフリー配列決定用ライブラリの調製）及び特定のフィルタリング基準を使用することで、有意な数の真性の変異（偽陽性に対して）を特定することができるか、または検出される真性の変異の割合が実質的に向上する。

十分なシーケンシング深度及びシーケンシング幅が使用される場合、対象の変異負荷の正確な測定を判定することができ、それにより、対象における癌のレベルの評価が可能になる。以下に、癌の検出、監視、及び予後診断のためのＤＮＡに基づく腫瘍マーカー（例えば、血漿中）の要件について、理論基礎及び実践的実施が記載される。

Ｉ．癌のための変異マーカー
個体において癌が存在するか、または存在する可能性が高いことを特定するための明確な変異マーカーまたは他のマーカーを有する癌は多くない。かかるマーカーが存在する場合であっても、特定の癌に固有である既知のマーカーは概して少ない。よって、かかる変異マーカーが高濃度では存在しない血漿または無細胞ＤＮＡを有する他のかかる試料において癌を検出することは困難であり得る。１つの例外は、上咽頭癌（ＮＰＣ）患者におけるエプスタインバーウイルス（ＥＢＶ）ＤＮＡである。故に、中国でのほとんどのＮＰＣ症例において、ＥＢＶＤＮＡは、ＮＰＣ腫瘍細胞の核中に発見され得る（Ｔｓａｎｇｅｔａｌ．ＣｈｉｎＪＣａｎｃｅｒ２０１４；３３：５４９−５５５）。さらに、ＥＢＶＤＮＡは、ＮＰＣ患者の血漿中に発見され得る（Ｌｏｅｔａｌ．ＣａｎｃｅｒＲｅｓ１９９９；５９：１１８８−１１９１）。

この例は、特定のタイプの癌のスクリーニングをするためのパネルの点変異を使用して癌のためのスクリーニングをするのに十分なデータを得ることの困難性を示すために使用される。この例はさらに、癌スクリーニングの感度に達するために血漿中で多くの変異を検出する必要性を示す。

Ａ．ＮＰＣ患者におけるＥＢＶＤＮＡ
ＮＰＣは、ＥＢＶ感染に密接に関連付けられる。中国南部において、ＥＢＶゲノムは、ほとんど全てのＮＰＣ患者においてその腫瘍組織中で発見され得る。ＮＰＣ組織に由来する血漿ＥＢＶＤＮＡは、ＮＰＣのための腫瘍マーカーとして開発されてきた（Ｌｏｅｔａｌ．ＣａｎｃｅｒＲｅｓ１９９９；５９：１１８８−１１９１）。この腫瘍マーカーは、ＮＰＣの監視（Ｌｏｅｔａｌ．ＣａｎｃｅｒＲｅｓ１９９９；５９：５４５２−５４５５）及び予後診断（Ｌｏｅｔａｌ．ＣａｎｃｅｒＲｅｓ２０００；６０：６８７８−６８８１）に有用であることが示されてきた。リアルタイムＰＣＲを使用した血漿ＥＢＶＤＮＡ分析は、無症候性の対象における早期ＮＰＣの検出に有用であり、潜在的にＮＰＣのスクリーニングに有用であり得ることが示されてきた（Ｃｈａｎｅｔａｌ．Ｃａｎｃｅｒ２０１３；１１９：１８３８−１８４４）。この先行研究において、血漿ＥＢＶＤＮＡ分析に使用されたリアルタイムＰＣＲアッセイは、ＥＢＶゲノムのＢａｍＨＩ−Ｗ断片を標的とした。各ＥＢＶゲノム中には、約６〜１２個のＢａｍＨＩ−Ｗ断片が存在し、各ＮＰＣ腫瘍細胞中には、およそ５０個のＥＢＶゲノムが存在する（Ｌｏｎｇｎｅｃｋｅｒｅｔａｌ．ＦｉｅｌｄｓＶｉｒｏｌｏｇｙ，５^ｔｈＥｄｉｔｉｏｎ，Ｃｈａｐｔｅｒ６１「Ｅｐｓｔｅｉｎ−Ｂａｒｒｖｉｒｕｓ」、Ｔｉｅｒｎｅｙｅｔａｌ．ＪＶｉｒｏｌ．２０１１；８５：１２３６２−１２３７５）。言い換えると、各ＮＰＣ腫瘍中に、ＰＣＲ標的の約３００〜６００個（例えば、約５００個）のコピーが存在することになる。腫瘍細胞ごとの標的の多さは、血漿ＥＢＶＤＮＡが早期ＮＰＣの検出においてそれほど敏感である理由を説明し得る。

Ｂ．ＥＢＶＤＮＡのための標的配列決定
上記の例に示されるように、血漿ＥＢＶＤＮＡのリアルタイムＰＣＲ分析の高感度は、各ＮＰＣ腫瘍ゲノム中のＰＣＲ標的の複数のコピーの存在に関連している。したがって、癌患者の血漿中での検出を図る腫瘍関連標的の数のさらなる増加は、血漿ＤＮＡ分析の感度及び臨床有用性をさらに増加させるであろうと推論する。ＮＰＣ患者の血漿中のＥＢＶＤＮＡ分子は、主に、１８０ｂｐ未満の短い断片である（Ｃｈａｎｅｔａｌ．ＣａｎｃｅｒＲｅｓ２００３；６３：２０２８−２０３２）。ＥＢＶゲノムのサイズがおよそ１７２ｋｂであるため、各ＥＢＶゲノムは、およそ１，０００個の血漿ＤＮＡ断片に断片化されることになる。よって、ＮＰＣ腫瘍細胞中の５０個のＥＢＶゲノムは、約５０，０００個の血漿ＤＮＡ断片に断片化され、ＮＰＣ患者の循環中に放出されることになる。

これらの５０，０００個の腫瘍由来ＥＢＶＤＮＡ断片のうちのより多くを標的とすればするほど、達成可能なＥＢＶ関連癌の検出の感度がより高くなると推論する。分析における使用のためのＥＢＶゲノムのうちの５％、１０％、２０％、２５％、３０％、４０％、５０％、７５％、９０％、または９９％を検出することができる。ヒトゲノムから生物情報学的に識別可能なＥＢＶゲノムの一部を標的とすることを目指すことができる。

血漿中のＥＢＶゲノム標的の高い重複性の検出によってもたらされる検出の高感度は、治癒目的の放射線療法を受ける患者における疾患再発の検出において、特に重要である。治癒目的の放射線療法を受ける患者における再発性ＮＰＣの検出率は、治療未経験のＮＰＣの検出率に劣る（Ｌｅｕｎｇｅｔａｌ．ＣｌｉｎＣａｎｃｅｒＲｅｓ２００３；９：３４３１−３１３４）。ＢａｍＨＩ−Ｗ断片を標的とするリアルタイムＥＢＶＤＮＡＰＣＲを使用した、癌の２つの群における全検出率は、それぞれ、６２．５％及び９６．４％であった。かかる高検出率は、あらゆるスクリーニング技巧における高い重複性の必要性を示す。高度に相関する標的におけるかかる高い重複性は、典型的には、他の癌では利用可能ではない。

血漿中のＥＢＶゲノム標的の高い重複性（または後に記載される推測される変異）の検出は、前者の群における検出率を増加させることが予期される。このアプローチの別の有用性は、ＮＰＣのスクリーニングにある。スクリーニングにおいて、早期癌を検出可能であることが特に重要である。高感度の血漿ＥＢＶＤＮＡ検出システムは、この目的を可能にすることができる。後に説明されるように、実施形態は、所定の変異マーカーまたは他の分子マーカーの使用を必要とせずに高感度検出を提供し得る。

ＩＩ．癌のためのスクリーニング
癌のためのスクリーニングにおける問題は、患者がどのような種類の癌を有するか、または罹らせるかについて既知でない場合があることである。別の問題は、個体が、１つ以上のタイプの癌の影響を受けやすい場合があることである。したがって、実施形態は、対象の生体試料から変異を特定し、そのため、所定の変異パネルのみについてスクリーニングする必要性がない。試料中の無細胞ＤＮＡからどのようにして変異を正確に特定するかについての詳細は、後の項に記載する。癌スクリーニングのプロセス及び困難性についてここに記載する。

生体試料（例えば、血漿）中で変異が特定されると、その変異を癌スクリーニングに使用することができる。スクリーニングという用語は、一般に、何らかの形態での評価を行う主体的な動作を通した疾患の特定を指す。評価ツールには、その人物の人口学的プロファイルの評価、血液検査、他の生体液の検査（例えば、尿、腹水、胸水、脳脊髄液）、組織生検の検査、内視鏡検査（例えば、大腸内視鏡検査）、及び画像検査（例えば、磁気共鳴画像法、コンピュータ断層撮影法、超音波診断法、またはポジトロン断層撮影法を介して）の実施が含まれる。評価様式の組み合わせを使用してもよく、例えば、複数の試料を使用してもよく、最終評価を提供するために結果を組み合わせてもよい。

Ａ．スクリーニングの異なるステージ及び確率論的評価
疾患スクリーニングは、一般に、疾患の異なるステージ（すなわち１次、２次、及び３次スクリーニングが挙げられるがこれらに限定されない）で適用され得る。１次スクリーニングは、症状の発症前の疾患の特定を指し、時に、無症候性スクリーニングと称される。１次スクリーニングは、一般集団、またはスクリーニングされる疾患への高いリスクを与える特徴を有する選択的な集団において実施されてもよい。例えば、喫煙者は、肺の小細胞癌への高いリスクを有する。慢性ＨＢＶキャリアは、ＨＣＣへの高いリスクを有する。２次スクリーニングは、対象が症状を呈した際の疾患の特定を指し、予測診断群との間の識別を図る必要がある。３次スクリーニングは、疾患の進行、疾患ステージもしくは重症度の増加（例えば、転移の発生）、または疾患の再発の早期特定を指す。疾患スクリーニングまたは癌スクリーニングの全てのステージにおいて、後の時点では治療選択が損なわれるかまたは効果が低減し得るため、通常、疾患の自然経過として症状を呈する前に、疾患の存在または疾患進行を特定または遮断することが目的である。

スクリーニングの行為は、確率論的評価である。一般に、スクリーニングの目的は、予測診断を除外する（すなわち、遮断する）こと、または含む（すなわち、確認する）ことである。評価は、ある人物が、疾患を発症するか、疾患を有するか、または疾患進行を有する可能性（あるいは、リスクと称される）が高いかまたは低いかを判定するためである。言い換えると、各評価の後に、対象が高いリスクを有するか、低いリスクを有するかどうかの分類が行われる。後続の評価のステージが必要とされる場合があり、繰り返し試験が実施され得る。

Ｂ．ＥＢＶ例
ＥＢＶは、スクリーニングを示す例として使用される。中年の中国南部出身の男性は、異なる人口学的プロファイルを有する人物よりもＮＰＣを発症するリスクがより高い。次いで、血漿ＥＢＶＤＮＡ試験は、この個体の１次スクリーニングツールとして適用され得る。血漿ＥＢＶＤＮＡが、ＮＰＣを有する個体を識別するために使用されるカットオフ未満である場合、この人物は、現時点でＮＰＣを有する可能性は低いと見なされる（Ｃｈａｎｅｔａｌ．Ｃａｎｃｅｒ２０１３；１１９：１８３８−１８４４）。この人物は、後に（例えば、１または２年後）、再び血漿ＥＢＶＤＮＡ試験を受けることを選択し得るか、またはそれが推奨される。

血漿ＥＢＶＤＮＡ負荷が、ＮＰＣを有するものを識別するために使用されるカットオフよりも高いか、またはその人物自身の前値から進行的増加を示す場合、この人物は、ＮＰＣを有するリスクが高いと見なされ得る。この人物には、例えば、疾患を確認するための他の試験を使用して疾患をさらに含むか除外するために、次のステージの試験が推奨され得る。例えば、２〜６週間後に、別の血漿ＥＢＶＤＮＡ試験を実施し、血漿ＥＢＶＤＮＡの上昇に持続性があるかどうかを評価することができる。疑いの度合いによって、この人物には、上咽頭の目視検査のための内視鏡検査を受けることが推奨され得、これには、ＮＰＣの存在を確認するためのさらなる組織生検及び組織学的評価が伴うか、または伴わない。あるいは、画像法（例えば、磁気共鳴画像法）を実施して、腫瘍の存在または不在を視覚化してもよい。かかる例は、どのような追加の試験を実施するべきかを既定することができるスクリーニングの利益を示す。

同じ試験を、２次及び３次スクリーニングのためのツールとして適用することができる。例証として、血漿ＥＢＶＤＮＡ試験を使用して、ＮＰＣの一般的な主症状である、反復性鼻出血（すなわち、鼻からの出血）または嗄れ声を呈する対象におけるＮＰＣの可能性を評価することができる。試験結果が、ＥＢＶＤＮＡ負荷が、疾患を有する集団及び有しない集団を識別するために使用されるカットオフよりも高い場合、この人物は、ＮＰＣを有する可能性が高いと見なされ、それにより、より高い癌のレベルを判定することになる（Ｌｏｅｔａｌ．ＣａｎｃｅｒＲｅｓ１９９９；５９：１１８８−１１９１）。次いで、この人物は、さらなる検証的試験に差し向けられ得る。他方で、血漿ＥＢＶＤＮＡ試験が、疾患を有する集団及び有しない集団を識別するために使用されるカットオフよりも低いＥＢＶＤＮＡ負荷を示す場合、ＮＰＣの可能性は低いと見なされ、他の予測診断が考慮され得る。

３次スクリーニングに関して、放射線療法による治癒療法を受けるＮＰＣ対象は、ＮＰＣ再発（ｒｅｃｕｒｒｅｎｃｅ）、換言すれば、再発（ｒｅｌａｐｓｅ）の可能性の早期特定のための血漿ＥＢＶＤＮＡ試験によって試験され得る（Ｌｏｅｔａｌ．ＣａｎｃｅｒＲｅｓ１９９９；５９：５４５２−５４５５、Ｌｏｅｔａｌ．ＣａｎｃｅｒＲｅｓ２０００；６０：６８７８−６８８１）。血漿ＥＢＶＤＮＡレベルが、対象自身の値の安定した治療後ベースラインを超えて、またはＮＰＣ再発を有する集団を識別するために使用されるカットオフを超えて増加した場合に、ＮＰＣ再発の可能性が高いと見なされる。

Ｃ．他のスクリーニング試験及び好ましい特徴
ＮＰＣの管理のための血漿ＥＢＶＤＮＡ試験の例は、癌または疾患スクリーニングがどのように実施されるかについての１つの例証としてのみ提供される。他の有効なスクリーニング試験または様式が他の癌のために開発されることが理想的である。現在のところ、他の癌のためのスクリーニング試験は、存在しないか、または乏しい性能プロファイルを有するかのいずれかである。例えば、血清アルファフェトプロテイン（ＡＦＰ）は、ＨＣＣの評価に使用されるマーカーである。しかしながら、血清ＡＦＰは、乏しい感度及び特異性を示す。感度に関して、ＨＣＣのうちの５０％未満が、ＡＦＰについて陽性である。特異性に関して、他の肝臓炎症状態が、血清ＡＦＰの上昇に関連付けられ得る。

したがって、血清ＡＦＰは、無症候性の低リスクの個体のための１次スクリーニングツールとして一般的に使用されない。使用される場合、ＨＣＣの偽陰性及び偽陽性の特定が多く生じることになる。代わりに、これは、ＨＣＣを発症している疑いの度合いが高い、高リスクの個体に適用され得る。例えば、肝臓超音波で低エコーの影が示された慢性ＨＢＶキャリアは、血清について試験され得る。陽性の場合、ＨＣＣの予測診断をサポートする追加の証拠として機能する。加えて、ＨＣＣの確認された症例が、陽性または血清ＡＦＰの上昇を示す場合、血清ＡＦＰは、ＨＣＣ再発のスクリーニングのための治療後ツールとして使用され得る。

様々な公衆衛生構想の一部として実施されてきた癌スクリーニングツールの他の例としては、乳癌のためのマンモグラフィー、結腸直腸癌のための便潜血反応検査、前立腺癌スクリーニングのための血清前立腺特異的抗原検査、及び子宮頸癌のための子宮頸部スメア検査が挙げられる。疾患または疾患進行の早期特定が、無病生存期間の延長、高い生活の質の年数、及び疾患の管理における経済的節約等の健康上の利益に変換されることになるものと一般に理解されるため、多数のスクリーニングプログラムが実施されてきた。例えば、癌を早期段階または無症候段階で特定することができた場合、より単純な治療様式または副作用がより少ないものを適用することができる。例えば、腫瘍は、まだ外科的除去を考慮することができる段階にある場合がある。

一般に、スクリーニングにおいて、非侵襲的であり、かつ副作用がほとんどないツールを用いることが好ましい。侵襲的様式、または合併症の高い潜在性を有するものは、検査前の疾患の可能性が、評価に際してそのようなリスクに面することを正当化するのに十分に高い個体のために確保されている。例えば、肝生検は、肝臓超音波で低エコーの影が示された慢性ＨＢＶキャリアまたは肝硬変患者等の、ＨＣＣの非常に高い度合いの疑いを有する個体に実施される。

スクリーニング試験の性能プロファイルに関して、高い陽性的中率（ＰＰＶ）または高い陰性的中率（ＮＰＶ）のいずれかを有する試験を行うことが好ましい。任意の１つのスクリーニング指標についての実際の好ましい性能プロファイルは、スクリーニングの目的に依存する。高ＰＰＶの試験は、疾患分類を確認するか、「含む」ために一般的に使用される。高ＮＰＶの試験は、試験分類を遮断するか、「除外する」ために一般的に使用される。いくつかの試験は、高ＰＰＶ及び高ＮＰＶの両方を有する。これらは、通常、確定分類を提供することができる試験であり、例えば、組織学的検討に続く組織生検である。

Ｄ．スクリーニングのための腫瘍組織における癌特異的標的の特定
癌の検出のために、血漿ＤＮＡ中の癌細胞のゲノムに起源を持つ任意の癌関連変異の存在を検出することを目指すことができる。上記のＮＰＣにおけるＥＢＶＤＮＡの例で示されるように、血漿ＥＢＶＤＮＡ試験を使用したＮＰＣの高い臨床感度または検出率は、ＮＰＣ細胞当たり約５００個、例えば３００〜６００個の癌由来血漿ＤＮＡ断片を検出する能力に関連している。試験の感度をさらに向上させるため、または１つ以上の他のスクリーニング試験を実施するためには、癌細胞当たり３００個以上（例えば、４００、５００、６００、８００、または１，０００個以上）の癌関連断片を検出する能力が必要であり得る。

５００個超のＮＰＣのための癌特異的標的を有するため、ならびにこれを他の癌及び悪性腫瘍に一般化させるための１つの可能な手法は、対象に特異的な一塩基変異のセット、または１つ以上のヌクレオチドが関与する変異の分析であり得る。かかる対象に特異的な情報を特定するために、癌対象の腫瘍組織の大規模並列配列決定を実施することができる。対象の生得的ＤＮＡを、腫瘍組織における変異の特定のための参照として配列決定することができる。生得的ＤＮＡは、対象の任意の非悪性細胞、例えば、血液細胞及び口腔細胞（これらに限定されない）から得ることができる。一塩基変異に加えて、他の癌特異的または癌関連遺伝的及びエピジェネティックな変化（例えば、コピー数異常及び異常メチル化）もまた、癌検出のための標的として使用することができる。

かかる変化は次いで、腫瘍ＤＮＡ（例えば、どちらも無細胞ＤＮＡを含有する血漿または血清）を含有し得る対象の生体試料において検出され得る。一実施形態では、血漿ＤＮＡ分析を通して体の変異負荷を評価することが目的である。この特定の実施形態について、対象に特異的な癌関連変化の特定のために腫瘍組織を得る必要があるため、癌特異的変異の検出を使用して治療後の対象の進行を監視することができる。癌特異的変化の検出は、アレル特異的ＰＣＲ、大規模並列配列決定を使用するアンプリコン配列決定（例えば、タグ付けされたアンプリコンによるディープ配列決定（Ｆｏｒｓｈｅｗｅｔａｌ．ＳｃｉＴｒａｎｓｌＭｅｄ２０１２；４：１３６ｒａ６８）を使用する）、質量分析法及びマイクロアレイ分析、または本出願のいくつかの実施形態に記載されるウルトラディープ配列決定、網羅的配列決定、及び全鋳型配列決定を使用して実施することができる。

一実施形態では、各癌特異的変化を担持する血漿ＤＮＡの量の和（変異負荷の例）を判定することができ、これは、体内の癌細胞の数を反映するために使用される。後者の情報は、予後診断、監視、及び治療への応答性の評価に有用であり得る。他の実施形態では、変異負荷は、癌特異的標的の生成物、またはその量の重量平均として判定することができる。

いくつかの実施形態では、変異負荷は、以下に記載されるように、例えば、初期スクリーニング中に、試料中にどの変異が存在し得るかについての情報をほとんど伴わず、または伴わずに判定することができる。さらに、ある位置における変異及び野生型アレルの相対的な割合を使用して、血漿試料中の腫瘍由来ＤＮＡの分率濃度を推測することができる。

ＩＩＩ．癌スクリーニングのための循環無細胞ＤＮＡ変異負荷評価
癌変異を特定し、個体の変異負荷を判定するために、実施形態は、循環無細胞ＤＮＡを有する試料を分析することができる。腫瘍、癌、及び悪性腫瘍は、そのＤＮＡ量を循環中に放出することが既知である（Ｂｅｔｔｅｇｏｗｄａｅｔａｌ．ＳｃｉＴｒａｎｓｌＭｅｄ２０１４；６：２２４ｒａ２４）。よって、腫瘍、癌、及び悪性腫瘍に関連付けられる変異は、血漿及び血清中で検出することができる。かかる変異はまた、尿、他の尿生殖路の体液、乳頭分泌、唾液、胸水、腹水、及び脳脊髄液等（これらに限定されない）の他の生体液中で検出することができる（Ｔｏｇｎｅｒｉｅｔａｌ．ＥｕｒＪＨｕｍＧｅｎｅｔ２０１６、ｄｏｉ：１０．１０３８／ｅｊｈｇ．２０１５．２８１、ＤｅＭａｔｔｏｓ−Ａｒｒｕｄａｅｔａｌ．ＮａｔＣｏｍｍｕｎ２０１５、ｄｏｉ：１０．１０３８／ｎｃｏｍｍｓ９８３９、Ｌｉｕｅｔａｌ．ＪＣｌｉｎＰａｔｈｏｌ２０１３；６６：１０６５−１０６９．）。

体液と直接接触するこれらの器官から体液へ、例えば分泌器から（例えば、腎臓もしくは膀胱から）もしく生殖器から（例えば、前立腺から）尿へ、腎臓を通して血漿から尿へ、脳から脳脊髄液へ、膵臓から膵液へ、胆嚢から胆汁へ、中咽頭から唾液へ、乳細胞から乳頭分泌液へ、腹部器官から腹水へ、または肺から胸水への細胞または無細胞ＤＮＡの直接排出によって、変異はこれらの生体液中で検出することができる。加えて、これらの生体液が血漿の濾過に部分的に由来するため、変異を生体液中で検出することができる。故に、体液の部位から離れた他の器官からの腫瘍由来変異を含む、血漿中の含有量は、生体液中で検出され得る。

血漿、血清、及び他の生体液中の無細胞核酸における変異の検出は、比較的非侵襲的に、かつ腫瘍性菌の直接的評価の代わりとして腫瘍関連の遺伝的及びゲノム的変化へのアクセスを提供するため、癌スクリーニング試験の開発のために魅力的である。加えて、腫瘍、癌、または悪性腫瘍に関連付けられる遺伝的及びゲノム的変化のほとんど全ての形態は、無細胞核酸集団において検出されてきた。癌関連変化または癌特異的変化の例は、本明細書で提供される。癌特異的とは、一般に、癌細胞に由来する変化を指し、癌関連とは、癌細胞、または前悪性病変、または解剖学的近接性、生理学的関連、発達関連、またはがんの存在への反応に起因して他の組織から由来し得ることを意味する。

腫瘍関連遺伝的及びゲノム的プロファイル（特に、血漿及び血清無細胞核酸から判定される）への非侵襲的アクセスに起因して、スクリーニング試験として使用される場合、腫瘍関連プロファイルは、癌を「含む」または「除外する」ためにより短い間隔（例えば、数日または数週間）で、またはより長い間隔、例えば２年に１回、１年に１回、もしくは半年に１回にわたって、繰り返し測定され得る。

血漿ＤＮＡ分子は、短いＤＮＡ断片の形態で自然に存在する（Ｙｕｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ２０１４；１１１：８５８３−８５８８）。これらは、典型的には、＜２００ｂｐの長さを有し、以下により詳細に議論されるように、特定の癌関連位置において断片化することができる。ヒト血漿中のＤＮＡ分子の大部分は、造血細胞に起源を持つ。ある人物が、非造血器の悪性腫瘍を発症した場合、特に早期段階において、腫瘍由来ＤＮＡは、非腫瘍由来造血ＤＮＡのバックグラウンドと混合された血漿中で、少数の分率を表す。血漿試料中の腫瘍由来ＤＮＡの量は、全ＤＮＡの割合、または癌細胞のゲノム当量または細胞当量の数として表すことができる。造血器悪性腫瘍の症例において、血漿中の悪性腫瘍関連ＤＮＡの割合は、非造血器の悪性腫瘍における場合よりも高くなることが予期され、本出願に記載される同じ実施形態を使用して検出することができる。

本出願において、腫瘍がＤＮＡを生体液に与える限り、生体液に任意の癌の検出に一般的に適用され得るプロトコルを記載する（Ｂｅｔｔｅｇｏｗｄａｅｔａｌ．ＳｃｉＴｒａｎｓｌＭｅｄ２０１４；６：２２４ｒａ２４）。その理由は、記載される実施形態が、ある特定の癌タイプにのみ典型的であるバイオマーカーの検出に依存しないからである。癌を有する個体及び有しない個体を識別するために使用される分類スキームは、任意の癌の検出の目的のために一般的に適用され得る変異負荷評価に基づく。

高い臨床的感度及び特異性を有する他の癌のスクリーニングのための試験を開発するためには、広範囲かつ多数の変異を検出する能力が必要とされることになるこの試験要件を正当化するいくつかの理由がある。ＥＢＶのＮＰＣとの関連とは異なり、ほとんどの他の癌は、比較的簡単に非癌ヒトＤＮＡと区別され得る非ヒト遺伝マーカーと関連付けられていない。したがって、非ＥＢＶ関連癌のためのスクリーニング試験を開発するためには、この試験は、癌関連変化の他の多様性を検出する必要がある。

Ａ．試験感度要件（例えば、幅及び深度）
上記の計算に基づき、ＮＰＣ検出のための血漿ＥＢＶＤＮＡ試験と同じ感度を達成するために（Ｃｈａｎｅｔａｌ．Ｃａｎｃｅｒ２０１３；１１９：１８３８−１８４４）、試験は、好ましくは、循環における１つの腫瘍細胞の等量のＤＮＡ含有量の検出を達成するために、癌関連変化を保持する血漿ＤＮＡの少なくとも約５００個のコピーを検出可能である必要がある。ＮＰＣデータは、臨床的感度及び特異的癌スクリーニング試験を達成するための理論を推論するためのモデルシステムとして使用される。これは、血漿ＥＢＶＤＮＡ試験の場合におけるように、１つの腫瘍関連変化の５００個のコピー、もしくは５００個の異なる腫瘍関連変化のそれぞれ１つのコピーのいずれか、またはその組み合わせ、すなわち＜５００個の変異のセットの複数のコピーを検出することによって、達成され得る。血漿ＤＮＡ断片は一般的に＜２００ｂｐの長さを有するため、任意の１つの癌関連変化は、情報価値のある癌ＤＮＡ断片と呼ばれるかかる変化を保持する１つの血漿ＤＮＡ断片の検出を要することが推測される。

したがって、いくつかの当業者の研究者は、癌を検出するための手段として、血漿中で特定の変異を検出する試験を開発してきた。例えば、デジタルポリメラーゼ鎖反応（ＰＣＲ）による上皮成長因子受容体変異の血漿検出は、非小細胞肺癌の検出のために使用されてきた（Ｙｕｎｇｅｔａｌ．ＣｌｉｎＣａｎｃｅｒＲｅｓ２００９；１５：２０７６−２０８４）。発癌遺伝子及び腫瘍抑制遺伝子等における数百個の他の癌関連変異を含むパネルが、血漿ＤＮＡ評価のために開発されてきた。理論的には、これらの試験は、ＮＰＣのための血漿ＥＢＶＤＮＡ試験のものと同様に、これらの他の癌の近接性の検出のための臨床的感度を達成することができたはずである。しかしながら、実際には、そうではない。

１．幅
現在、癌は高度に不均質であることが理解されている。変異プロファイルは、異なる器官の癌の間で大きく異なり、同じ器官のがんを有する異なる対象間で大きく異なり、または同じ対象の同じ器官のことなる腫瘍病巣間でも大きく異なる（ＧｅｒｌｉｎｇｅｒｅｔａｌＮＥｎｇｌＪＭｅｄ２０１２；３６６：８８３−８９２）。したがって、任意の１つの腫瘍関連変異は、任意の癌対象の小さなサブセットにおいてのみ陽性である。例えば、ＣａｔａｌｏｇｕｅｏｆＳｏｍａｔｉｃＭｕｔａｔｉｏｎｓｉｎＣａｎｃｅｒ（ＣＯＳＭＩＣ）データベースは、腫瘍組織において検出されてきた遺伝変異の範囲を記録している（ｃａｎｃｅｒ．ｓａｎｇｅｒ．ａｃ．ｕｋ／ｃｏｓｍｉｃ）。

図１は、上位２８個の、癌において最も一般的に特定される変異の表１００を示す。データは、任意の所与の器官の癌の最も発生率の高い変異の上位２８個の和が、１００％から程遠いことを示す。異なる変異が、図１に列挙される遺伝子のそれぞれについて発生し得ることもまた、注目すべきである。したがって、腫瘍間における任意の１つの特定の変異の発生率を評価した場合、その数はとても低いものとなる。癌変異の位置が非常に変化しやすく、予測できないため、任意の１つの癌対象において５００個の異なる変異を特定するには、腫瘍生検を分析することが考慮され得る。次いで、特定された変異は、後続の監視においてどのような血漿ＤＮＡアッセイが使用されるかを知らせるために使用される。しかしながら、腫瘍生検の前の評価の必要性は、１次または無症候性スクリーニングについて血漿ＤＮＡ試験を適用することを妨げる。

図１に示されるように、各腫瘍タイプの一部のみが、上位の変異のうちのいずれか１つを呈し得る。データは、腫瘍の大部分が、ＣＯＳＭＩＣデータベースに列挙される上位の変異のうちのいずれか１つの特色をなさないことを示す。換言すれば、上位の変異の排他的な検出に基づいて癌スクリーニング試験を設計した場合、かかる変異の不在に起因して、多くの腫瘍が検出されないことになる。これらのデータは、本出願の実施形態によって示される多数の体細胞変異を検出する必要性が、異なる腫瘍に適用されるが、癌集団の大部分において陽性所見をもたらすことができるスクリーニング試験を実現するために重要であることを示唆する。

よって、癌検出または１次スクリーニングのための血漿ＤＮＡ試験を開発するためには、十分な変異（例えば、生得的ゲノムまたは親ゲノム等の参照ゲノムと比較した、コピー数異常及び配列変異体）、または他の癌特異的もしくは癌関連変化（例えば、メチル化変化）を収集して、癌細胞当たり５００個の癌特異的血漿ＤＮＡ断片の和を得るために、ゲノム内のより幅広い探索空間にわたって探索する必要がある。図１に示されるデータに言及すると、任意の１つの腫瘍において任意の１つの明確に記録された癌関連変異が発生する可能性が１％であると仮定した場合、腫瘍当たり少なくとも５００個の変異が検出されるためには、試験は、５０，０００個の推定変異部位の検出を標的とする必要がある（ボアソン確率分布に基づく）。任意の１つの腫瘍について少なくとも５，０００個の変異または癌関連変化が表されるためには、５００，０００個の推定変異または癌関連変化が試験される必要がある。他方で、任意の１つの腫瘍において任意の１つの明確に記録された癌関連変異または変化が発生する可能性が０．１％である場合には、任意の１つの腫瘍について少なくとも５０個の変異または変化が表されるためには、５０，０００個の変異または変化が試験される必要がある。

したがって、癌スクリーニング試験の癌検出率、または臨床的感度を最大化させるために、試験は、試料中の血漿ＤＮＡ断片の幅広い調査を達成することにより、任意の１つのタイプの癌関連変化または変異を保持する十分な断片を特定する必要がある。調査の幅は、全ゲノムでのアプローチ、またはゲノムの大部分をカバーする、例えば少なくとも５０，０００個の標的をカバーするのに十分な標的化アプローチのいずれかの使用によって達成することができる。

２．深度
調査の深度もまた重要である。規定閾値（例えば、癌細胞の各ゲノム当量について５００個の情報価値のある癌ＤＮＡ断片）を達成するために、腫瘍ごとに検出された変異の数によって、その変異を保持していた複数の血漿ＤＮＡ断片を検出する必要がある。例えば、１つの変異のみが特定の腫瘍において特定された場合、その変異をカバーする５００個の血漿ＤＮＡ断片が必要となる。他方で、腫瘍中に平均して５０個の異なる変異が存在する場合、これらの５０個の変異のそれぞれをカバーする少なくとも１０個の情報価値のある癌ＤＮＡ断片を検出することが必要となる。

腫瘍ＤＮＡは、典型的には、血漿中の小ＤＮＡ集団を表す。さらに、いくつかの癌関連変化は、本質的に異型接合である（すなわち、倍数ゲノムごとに１つの変化を有する）。よって、座位ごとに、情報価値のある癌ＤＮＡ断片（すなわち、少なくとも１つの癌関連変化を担持する血漿ＤＮＡ断片）の１０個のコピーを検出するために、２０％の腫瘍ＤＮＡ分率を有する血漿試料中の座位からの少なくとも１００個の分子を分析することが必要となる。故に、任意の単一変異部位をカバーする複数の血漿ＤＮＡ断片を検出する能力は、血漿試料が調査される深度に依存する。しかし、血漿試料中には有限数の癌細胞ゲノムしかなく、これは、血漿ＤＮＡ分析の必要とされる深度及び幅に影響を与える。

早期癌の検出の例証について、試料における１％の腫瘍分率を検出可能な試験またはプロトコルを開発することを目的とすると仮定する。典型的に、１ミリリットルの血漿中にＤＮＡの１，０００ゲノム当量が存在することを考えると、１％の腫瘍ＤＮＡ分率を有する１ミリリットルの試料中には、ＤＮＡの１０細胞当量が存在することになる。これは、試料中のありとあらゆる癌特異的ＤＮＡ断片を検出したとしても、検出可能な任意の１つの癌関連変異の最大１０ゲノム当量しか存在しないことを意味する。したがって、特定の変異が腫瘍中に存在するという予備知識を有していたとしても、その標的検出は、最良の場合でも、１０ゲノム当量のシグナルを提供するだけとなり、これは、１％分率濃度での癌のロバスト検出のための分析的感度を欠き得る。検出される変異が異型接合である場合、この変異を示す血漿ＤＮＡ断片は５個のみとなる。

１％腫瘍ＤＮＡ分率での最良の場合において、変異を有する血漿ＤＮＡの１０ゲノム当量を検出するためには、この変異部位での分析の深度は、少なくとも１，０００回カバーされることが必要となる。この状況において、分析の幅は、変異部位ごとに検出される比較的少ない数のコピーを補うことが必要となる。少量または数百のみの変異部位の選択的検出は、早期癌を検出するためのスクリーニング試験に必要とされる感度を達成することができる見込みはない。

３．他の問題
加えて、日常分析において、任意の１つのアッセイの検出性能は、最善の場合からは程遠い。例えば、試料処理ステップ、ＤＮＡ配列決定用ライブラリ調製ステップ、及びプローブに基づく標的捕捉ハイブリダイゼーションプロセス中に、血漿ＤＮＡ鋳型及び情報価値のある癌ＤＮＡ断片の消失または減少があり得る。いくつかのステップは、異なる変異間、及び癌由来ＤＮＡと非癌由来ＤＮＡとの間の相対的割合におけるバイアスを持ち込み得る。例えば、標的配列決定用ライブラリ、ゲノムＤＮＡ配列決定用ライブラリ、及びアンプリコン配列決定のＰＣＲ増幅は、ＧＣバイアスを持ち込み得、かつＰＣＲ重複を作製し得る。大規模並列ＤＮＡ配列決定について、配列決定された断片の特定におけるエラーは、ＰＣＲ増幅中、もしくは配列決定中、塩基割当中に生じた配列決定エラーによってもたらされるか、またはアライメントエラーに起因し得る。最後に、分析プラットフォームのシグナル検出機構は、変異の検出について確信的な陽性の読み出し（例えば、検出可能なシグナルのために５個の変異断片が必要とされ得る）が提供される前に、検出限界を有し得る。これらの全てに要因は、実践において、血漿ＤＮＡ分析の幅及び深度要件が、論じられる理論的に理想的な場合よりもさらに高い必要がある場合があることを意味する。

本質的に、ここまでの議論は、癌スクリーニング試験の感度要件が、分子分析プラットフォームが実践において達成し得るものの限界に達していることを示す。生物学的には、悪性腫瘍を宿す体細胞変異の数は、約１，０００〜数１０，０００の間であると報告されてきた（Ｌａｗｒｅｎｃｅｅｔａｌ．Ｎａｔｕｒｅ２０１３；４９９：２１４−２１８）。我々のデータに基づき、血漿試料中の腫瘍ＤＮＡの分率濃度のよって、有限血漿試料（典型的に、採血ごとに＜１０ミリリットルの血漿が得られる）中に、早期非侵襲的癌検出を達成するのにちょうど十分な量の情報価値のある癌ＤＮＡ断片を有し得る。

したがって、実践的に癌スクリーニング試験の感度要件に到達するためには、各血漿試料中で得られる癌情報量を最大化させることが必要となる。本出願において、癌スクリーニング試験の感度要件に達するのに必要とされる有効な幅及び深度を達成することができるプロセスを記載する。様々な実施形態において、ウルトラディープ及びブロード配列決定、網羅的、または全鋳型配列決定が実施される。ＰＣＲフリー大規模並列配列決定は、ウルトラディープ及びブロード配列決定、網羅的、または全鋳型配列決定の対費用効果を増加させるために実施され得る。ウルトラディープ及びブロード配列決定、網羅的、または全鋳型配列決定は、単分子配列決定を通して達成することができる。

いくつかの実施形態は、多様な癌特異的または癌関連変化、例えば、癌特異的または癌関連ＤＮＡメチル化シグネチャ（例えば、５−メチシトシン（ｍｅｔｈｙｃｙｔｏｓｉｎｅ）及びヒドロキシメチル化の位置）、癌特異的または癌関連短血漿分子、癌特異的または癌関連ヒストン修飾マーク、及び癌特異的または癌関連血漿ＤＮＡ終結位置と組み合わせた一塩基変異の組み合わせ検出によって、アクセス可能な情報価値のある癌ＤＮＡ断片を増加させることができる。特定の癌特異的または癌関連変化は、変異の特定におけるフィルタリング基準として使用され得る。

Ｂ．特異性要件（例えば、フィルタリング基準）
上記のように、できるだけ多くの情報価値のある癌ＤＮＡ断片を検出することが望ましい。しかし、現在の配列決定用技巧において存在するノイズ（例えば、様々な供給源からのエラー）のレベルを考慮すると、かかる情報価値のあるＤＮＡ断片を正確に検出することは難しい場合がある。

１．特定された変異の特異性
高ＰＰＶまたは高ＮＰＶを達成するために、癌スクリーニング試験は、高特異性プロファイルを示すことが必要となる。高特異性は、数々のレベルで達成することができる。検出される変異及び任意の癌関連変化の特異性は、できるだけ癌について特異的であることが必要となる。これは、それが癌関連であるという高い確信がある場合にのみ、遺伝的またはゲノム的シグネチャを陽性としてスコアリングすることによって達成することができるが、これに限定されない。これは、他の癌ですでに報告されてきたシグネチャを含むことによって達成することができる。例えば、彼または彼女の人口学的プロファイルに基づき、個体が罹っている癌タイプにおいて発病率が高いシグネチャに特に焦点を当てることができる。あるいは、対象が曝された変異原性曝露に関連付けられる変異シグネチャに注目することができる（Ａｌｅｘａｎｄｒｏｖｅｔａｌ．Ｎａｔｕｒｅ２０１３；５００：４１５−４２１）。これは、変異として誤って特定される配列決定及びアライメントエラーの数を最小化することによっても達成することができる。これは、健常な対照の群のゲノムプロファイルと比較することによって達成され得、かつ／またはその人物自身の生得的ＤＮＡと比較することによって達成され得る。

これらの基準は、血漿ＤＮＡ断片が腫瘍に由来し、したがって情報価値のある癌ＤＮＡ断片と見なされる可能性を評価するためのフィルタリング基準として適用することができる。各フィルタリング基準は、個別に、独立して、均等な重み付けもしくは異なる重み付けを用いて集合的に、または指定された順序で連続的に、または前のフィルタリングステップの結果によって条件付きで使用することができる。条件付きの使用について、ベイズ理論に基づくアプローチ、ならびに分類または決定木に基づくアプローチを使用することができる。個別の使用とは、任意の１つのみの基準を意味する。独立した使用は、１つ以上のフィルタリング基準を伴い得るが、指定された順序での連続的適用とは対照的に、各フィルタリング基準は、別のフィルタリング基準の適用に依存しない（例えば、並行適用を実施することができる）。重み付けを使用する集合的使用の例として、機械学習技巧を使用することができる。例えば、教師あり学習は、既知の分類を有する試料の測定された変異負荷を使用して、任意のモデルを訓練することができる。多数の個体（例えば、数百、数千、または数百万）からの配列決定データを使用して、モデルを訓練することができる。より単純な形態においては、かかる既知の試料を使用して、フィルタリング基準から判定された１つ以上のスコアのための閾値を判定し、変異が妥当であるかどうかを判定することができる。

一実施形態では、血漿断片が基準のうちのいくつかまたは全てを満たした場合、それが情報価値のある癌ＤＮＡ断片であると見なし得、一方で、いくつかまたは全てを満たさない他のものは、情報価値のない血漿ＤＮＡ断片であると見なすことができる別の実施形態では、各血漿ＤＮＡ断片は、基準のリストをどれほど強く満たしているかによって、情報価値のある癌ＤＮＡ断片であることの情報価値性の重み付けを付与することができる。断片が腫瘍由来であるという確信が高ければ高いほど、重み付けは高くなる。一実施形態では、重み付けは、試験対象の臨床プロファイル（例えば、性別、エスニシティ、癌についての危険因子、例えば喫煙または肝炎状態等）に基づいて調節され得る。

ＤＮＡ断片は、それが１つ以上の癌特異的変化を示す場合、情報価値性または癌特異性のより高い重みを付与され得る。例えば、多くの癌は、全体的に低メチル化されており、特に非プロモーター領域においてそうである。血漿において、癌ＤＮＡは非癌ＤＮＡよりも短いことが示されてきた。腫瘍由来血漿ＤＮＡ断片は、何らかの特定の位置で断片化しやすい。したがって、癌関連終結位置に重なる一方または両方の端部を有し、一塩基変異を示し、非プロモーター領域に局在化し、低メチル化ＣｐＧ部位を有する、サイズが短い（例えば、＜１５０ｂｐ）血漿ＤＮＡ断片（Ｊｉａｎｇｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ２０１５；１１２：Ｅ１３１７−１３２５）は、癌関連である可能性がより高いと見なされる。低メチル化ＤＮＡの検出は、メチル−シトシンを非メチル−シトシンから識別可能な重亜硫酸ＤＮＡ変換または直接単分子配列決定の使用によって達成することができる。本出願において、情報価値のある癌断片の特定における特異性を増加させるためのプロセス、プロトコル、及びステップを記載する。例えば、１つ以上のフィルタリング基準を使用して、特異性を増加させることができる。

２．変異負荷の特異性
別のレベルでは、癌スクリーニング試験の特異性は、癌を有する患者の血漿中で検出可能な癌関連変化の量（例えば、数）が、癌について予期されるものと同等に変異負荷を反映しているかどうかを評価することによって達成することができる。一実施形態では、例えば、変異負荷が参照ゲノムに関連して判定されるとき、血漿中の変異負荷を生得的ＤＮＡ中で測定された変異負荷と比較することができる。他の実施形態では、血漿中の変異負荷を、異なる時間に対象、または既知の予後（良性もしくは悪性）もしくは癌のステージを有する癌患者、または健常な癌を有しない集団の血漿中で認められたものと比較することができる。体内または組織内の変異負荷は、癌を有すると示されていない人物であっても年齢と共に増加することが報告されてきているため、参照集団は、年齢、または性別、またはエスニシティが一致するものであってもよい（Ｓｌｅｂｏｓｅｔａｌ．ＢｒＪＣａｎｃｅｒ２００８；９８：６１９−６２６）。本出願において、適切な変異負荷を捕捉して癌対象と健常集団との間の識別を向上させるために、血漿ＤＮＡ分析がどれほどの幅及び深度で実施される必要があるかを記載する。よって、例えば、試料が十分な変異情報を有する場合、癌検出を達成するために、血漿試料中のＤＮＡ断片にうちの全てが検出される必要はない。

認められた変異負荷が癌を示唆するものであるかどうかは、一実施形態では、癌特異的参照範囲に基づく。異なる器官のがんは、予期される範囲の変異負荷を宿す傾向にあることが報告されてきた。その数は、１，０００〜数１０，０００の範囲であり得る（Ｌａｗｒｅｎｃｅｅｔａｌ．Ｎａｔｕｒｅ２０１３；４９９：２１４−２１８）。よって、血漿ＤＮＡ癌スクリーニング試験が、ある人物の変異負荷が任意の癌群の範囲内の数に近づいている証拠を示す場合、癌の高リスクに分類することができる（ＶＩＩＩ項の図４４、４５Ａ〜４５Ｃ、及び４６Ａ〜４６Ｃ）。別の実施形態では、ある人物の血漿中の変異負荷が、癌を有しない健常集団から確立された参照範囲よりも著しく高い場合に、癌の分類をすることができる。

著しく高い変異負荷の証拠は、統計分布、例えば、対照参照データの平均値から３以上の標準偏差、または対照参照データの中央値の倍数の数、または対照参照データの特定のパーセンタイル値（例えば、９９パーセンタイル）、または対照参照データの平均値、中央値、もしくは９９パーセンタイル超の少なくとも１もしくは２もしくは３倍に基づいてもよい。当業者であれば、統計学的に著しく増加した変異負荷を特定するための様々な統計学的手段を特定することができるであろう。別の実施形態では、分類には、測定された、または推定された、または推測された試料の腫瘍ＤＮＡ分率、シーケンシング深度、シーケンシング幅、及び配列決定エラー率等の癌スクリーニング試験の感度及び特異性プロファイルに影響を与えることが示されてきた可変要素を考慮に入れることができる（ＶＩＩＩ項の図４４、４５Ａ〜４５Ｃ、及び４６Ａ〜４６Ｃ）。

変異負荷は、様々な手法で判定することができる。変異負荷は、検出された変異の数として表現することができる。変異の数は、例えば、配列決定されたヌクレオチドの割合または実施された配列決定の量に対して検出された変異の密度として表現される、得られた配列決定データの量に対して正規化することができる。変異の数はまた、例えば、ゲノムの割合またはゲノム内での領域ごとの密度として表現される、ヒトゲノムの大きさに対して正規化することができる。変異の数は、変異負荷評価が実施された各機会について報告するか、または経時的に統合する（例えば、前回の評価と比較した絶対変化、増減率、または比率）ことができる。変異負荷は、分析される試料の量（例えば、血漿の体積）、試料から得られたＤＮＡの量、または分析可能もしくは配列決定可能なＤＮＡの量に対して正規化することができる。一実施形態では、変異負荷は、試験される対象のバイオメトリックパラメータ、例えば、体重、伸長、または肥満度指数に対して正規化することができる。

本出願において、適切な変異負荷を捕捉して癌を有する対象と癌を有しない集団との間の識別を向上させ、それにより有効な変異負荷評価を達成するために、血漿ＤＮＡ分析がどれほどの幅及び深度を有する必要があるかを記載する。

ＩＶ．ウルトラディープ及びブロード配列決定
上に詳細に説明されるように、癌スクリーニング試験または胎児性デノボ変異の有効な特定に必要とされる性能プロファイルを達成するために、ウルトラディープ及びブロード配列決定の必要性がある。本出願において、ウルトラディープ及びブロード配列決定を達成するための数々の実施形態を示す。かかる実施形態には、網羅的配列決定、全鋳型配列決定、ＰＣＲフリー配列決定、単分子配列決定（ＰＣＲフリー配列決定の１つのタイプ）、及び標的配列決定が含まれるが、これらに限定されない。必要とされる深度及び幅を達成するために、アプローチの組み合わせを使用してもよい。かかる組み合わせを、スクリーニングプログラム全体に、または特定の個体もしくは個体群をスクリーニングするために使用することができる。

血漿ＤＮＡ配列決定から癌関連変異を検出するための癌スクリーニングの目的において、配列決定エラーに起因して、シーケンシング深度は真の癌変異と偽陽性とを識別する能力に影響を与えることになる。血漿中の腫瘍ＤＮＡ分率がより低い場合には、より高いシーケンシング深度が必要とされることになる（図４Ｂ）。ダイナミックカットオフ分析（後述の項に記載される）を使用して、腫瘍ＤＮＡ分率が２％である場合、２００倍のシーケンシング深度は、癌関連変異の５．３％を検出することができることになる。ランダム配列決定エラーが、０．３％の頻度で生じると仮定すると、検出される変異の数は、偽陽性の予期される数よりも高くなるであろう。探索されるゲノムの部分は、腫瘍組織中の変異の予期される数に依存することになる。

探索されるゲノムの部分は、検出される変異の十分な数が得られるのに十分な大きさでなければならない。この幅パラメータは、腫瘍ＤＮＡ分率の所望の下限及びスクリーニングされる癌のタイプに依存することになる。例えば、黒色腫において、変異の出現頻度の中央値は、１Ｍｂ当たり約１０である。換言すれば、ゲノム中には、およそ３０，０００個の変異があることになる。腫瘍ＤＮＡ分率が２％であり、ゲノムの１／１０が探索されると仮定すると、２００ｘでの血漿ＤＮＡ配列決定によって、およそ１５９個の変異が検出されることが予期される。他方で、ラブドイド腫瘍がスクリーニングされる標的である場合、変異の出現頻度の中央値は、１Ｍｂ当たり０．２のみである。よって、腫瘍ＤＮＡ分率が２％であるとき、ゲノムの１／１０の探索は、およそ３個の癌変異をもたらすことになる。この数は、配列決定エラーから識別するのに不十分である。

図［図２］異なる腫瘍ＤＮＡ分率、シーケンシング深度、ゲノム当たりの変異の数、及び探索されるゲノムの分率について、検出される変異の予期される数を示す表２００である。ダイナミックカットオフ分析（または他の好適なフィルタリング分析）及び０．３％の配列決定エラー率に基づく各症例について、偽陽性の予期される数は全ゲノムで＜１０である。したがって、検出可能な変異（例えば、深度及び幅に基づく）の数が１０より大きい場合、実施形態は、真の癌変異を偽陽性から識別するために有用となるであろう。

表２００のデータ中に示されるように、分析されるゲノムの部分は、予期される腫瘍分率及び腫瘍中の体細胞変異の出現率に依存することになる。ゲノムの５％の分析では、腫瘍分率が１０％、変異の出現頻度がＭｂ当たり１０、かつシーケンシング深度が２００倍であるとき、変異の数は、偽陽性の数よりも遥かに高くなることになる。シミュレーション分析を使用して、ゲノムの０．１％のみが探索される場合であっても、検出される変異の数は、ランダム配列決定エラーから識別するのに十分であろうと推測した。変異の他の出現頻度及びシーケンシング深度について、より多いゲノムの部分を分析する必要があり得、例えば、配列リードを参照ゲノムにアライメントすることで、ゲノムの１％、５％、１０％、及び２０％を分析することができる。

癌スクリーニングの目的において、癌関連変異の１００％を特定することは必要ではない。一実施形態では、特定の個体が、血漿（または他の生体試料）中に、癌を有しない参照対照集団におけるものよりも多い、検出された変異の数を有することを示すのみでよい。しかしながら、この戦略が高度に正確であるためには、評価によって検出された変異体の大きい数が癌の存在を反映するように、変異負荷評価プロトコルによって検出される真の変異の割合ができるだけ高い必要がある（または偽陽性の割合ができるだけ低い必要がある）。これが達成できない場合、試料中で検出される推定変異の大きい数が、単に、偽陽性変異体の大きい数を反映しているだけの場合があり、故に、癌を有する対象と癌を有しないものとの識別を不可能にする。したがって、本出願の実施形態は、有効な変異負荷評価を達成するために、どのように偽陽性の検出を低減させるか、及びどのように真の変異の検出を増加させるかを記載する。

ウルトラディープ及びブロード配列決定は、網羅的配列決定または他の手段、例えば、多重標識配列決定パネルのライト（非網羅的）配列決定によって達成することができる。ライト配列決定を使用して、必要な深度を得るためにＰＣＲ重複を最小化することができる。多重標識配列決定パネルを使用して、ゲノムにわたって幅広いカバレッジを提供することができる。

Ａ．網羅的配列決定及び全鋳型配列決定
癌の早期特定及び早期癌の特定のための有効な癌スクリーニング試験を開発するために、血漿試料から癌関連情報をできるだけ多く得ることが理想的である。血漿試料から癌関連情報を得る能力を妨げるいくつかの問題が存在する：（１）分析される試料が、有限体積を有すること、（２）特定の生体試料中の腫瘍分率が、早期癌においては低い場合があること、（３）検出に利用可能な腫瘍ごとの体細胞変異の総量が、およそ１，０００〜１０，０００であること、及び（４）分析ステップ及び技術的プロセスが、情報量の損失をもたらし得ること。したがって、検出に利用することができる血漿試料中のあらゆる癌関連情報量の損失を最小化するよう努力するべきである。

試料調製ステップ、配列決定用ライブラリ調製ステップ、配列決定、塩基割当、及びアライメントにおける制限によって、試料中の血漿ＤＮＡ分子の全てが分析可能または配列決定可能ではない。網羅的配列決定は、有限試料中のできるだけ多くの情報価値のあるＤＮＡ分子（例えば、変異を有するもの）を分析可能または配列決定可能な分子に形質転換する能力を最大化するために行われる手順を指す。網羅的配列決定を達成するために、いくつかのプロセスを採用することができる。

情報価値のあるＤＮＡ集団を構成するものは、試験されるものが何かによって異なる。癌試験においては、それは、情報価値のある癌血漿ＤＮＡ断片であることになる。出生前試験においては、それは、母体血漿中の胎児由来ＤＮＡ分子であることになる。移植監視においては、それは、移植レシピエントの血漿中のドナー由来分子であることになる。他の疾患の検出において、それは、その病理を有する器官または組織または細胞に由来するそれらの血漿ＤＮＡ分子であることになる。変異を伴う異常な生物学的プロセスの検出において、それは、そのプロセスに関与する器官または組織または細胞、例えば、老化における脳に由来するそれらの血漿ＤＮＡ分子であることになる。かかる生物学的プロセスの例としては、老化、変異の遺伝的素因（例えば、色素性乾皮症）、環境からの変異原性の影響（例えば、放射能またはＵＶ曝露）、または毒素及び薬物による影響（例えば、細胞傷害性薬物）が挙げられる。試料のタイプについては、尿試料中でのＤＮＡの試験において、それは、腎臓を通して循環系から（例えば、血漿から）尿試料中に通過したものであり得る（Ｂｏｔｅｚａｔｕｅｔａｌ．ＣｌｉｎＣｈｅｍ２０００；４６：１０７８−１０８４）。他の癌において、それは、尿生殖路の癌から（例えば、膀胱または腎臓から）尿試料中に通過したものであり得る。

できるだけ網羅的であるために、以下のプロセスのうちの任意の１つ、全て、またはその組み合わせを採用することができる：（１）ＤＮＡ損失を低減させるか、または高いＤＮＡライブラリ変換効率もしくは配列決定効率を有する、ＤＮＡ調製プロトコルを使用する、（２）ＰＣＲフリーＤＮＡ調製プロトコルを使用することでＰＣＲ重複の問題を回避する、（３）ＰＣＲフリーＤＮＡ調製プロトコルを使用することで配列決定エラーを低減させる、（４）有効なアライメントアルゴリズム、例えば再アライメント戦略を採用することでアライメントエラーを低減させる。これらの手段のうちのいくつかまたは全てを採用することで、血漿ＤＮＡ情報量の損失の低度、ならびに配列決定用資源の浪費を低減することができ、ウルトラディープ及びブロード配列決定をより良い対費用効果で達成することができる。

網羅的配列決定を意図するかかる手段を適用した後、癌関連シグナルまたは情報価値のある癌ＤＮＡ断片の量は、非常に有効になり得、それにより試料のほんの一部からの情報が、癌を「含む」または「除外する」ための分類に達するのに既に十分であり得る。例えば、後述の例においてＨＣＣ患者からの血漿試料と臍帯血血漿試料との間の変異負荷比較に示されるように、７５ｘの深度でのデータは、ＨＣＣ症例を臍帯血血漿から明確に識別するのに既に十分であった。ＨＣＣ血漿試料について２２０ｘのデータが生成された。しかし、網羅的配列決定を意図する手順を使用して検出された情報価値のある癌ＤＮＡ断片の数が既に十分であり、かつ癌の陽性分類のために十分な質を有したため、７５ｘのデータで既に十分であった。

有限試料からの配列決定可能な血漿ＤＮＡ分子を完全に消費した場合、これを「全鋳型配列決定」と称することができる。これは、網羅的配列決定の１つの範囲を指す。例えば、２２０ｘの深度に達するために、ＨＣＣ症例からの全ての血漿ＤＮＡライブラリが配列決定された。

単分子シーケンサーを使用して網羅的配列決定を実施することもできる（Ｃｈｅｎｇｅｔａｌ．ＣｌｉｎＣｈｅｍ２０１５；６１：１３０５−１３０６）。かかる単分子ＤＮＡシーケンサーの例としては、単分子リアルタイムＤＮＡ配列決定技術を使用してＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓによって製造されるシーケンサー（ｗｗｗ．ｐａｃｉｆｉｃｂｉｏｓｃｉｅｎｃｅｓ．ｃｏｍ／）及びナノポアシーケンサー（例えば、ＯｘｆｏｒｄＮａｎｏｐｏｒｅによって製造されるもの（ｗｗｗ．ｎａｎｏｐｏｒｅｔｅｃｈ．ｃｏｍ／））が挙げられるが、これらに限定されない。数々のかかる単分子配列決定用プラットフォームが、配列決定された分子から直接エピジェネティックな情報を得る（例えば、ＤＮＡメチル化パターン）ことを可能にするであろう（Ａｈｍｅｄｅｔａｌ．ＪＰｈｙｓＣｈｅｍＬｅｔｔ２０１４；５：２６０１−２６０７）。癌についてエピジェネティックな異常が記載されてきたように、かかるエピジェネティックな情報を有することは、癌のスクリーニング、検出、及び予後診断をさらに向上させることになる。例えば、メチル化に基づくフィルタリング技巧が以下に記載される。

エピジェネティックな情報が配列決定データから得られる別の実施形態は、鋳型ＤＮＡの重亜硫酸変換、続いてＤＮＡ配列決定を実施することである。重亜硫酸変換は、メチル化シトシンが不変のままである一方、非メチル化シトリンがウラシルに変換されるプロセスである。後者は、ＤＮＡ配列決定においてＴ残基として示される。次いで、メチル化を意識した配列決定の一形態である重亜硫酸配列決定は、重亜硫酸変換された鋳型ＤＮＡについて配列決定用ライブラリ上で実施することができる。次いで、当業者に既知であるアプローチ、例えば、Ｊｉａｎｇｅｔａｌ．（ＰＬｏＳＯｎｅ２０１４；９：ｅ１００３６０）による方法を使用してアライメントを実施することができる。

無細胞ＤＮＡの配列決定が癌のために使用される場合、配列決定結果からの多くのタイプの分子情報、すなわち、血漿中のウイルスゲノム配列（ウイルス感染に関連付けられる癌の場合、例えば、ＮＰＣにおけるＥＢＶ）、腫瘍関連一塩基変異、コピー数異常、及びエピジェネティックな情報（例えば、ＤＮＡメチル化（５−メチルシトシンプロファイル及びヒドロキシメチル化を含む）、ヒストンアセチル化／メチル化変化等）を組み合わせることができる。かかる情報の組み合わせは、分析の感度、特異性、及び臨床関連性をより良くすることができる。

Ｂ．ＰＣＲフリープロトコル
試験される対象の血漿（または、無細胞ＤＮＡを含有する他の試料タイプ）中の任意の癌関連変化の検出について、かかる変化を検出する可能性は、理論的には、分析されるＤＮＡ分子の数の増加に伴って増加するはずである。ここでは、この原理を例証するために仮想例を使用する。癌対象における血漿ＤＮＡのうちの２０％が腫瘍に由来し、腫瘍が特定のヌクレオチド位置で点変異を有するものと仮定する。変異は、２つの相同染色体のうちの１つのみにおいて生じる。結果として、この特定のヌクレオチド位置をカバーする血漿ＤＮＡのうちの１０％が、この変異を担持することになる。このヌクレオチド位置をカバーする１つのＤＮＡ分子を分析した場合、変異を検出する可能性は、１０％となる。このヌクレオチド変化をカバーする１０個の血漿ＤＮＡ分子を分析した場合、変異を検出する可能性は、６５．１％に増加する（可能性＝１-０．９^１０）。分析される分子の数を１００個に増加させた場合、変異を検出する可能性は、９９．９９％まで増加することになる。

癌患者からの血漿ＤＮＡの分析に大規模並列配列決定が使用される場合、癌関連変異の可能性を予測するためにこの数学的原理を適用することができる。しかしながら、血漿の配列決定に使用される典型的な大規模並列配列決定用プラットフォーム（例えば、ＴｒｕＳｅｑライブラリ調製キットを伴うＩｌｌｕｍｉｎａＨｉＳｅｑ２０００配列決定用システム）、ＰＣＲ増幅は、配列決定前の鋳型ＤＮＡ上で実施されることになる。

増幅は、元の入力核酸と比較した鋳型ＤＮＡの量の増加（１倍より大きい）をもたらすプロセスを指す。本出願において、増幅プロセスは、ＤＮＡ鋳型分析ステップ、例えば配列決定の前にライブラリ調製中に実施されるステップである。増幅に伴い、分析に利用可能な鋳型ＤＮＡの量は増加することになる。一実施形態では、増幅は、温度の周期的変動を伴うＰＣＲを使用して実施することができる。別の実施形態では、増幅は、等温プロセスを使用して実施することができる。いくつかの実施形態では、増幅された鋳型ＤＮＡが、変異負荷評価を達成する効率が低下することを示す。分析ステップ中に生じるクローン増殖ステップ、例えばシーケンシング反応（ｓｅｑｕｅｎｃｉｎｇ−ｂｙ−ｓｙｎｔｈｅｓｉｓ）中のブリッジ増幅は、余分な配列リードまたは配列出力をもたらさないため、増幅とは見なされない。

ＰＣＲを使用する場合、シーケンシング深度（すなわち、特定のヌクレオチドをカバーする配列リードの数）は、その特定のヌクレオチドをカバーする血漿ＤＮＡ分子がどれほど分析されるかを直接反映しない。これは、１つの血漿ＤＮＡ分子が、ＰＣＲプロセス中に複数の複製を生成することができ、複数の配列リードは、単一の血漿ＤＮＡ分子に起源を持ち得るからである。この重複問題は、ｉ）配列決定用ライブラリを増殖させるためのより多い回数のＰＣＲサイクル、ｉｉ）増加したシーケンシング深度、及びｉｉｉ）元の血漿試料（例えば、より少ない体積の血漿）中のより小さい数のＤＮＡ分子においてより重要となる。

加えて、ＤＮＡポリメラーゼの忠実度が１００％ではないため、かつ、時に、誤ったヌクレオチドがＰＣＲ娘鎖内に組み込まれるため、ＰＣＲステップはさらなるエラーをもたらす（Ｋｉｎｄｅｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ２０１１；１０８：９５３０−９５３５）。このＰＣＲエラーが早期ＰＣＲサイクル中に発生した場合、同じエラーを示す娘分子のクローンが生成される。誤った塩基の分率濃度は、エラーが胎児由来または腫瘍由来変異であると誤解されるほど、同じ座位からの他のＤＮＡ分子間で高い割合に達し得る。

ここで、大規模並列配列決定のためのＰＣＲフリープロトコルの使用が、配列決定用資源のより効率的な使用を可能にし、生体試料からの情報の取得をさらに向上させることができると推論する。一実施形態では、血漿試料中の全てのＤＮＡ分子は、大規模並列配列決定分析中でＰＣＲフリープロトコルを使用した配列決定分析において配列決定される。使用することができる１つのＰＣＲフリープロトコルは、ＢｅｒｒｙＧｅｎｏｍｉｃｓによって開発されたものである（ｉｎｖｅｓｔｏｒ．ｉｌｌｕｍｉｎａ．ｃｏｍ／ｍｏｂｉｌｅ．ｖｉｅｗ？ｃ＝１２１１２７＆ｖ＝２０３＆ｄ＝１＆ｉｄ＝１９４９１１０）。Ｉｌｌｕｍｉｎａによって販売されるものなどの他のＰＣＲフリープロトコルを使用することもできる（ｗｗｗ．ｉｌｌｕｍｉｎａ．ｃｏｍ／ｐｒｏｄｕｃｔｓ／ｔｒｕｓｅｑ−ｄｎａ−ｐｃｒ−ｆｒｅｅ−ｓａｍｐｌｅ−ｐｒｅｐ−ｋｉｔｓ．ｈｔｍｌ）。ここで、原理を例証するために例を使用する。

例証のため、まず、全ての血漿断片が、上記のように一般的に２００ｂｐ未満である血漿ＤＮＡ断片と一致する、１５０ｂｐのサイズであると想定する。したがって、各倍数ヒトゲノムは、４０００万個の血漿ＤＮＡ断片に断片化されることになる。１ミリリットルの血漿中には約１，０００個の倍数ヒトゲノムがあるため、１ｍＬの血漿中には４００億個の血漿ＤＮＡ断片があることになる。１ｍＬの血漿からの４００億個のＤＮＡ断片を配列決定した場合、全てのＤＮＡ分子が配列決定されることが予期される。例証のため、一回の運転につき２０億個のリードを生成することができるＩｌｌｕｍｉｎａＨｉＳｅｑ２０００システムを使用した場合、この量の配列決定を達成するためには２０回の運転が必要となり、これはより高いスループットのプラットフォームを用いることで低減され得る。

血漿試料中の全ＤＮＡ濃度は、配列決定分析前に、例えば、デジタルＰＣＲまたはリアルタイムＰＣＲ（これらに限定されない）を使用して判定することができる。全ＤＮＡ濃度を使用して、試料中の全ての分析可能または配列決定可能なＤＮＡ分子を配列決定するために必要とされる配列決定の量を判定することができる。他の程度の網羅的配列決定を伴う他の実施形態では、血漿試料中のＤＮＡ分子のうちの２０％、２５％、３０％、４０％、５０％、６０％、７５％、９０％、９５％、または９９％超を配列決定することができ、これらは全て網羅的配列決定の例である。

配列決定されるＤＮＡ分子の割合の重要な決定要因には、変異の量、試料中の腫瘍分率、及びＤＮＡライブラリ収率が含まれる。配列決定用ライブラリ中の潜在的に配列決定可能な分子の数は、ライブラリの体積、濃度、及び変換効率に基づいて判定することができる。配列決定する必要があるＤＮＡ断片の数は、腫瘍分率の所望される検出可能限界及び腫瘍中の変異の予期される数に基づいて判定することができる。これらの２つの数字に基づいて、配列決定されるライブラリの割合を判定することができる。

網羅的配列決定のためのＰＣＲフリープロトコルを使用する利点は、同じ反応で配列決定される他の参照標的に対する相対量を判定するのではなく、試料中の任意の標的分子の絶対量を直接推測することができることである。これは、各配列リードが、１つの下の血漿ＤＮＡ分子からの情報を表すからである。実際に、ウルトラディープ及びブロード配列決定と共にＰＣＲ増幅を使用した場合、互いに対する標的分子の量は、真の提示からさらに離れてしまうことになる。その理由は、ＰＣＲ増幅によってもたらされるＰＣＲ重複の生成、ならびにいくつかのゲノム領域が他のものよりもより高度に増幅される増幅バイアスに起因する。

配列決定用ライブラリのＰＣＲ増幅は、このステップが、配列決定ステップがより容易に実施されるように配列決定用ライブラリ中の分子の数を増加させることができるため、一般に、大規模並列配列決定のための既存のプロトコルのほとんどにおいて行われる。ＰＣＲ重複（複製）は、元の鋳型ＤＮＡ分子のクローン産物である。ＰＣＲ重複の存在は、ウルトラディープ及びブロード配列決定の達成を妨げる。ＰＣＲ複製に由来する配列リードの割合は、実施された配列決定の量（シーケンシング深度）と共に増加することになる。換言すれば、配列決定をより深く実施すると、固有の情報量の減少した結果が得られることになる。故に、多くの場合において、ＰＣＲ複製の配列決定は、配列決定用資源の浪費につながる。これは、究極的には、ＰＣＲフリープロトコルと比較して同じ幅及び深度のゲノムカバレッジに達するためにはさらに多くの配列決定が必要とされることを意味する。よって、コストがさらに高くなる。実際に、いくつかの例において、ＰＣＲ重複の割合は、カバレッジの好ましい幅及び深度が実践的に決して達成されないほど高い場合がある。

これは、当業者にとって反直感的である。伝統的には、全ゲノム増幅を含むＰＣＲ増幅は、より多くの分子分析が実施されるように、有限試料からより多くの遺伝子材料を提供するために実施される。データは、かかる増幅ステップが、逆効果である可能性を示す。これは特に、血漿ＤＮＡ分析において逆効果である。

血漿ＤＮＡは、低含量のＤＮＡを低濃度で含有することが既知であり、これはまた、無細胞ＤＮＡからなる他の試料についても同様である。よって、僅かな量のＤＮＡの増幅を伴わずに、さらなる情報が得られるとは誰も思わないであろう。実際に、増幅に基づくライブラリ調製プロトコルでは、典型的に、４ｍＬの血漿当たり１５０〜２００ｎＭのアダプター結合ＤＮＡライブラリを得る。しかし、本出願の例に示されるように、アダプター結合ＤＮＡライブラリのうちの２ナノモルのみが、血漿体積の当量から得られる。そのような少量は、より多くのゲノム情報を得るための障害となるであろうことが想像でき、故に、分析の前に増幅ステップを実施するように誘惑されるであろう。かかる増幅されたライブラリは、かかるライブラリの大部分がＰＣＲ重複からなるため、顕著な問題を生み出すことになる。

さらに、かかる増幅されたライブラリを用いると、（一定量のライブラリが、配列決定運転ごとに適用され、極端な数の運転がライブラリを消費するために必要とされるため）４ｍＬの血漿試料からできるだけ多くの情報を得るための全鋳型配列決定を実践的に実施することができない。我々のデータに示されるように、研究したＨＣＣ及び妊娠症例のＰＣＲフリーライブラリを完全に消費するために、約２０回のＩｌｌｕｍｉｎａ配列決定運転が必要とされる。ＰＣＲまたは増幅に基づくライブラリ構築プロトコルが変わりに使用された場合、１００倍の配列決定の量（約２０００回の運転を意味する）が実施されることが必要となる。換言すれば、増幅されたライブラリを用いると、重複した分子が作製され、これは、配列決定用能力のかなりの部分を消費することになる。対照的に、ＰＣＲフリープロトコルからの２ナノモルのライブラリは容易に消費することができ、これは、４ｍＬ血漿試料から分析可能な情報をカバーすることと同等である。

４ｍＬ血漿試料の妥当な割合を消費することができることは、重要である。上に提示されたいくつかの計算に例証されるように、血漿試料中の癌ＤＮＡのゲノム当量の数は、早期癌の間は低く、血漿試料中のこれらの癌ゲノム当量のできるだけ多い検出を確保する必要がある。ＰＣＲフリーライブラリ調製プロトコルを使用して血漿ＤＮＡ試料のＩｌｌｕｍｉｎａ配列決定の１０回の運転を実施することで、癌分類を達成することができると仮定する。これらの１０回の運転は、配列決定用ライブラリの半分を消費したことになる。これは、血漿試料の半分、すなわち２ｍＬからの分析可能な含有量を使用して癌分類を達成することと相関する。他方で、同じ試料のＰＣＲ増幅されたライブラリ上で実施された１０回の運転は、（ＰＣＲ増幅されたプロトコルのライブラリ収率において、一般に、１００倍の増幅があるため）ライブラリの０．５％のみを消費したことと同等となる。これは、４ｍＬの元の血漿試料のうちの０．０２ｍＬのみからの分析可能な含有量を使用することと相関し、得られたデータの量は、癌分類を達成するには不十分となる。よって、ＰＣＲ増幅を用いずに生成されたより少ないＤＮＡライブラリの使用によって、一定量の配列決定ごとにより多くの癌関連情報が得られることは反直感的である。

当業者は、ＰＣＲ複製としても既知であるＰＣＲ重複が、同一の開始及び終結ヌクレオチド座標を示す任意の配列リードを特定する生物情報学的手順を用いて除去することができることを示してきた。しかしながら、後の項で示されるように、血漿ＤＮＡ断片終結位置がランダムではないことを特定し、よって、誤ったフィルタリングが生じることになる。同じ開始及び終結ヌクレオチド表を有する配列リードをフィルタリングするための生物情報学的ステップを適用せずにＰＣＲフリープロトコルを使用して、同一の開始もしくは終結座標、またはその両方を有する配列リードを少ない割合（典型的には＜５％）で特定した。この観察は、血漿ＤＮＡ切断の非ランダムな性質の結果である。実施形態は、癌特異的終結位置の特定を、情報価値のある癌ＤＮＡ断片を特定するためのフィルタリング基準として組み込むことができる。ＰＣＲフリープロトコルの採用は、かかる分析及びこの基準の使用を促進することになる。さらに、これは、同一の開始及び終結ヌクレオチド座標を有する配列リードを除去する既存の実践が、実際に、血漿ＤＮＡ試料からの癌関連情報量の損失をもたらす利用可能な情報価値のある癌ＤＮＡ断片を除去したことも意味する。

Ｉｌｌｕｍｉｎａ配列決定用プラットフォームの配列決定エラー率は、配列決定されたヌクレオチドのうちの約０．１％〜０．３％である（Ｌｏｍａｎｅｔａｌ．ＮａｔＢｉｏｔｅｃｈｎｏｌ２０１２；３０：４３４−４３９；Ｋｉｔｚｍａｎｅｔａｌ．ＳｃｉＴｒａｎｓｌＭｅｄ２０１２；４：１３７ｒａ７６）。いくつかの他の配列決定用プラットフォームについて報告されたエラー率はさらに高い。示されてきたように、０．３％の配列決定エラー率は自明ではなく、胎児性デノボ変異（Ｋｉｔｚｍａｎｅｔａｌ．ＳｃｉＴｒａｎｓｌＭｅｄ２０１２；４：１３７ｒａ７６）または血漿中の癌特異的体細胞変異の非常に高い精度での特定において研究者にとっての障害を作ってきた。このエラー率は、ウルトラディープ及びブロード配列決定において、より一層関連性を有する。２００ｘの深度での配列決定データセットにおける０．３％のエラーは、２億個のエラーに換算される。

かかる配列決定エラーの一部は、前配列決定ＤＮＡライブラリ調製ステップ中のＰＣＲ増幅ステップによって生成される。ライブラリ調製のためにＰＣＲフリープロトコルを使用することにより、このタイプのエラーを低減することができる。これは、より少ない試薬がこれらの人工産物の配列決定に使用され、これらのエラーを処理するためにより少ない生物情報学的時間が費やされるため、配列決定の対費用効果をより高めることになる。加えて、真の陽性胎児性デノボ変異及び癌由来体細胞変異は、より少ない偽陽性の中で、別様にＰＣＲ増幅が関与した場合よりも少ないシーケンシング深度で、より特異的に特定することができる。実際に、これらの利点は、他の研究者には明白ではなかった（次の項を参照されたい）。

Ｃ．配列決定用ライブラリの前置増幅を伴う、及び伴わない配列決定の結果
ＰＣＲでの配列決定用ライブラリの前置増幅を伴う、及び伴わないプロトコルにおいて血漿中の癌関連変異を検出するために必要とされる配列決定の量を比較するために、シミュレーション分析を実施した。ＰＣＲ複製（すなわち、分子を１回より多く配列決定する）からの配列リードの割合を判定するために、以下の仮定を使用した：（１）１ｍＬの血漿中には、ＤＮＡ５００ゲノム当量が含まれる、（２）ＤＮＡは、２ｍＬの血漿から５０％収率で抽出される、（３）抽出されたＤＮＡのうちの４０％を、配列決定用ライブラリに首尾よく変換することができる、（４）前置増幅のために１０回のＰＣＲのサイクルが実施され、ＰＣＲ効率は１００％である、（５）前置増幅されたライブラリ及び前置増幅されていないライブラリの断片化パターンは同一である、（６）血漿ＤＮＡの長さは、１６６ｂｐである。

図３は、ＰＣＲ複製からの配列リードの割合とシーケンシング深度との間の関係を示すプロット３００である。ＰＣＲ複製からの配列リードの割合は、シーケンシング深度と共に増加する。２００ｘのシーケンシング深度で、配列リードのうちの４４％が、ＰＣＲ複製からのものであることになる。ＰＣＲ複製からのかかる配列リードは、追加の情報を提供しない。

図４Ａ及び４Ｂは、本発明の実施形態に従い、様々な腫瘍ＤＮＡ分率での癌対象の血漿中における癌関連変異を検出する、ＰＣＲ及びＰＣＲフリープロトコルで必要とされるシーケンシング深度の間の比較を示す。癌対象の血漿中の癌関連変異を検出するのに必要とされる配列決定の量を判定するために、ＰＣＲ複製からの予期される割合に基づいて、シミュレーション分析を実施した。シミュレーションは、１％〜１０％の血漿中の腫瘍ＤＮＡ分率をカバーするように実施された。この対象における癌細胞のゲノム中に、３０，０００個の変異が存在すると仮定した。

ＰＣＲ前置増幅を伴うプロトコルは、血漿中の任意の腫瘍ＤＮＡ分率での癌関連変異を検出するために、より高いシーケンシング深度を必要とする。シーケンシング深度の差異は、腫瘍ＤＮＡ分率の低減に伴って指数関数的に増加することになる。１０％の血漿中腫瘍ＤＮＡ分率では、ＰＣＲ前置増幅を伴うプロトコル及び伴わないプロトコルは、それぞれ、３７ｘ及び２５ｘのシーケンシング深度を必要とする。しかしながら、２％の血漿中腫瘍ＤＮＡ分率では、それぞれの必要とされるシーケンシング深度は、３６８ｘ及び２００ｘとなった。

したがって、ＰＣＲフリープロトコルは、特に、血漿中腫瘍ＤＮＡ分率が低い場合に、血漿中の癌関連変化の検出のために高度に有利である。血漿の腫瘍ゲノム内に存在する変異の数がより少ない場合、より高いシーケンシング深度が必要とされる。増幅を伴うプロトコルまたは伴わないプロトコルで必要とされる深度の差異は、特に血漿中腫瘍ＤＮＡ分率が低い場合に、さらに大きくなる。

Ｄ．従来の「ディープ配列決定」との違い
ウルトラディープ及びブロード配列決定を達成するための網羅的配列決定の使用を、従来の配列決定法から識別するためのいくつかの特徴がある。一態様において、「ディープ配列決定」と称される従来の配列決定アプローチのいくつかは、典型的に、例えばＰＣＲによる目的の標的配列の増幅を伴ってきた。次いで、アンプリコンとも称される増幅されたＤＮＡは、配列決定により複数回にわたって配列決定される。そのようなアプローチの一例は、タグ付けされたアンプリコンによるディープ配列決定（Ｆｏｒｓｈｅｗｅｔａｌ．ＳｃｉＴｒａｎｓｌＭｅｄ２０１２；４：１３６ｒａ６８）である。他方で、網羅的配列決定は、任意の増幅ステップを伴わないときに最も有効に実施され、これは、検出された断片の全てが、複製されたデータではなく元の断片であり、それにより広い幅及び真の深度（見かけの深度と対比して）を可能にするためである。見かけの深度とは、配列決定能力の一部が、ＰＣＲ重複の配列決定によって消費され、故に、配列決定の情報収率がその深度を反映していない、増幅された配列決定用ライブラリの配列決定を指す。

ディーブ配列決定は、典型的に、増幅ステップを使用するため、配列決定能力の一部が、ＰＣＲ重複の配列決定に費される。かかるＰＣＲ重複の存在は、試料内の各鋳型ＤＮＡ分子を増幅された配列決定用ライブラリのディープ配列決定によって網羅的に分析することを非常に困難にすることになる。いくつかの団体は、例えば、配列決定用ライブラリにバーコードを付けることによって（Ｋｉｎｄｅｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ２０１１；１０８：９５３０−９５３５）、重複率についての情報を提供するための方法を記載してきた。例えば、Ｋｉｎｄｅらによって記載される方法において、３つのステップを実施しなければならない：（ｉ）各鋳型分子への固有の識別（ＵＩＤ）の割り当て、（ｉｉ）ＵＩＤファミリーを作製するための固有にタグ付けされた各鋳型分子の増幅、及び（ｉｉｉ）増幅産物の重複配列決定。対照的に、網羅的配列決定のためのＰＣＲフリーライブラリの使用は、ＰＣＲ重複によってもたらされる問題を回避することになり、Ｋｉｎｄｅらによって記載される方法は必要ではなくなる。

実際に、従来、実践されてきたディープ配列決定アプローチは、網羅的配列決定の使用によって達成することができる幅を達成することができない。例えば、アンプリコン配列決定は、典型的には、狭いゲノム領域について高い深度を達成する。多重化の使用を伴っても、カバーされるゲノムの全幅は限定され、全ゲノムからは程遠い。本出願において説明されるように、癌スクリーニング試験について、できるだけ多くの推定変異部位をカバーするために、できるだけ全ゲノムカバレッジに近いことが好ましい。例えば、極端な多重アンプリコン配列決定、例えば、それぞれが１，０００個の塩基をカバーする３００万個のアンプリコンを適用したとしても、ＰＣＲ重複は、前述のように問題となることになる。

同様に、研究者らは、標的配列決定と称される、選択的ゲノム領域のディープ配列決定を達成するために、ハイブリダイゼーション捕捉を適用してきた。しかしながら、この捕捉プロトコルは、典型的に、増幅ステップを伴う。標的領域のサイズが比較的小さい場合、標的配列決定が血漿ＤＮＡ中で実施されると、ＰＣＲ重複の大部分（約５０％からさらには９０％まで）（Ｎｅｗｅｔａｌ．ＪＣｌｉｎＥｎｄｏｃｒｉｎｏｌＭｅｔａｂ２０１４；９９：Ｅ１０２２−１０３０）が達成されることになる。ＰＣＲ重複のそのような高いレベルでは、配列決定の有効な深度は低減される。配列決定の幅は、標的領域のサイズによって限定される。

これらの観察は、研究者らが、幅広さと深度を同時に有する配列決定を達成する動機を持ってこなかったことを示す。しかしながら、本出願に記載される網羅的配列決定の原理を採用することで、標的配列決定プロトコルを修正して、ヒトゲノムの大部分を捕捉する必要がありながら、ＰＣＲ重複率が最小限に抑えられることを確実にし得る。例えば、ＰＣＲ重複を最小限に抑えるために、光増幅を使用して、標的配列決定用ライブラリを調製してもよい。次いで、分析の幅は、複数の標的パネルからのプールデータによって達成することが必要となる。しかしながら、これらの検討事項を考慮すると、標的アプローチは、非標的網羅的配列決定アプローチよりも対費用効果が高くはない場合がある。しかし、ゲノムの大部分の標的富化が好ましい他の理由があり得る。例えば、一部分がデノボまたは体細胞変異の発生のクラスタリングを示す場合に、網羅的配列決定の試みの焦点を、ゲノムの反復または非反復領域に当てる必要性を正当化し得る。例として、試みの焦点を、ゲノムのユークロマチン領域ではなくヘテロクロマチンに当てることが好ましい場合がある。

Ｅ．胎児分析について
血漿ＤＮＡの網羅的配列決定は、非侵襲的出生前試験において有用であり得る。胎児ＤＮＡは、妊娠女性の血漿中に存在し（Ｌｏｅｔａｌ．Ｌａｎｃｅｔ１９９７；３５０：４８５−４８７）、胎児の非侵襲的出生前試験（例えば、染色体異数性及び単一遺伝子疾患について）に使用することできる。

これまで、母体血漿ＤＮＡ配列決定によるデノボ胎児変異の検出は、現世代の大規模並列シーケンサーの配列決定エラー率によって妨害されてきた（Ｋｉｔｚｍａｎｅｔａｌ．ＳｃｉＴｒａｎｓｌＭｅｄ２０１２；４：１３７ｒａ７６及び米国特許出願公開第ＵＳ２０１５／０１０５２６１Ａ１号）。故に、従来報告されてきたアプローチを使用して、何百万個もの候補胎児デノボ変異が、母体血漿中で特定されることになるが、潜在的な偽陽性をフィルタリングするための生物情報学的ステップの組み込みにもかかわらず、これらのうちの数十個のみが真の変異である。

しかしながら、母体血漿ＤＮＡの網羅的配列決定を使用することで、この問題を克服することができる。ＰＣＲフリーライブラリ調製プロセスを使用して、１つより多い母体血漿ＤＮＡ分子中で特定された候補胎児デノボ変異は、真の変異である可能性が高くなる。他の実施形態では、母体血漿試料中で２、３、４、５回よりも多く特定された同じ変異等の、より厳しい分類基準を設定することができる。

多くの研究者は、胎児染色体異数性を検出するための母体血漿の非侵襲的出生前試験のために、例えば、Ｈｅｌｉｃｏｓプラットフォームを使用して、単分子配列決定を使用してきた（ｖａｎｄｅｎＯｅｖｅｒｅｔａｌ．ＣｌｉｎＣｈｅｍ２０１２；５８：６９９−７０６及びｖａｎｄｅｎＯｅｖｅｒｅｔａｌ．ＣｌｉｎＣｈｅｍ２０１３；５９：７０５−７０９）。しかしながら、そのような研究は、血漿中の分子の小さい分率の配列決定を通して実施され、よって、ディープ及びブロード配列決定を達成しなかった。

Ｆ．網羅的配列決定のさらなる適用
別の実施形態では、網羅的血漿メチローム配列決定を使用して、体内の異なる器官に由来する血漿ＤＮＡ分子を特定することができる。これは、体内の異なる組織が、異なるメチル化プロファイルを有するため、可能である。逆重畳のプロセスを通して、異なる組織の血漿への相対的寄与を特定することができる（Ｓｕｎｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ２０１５；１１２：Ｅ５５０３−５５１２）。

血漿ＤＮＡの網羅的配列決定の別の実施形態では、複数の生理学的または病理学的プロセスに関連付けられる血漿ＤＮＡ中の変異を特定することができる。一実施形態では、かかるプロセスには、老化に関連付けられるものが含まれる。別の実施形態では、かかるプロセスには、環境要因、例えば、汚染、放射能、感染因子、有害化学物質等に関連付けられるものが含まれる。この後者の実施形態では、異なるプロセスが、それぞれの独自の変異シグネチャを有し得る（Ａｌｅｘａｎｄｒｏｖｅｔａｌ．Ｎａｔｕｒｅ２０１３；５００：４１５−４２１）。

血漿核酸の網羅的配列決定はまた、血漿中のｍＲＮＡ及び非コードＲＮＡ（例えば、マイクロＲＮＡ及び長い非コードＲＮＡ）の配列決定に適用することもできる。先行データは、血漿トランスクリプトームプロファイリングが、血漿試料から逆重畳される様々な組織からの寄与を可能にすることを示してきた（Ｋｏｈｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ２０１４；１１１：７３６１−７３６６）。血漿の網羅的トランスクリプトーム配列決定は、かかるアプローチの強度及び有用性をさらに向上させることになる。

Ｖ．変異を特定するためのフィルタリング基準
上のＩＩＩ．Ｂ項に記載されるように、変異の特定における特異性及びかかる変異を使用する任意の試験（例えば、癌のレベルを判定するための変異負荷の使用）は、変異を有する１つ以上の配列リードがアライメントされた座位にフィルタリング基準を適用することで向上させることができる。癌についての例として、高度な特異性は、それが癌に関連付けられるという確信が高い場合にのみ、遺伝的またはゲノム的シグネチャを陽性としてスコアリングすることによって達成することができる。これは、例えば、健常対照の群のゲノムプロファイルと比較することで変異として誤って特定され得る配列決定及びアライメントエラーの数を最小化することによって達成することができ、かつ／またはその人物自身の生得的ＤＮＡと比較することによって達成することができ、かつ／またはその人物自身の以前のゲノムプロファイルと比較することによって達成することができる。

変異を担持するＤＮＡ断片の可能性を評価するために、様々な基準をフィルタリング基準として適用することができる。上記のように、各フィルタリング基準は、個別に、独立して、均等な重み付けもしくは異なる重み付けを用いて集合的に、または指定された順序で連続的に、または前のフィルタリングステップの結果によって条件付きで使用することができる。フィルタリング基準の例は、以下に提供される。

Ａ．ダイナミックカットオフ
１つ以上のダイナミックカットオフフィルタリング基準を使用して、配列決定エラーに起因するヌクレオチド変化から、一塩基変異体、すなわち変異及び多型を識別することができる。文脈によって、変異は、「デノボ変異」（例えば、胎児の生得的ゲノムにおける新規変異）または「体細胞変異」（例えば、腫瘍における変異）であり得る。複数の座位のそれぞれについて、様々なパラメータ値を判定することができ、各パラメータ値は、各カットオフ値と比較される。パラメータ値がカットオフを満たさない場合、座位は、潜在的な変異を有するものとして廃棄することができる。

癌における体細胞変異の特定について、ある人物の生得的ＤＮＡ（例えば、バフィーコート）及び血漿ＤＮＡからの高深度配列決定データを比較して、血漿ＤＮＡ中で異型接合である部位（ＡＢ）及び生得的ＤＮＡ中で同型接合である部位（ＡＡ）を特定することができる。「Ａ」及び「Ｂ」は、それぞれ、野生型及び変異アレルを表す。ここで、二項式及びポアソン分布モデルを使用して３つのパラメータを計算した、変異検出のためのダイナミックカットオフ戦略を行う一実施形態を示す。

第１のパラメータに関して、生得的ＤＮＡ中の同型接合部位（ＡＡ）を判定する精度は、配列決定エラーの影響を受ける。配列決定エラーは、当業者に既知の多くの方法によって推定することができる。例えば、ＩｌｌｕｍｉｎａＨｉＳｅｑプラットフォームの配列決定エラー（「ε」で表される）は、０．００３であると推定される。配列決定数が、二項式分布に従うものと仮定して、第１のパラメータであるスコア１を、スコア１＝１−ｐｂｉｎｏｍ（ｃ，Ｄ，ε）として計算した。Ｄは、シーケンシング深度を表し、これは、「ｃ」及び「ａ」の和と等しい。「ｃ」は、変異アレルＢをカバーする配列リードの数を指す。「ａ」は、野生型Ａアレルをカバーする配列リードの数を指す。「ｐｂｉｎｏｍ」は、二項式累積分布関数であり
として表すことができ、式中、
は、数学的組み合わせ関数、すなわち、シーケンシング深度Ｄから変異アレルをｉ回、選択する組み合わせの数を表し、これはさらに、階乗を使用して、
として表すこともできる。スコア１の値が高ければ高いほど、実際の遺伝子型がＡＡであることがより確信的になる。０．０１より大きいカットオフを使用することができる。このパラメータを使用して、配列決定エラーの影響を制御することができる。

第２のパラメータに関して、ＳＮＰ座位の不十分なシーケンシング深度に起因して、生得的ゲノム中で認められた野生型ＡＡ（同型接合）が、実際のＡＢ（異型接合）遺伝子型から呼び違えられている可能性がある。このタイプのエラーの影響を最小化するために、第２のパラメータであるスコア２を、スコア２＝ｐｐｏｉｓ（ｂ，Ｄ／２）として計算し、式中、「ｂ」は、Ｂアレルをカバーする配列決定されたカウントの数であり、「ｐｐｏｉｓ」は、ポワゾン累積分布関数であり、これは、
として表すことができ、式中、λは、ストランドごとの平均シーケンシング深度（すなわち、Ｄ／２）であり、ｅは、自然対数の底（約２．７１７８２８）である。スコア２の値が低ければ低いほど、実際の遺伝子型ＡＡであることがより確信的になる。例えば、＜０．００１、０，０００１、１０^−１０等を使用することができる。このパラメータを使用して、アレルまたは変異体のドロップアウト（１つのアレルまたは変異体が増幅されなかったために同型接合部位のように見える異型接合部位を指し、よって、この欠損したアレルまたは変異体はドロップアウトした）を制御することができる。以下の特定のデータは、スコア＞０．０１及びスコア２＜０．００１のカットオフを使用し、スコア１及びスコア２を使用して、バフィーコートが同型接合であることを保証することができる。

第３のパラメータに関して、配列決定エラーに起因して、生得的ゲノム中で認められた変異ＡＢが、実際のＡＡ遺伝子型から呼び違えられている可能性がある。このタイプのエラーの影響を最小化するために、第３のパラメータであるスコア３を、
として計算し、式中、
は、数学的組み合わせ関数、すなわち、シーケンシング深度Ｄから変異アレルをｉ回、選択する組み合わせの数を表し、これはさらに、階乗を使用して、
として表すこともでき、「ε」は、この例においては０．００３であると推定された配列決定エラー率を表す。スコア３が低ければ低いほど、実際の遺伝子型がＡＢであることが確信的になる。例えば、＜０．００１、０．０００１、１０^−１０等を使用することができる。

スコア１及びスコア２は、生得的組織に適用することができ、スコア３は、混合物（腫瘍または血漿）に適用することができる。したがって、スコア１、スコア２、及びスコア３を調節することにより生得的組織と混合試料との共同解析を行って潜在的な変異を判定することができる。

意図される目的によって、ダイナミックカットオフにおいて各スコアの計算のための異なる閾値を使用することができる。例えば、体細胞変異の特定において高い特異性が好ましい場合、より低い値のスコア３を使用することができる。同様に、体細胞変異のより多い総和を検出することが好ましい場合、より高い値のスコア３を使用することができる。特定された体細胞変異の特異性は、例えば、以下に記載されるような他のフィルタリングパラメータを使用することで向上させることができる。他の数学的または統計学的モデル、例えばカイ二乗分布、ガンマ分布、正規分布、及び他のタイプの混合モデルも使用することができる。同様に、プロセスは、胎児デノボ変異に適用することができる。

Ｂ．再アライメント
１つ以上の再アライメントフィルタリング基準は、配列決定データからの配列変異体の検出における配列決定及びアライメントエラーの効果を低減することができ、したがって、変異の特定における偽陽性も低減することができる。再アライメントを使用する様々な実施形態をこれから記載する。

初めの（第１の）アライメント手順において、例えば、当業者に利用可能な任意のアライメント技巧、例えばＳＯＡＰ２によって、配列リードを、参照ゲノム（例えば、参照ヒトゲノム）にアライメント（マッピング）することができる（Ｌｉｅｔａｌ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２００９；２５：１９６６−７）。座位へのアライメントの後、ゲノム（例えば、参照ゲノム、対象の、もしくは対象に関連付けられる生得的ゲノム、または対象の親のゲノム）との比較を行って、リード内に配列変異体が存在するかどうか特定することができる。

推定変異を担持する配列リードは、独立した（第２の）アライナー、例えば、Ｂｏｗｔｉｅ２の使用を通して参照ヒトゲノムと再アライメントする（再びマッピングする）ことができる（Ｌａｎｇｍｅａｄｅｔａｌ．ＮａｔＭｅｔｈｏｄｓ２０１２；９：３５７−９）。独立したアライナーは、それらのマッチングアルゴリズムの使用の点で、初めのアライナーとは異なるものとなる。初めのアライナー及び再アライナーによって使用されるマッチングアルゴリズムの例としては、例えば、Ｓｍｉｔｈ−Ｗａｔｅｒｍａｎアルゴリズム、Ｎｅｅｄｌｅｍａｎ−Ｗｕｎｓｃｈアルゴリズム、Ｈａｓｈｉｎｇアルゴリズム、及びＢｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒ変換が挙げられるが、これらに限定されない。再アライメントによって、特定された変異の質または確実性を特定及び定量化することができる。独立したアライナーは、有効なアライメントを報告する閾値、挿入／欠失及びミスマッチへのペナルティ、許容されるミスマッチの数、アライメントのシードとして使用されるヌクレオチドの数等の他の方式でも初めのアライナーと異なり得る。

いくつかの実施形態では、マッピングされたリードを精度の低い配列リードとして特定するために、以下の再アライメント基準を、単独で、または組み合わせで使用することができる：（１）変異を担持する配列リードが、独立したアライナーによって回復されず、配列リードにアライメント（マッピング）しない、（２）変異を担持する配列リードが、初めのアライメントを検証するために独立したアライナーを使用したときに、矛盾したマッピング結果を示す（例えば、マッピングされたリードが、初めのアライメント結果と比較して異なる染色体に置かれている）、（３）同じゲノム座標にアライメントされた変異を担持する配列リードが、独立したアライナーを使用した規定閾値よりも低いマッピングクオリティを呈する（例えば、マッピングクオリティ≦Ｑ２０（すなわち、誤ったアライメントの可能性＜１％）、閾値の他の例は、０．５％、２％、及び５％の誤ったアライメントの可能性であり得る）、（４）配列リードが、いずれかのリード末端（すなわち、５’または３’末端）から５ｂｐ以内に位置付けられた変異を有する。配列決定エラーは、配列リードの両端で最も発生率が高かったため、この最後のフィルタリングルールが重要であり得る。マッピングクオリティは、アライナー内で定義された計量法であり、配列リードが誤ってアライメントされている可能性を明示する。異なるアライナーは、異なる計量法を使用し得る。

変異を担持する配列リード内での精度の低い配列リードの割合がある特定の閾値（例えば、３０％、３５％、４０％、４５％、または５０％）より大きい場合、候補変異部位を廃棄することができる。よって、残った配列リードが閾値よりも低い場合、座位は、少なくとも何らかの組織（例えば、腫瘍の組織または胎児の組織）において変異を有するものとして座位のセットから廃棄することができる。

ＧＡＴＣ（ｗｗｗ．ｇａｔｃ−ｂｉｏｔｅｃｈ．ｃｏｍ）による試み及びＭｕｔｅｃｔアルゴリズム（Ｃｉｂｕｌｓｋｉｓｅｔａｌ．ＮａｔＢｉｏｔｅｃｈｎｏｌ２０１３；３１：２１３−２１９）を含む先行研究において、潜在的な挿入または欠失部位のみが再アライメントされた。これらの他のスキームは、異なるアライナーからのデータを使用して配列リードのクオリティスコアを再計算しない。さらに、再計算されたクオリティスコアが、推定変異体または変異をフィルタリングする目的で使用することができることは示されてこなかった。再アライメント手順を使用する有効性を示すために、データが以下に示される。

Ｃ．変異分率
当業者であれば、母体血漿中の胎児ＤＮＡの分率濃度または癌対象の血漿中の腫瘍ＤＮＡの分率濃度を測定するために利用可能な方法があることを理解するであろう。よって、一実施形態では、真の情報価値のあるＤＮＡ断片を特定する可能性を高めるために、別の方法で測定された分率濃度と等しいか、またはそれよりも高い分率カウントを有するアレルまたは変異体のみが、真の変異体または変異と見なされる。分率濃度カットオフは、変異分率閾値（Ｍ％）、または単に分率閾値と称される。他の実装例は、測定された分率濃度より低い閾値を使用することができるが、選択された閾値は、測定された値に依存し得る（例えば、測定された分率濃度の所定の割合）。

別の実施形態では、測定された胎児ＤＮＡ分率または腫瘍ＤＮＡ分率にかかわらず、他の値を変異分率閾値として採用することができる。変異特定におけるより高い特異性が好ましい場合には、より高いＭ％が使用され得る。変異特定におけるより高い感度が好まれる場合には、より低いＭ％が使用され得る。分率閾値の例としては、５％、１０％、１５％、２０％、２５％、及び３０％が挙げられる。

さらに別の実施形態では、隣接する染色体領域内の推定変異のアレル分率における分散は、その領域からのＤＮＡ断片が情報価値のある癌ＤＮＡ断片である可能性に関する情報を提供することができる。例えば、目的の隣接する染色体領域は、コピー数異常を有するものであり得る。コピー数増加を有する領域では、腫瘍由来ＤＮＡの富化が起こることになる。故に、真の体細胞変異のアレル分率は、増加を有するかかる領域において、コピー数減少を有する領域よりも高くなることが予期される（これらの後者の領域での腫瘍由来ＤＮＡの枯渇のため）。

真の推定変異のアレル比における範囲または分散は、コピー数増加領域において、コピー数減少領域よりも大きくなる。よって、真の体細胞変異を特定する可能性を増加させるために、コピー数増加または減少を有する領域について異なるＭ％をフィルタリングカットオフとして設定することができる。認められた血漿変異分率における分散を明示するカットオフはまた、腫瘍由来ＤＮＡが富化されているか（コピー数増加を有する領域について）、または枯渇している（コピー数減少を有する領域について）染色体領域に起源を持つＤＮＡ分子を特定するために使用することもできる。その後に、ＤＮＡ断片が情報価値のある癌ＤＮＡ断片である可能性に関する判断を下すことができる。

Ｄ．サイズフィルター
血漿ＤＮＡは一般に、＜２００ｂｐの長さである断片として循環する一方、胎児由来及び腫瘍由来血漿ＤＮＡ分子はそれぞれ、基礎環境の非胎児及び非腫瘍ＤＮＡ分子よりも短い（Ｃｈａｎｅｔａｌ．ＣｌｉｎＣｈｅｍ２００４；５０：８８−９２、及びＪｉａｎｇｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ２０１５；１１２：Ｅ１３１７−１３２５）。したがって、血漿ＤＮＡ断片が胎児または腫瘍由来である可能性を増加させる別の特徴として短いサイズを使用することができる。よって、いくつかの実施形態では、ＤＮＡサイズフィルタリング基準を適用することができる。

様々なサイズ基準を使用することができる。例えば、変異アレル及び野生型アレルを担持するＤＮＡ断片のサイズ中央値の閾値差が、少なくとも塩基の特定の数であることが必要とされ、これは、ΔＳと表され得る。よって、ΔＳ≧１０ｂｐを、サイズフィルター基準として使用することができる。他のサイズ閾値の例としては、０ｂｐ、１ｂｐ、２ｂｐ、３ｂｐ、４ｂｐ、５ｂｐ、６ｂｐ、７ｂｐ、８ｂｐ、９ｂｐ、１１ｂｐ、１２ｂｐ、１３ｂｐ、１４ｂｐ、１５ｂｐ、１６ｂｐ、１７ｂｐ、１８ｂｐ、１９ｂｐ、及び２０ｂｐが挙げられる。他の統計学的検定、例えばｔ検定、Ｍａｎｎ−ＷｈｉｔｎｅｙＵ検定、Ｋｏｌｍｏｇｏｒｏｖ−Ｓｍｉｒｎｏｖ検定等を使用することもできる。ｐ値を、これらの統計学的検定を使用して判定し、閾値と比較して、配列変異体を担持するＤＮＡ断片が、野生型アレルを担持するものよりも著しく低いかどうかを判定することができる。ｐ値の閾値の例としては、０．０５、０．０１、０．００５、０．００１、０．０００５、及び０．０００１が挙げられるが、これらに限定されない。

したがって、一実施形態では、配列決定された血漿ＤＮＡ分子のサイズ情報を得ることができる。いずれかのペアエンド配列決定を使用して行うことができ、これには全ＤＮＡ分子を配列決定することが含まれる。後者について、血漿ＤＮＡ分子は概して１６６ｂｐ未満であるため、全ＤＮＡ分子の配列決定は、多くの短リード大規模並列配列決定プラットフォームを使用して容易に実施することができる。癌細胞に由来する血漿ＤＮＡは、概して短いのに対し、腫瘍周囲または非腫瘍組織に由来するものは、概して長いため（Ｊｉａｎｇｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉ２０１５；１１２：Ｅ１３１７−１３２５）、血漿ＤＮＡのサイズ情報を有することは、癌または非癌細胞に由来する可能性があるものとして配列決定された断片の分類をさらに促進することになる。この情報は、癌のスクリーニング、検出、予後診断、及び監視をさらに促進することになる。

さらに、母体血漿中の胎児ＤＮＡは母体ＤＮＡよりも短いため（Ｃｈａｎｅｔａｌ．ＣｌｉｎＣｈｅｍ２００４；５０：８８−９２及びＹｕｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ２０１４；１１１：８５８３−８５８８）、網羅的血漿ＤＮＡ配列決定からの結果を解釈する際に、血漿ＤＮＡの情報を利用することもできる。故に、母体血漿中のより短い断片は、胎児由来である可能性がより高い。

Ｅ．メチル化状態
ＤＮＡメチル化プロファイルは、異なる組織間で異なる。いくつかのメチル化シグネチャは、比較的、組織特異的である。例えば、ＳＥＲＰＩＮＢ５のプロモーターは、胎盤において低メチル化され（Ｃｈｉｍｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ２００５；１０２：１４７５３−１４７５８）、ＲＡＳＳＦ１Ａのプロモーターは、胎盤において過剰メチル化されている（Ｃｈｉｕｅｔａｌ．ＡｍＪＰａｔｈｏｌ２００７；１７０：９４１−９５０）。ＲＡＳＳＦ１Ａを含む、特定の腫瘍抑制遺伝子のプロモーターは、癌において過剰メチル化されている。しかしながら、胎盤（Ｌｕｎｅｔａｌ．ＣｌｉｎＣｈｅｍ２０１３；５９：１５８３−１５９４）及び癌組織（Ｃｈａｎｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉ２０１３；１１０：１８７６１−１８７６８）は、全体的に低メチル化されていることが示され、特に非プロモーター領域においてそうである。

母体血漿中の胎児ＤＮＡは、母体由来ＤＮＡとは異なるＤＮＡメチル化パターンを有することが示されてきたため、ＤＮＡメチル化情報は、配列決定された分子が母体または胎児由来である可能性を予測する助けになり得る。一実施形態では、胎盤は、母体血漿中の胎児ＤＮＡの主要な供給源であり、胎盤ＤＮＡは、母体血液細胞ＤＮＡよりも低メチル化されているため（Ｌｕｎｅｔａｌ．ＣｌｉｎＣｈｅｍ２０１３；５９：１５８３−１５９４）、母体血漿から配列決定された低メチル化ＤＮＡ断片は、胎児由来のものである可能性が高い。同様に、一実施形態では、腫瘍ＤＮＡが、血液細胞ＤＮＡよりも低メチル化されているため（Ｃｈａｎｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉ２０１３；１１０：１８７６１−１８７６８）、癌について試験された個体の血漿から配列決定された推定（候補）変異を含有する低メチル化ＤＮＡ断片は、低メチル化を有しないものよりも癌関連または癌特異的なものである可能性が高い。

座位が変異を呈するかどうかを判定するために様々な方式でメチル化状態を使用することができる。例えば、座位が変異と見なされる前に、変異を有する座位にアライメントしたＤＮＡ断片メチル化密度の閾値量が必要とされ得る。別の例として、例えば、ＤＮＡ断片ごとに１つのみのＣｐＧ部位がある場合、ＣｐＧ部位の二元性スコアリングを使用することができる。ＣｐＧ部位は、１つのＤＮＡ断片が、予期されるメチル化状態を有しない場合に、廃棄することができる。ＤＮＡ断片を廃棄するかどうかは、他のフィルタリング基準に依存し得る。例えば、ＤＮＡ断片が、十分に短い場合、ＤＮＡ断片を保持してもよい。これは、様々なフィルタリング基準を、異なる重みと組み合わせて、または決定木の一部として組み合わせて使用する例である。

血漿ＤＮＡのメチル化分析は、重亜硫酸変換、メチル化感受性制限酵素消化、またはメチル結合タンパク質処理を含むメチル化を意識したアプローチによって達成することができる。これらのメチル化を意識したプロセスの全てに、大規模並列配列決定、単分子配列決定、マイクロアレイ、デジタルＰＣＲ、またはＰＣＲ分析が続くことができる。加えて、いくつかの単分子配列決定プロトコルは、他のメチル化を意識したプロセスによる事前の処理を伴わずに、ＤＮＡ分子のメチル化状態を直接読み取ることができる（Ａｈｍｅｄｅｔａｌ．ＪＰｈｙｓＣｈｅｍＬｅｔｔ２０１４；５：２６０１−２６０７）。

シトシンメチル化以外に、ヒドロキシメチシトシン（ｈｙｄｒｏｘｙｍｅｔｈｙｃｙｔｏｓｉｎｅ）（これに限定されない）等のＤＮＡメチル化の他の形態がある（Ｕｄａｌｉｅｔａｌ．Ｈｅｐａｔｏｌｏｇｙ２０１５；６２：４９６−５０４）。脳組織（ＳｈｅｒｗａｎｉａｎｄＫｈａｎ．Ｇｅｎｅ２０１５；５７０：１７−２４）及び黒色腫（Ｌｅｅｅｔａｌ．ＬａｂＩｎｖｅｓｔ２０１４；９４：８２２−８３８）は、より高い割合のヒドロキシメチルシトシンを示す。

Ｆ．血漿ＤＮＡ終結位置
末端ヌクレオチドの座標または終結位置に基づく、潜在的な癌特異的または癌関連または胎児変異のフィルタリングを実施することもできる。ランダムではなく、起源となる組織に基づいて異なるＤＮＡ断片の末端位置を特定した。よって、末端位置を使用して、推定変異を有する配列リードが、実際に胎児組織または腫瘍組織に由来する可能性を判定することができる。

近年、ＤＮＡの断片化パターンは、非ランダムであることが示されてきた（Ｓｎｙｄｅｒｅｔａｌ．Ｃｅｌｌ２０１６；１６４：５７−６８及びＰＣＴＷＯ２０１６／０１５０５８Ａ２）。血漿ＤＮＡ断片化パターンは、血漿ＤＮＡ分子の一因となる細胞のゲノムにおけるヌクレオゾームの位置付け、転写因子結合部位、ＤＮａｓｅ切断または交換受精部位、発現プロファイル（Ｓｎｙｄｅｒｅｔａｌ．Ｃｅｌｌ２０１６；１６４：５７−６８及びＰＣＴＷＯ２０１６／０１５０５８、Ｉｖａｎｏｖｅｔａｌ．ＢＭＣＧｅｎｏｍｉｃｓ２０１５；１６Ｓｕｐｐｌ１３：Ｓ１）、及びＤＮＡメチル化プロファイル（Ｌｕｎｅｔａｌ．ＣｌｉｎＣｈｅｍ２０１３；５９：１５８３−１５９４）に影響される。よって、断片化パターンは、異なる組織起源の細胞について異なる。より頻度の高い断片を示すゲノム領域がある一方で、領域内の実際の血漿ＤＮＡ切断部位は、なおランダムであり得る。

異なる組織が、異なる切断部位または終結位置を有する血漿ＤＮＡ断片の放出に関連付けられるという仮説を設けた。換言すれば、特定の切断部位さえも、非ランダムである。実際に、癌患者における血漿ＤＮＡ分子が、癌を有しない患者とは異なる終結位置を示すことを示す。いくつかの実施形態は、かかる癌関連終結位置を有する血漿ＤＮＡ分子を情報価値のある癌ＤＮＡ断片として使用するか、またはかかる終結位置情報をフィルタリング基準として、例えば、１つ以上の他のフィルタリング基準と共に使用することができる。よって、かかる癌関連血漿ＤＮＡ終結位置の特定によって、血漿ＤＮＡ断片を情報価値のある癌ＤＮＡ断片としてスコアリングするか、またはかかる断片の終結位置の性質に基づく差次的重み付けに帰することができる。かかる基準を使用して、断片が、癌、特定の器官、または特定の器官の癌に起源を持つ可能性を評価することができる。

したがって、血漿ＤＮＡ断片が情報価値のある癌ＤＮＡ断片である可能性は、それが、推定変異、ならびに癌関連である終結位置を示す場合に、さらに高くなる。様々な実施形態は、かかる断片及びその長さ、またはそれら及び他のパラメータの任意の組み合わせを考慮に入れることもできる。血漿ＤＮＡ断片は２つの端部を有するため、その端部の一方または両方が、癌に関連付けられるか、またはがんに関連付けられる組織タイプに由来するかを考慮して、それを癌由来断片として特定するための重み付けをさらに修正することできる。次項に記載されるように、一本鎖ＤＮＡ断片が配列決定用ライブラリに変換される可能性を増加させるライブラリ調製プロセスの使用は、この後者の実施形態の効率を向上させることになる（かかるライブラリ調製プロセスの例について、Ｓｎｙｄｅｒｅｔａｌ．Ｃｅｌｌ２０１６；１６４：５７−６８を参照されたい）。一実施形態では、終結位置に基づく同様のアプローチは、他の病理または生物学的プロセス（例えば、老化プロセスに起因する変異または環境変異原性要因に起因する変異）に関連付けられる検出変異のために使用することもできる。

同様のアプローチは、胎児を抱える妊娠女性の血漿中のＤＮＡを配列決定することで胎児のデノボ変異を特定するために使用することもできる。故に、母体血漿中のかかるＤＮＡ断片も胎盤特異的または胎盤富化終結位置を担持する場合、胎盤に特異的または比較的特異的である終結位置の特定に続いて、真のものである推定胎児デノボ変異により高い重み付けを帰することができる。血漿ＤＮＡ断片は２つの端部を有するため、その端部の一方または両方が、胎盤に関連付けられるかどうかを考慮して、それを胎児由来断片として特定するための重み付けをさらに修正することできる。

このアプローチの実行可能性を例証するために、ＨＣＣ患者及び妊娠女性について血漿ＤＮＡの配列決定データを分析した。例証目的において、染色体８に分析の焦点を当てた。同じアプローチは、全ゲノムまたは任意の他の染色体または任意のゲノム領域またはそれらの組み合わせに適用することができる。

各配列決定された血漿ＤＮＡ断片の両端での末端ヌクレオチドの座標を判定した。次いで、染色体８上の各ヌクレオチドで終結する断片の数をカウントした。それらの上で終結するＤＮＡ断片を最も多い数を有する上位１００万個のヌクレオチドが、ＨＣＣ症例及び妊娠女性からの血漿試料のそれぞれについて判定された。

図５は、本発明の実施形態に従い、ＨＣＣ症例において特異的であるか、妊娠女性において特異的であるか、または両方の症例において共有される高頻度の終結位置の数を示すベン図である。２つの症例で共有された頻度の高い終結位置である４６３，２２８個のヌクレオチドの座標が次いで特定された。ＨＣＣ症例について、共有された４６３，２２８個のヌクレオチドを上位１００万個から減算して、ＨＣＣ症例に特異的な頻度の高い終結位置である５３６，７７２個のヌクレオチドの座標を得て特定した。同様に、共有された４６３，２２８個のヌクレオチドを、上位１００万個の妊娠症例について最も一般的な終結位置から減算して、妊娠女性に特異的な頻度の高い終結位置である５３６，７７２個のヌクレオチドの座標も得て特定した。

５３６，７７２個のＨＣＣ特異的終結位置でちょうど終結する末端ヌクレオチドを有する血漿ＤＮＡ断片は、腫瘍に由来する可能性が高くなる。対称的に、妊娠特異的終結位置または２つの症例で共有される位置でちょうど終結する末端ヌクレオチドを有する血漿ＤＮＡ断片は、腫瘍に由来する可能性が低く、妊娠特異的終結位置は、潜在的に可能性がより低く、重み付けを使用する任意の実施形態で、より低い重み付けが付与される。

したがって、ＨＣＣ症例に特異的な上位の終結位置のリストを使用して、癌関連変異を選択することができ、妊娠症例に特異的であるか、両方の症例で共有される上位の終結位置を使用して、偽陽性変異をフィルタリングして除去することができる。胎児変異を特定し、非侵襲的生前試験での偽陽性変異をフィルタリングして除去するために、同様の手順を使用することができる。

一般的に、かかる生物学的関連血漿ＤＮＡ終結位置を特定するために、異なる疾患または疫学的背景または生理学的プロファイルを有する個体の群からの血漿ＤＮＡ試料を、かかる疾患または背景またはプロファイルを有しない個体の別の群からの試料と比較することができる。一実施形態では、これらの試料のそれぞれは、血漿ＤＮＡ断片の共通の終結位置が各試料内で特定されるように、深く配列決定することができる。別の実施形態では、相補的プロファイルを有する人物の群からの配列データは、疾患または生理学的プロファイルを表す共通の終結位置の特定のために一緒にプールすることができる。

この分析の目的は、疾患または生物学的関連プロファイルを有する個体に共通するが、疾患または生物学的関連プロファイルを有しない個体にはない血漿ＤＮＡ終結位置を特定することである。例えば、この比較は、癌を有する及び有しない個体、特定の器官または組織の癌を有する及び有しない個体、妊娠及び非妊娠個体、特定の妊娠関連または胎児疾患を有する及び有しない妊娠個体、ならびに異なる年齢の個体を伴い得る。参照試料の群において特定された後、組織特異的または疾患関連血漿ＤＮＡ終結位置は、試験試料の解釈のための参照セットとなる。

試料中の各血漿ＤＮＡ断片は、個別に調べられ、終結位置に基づいて可能性スコアが割り当てられる。特定の終結位置についての可能性スコアは、対照群のための終結する配列リードの量に対する、標的個体（例えば、癌）のための終結位置で終結するある量の配列リード（例えば、配列リードの割合、または試料にわたってシーケンシング深度によって正規化された他の値）の間隔に依存し得る。より大きい間隔は、より高い特異性をもたらし、よって、より高い可能性スコアを適用することができる。したがって、特定の終結位置を有する血漿ＤＮＡ断片が、疾患関連である可能性があるか否か、胎児または母体である可能性等の分類を実施することができる。

あるいは、同じ領域に起源を持つ血漿ＤＮＡ断片を集合的に解釈することができ、すなわち、特定のヌクレオチドで終結する頻度を、シーケンシング深度に対して正規化することで計算することができる。この様式で、例えば、より多くの試料を使用することもできるが、特定のタイプの１つの試料の分析のみに基づいて、特定のヌクレオチドは、ゲノム内の他の位置に対して共通の終結位置であることを特定することができる。したがって、特定の終結位置を有する血漿ＤＮＡ断片が、疾患関連である可能性があるか否か、胎児または母体である可能性等の分類を実施することができる。かかる生物学的関連血漿ＤＮＡ終結位置を有する血漿ＤＮＡ断片の高頻度を示す座位について、かかる座位が生物学的関連ＤＮＡで富化されており、これが癌関連または胎児特異的または他の疾患もしくは生物学的プロセスに関連付けられる可能性が高い血漿ＤＮＡ断片の群として含まれると判定を下すことができる。この可能性のレベルは、上記の異なる群の間での比較と同様の方式で、他のヌクレオチドに対して所与のヌクレオチドについて頻度がどれほど高いかに基づき得る。

このアプローチの有効性を例証するために、潜在的癌関連変異をＨＣＣ患者の血漿ＤＮＡ配列決定データから直接特定した。少なくとも２つの血ＤＮＡ断片の配列リード中に存在した一塩基変化は、潜在的癌関連変異と見なされた。腫瘍組織もまた配列決定され、腫瘍組織中に存在した変異は、真の癌関連変異と見なされた。

ダイナミックカットオフ分析を使用せずに、染色体８上で合計２０，０６５個の潜在的変異がＨＣＣ患者の血漿ＤＮＡ配列決定データから特定された。配列変異体が少なくとも２つの配列決定されたＤＮＡ断片中に存在した場合、配列変異体は潜在的変異と見なされることになる。８８４個の真の体細胞変異が腫瘍組織の配列決定結果から特定された。２０，０６５個の推定変異は、８８４個の真の変異のうちの８０２個（９１％）を含んでいた。よって、推定変異のうちの４％のみが、腫瘍組織中の真の体細胞変異であり、４％のＰＰＶを示した。

体細胞変異の検出の精度を向上させるため、推定変異を担持する配列リードの末端ヌクレオチド位置に基づく以下のフィルタリングアルゴリズムを使用した。（１）．任意の推定変異について、変異を担持、ＨＣＣ特異的終結位置で終結する少なくとも１つの配列リードがある場合、変異は、下流変異分析のために認定される。（２）．推定変異を担持したが、任意の妊娠特異的終結位置または両方の症例で共有される位置で終結した配列リードは、除去されることになる。このアルゴリズムに基づくリードの除去の後に、同じ変異を示す２つ以上の配列リードがあった場合にのみ、変異は、下流変異分析のために認定される。

上に明記される１及び２のフィルタリングアルゴリズムを適用して、表１の結果が得られた。推定変異を担持するＤＮＡ断片の末端ヌクレオチドの位置または終結位置に基づく異なるフィルタリングアルゴリズムを適用する効果。

終結位置がＨＣＣ特異的であることを要する３つのアルゴリズムのうちの任意の１つ、または妊娠特異的または共有された位置をフィルタリングして除去するアルゴリズムを採用したことにより、ＰＰＶにおける実質的な向上があった。両方のアルゴリズムを適用することで、ＰＰＶは７１％まで増加した。

ＨＣＣ関連及び妊娠関連終結位置の他の数は、各染色体について、またはさらに別のゲノム領域について、またはさらに全ゲノムについて特定することができ、それは、例えば、５０万、２００万、３００万、４００万、５００万、６００万、７００万、８００万、９００万、または１０００万であるが、これらに限定されない。様々な実施形態では、血漿ＤＮＡ分子中で最も頻繁に見られる終結位置は、癌患者の１つ以上のコホートにおいて判定することができ、各コホートは、１つの癌タイプである。加えて、血漿ＤＮＡ分子中で最も頻度の高い終結位置は、癌を有しない対象について判定することができる。一実施形態では、癌を有するかかる患者及び癌を有しない対象は、異なる臨床パラメータ、例えば、性別、喫煙経験、これまでの健康状態（例えば、肝炎状態、糖尿病、体重）等を有する群にさらに細分化することができる。

かかるフィルタリング基準を使用する一環として、統計学的分析を使用して、異なる生理学的及び病理学的状態について、循環ＤＮＡについて末端ヌクレオチドまたは終結位置である可能性がより高い位置を特定することができる。統計学的分析の例としては、スチューデントｔ検定、カイ二乗検定、及び二項式分布またはポワゾン分布に基づく検定が挙げられるが、これらに限定されない。これらの統計学的分布について、異なるｐ値カットオフ（例えば０．０５、０．０１、０．００５、０．００１、及び０．０００１であるが、これらに限定されない）を使用することができる。ｐ値カットオフはまた、複数の比較のために調節することもできる。

Ｇ．一本鎖配列決定
一実施形態では、配列決定は、各鋳型分子の２つの相補的ストランド上で実施することができ、これは一本鎖配列決定と称される（Ｓｎｙｄｅｒｅｔａｌ．Ｃｅｌｌ２０１６；１６４：５７−６８）。両方のストランドの配列リード中に存在する変異は、下流分析に使用され、１つのストランドの配列リードにのみ出現する変異は、廃棄されるか、または少なくとも１つのＤＮＡ断片についてのデータが廃棄され得る。これにより、血漿ＤＮＡ分子についての配列決定エラーをさらに指数関数的に低減させることができる。

血漿ＤＮＡ断片の各ストランドは、独立して分析することができるため、血漿ＤＮＡ断片の終結位置または末端ヌクレオチド座標は、より高い正確さ及び精度で判定することができる。一本鎖配列決定はまた、二本鎖形態に対して一本鎖形態で循環する血漿ＤＮＡ断片の検出を可能にする。一本鎖血漿ＤＮＡを分析に含むことで（例えば、一本鎖ＤＮＡ分析を促進するライブラリ調製プロトコルの使用を通して）（Ｓｎｙｄｅｒｅｔａｌ．Ｃｅｌｌ２０１６；１６４：５７−６８））、潜在的に情報価値のある癌ＤＮＡ断片の追加の集団が、検出を受けることができるようになる。

さらに、一本鎖ＤＮＡを好むライブラリ調製プロトコル（例えば、Ｓｎｙｄｅｒｅｔａｌ．Ｃｅｌｌ２０１６；１６４：５７−６８を参照されたい）の使用も、終結位置に基づくフィルタリング基準に使用され得る追加の位置を特定することを可能にする。例えば、２つのストランドについて２つの配列リードのアライメントの後に、その２つのストランドが同じ組織特異的終結位置にアライメントしない場合、その配列リードは、変異を有するものとしてより低い重み付けを付与され得る。

ＶＩ．癌患者の血漿における体細胞変異検出
癌のために試験される対象における体細胞変異の検出の様々な例をここに記載する。様々なフィルタリング基準についてデータが示される。また、ＰＣＲフリーの有効性を例証する。

Ａ．臨床材料調製
臨床材料は、ＨＣＣ患者から得た。血液細胞は、手術前に収集した。ＨＣＣ腫瘍生検及び隣接する正常肝組織の生検を、腫瘍切除の差異に収集した。ＰＣＲフリーライブラリ調製プロトコルを使用して材料からＤＮＡライブラリを調製し、ＩｌｌｕｍｉｎａＨｉＳｅｑシリーズの大規模並列シーケンサーを使用して配列決定した。バフィーコート、腫瘍生検、隣接する正常肝組織、及び血漿について達成されたシーケンシング深度は、それぞれ、ヒト半数ゲノムの４５ｘ、４５ｘ、４０ｘ、及び２２０ｘであった。

１．患者情報
ＨＣＣ患者は、肝硬変を有しないＨＢＶキャリアである５８歳の中国人男性であった。腫瘍サイズは１８ｃｍであった。彼は、腫瘍切除のためにＰｒｉｎｃｅｏｆＷａｌｅｓ病院の外科に収容され、インフォームドコンセントを伴って集められた。この研究は、ｔｈｅＪｏｉｎｔＵｎｉｖｅｒｓｉｔｙｏｆＨｏｎｇＫｏｎｇａｎｄＮｅｗＴｅｒｒｉｔｏｒｉｅｓＥａｓｔＣｌｕｓｔｅｒＣｌｉｎｉｃａｌＲｅｓｅａｒｃｈＥｔｈｉｃｓＣｏｍｍｉｔｔｅｅによって認可された。手術前に、９ｍＬの末梢血をＥＤＴＡ管に収集した。腫瘍組織及び隣接する正常組織は、腫瘍切除後に収集した。

２．試料処理
全ての血液試料を二重遠心分離プロトコルによって処理した（ＣｈｉｕｅｔａｌＣｌｉｎＣｈｅｍ２００１；３７：１６０７−１６１３）。４℃、１，６００ｇで１０分間の遠心分離のすぐ後に、血漿部分を、４℃、１６，０００ｇで１０分間再遠心分離して、無細胞血漿を得た。血液細胞部分を、２，５００ｇで再遠心分離し、任意の残留血漿を除去した。血液細胞からのＤＮＡ及び血漿からのＤＮＡを、それぞれ、ＱＩＡａｍｐＤＮＡＢｌｏｏｄＭｉｎｉＫｉｔ及びＱＩＡａｍｐＤＳＰＤＮＡＢｌｏｏｄＭｉｎｉＫｉｔ（Ｑｉａｇｅｎ）の血液及び生体液プロトコルを用いて抽出した。腫瘍及び隣接する正常組織からのＤＮＡを、製造業者の組織プロトコルに従いＱＩＡａｍｐＤＮＡＭｉｎｉＫｉｔ（Ｑｉａｇｅｎ）を用いて抽出した。

３．血漿ＤＮＡの定量化
ＤＮＡを３．７ｍＬの血漿から抽出し、１１０マイクロリットルの水に溶出した。ＤＮＡ濃度は、マイクロリットル当たり０．６２９ナノグラムであり（Ｑｕｂｉｔ経口高度計、ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ）、６９ｎｇのＤＮＡをもたらした。次いで、３０ｎｇのＤＮＡをライブラリ構築に使用した。各３Ｍｂゲノムは、１６６個の塩基対（ｂｐ）断片に断片化されているため、ゲノム当たり約１．８１×１０^７個の血漿ＤＮＡ断片があるはずである。３０ｎｇのＤＮＡは、［（３０×１，０００）／３．３］×１．８１×１０^７個の断片＝１．６４×１０^１１個の全断片を含有することになる。

４．ＤＮＡライブラリ構築
ゲノムＤＮＡ試料及び母体血漿のためのＤＮＡライブラリは、指示されたアダプターの５分の１を血漿ＤＮＡライブラリ構築に使用したこと以外、製造業者のプロトコルに従ってＴｒｕＳｅｑＤＮＡＰＣＲ−ｆｒｅｅＬｉｂｒａｒｙＰｒｅｐａｒａｔｉｏｎｋｉｔ（Ｉｌｌｕｍｉｎａ）を用いて構築した。３つのゲノムＤＮＡ試料、すなわち、患者のバフィーコートＤＮＡ、腫瘍組織ＤＮＡ、及び隣接する正常組織ＤＮＡがあった。各ゲノムＤＮＡ試料について、ライブラリ構築のために１マイクログラムのＤＮＡを２００ｂｐの断片になるまで超音波処理した（Ｃｏｖａｒｉｓ）。ライブラリ濃度は、２０μＬのライブラリ中、１７〜５１ｎＭの範囲であった。

３０ｎｇの血漿ＤＮＡ試料（１．６４×１０^１１個の断片）について、ライブラリ収率は、２０μＬのライブラリ中、２，２４２ｐＭであり、これは、４４，８５４アトモル、すなわち、２．７０×１０^１０個の１６６ｂｐ血漿ＤＮＡ断片に等しい。ＤＮＡからライブラリへの変換は、１６．４％であった。この変換のレベルは、入力ＤＮＡのうちの約１％のみがライブラリに変換された他のＤＮＡライブラリ調製キットでの従来の経験よりも遥かに高い。

５．ＤＮＡライブラリの配列決定
全てのＤＮＡライブラリは、７５ｂｐ×２（ペアエンド）のためのＨｉＳｅｑ１５００、ＨｉＳｅｑ２０００、またはＨｉＳｅｑ２５００配列決定プラットフォーム（Ｉｌｌｕｍｉｎａ）で配列決定された。各ゲノムＤＮＡライブラリについて、複数のレーンを配列決定した。バフィーコート、腫瘍組織、及び隣接する正常組織のＤＮＡライブラリのシーケンシング深度は、それぞれ、４５ｘ、４５ｘ、及び４０ｘであった。血漿ＤＮＡライブラリについて３０．７レーンを配列決定し、およそ４４億個の重複せずにマッピングされたペアエンドリードを得た。シーケンシング深度は、２２０ｘであった。

配列決定後の血漿ＤＮＡライブラリの回収を計算するために、レーン当たり１０ｐＭを入力として１２０μｌのＤＮＡライブラリを配列決定した。断片入力の総数は、１２０×１０×３０．７×６．０２×１０^２３／１０^１８＝２．２２×１０^１０個の断片であった。配列決定後、４．４０×１０^９個の断片を得た。配列決定後のＤＮＡライブラリの回復は、１９．９％であった。

血漿ＤＮＡ配列決定は、参照ヒトゲノムにアライメントまたはマッピングされた。全配列リードの割合としての各１Ｍｂセグメント（ビン）にマッピングされたリードの数は、ゲノム全体にわたって判定された。１Ｍｂセグメント当たりの割合またはゲノム存在量を、健常対照の群から得た血漿ＤＮＡ配列決定データと比較して、米国特許出願公開第２００９／００２９３７７号に以前に記載されるようなゲノム存在量における統計学的に顕著な増加または統計学的に有意な現象を有するゲノム領域を特定した。

図６は、ＨＣＣ患者における１−Ｍｂセグメントの増加、減少、または無変化を示すプロット６００である。ゲノム存在量における統計学的に有意な増加を有する領域は、コピー数増加の存在を示す一方、ゲノム存在量における統計学的に有意な減少を有する領域は、コピー数減少の存在を示す。ゲノム存在量における統計学的に有意な増加、減少を有するか、または顕著な変化を有しないビンは、それぞれ、緑色、赤色、及び灰色の点として示される。かかる減少を示した連続するゲノムセグメントにわたるコピー数減少の程度を定量化することにより（例えば、米国特許出願第１４／９９４，０２３号に記載されるように）、血漿中の腫瘍由来ＤＮＡの分率濃度が、１５％であると判定した。

Ｂ．腫瘍生検及び隣接組織に存在する変異
次に、患者のバフィーコート配列決定データと比較することにより、腫瘍生検中に存在する体細胞変異を特定した。この分析は、いくつの体細胞変異をこの特定の腫瘍が担持し、血漿ＤＮＡ中で検出することを目指した変異のゴールドスタンダードセットとして機能したか判定するために実施した。腫瘍生検中で検出されたがバフィーコートＤＮＡ中では検出されなかった任意のアレルについて、一連のフィルタリング基準を適用して体細胞変異を特定した。１０Ｂは、初期分析を、配列決定データの半分、すなわち１１０ｘで実施した。

図７は、本発明の実施形態に従い、ダイナミックカットオフ、再アライメント、及び変異分率を使用するフィルタリングプロセス７００、ならびに腫瘍生検から特定された変異について得られたデータを示す。図７に示されるように、ダイナミックカットオフ戦略をまず適用して、そのほとんどが配列決定エラーの結果である偽陽性一塩基変異体の検出を最小化した。各ボックスに示される数は、各ステップで特定された推定変異の数を表す。

次いで、ダイナミックカットオフ戦略を使用して特定された１６，０２７個の推定変異に、段階Ａのフィルタリング基準として再アライメント戦略を適用して、配列決定エラー及びアライメントエラーに起因する変異体をさらに除去した。次に、２つの異なる分率濃度カットオフを独立して適用した。少なくとも２０％の腫瘍ＤＮＡ分率（Ｍ％）をカットオフ（段階Ｂの基準）として使用して、１２，０８３個の体細胞変異を特定した。少なくとも３０％のＤＮＡ分率をカットオフ（段階Ｃの基準）として使用して、１１，９０３個の体細胞変異を特定した。これらの１１，９０３個の変異体を、この腫瘍に存在する真の体細胞変異と見なした。この数は、腫瘍ごとに存在する変異の報告された平均数と一致する。

腫瘍由来血漿ＤＮＡ分子は、非腫瘍由来分子よりも短いことが予期される。これらの変異体が真の腫瘍由来体細胞変異であるかどうか評価する手段として、これらの１１，９０３個の座位をカバーする血漿ＤＮＡ断片を探索し、それらの断片のサイズプロファイルを評価した。

図８は、野生型アレルを有するものとして特定された血漿ＤＮＡ断片と比較した、ＨＣＣ患者において変異アレルを有するものとして特定された血漿ＤＮＡ断片のサイズのプロット８００を示す。変異を有するものとして特定されたこれらの血漿ＤＮＡ断片は、これらの体細胞変異について情報価値のなかった他の血漿ＤＮＡ断片よりも実際に短い。かかるサイズ分析は、変異の特定の有効性を確証させ、サイズをフィルタリング基準として使用する能力も確証させる。

図９は、本発明の実施形態に従い、ダイナミックカットオフ、再アライメント、及び変異分率を使用するフィルタリングプロセス９００、ならびに隣接する正常肝生検から特定された変異について得られたデータを示す。腫瘍生検に使用されたものと同じセットの基準を適用して、隣接する正常肝生検の生検における変異についてスクリーニングした。図９に示されるように、最終フィルターが、少なくとも２０％の腫瘍ＤＮＡ分率（段階Ｂの基準）を要することに基づく場合、２０３個の変異のみが特定された。最終フィルターが、少なくとも３０％の腫瘍ＤＮＡ分率（段階Ｃの基準）を要することに基づく場合、７４個の変異のみが特定された。

図１０Ａ及び１０Ｂは、隣接する正常肝生検から特定された２０３個の推定変異を担持する血漿ＤＮＡ断片の評価されたサイズプロファイルの、他の情報価値のない血漿ＤＮＡ分子のサイズプロファイルとの比較を示す。図１０Ａは、推定変異アレル及び野生型アレルの一定範囲のサイズにわたる血漿ＤＮＡ断片の頻度を示す。図１０Ｂは、推定変異アレル及び野生型アレルのサイズの関数として血漿ＤＮＡ断片の累積度数を示す。図１０Ａ及び１０Ｂに示されるように、サイズ頻度分布ならびに累積サイズ差プロットの形態で表されるＤＮＡの２つの群のサイズプロファイルに差異はない。これらの分子のサイズプロファイルは、変異が、偽陽性である可能性が高いことを示唆する。

Ｃ．血漿の変異分析
次に、様々なフィルタリング基準を適用して、血漿における体細胞変異または情報価値のある癌ＤＮＡ断片を特定することを目指した。

図１１は、本発明の実施形態に従い、フィルタリングプロセス１１００（ダイナミックカットオフ、再アライメント、変異分率、及びサイズを使用する）、ならびに血漿から特定された変異について得られたデータを示す。図１１において、推定体細胞変異の数は、各フィルタリングステップについて各ボックス内に示される。腫瘍生検から特定された１１，９０３個のうち、各フィルタリングステップで回収される真の体細胞変異の数は、絶対数ならびに割合として示される。各フィルタリングステップについて、ＰＰＶが計算され、示されている。８５％超のＰＰＶは、段階Ｂ、Ｃ、またはＤの基準を、ダイナミックカットオフ及び段階Ａのフィルタリングと組み合わせて使用した場合に達成することができる。

図１２は、本発明の実施形態に従い、フィルタリングプロセス１２００、及びより低い変異分率カットオフを使用して血漿から特定された変異について得られたデータを示す。図１２中のデータは、回収された真の体細胞変異の数が、段階Ｂまたは段階Ｃでより低い分率濃度カットオフ適用された場合に遥かに大きくなる一方、ＰＰＶが維持され得ることを示す。

Ｄ．サイズ
次いで、分率濃度カットオフ（段階Ｂ及びＣ）を省略することの効果を探求した。

図１３は、本発明の実施形態に従い、フィルタリングプロセス１３００（ダイナミックカットオフ、再アライメント、及びサイズを使用する）、ならびに血漿から特定された変異について得られたデータを示す。図１３中に示されるデータは、ダイナミックカットオフ、再アライメント、及びサイズ要件（すなわち、短いＤＮＡ分子を好む）の使用によって、変異分率フィルタリング基準を使用して達成されたものと同じ回収及びＰＰＶを達成することができることを示す。

図１４は、血漿を使用して野生型アレルを有するものとして特定された血漿ＤＮＡ断片と比較した、変異アレルを有するものとして特定された血漿ＤＮＡ断片のサイズのプロット１４００を示す。サイズプロファイルは、フィルタリングステップを使用して特定された変異が、腫瘍由来ＤＮＡに予期されるような短いＤＮＡサイズを呈したことを示す。

Ｅ．シーケンシング深度を増加させた
血漿試料のシーケンシング深度を、１１０ｘから２２０ｘまでさらに増加させた。

図１５は、本発明の実施形態に従い、フィルタリングプロセス１５００、及び増加したシーケンシング深度を使用して血漿から特定された変異について得られたデータを示す。プロセス１５００は、図１２に示されるものと同じフィルタリング基準のセットを使用する。シーケンシング深度の増加（２２０ｘ）に伴って、回収された真の体細胞変異の割合は遥かに大きくなった。段階Ｂのフィルタリングステップで検出された１０，９１５個の変異のうち、９３個の変異は、エクソン内に位置付けられた。１個の変異、すなわち、ＣＴＮＮＢ１（ｃ．Ｃ９８Ｇ，Ｐ．Ｓ３３Ｃ）のエクソン３中の非同義変異のみが、ＣＯＳＭＩＣデータベースにおける上位２８個の発生率の高い癌変異のうちの１つとして報告された。

Ｆ．変異分率
図１１は、段階Ｂ及び段階Ｃのカットオフが、それぞれ、２０％及び３０％であった場合の、ＰＰＶ及び回収率への効果を示した。変異特定におけるより高い感度が好まれる場合には、より低いＭ％をカットオフとして使用してもよい。図１２は、段階Ｂのカットオフが５％であり、段階Ｃのカットオフが１０％であった場合のＰＰＶ及び回収率への効果を示す。

上に記載されるように、変異分率における分散は、フィルタリング基準として使用することもできる。異なる染色体領域に起源を持つ、体細胞変異分率の血漿アレル分率を研究した。図６に示されるように、ＨＣＣ患者の腫瘍は、染色体１ｐにおけるコピー数減少及び染色体１ｑにおけるコピー数増加を提示した。染色体１ｐ及び染色体１ｑにわたる変異分率の頻度分布をプロットした。

図１６は、変異分率の様々な値を有する座位の数（密度）を示すプロット１６００である。プロット１６００に見られるように、コピー数増加領域（染色体１ｑ）について、変異分率のより高い値が認められ、コピー数減少領域（染色体１ｐ）について、より低い変異分率値が認められた。

２つの領域における変異分率値の範囲及び分散についても研究した。

図１７Ａは、染色体アーム１ｐ及び１ｑに及び分布のためのｚスコアを示す。図１７Ｂは、染色体アーム１ｐ及び１ｑに及び明白な変異分率を示す。コピー数減少領域（染色体１ｐ）よりもコピー数増加領域（染色体１ｑ）において、値の分散のｚスコアは、より高く（図１７Ａ）、実測値は、より可変的であった（図１７Ｂ）。

これらのデータは、コピー数増加または減少を有する領域について異なるＭ％を、フィルタリングカットオフとして設定して、真の体細胞変異を特定する可能性を増加させることができることを示す。認められた血漿変異分率における分散を明示するカットオフはまた、腫瘍由来ＤＮＡが富化されているか（コピー数増加を有する領域について）、または枯渇している（コピー数減少を有する領域について）染色体領域に起源を持つ血漿ＤＮＡ分子を特定するために使用することもできる。その後に、ＤＮＡ断片が情報価値のある癌ＤＮＡ断片である可能性に関する判断を下すことができる。

Ｇ．より緩やかな基準
ダイナミックカットオフにおいてより緩やかな基準を使用することができるかどうか探求した。前に示された例において、使用されたダイナミックカットオフ閾値（スコア３）は、体細胞変異の偽陽性特定の変化を最小化するためであった。ダイナミックカットオフ分析について、配列変異体は、配列変異体が一定数（Ｎ）の配列決定されたＤＮＡ断片に存在する場合、候補変異として適用されることになり、数（Ｎ）は、配列決定された座位の数、探索空間中のヌクレオチドの数、及び予測される偽陽性率を有する可能性に依存する。前述の例において、予測される偽陽性率は、＜１０^−１０として設定され、探索空間は、全ゲノム（３×１０^９個のヌクレオチド）である。

図１８は、本発明の実施形態に従い、特定のアレルのカウントカットオフについて、様々な変異分率及びシーケンシング深度における変異検出の予期される感度を示す表１８００である。各行は、異なるシーケンシング深度に対応する。血漿におけるカットオフは、血漿における変異を有するＤＮＡ断片の数が、変異と見なされるのに十分であるかどうかを判定するために使用される。これらの値を使用することで、残った列は、様々な腫瘍割合について血漿中の変異検出の予測される感度、ＴＰ／（ＴＰ＋ＦＮ）を提供する。バフィーコートもまた、バフィーコートにおける配列決定エラーをフィルタリングするためにカットオフに供される。いくつかの実施形態は、バフィーコートが同型接合である位置にある変異体のみを検出するため、かかるフィルタリングを伴わない場合、実施形態は、血漿中の変異体検出のための同型接合部位としての座位を含み損ない得る。表１８００中のデータは、より緩やかなダイナミックカットオフが使用された場合に、次のグラフを解釈するためのベースラインデータとして機能する。

閾値を緩めて、０．１％の偽陽性検出率を可能にすることの効果を探求した。

図１９は、本発明の実施形態に従い、０．１％の偽陽性検出率での特定のアレルのカウントカットオフについて、様々な変異分率及びシーケンシング深度における変異検出の予期される感度を示す表１９００である。このデータは、より緩やかなダイナミックカットオフについてのデータを示す。

図２０は、本発明の実施形態に従い、フィルタリングプロセス２０００、及びより緩やかなダイナミックカットオフを使用して血漿から特定された変異について得られたデータを示す。２２０ｘのシーケンシング深度を使用した。より緩やかなダイナミックカットオフを使用したとき、第１のステップでのＰＰＶは、１２％から３．３％まで落ちた。他のフィルタリングステップ、すなわち段階Ａ、Ｂ、Ｃ、及びＤと組み合わせた場合、厳しいダイナミックカットオフに基づくアルゴリズムと同様のＰＰＶと共に、真の体細胞変異のより高い回収を達成することができた。

これらのデータは、各フィルタリング基準が異なる役割を果たすことを示す。各基準の有用性は、使用される閾値の厳しさを変更することで変わり得る。この例において、より緩やかなダイナミックカットオフにより、より高感度の体細胞変異の特定を可能にした。偽陽性をフィルタリングして除去する他の基準の効果に起因して、スキーム全体の特異性は、維持された。

次に、ダイナミックカットオフステップの完全除去を評価した。代わりに、固定カットオフを適用した。例えば、バフィーコートＤＮＡ中に存在しない異型接合アレルが、少なくとも特定の回数（例えば、１、２、３回等）、血漿中で認められた場合、特定された推定変異の数を判定した。この分析を適用して、２００ｘ超で配列決定されたＨＣＣ患者の血漿ＤＮＡデータならびに母体血漿試料を分析した。母体血漿試料を提供した母親は、癌を有することが既知ではなく、したがって、この試料中で特定された推定変異のほとんどが、父親から受け継がれた胎児特異的アレルであるか、偽陽性である可能性が高い。

図２１は、胎児及び癌シナリオにおける推定変異の数の分布を示すプロット２１００である。垂直軸は、推定変異（変異アレル）を有する座位の数のカウントに対応する。水平軸は、座位が変異を有するものとして特定されるために必要なＤＮＡ断片の数に対応する。

両方の試料は、ＰＣＲフリーライブラリ調製プロトコルを使用して同様の深度まで配列決定された。よって、配列決定エラー及びアライメントエラーによってもたらされる偽陽性変異は、両方の試料において同様であるはずである。変異のスコアリングのためのカットオフとして使用された配列リードの数が増加するにつれて、推定変異の数が減少したことに留意されたい。偽陽性変異は、ランダムに発生し、したがって、より低いアレル比であるため、偽陽性が、カットオフとして必要なリードの数の漸進的増加によってフィルタリングされて除去されている可能性がある。

他方で、癌患者において特定された想定変異の数が、約１８の配列リード以降から限界を示し始め、妊娠女性の血漿中で検出されたものよりも高いことが認められる。これは、ＨＣＣ患者における変異負荷が、母体血漿試料中の父親から毛継がれた胎児アレルの数よりも多いことを意味する。

次いで、同じデータセットに再アライメントフィルタリング基準（段階Ａ）を適用した。

図２２は、再アライメントを使用した場合の胎児及び癌シナリオにおける推定変異の数の分布を示すプロット２２００である。推定変異の総数は、再アライメントが適用されなかった図２１に示されるデータと比較したとき、対応する固定された配列リードのカットオフ数においても実質的に減少した。ＨＣＣ血漿と母体血漿との間の推定変異の数における境界は、より一層明白であった。これらのデータは、再アライメントステップが、偽陽性を除去するための強力なプロセスであることを示す。

サイズフィルタリングの値をさらに評価した。重ねて、この分析においてダイナミックカットオフ戦略は使用しなかった。代わりに、同じマイナーアレルを示す固定の最小数の配列リードを第１のステップとして使用して、推定変異を特定した。

図２３は、本発明の実施形態に従う再アライメントを伴わない場合のＰＰＶ及び回収率を示す表２３００である。図２３に示されるように、固定カットオフのみを使用する体細胞変異特定のためのＰＰＶは、最適以下である。各固定カットオフレベルで異なるサイズカットオフが使用されると、ＰＰＶが向上した。

図２４は、本発明の実施形態に従う再アライメントを伴う場合のＰＰＶ及び回収率を示す表２４００である。図２４に示されるデータについて、固定カットオフによる推定変異の初期特定の後に再アライメントを適用した。ＰＰＶは、実質的に向上した。次いで、さらなるフィルタリングのために異なるサイズカットオフを適用し、ＰＰＶにおけるいくらかの向上が認められた。

Ｈ．癌における上昇した変異負荷の検出
ＨＣＣ患者からの血漿試料及び新生児の臍帯血の血漿について記載されたフィルタリング基準を使用して、変異負荷評価を実施した。臍帯血試料のための生得的ゲノムは、臍帯血バフィーコートであった。ほとんどの乳児は、癌を有せずに生まれ、まだ体細胞変異を獲得しておらず、または発癌物質に曝露されていないため、臍帯血血漿は、参照としてうまく機能する。

臍帯血血漿を、ＰＣＲフリーライブラリ調製プロトコルを使用して７５ｘまで配列決定した。

図２５は、本発明の実施形態に従い、フィルタリングプロセス２５００（ダイナミックカットオフ、再アライメント、変異分率、及びサイズを使用する）、ならびに臍帯血の血漿から特定された変異について得られたデータを示す。図２５は、図中に示される段階Ａ〜Ｄに続いて厳しいダイナミックカットオフを使用したときに臍帯血血漿中で検出された推定変異の数を示す。少量の推定変異が特定された。

図２６は、本発明の実施形態に従う、プロセス２５００から判定される変異ＤＮＡ断片及び野生型アレルのサイズ分布のプロット２６００である。これらの変異のサイズプロファイルを評価した際、これらは、癌由来ＤＮＡとは異なり、特に短くはなかった。

次に、比較評価を行うことができるように、ＨＣＣ試料から７５ｘの血漿ＤＮＡ配列決定データをランダムに選択した。同じフィルタリング基準のセットを適用した。腫瘍由来変異のうちの約５，０００〜６，０００個が、８９％以上のＰＰＶで回収された。

図２７は、本発明の実施形態に従い、フィルタリングプロセス２７００（ダイナミックカットオフ、再アライメント、及びサイズを使用する）、ならびにＨＣＣ試料の血漿から特定された変異について得られたデータを示す。７５ｘのシーケンシング深度を使用した。

図２８は、本発明の実施形態に従う、プロセス２７００から判定される変異ＤＮＡ断片及び野生型アレルのサイズ分布のプロット２８００である。これらの変異を有する血漿ＤＮＡ断片は、情報価値のないＤＮＡ断片よりも実際に短かった。

しかしながら、臍帯血血漿中で特定された推定変異のうちの８４％は、公表された一塩基多型部位で生じており、この割合は、ＨＣＣ血漿試料においては３％のみであったことに留意されたい。したがって、臍帯血血漿中の公表されたアレルは、胎児循環中に取り込まれ、新生児の血液中で検出可能のままとなっている母体ＤＮＡ分子であり得るという仮説を設けた（Ｌｏｅｔａｌ．ＣｌｉｎＣｈｅｍ２０００；４６：１３０１−１３０９）。既知の一塩基多型部位から任意の部位を除去した後、ＨＣＣ血漿についてのデータは不変のままであった（図３０）のに対し、臍帯血血漿中の推定変異の数は、８個のみに減少した（図２９）。

図２９は、本発明の実施形態に従い、臍帯血の血漿から特定された変異について、ＳＮＰベースのフィルタリングを使用するフィルタリングプロセス２９００である。図３０は、本発明の実施形態に従い、ＨＣＣ血漿から同定された変異について、ＳＮＰベースのフィルタリングを使用するフィルタリングプロセス３０００である。一塩基多型を除去するためのフィルタリングステップの組み込みは、段階Ｅのフィルタリングに対応する。結果的に、臍帯血血漿中で検出された推定変異の数（そのほとんどは偽陽性である）は、８４％（４９個中、８個）低減された。他方で、ＨＣＣ試料中の推定変異の数は、３％低減されただけであった。

これらのデータは、記載されたフィルタリング基準のセットの組み込みを伴う、ＰＣＲフリーライブラリ調製プロトコルに続くウルトラディープ及びブロード配列決定の使用により、癌患者の血漿における腫瘍由来変異を、特定された推定変異の数に基づいて高感度及び特異的に特定することができたことを示す。癌患者の血漿中で特定された変異負荷は、対照非癌臍帯血血漿中で認められたものを３倍、上回った。よって、癌と非癌との間の分類を行うことができた。

全配列決定データ（２２０ｘ）の二次試料（７５ｘ）が、癌と非癌との識別を達成する目的のために既に十分であったことをさらに示した。以下のシミュレーションデータに示されるように（ＶＩＩＩ項の図４４、４５Ａ〜４５Ｃ、及び４６Ａ〜４６Ｃ）、ウルトラディープ及びブロード配列決定データがこれらの実施形態で必要である一方で、幅及び深度の程度は、血漿試料中の腫瘍ＤＮＡ分率、及び血漿ＤＮＡ検出に利用することができる腫瘍を宿す変異の数に依存する。

Ｉ．起源となる組織
かかる体細胞変異のゲノム位置が、腫瘍の起源となる組織に依存するクラスタリングのパターンを示し得ることを示唆するデータ（Ｓｎｙｄｅｒｅｔａｌ．Ｃｅｌｌ２０１６；１６４：５７−６８、ＰＣＴＷＯ２０１６／０１５０５８Ａ２、Ｉｖａｎｏｖｅｔａｌ．ＢＭＣＧｅｎｏｍｉｃｓ２０１５；１６Ｓｕｐｐｌ１３：Ｓ１）がある。文献は、体細胞変異が、特定のヒストン修飾を有するゲノム位置と共存する傾向にあることを示唆した。ヒストン修飾の組織特異的位置は、ＥｐｉｇｅｎｏｍｉｃｓＲｏａｄｍａｐデータベース（ｗｗｗ．ｒｏａｄｍａｐｅｐｉｇｅｎｏｍｉｃｓ．ｏｒｇ）等の公衆データベースを通して得ることができる。

ヒストン修飾の組織特異的位置を、ＥｐｉｇｅｎｏｍｉｃｓＲｏａｄｍａｐデータベース（ｗｗｗ．ｒｏａｄｍａｐｅｐｉｇｅｎｏｍｉｃｓ．ｏｒｇ）を通して得た。健常組織において、Ｈ３Ｋ４ｍｅ１は、活性／平衡エンハンサー領域に関連付けられることが報告されている。Ｈ３Ｋ２７ａｃは、活性エンハンサー領域に関連付けられる。Ｈ３Ｋ９ｍｅ３は、構成的ヘテロクロマチンと高度に相関する。換言すれば、健常組織において、Ｈ３Ｋ４ｍｅ１及びＨ３Ｋ２７ａｃは、組織における活性遺伝子発現を有するゲノム領域に関連付けられる一方、Ｈ３Ｋ９ｍｅ３は、ゲノムの抑制領域に関連付けられる。しかしながら、癌においては、体細胞変異の数は、抑制ゲノム領域中でより高度に存在することが報告されてきた。現時点で、血漿ＤＮＡにおけるかかる相関の存在を報告するデータは存在しない。

１−Ｍｂビンごとの３つのヒストン修飾のうちのそれぞれの数と、同じ１０Ｍｂビン中の体細胞変異の数との間のスピアマン相関分析を実施した。

図３１は、ヒストン修飾を有する組織の相関を示す表３１００である。図３１は、ＳＮＶを使用して、腫瘍予測の起源となる組織を判定する。肝臓組織のヒストン修飾パターンについて、最も強い相関係数が得られた。これは、血漿ＤＮＡデータが、ＨＣＣ患者から得られた事実と一貫している。よって、別の試験試料を分析した場合、癌に関連付けられることが既知であるヒストン修飾に関連付けられる座位に起源を持つ血漿ＤＮＡ断片を特定することができる。かかる座位は、癌由来血漿ＤＮＡ断片で富化されることになる。よって、これらの座位の血漿ＤＮＡ断片は、情報価値のある癌ＤＮＡ断片として分類することができる。胎児組織（例えば、胎盤）に関連付けられることが既知であるヒストン修飾を使用して胎児変異を特定するためにも、同様のアプローチを実施することができる。

スピアマン相関は、血漿中のメガベースごとのＳＮＶ密度と、様々な器官または組織中のメガベースごとのヒストンマーカー密度との間で計算される。最も高い相関は、腫瘍の起源となる組織を示唆することになる。

ＶＩＩ．胎児におけるデノボ変異の検出
上記の議論のほとんどは癌に関してきたが、実施形態を使用して胎児におけるデノボ変異を特定することもできる。

先天性変異は、出生前期、幼児期、またはその後に発現し得る疾患をもたらす場合がある。先天性変異とは、胎児ゲノム中に存在する変異を指す。いくつかの疾患は、早期治療を利用することができる一方、他のものは、重度の機能障害に関連付けられ得る。よって、これらの疾患のうちのいくつかの出生前診断は、当然のこととされる。遺伝子、ゲノム、または染色体異常に関連付けられる疾患の出生前診断は、出生前に胎児の遺伝子材料を分析することで実施することができる。胎児の遺伝子材料は、羊水穿刺または絨毛検査等の侵襲的手順で得ることができる。これらの手順は、胎児流産のリスクに関連付けられる。よって、母体血漿中に存在する無細胞胎児核酸の分析を通すことを含む、非侵襲的アプローチによる出生前評価を実施することが好ましい。

ほとんどの先天性変異は、親から受け継がれ、遺伝病をもたらす。母体血漿中の循環無細胞胎児ＤＮＡ分析による受け継がれた変異の非侵襲的検出のためのアプローチが、これまでに報告されてきた（米国特許出願公開第２００９／００８７８４７号及び同第２０１１／０１０５３５３号）。推定胎児変異は、母性及び／もしくは父性変異を知ることまたは試験することによって確認することができる。

しかしながら、疾患は、デノボ変異によって引き起こされることもある。デノボ変異は、父親または母親から受け継がれたものではない、胎児の生得的ゲノム中に存在する変異である。デノボ変異は、特定の疾患、例えば軟骨無形成症、多発性内分泌腫瘍症について、疾病負荷のかなりの部分を占める。各人物は、生得的ゲノム中に約２０〜３０個のデノボ変異を有すると推定されてきた（Ｋｏｎｇｅｔａｌ．Ｎａｔｕｒｅ２０１２；４８８：４７１−４７５）。かかる変異は、ゲノムの遺伝的、エピジェネティック、または調節機能を損なうことになるゲノムの領域でそれらが発生した場合、疾患を引き起こし得る。現在のところ、既知の先天的リスクがない限り、デノボ変異の出生前検出のための有効な方法はない。デノボ変異のための先天的な疑いは、例えば、胎児の超音波検査が、軟骨無形成症の疑いがある特徴を明らかにした場合に、展開することができる。両親が軟骨無形成症のための変異を担持していない場合、デノボ変異を、線維芽細胞成長因子受容体３遺伝子において探索することになる。

デノボ変異によって引き起こされるほとんどの他の疾患について、典型的には、出生前に検出してどの遺伝子を調べるべきかを示唆することができる構造的または身体的兆候はない。ハプロタイプゲノムの３０億個のヌクレオチドのうちの３０個のかかる変化の探索は、干し草の中から針を探すようなものであるため、現在のところ、出生前にデノボ変異を検出するための有効な方法はない。循環無細胞胎児ＤＮＡ分析によるデノボ変異検出を達成することは、胎児デノボ変異を５倍から１０倍にさらに希釈する母親の基礎環境血漿ＤＮＡのために、より一層の困難に関連付けられる。ここで、母体血漿中の循環無細胞胎児ＤＮＡの分析を通してデノボ変異の有効な検出を可能にする実施形態を記載する。

Ａ．胎児におけるデノボ変異の検出の例
１．家族情報
男児の単胎妊娠は、妊娠３８週目の帝王切開を予定していた。家族は、ＰｒｉｎｃｅｏｆＷａｌｅｓＨｏｓｐｉｔａｌの産婦人科で、インフォームドコンセントを伴って募られた。この研究は、ｔｈｅＪｏｉｎｔＵｎｉｖｅｒｓｉｔｙｏｆＨｏｎｇＫｏｎｇａｎｄＮｅｗＴｅｒｒｉｔｏｒｉｅｓＥａｓｔＣｌｕｓｔｅｒＣｌｉｎｉｃａｌＲｅｓｅａｒｃｈＥｔｈｉｃｓＣｏｍｍｉｔｔｅｅによって認可された。入院の際に、２０ｍＬの母体血液及び１０ｍＬの父体血液を収集した。出産後に、胎盤組織試料及び３ｍＬの臍帯血を収集した。

２．試料処理
全ての血液試料を、前述のように、二重遠心分離プロトコルによって処理した（ＣｈｉｕｅｔａｌＣｌｉｎＣｈｅｍ２００１；３７：１６０７−１６１３）。４℃、１，６００ｇで１０分間の遠心分離のすぐ後に、血漿部分を、４℃、１６，０００ｇで１０分間再遠心分離して、無細胞血漿を得た。血液細胞部分を、２，５００ｇで再遠心分離し、任意の残留血漿を除去した。血液細胞からのＤＮＡ及び母体血漿からのＤＮＡを、それぞれ、ＱＩＡａｍｐＤＮＡＢｌｏｏｄＭｉｎｉＫｉｔ及びＱＩＡａｍｐＤＳＰＤＮＡＢｌｏｏｄＭｉｎｉＫｉｔ（Ｑｉａｇｅｎ）の血液及び生体液プロトコルを用いて抽出した。胎盤からのＤＮＡを、製造業者の組織プロトコルに従いＱＩＡａｍｐＤＮＡＭｉｎｉＫｉｔ（Ｑｉａｇｅｎ）を用いて抽出した。

３．血漿ＤＮＡの定量化
５ｍＬの母体血漿からＤＮＡを抽出した。ＺＦＸ／ＹデジタルＰＣＲアッセイを使用して（ＬｕｎｅｔａｌＣｌｉｎＣｈｅｍ２００８；５４：１６６４−１６７２）、ＺＦＸ及びＺＦＹの濃度は、それぞれ、１，０３８コピー／ｍＬ血漿及び１０３コピー／ｍＬ血漿であった。次いで、血漿ＤＮＡの４．５ｍＬ当量をライブラリ構築に使用した。各ゲノムが、１６６個の塩基対（ｂｐ）断片に断片化されると仮定し、ゲノム当たり約１．８１×１０^７個の血漿ＤＮＡ断片があるはずである。４．５ｍＬの血漿ＤＮＡは、（１０３８＋１０３）×４．５×１．８１×１０^７個の断片＝９．２８×１０^１０個の全断片を含有することになる。

４．ＤＮＡライブラリ構築
ゲノムＤＮＡ試料及び母体血漿のためのＤＮＡライブラリは、指示されたアダプターの５分の１を血漿ＤＮＡライブラリ構築に使用したこと以外、製造業者のプロトコルに従ってＴｒｕＳｅｑＤＮＡＰＣＲ−ｆｒｅｅＬｉｂｒａｒｙＰｒｅｐａｒａｔｉｏｎｋｉｔ（Ｉｌｌｕｍｉｎａ）を用いて構築した。４つのゲノムＤＮＡ試料、すなわち、母親のバフィーコートＤＮＡ、父親のバフィーコートＤＮＡ、臍帯血バフィーコートＤＮＡ、及び胎盤ＤＮＡがあった。各ゲノムＤＮＡ試料について、ライブラリ構築のために１マイクログラムのＤＮＡを２００ｂｐの断片になるまで超音波処理した（Ｃｏｖａｒｉｓ）。ライブラリ濃度は、２０□Ｌのライブラリ中、３４〜５８ｎＭの範囲であった。４．５ｍＬの血漿からの母体血漿ＤＮＡ試料（９．２８×１０^１０個の断片）について、ライブラリ収率は、２０□Ｌのライブラリ中、２９９５ｐＭであり、これは、５９，９１０アモル（ａｍｏｌｅｓ）、すなわち、３．６１×１０^１０個の１６６ｂｐ血漿ＤＮＡ断片に等しい。ＤＮＡからライブラリへの変換は、３８．９％であった。

５．ＤＮＡライブラリの配列決定
全てのＤＮＡライブラリは、７５ｂｐ×２（ペアエンド）のためのＨｉＳｅｑ１５００、ＨｉＳｅｑ２０００、またはＨｉＳｅｑ２５００配列決定プラットフォーム（Ｉｌｌｕｍｉｎａ）で配列決定された。各ゲノムＤＮＡライブラリについて、複数のレーンを配列決定した。母親、父親、臍帯血、及び胎盤のＤＮＡライブラリのシーケンシング深度は、それぞれ、４０ｘ、４５ｘ、５０ｘ、及び３０ｘであった。母体血漿ＤＮＡライブラリの全てが、配列決定に使用された。ライブラリを４５レーンに使い尽くし、およそ５７．４億個の重複せずにマッピングされたペアエンドリードを得た。シーケンシング深度は、約２５５ｘであった。

血漿ＤＮＡライブラリの回収を計算するために、２，９９５ｎＭを入力として、１６μｌのＤＮＡライブラリを使用した（２０μＬのＤＮＡライブラリからの４μＬは、ライブラリ検証及び定量化に使用された）。断片入力の総数は、２，９９５×１６×６．０２×１０^２３／１０^９＝２．８９×１０^１０個の断片であった。配列決定後、５．７４×１０^９個のリード（断片）を得た。配列決定後のＤＮＡライブラリの回復は、１９．９％であった。入力ライブラリのうちの８０％は、クラスター生成及び／または配列決定の間に失われた。配列決定フローセル上での高効率のクラスター生成のためには、入力として５倍過剰のライブラリが必要となることを疑った。過剰ライブラリ断片は、次いで、洗い流され、クラスターを形成したもののみが配列決定されることになる。

上記の推定に続き、ＤＮＡからライブラリへの変換率は３８．９％であり、配列決定後のＤＮＡライブラリの回復は、１９．９％であった。血漿ＤＮＡ断片から配列決定出力断片への回収は、７．７％であったと推定された。

Ｂ．議論
父親及び母親が両方とも同型接合であるが、異なるアレルを有する、２９８，３６４個の情報価値のあるＳＮＰ部位が特定された。よって、胎児は、これらの部位において絶対異型接合であった。これらのＳＮＰ部位のうちの９９．８％は、胎盤組織において異型接合であることが確認された。次いで、母体血漿中の胎児ＤＮＡ分率を判定した。父性アレルのカウントを組み合わせ、これを、これらの２９８，３６４個の情報価値のあるＳＮＰ部位にわたる母性アレルの組み合わせたカウントの割合として表すことにより、胎児ＤＮＡ分率は、３１．８％であると推定された。次いで、これらの情報価値のあるＳＮＰ部位のそれぞれでの胎児分率を判定した。

図３２は、かかる個々のＳＮＰ部位で測定された胎児分率の頻度分布を示す。部位のうちの９５％が、２０％より高い胎児ＤＮＡ分率を呈する。

図３３Ａは、胎児特異的ＤＮＡ及び母性血漿中の共有ＤＮＡのサイズ分布を示す。図３３Ｂは、胎児特異的ＤＮＡ断片及び共有ＤＮＡ断片の血漿ＤＮＡサイズにおける累積度数のプロットを示す。図３３Ｃは、ΔＦとして示される累積度数の差異を示す。従来報告されてきた観察（Ｌｏｅｔａｌ．ＳｃｉＴｒａｎｓｌＭｅｄ２０１０；２：６１ｒａ９１）と同様に、母体血漿中の胎児ＤＮＡ分子は、非胎児特異的血漿ＤＮＡ分子よりも短いサイズを呈する。

この胎児のゲノム中に存在するデノボ変異を判定するために、胎盤ＤＮＡ及び臍帯血ＤＮＡの両方に存在するが、母性ゲノムＤＮＡに存在せず、父性ゲノムＤＮＡに存在しないＤＮＡ変異体（ほとんどが点変異または一塩基変異体）を探した。４７個のかかるデノボ変異部位が特定された。次いで、母体血漿中でデノボ変異アレルを呈するＤＮＡ分子を探索した。次いで、母体血漿中のＤＮＡ分子のサイズ分布を研究した。

図３４Ａは、変異アレルを有する血漿ＤＮＡ断片のサイズ分布を示す。図３４Ｂは、変異アレル及び野生型アレルの血漿ＤＮＡサイズにおける累積度数のプロットを示す。図３４Ｃは、ΔＦとして示される累積度数の差異を示す。変異アレルのサイズプロファイル及びΔＦ値は、胎児特異的アレルに由来するそれらの値と酷似した（図３３Ａ〜３３Ｃ）。母体血漿中のこれらの比較的短いサイズは、変異アレルを有するこれらのＤＮＡ分子が、胎児起源であることの裏付けとなる証拠を提供する。

次に、母体血漿ＤＮＡデータからデノボ変異を特定するアプローチの有効性を研究した。このアプローチにおいて、母性及び父性ベノム配列情報を得ることが必要となる。次いで、母体血漿ＤＮＡ分子に存在するが、母性及び父性ゲノムＤＮＡ配列中に存在しない変異を探索した。

図３５は、本発明の実施形態に従い、フィルタリングプロセス３５００（ダイナミックカットオフ、再アライメント、及び変異分率、及びサイズカットオフを使用する）、ならびに血漿から同定されたデノボ変異について得られたデータを示す。フィルタリングプロセス３５００を使用して、母体血漿無細胞ＤＮＡデータからデノボ変異を特定することができる。この研究において、ＰＣＲフリーライブラリ調製プロトコルを使用して生成された全ゲノム血漿ＤＮＡ配列決定データを使用した。

まず、ダイナミックカットオフを使用して、血漿中の推定変異をスクリーニングした。ダイナミックカットオフを使用して、特定のレベル未満、例えば、ゲノム当たり１回の、ヒトゲノムにおける偽陽性の理論的発生を制御した。偽陽性に起因する２つのタイプの原因が、このダイナミックカットオフモデルにおいて考慮に入れられる。１つの原因は、いくつかの部位が同じ位置で同じヌクレオチド変化を示すことを偶然に引き起こすことになる配列決定エラーである。このタイプの偽陽性の可能性は、所与の配列決定エラー率の可能性の乗算ルールに従って推定することができる。配列決定エラーは、母親及び父親の両方が同型接合であり、同一のアレル情報を保有する部位から推測することができる。この場合、配列決定エラーは、０．３％であると推定された。別の原因は、代わりのアレルのアンダーサンプリングに起因して同型接合と呼び違えられた母親または父親における異型接合ＳＮＰである。

第２に、実際の配列決定データにおける配列決定及びアライメントエラーをさらに最小化するために、追加のフィルタリングアルゴリズムを適用した。変異を担持する配列リードは、独立したアライナー、例えば、Ｂｏｗｔｉｅ２の使用を通してヒト参照ゲノムに再アライメント（マッピング）されることになる（Ｌａｎｇｍｅａｄｅｔａｌ．ＮａｔＭｅｔｈｏｄｓ２０１２；９：３５７−９）。いくつかの実施形態では、マッピングされたリードを精度の低い配列リードとして特定するために、以下の再アライメント基準を使用することができる：（１）変異を担持する配列リードが、独立したアライナーによって回復されず、配列リードにアライメント（マッピング）することができない、（２）変異を担持する配列リードが、初めのアライメントを検証するために独立したアライナーを使用したときに、矛盾したマッピング結果を示す（例えば、マッピングされたリードが、初めのアライメント結果と比較して異なる染色体に置かれている）。（３）同じゲノム座標にアライメントされた変異を担持する配列リードが、マッピングクオリティを呈する（例えば、マッピングクオリティ≦Ｑ２０を呈する（すなわち、誤ったアライメントの可能性＜１％）、（４）配列リードが、いずれかのリード末端（すなわち、５’または３’末端）から５ｂｐ以内に位置付けられた変異を有する。配列決定エラーは、配列リードの両端で最も発生率が高いため、この最後のフィルタリングルールが重要であり得る。変異を担持する配列リード内での精度の低い配列リードの割合がある特定の閾値、例えば、４０％より大きい場合、候補変異部位を廃棄することになる。変異を担持する配列リードの再アライメントのこのステップは、段階Ａのフィルタリング基準と称される。

第３に、特定の閾値を超える変異分率（Ｍ％）のみ、例えば、２０％（段階Ｂのフィルタリング基準）及び３０％（段階Ｃのフィルタリング基準）が、真の変異である可能性が高いと見なされることになる。情報価値のあるＳＮＰから推定される胎児ＤＮＡ分率を参照として使用して、変異分率の適切な閾値を設定することができる。

第４に、胎児由来ＤＮＡ分子は、母体由来ＤＮＡ分子よりも短いため、段階Ｄのフィルタリング基準におけるサイズ関連フィルタリングパラメータをさらに展開した。変異アレル及び野生型アレルを担持するＤＮＡ断片の間のサイズ中央値の最小差は、少なくとも塩基対の特定の数であることが必要とされ、これはΔＳと表され、例えば、ΔＳ≧１０ｂｐである。他の統計学的検定、例えば、ｔ検定、Ｍａｎｎ−ＷｈｉｔｎｅｙＵ検定、Ｋｏｌｍｏｇｏｒｏｖ−Ｓｍｉｒｎｏｖ検定等を使用することもできる。フィルタリングの各連続する段階を適用する際に、回収率及び陽性的中率（ＰＰＶ）を判定した。回収率は、フィルタリング後に検出される４７個の既知のデノボ変異の割合に基づく。ＰＰＶは、母体血漿無細胞ＤＮＡ配列決定データ中で検出された全非母性及び非父性変異体の割合としての真のデノボ変異の数を指す。偽陽性デノボ変異体が少なければ少ないほど、ＰＰＶは高くなる。偽陽性は、配列決定エラー及びアライメントエラーの結果として生じ得るが、これらに限定されない。このアプローチによって達成されるＰＰＶは、Ｋｉｔｚｍａｎｅｔａｌによって従来報告されてきたものより実質的に良い（ＳｃｉＴｒａｎｓｌＭｅｄ２０１２；１３７：１３７ｒａ７６）。非ＰＣＲフリープロトコルを使用して調製された母体血漿ＤＮＡライブラリを７８ｘのカバレッジまで配列決定することは、２．５×１０^７個の偽陽性の特定をもたらしたが、真のデノボ変異は４４個のみであった。この研究のＰＰＶは、わずか０．０００１７６％のみであった。

検出された推定デノボ変異体または変異が胎児起源であることを示すための確定的な証拠として、フィルタリングの異なる段階を使用して特定されたデノボ変異体または変異のサイズプロファイルを比較した。

図３６Ａは、野生型アレルと比較した、段階Ａのフィルタリング基準を使用して血漿中で同定された推定変異を有するＤＮＡ断片のサイズプロファイルを示す。図３６Ｂは、段階Ｂのフィルタリング基準を使用して血漿中で特定された推定変異を有するＤＮＡ断片のサイズプロファイルを示す。図３６Ｃは、段階Ｃのフィルタリング基準を使用して血漿中で特定された推定変異を有するＤＮＡ断片のサイズプロファイルを示す。図３６Ｄは、段階Ｄのフィルタリング基準を使用して血漿中で特定された推定変異を有するＤＮＡ断片のサイズプロファイルを示す。図３６Ａ〜３６Ｄに見られるように、段階Ｄのアルゴリズムによって特定された変異体は、最も短いサイズ分布を示す。

図３７は、フィルタリング基準の異なる段階、すなわちＡ、Ｂ、Ｃ、及びＤを使用して特定された推定変異に対応するΔＦ値のプロファイルを示す。母親及び父親の両方が同型接合であるが、異なるアレルを有する２９８，３６４個の情報価値のあるＳＮＰに由来するΔＦ値を、胎児由来及び母体由来ＤＮＡ断片の累積度数の差異を表す参照として使用した。段階Ｄのフィルタリング基準から推測されたサイズプロファイルは、情報価値のあるＳＮＰ部位から推測されたΔＦ値と最も類似し、これは、基準Ｄで特定された推定デノボ変異が、胎盤／胎児中で提示されたより多くの真の変異によって富化されてきたことを示唆する。

図３８は、母体血漿試料及び臍帯血中の様々な変異タイプの頻度カウントを示す。図３８において、血漿中で特定された変異は、臍帯血中で発掘された変異に類似している。これらのデータは、母体血漿中で検出された変異は、臍帯血データに示されるように、胎児ゲノム中に存在することを示唆する。

図３９Ａは、本発明の実施形態に従う、異なるサイズフィルターにおけるＰＰＶ％及び回収率のグラフを示す。図３９Ａは、余分な変異分率（Ｍ％）フィルタリングを適用しない場合に、サイズフィルタリングパラメータを変えることが、ＰＰＶ％及び回収率にどのように著しく影響を及ぼすかを示す。図３９Ｂは、異なる変異分率カットオフにおけるＰＰＶ％及び回収率のグラフを示す。図３９Ｂは、余分なΔＳフィルタリングが実施されなかった場合に、変異分率パラメータを変えることが、ＰＰＶ％及び回収率に著しく影響を及ぼすことを示す。

図４０Ａ〜４０Ｄは、異なる変異分率カットオフでの様々なサイズフィルターにおけるＰＰＶ％及び回収率のグラフを示す。Ｍ％の異なる基準でサイズフィルタリングパラメータを変えることは、ＰＰＶ％及び回収率に相乗的に影響を及ぼす。

図４１は、サイズカットオフの関数として異なる変異分率カットオフでの回収率及びＰＰＶ％の曲線を示すプロットである。ΔＳ、Ｍ％、及びＰＰＶ％、回収率の間の相互作用を明かす体系的なプロット。

Ｃ．推定デノボ変異の確認
４７個のデノボ変異を確認し、検証することを目指した。プライマーは、推定デノボ変異のそれぞれを特異的に増幅するように設計され、父性、母性、胎盤、及び臍帯血ゲノムＤＮＡのＳａｎｇｅｒ配列決定がそれに続いた。結果は図Ｉに示され、これは、４８個の推定デノボ変異の次世代配列決定（ＮＧＳ）及びＳａｎｇｅｒ配列決定分析を示す。ＮＧＳは、上で称される大規模並列配列決定を指し、「Ｓａｎｇｅｒｓｅｑ」は、Ｓａｎｇｅｒ配列決定を指す。アレルカウントは、説明のために括弧内に示されている。これらの変異の内の１つ（ＴＰ５）は、臍帯血中で検出されたが、胎盤では検出されなかった。母体血漿中の胎児ＤＮＡ分子は、ほとんどが胎盤に起源を持つため、臍帯血特異的変異は、母体血漿中で検出可能でないことになる。よって、残りの４７個の胎盤由来変異のみが検証について妥当である。

図４０及び４１は、４７個のデノボ変異の表を示す。図４０及び４１において、標的変異の染色***置が、列２に示されている。列３において、母体血漿中で検出された遺伝子型が示されている。主要なアレルが、主要でないアレルより先に置かれている。列４において、変異部位のそれぞれでの主要でないアレルのものに対する主要なアレルを示すリードの比率が示されている。続く列において、大規模並列配列決定または次世代配列決定（ＮＧＳ）に基づく結果が、Ｓａｎｇｅｒ配列決定結果と並んで示されている。４７個の変異のうちの４３個は、胎盤ＤＮＡ中でのみ検出され、父性予備母性ＤＮＡ中では検出されなかった。これは、母体血漿ＤＮＡ配列決定によって特定された変異のうちの９１％が、実際に真のデノボ変異であることを意味し、よって、Ｓａｎｇｅｒ配列決定は、血漿、母性ＤＮＡ、不正ＤＮＡ、及び胎盤ＤＮＡについてのＮＧＳデータを確認した。変異ＴＰ４５の検出のためのＳａｎｇｅｒ配列決定反応は、失敗した。変異ＴＰ２１、ＴＰ３０、及びＴＰ４４のためのアッセイは、ＮＧＳとＳａｎｇｅｒ配列決定との間での結果の不一致を示した。

ＶＩＩＩ．ヒト血漿中の無細胞ＤＮＡからの癌変異検出のためのシミュレーション分析
妊娠症例から生成された配列決定データを使用して、胎児がその父親から受け継いだ３，０００個の一塩基変異体を選択し、それらが癌患者において癌によって発達した体細胞変異であると仮定した。換言すれば、癌患者の血漿試料からの無細胞ＤＮＡ配列決定であるかのように、母体血漿ＤＮＡ配列決定データを分析した。次いで、段階Ｄのフィルタリングアルゴリズムを適用したときに、血漿試料が２５ｘ、５０ｘ、１００ｘのヒトゲノムカバレッジまでしか配列決定されなかった場合、変異体及び偽陽性のうちのいくつが検出されるかを判定した。配列決定データの２５ｘ、５０ｘ、及び１００ｘは、それぞれ、血漿ＤＮＡ配列決定データの２５５ｘの中からランダムに選択された。

図４４は、４７個のデノボ変異及び３，０００個の推定体細胞変異の検出における回収率及びＰＰＶを示す。表１中の数のための段階Ｄのフィルタリングアルゴリズムは、ダイナミックカットオフ、再アライメント、変異分率＞２０％、及びサイズフィルター１０ｂｐを含む。

次いで、コンピュータシミュレーションによるより広範な分析を実施した。

図４５Ａ〜４５Ｃ及び４６Ａ〜４６Ｃは、可変量の変異での様々なシーケンシング深度及び腫瘍分率についてのシミュレーションを示す。この分析のセットにおいて、２５ｘ〜８００ｘの範囲の血漿ＤＮＡシーケンシング深度を有し、１％〜４０％の範囲の腫瘍分率濃度を有し、腫瘍によって発達した体細胞変異の数が、３，０００〜３０，０００の範囲である状況をシミュレーションした。全ての分析は、段階Ｄのフィルタリングアルゴリズムに基づく。

これらのシミュレーションのそれぞれについて、検出された体細胞変異の数ならびに偽陽性の数は、図４５Ａ〜４５Ｃ及び４６Ａ〜４６Ｃに示されている。図４５Ａ〜４５Ｃ及び４６Ａ〜４６Ｃに示されるように、多くの条件が、偽陽性より多い体細胞変異を検出させることになる。これらの条件は、血漿ＤＮＡ分子中に存在する変異の負荷を評価するための「変異負荷試験」として臨床的に有用となる。このレベルが、例えば、年齢一致及び／もしくは性別一致対照と比較して、または自身の血液細胞ＤＮＡと比較して、参照範囲よりも大きい場合、癌が疑われることになる。このアプローチは、癌の検出のためのスクリーニングツールとして使用されることになる。

ＩＸ．癌のための方法
上記のように、実施形態は、試験される対象における体細胞変異を正確に特定する方法を提供することができる。様々な実施形態は、増幅を用いない配列決定、最小限の増幅を伴う配列決定（例えば、２％未満の重複）、及び様々なフィルタリング基準を使用することができる。癌のレベルを判定するため、ならびに他の目的のために特定変異を使用することができる。

Ａ．変異の特定
図４７は、本発明の実施形態に従う、ヒト対象の生体試料を分析することによってヒト対象における体細胞変異を特定するための方法４７００を示すフローチャートである。生体試料には、正常細胞、及び潜在的に腫瘍細胞または癌に関連付けられる細胞に起源を持つＤＮＡ断片が含まれ、生体試料には、無細胞ＤＮＡ断片が含まれる。方法４７００は、コンピュータシステムによって少なくとも部分的に実施することができ、本明細書に記載される他の方法も同様である。

ブロック４７１０で、分析される生体試料から鋳型ＤＮＡ断片を得る。鋳型ＤＮＡ断片には、無細胞ＤＮＡ断片が含まれる。様々な実施形態では、腫瘍細胞または癌に関連付けられる細胞に由来する無細胞ＤＮＡ断片は、生体試料中の無細胞ＤＮＡ断片のうちの５０％、４０％、３０％、２０％、１５％、１０％、５％、または１％未満を構成する。生体試料は、血漿もしくは血清、または本明細書に言及された他のタイプの試料、または他の様式で無細胞ＤＮＡを含むものであってもよい。

ブロック４７２０で、鋳型ＤＮＡ断片を使用して、分析可能なＤＮＡ分子の配列決定用ライブラリを調製する。一実施形態では、分析可能なＤＮＡ分子の配列決定用ライブラリの調製は、鋳型ＤＮＡ断片のＤＮＡ増幅のステップを含まない。別の実施形態では、いくらかのレベルの重複が生じるように、いくらかの増幅を実施してもよい。しかし、重複のレベルは、最小限である。様々な実施において、鋳型ＤＮＡ断片からの配列決定用ライブラリの重複率は、５％未満、２％未満、または１％未満である。配列決定用ライブラリ中の分析可能な分子の数は、ライブラリ調製前に生体試料中に元来存在していた鋳型ＤＮＡ断片の数よりも少ない場合がある。

ブロック４７３０で、分析可能なＤＮＡ分子の配列決定用ライブラリを配列決定して、複数の配列リードを得る。本明細書に記載されるように、様々なタイプの配列決定手順を使用することができる。様々な深度及び幅を使用することができる。別の例として、単分子配列決定を実施してもよい。また、配列決定は、メチル化を意識した配列決定であってもよい。

ブロック４７４０で、複数の配列リードをコンピュータシステムで受信する。配列リードは、任意の好適な方式または様式、例えば、配列決定用マシーンからのネットワーク上で、または記憶デバイス上で受信することができる。配列決定用マシーンから受信されたデータは、塩基割当を判定するために使用される生の強度値であり得る。

ブロック４７５０で、コンピュータは、複数の配列リードを参照ヒトゲノムにアライメントして、複数の配列リードについてゲノム位置を判定することができる。様々な実施形態では、少なくとも３０ｘ、３５ｘ、４０ｘ、５０ｘ、７５ｘ、１００ｘ、１５０ｘ、または２００ｘのシーケンシング深度を使用することができる。アライメントされた配列リードは、参照ヒトゲノムの少なくとも０．１％、１％、５％、１０％、及び１５％等、参照ヒトゲノムの様々な割合を含み得る。

ブロック４７６０で、コンピュータシステムは、ヒト対象に対応する生得的ゲノムについての情報を得ることができる。生得的ゲノムは、ヒト対象のものであるか、ヒト対象に対応する参照ゲノムであってもよい。例えば、生得的ゲノムは、ヒト対象の指定の集団についての参照ゲノムであり得る。

ブロック４７７０で、コンピュータシステムは、配列リードを生得的ゲノムと比較して、ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することができる。一態様において、フィルタリングされたセットの各座位において、生得的ゲノムと比べて配列変異体を有する配列リードの数は、カットオフ値を上回り、カットオフ値は、１より大きい。カットオフ値は、本明細書に記載されるように、ダイナミックカットオフ値であり得る。カットオフ値は、１つのフィルタリング基準であり得、他のものを適用することができる。フィルタリングされたセットは、潜在的に様々なフィルタリング基準を使用した、全てのフィルタリングステップの後の最終出力であり得る。

ブロック４７８０で、他のフィルタリング基準を使用して、ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することができる。かかるフィルタリング基準は、他の箇所及び以下に記載される。

ブロック４７９０で、特定された体細胞変異を様々な目的のために使用することができる。目的の様々な例は、以下に提供される。例えば、変異負荷を判定することができ、癌のレベルを判定するためにそれを使用することができる。さらなる試験を設計するため、潜在的に患者のさらなる評価のため、かつ患者の治療を判定するために使用することができる。

他のフィルタリング基準を適用する例は以下、ならびに本明細書の他の箇所に記載される。他のフィルタリング基準を使用して、ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することができる。フィルタリング基準のうちのいくつかについて、潜在的に体細胞変異を有するものとして特定された候補座位のセットを分析することができる。任意の好適な基準、例えば、固定カットオフ、ダイナミックカットオフ、または他の従来使用されてきたフィルタリング基準を使用して、候補座位を特定することができる。よって、得られた候補座位のセットは、別のフィルタリング基準の適用の出力であってもよい。

１．再アライメント
再アライメントについて、潜在的に体細胞変異を有するものとして特定された候補座位の第１のセットのそれぞれを分析することができる。第１のアライメント手順を使用して候補座位とアラインし、かつ配列変異体を有する配列リードのそれぞれを、再アライメント手順においてさらに分析することができる。例えば、Ｖ．Ｂ．項に記載されるような第１のアライメント手順で使用されるものとは異なるマッチングアルゴリズムを使用する第２のアライメント手順を使用して、配列リードが候補座位にアラインするかどうかを判定することができる。第２のアライメント手順を使用して配列リードが候補座位と再アラインする場合、第２のアライメント手順での再アライメントのマッピングクオリティを判定することができる。

第２のアライメントのマッピングクオリティが判定されると、マッピングクオリティをクオリティ閾値と比較して、配列リードが低クオリティであるかどうかを判定することができる。マッピングクオリティのクオリティ閾値との比較に基づいて、配列リードを廃棄するかどうかを判定することができる。閾値未満のリードは廃棄することができるという判定であり得る。他の実施形態では、比較に基づいてスコア（例えば、重み付け）を判定することができ、複数のクオリティ閾値との比較を実施して、スコアを判定し得る。次いで、１つ以上の他のフィルタリング基準からのスコアを集合的に使用して、リードを廃棄するかどうかを判定することができる。特定の様式にかかわらず（かつ、上に提供される例を含め）、マッピングクオリティがクオリティ閾値よりも低い場合に、マッピングクオリティがクオリティ閾値より高い場合よりも、配列リードを廃棄する可能性がより高いことを規定する。

このフィルタリングプロセスの一環として、いくつかの残った配列リードが得られる。残った配列リードの数を、候補座位を特定するために元来使用された閾値と同じであり得る候補閾値と比較することができる。配列リードについてのものと同様の可能性分析において、残った配列リードの数の候補閾値との比較に基づいて、候補座位を廃棄するかどうかを判定することができる。分析は、閾値との比較に基づいて厳密であってもよく、または上記のようにスコアリング（重み付け）システムを使用してもよい。いずれにせよ、残った配列リードの数が候補閾値よりも低い場合に、残った配列リードの数が候補閾値より高い場合よりも、候補座位を廃棄する可能性がより高いことを規定する。残った候補座位を使用して、体細胞変異を有するものとしてフィルタリングされた座位のセットを特定することができる。

２．サイズ
サイズ分析について、候補座位のセットのそれぞれを分析することができる。配列変異体を有するＤＮＡ断片の第１の群と野生型アレルを有するＤＮＡ断片の第２の群との間のサイズ差を判定することができる。かかるサイズ分析は、本明細書に記載されてきた。サイズ差は、２つの群のサイズ分布の任意の統計値の間であり得る。例えば、ＤＮＡ断片の第１の群及びＤＮＡの第２の群のサイズ中央値の差を使用することができる。別の例として、第１の群と第２の群との間のサイズの累積度数における最大値。米国特許出願公開第２０１１／０２７６２７７号及び同第２０１３／０２３７４３１号に記載される任意のサイズ値。

サイズ差を、分類される癌または他の状態を有することが既知である試料から判定することができるサイズ閾値と比較することができる。次いで、その比較に基づいて、潜在的変異としての候補座位を廃棄するかどうかを判定することができる。他のフィルタリング基準について、比較を厳密に使用するか、またはスコアとして使用することができる。いずれにせよ、サイズ差がサイズ閾値よりも低い場合に、サイズ差がサイズ閾値より高い場合よりも、候補座位を廃棄する可能性がより高いことを規定する。残った候補座位を使用して、ヒト対象において体細胞変異を有するものとしてフィルタリングされた座位のセットを特定することができる。

３．ヒストン修飾
ヒストン修飾について、癌に関連付けられるヒストン修飾に関連付けられることが既知である領域の群を特定することができる。候補座位が領域の群のうちの１つにあるかどうかに基づいて候補座位を廃棄するかどうかを判定することによって、候補座位のセットのそれぞれを分析することができる。他のフィルタリング基準について、比較を厳密に使用するか、またはスコアとして使用することができる。いずれにせよ、候補座位が領域の群のうちの１つにない場合に、候補座位が領域の群のうちの１つにある場合よりも、候補座位を廃棄する可能性がより高いことを規定する。残った候補座位を使用して、ヒト対象において体細胞変異を有するものとしてフィルタリングされた座位のセットを特定することができる。

４．変異分率
変異分率について、候補座位のセットのそれぞれを分析することができる。配列変異体を有する配列リードの分率を判定することができ、次いで、それを分率閾値と比較することができる。次いで、例えば、スコアまたは厳密なカットオフを使用した比較に基づいて、潜在的変異としての候補座位を廃棄するかどうかを判定することができる。いずれにせよ、分率が分率閾値（例えば、５％、１０％、２０％、または３０％）よりも低い場合に、分率が分率閾値より高い場合よりも、候補座位を廃棄する可能性がより高いことを規定する残った候補座位を使用して、ヒト対象において体細胞変異を有するものとしてフィルタリングされた座位のセットを特定することができる。

いくつかの実施形態では、生体試料中の腫瘍ＤＮＡの測定された分率濃度に基づいて分率閾値を判定することができる。生体試料中の腫瘍ＤＮＡの分率濃度は、複数の領域のそれぞれについて測定することができる（例えば、同様の技巧を使用するが、領域内の１つ以上の座位に特異的なデータを利用して）。候補座位に使用される分率閾値は、候補座位が存在する領域について測定された分率濃度であってもよい。

別の実施形態では、異常領域を使用して分率閾値を判定し得る。コピー数異常を有する１つ以上の異常領域を特定することができる。異常領域における候補座位に使用される分率閾値は、異常領域がコピー数増加またはコピー数減少のいずれを呈するかに依存し得る。増加についてはより高い閾値が使用され得、減少についてはより低い閾値が使用され得る。

フィルタリングされた座位のセットのそれぞれについて生得的ゲノムと比較した、配列変異体を有する配列リードの数を判定するために、配列リードを廃棄するかどうかを判定することの一部として、コピー数異常を有する１つ以上の異常領域を使用することもできる。コピー数増加を呈する第１の異常領域からの第１の配列リードが、コピー数減少を呈する第２の異常領域からの第２の配列リードよりも、体細胞変異を有する可能性が高い。

候補座位のセットを分析することで、１つ以上の異常領域を特定することができる。生得的ゲノムと比較した、配列変異体の明白な変異分率を計算することができる。複数の領域のそれぞれについて、異常領域中の候補座位の明白な変異分率における分散を判定することができる。分散を分散閾値と比較することができ、コピー数増加を呈する異常領域は、閾値より大きい分散を有する。

５．メチル化状態
メチル化状態について、配列決定は、メチル化を意識した配列決定である。候補座位のセットのそれぞれを分析することができ、候補座位にアラインし、かつ配列変異体を有する配列リードのそれぞれが分析される。配列リードについて、１つ以上の部位（例えば、ＣｐＧ部位）における対応する分析可能なＤＮＡ分子のメチル化状態を判定することができる。メチル化状態に基づいて、配列リードを廃棄するかどうかを判定することができる。他のフィルタリング基準について、比較を厳密に使用するか、またはスコアとして使用することができる。いずれにせよ、メチル化状態がメチル化されていない場合に、メチル化状態がメチル化されている場合よりも、配列リードを廃棄する可能性がより高いことを規定する。

残った配列リードの数を、候補座位を特定するために元来使用された閾値と同じであり得る候補閾値と比較することができる（他のフィルタリング基準のための候補閾値の他の使用についても同様である）。配列リードについてのものと同様の可能性分析において、残った配列リードの数の候補閾値との比較に基づいて、候補座位を廃棄するかどうかを判定することができる。分析は、閾値との比較に基づいて厳密であってもよく、または上記のようにスコアリング（重み付け）システムを使用してもよい。いずれにせよ、残った配列リードの数が候補閾値よりも低い場合に、残った配列リードの数が候補閾値より高い場合よりも、候補座位を廃棄する可能性がより高いことを規定する。残った候補座位を使用して、体細胞変異を有するものとしてフィルタリングされた座位のセットを特定することができる。

６．血漿ＤＮＡ終結位置
血漿ＤＮＡ終結位置について、候補座位のセットのそれぞれを分析することができ、候補座位にアラインし、かつ配列変異体を有する配列リードのそれぞれが分析される。配列リードについて、配列リードの端部がアライメントする位置に対応する終結位置を判定することができる。終結位置を複数の癌特異的または癌関連末端位置と比較することができる。この比較に基づいて、配列リードを廃棄するかどうかを判定する。終結位置が癌特異的または癌関連末端位置でない場合に、終結位置が癌特異的または癌関連末端位置である場合よりも、配列リードを廃棄する可能性がより高いことを規定する。残った配列リードの数を使用して、候補座位を廃棄するかどうかを判定することができる。

７．一本鎖配列決定
配列決定は、各鋳型ＤＮＡ分子について２つのストランドリードをもたらす後続の配列ステップを提供する一本鎖配列決定用ライブラリ調製プロセスを使用して実施することができる。一本鎖配列決定ライブラリ調製プロセスの一例は、Ｓｎｙｄｅｒｅｔａｌ．Ｃｅｌｌ２０１６；１６４：５７−６８．に記載されている。候補座位のセットのそれぞれを分析することができ、候補座位にアラインするストランドリードの各対が分析される。両方のストランドが配列変異体を有するかどうかを判定することができる。次いで、両方のストランドが配列変異体を有するかどうかに基づいて、配列リードを廃棄するかどうかを判定することができる。両方のストランドが配列変異体を有しない場合に、単一のストランドリードが配列変異体を有する場合よりも、配列リードを廃棄する可能性がより高いことを規定する。残った配列リードの数を使用して、候補座位を廃棄するかどうかを判定することができる。

Ｂ．癌のレベルの判定
図４８は、本発明の実施形態に従う、同定された体細胞変異を使用して、対象の生体試料を分析する方法４８００を示すフローチャートである。

ブロック４８１０で、体細胞変異が特定される。体細胞変異は、図４７の方法４７００について記載されるように特定され得る。

ブロック４８２０で、フィルタリングされた座位のセットにおけるある量の座位を使用して、ヒト対象における変異負荷を判定する。様々な実施形態では、変異負荷を、体細胞変異の未処理数、塩基の数当たりの体細胞変異の密度、体細胞変異を有するものとして特定されたゲノム領域の座位の割合、特定量の試料において認められた体細胞変異の数、または参照負荷と比較した増加として判定することができる。

ブロック４８３０で、変異負荷を癌閾値と比較して、癌のレベルを判定する。癌患者と癌を有しない対象との間の識別に基づいて、癌閾値を判定することができる。当業者であれば、所望される感度及び特異性によって異なる閾値を使用することができることを理解するであろう。本明細書に示されるように、実施形態を使用して、健常対象と癌、例えばＨＣＣを有する対象とを識別することができる変異負荷を判定することができる。

ブロック４８４０で、癌のレベルが腫瘍の存在を示す場合、癌の起源となる組織を判定することができる。例として、メチル化シグネチャ、またはヒストン修飾、または分析されたＤＮＡ断片の終結位置の分布を使用して、かかる判定を下すことができる。

ヒストン修飾を使用する一実施形態では、参照ヒトゲノムの第１の複数のセグメントのそれぞれについて、ヒストン修飾の第１の量が判定される。この第１の量は、どの座位が関連するヒストン修飾に関連付けられるかについて利用可能な参照情報から判定することができる。参照ヒトゲノムの第２の複数のセグメントのそれぞれについて、フィルタリングされた座位のセットの第２の量を判定することができる。次いで、差異セグメントは、互いに相関され得る。したがって、ヒストン修飾の第１の量が第１の閾値を上回り、かつフィルタリングされた座位のセットの第２の量が第２の閾値を上回る、セグメントの第１のセットを判定することができる。２つの閾値は、同じであってもよい。閾値は、ゲノムのセグメントが、高ヒストン修飾及び多くの体細胞変異を有するものであることを確実にすることができる。量及び閾値は、未処理数または密度（例えば、メガベースごと）であってもよい。

ブロック４８５０で、判定された癌のレベル、特定された変異、及び／または起源となる組織によって、治療を提供することができる。例えば、特定された変異は、特定の薬物または化学療法で標的とすることができる。起源となる組織を使用して、外科手術を導くことができる。また、癌のレベルを使用して、任意のタイプの治療においてどれほど積極的になるべきかを判定することができ、これもまた、癌のレベルに基づいて判定され得る。

Ｃ．特定された変異の他の使用
上記のように、試験される対象が癌を有することを指標として変異の数を使用することができる。一実施形態では、検出された変異の数が、癌を有しない対象において検出されたものよりも多い場合に、癌を有する可能性が高いものとして個体を分類することができる。

一度特定された変異のセットを使用して、将来の癌患者の監視のため、確認目的のため、より精密な測定目的のため、または連続測定目的（これは網羅的配列決定を複数回繰り返すよりも安価となる）のための、より標的化されたアッセイ（変異負荷に表される変異に基づく）の設計を知らせることができる。かかる連続測定は、経過観察目的のため、例えば、血漿中の変異シグネチャの濃度が増加している（潜在的に予後不良の兆候）か、または減少している（潜在的に予後良好の兆候、または癌が選択された治療に応答性であることの兆候）かを確認するために有用となる。

変異負荷において検出された特定の変異は、関連する療法または薬物、例えば、標的療法を選択するよう、臨床医に情報を提供することになる。例として、上皮成長因子受容体遺伝子中の特定の変異を有する癌を治療するために、チロシンキナーゼ阻害剤を使用することができる。

異なる器官／組織から発達した腫瘍は、異なる変異プロファイルを有することが発見されてきたため、特定された変異の範囲を使用して、腫瘍の部位の特定を援助することができる（Ｐｏｌａｋｅｔａｌ．Ｎａｔｕｒｅ２０１５；５１８：３６０−３６４）。これはまた、検出された変異のセットの原因として結び付けられる環境曝露及び発癌物質についての情報も提供することができる（Ａｌｅｘａｎｄｒｏｖｅｔａｌ．Ｎａｔｕｒｅ２０１３；５００：４１５−４２１）。特定された変異の範囲を使用して、予後診断を援助することができる。例えば、いくつかの変異は、特に侵攻性または緩慢性である癌のマーカーであり得る。

出生前試験の文脈において、特定された変異のセットを使用して、母体血漿中におけるかかる変異の特異的検出のための、より標的化されたアッセイ（変異負荷に表される変異に基づく）の設計を知らせることができる。また、出生前試験の文脈において、特定された変異のセットを使用して、その症例の特別の臨床管理の必要性を臨床医に知らせることができる。一例として、男胎児における散発性血友病変異の検出は、妊娠女性が妊娠を満期まで継続することを選択した場合に、出産手順中の注意（例えば、鉗子分娩の回避）の必要性を示し得る。別の例として、先天性副腎過形成（ＣＡＨ）の家族健康歴を有しない家族における、ＣＡＨの変異について同型接合または複合異型接合である女胎児の検出は、胎児の生殖器の男性化のリスクを低減させるために、妊娠女性の早期デキサメタゾン治療の必要性を臨床医に警告することになる。

Ｘ．胎児分析のための方法
図４９は、本発明の実施形態に従う、胎児を懐胎する女性対象の生体試料を分析することによって胎児のデノボ変異を特定するための方法４９００を示すフローチャートである。生体試料には、胎児及び女性対象からの無細胞ＤＮＡ断片が含まれる。

ブロック４９１０で、分析される生体試料から鋳型ＤＮＡ断片を得る。鋳型ＤＮＡ断片には、無細胞ＤＮＡ断片が含まれる。ブロック４９１０は、図４７の方法４７１０について記載されるものと同様に実施することができる。

ブロック４９２０で、鋳型ＤＮＡ断片を使用して、分析可能なＤＮＡ分子の配列決定用ライブラリを調製する。ブロック４９２０は、図４７の方法４７２０について記載されるものと同様に実施することができる。

ブロック４９３０で、分析可能なＤＮＡ分子の配列決定用ライブラリを配列決定して、複数の配列リードを得る。ブロック４９３０は、図４７の方法４７３０について記載されるものと同様に実施することができる。

ブロック４９４０で、複数の配列リードをコンピュータシステムで受信する。ブロック４９４０は、図４７の方法４７４０について記載されるものと同様に実施することができる。

ブロック４９５０で、コンピュータは、複数の配列リードを参照ヒトゲノムにアライメントして、複数の配列リードのゲノム位置を判定することができる。ブロック４９５０は、図４７の方法４７５０について記載されるものと同様に実施することができる。

ブロック４９６０で、コンピュータシステムは、女性対象の母性ゲノム及び胎児の父親の父性ゲノムについての情報を得ることができる。情報には、変異の存在について検証される座位での両親についての遺伝子型情報が含まれ得る。かかる遺伝子型情報は、当業者に既知である任意の好適な技巧を介して得ることができる。

ブロック４９７０で、コンピュータシステムは、配列リードを母性ゲノム及び父性ゲノムと比較して、胎児においてデノボ変異を有するものとして、フィルタリングされた座位のセットを特定することができる。一態様において、フィルタリングされたセットの各座位において、前記母性ゲノムに存在せず、かつ前記父性ゲノムに存在しない配列変異体を有する配列リードの数は、カットオフ値を上回り、カットオフ値は１より大きい。

ブロック４９８０で、他のフィルタリング基準を使用して、胎児においてデノボ変異を有するものとして、フィルタリングされた座位のセットを特定することができる。かかるフィルタリング基準は、他の箇所、例えば、ＩＸ項に記載される。

ブロック４９９０で、特定されたデノボ変異を様々な目的のために使用することができる。かかる目的の例は、ＩＸ．Ｃ．項に見出すことができる。

ＸＩ．コンピュータシステム
本明細書で言及されるコンピュータシステムはいずれも、任意の好適な数のサブシステムを利用し得る。かかるサブシステムの例は、図１５のコンピュータ装置において示される。いくつかの実施形態では、コンピュータシステムは単一のコンピュータ装置を含み、サブシステムはコンピュータ装置の構成要素であり得る。他の実施形態では、コンピュータシステムは、それぞれがシステムであり、内部構成要素を有する複数のコンピュータ装置を含み得る。コンピュータシステムは、デスクトップコンピュータ及びラップトップコンピュータ、タブレット、携帯電話、ならびに他の携帯デバイスを含み得る。

図１５に示されるサブシステムは、システムバス７５を介して相互接続される。プリンタ７４、キーボード７８、記憶デバイス（複数可）７９、ディスプレイアダプタ８２に結合されるモニタ７６、及び他のもの等の追加のサブシステムが示される。Ｉ／Ｏコントローラ７１に結合する周辺機器及び入力／出力（Ｉ／Ｏ）デバイスは、入力／出力（Ｉ／Ｏ）ポート７７（例えば、ＵＳＢ、ＦｉｒｅＷｉｒｅ（登録商標））等の当該技術分野において既知である任意の数の手段で、コンピュータシステムに接続され得る。例えば、Ｉ／Ｏポート７７または外部インターフェース８１（例えば、Ｅｔｈｅｒｎｅｔ、Ｗｉ−Ｆｉ等）を使用して、Ｉｎｔｅｒｎｅｔ等の広域ネットワーク、マウス入力デバイス、またはスキャンに、コンピュータシステム１０を接続してもよい。システムバス７５を介した相互接続は、中央処理装置７３が各サブシステムと通信し、システムメモリ７２または記憶デバイス（複数可）７９（例えば、ハードドライブもしくは光学ディスクなどの固定ディスク）からの命令の実行、及びサブシステム間の情報交換を制御することを可能にする。システムメモリ７２及び／または記憶デバイス（複数可）７９は、コンピュータ可読媒体を具体化してもよい。別のサブシステムは、カメラ、マイクロホン、及び加速度計等のデータ収集デバイス８５である。本明細書に言及されるデータのうちのいずれも、１つの構成要素から別の構成要素に出力されてもよく、ユーザに対して出力されてもよい。

コンピュータシステムは、外部インターフェース８１によって、または内部インターフェースによってともに接続された、複数の同一の構成要素またはサブシステムを含んでもよい。いくつかの実施形態では、コンピュータシステム、サブシステム、または装置は、ネットワーク上で通信することができる。そのような例において、１つのコンピュータをクライエントとして、及び別のコンピュータをサーバとして見なすことができ、これらのそれぞれは、同一のコンピュータシステムの一部であってもよい。クライエント及びサーバはそれぞれ、複数のシステム、サブシステム、または構成要素を含み得る。

本発明の実施形態のうちのいずれも、ハードウェア（例えば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ）を使用して、かつ／またはモジュラー様式もしくは統合様式で一般にプログラム可能な処理装置とともにコンピュータソフトウェアを使用して、制御論理の形態で実装され得ることを理解されたい。本明細書で使用される場合、処理装置は、シングルコア処理装置、同一の集積チップ上のマルチコア処理装置、または回路基板上もしくはネットワーク化された複数の処理ユニットを含む。本開示及び本明細書に提供される教示に基づいて、当業者は、ハードウェア及びハードウェアとソフトウェアとの組み合わせを使用して本発明の実施形態を実装するための他の手段及び／または方法を理解し、認識するだろう。

本出願に記載されるソフトウェア構成要素または機能のうちのいずれも、例えば、Ｊａｖａ、Ｃ、Ｃ＋＋、Ｃ＃、Ｏｂｊｅｃｔｉｖｅ−Ｃ、Ｓｗｉｆｔ等の任意の好適なコンピュータ言語、または例えば、従来の技術もしくはオブジェクト指向の技術を使用するＰｅｒｌもしくはＰｙｔｈｏｎ等のスクリプト言語を使用する、処理装置によって実行されるソフトウェアコードとして実装されてもよい。ソフトウェアコードは、記憶及び／または伝送のために、コンピュータ可読媒体上に一連の命令またはコマンドとして記憶され得、好適な媒体としては、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、磁気媒体（ハードドライブもしくはフロッピーディスク等）、または光学媒体（コンパクトディスク（ＣＤ）もしくはＤＶＤ（デジタル多用途ディスク）等）、及びフラッシュメモリ等が挙げられる。コンピュータ可読媒体は、そのような記憶デバイスまたは伝送デバイスの任意の組み合わせであってもよい。

そのようなプログラムはまた、コードされ、インターネットを含む様々なプロトコルに従う有線、光学、及び／または無線ネットワークを介した伝送に適合した搬送波信号を使用して、伝送されてもよい。したがって、本発明の一実施形態に従うコンピュータ可読媒体は、そのようなプログラムでコードされたデータ信号を使用して作製されてもよい。プログラムコードでコードされたコンピュータ可読媒体は、互換性のあるデバイスでパッケージ化されても、（例えば、インターネットダウンロードを介して）他のデバイスとは別々に提供されてもよい。いかなるそのようなコンピュータ可読媒体も、単一のコンピュータ製品（例えば、ハードドライブ、ＣＤ、またはコンピュータシステム全体）上またはその中に存在してもよく、あるシステムまたはネットワーク内の異なるコンピュータ製品上またはその中に存在してもよい。コンピュータシステムは、モニタ、プリンタ、または本明細書に記載される結果のうちのいずれかをユーザに提供するための他の好適なディスプレイを含み得る。

本明細書に記載される方法のうちのいずれも、全体的または部分的に、ステップを実施するように構成され得る１つ以上の処理装置を含むコンピュータシステムで実施することができる。したがって、実施形態は、本明細書に記載される方法のうちのいずれかのステップを実施するように構成されたコンピュータシステムを対象とし得、潜在的には異なる構成要素がそれぞれのステップまたはステップのそれぞれの群を実施する。番号付けされたステップとして提示されるものの、本明細書の方法のステップは、同時にまたは異なる順序で実施することができる。さらに、これらのステップの部分が、他の方法の他のステップの部分とともに使用されてもよい。また、あるステップの全てまたは部分が任意であってもよい。さらに、本方法のうちのいずれかのステップのうちのいずれも、モジュール、回路、またはこれらのステップを実施するための他の手段で実施することができる。

特定の実施形態の具体的な詳細は、本発明の実施形態の趣旨及び範囲から逸脱することなく、任意の好適な様式で組み合わせることができる。しかしながら、本発明の他の実施形態は、個々の各態様、またはこれらの個々の態様の特定の組み合わせに関する特定の実施形態に向けられ得る。

本発明の例示的な実施形態についての上記の記述は、図示及び説明の目的で提示されている。徹底的であること、または本発明を記載されるものと寸分違わぬ形態に限定することは意図されず、上記の教示に照らして、多くの修正及び変更が可能である。

「１つの（ａ）」、「１つの（ａｎ）」または「その（ｔｈｅ）」の引用は、それとは反対に具体的に示されない限り、「１つ以上」を意味することが意図される。「または」の使用は、それとは反対に具体的に示されない限り、「を除いてまたは」ではなく「を含んでまたは」を意味することが意図される。

本明細書に言及される全ての特許、特許出願、出版物、及び記述の全体が、あらゆる目的で参照により組み込まれる。いかなるものも、先行技術であることは認められていない。

Claims

ヒト対象の生体試料を分析することにより前記ヒト対象における体細胞変異を特定する方法であって、前記生体試料が、正常細胞、及び潜在的に腫瘍細胞または癌に関連付けられる細胞に起源を持つＤＮＡ断片を含み、前記生体試料が、無細胞ＤＮＡ断片を含み、前記方法が、
分析される前記生体試料から鋳型ＤＮＡ断片を得ることであって、前記鋳型ＤＮＡ断片が、無細胞ＤＮＡ断片を含む、得ることと、
前記鋳型ＤＮＡ断片を使用して分析可能なＤＮＡ分子の配列決定用ライブラリを調製することであって、分析可能なＤＮＡ分子の前記配列決定用ライブラリの前記調製が、前記鋳型ＤＮＡ断片のＤＮＡ増幅のステップを含まない、調製することと、
分析可能なＤＮＡ分子の前記配列決定用ライブラリを配列決定して、複数の配列リードを得ることと、
コンピュータシステムで前記複数の配列リードを受信することと、
前記コンピュータシステムによって前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記コンピュータシステムによって前記ヒト対象に対応する生得的ゲノムについての情報を得ることと、
前記コンピュータシステムによって前記配列リードを前記生得的ゲノムと比較して、前記ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することと、を含み、
前記フィルタリングされたセットの各座位において、前記生得的ゲノムと比べて配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が１より大きい、方法。
ヒト対象の生体試料を分析することにより前記ヒト対象における体細胞変異を特定する方法であって、前記生体試料が、正常細胞、及び潜在的に腫瘍細胞または癌に関連付けられる細胞に起源を持つＤＮＡ断片を含み、前記生体試料が、無細胞ＤＮＡ断片を含み、前記方法が、
分析される前記生体試料から鋳型ＤＮＡ断片を得ることであって、前記鋳型ＤＮＡ断片が、無細胞ＤＮＡ断片を含む、得ることと、
前記鋳型ＤＮＡ断片を使用して分析可能なＤＮＡ分子の配列決定用ライブラリを調製することであって、前記鋳型ＤＮＡ断片からの前記配列決定用ライブラリの重複率が、５％未満である、調製することと、
分析可能なＤＮＡ分子の前記配列決定用ライブラリを配列決定して、複数の配列リードを得ることと、
コンピュータシステムで前記複数の配列リードを受信することと、
前記コンピュータシステムによって前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記コンピュータシステムによって前記ヒト対象に対応する生得的ゲノムについての情報を得ることと、
前記コンピュータシステムによって前記配列リードを前記生得的ゲノムと比較して、前記ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することと、を含み、
前記フィルタリングされたセットの各座位において、前記生得的ゲノムと比べて配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が１より大きい、方法。
前記ヒト対象の何らかの組織において体細胞変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第１のセットのそれぞれについて、
第１のアライメント手順を使用して前記候補座位とアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
前記第１のアライメント手順で使用されるものとは異なるマッチングアルゴリズムを使用する第２のアライメント手順を使用して、前記配列リードが前記候補座位とアラインするかどうかを判定することと、
前記第２のアライメント手順を使用して前記配列リードが前記候補座位と再アラインする場合、前記第２のアライメント手順での再アライメントのマッピングクオリティを判定することと、
前記マッピングクオリティをクオリティ閾値と比較することと、
前記マッピングクオリティの前記クオリティ閾値との前記比較に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記マッピングクオリティが前記クオリティ閾値よりも低い場合に、前記マッピングクオリティが前記クオリティ閾値より高い場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項１または請求項２に記載の方法。
前記重複率が、２％未満である、請求項２に記載の方法。
前記配列決定用ライブラリ中の分析可能なＤＮＡ分子の数が、ライブラリ調製前に前記生体試料中に元来存在していた鋳型ＤＮＡ断片の数よりも少ない、請求項４に記載の方法。
ヒト対象の生体試料を分析することにより前記ヒト対象における体細胞変異を特定する方法であって、前記生体試料が、正常細胞、及び潜在的に腫瘍細胞または癌に関連付けられる細胞に起源を持つＤＮＡ断片を含み、前記生体試料が、無細胞ＤＮＡ断片を含み、前記方法が、コンピュータシステムによって、
前記ヒト対象に対応する生得的ゲノムについての情報を得ることと、
前記生体試料中の複数のＤＮＡ断片のそれぞれについて、１つ以上の配列リードを受信することと、
第１のアライメント手順を使用して前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記配列リードを前記生得的ゲノムと比較して、前記ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することと、を実施することを含み、
前記フィルタリングされたセットの各座位において、前記生得的ゲノムと比べて配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が１より大きく、
潜在的に体細胞変異を有するものとして特定された候補座位の第１のセットのそれぞれについて、
前記第１のアライメント手順を使用して前記候補座位とアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
前記第１のアライメント手順で使用されるものとは異なるマッチングアルゴリズムを使用する第２のアライメント手順を使用して、前記配列リードが前記候補座位にアラインするかどうかを判定することによって、前記配列リードのマッピングクオリティを作成することと、
前記マッピングクオリティをクオリティ閾値と比較することと、
前記マッピングクオリティの前記クオリティ閾値との前記比較に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記マッピングクオリティが前記クオリティ閾値よりも低い場合に、前記マッピングクオリティが前記クオリティ閾値より高い場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、を含む、方法。
前記ヒト対象の何らかの組織において体細胞変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第２のセットのそれぞれについて、
前記配列変異体を有するＤＮＡ断片の第１の群と野生型アレルを有するＤＮＡ断片の第２の群との間のサイズ差を判定することと、
前記サイズ差をサイズ閾値と比較することと、
前記比較に基づいて、潜在的変異としての前記候補座位を廃棄するかどうかを判定することであって、前記サイズ差が前記サイズ閾値よりも低い場合に、前記サイズ差が前記サイズ閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、前記ヒト対象において体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項１、２、または６のいずれかに記載の方法。
前記サイズ差が、前記ＤＮＡ断片の第１の群及び前記ＤＮＡ断片の第２の群のサイズ中央値の差である、請求項７に記載の方法。
前記サイズ差が、前記第１の群と前記第２の群との間のサイズの累積度数における最大値である、請求項７に記載の方法。
ヒト対象の生体試料を分析することにより前記ヒト対象における体細胞変異を特定する方法であって、前記生体試料が、正常細胞、及び潜在的に腫瘍細胞または癌に関連付けられる細胞に起源を持つＤＮＡ断片を含み、前記生体試料が、無細胞ＤＮＡ断片を含み、前記方法が、コンピュータシステムによって、
前記ヒト対象に対応する生得的ゲノムについての情報を得ることと、
前記生体試料中の複数のＤＮＡ断片のそれぞれについて、１つ以上の配列リードを受信することと、
第１のアライメント手順を使用して前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記配列リードを前記生得的ゲノムと比較して、前記ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することと、を実施することを含み、
前記フィルタリングされたセットの各座位において、前記生得的ゲノムと比べて配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が１より大きく、
潜在的に体細胞変異を有するものとして特定された候補座位の第１のセットのそれぞれについて、
前記配列変異体を有するＤＮＡ断片の第１の群と野生型アレルを有するＤＮＡ断片の第２の群との間のサイズ差を判定することと、
前記サイズ差をサイズ閾値と比較することと、
前記サイズ差が前記サイズ閾値よりも小さい場合に、潜在的変異としての前記候補座位を廃棄することと、
前記残った候補座位を使用して、前記ヒト対象において体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、を含む、方法。
前記ヒト対象の何らかの組織において体細胞変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
癌に関連付けられるヒストン修飾に関連付けられることが既知である領域の群を特定することと、
潜在的に体細胞変異を有するものとして特定された候補座位の第２の第１のセットのそれぞれについて、
前記候補座位が、前記領域の群のうちの１つにあるかどうかを判定することと、
前記候補座位が前記領域の群のうちの１つにあるかどうかに基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記候補座位が前記領域の群のうちの１つにない場合に、前記候補座位が前記領域の群のうちの１つにある場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項１、２、６、または１０のいずれか１項に記載の方法。
ヒト対象の生体試料を分析することにより前記ヒト対象における体細胞変異を特定する方法であって、前記生体試料が、正常細胞、及び潜在的に腫瘍細胞または癌に関連付けられる細胞に起源を持つＤＮＡ断片を含み、前記生体試料が、無細胞ＤＮＡ断片を含み、前記方法が、コンピュータシステムによって、
前記ヒト対象に対応する生得的ゲノムについての情報を得ることと、
前記生体試料中の複数のＤＮＡ断片のそれぞれについて、１つ以上の配列リードを受信することと、
第１のアライメント手順を使用して前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記配列リードを前記生得的ゲノムと比較して、前記ヒト対象の何らかの組織において体細胞変異を有するものとして、フィルタリングされた座位のセットを特定することと、を実施することを含み、
前記フィルタリングされたセットの各座位において、前記生得的ゲノムと比べて配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が１より大きく、
癌に関連付けられるヒストン修飾に関連付けられることが既知である領域の群を特定することと、
潜在的に体細胞変異を有するものとして特定された候補座位の第１のセットのそれぞれについて、
前記候補座位が、前記領域の群のうちの１つにあるかどうかを判定することと、
前記候補座位が前記領域の群のうちの１つにあるかどうかに基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記候補座位が前記領域の群のうちの１つにない場合に、前記候補座位が前記領域の群のうちの１つにある場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、を含む、方法。
前記フィルタリングされた座位のセットにおけるある量の座位を使用して前記ヒト対象における変異負荷を判定することをさらに含む、請求項１、２、６、１０、または１２のいずれか１項に記載の方法。
前記変異負荷が、体細胞変異の未処理数、塩基の数当たりの体細胞変異の密度、体細胞変異を有するものとして特定されたゲノム領域の座位の割合、特定量の試料において認められた体細胞変異の数、または参照負荷と比較した増加として判定される、請求項１３に記載の方法。
前記変異負荷を癌閾値と比較して、癌のレベルを判定することをさらに含む、請求項１３に記載の方法。
前記癌のレベルが腫瘍を示し、
前記参照ヒトゲノムの第１の複数のセグメントのそれぞれについてヒストン修飾の第１の量を判定することと、
前記参照ヒトゲノムの第２の複数のセグメントのそれぞれについて前記フィルタリングされた座位のセットの第２の量を判定することと、
ヒストン修飾の前記第１の量が第１の閾値を上回り、かつ前記フィルタリングされた座位のセットの前記第２の量が第２の閾値を上回る、セグメントの第１のセットを判定することと、
セグメントの前記第１のセットに基づいて、前記腫瘍の起源の組織を特定することと、をさらに含む、請求項１５に記載の方法。
前記ヒト対象の何らかの組織において体細胞変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第２のセットのそれぞれについて、
前記配列変異体を有する配列リードの分率を判定することと、
前記分率を分率閾値と比較することと、
前記比較に基づいて、潜在的変異としての前記候補座位を廃棄するかどうかを判定することであって、前記分率が前記分率閾値よりも低い場合に、前記分率が前記分率閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、前記ヒト対象において体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項１、２、６、１０、または１２のいずれか１項に記載の方法。
前記分率閾値が、２０％である、請求項１７に記載の方法。
前記分率閾値が、３０％である、請求項１７に記載の方法。
前記生体試料中の腫瘍ＤＮＡの分率濃度を測定することをさらに含み、前記分率閾値が、前記分率濃度に基づいて判定される、請求項１７に記載の方法。
前記生体試料中の腫瘍ＤＮＡの分率濃度が、複数の領域のそれぞれについて測定され、候補座位に使用される前記分率閾値が、前記候補座位が存在する前記領域について測定された前記分率濃度に依存する、請求項２０に記載の方法。
コピー数異常を有する１つ以上の異常領域を特定することをさらに含み、異常領域における候補座位に使用される前記分率閾値が、前記異常領域がコピー数増加またはコピー数減少のいずれを呈するかに依存する、請求項１７に記載の方法。
コピー数異常を有する１つ以上の異常領域を特定することと、
前記フィルタリングされた座位のセットのそれぞれについて生得的ゲノムと比較した、配列変異体を有する配列リードの数を判定するために、配列リードを廃棄するかどうかを判定することの一部として、コピー数増加を呈する第１の異常領域からの第１の配列リードが、コピー数減少を呈する第２の異常領域からの第２の配列リードよりも体細胞変異を有する可能性が高いことを特定することと、をさらに含む、請求項１７に記載の方法。
前記１つ以上の異常領域が、
潜在的に体細胞変異を有するものとして特定された候補座位の前記第２のセットのそれぞれについて、
前記生得的ゲノムと比較した、配列変異体の明白な変異分率を計算することと、
複数の領域のそれぞれについて、
前記異常領域中の前記候補座位の明白な変異分率における分散を判定することと、
前記分散を分散閾値と比較することと、によって特定され、コピー数増加を呈する異常領域が、前記閾値より大きい分散を有する、請求項２３に記載の方法。
前記配列決定が、メチル化を意識した配列決定であり、前記ヒト対象の何らかの組織において体細胞変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第２のセットのそれぞれについて、
前記候補座位とアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
１つ以上の部位における対応する分析可能なＤＮＡ分子のメチル化状態を判定することと、
前記メチル化状態に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記メチル化状態がメチル化されていない場合に、前記メチル化状態がメチル化されている場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項１、２、６、１０、または１２のいずれか１項に記載の方法。
前記ヒト対象の何らかの組織において体細胞変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第２のセットのそれぞれについて、
前記候補座位とアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
前記配列リードの端部がアライメントする位置に対応する終結位置を判定することと、
前記終結位置を複数の癌特異的または癌関連末端位置と比較することと、
前記比較に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記終結位置が癌特異的または癌関連末端位置でない場合に、前記終結位置が癌特異的または癌関連末端位置である場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項１、２、６、１０、または１２のいずれか１項に記載の方法。
前記配列決定が、各鋳型ＤＮＡ分子について２つのストランドリードをもたらす後続の配列ステップを提供する一本鎖配列決定用ライブラリ調製プロセスを使用して実施され、前記ヒト対象の何らかの組織において体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することが、
潜在的に体細胞変異を有するものとして特定された候補座位の第２のセットのそれぞれについて、
前記候補座位にアライメントする各ストランドリード対について、
両方のストランドが前記配列変異体を有するかどうかを判定することと、
両方のストランドが前記配列変異体を有するかどうかに基づいて、前記配列リードを廃棄するかどうかを判定することであって、両方のストランドが前記配列変異体を有しない場合に、単一のストランドリードが前記配列変異体を有する場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、体細胞変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項１、２、６、１０、または１２のいずれか１項に記載の方法。
前記ヒト対象に対応する前記生得的ゲノムが、ヒト対象の指定の集団における参照ゲノムである、請求項１、２、６、１０、または１２のいずれか１項に記載の方法。
腫瘍細胞または癌に関連付けられる細胞に由来する無細胞ＤＮＡ断片が、前記生体試料中の前記無細胞ＤＮＡ断片のうちの５０％未満を構成する、請求項１、２、６、１０、または１２のいずれか１項に記載の方法。
前記生体試料が、血漿または血清を含む、請求項１、２、６、１０、または１２のいずれか１項に記載の方法。
前記アライメントされた配列リードが、前記参照ヒトゲノムのうちの少なくとも５％を構成する、請求項１、２、６、１０、または１２のいずれか１項に記載の方法。
前記アライメントされた配列リードが、前記参照ヒトゲノムのうちの少なくとも１０％を構成する、請求項３１に記載の方法。
少なくとも２５ｘのシーケンシング深度が使用される、請求項１、２、６、１０、または１２のいずれか１項に記載の方法。
前記シーケンシング深度が、少なくとも５０ｘである、請求項３３に記載の方法。
前記シーケンシング深度が、少なくとも１００ｘである、請求項３４に記載の方法。
胎児を懐胎する女性対象の生体試料を分析することにより、前記胎児のデノボ変異を特定する方法であって、前記生体試料が、前記胎児及び前記女性対象からの無細胞ＤＮＡ断片を含み、前記方法が、
分析される前記生体試料から鋳型ＤＮＡ断片を得ることであって、前記鋳型ＤＮＡ断片が、無細胞ＤＮＡ断片を含む、得ることと、
前記鋳型ＤＮＡ断片を使用して分析可能なＤＮＡ分子の配列決定用ライブラリを調製することであって、分析可能なＤＮＡ分子の前記配列決定用ライブラリの前記調製が、前記鋳型ＤＮＡ断片のＤＮＡ増幅のステップを含まない、調製することと、
分析可能なＤＮＡ分子の前記配列決定用ライブラリを配列決定して、複数の配列リードを得ることと、
コンピュータシステムで前記複数の配列リードを受信することと、
前記コンピュータシステムによって前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記コンピュータシステムによって前記女性対象の母性ゲノム及び前記胎児の父親の父性ゲノムについての情報を得ることと、
前記コンピュータシステムによって前記配列リードを前記母性ゲノム及び前記父性ゲノムと比較して、前記胎児においてデノボ変異を有するものとして、フィルタリングされた座位のセットを特定することと、を含み、
前記フィルタリングされたセットの各座位において、前記母性ゲノムに存在せず、かつ前記父性ゲノムに存在しない配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が１より大きい、方法。
胎児を懐胎する女性対象の生体試料を分析することにより、前記胎児のデノボ変異を特定する方法であって、前記生体試料が、前記胎児及び前記女性対象からの無細胞ＤＮＡ断片を含み、前記方法が、
分析される前記生体試料から鋳型ＤＮＡ断片を得ることであって、前記鋳型ＤＮＡ断片が、無細胞ＤＮＡ断片を含む、得ることと、
前記鋳型ＤＮＡ断片を使用して分析可能なＤＮＡ分子の配列決定用ライブラリを調製することであって、前記鋳型ＤＮＡ断片からの前記配列決定用ライブラリの重複率が、５％未満である、調製することと、
分析可能なＤＮＡ分子の前記配列決定用ライブラリを配列決定して、複数の配列リードを得ることと、
コンピュータシステムで前記複数の配列リードを受信することと、
前記コンピュータシステムによって前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
コンピュータシステムによって、前記女性対象の母性ゲノム及び前記胎児の父親の父性ゲノムについての情報を得ることと、
前記コンピュータシステムによって前記配列リードを前記母性ゲノム及び前記父性ゲノムと比較して、前記胎児においてデノボ変異を有するものとして、フィルタリングされた座位のセットを特定することと、を含み、
前記フィルタリングされたセットの各座位において、前記母性ゲノムに存在せず、かつ前記父性ゲノムに存在しない配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が１より大きい、方法。
前記胎児においてデノボ変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的にデノボ変異を有するものとして特定された候補座位の第１のセットのそれぞれについて、
第１のアライメント手順を使用して前記候補座位とアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
前記第１のアライメント手順で使用されるものとは異なるマッチングアルゴリズムを使用する第２のアライメント手順を使用して、前記配列リードが前記候補座位にアラインするかどうかを判定することと、
前記第２のアライメント手順を使用して前記配列リードが前記候補座位と再アラインする場合、前記第２のアライメント手順での再アライメントのマッピングクオリティを判定することと、
前記マッピングクオリティをクオリティ閾値と比較することと、
前記マッピングクオリティの前記クオリティ閾値との前記比較に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記マッピングクオリティが前記クオリティ閾値よりも低い場合に、前記マッピングクオリティが前記クオリティ閾値より高い場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、デノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項３６または３７に記載の方法。
前記重複率が、２％未満である、請求項３７に記載の方法。
前記配列決定用ライブラリ中の分析可能なＤＮＡ分子の数が、鋳型ＤＮＡ断片の数よりも少ない、請求項３９に記載の方法。
胎児を懐胎する女性対象の生体試料を分析することにより、前記胎児のデノボ変異を特定する方法であって、前記生体試料が、前記胎児及び前記女性対象からの無細胞ＤＮＡ断片を含み、前記方法が、コンピュータシステムによって、
前記女性対象の母性ゲノム及び前記胎児の父親の父性ゲノムについての情報を得ることと、
前記生体試料中の複数のＤＮＡ断片のそれぞれについて、１つ以上の配列リードを受信することと、
第１のアライメント手順を使用して前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記配列リードを前記母性ゲノム及び前記父性ゲノムと比較して、前記胎児においてデノボ変異を有するものとして、フィルタリングされた座位のセットを特定することと、を含み、
前記フィルタリングされたセットの各座位において、前記母性ゲノムに存在せず、かつ前記父性ゲノムに存在しない配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が１より大きく、
潜在的にデノボ変異を有するものとして特定された候補座位の第１のセットのそれぞれについて、
前記第１のアライメント手順を使用して前記候補座位にアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
前記第１のアライメント手順で使用されるものとは異なるマッチングアルゴリズムを使用する第２のアライメント手順を使用して、前記配列リードが前記候補座位にアラインするかどうかを判定することによって、前記配列リードのマッピングクオリティを作成することと、
前記マッピングクオリティをクオリティ閾値と比較することと、
前記マッピングクオリティの前記クオリティ閾値との前記比較に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記マッピングクオリティが前記クオリティ閾値よりも低い場合に、前記マッピングクオリティが前記クオリティ閾値より高い場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、デノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、を含む、方法。
前記胎児においてデノボ変異を有するものとして、前記フィルタリングされた座位のセットを特定することが、
潜在的にデノボ変異を有するものとして特定された候補座位の第２のセットのそれぞれについて、
前記配列変異体を有するＤＮＡ断片の第１の群と野生型アレルを有するＤＮＡ断片の第２の群との間のサイズ差を判定することと、
前記サイズ差をサイズ閾値と比較することと、
前記比較に基づいて、潜在的変異としての前記候補座位を廃棄するかどうかを判定することであって、前記サイズ差が前記サイズ閾値よりも低い場合に、前記サイズ差が前記サイズ閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項３６、３７、または４１のいずれか１項に記載の方法。
前記サイズ差が、前記ＤＮＡ断片の第１の群及び前記ＤＮＡ断片の第２の群のサイズ中央値の差である、請求項４２に記載の方法。
前記サイズ差が、前記第１の群と前記第２の群との間のサイズの累積度数における最大値である、請求項４２に記載の方法。
胎児を懐胎する女性対象の生体試料を分析することにより、前記胎児のデノボ変異を特定する方法であって、前記生体試料が、前記胎児及び前記女性対象からの無細胞ＤＮＡ断片を含み、前記方法が、コンピュータシステムによって、
前記女性対象の母性ゲノム及び前記胎児の父親の父性ゲノムについての情報を得ることと、
前記生体試料中の複数のＤＮＡ断片のそれぞれについて、１つ以上の配列リードを受信することと、
第１のアライメント手順を使用して前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記配列リードを前記母性ゲノム及び前記父性ゲノムと比較して、前記胎児においてデノボ変異を有するものとして、フィルタリングされた座位のセットを特定することと、を含み、
前記フィルタリングされたセットの各座位において、前記母性ゲノムに存在せず、かつ前記父性ゲノムに存在しない配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が１より大きく、
潜在的にデノボ変異を有するものとして特定された候補座位の第１のセットのそれぞれについて、
前記配列変異体を有するＤＮＡ断片の第１の群と野生型アレルを有するＤＮＡ断片の第２の群との間のサイズ差を判定することと、
前記サイズ差をサイズ閾値と比較することと、
前記サイズ差が前記サイズ閾値よりも小さい場合に、潜在的変異としての前記候補座位を廃棄することと、
前記残った候補座位を使用して、前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、を含む、方法。
前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することが、
癌に関連付けられるヒストン修飾に関連付けられることが既知である領域の群を特定することと、
潜在的にデノボ変異を有するものとして特定された候補座位の第２のセットのそれぞれについて、
前記候補座位が、前記領域の群のうちの１つにあるかどうかを判定することと、
前記候補座位が前記領域の群のうちの１つにあるかどうかに基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記候補座位が前記領域の群のうちの１つにない場合に、前記候補座位が前記領域の群のうちの１つにある場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、デノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項３６、３７、４１、または４５のいずれか１項に記載の方法。
胎児を懐胎する女性対象の生体試料を分析することにより、前記胎児のデノボ変異を特定する方法であって、前記生体試料が、前記胎児及び前記女性対象からの無細胞ＤＮＡ断片を含み、前記方法が、コンピュータシステムによって、
前記女性対象の母性ゲノム及び前記胎児の父親の父性ゲノムについての情報を得ることと、
前記生体試料中の複数のＤＮＡ断片のそれぞれについて、１つ以上の配列リードを受信することと、
第１のアライメント手順を使用して前記複数の配列リードを参照ヒトゲノムにアライメントして、前記複数の配列リードのゲノム位置を判定することと、
前記配列リードを前記母性ゲノム及び前記父性ゲノムと比較して、前記胎児においてデノボ変異を有するものとして、フィルタリングされた座位のセットを特定することと、を含み、
前記フィルタリングされたセットの各座位において、前記母性ゲノムに存在せず、かつ前記父性ゲノムに存在しない配列変異体を有する前記配列リードの数がカットオフ値を上回り、前記カットオフ値が１より大きく、
胎児組織に関連付けられるヒストン修飾に関連付けられることが既知である領域の群を特定することと、
潜在的にデノボ変異を有するものとして特定された候補座位の第１のセットのそれぞれについて、
前記候補座位が、前記領域の群のうちの１つにあるかどうかを判定することと、
前記候補座位が前記領域の群のうちの１つにあるかどうかに基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記候補座位が前記領域の群のうちの１つにない場合に、前記候補座位が前記領域の群のうちの１つにある場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、デノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、を含む、方法。
前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することが、
潜在的にデノボ変異を有するものとして特定された候補座位の第２のセットのそれぞれについて、
前記配列変異体を有する配列リードの分率を判定することと、
前記分率を分率閾値と比較することと、
前記比較に基づいて、潜在的変異としての前記候補座位を廃棄するかどうかを判定することであって、前記分率が前記分率閾値よりも低い場合に、前記分率が前記分率閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項３６、３７、４１、４５、または４７のいずれか１項に記載の方法。
前記分率閾値が、２０％である、請求項４８に記載の方法。
前記分率閾値が、３０％である、請求項４８に記載の方法。
前記生体試料中の胎児ＤＮＡの分率濃度を測定することをさらに含み、前記分率閾値が、前記分率濃度に基づいて判定される、請求項４８に記載の方法。
前記生体試料中の胎児ＤＮＡの前記分率濃度が、複数の領域のそれぞれについて測定され、候補座位に使用される前記分率閾値が、前記候補座位が存在する前記領域について測定された前記分率濃度に依存する、請求項５１に記載の方法。
コピー数異常を有する１つ以上の異常領域を特定することをさらに含み、異常領域における候補座位に使用される前記分率閾値が、前記異常領域がコピー数増加またはコピー数減少のいずれを呈するかに依存する、請求項４８に記載の方法。
前記胎児においてコピー数異常を有する１つ以上の異常領域を特定することと、
前記フィルタリングされた座位のセットのそれぞれについて生得的ゲノムと比較した、配列変異体を有する配列リードの数を判定するために、配列リードを廃棄するかどうかを判定することの一部として、コピー数増加を呈する第１の異常領域からの第１の配列リードが、コピー数減少を呈する第２の異常領域からの第２の配列リードよりもデノボ変異を有する可能性が高いことを特定することと、をさらに含む、請求項４８に記載の方法。
前記１つ以上の異常領域が、
潜在的にデノボ変異を有するものとして特定された候補座位の前記第２のセットのそれぞれについて、
前記母性ゲノムに存在せず、かつ前記父性ゲノムに存在しない配列変異体の明白な変異分率を計算することと、
複数の領域のそれぞれについて、
前記異常領域中の前記候補座位の前記明白な変異分率における分散を判定することと、
前記分散を分散閾値と比較することと、によって特定され、コピー数増加を呈する異常領域が、前記閾値より大きい分散を有する、請求項５４に記載の方法。
前記配列決定が、メチル化を意識した配列決定であり、前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することが、
潜在的にデノボ変異を有するものとして特定された候補座位の第２のセットのそれぞれについて、
前記候補座位にアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
１つ以上の部位における対応する分析可能なＤＮＡ分子のメチル化状態を判定することと、
前記メチル化状態に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記メチル化状態がメチル化されていない場合に、前記メチル化状態がメチル化されている場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、デノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項３６、３７、４１、４５、または４７のいずれか１項に記載の方法。
前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することが、
潜在的にデノボ変異を有するものとして特定された候補座位の第２のセットのそれぞれについて、
前記候補座位にアラインし、かつ前記配列変異体を有する前記配列リードのそれぞれについて、
前記配列リードの端部がアライメントする位置に対応する終結位置を判定することと、
前記終結位置を複数の癌特異的または癌関連末端位置と比較することと、
前記比較に基づいて、前記配列リードを廃棄するかどうかを判定することであって、前記終結位置が癌特異的または癌関連末端位置でない場合に、前記終結位置が癌特異的または癌関連末端位置である場合よりも、前記配列リードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、デノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項３６、３７、４１、４５、または４７のいずれか１項に記載の方法。
前記配列決定が、各鋳型ＤＮＡ分子について２つのストランドリードをもたらす後続の配列ステップを提供する一本鎖配列決定用ライブラリ調製プロセスを使用して実施され、前記胎児においてデノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することが、
潜在的にデノボ変異を有するものとして特定された候補座位の第２のセットのそれぞれについて、
前記候補座位にアライメントする各ストランドリード対について、
両方のストランドが前記配列変異体を有するかどうかを判定することと、
両方のストランドが前記配列変異体を有するかどうかに基づいて、前記配列リードを廃棄するかどうかを判定することであって、両方のストランドが前記配列変異体を有しない場合に、単一のストランドリードが前記配列変異体を有する場合よりも、前記ストランドリードを廃棄する可能性がより高いことを規定する、判定することにより、残った配列リードの数を得ることと、
前記残った配列リードの数を候補閾値と比較することと、
前記残った配列リードの数の前記候補閾値との前記比較に基づいて、前記候補座位を廃棄するかどうかを判定することであって、前記残った配列リードの数が前記候補閾値よりも低い場合に、前記残った配列リードの数が前記候補閾値より高い場合よりも、前記候補座位を廃棄する可能性がより高いことを規定する、判定することと、
前記残った候補座位を使用して、デノボ変異を有するものとして前記フィルタリングされた座位のセットを特定することと、をさらに含む、請求項３６、３７、４１、４５、または４７のいずれか１項に記載の方法。
前記胎児に由来する無細胞ＤＮＡ断片が、前記生体試料中の無細胞ＤＮＡ断片の５０％未満を構成する、請求項３６、３７、４１、４５、または４７のいずれか１項に記載の方法。
前記生体試料が、血漿または血清を含む、請求項３６、３７、４１、４５、または４７のいずれか１項に記載の方法。
前記アライメントされた配列リードが、前記参照ゲノムのうちの少なくとも５％を構成する、請求項３６、３７、４１、４５、または４７のいずれか１項に記載の方法。
前記アライメントされた配列リードが、前記参照ゲノムのうちの少なくとも１０％を構成する、請求項６１に記載の方法。
少なくとも２５ｘのシーケンシング深度が使用される、請求項３６、３７、４１、４５、または４７のいずれか１項に記載の方法。
前記シーケンシング深度が、少なくとも５０ｘである、請求項６３に記載の方法。
前記シーケンシング深度が、少なくとも１００ｘである、請求項６４に記載の方法。
請求項１、２、６、１０、１２、３６、３７、４１、４５、または４７のいずれかに記載の動作を実施するコンピュータシステムを制御するための複数の命令を記憶するコンピュータ可読媒体を含むコンピュータ製品。
請求項６６に記載のコンピュータ製品と、
前記コンピュータ可読媒体上に格納された命令を実行するための１つ以上のプロセッサと、を備える、システム。
請求項１、２、６、１０、１２、３６、３７、４１、４５、または４７のいずれかに記載の方法を実施するための手段を備える、システム。
請求項１、２、６、１０、１２、３６、３７、４１、４５、または４７のいずれかに記載の方法を実施するように構成された、システム。
請求項１、２、６、１０、１２、３６、３７、４１、４５、または４７のいずれかに記載の方法のいずれかのステップをそれぞれ実施するモジュールを備える、システム。