JP6731957B2

JP6731957B2 - 子宮内膜癌の診断方法

Info

Publication number: JP6731957B2
Application number: JP2017563386A
Authority: JP
Inventors: トロイシ，ジャコポ; スカラ，ジョヴァンニ; カンピーリア，ピエトロ; ズッロ，フルヴィオ; グイーダ，マウリーツィオ
Original assignee: オスモティック・ソチエタ・ア・レスポンサビリタ・リミタータ
Priority date: 2015-02-27
Filing date: 2016-02-23
Publication date: 2020-07-29
Anticipated expiration: 2036-02-23
Also published as: EP3262416B1; EP3262416A1; JP2018511811A; ES2711814T3; US20180038867A1

Description

本発明は、血液のメタボローム解析(metabolomic analysis)、および分類モデルによる代謝プロファイルのバイオインフォマティクス(bioinformatics)操作に基づく、子宮内膜癌(endometrial carcinoma)の診断方法に関する。

子宮内膜癌は雌性生殖管の最も一般的な浸潤癌であり、それは女性におけるすべての浸潤腫瘍（皮膚腫瘍を除く）の７％に関与している。
子宮内膜癌は４０歳未満の女性には稀である。発症のピークは５５〜６５歳である。臨床病理研究および分子解析により、子宮内膜癌を２つの大きなカテゴリーであるタイプＩおよびタイプＩＩに分類することが支持されている。

タイプＩは最も頻度が高く、８０％より高い症例パーセントをもち、それは子宮内膜増殖腺を冒すので、類子宮内膜癌(endometrioid carcinoma)という用語で定義される。一般に、それは子宮内膜過形成の枠内で発生し、これと同様に肥満症、糖尿病、高血圧症、不妊症および明白なエストロゲン刺激を伴う。最近の研究により、子宮内膜過形成は子宮内膜癌の前駆症状であるという論題を支持するさらなる証拠が提示された(Muller GL et al. Allelotype mapping of unstable microsatellites establishes direct lineage continuity between endometrial carcinoma precancers and cancers. Cancers Res 56:4483, 1996)。タイプＩＩの子宮内膜癌は一般にタイプＩの子宮内膜癌より１０歳後（６５〜７５歳）の女性が罹患し、タイプＩと異なりそれはほとんどすべて子宮内膜萎縮の枠で発症する。

タイプＩＩは子宮内膜癌の症例の１５％未満を占め、ほとんど分化していない（Ｇ３）。大部分の一般的サブタイプは漿液性のものであり、それは生物学的および形態学的に卵巣癌とオーバーラップしているためそのように定義される。より一般的でない組織学的サブタイプもこのカテゴリーに属する：明細胞癌(clear cell carcinoma)および悪性混合型のミューラー腫瘍(Muellerian tumour)。

今のところ、閉経期前後および閉経期後の年齢の無症状集団についての子宮内膜癌の早期診断のための集団検診は、それが子宮頚癌についてのパップテスト（パパニコロー検査）(Pap-test)により実施されているので適切ではない。

子宮頚膣部(exocervical)試料について実施された研究により、約４０〜５０％の偽陰性の頻度が証明された；膣環境の作用を受けた子宮内膜剥離細胞は変化を生じ、したがって腫瘍細胞を正常細胞から識別できる特徴を失うからである。さらに、予後は診断の早期性によって厳密に拘束され、事実、５年後の生存率はステージＩにおける診断の場合の７８〜９８％からステージＩＶにおける診断の場合の３〜１０％にまで急激に低下する。

現在までに、ヒト血清の数千の代謝産物が同定され、メタボロミクスの適用によって多数の疾患に対するバイオマーカーの開発が可能になった：たとえば、統合失調症(Kaddurah-Daouk R., Metabolic profiling of patients with schizophrenia, PLOS Med 2006; 8:e363)、髄膜炎(Subramanian A. et al., Proton MR/CSF analysis and a new software as predictors for the differentiation of meningitis in children, NMR Biomed 2005; 18:213-25)、および結腸癌(Denkert C., et al., Metabolite profiling of human colon carcinoma - deregulation of TCA cycle and amino acid turnover, Mol. Cancer 2008; 7:1-15)。それにもかかわらず、婦人科領域におけるメタボロミクスの利用は現在まで卵巣癌に関する研究に限定されている(Fan L. et al. Identification of metabolic biomarkers to diagnose epithelial ovarian cancer using a UPLC/QTOF/MS platform Acta Oncologica, 2012; 51:473-479)。現在まで、子宮内膜癌の診断のためにガスクロマトグラフィーを質量分析と組み合わせて計量化学的手法で実施された研究は文献に報告されていない。

Muller GL et al. Allelotype mapping of unstable microsatellites establishes direct lineage continuity between endometrial carcinoma precancers and cancers. Cancers Res 56:4483, 1996 Kaddurah-Daouk R., Metabolic profiling of patients with schizophrenia, PLOS Med 2006; 8:e363 Subramanian A. et al., Proton MR/CSF analysis and a new software as predictors for the differentiation of meningitis in children, NMR Biomed 2005; 18:213-25 Denkert C., et al., Metabolite profiling of human colon carcinoma - deregulation of TCA cycle and amino acid turnover, Mol. Cancer 2008; 7:1-15 Fan L. et al. Identification of metabolic biomarkers to diagnose epithelial ovarian cancer using a UPLC/QTOF/MS platform Acta Oncologica, 2012; 51:473-479

したがって、この悲惨な雌性新生物を早期診断するために、年齢または既知のリスク因子に対するリスクをもつ集団についてスクリーニングを実施できる非侵襲的診断方式が強く要望されている。

有利なことに、本発明は子宮内膜癌の診断のための非侵襲的方法により前記の問題を解決する。現在まで、この種の腫瘍のそのような組織学的判別が可能な他の非侵襲的診断法はない。

本発明の目的を以下に詳細に説明する。

図１は、子宮内膜癌を伴う患者および健常対照のメタボロームプロファイルのデータに基づく解析ＯＰＬＳ−ＤＡの結果を示す。スコアプロットは２クラスをオーバーラッピングなしに識別する。三角は子宮内膜癌に罹患している患者を表わし、これに対し小円は健常患者を表わす。軸上にレポートされた主成分ＰＣ１およびＰＣ２は、それぞれ１６．５％および１４．９％の系列内変動(global variance)を示す。図２は、本発明に従って、ＰＬＳ−ＤＡモデルで得られた組織学的分類（タイプＩの癌−対−タイプＩＩの癌）を示す。スポットはタイプＩの子宮内膜癌を伴う女性のメタボロームプロファイルを表わし、これに対し三角はタイプＩＩの子宮内膜癌を伴う患者のものを表わす。これらのサンプルのうち１つだけがこのモデルにより必ずしも一義的に(univocally)適性領域に配属できない領域にある。

定義
用語“メタボロミクス”で、生物の小分子のメタボロームプロファイル試験による細胞プロセスの分析を意図する。

用語“メタボローム解析”で、本発明者らは、生体試料中の可能な最大数の代謝産物の同定および濃度決定を目的としたプロセスを実施することを表わすものとする。
用語“代謝産物”で、同化または異化タイプの細胞または細胞セットの生物学的プロセスに由来する小分子を表わすものとする。

用語“代謝産物”で、本発明者らは、生体試料内に同定および測定される可能性のある１０００ダルトン未満の分子量をもつすべての分子を表わすものとする。
用語“メタボロームプロファイル”で、患者の血液中の代謝産物がそれらの相対的割合に応じてもつ特定のパターンを意図する。

ＰＬＳ−ＤＡ(Partial Least Squares Discriminant Analysis)（部分的最小二乗判別分析）は、多変量回帰の手法を用いて、オリジナル変数（Ｘ）の直線的組合わせにより確定クラス(determinate class)（Ｙ）への該当性(pertinence)を予測できる情報を抽出する管理された方法である。クラスの識別における有効性を評価するために、並べ替え検定(permutation test)を実施する。それぞれの並べ替えにおいて、データ（Ｘ）および交換した(commuted)クラスラベル（Ｙ）から、そのモデルについてオリジナルクラスの割り当てに基づく交差検証(cross validation)により確定した最適数の成分を用いてＰＬＳ−ＤＡモデルを構築する。２タイプの統計学的検定を実施して、クラス間の識別力を判定する。第１のものはそのモデルのトレーニングフェーズ(training phase)における予測正確度(prediction accuracy)に基づく。第２のものは、クラス内およびクラス間の二次的距離(quadratic distance)の和の比（Ｂ／Ｗ−比）に従った分離距離(separation distance)に基づく。

ＯＰＬＳ−ＤＡ(Orthogonal Partial Least Squares - Discriminant Analysis)（直交部分的最小二乗−判別分析）は、ＰＬＳ−ＤＡ検定の重要な発展であり、データ行列におけるクラスの変動を直交方向に管理するために提唱された。

ＯＰＬＳ−ＤＡはモデルＰＬＳ−ＤＡの分類性能を高める。分類性能は、“ｋ−分割交差検証(k-fold cross validation)”に基づいて、データ行列をｋ個のランダムサブセットに分割することにより推定される。それぞれの計算サイクルについて、サブセットＦのうちの１個をテストセットとして取り分けておき、残りのｋ−１個のサブセットをトレーナーとして用いる。Ｋ個のサブセットのそれぞれをテストセットとして１回用いると、Ｋ個の精度値(precision value)が得られる。分類の正確度(accuracy)は、ｋ個のサブセットにおける正確率(accuracy rate)の平均として計算される。検証するために、このモデルに“１点排除交差検証(leave one out cross validation)”（ＬＯＯＣＶ）方法による交差検証を施す。データ行列を、ｋ個のサブセットに分割する前に平均および単位分散に基準化する(scale)。言い換えると、トレーニングデータの平均および標準偏差を用いてセンターを指定し、テストデータを基準化する。トレーニングした時点で、そのモデルを用いて、そのデータが“過剰適応(overfitting)”を作りだしたかどうかをチェックする。これを行なうために、クラスラベルが分かっている検証セットを作成し、こうしてそれがトレーニングデータのものに匹敵する正確率を与えるかどうかをチェックする。他の方法はプロット検証(plot validation)Ｒ^２／Ｑ^２であり、それは、現在のモデルが見せかけ(spurious)である、すなわちそのモデルは設定されたサブセットだけにはフィットするけれども新たな観察についても全く同様にＹを予測するものではないというリスクを査定する補助となる。Ｒ^２の数値は、このモデルにより説明できるトレーニングセットの変動率(percentage variation)である。

Ｑ^２の数値は、交差検証したＲ^２の尺度である。この検証は、行列をそのままにした状態で観察順序(order of observation)Ｙをランダムに並べ替えたデータに基づいて、オリジナルモデルの適合度(goodness of fit)を異なるモデルの適合度と比較する。モデルの検証の基準は下記のとおりである：
１．並べ替えたデータセット上のすべてのＱ^２値は、現在のデータセットについて推定したＱ^２値より低くなければならない。これが確認されなければ、そのモデルは過剰適応であることを意味する；
２．回帰直線（実際の点Ｑ^２をＱ^２並べ替え値のクラスターの重心(centroid)に連結する線）は負の数値のｙ軸切片(intercept)をもつ。

サポートベクターマシン(Support Vector Machine)（ＳＶＭ）は、分類用途には比較的新しい教師あり機械学習法(machine learning supervised technique)である。ＳＶＭは１９８２年にVapnikによって初めて提唱された(Vapnik, V. Estimation of Dependences Based on Empirical Data; Springer Verlag: New York, 1982)。本質的に二項分類器(binary classifier)であるＳＶＭの基本原理は下記のとおりである：２つのクラスをもつセットデータがあれば、超平面(hyperplane)の形の線形分類器が構築され、それは、経験的分類エラーの最小化と同時に幾何学的マージンの最大化において、最大マージンをもつ。直線的に分離されないデータセットの場合、オリジナルデータをより高い次元の特徴空間(feature space)内へマッピングし、この新たな空間（これは“カーネル(kernel)”として知られる）に線形分類器(linear classifier)を構築する。

トレーニングデータのセット

を考慮すると、ＳＶＭは超平面を決定し、そのパラメーターは下記の凸最適化問題(convex optimization problem):

に下記の条件

を施したものの解により得られる（ｗ，ｂ）によって与えられる；上記において、ｃは正規化パラメーター(regularization parameter)、すなわち学習正確度と予測という項の折衷であり、εは分類エラー数の尺度である。正規化という項の採用により、過剰適応の問題は低減する。

決定木
決定木(decision tree)はデータの帰納的分割(recursive partitioning)に基づいて分類モデルを構築する。一般に、決定木のアルゴリズムは全データセットで開始し、それらのデータを１以上の属性(attribute)の数値に基づいて２以上のサブグループに分割し、次いで各サブセットを各サブセットのサイズが適切レベルに達するまで、より小さなグループに反復分割する。このモデリングプロセス全体を木構造で表わすことができ、作成したモデルをルール“ｉｆ−ｔｈｅｎ（もし・・ならば・・する）”のセットとしてまとめることができる。決定木は解釈が容易であり、計算負荷が低く(computationally undemanding)、ノイズの多いデータに対処できる。大部分の決定木は、たとえば本発明の目的のような分類問題に取り組む。これに関連して、この手法は分類木(classification tree)とも呼ばれる。木構造による表現において、節(knot)はデータの１セットを表わし、データの全セットは根にある節として表わされる。

発明の詳細な記載
本発明は、血液のメタボローム解析、ならびに得られた結果をＰＬＳ−ＤＡおよびＯＰＬＳ−ＤＡからなるグループにおいて選択した判別分析モデルまたはＳＶＭおよび決定木からなるグループにおいて選択した機械学習モデルを用いる多変量解析によりインテグレーションすることに基づいて、子宮内膜癌を診断するための方法に関する。

本発明の目的は、血液のメタボローム解析に基づく子宮内膜癌の診断方法であり、この方法は下記のフェーズを含む：
（Ｉ）下記を含むトレーニングフェーズ：
−子宮内膜癌を伴う患者および健常対照に由来する血液試料のＧＣＭＳまたはＧＣ×ＧＣＭＳ分析；
−少なくとも分類モデルをトレーニングするための、少なくとも判別分析モデルまたは機械学習モデルを用いる多変量解析による、得られた結果のインテグレーション；
（ＩＩ）未知血液試料のＧＣＭＳまたはＧＣ×ＧＣＭＳ分析、およびトレーニングフェーズ（Ｉ）で形成した分類モデルに基づくクラスへのそれの割り当てを含む、割り当てフェーズ。

収集したクロマトグラムについて、
−少なくとも、ＰＬＳ−ＤＡおよびＯＰＬＳ−ＤＡからなる群から選択した判別分析モデル、または
−ＳＶＭおよび決定木からなる群から選択した機械学習モデル
を用いて実施する多変量解析は、有利なことに未知試料の満足すべき二分類(dichotomous classification)（“健常患者”対“子宮内膜癌に罹患している患者”）を可能にした。多変量ＰＬＳ−ＤＡ解析で得られた分類モデルは、癌の組織学的識別（タイプＩの癌−対−タイプＩＩの癌）すら可能にした。現在まで、この種の腫瘍のそのような組織学的識別を可能にする他の非侵襲的診断方法はない。

そのようなトレーニングフェーズ（Ｉ）において、子宮内膜癌に罹患している患者ならびに類似の身体的（ＢＭＩ、年齢、共存疾患）および社会的（教育レベル、社会経済状態）特徴を備えた健常な女性に由来する試料を分析し、この方法で分類モデルをトレーニングする。このトレーニングフェーズは、これら２グループの血液に存在する代謝プロファイルの特徴を作成し、境界を定めることを目的とする。分類モデルの良好な予測性を得るためには、同定した代謝プロファイルの変数の少なくとも８０％に等しい数の、子宮内膜癌を伴う患者および健常対照に由来する血液試料に、多変量解析を施し、そのような試料が少なくとも２つの異なるクラスに属する必要がある。

そのような割り当てフェーズ（ＩＩ）において、未知試料にＧＣＭＳ分析を施し、得られたクロマトグラムを、先にトレーニングしたモデルに従って最も可能性の高い適切なクラスを推定して分類する。

本発明の子宮内膜癌診断方法は、それぞれの代謝産物の濃度の測定に基づくのではなく、代謝産物の全クラスターをバイオマーカー（代謝プロファイル）とみなし、２グループに異なる割合で存在するため、それらを２つの異なる適切なクラスに入れることができる。

好ましくは、トレーニングフェーズ（Ｉ）はさらに下記のサブフェーズを含む：
−子宮内膜癌を伴う患者および健常対照に由来する血液試料からの代謝産物の抽出および誘導体化；
−各試料についてクロマトグラムを得るための、抽出および誘導体化した代謝産物のＧＣＭＳまたはＧＣ×ＧＣＭＳ分析；各クロマトグラムは代謝プロファイルである；
−子宮内膜癌を伴う患者および健常対照の代謝プロファイルのデータ行列作成；
−データアレイ多変量解析の結果としての少なくとも分類モデルの構造化；その際、少なくとも判別分析モデルまたは機械学習モデルを用いてその多変量解析を実施して、少なくとも分類モデルをトレーニングする。

種々の分類モデルを本発明に従って使用できる；好ましくは、その分類モデルはＰＬＳ−ＤＡ、ＯＰＬＳ−ＤＡ、ＳＶＭおよび決定木からなる群から選択される。
好ましくは、割り当てフェーズ（ＩＩ）はさらに下記のサブフェーズを含む：
−少なくとも未知血液試料からの代謝産物の抽出および誘導体化；
−未知血液試料について少なくともクロマトグラムを得るための、抽出および誘導体化した代謝産物のＧＣＭＳまたはＧＣ×ＧＣＭＳ分析；
−未知血液試料のクロマトグラムからの代謝プロファイル作成；
−フェーズ（Ｉ）でトレーニングした分類モデルに基づくクラスへのその代謝プロファイルの割り当て。

好ましくは、本発明の方法は、“健常患者”または“子宮内膜癌に罹患している患者”の二分類のためにトレーニングした分類モデルを想定する。よりいっそう好ましくは、その分類モデルは“タイプＩ”または“タイプＩＩ”癌の組織学的分類のためにもトレーニングされる。

好ましくは、抽出はアルコール類および非プロトン極性溶媒の水性混合物、好ましくはＣＨ_３ＯＨ／Ｈ_２Ｏ／ＣＨＣｌ_３、よりいっそう好ましくは体積比２〜３／０．５〜０．５／０．５〜１のものからなる抽出混合物を用いて実施される。

好ましい態様において、抽出および誘導体化のサブフェーズは下記を含む：
ｉ）抽出混合物の添加から得られた試料の撹拌；
ｉｉ）ｉ）で得られた試料の遠心分離；
ｉｉｉ）ピリジン中の塩酸メトキシアミンで処理することによる、ｉｉ）から得られた上清の誘導体化；
ｉｖ）下記のものからなる群から選択されるシラン処理剤（シリル化剤）(silanization agent)による、ｉｉｉ）で得られた試料の上清のシラン処理：Ｎ，Ｏ−ビス（トリメチルシリル）トリフルオロアセトアミド（ＢＳＴＦＡ）、Ｎ−メチル−Ｎ−（トリメチルシリル）トリフルオロアセトアミド（ＭＳＴＦＡ）、ヘキサメチルジシラザン（ＨＭＤＳ）、１−（トリメチルシリル）イミダゾール（ＴＭＳＩ）、Ｎ−ｔｅｒｔ−ブチルジメチルシリル−Ｎ−メチルトリフルオロアセトアミド（ＭＴＢＳＴＦＡ）、１−（ｔｅｒｔ−ブチルジメチルシリル）イミダゾール（ＴＢＤＭＳＩＭ）；場合によりトリメチルクロロシラン（ＴＭＣＳ）の存在下で。

好ましくは、代謝産物の抽出は試料に既知アリコートの基準化合物を添加した後に実施される；好ましくは、その基準化合物はリビトール(ribitol)である。
本発明の目的に有用な代謝産物を分離するために、一次元ガスクロマトグラフィーおよび二次元ガスクロマトグラフィーの両方で作業することができる；二次元ガスクロマトグラフィーは、その手法のより良好な分解能がより良好な分類正確度を提供するので好ましい。いずれにしろ、実施例に示すように、より一般的な一次元ガスクロマトグラフィーで作業することもできる。

好ましくはスキャンモードで得られたガスクロマトグラムを、クロマトグラムトレースのバックグラウンドノイズより１０倍より大きい面積をもつすべてのピークを同定するようにインテグレーションする。

基準化合物（好ましくはリビトール）のピークを、定量分析および保持時間センタリングの両方のための基準として用いて、各ピークを１つの信号ｍ／ｚの数量化(quantization)および少なくとも２つの信号ｍ／ｚの定性に基づいて同定する。インテグレーションの後、正規化面積パーセント法で定量を実施する。この数量化から得られた結果（正規化面積パーセント）を行列に変換し、その際、各試料が行(line)を表わし、列(column)は基準化合物の保持時間と比較したガスクロマトグラフィー保持時間により一義的に同定された種々の代謝産物により表わされる。行列の第１列を用いて適切なクラスを決定する。最も容易な例では、“健常患者”および“子宮内膜癌に罹患している患者”の２クラスのみを想定することができ、以後、本発明の作業のエビデンスをこの二分類に基づいてレポートする。

前記に開示した方法であってさらに下記のフェーズを含むものも本発明の目的である：
−クロマトグラムのインテグレーション；その際、そのインテグレーションによりクロマトグラムトレースのバックグラウンドノイズの１０倍より大きい面積を有するすべてのピークの同定が得られる；定量分析および保持時間センタリングの両方のために基準化合物のピークを使用；
その際、各ピークを下記に基づいて同定する：
−１つの信号ｍ／ｚの数量化；
−少なくとも２つの信号ｍ／ｚの定性；
−正規化面積パーセント法による定量；
−定量から得られたデータの、行列への変換；その際、各試料が行を表わし、列はクロマトグラフィー保持時間により一義的に同定された種々の代謝産物により表わされる。

正規化および補正したクロマトグラム（リビトールのピーク面積を基準としたもの）について、ＳＩＭＰＣＡ−Ｐ１３．０（Ｕｍｅｔｒｉｃｓ）、ＲａｐｉｄＭｉｎｅｒ５．３（Ｒａｐｉｄ−Ｉ）およびＲ（ＦｏｕｎｄａｔｉｏｎｆｏｒＳｔａｔｉｓｔｉｃａｌＣｏｍｐｕｔｉｎｇ，Ｖｉｅｎｎａ）を用いて、データ（ＰＬＳ−ＤＡおよびＯＰＬＳ−ＤＡ）および自動化学習(automatic learning)（ＳＶＭおよび決定木）の多変量統計解析を実施する。数値を平均上にセンタリングし、分散を正規化する。

代謝プロファイルについて、モデルＯＰＬＳ−ＤＡは予測成分(predictive component)および３つの直交成分(orthogonal component)を用いて満足すべきモデリング能および予測性を示した（Ｒ^２Ｙ_ｃｕｍ＝０．９９５，Ｑ^２ _ｃｕｍ＝０．９８５）。図１は、ＯＰＬＳ−ＤＡモデルで得られたクラス間分離を示す。

さらに、モデルＰＬＳ−ＤＡによる癌の組織所見に基づく分類を構築した。図２に示すように、１試料のみがクラスの規定空間の不確定領域に位置した。
本発明は限定ではない下記の実施例を考慮してより良く理解できる。

ある程度の子宮内膜癌の診断を伴う患者から子宮摘出介入の前に採取した血液試料ならびに類似の身体的および社会経済的特徴をもつけれども健常な子宮を備えた対照女性から採取した血液試料について実施したメタボローム解析から出発して、本発明の目的である診断法を開発した。子宮摘出後に、外植臓器の分析により得られた病理解剖学的エビデンスに基づいてアイソタイプおよび新生物ステージについての情報を収集した。

試料の採集
自発的に血液試料を提供した子宮内膜癌を伴う８８人の女性および８０人の健常な女性から試料を採取した。試験はＭａｇｎａＧｒｅｃｉａｏｆＣａｔａｎｚａｒｏ大学の倫理委員会により承認され、患者および健常ボランティアは試験の目的についてのインフォームドコンセントに署名した。子宮摘出介入の直前にバイアルＢＤＶａｃｕｔａｉｎｅｒ（登録商標）を用いて血液試料を採取し、血清を分析時まで−８０℃で凍結しておいた。子宮内膜病巣の生検による子宮外診検査(hysterectoscopic test)後の子宮内膜癌の診断の疑いを、子宮摘出介入後の子宮の病理解剖学的検査により確認した。子宮内膜癌の徴候をもたず、類似の身体的および社会経済的特徴（体重、身長、ＢＭＩ、年齢、身分、教育レベルなど）を備えた女性から血液を採取して、対照グループを同様に手配した。

症例および対照の人口および臨床特徴を表１にレポートし、一方、表２には検査した腫瘍の病理解剖学的特徴を挙げる。

代謝産物の抽出および誘導体化
５０マイクロリットルの血清を２ｍＬのエッペンドルフ型バイアルに移し、リビトール１ｇ／Ｌの溶液２０μＬ、ならびに２．５部のメタノール、１部の水および１部のクロロホルム（ＣＨ_３ＯＨ：Ｈ_２Ｏ：ＣＨＣｌ_３，２．５：１：１）からなる混合物２００μＬを添加した。

この溶液をボルテックスで３０秒間混合した。
試料を次いで１６０００ｒｐｍで１０分間、４℃で遠心分離した。２００μＬアリコートの上清を採集し、新たな２ｍＬエッペンドルフ型バイアルに移し、２００μＬのＨ_２Ｏを添加し、ボルテックスで３０秒間混合し、１６０００ｒｐｍで５分間、４℃で再び遠心分離した。

３５０μＬアリコートの上清を再び採集し、１．５のガラスアンプルに移し、凍結乾燥した。
凍結乾燥試料を５０μＬの塩酸メトキシアミン２０ｍｇ／ｍＬ（ピリジン中）で処理した。この反応を３７℃で撹拌（３５０ｒｐｍ）下に９０分間実施した。最後に、１％のトリメチルクロロシランを含む５０μＬのジＮ，Ｏ−ビス（トリメチルシリル）トリフルオロアセトアミド（ＢＳＴＦＡ）を各アンプルに添加し、シラン処理反応を３７℃で６０分間、撹拌下に（３５０ｒｐｍ）実施した。

ＭＤＧＣＭＳ解析
二次元ガスクロマトグラフィーのために、タイプＳＬＢ−５ｍｓ３０．０ｍ×０，２５ｍｍＩＤ，フィルム［シルフェニレン(silphenylene)ポリマー，実際にはポリ（５％ジフェニル／９５％メチルシロキサン）に等しい極性をもつ］厚さ１μｍの一次カラム（第１オーブンに配置）（Ｊ＆ＷＡｇｉｌｅｎｔ）を用い、それを７ドア付きインターフェース（ＳＧＥ）の位置１に接続した。

ＢＰＸ−５０５，０ｍ×０，５０ｍｍＩＤ，フィルムの厚さ０．２５μｍをインターフェースの位置７に接続した。ＢＰＸ−５０１．５ｍ×０．２５ｍｍＩＤ，０．２５μｍを位置６にセットし、３２０℃に設定した水素炎イオン化型検出器(flame ionisation detector)（ＦＩＤ）に接続し、一方、５．０ｍの分析カラム（ＦＩＤに接続したものと化学的に同一）をシステムｑＭＳに接続した。

ＦＩＤに接続したカラムは、二次元フラックスを低減するために、かつほとんど代表的でない化合物がクロマトグラフィーの無作為変動によるものではないことをチェックするために用いられた。

インターフェースＳＧＥのドア３と４を接続するために、４０μＬ（２０ｃｍ×０．７１ｍｍＯＤ×０．５１ｍｍＩＤ，ステンレススチール製）外側キャピラリー管を用いた。

２つのオーブンについて等しい温度プログラムは下記のとおりであった：８０℃で１分間、次いで３２０℃まで３℃／分で加熱し、４分間保持。
ヘリウム（一定の直線速度）の出発圧を１２９．６ｋＰａに設定した。同様に一定の直線速度条件で作動するＡＰＣ(advanced control of pressure)（圧力の高度制御）のヘリウムの補助出発圧を９０．４ｋＰａに設定した。

注入体積１μＬ、スプリット比１：５。モジュレーション期間を４．１秒（蓄積期間４．０秒，注入期間０．１秒）に設定した。四重極質量分析計の条件は下記のとおりであった：イオン化モード：電子衝撃（７０ｅＶ）、質量範囲：４０〜６００ｍ／ｚ、スキャン速度：１０．０００ａｍｕ／秒。

ＧＣＭＳ分析
一次元ガスクロマトグラフィーのために、タイプＣＰ−Ｓｉｌ８ＣＢＧＣカラム、３０ｍ、０．２５ｍｍ、１，００μｍのカラム（ＡｇｉｌｅｎｔＪ＆Ｗ）を用いた。

ＧＣの温度プログラムは、１００℃の出発温度を１分間、次いで３２０℃まで４℃／分の加熱、および４分の保持時間、全作動時間６０分を想定した。
ヘリウム（一定の線速度３９ｃｍ／秒）の出発圧を８３．７ｋＰａに設定した。注入体積２μＬ、スプリット比１：５。四重極質量分析計の条件は下記のとおりであった：イオン化モード：電子衝撃（７０ｅＶ）、質量範囲：３５〜６００ｍ／ｚ、スキャン速度：３．３３３ａｍｕ／秒、溶媒カット時間４．５分間。

行列データの作成
ＴＩＣクロマトグラムにおいては通常は２５０より多い信号が検出され、これらのピークのうちあるものは、他の試料中に対応するものがなかったため、濃度が低すぎたので、または代謝産物として確認するにはスペクトル性に乏しかったので、それ以上は調べなかった。

合計１９８の内因性代謝産物、たとえばアミノ酸、有機酸、炭水化物、脂肪酸およびステロイドを検出した。ピークの同定のために、最大許容量としては作表したコバッツ指数(Kovats index)と実験指数１０との差を設定し、一方でライブラリーにおける検索のための最小適合性を８５％に設定して、線状保持指標(linear retention index)（ＬＲＩ）を用いた。２つのライブラリーを用いた：ＮＩＳＴ１１、および５００を超える代謝産物を分析試料と同じ条件で誘導体化することにより特別に開発したライブラリー。リビトールの信号を基準にしてピークの面積を正規化および補正した。結果をコンマで区切った行列ファイル（ＣＳＶ）にまとめ、統計処理に適したソフトウェアにロードした。

スキャンモードで得られたガスクロマトグラムを、ガスクロマトグラムトレースのバックグラウンドノイズの１０倍より大きい面積をもつすべてのピークを同定するようにインテグレーションした。各ピークを信号ｍ／ｚの数量化および少なくとも２つの信号ｍ／ｚの定性に基づいて同定した。インテグレーションの後、正規化面積パーセント法による定量を実施し、リビトールピークを定量分析および保持時間センタリングの両方のための基準として用いた。

この数量化（正規化面積パーセント）から得られた結果を行列に変換し、その際、各試料が行を表わし、列はガスクロマトグラフィー保持時間により一義的に同定された種々の代謝産物により表わされた。行列の第１列を用いて試料の適切なクラスを規定する。最も簡単な例では、２つのクラス“健常患者”および“子宮内膜癌に罹患している患者”のみを想定することができ、以後、本発明の作業のエビデンスをこの二分類に基づいてレポートする。新生物の組織タイプおよびグレーディングを予測するために試験した種々の分類モデルの可能性についてもさらなるエビデンスが得られた。

統計解析
正規化および補正したクロマトグラム（リビトールのピーク面積を基準にしたもの）について、ＳＩＭＰＣＡ−Ｐ１３．０（Ｕｍｅｔｒｉｃｓ）、ＲａｐｉｄＭｉｎｅｒ５．３（Ｒａｐｉｄ−Ｉ）およびＲ（ＦｏｕｎｄａｔｉｏｎｆｏｒＳｔａｔｉｓｔｉａｌＣｏｍｐｕｔｉｎｇ，Ｖｉｅｎｎａ）を用いてデータ（ＰＬＳ−ＤＡおよびＯＰＬＳ−ＤＡ）および自動化学習（ＳＶＭおよび決定木）の多変量統計解析を実施した。

数値を平均上にセンタリングし、分散を正規化した。
結果
代謝プロファイルについて、モデルＯＰＬＳ−ＤＡは予測成分および３つの直交成分を用いて満足すべきモデリング能および予測性を示した（Ｒ^２Ｙ_ｃｕｍ＝０．９９５，Ｑ^２ _ｃｕｍ＝０．９８５）。他の分類モデルは良好な（ＯＰＬＳ−ＤＡより低いけれども）分類能を示した。未知試料の適切なクラスの最終割り当てのために種々の方法が可能である。単一モデルの回答を使用でき、あるいは種々のモデルの回答をより複雑な決定アルゴリズムでインテグレーションすることができる。

表３は調査したモデルを評価するために用いた診断性能の査定の幾つかの指標をレポートする。感度はＴＰ／（ＴＰ＋ＦＮ）として計算され、その際、ＴＰは真の陽性、すなわち提唱したモデルによって子宮内膜癌に罹患していると正しく診断された試料の数を表わし、ＦＮは偽陰性、すなわち誤って陰性と同定された試料の数である。特異度はＴＮ／（ＴＮ＋ＦＰ）として計算され、その際、ＴＮは真の陰性、すなわち健常であると正しく診断された試料の数を表わし、ＦＰは偽陽性、すなわち誤って健常と診断された者の数を表わす。陽性尤度比(ratio of positive likelihood)（ＰＬＲ）は感度／（１−特異度）として計算され、一方、陰性尤度比（ＮＬＲ）は（１−感度）／特異度として計算された。予測値（的中率）(predictive value)（ＮＰＶ）はＴＮ／（ＴＮ＋ＦＮ）として計算され、一方、陽性予測値（ＶＰＰ）はＴＰ／（ＴＰ＋ＦＰ）として計算された。正確度はすべての正しい割り当てのパーセントを表わし、（ＴＰ＋ＴＮ）／（ＴＰ＋ＦＰ＋ＴＮ＋ＦＮ）として計算され、一方、繰り返し精度（併行精度）(repeatability)はある試料の１０回反復分析における正しい再割り当ての数として計算された。

クラスの分離にはるかに大きく関与した代謝産物を同定するために、各成分についてimportant variables in the projection（射影における変数重要度）（ＶＩＰ）のスコアを計算した。ＶＩＰスコアは、いずれかの次元のｙ−分散の量を考慮したｐｌｓの負荷の重み付き平方和(weighted sum of the squares of loading)を表わす。２つのピークは、モデルＰＬＳ−ＤＡおよびＯＰＬＳ−ＤＡの両方（子宮内膜癌−対−対照の分類、およびタイプＩ対タイプＩＩの分類の両方）において２より大きいＶＩＰスコアを示す。これらは決定木においても重要な節と同定され、これらの所見は分類プロセスにおけるこれらの変数の重要性が大きいことを示唆する（データをリポートしていない）。第１代謝産物（ＶＩＰスコア＝２，３；スペクトル計測類似率＝９１％；δＬＲＩ＝１１）はグルタミンアミノ酸に起因する信号であるという結果になり、一方、第２代謝産物（ＶＩＰスコア＝２，１；スペクトル計測類似率＝８９％ δＬＲＩ＝１６）はグルコノ δ−ラクトンに起因する信号であるという結果になった。

Claims

血液のメタボローム解析に基づく方法であって、下記のフェーズを含む方法：
（Ｉ）下記を含むトレーニングフェーズ：
−子宮内膜癌を伴う患者および健常対照に由来する血液試料のＧＣＭＳまたはＧＣ×ＧＣＭＳ分析；
−少なくとも分類モデルをトレーニングするための、少なくとも判別分析モデルまたは機械学習モデルを用いる多変量解析による、得られた結果のインテグレーション；
（ＩＩ）未知血液試料のＧＣＭＳまたはＧＣ×ＧＣＭＳ分析、およびトレーニングフェーズ（Ｉ）で形成した分類モデルに基づく適切なクラスへのそれの割り当てを含む、割り当てフェーズ。
−ＰＬＳ−ＤＡおよびＯＰＬＳ−ＤＡからなる群から少なくとも判別分析モデルを選択する、または
−ＳＶＭおよび決定木からなる群から機械学習モデルを選択する、
請求項１に記載の方法。
トレーニングフェーズ（Ｉ）が下記のサブフェーズを含む、請求項１または２に記載の方法：
−癌を伴う患者および健常対照に由来する血液試料からの代謝産物の抽出および誘導体化；
−各試料についてクロマトグラムを得るための、抽出および誘導体化した代謝産物のＧＣＭＳまたはＧＣ×ＧＣＭＳ分析；
−子宮内膜癌を伴う患者および健常対照の代謝プロファイルのデータ行列作成；
−データアレイ多変量解析の結果としての少なくとも分類モデルの構造化；その際、少なくとも判別分析モデルまたは機械学習モデルを用いてその多変量解析を実施して、少なくとも分類モデルをトレーニングする。
フェーズ（ＩＩ）がさらに下記のサブフェーズを含む、請求項１から３のうちいずれかに記載の方法：
−少なくとも未知血液試料からの代謝産物の抽出および誘導体化；
−未知血液試料について少なくともクロマトグラムを得るための、抽出および誘導体化した代謝産物のＧＣＭＳまたはＧＣ×ＧＣＭＳ分析；
−未知血液試料のクロマトグラムからの代謝プロファイル作成；
−フェーズ（Ｉ）でトレーニングした分類モデルに基づくクラスへのその代謝プロファイルの割り当て。
子宮内膜癌を伴う患者および健常対照に由来する血液試料の数が、同定した代謝プロファイルの変数の数の少なくとも８０％に等しい、請求項１から４のうちいずれかに記載の方法。
分類モデルを二分類“健常者”または“子宮内膜癌に罹患している患者”についてトレーニングする、請求項１から５のうちいずれかに記載の方法。
分類モデルをさらに“タイプＩ”または“タイプＩＩ”癌の組織学的分類についてトレーニングする、請求項１から６のうちいずれかに記載の方法。
抽出および誘導体化が下記を含む、請求項３に記載の方法：
ｉ）抽出混合物の添加から得られた試料の撹拌；
ｉｉ）ｉ）で得られた試料の遠心分離；
ｉｉｉ）ピリジン中の塩酸メトキシアミンで処理することによる、ｉｉ）で得られた上清の誘導体化；
ｉｖ）下記のものからなる群から選択されるシラン処理剤による、ｉｉｉ）で得られた試料の上清シラン処理：Ｎ，Ｏ−ビス（トリメチルシリル）トリフルオロアセトアミド（ＢＳＴＦＡ）、Ｎ−メチル−Ｎ−（トリメチルシリル）トリフルオロアセトアミド（ＭＳＴＦＡ）、ヘキサメチルジシラザン（ＨＭＤＳ）、１−（トリメチルシリル）イミダゾール（ＴＭＳＩ）、Ｎ−ｔｅｒｔ−ブチルジメチルシリル−Ｎ−メチルトリフルオロアセトアミド（ＭＴＢＳＴＦＡ）、１−（ｔｅｒｔ−ブチルジメチルシリル）イミダゾール（ＴＢＤＭＳＩＭ）；
その際、抽出混合物はアルコール類および非プロトン極性溶媒の水性混合物からなる。
代謝産物の抽出を、アリコートの基準化合物の添加により実施する、請求項３に記載の方法。
前記基準化合物はリビトールである、請求項９に記載の方法。
さらに下記のフェーズを含む、請求項１から１０のうちいずれかに記載の方法：
−請求項１から１０のうちいずれかに記載の方法により得られたクロマトグラムのインテグレーション；その際、そのインテグレーションによりクロマトグラムトレースのバックグラウンドノイズの１０倍より大きい面積を有するすべてのピークが同定される；定量分析および保持時間センタリングの両方のために基準化合物のピークを使用；
その際、各ピークを下記に基づいて同定する：
−１つの信号ｍ／ｚの数量化；
−少なくとも２つの信号ｍ／ｚの定性；
−正規化面積パーセント法による定量；
−定量から得られたデータの、行列への変換；その際、各試料が行を表わし、列はクロマトグラフィー保持時間により一義的に同定された種々の代謝産物により表わされる。