JP2020064078A - Methods of identification and diagnosis of lung diseases using classification systems and kits thereof - Google Patents

Methods of identification and diagnosis of lung diseases using classification systems and kits thereof Download PDF

Info

Publication number
JP2020064078A
JP2020064078A JP2020002155A JP2020002155A JP2020064078A JP 2020064078 A JP2020064078 A JP 2020064078A JP 2020002155 A JP2020002155 A JP 2020002155A JP 2020002155 A JP2020002155 A JP 2020002155A JP 2020064078 A JP2020064078 A JP 2020064078A
Authority
JP
Japan
Prior art keywords
biomarkers
biomarker
data
classification
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2020002155A
Other languages
Japanese (ja)
Inventor
ストリーパー ロバート・ティー
T Streeper Robert
ストリーパー ロバート・ティー
イズビッカ エルジュビェタ
Izbicka Elzbieta
イズビッカ エルジュビェタ
マイカレック ジョエル
Michalek Joel
マイカレック ジョエル
ラウデン クリス
Louden Chris
ラウデン クリス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cancer Prevention and Cure Ltd
Original Assignee
Cancer Prevention and Cure Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cancer Prevention and Cure Ltd filed Critical Cancer Prevention and Cure Ltd
Publication of JP2020064078A publication Critical patent/JP2020064078A/en
Priority to JP2022114753A priority Critical patent/JP2022136138A/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57423Specifically defined cancers of lung
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/60Complex ways of combining multiple protein biomarkers for diagnosis

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Immunology (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Hematology (AREA)
  • Molecular Biology (AREA)
  • Urology & Nephrology (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

To provide methods of identification and diagnosis of lung diseases using classification systems and kits thereof.SOLUTION: The invention provides biomarkers and combinations of biomarkers useful in diagnosing lung diseases such as non-small cell lung cancers or reactive airway diseases. Measurements of these biomarkers are input into a classification system such as a support vector machine or AdaBoost to assist in determining the likelihood that an individual has a lung disease. Kits comprising agents for detecting the biomarkers and combinations of biomarkers, as well as systems that assist in diagnosing lung diseases are also provided.SELECTED DRAWING: Figure 1A

Description

発明の背景
(a) 技術分野
〔001〕 本発明は、バイオマーカーおよびそれらのキット、ならびにそれらのバイオマーカーに基づいて、疾患の有無の見込みの決定を補助するシステムを使用した、肺疾患の検出、同定、および診断に関する。より具体的には、本発明は、特定のバイオマーカーの発現レベルを測定し、これらの測定値を、サポートベクトルマシンなどの分類システムに入力することによる、非小細胞肺癌および反応性気道疾患の診断に関する。
BACKGROUND OF THE INVENTION
(a) TECHNICAL FIELD [001] The present invention relates to the detection, identification, and identification of lung diseases using biomarkers and their kits, and a system that assists in determining the likelihood of the presence or absence of disease based on these biomarkers. And regarding diagnostics. More specifically, the present invention measures non-small cell lung cancer and reactive airway disease by measuring expression levels of specific biomarkers and inputting these measurements into a classification system such as a support vector machine. Regarding diagnosis.

(b)関連する文献の記載
ヒト肺組織の病理
〔002〕 何百万人もの米国人が、喘息や肺癌などの呼吸器系の症状に罹患している。実際のところ、米国肺協会(登録商標)は、2000万人もの米国人が喘息にかかっていると報告している。米国がん協会は、2007年の1年間だけでも、呼吸器系の癌の新規発症例が229,400件で、呼吸器系の癌による死亡例が164,840件だったと推定した。まだ癌が限局性である時に癌が検出されていれば、全癌例の5年生存率は46%であるが、肺癌患者の5年生存率は僅か13%である。それに対応して、肺癌は16%しか疾患が広がる前には発見されない。肺癌は癌細胞の病理に基づいて、通常、主に2種類に分類されている。それぞれの種類には、癌性に転換した細胞型に応じた名前が付けられている。小細胞肺癌はヒト胚組織の小細胞に由来し、非小細胞肺癌は通常、小細胞型でない肺癌全てを含む。一般的に、全ての非小細胞型に対する治療が同じであることから、非小細胞肺癌とまとめられている。また、非小細胞肺癌、すなわちNSCLCは肺癌全体の約75%を占めている。
(b) Description of Related Literature Human Lung Tissue Pathology [002] Millions of Americans suffer from respiratory symptoms such as asthma and lung cancer. In fact, the American Lung Association® reports that as many as 20 million Americans have asthma. The American Cancer Society estimated that in 2007 alone, there were 229,400 new cases of respiratory cancer and 164,840 deaths from respiratory cancer. If cancer is still detected when it is localized, all cancer cases have a 5-year survival rate of 46%, whereas lung cancer patients have a 5-year survival rate of only 13%. Correspondingly, lung cancer is not detected before the disease has spread to only 16%. Lung cancer is usually mainly classified into two types based on the pathology of cancer cells. Each type is named according to the cell type transformed to cancer. Small cell lung cancer is derived from small cells of human embryonic tissue, and non-small cell lung cancer usually includes all non-small cell lung cancers. Generally, it is grouped with non-small cell lung cancer because the treatment for all non-small cell types is the same. Non-small cell lung cancer, or NSCLC, accounts for about 75% of all lung cancers.

〔003〕 肺癌患者の生存率が低いことは主に、肺癌を早期に診断することが難しいという事実による。肺癌を診断する、つまりあるヒトに肺癌が存在するかを同定するための現行の方法は、X線撮影法、コンピューター断層(CT)撮影法、および腫瘍の有無を物理的に確認するための同様の肺試験に限られている。そのため、肺癌の診断は、症状への反応だけによって行われることが多く、これは、疾患がヒトに存在してから十分な時間存在していたこと、および物理的に検出可能な量を生成するのに十分な時間が経過したことの証拠である。   [003] The low survival rate of lung cancer patients is mainly due to the fact that early diagnosis of lung cancer is difficult. Current methods for diagnosing lung cancer, that is, for identifying the presence of lung cancer in a human, include radiography, computed tomography (CT), and similar methods for physically confirming the presence or absence of a tumor. Limited to lung tests. Therefore, the diagnosis of lung cancer is often made solely by reaction to symptoms, which produces the disease for a sufficient period of time in humans, and produces a physically detectable amount. Is evidence that enough time has passed.

〔004〕 同様に、喘息を検出するための現行の方法も、通常、再発性の喘鳴、咳、および胸苦しさなどの症状が顕在化してしばらく経ってから行われる。現在行われている喘息の検出方法は、一般的に、肺活量測定または負荷試験などの肺機能試験に限られている。さらにこれらの試験は、他の病理つまり反応性気道疾患、例えば慢性閉塞性肺疾患(COPD)、気管支炎、肺炎、およびうっ血性心不全を除くために、他の多くの試験と一緒に行われるよう、医師によって指示されることが多い。   [004] Similarly, current methods for detecting asthma are usually performed some time after symptoms such as recurrent wheezing, coughing, and chest tightness become apparent. Current methods for detecting asthma are generally limited to pulmonary function tests such as spirometry or stress tests. In addition, these tests are likely to be conducted in conjunction with many other tests to rule out other pathologies or reactive airway diseases such as chronic obstructive pulmonary disease (COPD), bronchitis, pneumonia, and congestive heart failure. , Often instructed by a doctor.

分類システム
〔005〕 パターンを認識し、関係のないデータにすぎない他の情報をも含む大量のデータベースから重要な情報を抽出することを可能にするために、機械学習法のような、データ解析およびデータマイニングのための様々な分類システムが広く探索されている。学習機械は、汎化するために既知の分類を使用して学習させることが可能なアルゴリズムを含むものである。その後、訓練した学習機械アルゴリズムを結果が分かっていない事例に応用して、結果を予測することが、すなわち、学習したパターンに応じてデータを分類することができる。ニューラルネットワーク、隠れマルコフモデル、信念ネットワークおよびカーネル法に基づく分類器、例えばサポートベクトルマシンを含む機械学習法は、データが大量であること、パターンにノイズが多いことおよび一般理論がないことを特徴とする問題に有用である。
Classification system [005] Data analysis, such as machine learning methods, to recognize patterns and to extract important information from large databases containing other information that is nothing but irrelevant data. And various classification systems for data mining are widely explored. The learning machine is one that includes algorithms that can be trained using known classifications for generalization. The trained learning machine algorithm can then be applied to cases where the result is unknown, to predict the result, ie classify the data according to the learned pattern. Machine learning methods including neural networks, hidden Markov models, belief networks and classifiers based on kernel methods, such as support vector machines, are characterized by large amounts of data, noisy patterns and lack of general theory. It is useful for problems.

〔006〕 問題のパターン分類、回帰およびクラスタリングの成功例の多くは、パターンのペアの類似性を決定するためのカーネルに基づいている。これらのカーネルは通常、実数のベクトルとして表すことが可能なパターン用に定義される。例えば、線形カーネル、ラジアル基(radial basis)カーネルおよび多項カーネルは全て、実際のベクトルのペアの類似性を測定するものである。このようなカーネルは、データが実数の列として、この方法において最もよく表される場合に適している。カーネルの選択は、特徴空間におけるデータ表現の選択と対応している。使用法の多くで、パターンは様々な階層を有している。これらの階層を利用して、学習アルゴリズムの性能を改善することができる。機械学習法で一般的に生じる階層データの種類の例としては、文字列、文書、木、グラフ、例えばウェブサイトまたは化学分子、シグナル、例えばマイクロアレイ発現プロファイル、スペクトル、画像、時空的データ、関係型データおよび生化学的濃度などがある。   [006] Many successful pattern classification, regression, and clustering problems are based on a kernel to determine the similarity of pattern pairs. These kernels are usually defined for patterns that can be represented as real vectors. For example, linear kernels, radial basis kernels and polynomial kernels all measure the similarity of pairs of real vectors. Such a kernel is suitable where the data is best represented in this way as a sequence of real numbers. The choice of kernel corresponds to the choice of data representation in the feature space. In many uses, patterns have different hierarchies. These layers can be used to improve the performance of the learning algorithm. Examples of types of hierarchical data that commonly occur in machine learning methods are strings, documents, trees, graphs such as websites or chemical molecules, signals such as microarray expression profiles, spectra, images, spatiotemporal data, relational types. Data and biochemical concentrations are included.

〔007〕 分類システムは医薬分野で使用されてきた。例えば、病状の発生を診断および予測する方法が、様々なコンピューターシステムや分類システム、例えばサポートベクトルマシンを利用して提唱されてきた。例えば、米国特許第7,321,881号;同第7,467,119号;同第7,505,948号;同第7,617,163号;同第7,676,442号;同第7,702,598号;同第7,707,134号;および同第7,747,547号を参照のこと。これらはここで参照することによりその全体が本明細書に組み込まれる。しかしながらこれらの方法の精度は、ヒトの胚組織での病理、例えば非小細胞肺癌および/または反応性気道疾患の診断および/または予測では、高いレベルではない。   [007] Classification systems have been used in the pharmaceutical field. For example, methods of diagnosing and predicting the occurrence of medical conditions have been proposed utilizing various computer and classification systems, such as support vector machines. For example, US Pat. Nos. 7,321,881; 7,467,119; 7,505,948; 7,617,163; 7,676,442; 7,702,598; 7,707,134; and 7,747,547. These are incorporated herein by reference in their entirety. However, the accuracy of these methods is not high in the diagnosis and / or prediction of pathologies in human embryonic tissues, such as non-small cell lung cancer and / or reactive airway disease.

〔008〕 このように当該分野では、ヒトの胚組織の病理を、特に発症の初期段階で診断するための単純で信頼のおける方法がない。さらに、特定の肺組織の病理の有無を示すことができる血液検査も今のところない。そのため、疾患の進行の初期に肺癌の存在を確認するための方法の開発が望まれている。同様に、臨床上明らかな症状が現れるよりも前に、喘息および非小細胞肺癌を診断するための方法、ならびに喘息や非小細胞肺癌と他の肺疾患、例えば感染を区別するための方法の開発も望まれている。   [008] Thus, there is no simple and reliable method in the art for diagnosing human embryonic tissue pathology, especially in the early stages of development. Moreover, there are currently no blood tests that can indicate the presence or absence of pathology in specific lung tissues. Therefore, it is desired to develop a method for confirming the presence of lung cancer in the early stage of disease progression. Similarly, methods for diagnosing asthma and non-small cell lung cancer, and methods for distinguishing asthma and non-small cell lung cancer from other lung diseases, such as infections, prior to the appearance of clinically apparent symptoms. Development is also desired.

発明の好ましい態様の概要
〔009〕 本発明は、様々な分類システム、例えばサポートベクトルマシンを利用して、対象における特定のバイオマーカーを評価するための強固な方法を提供することで、これらの需要に対処する。
SUMMARY OF THE PREFERRED EMBODIMENTS OF THE INVENTION [009] The present invention provides a robust method for assessing a particular biomarker in a subject utilizing various classification systems, such as support vector machines, to meet these needs. Deal with.

〔010〕 本発明は、対象を生理学的に特徴付ける方法を提供し、この方法は、最初に対象の生理学的試料を収集する工程;次いでその試料での複数のバイオマーカーのバイオマーカー測定値を決定する工程;および最後に、分類システムを利用し、バイオマーカー測定値に基づいて、試料を分類する工程を含み、ここでこの試料の分類は、この対象の生理的な状況もしくは状態、または疾患状況の変化と関係がある。通常、この分類システムは機械学習システムであり、好ましくはカーネルまたは分類および分類システムに基づく回帰木であり、より好ましくはサポートベクトルマシン(SVM)またはアダブーストである。   [010] The invention provides a method of physiologically characterizing a subject, the method comprising first collecting a physiological sample of the subject; then determining biomarker measurements of multiple biomarkers in the sample. And, finally, classifying the sample based on the biomarker measurements using a classification system, wherein the classification of the sample comprises the physiological condition or condition of the subject, or the disease condition. Is related to changes in. Typically, this classification system is a machine learning system, preferably a regression tree based on a kernel or classification and classification system, more preferably a support vector machine (SVM) or AdaBoost.

〔011〕 一態様では、この生理学的に特徴付ける方法は、対象における非小細胞肺癌の有無を示す診断、または非小細胞肺癌の発生段階を示す診断を提供する。別の態様では、この生理学的に特徴付ける方法は、対象における反応性気道疾患、例えば喘息または閉塞性肺疾患を示す診断を提供する。さらに別の態様では、この生理学的に特徴付ける方法は、対象における肺疾患を示す診断を提供し、ここで複数のバイオマーカーには、前記試料中の反応性気道疾患と非小細胞肺癌を示すもの、反応性気道疾患を示すものとなる複数のバイオマーカー、および非小細胞肺癌を示すものとなる複数のバイオマーカーの区別を補助するマーカーが含まれ、この複数バイオマーカーは同一のものではなく、かつ、試料は、試料を3通りに分類するシステム、すなわち、対象の(i)反応性気道疾患と非小細胞肺癌を示すもの;(ii)反応性気道疾患の有無を示すもの;および(iii)非小細胞肺癌の有無を示すものの区別を補助するシステムを使用して、バイオマーカー測定値に基づいて分類され、その結果、対象は、どの条件が3つの分類中の2つに見られるかに応じて、(1)反応性気道疾患であるか、(2)非小細胞肺癌であるか、または(3)疾患に罹患していないと決定される。   [011] In one aspect, this physiologically characterization method provides a diagnosis indicating the presence or absence of non-small cell lung cancer in a subject, or a diagnosis indicating the stage of development of non-small cell lung cancer. In another aspect, this physiologically characterization method provides a diagnosis indicative of reactive airway disease in a subject, eg, asthma or obstructive pulmonary disease. In yet another aspect, the method of physiologically characterizing provides a diagnosis of lung disease in a subject, wherein the plurality of biomarkers is indicative of reactive airway disease and non-small cell lung cancer in the sample. , Biomarkers that are indicative of reactive airway disease, and markers that help distinguish between biomarkers that are indicative of non-small cell lung cancer, the multiple biomarkers are not the same, And the sample is a system for classifying the sample into three types, that is, (i) a subject showing reactive airway disease and non-small cell lung cancer; (ii) one showing the presence or absence of reactive airway disease; and (iii) ) Classification is based on biomarker measurements, using a system that helps distinguish between those with and without non-small cell lung cancer, so that the subject is in one of three conditions Depending on whether found in two, (1) or a reactive airway disease, is determined not to be suffering from (2) or non-small cell lung cancer or (3) disease.

〔012〕 本発明はまた、バイオマーカーのセットそれぞれの複数のバイオマーカー測定値を含む試験データを分類する方法を提供し、この方法は、哺乳類の試験対象におけるバイオマーカーのセットに関する複数のバイオマーカー測定値を含む試験データを受信する工程;次いで、電子的に記憶させた学習データベクトルのセットで訓練したサポートベクトルマシンの電子表示を使って試験データを評価する工程、ここで各学習データベクトルは個々の哺乳動物を表し、かつ、対応する哺乳動物に関するバイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、さらに各学習データベクトルは対応する哺乳動物の病状に関する分類を含み、最後に、評価する工程に基づいて、哺乳類の試験対象の分類を出力する工程、を含む。好ましくは、哺乳類の試験対象はヒトである。別の形態では、評価する工程は、電子的に記憶されている学習データベクトルのセットにアクセスすることを含む。   [012] The invention also provides a method of classifying test data comprising a plurality of biomarker measurements for each set of biomarkers, the method comprising: a plurality of biomarkers for a set of biomarkers in a mammalian test subject. Receiving test data containing measurements; then evaluating the test data using an electronic display of a support vector machine trained on a set of electronically stored learning data vectors, where each learning data vector is Representing an individual mammal, and including the biomarker measurements of each biomarker of the set of biomarkers for the corresponding mammal, each learning data vector further includes a classification of the corresponding mammal's medical condition, and finally, Outputting a classification of mammalian test objects based on the step of evaluating, Including. Preferably, the mammalian test subject is a human. In another form, the step of evaluating includes accessing an electronically stored set of training data vectors.

〔013〕 別の形態において本発明は、バイオマーカーのセットそれぞれの複数のバイオマーカー測定値を含む試験データを分類するために、サポートベクトルマシンを訓練してモデルを生成する方法を提供し、この方法は、電子的に記憶されている学習データベクトルのセットにアクセスする工程、ここで各学習データベクトルは個々のヒトを表し、かつ、対応するヒトに関するバイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに対応するヒトの病状に関する分類を含み、および、電子的に記憶されている学習データベクトルのセットを使用して、サポートベクトルマシンの電子表示を訓練する工程、を含む。続いて、本発明は、ヒト試験対象におけるバイオマーカーのセットに関する複数のバイオマーカー測定値を含む試験データを受信する工程、および訓練したサポートベクトルマシンの電子表示(すなわち、訓練したサポートベクトルマシンによって生成されたモデル)を利用して試験データを評価する工程;および、最後に、評価する工程に基づいたヒト試験対象の分類を出力する工程、を提供する。   [013] In another aspect, the invention provides a method of training a support vector machine to generate a model for classifying test data comprising multiple biomarker measurements for each set of biomarkers, comprising: The method comprises the steps of accessing a set of electronically stored training data vectors, where each training data vector represents an individual human and a biomarker for each biomarker of the set of biomarkers for the corresponding human. Training the electronic representation of the support vector machine, including measurements, each training data vector further including a classification for the corresponding human medical condition, and using a set of electronically stored training data vectors. ,including. Subsequently, the present invention comprises the steps of receiving test data including a plurality of biomarker measurements for a set of biomarkers in a human test subject, and an electronic representation of the trained support vector machine (ie, generated by the trained support vector machine). Model) to evaluate test data; and, finally, outputting a classification of human test subjects based on the evaluating step.

〔014〕 さらに別の態様では、本発明は、バイオマーカーのセットそれぞれの複数のバイオマーカー測定値を含む試験データを分類する方法を提供する。この方法は、ヒト試験対象に関する試験データを受信する工程を含み、ここで試験データは、バイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含んでいる。この方法はまた、電子的に記憶されている、学習データベクトルの第一のセットを使用して訓練したサポートベクトルマシンの電子表示を使用して試験データを評価する工程を含み、ここで各学習データベクトルの第一のセットの学習データベクトルは個々のヒトを表し、かつ、対応するヒトに関するバイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含んでいる。学習データベクトルの第一のセットの各学習データベクトルはまた、対応するヒトの病状に関する分類を含む。この方法はさらに、評価する工程に基づいたヒト試験対象の分類を出力する工程を含む。この態様では、バイオマーカーのセットに含まれているそれぞれのバイオマーカーは、(A)順序付けられたバイオマーカーの初期セグメントは、第二セットの学習データベクトルの補正済み分類のパーセンテージに関しては、順序付けられたバイオマーカーの他の初期セグメントの中の極大であり、およびここで第二セットの学習データベクトルの各学習データベクトルは個々のヒトを表し、かつ、対応するヒトのバイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含み、第二セットの学習データベクトルの各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでいる、それぞれのバイオマーカーに関する2群の濃度測定値のマージン分布の中心傾向の関数によって最大から最小に順序付けられたバイオマーカーの該初期セグメントの中にあるか、または(B)(A)で同定したバイオマーカーの該初期セグメント中に含まれているバイオマーカーに関する一次相互作用器であるかのいずれかである。   [014] In yet another aspect, the invention provides a method of classifying test data that includes a plurality of biomarker measurements for each set of biomarkers. The method includes receiving test data for a human test subject, where the test data includes biomarker measurements for at least each biomarker of the set of biomarkers. The method also includes the step of evaluating the test data using an electronic representation of a support vector machine trained using the first set of training data vectors stored electronically, where each training The first set of training data vectors of data vectors represents individual humans and contains biomarker measurements for at least each biomarker of the biomarker set for the corresponding human. Each training data vector of the first set of training data vectors also includes a classification for the corresponding human medical condition. The method further includes outputting the classification of the human test subject based on the evaluating step. In this aspect, each biomarker included in the set of biomarkers is (A) an initial segment of the ordered biomarker is ordered with respect to the corrected classification percentage of the second set of training data vectors. Of the biomarkers among other initial segments, and where each training data vector of the second set of training data vectors represents an individual human and is at least each of the corresponding set of human biomarkers. A margin of two groups of concentration measurements for each biomarker, including biomarker measurements for the biomarkers, each learning data vector of the second set of learning data vectors further including a classification for the corresponding human medical condition. Ordered from largest to smallest by function of central tendency of distribution Is a primary interactor with respect to the biomarker contained in the initial segment of the biomarker identified in (B) (A). is there.

〔015〕 通常、本発明の方法は、病状の有無、ここで病状は好ましくは肺疾患であり、より好ましくは非小細胞肺癌または反応性気道疾患、例えば喘息のいずれかである、に関して試験対象を分類する。バイオマーカー測定値は、実施例で記載のバイオマーカーから選択された、少なくとも1つのタンパク質の血漿濃度測定値を含んでいてもよい。好ましくは、バイオマーカー測定値は、少なくとも4種類の別個のバイオマーカーの血漿濃度を含むか、あるいはバイオマーカー測定値は、少なくとも6種類の別個のバイオマーカー、またはさらに少なくとも10種類の別個のバイオマーカー、または少なくとも18種類の別個のバイオマーカーの血漿濃度を含み得る。学習ベクトルのセットは、少なくとも30のベクトル、50のベクトル、またはさらに100のベクトルを含み得る。一形態では、分類器は、線形カーネル、ラジアル基底カーネル、多項カーネル、統一(uniform)カーネル、三角カーネル、Epanechnikovカーネル、四次多項(quartic)(二乗重み)カーネル、三次三乗(tricube)(三乗重み)カーネル、およびコサインカーネルから選択される1つまたは複数のカーネル関数を含むサポートベクトルマシンである。別の形態では、分類器は、アダブーストを使用して、例えば、ID3またはC4.5に基づく最初の分類器から発展させる。   [015] Generally, the method of the invention is tested for the presence or absence of a medical condition, wherein the medical condition is preferably lung disease, more preferably non-small cell lung cancer or reactive airway disease, such as asthma. Classify. Biomarker measurements may include plasma concentration measurements of at least one protein selected from the biomarkers described in the examples. Preferably, the biomarker measurement comprises plasma concentrations of at least four distinct biomarkers, or the biomarker measurement is at least six distinct biomarkers, or even at least ten distinct biomarkers. , Or plasma concentrations of at least 18 distinct biomarkers. The set of learning vectors may include at least 30 vectors, 50 vectors, or even 100 vectors. In one form, the classifier is a linear kernel, a radial basis kernel, a polynomial kernel, a uniform kernel, a triangular kernel, an Epanechnikov kernel, a quartic polynomial (square weight) kernel, a cubic cube (tricube). A support vector machine that includes one or more kernel functions selected from a (multiply weight) kernel and a cosine kernel. In another form, the classifier uses AdaBoost to evolve from the original classifier based on, for example, ID3 or C4.5.

〔016〕 本発明はまた、バイオマーカーのセットそれぞれの、複数のバイオマーカー測定値を含む試験データを分類するためのシステムを提供する。ここでこのシステムはコンピューターを含み、コンピューターは電子的に記憶されている学習データベクトルのセットを使って訓練することが可能なサポートベクトルマシンの電子表示を含んでおり、各学習データベクトルは個々のヒトを表し、かつ、対応するヒトに関するバイオマーカーのセットの、各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでおり、電子的に記憶されている学習データベクトルのセットはコンピューターに操作可能に接続されている。コンピューターはまた、ヒト試験対象におけるバイオマーカーのセットに関する複数のバイオマーカー測定値を含む試験データを受け取るように構成されており、コンピューターはさらに、訓練後のサポートベクトルマシンの電子表示を使って試験データを評価するように、かつ、この評価に基づいたヒト試験対象の分類を出力するように構成されている。   [016] The invention also provides a system for classifying test data that includes a plurality of biomarker measurements for each set of biomarkers. Here, the system includes a computer, which includes an electronic representation of a support vector machine that can be trained using a set of electronically stored learning data vectors, each learning data vector being an individual Representing a human and including biomarker measurements for each biomarker of a set of biomarkers for the corresponding human, each training data vector further including a classification for the corresponding human medical condition and stored electronically. The set of training data vectors being operably connected to a computer. The computer is also configured to receive test data including multiple biomarker measurements for a set of biomarkers in a human test subject, the computer further using an electronic display of the support vector machine after training to test data. And to output the classification of the human test object based on this evaluation.

〔017〕 別の態様において本発明は、バイオマーカーのセットそれぞれの、バイオマーカー測定値を含む試験データを分類するシステムを提供する。ここでこのシステムはコンピューターを含み、コンピューターは順に、試験対象の病状に関して試験データを分類ために訓練したサポートベクトルマシンの電子表示を含み、訓練は電子的に記憶されている学習データベクトルのセットに基づくものであり、各学習データベクトルは個々のヒトを表し、かつ、対応するヒトに関するバイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでいる。コンピューターは、ヒト試験対象におけるバイオマーカーのセットに関する複数のバイオマーカー測定値を含む試験データを受け取るように構成されており、コンピューターはさらに、訓練したサポートベクトルマシンの電子表示を使って試験データを評価するように、かつ、この評価に基づいたヒト試験対象の分類を出力するように構成されている。   [017] In another aspect, the invention provides a system for classifying test data, including biomarker measurements, for each set of biomarkers. Here, the system includes a computer, which in turn includes an electronic representation of a support vector machine trained to classify the test data with respect to the medical condition being tested, the training being performed on a set of electronically stored learning data vectors. And each training data vector represents an individual human and includes a biomarker measurement of each biomarker of the set of biomarkers for the corresponding human, each training data vector further comprising a corresponding human pathology. Includes a classification for. The computer is configured to receive test data including multiple biomarker measurements for a set of biomarkers in a human test subject, the computer further evaluating the test data using an electronic display of a trained support vector machine. And outputting the classification of the human test subject based on this evaluation.

〔018〕 いずれの態様においても、本発明のこのシステムは、上述した方法のいずれを実施するのにも適している。特定の形態においては、システムのいずれの態様のコンピューターもさらに、(a)バイオマーカーの上位セットに含まれている各バイオマーカーに関して、それぞれのバイオマーカーに関する2群の濃度測定値のマージン分布間の距離を計算し、それによって複数の距離を生成し;(b)その距離に従って、バイオマーカーの上位セットに含まれているバイオマーカーを順序付け、それによって順序付けられたバイオマーカーのセットを生成し;(c)順序付けられたバイオマーカーのセットの、複数の初期セグメントのそれぞれに関して、学習データに基づいてモデルフィットの指標を計算し;(d)順序付けられたバイオマーカーのセットの好ましい初期セグメントが選択されるように、順序付けられたバイオマーカーのセットの初期セグメントを、モデルフィットの最大値型指標に従って選択し;(e)バイオマーカーの空集合から開始し、バイオマーカーの下位セットを生成するために、順序付けられたバイオマーカーのセットの、好ましい初期セグメントからさらなるバイオマーカーを再帰的に追加し、ここで各さらなるバイオマーカーは、(1)好ましい初期セグメントに含まれている残りのバイオマーカーの中でも、それを追加することで、モデルフィットが最大に改良される場合、および(2)それを追加することで、モデルフィットが少なくとも予め設定した閾値までは改良される場合に、既存のバイオマーカーの下位セットに追加され;および(f)それ以上バイオマーカーを追加しても、予め設定しておいた閾値より、そのモデルフィット指標を超えるモデルフィットの指標が得られない場合には、既存のバイオマーカーの下位セットへのバイオマーカーの追加を停止し、それにより、バイオマーカーの下位セットを選択する、ために構成されている論理を使用して、バイオマーカーの上位セットからバイオマーカーのセットを選択するために構成されていてもよい。   [018] In any aspect, the system of the present invention is suitable for performing any of the methods described above. In certain embodiments, the computer of any aspect of the system further comprises: (a) for each biomarker included in the superset of biomarkers, between the margin distributions of the two groups of densitometric measurements for each biomarker. (B) order the biomarkers contained in the superset of biomarkers according to the distances, thereby generating a plurality of distances; thereby generating an ordered set of biomarkers; ( c) calculating a model fit metric for each of the plurality of initial segments of the ordered set of biomarkers based on the training data; (d) selecting a preferred initial segment of the ordered set of biomarkers. As early as the set of ordered biomarkers Segments are selected according to the maximal type index of model fit; (e) starting from an empty set of biomarkers and from a preferred initial segment of the ordered set of biomarkers to generate a sub-set of biomarkers. Additional biomarkers are added recursively, where each additional biomarker maximizes the model fit by (1) adding it among the remaining biomarkers contained in the preferred initial segment. And (2) adding it improves the model fit, at least up to a preset threshold, by adding it to a sub-set of existing biomarkers; and (f) adding more biomarkers. Even if added, models that exceed the model fit index by the preset threshold value Use the logic configured to stop adding biomarkers to an existing subset of biomarkers and thereby select a subset of biomarkers if the Rufite indicator is not available And may be configured to select a set of biomarkers from a superset of biomarkers.

〔019〕 本明細書で提供する方法およびシステムは、一般的に90%を越える精度(例えば、感度および特異度)で、肺の病理(例えば、癌や喘息)を、診断および予測することができる。これらの結果は、非小細胞肺癌などの肺の病理を診断および予測するための、現在使用可能な方法に有意な進歩をもたらすものである。   [019] The methods and systems provided herein are capable of diagnosing and predicting lung pathologies (eg, cancer or asthma) with an accuracy (eg, sensitivity and specificity) of generally greater than 90%. it can. These results represent a significant advance in currently available methods for diagnosing and predicting lung pathologies such as non-small cell lung cancer.

実施例1の正常(NO)集団中のバイオマーカーの、蛍光強度レベルの平均、および標準偏差と相対的標準偏差を示している。1 shows the mean, standard deviation and relative standard deviation of fluorescence intensity levels of biomarkers in the normal (NO) population of Example 1. 実施例1の非小細胞肺癌(LC)集団中のバイオマーカーの、蛍光強度レベルの平均、および標準偏差と相対的標準偏差を示している。1 shows the mean, standard deviation and relative standard deviation of fluorescence intensity levels of biomarkers in the non-small cell lung cancer (LC) population of Example 1. 実施例1の喘息(AST)集団中のバイオマーカーの、蛍光強度レベルの平均、および標準偏差と相対的標準偏差を示している。1 shows the mean, standard deviation and relative standard deviation of fluorescence intensity levels of biomarkers in the asthma (AST) population of Example 1. 実施例1の、NO集団に対するAST集団中の、NO集団に対するLC集団中の、およびLC集団に対するAST集団中の、各バイオマーカーの蛍光強度の平均の変化(%)を示している。1 shows the change (%) of the average fluorescence intensity of each biomarker in the AST population for the NO population, the LC population for the NO population, and the AST population for the LC population in Example 1. 実施例1の正常(NO)女性集団中のバイオマーカーの、蛍光強度レベルの平均、および標準偏差と相対的標準偏差を示している。1 shows the mean and standard deviation and relative standard deviation of fluorescence intensity levels of biomarkers in the normal (NO) female population of Example 1. 実施例1の非小細胞肺癌(LC)女性集団中のバイオマーカーの、蛍光強度レベルの平均、および標準偏差と相対的標準偏差を示している。1 shows the mean, standard deviation and relative standard deviation of fluorescence intensity levels of biomarkers in the non-small cell lung cancer (LC) female population of Example 1. 実施例1の喘息(AST)女性集団中のバイオマーカーの、蛍光強度レベルの平均、および標準偏差と相対的標準偏差を示している。1 shows the mean, standard deviation and relative standard deviation of fluorescence intensity levels of biomarkers in the asthma (AST) female population of Example 1. 実施例1の、NO女性集団に対するAST集団中の、NO女性集団に対するLC集団中の、およびLC女性集団に対するAST集団中の、各バイオマーカーの蛍光強度の平均の変化(%)を示している。Figure 3 shows the mean change (%) in fluorescence intensity of each biomarker of the AST population for the NO female population, the LC population for the NO female population, and the AST population for the LC female population of Example 1; . 実施例1の正常(NO)男性集団中のバイオマーカーの、蛍光強度レベルの平均、および標準偏差と相対的標準偏差を示している。1 shows the mean, standard deviation and relative standard deviation of fluorescence intensity levels of biomarkers in the normal (NO) male population of Example 1. 実施例1の非小細胞肺癌(LC)男性集団中のバイオマーカーの、蛍光強度レベルの平均、および標準偏差と相対的標準偏差を示している。1 shows the mean, standard deviation and relative standard deviation of fluorescence intensity levels of biomarkers in the non-small cell lung cancer (LC) male population of Example 1. 実施例1の喘息(AST)男性集団中のバイオマーカーの、蛍光強度レベルの平均、および標準偏差と相対的標準偏差を示している。1 shows the mean and standard deviation and relative standard deviation of fluorescence intensity levels of biomarkers in the asthma (AST) male population of Example 1. 実施例1の、NO男性集団に対するAST集団中の、NO男性集団に対するLC集団中の、およびLC男性集団に対するAST集団中の、各バイオマーカーの蛍光強度の平均の変化(%)を示している。Figure 3 shows the mean change (%) in fluorescence intensity of each biomarker of the AST population for the NO male population, the LC population for the NO male population, and the AST population for the LC male population of Example 1; . 実施例1の、AST女性集団と比較したAST男性集団中の、LC女性集団と比較したLC男性集団中の、およびNO女性集団と比較したNO男性集団中の、各バイオマーカーの蛍光強度の平均の変化(%)を示している。Mean fluorescence intensity of each biomarker in Example 1, in the AST male population compared to the AST female population, in the LC male population compared to the LC female population, and in the NO male population compared to the NO female population. The change (%) is shown. 様々な分子とHGF(肝細胞増殖因子)との関係を示している。この図はARIADNE PATHWAY STUDIO(登録商標)で作成した。It shows the relationship between various molecules and HGF (hepatocyte growth factor). This figure was created with ARIADNE PATHWAY STUDIO (registered trademark). アダブーストのROC曲線を示している。The ROC curve of AdaBoost is shown. SVMのROC曲線を示している。The ROC curve of SVM is shown. 男性に限定したアダブーストのROC曲線を示している。Figure 6 shows the Adaboost ROC curve for men only. 女性に限定したアダブーストのROC曲線を示している。Figure 6 shows the Adaboost ROC curve for women only. アダブーストモデルに基づく選択した様々なプロットを示している。Figure 6 shows various selected plots based on the Adaboost model. 男性についてのアダブーストモデルに基づいた、選択した様々なプロットを示している。Figure 7 shows various selected plots based on the Adaboost model for men. 女性についてのアダブーストモデルに基づいた、選択した様々なプロットを示している。Figure 6 shows various selected plots based on the Adaboost model for women. アダブーストモデルの精度分布を示している。The accuracy distribution of the AdaBoost model is shown. アダブーストモデルの感度の分布を示している。The sensitivity distribution of the AdaBoost model is shown. アダブーストモデルの特異度の分布を示している。The specificity distribution of the AdaBoost model is shown.

〔044〕 本発明は、バイオマーカーを使用した、様々な肺疾患の検出、同定、および診断方法に関する。これらの方法は、特定のバイオマーカーのバイオマーカー測定値を決定する工程、および分類システム中のこれらバイオマーカー測定値を使用して、個人が非小細胞肺癌および/または反応性気道疾患(例えば、喘息、慢性閉塞性肺疾患など)を有する見込みを決定する工程を含む。本発明はまた、肺疾患の見込みの決定を補助するためのシステムの構成要素として、これらのバイオマーカーを検出するための検出剤を含むキット、またはこれらのバイオマーカーのバイオマーカー測定値を検出するための手段を提供する。   [044] The present invention relates to methods for detecting, identifying, and diagnosing various lung diseases using biomarkers. These methods employ the steps of determining biomarker measurements for a particular biomarker, and using these biomarker measurements in a classification system to allow an individual to have non-small cell lung cancer and / or reactive airway disease (eg, Asthma, chronic obstructive pulmonary disease, etc.). The present invention also detects kits containing detection agents for detecting these biomarkers, or biomarker measurements of these biomarkers, as a component of a system to aid in determining the likelihood of lung disease. Provide the means for

〔045〕 非小細胞肺癌または喘息であると診断された患者集団、ならびに非小細胞肺癌および/または喘息ではないことが、医師による確認によって診断された患者集団に由来する血漿中の、59種類の選択したバイオマーカーの発現レベルを測定することによって、代表的なバイオマーカーを同定した。この方法については実施例1で詳細に説明する。   [045] 59 types of plasma derived from a patient population diagnosed with non-small cell lung cancer or asthma, and a patient population diagnosed by a doctor's confirmation that they do not have non-small cell lung cancer and / or asthma Representative biomarkers were identified by measuring the expression levels of selected biomarkers of. This method will be described in detail in Example 1.

定義
〔046〕 本明細書で使用する場合、「バイオマーカー」または「マーカー」とは、その生体システムの生理学的な状態の特徴を示すものとして、客観的に測定することが可能な生物学的な分子である。本開示の目的では、生物学的な分子には、イオン、低分子、ペプチド、タンパク質、翻訳後修飾を受けたペプチドおよびタンパク質、ヌクレオシド、RNAやDNAを含むヌクレオチドおよびポリヌクレオチド、糖タンパク質、リポタンパク質、ならびにこれらを共有的におよび非共有的に修飾した様々な分子が含まれる。生物学的な分子には、生物学的なシステムの機能にとって天然の、生物学的なシステムの機能の特徴、および/または生物学的なシステムの機能にとって必須の、これらの実体のいずれもが含まれる。バイオマーカーの多くはポリペプチドであるが、バイオマーカーはポリペプチドとして発現される遺伝子産物の翻訳前の形態を表すmRNAであってもまたは修飾されたmRNAであってもよく、あるいは、それらはポリペプチドの翻訳後修飾を含んでいてもよい。
Definitions [046] As used herein, a "biomarker" or "marker" is a biological property that can be objectively measured as a characteristic of the physiological state of the biological system. It is a molecule. For purposes of this disclosure, biological molecules include ions, small molecules, peptides, proteins, post-translationally modified peptides and proteins, nucleosides, nucleotides and polynucleotides including RNA and DNA, glycoproteins, lipoproteins. , And various molecules that have been modified covalently and non-covalently. A biological molecule has any of these entities that are natural to the function of the biological system, characteristic of the function of the biological system, and / or essential to the function of the biological system. included. Although many biomarkers are polypeptides, biomarkers can be mRNA that represents the pre-translational form of the gene product expressed as a polypeptide or modified mRNA, or they can be It may include post-translational modifications of the peptide.

〔047〕 本明細書で使用する場合、「バイオマーカー測定値」とは、疾患の有無を特徴付けるのに有用なバイオマーカーに関する情報である。そのような情報は、濃度もしくは濃度の割合である測定された値を含んでいてもよく、あるいは、組織もしくは体液中のバイオマーカーの発現の量であっても、もしくは発現を量的に示すものであってもよい。各バイオマーカーは、ベクトル空間中の次元として表すことができ、ここで各ベクトルは、特定の対象と関連する複数のバイオマーカー測定値から成り立っている。   [047] As used herein, a "biomarker measurement value" is information relating to a biomarker useful for characterizing the presence or absence of a disease. Such information may include a measured value that is a concentration or a ratio of concentrations, or the amount of, or a quantitative indication of, the expression of a biomarker in a tissue or body fluid. May be Each biomarker can be represented as a dimension in vector space, where each vector consists of multiple biomarker measurements associated with a particular subject.

〔048〕 本明細書で使用する場合、「下位セット(サブセット)」とは適切な下位セットであり、「上位セット(スーパーセット)」とは適切な上位セットである。
〔049〕 本明細書で使用する場合、「対象」は、いずれの動物も意味するが、好ましくは哺乳動物であり、例えば、ヒトなどである。多くの態様において対象は、肺疾患を罹患している、または肺疾患を罹患するリスクのあるヒト患者である。
[048] As used herein, a "lower set" is a suitable lower set, and a "upper set" is a suitable upper set.
[049] As used herein, "subject" means any animal, but is preferably a mammal, such as a human. In many embodiments, the subject is a human patient suffering from or at risk of developing lung disease.

〔050〕 本明細書で使用する場合、「生理学的な試料」には、体液および組織に由来する試料が含まれる。体液には、全血、血漿、血液血清、喀痰、尿、汗、リンパ液、および肺胞洗浄が含まれる。組織試料には、固形肺組織または他の固形組織由来の生検、リンパ節生検組織、転移性病巣の生検が含まれる。生理学的な試料の収集方法は良く知られている。   [050] As used herein, "physiological sample" includes samples derived from body fluids and tissues. Body fluids include whole blood, plasma, blood serum, sputum, urine, sweat, lymph, and alveolar lavage. Tissue samples include biopsies from solid lung tissue or other solid tissues, lymph node biopsies, biopsies of metastatic lesions. Methods for collecting physiological samples are well known.

〔051〕 本明細書で使用する場合、「検出剤」には、本明細書に記載のバイオマーカーを特異的に検出する試薬およびシステムが含まれる。検出剤には、試薬、例えば抗体、核酸プローブ、アプタマー、レクチン、または特定のマーカーもしくは目的の試料に含まれている可能性のある特定のマーカーと他のマーカーとを区別するのに有効なマーカーに特に親和性を有する他の試薬、およびシステム、例えば、上述した結合させた試薬あるいは固定した試薬を使用するセンサーなどのセンサーを含む。   [051] As used herein, "detection agent" includes reagents and systems that specifically detect the biomarkers described herein. The detection agent includes a reagent such as an antibody, a nucleic acid probe, an aptamer, a lectin, or a marker effective for distinguishing a specific marker or a specific marker which may be contained in a sample of interest from other markers. Other reagents that have a particular affinity for, and systems, for example, sensors such as the sensors described above using bound or immobilized reagents.

一次相互作用器
〔052〕 生命を維持するのに必要な、細胞のおよび有機的な、多くの生理学的な機能を促進し、制御するために、生物学的な分子は互いに相互作用しなくてはならない。これらの相互作用は、一種のコミュニケーションと考えることができる。このコミュニケーション中では、多種多様な生物学的な分子をメッセージと見なすことが可能である。これらの分子は、シグナル伝達機能に必須の部分として、他の種類の生物学的な分子を含む、多様な標的と必然的に相互作用する。
Primary interactors [052] Biological molecules must interact with each other to promote and regulate many cellular and organic physiological functions necessary to sustain life. Don't These interactions can be thought of as a type of communication. A wide variety of biological molecules can be considered as messages in this communication. These molecules necessarily interact with a wide variety of targets, including other types of biological molecules, as an integral part of the signaling function.

〔053〕 相互作用している分子の一種は一般に、受容体として知られている。それら受容体は、これも相互作用する分子であるリガンドと結合する。別の型の直接的な分子間相互作用には、コファクターまたはアロステリックエフェクターと酵素との結合がある。これらの分子間相互作用は、細胞および生物の必須の生命機能の実行および制御に一緒になって機能する、シグナル伝達分子のネットワークを形成する。本発明で使用する用語では、これらの相互作用分子はそれぞれバイオマーカーである。本発明の特定のバイオマーカーは、特定のバイオマーカーのレベルと協調して、そのレベルが上昇または低下する他のバイオマーカーと生理学的に関連している。これら他の関連のあるバイオマーカーは、本発明の特定のバイオマーカーについて、「一次相互作用器」と呼ばれる。   [053] One type of interacting molecule is generally known as a receptor. The receptors bind ligands, which are also interacting molecules. Another type of direct intermolecular interaction involves the binding of cofactors or allosteric effectors to enzymes. These intermolecular interactions form a network of signaling molecules that work together to perform and control essential vital functions of cells and organisms. In the terms used in the present invention, each of these interacting molecules is a biomarker. Certain biomarkers of the invention are physiologically associated with other biomarkers whose levels are elevated or decreased in concert with the level of the particular biomarker. These other relevant biomarkers are referred to as "primary interactors" for the particular biomarkers of this invention.

〔054〕 「一次相互作用器」は、特定の生物学的な分子と直接相互作用する分子実体である。例えば、薬物であるモルヒネはオピエート受容体と直接相互作用し、最終的に、疼痛の感覚を低減させる。従って、オピエート受容体は、「一次相互作用器」の定義の下では、一次相互作用器である。一次相互作用器は、前記バイオマーカーが相互作用するコミュニケーション経路中で、前記バイオマーカーのすぐ上流およびすぐ下流の両方で隣り合っている分子を含む。これらの実体には、直接的な(または間接的な)調節、発現、化学反応、分子合成、結合、プロモーター結合、タンパク質修飾および分子輸送を含むがこれらには限定されない関係によって結合され得るタンパク質、核酸および低分子が包含される。それらのレベルが協調しているバイオマーカーのグループは、当業者、ならびに生理学および細胞生物学に精通した人々には良く知られている。実際のところ、特定のバイオマーカーに関する一次相互作用器は当該分野で公知であり、かつ、様々なデータベースや、利用可能なバイオインフォマティクスのソフトウェア、例えばARIADNE PATHWAY STUDIO(登録商標)、ExPASY Proteomics Server Qlucore Omics Explorer、Protein Prospector、PQuad、ChEMBLなどを利用して見出すことができる。(例えば、ARIADNE PATHWAY STUDIO(登録商標)、Ariadne、Inc.、<www.ariadne.genomics.com>またはChEMBLデータベース、European Bioinformatics Institute、European Molecular Biology Laboratory、<www.ebi.ac.uk>を参照のこと)。   [054] A "primary interactor" is a molecular entity that interacts directly with a particular biological molecule. For example, the drug morphine interacts directly with opiate receptors, ultimately reducing the sensation of pain. Thus, opiate receptors are primary interactors under the definition of "primary interactor". The primary interactor comprises molecules that are adjacent both immediately upstream and immediately downstream of the biomarker in the communication pathway with which the biomarker interacts. Proteins that can be bound to these entities by a relationship including, but not limited to, direct (or indirect) regulation, expression, chemical reaction, molecular synthesis, binding, promoter binding, protein modification and molecular transport. Nucleic acids and small molecules are included. The group of biomarkers whose levels are coordinated are well known to those skilled in the art and to those familiar with physiology and cell biology. In fact, primary interactors for a particular biomarker are known in the art, and are available in various databases and available bioinformatics software such as ARIADNE PATHWAY STUDIO®, ExPASY Proteomics Server Qlucore Omics. It can be found using Explorer, Protein Prospector, PQuad, ChEMBL, etc. (See, eg, ARIADNE PATHWAY STUDIO®, Ariadne, Inc., <www.ariadne.genomics.com> or ChEMBL database, European Bioinformatics Institute, European Molecular Biology Laboratory, <www.ebi.ac.uk>. thing).

〔055〕 一次相互作用器バイオマーカーとは、その発現レベルが別のバイオマーカーと協調しているバイオマーカーである。そのため、特定のバイオマーカーのレベルに関する情報(「バイオマーカー測定値」)を、特定のバイオマーカーと協調している一次相互作用器のレベルを測定することで導き出すことが可能である。当然のことながら、特定のバイオマーカーの挙動と一致する、定義され、かつ、再現性のある方法によって、当業者は、特定のバイオマーカーの代わりにまたは特定のバイオマーカーに加えて使用される一次相互作用器のレベルが多様になることを確認する。   [055] A primary interactor biomarker is a biomarker whose expression level is coordinated with another biomarker. As such, it is possible to derive information about the level of a particular biomarker (“biomarker measurement”) by measuring the level of the primary interactor in coordination with the particular biomarker. Of course, by virtue of a defined and reproducible method that is consistent with the behavior of a particular biomarker, one of ordinary skill in the art will recognize that the primary biomarker used instead of or in addition to the particular biomarker. Make sure that the levels of interactors are varied.

〔056〕 本発明は、特定のバイオマーカーの一次相互作用器を利用して実施される可能性のある、あるいは実施される、本明細書に記載のいかなる方法をも提供する。例えば、本発明のいくつかの態様は、HGFのバイオマーカー測定値を決定する工程を含む、生理学的に特徴付ける方法を提供する。よって、本発明また、HGFの一次相互作用器のバイオマーカー測定値を決定する工程を含む、生理学的に特徴付ける方法を提供する。HGFの一次相互作用器には、図5で同定した一次相互作用器(例えば、INS、EGF、MIF)が含まれるがこれらには限定されない。従って、本発明の想定内では、特定のバイオマーカー測定値を、特定のバイオマーカーの一次相互作用器で置き換えてもよい。   [056] The present invention provides any method described herein that may or may be performed utilizing a primary interactor of a particular biomarker. For example, some aspects of the invention provide a method of physiological characterization comprising the step of determining a biomarker measurement of HGF. Thus, the invention also provides a method of physiological characterization comprising the step of determining a biomarker measurement of HGF primary interactors. Primary interactors of HGF include, but are not limited to, the primary interactors identified in Figure 5 (eg, INS, EGF, MIF). Thus, within the contemplation of the invention, a particular biomarker measurement may be replaced by a primary interactor of the particular biomarker.

バイオマーカー測定値の決定
〔057〕 通常、バイオマーカー測定値は典型的にはタンパク質またはポリペプチドである発現産物の定量的な測定に関する情報である。本発明は、バイオマーカー測定値をRNA(翻訳前)レベルでまたはタンパク質レベル(翻訳後修飾も含まれ得る)で決定することを想定している。具体的には、本発明は、転写、翻訳、翻訳後修飾のレベル、またはタンパク質分解の範囲もしくは程度の上昇または低下が反映されるバイオマーカー濃度の変化を決定することを想定しており、ここでこれらの変化は、特定の病状または疾患の進行と関連している。
Determination of biomarker measurements [057] Usually, biomarker measurements are information about the quantitative measurement of expression products, which are typically proteins or polypeptides. The present invention contemplates determining biomarker measurements at the RNA (pre-translational) level or at the protein level (post-translational modifications may also be included). Specifically, the present invention contemplates determining the level of transcription, translation, post-translational modification, or changes in biomarker concentration that reflects an increase or decrease in the extent or extent of proteolysis, where: And these changes are associated with the progression of a particular medical condition or disease.

〔058〕 正常な対象で発現している多くのタンパク質は、疾患または状態に応じて、例えば、非小細胞肺癌または喘息を呈している対象ではその発現がより多くまたはより少なくなる。当業者であれば、疾患の多くが、複数の異なるバイオマーカーに変化を及ぼすことを理解するだろう。よって疾患は、複数のマーカーの発現パターンによって特徴付けることができる。複数のバイオマーカーの発現レベルを決定することによって発現パターンの観測が容易になり、そのようなパターンは、個々のバイオマーカーを検出するよりも感度が高く、かつ、精度の高い診断を提供する。あるパターンでは、いくつかの特定のバイオマーカーが異常に亢進しており、同時に他の特定のバイオマーカーが異常に低下していてもよい。   [058] Many proteins expressed in normal subjects are more or less expressed depending on the disease or condition, eg, in subjects with non-small cell lung cancer or asthma. One of ordinary skill in the art will appreciate that many of the diseases affect multiple different biomarkers. Thus, disease can be characterized by the expression pattern of multiple markers. Determining the expression level of multiple biomarkers facilitates the observation of expression patterns, such patterns providing a more sensitive and accurate diagnosis than detecting individual biomarkers. In one pattern, some specific biomarkers may be abnormally elevated while other specific biomarkers may be abnormally reduced.

〔059〕 本発明に従って、対象から、その試料におけるバイオマーカー測定値が、その試料を提供した対象におけるそのバイオマーカーの濃度に比例していることを確保する方法によって、生理学的な試料を採取する。測定された値が、試料中のバイオマーカーの濃度の比例となるように、測定を行う。これらの要件を満たす試料の採取方法および測定方法の選択は当該分野において一般的な技術の範囲内である。   [059] In accordance with the present invention, a physiological sample is taken from a subject by a method that ensures that the biomarker measurement in the sample is proportional to the concentration of the biomarker in the subject who provided the sample. . The measurement is performed so that the measured value is proportional to the concentration of the biomarker in the sample. Selection of sample collection and measurement methods that meet these requirements is within the ordinary skill in the art.

〔060〕 当業者には当然のことであるが、個々のバイオマーカーについては、バイオマーカー測定値を決定するための様々な方法が当該分野で知られている。Instrumental Methods of Analysis, Seventh Edition、1988を参照のこと。それらの決定は、複合的なまたはマトリックスを使用した形態、例えばマルチプレックス免疫アッセイ(multiplexedimmunoassay)によって実施され得る。   [060] As will be appreciated by those in the art, various methods for determining biomarker measurements for individual biomarkers are known in the art. See Instrumental Methods of Analysis, Seventh Edition, 1988. These determinations can be performed in multiplex or matrix-based formats, such as multiplexed immunoassays.

〔061〕 バイオマーカー測定値を決定するための多数の方法が当該分野で知られている。そのような決定手段には、放射免疫アッセイ、酵素結合免疫吸着アッセイ(ELISA)、可視光または紫外光の吸光度を利用した放射検出もしくはスペクトル検出を伴う高速液体クロマトグラフィー、質量分析による定性的および定量的な解析、ウェスタンブロット、放射性プローブ、蛍光プローブ、もしくは化学発光プローブまたは核を検出する手段による定量的な可視化を伴う一次元もしくは二次元ゲル電気泳動、吸光度の測定もしくは蛍光の測定を利用した抗体を使用した検出法、いくつかの化学発光レポーターシステムのいずれかの発光を用いた定量、酵素アッセイ、免疫沈降または免疫捕捉アッセイ、固相および液相免疫アッセイ、タンパク質アレイもしくはチップ、DNAアレイもしくはチップ、プレートアッセイ、識別を可能にする結合親和性を有する分子、例えばアプタマーや分子インプリントポリマーを使用したアッセイ、ならびに、他の任意の好適な技術および記載した検出法に関するいずれもの遂行意志または器具操作による、バイオマーカーの濃度を定量的分析的に決定する他のいかなる方法も含まれるがこれらには限定されない。   [061] Numerous methods are known in the art for determining biomarker measurements. Such determination means include radioimmunoassays, enzyme-linked immunosorbent assays (ELISAs), high performance liquid chromatography with radiometric or spectral detection utilizing absorbance of visible or ultraviolet light, qualitative and quantitative by mass spectrometry. -Dimensional or two-dimensional gel electrophoresis with quantitative visualization by quantitative analysis, Western blot, radioactive probe, fluorescent probe, or chemiluminescent probe or means for detecting nuclei, antibody using absorbance measurement or fluorescence measurement -Based detection methods, luminescence-based quantification of any of several chemiluminescent reporter systems, enzyme assays, immunoprecipitation or immunocapture assays, solid and liquid phase immunoassays, protein arrays or chips, DNA arrays or chips , Plate assay, identification possible The concentration of biomarker by assay with a molecule having a binding affinity such as, for example, an aptamer or molecularly imprinted polymer, as well as any other suitable technique and instrumental willingness to perform any of the described detection methods. It includes, but is not limited to, any other method of quantitatively and analytically determining.

〔062〕 バイオマーカー測定値を決定する工程は、当該分野で公知のいずれの手段によっても、特に本明細書で議論した手段によって実施することができる。好ましい態様では、バイオマーカー測定値を決定する工程は、抗体を利用した免疫アッセイを実施する工程を含む。当業者であれば、本発明で使用するのに適切な抗体を容易に選択することができる。選択される抗体は、好ましくは、目的の抗原に選択的(すなわち、特定のバイオマーカーに選択的)であり、前記抗原に高い結合特異度を有し、かつ、他の抗原との交差反応性が最小限のものである。抗体の目的の抗原へと結合する能力は、例えば、既知の方法によって、例えば酵素結合免疫吸着アッセイ(ELISA)、フローサイトメトリー、および免疫組織化学によって決定することができる。さらに、抗体は、目的の抗原に対して、相対的に高い結合特異度を有するべきである。抗体の結合特異度は、既知の方法によって、例えば免疫沈降によって、またはインビトロ結合アッセイ、例えば放射免疫アッセイ(RIA)もしくはELISAによって決定することができる。目的の抗原と高い結合特異度で結合することができ、かつ、交差反応性が最も小さい抗体を選択する方法は、例えば、参照により本明細書に組み込まれる、米国特許第7,288,249号で開示されている。肺疾患を示すバイオマーカーのバイオマーカー測定値は、サポートベクトルマシンなどの分類システムへの入力データとして使用することができる。   [062] The step of determining the biomarker measurement can be performed by any means known in the art, particularly by the means discussed herein. In a preferred embodiment, the step of determining the biomarker measurement comprises performing an antibody-based immunoassay. One of ordinary skill in the art can easily select an appropriate antibody for use in the present invention. The antibody selected is preferably selective for the antigen of interest (ie selective for a particular biomarker), has a high binding specificity for said antigen and is cross-reactive with other antigens. Is the minimum. The ability of the antibody to bind to the antigen of interest can be determined, for example, by known methods, such as by enzyme-linked immunosorbent assay (ELISA), flow cytometry, and immunohistochemistry. Furthermore, the antibody should have a relatively high binding specificity for the antigen of interest. The binding specificity of an antibody can be determined by known methods, such as by immunoprecipitation, or by in vitro binding assays such as radioimmunoassay (RIA) or ELISA. Methods for selecting antibodies that are capable of binding with high binding specificity to an antigen of interest and have minimal cross-reactivity are described, for example, in US Pat. No. 7,288,249, incorporated herein by reference. It is disclosed in. Biomarker measurements of biomarkers indicative of lung disease can be used as input data to classification systems such as support vector machines.

〔063〕 それぞれのバイオマーカーはベクトル空間における次元として表すことができ、ここで各ベクトルは、特定の対象と関連のある複数のバイオマーカー測定値から成り立っている。従って、ベクトル空間の次元性は、バイオマーカーのセットの大きさと対応する。複数のバイオマーカーのバイオマーカー測定値のパターンを、様々な診断法および予後方法に使用することができる。本発明は、そのような方法を提供する。代表的な方法には、分類システム、例えばサポートベクトルマシンが含まれる。   [063] Each biomarker can be represented as a dimension in vector space, where each vector consists of multiple biomarker measurements associated with a particular subject. Therefore, the dimensionality of the vector space corresponds to the size of the set of biomarkers. The pattern of biomarker measurements of multiple biomarkers can be used in various diagnostic and prognostic methods. The present invention provides such a method. Typical methods include classification systems, such as support vector machines.

分類システム
〔064〕 本発明はとりわけ、継続的に分布している複数のバイオマーカーに基づいて、肺の病理を癌または喘息であると予測することに関する。いくつかの分類システム(例えば、サポートベクトルマシン)については、予測は3工程プロセスとなり得る。第一の工程では、予め設定しておいたデータセットの特徴を記述することによって分類器を構築する。これは「学習工程」であり、「学習」データについて行われる。
Classification System [064] The present invention relates, inter alia, to predicting lung pathology as cancer or asthma based on continuously distributed biomarkers. For some classification systems (eg, support vector machines), prediction can be a three step process. In the first step, a classifier is constructed by describing the characteristics of preset data sets. This is a "learning process" and is performed on "learning" data.

〔065〕 学習データベースは、各個人の病状についての分類と関係のある、複数のヒトに関する複数のバイオマーカー測定値を反映している、コンピューターに実装されたデータの記録である。記憶されるデータの形式は、単層ファイル、データベース、表、または当該分野で知られている、他のいずれの検索可能なデータ記憶形式であってよい。例示的な態様では、試験データは複数のベクトルとして記憶され、ここで各ベクトルは個々のヒトに対応し、各ベクトルは複数のバイオマーカーに関する複数のバイオマーカー測定値と、ヒトの病状についての分類を合わせて含んでいる。通常、各ベクトルは、各バイオマーカー測定値の見出しを複数のバイオマーカー測定値中に含んでいる。学習データベースは、認可された実体(例えば、ヒト使用者またはコンピュータープログラム)によって遠隔操作で検索できるように、ネットワーク、例えばインターネットと接続されていてもよい。あるいは、学習データベースは、ネットワークから独立したコンピューター中に配置されていてもよい。   [065] The learning database is a computer-implemented record of data that reflects multiple biomarker measurements for multiple humans that are associated with the classification of each individual's medical condition. The format of the data stored may be a single layer file, database, table, or any other searchable data storage format known in the art. In an exemplary aspect, the test data is stored as a plurality of vectors, each vector corresponding to an individual human, each vector having a plurality of biomarker measurements for a plurality of biomarkers and a classification for a human condition. It is also included. Typically, each vector includes a heading for each biomarker measurement in multiple biomarker measurements. The learning database may be connected to a network, eg the Internet, so that it can be remotely searched by an authorized entity (eg a human user or a computer program). Alternatively, the learning database may be located in a computer independent of the network.

〔066〕 第二の工程、これは任意であるが、では、分類器を「確認」データベースに適用し、感度や特異度などの、精度に関する様々な測定値を観測する。例示的な態様では、学習データベースの一部分のみを学習工程に使用し、学習データベースの残りの部分を確認データベースとして使用する。第三の工程では、ある対象に由来するバイオマーカー測定値を、対象に関する計算した分類(例えば、病状)を出力する分類システムにかける。   [066] The second step, which is optional, is to apply the classifier to a "validation" database to observe various measurements of accuracy, such as sensitivity and specificity. In an exemplary aspect, only a portion of the learning database is used for the learning process and the remaining portion of the learning database is used as the confirmation database. In the third step, biomarker measurements derived from a subject are subjected to a classification system that outputs a calculated classification (eg, medical condition) for the subject.

〔067〕 分類器を構築するための複数の方法が当該分野で知られており、これらには、決定木、ベイジアン分類器、ベイジアン信念ネットワーク、k−最近傍法、事例ベース推論、およびサポートベクトルマシン(Han J & Kamber M, 2006,第六章, Data Mining, Concepts and Techniques,第二版.Elsevierアムステルダム)が含まれる。好ましい態様では、本発明は、サポートベクトルマシンの使用に関する。しかしながら本明細書に記載したように、当該分野で知られているいずれの分類システムを使用してもよい。   [067] Multiple methods for constructing classifiers are known in the art, including decision trees, Bayesian classifiers, Bayesian belief networks, k-nearest neighbors, case-based reasoning, and support vectors. Machines (Han J & Kamber M, 2006, Chapter 6, Data Mining, Concepts and Techniques, Second Edition, Elsevier Amsterdam). In a preferred aspect, the invention relates to the use of support vector machines. However, any classification system known in the art may be used, as described herein.

サポートベクトルマシン
〔068〕 サポートベクトルマシン(SVM)は当該分野において公知である。例えば、サポートベクトルマシンを使用して、病態の発症を診断する方法および予測する方法が提唱されている。例えば、参照によりその全体が本明細書に組み込まれる、米国特許第7,505,948号;同第7,617,163号;および同第7,676,442号を参照のこと。
Support Vector Machines [068] Support Vector Machines (SVMs) are known in the art. For example, methods for diagnosing and predicting the onset of pathological conditions have been proposed using support vector machines. See, for example, US Pat. Nos. 7,505,948; 7,617,163; and 7,676,442, which are incorporated herein by reference in their entirety.

〔069〕 一般的にSVMは、各対象につき、バイオマーカーの1種類のk−次元ベクトル(k−タプルと呼ばれる)に基づいて、各n個の対象を2つ以上の疾患クラスに分類するのに使われるモデルを提供する。SVMでは最初に、カーネル関数を使用して、同じかより高次元の空間へとk−タプルを変換する。カーネル関数は、クラスが元々のデータ空間で分離されるよりも、超平面によってより大きく分離される空間にデータを写像する。クラスを分ける超平面を決定するためには、疾患クラス境界の最も近くにあるサポートベクトルのセットを選択してもよい。次いで超平面を、不適当な予測に罰金を科す費用関数の境界内でサポートベクトルと超平面との間の距離が最大になるように、既知のSVM技術で選択する。この超平面が予測の観点からデータを最適に分離する平面の1つである(Vapnik, 1998 Statistical Learning Theory. New York: Wiley)。その後、新たな観測はいずれも、観測されたデータの分布と超平面の関係に基づいて、目的のクラスのいずれか1つに属していると分類される。3つ以上のクラスについて検討する場合には、全てのクラスについてこのプロセスをペアワイズで行い、それらの結果を合わせて、全てのクラスを分離する規則を生成する。   [069] In general, SVM classifies each n subjects into two or more disease classes based on one k-dimensional vector of biomarkers (called a k-tuple) for each subject. Provides the model used for. The SVM first uses a kernel function to transform the k-tuple into the same or higher dimensional space. The kernel function maps the data into a space that is more largely separated by the hyperplane than the classes are separated in the original data space. To determine the hyperplane that separates the classes, the set of support vectors closest to the disease class boundaries may be selected. The hyperplane is then selected with known SVM techniques such that the distance between the support vector and the hyperplane is maximized within the bounds of the cost function penalizing the incorrect prediction. This hyperplane is one of the planes that optimally separates data from the perspective of prediction (Vapnik, 1998 Statistical Learning Theory. New York: Wiley). Thereafter, each new observation is classified as belonging to any one of the classes of interest based on the distribution of the observed data and the relationship of the hyperplane. When considering more than two classes, this process is done pairwise for all classes and the results are combined to generate a rule that separates all classes.

〔070〕 例示的な態様では、ガウスのラジアル基底関数(RBF)(Vapnik、1998)として知られているカーネル関数を使用する(RBF関数は   [070] In an exemplary embodiment, a kernel function known as the Gaussian Radial Basis Function (RBF) (Vapnik, 1998) is used (the RBF function is

であり、式中、 And in the formula,

および and

は2つのk−タプルである)。RBFは、いくつかの定義されている他のカーネル関数、例えば多項カーネルまたはシグモイドカーネルから選択するための前提知識がない場合に使用されることが多い(HanJ.&Kamber M.、343頁)。RBFでは、元々の空間を無限次元の新しい空間に写像する。この問題に関する議論および統計処理言語Rへのその実装は、Karatzoglouet al.に見られる(Support Vector Machines in R. Journal of Statistical Software, 2006)。本明細書に記載の全てのSVM統計計算は、統計処理用のソフトウェアプログラム用言語・環境であるR2.10.0(www.r-project.org)を使用して実施した。kernlabパッケージに含まれているksvm()関数を使用してSVMに適用した。 Are two k-tuples). RBF is often used in the absence of prior knowledge to select from some other defined kernel functions, such as polynomial kernels or sigmoid kernels (Han J. & Kamber M. p. 343). In RBF, the original space is mapped to a new space of infinite dimension. A discussion of this issue and its implementation in the statistical processing language R can be found in Karatzoglou et al. (Support Vector Machines in R. Journal of Statistical Software, 2006). All SVM statistical calculations described herein were performed using R2.10.0 (www.r-project.org), which is a language / environment for software programs for statistical processing. It was applied to SVM using the ksvm () function included in the kernlab package.

〔071〕 以下に、サポートベクトルマシンに関するいくつかの表記法(Cristianini N, Shawe-Taylor J. An Introduction to Support Vector Machines and other kernel-based learning methods, 2000, p. 106)、ならびに彼らが複数のクラスに由来する観測を区別した方法の概要を説明する。   [071] Below are some notations for support vector machines (Cristianini N, Shawe-Taylor J. An Introduction to Support Vector Machines and other kernel-based learning methods, 2000, p. Outline the method for distinguishing observations derived from classes.

〔072〕 以下のような学習試料または学習データベースを与えられたとする。   [072] It is assumed that the following learning sample or learning database is provided.

式中、 In the formula,

ならば、 Then,

はバイオマーカー測定値のベクトルであり、および Is a vector of biomarker measurements, and

Is

がどのクラス(例えば、正常、非小細胞肺癌、喘息)に属しているかを示すものであり、特徴空間はカーネル Which class belongs to (eg, normal, non-small cell lung cancer, asthma), and the feature space is the kernel

によって暗黙的に定義されている。指標 Is implicitly defined by. index

が、 But,

で表される二次の最適化問題を解決すると仮定すると、 Assuming that the quadratic optimization problem represented by

であるため、 Because

は、 Is

の任意の Of any

に関し、 Regarding

となるように選択される。よって、 Is selected to be. Therefore,

で得られる決定規則は、 The decision rule obtained by

で与えられる最適化問題を解決するカーネル Kernel that solves the optimization problem given by

によって暗黙的に定義されている特徴空間中の超平面と等価になり、ここでスラック変数 Equivalent to the hyperplane in the feature space implicitly defined by where the slack variable

は、幾何マージン Is the geometric margin

に対して定義され、ここで Defined for where

は、 Is

の指数の集合である(対応する Is the set of exponents of (corresponding

がサポートベクトルと呼ばれる)。
〔073〕 データを分類するクラスが2つ以上ある場合には、モデルにクラス間のペアワイズ(一連の下位モデル)を適用する。この場合、各下位モデルは特定のクラスに投票するものである。観測は、最も得票の多かったクラスに属していると判断される。
Is called a support vector).
[073] When there are two or more classes for classifying data, pairwise between classes (a series of lower models) is applied to the model. In this case, each sub-model will vote for a particular class. Observations are judged to belong to the class with the most votes.

〔074〕 本発明の新規側面を形成する1つのカーネル関数は、   [074] One kernel function that forms a novel aspect of the invention is

と定義され、ここで Is defined as

はベクトル Is a vector

の長さであり、かつ、 Is the length of

は予め設定しておいた定数(自由度)である。
〔075〕
式(8)が実際に有効なカーネルであることを確認するために、
Is a preset constant (degree of freedom).
[075]
To verify that equation (8) is actually a valid kernel,

で定義されている行列 Matrix defined by

を考える。 think of.

と注記することで、この行列が正定値(positive definite)であると示すことができる。この場合、 It can be shown that this matrix is positive definite. in this case,

および and

は、 Is

に関する任意の二次元ベクトル Any two-dimensional vector with respect to

の要素である。帰納法および Is an element of. Induction and

の場合と同様の論理を用いることで、行列 By using the same logic as in

が正定値であること、およびマーサーの定理によって、関数 Is positive definite, and by Mercer's theorem, the function

が有効なカーネル関数であることが分かる。
〔076〕 他の適したカーネル関数には、線形カーネル、ラジアル基底カーネル、多項カーネル、統一カーネル、三角カーネル、Epanechnikovカーネル、四次多項(quartic)(二乗重み)カーネル、三次三乗(tricube)(三乗重み)カーネル、およびコサインカーネルが含まれるがこれらには限定されない。
Turns out to be a valid kernel function.
[076] Other suitable kernel functions include linear kernels, radial basis kernels, polynomial kernels, unified kernels, triangular kernels, Epanechnikov kernels, quartic polynomial (square weight) kernels, cubic cubes (tricube (tricube)). Cube weight kernels and cosine kernels, but are not limited thereto.

他の分類システム
〔077〕 サポートベクトルマシンは、データについで使用することが可能な、多くの潜在性のある分類器のうちの1つである。非限定的な例として、そして以降で議論するように、例えばナイーブベイズ分類器、分類木、k−最近傍法などの他の方法を同じデータについて使用して学習させ、サポートベクトルマシンを検証してもよい。
Other Classification Systems [077] Support vector machines are one of many potential classifiers that can be subsequently used on the data. As a non-limiting example, and as discussed below, other methods such as naive Bayes classifiers, classification trees, k-nearest neighbors, etc. were trained using the same data to validate the support vector machine. May be.

ナイーブベイズ分類器
〔078〕 一連のベイズ分類器とは、ベイズの定理、
Naive Bayes classifier [078] A series of Bayes classifiers are Bayes' theorem,

に基づく一連の分類器である。
〔079〕 この種の分類器は全て、ある観測に関するデータに基づいて、その観測があるクラスに属する確率を見出そうとするものである。最も高い確率を有するクラスに、それぞれの新しい観測が割り当てられる。
Is a series of classifiers based on.
[079] All such classifiers attempt to find the probability that an observation belongs to a class based on the data for that observation. Each new observation is assigned to the class with the highest probability.

〔080〕 理論的には、ベイズ分類器の誤り率は一連の分類器の中で最も低い。実際には、ベイズ分類器を適用した場合にデータに関して作成される仮定の違反により、誤り率が常に最低であるということではない。   [080] Theoretically, the error rate of the Bayes classifier is the lowest in the series of classifiers. In practice, the error rate is not always the lowest due to the violation of the assumptions made on the data when applying the Bayesian classifier.

〔081〕 ナイーブベイズ分類器は、ベイズ分類器の一例である。ナイーブベイズでは、それぞれのクラスが、データを与えるその他のクラスから独立していると仮定することで、分類に使用される確率計算を単純化する。   [081] The Naive Bayes classifier is an example of a Bayes classifier. Naive Bayes simplifies the probability calculations used for classification by assuming that each class is independent of the other classes that provide the data.

〔082〕 ナイーブベイズ分類器は、実装が容易なこと、および分類速度が速いことから、多くの著名な反スパムフィルターに使用されているが、実際にはその仮定が満たされることが少ないという欠点をもつ。   [082] Naive Bayes classifiers have been used in many well-known anti-spam filters because of their ease of implementation and fast classification speed, but their assumptions are rarely met in practice. With.

〔083〕 本明細書で議論するように、ナイーブベイズ分類器を実装するためのツールは、統計処理用ソフトウェア計算言語・環境であるRに使用可能である。例えば、R言語のパッケージである「e1071」の第1.5−25版は、ナイーブベイズ分類器を作成・処理・利用するためのツールを含んでいる。   [083] As discussed herein, tools for implementing a Naive Bayes classifier are available for R, a software computing language / environment for statistical processing. For example, the R language package "e1071", version 1.5-25, includes tools for creating, processing, and using Naive Bayes classifiers.

ニューラルネット
〔084〕 ニューラルネットは、辺とそれらの重みが、各頂点のそれらが結合しているその他の頂点に及ぼす影響を表している重みづき有向グラフとして考えることができる。ニューラルネットは、入力層(データで形成されている)と出力層(値。この例では予測されるクラス)の2つの部分から構成される。入力層と出力層の間は、隠れ頂点のネットワークとなっている。ニューラルネットを設計した方法にもよるが、入力層と出力層の間には複数の頂点がある場合がある。
Neural Nets [084] A neural net can be thought of as a weighted directed graph representing the effect of edges and their weights on the other vertices of each vertex that they are connected to. A neural net consists of two parts: an input layer (formed of data) and an output layer (values, the class predicted in this example). A network of hidden vertices is provided between the input layer and the output layer. Depending on how the neural network was designed, there may be multiple vertices between the input and output layers.

〔085〕 ニューラルネットは人工知能やデータマイニングで広く利用されているが、ニューラルネットで作成されるモデルがデータを過剰適応させる(つまり、モデルが現在データを非常によく適応させるが、未来データはあまりよく適応しない)危険性がある。本明細書で議論するように、ニューラルネットを実装するためのツールは、統計処理用ソフトウェア計算言語・環境であるRに使用可能である。例えば、R言語のパッケージである「e1071」の第1.5−25版は、ニューラルネットを作成・処理・利用するためのツールを含んでいる。   [085] Neural nets are widely used in artificial intelligence and data mining, where the model created by the neural net over-adapts the data (ie, the model adapts the current data very well, but the future data Not very well adapted) at risk. As discussed herein, tools for implementing neural nets can be used with R, a software computing language / environment for statistical processing. For example, the R language package "e1071", version 1.5-25, includes tools for creating, processing, and using neural networks.

k−最近傍法
〔086〕 最近傍法は、メモリーベースの分類器の一部である。これらは、新しい観測を分類するために、学習セットの中に何が入っていたかを「覚えて」おく必要のある分類器である。最近傍法は当てはめるためのモデルを必要としない。
k-Nearest Neighbor Method [086] The Nearest Neighbor Method is part of a memory-based classifier. These are classifiers that need to "remember" what was in the training set in order to classify new observations. The nearest neighbor method does not require a model to fit.

〔087〕 k−近傍(knn)分類器を構築するためには、以下の工程がとられる。1.分類する観測から、学習セット中の各観測への距離を計算する。距離の計算には任意の妥当な尺度を使用してもよいが、ユークリッド距離およびマハラノビス距離が使用されることが多い(マハラノビス距離とは、観測の中に含まれる変数間の共分散を考慮する尺度である)。
2.各クラスに属すk最近傍観測の中にある観測の数を数える。
3.新しい観測を、最も数の多かったクラスに割り当てる。
[087] To build a k-nearest neighbor (knn) classifier, the following steps are taken. 1. Compute the distance from the observation to classify to each observation in the training set. Any reasonable measure may be used to calculate the distance, but Euclidean and Mahalanobis distances are often used (Mahalanobis distance considers the covariance between variables included in an observation. Is a measure).
2. Count the number of observations in the k-nearest neighbor observations that belong to each class.
3. Assign new observations to the most abundant class.

〔088〕 最近傍アルゴリズムには、2点間の距離を計算する必要があるため、カテゴリカルデータを取り扱うという問題があるが、これは、任意の2クラス間の距離を人為的に定義することで克服することができる。この種のアルゴリズムはまた、スケールや尺度の変化に対して感度がよい。これらの問題を念頭においても、最近傍アルゴリズムは、特に大量のデータセットに対して非常に強力となり得る。   [088] The nearest neighbor algorithm has a problem of handling categorical data because it is necessary to calculate the distance between two points. This is to artificially define the distance between any two classes. Can be overcome with. This type of algorithm is also sensitive to changes in scale and scale. With these issues in mind, nearest neighbor algorithms can be very powerful, especially for large data sets.

〔089〕 本明細書で議論するように、k−最近傍法を実装するためのツールは、統計処理用ソフトウェア計算言語・環境であるRに使用可能である。例えば、R言語のパッケージである「e1071」の第1.5−25版は、k−最近傍法を作成・処理・利用するためのツールを含んでいる。   [089] As discussed herein, a tool for implementing the k-nearest neighbor method is available for R, the software computing language / environment for statistical processing. For example, the R language package "e1071", version 1.5-25, includes tools for creating, processing, and utilizing the k-nearest neighbor method.

分類木
〔090〕 分類木とは、特徴選択が組み込まれた翻訳処理が容易な分類器である。分類木は、各下位空間に含まれている1つのクラスからの観測の割合が最大となるような方法で、データ空間を再帰的に分割する。
Classification Tree [090] A classification tree is a classifier that incorporates feature selection and that facilitates translation processing. The classification tree recursively partitions the data space in such a way that the proportion of observations from one class contained in each subspace is maximized.

〔091〕 データ空間を再帰的に分割するプロセスによって、それぞれの端点に試験される条件をもつ二分木が作成される。葉に到達するまで木の枝を追っていくことによって、新しい観測を分類する。それぞれの葉では、ある確率が、所定のクラスに属している観測に割り当てられる。新しい観測は、最も高い確率を有するクラスに分類される。   [091] The process of recursively partitioning the data space creates a binary tree with the conditions tested at each endpoint. Classify new observations by following the branches of the tree until they reach the leaves. In each leaf, a certain probability is assigned to observations belonging to a given class. New observations fall into the class with the highest probability.

〔092〕 分類木は本質的に、その属性が統計処理言語で構成されている決定木である。これらは非常に柔軟であるが、ノイズが非常に多い(他の方法に比べて誤りの分散が大きい)。   [092] A classification tree is essentially a decision tree whose attributes are made up of statistical processing languages. They are very flexible, but they are very noisy (more error variance than other methods).

〔093〕 本明細書で議論するように、分類木を実装するためのツールは、統計処理用ソフトウェア計算言語・環境であるRに使用可能である。例えば、R言語のパッケージである「tree」の第1.0−28版は、分類木を作成・処理・利用するためのツールを含んでいる。   [093] As discussed in this specification, a tool for implementing a classification tree can be used for R, which is a software calculation language / environment for statistical processing. For example, version 1.0-28 of the R language package “tree” includes tools for creating, processing, and using classification trees.

ランダムフォレスト
〔094〕 分類木は一般的にノイズが多い。ランダムフォレストは、多くの木の平均をとることで、このノイズを低下させようとするものである。その結果、ある分類木と比較して、誤りの分散が小さくなった分類木が得られる。
Random Forest [094] Classification trees are generally noisy. Random forests try to reduce this noise by averaging many trees. As a result, it is possible to obtain a classification tree with a smaller error variance than a certain classification tree.

〔095〕 以下のアルゴリズムを使用して、森を大きくする:
1.Bが森を構成する木の数である
[095] Growing a forest using the following algorithm:
1. B is the number of trees that make up the forest

について、
a.ブーストラップサンプルを生成する(ブーストラップサンプルとは、観測データと同じ数の観測を有する観測データからの置き換えによって導き出されたサンプルである)
b.このブーストラップサンプルについて分類木、
about,
a. Generate bootstrap samples (bootstrap samples are samples derived by replacement from observations that have the same number of observations as the observations)
b. A classification tree for this bootstrap sample,

を作成する。
2.セット
To create.
2. set

を出力する。このセットがランダムフォレストである。
〔096〕 ランダムフォレストを使って新しい観測を分類するには、ランダムフォレストに含まれているそれぞれの分類木を使って新しい観測を分類する。分類木のうち、新しい観測が最も頻繁に分類されるクラスが、その新しい観測をランダムフォレストが分類するクラスである。
Is output. This set is a random forest.
[096] To classify new observations using a random forest, classify new observations using each classification tree included in the random forest. Of the classification trees, the class in which new observations are most frequently classified is the class in which the random observation classifies the new observations.

〔097〕 翻訳処理の評価においては、ランダムフォレストは分類木で見られる多くの問題を低減する。
〔098〕 本明細書で議論するように、ランダムフォレストを実装するためのツールは、統計処理用ソフトウェア計算言語・環境であるRに使用可能である。例えば、R言語のパッケージである「randomForest」の第4.6−2版は、ランダムフォレストを作成・処理・利用するためのツールを含んでいる。
[097] In assessing translation processing, random forests reduce many of the problems found in classification trees.
[098] As discussed herein, tools for implementing a random forest can be used with R, a software computing language / environment for statistical processing. For example, the R language package "randomForest", version 4.6-2, includes tools for creating, processing, and using random forests.

アダブースト(適応的ブースティング)
〔099〕 アダブーストは、各対象につき、測定値の1種類のk−次元ベクトル(k−タプルと呼ばれる)に基づいて、各n個の対象を2つ以上の疾患クラスに分類するのに使われる方法を提供する(アダブーストは、技術的には、ある観測が属するクラスが2つの場合にのみ機能する。g>2の場合には、観測を「なし」のクラスに分類する(g/2)のモデルを生成する必要がある。その後、これらのモデルから得られた結果を合わせて、特定の観測が属すクラスを予測する)。アダブーストは、予測性能が良くないが、無作為よりはましな、一連の「弱い」分類器を利用し、それらを組み合わせて優れた分類器を生成する(この文脈における予測性能とは、誤って分類される観測として定義される)。アダブーストで使用される弱い分類器は、分類木および回帰木(CART)である。CARTはデータ空間を、その領域中に分布している新しい観測の全てが特定の分類名に割り当てられている領域に、再帰的に分割する。アダブーストは、重み付けられているデータセットに基づいて、一連のCARTを構築する。ここで重みは、直前の反復で使用された分類器の性能に依存する(Han J & Kamber M, 2006,第六章, Data Mining, Concepts and Techniques,第二版.Elsevierアムステルダム)。
Adaboost (adaptive boosting)
[099] AdaBoost is used to classify each n subjects into two or more disease classes based on one k-dimensional vector of measurements (called k-tuple) for each subject. Providing a method (AdaBoost technically works only if an observation belongs to two classes. If g> 2, classify the observation into the “none” class (g / 2). , And then combine the results obtained from these models to predict the class to which a particular observation belongs). AdaBoost utilizes a set of "weaker" classifiers that are less predictive but better than random and combine them to produce a good classifier (predictive performance in this context is Defined as an observation that is classified). The weak classifiers used in AdaBoost are classification trees and regression trees (CART). CART recursively partitions the data space into regions where all new observations distributed in that region are assigned to a particular taxonomy. AdaBoost builds a series of CARTs based on the weighted data set. Here the weights depend on the performance of the classifier used in the previous iteration (Han J & Kamber M, 2006, Chapter 6, Data Mining, Concepts and Techniques, 2nd edition. Elsevier Amsterdam).

データを分類する方法
〔0100〕 本発明は、個人から得たデータ(試験データ、すなわち、バイオマーカー測定値)を分類する方法を提供する。これらの方法は、学習データを準備または収集する工程、および個人から得た試験データを上述した分類システムのうちの1つを利用して評価する(学習データと比較して)工程を含む。好ましい分類システムは学習機械であり、例えば、サポートベクトルマシンまたはアダブースト分類器である。分類システムは、試験データに基づき、個人の分類を出力する。
Method of Classifying Data [0100] The present invention provides a method of classifying data (test data, that is, biomarker measurement values) obtained from an individual. These methods include the steps of preparing or collecting learning data and evaluating (compared to the learning data) test data obtained from an individual utilizing one of the classification systems described above. A preferred classification system is a learning machine, for example a support vector machine or an AdaBoost classifier. The classification system outputs an individual classification based on the test data.

〔0101〕 試験データは、いかなるバイオマーカー測定値であってもよく、例えば複数のバイオマーカーの血漿濃度の測定値であってよい。一態様において本発明は、それぞれのバイオマーカーのセットの、複数の血漿濃度の測定値であるバイオマーカー測定値を含んでいる試験データの分類方法を提供し、この方法は、(a)電子的に記憶されている学習データベクトルのセットにアクセスする工程、ここで各学習データベクトルまたはk−タプルは個々のヒトを表しており、かつ、バイオマーカー測定値、例えば、対応するヒトに関する各バイオマーカーのセットの、血漿濃度の測定値を含んでおり、学習データはさらに、対応するそれぞれのヒトの病状についての分類を含んでおり;(b)電子的に記憶されている学習データベクトルのセットを使用して、サポートベクトルマシンの電子表示を訓練する工程;(c)ヒト試験対象に関する複数の血漿濃度の測定値を含む試験データを受信する工程;(d)サポートベクトルマシンの電子表示を使用して、試験データを評価する工程;および(e)評価する工程に基づいたヒト試験対象の分類を出力する工程、を含む。別の態様では、本発明は、各バイオマーカーのセットの複数の血漿濃度の測定値であるバイオマーカー測定値を含む試験データを分類する方法を提供し、この方法は、(a)電子的に記憶されている学習データベクトルのセットにアクセスする工程、ここで各学習データベクトルまたはk−タプルは個々のヒトを表しており、かつ、バイオマーカー測定値、例えば対応するヒトに関する各バイオマーカーのセットの、血漿濃度の測定値を含み、学習データはさらに、対応するそれぞれのヒトの病状についての分類を含んでおり;(b)アダブーストを介した分類器を構築するために、電子的に記憶されている学習データベクトルのセットを使用する工程;(c)ヒト試験対象に関する複数の血漿濃度の測定値を含む試験データを受け取る工程;(d)アダブースト分類器を使用して試験データを評価する工程;および(e)評価する工程に基づいたヒト試験対象の分類を出力する工程、を含む。本発明による出力は、電子表示にヒトが読み取り可能な形式で表示する工程を含む。   [0101] The test data may be any biomarker measurement value, for example, measurement value of plasma concentration of a plurality of biomarkers. In one aspect, the invention provides a method of classifying test data comprising biomarker measurements that are measurements of multiple plasma concentrations for each set of biomarkers, the method comprising: (a) electronically Storing a set of training data vectors stored in each of the training data vectors, each training data vector or k-tuple representing an individual human, and a biomarker measurement, eg, each biomarker for the corresponding human. Of plasma concentration measurements, the training data further includes a classification for each corresponding human medical condition; (b) a set of electronically stored training data vectors. Using to train an electronic display of a support vector machine; (c) a test including multiple plasma concentration measurements on a human test subject. Receiving the data; (d) using the electronic display of the support vector machine to evaluate the test data; and (e) outputting a classification of the human test subject based on the evaluating step. . In another aspect, the invention provides a method of classifying test data comprising biomarker measurements that are measurements of multiple plasma concentrations of each set of biomarkers, the method comprising: (a) electronically Accessing a stored set of training data vectors, where each training data vector or k-tuple represents an individual human and a biomarker measurement, eg, a set of biomarkers for a corresponding human. , And the training data further includes classifications for each corresponding human condition; (b) electronically stored to build a classifier via AdaBoost. Using a set of training data vectors that are presenting; (c) receiving test data that includes multiple plasma concentration measurements for a human test subject. Step (d) evaluating the test data using the AdaBoost classifier; and (e) a step of outputting a classification of human test subject based on the step of evaluating comprises a. Outputting according to the present invention includes displaying in an electronic display in a human readable format.

〔0102〕 病状についての分類は、病状の有無であってよい。本発明による病状は、肺疾患、例えば非小細胞肺癌または反応性気道疾患(例えば、喘息)となり得る。
〔0103〕 学習ベクトルのセットは、少なくとも20、25、20、35、50、75、100、125、150、またはそれ以上のベクトルを含み得る。
[0102] The classification regarding the medical condition may be presence or absence of the medical condition. The medical condition according to the present invention can be a lung disease, eg non-small cell lung cancer or reactive airway disease (eg asthma).
[0103] The set of learning vectors may include at least 20, 25, 20, 35, 50, 75, 100, 125, 150, or more vectors.

〔0104〕 当然のことながら、データを分類する方法は、本明細書に記載のいずれの方法においても使用することができる。具体的には、本明細書に記載のデータを分類する方法は、生理学的に特徴付ける方法、および肺疾患、例えば非小細胞肺癌および反応性気道疾患(例えば、喘息)を診断するための方法において使用することができる。   [0104] Of course, the method of classifying data can be used in any of the methods described herein. Specifically, methods of classifying the data described herein include methods of physiologically characterizing and methods for diagnosing lung diseases, such as non-small cell lung cancer and reactive airway disease (eg, asthma). Can be used.

少ない数のバイオマーカーを使用した、データの分類
〔0105〕 本発明はまた、減数したセットのバイオマーカーを含む、データ(例えば個人から得た試験データ)を分類する方法を提供する。つまり、選択したバイオマーカーの下位セットに関するバイオマーカー測定値の下位セットだけを含めることで学習データを少なくすることができる。同様に、試験データも、選択した同じセットのバイオマーカーに由来するバイオマーカー測定値の下位セットだけに限定することができる。
Classification of Data Using a Small Number of Biomarkers [0105] The present invention also provides a method of classifying data (eg, test data obtained from an individual) that includes a reduced set of biomarkers. That is, the learning data can be reduced by including only the lower set of biomarker measurement values regarding the selected lower set of biomarkers. Similarly, test data can be limited to only a subset of biomarker measurements derived from the same set of selected biomarkers.

〔0106〕 一態様では、本発明は、各バイオマーカーのセットの複数の血漿濃度の測定値であるバイオマーカー測定値を含む試験データを分類する方法を提供し、この方法は、(a)電子的に記憶されている学習データベクトルのセットにアクセスする工程、ここで各学習データベクトルは個々のヒトを表しており、かつ、対応するヒトに関するバイオマーカーのセットの、各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでおり;(b)バイオマーカーのセットから、バイオマーカーの下位セットを選択する工程;(c)学習機械、例えばサポートベクトルマシンの電子表示を、電子的に記憶されている学習データベクトルのセットのバイオマーカーの下位セットからのデータを使用して訓練する工程、;(d)ヒト試験対象に関する複数の血漿濃度の測定値を含む試験データを受け取る工程;(d)学習機械の電子表示を使用して試験データを評価する工程;および(e)評価する工程に基づいたヒト試験対象の分類を出力する工程、を含む。   [0106] In one aspect, the invention provides a method of classifying test data comprising biomarker measurements that are measurements of multiple plasma concentrations of each set of biomarkers, the method comprising: A set of training data vectors stored in memory, where each training data vector represents an individual human and a biomarker measurement of each biomarker of the set of biomarkers for the corresponding human. Values, each training data vector further including a classification for the corresponding human medical condition; (b) selecting a sub-set of biomarkers from the set of biomarkers; (c) a learning machine, eg, support. The electronic display of the vector machine is used to display the biomarker sub-set of a set of electronically stored training data vectors. Training using data from the test ;; (d) receiving test data containing multiple plasma concentration measurements for the human test subject; (d) using the electronic display of the learning machine to view the test data. Evaluating; and (e) outputting a classification of human test subjects based on the evaluating.

〔0107〕 好ましい態様では、バイオマーカーの下位セットを選択する工程は、(i)バイオマーカーのセットに含まれているそれぞれのバイオマーカーについて、バイオマーカーの2群の濃度測定値のマージン分布間の距離を計算すること、それによって、複数の距離が生成され;(ii)その距離に従って、バイオマーカーのセットに含まれているバイオマーカーを順序付けること、それによって、順序付けられたバイオマーカーのセットが生成され;(iii)順序付けられたバイオマーカーのセットの複数の初期セグメントのそれぞれについて、学習データに基づいて、学習機械用のモデルフィットの指標を計算すること;(iv)モデルフィットの最大値型指標に従って、順序付けられたバイオマーカーのセットの初期セグメントを選択すること、それによって、順序付けられたバイオマーカーのセットの好ましい初期セグメントが選択され;(v)バイオマーカーの空集合から開始し、バイオマーカーの下位セットを生成するために、順序付けられたバイオマーカーのセットの、好ましい初期セグメントからさらなるバイオマーカーをモデルに再帰的に追加すること、ここで各さらなるバイオマーカーは、(a)好ましい初期セグメントに含まれている残りのバイオマーカーの中でも、それを追加することで、モデルフィットが最大に改良される場合、および(b)それを追加することで、モデルフィットが少なくとも予め設定した閾値までは改良される場合に、既存のバイオマーカーの下位セットに追加され;および(vi)それ以上バイオマーカーを追加しても、予め設定しておいた閾値より、そのモデルフィット指標を超えるモデルフィットの指標が得られない場合には、既存のバイオマーカーの下位セットへのバイオマーカーの追加を停止すること、それによって、バイオマーカーの下位セットが選択される、を含む。   [0107] In a preferred embodiment, the step of selecting a sub-set of biomarkers comprises (i) for each biomarker included in the set of biomarkers, between the margin distributions of the concentration measurements of the two groups of biomarkers. Calculating the distances, thereby producing a plurality of distances; (ii) ordering the biomarkers contained in the set of biomarkers according to the distances, thereby providing an ordered set of biomarkers (Iii) calculating, for each of a plurality of initial segments of the ordered set of biomarkers, an index of a model fit for a learning machine based on the training data; (iv) a model fit maximum type Initial segmentation of a set of biomarkers ordered according to indicators A preferred initial segment of the ordered set of biomarkers; (v) starting with an empty set of biomarkers and ordered to produce a sub-set of biomarkers Recursively adding additional biomarkers from the preferred initial segment of the set of biomarkers to the model, wherein each additional biomarker comprises (a) among the remaining biomarkers contained in the preferred initial segment, A sub-set of existing biomarkers if the model fit is maximally improved by adding, and (b) the model fit is improved by adding it, at least up to a preset threshold. And (vi) adding more biomarkers , If the model fit index exceeding the model fit index is not obtained from the preset threshold, stop adding the biomarker to the sub-set of existing biomarkers, thereby A subset of the markers is selected.

〔0108〕 本明細書に記載の方法、キット、およびシステムは、選択した複数のバイオマーカーのバイオマーカー測定値を決定する工程を含む場合がある。好ましい形態では、この方法は、実施例に記載したバイオマーカーの、任意の3種類のバイオマーカーの下位セットのバイオマーカー測定値を決定する工程を含む。あるいは、この方法は、実施例に記載したバイオマーカーの、少なくとも4、5、6、または7種類の特定のバイオマーカーの下位セットのバイオマーカー測定値を決定する工程を含む。あるいは、この方法は、実施例に記載したバイオマーカーの、少なくとも8、9、10、11、12、または13種類の特定のバイオマーカーの下位セットのバイオマーカー測定値を決定する工程を含む。あるいは、この方法は、実施例に記載したバイオマーカーの、少なくとも14、15、16、17、18、19、20、またはそれ以上(例えば、59)の種類の特定のバイオマーカーの下位セットのバイオマーカー測定値を決定する工程を含む。無論、さらなるバイオマーカーのバイオマーカー測定値を、目的の疾患に関連があろうとなかろうと、同時に決定することも本発明の想定内であることを当業者は理解する。これらさらなるバイオマーカー測定値の決定は、本発明による対象の分類を妨害するものではない。   [0108] The methods, kits, and systems described herein may include the step of determining biomarker measurements for a plurality of selected biomarkers. In a preferred form, the method comprises the step of determining the biomarker measurements of a subset of any three biomarkers of the biomarkers described in the examples. Alternatively, the method comprises the step of determining biomarker measurements of a subset of at least 4, 5, 6, or 7 specific biomarkers of the biomarkers described in the examples. Alternatively, the method comprises the step of determining biomarker measurements of a subset of at least 8, 9, 10, 11, 12, or 13 specific biomarkers of the biomarkers described in the examples. Alternatively, the method comprises the biomarker of a sub-set of at least 14, 15, 16, 17, 18, 19, 20 or more (eg 59) types of specific biomarkers of the biomarkers described in the examples. The step of determining a marker measurement is included. Of course, one skilled in the art will understand that it is within the contemplation of the present invention to simultaneously determine biomarker measurements of additional biomarkers, whether related to the disease of interest. The determination of these additional biomarker measurements does not interfere with the classification of the subject according to the invention.

〔0109〕 バイオマーカーの下位セットは、本明細書に記載の減数方法によって決定することができる。例えば、本発明は、モデルフィットの最高値型指標に寄与し、それによって高い予測精度を維持するバイオマーカーの下位セットを見出すための、様々なモデル選択アルゴリズム(例えば、F_SSFS)を提供する。実施例7〜10に、減数した、特定のバイオマーカーの下位セットのモデルを示す。   [0109] The subset of biomarkers can be determined by the subtraction method described herein. For example, the present invention provides various model selection algorithms (eg, F_SSFS) to find a sub-set of biomarkers that contribute to the highest valued index of model fit, thereby maintaining high prediction accuracy. Examples 7-10 show models for a reduced subset of certain biomarkers.

〔0110〕 好ましい形態では、バイオマーカーは、モデルフィットの最大値型指標に寄与しているバイオマーカーを含む、コンピューターで計算した下位セットから選択される。これらのバイオマーカーが含まれている限り、本発明は、必ずしも貢献しない、少数のさらなるバイオマーカーを含むことを排除しない。モデルを本明細書に記載したように導き出す限り、そのようなさらなるバイオマーカー測定値を分類モデルに含めても、試験データの分類は妨害されない。他の態様では、対象に関し、4、5、6、7、8、9、10、12、15、20、25、30、35、40または50以下のバイオマーカーのバイオマーカー測定値を決定し、また、同じ数のバイオマーカーが学習段階でも使用される。   [0110] In a preferred form, the biomarkers are selected from a computer-calculated subset that includes biomarkers that contribute to the maximal index of model fit. As long as these biomarkers are included, the present invention does not exclude the inclusion of a small number of additional biomarkers that do not necessarily contribute. Inclusion of such additional biomarker measurements in the classification model does not interfere with classification of the test data, as long as the model is derived as described herein. In another aspect, determining biomarker measurements of 4, 5, 6, 7, 8, 9, 10, 12, 15, 20, 25, 30, 35, 40 or 50 or less biomarkers for the subject, Also, the same number of biomarkers is used during the learning phase.

〔0111〕 別の形態では、選択バイオマーカーは、モデルフィットの指標への寄与が最も低かったバイオマーカーを除いた、コンピューターで計算したバイオマーカーの下位セットから選択される。これらの選択されたバイオマーカーが含まれている限り、本発明は、必ずしも貢献しない、少数のさらなるバイオマーカーを含むことを排除しない。モデルを本明細書に記載したように導き出す限り、そのようなさらなるバイオマーカー測定値を分類モデルに含めても、試験データの分類は妨害されない。他の態様では、対象に関し、4、5、6、7、8、9、10、12、15、20、25、30、35、40または50以下のバイオマーカーのバイオマーカー測定値を決定し、また、同じ数のバイオマーカーが学習段階でも使用される。   [0111] In another aspect, the selectable biomarkers are selected from a subset of computer-calculated biomarkers, excluding those biomarkers that had the least contribution to the index of model fit. As long as these selected biomarkers are included, the present invention does not exclude the inclusion of a small number of additional biomarkers that do not necessarily contribute. Inclusion of such additional biomarker measurements in the classification model does not interfere with classification of the test data, as long as the model is derived as described herein. In another aspect, determining biomarker measurements of 4, 5, 6, 7, 8, 9, 10, 12, 15, 20, 25, 30, 35, 40 or 50 or less biomarkers for the subject, Also, the same number of biomarkers is used during the learning phase.

〔0112〕 また、本明細書に記載のバイオマーカーの様々な組み合わせを、本明細書に記載のキットの設計方法ならびにキットおよびシステムに適用可能であることも理解される。別の態様では、観測または試験データを訓練したモデルを使用して分類するために、学習機械、例えばサポートベクトルマシンで使用するバイオマーカーの数を、任意の数のクラスに拡張されたLeeのF_SSFS方法(Lee、2009)で減数する。F_SSFS方法は、(i)モデル中に保持されるのに適した候補である変数のセットを決定し;および(ii)クラス間の変数の値の分離を定量化するF−スコアに基づいて、候補を選択する。(ここで、   [0112] It is also understood that various combinations of biomarkers described herein are applicable to the kit design methods and kits and systems described herein. In another aspect, the number of biomarkers used in a learning machine, eg, a support vector machine, to classify observed or test data using a trained model is extended to Lee's F_SSFS. Decrement by the method (Lee, 2009). The F_SSFS method determines (i) a set of variables that are suitable candidates to be retained in the model; and (ii) based on an F-score that quantifies the separation of the values of the variables between classes, Select a candidate. (here,

の変数のF−スコアは The F-score of the variable is

として定義され、式中、 Is defined as

はクラスの数であり、 Is the number of classes,

はクラス Is a class

に由来する観測の数である。)この変数のセットには、前向きモデル選択が、学習機械の精度の向上に基づいてモデルに加えられた変数とともに適用される。本明細書で例示するように、変数はバイオマーカーであり、クラスは肺病理の分類である。代表的な学習機械としては、SVMやアダブースト分類器が挙げられる。 Is the number of observations derived from. ) For this set of variables, forward model selection is applied along with the variables added to the model based on the improvement in the accuracy of the learning machine. As exemplified herein, the variable is a biomarker and the class is a classification of lung pathology. Typical learning machines include SVM and AdaBoost classifier.

〔0113〕 現在のところ、バイオマーカーの下位セットを選択するための別の技術も開示されている。この技術の代表的なアルゴリズムには以下の工程が含まれる。
1.以下の工程は、学習データベクトルのセットに関するものであり、それぞれのセットには分類が含まれる。バイオマーカーのセット
[0113] Currently, another technique for selecting a sub-set of biomarkers is also disclosed. A typical algorithm of this technique includes the following steps.
1. The following steps are for a set of training data vectors, each set including a classification. Set of biomarkers

に含まれている各バイオマーカー Each biomarker included in

について、各学習データベクトル、と関連がある経験的な分類によって定義した2クラスのバイオマーカー For each learning data vector, and two classes of biomarkers defined by empirical classification associated with

のマージン分布間の距離メトリックを、以下のように計算する。 The distance metric between the margin distributions of is calculated as follows.

式(11)の記号 Symbol of formula (11)

は、検討中のクラスの数である。学習機械、例えばサポートベクトルマシンを使用する多くの例において、m=2である。記号
Is the number of classes under consideration. In many examples using learning machines, such as support vector machines, m = 2. symbol

は、学習データベクトルのセットに含まれているgのバイオマーカー測定値の中央値を表す。記号 Represents the median of the biomarker measurements of g r in the set of training data vectors. symbol

は、バイオマーカーgのs−番目のクラスの中央値を表し、ここで各クラスは、学習データベクトルの分類によって定義される。記号 Represents the median s- th class of biomarkers g r, where each class is defined by classification of training data vectors. symbol

および and

はそれぞれ、s−番目のクラスの分布の第一および第三四分位数を示す(バイオマーカーgについて)。経験的な学習データベクトル分類を使用してsで表示される2つのクラスを定義することの代替法は、各学習ベクトルを別個のクラスに分類するための全てのバイオマーカーを含むサポートベクトルマシンの初回の実行を利用することであることに留意する。
2.式(11)に従って、最大から最小の順番でバイオマーカーを順序付ける。
3.式(12)によって、カットオフ指数のセットを定義する。
Respectively indicate the first and third quartile of the distribution of the s- th class (for biomarker g r). An alternative to defining two classes represented by s using empirical learning data vector classification is a support vector machine containing all biomarkers for classifying each learning vector into distinct classes. Keep in mind that it is using the first run.
2. The biomarkers are ordered from largest to smallest according to equation (11).
3. Equation (12) defines the set of cutoff indices.

ここでpはベクトルの次元である。
4.それぞれの
Where p is the dimension of the vector.
4. each

について、訓練した学習機械に関連するモデル中の第一の For the first in the model related to the trained learning machine

バイオマーカーを保持し、スコアに従って順序付け(降順に)、およびモデルフィットの指標(例えば感度または精度)を計算する。言い換えれば、バイオマーカーの初期セグメントを保持し、モデル中で(11)に従って順序付け、およびモデルフィットの使用、例えば正しく分類された試験ベクトルのパーセンテージを計算する(モデルフィットの他の指標としては、精度、感度、特異度、陽性予測値、および陰性予測値が挙げられる。例えば表2を参照のこと)。これを、Kに含まれている各 The biomarkers are retained and ordered according to score (descending order), and indicators of model fit (eg sensitivity or accuracy) are calculated. In other words, keep the initial segment of the biomarker, order according to (11) in the model, and use the model fit, eg calculate the percentage of correctly classified test vectors (another indicator of model fit is accuracy. , Sensitivity, specificity, positive predictive value, and negative predictive value (see, eg, Table 2). Each of these included in K

のバイオマーカーの各初期セグメントについて(すなわち、式(11)に従って第一のバイオマーカーから For each initial segment of the biomarker (ie, from the first biomarker according to equation (11)

番目のバイオマーカーまで)実行する。 Perform up to the second biomarker).

To

にする。ここでは、その To Here that

に関係するモデルが、モデルフィットの最大値型指標を有するようにする。
5.セットを定義する。
Ensure that the model associated with has a maximum value type index of model fit.
5. Define a set.

6.バイオマーカーを含まないモデルから開始し、現在モデルには入っていない各 6. Starting with a model that does not include biomarkers, each that is not currently in the model

To

を加え、モデルフィットの選択指標を計算する。その後、このバイオマーカーを除き、セット中の次のバイオマーカーを加える。
7.工程6でモデルフィットを最もよく改善したバイオマーカーを、その改善が予め設定しておいた閾値を上回る場合に追加する。例えば、モデルフィットの指標を正しく分類された試験ベクトルのパーセンテージとすれば、閾値は、0.0005、0.0001、0.005、0.001、0.05、0.01、0.5、または0.1となり得る。直前の文では、数を絶対値として、つまり、パーセンテージ(%)なしで表した。そのため、例えば、0.0005は0.05%である。
8.工程7でバイオマーカーを追加した場合には工程5に戻る。そうでなければ、アルゴリズムの直前の反復からのセット、または工程7で定義した追加への基準をどのバイオマーカーも満たさない場合には空集合が、このモデルで使用される、減数されたバイオマーカーのセットである。従って、工程6および7の第一の反復では、単一のバイオマーカーがモデルに追加され(バイオマーカーがいずれも閾値の基準を満たさない場合を除いて)、次いで、閾値の基準に従ってプロセスが停止されるまで、さらなるバイオマーカーがその後の各反復で追加される。よって、工程6〜8は、減数されたバイオマーカーのセットを選択するための再帰的アルゴリズムを提供する。
And calculate the selection index of the model fit. This biomarker is then removed and the next biomarker in the set is added.
7. The biomarker with the best improvement in model fit in step 6 is added if the improvement is above a preset threshold. For example, if the model fit index is the percentage of correctly classified test vectors, the thresholds are 0.0005, 0.0001, 0.005, 0.001, 0.05, 0.01, 0.5, Or it can be 0.1. In the previous sentence, numbers were expressed as absolute values, that is, without a percentage (%). Therefore, for example, 0.0005 is 0.05%.
8. When the biomarker is added in step 7, the process returns to step 5. Otherwise, the set from the previous iteration of the algorithm, or the empty set if none of the biomarkers meet the criteria for addition defined in step 7, is the reduced biomarker used in this model. Is a set. Therefore, in the first iteration of steps 6 and 7, a single biomarker was added to the model (unless none of the biomarkers met the threshold criteria) and then the process stopped according to the threshold criteria. Until further biomarkers are added at each subsequent iteration. Thus, steps 6-8 provide a recursive algorithm for selecting a reduced set of biomarkers.

〔0114〕 従って上記工程1および2は、マージン分布に従って、バイオマーカーに順序を付けることに向けられる。具体的には、学習ベクトルのセットに含まれている2クラスのバイオマーカー測定値のマージン分布の中心傾向(例えば、中央値)の間の距離に従って、バイオマーカーに順序を付けることができる(中央値の替わりに、別の中心傾向、例えば形態または手段を使用してもよい)。各クラスは分類に対応し、およびこれらの分類は、学習データ自体に含まれている経験的な分類から得てもよく、またはこれらの分類は、全てのバイオマーカーを使用した学習機械の初回の実行から得てもよい。従って、バイオマーカーは、経験的なものであっても、または学習機械の初回の実行によって生成されたものであったとしても、分類に対応する2つのクラス間のバイオマーカー測定値の識別性能の関数として順位付けられる。   [0114] Thus, steps 1 and 2 above are directed to ordering biomarkers according to the margin distribution. Specifically, the biomarkers can be ordered according to the distance between the central tendency (eg, median) of the margin distributions of the two classes of biomarker measurements contained in the set of learning vectors (center). Instead of a value, another central tendency may be used, eg form or means). Each class corresponds to a classification, and these classifications may be obtained from empirical classifications contained in the training data itself, or these classifications may be the first of the learning machine using all biomarkers. May get from execution. Therefore, a biomarker, whether empirical or generated by the first run of a learning machine, is a measure of the discriminative ability of biomarker measurements between two classes corresponding to a classification. It is ranked as a function.

〔0115〕 上記工程3、4および5は、選択された初期セグメントが、その他の初期セグメントの内で、学習ベクトルのセットに関する最もよいモデルフィットを有するように、マージン分布によって降順に順位付けられたバイオマーカーの初期セグメントを選択することに向けられている。この初期セグメントは、工程6、7および8に従って、最終的な減数されたバイオマーカーのセットをそこから選択するための、バイオマーカーの普遍集合として機能する。   [0115] Steps 3, 4 and 5 above were ranked in descending order by the margin distribution such that the selected initial segment had the best model fit for the set of learning vectors, among other initial segments. It is directed towards selecting the initial segment of the biomarker. This initial segment serves as a universal set of biomarkers for selecting the final reduced biomarker set therefrom, according to steps 6, 7 and 8.

〔0116〕 工程6、7および8は、バイオマーカーのない基本事例から開始して、再帰的にモデルにバイオマーカーを追加することに向けられている。順番に追加されたバイオマーカーは、マージン分布による順序を考慮せず、モデルフィットへの寄与に従って選択される。工程の基本は、モデルに加えられるバイオマーカーの空集合を考慮することである。再帰工程では、さらなるバイオマーカーを追加するかどうかを決定するために、モデルに含まれている現在のバイオマーカーのセットと一緒に、残りの各バイオマーカーについて学習機械が生成される。残りのバイオマーカーのうち、既存のバイオマーカーに追加した時に、もっとも正確な学習機械に対応するものが、続いて行う追加への候補である。候補バイオマーカーのモデルフィットへの寄与が閾値を上回る限り、それらは順次追加される。この連続的なバイオマーカーの追加プロセスは、残りのバイオマーカーのうちの最もよいものが、予め設定しておいた閾値を超えてモデルフィットを改善しなくなるまで続けられる。   [0116] Steps 6, 7 and 8 are directed to recursively adding biomarkers to the model, starting with the base case without biomarkers. Biomarkers added in order are selected according to their contribution to the model fit, without regard to the order by margin distribution. The basis of the process is to consider the empty set of biomarkers added to the model. In the recursive process, a learning machine is generated for each remaining biomarker along with the current set of biomarkers included in the model to determine whether to add additional biomarkers. Of the remaining biomarkers, the one that corresponds to the most accurate learning machine when added to an existing biomarker is a candidate for subsequent addition. As long as the contribution of candidate biomarkers to the model fit exceeds the threshold, they are added sequentially. This sequential biomarker addition process is continued until the best of the remaining biomarkers does not improve the model fit by exceeding a preset threshold.

〔0117〕 要約すると、このプロセスは工程1〜5でバイオマーカーの最初の普遍集合を選択することに始まり、次いで、工程6、7および8に従って、この普遍集合から、最終的な減数されたバイオマーカーのセットを選択することに続く。   [0117] In summary, the process begins with selecting an initial universal set of biomarkers in steps 1-5, and then following steps 6, 7 and 8 from this universal set to a final reduced biomarker. Following selecting a set of markers.

〔0118〕 あるいは、工程5で定義する上位セットとなる工程6で定義する最初のモデルを変更し、上位セットから各バイオマーカーを追加する代わりに各バイオマーカーを1つずつ除き、次いでモデルフィットの指標を計算することで、減数されたバイオマーカーのセットを導き出すこともできる。従って、工程7を変更して、モデルフィットの指標が予め設定しておいた閾値を下回るまでは縮小されないように、モデルフィットの指標の縮小が最も小さいバイオマーカーを除く。その後、工程7で追加するバイオマーカーがなくなる代わりに、工程7で除くバイオマーカーがなくなることを停止条件とする工程8に従う。   [0118] Alternatively, change the first model defined in step 6 to be the superset defined in step 5 and remove each biomarker one by one from the superset instead of adding each biomarker, then model fit A reduced set of biomarkers can also be derived by calculating the index. Therefore, step 7 is modified to exclude biomarkers with the smallest reduction in model fit index so that they are not reduced until the model fit index falls below a preset threshold. After that, instead of the biomarker added in step 7, the stop condition is that the biomarker removed in step 7 disappears instead of the biomarker added.

〔0119〕 上述した、バイオマーカーの下位セット選択アルゴリズムは、データから予測される好ましいバイオマーカーのセットを含む学習機械を提供することに加えて、考慮するバイオマーカーの結合および相関を明らかにすることができる。これを達成するためには、上述したアルゴリズムの工程7における閾値を排除し、次いで、アルゴリズムの各反復の時点で、直前の反復によって示唆されているモデルと正確に関連しているマージン分布の改善によって付けられた順位またはそれぞれの反復と直前の反復との間の精度の向上に従って追加されたバイオマーカーを保持する。   [0119] In addition to providing a learning machine that includes a preferred set of biomarkers predicted from the data, the above-described biomarker subset selection algorithm reveals binding and correlation of biomarkers to consider. You can To achieve this, we eliminate the threshold in step 7 of the algorithm described above, and then at each iteration of the algorithm, improve the margin distribution that is exactly associated with the model suggested by the previous iteration. Retain the biomarkers added according to the rank assigned by or the improvement in accuracy between each iteration and the previous iteration.

〔0120〕 当然のことながら、減数したバイオマーカーのセットまたはバイオマーカーの下位セットを使用してデータを分類する方法は、本明細書に記載した方法のいずれにも使用することができる。具体的には、本明細書に記載の少ない数のバイオマーカーを使用してデータを分類する方法を、生理学的に特徴付ける方法および肺疾患、例えば非小細胞肺癌および反応性気道疾患(例えば、喘息)を診断する方法に使用してもよい。減らした数のバイオマーカー以外のバイオマーカーを追加してもよい。これらのさらなるバイオマーカーは、診断に寄与してもしなくても、または診断を強化してもしなくてもよい。   [0120] Of course, methods of classifying data using a reduced set of biomarkers or a subset of biomarkers can be used for any of the methods described herein. Specifically, a method of physiologically characterizing methods of classifying data using the low number of biomarkers described herein and lung diseases such as non-small cell lung cancer and reactive airway diseases such as asthma. ) May be used for the method of diagnosing. Biomarkers other than the reduced number of biomarkers may be added. These additional biomarkers may or may not contribute to, or enhance, the diagnosis.

〔0121〕 診断的アッセイまたは予後アッセイで使用するためのバイオマーカーの選択は、特定のバイオマーカーとそれらの一次相互作用器との間の既知の相互作用によって容易になる可能性がある。本発明者らによって同定された多くのバイオマーカーは、全てではなくとも、細胞または器官の様々なコミュニケーション経路に関わっている。コミュニケーション経路中の1つの構成要素の正常からの逸脱は、そのコミュニケーション経路中の他のメンバーにおける関連する逸脱によってもたらされると予想される。当業者であれば容易に、様々なデータベースや使用可能なバイオインフォマティクスソフトウェアを使用して、コミュニケーション経路のメンバーを関連付けることができる(例えば、ARIADNE PATHWAY STUDIO(登録商標)、Ariadne、Inc.、<www.ariadne.genomics.com>またはChEMBLデータベース、European Bioinformatics Institute、European Molecular Biology Laboratory、<www.ebi.ac.uk>を参照のこと)。複数のバイオマーカーのレベルを決定することに基づいた診断的方法、ここで複数のバイオマーカーには、他のものとは別のコミュニケーション経路に関わっているいくつかのバイオマーカーが含まれる、はバイオマーカーレベルを測定することによってもたらされる情報を最大化するだろう。代替的な態様では、選択した下位セット中の任意のバイオマーカーを、同じコミュニケーション経路中の別のバイオマーカー(すなわち、そのバイオマーカーの一次相互作用器)で置き換えてもよい。サポートベクトルマシンの態様では、バイオマーカーを一次相互作用器で置き換えることは、置き換えたバイオ測定値を使用してサポートベクトルマシンを再学習させることを含み得る。   [0121] Selection of biomarkers for use in diagnostic or prognostic assays can be facilitated by known interactions between particular biomarkers and their primary interactors. Many, if not all, biomarkers identified by the inventors are involved in various communication pathways of cells or organs. Deviations from normal of one component in a communication pathway are expected to be caused by related deviations in other members in the communication pathway. Those of skill in the art can readily associate members of the communication pathway using various databases and available bioinformatics software (eg, ARIADNE PATHWAY STUDIO®, Ariadne, Inc., <www. .ariadne.genomics.com> or ChEMBL database, European Bioinformatics Institute, European Molecular Biology Laboratory, <www.ebi.ac.uk>). A diagnostic method based on determining the level of multiple biomarkers, wherein the multiple biomarkers include some biomarkers involved in a communication pathway distinct from the others, It will maximize the information provided by measuring marker levels. In an alternative aspect, any biomarker in the selected subset may be replaced with another biomarker in the same communication pathway (ie, the biomarker's primary interactor). In the support vector machine aspect, replacing the biomarker with a first order interactor may include retraining the support vector machine using the replaced biometric.

生理学的に特徴付ける方法
〔0122〕 本発明は、以下に記載する様々な集団中に含まれている個々のヒトを、生理学的に特徴付ける方法に向けられている。本明細書で使用する場合、本発明による生理学的に特徴付ける方法には、特定の肺疾患を診断する方法、個々のヒトが治療的介入に反応する見込みを予測する方法、個々のヒトがそれぞれの肺疾患を発症するリスクを有しているか否かを決定する方法、患者の疾患重篤度を分類する方法、および共通したいくつかの症状を呈している患者を区別する方法が含まれる。これらの方法は通常、本明細書に記載の特定のバイオマーカーのバイオマーカー測定値を決定すること、および分類システム、例えばサポートベクトルマシン中のこれらの値を利用し、これらの生理的な特徴付けのうちの1つに従って個々のヒトを分類することに依存している。
Methods of Physiologically Characterizing [0122] The present invention is directed to methods of physiologically characterizing individual humans within the various populations described below. As used herein, methods of physiologically characterizing according to the invention include methods of diagnosing a particular lung disease, methods of predicting an individual's likelihood of responding to therapeutic intervention, and methods of determining the individual's individual Methods include determining whether at risk for developing lung disease, classifying a patient's disease severity, and distinguishing patients who present with some symptoms in common. These methods typically rely on determining biomarker measurements for specific biomarkers described herein, and utilizing these values in a classification system, such as a support vector machine, for their physiological characterization. It relies on classifying individual humans according to one of the following:

A.母集団の特徴付け
〔0123〕 本発明は、対象を生理学的に特徴付ける方法を提供し、この方法は、対象の生理学的な試料中の複数のバイオマーカーのバイオマーカー測定値を決定する工程を含み、ここで、複数のマーカーの発現パターンと生理的な状況もしくは状態、または疾患状況の変化(例えば、非小細胞肺癌の期)もしくは状態には相関がある。好ましい態様では、複数のバイオマーカーの発現パターンは、肺疾患例えば非小細胞肺癌または反応性気道疾患を示すものであるか、または反応性気道疾患であるかまたは非小細胞肺癌であるかの区別を補助するものである。好ましくは、複数のバイオマーカーは、機械学習アルゴリズム、例えばサポートベクトルマシンを介した学習データの解析に基づいて選択される。学習データには、多数の対象についての複数のバイオマーカー、ならびに個々の対象に関する疾患の分類情報(例えば、式(1)のyi)、および場合により、対象の他の特徴、例えば性別、人種、年齢、喫煙歴、職歴などが含まれる。別の好ましい態様では、バイオマーカーの発現パターンと、対象が特定の疾患または状態を有しているまたは有する可能性があることについての見込みの高さには相関がある。より好ましい態様では、対象の複数のバイオマーカーのバイオマーカー測定値を決定する方法は、対象が、肺疾患、例えば非小細胞肺癌または反応性気道疾患(例えば、喘息)を発症している、罹患している、または罹患する可能性があることについての見込みの上昇を検出する。発現パターンは、パターン認識について当該分野で公知のいかなる技術によって特徴付けてもよい。複数のバイオマーカーには、実施例1に記載したバイオマーカーのいかなる組み合わせも含まれ得る。
A. Population Characterization [0123] The present invention provides a method of physiologically characterizing a subject, the method comprising determining biomarker measurements of a plurality of biomarkers in a physiological sample of the subject. Here, there is a correlation between the expression pattern of a plurality of markers and the physiological condition or condition, or the change in the disease condition (for example, stage of non-small cell lung cancer). In a preferred embodiment, the expression pattern of the plurality of biomarkers distinguishes between lung disease, such as those indicative of non-small cell lung cancer or reactive airway disease, or reactive airway disease or non-small cell lung cancer. Is to assist. Preferably, the plurality of biomarkers are selected based on analysis of the training data via machine learning algorithms, eg support vector machines. The training data includes multiple biomarkers for multiple subjects, as well as disease classification information for each subject (eg, yi in equation (1)) and, optionally, other characteristics of the subject, such as gender, race. , Age, smoking history, work history, etc. are included. In another preferred embodiment, the pattern of biomarker expression is correlated with a high likelihood that the subject has or is likely to have a particular disease or condition. In a more preferred embodiment, the method of determining a biomarker measurement of a plurality of biomarkers in a subject is carried out in which the subject has a lung disease, such as non-small cell lung cancer or reactive airway disease (eg, asthma). Detecting an increased likelihood of having or being affected. The expression pattern may be characterized by any technique known in the art for pattern recognition. The plurality of biomarkers can include any combination of the biomarkers described in Example 1.

〔0124〕 一態様では、対象は、非小細胞癌または反応性気道疾患(例えば、喘息、慢性閉塞性肺疾患など)の肺疾患のリスクを有している。「リスクを有している」対象には、無症状ではあるが、個人歴もしくは家族歴、行動、疾患原因物質への曝露(例えば、発癌物質)、または他の複数の原因によって、その集団の大部分よりも疾患を発症する可能性の高い個人が含まれる。「リスクを有している」個人は、これまで、個人について決定したリスク因子を統合することで同定されていた。本発明は、関連するバイオマーカーのバイオマーカー測定値を決定することで、「リスクを有している」個人の強力な特徴付けを提供する。   [0124] In one aspect, the subject is at risk of lung disease, such as non-small cell cancer or reactive airway disease (eg, asthma, chronic obstructive pulmonary disease, etc.). Subjects “at risk” may be asymptomatic but may be associated with the population due to personal or family history, behavior, exposure to disease-causing agents (eg, carcinogens), or other causes. Includes individuals who are more likely to develop the disease than most. Individuals who are “at risk” have previously been identified by integrating risk factors determined for the individual. The present invention provides a powerful characterization of "at risk" individuals by determining biomarker measurements of related biomarkers.

〔0125〕 上述した態様は、実施例で記載するバイオマーカーの一覧によって例示される。当然のことながら、これらのバイオマーカーの下位セット、例えば実施例1〜9で記載の下位セットを、記載したいずれの態様で使用してもよい。当業者の自由裁量で、他のバイオマーカーのバイオマーカー測定値を含めることもできる。   [0125] The above-described aspect is exemplified by the list of biomarkers described in Examples. It will be appreciated that a sub-set of these biomarkers, such as the sub-sets described in Examples 1-9, may be used in any of the aspects described. Biomarker measurements of other biomarkers can also be included at the discretion of one of ordinary skill in the art.

B.男性集団の特徴付け
〔0126〕 好ましい態様では、本発明は、男性対象を生理学的に特徴付ける方法を提供し、この方法は、男性対象の生理学的な試料中の複数のバイオマーカーのバイオマーカー測定値を決定する工程を含み、ここで、複数のマーカーの発現パターンと生理的な状況もしくは状態、または疾患状況の変化(例えば、非小細胞肺癌の期)もしくは状態には相関がある。別の好ましい態様では、複数のバイオマーカーの発現パターンは、肺疾患、例えば非小細胞肺癌または反応性気道疾患を示すものとなるか、または反応性気道疾患であるかもしくは非小細胞肺癌であるかの区別を補助するものである。好ましくは、問題となっている病状を有していると同定された多数の男性対象およびその疾患を有していないことが分かっている同程度の数の男性対象のバイオマーカー測定値を含む学習データの収集に基づいて、複数のバイオマーカーを選択する。次いで、この学習データを、機械学習アルゴリズム、例えばサポートベクトルマシンで解析する。発現パターンは、パターン認識について当該分野で公知のいかなる技術によって特徴付けてもよい。複数のバイオマーカーには、実施例、例えば実施例1〜5または7〜8に記載したバイオマーカーのいかなる組み合わせも含まれ得る。
B. Characterization of Male Population [0126] In a preferred aspect, the invention provides a method of physiologically characterizing a male subject, the method comprising biomarker measurements of multiple biomarkers in a physiological sample of the male subject. Wherein the pattern of expression of multiple markers is associated with a physiological condition or condition, or a change in disease condition (eg, stage of non-small cell lung cancer) or condition. In another preferred embodiment, the expression pattern of the biomarkers is such that it is indicative of lung disease, eg non-small cell lung cancer or reactive airway disease, or is reactive airway disease or is non-small cell lung cancer. It helps the distinction. Preferably, learning comprising biomarker measurements of a large number of male subjects identified as having the condition in question and a comparable number of male subjects known not to have the disease. Select multiple biomarkers based on data collection. Then, this learning data is analyzed by a machine learning algorithm, for example, a support vector machine. The expression pattern may be characterized by any technique known in the art for pattern recognition. The plurality of biomarkers can include any combination of the biomarkers described in the Examples, eg Examples 1-5 or 7-8.

〔0127〕 一態様では、男性対象は、非小細胞癌または反応性気道疾患(例えば、喘息、慢性閉塞性肺疾患など)の肺疾患のリスクを有している。「リスクを有している」対象および個人については上で説明した。   [0127] In one aspect, the male subject is at risk of lung disease, such as non-small cell cancer or reactive airway disease (eg, asthma, chronic obstructive pulmonary disease, etc.). Subjects and individuals “at risk” have been described above.

C.女性集団の特徴付け
〔0128〕 本発明はまた、女性対象を生理学的に特徴付ける方法を提供する。好ましい態様では、本発明は、女性対象の生理学的に特徴付ける方法を提供し、この方法は、女性対象の生理学的な試料中の複数のバイオマーカーのバイオマーカー測定値を決定する工程を含み、ここで、複数のマーカーの発現パターンと生理的な状況もしくは状態、または疾患状況の変化(例えば、非小細胞肺癌の期)もしくは状態には相関がある。別の好ましい態様では、複数のバイオマーカーの発現パターンは、肺疾患、例えば非小細胞肺癌または反応性気道疾患を示すものであるか、または反応性気道疾患であるかもしくは非小細胞肺癌であるかの区別を補助するものである。これらの態様での方法は、上述した方法と同様であるが、学習データセットに含まれる対象は女性となる。複数のバイオマーカーには、実施例、例えば実施例1〜4、6〜7、および9に記載したバイオマーカーのいかなる組み合わせも含まれ得る。
C. Female Population Characterization [0128] The present invention also provides methods for physiologically characterizing female subjects. In a preferred aspect, the invention provides a method of physiologically characterizing a female subject, the method comprising determining a biomarker measurement of a plurality of biomarkers in a physiological sample of the female subject, the method comprising: Thus, there is a correlation between the expression pattern of a plurality of markers and the physiological condition or condition, or the change in the disease condition (eg, stage of non-small cell lung cancer) or condition. In another preferred embodiment, the expression pattern of the biomarkers is indicative of lung disease, eg non-small cell lung cancer or reactive airway disease, or is reactive airway disease or non-small cell lung cancer. It helps the distinction. The method in these aspects is similar to the method described above, but the subject included in the training dataset is a female. The plurality of biomarkers can include any combination of the biomarkers described in the Examples, eg, Examples 1-4, 6-7, and 9.

〔0129〕
一態様では、女性対象は、非小細胞癌または反応性気道疾患(例えば、喘息、慢性閉塞性肺疾患など)の肺疾患のリスクを有している。「リスクを有している」対象および個人については上で説明した。
[0129]
In one aspect, the female subject is at risk of lung disease, such as non-small cell cancer or reactive airway disease (eg, asthma, chronic obstructive pulmonary disease, etc.). Subjects and individuals “at risk” have been described above.

肺疾患
〔0130〕 本発明は、肺疾患についての様々な診断方法および予後方法を提供する。具体的には、本発明は、反応性気道疾患、具体的には過剰応答性TH細胞およびTH17細胞と関連がある疾患を診断する方法を提供する。反応性気道疾患には、喘息、慢性閉塞性肺疾患、アレルギー性鼻炎、嚢胞性線維症、気管支炎、または、様々な生理的な刺激および/または環境刺激に対する過剰な反応を表している他の疾患が含まれる。具体的には、本発明は、喘息および慢性閉塞性肺疾患の診断方法、より具体的には喘息の診断方法を提供する。
Lung Disease [0130] The present invention provides various diagnostic and prognostic methods for lung disease. Specifically, the present invention provides methods of diagnosing reactive airway disease, specifically disease associated with hyperresponsive TH 2 cells and TH 17 cells. Reactive airway disease includes asthma, chronic obstructive pulmonary disease, allergic rhinitis, cystic fibrosis, bronchitis, or any other manifestation of excessive response to various physiological and / or environmental stimuli. Diseases are included. Specifically, the present invention provides a method for diagnosing asthma and chronic obstructive pulmonary disease, and more specifically a method for diagnosing asthma.

〔0131〕 また、本発明は非小細胞肺癌の診断方法も提供する。この方法は、本明細書に記載の複数のバイオマーカーのバイオマーカー測定値を決定する工程を含み、ここでバイオマーカーは、非小細胞肺癌の有無または発達を示すものである。例えば、本明細書に記載のバイオマーカーのバイオマーカー測定値を使用して、非小細胞肺癌の進行の程度、前癌病変の有無、または非小細胞肺癌の期を決定することができる。   [0131] The present invention also provides a method for diagnosing non-small cell lung cancer. The method comprises determining biomarker measurements of a plurality of biomarkers described herein, where the biomarkers are indicative of the presence or absence of non-small cell lung cancer. For example, biomarker measurements of the biomarkers described herein can be used to determine the extent of progression of non-small cell lung cancer, the presence or absence of precancerous lesions, or the stage of non-small cell lung cancer.

〔0132〕 具体的な態様では、対象は、非小細胞肺癌または反応性気道疾患の1つまたは複数の症状を呈している個人から選択される。症状には、咳、息切れ、喘鳴、胸痛、および喀血;腕の外側を走る肩痛または嗄声を引き起こす声帯の麻痺;嚥下を難しくする可能性のある食道の進入、が含まれ得る。大気道が閉塞すると、肺の一部が虚脱して感染を生じ、その結果、膿瘍または肺炎が引き起こされる可能性がある。骨への転移は強い痛みを生じ得る。脳への転移は、霧視、頭痛、痙攣、または、一般的に脳卒中に関連する症状、例えば身体の各部における知覚の弱まりまたは消失などの神経症状を引き起こす場合がある。肺癌では、腫瘍細胞からのホルモン様物質の生産による症状が引き起こされることが多い。NSCLCで多く見られる腫瘍随伴性症候群には、血中のカルシウムを上昇させる、副甲状腺ホルモン様物質の生産がある。喘息は通常、例えば咳、特に夜間の、喘鳴、息切れおよび胸苦しさ、疼痛または圧迫の症状を引き起こす。従って、喘息の症状の多くがNSCLCの症状と共通していることが明らかである。   [0132] In a specific embodiment, the subject is selected from individuals exhibiting one or more symptoms of non-small cell lung cancer or reactive airway disease. Symptoms can include coughing, shortness of breath, wheezing, chest pain, and hemoptysis; shoulder pain running on the outside of the arm or paralysis of the vocal cords causing hoarseness; esophageal entry that can make swallowing difficult. When the airways are obstructed, some of the lungs collapse and become infected, which can lead to abscesses or pneumonia. Bone metastases can cause severe pain. Metastases to the brain may cause neurological symptoms such as blurred vision, headache, convulsions, or symptoms commonly associated with stroke, such as weakness or loss of sensation in various parts of the body. In lung cancer, symptoms are often caused by the production of hormone-like substances from tumor cells. A paraneoplastic syndrome that is common in NSCLC involves the production of parathyroid hormone-like substances that raise blood calcium. Asthma usually causes symptoms of, for example, coughing, especially at night, wheezing, shortness of breath and chest tightness, pain or pressure. Therefore, it is clear that many of the symptoms of asthma are common with those of NSCLC.

反応性気道疾患を診断する方法
〔0133〕 本発明は、以下に記載する様々な集団中に含まれている、個々のヒトの反応性気道疾患を診断する方法に向けられている。これらの方法は通常、本明細書に記載したように、特定のバイオマーカーのバイオマーカー測定値を決定すること、および分類システム、例えばサポートベクトルマシンを使用して、バイオマーカー測定値を分類することに依存している。
Methods of Diagnosing Reactive Airway Disease [0133] The present invention is directed to methods of diagnosing individual human reactive airway disease comprised in the various populations described below. These methods typically involve determining biomarker measurements for a particular biomarker, as described herein, and classifying the biomarker measurements using a classification system, such as a support vector machine. Depends on.

A.母集団の決定
〔0134〕 本発明は、対象の反応性気道疾患を診断する方法を提供し、この方法は、(a)対象の生理学的試料を収集する工程;(b)前記試料中の複数のバイオマーカーのバイオマーカー測定値を本明細書に記載したように決定する工程;および(c)分類システムを利用し、バイオマーカー測定値に基づいて試料を分類する工程を含み、ここで試料の分類が、対象における反応性気道疾患を示すものとなる。
A. Population Determination [0134] The present invention provides a method of diagnosing a reactive airway disease in a subject, the method comprising: (a) collecting a physiological sample of the subject; (b) a plurality of samples in the sample. Determining a biomarker measurement value of the biomarker as described herein; and (c) utilizing a classification system to classify the sample based on the biomarker measurement value, wherein The classification will be indicative of reactive airway disease in the subject.

〔0135〕 好ましい態様では、本発明は、対象の反応性気道疾患を診断する方法を提供し、この方法は、対象の生理学的な試料中の複数のバイオマーカーのバイオマーカー測定値を決定する工程を含み、ここで複数のマーカーの発現パターンが、反応性気道疾患または反応性気道疾患の段階に関連する変化を示すものとなる。好ましくは、複数のバイオマーカーは、機械学習アルゴリズム、例えばサポートベクトルマシンを介した学習データの解析に基づいて選択される。学習データには、多数の対象についての複数のバイオマーカー、ならびに個々の対象に関する疾患の分類、および場合により、対象の他の特徴、例えば性別、人種、年齢、喫煙歴、職歴などが含まれる。別の好ましい態様では、バイオマーカーの発現パターンと、対象が反応性気道疾患を有しているまたは有する可能性があることについての見込みの高さには相関がある。発現パターンは、パターン認識について当該分野で公知のいかなる技術によって特徴付けてもよい。複数のバイオマーカーには、実施例1に記載したバイオマーカーのいかなる組み合わせも含まれ得る。   [0135] In a preferred embodiment, the invention provides a method of diagnosing a reactive airway disease in a subject, the method comprising determining biomarker measurements of multiple biomarkers in a physiological sample of the subject. , Where the pattern of expression of multiple markers is indicative of reactive airway disease or changes associated with stages of reactive airway disease. Preferably, the plurality of biomarkers are selected based on analysis of the training data via machine learning algorithms, eg support vector machines. Training data includes multiple biomarkers for many subjects, as well as disease classifications for individual subjects, and optionally other characteristics of the subject, such as gender, race, age, smoking history, occupational history, etc. . In another preferred embodiment, there is a correlation between the pattern of biomarker expression and the likelihood that the subject has or is likely to have reactive airway disease. The expression pattern may be characterized by any technique known in the art for pattern recognition. The plurality of biomarkers can include any combination of the biomarkers described in Example 1.

〔0136〕 少なくとも1つの態様では、対象は、反応性気道疾患のリスクを有している。一態様では、反応性気道疾患と関連がある特定のバイオマーカーのバイオマーカー測定値が個人について決定され、正常集団について予測されるレベルとは異なるレベルによって、その個人が「リスクを有している」ことが示唆される。別の態様では、対象は、反応性気道疾患の症状のうちの1つまたは複数を呈している個人から選択される。   [0136] In at least one aspect, the subject is at risk of reactive airway disease. In one aspect, a biomarker measurement of a particular biomarker associated with reactive airway disease is determined for an individual, and the individual is "at risk" by a level different from the level predicted for the normal population. Is suggested. In another aspect, the subject is selected from individuals exhibiting one or more of the symptoms of reactive airway disease.

B.男性集団の決定
〔0137〕 本発明は、男性対象の反応性気道疾患を診断する方法を提供する。これらの態様の方法は上述したものと同様であるが、学習データおよび試料の両方で、対象は男性である。
B. Determination of Male Population [0137] The present invention provides methods for diagnosing reactive airway disease in male subjects. The methods of these embodiments are similar to those described above, but in both the training data and the sample, the subject is male.

C.女性集団の決定
〔0138〕 本発明は、女性対象の反応性気道疾患を診断する方法を提供する。これらの態様の方法は上述したものと同様であるが、学習データおよび試料の両方で、対象は女性である。
C. Determining Female Population [0138] The present invention provides methods for diagnosing reactive airway disease in a female subject. The methods of these embodiments are similar to those described above, but in both the training data and the sample, the subject is a female.

非小細胞肺癌を診断する方法
〔0139〕 本発明は、以下に記載する様々な集団中に含まれている、個々のヒトの非小細胞肺癌を診断する方法に向けられている。これらの方法は通常、本明細書に記載したように、特定のバイオマーカーのバイオマーカー測定値を決定すること、および分類システム、例えばサポートベクトルマシンを使用して、バイオマーカー測定値を分類することに依存している。
Methods of Diagnosing Non-Small Cell Lung Cancer [0139] The present invention is directed to methods of diagnosing individual human non-small cell lung cancer comprised in the various populations described below. These methods typically involve determining biomarker measurements for a particular biomarker, as described herein, and classifying the biomarker measurements using a classification system, such as a support vector machine. Depends on.

A.母集団の決定
〔0140〕 本発明は、対象の非小細胞肺癌を診断する方法を提供し、この方法は、(a)対象の生理学的試料を収集する工程;(b)前記試料中の複数のバイオマーカーのバイオマーカー測定値を、本明細書に記載したように決定する工程;および(c)分類システムを利用し、バイオマーカー測定値に基づいて試料を分類する工程を含み、ここで試料の分類が、対象における非小細胞肺癌有無または発達を示すものとなる。
A. Population Determination [0140] The present invention provides a method of diagnosing non-small cell lung cancer in a subject, the method comprising: (a) collecting a physiological sample of the subject; (b) a plurality of samples in the sample. Determining a biomarker measurement value for the biomarker as described herein; and (c) utilizing a classification system to classify the sample based on the biomarker measurement value, wherein the sample Will indicate the presence or absence or development of non-small cell lung cancer in the subject.

〔0141〕 好ましい態様では、本発明は、対象の非小細胞肺癌を診断する方法を提供し、この方法は、対象の生理学的な試料中の複数のバイオマーカーのバイオマーカー測定値を決定する工程を含み、ここで複数のマーカーの発現パターンが、非小細胞肺癌または非小細胞肺癌病状に関連する変化(すなわち、臨床的ステージまたは診断的ステージ)を示すものとなる。好ましくは、複数のバイオマーカーは、機械学習アルゴリズム、例えばサポートベクトルマシンを介した学習データの解析に基づいて選択される。学習データには、多数の対象についての複数のバイオマーカー、測定値ならびに個々の対象に関する疾患の分類、および場合により、対象の他の特徴、例えば性別、人種、年齢、喫煙歴、職歴などが含まれる。別の好ましい態様では、バイオマーカーの発現パターンと、対象が非小細胞肺癌を有しているまたは有する可能性があることについての見込みの高さには相関がある。発現パターンは、パターン認識について当該分野で公知のいかなる技術によって特徴付けてもよい。複数のバイオマーカーには、実施例1に記載したバイオマーカーのいかなる組み合わせも含まれ得る。   [0141] In a preferred embodiment, the invention provides a method of diagnosing non-small cell lung cancer in a subject, the method comprising determining biomarker measurements of multiple biomarkers in a physiological sample of the subject. , Wherein the expression pattern of the multiple markers is indicative of changes associated with non-small cell lung cancer or non-small cell lung cancer pathology (ie, clinical or diagnostic stage). Preferably, the plurality of biomarkers are selected based on analysis of the training data via machine learning algorithms, eg support vector machines. The training data may include multiple biomarkers for a large number of subjects, measurements and disease classifications for individual subjects, and optionally other characteristics of the subject, such as gender, race, age, smoking history, work history, etc. included. In another preferred embodiment, there is a correlation between the biomarker expression pattern and the likelihood that the subject has or is likely to have non-small cell lung cancer. The expression pattern may be characterized by any technique known in the art for pattern recognition. The plurality of biomarkers can include any combination of the biomarkers described in Example 1.

〔0142〕 一態様では、対象は、非小細胞肺癌のリスクを有している。別の態様では、対象は、非小細胞肺癌の症状のうちの1つまたは複数を呈している個人から選択される。   [0142] In one aspect, the subject is at risk of non-small cell lung cancer. In another aspect, the subject is selected from individuals who have one or more of the symptoms of non-small cell lung cancer.

B.男性集団の決定
〔0143〕 本発明は、男性対象の非小細胞肺癌を診断する方法を提供する。これらの態様の方法は上述したものと同様であるが、学習データおよび試料の両方で、対象は男性である。
B. Determination of Male Population [0143] The present invention provides methods for diagnosing non-small cell lung cancer in male subjects. The methods of these embodiments are similar to those described above, but in both the training data and the sample, the subject is male.

C.女性集団の決定
〔0144〕 本発明は、女性対象の非小細胞肺癌を診断する方法を提供する。これらの態様の方法は上述したものと同様であるが、学習データおよび試料の両方で、対象は女性である。
C. Determination of Female Population [0144] The present invention provides methods for diagnosing non-small cell lung cancer in a female subject. The methods of these embodiments are similar to those described above, but in both the training data and the sample, the subject is a female.

非小細胞肺癌と反応性気道疾患を区別する方法
〔0145〕 本発明は、以下に記載する様々な集団中に含まれている、個々のヒトの肺疾患を診断する方法に向けられている。これらの方法は通常、反応性気道疾患と非小細胞肺癌を示すものを区別する特定のバイオマーカーのバイオマーカー測定値を決定すること、および分類システム、例えばサポートベクトルマシンを使用して、バイオマーカー測定値を分類することに依存している。
Methods of Distinguishing Non-Small Cell Lung Cancer from Reactive Airway Disease [0145] The present invention is directed to methods of diagnosing individual human lung disease that are included in the various populations described below. These methods usually involve determining biomarker measurements of specific biomarkers that distinguish those exhibiting reactive airway disease and non-small cell lung cancer, and using classification systems such as Support Vector Machines. It relies on classifying the measurements.

A.母集団の決定
〔0146〕 本発明は、対象の肺疾患を診断する方法を提供し、この方法は、前記対象中の複数のバイオマーカーのバイオマーカー測定値を決定する工程を含み、ここで前記複数のバイオマーカーのバイオマーカー測定値は、反応性気道疾患と非小細胞肺癌を示すものの区別を補助するものである。一態様において対象は、反応性気道疾患および/または非小細胞肺癌を罹患していると診断されている対象である。例えば、その診断は、対象の生理学的な試料中の少なくとも1つのバイオマーカーのバイオマーカー測定値によって行われており、ここで少なくとも1つのバイオマーカーのバイオマーカー測定値は、反応性気道疾患および/または非小細胞肺癌を示すものである。
A. Population Determination [0146] The invention provides a method of diagnosing a lung disease in a subject, the method comprising determining a biomarker measurement of a plurality of biomarkers in the subject, wherein Biomarker measurements of multiple biomarkers help distinguish between those with reactive airway disease and those with non-small cell lung cancer. In one aspect, the subject is a subject who has been diagnosed as suffering from reactive airway disease and / or non-small cell lung cancer. For example, the diagnosis is made by a biomarker measurement of at least one biomarker in a physiological sample of the subject, wherein the biomarker measurement of the at least one biomarker is reactive airway disease and / or It also indicates non-small cell lung cancer.

〔0147〕 また、本発明は、(a)対象の生理学的試料を収集する工程;(b)前記試料中の反応性気道疾患と非小細胞肺癌を示すもの、反応性気道疾患を示すものとなる複数のバイオマーカー、および非小細胞肺癌を示すものとなる複数のバイオマーカーの区別を補助する複数のバイオマーカーのバイオマーカー測定値を、本明細書に記載したように決定する工程、ここで前記複数のバイオマーカーは同一のものではなく;(c)分類システムを利用し、バイオマーカー測定値に基づいて試料を分類する工程、ここで試料の分類は、(i)反応性気道疾患と非小細胞肺癌を示すもの;(ii)反応性気道疾患の有無を示すもの;および(iii)対象における非小細胞肺癌の有無を示すもの区別を補助するものであり;ならびに(d)どの条件が3つの分類のうちの2つに見られるかに応じて、対象が、(1)反応性気道疾患に罹患している;(2)非小細胞肺癌に罹患している;または(3)疾患に罹患していないことを決定する工程を含む、対象の肺疾患を診断する方法も提供する。   [0147] Further, the present invention provides that (a) a step of collecting a physiological sample of a subject; (b) one showing reactive airway disease and non-small cell lung cancer in the sample, one showing reactive airway disease. A biomarker measurement of the plurality of biomarkers that aids in the differentiation of the plurality of biomarkers and those that are indicative of non-small cell lung cancer, as described herein, wherein The plurality of biomarkers are not the same; (c) using a classification system to classify the sample based on the biomarker measurements, wherein the sample classification is (i) reactive airway disease and non-reactive airway disease Small cell lung cancer; (ii) presence or absence of reactive airway disease; and (iii) aid in distinguishing presence or absence of non-small cell lung cancer in a subject; and (d) The subject has (1) reactive airway disease; (2) has non-small cell lung cancer; or (depending on whether the condition in 2 is found in 2 of 3 categories; or ( 3) A method of diagnosing a lung disease in a subject is also provided, which comprises the step of determining that the disease does not occur.

〔0148〕 好ましくは、複数のバイオマーカーは、機械学習アルゴリズム、例えばサポートベクトルマシンを介した学習データの解析に基づいて選択される。学習データには、多数の対象についての複数のバイオマーカー測定値、ならびに個々の対象に関する疾患の分類、および場合により、対象の他の特徴、例えば性別、人種、年齢、喫煙歴、職歴などが含まれる。好ましい態様では、発現パターンと、対象が非小細胞肺癌または反応性気道疾患を有していることについての見込みの高さには相関がある。発現パターンは、パターン認識について当該分野で公知のいかなる技術によって特徴付けてもよい。複数のバイオマーカーには、実施例1に記載したバイオマーカーのいかなる組み合わせも含まれ得る。   [0148] Preferably, the plurality of biomarkers is selected based on analysis of the learning data via a machine learning algorithm, such as a support vector machine. The training data includes multiple biomarker measurements for many subjects, as well as disease classifications for individual subjects, and optionally other characteristics of the subject, such as gender, race, age, smoking history, work history, etc. included. In a preferred embodiment, there is a correlation between the expression pattern and the likelihood that the subject will have non-small cell lung cancer or reactive airway disease. The expression pattern may be characterized by any technique known in the art for pattern recognition. The plurality of biomarkers can include any combination of the biomarkers described in Example 1.

〔0149〕 一態様では、対象は、非小細胞肺癌および/または反応性気道疾患のリスクを有している。別の態様では、対象は、非小細胞肺癌および/または反応性気道疾患の症状のうちの1つまたは複数を呈している個人から選択される。   [0149] In one aspect, the subject is at risk of non-small cell lung cancer and / or reactive airway disease. In another aspect, the subject is selected from individuals exhibiting one or more of the symptoms of non-small cell lung cancer and / or reactive airway disease.

〔0150〕 本発明はまた、対象が、非小細胞肺癌または反応性気道疾患を発症するまたはそれらに罹患するリスクに関する見込みの区別を補助する診断法も提供し、この方法は、(a)非小細胞肺癌または反応性気道疾患のリスクを有している対象の生理学的試料を収集する工程、(b)前記対象が非小細胞肺癌または反応性気道疾患を有するリスクの見込みの区別を補助する、前記試料中の、前記対象における複数のバイオマーカーのバイオマーカー測定値を、本明細書に記載したように決定する工程;(c)分類システムを利用し、バイオマーカー測定値に基づいて試料を分類する工程、ここで試料の分類は、(i)反応性気道疾患と非小細胞肺癌を示すもの;(ii)反応性気道疾患の有無;および(iii)対象における非小細胞肺癌の有無を示すものの区別を補助するものであり;ならびに(d)どの条件が3つの分類のうちの2つに見られるかに応じて、対象が、(1)反応性気道疾患の発症または罹患のリスクを有している;(2)非小細胞肺癌の発症または罹患のリスクを有している;または(3)疾患に罹患していないことを決定する工程を含む。   [0150] The present invention also provides a diagnostic method that assists a subject in distinguishing the likelihood of developing or having a risk of developing non-small cell lung cancer or reactive airway disease, the method comprising: Collecting a physiological sample of a subject at risk of small cell lung cancer or reactive airway disease, (b) helping to distinguish the likelihood of the risk of the subject having non-small cell lung cancer or reactive airway disease. Determining a biomarker measurement of a plurality of biomarkers in the subject in the sample as described herein; (c) utilizing a classification system to determine the sample based on the biomarker measurement. The step of classifying, wherein the classification of the sample is (i) indicative of reactive airway disease and non-small cell lung cancer; (ii) presence or absence of reactive airway disease; and (iii) non-small cell in the subject. Assists in distinguishing those that indicate the presence or absence of lung cancer; and (d) depending on which condition is present in two of the three categories, the subject may (1) develop reactive airway disease or At risk of contracting; (2) at risk of developing or contracting non-small cell lung cancer; or (3) determining not to have the disease.

〔0151〕 好ましくは、複数のバイオマーカーは、機械学習アルゴリズム、例えばサポートベクトルマシンを介した学習データの解析に基づいて選択される。学習データには、多数の対象についての複数のバイオマーカー測定値、ならびに個々の対象に関する疾患の分類、および場合により、対象の他の特徴、例えば性別、人種、年齢、喫煙歴、職歴などが含まれる。好ましい態様では、発現パターンと、対象が非小細胞肺癌または反応性気道疾患を有していることについての見込みの高さには相関がある。発現パターンは、パターン認識について当該分野で公知のいかなる技術によって特徴付けてもよい。複数のバイオマーカーには、実施例1に記載したバイオマーカーのいかなる組み合わせも含まれ得る。   [0151] Preferably, the plurality of biomarkers are selected based on analysis of the learning data via a machine learning algorithm, eg, support vector machine. The training data includes multiple biomarker measurements for many subjects, as well as disease classifications for individual subjects, and optionally other characteristics of the subject, such as gender, race, age, smoking history, work history, etc. included. In a preferred embodiment, there is a correlation between the expression pattern and the likelihood that the subject will have non-small cell lung cancer or reactive airway disease. The expression pattern may be characterized by any technique known in the art for pattern recognition. The plurality of biomarkers can include any combination of the biomarkers described in Example 1.

〔0152〕 一態様では、対象は、非小細胞肺癌または反応性気道疾患の症状のうちの1つまたは複数を呈している個人から選択される。「リスクを有している」対象に関連する方法については上述されており、かつ、本明細書ではそれらに関する方法が企図される。   [0152] In one aspect, the subject is selected from an individual who exhibits one or more of the symptoms of non-small cell lung cancer or reactive airway disease. Methods relating to “at risk” subjects have been described above, and methods relating to them are contemplated herein.

B.男性集団の決定
〔0153〕 本発明は、男性対象の肺疾患を診断する方法を提供する。これらの態様の方法は上述したものと同様であるが、学習データおよび試料の両方で、対象は男性である。
B. Determination of Male Population [0153] The present invention provides methods for diagnosing lung disease in male subjects. The methods of these embodiments are similar to those described above, but in both the training data and the sample, the subject is male.

C.女性集団の決定
〔0154〕 本発明は、女性対象の肺疾患を診断する方法を提供する。これらの態様の方法は上述したものと同様であるが、学習データおよび試料の両方で、対象は女性である。
C. Determination of Female Population [0154] The present invention provides methods for diagnosing lung disease in a female subject. The methods of these embodiments are similar to those described above, but in both the training data and the sample, the subject is a female.

特徴付けに関するシステムの設計方法
A.母集団
〔0155〕
本発明はさらに、対象の肺疾患を診断するためのシステムの設計方法を提供し、この方法は、(a)複数のバイオマーカーを選択する工程;(b)前記複数のバイオマーカーのバイオマーカー測定値を決定する手段を選択する工程;および(c)バイオマーカー測定値を決定するための前記手段と対象が肺疾患に罹患しているという見込みを決定するためのバイオマーカー測定値を解析するための手段とを含むシステムを設計する工程、を含む。
System Design Method for Characterization A. Population [0155]
The present invention further provides a method for designing a system for diagnosing a lung disease in a subject, which method comprises: (a) selecting a plurality of biomarkers; (b) measuring the biomarkers of the plurality of biomarkers. Selecting a means for determining the value; and (c) analyzing the biomarker measurement for determining the likelihood that the subject has a lung disease and the means for determining the biomarker measurement. And designing a system including the means of.

〔0156〕 本発明はまた、非小細胞肺癌を診断するためのシステムの設計方法を提供し、この方法は、(a)複数のバイオマーカーを選択する工程;(b)前記複数のバイオマーカーのバイオマーカー測定値を決定するための手段を選択する工程;および(c)バイオマーカー測定値を決定するための前記手段および対象が非小細胞肺癌に罹患しているという見込みを決定するための、バイオマーカー測定値を解析するための手段を含むシステムを設計する工程、を含む。   [0156] The present invention also provides a method for designing a system for diagnosing non-small cell lung cancer, which method comprises the steps of: (a) selecting a plurality of biomarkers; Selecting a means for determining a biomarker measurement; and (c) determining the likelihood that the means and subject for determining a biomarker measurement have a non-small cell lung cancer, Designing a system including means for analyzing biomarker measurements.

〔0157〕 本発明はまた、対象の反応性気道疾患を診断するためのシステムの設計方法を提供し、この方法は、(a)複数のバイオマーカーを選択する工程;(b)前記複数のバイオマーカーのバイオマーカー測定値を決定するための手段を選択する工程;および(c)バイオマーカー測定値を決定するための前記手段および対象が反応性気道疾患に罹患しているという見込みを決定するための、バイオマーカー測定値を解析するための手段を含むシステムを設計する工程、を含む。   [0157] The present invention also provides a method for designing a system for diagnosing reactive airway disease in a subject, which method comprises (a) selecting a plurality of biomarkers; (b) the plurality of biomarkers. Selecting a means for determining a biomarker measurement of a marker; and (c) determining the likelihood that the means and subject for determining a biomarker measurement have a reactive airway disease. Designing a system that includes means for analyzing biomarker measurements.

〔0158〕 本発明はまた、対象の非小細胞肺癌または反応性気道疾患を診断するためのシステムの設計方法を提供し、この方法は、(a)複数のバイオマーカーを選択する工程;(b)前記複数のバイオマーカーのバイオマーカー測定値を決定する手段を選択する工程;および(c)バイオマーカー測定値を決定するための前記手段および対象が反応性気道疾患に罹患しているという見込みを決定するための、バイオマーカー測定値を解析するための手段を含むシステムを設計する工程、を含む。好ましい方法では、複数のバイオマーカーは、非小細胞肺癌を示すものとなるバイオマーカー、反応性気道疾患を示すものとなるバイオマーカー、および非小細胞肺癌と反応性気道疾患との区別を補助するバイオマーカーを含む。   [0158] The present invention also provides a method for designing a system for diagnosing non-small cell lung cancer or reactive airway disease in a subject, which method comprises (a) selecting a plurality of biomarkers; A) selecting a means for determining a biomarker measurement of the plurality of biomarkers; and (c) the means for determining a biomarker measurement and the likelihood that the subject has reactive airway disease. Designing a system including means for analyzing biomarker measurements for determining. In a preferred method, the plurality of biomarkers aids in identifying non-small cell lung cancer, biomarkers indicative of reactive airway disease, and distinguishing non-small cell lung cancer from reactive airway disease. Contains biomarkers.

〔0159〕 上述した方法において工程(b)および(c)は、(b)前記複数のバイオマーカーを検出するための検出剤を選択する工程、および(c)複数のバイオマーカーを検出するための前記検出剤を含むシステムを設計する工程、によって行ってもよく、あるいはこれらの工程によって行われる。   [0159] In the above-mentioned method, steps (b) and (c) include steps (b) selecting a detection agent for detecting the plurality of biomarkers, and (c) detecting a plurality of biomarkers. Designing a system containing the detection agent, or performed by these steps.

B.男性集団
〔0160〕 本発明はまた、男性対象の肺疾患の診断を補助するためのシステムの設計方法を提供する。これらの態様の方法は上述したものと同様である。
B. Male Population [0160] The present invention also provides methods of designing a system to aid in the diagnosis of lung disease in male subjects. The methods of these aspects are similar to those described above.

C.女性集団
〔0161〕 本発明はまた、女性対象の肺疾患の診断を補助するためのシステムの設計方法を提供する。これらの態様の方法は上述したものと同様である。
C. Female Population [0161] The present invention also provides a method of designing a system to assist in the diagnosis of lung disease in a female subject. The methods of these aspects are similar to those described above.

キット
〔0162〕 本発明は、本明細書に記載の複数のバイオマーカーのバイオマーカー測定値を決定するための手段を含むキットを提供する。本発明はさらに、本明細書に記載の複数のバイオマーカーを検出するための検出剤を含むキットも提供する。
Kits [0162] The invention provides kits that include means for determining biomarker measurements of a plurality of biomarkers described herein. The invention further provides a kit comprising a detection agent for detecting the plurality of biomarkers described herein.

〔0163〕 複数のバイオマーカーには、非小細胞肺癌を示すものとなるバイオマーカー、反応性気道疾患を示すものとなるバイオマーカー、および/または非小細胞肺癌と反応性気道疾患との区別を補助するバイオマーカーが含まれ得る。好ましくは、これらのバイオマーカーは、本明細書に記載の方法によって決定された、少ない数のバイオマーカーのセットである。   [0163] The plurality of biomarkers include a biomarker indicating non-small cell lung cancer, a biomarker indicating reactive airway disease, and / or a distinction between non-small cell lung cancer and reactive airway disease. Biomarkers to aid may be included. Preferably, these biomarkers are a low number set of biomarkers determined by the methods described herein.

〔0164〕 本発明はまた、(a)非小細胞肺癌を示すものとなる複数のバイオマーカーのバイオマーカー測定値を決定するための第一の手段;および(b)反応性気道疾患を示すものとなる複数のバイオマーカーのバイオマーカー測定値を決定するための第二の手段を含むキットを提供し、ここで(a)および(b)における前記バイオマーカーは同一のものではない。   [0164] The invention also provides (a) a first means for determining biomarker measurements of a plurality of biomarkers that are indicative of non-small cell lung cancer; and (b) a reactive airway disease. There is provided a kit comprising a second means for determining biomarker measurements of a plurality of biomarkers, wherein the biomarkers in (a) and (b) are not the same.

〔0165〕 本発明はまた、(a)非小細胞肺癌を示すものとなる複数のバイオマーカーを検出するための検出剤;および(b)反応性気道疾患を示すものとなる複数のバイオマーカーを検出するための検出剤を含むキットを提供し、ここで(a)および(b)における前記バイオマーカーは同一のものではない。   [0165] The present invention also provides (a) a detecting agent for detecting a plurality of biomarkers that are indicative of non-small cell lung cancer; and (b) a plurality of biomarkers that are indicative of reactive airway disease. There is provided a kit comprising a detection agent for detecting, wherein the biomarkers in (a) and (b) are not the same.

〔0166〕 本発明はまた、(a)非小細胞肺癌を示すものとなる複数のバイオマーカーのバイオマーカー測定値を決定するための第一の手段;(b)反応性気道疾患を示すものとなる複数のバイオマーカーのバイオマーカー測定値を決定するための第二の手段;および(c)非小細胞肺癌と反応性気道疾患との区別を補助する複数のバイオマーカーのバイオマーカー測定値を決定するための第三の手段を含むキットを提供し、ここで(a)、(b)、および(c)における前記バイオマーカーは同一のものではない。   [0166] The invention also provides (a) a first means for determining biomarker measurements of a plurality of biomarkers that are indicative of non-small cell lung cancer; (b) indicative of reactive airway disease. A second means for determining the biomarker measurements of the plurality of biomarkers; and (c) determining the biomarker measurements of the plurality of biomarkers that help distinguish between non-small cell lung cancer and reactive airway disease. And a biomarker in (a), (b), and (c) is not the same.

〔0167〕 本発明はまた、(a)非小細胞肺癌を示すものとなる複数のバイオマーカーを検出するための検出剤;(b)反応性気道疾患を示すものとなる複数のバイオマーカーを検出するための検出剤;および(c)複数の非小細胞肺癌と反応性気道疾患との区別を補助するバイオマーカーを検出するための検出剤を含むキットを提供し、ここで(a)、(b)、および(c)における前記バイオマーカーは同一のものではない。   [0167] The present invention also provides (a) a detection agent for detecting a plurality of biomarkers that indicate non-small cell lung cancer; (b) a plurality of biomarkers that indicate a reactive airway disease. And a detection agent for detecting a biomarker that aids in the differentiation of reactive airway disease from a plurality of non-small cell lung cancers, wherein (a), ( The biomarkers in b) and (c) are not the same.

〔0168〕 当然のことながら、本発明が、特定の複数のバイオマーカーを検出することを必要とするいかなる方法のために、上述したバイオマーカーのいかなる特定の組み合わせを検出するための手段を含むキットを想定していることが理解される。   [0168] Of course, the present invention is a kit comprising means for detecting any particular combination of biomarkers described above for any method that requires detecting a plurality of specific biomarkers. It is understood that this is assumed.

システム
〔0169〕 本発明は、本発明の方法の実施を補助するシステムを提供する。例示的なシステムには、学習データセットおよび/または試験データセットを記憶するための記憶装置、および学習機械、例えばアダブースト分類器またはSVMを実行するためのコンピューターが含まれる。コンピューターは、データベースから学習データセットを収集するため、学習データセットを前処理するため、前処理した試験データセットを使用して学習機械を訓練するため、および、訓練した学習機械の試験出力の受信に応答して、試験出力が最適解かどうかを決定するために、試験出力を後処理するためにも操作可能であってよい。そのような前処理には、例えば、明かに誤っている記載を検出・削除するために目視で点検すること、適切な標準量で割ることによってデータを正規化すること、およびそれぞれのアルゴリズムで使用するために、適切な形式のデータを確保することが含まれ得る。例示的なシステムにはまた、手元にない提供源から試験データセットと学習データセットを受信するためのコミュニケーション装置を含んでいてもよい。そのような場合には、コンピューターは、学習データセットを前処理する前に、学習データセットを記憶装置に記憶するために、また、試験データセットを前処理する前に、試験データセットを記憶装置に記憶するために、操作可能であってもよい。例示的なシステムはまた、後処理した試験データを表示するための表示装置を含んでいてもよい。例示的なシステムのコンピューターはさらに、上述したさらなるそれぞれの機能を実行するために操作可能であってもよい。
Systems [0169] The present invention provides systems that aid in the practice of the methods of the invention. An exemplary system includes a storage device for storing a training data set and / or a test data set, and a learning machine, such as a computer for executing an Adaboost classifier or SVM. The computer collects the training data set from the database, preprocesses the training data set, trains the learning machine with the preprocessed test data set, and receives the test output of the trained learning machine. In response to, the test output may also be operable to post-process the test output to determine if it is the optimal solution. Such pretreatments include, for example, visual inspection to detect and remove apparently false statements, normalization of the data by dividing by an appropriate standard amount, and use in each algorithm. To do so, it may include reserving the data in the proper format. The exemplary system may also include a communication device for receiving the test data set and the learning data set from a source that is not at hand. In such a case, the computer stores the test data set in the storage device before storing the training data set in the storage device and before preprocessing the test data set in the storage device. May be operable for storage in. The exemplary system may also include a display device for displaying post-processed test data. The computer of the exemplary system may also be operable to perform each of the additional functions described above.

〔0170〕 本明細書で使用する場合、用語「コンピューター」は、少なくとも1つのメモリーを使用する、少なくとも1つのハードウェアプロセッサーを含むと理解される。少なくとも1つのメモリーは、一連の指示を記憶し得る。指示は、メモリーまたはコンピューターのメモリーに、恒久的にまたは一時的に記憶させることができる。プロセッサーは、データを処理するために、メモリーに記憶されている指示を実行する。一連の指示には、特定のタスク、例えば本明細書に記載のタスクを実施する、様々な指示が含まれ得る。そのような、特定のタスクを実施するための一連の指示は、プログラム、ソフトウェアプログラム、または単にソフトウェアとして特徴付けられ得る。   [0170] As used herein, the term "computer" is understood to include at least one hardware processor that uses at least one memory. At least one memory may store a set of instructions. The instructions may be stored permanently or temporarily in memory or computer memory. The processor executes the instructions stored in memory to process the data. The set of instructions may include various instructions to perform a particular task, eg, the tasks described herein. Such a set of instructions for performing a particular task may be characterized as a program, software program, or simply software.

〔0171〕 上述したように、コンピューターは、メモリーに記憶されている指示を実行して、データを処理する。このデータの処理は、例えば、使用者またはコンピューターの使用者によるコマンドに応答したもの、その前の処理に応答したもの、別のコンピューターおよび/または他の任意の入力による要求に応答したものとなる可能性がある。   [0171] As described above, the computer executes the instructions stored in the memory to process the data. The processing of this data may be, for example, in response to a command by a user or a user of a computer, in response to a previous process, in response to a request by another computer and / or any other input. there is a possibility.

〔0172〕 態様を少なくとも部分的に実装するために使用されるコンピューターは、汎用コンピューターであってよい。しかしながら、コンピューターは、専用コンピューター、マイクロコンピューターを含むコンピューターシステム、ミニコンピューターまたはメインフレーム、例えば、プログラムしたマイクロプロセッサ、マイクロコントローラー、周辺用集積回路要素、CSIC(顧客仕様集積回路)もしくはASIC(特定用途向け集積回路)または他の集積回路、論理回路、デジタルシグナルプロセッサー、プログラム可能な論理装置、例えばFPGA、PLD、PLAもしくはPAL、あるいは、本発明の過程の少なくともいくつかの工程を実装することが可能な他の任意の装置もしくは構成などの、多種多様な他の技術のいずれを使用してもよい。   [0172] The computer used to at least partially implement an embodiment may be a general purpose computer. However, a computer may be a dedicated computer, a computer system including a microcomputer, a minicomputer or a mainframe, such as a programmed microprocessor, microcontroller, peripheral integrated circuit element, CSIC (customized integrated circuit) or ASIC (application specific). Integrated circuit) or other integrated circuit, logic circuit, digital signal processor, programmable logic device, such as FPGA, PLD, PLA or PAL, or at least some of the steps of the process of the invention may be implemented. Any of a wide variety of other techniques may be used, including any other device or configuration.

〔0173〕 当然のことながら、本発明の方法を実践するために、プロセッサーおよび/またはコンピューターのメモリーが、物理的に同じ地理学上の場所にある必要はない。つまり、コンピューターによって使用されるプロセッサーおよびメモリーはそれぞれ、地理学上の別の位置にあってもよく、かつ、任意の適切な方法によってコミュニケートするように接続されていてもよい。加えて、プロセッサーおよび/またはメモリーはそれぞれ、設備の物理的に異なる部品から構成されていてもよい。従ってプロセッサーは、1箇所にある、単一の部品の設備であって、かつ、メモリーが別の場所にある、別の単一の部品の設備である必要もない。つまり、例えば、プロセッサーが2箇所の物理的に別の場所にある、2つ以上の部品の設備であってもよいことが想定される。設備の2つ以上の別個の部品は、適切な様式で、例えばネットワークで接続され得る。加えて、メモリーは、2箇所以上の物理的位置にある2つ以上の部分を含んでいてもよい。   [0173] It will be appreciated that the processor and / or computer memory need not be physically at the same geographical location in order to practice the methods of the present invention. That is, each processor and memory used by a computer may be at a different geographical location and may be connected in a communicative manner by any suitable method. Additionally, each processor and / or memory may be composed of physically different pieces of equipment. Thus, a processor need not be a single-part facility in one location and another single-component facility in which memory is located elsewhere. That is, for example, it is envisioned that the processor may be a facility of two or more components in two physically separate locations. The two or more separate pieces of equipment may be connected in any suitable manner, eg, a network. In addition, the memory may include more than one portion at more than one physical location.

〔0174〕 様々なコンピューター、プロセッサーおよび/またはメモリー間のコミュニケーションを提供するために、ならびに本発明のプロセッサーおよび/またはメモリーを任意の他の実体とコミュニケートさせるために、例えば、さらなる指示を得るか、または、例えば遠隔にあるメモリー記憶にアクセスし、それらを使用するために、様々な技術を使用してもよい。そのようなコミュニケーションを提供するのに使われるそのような技術には、ネットワーク、インターネット、イントラネット、エクストラネット、LAN、イーサーネット、または例えば、コミュニケーションを提供する任意のクライアントサーバーシステムが含まれるだろう。そのようなコミュニケーション技術は、任意の好適なプロトコール例えばTCP/IP、UDP、またはOSIなどを使用し得る。   [0174] To provide communication between various computers, processors and / or memory, and to communicate the processor and / or memory of the present invention with any other entity, for example, obtain further instructions, Alternatively, various techniques may be used to access and use remote memory storage, for example. Such technologies used to provide such communications may include networks, the Internet, intranets, extranets, LANs, Ethernets, or any client server system that provides communications, for example. Such communication technology may use any suitable protocol such as TCP / IP, UDP, or OSI.

〔0175〕 さらに、本発明の実装および操作に使用されるコンピューターの指示または一連の指示は、コンピューターがその指示を読み込むのに適した形式である。
〔0176〕 いくつかの態様では、使用者が、態様を少なくとも部分的に実装するのに使用されるコンピューターまたは機械と連動することを可能にするための、様々なユーザーインターフェースを使用することができる。ユーザーインターフェースは、ダイアログスクリーンの形式であってもよい。ユーザーインターフェースはまた、マウス、タッチスクリーン、キーボード、音声読み取り装置、音声認識装置、ダイアログスクリーン、メニューボックス、リスト、チェックボックス、トグルスイッチ、押しボタン、または、コンピューターが一連の指示を処理するのに連れて、使用者がコンピューターの操作に関する情報を受信することを可能にする、および/または使用者がコンピューターに情報を提供することを可能にする他のいかなる装置を含んでいてもよい。従って、ユーザーインターフェースは、使用者とコンピューターとの間のコミュニケーションを提供する、任意の装置である。ユーザーインターフェースを解して使用者がコンピューターに提供する情報は、例えば、コマンド、データ選択、または他のいくつかの入力の形式であってよい。
[0175] Furthermore, the computer instructions or series of instructions used to implement and operate the invention are in a form suitable for the computer to read.
[0176] In some aspects, various user interfaces may be used to allow a user to interface with a computer or machine used to at least partially implement the aspect. . The user interface may be in the form of dialog screens. The user interface can also be a mouse, a touch screen, a keyboard, a voice reader, a voice recognizer, a dialog screen, a menu box, a list, a check box, a toggle switch, a push button, or a computer that processes a series of instructions. And may include any other device that allows the user to receive information regarding the operation of the computer and / or allows the user to provide information to the computer. Thus, a user interface is any device that provides communication between a user and a computer. The information that the user provides to the computer through the user interface may be, for example, in the form of commands, data selections, or some other input.

〔0177〕 例えば、情報を伝搬・受信するために、本発明のユーザーインターフェースが、ヒト使用者と交流する以上に、別のコンピューターと交流するかもしれないことも想定される。従って、その他のコンピューターはユーザーとして特徴付けられる可能性もある。さらに、本発明のシステムおよび方法に含まれるユーザーインターフェースが、部分的には別のコンピューターと交流し、同時に、部分的にはヒト使用者と交流することも想定される。   [0177] It is also envisioned that the user interface of the present invention may interact with another computer, rather than with a human user, for example to propagate and receive information. Therefore, other computers may be characterized as users. It is further envisioned that the user interface included in the systems and methods of the present invention will interact, in part, with another computer and, at the same time, in part with a human user.

〔0178〕 以下に記載する実施例は、本明細書で開示する本発明の様々な方法を例示するために提供するものであり、本発明を多少なりとも限定する目的で提供されるものではない。   [0178] The examples set forth below are provided to illustrate the various methods of the invention disclosed herein, and not to limit the invention in any way. .

実施例1−データの収集とサポートベクトルマシンを使用した解析
試料の採取
〔0179〕 ヒトの血液試料を志願者から採取した。非小細胞肺癌または喘息を罹患しているか分かっていない個人から、288の試料を採取した。これらの試料は正常な集団を含み、本明細書では「正常集団」と呼ぶ。喘息に罹患していることが分かっており、そのように医師によって診断された個人から180の血液試料を採取した。これらの試料は喘息の集団を含み、本明細書では「喘息集団」と呼ぶ。非小細胞肺癌に罹患していることが分かっており、そのように医師によって診断された個人から360の血液試料を採取した。これらは肺癌の集団を含み、本明細書では「肺癌集団」と呼ぶ。試料の人口統計学的および条件を以下の表に示す。
Example 1-Data Collection and Collection of Analytical Samples Using Support Vector Machines [0179] Human blood samples were collected from volunteers. 288 samples were taken from individuals not known to have non-small cell lung cancer or asthma. These samples include the normal population and are referred to herein as the "normal population." 180 blood samples were taken from individuals known to suffer from asthma and so diagnosed by a physician. These samples include the asthma population and are referred to herein as the "asthma population." 360 blood samples were taken from individuals who were known to have non-small cell lung cancer and were so diagnosed by a physician. These include the lung cancer population and are referred to herein as the "lung cancer population." The demographics and conditions of the samples are shown in the table below.

〔0180〕 発現レベルの変化が肺癌または喘息と関連するだろうと考えられるバイオマーカーを選択するための研究を行った。本明細書で使用する場合、「肺癌」は、非小細胞肺癌として知られる肺癌を包含することを意味する。研究、方法論および得られたデータはこれ以降に記載され、かつ、参照によりその全体が本明細書に組み込まれる国際公開第2010/105235号パンフレットに示されている。   [0180] A study was conducted to select biomarkers in which altered expression levels would be associated with lung cancer or asthma. As used herein, "lung cancer" is meant to include lung cancer known as non-small cell lung cancer. The studies, methodologies and data obtained are set out below and in WO 2010/105235, which is hereby incorporated by reference in its entirety.

〔0181〕 以下に示す59種類のバイオマーカーを選択し、これらについて試験を行った:CD40、肝細胞増殖因子(「HGF」)、I−TAC(「CXCL11」;「ケモカイン(C−X−Cモチーフ)リガンド11」、「インターフェロン誘導T細胞α化学誘引物質」)、レプチン(「LEP」)、マトリックスメタロプロテアーゼ(「MMP」)1、MMP2、MMP3、MMP7、MMP8、MMP9、MMP12、MMP13、CD40可溶性リガンド(「CD40リガンド」)、上皮増殖因子(「EFG」)、エオタキシン(「CCL11」)、フラクタルキン、顆粒球コロニー刺激因子(「G−CSF」)、顆粒球マクロファージコロニー刺激因子(「GM−CSF」)、インターフェロンγ(「IFNγ」)、インターロイキン(「IL」)1α、IL−1β、IL−1ra、IL−2、IL−4、IL−5、IL−6、IL−7、IL−8、IL−10、IL−12(p40)、IL−12(p70)、IL−13、IL−15、IL−17、IP−10、単球走化性タンパク質1(「MCP−1」)、マクロファージ炎症性タンパク質(「MIP」)1α、MIP−1β、トランスフォーミング増殖因子α(「TGFα」)、腫瘍壊死因子α(「TNFα」)、血管内皮成長因子(「VEGF」)、インスリン(「Ins」)、C−ペプチド、グルカゴン様タンパク質−1/アミリン(「GLP−1/アミリン」)、アミリン(全)、グルカゴン、アディポネクチン、プラスミノーゲン活性化因子阻害因子1(「PAI−1」;「セルピン」)(活性型/全)、レジスチン(「RETN」;「xcp1」)、sFas、可溶性Fasリガンド(「sFasL」)、マクロファージ遊走性阻止因子(「MIF」)、sE−セレクチン、可溶性血管細胞接着分子(「sVCAM」)、可溶性細胞間接着分子(「sICAM」)、ミエロペルオキシダーゼ(「MPO」)、C反応性タンパク質(「CRP」)、血清アミロイドA(「SAA」;「SAA1」)、および血清アミロイドP(「SAP」)。   [0181] The following 59 biomarkers were selected and tested for: CD40, hepatocyte growth factor ("HGF"), I-TAC ("CXCL11"; "chemokines (C-X-C). Motif) ligand 11 "," interferon-induced T cell α chemoattractant "), leptin (" LEP "), matrix metalloprotease (" MMP ") 1, MMP2, MMP3, MMP7, MMP8, MMP9, MMP12, MMP13, CD40. Soluble ligand (“CD40 ligand”), epidermal growth factor (“EFG”), eotaxin (“CCL11”), fractalkine, granulocyte colony stimulating factor (“G-CSF”), granulocyte macrophage colony stimulating factor (“GM -CSF "), interferon gamma (" IFNγ "), interferon Ikin (“IL”) 1α, IL-1β, IL-1ra, IL-2, IL-4, IL-5, IL-6, IL-7, IL-8, IL-10, IL-12 (p40). , IL-12 (p70), IL-13, IL-15, IL-17, IP-10, monocyte chemoattractant protein 1 (“MCP-1”), macrophage inflammatory protein (“MIP”) 1α, MIP-1β, transforming growth factor α (“TGFα”), tumor necrosis factor α (“TNFα”), vascular endothelial growth factor (“VEGF”), insulin (“Ins”), C-peptide, glucagon-like protein − 1 / amylin (“GLP-1 / amylin”), amylin (total), glucagon, adiponectin, plasminogen activator inhibitor 1 (“PAI-1”; “serpin”) (active / total), Distin (“RETN”; “xcp1”), sFas, soluble Fas ligand (“sFasL”), macrophage migration inhibitory factor (“MIF”), sE-selectin, soluble vascular cell adhesion molecule (“sVCAM”), soluble cell Inter-adhesion molecule ("sICAM"), myeloperoxidase ("MPO"), C-reactive protein ("CRP"), serum amyloid A ("SAA"; "SAA1"), and serum amyloid P ("SAP").

データ収集
〔0182〕 血漿標本を、自動化され、ビーズを使用した定量的なマルチプレックス免疫アッセイであるLuminexのxMAP技術にかけることによって、正常、喘息および肺癌それぞれの集団の血漿標本について、59種類のバイオマーカーのスクリーニングを行った。
DATA COLLECTION [0182] Plasma samples were subjected to Luminex's xMAP technology, an automated, bead-based, quantitative, multiplexed immunoassay to generate 59 different plasma samples from normal, asthma and lung cancer populations. Biomarker screening was performed.

〔0183〕 バイオマーカーのスクリーニングには、LuminexのxMAP技術と共に、複数のその他のアッセイキット、すなわちMilliporeのヒトサイトカイン/ケモカイン(カタログ番号MPXHCYTO−60K、ヒトエンドクリン(カタログ番号HENDO−65K)、ヒト血清アディポカイン(カタログ番号HADKI−61K)、ヒトセプシス/アポトーシス(カタログ番号HSEP−63K)、ヒト心血管パネル1(カタログ番号HCVD1−67AK)およびヒト心血管パネル2(HCVD2−67BK)、R&D Systems,IncのヒトフルオロカインMAPプロファイリングベースキットB(カタログ番号LUB00)およびヒトフルオロカインMAP MMPプロファイリングベースキット(カタログ番号LMP000)を使用した。PanomicsのProcartaサイトカインキット(カタログ番号PC1017)も使用した。PAI−1およびレプチンに関する抗体は、2種類のキットのものを使用した。PAI−1およびLeptinについての抗体はMilliporeによって製造されているものを使用した。PAI−1についての抗体はPanomics製ものを使用した。 [0183] For biomarker screening, along with Luminex's xMAP technology, several other assay kits were used: Millipore's human cytokine / chemokine (catalog number MPXHCYTO-60K, human endocrine (catalog number HENDO-65K), human serum. Adipokine (catalog number HADKI-61K), human sepsis / apoptosis (catalog number HSEP-63K), human cardiovascular panel 1 (catalog number HCVD1-67AK) and human cardiovascular panel 2 (HCVD2-67BK), human from R & D Systems, Inc. Fluorocaine MAP Profiling Base Kit B (catalog number LUB00) and Human Fluorocaine MAP MMP profiling base kit (catalog number LMP00) ) The .Panomics Procarta cytokine kit used (catalog number PC1017) also antibodies for .PAI-1 and leptin using two types of kits antibodies for .PAI-1 A and Leptin 1 was used in the Millipore The antibody for PAI-1 B used was manufactured by Panomics.

〔0184〕 マルチプレックス免疫アッセイで生じた蛍光強度レベルを、それぞれの集団の各血漿標本についての59種類のバイオマーカーに関するバイオマーカー測定値として記録した。記録された蛍光強度は、試料中の対応するバイオマーカーの濃度に比例し、かつ、試料が採取された時点での個人におけるその発現の度合にも比例している。それぞれの集団の各バイオマーカーと関連する蛍光強度レベルの平均、標準偏差、および相対的標準偏差を計算した。図1Aから1Cに、正常(NO)、非小細胞肺癌(LC)、および喘息(AST)集団における各バイオマーカー測定値の平均、標準偏差、および相対的標準偏差を示し、図1Dにはこれらの集団のうちの2つの集団における、特定のバイオマーカー測定値のレベルの変化の平均を示す。   [0184] Fluorescence intensity levels generated in the multiplex immunoassay were recorded as biomarker measurements for 59 biomarkers for each plasma specimen of each population. The fluorescence intensity recorded is proportional to the concentration of the corresponding biomarker in the sample and also to its degree of expression in the individual at the time the sample was taken. The mean, standard deviation, and relative standard deviation of fluorescence intensity levels associated with each biomarker in each population were calculated. Figures 1A to 1C show the mean, standard deviation, and relative standard deviation of each biomarker measurement in normal (NO), non-small cell lung cancer (LC), and asthma (AST) populations, and these are shown in Figure 1D. 2 shows the average change in the level of a particular biomarker measurement in 2 of the 2 populations.

〔0185〕 得られたデータを性別によっても分けた。
〔0186〕 図2A〜2Cでは、正常(NO)、非小細胞肺癌(LC)、および喘息(AST)の女性集団におけるバイオマーカーの蛍光強度レベルの平均を示している。図2Dは、喘息対正常の女性集団、肺癌対正常の女性集団、および喘息対肺癌の女性集団における各バイオマーカー測定値の平均の変化(%)を示す。
[0185] The obtained data was also divided by sex.
[0186] Figures 2A-2C show mean fluorescence intensity levels of biomarkers in normal (NO), non-small cell lung cancer (LC), and asthma (AST) female populations. FIG. 2D shows the mean change (%) of each biomarker measurement in the asthma vs. normal female population, lung cancer vs. normal female population, and asthma vs. lung cancer female population.

〔0187〕 男性集団に関する同様の情報を図3A〜3Dに示す。
〔0188〕 次に、女性集団と男性集団とを比較した。図4では、喘息の女性集団と比較した喘息の男性、肺癌の女性集団と比較した肺癌の男性集団、および正常な女性集団と比較した正常な男性集団における、各バイオマーカー測定値の平均の変化(%)を示している。
[0187] Similar information for the male population is shown in Figures 3A-3D.
[0188] Next, the female and male groups were compared. In Figure 4, the mean change in each biomarker measurement in asthmatic men compared to the asthma female population, lung cancer male population to lung cancer female population, and normal male population to normal female population. (%) Is shown.

〔0189〕 Luminexアッセイから得られたデータを、医師の診断に基づく、患者の経験的な分類によって同定された、特定の患者の試料における各バイオマーカーの蛍光強度のデータと共に、データ記憶装置に電子的に記録した。   [0189] The data obtained from the Luminex assay is electronically stored in a data storage device together with data on the fluorescence intensity of each biomarker in a particular patient sample, identified by empirical classification of the patient, based on a physician's diagnosis. Recorded.

データ解析
〔0190〕 サポートベクトルマシンアルゴリズムを介したデータの解析は、以下の工程によって遂行された。
1.記憶装置から処理装置へデータセットを読み込んだ。
2.データを前処理し、モデル選択アルゴリズムおよびサポートベクトルマシンで使用するのに適したものにした。
3.データを無作為に2群、つまり学習セットと確認セットに分けた。
4.学習データセットについてサポートベクトルマシンアルゴリズムを実行し、モデルを生成した。本明細書に記載の全てのSVM統計的計算は、統計処理用のソフトウェアプログラム用言語・環境であるR2.10.0(www.r-project.org)を使用して行った。kernlabパッケージに含まれているksvm()関数を使ってSVMを当てはめた。5.前の工程で生成したモデルを使って確認データセットを後処理し、予測分類を算出した。予測分類を、試験セット試料の経験的な分類と比較し、モデルフィットの指標、例えば精度、感度、特異度、陽性予測値および陰性予測値を算出した。ここで感度とは、対象が病気の場合にその対象が病気であると予測される確率であり、特異度とは、対象が病気でない場合にその対象が病気でないと予測される確率であり、陽性予測値とは、対象が病気であると予測される場合にその対象が病気である確率であり、陰性予測値とは、対象が病気でないと予測される場合にその対象が病気でない確率であり、および精度とは、正しい予測の確率である。
Data Analysis [0190] The analysis of data via the Support Vector Machine algorithm was performed by the following steps.
1. The data set was read from the storage device to the processing device.
2. The data was pre-processed and made suitable for use in model selection algorithms and support vector machines.
3. The data were randomly divided into two groups, a training set and a confirmation set.
4. The model was generated by running the support vector machine algorithm on the training data set. All SVM statistical calculations described herein were performed using R2.10.0 (www.r-project.org), which is a language / environment for software programs for statistical processing. The SVM was fitted using the ksvm () function included in the kernlab package. 5. The validation dataset was post-processed using the model generated in the previous step to calculate the predicted classification. The predictive classification was compared to the empirical classification of test set samples to calculate indicators of model fit, such as accuracy, sensitivity, specificity, positive predictive value and negative predictive value. Here, the sensitivity is the probability that the target is predicted to be sick if the target is sick, and the specificity is the probability that the target is predicted to be sick if the target is not sick, A positive predictive value is the probability that a subject is sick if the target is predicted to be ill, and a negative predictive value is the probability that the target is not ill if the target is predicted to be ill. Yes, and accuracy is the probability of correct prediction.

〔0191〕 787の対象が全データを有した。これらのデータは解析にのみ使用した。学習セットは398対象、試験セットは389対象であった。
〔0192〕 完全なデータセットについて解析を行った場合には、389対象のうち344対象が正しく分類され、その場合の精度は0.88(SE:0.017)であった(表1を参照のこと)。癌対象では、その他の対象との比較でみると、サポートベクトルマシンの感度は0.98(SE:0.007)であり、陰性予測値は0.99(SE:0.008)であった(表2を参照のこと)。
[0191] 787 subjects had all the data. These data were used for analysis only. The learning set was 398 subjects and the test set was 389 subjects.
[0192] When the analysis was performed on the complete data set, 344 of 389 subjects were correctly classified, and the accuracy in that case was 0.88 (SE: 0.017) (see Table 1). That). In cancer subjects, the sensitivity of the support vector machine was 0.98 (SE: 0.007) and the negative predictive value was 0.99 (SE: 0.008) when compared with other subjects. (See Table 2).

実施例2−肺癌データの解析
〔0193〕 喘息対象のデータを除いた実施例1からのデータセットにも、サポートベクトルマシンを当てはめた。癌対象および病気でない対象のデータのみを含むデータセットについて、実施例1で説明したように工程1〜5を行った。得られたサポートベクトルマシンの感度は0.92(SE:0.016)であり、特異度は0.92(SE:0.015)であった(表3および4を参照のこと)。
Example 2 Analysis of Lung Cancer Data [0193] Support Vector Machines were also applied to the dataset from Example 1 excluding asthma subject data. Steps 1-5 were performed as described in Example 1 for a data set containing only data for cancer and non-disease subjects. The resulting support vector machine had a sensitivity of 0.92 (SE: 0.016) and a specificity of 0.92 (SE: 0.015) (see Tables 3 and 4).

実施例3−別の試験セットを用いた解析
〔0194〕 実施例1でLuminexアッセイから収集したデータを、実施例1で説明した工程1〜5を使用して、再度解析した。個々の試料に由来するデータを、新しい学習セットと試験セットに無作為に割り当てた。学習セットには398対象、試験セット
Example 3-Analysis Using Another Test Set [0194] The data collected from the Luminex assay in Example 1 was analyzed again using steps 1-5 described in Example 1. Data from individual samples were randomly assigned to new learning and test sets. 398 subjects for study set, test set

〔0195〕 試料が喘息、癌、または正常であるかを予測するのに、実施例1に記載した59種類のバイオマーカーと、併せて性別について考慮した。結果を以下に示す。   [0195] Gender was considered in conjunction with the 59 biomarkers described in Example 1 to predict whether the sample was asthma, cancer, or normal. The results are shown below.

実施例4−肺癌データの解析
〔0196〕 喘息対象のデータを除いた実施例3からの学習データセットにも、サポートベクトルマシンを当てはめた。サポートベクトルマシン。喘息患者のデータを除いた確認データセットを使用して、実施例1で説明したデータ解析プロトコールの工程1〜5を行うことで、以下の結果が得られた。
Example 4-Analysis of Lung Cancer Data [0196] Support vector machines were also applied to the learning dataset from Example 3 excluding asthma subject data. Support vector machine. The following results were obtained by performing steps 1-5 of the data analysis protocol described in Example 1 using the confirmation data set excluding the asthma patient data.

実施例5−肺癌データの解析(男性)
〔0197〕 実施例3のデータセットを使用して、男性試料が癌かまたは正常かを予測するために、59種類のバイオマーカーについての検討を行った。データを実施例1の5工程プロトコールによって解析した。結果を以下に示す。
Example 5-Analysis of lung cancer data (male)
[0197] Using the dataset of Example 3, a study of 59 biomarkers was performed to predict whether a male sample is cancerous or normal. The data was analyzed by the 5 step protocol of Example 1. The results are shown below.

〔0198〕 次いで、男性試料および女性試料が癌かまたは正常であるかの予測に関し、生成したモデルを検討した。結果を以下に示す。   [0198] The generated models were then examined for predicting whether male and female samples are cancerous or normal. The results are shown below.

実施例6−肺癌データの解析(女性)
〔0199〕 実施例3からのデータを使用して、女性試料が癌であるか、または正常であるかの予測について、59種類のバイオマーカーについての検討を行った。実施例1の解析プロトコールの工程1〜5を女性患者のみからのデータに適用した。結果を以下に示す。
Example 6-Analysis of lung cancer data (female)
[0199] Using the data from Example 3, a study of 59 biomarkers was performed in predicting whether a female sample is cancerous or normal. Steps 1-5 of the analysis protocol of Example 1 were applied to data from female patients only. The results are shown below.

〔0200〕 次に、男性試料および女性試料が癌かまたは正常であるかの予測に関し、同じモデルを検討した。結果を以下に示す。   [0200] Next, the same model was examined for predicting whether male and female samples were cancerous or normal. The results are shown below.

実施例7−選択アルゴリズム(バイオマーカー;癌および正常)
〔0201〕 実施例1〜6の結果は、59種類のバイオマーカーを含むモデルに関するものである。本明細書で議論しているように、選択アルゴリズムを使用して、予測精度を有意に低下させることなく、バイオマーカーの数を減らすことができる。バイオマーカー選択アルゴリズムを実行して、サポートベクトルマシンで使用するバイオマーカーを見つけ出した。
Example 7-Selection Algorithm (Biomarker; Cancer and Normal)
[0201] The results of Examples 1-6 relate to models containing 59 biomarkers. As discussed herein, selection algorithms can be used to reduce the number of biomarkers without significantly reducing prediction accuracy. A biomarker selection algorithm was run to find biomarkers for use in the support vector machine.

〔0202〕 上述した8工程のバイオマーカー選択アルゴリズムを使用し、2つの肺病理分類(癌、正常)を特徴付けるための4種類のバイオマーカーモデル(EGF、sCD40リガンド、IL−8、およびMMP−8)を選択した。実施例1からのデータを5工程プロトコールに従って処理した。ただし、工程2の前処理工程では、選択アルゴリズムによって選抜された4種類のバイオマーカー以外のすべてのバイオマーカーを除いた。以下に記載したように、モデルフィットの指標は、95%の精度、93%の感度、および87%の特異度を示した。   [0202] Using the 8-step biomarker selection algorithm described above, four biomarker models (EGF, sCD40 ligand, IL-8, and MMP-8) for characterizing two lung pathological categories (cancer, normal). ) Was selected. The data from Example 1 was processed according to a 5 step protocol. However, in the pretreatment step of step 2, all biomarkers other than the four types of biomarkers selected by the selection algorithm were excluded. As described below, the model fit index showed an accuracy of 95%, a sensitivity of 93%, and a specificity of 87%.

実施例8−選択アルゴリズム(バイオマーカーおよび男性;癌および正常)
〔0203〕 実施例7に記載した、バイオマーカーの数を制限する過程を、実施例1からの、男性患者に関する値のみを含む下位セットに適用した。8工程のバイオマーカー選択アルゴリズムを使用して、以下に示すように、100%の精度、100%の感度、および100%の特異度で男性における2つの肺病理分類(癌および正常)を特徴づけるために、5つのバイオマーカーモデル(EGF、IL−8、Sfas、MMP−9、およびPAI−1)を選択した(もとのデータセットに含まれていた2つの変数をPAI−1と命名した。これはその内の2番目のもので、Panomics社のキットに由来するPAI−1バイオマーカーである)。
Example 8-Selection Algorithm (Biomarkers and Men; Cancer and Normal)
[0203] The process of limiting the number of biomarkers described in Example 7 was applied to the subset from Example 1 containing only values for male patients. An eight-step biomarker selection algorithm is used to characterize two lung pathological classifications in men (cancer and normal) with 100% accuracy, 100% sensitivity, and 100% specificity, as shown below. For this purpose, five biomarker models (EGF, IL-8, Sfas, MMP-9, and PAI-1) were selected (the two variables included in the original dataset were named PAI-1). This is the second of these, the PAI-1 biomarker from the Panomics kit).

〔0204〕 次に、同様の考察(すなわち、5種類のバイオマーカーから構成される下位セット、男性)を、男性および女性の試料が癌であるかまたは正常であるかの予測に関して検討した。結果を以下に示す。   [0204] Next, similar considerations (ie, a sub-set of 5 biomarkers, male) were examined with respect to predicting whether male and female samples were cancerous or normal. The results are shown below.

実施例9−選択アルゴリズム(バイオマーカーおよび女性;癌および正常)
〔0205〕 実施例7に記載した、バイオマーカーの数を制限する過程を、実施例1からの、女性患者に関する値のみを含む下位セットに適用した。8工程のバイオマーカー選択アルゴリズムを使用して、以下に示すように、100%の精度、100%の感度、および100%の特異度で女性における2つの肺病理分類(癌および正常)を特徴づけるために、3つのバイオマーカーモデル(EGF、sCD40リガンド、IL−8)を選択した。
Example 9-Selection Algorithm (Biomarkers and Women; Cancer and Normal)
[0205] The process of limiting the number of biomarkers described in Example 7 was applied to the subset from Example 1 containing only values for female patients. An 8-step biomarker selection algorithm is used to characterize two lung pathological classifications (cancer and normal) in women with 100% accuracy, 100% sensitivity, and 100% specificity, as shown below. For this, three biomarker models (EGF, sCD40 ligand, IL-8) were selected.

〔0206〕 次に、同様の考察(すなわち、3種類のバイオマーカーから構成される下位セット、女性)を、男性および女性の試料が癌であるかまたは正常であるかの予測に関して検討した。結果を以下に示す。   [0206] Next, similar considerations (ie, a subset consisting of three biomarkers, females) were examined for predicting whether male and female samples were cancerous or normal. The results are shown below.

実施例10−データの収集とアダブーストを使用した解析
データに関する問題
〔0207〕 受信したデータは、実施例1で記載した、Luminexからのバイオマーカー濃度に関する生の出力であった。Luminexから出力されたデータには、蛍光レベル、イベントの数、集計した蛍光レベル、調整した蛍光レベル、正規化したバイオマーカー濃度(この場合正規化とは、観測された蛍光を濃度の標準曲線に当てはめて、観測された蛍光を濃度に変換することを意味する)、集計し、正規化したバイオマーカー濃度、および調整したバイオマーカー濃度が含まれていた。本明細書に記載した解析には、正規化したバイオマーカー濃度を使用した。タンパク質の定量の試験から、試料はタンパク質の総量の点でほぼ矛盾がなく、そのため、バイオマーカーレベルをさらに正規化する必要はないことがわかった(この場合の正規化とは、試料間でのタンパク質レベルの差を調整するために、係数をかけることを意味している)。
Example 10-Data Collection and Issues with Analytical Data Using AdaBoost [0207] The data received was the raw output for biomarker concentration from Luminex as described in Example 1. The data output from Luminex includes fluorescence level, number of events, aggregated fluorescence level, adjusted fluorescence level, normalized biomarker concentration (in this case, normalization is the observed fluorescence into a standard curve of concentration). Fitting means converting the observed fluorescence to concentration), aggregated, normalized biomarker concentration, and adjusted biomarker concentration were included. Normalized biomarker concentrations were used for the analyzes described herein. Studies of protein quantitation have shown that the samples are nearly consistent in terms of total protein, so that there is no need for further normalization of biomarker levels (normalization in this case is between samples). It means multiplying by a factor to adjust for differences in protein levels).

〔0208〕 以下に記載する86種類のバイオマーカーのそれぞれについて、バイオマーカーの定量データを収集した:脳由来神経栄養因子(「BDNF」)、Bリンパ球化学誘引物質(「BLC」)、皮膚T細胞誘引ケモカイン(「CTACK」)、エオタキシン−2、エオタキシン−3、グランザイム−B、肝細胞増殖因子(「HGF」)、I−TAC(「CXCL11」;「ケモカイン(C−X−Cモチーフ)リガンド11」、「インターフェロン誘導T細胞α化学誘引物質」)、レプチン(「LEP」)、白血病抑制因子(「LIF」)、マクロファージコロニー刺激因子(「MCSF」)、γインターフェロン誘導性モノカイン(「MIG」)、マクロファージ炎症性タンパク質−3α(「MIP−3α」)、神経成長因子β(「NGF−β」)、可溶性リガンド(「CD40リガンド」)、上皮増殖因子(「EFG」)、エオタキシン(「CCL11」)、フラクタルキン、塩基性線維芽細胞増殖因子(「FGF−塩基性」)、顆粒球コロニー刺激因子(「G−CSF」)、顆粒球マクロファージコロニー刺激因子(「GM−CSF」)、インターフェロンγ(「IFNγ」)、IFN−ω、IFN−α2、IFN−β、インターロイキン(「IL」)1a、IL−1β、IL−1ra、IL−2、IL−2ra、IL−3、IL−4、IL−5、IL−6、IL−7、IL−8、IL−9、IL−10、IL−12(p40)、IL−12(p70)、IL−13、IL−15、IL−16、IL−17、IL−17a、IL−17F、IL−20、IL−21、IL−22、IL−23(p19)、IL−27、IL−31、IP−10、単球走化性タンパク質1(「MCP−1」)、マクロファージ炎症性タンパク質(「MIP」)1α、MIP−1β、好中球活性化ペプチド78(「ENA−78」)、オステオプロテゲリン(「OPG」)、胎盤増殖因子(「PIGF」)、血小板由来成長因子サブユニットBホモ二量体(「PDGFBB」)、T細胞由来の好酸球走化性物質(「RANTES」)、幹細胞成長因子(「SCGF」)、ストロマ細胞由来因子1(「SDF−1」)、可溶性Fasリガンド(「Sfas−リガンド」)、NFκ−B活性化可溶性受容体リガンド(「sRANKL」)、サバイビン、トランスフォーミング増殖因α(「TGFα」)、TGF−β、腫瘍壊死因子a(「TNFα」)、TNF−β、TNF受容体1(「TNFR−I」)、TNF関連性アポトーシス誘導性リガンド(「TRAIL」)、血管内皮成長因子(「VEGF」)、アディポネクチン、プラスミノーゲン活性化因子阻害因子1(「PAI−1」;「セルピン」)(活性型/全)、レジスチン(「RETN」;「xcp1」)、sFas、可溶性Fasリガンド(「sFasL」)、マクロファージ遊走性阻止因子(「MIF」)、sE−セレクチン、可溶性血管細胞接着分子(「sVCAM」)、可溶性細胞間接着分子(「sICAM」)、ミエロペルオキシダーゼ(「MPO」)、血清アミロイドA(「SAA」;「SAA1」)。   [0208] Quantitative biomarker data was collected for each of the 86 biomarkers described below: brain-derived neurotrophic factor ("BDNF"), B lymphocyte chemoattractant ("BLC"), skin T. Cell-attracting chemokine ("CTACK"), eotaxin-2, eotaxin-3, granzyme-B, hepatocyte growth factor ("HGF"), I-TAC ("CXCL11"; "chemokine (C-X-C motif) ligand" 11 ”,“ interferon-induced T cell α chemoattractant ”), leptin (“ LEP ”), leukemia inhibitory factor (“ LIF ”), macrophage colony stimulating factor (“ MCSF ”), γ-interferon-inducible monokine (“ MIG ”). ), Macrophage inflammatory protein-3α (“MIP-3α”), nerve growth factor β (“N F-β "), soluble ligand (" CD40 ligand "), epidermal growth factor (" EFG "), eotaxin (" CCL11 "), fractalkine, basic fibroblast growth factor (" FGF-basic "), Granulocyte colony stimulating factor (“G-CSF”), granulocyte macrophage colony stimulating factor (“GM-CSF”), interferon γ (“IFNγ”), IFN-ω, IFN-α2, IFN-β, interleukin ( “IL”) 1a, IL-1β, IL-1ra, IL-2, IL-2ra, IL-3, IL-4, IL-5, IL-6, IL-7, IL-8, IL-9, IL-10, IL-12 (p40), IL-12 (p70), IL-13, IL-15, IL-16, IL-17, IL-17a, IL-17F, IL-20, IL-21, IL-22 , IL-23 (p19), IL-27, IL-31, IP-10, monocyte chemoattractant protein 1 (“MCP-1”), macrophage inflammatory protein (“MIP”) 1α, MIP-1β, Neutrophil activating peptide 78 (“ENA-78”), osteoprotegerin (“OPG”), placental growth factor (“PIGF”), platelet-derived growth factor subunit B homodimer (“PDGFBB”), T cell-derived eosinophil chemoattractant (“RANTES”), stem cell growth factor (“SCGF”), stromal cell-derived factor 1 (“SDF-1”), soluble Fas ligand (“Sfas-ligand”), NFκ-B activating soluble receptor ligand (“sRANKL”), survivin, transforming growth factor α (“TGFα”), TGF-β, tumor necrosis factor a (“TNFα”). , TNF-β, TNF receptor 1 (“TNFR-I”), TNF-related apoptosis-inducing ligand (“TRAIL”), vascular endothelial growth factor (“VEGF”), adiponectin, plasminogen activator inhibitor 1 (“PAI-1”; “serpin”) (active / total), resistin (“RETN”; “xcp1”), sFas, soluble Fas ligand (“sFasL”), macrophage migration inhibitory factor (“MIF”). ), SE-selectin, soluble vascular cell adhesion molecule (“sVCAM”), soluble intercellular adhesion molecule (“sICAM”), myeloperoxidase (“MPO”), serum amyloid A (“SAA”; “SAA1”).

〔0209〕 それぞれの対象につき、計3試料について、86種類のバイオマーカーをそれぞれ測定した。分類する目的では、各試料に分類を割り当てるモデルを作成した。ある対象のいずれかの試料が癌であると見なされた場合には、その患者は癌を患っていると仮定した。病理を決定するこの方法は、他の可能な方法、例えば投票よりも控えめである。   [0209] For each subject, 86 kinds of biomarkers were measured for a total of 3 samples. For classification purposes, a model was created that assigned a classification to each sample. If any sample of a subject was considered to have cancer, then the patient was assumed to have cancer. This method of determining pathology is more modest than other possible methods, such as voting.

〔0210〕 検出の上限を超えたバイオマーカー濃度は、検出の上限と等しいと設定した。検出の下限を下回るバイオマーカー濃度は、検出の下限と等しいと設定し、2の平方根で割った。この解はこの問題に限られるものであり、真のバイオマーカー分布の評価に偏りを生じるものではないと考えられる。これは適宜、検出の上限または下限でのバイオマーカーの値の分布に質点を生成する効果を有する。SVMがノンパラメトリックであり、アダブーストが一連の木に基づくものであることから、上述したこのその場しのぎの解の欠点は適用されない。性別、年齢、および喫煙は全ての分類モデルに含められた。   [0210] Biomarker concentrations above the upper limit of detection were set equal to the upper limit of detection. Biomarker concentrations below the lower limit of detection were set equal to the lower limit of detection and divided by the square root of 2. This solution is limited to this problem and does not appear to bias the assessment of the true biomarker distribution. This has the effect of creating mass points in the distribution of biomarker values at the upper or lower limits of detection, as appropriate. Since the SVM is non-parametric and the AdaBoost is based on a series of trees, the drawbacks of this ad hoc solution described above do not apply. Gender, age, and smoking were included in all classification models.

結果
〔0211〕 データ:肺病理分類、y(NSCLC、正常)、および86−タプルの連続的に分布しているバイオマーカー、x、が、3重複(計1634試料、癌:546、癌以外:1088)で行った各544人の対象(癌:180、癌以外:364)について使用可能であった。それぞれの試料についてのデータ(y、x)を観測と見なす。544対象(1634試料)を学習セット(N=209;626試料)と確認セット(N=335;1008試料)とに無作為に分けた(表5)。
Results [0211] Data: Lung pathology classification, y (NSCLC, normal), and consecutively distributed biomarkers of 86-tuples, x, in triplicate (total 1634 samples, cancer: 546, non-cancer: It was usable for each of 544 subjects (cancer: 180, non-cancer: 364) performed in 1088). The data (y, x) for each sample is considered an observation. The 544 subjects (1634 samples) were randomly divided into a learning set (N = 209; 626 samples) and a validation set (N = 335; 1008 samples) (Table 5).

〔0212〕 モデル:本試験では、第3a相にSVMおよびアダブーストを使用した。本明細書で示す結果は、全バイオマーカーと人口統計学的情報を使用するモデルに関する結果である(544対象、対象一人当たり3試料の1634試料、および86種類のバイオマーカー)。バイオマーカーのみ、またはバイオマーカー全体のパネルを含む下位セットとモデルについても検討した。SVMと比較するとアダブーストの性能が非常に優れていたため、精力的にアダブーストを探索した。   [0212] Model: In this study, SVM and Adaboost were used for Phase 3a. The results presented here are for a model that uses all biomarkers and demographic information (544 subjects, 3 samples per subject, 1634 samples, and 86 biomarkers). Subsets and models containing biomarkers alone or panels of biomarkers were also examined. The performance of AdaBoost was very good compared to SVM, so I energetically searched for AdaBoost.

〔0213〕 統計学的手法:肺病理分類に伴う各バイオマーカーの分布の変化に関する統計的な有意差をクラスカル・ワリス検定で評価した。全ての統計検定は両側検定で、有意差レベルは5%であった。ジェフリーズ法を使用して、両方の割合に関する95%信頼区間の上限と下限を計算した。試料一つ当たりを基準として解析した場合には自己相関を無視し、全ての解析において、複数の比較に関する補正は行わなかった。   [0213] Statistical method: A Kruskal-Wallis test was used to evaluate a statistically significant difference in the change in distribution of each biomarker associated with lung pathological classification. All statistical tests were two-sided with a level of significance of 5%. The Jeffreys method was used to calculate the upper and lower 95% confidence intervals for both proportions. When the analysis was performed on the basis of one sample, the autocorrelation was ignored, and no correction for multiple comparisons was made in all the analyzes.

〔0214〕 モデル性能:モデル性能は、確認セット中に含まれている試料に関するモデルの予測を試験すること、または対象レベルでの試料の予測を集計することのいずれかによって決定することができる。試料レベルでの予測を集計するために、ある対象に由来する1つの試料が癌であると予測された場合には、その対象を癌であると予測した。データを集計するには他の方法もあるが、本実施例では、感度(真陽性率としても知られている)および特異度(偽陽性率としても知られている)を最大にする方法を選択した。   [0214] Model performance: Model performance can be determined by either testing the model's predictions for the samples contained in the validation set or by aggregating the sample's predictions at the subject level. To aggregate the predictions at the sample level, a subject was predicted to have cancer if one sample from the subject was predicted to have cancer. There are other ways to aggregate the data, but in this example, the method of maximizing sensitivity (also known as the true positive rate) and specificity (also known as the false positive rate) is used. Selected.

〔0215〕 1種類のバイオマーカー(IP−10)を除いて、全てのバイオマーカーで有意な変化が見られた。試料一つ当たりを基準とした性別に関するバイオマーカーの対比からは、22種類のバイオマーカー(アディポネクチン、IL.27、IL.2ra、IL.31、LIF、MPO、PIGF、SCF、sEセレクチン、sFas.リガンド、TNFR.II、ENA.78、エオタキシン、フラクタルキン、GCSF、GM.CSF、IL.15、I.TAC、レプチン、MIP.1b、レジスチン、IL.21)が有意な変化を表したことが示された。データベースに含まれている人種(白人、黒人)に関し、試料一つ当たりを基準としてバイオマーカーを生データで対比すると、53種類のバイオマーカーが有意な変化を示したことが明らかとなった。試料一つ当たりを基準として、データベース中の癌対象とそれ以外の対象を対比すると、1種類のバイオマーカー(IP.10)を除き、全てのバイオマーカーで有意な変化が認められた。   [0215] Significant changes were observed in all biomarkers except one biomarker (IP-10). 22 types of biomarkers (adiponectin, IL.27, IL.2ra, IL.31, LIF, MPO, PIGF, SCF, sE selectin, sFas. Ligand, TNFR.II, ENA.78, eotaxin, fractalkine, GCSF, GM.CSF, IL.15, I.TAC, leptin, MIP.1b, resistin, IL.21) showed significant changes. Was shown. Regarding the races (white, black) included in the database, when the biomarkers were compared with the raw data on the basis of one sample, it was revealed that 53 types of biomarkers showed significant changes. When the cancer subject and the other subjects in the database were compared on the basis of one sample, all biomarkers except one biomarker (IP.10) showed significant changes.

〔0216〕 試料一つ当たりを基準とした予測に関しては(表6〜9)、総体的に、SVMはアダブーストよりも低い性能しか示さなかった[SVM:感度=0.78(0.02)、95%信頼区間(0.74、0.82)、特異度=0.92(0.01)、95%CI(0.90、0.94)、アダブースト:感度=0.86(0.02)、95%CI(0.82、0.89)、特異度=0.93(0.01)、95%CI(0.90、0.94)]。アダブーストの性能は、男性のみ(表10および11)および女性のみ(表12および13)に限定した場合には同程度であった[男性のみ:感度=0.87(0.02)、95%CI(0.82、0.91)、特異度=0.95(0.01)、95%CI(0.92、0.97)、女性のみ:感度=0.82(0.03)、95%CI(0.76、0.87)、特異度=0.94(0.01)、95%CI(0.90、0.96)]。   [0216] For predictions on a per sample basis (Tables 6-9), overall, SVM showed lower performance than AdaBoost [SVM: Sensitivity = 0.78 (0.02), 95% confidence interval (0.74, 0.82), specificity = 0.92 (0.01), 95% CI (0.90, 0.94), AdaBoost: sensitivity = 0.86 (0.02) ), 95% CI (0.82, 0.89), specificity = 0.93 (0.01), 95% CI (0.90, 0.94)]. Adaboost performance was comparable when limited to men only (Tables 10 and 11) and women only (Tables 12 and 13) [Males only: Sensitivity = 0.87 (0.02), 95%. CI (0.82, 0.91), specificity = 0.95 (0.01), 95% CI (0.92, 0.97), female only: sensitivity = 0.82 (0.03), 95% CI (0.76, 0.87), specificity = 0.94 (0.01), 95% CI (0.90, 0.96)].

〔0217〕 対象一人当たりについての予測(表14〜17)に関しては、総体的に、SVMはアダブーストよりも低い性能しか示さなかった[SVM:感度=0.79(0.04)、95%信頼区間(0.70、0.85)、特異度=0.92(0.02)、95%CI(0.88、0.95)、アダブースト:感度=0.87(0.03)、95%CI(0.80、0.92)、特異度=0.93(0.02)、95%CI(0.88、0.96)]。アダブーストの性能は、男性のみ(表18および19)および女性のみ(表20および21)に限定した場合でも同程度であった[男性のみ:感度=0.95(0.02)、95%CI(0.89、0.98)、特異度=0.87(0.04)、95%CI(0.76、0.93)、女性のみ:感度=0.95(0.02)、95%CI(0.90、0.98)、特異度=0.74(0.06)、95%CI(0.61、0.83)]。   [0217] Regarding the per-subject predictions (Tables 14-17), overall, SVMs showed lower performance than AdaBoost [SVM: Sensitivity = 0.79 (0.04), 95% confidence. Section (0.70, 0.85), specificity = 0.92 (0.02), 95% CI (0.88, 0.95), AdaBoost: Sensitivity = 0.87 (0.03), 95 % CI (0.80, 0.92), specificity = 0.93 (0.02), 95% CI (0.88, 0.96)]. Adaboost's performance was similar when restricted to men only (Tables 18 and 19) and women only (Tables 20 and 21) [Males only: Sensitivity = 0.95 (0.02), 95% CI. (0.89, 0.98), specificity = 0.87 (0.04), 95% CI (0.76, 0.93), female only: sensitivity = 0.95 (0.02), 95 % CI (0.90, 0.98), specificity = 0.74 (0.06), 95% CI (0.61, 0.83)].

〔0218〕 アダブーストおよびSVMの受信者特性(ROC)曲線および曲線下面積(AUC)を図1と2に示す。アダブーストのAUCは0.98であり、SVMのAUCは0.96である。アダブーストの男性のみおよび女性のみの場合のROC曲線を図3と4に示す。男性のみの場合のAUCは0.98であり、女性のみの場合のAUCは0.95である。アダブーストの変数重要度プロットを図5に示す。アダブーストモデルで最も重要な3つの変数は、CTACK、MSCF、およびエオタキシン.3である。男性に限定した場合のアダブーストの変数重要度プロットを図6に示す。最も重要な3つの変数は、MCSF、CTACK、およびエオタキシン.3であった。女性に限定した場合のアダブーストの変数重要度プロットを図7に示す。最も重要な3つの変数は、MCSF、FGF.塩基性、およびCTACKであった。   [0218] Receiver characteristic (ROC) curves and area under the curve (AUC) for AdaBoost and SVM are shown in FIGS. AdaBoost has an AUC of 0.98 and SVM has an AUC of 0.96. ROC curves for AdaBoost male and female only are shown in FIGS. 3 and 4. The AUC for males only is 0.98 and the AUC for females only is 0.95. The Adaboost variable importance plot is shown in FIG. The three most important variables in the AdaBoost model are CTACK, MSCF, and eotaxin. It is 3. The variable importance plot of AdaBoost when limited to men is shown in FIG. The three most important variables are MCSF, CTACK, and eotaxin. It was 3. The variable importance plot of AdaBoost when limited to women is shown in FIG. The three most important variables are MCSF, FGF. It was basic and CTACK.

〔0219〕 アダブーストの性能が、データベースを無作為に学習セットと確認セットに分割したことによる人為的な結果でないことを確認するために、無作為に200個の画分を生成し、それぞれの画分にモデルを当てはめた。これら200個のモデルの性能分布のを図8〜10に要約した。アダブーストの性能は一定して良いように見え、このことから、アダブーストについて記載した性能統計が確認された。   [0219] In order to confirm that the performance of AdaBoost is not the artificial result of randomly dividing the database into a learning set and a confirmation set, 200 fractions were randomly generated, and each fraction was generated. I applied the model to the minutes. The performance distributions of these 200 models are summarized in Figures 8-10. The performance of AdaBoost seemed consistently good, which confirmed the performance statistics describing AdaBoost.

考察
〔0220〕 これらのデータは、性別による制限を設けても設けなくても、アダブースト分類器の優れた予測に関する一貫したパターンを示している。他の分析は、a)バイオマーカーのみを使用して癌をモデル化する工程、b)バイオマーカーの最適な下位セットを生成する工程、ここでバイオマーカーは、好ましくは図5−7の結果に基づいて、より好ましくはこれらの図におけるスコアが0.004を上回る、より好ましくはスコアが0.006を上回る、さらに好ましくはスコアが0.008を上回る、一層さらに好ましくはスコアが0.01を上回るバイオマーカーを含み、数が少ないながらも優れた予測の質を有し、c)この実施例の結果を実施例1〜9の結果と比較する工程を含むはずである。
Discussion [0220] These data show a consistent pattern of good predictions for the AdaBoost classifier with and without gender restrictions. Other analyzes include a) modeling cancer using only biomarkers, b) generating an optimal sub-set of biomarkers, where the biomarkers are preferably those in the results of Figures 5-7. On the basis of more preferably the score in these figures is above 0.004, more preferably the score is above 0.006, even more preferably the score is above 0.008, even more preferably the score is above 0.01. It should include superior biomarkers and have good predictive quality, albeit in small numbers, c) comparing the results of this example with the results of Examples 1-9.

実施例11−非小細胞肺癌の診断試験
〔0221〕 診断情報が望まれている患者から体液試料を得る。試料は好ましくは、血清または血漿である。実施例1〜10のうちのいずれか1例からのバイオマーカーそれぞれの、試料中の濃度を決定する。試料中の各バイオマーカーについて測定した濃度を、サポートベクトルマシン中の学習データを使って決定した式に入力する。この式によって導き出された値が正であれば、これは非小細胞肺癌を示すものであり、値が負であれば、これは非小細胞肺癌でないことを示す。
Example 11 -Diagnostic test for non-small cell lung cancer [0221] A body fluid sample is obtained from a patient for whom diagnostic information is desired. The sample is preferably serum or plasma. The concentration in the sample of each of the biomarkers from any one of Examples 1-10 is determined. Enter the measured concentration for each biomarker in the sample into the equation determined using the training data in the support vector machine. A positive value derived by this formula indicates non-small cell lung cancer, and a negative value indicates non-small cell lung cancer.

実施例12−男性対象における非小細胞肺癌の診断試験
〔0222〕 診断情報が望まれている男性患者から体液試料を得る。試料は好ましくは、血清または血漿である。実施例1〜5、7〜8または10のうちのいずれか1例からのバイオマーカーそれぞれの、試料中の濃度を決定する。試料中の各バイオマーカーについて測定した濃度を、サポートベクトルマシン中の学習データを使って決定した式に入力する。この式によって導き出された値が正であれば、これは非小細胞肺癌を示すものであり、値が負であれば、これは非小細胞肺癌でないことを示す。
Example 12- Diagnostic Test for Non-Small Cell Lung Cancer in Male Subjects [0222] Body fluid samples are obtained from male patients for whom diagnostic information is desired. The sample is preferably serum or plasma. The concentration in the sample of each of the biomarkers from any one of Examples 1-5, 7-8 or 10 is determined. Enter the measured concentration for each biomarker in the sample into the equation determined using the training data in the support vector machine. A positive value derived by this formula indicates non-small cell lung cancer, and a negative value indicates non-small cell lung cancer.

実施例13−男性対象における非小細胞肺癌の別の試験
〔0223〕 本明細書に記載する多くのバイオマーカーは、全てではなくても、上述した種類のコミュニケーション経路に関与している。バイオマーカーのいくつかは互いに一次相互作用器として関わり合っている。診断アッセイまたは予後アッセイで使用するためのマーカーの選択は、特定のバイオマーカー間およびそれらの一次相互作用器との間における既知の関係を使用することで容易になり得る。ARIADNE PATHWAY STUDIO(登録商標)で生成した、HGF(肝細胞増殖因子)と他のバイオマーカーとの間の既知のコミュニケーションを図5で見ることができる。図5は、sFasL(可溶性Fasリガンド)、PAI−1(セルピンプラスミノーゲン活性化因子阻害因子1)(活性型/全)、Ins(インスリン;C−ペプチドも含む)、EGF(上皮増殖因子)、MPO(ミエロペルオキシダーゼ)、およびMIF(マクロファージ遊走性阻止因子)を含む、HGF(肝細胞増殖因子)の一次相互作用器を示している。他の相互作用器(一次相互作用器ではない)としては、RETN(レジスチン、xcp1)、SAA1(血清アミロイドA、SAA)、CCL11(エオタキシン)、LEP(レプチン)およびCXCL11(ケモカイン(C−X−Cモチーフ)リガンド11、インターフェロン誘導T細胞α化学誘引物質(I−TAC)またはγインターフェロン誘導性タンパク質9(IP−9))が挙げられる。加えて、図5は、MMP1およびMMP−8(マトリックスメタロプロテアーゼ1および8)の2種類のバイオマーカーが、HGFを伴うコミュニケーション経路上にはないことを示している。
Example 13- Another Study of Non-Small Cell Lung Cancer in Male Subjects [0223] Many, if not all, of the biomarkers described herein are involved in communication pathways of the type described above. Some of the biomarkers interact with each other as primary interactors. The selection of markers for use in diagnostic or prognostic assays can be facilitated by using the known relationships between particular biomarkers and their primary interactors. Known communication between HGF (hepatocyte growth factor) and other biomarkers generated with ARIADNE PATHWAY STUDIO® can be seen in FIG. FIG. 5 shows sFasL (soluble Fas ligand), PAI-1 (serpin plasminogen activator inhibitor 1) (active / total), Ins (insulin; also includes C-peptide), EGF (epithelial growth factor). Shows primary interactors of HGF (hepatocyte growth factor), including, MPO (myeloperoxidase), and MIF (macrophage migration inhibitory factor). Other interactors (not primary interactors) include RETN (resistin, xcp1), SAA1 (serum amyloid A, SAA), CCL11 (eotaxin), LEP (leptin) and CXCL11 (chemokines (C-X-). C motif) ligand 11, interferon-induced T cell α chemoattractant (I-TAC) or γ interferon-inducible protein 9 (IP-9)). In addition, FIG. 5 shows that the two biomarkers MMP1 and MMP-8 (matrix metalloprotease 1 and 8) are not on the communication pathway with HGF.

〔0224〕 診断情報が望まれている患者から体液試料を得る。試料は好ましくは、血清または血漿である。試料中の、選択したバイオマーカーだけの濃度を決定する。HGFがサポートベクトルマシン中で使用するための選択したバイオマーカーのうちの1つであると仮定すると、HGFのいずれかの一次相互作用器(例えば、MIF、EGFなど)の濃度を、HGFと置き換えることができる。そのため、HGFと置き換えた一次相互作用器を含む学習データについて、サポートベクトルマシンが再度実行される。次にこのモデルを患者の試料に適用する。この式によって導き出された値が正であれば、これは非小細胞肺癌を示すものであり、値が負であれば、これは非小細胞肺癌でないことを示す。   [0224] A body fluid sample is obtained from a patient for whom diagnostic information is desired. The sample is preferably serum or plasma. Determine the concentration of only the selected biomarker in the sample. Assuming HGF is one of the biomarkers of choice for use in support vector machines, replace the concentration of any primary interactor of HGF (eg, MIF, EGF, etc.) with HGF. be able to. Therefore, the support vector machine is executed again for the learning data including the first-order interactor replaced with the HGF. This model is then applied to patient samples. A positive value derived by this formula indicates non-small cell lung cancer, and a negative value indicates non-small cell lung cancer.

実施例14−非小細胞肺癌と反応性気道疾患との区別
〔0225〕 非小細胞肺癌と反応性気道疾患とを区別するためには、(1)非小細胞肺癌の有無の評価、(2)反応性気道疾患の有無の評価、および(3)非小細胞肺癌または反応性気道疾患の評価、の3つを決定する。これらの評価は以下に記載するように実施する。
Example 14 -Distinction between non-small cell lung cancer and reactive airway disease [0225] To distinguish between non-small cell lung cancer and reactive airway disease, (1) evaluation of the presence or absence of non-small cell lung cancer, (2 3) Determine the presence or absence of reactive airway disease, and (3) the assessment of non-small cell lung cancer or reactive airway disease. These evaluations are carried out as described below.

〔0226〕 診断情報が望まれている患者から体液試料を得る。試料は好ましくは、血清または血漿である。実施例1〜10のうちのいずれか1例からのバイオマーカーの、試料中の濃度を決定する。試料中の各バイオマーカーについて測定した濃度を、サポートベクトルマシン中の学習データを使って決定した式に入力する。この式によって導き出された値が正であれば、これは非小細胞肺癌を示すものであり、値が負であれば、これは非小細胞肺癌でないことを示す。   [0226] A body fluid sample is obtained from a patient for whom diagnostic information is desired. The sample is preferably serum or plasma. The concentration in the sample of the biomarker from any one of Examples 1-10 is determined. Enter the measured concentration for each biomarker in the sample into the equation determined using the training data in the support vector machine. A positive value derived by this formula indicates non-small cell lung cancer, and a negative value indicates non-small cell lung cancer.

〔0227〕 次に、実施例1〜10のうちのいずれか1例からのバイオマーカーの、試料中の濃度を決定する。試料中の各バイオマーカーについて測定した濃度を、サポートベクトルマシン中の学習データを使って決定した式に入力する。この式によって導き出された値が正であれば、これは反応性気道疾患を示すものであり、値が負であれば、これは反応性気道疾患でないことを示す。   [0227] Next, the concentration of the biomarker from any one of Examples 1-10 in the sample is determined. Enter the measured concentration for each biomarker in the sample into the equation determined using the training data in the support vector machine. A positive value derived by this equation indicates a reactive airway disease, and a negative value indicates a non-reactive airway disease.

〔0228〕 次に、実施例1〜10のうちのいずれか1例からのバイオマーカーの、試料中の濃度を決定する。試料中の各バイオマーカーについて測定した濃度を、サポートベクトルマシン中の学習データを使って決定した式に入力する。この式によって導き出された値が正であれば、これは非小細胞肺癌を示すものであり、値が負であれば、これは反応性気道疾患を示す。   [0228] Next, the concentration of the biomarker from any one of Examples 1-10 in the sample is determined. Enter the measured concentration for each biomarker in the sample into the equation determined using the training data in the support vector machine. A positive value derived by this equation indicates non-small cell lung cancer, and a negative value indicates reactive airway disease.

〔0229〕 正のスコアおよび負のスコアを分析することによって、これらの結果をさらに評価する。具体的には、その患者が非小細胞肺癌であるか、反応性気道疾患であるか、または疾患に罹患していないかの決定は、どの条件が、3つのスコアのうちの2つで見られるかに依存する。例えば、第一の試験と第三の試験が正であった場合、その患者は非小細胞肺癌に罹患していると診断され得る。第一の試験と第二の試験が負であった場合には、そおの患者は非小細胞肺癌にも反応性気道疾患にも罹患していないと診断され得る。   [0229] These results are further evaluated by analyzing positive and negative scores. Specifically, the determination of whether the patient has non-small cell lung cancer, reactive airway disease, or is free of disease depends on which condition is found on two of the three scores. Depends on For example, if the first and third tests were positive, the patient can be diagnosed as having non-small cell lung cancer. If the first and second tests are negative, the patient can be diagnosed as having neither non-small cell lung cancer nor reactive airway disease.

〔0230〕 本開示に含まれる等式、式および関係は、例示的かつ代表的なものであり、本発明を限定することを意図しない。本明細書で開示した任意の所与の式によって説明されるものと同じ現象を表すために、別の式を使ってもよい。具体的には、本発明で開示する式を、誤り訂正タームを加えることで、高位タームを加えることで、または不正確さを考慮すること、別の名称の定数もしくは変数を使用すること、または別の表現を使用することで修正してもよい。式の他の修正、置換、置き換え、または変更を実施してもよい。   [0230] The equations, formulas and relationships included in this disclosure are exemplary and representative and are not intended to limit the invention. Other equations may be used to represent the same phenomenon described by any given equation disclosed herein. Specifically, the equations disclosed in the present invention can be modified by adding error correction terms, adding high order terms, or taking into account inaccuracies, using constants or variables of different names, or It may be modified by using another expression. Other modifications, substitutions, substitutions or changes to the formula may be made.

〔0231〕 本明細書中で言及している全ての出版物、特許、および公開されている特許出願は、その全体が、あたかも個々の出版物、特許または公開特許出願が具体的にかつ個別に参照することにより組み込まれると示されているのと同じように、参照することにより本明細書に組み込まれる。
本発明は、例えば、以下を提供する。
(項目1)
(a)対象の生理学的試料を収集する工程;(b)前記試料中の複数のバイオマーカーのバイオマーカー測定値を決定する工程;および(c)分類システムを利用し、該バイオマーカー測定値に基づいて該試料を分類する工程を含む、該対象を生理学的に特徴付ける方法であって、ここで該試料の該分類と、該対象の生理的な状況もしくは状態、または疾患状況の変化には相関がある、前記方法。
(項目2)
(a)対象の生理学的試料を収集する工程;(b)前記試料中の複数のバイオマーカーのバイオマーカー測定値を決定する工程;および(c)分類システムを利用し、該バイオマーカー測定値に基づいて該試料を分類する工程を含む、該対象における非小細胞肺癌の診断方法であって、ここで該試料の該分類は、該対象における非小細胞肺癌の存在または発生を示すものである、前記方法。
(項目3)
(a)対象の生理学的試料を収集する工程;(b)前記試料中の複数のバイオマーカーのバイオマーカー測定値を決定する工程;および(c)分類システムを利用し、該バイオマーカー測定値に基づいて該試料を分類する工程、を含む該対象における反応性気道疾患の診断方法であって、ここで該試料の該分類は、該対象における反応性気道疾患を示すものである、前記方法。
(項目4)
(a)対象の生理学的試料を収集する工程;
(b)前記試料中の、反応性気道疾患の兆候と非小細胞肺癌の区別を補助する複数のバイオマーカー、反応性気道疾患を示す複数のバイオマーカー、および非小細胞肺癌を示す複数のバイオマーカーのバイオマーカー測定値を決定する工程、ここで前記複数のバイオマーカーは同一のものでなく;
(c)3つの分類システムを使用して、該バイオマーカー測定値に基づいて該試料を分類する工程、ここで該試料の該分類は、該対象における(i)反応性気道疾患および非小細胞肺癌;(ii)反応性気道疾患の有無;および(iii)非小細胞肺癌の有無をの兆候の区別を補助するものであり;
(d)どの条件が該3つの分類のうちの2つに見られるかに応じて、該対象が、(1)反応性気道疾患に罹患しているか;(2)非小細胞肺癌に罹患しているか、または(3)疾患に罹患していないか、を決定する工程、を含む該対象の肺疾患の診断方法。
(項目5)
該分類システムが機械学習システムである、項目1〜4のいずれか1項に記載の方法。
(項目6)
該機械学習システムがカーネルを使用する分類システムである、項目5の方法。
(項目7)
該カーネルを使用する分類システムがサポートベクトルマシンである、項目6の方法。
(項目8)
該機械学習システムが分類および回帰木システムである、項目5の方法。
(項目9)
該機械学習システムが分類および回帰木システムの集合である、項目8の方法。
(項目10)
該機械学習システムがアダブーストである、項目9の方法。
(項目11)
バイオマーカーのセットそれぞれの、複数のバイオマーカー測定値を含む試験データの分類方法であって、
ヒト試験対象における該バイオマーカーのセットのそれぞれのバイオマーカーに関するバイオマーカー測定値を含む試験データを受信する工程;
電子的に記憶されている学習データベクトルのセットを使って訓練したサポートベクトルマシンの電子表示を使用して該試験データを評価する工程、ここで各学習データベクトルは個々のヒトを表し、かつ、対応するヒトに関する該バイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでおり;および
該評価する工程に基づいて、該ヒト試験対象の分類を出力する工程を含む、試験データの分類方法。
(項目12)
バイオマーカーのセットそれぞれの、複数のバイオマーカー測定値を含む試験データの分類方法であって、
ヒト試験対象における該バイオマーカーのセットの、各バイオマーカーに関するバイオマーカー測定値を含む該試験データを受信する工程;
電子的に記憶されている学習データベクトルのセットを使って訓練したアダブースト分類器の電子表示を使用して試験データを評価する工程、ここで、各学習データベクトルは個々のヒトを表し、かつ、対応するヒトに関する該バイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでおり;および、
評価する工程に基づいたヒト試験対象の分類を出力する工程を含む、試験データの分類方法。
(項目13)
バイオマーカーのセットそれぞれの、複数のバイオマーカー測定値を含む試験データの分類方法であって、
電子的に記憶されている学習データベクトルのセットにアクセスする工程、ここで各学習データベクトルは個々のヒトを表し、かつ、対応するヒトに関する該バイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでおり;
該電子的に記憶されている学習データベクトルのセットを使用して、サポートベクトルマシンの電子表示を訓練する工程;
ヒト試験対象における該バイオマーカーのセットに関する複数のバイオマーカー測定値を含む試験データを受信する工程;
該サポートベクトルマシンの該電子表示を使用して、該試験データを評価する工程;および、
該評価する工程に基づいて、該ヒト試験対象の分類を出力する工程を含む、試験データの分類方法。
(項目14)
バイオマーカーのセットそれぞれの、複数のバイオマーカー測定値を含む試験データの分類方法であって、
電子的に記憶されている学習データベクトルのセットにアクセスする工程、ここで各学習データベクトルは個々のヒトを表し、かつ、対応するヒトに関する該バイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでおり;
該電子的に記憶されている学習データベクトルのセットを使用して、アダブースト分類器の電子表示を訓練する工程;
ヒト試験対象における該バイオマーカーのセットに関する複数のバイオマーカー測定値を含む試験データを受信する工程;
該アダブースト分類器の該電子表示を使用して、該試験データを評価する工程;および、該評価する工程に基づいて、該ヒト試験対象の分類を出力する工程を含む、試験データの分類方法。
(項目15)
バイオマーカーのセットそれぞれの、複数のバイオマーカー測定値を含む試験データの分類方法であって、
電子的に記憶されている学習データベクトルのセットにアクセスする工程、ここで各学習データベクトルは個々のヒトを表し、かつ、対応するヒトに関する該バイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでおり;
該バイオマーカーのセットから、バイオマーカーの下位セットを選択する工程;
該電子的に記憶されている学習データベクトルのセットの、バイオマーカーの該下位セットからのデータを使用して、サポートベクトルマシンの電子表示を訓練する工程;
ヒト試験対象に関する複数のバイオマーカー測定値を含む試験データを受信する工程;
該サポートベクトルマシンの該電子表示を使用して、該試験データを評価する工程;および、
該評価する工程に基づいて、該ヒト試験対象の分類を出力する工程を含む、試験データの分類方法であって、ここで、バイオマーカーの該下位セットを選択する工程には、
a.該バイオマーカーのセットに含まれているそれぞれのバイオマーカーについて、プログラムされているコンピューターを使用して、それぞれのバイオマーカーに関する2群の濃度測定値のマージン分布間の距離を計算すること、それによって、複数の距離が生成され;
b.該距離に従って、該バイオマーカーのセットに含まれている該バイオマーカーを順序付けること、それによって順序付けられたバイオマーカーのセットが生成され;
c.該順序付けられたバイオマーカーのセットの複数の初期セグメントのそれぞれについて、該学習データに基づいてモデルフィットの指標を計算すること;
d.モデルフィットの最大値型指標に従って、該順序付けられたバイオマーカーのセットの初期セグメントを選択すること、それによって、該順序付けられたバイオマーカーのセットの好ましい初期セグメントが選択され;
e.バイオマーカーの空集合から開始し、バイオマーカーの該下位セットを生成するために、該順序付けられたバイオマーカーのセットの好ましい初期セグメントから、該モデルにさらなるバイオマーカーを再帰的に追加すること、ここで各さらなるバイオマーカーは、(1)該好ましい初期セグメントに含まれている残りのバイオマーカーの中でも、それを追加することで、モデルフィットが最大に改良される場合、および(2)それを追加することで、モデルフィットが少なくとも予め設定した閾値までは改良される場合に、既存のバイオマーカーの下位セットに追加され;
f.それ以上バイオマーカーを追加しても、該予め設定しておいた閾値より、そのモデルフィット指標を超えるモデルフィットの指標が得られない場合には、既存のバイオマーカーの下位セットへのバイオマーカーの追加を停止すること、それによって、バイオマーカーの下位セットが選択される、が含まれる、前記方法。
(項目16)
バイオマーカーのセットそれぞれの、複数のバイオマーカー測定値を含む試験データの分類方法であって、
電子的に記憶されている学習データベクトルのセットにアクセスする工程、ここで各学習データベクトルは個々のヒトを表し、かつ、対応するヒトに関する該バイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでおり;
該バイオマーカーのセットから、バイオマーカーの下位セットを選択する工程;
該電子的に記憶されている学習データベクトルのセットのバイオマーカーの該下位セットからの該データを使用して、アダブースト分類器の電子表示を訓練する工程;
ヒト試験対象に関する複数のバイオマーカー測定値を含む試験データを受信する工程;
該サポートベクトルマシンの該電子表示を使用して、該試験データを評価する工程;および、
該評価する工程に基づく該ヒト試験対象の分類を出力する工程を含む試験データの分類方法であって、ここで、バイオマーカーの該下位セットを選択する工程には:
a.該バイオマーカーのセットに含まれているそれぞれのバイオマーカーについて、プログラムされているコンピューターを使用して、それぞれのバイオマーカーに関する2群の濃度測定値のマージン分布間の距離を計算すること、それによって、複数の距離が生成され;
b.該距離に従って、該バイオマーカーのセットに含まれている該バイオマーカーを順序付けること、それによって順序付けられたバイオマーカーのセットが生成され;
c.該順序付けられたバイオマーカーのセットの複数の初期セグメントのそれぞれについて、該学習データに基づいてモデルフィットの指標を計算すること;
d.モデルフィットの最大値型指標に従って、該順序付けられたバイオマーカーのセットの初期セグメントを選択すること、それによって、該順序付けられたバイオマーカーのセットの好ましい初期セグメントが選択され;
e.バイオマーカーの空集合から開始し、バイオマーカーの該下位セットを生成するために、該順序付けられたバイオマーカーのセットの好ましい初期セグメントから、該モデルにさらなるバイオマーカーを再帰的に追加すること、ここで各さらなるバイオマーカーは、(1)該好ましい初期セグメントに含まれている残りのバイオマーカーの中でも、それを追加することで、モデルフィットが最大に改良される場合、および(2)それを追加することで、モデルフィットが少なくとも予め設定した閾値までは改良される場合に、既存のバイオマーカーの下位セットに追加され;
f.それ以上バイオマーカーを追加しても、該予め設定しておいた閾値より、そのモデルフィット指標を超えるモデルフィットの指標が得られない場合には、既存のバイオマーカーの下位セットへのバイオマーカーの追加を停止すること、それによって、バイオマーカーの該下位セットが選択される工程、が含まれる、前記方法。
(項目17)
バイオマーカーのセットそれぞれの、複数のバイオマーカー測定値を含む試験データの分類方法であって、
ヒト試験対象に関する該バイオマーカーのセットそれぞれのバイオマーカー測定値を含む試験データを受信する工程;
電子的に記憶されている学習データベクトルのセットを使って訓練したサポートベクトルマシンの電子表示を使用して、該試験データを評価する工程、ここで各学習データベクトルは個々のヒトを表し、かつ、対応するヒトに関する該バイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでおり、該バイオマーカーのセットはバイオマーカーの上位セットから選択され;および、
該評価する工程に基づいた該ヒト試験対象の分類を出力する工程を含む、試験データの分類方法。
(項目18)
バイオマーカーのセットそれぞれの、複数のバイオマーカー測定値を含む該試験データの分類方法であって、
ヒト試験対象に関する該バイオマーカーのセットそれぞれの各バイオマーカー測定値を含む試験データを受信する工程;
電子的に記憶されている学習データベクトルのセットを使って訓練したアダブースト分類器の電子表示を使用して試験データを評価する工程、ここで、各学習データベクトルは個々のヒトを表し、かつ、対応するヒトに関するバイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでおり、該バイオマーカーのセットはバイオマーカーの上位セットから選択され;および
該評価する工程に基づいた該ヒト試験対象の分類を出力する工程を含む、試験データの分類方法。
(項目19)
a.バイオマーカーの上位セットに含まれている各バイオマーカーについて、プログラムされているコンピューターを使用して、それぞれのバイオマーカーに関する2群の濃度測定値のマージン分布間の距離を計算すること、それによって、複数の距離が生成され;b.該距離に従って、該バイオマーカーのセットに含まれている該バイオマーカーを順序付けること、それによって、順序付けられたバイオマーカーのセットが生成され;
c.該順序付けられたバイオマーカーのセットの複数の初期セグメントのそれぞれについて、該学習データに基づいてモデルフィットの指標を計算すること;
d.モデルフィットの最大値型指標に従って、該順序付けられたバイオマーカーのセットの初期セグメントを選択すること、それによって、該順序付けられたバイオマーカーのセットの好ましい初期セグメントが選択され;
e.バイオマーカーの空集合から開始し、バイオマーカーの該下位セットを生成するために、該順序付けられたバイオマーカーのセットの該好ましい初期セグメントから、さらなるバイオマーカーを再帰的に追加すること、ここで各さらなるバイオマーカーは、(1)該好ましい初期セグメントに含まれている残りのバイオマーカーの中でも、それを追加することで、モデルフィットが最大に改良される場合、および(2)それを追加することで、モデルフィットが少なくとも予め設定した閾値までは改良される場合に、既存のバイオマーカーの下位セットに追加され;
f.それ以上バイオマーカーを追加しても、該予め設定しておいた閾値より、そのモデルフィット指標を超えるモデルフィットの指標が得られない場合には、既存のバイオマーカーの下位セットへのバイオマーカーの追加を停止すること、それによって、バイオマーカーの下位セットが選択される、を含む方法を使用して、該バイオマーカーのセットの測定値を、バイオマーカーの該上位セットから選択する、項目17および18に記載の方法。
(項目20)
a.バイオマーカーの上位セットに含まれている各バイオマーカーに関して、それぞれのバイオマーカーに関する2群の濃度測定値のマージン分布間の距離を計算し、それによって、複数の距離を生成し;
b.該距離に従って、バイオマーカーの該上位セットに含まれている該バイオマーカーを順序付け、それによって、順序付けられたバイオマーカーのセットを生成し;
c.該順序付けられたバイオマーカーのセットの複数の初期セグメントのそれぞれについて、該学習データに基づいてモデルフィットの指標を計算し;
d.モデルフィットの最大値型指標に従って、該順序付けられたバイオマーカーのセットの初期セグメントを選択し、それによって、該順序付けられたバイオマーカーのセットの好ましい初期セグメントを選択し;
e.バイオマーカーの該初期セグメントから開始し、バイオマーカーの下位セットを生成するために、該順序付けられたバイオマーカーのセットの該好ましい初期セグメントから、バイオマーカーを再帰的に除去し、ここで、各バイオマーカーは、(1)該好ましい初期セグメントに含まれている残りのバイオマーカーのなかでも、それを除去することが、モデルフィットの縮小を最小限に抑える場合、および(2)それを除去することが、少なくとも、予め設定しておいた閾値まではモデルフィットを縮小させない場合に、バイオマーカーの既存の上位セットから除去され;
f.それ以上バイオマーカーを除去すると、モデルフィットの指標が、該予め設定しておいた閾値によってモデルフィットの指標を下回る低下を生じる場合には、バイオマーカーの既存の上位セットからのバイオマーカーの除去を停止し、それによって、バイオマーカーの該上位セットを選択する、ために構成されている論理を使用して、バイオマーカーの該上位セットから該バイオマーカーのセットを選択するために構成されているコンピューターをさらに含む、項目17および18に記載のシステム。
(項目21)
該評価する工程が、電子的に記憶されている学習データベクトルのセットにアクセスすることを含む、項目17〜20のいずれか1項に記載の方法。
(項目22)
該病状についての分類が前記病状の有無である、項目11〜21のいずれか1項に記載の方法。
(項目23)
該病状が肺疾患である、項目22の方法。
(項目24)
該肺疾患が非小細胞癌である、項目23の方法。
(項目25)
該肺疾患が反応性気道疾患である、項目23の方法。
(項目26)
該反応性気道疾患が喘息である、項目25の方法。
(項目27)
該バイオマーカー測定値が、アポリポタンパク質(「Apo」)A1、ApoA2、ApoB、ApoC2、ApoE、CD40、Dダイマー、第VII因子、第VIII因子、第X因子、プロテインC、組織プラスミノーゲン活性化因子(「TPA」)、脳由来神経栄養因子(「BDNF」)、Bリンパ球化学誘引物質(「BLC」)、ケモカイン(C−X−Cモチーフ)リガンド1(「GRO−1」)、皮膚T細胞誘引ケモカイン(「CTACK」)、エオタキシン−2、エオタキシン−3、グランザイム−B、肝細胞増殖因子(「HGF」)、I−TAC(「CXCL11」;「ケモカイン(C−X−Cモチーフ)リガンド11」、γインターフェロン誘導T細胞α化学誘引物質」)、レプチン(「LEP」)、白血病抑制因子(「LIF」)、単球特異的ケモカイン3(「MMP−3」)、マクロファージコロニー刺激因子(「MCSF」)、Γインターフェロン誘導性モノカイン(「MIG」)、マクロファージ炎症性タンパク質−3α(「MIP−3α」)、マトリックスメタロプロテアーゼ(「MMP」)1、MMP2、MMP3、MMP7、MMP8、MMP9、MMP12、MMP13、CD40、神経成長因子β(「NGF−β」)、可溶性リガンド(「CD40リガンド」)、上皮増殖因子(「EFG」)、エオタキシン(「CCL11」)、フラクタルキン、塩基性線維芽細胞増殖因子(「FGF−塩基性」)、顆粒球コロニー刺激因子(「G−CSF」)、顆粒球マクロファージコロニー刺激因子(「GM−CSF」)、インターフェロンγ(「IFNγ」)、IFN−ω、IFN−α2、IFN−β、インターロイキン(「IL」)1a、IL−1β、IL−1ra、IL−2、IL−2ra、IL−3、IL−4、IL−5、IL−6、IL−7、IL−8、IL−9、IL−10、IL−12(p40)、IL−12(p70)、IL−13、IL−15、IL−16、IL−17、IL−17a、IL−17F、IL−20、IL−21、IL−22、IL−23(p19)、IL−27、IL−31、IP−10、単球走化性タンパク質1(「MCP−1」)、マクロファージ炎症性タンパク質(「MIP」)1a、MIP−1β、好中球活性化ペプチド78(「ENA−78」)、オステオプロテゲリン(「OPG」)、胎盤増殖因子(「PIGF」)、血小板由来成長因子サブユニットBホモ二量体(「PDGFBB」)、T細胞由来の好酸球走化性物質(「RANTES」)、幹細胞成長因子(「SCGF」)、ストロマ細胞由来因子1(「SDF−1」)、可溶性Fasリガンド(「Sfas−リガンド」)、NFκ−B活性化可溶性受容体リガンド(「sRANKL」)、サバイビン、トランスフォーミング増殖因a(「TGFa」)、TGF−β、腫瘍壊死因子a(「TNFa」)、TNF−β、TNF受容体1(「TNFR−I」)、TNFR−II、TNF関連性アポトーシス誘導性リガンド(「TRAIL」)、トロンボポエチン(「TPO」)、血管内皮成長因子(「VEGF」)、インスリン(「Ins」)、C−ペプチド、グルカゴン様タンパク質−1/アミリン(「GLP−1/アミリン」)、アミリン(全)、グルカゴン、アディポネクチン、プラスミノーゲン活性化因子阻害因子1(「PAI−1」;「セルピン」)(活性型/全)、レジスチン(「RETN」;「xcp1」)、sFas、可溶性Fasリガンド(「sFasL」)、マクロファージ遊走性阻止因子(「MIF」)、sE−セレクチン、可溶性血管細胞接着分子(「sVCAM」)、可溶性細胞間接着分子(「sICAM」)、ミエロペルオキシダーゼ(「MPO」)、C反応性タンパク質(「CRP」)、血清アミロイドA(「SAA」;「SAA1」)、および血清アミロイドP(「SAP」)からなる群より選択される、少なくとも1つのタンパク質の血漿濃度の測定値を含む、項目11〜26のいずれか1項に記載の方法。
(項目28)
該バイオマーカー測定値が、少なくとも4種類の別個のバイオマーカーの血漿濃度を含む、項目27の方法。
(項目29)
該バイオマーカー測定値が、少なくとも6種類の別個のバイオマーカーの血漿濃度を含む、項目27の方法。
(項目30)
該バイオマーカー測定値が、少なくとも10種類の別個のバイオマーカーの血漿濃度を含む、項目27の方法。
(項目31)
該バイオマーカー測定値が、少なくとも18種類の別個のバイオマーカーの血漿濃度を含む、項目27の方法。
(項目32)
該学習ベクトルのセットが、少なくとも30ベクトル、50ベクトル、100ベクトルを含む、項目11〜31のいずれか1項に記載の方法。
(項目33)
該サポートベクトルマシンが、線形カーネル、ラジアル基底カーネル、多項カーネル、統一カーネル、三角カーネル、エパネクニコフ(Epanechnikov)カーネル、四次多項(二乗重み)カーネル、三次多項(三乗重み)カーネル、およびコサインカーネルから選択される、1つまたは複数のカーネル関数を含む、項目11、13、15、17、および19〜26のいずれか1項に記載の方法。
(項目34)
該アダブースト分類器が、5、10、15、20、25、30、40、50、75または100回の反復を含む、項目12、14、16、および18〜26のいずれか1項に記載の方法。
(項目35)
バイオマーカーのセットそれぞれのバイオマーカー測定値を含む試験データを分類するためのシステムであって、
個々のヒトを表し、かつ、対応するヒトに関するバイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、さらに、対応するヒトの病状に関する分類を含んでいる、電子的に記憶されている学習データベクトルのセット;ならびに、
該電子的に記憶されている学習データベクトルのセットを使用して訓練するのに適しているサポートベクトルマシンの電子表示を含んでおり、ヒト試験対象における該バイオマーカーのセットの複数のバイオマーカー測定値を含む試験データを受信するために構成されており、さらに、該サポートベクトルマシンの該電子表示を使用して該試験データを評価し、および、該評価に基づいて該ヒト試験対象の分類を出力するように構成されている、該電子的に記憶されている学習データベクトルのセットに操作可能に接続されているコンピューターを含む、試験データを分類するためのシステム。
(項目36)
バイオマーカーのセットそれぞれのバイオマーカー測定値を含む試験データを分類するためのシステムであって、
個々のヒトを表し、かつ、対応するヒトに関するバイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでいる、電子的に記憶されている学習データベクトルのセット;ならびに、
該電子的に記憶されている学習データベクトルのセットを使用して訓練するのに適しているアダブースト分類器の電子表示を含み、ヒト試験対象における該バイオマーカーのセットの複数のバイオマーカー測定値を含む試験データを受信するように構成されており、さらに、該サポートベクトルマシンの該電子表示を使用して該試験データを評価し、および、該評価に基づいて該ヒト試験対象の分類を出力するために構成されている、該電子的に記憶されている学習データベクトルのセットに操作可能に接続されているコンピューターを含む、試験データを分類するためのシステム。
(項目37)
電子的に記憶されている学習データベクトルのセットを使用して訓練したサポートベクトルマシンの電子表示を含むコンピューターを含む、バイオマーカーのセットそれぞれの複数のバイオマーカー測定値を含む試験データを分類するためのシステムであって、各学習データベクトルは個々のヒトを表し、かつ、対応するヒトに関する該バイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでおり、該コンピューターは、ヒト試験対象における該バイオマーカーのセットに関する複数のバイオマーカー測定値を含む試験データを受信するために構成されており、該コンピューターはさらに、該サポートベクトルマシンの該電子表示を使用して該試験データを評価し、および、該評価に基づいて該ヒト試験対象の分類を出力するように構成されている、試験データを分類するためのシステム。(項目38)
電子的に記憶されている学習データベクトルのセットを使用して訓練したアダブースト分類器の電子表示を含むコンピューターを含む、バイオマーカーのセットそれぞれの複数のバイオマーカー測定値を含む試験データを分類するためのシステムであって、各学習データベクトルは個々のヒトを表し、かつ、対応するヒトに関する該バイオマーカーのセットの各バイオマーカーのバイオマーカー測定値を含み、各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでおり、該コンピューターは、ヒト試験対象における該バイオマーカーのセットに関する複数のバイオマーカー測定値を含む試験データを受信するために構成されており、該コンピューターはさらに、該サポートベクトルマシンの該電子表示を使用して該試験データを評価し、および、該評価に基づいて該ヒト試験対象の分類を出力するように構成されている、試験データを分類するためのシステム。
(項目39)
a.バイオマーカーの上位セットに含まれている各バイオマーカーに関して、それぞれのバイオマーカーに関する2群の濃度測定値のマージン分布間の距離を計算し、それによって、複数の距離を生成し;
b.該距離に従って、バイオマーカーの該上位セットに含まれている該バイオマーカーを順序付け、それによって、順序付けられたバイオマーカーのセットを生成し;
c.該順序付けられたバイオマーカーのセットの複数の初期セグメントのそれぞれについて、該学習データに基づいてモデルフィットの指標を計算し;
d.モデルフィットの最大値型指標に従って、該順序付けられたバイオマーカーのセットの初期セグメントを選択し、それによって、該順序付けられたバイオマーカーのセットの好ましい初期セグメントを選択し;
e.バイオマーカーの空集合から開始し、バイオマーカーの下位セットを生成するために、該順序付けられたバイオマーカーのセットの該好ましい初期セグメントから、さらなるバイオマーカーを再帰的に追加し、ここで各さらなるバイオマーカーは、(1)該好ましい初期セグメントに含まれている残りのバイオマーカーの中でも、それを追加することで、モデルフィットが改良される場合、および(2)それを追加することで、モデルフィットが少なくとも予め設定した閾値までは改良される場合に、既存のバイオマーカーの下位セットに追加され;
f.それ以上バイオマーカーを追加しても、該予め設定しておいた閾値より、そのモデルフィット指標を超えるモデルフィットの指標が得られない場合には、既存のバイオマーカーの下位セットへのバイオマーカーの追加を停止し、それによって、バイオマーカーの該下位セットを選択する、ために構成されている論理を使用して、バイオマーカーの該上位セットから該バイオマーカーのセットを選択するために構成されているコンピューターをさらに含む、項目37のシステム。
(項目40)
a.バイオマーカーの上位セットに含まれている各バイオマーカーに関して、それぞれのバイオマーカーに関する2群の濃度測定値のマージン分布間の距離を計算し、それによって、複数の距離を生成し;
b.該距離に従って、バイオマーカーの該上位セットに含まれている該バイオマーカーを順序付け、それによって、順序付けられたバイオマーカーのセットを生成し;
c.該順序付けられたバイオマーカーのセットの複数の初期セグメントのそれぞれについて、該学習データに基づいてモデルフィットの指標を計算し;
d.モデルフィットの最大値型指標に従って、該順序付けられたバイオマーカーのセットの初期セグメントを選択し、それによって、該順序付けられたバイオマーカーのセットの好ましい初期セグメントを選択し;
e.バイオマーカーの該初期セグメントから開始し、バイオマーカーの下位セットを生成するために、該順序付けられたバイオマーカーのセットの該好ましい初期セグメントから、バイオマーカーを再帰的に除去し、ここで、各バイオマーカーは、(1)該好ましい初期セグメントに含まれている残りのバイオマーカーのなかでも、それを除去することが、モデルフィットの縮小を最小限に抑える場合、および(2)それを除去することが、少なくとも、予め設定しておいた閾値まではモデルフィットを縮小させない場合に、バイオマーカーの既存の上位セットから除去され;
f.それ以上バイオマーカーを除去すると、モデルフィットの指標が、該予め設定しておいた閾値によってモデルフィット指標を下回る低下を生じる場合には、バイオマーカーの既存の上位セットからのバイオマーカーの除去を停止し、それによって、バイオマーカーの該上位セットを選択する、ために構成されている論理を使用して、バイオマーカーの該上位セットから該バイオマーカーのセットを選択するために構成されているコンピューターをさらに含む、項目37に記載のシステム。
(項目41)
a.バイオマーカーの上位セットに含まれている各バイオマーカーに関して、それぞれのバイオマーカーに関する2群の濃度測定値のマージン分布間の距離を計算し、それによって、複数の距離を生成し;
b.該距離に従って、バイオマーカーの該上位セットに含まれている該バイオマーカーを順序付け、それによって、順序付けられたバイオマーカーのセットを生成し;
c.該順序付けられたバイオマーカーのセットの複数の初期セグメントのそれぞれについて、該学習データに基づいてモデルフィットの指標を計算し;
d.モデルフィットの最大値型指標に従って、該順序付けられたバイオマーカーのセットの初期セグメントを選択し、それによって、該順序付けられたバイオマーカーのセットの好ましい初期セグメントを選択し;
e.バイオマーカーの空集合から開始し、バイオマーカーの下位セットを生成するために、該順序付けられたバイオマーカーのセットの該好ましい初期セグメントから、さらなるバイオマーカーを再帰的に追加し、ここで各さらなるバイオマーカーは、(1)該好ましい初期セグメントに含まれている残りのバイオマーカーの中でも、それを追加することで、モデルフィットが改良される場合、および(2)それを追加することで、モデルフィットが少なくとも予め設定した閾値までは改良される場合に、既存のバイオマーカーの下位セットに追加され;
f.それ以上バイオマーカーを追加しても、該予め設定しておいた閾値より、そのモデルフィット指標を超えるモデルフィットの指標が得られない場合には、既存のバイオマーカーの下位セットへのバイオマーカーの追加を停止し、それにより、バイオマーカーの該下位セットを選択する、ために構成されている論理を使用して、バイオマーカーの該上位セットから該バイオマーカーのセットを選択するために構成されているコンピューターをさらに含む、項目38のシステム。
(項目42)
a.バイオマーカーの上位セットに含まれている各バイオマーカーに関して、それぞれのバイオマーカーに関する2群の濃度測定値のマージン分布間の距離を計算し、それによって、複数の距離を生成し;
b.該距離に従って、バイオマーカーの該上位セットに含まれている該バイオマーカーを順序付け、それによって、順序付けられたバイオマーカーのセットを生成し;
c.該順序付けられたバイオマーカーのセットの複数の初期セグメントのそれぞれについて、該学習データに基づいてモデルフィットの指標を計算し;
d.モデルフィットの最大値型指標に従って、該順序付けられたバイオマーカーのセットの初期セグメントを選択し、それによって、該順序付けられたバイオマーカーのセットの好ましい初期セグメントを選択し;
e.バイオマーカーの該初期セグメントから開始し、バイオマーカーの下位セットを生成するために、該順序付けられたバイオマーカーのセットの該好ましい初期セグメントから、バイオマーカーを再帰的に除去し、ここで、各バイオマーカーは、(1)該好ましい初期セグメントに含まれている残りのバイオマーカーのなかでも、それを除去することが、モデルフィットの縮小を最小限に抑える場合、および(2)それを除去することが、少なくとも、予め設定しておいた閾値まではモデルフィットを縮小させない場合に、バイオマーカーの既存の上位セットから除去され;
f.それ以上バイオマーカーを除去すると、モデルフィットの指標が、該予め設定しておいた閾値によってモデルフィットの指標を下回る低下を生じる場合には、バイオマーカーの既存の上位セットからのバイオマーカーの除去を停止し、それによって、バイオマーカーの該上位セットを選択する、ために構成されている論理を使用して、バイオマーカーの該上位セットから該バイオマーカーのセットを選択するために構成されているコンピューターをさらに含む、項目38に記載のシステム。
(項目43)
該病状についての分類が前記病状の有無である、項目35〜42のいずれか1項に記載のシステム。
(項目44)
該病状が肺疾患である、項目43のシステム。
(項目45)
該肺疾患が非小細胞癌である、項目44のシステム。
(項目46)
該肺疾患が反応性気道疾患である、項目44のシステム。
(項目47)
該反応性気道疾患が喘息である、項目46のシステム。
(項目48)
該バイオマーカー測定値が、アポリポタンパク質(「Apo」)A1、ApoA2、ApoB、ApoC2、ApoE、CD40、Dダイマー、第VII因子、第VIII因子、第X因子、プロテインC、組織プラスミノーゲン活性化因子(「TPA」)、脳由来神経栄養因子(「BDNF」)、Bリンパ球化学誘引物質(「BLC」)、ケモカイン(C−X−Cモチーフ)リガンド1(「GRO−1」)、皮膚T細胞誘引ケモカイン(「CTACK」)、エオタキシン−2、エオタキシン−3、グランザイム−B、肝細胞増殖因子(「HGF」)、I−TAC(「CXCL11」;「ケモカイン(C−X−Cモチーフ)リガンド11」、「インターフェロン誘導T細胞α化学誘引物質」)、レプチン(「LEP」)、白血病抑制因子(「LIF」)、単球特異的ケモカイン3(「MMP−3」)、マクロファージコロニー刺激因子(「MCSF」)、γインターフェロン誘導性モノカイン(「MIG」)、マクロファージ炎症性タンパク質−3α(「MIP−3α」)、マトリックスメタロプロテアーゼ(「MMP」)1、MMP2、MMP3、MMP7、MMP8、MMP9、MMP12、MMP13、CD40、神経成長因子β(「NGF−β」)、可溶性リガンド(「CD40リガンド」)、上皮増殖因子(「EFG」)、エオタキシン(「CCL11」)、フラクタルキン、塩基性線維芽細胞増殖因子(「FGF−塩基性」)、顆粒球コロニー刺激因子(「G−CSF」)、顆粒球マクロファージコロニー刺激因子(「GM−CSF」)、インターフェロンγ(「IFNγ」)、IFN−ω、IFN−α2、IFN−β、インターロイキン(「IL」)1a、IL−1β、IL−1ra、IL−2、IL−2ra、IL−3、IL−4、IL−5、IL−6、IL−7、IL−8、IL−9、IL−10、IL−12(p40)、IL−12(p70)、IL−13、IL−15、IL−16、IL−17、IL−17a、IL−17F、IL−20、IL−21、IL−22、IL−23(p19)、IL−27、IL−31、IP−10、単球走化性タンパク質1(「MCP−1」)、マクロファージ炎症性タンパク質(「MIP」)1a、MIP−1β、好中球活性化ペプチド78(「ENA−78」)、オステオプロテゲリン(「OPG」)、胎盤増殖因子(「PIGF」)、血小板由来成長因子サブユニットBホモ二量体(「PDGFBB」)、T細胞由来の好酸球走化性物質(「RANTES」)、幹細胞成長因子(「SCGF」)、ストロマ細胞由来因子1(「SDF−1」)、可溶性Fasリガンド(「Sfas−リガンド」)、NFκ−B活性化可溶性受容体リガンド(「sRANKL」)、サバイビン、トランスフォーミング増殖因a(「TGFa」)、TGF−β、腫瘍壊死因子a(「TNFa」)、TNF−β、TNF受容体1(「TNFR−I」)、TNFR−II、TNF関連性アポトーシス誘導性リガンド(「TRAIL」)、トロンボポエチン(「TPO」)、血管内皮成長因子(「VEGF」)、インスリン(「Ins」)、C−ペプチド、グルカゴン様タンパク質−1/アミリン(「GLP−1/アミリン」)、アミリン(全)、グルカゴン、アディポネクチン、プラスミノーゲン活性化因子阻害因子1(「PAI−1」;「セルピン」)(活性型/全)、レジスチン(「RETN」;「xcp1」)、sFas、可溶性Fasリガンド(「sFasL」)、マクロファージ遊走性阻止因子(「MIF」)、sE−セレクチン、可溶性血管細胞接着分子(「sVCAM」)、可溶性細胞間接着分子(「sICAM」)、ミエロペルオキシダーゼ(「MPO」)、C反応性タンパク質(「CRP」)、血清アミロイドA(「SAA」;「SAA1」)、および血清アミロイドP(「SAP」)からなる群より選択される少なくとも1つのタンパク質の血漿濃度の測定値を含む、項目35〜47のいずれか1項に記載にシステム。
(項目49)
該バイオマーカー測定値が、少なくとも4種類の別個のバイオマーカーの血漿濃度を含む、項目48のシステム。
(項目50)
該バイオマーカー測定値が、少なくとも6種類の別個のバイオマーカーの血漿濃度を含む、項目48のシステム。
(項目51)
該バイオマーカー測定値が、少なくとも10種類の別個のバイオマーカーの血漿濃度を含む、項目48のシステム。
(項目52)
該バイオマーカー測定値が、少なくとも18種類の別個のバイオマーカーの血漿濃度を含む、項目48のシステム。
(項目53)
該学習ベクトルのセットが、少なくとも30ベクトル、50ベクトル、100ベクトルを含む、項目35〜52のいずれか1項に記載のシステム。
(項目54)
該サポートベクトルマシンが、線形カーネル、ラジアル基底カーネル、多項カーネル、統一カーネル、三角カーネル、エパネクニコフ(Epanechnikov)カーネル、四次多項(quartic)(二乗重み)カーネル、三次三乗(tricube)(三乗重み)カーネル、およびコサインカーネルから選択される、1つまたは複数のカーネル関数を含む、項目35、37、39、40、または43〜53のいずれか1項に記載のシステム。
(項目55)
該アダブースト分類器が、5、10、15、20、25、30、40、50、75または100回の反復を含む、項目36、38、または41〜53のいずれか1項に記載のシステム。
(項目56)
バイオマーカーのセットそれぞれの、複数のバイオマーカー測定値を含む試験データを分類する方法であって、
ヒト試験対象に関する試験データを受信する工程、ここで該試験データは、バイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含んでおり;
電子的に記憶されている学習データベクトルの第一のセットを使用して訓練したサポートベクトルマシンの電子表示を使用して該試験データを評価する工程、ここで、学習データベクトルの該第一のセットの各学習データベクトルは個々のヒトを表し、かつ、対応するヒトの該バイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含み、学習データベクトルの該第一のセットの各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでおり;および、
該評価する工程に基づいた該ヒト試験対象の分類を出力する工程;を含み、
ここで、該バイオマーカーのセットに含まれているそれぞれのバイオマーカーは、(A)順序付けられたバイオマーカーの初期セグメントが、第二セットの学習データベクトルの補正済み分類のパーセンテージに関しては、該順序付けられたバイオマーカーの他の初期セグメントの中の極大であり、およびここで第二セットの学習データベクトルの各学習データベクトルは個々のヒトを表し、かつ、対応するヒトの該バイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含み、該第二セットの学習データベクトルの各学習データベクトルがさらに対応するヒトの病状に関する分類を含んでいる、それぞれのバイオマーカーに関する2群の濃度測定値のマージン分布の中心傾向の関数によって最大から最小に順序付けられたバイオマーカーの該初期セグメントの中にあるか、または(B)(A)で同定したバイオマーカーの該初期セグメント中に含まれているバイオマーカーに関する一次相互作用器であるかのいずれかである、試験データを分類する方法。
(項目57)
バイオマーカーのセットそれぞれの複数のバイオマーカー測定値を含む試験データを分類する方法であって、
ヒト試験対象に関する試験データを受信する工程、ここで該試験データは、バイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含んでおり;
電子的に記憶されている学習データベクトルの第一のセットを使用して訓練したアダブースト分類器の電子表示を使用して該試験データを評価する工程、ここで、学習データベクトルの該第一のセットの各学習データベクトルは個々のヒトを表し、かつ、対応するヒトの該バイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含み、学習データベクトルの該第一のセットの各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでおり;および、
該評価する工程に基づいた該ヒト試験対象の分類を出力する工程;を含み、
ここで、該バイオマーカーのセットに含まれているそれぞれのバイオマーカーは、(A)順序付けられたバイオマーカーの初期セグメントが、第二セットの学習データベクトルの補正済み分類のパーセンテージに関しては、該順序付けられたバイオマーカーの他の初期セグメントの中の極大であり、および、ここで第二セットの学習データベクトルの各学習データベクトルが個々のヒトを表し、かつ、対応するヒトの該バイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含み、該第二セットの学習データベクトルの各学習データベクトルがさらに、対応するヒトの病状に関する分類を含んでいる、それぞれのバイオマーカーに関する2群の濃度測定値のマージン分布の中心傾向の関数によって最大から最小に順序付けられたバイオマーカーの該初期セグメントの中にあるか、または(B)(A)で同定したバイオマーカーの該初期セグメント中に含まれているバイオマーカーに関する一次相互作用器であるかのいずれかである、試験データを分類する方法。
(項目58)
該バイオマーカーのセットに含まれているそれぞれのバイオマーカーが、空集合から開始して、さらなるバイオマーカーを追加することが、該第二の学習データベクトルのセットの正しい分類のパーセンテージを少なくとも20%の閾値まで改良しなくなるまで、該第二の学習データベクトルのセットの正しい分類のパーセンテージを最大限に改良するバイオマーカーを前のセットに再帰的に追加することによって生成されるバイオマーカーのセットに含まれている、項目56または57に記載の方法。
(項目59)
該閾値が15%である、項目58の方法。
(項目60)
該閾値が10%である、項目58の方法。
(項目61)
該閾値が5%である、項目58の方法。
(項目62)
該閾値が2%である、項目58の方法。
(項目63)
該閾値が1%である、項目58の方法。
(項目64)
該閾値が0.5%である、項目58の方法。
(項目65)
該閾値が0.1%である、項目58の方法。
(項目66)
該閾値が0.01%である、項目58の方法。
(項目67)
学習データベクトルの該第一のセットが、学習データベクトルの該第二のセットと同じである、項目58の方法。
(項目68)
学習データベクトルの該第一のセットの各ベクトルおよび学習データベクトルの該第二のセットが無作為に選択される、項目58〜67のいずれか1項に記載の方法。
(項目69)
学習データベクトルの該第一のセットが、少なくとも50のベクトルを含む、項目58〜68のいずれか1項に記載の方法。
(項目70)
学習データベクトルの該第二のセットが少なくとも50のベクトルを含む、項目58〜69のいずれか1項に記載の方法。
(項目71)
電子記憶装置中の学習データベクトルの該第一のセットにアクセスする工程および電子記憶装置中の学習データベクトルの該第二のセットにアクセスする工程をさらに含む、項目58〜70のいずれか1項に記載の方法。
(項目72)
ヒト試験対象に関する試験データを受信するようにプログラムされている電子的なコンピューターを含む、バイオマーカーのセットそれぞれの複数のバイオマーカー測定値を含む該試験データを分類するためのシステムであって、該試験データは、該バイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含んでおり、および電子的に記憶されている学習データベクトルの第一のセットを使って訓練したサポートベクトルマシンの電子表示を使用して該試験データを評価するために、学習データベクトルの第一のセットの各学習データベクトルは個々のヒトを表し、かつ、対応するヒトの該バイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含み、学習データベクトルの第一のセットの各学習データベクトルは、対応するヒトの病状に関する分類を含み;
ここで、該コンピューターはさらに、該サポートベクトルマシンの該電子表示に基づいた該ヒト試験対象の分類を出力するためにさらにプログラムされており;
ここで、該バイオマーカーのセットに含まれているそれぞれのバイオマーカーは:(A)順序付けられたバイオマーカーの初期セグメントが、第二セットの学習データベクトルの補正済み分類のパーセンテージに関しては、該順序付けられたバイオマーカーの他の初期セグメントの中の極大であり、および、ここで第二セットの学習データベクトルの各学習データベクトルは個々のヒトを表し、かつ、対応するヒトのバイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含み、第二セットの学習データベクトルの各学習データベクトルはさらに、対応するヒトの病状に関する分類を含んでいる、それぞれのバイオマーカーに関する2群の濃度測定値のマージン分布の中心傾向の関数によって最大から最小に順序付けられたバイオマーカーの該初期セグメントの中にあるか、または(B)(A)で同定したバイオマーカーの該初期セグメント中に含まれているバイオマーカーの一次相互作用器であるか、のいずれかである、前記システム。
(項目73)
ヒト試験対象に関する試験データを受信するようにプログラムされている電子的なコンピューターを含む、バイオマーカーのセットそれぞれの複数のバイオマーカー測定値を含む該試験データを分類するためのシステムであって、該試験データは、バイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含んでおり、および電子的に記憶されている、学習データベクトルの第一のセットを使って訓練したアダブースト分類器の電子表示を使用して該試験データを評価するために、学習データベクトルの第一のセットの各学習データベクトルは個々のヒトを表し、かつ、対応するヒトの該バイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含み、学習データベクトルの第一のセットの各学習データベクトルは、対応するヒトの病状に関する分類を含み;
ここで、該コンピューターはさらに、該アダブースト分類器の該電子表示に基づいた該ヒト試験対象の分類を出力するためにさらにプログラムされており;
ここで、該バイオマーカーのセットに含まれているそれぞれのバイオマーカーは:(A)順序付けられたバイオマーカーの初期セグメントが、第二セットの学習データベクトルの補正済み分類のパーセンテージに関しては、該順序付けられたバイオマーカーの他の初期セグメントの中の極大であり、および、ここで第二セットの学習データベクトルの各学習データベクトルは個々のヒトを表し、かつ、対応するヒトのバイオマーカーのセットの少なくとも各バイオマーカーのバイオマーカー測定値を含み、第二セットの学習データベクトルの各学習データベクトルがさらに、対応するヒトの病状に関する分類を含んでいる、それぞれのバイオマーカーに関する2群の濃度測定値のマージン分布の中心傾向の関数によって最大から最小に順序付けられたバイオマーカーの該初期セグメントの中にあるか、または(B)(A)で同定したバイオマーカーの該初期セグメント中に含まれているバイオマーカーの一次相互作用器であるか、のいずれかである、前記システム。
(項目74)
該バイオマーカーのセットに含まれているそれぞれのバイオマーカーが、空集合から開始して、さらなるバイオマーカーを追加することが、該第二の学習データベクトルのセットの正しい分類のパーセンテージを少なくとも20%の閾値まで改良しなくなるまで、該第二の学習データベクトルのセットの正しい分類のパーセンテージを最大限に改良するバイオマーカーを前のセットに再帰的に追加することによって生成されるバイオマーカーのセットに含まれている、項目72または73に記載のシステム。
(項目75)
該閾値が15%である、項目74のシステム。
(項目76)
該閾値が10%である、項目74のシステム。
(項目77)
該閾値が5%である、項目74のシステム。
(項目78)
該閾値が2%である、項目74のシステム。
(項目79)
該閾値が1%である、項目74のシステム。
(項目80)
該閾値が0.5%である、項目74のシステム。
(項目81)
該閾値が0.1%である、項目74のシステム。
(項目82)
該閾値が0.01%である、項目74のシステム。
(項目83)
学習データベクトルの第一のセットが、該学習データベクトルの第二のセットと同じである、項目74のシステム。
(項目84)
学習データベクトルの第一のセットの各ベクトルおよび該学習データベクトルの第二のセットが無作為に選択される、項目72〜83のいずれか1項に記載のシステム。
(項目85)
学習データベクトルの第一のセットが、少なくとも50のベクトルを含む、項目72〜84のいずれか1項に記載のシステム。
(項目86)
該学習データベクトルの第二のセットが少なくとも50のベクトルを含む、項目72〜85のいずれか1項に記載のシステム。
(項目87)
該電子的コンピューターに操作可能に接続されている電子記憶装置に含まれている学習データベクトルの第一のセットおよび該電子的コンピューターに操作可能に接続されている電子記憶装置に含まれている学習データベクトルの該第二のセットをさらに含む、項目72〜86のいずれか1項に記載のシステム。
[0231] All publications, patents, and published patent applications referred to herein are, in their entirety, as if each individual publication, patent or published patent application was specifically and individually filed. It is incorporated herein by reference in the same manner as it is shown to be incorporated by reference.
The present invention provides the following, for example.
(Item 1)
(A) collecting a physiological sample of interest; (b) determining biomarker measurements of a plurality of biomarkers in the sample; and (c) utilizing a classification system to determine the biomarker measurements. A method of physiologically characterizing the subject, the method comprising classifying the sample on the basis of: correlating the classification of the sample with a change in a physiological condition or condition of the subject, or a disease condition. There is the above method.
(Item 2)
(A) collecting a physiological sample of interest; (b) determining biomarker measurements of a plurality of biomarkers in the sample; and (c) utilizing a classification system to determine the biomarker measurements. A method of diagnosing non-small cell lung cancer in the subject, comprising the step of classifying the sample based on the step, wherein the class of the sample is indicative of the presence or occurrence of non-small cell lung cancer in the subject. , Said method.
(Item 3)
(A) collecting a physiological sample of interest; (b) determining biomarker measurements of a plurality of biomarkers in the sample; and (c) utilizing a classification system to determine the biomarker measurements. Categorizing the sample based on the method, wherein the class of the sample is indicative of reactive airway disease in the subject.
(Item 4)
(A) collecting a physiological sample of interest;
(B) in the sample, a plurality of biomarkers that help distinguish between signs of reactive airway disease and non-small cell lung cancer, multiple biomarkers that show reactive airway disease, and multiple biomarkers that show non-small cell lung cancer Determining a biomarker measurement of the marker, wherein the plurality of biomarkers are not the same;
(C) classifying the sample based on the biomarker measurements using a three classification system, wherein the classification of the sample is (i) reactive airway disease and non-small cell in the subject. Lung cancer; (ii) aids in distinguishing signs of presence or absence of reactive airway disease; and (iii) presence or absence of non-small cell lung cancer;
(D) whether the subject has (1) reactive airway disease, depending on which condition is found in two of the three categories; (2) having non-small cell lung cancer. Or (3) not suffering from a disease, the method for diagnosing a lung disease in the subject.
(Item 5)
5. A method according to any one of items 1-4, wherein the classification system is a machine learning system.
(Item 6)
The method of item 5, wherein the machine learning system is a classification system using a kernel.
(Item 7)
The method of item 6, wherein the classification system using the kernel is a support vector machine.
(Item 8)
The method of item 5, wherein the machine learning system is a classification and regression tree system.
(Item 9)
The method of item 8, wherein the machine learning system is a set of classification and regression tree systems.
(Item 10)
The method of item 9, wherein the machine learning system is AdaBoost.
(Item 11)
A method of classifying test data, comprising a plurality of biomarker measurements, for each set of biomarkers, comprising:
Receiving test data including biomarker measurements for each biomarker of the set of biomarkers in a human test subject;
Evaluating the test data using an electronic representation of a support vector machine trained with a set of electronically stored learning data vectors, where each learning data vector represents an individual human, and Including biomarker measurements for each biomarker of the set of biomarkers for the corresponding human, each training data vector further including a classification for the corresponding human pathology; and
A method of classifying test data, comprising the step of outputting the classification of the human test subject based on the step of evaluating.
(Item 12)
A method of classifying test data, comprising a plurality of biomarker measurements, for each set of biomarkers, comprising:
Receiving the test data of the set of biomarkers in a human test subject, including biomarker measurements for each biomarker;
Evaluating test data using an electronic representation of an AdaBoost classifier trained with a set of electronically stored training data vectors, where each training data vector represents an individual human, and Including biomarker measurements for each biomarker of the set of biomarkers for the corresponding human, each training data vector further including a classification for the corresponding human medical condition; and
A method for classifying test data, comprising the step of outputting a classification of human test objects based on the step of evaluating.
(Item 13)
A method of classifying test data, comprising a plurality of biomarker measurements, for each set of biomarkers, comprising:
Accessing a set of electronically stored training data vectors, where each training data vector represents an individual human and a biomarker measurement of each biomarker of the biomarker set for the corresponding human. And each training data vector further includes a classification for the corresponding human medical condition;
Training an electronic representation of a support vector machine using the electronically stored set of training data vectors;
Receiving test data including a plurality of biomarker measurements for the set of biomarkers in a human test subject;
Evaluating the test data using the electronic representation of the support vector machine; and
A method of classifying test data, comprising the step of outputting the classification of the human test subject based on the step of evaluating.
(Item 14)
A method of classifying test data, comprising a plurality of biomarker measurements, for each set of biomarkers, comprising:
Accessing a set of electronically stored training data vectors, where each training data vector represents an individual human and a biomarker measurement of each biomarker of the biomarker set for the corresponding human. And each training data vector further includes a classification for the corresponding human medical condition;
Training an electronic representation of an Adaboost classifier using the electronically stored set of training data vectors;
Receiving test data including a plurality of biomarker measurements for the set of biomarkers in a human test subject;
A method of classifying test data, comprising: evaluating the test data using the electronic representation of the Adaboost classifier; and outputting a class of the human test subject based on the evaluating step.
(Item 15)
A method of classifying test data, comprising a plurality of biomarker measurements, for each set of biomarkers, comprising:
Accessing a set of electronically stored training data vectors, where each training data vector represents an individual human and a biomarker measurement of each biomarker of the biomarker set for the corresponding human. And each training data vector further includes a classification for the corresponding human medical condition;
Selecting a sub-set of biomarkers from the set of biomarkers;
Training the electronic representation of a support vector machine using data from the subset of biomarkers of the electronically stored set of training data vectors;
Receiving test data including multiple biomarker measurements for a human test subject;
Evaluating the test data using the electronic representation of the support vector machine; and
A method of classifying test data, comprising the step of outputting the classification of the human test subject based on the step of evaluating, wherein the step of selecting the sub-set of biomarkers comprises:
a. Calculating, for each biomarker included in the set of biomarkers, using a programmed computer the distance between the margin distributions of the two groups of concentration measurements for each biomarker, thereby , Multiple distances are generated;
b. Ordering the biomarkers contained in the set of biomarkers according to the distance, thereby producing an ordered set of biomarkers;
c. Calculating a model fit index for each of the plurality of initial segments of the ordered set of biomarkers based on the training data;
d. Selecting an initial segment of the ordered set of biomarkers according to a maximal index of model fit, thereby selecting a preferred initial segment of the ordered set of biomarkers;
e. Recursively adding additional biomarkers to the model from a preferred initial segment of the ordered set of biomarkers to generate the subset of biomarkers, starting from an empty set of biomarkers, wherein Where each further biomarker is (1) if the model fit is maximally improved by adding it among the remaining biomarkers contained in the preferred initial segment, and (2) adding it By adding to the existing sub-set of biomarkers if the model fit improves at least up to a preset threshold;
f. Even if more biomarkers are added, if the model-fit index exceeding the model-fit index is not obtained from the preset threshold value, the biomarkers of the existing biomarkers to the lower set are not included. Stopping the addition, whereby a sub-set of biomarkers is selected.
(Item 16)
A method of classifying test data, comprising a plurality of biomarker measurements, for each set of biomarkers, comprising:
Accessing a set of electronically stored training data vectors, where each training data vector represents an individual human and a biomarker measurement of each biomarker of the biomarker set for the corresponding human. And each training data vector further includes a classification for the corresponding human medical condition;
Selecting a sub-set of biomarkers from the set of biomarkers;
Training the electronic representation of an AdaBoost classifier using the data from the subset of biomarkers of the electronically stored set of training data vectors;
Receiving test data including multiple biomarker measurements for a human test subject;
Evaluating the test data using the electronic representation of the support vector machine; and
A method of classifying test data comprising the step of outputting a classification of the human test subject based on the step of evaluating, wherein the step of selecting the sub-set of biomarkers comprises:
a. Calculating, for each biomarker included in the set of biomarkers, using a programmed computer the distance between the margin distributions of the two groups of concentration measurements for each biomarker, thereby , Multiple distances are generated;
b. Ordering the biomarkers contained in the set of biomarkers according to the distance, thereby producing an ordered set of biomarkers;
c. Calculating a model fit index for each of the plurality of initial segments of the ordered set of biomarkers based on the training data;
d. Selecting an initial segment of the ordered set of biomarkers according to a maximal index of model fit, thereby selecting a preferred initial segment of the ordered set of biomarkers;
e. Recursively adding additional biomarkers to the model from a preferred initial segment of the ordered set of biomarkers to generate the subset of biomarkers, starting from an empty set of biomarkers, wherein Where each further biomarker is (1) if the model fit is maximally improved by adding it among the remaining biomarkers contained in the preferred initial segment, and (2) adding it By adding to the existing sub-set of biomarkers if the model fit improves at least up to a preset threshold;
f. Even if more biomarkers are added, if the model-fit index exceeding the model-fit index is not obtained from the preset threshold value, the biomarkers of the existing biomarkers to the lower set are not included. Stopping the addition, whereby the subset of biomarkers is selected.
(Item 17)
A method of classifying test data, comprising a plurality of biomarker measurements, for each set of biomarkers, comprising:
Receiving test data including biomarker measurements for each of the set of biomarkers for a human test subject;
Evaluating the test data using an electronic representation of a support vector machine trained with a set of electronically stored learning data vectors, where each learning data vector represents an individual human, and , The biomarker measurements of each biomarker of the biomarker set for the corresponding human, each learning data vector further includes a classification for the corresponding human medical condition, the biomarker set of biomarkers Selected from a superset; and
A method for classifying test data, comprising the step of outputting the classification of the human test subject based on the step of evaluating.
(Item 18)
A method of classifying the test data for each set of biomarkers, comprising a plurality of biomarker measurements, comprising:
Receiving test data including each biomarker measurement for each of the set of biomarkers for a human test subject;
Evaluating test data using an electronic representation of an AdaBoost classifier trained with a set of electronically stored training data vectors, where each training data vector represents an individual human, and The biomarker measurements for each biomarker of the corresponding set of biomarkers for humans, each training data vector further includes a classification for the corresponding human medical condition, and the set of biomarkers is a superset of biomarkers. Selected from; and
A method for classifying test data, comprising the step of outputting the classification of the human test subject based on the step of evaluating.
(Item 19)
a. For each biomarker included in the superset of biomarkers, using a programmed computer to calculate the distance between the margin distributions of the two groups of concentration measurements for each biomarker, thereby Multiple distances are generated; b. Ordering the biomarkers contained in the set of biomarkers according to the distance, thereby producing an ordered set of biomarkers;
c. Calculating a model fit index for each of the plurality of initial segments of the ordered set of biomarkers based on the training data;
d. Selecting an initial segment of the ordered set of biomarkers according to a maximal index of model fit, thereby selecting a preferred initial segment of the ordered set of biomarkers;
e. Starting from an empty set of biomarkers, recursively adding additional biomarkers from the preferred initial segment of the ordered set of biomarkers to generate the subset of biomarkers, where each Further biomarkers include (1) if the addition of it among the remaining biomarkers contained in the preferred initial segment maximizes the model fit, and (2) add it. , If the model fit is improved by at least a preset threshold, it is added to the existing sub-set of biomarkers;
f. Even if more biomarkers are added, if the model-fit index exceeding the model-fit index is not obtained from the preset threshold value, the biomarkers of the existing biomarkers to the lower set are not included. Selecting a measure of the set of biomarkers from the superset of biomarkers using a method comprising stopping the addition, whereby a subset of biomarkers is selected, item 17 and 18. The method according to 18.
(Item 20)
a. For each biomarker included in the superset of biomarkers, calculate the distance between the margin distributions of the two groups of densitometric measurements for each biomarker, thereby generating multiple distances;
b. Ordering the biomarkers included in the superset of biomarkers according to the distance, thereby producing an ordered set of biomarkers;
c. For each of the plurality of initial segments of the ordered set of biomarkers, calculate an index of model fit based on the training data;
d. Select an initial segment of the ordered set of biomarkers according to a maximal index of model fit, thereby selecting a preferred initial segment of the ordered set of biomarkers;
e. Starting from the initial segment of the biomarker, recursively removing biomarkers from the preferred initial segment of the ordered set of biomarkers to generate a sub-set of biomarkers, where each biomarker A marker is (1) amongst the remaining biomarkers contained in the preferred initial segment, if removing it minimizes the reduction of the model fit, and (2) removing it. Are removed from the existing superset of biomarkers if they do not reduce the model fit by at least a preset threshold;
f. If further removal of the biomarker causes the model fit index to fall below the model fit index by the preset threshold, remove the biomarker from the existing superset of biomarkers. A computer configured to select a set of biomarkers from the superset of biomarkers using logic configured to stop and thereby select the superset of biomarkers 19. The system of items 17 and 18, further comprising:
(Item 21)
21. The method of any of items 17-20, wherein the step of evaluating comprises accessing a set of electronically stored training data vectors.
(Item 22)
22. The method according to any one of Items 11 to 21, wherein the classification for the medical condition is presence or absence of the medical condition.
(Item 23)
23. The method of item 22, wherein the medical condition is lung disease.
(Item 24)
24. The method of item 23, wherein the lung disease is non-small cell cancer.
(Item 25)
24. The method of item 23, wherein the lung disease is reactive airway disease.
(Item 26)
The method of item 25, wherein the reactive airway disease is asthma.
(Item 27)
The biomarker measurement value is apolipoprotein (“Apo”) A1, ApoA2, ApoB, ApoC2, ApoE, CD40, D dimer, factor VII, factor VIII, factor X, protein C, tissue plasminogen activation. Factor ("TPA"), brain-derived neurotrophic factor ("BDNF"), B lymphocyte chemoattractant ("BLC"), chemokine (C-X-C motif) ligand 1 ("GRO-1"), skin T cell attracting chemokine ("CTACK"), eotaxin-2, eotaxin-3, granzyme-B, hepatocyte growth factor ("HGF"), I-TAC ("CXCL11";"chemokine (C-X-C motif)" Ligand 11 ", γ interferon-induced T cell α chemoattractant"), leptin ("LEP"), leukemia inhibitory factor ("LI F ”), monocyte-specific chemokine 3 (“ MMP-3 ”), macrophage colony stimulating factor (“ MCSF ”), Γ interferon-inducible monokine (“ MIG ”), macrophage inflammatory protein-3α (“ MIP-3α ”). )), Matrix metalloprotease (“MMP”) 1, MMP2, MMP3, MMP7, MMP8, MMP9, MMP12, MMP13, CD40, nerve growth factor β (“NGF-β”), soluble ligand (“CD40 ligand”), Epidermal growth factor (“EFG”), eotaxin (“CCL11”), fractalkine, basic fibroblast growth factor (“FGF-basic”), granulocyte colony stimulating factor (“G-CSF”), granulocyte Macrophage colony stimulating factor (“GM-CSF”), interferon γ (“IFNγ”) IFN-ω, IFN-α2, IFN-β, interleukin (“IL”) 1a, IL-1β, IL-1ra, IL-2, IL-2ra, IL-3, IL-4, IL-5, IL. -6, IL-7, IL-8, IL-9, IL-10, IL-12 (p40), IL-12 (p70), IL-13, IL-15, IL-16, IL-17, IL -17a, IL-17F, IL-20, IL-21, IL-22, IL-23 (p19), IL-27, IL-31, IP-10, monocyte chemoattractant protein 1 ("MCP-1" )), Macrophage inflammatory protein (“MIP”) 1a, MIP-1β, neutrophil activating peptide 78 (“ENA-78”), osteoprotegerin (“OPG”), placental growth factor (“PIGF”). , Platelet-derived growth factor subunit B Modimer (“PDGFBB”), T cell-derived eosinophil chemoattractant (“RANTES”), stem cell growth factor (“SCGF”), stromal cell-derived factor 1 (“SDF-1”), soluble Fas ligand (“Sfas-ligand”), NFκ-B activating soluble receptor ligand (“sRANKL”), survivin, transforming growth factor a (“TGFa”), TGF-β, tumor necrosis factor a (“TNFa”). ), TNF-β, TNF receptor 1 (“TNFR-I”), TNFR-II, TNF-related apoptosis-inducing ligand (“TRAIL”), thrombopoietin (“TPO”), vascular endothelial growth factor (“VEGF”). ), Insulin (“Ins”), C-peptide, glucagon-like protein-1 / amylin (“GLP-1 / amylin”), amylin (total) ), Glucagon, adiponectin, plasminogen activator inhibitor 1 (“PAI-1”; “serpin”) (active / total), resistin (“RETN”; “xcp1”), sFas, soluble Fas ligand ( "SFasL"), macrophage migration inhibitory factor ("MIF"), sE-selectin, soluble vascular cell adhesion molecule ("sVCAM"), soluble intercellular adhesion molecule ("sICAM"), myeloperoxidase ("MPO"), Measured plasma concentration of at least one protein selected from the group consisting of C-reactive protein ("CRP"), serum amyloid A ("SAA";"SAA1"), and serum amyloid P ("SAP") 27. The method of any one of items 11-26, comprising:
(Item 28)
28. The method of item 27, wherein the biomarker measurement comprises plasma concentrations of at least four distinct biomarkers.
(Item 29)
28. The method of item 27, wherein the biomarker measurement comprises plasma concentrations of at least 6 distinct biomarkers.
(Item 30)
28. The method of item 27, wherein the biomarker measurement comprises plasma concentrations of at least 10 distinct biomarkers.
(Item 31)
28. The method of item 27, wherein the biomarker measurement comprises plasma concentrations of at least 18 distinct biomarkers.
(Item 32)
The method of any one of items 11-31, wherein the set of learning vectors comprises at least 30, 50, 100 vectors.
(Item 33)
The support vector machine includes a linear kernel, a radial basis kernel, a polynomial kernel, a unified kernel, a triangular kernel, an Epanechnikov kernel, a quartic polynomial (square weight) kernel, a cubic polynomial (cubic weight) kernel, and a cosine kernel. 27. The method of any one of items 11, 13, 15, 17, and 19-26, which includes one or more kernel functions to be selected.
(Item 34)
27. The method of any one of items 12, 14, 16, and 18-26, wherein the Adaboost classifier comprises 5, 10, 15, 20, 25, 30, 40, 50, 75 or 100 iterations. Method.
(Item 35)
A system for classifying test data including biomarker measurements for each set of biomarkers, comprising:
An electronically memorized learning that represents an individual human and contains biomarker measurements for each biomarker of the set of biomarkers for the corresponding human, and further includes a classification for the corresponding human medical condition A set of data vectors; and
A plurality of biomarker measurements of the set of biomarkers in a human test subject, including an electronic representation of a support vector machine suitable for training using the set of electronically stored training data vectors. Configured to receive test data including a value, further evaluating the test data using the electronic representation of the support vector machine, and classifying the human test subject based on the evaluation. A system for classifying test data, comprising a computer operably connected to the electronically stored set of learning data vectors configured to output.
(Item 36)
A system for classifying test data including biomarker measurements for each set of biomarkers, comprising:
Electronically representing individual humans and containing biomarker measurements for each biomarker of the set of biomarkers for the corresponding human, each training data vector further containing a classification for the corresponding human medical condition, A set of stored training data vectors; and
Including an electronic representation of an AdaBoost classifier suitable for training using the electronically stored set of training data vectors to obtain a plurality of biomarker measurements of the set of biomarkers in a human test subject. Configured to receive test data including, further evaluating the test data using the electronic representation of the support vector machine, and outputting a classification of the human test subject based on the evaluation. A system for classifying test data, comprising a computer operatively connected to the electronically stored set of training data vectors configured for.
(Item 37)
To classify test data containing multiple biomarker measurements for each set of biomarkers, including a computer containing an electronic display of support vector machines trained using a set of electronically stored training data vectors The training data vector represents an individual human and includes a biomarker measurement of each biomarker of the set of biomarkers for the corresponding human, each training data vector further comprising a corresponding human. Of the medical conditions, the computer is configured to receive test data including a plurality of biomarker measurements for the set of biomarkers in a human test subject, the computer further comprising: Using the electronic display of the vector machine System for the test data were evaluated, and, based on the said evaluation being configured to output a classification of the human test subject, to classify the test data. (Item 38)
To classify test data containing multiple biomarker measurements for each set of biomarkers, including a computer containing an electronic representation of an AdaBoost classifier trained using a set of electronically stored training data vectors The training data vector represents an individual human and includes a biomarker measurement of each biomarker of the set of biomarkers for the corresponding human, each training data vector further comprising a corresponding human. Of the medical conditions, the computer is configured to receive test data including a plurality of biomarker measurements for the set of biomarkers in a human test subject, the computer further comprising: The test using the electronic display of a vector machine System for evaluated over data, and, based on the said evaluation being configured to output a classification of the human test subject, to classify the test data.
(Item 39)
a. For each biomarker included in the superset of biomarkers, calculate the distance between the margin distributions of the two groups of densitometric measurements for each biomarker, thereby generating multiple distances;
b. Ordering the biomarkers included in the superset of biomarkers according to the distance, thereby producing an ordered set of biomarkers;
c. For each of the plurality of initial segments of the ordered set of biomarkers, calculate an index of model fit based on the training data;
d. Select an initial segment of the ordered set of biomarkers according to a maximal index of model fit, thereby selecting a preferred initial segment of the ordered set of biomarkers;
e. Starting with an empty set of biomarkers, additional biomarkers are recursively added from the preferred initial segment of the ordered set of biomarkers to generate a sub-set of biomarkers, where each additional biomarker is added. The marker is (1) added to the remaining biomarkers contained in the preferred initial segment to improve the model fit, and (2) added to the model fit. Is added to the existing sub-set of biomarkers if is improved to at least a preset threshold;
f. Even if more biomarkers are added, if the model-fit index exceeding the model-fit index is not obtained from the preset threshold value, the biomarkers of the existing biomarkers to the lower set are not included. Configured to select the set of biomarkers from the superset of biomarkers using logic configured to stop the addition, thereby selecting the subset of biomarkers The system of item 37, further comprising a computer running.
(Item 40)
a. For each biomarker included in the superset of biomarkers, calculate the distance between the margin distributions of the two groups of densitometric measurements for each biomarker, thereby generating multiple distances;
b. Ordering the biomarkers included in the superset of biomarkers according to the distance, thereby producing an ordered set of biomarkers;
c. For each of the plurality of initial segments of the ordered set of biomarkers, calculate an index of model fit based on the training data;
d. Select an initial segment of the ordered set of biomarkers according to a maximal index of model fit, thereby selecting a preferred initial segment of the ordered set of biomarkers;
e. Starting from the initial segment of the biomarker, recursively removing biomarkers from the preferred initial segment of the ordered set of biomarkers to generate a sub-set of biomarkers, where each biomarker A marker is (1) amongst the remaining biomarkers contained in the preferred initial segment, if removing it minimizes the reduction of the model fit, and (2) removing it. Are removed from the existing superset of biomarkers if they do not reduce the model fit by at least a preset threshold;
f. If further removal of biomarkers causes the model fit index to drop below the model fit index by the preset threshold, stop removing biomarkers from the existing superset of biomarkers. A computer configured to select the set of biomarkers from the superset of biomarkers using logic configured to select the superset of biomarkers. 38. The system of item 37, further comprising.
(Item 41)
a. For each biomarker included in the superset of biomarkers, calculate the distance between the margin distributions of the two groups of densitometric measurements for each biomarker, thereby generating multiple distances;
b. Ordering the biomarkers included in the superset of biomarkers according to the distance, thereby producing an ordered set of biomarkers;
c. For each of the plurality of initial segments of the ordered set of biomarkers, calculate an index of model fit based on the training data;
d. Select an initial segment of the ordered set of biomarkers according to a maximal index of model fit, thereby selecting a preferred initial segment of the ordered set of biomarkers;
e. Starting with an empty set of biomarkers, additional biomarkers are recursively added from the preferred initial segment of the ordered set of biomarkers to generate a sub-set of biomarkers, where each additional biomarker is added. The marker is (1) added to the remaining biomarkers contained in the preferred initial segment to improve the model fit, and (2) added to the model fit. Is added to the existing sub-set of biomarkers if is improved to at least a preset threshold;
f. Even if more biomarkers are added, if the model-fit index exceeding the model-fit index is not obtained from the preset threshold value, the biomarkers of the existing biomarkers to the lower set are not included. Configured to select the set of biomarkers from the superset of biomarkers using logic configured to stop the addition, thereby selecting the subset of biomarkers 38. The system of item 38, further comprising a computer.
(Item 42)
a. For each biomarker included in the superset of biomarkers, calculate the distance between the margin distributions of the two groups of densitometric measurements for each biomarker, thereby generating multiple distances;
b. Ordering the biomarkers included in the superset of biomarkers according to the distance, thereby producing an ordered set of biomarkers;
c. For each of the plurality of initial segments of the ordered set of biomarkers, calculate an index of model fit based on the training data;
d. Select an initial segment of the ordered set of biomarkers according to a maximal index of model fit, thereby selecting a preferred initial segment of the ordered set of biomarkers;
e. Starting from the initial segment of the biomarker, recursively removing biomarkers from the preferred initial segment of the ordered set of biomarkers to generate a sub-set of biomarkers, where each biomarker A marker is (1) amongst the remaining biomarkers contained in the preferred initial segment, if removing it minimizes the reduction of the model fit, and (2) removing it. Are removed from the existing superset of biomarkers if they do not reduce the model fit by at least a preset threshold;
f. If further removal of the biomarker causes the model fit index to fall below the model fit index by the preset threshold, remove the biomarker from the existing superset of biomarkers. A computer configured to select a set of biomarkers from the superset of biomarkers using logic configured to stop and thereby select the superset of biomarkers 39. The system of item 38, further comprising:
(Item 43)
The system according to any one of Items 35 to 42, wherein the classification for the medical condition is presence or absence of the medical condition.
(Item 44)
The system of item 43, wherein the condition is lung disease.
(Item 45)
The system of item 44, wherein the lung disease is non-small cell cancer.
(Item 46)
The system of item 44, wherein the lung disease is reactive airway disease.
(Item 47)
The system of item 46, wherein the reactive airway disease is asthma.
(Item 48)
The biomarker measurement value is apolipoprotein (“Apo”) A1, ApoA2, ApoB, ApoC2, ApoE, CD40, D dimer, factor VII, factor VIII, factor X, protein C, tissue plasminogen activation. Factor ("TPA"), brain-derived neurotrophic factor ("BDNF"), B lymphocyte chemoattractant ("BLC"), chemokine (C-X-C motif) ligand 1 ("GRO-1"), skin T cell attracting chemokine ("CTACK"), eotaxin-2, eotaxin-3, granzyme-B, hepatocyte growth factor ("HGF"), I-TAC ("CXCL11";"chemokine (C-X-C motif)" Ligand 11 ”,“ interferon-induced T cell α chemoattractant ”), leptin (“ LEP ”), leukemia inhibitory factor (“ L F ”), monocyte-specific chemokine 3 (“ MMP-3 ”), macrophage colony stimulating factor (“ MCSF ”), γ interferon-inducible monokine (“ MIG ”), macrophage inflammatory protein-3α (“ MIP-3α ”). )), Matrix metalloprotease (“MMP”) 1, MMP2, MMP3, MMP7, MMP8, MMP9, MMP12, MMP13, CD40, nerve growth factor β (“NGF-β”), soluble ligand (“CD40 ligand”), Epidermal growth factor (“EFG”), eotaxin (“CCL11”), fractalkine, basic fibroblast growth factor (“FGF-basic”), granulocyte colony stimulating factor (“G-CSF”), granulocyte Macrophage colony stimulating factor (“GM-CSF”), interferon γ (“IFNγ”) IFN-ω, IFN-α2, IFN-β, interleukin (“IL”) 1a, IL-1β, IL-1ra, IL-2, IL-2ra, IL-3, IL-4, IL-5, IL. -6, IL-7, IL-8, IL-9, IL-10, IL-12 (p40), IL-12 (p70), IL-13, IL-15, IL-16, IL-17, IL -17a, IL-17F, IL-20, IL-21, IL-22, IL-23 (p19), IL-27, IL-31, IP-10, monocyte chemoattractant protein 1 ("MCP-1" )), Macrophage inflammatory protein (“MIP”) 1a, MIP-1β, neutrophil activating peptide 78 (“ENA-78”), osteoprotegerin (“OPG”), placental growth factor (“PIGF”). , Platelet-derived growth factor subunit B Modimer (“PDGFBB”), T cell-derived eosinophil chemoattractant (“RANTES”), stem cell growth factor (“SCGF”), stromal cell-derived factor 1 (“SDF-1”), soluble Fas ligand (“Sfas-ligand”), NFκ-B activating soluble receptor ligand (“sRANKL”), survivin, transforming growth factor a (“TGFa”), TGF-β, tumor necrosis factor a (“TNFa”). ), TNF-β, TNF receptor 1 (“TNFR-I”), TNFR-II, TNF-related apoptosis-inducing ligand (“TRAIL”), thrombopoietin (“TPO”), vascular endothelial growth factor (“VEGF”). ), Insulin (“Ins”), C-peptide, glucagon-like protein-1 / amylin (“GLP-1 / amylin”), amylin ( ), Glucagon, adiponectin, plasminogen activator inhibitor 1 (“PAI-1”; “serpin”) (active / total), resistin (“RETN”; “xcp1”), sFas, soluble Fas ligand ( "SFasL"), macrophage migration inhibitory factor ("MIF"), sE-selectin, soluble vascular cell adhesion molecule ("sVCAM"), soluble intercellular adhesion molecule ("sICAM"), myeloperoxidase ("MPO"), A measurement of the plasma concentration of at least one protein selected from the group consisting of C-reactive protein (“CRP”), serum amyloid A (“SAA”; “SAA1”), and serum amyloid P (“SAP”). 48. The system according to any one of items 35-47, including.
(Item 49)
49. The system of item 48, wherein the biomarker measurement comprises plasma concentrations of at least four distinct biomarkers.
(Item 50)
49. The system of item 48, wherein the biomarker measurement comprises plasma concentrations of at least 6 distinct biomarkers.
(Item 51)
49. The system of item 48, wherein the biomarker measurement comprises plasma concentrations of at least 10 distinct biomarkers.
(Item 52)
49. The system of item 48, wherein the biomarker measurement comprises plasma concentrations of at least 18 distinct biomarkers.
(Item 53)
53. The system of any of items 35-52, wherein the set of learning vectors comprises at least 30, 50, 100 vectors.
(Item 54)
The support vector machine is a linear kernel, a radial basis kernel, a polynomial kernel, a unified kernel, a triangular kernel, an Epanechnikov kernel, a quartic polynomial (square weight) kernel, a cubic cube (tricube weight). ) A system according to any one of items 35, 37, 39, 40, or 43-53, which comprises one or more kernel functions selected from a kernel and a cosine kernel.
(Item 55)
54. The system of any one of items 36, 38, or 41-53, wherein the Adaboost classifier comprises 5, 10, 15, 20, 25, 30, 40, 50, 75 or 100 iterations.
(Item 56)
A method of classifying test data, comprising a plurality of biomarker measurements, for each set of biomarkers, comprising:
Receiving test data for a human test subject, wherein the test data comprises biomarker measurements of at least each biomarker of the set of biomarkers;
Evaluating the test data using an electronic representation of a support vector machine trained using a first set of electronically stored learning data vectors, wherein the first of the learning data vectors is evaluated. Each training data vector of the set represents an individual human and includes biomarker measurements of at least each biomarker of the biomarker of the corresponding human, and each training data of the first set of training data vectors. The vector further includes a classification for the corresponding human medical condition; and
Outputting the classification of the human test subject based on the evaluating step;
Wherein each biomarker included in the set of biomarkers is (A) where the initial segment of the ordered biomarker is the ordered segment with respect to the percentage of the corrected classification of the second set of training data vectors. Is the maximum among other initial segments of the identified biomarkers, and where each learning data vector of the second set of learning data vectors represents an individual human and is of the corresponding set of biomarkers of that human. Two groups of concentration measurements for each biomarker, including at least biomarker measurements for each biomarker, each learning data vector of the second set of learning data vectors further including a classification for a corresponding human condition Ordering from largest to smallest by a function of the central tendency of the margin distribution of Is a primary interactor with respect to the biomarker contained in the initial segment of the biomarker identified in (B) (A). There is a way to classify test data.
(Item 57)
A method of classifying test data comprising multiple biomarker measurements for each set of biomarkers, comprising:
Receiving test data for a human test subject, wherein the test data comprises biomarker measurements of at least each biomarker of the set of biomarkers;
Evaluating the test data using an electronic representation of an AdaBoost classifier trained using a first set of electronically stored training data vectors, wherein the first of the training data vectors is evaluated. Each training data vector of the set represents an individual human and includes biomarker measurements of at least each biomarker of the biomarker of the corresponding human, and each training data of the first set of training data vectors. The vector further includes a classification for the corresponding human medical condition; and
Outputting the classification of the human test subject based on the evaluating step;
Wherein each biomarker included in the set of biomarkers is (A) where the initial segment of the ordered biomarker is the ordered segment with respect to the percentage of the corrected classification of the second set of training data vectors. A maximum among other initial segments of a given biomarker, and where each learning data vector of the second set of learning data vectors represents an individual human and the corresponding set of biomarkers of that human. Of at least each biomarker of each of the biomarkers, each learning data vector of the second set of learning data vectors further including a classification for a corresponding human medical condition, the two groups of concentrations for each biomarker. Order from largest to smallest by a function of the central tendency of the margin distribution of the measurements Either within the initial segment of the attached biomarker, or (B) a primary interactor for the biomarker contained within the initial segment of the biomarker identified in (A). Is a method of classifying test data.
(Item 58)
Each biomarker included in the set of biomarkers starts with an empty set and adding additional biomarkers results in a percentage of correct classification of the second set of learning data vectors of at least 20%. To the set of biomarkers generated by recursively adding to the previous set biomarkers that maximize the percentage of correct classifications of the second set of training data vectors until no further improvement occurs. 58. A method according to item 56 or 57, which is included.
(Item 59)
The method of item 58, wherein the threshold is 15%.
(Item 60)
The method of item 58, wherein the threshold is 10%.
(Item 61)
The method of item 58, wherein the threshold is 5%.
(Item 62)
The method of item 58, wherein the threshold is 2%.
(Item 63)
The method of item 58, wherein the threshold is 1%.
(Item 64)
The method of item 58, wherein the threshold is 0.5%.
(Item 65)
The method of item 58, wherein the threshold is 0.1%.
(Item 66)
The method of item 58, wherein the threshold is 0.01%.
(Item 67)
59. The method of item 58, wherein the first set of training data vectors is the same as the second set of training data vectors.
(Item 68)
68. A method according to any one of items 58-67, wherein each vector of the first set of training data vectors and the second set of training data vectors is randomly selected.
(Item 69)
69. The method of any of items 58-68, wherein the first set of training data vectors comprises at least 50 vectors.
(Item 70)
70. The method of any one of items 58-69, wherein the second set of training data vectors comprises at least 50 vectors.
(Item 71)
71. Any one of items 58-70 further comprising: accessing the first set of learning data vectors in electronic storage and accessing the second set of learning data vectors in electronic storage. The method described in.
(Item 72)
A system for classifying test data comprising a plurality of biomarker measurements for each of a set of biomarkers, comprising an electronic computer programmed to receive test data for a human test subject, the system comprising: The test data includes biomarker measurements of at least each biomarker of the set of biomarkers, and electronically of a support vector machine trained with a first set of electronically stored learning data vectors. To evaluate the test data using the representation, each learning data vector of the first set of learning data vectors represents an individual human and at least each biomarker of the corresponding human biomarker set. First set of training data vectors, including biomarker measurements for Each training data vectors may include a classification with respect to a disease state of the corresponding human;
Here, the computer is further programmed to output a classification of the human test subject based on the electronic representation of the support vector machine;
Where each biomarker included in the set of biomarkers is: (A) the initial segment of the ordered biomarker is the ordered segment with respect to the percentage of the corrected classification of the second set of training data vectors. Among the other initial segments of the assigned biomarkers, and where each training data vector of the second set of training data vectors represents an individual human and of the corresponding set of human biomarkers. Two groups of concentration measurements for each biomarker, including at least biomarker measurements for each biomarker, each learning data vector of the second set of learning data vectors further including a classification for the corresponding human medical condition Ordering from largest to smallest by a function of the central tendency of the margin distribution of Is a primary interactor of the biomarker contained in the initial segment of the biomarker identified in (B) (A). The above system.
(Item 73)
A system for classifying test data comprising a plurality of biomarker measurements for each of a set of biomarkers, comprising an electronic computer programmed to receive test data for a human test subject, the system comprising: The test data includes at least biomarker measurements for each biomarker of the set of biomarkers and is electronically stored in an electronically trained Adaboost classifier trained with a first set of training data vectors. To evaluate the test data using the representation, each learning data vector of the first set of learning data vectors represents an individual human and at least each biomarker of the corresponding human biomarker set. Each of the first set of training data vectors, including biomarker measurements of Learning data vector includes a classification with respect to a disease state of the corresponding human;
Here, the computer is further programmed to output a classification of the human test subject based on the electronic representation of the Adaboost classifier;
Where each biomarker included in the set of biomarkers is: (A) the initial segment of the ordered biomarker is the ordered segment with respect to the percentage of the corrected classification of the second set of training data vectors. Among the other initial segments of the assigned biomarkers, and where each training data vector of the second set of training data vectors represents an individual human and of the corresponding set of human biomarkers. Two groups of concentration measurements for each biomarker, including at least biomarker measurements for each biomarker, each learning data vector of the second set of learning data vectors further including a classification for the corresponding human medical condition Ordering from largest to smallest by a function of the central tendency of the margin distribution of Is a primary interactor of the biomarker contained in the initial segment of the biomarker identified in (B) (A). The above system.
(Item 74)
Each biomarker included in the set of biomarkers starts with an empty set and adding additional biomarkers results in a percentage of correct classification of the second set of learning data vectors of at least 20%. To the set of biomarkers generated by recursively adding to the previous set biomarkers that maximize the percentage of correct classifications of the second set of training data vectors until no further improvement occurs. A system according to item 72 or 73, which is included.
(Item 75)
The system of item 74, wherein the threshold is 15%.
(Item 76)
The system of item 74, wherein the threshold is 10%.
(Item 77)
The system of item 74, wherein the threshold is 5%.
(Item 78)
The system of item 74, wherein the threshold is 2%.
(Item 79)
The system of item 74, wherein the threshold is 1%.
(Item 80)
The system of item 74, wherein the threshold is 0.5%.
(Item 81)
The system of item 74, wherein the threshold is 0.1%.
(Item 82)
The system of item 74, wherein the threshold is 0.01%.
(Item 83)
The system of item 74, wherein the first set of training data vectors is the same as the second set of training data vectors.
(Item 84)
84. The system of any one of items 72-83, wherein each vector of the first set of training data vectors and the second set of training data vectors is randomly selected.
(Item 85)
85. The system of any one of items 72-84, wherein the first set of training data vectors comprises at least 50 vectors.
(Item 86)
86. The system of any of items 72-85, wherein the second set of training data vectors comprises at least 50 vectors.
(Item 87)
A first set of learning data vectors included in an electronic storage device operably connected to the electronic computer and a learning included in an electronic storage device operably connected to the electronic computer 87. The system of any of items 72-86, further comprising the second set of data vectors.

Claims (1)

明細書に記載の発明。The invention described in the specification.
JP2020002155A 2011-04-29 2020-01-09 Methods of identification and diagnosis of lung diseases using classification systems and kits thereof Withdrawn JP2020064078A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022114753A JP2022136138A (en) 2011-04-29 2022-07-19 Methods of identification and diagnosis of lung diseases using classification systems and kits thereof

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201161480802P 2011-04-29 2011-04-29
US61/480,802 2011-04-29
US201261619279P 2012-04-02 2012-04-02
US61/619,279 2012-04-02

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018153283A Division JP2018200322A (en) 2011-04-29 2018-08-16 Methods of identification and diagnosis of lung diseases using classification systems and kits thereof

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022114753A Division JP2022136138A (en) 2011-04-29 2022-07-19 Methods of identification and diagnosis of lung diseases using classification systems and kits thereof

Publications (1)

Publication Number Publication Date
JP2020064078A true JP2020064078A (en) 2020-04-23

Family

ID=47072811

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2014508183A Withdrawn JP2014514572A (en) 2011-04-29 2012-04-30 Identification and diagnosis method of lung disease using classification system and kit
JP2018153283A Pending JP2018200322A (en) 2011-04-29 2018-08-16 Methods of identification and diagnosis of lung diseases using classification systems and kits thereof
JP2020002155A Withdrawn JP2020064078A (en) 2011-04-29 2020-01-09 Methods of identification and diagnosis of lung diseases using classification systems and kits thereof
JP2022114753A Pending JP2022136138A (en) 2011-04-29 2022-07-19 Methods of identification and diagnosis of lung diseases using classification systems and kits thereof

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2014508183A Withdrawn JP2014514572A (en) 2011-04-29 2012-04-30 Identification and diagnosis method of lung disease using classification system and kit
JP2018153283A Pending JP2018200322A (en) 2011-04-29 2018-08-16 Methods of identification and diagnosis of lung diseases using classification systems and kits thereof

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022114753A Pending JP2022136138A (en) 2011-04-29 2022-07-19 Methods of identification and diagnosis of lung diseases using classification systems and kits thereof

Country Status (10)

Country Link
US (2) US9952220B2 (en)
EP (3) EP2702411A4 (en)
JP (4) JP2014514572A (en)
KR (1) KR102136180B1 (en)
CN (3) CN110444287B (en)
AU (2) AU2012249288C1 (en)
CA (2) CA3120217A1 (en)
HK (1) HK1247286A1 (en)
IL (3) IL278227B (en)
WO (1) WO2012149550A1 (en)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3444359A1 (en) 2009-03-12 2019-02-20 Cancer Prevention And Cure, Ltd. Methods of identification of non-small cell lung cancer
AU2011274422B2 (en) 2010-07-09 2016-02-11 Somalogic Operating Co., Inc. Lung cancer biomarkers and uses thereof
WO2012021795A2 (en) 2010-08-13 2012-02-16 Somalogic, Inc. Pancreatic cancer biomarkers and uses thereof
CN110289092A (en) 2013-03-14 2019-09-27 奥特拉西斯公司 The method for improving medical diagnosis on disease using surveyed analyte
US11976329B2 (en) 2013-03-15 2024-05-07 Veracyte, Inc. Methods and systems for detecting usual interstitial pneumonia
JP6250351B2 (en) * 2013-09-30 2017-12-20 シスメックス株式会社 Method for obtaining information on eosinophilic airway inflammation and marker for obtaining such information
WO2015066564A1 (en) * 2013-10-31 2015-05-07 Cancer Prevention And Cure, Ltd. Methods of identification and diagnosis of lung diseases using classification systems and kits thereof
US20160334406A1 (en) * 2014-01-14 2016-11-17 Rush University Medical Center Angiogenesis Biomarkers Associated with Disease Progression in Lung Cancer
EP2899543A1 (en) * 2014-01-28 2015-07-29 Predemtec GmbH Biomarker and methods for early diagnosis of Alzheimer's disease
WO2015164772A1 (en) * 2014-04-25 2015-10-29 Rush University Medical Center Circulating insulin-like growth factor (igf)-associated proteins for the detection of lung cancer
CN103954755B (en) * 2014-04-30 2017-04-05 广东省结核病控制中心 A kind of diagnostic kit of mycobacterium tuberculosis latent infection
CN105306657B (en) 2014-06-20 2019-07-26 中兴通讯股份有限公司 Personal identification method, device and communicating terminal
CN104198694A (en) * 2014-09-18 2014-12-10 复旦大学附属华山医院 Diagnostic kit and method for identifying tuberculosis and tumors by using same
AU2014407088B2 (en) 2014-09-26 2021-09-23 Somalogic Operating Co., Inc. Cardiovascular risk event prediction and uses thereof
EP3215170A4 (en) * 2014-11-05 2018-04-25 Veracyte, Inc. Systems and methods of diagnosing idiopathic pulmonary fibrosis on transbronchial biopsies using machine learning and high dimensional transcriptional data
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
US9870449B2 (en) * 2015-02-24 2018-01-16 Conduent Business Services, Llc Methods and systems for predicting health condition of human subjects
US20160283686A1 (en) * 2015-03-23 2016-09-29 International Business Machines Corporation Identifying And Ranking Individual-Level Risk Factors Using Personalized Predictive Models
CN104866713B (en) * 2015-05-12 2018-02-13 南京霁云信息科技有限公司 Locally differentiate the Kawasaki disease and fever diagnostic system of subspace insertion based on increment
CN104897893A (en) * 2015-06-10 2015-09-09 复旦大学附属华山医院 Kit for diagnosing mycobacterium tuberculosis infection based on tuberculosis specificity IL-31 detection
CN105404887B (en) * 2015-07-05 2019-04-09 中国计量大学 A kind of five classification method of leucocyte based on random forest
JP6605415B2 (en) * 2015-08-26 2019-11-13 ヴァイアヴィ・ソリューションズ・インコーポレイテッド Identification using spectroscopy
RU2018113694A (en) 2015-09-17 2019-10-17 Эмджен Инк. FORECAST OF CLINICAL RESPONSE TO IL-23 ANTAGONISTS USING IL-23 SIGNAL WAY BIOMARKERS
CN108780663B (en) * 2015-12-18 2022-12-13 科格诺亚公司 Digital personalized medical platform and system
US11972336B2 (en) 2015-12-18 2024-04-30 Cognoa, Inc. Machine learning platform and system for data analysis
RU2018127709A (en) 2016-01-22 2020-02-25 Отрэйсис, Инк. SYSTEMS AND METHODS FOR IMPROVING DIAGNOSTICS OF DISEASES
CN105944082B (en) * 2016-06-13 2017-08-25 浙江生创精准医疗科技有限公司 Osteoprotegerin is independent or combines the purposes in treatment liver fibrosis with other cell factors
EP3488366B1 (en) * 2016-07-22 2022-01-05 Case Western Reserve University Methods and apparatus for predicting benefit from immunotherapy using tumoral and peritumoral radiomic features
CN106645739B (en) * 2016-08-22 2019-07-02 深圳华晓静生物科技有限公司 A kind of construction method of optimal hyperlane, dynamic optimization system and construction device
KR101853118B1 (en) * 2016-09-02 2018-04-30 주식회사 바이오인프라생명과학 Complex biomarker group for detecting lung cancer in a subject, lung cancer diagnostic kit using the same, method for detecting lung cancer using information on complex biomarker and computing system executing the method
CN106528668B (en) * 2016-10-23 2018-12-25 哈尔滨工业大学深圳研究生院 A kind of second order metabolism mass spectrum compound test method based on visual network
CN109906469B (en) * 2016-11-10 2023-11-21 豪夫迈·罗氏有限公司 Distance-based tumor classification
CN110199358B (en) * 2016-11-21 2023-10-24 森索姆公司 Characterization and identification of biological structures
CN106897570B (en) * 2017-03-02 2021-05-11 山东师范大学 Chronic obstructive pulmonary disease testing system based on machine learning
US10546237B2 (en) * 2017-03-30 2020-01-28 Atomwise Inc. Systems and methods for correcting error in a first classifier by evaluating classifier output in parallel
CA3058481A1 (en) * 2017-04-04 2018-10-11 Lung Cancer Proteomics, Llc Plasma based protein profiling for early stage lung cancer prognosis
CN111263965A (en) * 2017-08-09 2020-06-09 欧特雷瑟斯有限公司 System and method for improving disease diagnosis using measurement of analytes
US20200240996A1 (en) * 2017-10-18 2020-07-30 Venn Biosciences Corporation Identification and use of biological parameters for diagnosis and treatment monitoring
KR101951727B1 (en) * 2018-02-02 2019-02-26 (주)바이오인프라생명과학 Computing method for predicting multiple kinds of cancers, and computing apparatus using the same
JP7455757B2 (en) * 2018-04-13 2024-03-26 フリーノーム・ホールディングス・インコーポレイテッド Machine learning implementation for multianalyte assay of biological samples
CN108802379B (en) * 2018-06-14 2021-04-16 北京市心肺血管疾病研究所 Group of molecular markers for judging aortic dissection prognosis
US20200005901A1 (en) * 2018-06-30 2020-01-02 20/20 Genesystems, Inc Cancer classifier models, machine learning systems and methods of use
EP3888021B1 (en) * 2018-11-30 2024-02-21 Caris MPI, Inc. Next-generation molecular profiling
WO2020131658A1 (en) * 2018-12-19 2020-06-25 University Of Pittsburgh-Of The Commonwealth System Of Higher Education Computational systems pathology spatial analysis platform for in situ or in vitro multi-parameter cellular and subcellular imaging data
EP3904495A4 (en) * 2018-12-27 2022-09-21 HORIBA, Ltd. Blood analysis device, computer program, and blood analysis method
MX2021008227A (en) * 2019-01-08 2021-09-10 Caris Mpi Inc Genomic profiling similarity.
CN112748191A (en) * 2019-10-30 2021-05-04 深圳脉图精准技术有限公司 Small molecule metabolite biomarker for diagnosing acute diseases, and screening method and application thereof
EP4069865A4 (en) 2019-12-02 2023-12-20 Caris MPI, Inc. Pan-cancer platinum response predictor
CN111351942B (en) * 2020-02-25 2024-03-26 北京尚医康华健康管理有限公司 Lung cancer tumor marker screening system and lung cancer risk analysis system
CN111879940B (en) * 2020-04-28 2022-02-01 中国科学院微生物研究所 Pulmonary tuberculosis marker and application
CN111505315B (en) * 2020-05-07 2023-04-11 杭州师范大学 Application of protein combined marker in preparation of children asthma diagnostic reagent
CN112226503A (en) * 2020-10-19 2021-01-15 西北大学 Application of combination of CXCL10 and HGF as pneumonia and infection source detection marker
CN113299388B (en) * 2021-05-12 2023-09-29 吾征智能技术(北京)有限公司 Cross-modal medical biological characteristic cognitive disease system based on fever with rash
CN117743957B (en) * 2024-02-06 2024-05-07 北京大学第三医院(北京大学第三临床医学院) Data sorting method and related equipment of Th2A cells based on machine learning

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006509186A (en) * 2002-05-10 2006-03-16 イースタン バージニア メディカル スクール Prostate cancer biomarker
WO2007026773A1 (en) * 2005-08-31 2007-03-08 Kurume University Medical diagnosis processor
JP2009501318A (en) * 2005-06-24 2009-01-15 ザ ボード オブ トラスティーズ オブ ザ リーランド スタンフォード ジュニア ユニバーシティ Methods and compositions for diagnosis and monitoring of atherosclerotic cardiovascular disease
JP2009524008A (en) * 2005-12-01 2009-06-25 プロメテウス ラボラトリーズ インコーポレイテッド Methods for diagnosing inflammatory bowel disease
US20100009386A1 (en) * 2007-09-11 2010-01-14 Cancer Prevention And Cure, Ltd. Methods of identification, assessment, prevention and therapy of lung diseases and kits thereof
JP2011506917A (en) * 2007-12-10 2011-03-03 エフ.ホフマン−ラ ロシュ アーゲー Marker panel for colorectal cancer

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617163B2 (en) 1998-05-01 2009-11-10 Health Discovery Corporation Kernels and kernel methods for spectral data
US20070092917A1 (en) * 1998-05-01 2007-04-26 Isabelle Guyon Biomarkers for screening, predicting, and monitoring prostate disease
DK1156823T3 (en) * 1999-02-12 2009-01-19 Scripps Research Inst Methods for treating tumors and metastases using a combination of anti-angiogenic therapies and immunotherapies
ES2243240T3 (en) 1999-03-01 2005-12-01 Genentech, Inc. ANTIBODIES FOR CANCER THERAPY AND DIAGNOSIS.
TW200413725A (en) * 2002-09-30 2004-08-01 Oncotherapy Science Inc Method for diagnosing non-small cell lung cancers
US7505948B2 (en) 2003-11-18 2009-03-17 Aureon Laboratories, Inc. Support vector regression for censored data
US7467119B2 (en) 2003-07-21 2008-12-16 Aureon Laboratories, Inc. Systems and methods for treating, diagnosing and predicting the occurrence of a medical condition
JP2005044330A (en) 2003-07-24 2005-02-17 Univ Of California San Diego Weak hypothesis generation device and method, learning device and method, detection device and method, expression learning device and method, expression recognition device and method, and robot device
WO2005086068A2 (en) 2004-02-27 2005-09-15 Aureon Laboratories, Inc. Methods and systems for predicting occurrence of an event
JP2007531879A (en) * 2004-03-30 2007-11-08 イースタン バージニア メディカル スクール Lung cancer biomarker
GB0412301D0 (en) * 2004-06-02 2004-07-07 Diagenic As Product and method
MX2007006441A (en) 2004-11-30 2007-08-14 Johnson & Johnson Lung cancer prognostics.
CN1300580C (en) 2004-12-31 2007-02-14 中国人民解放军第306医院 Mass spectrum model for detecting liver cancer serum characteristic protein and method for preparation
US7707134B2 (en) 2005-01-14 2010-04-27 Siemens Medical Solutions Usa, Inc. System and method for molecular diagnosis of depression based on boosting classification
WO2007048436A1 (en) 2005-10-29 2007-05-03 Bayer Technology Services Gmbh Process for determining one or more analytes in samples of biological origin having complex composition, and use thereof
US20080133141A1 (en) * 2005-12-22 2008-06-05 Frost Stephen J Weighted Scoring Methods and Use Thereof in Screening
US9347945B2 (en) 2005-12-22 2016-05-24 Abbott Molecular Inc. Methods and marker combinations for screening for predisposition to lung cancer
US7840505B2 (en) 2006-11-02 2010-11-23 George Mason Intellectual Properties, Inc. Classification tool
WO2008058384A1 (en) * 2006-11-15 2008-05-22 University Health Network Materials and methods for prognosing lung cancer survival
WO2008124138A1 (en) 2007-04-05 2008-10-16 Aureon Laboratories, Inc. Systems and methods for treating, diagnosing and predicting the occurrence of a medical condition
US7888051B2 (en) 2007-09-11 2011-02-15 Cancer Prevention And Cure, Ltd. Method of identifying biomarkers in human serum indicative of pathologies of human lung tissues
JP5159242B2 (en) * 2007-10-18 2013-03-06 キヤノン株式会社 Diagnosis support device, diagnosis support device control method, and program thereof
US7747547B1 (en) 2007-10-31 2010-06-29 Pathwork Diagnostics, Inc. Systems and methods for diagnosing a biological specimen using probabilities
ES2809171T3 (en) 2008-01-18 2021-03-03 Harvard College Methods for detecting hallmarks of diseases or conditions in bodily fluids
CN102037355A (en) 2008-03-04 2011-04-27 里奇诊断学股份有限公司 Diagnosing and monitoring depression disorders based on multiple biomarker panels
CN101587125B (en) 2008-05-21 2013-07-24 林标扬 High expression cancer marker and low expression tissue organ marker kit
ES2559758T3 (en) * 2008-09-09 2016-02-15 Somalogic, Inc. Biomarkers of lung cancer and their uses
CN101475984A (en) * 2008-12-15 2009-07-08 江苏命码生物科技有限公司 Non-small cell lung cancer detection marker, detection method thereof, related biochip and reagent kit
EP3444359A1 (en) 2009-03-12 2019-02-20 Cancer Prevention And Cure, Ltd. Methods of identification of non-small cell lung cancer
CN101988059B (en) 2009-07-30 2014-04-02 江苏命码生物科技有限公司 Gastric cancer detection marker and detecting method thereof, kit and biochip
CN101942502B (en) * 2009-12-24 2014-09-17 北京命码生科科技有限公司 Pancreatic cancer marker, and detection method, kit and biochip thereof
WO2015066564A1 (en) * 2013-10-31 2015-05-07 Cancer Prevention And Cure, Ltd. Methods of identification and diagnosis of lung diseases using classification systems and kits thereof

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006509186A (en) * 2002-05-10 2006-03-16 イースタン バージニア メディカル スクール Prostate cancer biomarker
JP2009501318A (en) * 2005-06-24 2009-01-15 ザ ボード オブ トラスティーズ オブ ザ リーランド スタンフォード ジュニア ユニバーシティ Methods and compositions for diagnosis and monitoring of atherosclerotic cardiovascular disease
WO2007026773A1 (en) * 2005-08-31 2007-03-08 Kurume University Medical diagnosis processor
JP2009524008A (en) * 2005-12-01 2009-06-25 プロメテウス ラボラトリーズ インコーポレイテッド Methods for diagnosing inflammatory bowel disease
US20100009386A1 (en) * 2007-09-11 2010-01-14 Cancer Prevention And Cure, Ltd. Methods of identification, assessment, prevention and therapy of lung diseases and kits thereof
JP2011506917A (en) * 2007-12-10 2011-03-03 エフ.ホフマン−ラ ロシュ アーゲー Marker panel for colorectal cancer

Also Published As

Publication number Publication date
KR102136180B1 (en) 2020-07-22
HK1247286A1 (en) 2018-09-21
JP2014514572A (en) 2014-06-19
US20190072554A1 (en) 2019-03-07
JP2018200322A (en) 2018-12-20
IL278227B (en) 2022-07-01
AU2017245307A1 (en) 2017-10-26
IL261313B (en) 2020-11-30
CA3120217A1 (en) 2012-11-01
EP3249408A1 (en) 2017-11-29
AU2012249288C1 (en) 2017-12-21
EP2702411A1 (en) 2014-03-05
JP2022136138A (en) 2022-09-15
CN110444287B (en) 2024-02-06
KR20140024916A (en) 2014-03-03
CN103703371A (en) 2014-04-02
EP2702411A4 (en) 2015-07-22
US9952220B2 (en) 2018-04-24
AU2017245307B2 (en) 2019-10-10
CN110444287A (en) 2019-11-12
CA2834383A1 (en) 2012-11-01
WO2012149550A1 (en) 2012-11-01
IL229070A0 (en) 2013-12-31
AU2012249288A1 (en) 2013-11-14
CN105005680B (en) 2019-08-02
IL278227A (en) 2020-12-31
CN105005680A (en) 2015-10-28
IL261313A (en) 2018-10-31
EP3825693A1 (en) 2021-05-26
AU2012249288B2 (en) 2017-07-06
IL229070B (en) 2018-08-30
US20140024553A1 (en) 2014-01-23

Similar Documents

Publication Publication Date Title
JP2020064078A (en) Methods of identification and diagnosis of lung diseases using classification systems and kits thereof
JP7250693B2 (en) Plasma-based protein profiling for early-stage lung cancer diagnosis
JP7431760B2 (en) Cancer classifier models, machine learning systems, and how to use them
WO2015066564A1 (en) Methods of identification and diagnosis of lung diseases using classification systems and kits thereof
US20230263477A1 (en) Universal pan cancer classifier models, machine learning systems and methods of use
WO2009015398A1 (en) Methods for inflammatory disease management
US20230223145A1 (en) Methods and software systems to optimize and personalize the frequency of cancer screening blood tests
Khalfallah et al. Cytokines as Biomarkers in Psychiatric Disorders: Methodological Issues
Appel et al. Panels of Biomarkers to Improve Patient Classification in Brain Diseases

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200930

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201224

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210616

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210915

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220719

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220719

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220801

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220802

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20220804