JP2003536179A - ヒューリスティック分類方法 - Google Patents

ヒューリスティック分類方法

Info

Publication number
JP2003536179A
JP2003536179A JP2002503811A JP2002503811A JP2003536179A JP 2003536179 A JP2003536179 A JP 2003536179A JP 2002503811 A JP2002503811 A JP 2002503811A JP 2002503811 A JP2002503811 A JP 2002503811A JP 2003536179 A JP2003536179 A JP 2003536179A
Authority
JP
Japan
Prior art keywords
data
cluster
data cluster
vector
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002503811A
Other languages
English (en)
Other versions
JP2003536179A5 (ja
Inventor
ヒット,ベン
Original Assignee
コレロジック システムズ,インコーポレイティド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コレロジック システムズ,インコーポレイティド filed Critical コレロジック システムズ,インコーポレイティド
Publication of JP2003536179A publication Critical patent/JP2003536179A/ja
Publication of JP2003536179A5 publication Critical patent/JP2003536179A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S706/00Data processing: artificial intelligence
    • Y10S706/90Fuzzy logic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S706/00Data processing: artificial intelligence
    • Y10S706/902Application using ai with detail of the ai system
    • Y10S706/932Mathematics, science, or engineering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Threshing Machine Elements (AREA)
  • Image Analysis (AREA)
  • Electrotherapy Devices (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Separation By Low-Temperature Treatments (AREA)
  • Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)

Abstract

(57)【要約】 本発明は、オブジェクトの分類のためのヒューリスティック・アルゴリズムに関する。第1の学習アルゴリズムは、各オブジェクトと関連するデータ・ストリームを抽象化するために用いられる遺伝的アルゴリズムと、オブジェクトを分類し、遺伝的アルゴリズムの染色体の適応度を測定するのに使用されるパターン認識アルゴリズムとから成る。学習アルゴリズムは訓練データセットに適用される。学習アルゴリズムは分類アルゴリズムを生成し、分類アルゴリズムは、未知のオブジェクトを分類または類別するのに使用される。本発明は、テキストや医療用試料を分類する分野、他の金融市場の相場変動に基づいて1つの金融市場の挙動を予測する分野に役立ち、また、差し迫った故障を検出するために複合処理施設の状況を監視するのにも役立つ。

Description

【発明の詳細な説明】
【0001】 本出願は、U.S.C第119(e)(1)項のもとに、2000年6月19
日付けの出願番号第60/212,404号明細書の優先権を主張する。前記明
細書の全体を参考のため、本明細書中に引用する。
【0002】 I. 発明の分野 本発明は、ドキュメントのような文字列、または、株式相場の変動のような数
値データの列またはテーブル、mRNAのDNAチップとのハイブリッド形成に
より検出された組織の細胞中の種々異なる遺伝子の発現レベル、または質量分析
により検出された試料中の種々異なるタンパク質の量、として表現可能な対象を
分析し、分類する方法に関する。より具体的には、本発明は、分類されるべき対
象のクラスの事前の分類例から成る学習データセットから、分類アルゴリズムを
生成し、検証する一般的な方法に関する。事前の分類例は、ドキュメントの場合
には読み取りにより、市場データの場合には過去の経験により、または生物学的
データの場合には病理学的試験により分類されている。この場合、分類アルゴリ
ズムは、事前に分類されていない例を分類するために使用することができる。こ
のようなアルゴリズムは総称的に、データマイニング技術と呼ばれる。より一般
に適用されるデータマイニング技術、例えば多変量線形回帰分析および非線形フ
ィード・フォワード・ニューラルネットワークは、固有の欠点を有する。すなわ
ちこのような技術は、一旦開発されると、静的となり、データ・ストリーム中の
新規事象を認識することはできない。最終結果として、新規事象はしばしば誤っ
て分類されることになる。本発明は、データ・ストリーム中の新規事象を認識で
きる適応型メカニズムを介して、上記欠点を解決することに関する。
【0003】 II. 発明の背景 本発明は、遺伝的アルゴリズムと、自己組織化適応型パターン認識アルゴリズ
ムとを用いる。遺伝的アルゴリズムは当初、John H. Holland教授によって説明
された(J.H. Holland著「自然および人為システムにおける適応(Adaptation in
Natural and Artificial Systems)」(MIT Press 1992)、米国特許第4,697
,242号明細書および同第4,881,178号明細書も参照のこと)。パタ
ーン認識のために遺伝的アルゴリズムを使用することは、Kozaに与えられた米国
特許第5,136,686号明細書に記載されている(第87欄参照)。
【0004】 自己組織化パターン認識はKohonenによって説明されている。(T. Kohonen著
「自己組織化連想記憶(情報科学第8集)(Self Organizing and Associative M
emory, 8 Series in Information Sciences)」 Springer Verlag刊 1984年; Koh
onen T著 「自己組織化マッピング(Self-organizing Maps)」Springer Verlag刊
、ハイデルベルク1997年)。適応型パターン認識における自己組織化マッピング
の使用は、マサチューセッツ工科大学のRichard Lippman博士によって説明され
た。
【0005】 III. 発明の概要 本発明は、関連する2つのヒューリスティック・アルゴリズム、すなわち分類
アルゴリズムと学習アルゴリズムとから成る。これらの両アルゴリズムは分類方
法および学習方法を実現するのに用いられる。分類アルゴリズムのパラメータは
、学習アルゴリズムを訓練データセットまたは学習データセットに適用すること
により決定される。訓練データセットは、すでに分類されている各項目を有する
データセットである。以下の方法については、ディジタル・コンピュータとは無
関係に説明するが、本発明がコンピュータ・ソフトウェアとして実現するために
意図されたものであることは、当業者には明らかである。いかなる汎用コンピュ
ータを使用してもよく、この方法に従った計算が極度に大規模になることはない
。並行処理機能を有するコンピュータを本発明に用いることはできるが、このよ
うな処理能力は、本発明の学習アルゴリズムを実際に使用するのに際して必要で
はない。分類アルゴリズムが必要とするのは最小の計算量だけである。
【0006】 本発明の分類方法は、オブジェクト(Object)に関連するデータ・ストリーム
に応じてオブジェクトを分類する。本発明におけるそれぞれのオブジェクトはデ
ータ・ストリームによって特徴付けされる。データ・ストリームは多数の、少な
くとも約100個のデータポイントから成り、10,000個以上のデータポイ
ントから成っていてもよい。同一オブジェクト・タイプの種々異なるサンプルか
ら成るデータ・ストリーム中の個々のデータが互いに相関可能になるように、デ
ータ・ストリームが生成される。
【0007】 オブジェクトの例としては、テキスト、金融市場動向または複合処理施設の動
作の予測に関連する時点、および医療診断のための生物学的試料が挙げられる。
これらのオブジェクトの関連データ・ストリームは、テキスト内のトリグラム(
trigram)の分布、株式市場または商品取引市場の毎日の変化、精油所のような処
理施設における圧力、温度および流量の多数の読み取り値の瞬時の読み、および
、試料中に見出されるタンパク質下位集合の質量スペクトル、または、種々異な
る試験ポリヌクレオチドから成るアレイとのmRNAハイブリッド形成強度であ
る。
【0008】 このように、一般的に言って本発明は、いくつかのカテゴリー、例えば典型的
には2つまたは3つのカテゴリーのうちの1つにオブジェクトを分類したい場合
にはいつでも使用することができる。これらのオブジェクトは大量のデータ、例
えば典型的には数千のデータポイントと関連する。「オブジェクト(Objec
t)」という用語は本明細書中では、最初の字を大文字にして、これにより、オ
ブジェクトが本明細書中で特定の意味を有すること、すなわちオブジェクトが集
合的に有形の対象、例えば特定の試料、および無形の対象、例えば書込みまたは
テキストを意味し、全体的には抽象的な対象、例えば複合処理施設における不都
合な事象の発生前の瞬間または外国為替市場の動向を意味することを示す。
【0009】 分類法の第1のステップは、オブジェクト・ベクトル、すなわち少数(4〜1
00個、より典型的には5〜30個)のデータポイントまたはスケーラから成る
順序付けされたセットを算出することである。このオブジェクト・ベクトルは、
分類しようとするオブジェクトと関連するデータ・ストリームから導き出される
。データ・ストリームをオブジェクト・ベクトルに変えることを「抽象化」と呼
ぶ。最も単純な抽象化プロセスは、データ・ストリームの多数のポイントを選択
することである。しかし原理的にはこの抽象化プロセスは、データ・ストリーム
のいかなる関連においても実施することができる。実施形態に示す下記の抽象化
は、データ・ストリームから少数の特定強度を選択することにより実現される。
【0010】 1実施形態では、分類方法の第2のステップは、ベクトルが存在するデータ・
クラスタがある場合には、これを判断することである。データ・クラスタは数学
的構造である。これらの数学的構造はベクトル空間内の、固定サイズの非オーバ
ラップ「超球」の多次元同等物である。それぞれのデータ・クラスタの場所およ
び関連分類または「ステータス」は、訓練データセットから学習アルゴリズムに
よって決定される。各データ・クラスタの範囲またはサイズ、および、ベクトル
空間の次元数は、学習アルゴリズムの動作に先立って、オペレータによるルーテ
ィン実行内容として設定される。ベクトルが既知のデータ・クラスタ内にある場
合には、オブジェクトはそのクラスタと関連する分類に入れられる。最も単純な
実施形態の場合、ベクトル空間の次元数は、抽象化プロセスで選択されたデータ
ポイントの数と等しい。しかしこれに代えて、データ・ストリームの複数のデー
タポイントを使用して、オブジェクト・ベクトルの各スケーラを算出することも
できる。オブジェクト・ベクトルが既知のクラスタの外部に位置している場合、
異型すなわち非定型サンプルから分類を形成することができる。
【0011】 上記のものとは異なる実施形態の場合、超球としての各データ・クラスタの定
義付けは破棄され、第2のステップは、マッチ・パラメータρ=Σ(min(|
Ii|,|Wi|)/Σ(|Wi|)を算出することにより実行される。この場
合、Iiはオブジェクト・ベクトルのスケーラであり、Wiは、事前形成された
分類ベクトルのセントロイドのスケーラである。マッチ・パラメータρは、正規
化「ファジー」ANDとも呼ばれる。オブジェクトは次いで、この距離(metric
)によって最も類似する事前形成ベクトルの分類に応じて分類される。マッチ・
パラメータは、オブジェクト・ベクトルと事前形成ベクトルとが同一の場合には
1であり、他の全ての場合には1未満である。
【0012】 学習アルゴリズムは、公知の数学的技術と2つのプリセット・パラメータとの
組み合わせを利用することにより、抽象化プロセスの詳細とデータ・クラスタの
同一性との双方を判断する。ユーザがベクトル空間の次元数およびデータ・クラ
スタのサイズをプリセットするか、あるいは、その代りに「ファジーAND」マ
ッチ・パラメータρの最低許容レベルをプリセットする。本明細書中に用いられ
るように、「データ・クラスタ」という用語は、ユークリッド距離を用いる超球
、および、「ファジーAND」距離を用いる、分類された事前形成ベクトルの双
方を意味する。
【0013】 典型的には、データ・クラスタが位置するベクトル空間は、正規化ベクトル空
間なので、各次元における強度の変化量は一定である。ユークリッド距離を用い
てこのように表現されたデータ・クラスタのサイズは、クラスタ内に位置するベ
クトル間の最小類似パーセント(minimum percent similarity)として表すこと
ができる。
【0014】 1実施形態では、他者によって開発され業界ではよく知られている2つの異な
るタイプの、公に利用可能な汎用ソフトウェア、つまり(1)データ・ストリー
ムの抽象化を制御する最適な論理染色体(注1)を識別するために、論理染色体
集合を処理する遺伝的アルゴリズム(J.H. Holland著「自然および人為システム
における適応(Adaptation in Natural and Artificial Systems)と、(2)論
理染色体によって生成されたあらゆるベクトル集合に基づいてデータ・クラスタ
集合を認識する、メリーランド州グリーンベルトのGroup One Softwareから入手
可能な適応型自己組織化パターン認識システム(T. Kohonen著「自己組織化連想
記憶(情報科学第8集)(Self Organizing and Associative Memory, 8 Series
in Information Sciences)」 Springer Verlag刊 1984年; Kohonen, T著 「自己
組織化マッピング(Self-organizing Maps)」ハイデルベルク、Springer Verlag
刊 1997年参照)とを組み合わせることにより、学習アルゴリズムを実行するこ
とができる。具体的には、適応型パターン認識ソフトウェアは、均質なデータ・
クラスタ、すなわち、唯1つの分類タイプを備えた学習セットのベクトルを含有
するクラスタ内に存在するベクトルの数を最大化する。(注1:「論理染色体」
という用語は遺伝的学習アルゴリズムと関連して使用される。なぜならば、アル
ゴリズムの論理動作は、再生、選択、組換えおよび変異と類似しているからであ
る。もちろん、DNAその他における論理染色体の生物学的な実施形態はない。
本発明の遺伝的学習アルゴリズムは純粋にコンピュータ・デバイスであり、生物
学に基づいた情報処理のためのスキームと混同してはならない。) 遺伝的アルゴリズムを使用するために、各論理染色体には「適応度(“fitnes
s”)」を割り当てなければならない。各論理染色体の適応度は、その染色体に
最適なデータ・クラスタ集合の均質なクラスタ内に存在する訓練データセット内
のベクトルの数によって決定される。このように、本発明の学習アルゴリズムは
、最適な論理染色体を識別するための遺伝的アルゴリズムと、最適なデータ・ク
ラスタ集合を生成し、均質なクラスタ内に存在するサンプル・ベクトルの数に基
づいて適応度を算出するための適応型パターン認識アルゴリズムとを組み合わせ
る。その極めて広範囲な実施形態では、本発明の学習アルゴリズムは、遺伝的ア
ルゴリズムと、パターン認識アルゴリズムと、パターン認識アルゴリズムの出力
の均質性を測定することにより遺伝的アルゴリズムを制御する適応度関数の利用
との組み合わせから成る。
【0015】 誤解を避けるために留意すべきなのは、データ・クラスタの数がカテゴリーの
数よりもはるかに多いことである。下記の例の分類アルゴリズムはオブジェクト
を2つのカテゴリーに、例えばドキュメントを該当ドキュメントと非該当ドキュ
メントとに選別するか、または、臨床試料を良性試料と悪性試料とに選別した。
しかしこれらの分類アルゴリズムは、分類を実施するために多数のデータ・クラ
スタを利用する。オブジェクトが時点の場合、分類アルゴリズムは、3つ以上の
カテゴリーを利用してよい。例えば、本発明が外国為替相場の予測子として使用
される場合、上昇、下落および上昇・下落が混ざった見通しに対応する三部から
成るスキームが妥当である。さらにこのような三部から成る分類アルゴリズムは
、4つ以上のデータ・クラスタを有することが期待されることになる。
【0016】 IV. 発明の詳細な説明 本発明を実施するために、ルーティン実行者は、学習アルゴリズムを用いるこ
とにより、分類アルゴリズムを作成しなければならない。あらゆるヒューリステ
ィックな方法と同様に、ある特定のルーティン試行が必要となる。学習アルゴリ
ズムを採用するために、ルーティン実行者は訓練データセットを使用し、2つの
パラメータと、次元数と、データ・クラスタのサイズとを試験的に最適化しなけ
ればならない。
【0017】 ベクトルにおける次元数には絶対的または固有の上限はないが、しかし、学習
アルゴリズム自体が各実行中に次元数を本質的に制限する。次元数が過度に少な
いかまたはクラスタのサイズが過度に大きいと、学習アルゴリズムは、許容可能
な均質性レベルで全てのサンプルを正確に分類する論理染色体を生成しそこなう
。逆に言えば、次元数が多すぎることもあり得る。この環境下では、学習アルゴ
リズムは、学習プロセスの早期に最大限可能な適応度を有する多くの論理染色体
を発生させ、したがって、実りのない選択しか行えない。同様に、データ・クラ
スタのサイズが余りにも小さいと、クラスタの数は訓練データセット内のサンプ
ルの数に近似するのが判り、また、やはりこの場合もルーティン実行者は、多数
の論理染色体が、完全に均質なデータ・クラスタから成る集合をもたらすことを
見出すことになる。
【0018】 上記のように、分類アルゴリズムのために次元の数とデータ・クラスタのサイ
ズとを選択する際の一般的な指針を示したが、留意しなければならないのは、分
類アルゴリズムの値の真のテストは、訓練データセット内のデータ・ストリーム
とは無関係なデータ・ストリームを正確に分類する分類アルゴリズムの能力のテ
ストである、という点である。したがって、学習データセットの一部を保存して
、分類アルゴリズムが所期の目的を達成するために許容可能な誤差率で機能して
いることを検証しなければならないことは、ルーティン実行者には明らかである
。本発明のコンポーネントは、以下により詳細に説明される。
【0019】 A. データ・ストリームおよびオブジェクトのタイプ オブジェクトの分類および関連データ・ストリームの生成は、取り組むべき問
題の性質に依存する。一般原理を以下の例によって示す。
【0020】 ドキュメント:本発明の1実施形態では、コンピュータ化された分類ドキュメ
ントのための方法を提供する。例えば、個別に調べるには余りにも大型の多数の
ドキュメントから成るデータベースから、該当するドキュメントを抽出したい場
合がある。このような環境に対して、本発明は、コンピュータ化されたアルゴリ
ズムを提供することにより、該当するドキュメントを含んでいる可能性の最も高
いデータベースの部分集合を識別する。それぞれのドキュメントはオブジェクト
であり、それぞれのドキュメントに対応するデータ・ストリームはヒストグラム
から成っている。このヒストグラムは、スペースと句読点とを取り除いた後でド
キュメントに見出される17576(263)個の三つの文字の組み合わせ(ト
リグラム)のそれぞれの頻度を表す。あるいは、ドキュメントから母音をさらに
取り除いた後で、子音から成る9261個のトリグラムのヒストグラムを用意す
ることもできる。訓練データセットは、ユーザの必要に応じて、「該当」または
「非該当」と分類された適切なドキュメントのサンプルから成っている。
【0021】 金融市場:例えば外国為替相場が、投資機会の魅力の大きさによって影響され
るように、金融市場が外部事象に応答し、一貫して相互に関連しあうことは自明
である。しかし個々の事象に対する応答の方向および範囲は、予測することが困
難な場合がある。1つの実施形態では、本発明は、1つの市場の相場の動向に基
づいて、別の市場の相場をアルゴリズムのコンピュータ化により予測することを
可能にする。それぞれの時点、例えば時間単位のインターバルがオブジェクトで
あり、時間に関するデータ・ストリームは、関係各国の主要株式市場、例えばポ
ンドおよびドルの為替レートについてはニューヨークおよびロンドンの株式市場
、において取引された株価の変動のヒストグラムから成っている。訓練データセ
ットは、ドル:ポンド為替レートの上昇または下落に先行するものとして分類さ
れた株価変動のような履歴記録から成っている。
【0022】 処理施設:複合的な処理施設、例えば精油所、油田または石油化学プラントに
おいては、圧力、温度、流量、多数の弁および他の制御装置の状態(集合的に「
状態値」と呼ぶ)がコンスタントに監視され、記録される。切迫した不都合な事
象を、この事象が破滅的な故障とならないうちに検出することが必要である。本
発明はコンピュータ化されたアルゴリズムを提供することにより、ハイリスク時
点または通常リスク時点として各時点を分類する。データ・ストリームは各時点
に対応する状態値から成っている。訓練データセットは、不都合な事象に先行す
るものとして、または通常動作に先行するものとして分類された状態値の履歴記
録から成っている。
【0023】 医療診断:本発明は、医療診断の組織試料の分析、例えば血清または血漿の分
析に用いることができる。データ・ストリームは、組織試料のいかなる再現可能
な物理的分析であってもよく、これらの分析は、少くとも千分の一(3つの有効
数字)に定量可能な2,000個以上の測定値をもたらす。本発明の実施には、
タンパク質の飛行時間質量スペクトルが特に適している。より具体的には、マト
リックス支援レーザー脱離イオン化飛行時間型(MALDI−TOF)分光法お
よび表面増強レーザー脱離イオン化飛行時間型(SELDI−TOF)分光法が
適している。国際公開第00/49410号パンフレットを全体的に参照された
い。
【0024】 データ・ストリームには、分子量のような単一の順序を有するパラメータによ
って本質的に順序づけられているというものではない任意の順序を有する測定値
も含むことができる。このように、組織試料が生検標本である場合、データ・ス
トリーム中の個々の遺伝子の順序が任意であることを認識した上で、2,000
個以上の遺伝子の発現レベルを同時に測定するDNAマイクロアレイ・データを
データ・ストリームとして使用することができる。
【0025】 本発明は、早期診断が重要であり、しかし症状がないために早期診断が技術的
に困難であるような特定の疾患に対して特に有益となる。このような疾患は、病
的組織の代謝活性により血清中で検出可能な差異を生成すると考えられる。悪性
腫瘍の早期診断は、本発明の使用の主な焦点となるものである。実施例により、
前立腺悪性腫瘍の診断を示す。卵巣癌の診断のためにも同様の試みが実施された
【0026】 なお、本発明の方法を用いて、患者試料からの単独のデータ・ストリームを複
合診断のために分析することができる。このような複合診断にかかる付加的なコ
ストは僅かである。なぜならば、それぞれの診断にとって特異的なステップはコ
ンピュータ処理だけで済むからである。
【0027】 B. 抽象化プロセスおよび論理染色体 本発明の分類プロセスにおける第1のステップは、データ・ストリームを固有
ベクトルに変換または抽象化することである。データは、すべてのピークに1.
0の値を割り当て、他の全ての点には所与の小数を割り当てることにより、抽象
化に先立って正規化すると有用である。データ・ストリームの最も単純な抽象化
は、少数のデータポイントの選択から成る。当業者には明らかなように、インタ
ーバル全体にわたる平均、または、選択された代表データポイントから所定の距
離だけ離れているデータポイント相互間のより複雑な和または差のような、複数
の点のより複雑な関数を構築することもできる。データ・ストリームの強度値の
このような関数も使用することができ、実施例において示す単純な抽象化と同等
に機能することが予想される。
【0028】 やはり当業者に明らかなように、任意のポイントに瞬時的な勾配を与えること
により行われる抽象化が本発明において機能を発揮できるかどうかを、ルーティ
ン試行により判断することができる。従って実施例のルーティンで利用可能な変
更は本発明の範囲内にある。
【0029】 本発明の特徴は、固有ベクトルを算出するのに使用されるデータポイントを判
定するために、遺伝的アルゴリズムを使用することである。専門技術用語と調和
させて、選択されるべき特定のポイントのリストを論理染色体と呼ぶ。論理染色
体は、固有ベクトルの次元の数の「遺伝子」を含有する。妥当な数のデータポイ
ントから成るいかなる集合も論理染色体であり得る。ただしこの場合、重複する
染色体の遺伝子がないことだけが条件となる。遺伝子の順序は本発明にとって重
要ではない。
【0030】 当業者には明らかなように、2つの条件がそろう場合に遺伝的アルゴリズムを
使用することができる。固定サイズの不連続要素から成るセットまたはストリン
グによって、問題に対する特定の解決策が表現可能でなければならない。これら
の要素は数字または文字であってよい。さらなる解決策をもたらすために、スト
リングを組み換えることができる。また各解決策の相対的な長所を示す数値、お
よびその適応度を算出できなければならない。このような条件下では、遺伝的ア
ルゴリズムの詳細は、解決が求められている問題とは無関係である。従って、本
発明の場合、汎用の遺伝的アルゴリズム・ソフトウェアを採用することができる
。アルゴンヌ国立研究所から入手可能なPGAPackライブラリのアルゴリズ
ムが適している。特定の論理染色体の適応度の算出について、以下に説明する。
【0031】 説明のための第1の例は、100個のドキュメントから成るコーパスに関する
。これらのドキュメントを、46個のドキュメントから成る訓練セットと、54
個のドキュメントから成る試験セットとにランダムに分割した。これらのドキュ
メントは、一般教書集と、書籍「戦争の技術(The Art of War)」からの抜粋と
、フィナンシャル・タイムズの記事とから成るものであった。それぞれのドキュ
メントに対応するトリグラムの分布を算出した。25個の次元を有するベクトル
空間を選択し、それぞれの次元のデータ・クラスタのサイズを、これがその次元
における値の範囲の0.35倍となるように選択した。遺伝的アルゴリズムを、
約1,500個のランダムに選択された論理染色体で初期化した。アルゴリズム
が進行するのに伴い、より適応性の高い論理染色体は複製され、より適応性の低
い論理染色体は終了される。染色体間で組換えが行われ、突然変異が生じる。こ
の突然変異は、染色体の要素のランダムな置き換えによって発生する。論理染色
体の最初に選択された集まりがランダムであることは、本発明の重要な特徴では
ない。極めて高い可変性を有するデータポイントを識別するためにデータ・スト
リームの全体集合を予め選別することは有用であるが、しかしこのような技術は
、望ましくない初期化の傾向を招いてしまうおそれがある。当業者には明らかな
ように、染色体初期集合、突然変異率、および遺伝的アルゴリズムのための他の
境界条件は、遺伝的アルゴリズムの機能にとって重大ではない。
【0032】 C. パターン認識プロセスおよび適応度スコア生成 遺伝的アルゴリズムによって生成される論理染色体のそれぞれの適応度スコア
が算出される。適応度スコアの算出には、それぞれの被験論理染色体毎に、最適
なデータ・クラスタ集合が生成されることが必要になる。データ・クラスタは単
に、訓練データセットのオブジェクト・ベクトルが内部に存在するベクトル空間
の体積である。最適なデータ・クラスタ集合の生成法は、本発明にとって重大で
はなく、後で考察する。しかし、データ・クラスタ・マッピングを生成するのに
どのような方法を使用するのであれ、マッピングは以下の規則によって制約され
る。すなわち、各データ・クラスタはそのデータ・クラスタ内に位置するデータ
ポイントのセントロイドに配置されるべきであり、2つのデータ・クラスタがオ
ーバラップしてはならず、正規化ベクトル空間内の各クラスタの次元が、マッピ
ングの生成に先立って固定される、という規則によって制約される。
【0033】 データ・クラスタのサイズは、訓練プロセス中にユーザによって設定される。
サイズを過度に大きく設定すると、染色体が訓練集合を首尾よく分類することが
できなくなる。逆に、サイズを過度に小さく設定すると、結果として生じた最適
データ・クラスタから成る集合内で、クラスタの数が訓練集合内のデータポイン
トの数に近似する。より重要なのは、過度に小さなデータ・クラスタのサイズを
設定すると、以下に述べる「過剰適応(“overfitting”)」を招く。
【0034】 データ・クラスタのサイズを定義付けするのに用いられる方法は、本発明の一
部である。クラスタのサイズは、データ・クラスタのあらゆる2つの構成要素の
間のユークリッド距離(平方和の平方根)に相当する最大値によって定義付けす
ることができる。データ・ストリームがSELDI−TOF質量分析によって生
成される場合、本発明には、90%の類似率に相応するデータ・クラスタのサイ
ズが好ましい。テキストの分類には、大きめのデータ・クラスタが有用であるこ
とが判っている。数学的には、90%の類似率は、クラスタのあらゆる2つの構
成要素間の距離が、正規化ベクトル空間内の2つのポイント相互間の最大距離の
0.1未満であることを要求することにより定義付けされる。この算出に際して
、ベクトル空間は、訓練データセット内のベクトルの各スカラーの範囲が0.0
〜1.0となるように正規化される。こうして正規化された、ベクトル空間内の
あらゆる2つのベクトル間の最大限生じ得る距離はルートNとなる。この場合N
は次元数である。各クラスタのユークリッド直径は0.1xルート(N)となる
【0035】 ベクトル空間の特定の正規化は、この方法の重大な特徴ではない。前述の方法
は、算出を簡単にするために選択したものである。それぞれの次元を所定の範囲
に合わせるのではなく、各次元が等しい分散を有するようにスケーリングするこ
とにより、別の正規化を達成することもできる。非ユークリッド距離、例えばベ
クトル積距離を使用することができる。
【0036】 当業者にはさらに明らかなように、データ・ストリーム内の値の分布が正規分
布または非正規分布された対数である場合、データ・ストリームは、対数の形に
変換されてよい。
【0037】 論理染色体のための最適なデータ・クラスタ集合が生成されると、その染色体
に対応する適応度スコアを算出することができる。本発明の場合、染色体の適応
度スコアは、均質なクラスタ内、すなわち、単一分類を有するサンプルからの固
有ベクトルを含むクラスタ内、に存在する訓練データセットのベクトルの数に概
ね相当する。より正確に述べるなら、適応度スコアは、それぞれのクラスタに均
質性スコアを割り当てることにより算出される。均質性スコアは、均質なクラス
タに対応する0.0から、等しい数の悪性および良性の試料ベクトルを含有する
クラスタに対応する0.5まで変化する。0.0の適応度スコアは最も適応度が
高い。論理染色体はより多くのデータ・クラスタを生成する傾向がある。すなわ
ち、2つの論理染色体がデータの割り当てにおいて同数のエラーを有する場合、
論理染色体がより多数のクラスタを生成すると、平均均質性スコアは低くなり、
ひいては適応度スコアがより良好になる。
【0038】 公に利用可能な自己組織化マッピング生成用ソフトウェアにはいくつかの名が
与えられており、その一つが「Lead Cluster Map」であり、こ
れは、メリーランド州グリーンベルトのGroup One Software
からModel1として入手可能な汎用ソフトウェアによって実行することがで
きる。
【0039】 本発明の別の実施形態は、データ・クラスタの境界を確立するために、非ユー
クリッド距離を利用する。「距離(メトリック)」とは、ベクトル空間内の距離
を測定する方法を意味する。本発明の別の距離は、上で定義付けしたような、正
規化された「ファジーAND」に基づくことができる。「ファジーAND」に基
づいて適応型パターン認識アルゴリズムを実行するソフトウェアは、Fuzzy
ARTMAPの名でボストン大学から入手可能である。
【0040】 D. 具体的実施形態の説明および検証 当業者には明らかなように、訓練データセット全体を均質なデータ・クラスタ
中に割り当てても、そのこと自体は、分類アルゴリズムが許容可能な精度で効果
的に動作している証拠にはならない。従って、学習アルゴリズムによって生成さ
れた分類アルゴリズムの値は、訓練データセット以外のデータセットを選別する
分類アルゴリズムの能力によって試験されなければならない。学習アルゴリズム
によって生成された分類アルゴリズムが訓練データセットを首尾よく割り当てる
ものの、試験データセットを不十分にしか割り当てない場合、訓練データは、学
習アルゴリズムによって過剰適応させられたと言われる。過剰適応は、次元数が
過度に多い場合、および/または、データ・クラスタのサイズが過度に小さい場
合に生じる。
【0041】 ドキュメントのクラスタ化:ドキュメント(テキスト)のクラスタ化は広範囲
の専門分野にとって重要である。これらの専門分野には、法曹界、医学界、情報
学会が含まれる。ブール代数に基づくサーチおよび検索法は、テキスト素材の現
在の生成量の厳しさに直面すると不充分であることが判っている。さらにブール
サーチは概念的な情報を捕捉しない。
【0042】 問題に対処するために、数値分析に受け入れられる形式で概念的な情報を何と
かして抽出することが示唆されてきた。このような方法の1つには、トリグラム
の集団および記録されたこれらトリグラムの発生頻度としてドキュメントをコー
ド化することがある。トリグラムはAFV,KLF,OIDなどのようなあらゆ
る3つの文字の集まりである。従って263個のトリグラムがある。余白および
句読点は含まれない。ドキュメントは、そのドキュメントから流れるテキストの
始まりからスタートする特定のトリグラム集合に細分化されたものとして表すこ
とができる。そのドキュメントから結果として生じるトリグラム集合およびトリ
グラムの頻度には特徴がある。集合内のドキュメントが互いに同じトリグラム集
合および頻度を有する場合、これらのドキュメントは、同じ話題に関すると思わ
れる。このことは、トリグラムの特定の部分集合だけが試験されカウントされる
場合に特に当てはまる。問題は、どのトリアグラム集合が概念を記述しているか
である。本発明による学習アルゴリズムはこの問題に答えることができる。
【0043】 フィナンシャル・タイムズ、The Art of War、および大統領の一般教書集から
100個の英語ドキュメントのコーパスをコンパイルした。このコーパスを訓練
コーパスと試験コーパスとに、ランダムに細分化した。全てのドキュメントに0
または1の値を割り当てた。この場合、0は不所望を示し、1は所望を示す。学
習アルゴリズムはトリグラム集合を通してサーチし、2つのドキュメントクラス
を分離するトリグラム集合を識別した。結果として生じたモデルは、空間内に許
容される最大距離の0.35倍で設定された決定境界と共に25個の次元内にあ
った。分類アルゴリズムは、利用可能な17,576個のトリグラムのうちの2
5個しか利用しない。試験結果を表に示す。
【0044】
【表1】
【0045】 表:コンフュージョン・マトリックス。実際値は垂直に読み、本発明によるアル
ゴリズムの結果は水平に読む。
【0046】 これらの結果が示すように、アルゴリズムは該当する26個のドキュメントの
うち24個を正確に識別し、該当しない26個のドキュメントのうちの22個を
正確に選別して除外するかまたは拒絶した。
【0047】 生物学的状況の評価:55人の血清試料のSELDI−TOF質量スペクトル
(MS)を使用して前立腺癌のための分類を行うのに、上述の学習アルゴリズム
を採用した。これらの試料のうち30個の試料は、生検により前立腺癌と診断さ
れており、4.0ng/mlを上回る前立腺血清抗原(PSA)レベルを有して
おり、25個の正常な試料は1ng/ml未満のPSAレベルを有している。7
個の分子量値を選択することにより、MSデータを抽象化した。
【0048】 訓練データセット内の各ベクトルを均質なデータ・クラスタに割り当てるクラ
スタ・マッピングを生成した。クラスタ・マッピングは34個のクラスタ、つま
り17個の良性クラスタと18個の悪性クラスタとを含有した。表1は、マッピ
ングのそれぞれのデータ・クラスタの場所と、各クラスタに割り当てられた訓練
セットのサンプルの数とを示す。
【0049】 訓練データセットから排除された213個のサンプルを使用して、分類アルゴ
リズムを試験した。種々の臨床診断および病理学的診断を有する患者から採取し
た6組の試料を使用した。病理学的・臨床的記述およびアルゴリズムの結果は次
の通りであった:1) PSA>4ng/mlを有し、生検で癌であると判って
いる24人の患者のうち、22人が疾患データ・クラスタに位置し、2人はどの
クラスタにも位置しなかった;2) 6人の正常者は全て健康クラスタに位置し
た;3) 良性前立腺肥大(BPH)または前立腺炎を患い、PSA<4ng/
mlを有する39人のうち、7人は疾患データ・クラスタに位置し、健康データ
・クラスタに位置する者はおらず、32人がどのデータ・クラスタにも位置しな
かった;4) BPHまたは前立腺炎を患い、4<PSA<10ng/mlを有
する139人の患者のうち、42人が疾患データ・クラスタに位置し、2人が健
康データ・クラスタに位置し、95人がどのデータ・クラスタにも位置しなかっ
た;5) BPHまたは前立腺炎を患い、PSA>10ng/mlを有する19
人のうち、9人が疾患データ・クラスタに位置し、健康データ・クラスタに位置
する者はおらず、10人がどのデータ・クラスタにも位置しなかった。生検で悪
性腫瘍であることが判っており、PSA>10ng/mlを有する患者から、前
立腺摘除の前後に試料を採取することにより、第6のデータセットを作成した。
予想通り、手術前の7つの試料のそれぞれは疾患データセットに割り当てられた
。しかし、手術の6週間後、PSAレベルが1ng/ml未満に低下した時点で
採取されたサンプルは、いかなるデータセットにも割り当てることができなかっ
た。
【0050】 前述の試験の結果を評価するときには、4〜10ng/mlのPSAを有し、
生検により良性と診断された患者の潜伏癌の率が約30%であることを思い出さ
なければならない。従って、高PSAを有するがしかし癌の組織診断は下されて
いない患者の18%〜47%が悪性であるという所見は、悪性腫瘍の存在の正確
な予測を裏付けている。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE,TR),OA(BF ,BJ,CF,CG,CI,CM,GA,GN,GW, ML,MR,NE,SN,TD,TG),AP(GH,G M,KE,LS,MW,MZ,SD,SL,SZ,TZ ,UG,ZW),EA(AM,AZ,BY,KG,KZ, MD,RU,TJ,TM),AE,AG,AL,AM, AT,AU,AZ,BA,BB,BG,BR,BY,B Z,CA,CH,CN,CR,CU,CZ,DE,DK ,DM,DZ,EE,ES,FI,GB,GD,GE, GH,GM,HR,HU,ID,IL,IN,IS,J P,KE,KG,KP,KR,KZ,LC,LK,LR ,LS,LT,LU,LV,MA,MD,MG,MK, MN,MW,MX,MZ,NO,NZ,PL,PT,R O,RU,SD,SE,SG,SI,SK,SL,TJ ,TM,TR,TT,TZ,UA,UG,UZ,VN, YU,ZA,ZW

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 予め分類された複数のデータ・クラスタを有するベクトル空
    間を用いてオブジェクトを分類する方法であって、該方法が、 a. オブジェクトを記述するデータ・ストリームを入力するステップと、 b. 前記データ・ストリームを特徴付けするオブジェクト・ベクトルを算出
    するために、前記データ・ストリームを抽象化するステップと、 c. 前記オブジェクト・ベクトルが内部に存在するデータ・クラスタがもし
    あるならばそのデータ・クラスタを識別するステップと、 d. 前記オブジェクトに、認識された前記データ・クラスタのステータスを
    割り当てるか、または、もしクラスタが認識されなければ、前記オブジェクトに
    非定型のステータスを割り当てるステップと から成ることを特徴とする、オブジェクトを分類する方法。
  2. 【請求項2】 前記抽象化が、前記データ・ストリームから5〜25個のデ
    ータポイントを選択することから成るプロセスにより実施される、請求項1に記
    載の方法。
  3. 【請求項3】 前記識別が、データ・クラスタのセントロイドと、オブジェ
    クト・ベクトルとの間のユークリッド距離を算出することから成るプロセスによ
    って実施される、請求項1に記載の方法。
  4. 【請求項4】 前記識別が、前記オブジェクト・ベクトルの正規化ベクトル
    積を算出し、データ・クラスタのセントロイドを表すことから成るプロセスによ
    って実施される、請求項1に記載の方法。
  5. 【請求項5】 各データ・クラスタが、2つのステータス条件のうちの一方
    を有するものとして予め分類される、請求項1に記載の方法。
  6. 【請求項6】 各データ・クラスタが、3つのステータス条件のうちの1つ
    を有するものとして予め分類される、請求項1に記載の方法。
  7. 【請求項7】 前記データ・ストリームが、1,000〜20,000個の
    データポイントから成る、請求項1に記載の方法。
  8. 【請求項8】 前記データ・ストリームの長さが少くとも1,000個のデ
    ータポイントから成る、請求項1に記載の方法。
  9. 【請求項9】 それぞれがデータ・ストリームと関連する予め分類されたオ
    ブジェクトの集合を使用することにより、分類アルゴリズムを構築する方法であ
    って、前記アルゴリズムが、固定数の次元のベクトル空間内で所定の広がりを有
    する複数のデータ・クラスタを有することを特徴とする方法において、前記方法
    が、 a. 予め分類されたオブジェクトと関連する前記データ・ストリームの集合
    を提供するステップと、 b. 前記データ・ストリームの所定数のポイントの場所を特定する論理染色
    体の初期集合を選択するステップと、 c. 各染色体を使用して、前記データ・ストリーム集合の各構成要素毎にオ
    ブジェクト・ベクトルを算出するステップと、 d. 同一分類のオブジェクトベクトルだけを含むデータ・クラスタに存在す
    るオブジェクトベクトルの数が最大となる所定の広がりであって、前記ベクトル
    の数が増えれば増えるほど、前記論理染色体の適応度が増える所定の広がりを有
    する多数の非オーバラップデータクラスタの、ベクトル空間における位置を見出
    すことによって、各染色体の適応度を決定するステップと、 e. 前記ステップ(c)および(d)を繰り返し、適応度の低い論理染色体
    を終結させ、適応度の高い論理染色体を複製し、前記染色体の組換えおよびラン
    ダムな改変を行うことから成る反復プロセスによって、前記論理染色体の集合を
    最適化するステップと、 f. 前記反復プロセスを終結し、最適化された均質な非オーバラップ・デー
    タ・クラスタ集合を可能にする論理染色体を選択するステップであって、前記最
    適均質集合のそれぞれのクラスタの属性ステータスが、前記データ・クラスタ内
    に存在する前記オブジェクト・ベクトルの分類であるステップと、 g. 前記選択された論理染色体を使用して未知のオブジェクト・ベクトルを
    算出するプロセスと、前記未知のオブジェクト・ベクトルが内部に存在する最適
    化された均質な非オーバラップ・データ・クラスタ集合のデータ・クラスタの属
    性ステータスに応じて、前記未知のオブジェクトを分類するプロセスとを含むプ
    ロセスによって、未知のオブジェクトを分類する分類アルゴリズムを構築するス
    テップとを備える方法。
  10. 【請求項10】 前記次元の固定数が5〜25である、請求項9に記載の方
    法。
  11. 【請求項11】 前記予め分類されたオブジェクトの数が20〜200であ
    る、請求項9に記載の方法。
  12. 【請求項12】 前記論理染色体の初期集合がランダムに選択される、請求
    項9に記載の方法。
  13. 【請求項13】 前記論理染色体の初期集合が、100〜2,000個の論
    理染色体から成る、請求項9に記載の方法。
  14. 【請求項14】 各データ・クラスタの広がりが等しい、請求項9に記載の
    方法。
  15. 【請求項15】 各データ・クラスタの広がりがユークリッド距離によって
    決定される、請求項9に記載の方法。
  16. 【請求項16】 一つの次元における各データ・クラスタの広がりが、その
    次元におけるオブジェクト・ベクトルの範囲の所定の部分である、請求項15に
    記載の方法。
  17. 【請求項17】 各データ・クラスタの広がりを決定する距離が、そのデー
    タ・クラスタの特性を示すベクトルを伴うファジーANDマッチ・パラメータの
    関数である、請求項9に記載の方法。
  18. 【請求項18】 前記最適均質集合の各データ・クラスタの位置が、そのデ
    ータ・クラスタ内に存在する予め分類されたオブジェクトのオブジェクト・ベク
    トルのセントロイドである、請求項9に記載の方法。
  19. 【請求項19】 前記最適均質集合の各データ・クラスタの位置が、そのデ
    ータ・クラスタ内に存在する予め分類されたオブジェクトのオブジェクト・ベク
    トルのセントロイドである、請求項9に記載の方法。
  20. 【請求項20】 前記最適均質集合の各データ・クラスタの位置が、そのデ
    ータ・クラスタ内に存在する予め分類されたオブジェクトのオブジェクト・ベク
    トルのセントロイドである、請求項9に記載の方法。
  21. 【請求項21】 汎用ディジタル・コンピュータのためのソフトウェア製品
    であって、該製品を、請求項1または請求項9に記載の方法を実施するために使
    用することができるという指示を伴うことを特徴とする、汎用ディジタル・コン
    ピュータのためのソフトウェア製品。
  22. 【請求項22】 ソフトウェア製品であって、該製品が、請求項1または請
    求項9に記載の方法を汎用ディジタル・コンピュータで実施するか、または実施
    させることを特徴とする、ソフトウェア製品。
  23. 【請求項23】 汎用ディジタル・コンピュータであって、請求項1または
    請求項9に記載の方法を実施するようにまたは実施させるようにプログラミング
    されることを特徴とする、汎用ディジタル・コンピュータ。
JP2002503811A 2000-06-19 2001-06-19 ヒューリスティック分類方法 Pending JP2003536179A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US21240400P 2000-06-19 2000-06-19
US60/212,404 2000-06-19
PCT/US2001/019376 WO2001099043A1 (en) 2000-06-19 2001-06-19 Heuristic method of classification

Publications (2)

Publication Number Publication Date
JP2003536179A true JP2003536179A (ja) 2003-12-02
JP2003536179A5 JP2003536179A5 (ja) 2006-08-17

Family

ID=22790864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002503811A Pending JP2003536179A (ja) 2000-06-19 2001-06-19 ヒューリスティック分類方法

Country Status (19)

Country Link
US (3) US7096206B2 (ja)
EP (1) EP1292912B1 (ja)
JP (1) JP2003536179A (ja)
KR (2) KR20030051435A (ja)
CN (2) CN1249620C (ja)
AT (1) ATE406627T1 (ja)
AU (1) AU2001269877A1 (ja)
BR (1) BR0111742A (ja)
CA (1) CA2411906A1 (ja)
DE (1) DE60135549D1 (ja)
EA (1) EA006272B1 (ja)
HK (1) HK1059494A1 (ja)
IL (1) IL153189A0 (ja)
MX (1) MXPA02012167A (ja)
NO (1) NO20026087L (ja)
NZ (1) NZ522859A (ja)
SG (1) SG143055A1 (ja)
WO (1) WO2001099043A1 (ja)
ZA (1) ZA200209845B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011238019A (ja) * 2010-05-11 2011-11-24 Yahoo Japan Corp カテゴリ処理装置及び方法

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6993186B1 (en) * 1997-12-29 2006-01-31 Glickman Jeff B Energy minimization for classification, pattern recognition, sensor fusion, data compression, network reconstruction and signal processing
JP2003535594A (ja) * 2000-06-02 2003-12-02 ラージ スケール プロテオミクス コーポレーション 医薬および関連の毒性についてのタンパク質マーカー
WO2001099043A1 (en) 2000-06-19 2001-12-27 Correlogic Systems, Inc. Heuristic method of classification
KR101054732B1 (ko) * 2000-07-18 2011-08-05 더 유나이티드 스테이츠 오브 아메리카 애즈 리프리젠티드 바이 더 세크레터리 오브 더 디파트먼트 오브 헬쓰 앤드 휴먼 써비시즈 생물학적 데이터의 숨겨진 패턴에 근거한 생물학적 상태의 식별 방법
US6980674B2 (en) * 2000-09-01 2005-12-27 Large Scale Proteomics Corp. Reference database
US6539102B1 (en) * 2000-09-01 2003-03-25 Large Scale Proteomics Reference database
CA2429633A1 (en) * 2000-11-16 2002-05-30 Ciphergen Biosystems, Inc. Method for analyzing mass spectra
US20030009293A1 (en) * 2001-01-09 2003-01-09 Anderson Norman G. Reference database
AU2003214724B2 (en) * 2002-03-15 2010-04-01 Pacific Edge Biotechnology Limited Medical applications of adaptive learning systems using gene expression data
US7756804B2 (en) * 2002-05-10 2010-07-13 Oracle International Corporation Automated model building and evaluation for data mining system
AU2003268031A1 (en) * 2002-07-29 2004-02-16 Correlogic Systems, Inc. Quality assurance/quality control for electrospray ionization processes
US7337154B2 (en) * 2003-05-19 2008-02-26 Raytheon Company Method for solving the binary minimization problem and a variant thereof
US7321364B2 (en) * 2003-05-19 2008-01-22 Raytheon Company Automated translation of high order complex geometry from a CAD model into a surface based combinatorial geometry format
AU2004261222A1 (en) * 2003-08-01 2005-02-10 Correlogic Systems, Inc. Multiple high-resolution serum proteomic features for ovarian cancer detection
US7761239B2 (en) * 2003-12-11 2010-07-20 Correlogic Systems, Inc. Method of diagnosing biological states through the use of a centralized, adaptive model, and remote sample processing
EP1716514A2 (en) * 2004-02-10 2006-11-02 Koninklijke Philips Electronics N.V. Genetic algorithms for optimization of genomics-based medical diagnostic tests
US20050209785A1 (en) * 2004-02-27 2005-09-22 Wells Martin D Systems and methods for disease diagnosis
TW200532523A (en) * 2004-02-27 2005-10-01 Aureon Biosciences Corp Methods and systems for predicting occurrence of an event
US20050198182A1 (en) * 2004-03-02 2005-09-08 Prakash Vipul V. Method and apparatus to use a genetic algorithm to generate an improved statistical model
US7733339B2 (en) * 2004-05-04 2010-06-08 Raytheon Company System and method for partitioning CAD models of parts into simpler sub-parts for analysis of physical characteristics of the parts
US8527442B2 (en) * 2004-05-14 2013-09-03 Lawrence Fu Method for predicting citation counts
US8275772B2 (en) * 2004-05-14 2012-09-25 Yin Aphinyanaphongs Content and quality assessment method and apparatus for quality searching
US7379939B2 (en) * 2004-06-30 2008-05-27 International Business Machines Corporation Methods for dynamic classification of data in evolving data stream
US20060036566A1 (en) * 2004-08-12 2006-02-16 Simske Steven J Index extraction from documents
US8805803B2 (en) * 2004-08-12 2014-08-12 Hewlett-Packard Development Company, L.P. Index extraction from documents
US7545986B2 (en) * 2004-09-16 2009-06-09 The United States Of America As Represented By The Secretary Of The Navy Adaptive resampling classifier method and apparatus
WO2007053170A2 (en) * 2005-02-09 2007-05-10 Correlogic Systems, Inc. Identification of bacteria and spores
US7370039B2 (en) * 2005-04-05 2008-05-06 International Business Machines Corporation Method and system for optimizing configuration classification of software
US20080312514A1 (en) * 2005-05-12 2008-12-18 Mansfield Brian C Serum Patterns Predictive of Breast Cancer
US20080234944A1 (en) * 2005-07-21 2008-09-25 Koninklijke Philips Electronics, N.V. Method and Apparatus for Subset Selection with Preference Maximization
US20080228405A1 (en) 2005-08-05 2008-09-18 Koninklijke Philips Electronics, N.V. Search Space Coverage With Dynamic Gene Distribution
US20080133550A1 (en) * 2005-08-15 2008-06-05 The University Of Southern California Method and system for integrated asset management utilizing multi-level modeling of oil field assets
GB2430772A (en) * 2005-10-01 2007-04-04 Knowledge Support Systems Ltd User interface method and apparatus
US7539653B2 (en) * 2005-10-07 2009-05-26 Xerox Corporation Document clustering
US7853869B2 (en) * 2005-12-14 2010-12-14 Microsoft Corporation Creation of semantic objects for providing logical structure to markup language representations of documents
US7736905B2 (en) * 2006-03-31 2010-06-15 Biodesix, Inc. Method and system for determining whether a drug will be effective on a patient with a disease
US7478075B2 (en) * 2006-04-11 2009-01-13 Sun Microsystems, Inc. Reducing the size of a training set for classification
US20070260568A1 (en) * 2006-04-21 2007-11-08 International Business Machines Corporation System and method of mining time-changing data streams using a dynamic rule classifier having low granularity
US20080163824A1 (en) * 2006-09-01 2008-07-10 Innovative Dairy Products Pty Ltd, An Australian Company, Acn 098 382 784 Whole genome based genetic evaluation and selection process
US9353415B2 (en) * 2006-12-19 2016-05-31 Thomson Reuters (Scientific) Llc Methods for functional analysis of high-throughput experimental data and gene groups identified therefrom
WO2008100941A2 (en) * 2007-02-12 2008-08-21 Correlogic Systems Inc. A method for calibrating an analytical instrument
US20080208646A1 (en) * 2007-02-28 2008-08-28 Thompson Ralph E Method for increasing productivity and safety in the mining and heavy construction industries
EP2145180B1 (en) * 2007-04-13 2013-12-04 Sequenom, Inc. Comparative sequence analysis processes and systems
MY150234A (en) 2007-06-29 2013-12-31 Ahn Gook Pharmaceutical Company Ltd Predictive markers for ovarian cancer
US8046322B2 (en) * 2007-08-07 2011-10-25 The Boeing Company Methods and framework for constraint-based activity mining (CMAP)
US20090049856A1 (en) * 2007-08-20 2009-02-26 Honeywell International Inc. Working fluid of a blend of 1,1,1,3,3-pentafluoropane, 1,1,1,2,3,3-hexafluoropropane, and 1,1,1,2-tetrafluoroethane and method and apparatus for using
US8185298B2 (en) * 2007-10-17 2012-05-22 Lockheed Martin Corporation Hybrid heuristic national airspace flight path optimization
US20090112645A1 (en) * 2007-10-25 2009-04-30 Lockheed Martin Corporation Multi objective national airspace collaborative optimization
US8311960B1 (en) * 2009-03-31 2012-11-13 Emc Corporation Interactive semi-supervised machine learning for classification
US10475529B2 (en) 2011-07-19 2019-11-12 Optiscan Biomedical Corporation Method and apparatus for analyte measurements using calibration sets
US8583571B2 (en) * 2009-07-30 2013-11-12 Marchex, Inc. Facility for reconciliation of business records using genetic algorithms
US8139822B2 (en) * 2009-08-28 2012-03-20 Allen Joseph Selner Designation of a characteristic of a physical capability by motion analysis, systems and methods
US8370386B1 (en) 2009-11-03 2013-02-05 The Boeing Company Methods and systems for template driven data mining task editing
US9009156B1 (en) * 2009-11-10 2015-04-14 Hrl Laboratories, Llc System for automatic data clustering utilizing bio-inspired computing models
KR101139913B1 (ko) * 2009-11-25 2012-04-30 한국 한의학 연구원 판정불능집단을 함께 분류하는 패턴 분류방법
KR101556726B1 (ko) * 2010-02-24 2015-10-02 바이오디식스, 인크. 질량스펙트럼 분석을 이용한 치료제 투여를 위한 암 환자 선별
EP2678682A4 (en) 2011-02-24 2014-10-01 Vermillion Inc BIOLOGICAL MARKERS PANEL, DIAGNOSTIC METHODS AND TESTING NEEDS FOR OVARIAN CANCER
CN102184193A (zh) * 2011-04-19 2011-09-14 无锡永中软件有限公司 与通用公办软件兼容的快速文档处理方法
JP5821767B2 (ja) * 2012-04-20 2015-11-24 株式会社島津製作所 クロマトグラフタンデム四重極型質量分析装置
US9798918B2 (en) * 2012-10-05 2017-10-24 Cireca Theranostics, Llc Method and system for analyzing biological specimens by spectral imaging
US9552649B2 (en) * 2012-11-20 2017-01-24 Koninklijke Philips N.V. Integrated phenotyping employing image texture features
US8855968B1 (en) * 2012-12-10 2014-10-07 Timothy Lynn Gillis Analytical evaluation tool for continuous process plants
US8467988B1 (en) * 2013-01-02 2013-06-18 Biodesix, Inc. Method and system for validation of mass spectrometer machine performance
US9471662B2 (en) 2013-06-24 2016-10-18 Sap Se Homogeneity evaluation of datasets
CN103632164B (zh) * 2013-11-25 2017-03-01 西北工业大学 基于kap样本优化的knn卷钢图片数据的卷刚状态分类识别方法
CN105654100A (zh) * 2014-10-30 2016-06-08 诺基亚技术有限公司 利用计算装置识别对象的方法、装置以及电子设备
US11657447B1 (en) * 2015-02-27 2023-05-23 Intuit Inc. Transaction-based verification of income and employment
CN105373832B (zh) * 2015-10-14 2018-10-30 江苏师范大学 基于并行遗传算法的交易规则参数优化方法
WO2017223522A1 (en) 2016-06-23 2017-12-28 Mohammad Shami Neural network systems and methods for generating distributed representations of electronic transaction information
CN106404441B (zh) * 2016-09-22 2018-11-06 宁波大学 一种基于非线性相似度指标的故障分类诊断方法
EP3575813B1 (en) * 2018-05-30 2022-06-29 Siemens Healthcare GmbH Quantitative mapping of a magnetic resonance imaging parameter by data-driven signal-model learning
CN108877947B (zh) * 2018-06-01 2021-10-15 重庆大学 基于迭代均值聚类的深度样本学习方法
EP4047519A1 (en) 2021-02-22 2022-08-24 Carl Zeiss Vision International GmbH Devices and methods for processing eyeglass prescriptions
EP4101367A1 (en) 2021-06-09 2022-12-14 Carl Zeiss Vision International GmbH Method and device for determining a visual performance
WO2023129687A1 (en) * 2021-12-29 2023-07-06 AiOnco, Inc. Multiclass classification model and multitier classification scheme for comprehensive determination of cancer presence and type based on analysis of genetic information and systems for implementing the same
CN114623693B (zh) * 2022-04-13 2024-01-30 深圳市佳运通电子有限公司 用于油田上下游站加热炉智能外输温度的控制方法
CN116304114B (zh) * 2023-05-11 2023-08-04 青岛市黄岛区中心医院 基于外科护理的智能数据处理方法及***
CN117688354B (zh) * 2024-02-01 2024-04-26 中国标准化研究院 一种基于进化算法的文本特征选择方法及***

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3935562A (en) 1974-02-22 1976-01-27 Stephens Richard G Pattern recognition method and apparatus
US4075475A (en) 1976-05-03 1978-02-21 Chemetron Corporation Programmed thermal degradation-mass spectrometry analysis method facilitating identification of a biological specimen
US4122518A (en) * 1976-05-17 1978-10-24 The United States Of America As Represented By The Administrator Of The National Aeronautics & Space Administration Automated clinical system for chromosome analysis
US4697242A (en) 1984-06-11 1987-09-29 Holland John H Adaptive computing system capable of learning and discovery
GB2187035A (en) 1986-01-27 1987-08-26 Eric James Sjoberg Pyrolysis mass spectrometer disease diagnosis aid
US4881178A (en) 1987-05-07 1989-11-14 The Regents Of The University Of Michigan Method of controlling a classifier system
US5697369A (en) 1988-12-22 1997-12-16 Biofield Corp. Method and apparatus for disease, injury and bodily condition screening or sensing
AU7563191A (en) 1990-03-28 1991-10-21 John R. Koza Non-linear genetic algorithms for solving problems by finding a fit composition of functions
US5210412A (en) 1991-01-31 1993-05-11 Wayne State University Method for analyzing an organic sample
US5784162A (en) 1993-08-18 1998-07-21 Applied Spectral Imaging Ltd. Spectral bio-imaging methods for biological research, medical diagnostics and therapy
DE69218912T2 (de) * 1991-08-28 1997-10-09 Becton Dickinson Co Schwerkraftsattraktionsmaschine zur anpassungsfähigen autoclusterbildung n-dimensionaler datenströme
US5632957A (en) 1993-11-01 1997-05-27 Nanogen Molecular biological diagnostic systems including electrodes
RU2038598C1 (ru) 1992-07-06 1995-06-27 Шапиро Светлана Борисовна Способ уринодиагностики заболеваний почек
US6114114A (en) * 1992-07-17 2000-09-05 Incyte Pharmaceuticals, Inc. Comparative gene transcript analysis
EP1341126A3 (en) 1992-09-01 2004-02-04 Apple Computer, Inc. Image compression using a shared codebook
US5790761A (en) 1992-12-11 1998-08-04 Heseltine; Gary L. Method and apparatus for the diagnosis of colorectal cancer
ES2201077T3 (es) * 1993-05-28 2004-03-16 Baylor College Of Medicine Metodo y espectrometro de masas para la desorcion e ionizacion de analitos.
US5995645A (en) 1993-08-18 1999-11-30 Applied Spectral Imaging Ltd. Method of cancer cell detection
US5352613A (en) 1993-10-07 1994-10-04 Tafas Triantafillos P Cytological screening method
US5553616A (en) * 1993-11-30 1996-09-10 Florida Institute Of Technology Determination of concentrations of biological substances using raman spectroscopy and artificial neural network discriminator
US6025128A (en) 1994-09-29 2000-02-15 The University Of Tulsa Prediction of prostate cancer progression by analysis of selected predictive parameters
AU1837495A (en) 1994-10-13 1996-05-06 Horus Therapeutics, Inc. Computer assisted methods for diagnosing diseases
US5848177A (en) 1994-12-29 1998-12-08 Board Of Trustees Operating Michigan State University Method and system for detection of biological materials using fractal dimensions
GB2301897B (en) 1995-06-08 1999-05-26 Univ Wales Aberystwyth The Composition analysis
KR100197580B1 (ko) 1995-09-13 1999-06-15 이민화 무선 통신망을 이용한 실시간 생체신호모니터링시스템
US5716825A (en) 1995-11-01 1998-02-10 Hewlett Packard Company Integrated nucleic acid analysis system for MALDI-TOF MS
US5687716A (en) 1995-11-15 1997-11-18 Kaufmann; Peter Selective differentiating diagnostic process based on broad data bases
DE19543020A1 (de) 1995-11-18 1997-05-22 Boehringer Mannheim Gmbh Verfahren und Vorrichtung zur Bestimmung von analytischen Daten über das Innere einer streuenden Matrix
SE9602545L (sv) 1996-06-25 1997-12-26 Michael Mecklenburg Metod för att diskriminera komplexa biologiska prover
US5839438A (en) 1996-09-10 1998-11-24 Neuralmed, Inc. Computer-based neural network system and method for medical diagnosis and interpretation
US6571227B1 (en) 1996-11-04 2003-05-27 3-Dimensional Pharmaceuticals, Inc. Method, system and computer program product for non-linear mapping of multi-dimensional data
IL129728A0 (en) 1996-11-04 2000-02-29 Dimensional Pharm Inc System method and computer program product for the visualization and interactive processing and analysis of chemical data
DE19782095T1 (de) * 1996-11-06 2000-03-23 Sequenom Inc DNA-Diagnose auf der Basis von Massenspektrometrie
US6157921A (en) 1998-05-01 2000-12-05 Barnhill Technologies, Llc Enhancing knowledge discovery using support vector machines in a distributed network environment
AU6816998A (en) * 1997-03-24 1998-10-20 Queen's University At Kingston Coincidence detection method, products and apparatus
US5905258A (en) 1997-06-02 1999-05-18 Advanced Research & Techology Institute Hybrid ion mobility and mass spectrometer
NZ516848A (en) * 1997-06-20 2004-03-26 Ciphergen Biosystems Inc Retentate chromatography apparatus with applications in biology and medicine
US6081797A (en) 1997-07-09 2000-06-27 American Heuristics Corporation Adaptive temporal correlation network
US5974412A (en) * 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
CA2321160A1 (en) 1998-02-13 1999-08-19 Oxford Glycosciences (Uk) Ltd. Methods and compositions for diagnosis of hepatoma
GB9805477D0 (en) 1998-03-13 1998-05-13 Oxford Glycosciences Limited Methods and compositions for diagnosis of rheumatoid arthritis
US6723564B2 (en) 1998-05-07 2004-04-20 Sequenom, Inc. IR MALDI mass spectrometry of nucleic acids using liquid matrices
JP2002514762A (ja) 1998-05-09 2002-05-21 アイコニシス,インコーポレーテッド コンピュータによって制御された、胎児細胞を含む希少細胞に基づく診断のための方法および装置
US6311163B1 (en) 1998-10-26 2001-10-30 David M. Sheehan Prescription-controlled data collection system and method
US5989824A (en) 1998-11-04 1999-11-23 Mesosystems Technology, Inc. Apparatus and method for lysing bacterial spores to facilitate their identification
CA2359649A1 (en) 1999-02-16 2000-08-24 Lance A. Liotta Lcm (laser capture microdissection) for cellular protein analysis
GB9905817D0 (en) 1999-03-12 1999-05-05 Oxford Glycosciences Uk Ltd Methods
US6631333B1 (en) * 1999-05-10 2003-10-07 California Institute Of Technology Methods for remote characterization of an odor
US6329652B1 (en) 1999-07-28 2001-12-11 Eastman Kodak Company Method for comparison of similar samples in liquid chromatography/mass spectrometry
US6615199B1 (en) * 1999-08-31 2003-09-02 Accenture, Llp Abstraction factory in a base services pattern environment
WO2001020043A1 (en) 1999-09-17 2001-03-22 Affymetrix, Inc. Method of cluster analysis of gene expression profiles
WO2001031579A2 (en) 1999-10-27 2001-05-03 Barnhill Technologies, Llc Methods and devices for identifying patterns in biological patterns
EP1236173A2 (en) 1999-10-27 2002-09-04 Biowulf Technologies, LLC Methods and devices for identifying patterns in biological systems
DE10021737C2 (de) 2000-05-04 2002-10-17 Hermann Haller Verfahren und Vorrichtung zur qualitativen und/oder quantitativen Bestimmung eines Protein- und/oder Peptidmusters einer Flüssigkeitsprobe, die dem menschlichen oder tierischen Körper entnommen wird
WO2001099043A1 (en) 2000-06-19 2001-12-27 Correlogic Systems, Inc. Heuristic method of classification
US6680203B2 (en) * 2000-07-10 2004-01-20 Esperion Therapeutics, Inc. Fourier transform mass spectrometry of complex biological samples
US20020059030A1 (en) 2000-07-17 2002-05-16 Otworth Michael J. Method and apparatus for the processing of remotely collected electronic information characterizing properties of biological entities
KR101054732B1 (ko) 2000-07-18 2011-08-05 더 유나이티드 스테이츠 오브 아메리카 애즈 리프리젠티드 바이 더 세크레터리 오브 더 디파트먼트 오브 헬쓰 앤드 휴먼 써비시즈 생물학적 데이터의 숨겨진 패턴에 근거한 생물학적 상태의 식별 방법
CA2429633A1 (en) 2000-11-16 2002-05-30 Ciphergen Biosystems, Inc. Method for analyzing mass spectra
ATE496343T1 (de) 2001-01-24 2011-02-15 Health Discovery Corp Verfahren zum identifizieren von mustern in biologischen systemen und deren anwendungen
JP2005504263A (ja) 2001-02-01 2005-02-10 シファーゲン バイオシステムズ, インコーポレイテッド タンデム質量分析によるタンパク質同定、特徴付けおよび配列決定のための改良された方法
WO2002079491A2 (en) 2001-02-16 2002-10-10 Ciphergen Biosystems, Inc. Method for correlating gene expression profiles with protein expression profiles
KR20030031911A (ko) 2001-04-19 2003-04-23 싸이퍼젠 바이오시스템즈, 인코포레이티드 질량 분석법과 친화성 태그를 이용한 생물분자 특성화
US20020160420A1 (en) 2001-04-30 2002-10-31 George Jackowski Process for diagnosis of physiological conditions by characterization of proteomic materials
EP1421381A1 (en) 2001-08-03 2004-05-26 The General Hospital Corporation System, process and diagnostic arrangement establishing and monitoring medication doses for patients
IL160324A0 (en) 2001-08-13 2004-07-25 Beyond Genomics Inc Method and system for profiling biological systems
US20020193950A1 (en) 2002-02-25 2002-12-19 Gavin Edward J. Method for analyzing mass spectra
AU2003268031A1 (en) 2002-07-29 2004-02-16 Correlogic Systems, Inc. Quality assurance/quality control for electrospray ionization processes
JP4585167B2 (ja) 2002-11-29 2010-11-24 東芝医用システムエンジニアリング株式会社 X線コンピュータ断層撮影システム
US7311665B2 (en) 2003-05-19 2007-12-25 Alcohol Monitoring Systems, Inc. Bio-information sensor monitoring system and method
AU2004261222A1 (en) 2003-08-01 2005-02-10 Correlogic Systems, Inc. Multiple high-resolution serum proteomic features for ovarian cancer detection
US7761239B2 (en) 2003-12-11 2010-07-20 Correlogic Systems, Inc. Method of diagnosing biological states through the use of a centralized, adaptive model, and remote sample processing
IL163061A (en) 2004-07-15 2007-07-24 Meddynamics Ltd System and method for administration of on-line healthcare
WO2007053170A2 (en) 2005-02-09 2007-05-10 Correlogic Systems, Inc. Identification of bacteria and spores

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011238019A (ja) * 2010-05-11 2011-11-24 Yahoo Japan Corp カテゴリ処理装置及び方法

Also Published As

Publication number Publication date
US7096206B2 (en) 2006-08-22
ATE406627T1 (de) 2008-09-15
US20020046198A1 (en) 2002-04-18
EA200300035A1 (ru) 2003-10-30
US7499891B2 (en) 2009-03-03
CA2411906A1 (en) 2001-12-27
DE60135549D1 (de) 2008-10-09
ZA200209845B (en) 2003-10-21
IL153189A0 (en) 2003-06-24
KR20090019019A (ko) 2009-02-24
MXPA02012167A (es) 2004-08-19
US20060112041A1 (en) 2006-05-25
CN1249620C (zh) 2006-04-05
NO20026087D0 (no) 2002-12-18
US20070185824A1 (en) 2007-08-09
EP1292912A1 (en) 2003-03-19
CN1741036A (zh) 2006-03-01
AU2001269877A1 (en) 2002-01-02
CN1446344A (zh) 2003-10-01
US7240038B2 (en) 2007-07-03
WO2001099043A1 (en) 2001-12-27
HK1059494A1 (en) 2004-07-02
NO20026087L (no) 2003-02-13
EA006272B1 (ru) 2005-10-27
KR101047575B1 (ko) 2011-07-13
SG143055A1 (en) 2008-06-27
BR0111742A (pt) 2004-02-03
EP1292912B1 (en) 2008-08-27
KR20030051435A (ko) 2003-06-25
NZ522859A (en) 2005-08-26

Similar Documents

Publication Publication Date Title
JP2003536179A (ja) ヒューリスティック分類方法
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
US10402748B2 (en) Machine learning methods and systems for identifying patterns in data
US20090138251A1 (en) Bioinformatics research and analysis system and methods associated therewith
Morovvat et al. An ensemble of filters and wrappers for microarray data classification
Babu et al. Implementation of partitional clustering on ILPD dataset to predict liver disorders
Phan et al. Improvement of SVM algorithm for microarray analysis using intelligent parameter selection
Garatti et al. An unsupervised clustering approach for leukaemia classification based on DNA micro-arrays data
Leung et al. Gene selection for brain cancer classification
Huiqing Effective use of data mining technologies on biological and clinical data
NZ539429A (en) Heuristic method of classification
Sun et al. Efficient gene selection with rough sets from gene expression data
Alshalalfah et al. Cancer class prediction: two stage clustering approach to identify informative genes
Taunk et al. Machine learning classification with K-nearest neighbors
Bamgbade Disease Profiling of High-Dimensional
Bamgbade Disease profiling of high-dimensional biomedical data with multiple classifier systems
CN116259418A (zh) 心血管疾病患病概率筛查的一级预防方法
Shiang et al. PRINCOMP, CLUSTER, DISCRIM in SAS® 9.2
Suzuki Statistical and graph-based approaches to small sample and high dimensional data
WO2011124758A1 (en) A method, an arrangement and a computer program product for analysing a cancer tissue
Anaissi Case-base retrieval of childhood leukaemia patients using gene expression data
Cabrera et al. Bioinformatics: a Promising field for Case-Based Reasoning
Orduña Cabrera et al. Bioinformatics: a promising field for case-based reasoning
Hua et al. Identifying genes with the concept of customization

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090224

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090522

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090529

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091110