JP2003536179A

JP2003536179A - ヒューリスティック分類方法

Info

Publication number: JP2003536179A
Application number: JP2002503811A
Authority: JP
Inventors: ヒット，ベン
Original assignee: コレロジックシステムズ，インコーポレイティド
Priority date: 2000-06-19
Filing date: 2001-06-19
Publication date: 2003-12-02
Also published as: US7096206B2; ATE406627T1; US20020046198A1; EA200300035A1; US7499891B2; CA2411906A1; DE60135549D1; ZA200209845B; IL153189A0; KR20090019019A; MXPA02012167A; US20060112041A1; CN1249620C; NO20026087D0; US20070185824A1; EP1292912A1; CN1741036A; AU2001269877A1; CN1446344A; US7240038B2

Abstract

(57)【要約】本発明は、オブジェクトの分類のためのヒューリスティック・アルゴリズムに関する。第１の学習アルゴリズムは、各オブジェクトと関連するデータ・ストリームを抽象化するために用いられる遺伝的アルゴリズムと、オブジェクトを分類し、遺伝的アルゴリズムの染色体の適応度を測定するのに使用されるパターン認識アルゴリズムとから成る。学習アルゴリズムは訓練データセットに適用される。学習アルゴリズムは分類アルゴリズムを生成し、分類アルゴリズムは、未知のオブジェクトを分類または類別するのに使用される。本発明は、テキストや医療用試料を分類する分野、他の金融市場の相場変動に基づいて１つの金融市場の挙動を予測する分野に役立ち、また、差し迫った故障を検出するために複合処理施設の状況を監視するのにも役立つ。

Description

【発明の詳細な説明】

【０００１】本出願は、Ｕ．Ｓ．Ｃ第１１９（ｅ）（１）項のもとに、２０００年６月１９
日付けの出願番号第６０／２１２，４０４号明細書の優先権を主張する。前記明
細書の全体を参考のため、本明細書中に引用する。

【０００２】Ｉ．発明の分野本発明は、ドキュメントのような文字列、または、株式相場の変動のような数
値データの列またはテーブル、ｍＲＮＡのＤＮＡチップとのハイブリッド形成に
より検出された組織の細胞中の種々異なる遺伝子の発現レベル、または質量分析
により検出された試料中の種々異なるタンパク質の量、として表現可能な対象を
分析し、分類する方法に関する。より具体的には、本発明は、分類されるべき対
象のクラスの事前の分類例から成る学習データセットから、分類アルゴリズムを
生成し、検証する一般的な方法に関する。事前の分類例は、ドキュメントの場合
には読み取りにより、市場データの場合には過去の経験により、または生物学的
データの場合には病理学的試験により分類されている。この場合、分類アルゴリ
ズムは、事前に分類されていない例を分類するために使用することができる。こ
のようなアルゴリズムは総称的に、データマイニング技術と呼ばれる。より一般
に適用されるデータマイニング技術、例えば多変量線形回帰分析および非線形フ
ィード・フォワード・ニューラルネットワークは、固有の欠点を有する。すなわ
ちこのような技術は、一旦開発されると、静的となり、データ・ストリーム中の
新規事象を認識することはできない。最終結果として、新規事象はしばしば誤っ
て分類されることになる。本発明は、データ・ストリーム中の新規事象を認識で
きる適応型メカニズムを介して、上記欠点を解決することに関する。

【０００３】 II. 発明の背景本発明は、遺伝的アルゴリズムと、自己組織化適応型パターン認識アルゴリズ
ムとを用いる。遺伝的アルゴリズムは当初、John H. Holland教授によって説明
された（J.H. Holland著「自然および人為システムにおける適応(Adaptation in
Natural and Artificial Systems)」(MIT Press 1992)、米国特許第４，６９７
，２４２号明細書および同第４，８８１，１７８号明細書も参照のこと）。パタ
ーン認識のために遺伝的アルゴリズムを使用することは、Kozaに与えられた米国
特許第５，１３６，６８６号明細書に記載されている（第８７欄参照）。

【０００４】自己組織化パターン認識はKohonenによって説明されている。（T. Kohonen著
「自己組織化連想記憶（情報科学第８集）(Self Organizing and Associative M
emory, 8 Series in Information Sciences)」 Springer Verlag刊 1984年; Koh
onen T著「自己組織化マッピング(Self-organizing Maps)」Springer Verlag刊
、ハイデルベルク1997年）。適応型パターン認識における自己組織化マッピング
の使用は、マサチューセッツ工科大学のRichard Lippman博士によって説明され
た。

【０００５】 III. 発明の概要本発明は、関連する２つのヒューリスティック・アルゴリズム、すなわち分類
アルゴリズムと学習アルゴリズムとから成る。これらの両アルゴリズムは分類方
法および学習方法を実現するのに用いられる。分類アルゴリズムのパラメータは
、学習アルゴリズムを訓練データセットまたは学習データセットに適用すること
により決定される。訓練データセットは、すでに分類されている各項目を有する
データセットである。以下の方法については、ディジタル・コンピュータとは無
関係に説明するが、本発明がコンピュータ・ソフトウェアとして実現するために
意図されたものであることは、当業者には明らかである。いかなる汎用コンピュ
ータを使用してもよく、この方法に従った計算が極度に大規模になることはない
。並行処理機能を有するコンピュータを本発明に用いることはできるが、このよ
うな処理能力は、本発明の学習アルゴリズムを実際に使用するのに際して必要で
はない。分類アルゴリズムが必要とするのは最小の計算量だけである。

【０００６】本発明の分類方法は、オブジェクト（Object）に関連するデータ・ストリーム
に応じてオブジェクトを分類する。本発明におけるそれぞれのオブジェクトはデ
ータ・ストリームによって特徴付けされる。データ・ストリームは多数の、少な
くとも約１００個のデータポイントから成り、１０，０００個以上のデータポイ
ントから成っていてもよい。同一オブジェクト・タイプの種々異なるサンプルか
ら成るデータ・ストリーム中の個々のデータが互いに相関可能になるように、デ
ータ・ストリームが生成される。

【０００７】オブジェクトの例としては、テキスト、金融市場動向または複合処理施設の動
作の予測に関連する時点、および医療診断のための生物学的試料が挙げられる。
これらのオブジェクトの関連データ・ストリームは、テキスト内のトリグラム（
trigram)の分布、株式市場または商品取引市場の毎日の変化、精油所のような処
理施設における圧力、温度および流量の多数の読み取り値の瞬時の読み、および
、試料中に見出されるタンパク質下位集合の質量スペクトル、または、種々異な
る試験ポリヌクレオチドから成るアレイとのｍＲＮＡハイブリッド形成強度であ
る。

【０００８】このように、一般的に言って本発明は、いくつかのカテゴリー、例えば典型的
には２つまたは３つのカテゴリーのうちの１つにオブジェクトを分類したい場合
にはいつでも使用することができる。これらのオブジェクトは大量のデータ、例
えば典型的には数千のデータポイントと関連する。「オブジェクト（Ｏｂｊｅｃ
ｔ）」という用語は本明細書中では、最初の字を大文字にして、これにより、オ
ブジェクトが本明細書中で特定の意味を有すること、すなわちオブジェクトが集
合的に有形の対象、例えば特定の試料、および無形の対象、例えば書込みまたは
テキストを意味し、全体的には抽象的な対象、例えば複合処理施設における不都
合な事象の発生前の瞬間または外国為替市場の動向を意味することを示す。

【０００９】分類法の第1のステップは、オブジェクト・ベクトル、すなわち少数（４〜１
００個、より典型的には５〜３０個）のデータポイントまたはスケーラから成る
順序付けされたセットを算出することである。このオブジェクト・ベクトルは、
分類しようとするオブジェクトと関連するデータ・ストリームから導き出される
。データ・ストリームをオブジェクト・ベクトルに変えることを「抽象化」と呼
ぶ。最も単純な抽象化プロセスは、データ・ストリームの多数のポイントを選択
することである。しかし原理的にはこの抽象化プロセスは、データ・ストリーム
のいかなる関連においても実施することができる。実施形態に示す下記の抽象化
は、データ・ストリームから少数の特定強度を選択することにより実現される。

【００１０】１実施形態では、分類方法の第２のステップは、ベクトルが存在するデータ・
クラスタがある場合には、これを判断することである。データ・クラスタは数学
的構造である。これらの数学的構造はベクトル空間内の、固定サイズの非オーバ
ラップ「超球」の多次元同等物である。それぞれのデータ・クラスタの場所およ
び関連分類または「ステータス」は、訓練データセットから学習アルゴリズムに
よって決定される。各データ・クラスタの範囲またはサイズ、および、ベクトル
空間の次元数は、学習アルゴリズムの動作に先立って、オペレータによるルーテ
ィン実行内容として設定される。ベクトルが既知のデータ・クラスタ内にある場
合には、オブジェクトはそのクラスタと関連する分類に入れられる。最も単純な
実施形態の場合、ベクトル空間の次元数は、抽象化プロセスで選択されたデータ
ポイントの数と等しい。しかしこれに代えて、データ・ストリームの複数のデー
タポイントを使用して、オブジェクト・ベクトルの各スケーラを算出することも
できる。オブジェクト・ベクトルが既知のクラスタの外部に位置している場合、
異型すなわち非定型サンプルから分類を形成することができる。

【００１１】上記のものとは異なる実施形態の場合、超球としての各データ・クラスタの定
義付けは破棄され、第２のステップは、マッチ・パラメータρ＝Σ（ｍｉｎ（｜
Ｉｉ｜，｜Ｗｉ｜）／Σ（｜Ｗｉ｜）を算出することにより実行される。この場
合、Ｉｉはオブジェクト・ベクトルのスケーラであり、Ｗｉは、事前形成された
分類ベクトルのセントロイドのスケーラである。マッチ・パラメータρは、正規
化「ファジー」ＡＮＤとも呼ばれる。オブジェクトは次いで、この距離（metric
）によって最も類似する事前形成ベクトルの分類に応じて分類される。マッチ・
パラメータは、オブジェクト・ベクトルと事前形成ベクトルとが同一の場合には
１であり、他の全ての場合には１未満である。

【００１２】学習アルゴリズムは、公知の数学的技術と２つのプリセット・パラメータとの
組み合わせを利用することにより、抽象化プロセスの詳細とデータ・クラスタの
同一性との双方を判断する。ユーザがベクトル空間の次元数およびデータ・クラ
スタのサイズをプリセットするか、あるいは、その代りに「ファジーＡＮＤ」マ
ッチ・パラメータρの最低許容レベルをプリセットする。本明細書中に用いられ
るように、「データ・クラスタ」という用語は、ユークリッド距離を用いる超球
、および、「ファジーＡＮＤ」距離を用いる、分類された事前形成ベクトルの双
方を意味する。

【００１３】典型的には、データ・クラスタが位置するベクトル空間は、正規化ベクトル空
間なので、各次元における強度の変化量は一定である。ユークリッド距離を用い
てこのように表現されたデータ・クラスタのサイズは、クラスタ内に位置するベ
クトル間の最小類似パーセント（minimum percent similarity）として表すこと
ができる。

【００１４】１実施形態では、他者によって開発され業界ではよく知られている２つの異な
るタイプの、公に利用可能な汎用ソフトウェア、つまり（１）データ・ストリー
ムの抽象化を制御する最適な論理染色体（注１）を識別するために、論理染色体
集合を処理する遺伝的アルゴリズム（J.H. Holland著「自然および人為システム
における適応(Adaptation in Natural and Artificial Systems）と、（２）論
理染色体によって生成されたあらゆるベクトル集合に基づいてデータ・クラスタ
集合を認識する、メリーランド州グリーンベルトのGroup One Softwareから入手
可能な適応型自己組織化パターン認識システム（T. Kohonen著「自己組織化連想
記憶（情報科学第８集）(Self Organizing and Associative Memory, 8 Series
in Information Sciences)」 Springer Verlag刊 1984年; Kohonen, T著「自己
組織化マッピング(Self-organizing Maps)」ハイデルベルク、Springer Verlag
刊 1997年参照）とを組み合わせることにより、学習アルゴリズムを実行するこ
とができる。具体的には、適応型パターン認識ソフトウェアは、均質なデータ・
クラスタ、すなわち、唯１つの分類タイプを備えた学習セットのベクトルを含有
するクラスタ内に存在するベクトルの数を最大化する。（注１：「論理染色体」
という用語は遺伝的学習アルゴリズムと関連して使用される。なぜならば、アル
ゴリズムの論理動作は、再生、選択、組換えおよび変異と類似しているからであ
る。もちろん、ＤＮＡその他における論理染色体の生物学的な実施形態はない。
本発明の遺伝的学習アルゴリズムは純粋にコンピュータ・デバイスであり、生物
学に基づいた情報処理のためのスキームと混同してはならない。）遺伝的アルゴリズムを使用するために、各論理染色体には「適応度（“fitnes
s”）」を割り当てなければならない。各論理染色体の適応度は、その染色体に
最適なデータ・クラスタ集合の均質なクラスタ内に存在する訓練データセット内
のベクトルの数によって決定される。このように、本発明の学習アルゴリズムは
、最適な論理染色体を識別するための遺伝的アルゴリズムと、最適なデータ・ク
ラスタ集合を生成し、均質なクラスタ内に存在するサンプル・ベクトルの数に基
づいて適応度を算出するための適応型パターン認識アルゴリズムとを組み合わせ
る。その極めて広範囲な実施形態では、本発明の学習アルゴリズムは、遺伝的ア
ルゴリズムと、パターン認識アルゴリズムと、パターン認識アルゴリズムの出力
の均質性を測定することにより遺伝的アルゴリズムを制御する適応度関数の利用
との組み合わせから成る。

【００１５】誤解を避けるために留意すべきなのは、データ・クラスタの数がカテゴリーの
数よりもはるかに多いことである。下記の例の分類アルゴリズムはオブジェクト
を２つのカテゴリーに、例えばドキュメントを該当ドキュメントと非該当ドキュ
メントとに選別するか、または、臨床試料を良性試料と悪性試料とに選別した。
しかしこれらの分類アルゴリズムは、分類を実施するために多数のデータ・クラ
スタを利用する。オブジェクトが時点の場合、分類アルゴリズムは、３つ以上の
カテゴリーを利用してよい。例えば、本発明が外国為替相場の予測子として使用
される場合、上昇、下落および上昇・下落が混ざった見通しに対応する三部から
成るスキームが妥当である。さらにこのような三部から成る分類アルゴリズムは
、４つ以上のデータ・クラスタを有することが期待されることになる。

【００１６】 IV. 発明の詳細な説明本発明を実施するために、ルーティン実行者は、学習アルゴリズムを用いるこ
とにより、分類アルゴリズムを作成しなければならない。あらゆるヒューリステ
ィックな方法と同様に、ある特定のルーティン試行が必要となる。学習アルゴリ
ズムを採用するために、ルーティン実行者は訓練データセットを使用し、２つの
パラメータと、次元数と、データ・クラスタのサイズとを試験的に最適化しなけ
ればならない。

【００１７】ベクトルにおける次元数には絶対的または固有の上限はないが、しかし、学習
アルゴリズム自体が各実行中に次元数を本質的に制限する。次元数が過度に少な
いかまたはクラスタのサイズが過度に大きいと、学習アルゴリズムは、許容可能
な均質性レベルで全てのサンプルを正確に分類する論理染色体を生成しそこなう
。逆に言えば、次元数が多すぎることもあり得る。この環境下では、学習アルゴ
リズムは、学習プロセスの早期に最大限可能な適応度を有する多くの論理染色体
を発生させ、したがって、実りのない選択しか行えない。同様に、データ・クラ
スタのサイズが余りにも小さいと、クラスタの数は訓練データセット内のサンプ
ルの数に近似するのが判り、また、やはりこの場合もルーティン実行者は、多数
の論理染色体が、完全に均質なデータ・クラスタから成る集合をもたらすことを
見出すことになる。

【００１８】上記のように、分類アルゴリズムのために次元の数とデータ・クラスタのサイ
ズとを選択する際の一般的な指針を示したが、留意しなければならないのは、分
類アルゴリズムの値の真のテストは、訓練データセット内のデータ・ストリーム
とは無関係なデータ・ストリームを正確に分類する分類アルゴリズムの能力のテ
ストである、という点である。したがって、学習データセットの一部を保存して
、分類アルゴリズムが所期の目的を達成するために許容可能な誤差率で機能して
いることを検証しなければならないことは、ルーティン実行者には明らかである
。本発明のコンポーネントは、以下により詳細に説明される。

【００１９】Ａ．データ・ストリームおよびオブジェクトのタイプオブジェクトの分類および関連データ・ストリームの生成は、取り組むべき問
題の性質に依存する。一般原理を以下の例によって示す。

【００２０】ドキュメント：本発明の１実施形態では、コンピュータ化された分類ドキュメ
ントのための方法を提供する。例えば、個別に調べるには余りにも大型の多数の
ドキュメントから成るデータベースから、該当するドキュメントを抽出したい場
合がある。このような環境に対して、本発明は、コンピュータ化されたアルゴリ
ズムを提供することにより、該当するドキュメントを含んでいる可能性の最も高
いデータベースの部分集合を識別する。それぞれのドキュメントはオブジェクト
であり、それぞれのドキュメントに対応するデータ・ストリームはヒストグラム
から成っている。このヒストグラムは、スペースと句読点とを取り除いた後でド
キュメントに見出される１７５７６（２６³）個の三つの文字の組み合わせ（ト
リグラム）のそれぞれの頻度を表す。あるいは、ドキュメントから母音をさらに
取り除いた後で、子音から成る９２６１個のトリグラムのヒストグラムを用意す
ることもできる。訓練データセットは、ユーザの必要に応じて、「該当」または
「非該当」と分類された適切なドキュメントのサンプルから成っている。

【００２１】金融市場：例えば外国為替相場が、投資機会の魅力の大きさによって影響され
るように、金融市場が外部事象に応答し、一貫して相互に関連しあうことは自明
である。しかし個々の事象に対する応答の方向および範囲は、予測することが困
難な場合がある。１つの実施形態では、本発明は、１つの市場の相場の動向に基
づいて、別の市場の相場をアルゴリズムのコンピュータ化により予測することを
可能にする。それぞれの時点、例えば時間単位のインターバルがオブジェクトで
あり、時間に関するデータ・ストリームは、関係各国の主要株式市場、例えばポ
ンドおよびドルの為替レートについてはニューヨークおよびロンドンの株式市場
、において取引された株価の変動のヒストグラムから成っている。訓練データセ
ットは、ドル：ポンド為替レートの上昇または下落に先行するものとして分類さ
れた株価変動のような履歴記録から成っている。

【００２２】処理施設：複合的な処理施設、例えば精油所、油田または石油化学プラントに
おいては、圧力、温度、流量、多数の弁および他の制御装置の状態（集合的に「
状態値」と呼ぶ）がコンスタントに監視され、記録される。切迫した不都合な事
象を、この事象が破滅的な故障とならないうちに検出することが必要である。本
発明はコンピュータ化されたアルゴリズムを提供することにより、ハイリスク時
点または通常リスク時点として各時点を分類する。データ・ストリームは各時点
に対応する状態値から成っている。訓練データセットは、不都合な事象に先行す
るものとして、または通常動作に先行するものとして分類された状態値の履歴記
録から成っている。

【００２３】医療診断：本発明は、医療診断の組織試料の分析、例えば血清または血漿の分
析に用いることができる。データ・ストリームは、組織試料のいかなる再現可能
な物理的分析であってもよく、これらの分析は、少くとも千分の一（３つの有効
数字）に定量可能な２，０００個以上の測定値をもたらす。本発明の実施には、
タンパク質の飛行時間質量スペクトルが特に適している。より具体的には、マト
リックス支援レーザー脱離イオン化飛行時間型（ＭＡＬＤＩ−ＴＯＦ）分光法お
よび表面増強レーザー脱離イオン化飛行時間型（ＳＥＬＤＩ−ＴＯＦ）分光法が
適している。国際公開第００／４９４１０号パンフレットを全体的に参照された
い。

【００２４】データ・ストリームには、分子量のような単一の順序を有するパラメータによ
って本質的に順序づけられているというものではない任意の順序を有する測定値
も含むことができる。このように、組織試料が生検標本である場合、データ・ス
トリーム中の個々の遺伝子の順序が任意であることを認識した上で、２，０００
個以上の遺伝子の発現レベルを同時に測定するＤＮＡマイクロアレイ・データを
データ・ストリームとして使用することができる。

【００２５】本発明は、早期診断が重要であり、しかし症状がないために早期診断が技術的
に困難であるような特定の疾患に対して特に有益となる。このような疾患は、病
的組織の代謝活性により血清中で検出可能な差異を生成すると考えられる。悪性
腫瘍の早期診断は、本発明の使用の主な焦点となるものである。実施例により、
前立腺悪性腫瘍の診断を示す。卵巣癌の診断のためにも同様の試みが実施された
。

【００２６】なお、本発明の方法を用いて、患者試料からの単独のデータ・ストリームを複
合診断のために分析することができる。このような複合診断にかかる付加的なコ
ストは僅かである。なぜならば、それぞれの診断にとって特異的なステップはコ
ンピュータ処理だけで済むからである。

【００２７】Ｂ．抽象化プロセスおよび論理染色体本発明の分類プロセスにおける第１のステップは、データ・ストリームを固有
ベクトルに変換または抽象化することである。データは、すべてのピークに１．
０の値を割り当て、他の全ての点には所与の小数を割り当てることにより、抽象
化に先立って正規化すると有用である。データ・ストリームの最も単純な抽象化
は、少数のデータポイントの選択から成る。当業者には明らかなように、インタ
ーバル全体にわたる平均、または、選択された代表データポイントから所定の距
離だけ離れているデータポイント相互間のより複雑な和または差のような、複数
の点のより複雑な関数を構築することもできる。データ・ストリームの強度値の
このような関数も使用することができ、実施例において示す単純な抽象化と同等
に機能することが予想される。

【００２８】やはり当業者に明らかなように、任意のポイントに瞬時的な勾配を与えること
により行われる抽象化が本発明において機能を発揮できるかどうかを、ルーティ
ン試行により判断することができる。従って実施例のルーティンで利用可能な変
更は本発明の範囲内にある。

【００２９】本発明の特徴は、固有ベクトルを算出するのに使用されるデータポイントを判
定するために、遺伝的アルゴリズムを使用することである。専門技術用語と調和
させて、選択されるべき特定のポイントのリストを論理染色体と呼ぶ。論理染色
体は、固有ベクトルの次元の数の「遺伝子」を含有する。妥当な数のデータポイ
ントから成るいかなる集合も論理染色体であり得る。ただしこの場合、重複する
染色体の遺伝子がないことだけが条件となる。遺伝子の順序は本発明にとって重
要ではない。

【００３０】当業者には明らかなように、２つの条件がそろう場合に遺伝的アルゴリズムを
使用することができる。固定サイズの不連続要素から成るセットまたはストリン
グによって、問題に対する特定の解決策が表現可能でなければならない。これら
の要素は数字または文字であってよい。さらなる解決策をもたらすために、スト
リングを組み換えることができる。また各解決策の相対的な長所を示す数値、お
よびその適応度を算出できなければならない。このような条件下では、遺伝的ア
ルゴリズムの詳細は、解決が求められている問題とは無関係である。従って、本
発明の場合、汎用の遺伝的アルゴリズム・ソフトウェアを採用することができる
。アルゴンヌ国立研究所から入手可能なＰＧＡＰａｃｋライブラリのアルゴリズ
ムが適している。特定の論理染色体の適応度の算出について、以下に説明する。

【００３１】説明のための第１の例は、１００個のドキュメントから成るコーパスに関する
。これらのドキュメントを、４６個のドキュメントから成る訓練セットと、５４
個のドキュメントから成る試験セットとにランダムに分割した。これらのドキュ
メントは、一般教書集と、書籍「戦争の技術（The Art of War）」からの抜粋と
、フィナンシャル・タイムズの記事とから成るものであった。それぞれのドキュ
メントに対応するトリグラムの分布を算出した。２５個の次元を有するベクトル
空間を選択し、それぞれの次元のデータ・クラスタのサイズを、これがその次元
における値の範囲の０．３５倍となるように選択した。遺伝的アルゴリズムを、
約１，５００個のランダムに選択された論理染色体で初期化した。アルゴリズム
が進行するのに伴い、より適応性の高い論理染色体は複製され、より適応性の低
い論理染色体は終了される。染色体間で組換えが行われ、突然変異が生じる。こ
の突然変異は、染色体の要素のランダムな置き換えによって発生する。論理染色
体の最初に選択された集まりがランダムであることは、本発明の重要な特徴では
ない。極めて高い可変性を有するデータポイントを識別するためにデータ・スト
リームの全体集合を予め選別することは有用であるが、しかしこのような技術は
、望ましくない初期化の傾向を招いてしまうおそれがある。当業者には明らかな
ように、染色体初期集合、突然変異率、および遺伝的アルゴリズムのための他の
境界条件は、遺伝的アルゴリズムの機能にとって重大ではない。

【００３２】Ｃ．パターン認識プロセスおよび適応度スコア生成遺伝的アルゴリズムによって生成される論理染色体のそれぞれの適応度スコア
が算出される。適応度スコアの算出には、それぞれの被験論理染色体毎に、最適
なデータ・クラスタ集合が生成されることが必要になる。データ・クラスタは単
に、訓練データセットのオブジェクト・ベクトルが内部に存在するベクトル空間
の体積である。最適なデータ・クラスタ集合の生成法は、本発明にとって重大で
はなく、後で考察する。しかし、データ・クラスタ・マッピングを生成するのに
どのような方法を使用するのであれ、マッピングは以下の規則によって制約され
る。すなわち、各データ・クラスタはそのデータ・クラスタ内に位置するデータ
ポイントのセントロイドに配置されるべきであり、２つのデータ・クラスタがオ
ーバラップしてはならず、正規化ベクトル空間内の各クラスタの次元が、マッピ
ングの生成に先立って固定される、という規則によって制約される。

【００３３】データ・クラスタのサイズは、訓練プロセス中にユーザによって設定される。
サイズを過度に大きく設定すると、染色体が訓練集合を首尾よく分類することが
できなくなる。逆に、サイズを過度に小さく設定すると、結果として生じた最適
データ・クラスタから成る集合内で、クラスタの数が訓練集合内のデータポイン
トの数に近似する。より重要なのは、過度に小さなデータ・クラスタのサイズを
設定すると、以下に述べる「過剰適応（“overfitting”）」を招く。

【００３４】データ・クラスタのサイズを定義付けするのに用いられる方法は、本発明の一
部である。クラスタのサイズは、データ・クラスタのあらゆる２つの構成要素の
間のユークリッド距離（平方和の平方根）に相当する最大値によって定義付けす
ることができる。データ・ストリームがＳＥＬＤＩ−ＴＯＦ質量分析によって生
成される場合、本発明には、９０％の類似率に相応するデータ・クラスタのサイ
ズが好ましい。テキストの分類には、大きめのデータ・クラスタが有用であるこ
とが判っている。数学的には、９０％の類似率は、クラスタのあらゆる２つの構
成要素間の距離が、正規化ベクトル空間内の２つのポイント相互間の最大距離の
０．１未満であることを要求することにより定義付けされる。この算出に際して
、ベクトル空間は、訓練データセット内のベクトルの各スカラーの範囲が０．０
〜１．０となるように正規化される。こうして正規化された、ベクトル空間内の
あらゆる２つのベクトル間の最大限生じ得る距離はルートＮとなる。この場合Ｎ
は次元数である。各クラスタのユークリッド直径は０．１ｘルート（Ｎ）となる
。

【００３５】ベクトル空間の特定の正規化は、この方法の重大な特徴ではない。前述の方法
は、算出を簡単にするために選択したものである。それぞれの次元を所定の範囲
に合わせるのではなく、各次元が等しい分散を有するようにスケーリングするこ
とにより、別の正規化を達成することもできる。非ユークリッド距離、例えばベ
クトル積距離を使用することができる。

【００３６】当業者にはさらに明らかなように、データ・ストリーム内の値の分布が正規分
布または非正規分布された対数である場合、データ・ストリームは、対数の形に
変換されてよい。

【００３７】論理染色体のための最適なデータ・クラスタ集合が生成されると、その染色体
に対応する適応度スコアを算出することができる。本発明の場合、染色体の適応
度スコアは、均質なクラスタ内、すなわち、単一分類を有するサンプルからの固
有ベクトルを含むクラスタ内、に存在する訓練データセットのベクトルの数に概
ね相当する。より正確に述べるなら、適応度スコアは、それぞれのクラスタに均
質性スコアを割り当てることにより算出される。均質性スコアは、均質なクラス
タに対応する０．０から、等しい数の悪性および良性の試料ベクトルを含有する
クラスタに対応する０．５まで変化する。０．０の適応度スコアは最も適応度が
高い。論理染色体はより多くのデータ・クラスタを生成する傾向がある。すなわ
ち、２つの論理染色体がデータの割り当てにおいて同数のエラーを有する場合、
論理染色体がより多数のクラスタを生成すると、平均均質性スコアは低くなり、
ひいては適応度スコアがより良好になる。

【００３８】公に利用可能な自己組織化マッピング生成用ソフトウェアにはいくつかの名が
与えられており、その一つが「ＬｅａｄＣｌｕｓｔｅｒＭａｐ」であり、こ
れは、メリーランド州グリーンベルトのＧｒｏｕｐＯｎｅＳｏｆｔｗａｒｅ
からＭｏｄｅｌ１として入手可能な汎用ソフトウェアによって実行することがで
きる。

【００３９】本発明の別の実施形態は、データ・クラスタの境界を確立するために、非ユー
クリッド距離を利用する。「距離（メトリック）」とは、ベクトル空間内の距離
を測定する方法を意味する。本発明の別の距離は、上で定義付けしたような、正
規化された「ファジーＡＮＤ」に基づくことができる。「ファジーＡＮＤ」に基
づいて適応型パターン認識アルゴリズムを実行するソフトウェアは、Ｆｕｚｚｙ
ＡＲＴＭＡＰの名でボストン大学から入手可能である。

【００４０】Ｄ．具体的実施形態の説明および検証当業者には明らかなように、訓練データセット全体を均質なデータ・クラスタ
中に割り当てても、そのこと自体は、分類アルゴリズムが許容可能な精度で効果
的に動作している証拠にはならない。従って、学習アルゴリズムによって生成さ
れた分類アルゴリズムの値は、訓練データセット以外のデータセットを選別する
分類アルゴリズムの能力によって試験されなければならない。学習アルゴリズム
によって生成された分類アルゴリズムが訓練データセットを首尾よく割り当てる
ものの、試験データセットを不十分にしか割り当てない場合、訓練データは、学
習アルゴリズムによって過剰適応させられたと言われる。過剰適応は、次元数が
過度に多い場合、および／または、データ・クラスタのサイズが過度に小さい場
合に生じる。

【００４１】ドキュメントのクラスタ化：ドキュメント（テキスト）のクラスタ化は広範囲
の専門分野にとって重要である。これらの専門分野には、法曹界、医学界、情報
学会が含まれる。ブール代数に基づくサーチおよび検索法は、テキスト素材の現
在の生成量の厳しさに直面すると不充分であることが判っている。さらにブール
サーチは概念的な情報を捕捉しない。

【００４２】問題に対処するために、数値分析に受け入れられる形式で概念的な情報を何と
かして抽出することが示唆されてきた。このような方法の１つには、トリグラム
の集団および記録されたこれらトリグラムの発生頻度としてドキュメントをコー
ド化することがある。トリグラムはＡＦＶ，ＫＬＦ，ＯＩＤなどのようなあらゆ
る３つの文字の集まりである。従って２６³個のトリグラムがある。余白および
句読点は含まれない。ドキュメントは、そのドキュメントから流れるテキストの
始まりからスタートする特定のトリグラム集合に細分化されたものとして表すこ
とができる。そのドキュメントから結果として生じるトリグラム集合およびトリ
グラムの頻度には特徴がある。集合内のドキュメントが互いに同じトリグラム集
合および頻度を有する場合、これらのドキュメントは、同じ話題に関すると思わ
れる。このことは、トリグラムの特定の部分集合だけが試験されカウントされる
場合に特に当てはまる。問題は、どのトリアグラム集合が概念を記述しているか
である。本発明による学習アルゴリズムはこの問題に答えることができる。

【００４３】フィナンシャル・タイムズ、The Art of War、および大統領の一般教書集から
１００個の英語ドキュメントのコーパスをコンパイルした。このコーパスを訓練
コーパスと試験コーパスとに、ランダムに細分化した。全てのドキュメントに０
または１の値を割り当てた。この場合、０は不所望を示し、１は所望を示す。学
習アルゴリズムはトリグラム集合を通してサーチし、２つのドキュメントクラス
を分離するトリグラム集合を識別した。結果として生じたモデルは、空間内に許
容される最大距離の０．３５倍で設定された決定境界と共に２５個の次元内にあ
った。分類アルゴリズムは、利用可能な１７，５７６個のトリグラムのうちの２
５個しか利用しない。試験結果を表に示す。

【００４４】

【表１】

【００４５】表：コンフュージョン・マトリックス。実際値は垂直に読み、本発明によるアル
ゴリズムの結果は水平に読む。

【００４６】これらの結果が示すように、アルゴリズムは該当する２６個のドキュメントの
うち２４個を正確に識別し、該当しない２６個のドキュメントのうちの２２個を
正確に選別して除外するかまたは拒絶した。

【００４７】生物学的状況の評価：５５人の血清試料のＳＥＬＤＩ−ＴＯＦ質量スペクトル
（ＭＳ）を使用して前立腺癌のための分類を行うのに、上述の学習アルゴリズム
を採用した。これらの試料のうち３０個の試料は、生検により前立腺癌と診断さ
れており、４．０ｎｇ／ｍｌを上回る前立腺血清抗原（ＰＳＡ）レベルを有して
おり、２５個の正常な試料は１ｎｇ／ｍｌ未満のＰＳＡレベルを有している。７
個の分子量値を選択することにより、ＭＳデータを抽象化した。

【００４８】訓練データセット内の各ベクトルを均質なデータ・クラスタに割り当てるクラ
スタ・マッピングを生成した。クラスタ・マッピングは３４個のクラスタ、つま
り１７個の良性クラスタと１８個の悪性クラスタとを含有した。表１は、マッピ
ングのそれぞれのデータ・クラスタの場所と、各クラスタに割り当てられた訓練
セットのサンプルの数とを示す。

【００４９】訓練データセットから排除された２１３個のサンプルを使用して、分類アルゴ
リズムを試験した。種々の臨床診断および病理学的診断を有する患者から採取し
た６組の試料を使用した。病理学的・臨床的記述およびアルゴリズムの結果は次
の通りであった：１）ＰＳＡ＞４ｎｇ／ｍｌを有し、生検で癌であると判って
いる２４人の患者のうち、２２人が疾患データ・クラスタに位置し、２人はどの
クラスタにも位置しなかった；２）６人の正常者は全て健康クラスタに位置し
た；３）良性前立腺肥大（ＢＰＨ）または前立腺炎を患い、ＰＳＡ＜４ｎｇ／
ｍｌを有する３９人のうち、７人は疾患データ・クラスタに位置し、健康データ
・クラスタに位置する者はおらず、３２人がどのデータ・クラスタにも位置しな
かった；４）ＢＰＨまたは前立腺炎を患い、４＜ＰＳＡ＜１０ｎｇ／ｍｌを有
する１３９人の患者のうち、４２人が疾患データ・クラスタに位置し、２人が健
康データ・クラスタに位置し、９５人がどのデータ・クラスタにも位置しなかっ
た；５）ＢＰＨまたは前立腺炎を患い、ＰＳＡ＞１０ｎｇ／ｍｌを有する１９
人のうち、９人が疾患データ・クラスタに位置し、健康データ・クラスタに位置
する者はおらず、１０人がどのデータ・クラスタにも位置しなかった。生検で悪
性腫瘍であることが判っており、ＰＳＡ＞１０ｎｇ／ｍｌを有する患者から、前
立腺摘除の前後に試料を採取することにより、第６のデータセットを作成した。
予想通り、手術前の７つの試料のそれぞれは疾患データセットに割り当てられた
。しかし、手術の６週間後、ＰＳＡレベルが１ｎｇ／ｍｌ未満に低下した時点で
採取されたサンプルは、いかなるデータセットにも割り当てることができなかっ
た。

【００５０】前述の試験の結果を評価するときには、４〜１０ｎｇ／ｍｌのＰＳＡを有し、
生検により良性と診断された患者の潜伏癌の率が約３０％であることを思い出さ
なければならない。従って、高ＰＳＡを有するがしかし癌の組織診断は下されて
いない患者の１８％〜４７％が悪性であるという所見は、悪性腫瘍の存在の正確
な予測を裏付けている。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ，ＴＲ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＭＺ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＧ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＢＺ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＭＺ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ

Claims

【特許請求の範囲】

【請求項１】予め分類された複数のデータ・クラスタを有するベクトル空
間を用いてオブジェクトを分類する方法であって、該方法が、ａ．オブジェクトを記述するデータ・ストリームを入力するステップと、ｂ．前記データ・ストリームを特徴付けするオブジェクト・ベクトルを算出
するために、前記データ・ストリームを抽象化するステップと、ｃ．前記オブジェクト・ベクトルが内部に存在するデータ・クラスタがもし
あるならばそのデータ・クラスタを識別するステップと、ｄ．前記オブジェクトに、認識された前記データ・クラスタのステータスを
割り当てるか、または、もしクラスタが認識されなければ、前記オブジェクトに
非定型のステータスを割り当てるステップとから成ることを特徴とする、オブジェクトを分類する方法。
【請求項２】前記抽象化が、前記データ・ストリームから５〜２５個のデ
ータポイントを選択することから成るプロセスにより実施される、請求項１に記
載の方法。
【請求項３】前記識別が、データ・クラスタのセントロイドと、オブジェ
クト・ベクトルとの間のユークリッド距離を算出することから成るプロセスによ
って実施される、請求項１に記載の方法。
【請求項４】前記識別が、前記オブジェクト・ベクトルの正規化ベクトル
積を算出し、データ・クラスタのセントロイドを表すことから成るプロセスによ
って実施される、請求項１に記載の方法。
【請求項５】各データ・クラスタが、２つのステータス条件のうちの一方
を有するものとして予め分類される、請求項１に記載の方法。
【請求項６】各データ・クラスタが、３つのステータス条件のうちの１つ
を有するものとして予め分類される、請求項１に記載の方法。
【請求項７】前記データ・ストリームが、１，０００〜２０，０００個の
データポイントから成る、請求項１に記載の方法。
【請求項８】前記データ・ストリームの長さが少くとも１，０００個のデ
ータポイントから成る、請求項１に記載の方法。
【請求項９】それぞれがデータ・ストリームと関連する予め分類されたオ
ブジェクトの集合を使用することにより、分類アルゴリズムを構築する方法であ
って、前記アルゴリズムが、固定数の次元のベクトル空間内で所定の広がりを有
する複数のデータ・クラスタを有することを特徴とする方法において、前記方法
が、ａ．予め分類されたオブジェクトと関連する前記データ・ストリームの集合
を提供するステップと、ｂ．前記データ・ストリームの所定数のポイントの場所を特定する論理染色
体の初期集合を選択するステップと、ｃ．各染色体を使用して、前記データ・ストリーム集合の各構成要素毎にオ
ブジェクト・ベクトルを算出するステップと、ｄ．同一分類のオブジェクトベクトルだけを含むデータ・クラスタに存在す
るオブジェクトベクトルの数が最大となる所定の広がりであって、前記ベクトル
の数が増えれば増えるほど、前記論理染色体の適応度が増える所定の広がりを有
する多数の非オーバラップデータクラスタの、ベクトル空間における位置を見出
すことによって、各染色体の適応度を決定するステップと、ｅ．前記ステップ（ｃ）および（ｄ）を繰り返し、適応度の低い論理染色体
を終結させ、適応度の高い論理染色体を複製し、前記染色体の組換えおよびラン
ダムな改変を行うことから成る反復プロセスによって、前記論理染色体の集合を
最適化するステップと、ｆ．前記反復プロセスを終結し、最適化された均質な非オーバラップ・デー
タ・クラスタ集合を可能にする論理染色体を選択するステップであって、前記最
適均質集合のそれぞれのクラスタの属性ステータスが、前記データ・クラスタ内
に存在する前記オブジェクト・ベクトルの分類であるステップと、ｇ．前記選択された論理染色体を使用して未知のオブジェクト・ベクトルを
算出するプロセスと、前記未知のオブジェクト・ベクトルが内部に存在する最適
化された均質な非オーバラップ・データ・クラスタ集合のデータ・クラスタの属
性ステータスに応じて、前記未知のオブジェクトを分類するプロセスとを含むプ
ロセスによって、未知のオブジェクトを分類する分類アルゴリズムを構築するス
テップとを備える方法。
【請求項１０】前記次元の固定数が５〜２５である、請求項９に記載の方
法。
【請求項１１】前記予め分類されたオブジェクトの数が２０〜２００であ
る、請求項９に記載の方法。
【請求項１２】前記論理染色体の初期集合がランダムに選択される、請求
項９に記載の方法。
【請求項１３】前記論理染色体の初期集合が、１００〜２，０００個の論
理染色体から成る、請求項９に記載の方法。
【請求項１４】各データ・クラスタの広がりが等しい、請求項９に記載の
方法。
【請求項１５】各データ・クラスタの広がりがユークリッド距離によって
決定される、請求項９に記載の方法。
【請求項１６】一つの次元における各データ・クラスタの広がりが、その
次元におけるオブジェクト・ベクトルの範囲の所定の部分である、請求項１５に
記載の方法。
【請求項１７】各データ・クラスタの広がりを決定する距離が、そのデー
タ・クラスタの特性を示すベクトルを伴うファジーＡＮＤマッチ・パラメータの
関数である、請求項９に記載の方法。
【請求項１８】前記最適均質集合の各データ・クラスタの位置が、そのデ
ータ・クラスタ内に存在する予め分類されたオブジェクトのオブジェクト・ベク
トルのセントロイドである、請求項９に記載の方法。
【請求項１９】前記最適均質集合の各データ・クラスタの位置が、そのデ
ータ・クラスタ内に存在する予め分類されたオブジェクトのオブジェクト・ベク
トルのセントロイドである、請求項９に記載の方法。
【請求項２０】前記最適均質集合の各データ・クラスタの位置が、そのデ
ータ・クラスタ内に存在する予め分類されたオブジェクトのオブジェクト・ベク
トルのセントロイドである、請求項９に記載の方法。
【請求項２１】汎用ディジタル・コンピュータのためのソフトウェア製品
であって、該製品を、請求項１または請求項９に記載の方法を実施するために使
用することができるという指示を伴うことを特徴とする、汎用ディジタル・コン
ピュータのためのソフトウェア製品。
【請求項２２】ソフトウェア製品であって、該製品が、請求項１または請
求項９に記載の方法を汎用ディジタル・コンピュータで実施するか、または実施
させることを特徴とする、ソフトウェア製品。
【請求項２３】汎用ディジタル・コンピュータであって、請求項１または
請求項９に記載の方法を実施するようにまたは実施させるようにプログラミング
されることを特徴とする、汎用ディジタル・コンピュータ。