JP2003030222A

JP2003030222A - 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のための方法、システム、記録媒体、およびサーバ

Info

Publication number: JP2003030222A
Application number: JP2001205183A
Authority: JP
Inventors: Mei Kobayashi; メイ小林; Masaki Aono; 雅樹青野; Hikari Sagawa; 光寒川; Hiroyoshi Takeuchi; 広宜竹内
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-07-05
Filing date: 2001-07-05
Publication date: 2003-01-31
Anticipated expiration: 2021-07-05
Also published as: JP3870043B2; US6920450B2; US20040010485A1

Abstract

(57)【要約】【課題】大規模データベースにおける主要クラスタお
よびアウトライア・クラスタの検出、検索、および同定
のための方法、システム、記録媒体およびサーバを提供
する。【解決手段】本発明の方法は、少なくとも１つのアト
リビュートを使用して前記ドキュメントからドキュメン
ト行列を生成するステップと、所定の関数からドキュメ
ント行列に基づいてスケールされた残差行列を生成する
ステップと、特異値分解を実行して最大の特異値に対応
する基底ベクトルを得るステップと、残差行列を再構築
し、この再構築された残差行列を動的にスケーリングし
て別の基底ベクトルを得るステップと、特異値分解ステ
ップから再構築ステップまでを繰り返して所定の基底ベ
クトルのセットを生成するステップと、ドキュメント行
列の次元削減を実行して、データベース内のドキュメン
トの検出、検索および同定を行うステップとを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、大きな行列の計算
方法に関し、より詳細には、きわめて大きなデータベー
スにおける主要クラスタ、ミーディアム・クラスタおよ
びアウトライア・クラスタの効率的な検索、検出、同定
を可能とする方法、コンピュータ・システム、コンピュ
ータ可読な記録媒体およびサーバに関する。

【０００２】

【従来の技術】近年におけるデータベース・システム
は、ニュースデータ、顧客情報、在庫データなどの膨大
な量のデータをますます取り扱うようになってきてい
る。このようなデータベースのユーザは、充分な精度を
もって迅速、かつ効果的に所望する情報を検索すること
が、ますます困難となっている。したがって、適時、か
つ精度よく、さらには安価に大きなデータベースから新
たなトピックスおよび／または新たな事項を検出するこ
とは、在庫管理、先物取引やオプション取引、世界中に
多数のレポータを配置することなしにレポータへと迅速
に指令を行うニュース代理店、成功を収めるためには競
合者についての主要、かつ新しい情報を知ることが必要
なインターネットや、他の速いペースの行動に基づくビ
ジネスといった、多くのタイプのビジネスに対し、きわ
めて価値ある情報を与えることになる。

【０００３】従来ではデータベースの検索者は、検索を
モニタするために別の要員を雇用する必要があるので、
多くのデータベースにおけるドキュメントの検索、検出
および同定は、コストが高く、労力を要し、時間を浪費
する作業となっている。

【０００４】検索エンジンにおける検索、検出、および
同定方法は、近年ではデータベース内のデータをクラス
タ化するためにベクトルモデルを用いている。この従来
の方法は、概ねデータベース内のデータに対応したベク
トルｆ（kwd1, kwd2,. . .,kwdn）を形成するものであ
る。このベクトルｆは、kwd1, kwd2,. . ., kwdnといっ
たデータに付されたアトリビュートの数に等しい次元を
有するベクトルとして定義される。最も通常の場合に
は、アトリビュートは、単独のキーワード、フレーズ、
人の名前、地名、日付などとされる。通常では数学的に
ベクトルｆを形成するため、バイナリ・モデルが用いら
れ、このバイナリ・モデルにおいては、データがkwd1を
含まない場合には、kwd1を０に設定し、データがkwd1を
含む場合にはkwd1を１に設定する。ある場合には重み付
け因子をバイナリ・モデルと組み合わせて、検索の精度
が向上されている。このような重み付け因子としては、
例えばデータ中におけるキーワードの出現回数を挙げる
ことができる。

【０００５】

【発明が解決しようとする課題】いくつかの統計的な手
法が、ベクトル空間モデルに基づいた情報検索のための
アルゴリズムを用いて提案されてきている（例えば、Ba
eza-Yates, R., Riberio-Neo, B., “現代情報検索（Mo
dern Information Retrieval）”, Addition-Wesley, N
Y, 1999年、およびManning, C., Shutze, N., 統計的な
自然言語処理の原理（“Foundations of Statistical N
atural Language Processing）”, MIT Press, Cambrid
ge, MA, 1999を参照されたい。）。

【０００６】Salton, G.,らは、“スマート・検索・シ
ステム−自動化ドキュメント処理における実験（The SM
ART Retrieval System-Experiments in Automatic Docu
mentProcessing）”, Prentice-Hall, Englewood Cliff
s, NJ, 1971年において、ベクトル空間モデルを総説し
ている。彼らは、ベクトルを用いてドキュメントをモデ
ル化しており、ベクトルの各座標軸がベクトルのアトリ
ビュート、例えばキーワードを表すものとされている。
ベクトルのバイナリ・モデルにおいては、座標軸は、ド
キュメントに当該アトリビュートが含まれていれば１の
値とされ、当該アトリビュートがドキュメントに含まれ
ていなければ０とされる。より高度化されたドキュメン
ト・ベクトル・モデルでは、タイトル、セクションヘッ
ダ、要約における出現回数および位置といったキーワー
ドに対する重み付けが考慮される。

【０００７】クエリーはまた、ドキュメントについて説
明したと同一の方法により、ベクトルとしてモデル化さ
れる。所定のユーザ入力クエリーに対して、特定のドキ
ュメントの類似度は、クエリーと、ドキュメント・ベク
トルとのそれぞれの間の“距離”を決定することにより
算出される。数多くの異なったノルムをクエリー・ベク
トルとドキュメント・ベクトルとの間の“距離”計算す
るために用いることができるが、内積から得られるクエ
リー・ベクトルとドキュメント・ベクトルとの間の角度
が、これらの間の距離を決定するため、最も普通に用い
られるものである。

【０００８】Deerwester等に付与された米国特許第４，
８３９，８５３号、名称“ラテント・セマンティック構
造を用いたコンピュータ情報検索（Computer informati
on retrieval using latent semantic structure）”、
およびDeerwester等、“ラテント・セマンティック・ア
ナリシスによるインデキシング（Indexing by latentse
mantic analysis）”, Journal of American Society f
or Information Science, Vol. 41, No. 6, 1990, pp.
391-407においては、データベースからドキュメントを
検索するためのユニークな方法が開示されている。開示
された手順は、おおよそ以下のようなものである。

【０００９】ステップ１：ドキュメントおよびそれらの
アトリビュートのベクトル空間モデル化ラテント・セマンティック・インデキシング（ＬＳＩ）
においては、ドキュメントは、Saltonのベクトル空間モ
デルと同一の方法においてベクトル化されることによ
り、モデル化される。ＬＳＩ法においては、クエリーと
データベースのドキュメントとの間の関係は、要素がmn
(i, j)により表されるｍ×ｎ行列ＭＮすなわち、

【００１０】

【数７】により表される。ここで、行列ＭＮの列は、データベー
スにおけるドキュメントそれぞれを表すベクトルであ
る。

【００１１】ステップ２：特異値分解によるランク付け
問題の次元削減ＬＳＩ法の次のステップでは、特異値分解、すなわち行
列ＭＮのＳＶＤ（Singular Value Decomposition）を実
行する。行列ＭＮの次元は、特異値を大きい順に並べた
ときの１番目からｋ番目までの特異値σ_ｉ、ｉ＝１，
２，３，．．．，ｋを用いて行列を形成することにより
削減され、これらの対応する特異ベクトルは、下記式か
ら得られる。

【００１２】

【数８】上式中、Σ_ｋは、σ_１，σ_２，σ_３，．．．，σ_ｋであ
る対角要素が単調に減少する、対角行列である。行列Ｕ
_ｋおよびＶ_ｋは、行列ＭＮの大きい方からｋ番目までの
特異値に対応する右側と左側の特異ベクトルの列を含む
行列である。

【００１３】ステップ３：クエリー処理ＬＳＩ法に基づいた情報検索におけるクエリーの処理
は、さらに２つのステップ、（１）クエリー射影ステッ
プおよびそれに続いた（２）適合化ステップを含む。ク
エリー射影ステップでは、入力されたクエリーは、行列
Ｖ_ｋにより次元が削減されたクエリー−ドキュメント空
間における擬ドキュメントへとマップされ、その後特異
値σ_ｉにより重み付けされる。

【００１４】DeerwesterらのＬＳＩ法は、従来のベクト
ル空間モデルでは互いに検索されなかった類似するキー
ワード（例えば、“ムーン”、“ルナー”といった類義
語の検索および同定を可能とすると共に、キーワードの
意味づけの分析に基づいたクエリーに対するドキュメン
トの実時間検索を可能とし、許容される計算時間を可能
とする。DeerwesterらのＬＳＩ法はまた、同一のスペリ
ングを有しているが異なった意味を有する場合といっ
た、いわゆる“ポリセミー”の問題を解決し、かつこの
情報を検索の精度を向上させるために使用する。彼らの
技術的なアイデアは、線形代数、具体的にはいかなる所
定のサイズの矩形行列についての特異値分解(Singular
Value Decomposition:SVD)を使用するものである。この
特異値分解定理について図１にまとめて示す。また、特
異値分解法のための３つの方法を概略的に図２〜図４に
示す。

【００１５】上述した特異値分解定理は、特異値分解法
が行列Ａが正方行列である場合であっても実行すること
ができる点で効果的である。特に行列Ａが実対称半正定
値行列である場合には、行列Ａは、下記式のように変換
できる。

【００１６】

【数９】

【００１７】上記式中、Ｓは、対角要素が特異値とされ
た対角化行列であり、上付きの文字“Ｔ”は、対応する
行列の転置を示す。特異値分解の別の重要な特性は、図
２〜図４に示した行列ＵとＶとが、直交行列なので、適
切な次元のいかなるベクトルｘ，ｙでもノルムが保持で
きる、すなわち|ｘ|_２＝Ｕ|ｘ|_２および|ｙ|_２＝Ｕ|ｙ|
_２となるということにある。この特異値分解の本質的な
点は、図２〜図４に示すＳにより示される対角行列にあ
る。この対角行列Ｓは、特異値である実数の対角要素を
含んでおり、これらの特異値は、最大の特異値から降順
で配列されている。

【００１８】上述した特性を使用して、ドキュメント行
列の次元削減が実行され、所定の数ｋの特異値が、最大
の特異値から降順に選択され（通常では、ｋは、行列A
のランクよりも遙かに小さい。）、行列Ａを代表する対
角行列が生成される。この次元削減方法は、概ね大きな
特異値およびそれに対応する特異ベクトルに対応するド
キュメントについては充分な結果を与える（Michael W.
Berry, Susan T. Dumais, and Gavin W. O’ Brien,
“Using Linear Algebra for Intelligent Information
Retrieval”, SIAM Review, vol. 37, No. 4, pp. 573
-595, 1995)。

【００１９】小林らは、共分散行列を使用するドキュメ
ント行列の次元を減少させるための別の効果的な方法を
提案し出願を行っており、この方法を以下ＣＯＶ法とい
う。この方法は、概ね下記のように説明することができ
る。

【００２０】ステップ１：ドキュメントから上述したよ
うにしてドキュメント行列を生成する。その後所定のＭ
×Ｎのドキュメント行列について、下記式に従って、共
分散行列を算出する。

【００２１】

【数１０】上式中、Ｋは、共分散行列を表し、ｄ_ｉ、^ｂａｒｄ、
^ｂａｒｄ_ｉは、ドキュメント行列の要素ａ_ｉ，ｊを使用
して下記のように定義される。

【００２２】

【数１１】

【００２３】ステップ２：次いで、ＣＯＶ法において
は、共分散行列の特異値ベクトルを算出する。共分散行
列の特異値の算出は、Hausholder法、Lanczos法、また
はニューラル・ネットワーク法といった当業界において
周知の方法を使用して行うことができる。

【００２４】ステップ３：さらにこの次に、ＣＯＶプロ
セスは、上述した行列Ｖに、上述した最大からｋ個の特
異値ベクトルを含むようにして所望する次元がkとなる
ように、所定の数の特異値ベクトルを使用して共分散行
列の次元削減を行う。その後、Ｍ×Ｎドキュメント行列
の次元を、次元が削減された共分散行列を使用して削減
し、データベース内に記録されたドキュメントの検索、
検出、および同定を実行する。

【００２５】上述した方法は、ＣＯＶ法において検索さ
れた結果の別の用途を与えるというＬＳＩ法に対して改
善された結果を与えるが、共にデータベース中のドキュ
メントの検索および検出を行うために有効である。しか
しながら、両方法は、上述したように次元減少プロセス
を含んでおり、このため大規模データベースにおけるド
キュメントの検索、検出、および同定においては本質的
な不都合が生じる。

【００２６】図５は、データベースから導かれるドキュ
メント空間の概略構成を示した図である。ドキュメント
空間は、概ね主要（顕著）クラスタと、ミーディアム・
クラスタと、アウトライア・クラスタと、ドキュメント
内のキーワードの存在に関連してマッチング無しクラス
タへと分類することができる。本明細書における用語、
“主要クラスタ”とは、データベース内における全体の
ドキュメントの５％以上を占めるドキュメントを含むク
ラスタを意味する。本明細書における“ミーディアム・
クラスタ”とは、データベース内において全体のドキュ
メントの概ね４％〜５％を占めるドキュメントを含むク
ラスタを意味する。本明細書における“アウトライア・
クラスタ”とは、データベース内において全体のドキュ
メントの概ね３％〜４％を占めるドキュメントを含むク
ラスタを意味する。ドキュメント行列に対して次元減少
が実行された場合には、通常では最大の特異値ベクトル
または固有値ベクトルから、いくつかの固有値ベクトル
または特異値ベクトルを考慮してクラスタの検索、検
出、および同定の効率および精度を向上させるために次
元の低減されたドキュメント行列を生成する。

【００２７】このため、多くの場合では、アウトライア
・クラスタは、次元の低減された行列では排除されてし
まい、アウトライア・クラスタの上述したドキュメント
は検索、検出、および同定ができないことになる。当然
ながら、データベースの種類によっては上述したアウト
ライア・クラスタがドキュメントの検索において効果的
に廃棄されることが好ましいものの、アウトライア・ク
ラスタ内のドキュメントは、例えば新製品に関する問い
合わせの情報を含むデータベースや、新製品の発売、ま
たは世界のどこかで発生した大地震といったように特定
の時点で発生した後の時間経過で次第に蓄積される情報
を含むような特定のデータベースでは、廃棄されるべき
ではない。上述したようなデータベースに含まれるドキ
ュメントの検索では、アウトライア・クラスタは、上述
した次元削減プロセスにおいて廃棄されないことが好ま
しい。

【００２８】アウトライア・クラスタをドキュメント行
列Ａの次元削減プロセスにおいて保持するいくつかの試
みが提案されている。Ａｎｄｏは、”Latent Semantic
Space: interactive scaling improves precision of i
nter-document similarity measurement”, Proc. SIGI
R 2000, pp. 216-223において、ドキュメント空間の次
元を低下させる場合に、アウトライア・クラスタが廃棄
されないように救済する方法を開示している。Ａｎｄｏ
のアルゴリズムは、擬似コードでは、図６のように説明
することができる。

【００２９】図６に示されるように、開示されたＡｎｄ
ｏの方法は、まず、Ｍ×Ｎ行列として残差行列Ｒを定義
する。ついで、このプロセスにおいては、残差ベクトル
ｒ_ｉのノルム｜ｒ_ｉ｜のｑ乗を乗じて残差行列Ｒをスケ
ーリングし、スケーリングされた残差行列Ｒ_ｓ（以下、
本明細書においてはスケールド残差行列という。）を生
成し、その後行列の積Ｒ_ｓ ^ＴＲ_ｓの固有値ベクトルｂ_ｉ
を算出する。さらにその後、Ａｎｄｏのプロセスは、算
出された固有ベクトルｂ_ｉを使用して行列Ｒを再構築す
る。

【００３０】上述したプロセスの後、元々Ｎ次元であっ
たドキュメント・ベクトルｄ_ｉは、上述した図６に示し
たプロセスにより得られたこの基底ベクトルを使用する
ｋ次元へと低下された^ｈａｔｄ_ｉにより、下記式により
近似される。

【００３１】

【数１２】

【００３２】図６に示した擬似コードにより示されるＡ
ｎｄｏの方法は、スケーリング・ファクタとして定数を
使用しており、ノルム｜ｒ_ｉ｜のスケーリング・ファク
タの累乗がそれぞれ対応する残差ベクトルｒ_ｉに乗じら
れることとなる。Ａｎｄｏの方法は、スケーリング・フ
ァクタｑが数値１よりも大きい場合には多くの場合に重
大な問題を生じさせる。すなわち、ｑ＞１の場合には、
基底ベクトルを決定する計算のための繰り返しサイクル
が進行するにつれて、１よりも小さな残差行列の要素
は、ますます小さくなり、１よりも大きな残差行列の要
素はますます大きくなることである。

【００３３】Ａｎｄｏの方法は、アウトライア・クラス
タのうち小さなものを、次元削減プロセスにおいて廃棄
してしまうという別の問題を生じさせることにもなる。
本発明者らは、実験的にＡｎｄｏの方法はらさに、もと
もと１よりも小さなノルムのベクトルを数値計算の計算
限界内としてしまって縮退させ、消滅させてしまうとい
う重大な問題を生じさせてしまい、図６に示したステッ
プ２の計算を実行不可能としてしまうことを見出した。

【００３４】加えて、従来の方法は著しく大きなメモリ
資源を必要とするとともに、きわめて高いＣＰＵ性能を
要求し、ときとして残差行列を得るためのループが、上
述した残差行列を固有値計算ができないような行列へと
変貌させてしまうこととなる。上述した問題に加え、例
えば１００万の実際のドキュメントが含まれ、キーワー
ドが数万というきわめて大きなデータベースの固有値計
算についてみれば、従来の計算方法では、汎用目的のコ
ンピュータを使用して実質的に不可能となってしまうこ
とになる。

【００３５】したがって、これまで主要クラスタ、ミー
ディアム・クラスタ、アウトライア・クラスタを廃棄す
ることなく、きわめて大きなデータベースにおいてドキ
ュメントを検索、検出、および同定するための方法、コ
ンピュータ・システム、プログラムおよびサーバが必要
とされている。

【００３６】また、いかなる所定のドキュメント行列に
おいても計算機上の問題を生じさせずにきわめて大きな
データベースにおけるドキュメントの検索、検出、およ
び同定を行うための方法、コンピュータ・システム、プ
ログラムおよびサーバが必要とされている。

【００３７】さらに、主要（顕著）クラスタに含まれる
サブクラスタよりもアウトライア・クラスタまたは複数
のアウトライア・クラスタに対して鋭敏で、きわめて大
きなデータベースにおけるドキュメントの検索、検出お
よび同定を行うための方法、コンピュータ・システム、
プログラム、およびサーバが必要とされている。

【００３８】さらにまた、許容可能な計算時間および計
算機資源の下できわめて大きなデータベースに含まれる
ドキュメントの検索、検出、および同定を行うための方
法、コンピュータ・システム、プログラム、およびサー
バが必要とされている。

【００３９】

【課題を解決するための手段】本発明は、上述したパラ
メータｑは、残差ベクトルのノルムを考慮して決定され
るべきであり、その結果として特異値分解プロセスの繰
り返しサイクルによる残差ベクトルの縮退を生じ無くさ
せることができるという認識の下になされたものであ
る。

【００４０】本発明のプロセスは、まずベクトル空間モ
デルに従ってドキュメントを含むきわめて大きなデータ
ベースからＭ×Ｎの形態のドキュメント行列を形成す
る。特異値分解法における繰り返しにおいて、初期残差
行列Ｒとしてドキュメント−キーワード行列Ａを選択す
る。生成された残差行列Ｒは、適切に下記式により表さ
れる。

【００４１】

【数１３】上式中、ｒ_ｉ（ｉは、ドキュメントの数Ｍ以下の整数で
ある。）を、以後トップからｉ番目の残差ベクトルとし
て定義し、Ｔを、その転置を意味するものとする。

【００４２】本発明においては、残差行列はさらにスケ
ーリング関数ｆｕｎｃによりスケーリングされ、このス
ケーリングは、下記式により定式化できる。

【００４３】

【数１４】

【００４４】次いで、スケールド残差行列Ｒ_ｓについ
て、特異値分解を計算して最大の特異値ベクトルｂ_１を
得る。ついで、残差行列Ｒを下記式

【００４５】

【数１５】に従って再構築する。

【００４６】再構築された残差行列Ｒは、ドキュメント
行列Ａからの以前の最も大きな特異値ベクトルを含んで
おらず、このため次の残差行列Ｒの最も大きな特異値ベ
クトルは、その方向を変化させ、アウトライア・クラス
タの方へと向けられることになり、アウトライア・クラ
スタの検索、検出、および同定を改善することが可能と
なる。加えて、スケーリング関数ｆｕｎｃは、残差ベク
トルの最大ノルムに依存し、スケーリング関数がアウタ
ライア・クラスタの縮退を生じさせないように調整され
る。トップからｉ番目の特異値ベクトルが計算における
重大な誤りを生じさせること無く導かれ、アウトライア
・クラスタのドキュメント・ベクトルへとより近接する
ので、アウトライア・クラスタの検索、検出、および同
定が相乗的に改善されることになる。

【００４７】すなわち、本発明によれば、データベース
においてドキュメントを検索、検出、および同定するた
めの方法であって、前記データベース内の前記ドキュメ
ントが、該ドキュメントに含まれるアトリビュートから
ドキュメント行列として構成され、前記方法は、少なく
とも１つのアトリビュートを使用して前記ドキュメント
から前記ドキュメント行列を生成するステップと、所定
の関数から前記ドキュメント行列に基づいてスケールさ
れた残差行列を生成するステップと、特異値分解を実行
して最大の特異値に対応する基底ベクトルを得るステッ
プと、前記残差行列を再構築し、前記再構築された残差
行列を動的にスケーリングして別の基底ベクトルを得る
ステップと、前記特異値分解ステップから前記再構築ス
テップまでを繰り返して所定の基底ベクトルのセットを
生成するステップと、前記ドキュメント行列の次元減少
を実行して、前記データベース内の前記ドキュメントの
検出、検索および同定を行うステップとを含む方法が提
供できる。前記スケールされた残差行列は、下記式

【００４８】

【数１６】（上式中、Ｒ_ｓは、スケールされた残差行列であり、ｒ
_ｉ（ｉは、ドキュメントの数Ｍ以下の整数である。）
は、残差ベクトルであり、｜ｒ_ｉ｜は、前記残差ベクト
ルのノルムであり、Ｔは、ベクトルに対して施される転
置演算子であり、ｑは、前記所定の関数により動的に決
定されるスケーリング・ファクタである。）により生成
される。前記特異値分解は、ユーザにより潜在的意味解
析法と共分散マトリックス法とから択一的に選択され
る。

【００４９】本発明においては、前記所定の関数は、前
記残差ベクトルの最大ノルムの関数であり、下記式

【００５０】

【数１７】（上式中、ｐは正の整数であり、ｔ_ｍａｘは、前記残差
ベクトルの最大ノルムである。）により与えられる。本
発明の方法は、方法は、さらに、前記残差行列の再構築
前に前記基底ベクトルを算出された基底ベクトルに対し
て直交化するステップを含む。前記スケーリング・ステ
ップは、前記基底ベクトルを得る各ステップごとに、異
なるスケーリング・ファクタを使用する。前記ドキュメ
ント行列は、前記アトリビュートに関連する複数のクラ
スタを含んでおり、前記クラスタは、少なくとも主要ク
ラスタとアウトライア・クラスタとに分類される。

【００５１】また、本発明の第２の構成においては、デ
ータベースにおいてドキュメントを検索、検出、および
同定するためのコンピュータ・システムであって、前記
データベース内の前記ドキュメントが、該ドキュメント
に含まれるアトリビュートからドキュメント行列として
構成され、前記コンピュータ・システムは、少なくとも
１つのアトリビュートを使用して前記ドキュメントから
前記ドキュメント行列を生成する手段と、所定の関数か
ら前記ドキュメント行列に基づいてスケールされた残差
行列を生成する手段と、特異値分解を実行して最大の特
異値に対応する基底ベクトルを得るステップと、前記残
差行列を再構築し、前記再構築された残差行列を動的に
スケーリングして別の基底ベクトルを得る手段と、前記
特異値分解ステップから前記再構築ステップまでを繰り
返して所定の基底ベクトルのセットを生成する手段と、
前記ドキュメント行列の次元削減を実行して、前記デー
タベース内の前記ドキュメントの検出、検索および同定
を行う手段とを含むコンピュータ・システムが提供され
る。

【００５２】本発明の第３の構成によれば、データベー
スにおいてドキュメントを検索、検出、および同定する
方法を実行するためのコンピュータ・プログラムであっ
て、前記データベース内の前記ドキュメントが、該ドキ
ュメントに含まれるアトリビュートからドキュメント行
列として構成され、前記コンピュータ・プログラムはコ
ンピュータに、少なくとも１つのアトリビュートを使用
して前記ドキュメントから前記ドキュメント行列を生成
するステップと、所定の関数から前記ドキュメント行列
に基づいてスケールされた残差行列を生成するステップ
と、特異値分解を実行して最大の特異値に対応する基底
ベクトルを得るステップと、前記残差行列を再構築し、
前記再構築された残差行列を動的にスケーリングして別
の基底ベクトルを得るステップと、前記特異値分解ステ
ップから前記再構築ステップまでを繰り返して所定の基
底ベクトルのセットを生成するステップと、前記ドキュ
メント行列の次元削減を実行して、前記データベース内
の前記ドキュメントの検出、検索および同定を行うステ
ップとを実行させる、コンピュータ・プログラムが提供
される。

【００５３】本発明の第４の構成によれば、データベー
スにおいてドキュメントを検索、検出、および同定する
ためのサーバであって、前記データベース内の前記ドキ
ュメントが、該ドキュメントに含まれるアトリビュート
からドキュメント行列として構成され、ネットワークを
通してクライアントと通信するサーバであって、前記サ
ーバは、前記ネットワークを通して検索、検出および同
定のためのリクエストを受信する手段と、前記クライア
ントから特異値分解のための方法を選択する別のリクエ
ストを受信する手段と、少なくとも１つのアトリビュー
トを使用して前記ドキュメントから前記ドキュメント行
列を生成する手段と、所定の関数から前記ドキュメント
行列に基づいてスケールされた残差行列を生成する手段
と、前記別のリクエストに応じて特異値分解を実行して
最大の特異値に対応する基底ベクトルを得る手段と、前
記残差行列を再構築し、前記再構築された残差行列を動
的にスケーリングして別の基底ベクトルを得る手段と、
前記特異値分解ステップから前記再構築ステップまでを
繰り返して所定の基底ベクトルのセットを生成する手段
と、前記ドキュメント行列の次元削減を実行して、前記
データベース内の前記ドキュメントの検出、検索および
同定を行う手段と、前記検索、同定および前記同定のう
ちの少なくとも１つの結果を前記クライアントに戻すた
めの手段とを含むサーバが提供できる。

【００５４】

【発明の実施の形態】以下、本発明を図面に示した態様
をもって説明するが、本発明は、後述する実施の態様に
制限されるものではない。

【００５５】図７は、本発明の方法を実行するためのコ
ンピュータ・システムを示した図である。図７に示した
コンピュータ・システム１０は、概ねコンピュータ１２
と、記憶デバイス１４と、キーボードといった入力デバ
イス１６と、マウスといったポインティング・デバイス
１８とを含んで構成されている。コンピュータ１２は、
中央処理ユニット（図示せず）と、ＲＡＭ、またはＲＯ
Ｍ、またはそれらの両方を含んでいて、本発明の方法を
実行させる構成とされている。図７に示された記憶デバ
イス１４は、コンピュータ１２の外部に接続されている
のが示されているが、記憶デバイス１４は、必要とされ
る記憶容量が保証される限り、ハード−ディスクといっ
た形態においてコンピュータ１２の内部に含まれていて
もよい。

【００５６】記憶デバイス１４は、検索される、または
検出または同定されるドキュメントを保持しており、記
憶手段１４内のドキュメントは、当業界においてよく知
られている適切なデータベース・ソフトウエアによりフ
ォーマットすることができる。ドキュメント行列は、ド
キュメントに含まれるアトリビュートを使用してバイナ
リ・モデルから生成され、コンピュータ・システム１０
に含まれる適切な記憶領域に記憶されている。本発明に
おいては、検索されるドキュメントとしては、テキスト
・ドキュメント、オーディオ・ファイル、イメージ・フ
ァイル、マルチメディア・ファイル、ビデオ・ファイ
ル、ウエッブ・ページ、時間依存の検索および検出を行
うためタイム・スタンプを含むいかなるドキュメントを
挙げることができる。

【００５７】コンピュータとしては、ＰＥＮＴＩＵＭシ
リーズ（ＩＮＴＥＬ・コーポレーションの商標）といっ
たＣＰＵ、および／またはこれと互換性のあるＣＰＵを
搭載したパーソナル・コンピュータおよび／またはＰＯ
ＷＥＲＰＣを搭載するＲＳ−６０００（インターナシ
ョナル・ビジネスマシーンズ・コーポレーションの商
標）といったワークステーションおよび／またはこれに
互換性のあるワークステーションであって、ＷＩＮＤＯ
ＷＳ／ＭＥ（マイクロソフト・コーポレーションの商
標）、ＷＩＮＤＯＷＳ２０００（マイクロソフト・コ
ーポレーションの商標）、ＷＩＮＤＯＷＳＮＴ（マイ
クロソフト・コーポレーションの商標）、ＯＳ／２（イ
ンターナショナル・ビジネスマシーンズ・コーポレーシ
ョンの商標）、ＭＡＣＯＳ（アップル・コンピュータ
コーポレーションの商標）を実行させることができるも
のを挙げることができるが、本発明においてはこれらに
限定されるものではなく、いかなるコンピュータまたは
ワークステーションであっても用いることができる。本
発明においては、本発明のコンピュータ・システム１０
のユーザは、キーボード１６および／またはマウス１８
により、コンピュータ・システム１０に対して自分でク
エリーを入力することもできる。しかしながらクエリー
入力の際のユーザ−コンピュータのインタフェイスは、
上述したものに限定されず、クエリーをユーザが入力す
ることができる、ペン、スタイラス、ジョイスティック
といったデバイスなど、いかなる入力デバイスでも用い
ることができる。

【００５８】ユーザからのリクエストを受け取ると、コ
ンピュータ・システム１０は、ユーザのリクエストに応
じて潜在的意味解析法：ラテント・セマンティック・イ
ンデキシング法（ＬＳＩ法）と共分散マトリックス法
（ＣＯＶ法）との間において特異値分解プロセスを切り
替えることができるように構成されていて、計算時間、
システム資源、コンピュータ・システムのユーザにより
要求される別の条件に応じて、ユーザが希望する計算方
法が、システムにより提供されるようにされている。

【００５９】図８は、本発明のコンピュータ・システム
２２の別の実施の形態を示した図である。図８に示され
るように、本発明のコンピュータ・システム２２は、サ
ーバ・コンピュータ２４と、クライアント・コンピュー
タ２６との間においてトランザクションを可能とするネ
ットワーク・システムとして構成することもできる。サ
ーバ・コンピュータ２４は、ネットワーク２８を通して
クライアント・コンピュータ２６と通信し、クライアン
トまたは複数のクライアント２６は、サーバ・コンピュ
ータ２４に接続された記憶デバイス３０に保持されたド
キュメントを検索、検出および同定することができる構
成とされている。このサーバ・コンピュータ２４には、
本発明の方法を実行するためのプログラムが搭載されて
いて、検索、検出、および同定の結果は、インターネッ
ト・インフラベースといったネットワーク２８を通し
て、クライアント・コンピュータ２６の要求に応じてク
ライアント・コンピュータ２６へと通信される。本発明
において使用することができるネットワーク２８として
は、これに限定されるものではなく、ＴＣＰ／ＩＰとい
ったプロトコル、またはいかなる他の好適なプロトコル
を使用するローカル・エリア・ネットワーク／ワイド・
エリア・ネットワーク（ＬＡＮ／ＷＡＮ）および例え
ば、光通信、衛星通信、地上波通信など、いかなる別の
ネットワークであっても用いることができる。

【００６０】図９は、コンピュータ・システム１０また
はサーバ・コンピュータ２４により実行される本発明の
方法の概略フローチャートを示す。本発明のプロセス
は、ステップＳ１から開始し、ステップＳ２へと進んで
Ｍ×Ｎのドキュメント行列Ａをベクトル空間モデルに従
って生成する。本発明においては、バイナリ・ベクトル
空間モデルと共にアトリビュートの頻度に応じた重み係
数を使用して、結果の精度を向上させることもできる。
ここで、Ｍは、データベースに保持されているドキュメ
ントの数を表し、Ｎは、システムまたはユーザ入力によ
り予め選択された検索、検出および同定のために使用さ
れるアトリビュートの数を表す。

【００６１】次いで、このプロセスは、ステップＳ３へ
と進んでデータベース中のドキュメントを均等に処理す
るためにドキュメント行列Ａの正規化を、例えばそれぞ
れのドキュメント・ベクトルのノルムを１とすることに
より実行する。次いで、プロセスは、ステップＳ４へと
進んで残差行列を定義する。残差行列の初期行列は、ド
キュメント行列Ａとされるので、ドキュメント行列Ａの
最大の特異値ベクトルは、後続する繰り返しにおいて取
り除かれると共に決定することができる。

【００６２】さらにその後、プロセスは、ステップＳ５
へと進んで、残差ベクトルの最大のノルムのもの、ｔ
_ｍａｘを使用して残差行列ｒ_ｉについてスケーリング・
ファクタｑを算出する。スケーリング・ファクタｑは、
ｉ−番目の基底ベクトルを得るための繰り返しサイクル
が繰り返されるたびごとに決定され、所定の関数により
与えられる。スケーリングのための関数（以下、スケー
リング関数という。）については、詳細に後述する。残
差行列および残差ベクトルは、下記式で定義される。

【００６３】

【数１８】

【００６４】上式中、Ｒは、残差行列であり、ｒ_ｉは、
ｉ−番目の残差ベクトルであり、“Ｔ”は、その転置を
表す。スケーリング・ファクタｑは、上述した残差ベク
トルｒｉへと結合されて、下記式によりスケールされた
残差行列を生成する。

【００６５】

【数１９】

【００６６】図９を参照して、本発明のプロセスはさら
にステップＳ６へと進んで、スケールド残差行列Ｒ_ｓに
ついて特異値分解計算を行ない、対象とされている残差
行列Ｒ_ｓの最大特異値を決定すると共に、対応する特異
値ベクトルｂ_１を決定する。本発明においては、特異値
分解の手順は、ステップＳ６に示されているようにＬＳ
Ｉ法またはＣＯＶ法の間においてユーザ選択に基づいて
選択することができる。本発明においてｉ番目の特異値
ベクトルには、さらに修正型Gram-Schmidt直交化(Golu
b, G. and Van Loan, C., Matrix Computation, third
ed., Johns Hopkins Univ. Press Baltimore, MD, 198
3)が実行され、精度が改善される。

【００６７】さらにこの後、プロセスは、次元削減に使
用される基底ベクトルｂ_ｉを、適切なメモリ手段へと出
力し、次元削減のための基底ベクトルのセットが、繰り
返しサイクルの後に与えられることになる。プロセスは
さらにステップＳ９において整数ｉがｋ以下であるか否
かを判断する。ｉがｋ以下である場合には（ｎｏ）、残
差行列ＲをステップＳ１０において再構築する。ｉがｋ
よりも大きい場合には（ｙｅｓ）、プロセスはステップ
Ｓ１１へと進んで終了する。

【００６８】ステップＳ４〜Ｓ１０の繰り返しは、ｉが
ｋより大きくなり、ドキュメント行列Ａのための次元削
減のｋ個の基底ベクトル｛b_1,b_{2, …,}b_k｝が図９に示
したプロセスにおいて生成される。

【００６９】図１０は、図９のステップＳ４−ステップ
Ｓ１０の詳細な擬似コードの実施の形態を示した図であ
る。ここでは、ユーザは、特異値分解法のためにＬＳＩ
法を選択している。図１０に示されるように、プロセス
は、まず残差行列Ｒを、図９に示すようにＭ×Ｎのドキ
ュメント行列Ａへと初期化し、かつドキュメント行列Ａ
の次元を低下するための整数ｋを決定する。ドキュメン
ト行列Ａについて正規化ステップを導入し、ドキュメン
ト・ベクトルが均等に処理できるようにすることも可能
である。

【００７０】次いでこのプロセスは、残差行列Ｒの残差
ベクトルｒ_ｉのノルムを計算し、その後スケーリング・
ファクタｑが、残差ベクトルの最大ノルムを与える所定
の関数ｔ_ｍａｘを使用して以下のように決定される。

【００７１】

【数２０】

【００７２】本発明の手順においては、ｔ_ｍａｘの値を
使用してスケーリング・ファクタｑを決定する。これは
我々本発明者らが、実験的にスケーリング・ファクタが
アウトライア・クラスタについての従来の検索および検
出において発生する問題を生じさせており、そのため最
大ノルムが適切に調節されるべきであることを見出した
ことに基づくものである。

【００７３】さらに、次いでプロセスは、Ｍ×Ｎ形式の
スケールド残差行列Ｒ_ｓを下記式により生成する。

【００７４】

【数２１】

【００７５】説明している実施の形態においては、スケ
ーリング・ファクタｑおよび最大ノルムの残差ベクトル
ｒ_ｍａｘは倍精度変数とされているが、これに限られる
ことなく、必要とされる検索および検出の精度が得られ
る限り、いかなる精度レベルでも用いることができる。

【００７６】その後、プロセスは、スケールド残差行列
Ｒ_ｓに対して特異値分解を実行して、ベクトルＶ^Ｔの第
１行として基底ベクトルｂ_ｉを得る。説明している擬似
コードにおいては、基底ベクトルには、さらに修正型Gr
am-Schmidt直交化（ＭＧＳ）が適用されて精度が向上さ
れているが、これに限定されず、いかなる直交化法であ
っても用いることができるし、上述した直交化は、直交
性が担保できる限りにおいてはプロセスに含まれなくと
もよい。

【００７７】プロセスは、さらに算出された基底ベクト
ルｂ_ｉから下記式に従って残差ベクトルＲの再構築を行
う。

【００７８】

【数２２】

【００７９】図１１は、本発明による可変スケーリング
・ファクタｑの機能をグラフ的に表現した図である。本
発明におけるスケーリング法を図１１（ａ）に示し、従
来のスケーリング法を図１１（ｂ）に示す。

【００８０】図１１（ａ）に示されるように本発明は、
残差ベクトルの最大ノルムｔ_ｍａｘに依存させて動的に
スケーリング・ファクタｑを変更させるものである。ス
ケーリング・ファクタｑを調節することで、各繰り返し
サイクルごとに残差ベクトルのノルムの過剰な低減が避
けられるので、上述した変更は、最初に見出されたアウ
トライア・クラスタ以外のアウトライア・クラスタのベ
クトルが縮退してしまうのを、図１１（ａ）に示すよう
に防止することになる。本発明の特定の実施の形態にお
いては、スケーリング・ファクタｑは、ｔ_ｍａｘに依存
する下記関数“ｆｕｎｃ”により決定される。

【００８１】

【数２３】上式中、ｐは、整数であり、好ましい実施の形態におい
ては、１を選択することが好ましい。

【００８２】上記式に示されるように、ｔ_ｍａｘが１よ
りも大きい場合には、スケーリング・ファクタｑは、１
／ｔ_ｍａｘに設定され、ｔ_ｍａｘが略１の場合には、ス
ケーリング・ファクタｑは、ｐ＋ｔ_ｍａｘに設定され、
ｔ_ｍａｘが１よりも小さい場合には、スケーリング・フ
ァクタｑは、１／（１０^{２−ｔｍａｘ}）に設定される。
本発明のスケーリング・ファクタｑは、残差行列のスケ
ーリング・ファクタを制御し、基底ベクトルが最大の残
差ベクトルに著しく影響されないようにしつつ、スケー
リングの効果を適切に保証するものであるが、本発明に
おいてはこれに制限されず、スケーリング・ファクタｑ
は、上述したスケーリング関数ｆｕｎｃ以外にもスケー
リング・ファクタｑが基底ベクトルの決定に関する繰り
返しサイクルのそれぞれにおいて変更されるものである
限り、いかなる関係に基づいても選択することができ
る。

【００８３】一方で、図１１（ｂ）に示すように、残差
ベクトルの従来のスケーリングにおいては、各残差ベク
トルおよび各繰り返しサイクルごとに定数のスケーリン
グ・ファクタが使用され、ノルムが１以下の残差ベクト
ルと、１よりも大きい整数ｑとが共に適用された場合に
は、ノルムが１未満の残差ベクトルは、ｋ個の基底ベク
トルを算出する繰り返しサイクルの繰り返しに関連して
小さくなり続け、図１１（ｂ）に示すようにノイズレベ
ルの近傍で残差ベクトルが縮退してしまうことになる。

【００８４】上述した実施の形態においては、ｔ_ｍａｘ
が略１であるという条件は、本発明においては下記式で
定義される。

【００８５】

【数２４】 εの値は、特定の用途に応じて選択することができ、典
型的には略０．０１に選択される。しかしながら、εの
値が大きくなるとスケーリングは、従来の方法に近づい
て行くこととなる。

【００８６】さらなる本発明の効果は、次元削減のため
の基底ベクトルの算出方法の差に基づいて得られる。従
来の方法においては、固有ベクトルは、直接Ｒ_ｓ ^ＴＲ_ｓ
から算出されている。従来の方法とは対照的に、本発明
の方法では、特異値分解を使用し、最大の特異値ベクト
ルに対応する右特異値ベクトルのみを算出する。

【００８７】したがって、本発明の方法は、ＣＰＵ性
能、メモリ資源といったコンピュータ資源を節約しつ
つ、アウトライア・クラスタの検索の精度を保証するこ
とに加え、高速、かつ実時間検索、または検出、または
それら双方を提供することができる。

【００８８】図１２は、特異値分解法の実行のために、
ＣＯＶ法を使用する別の実施の形態を示した図である。
それ以外の手順については図１０において説明した実施
例と同一なので、ＣＯＶ法以外については、本明細書に
おいては説明しない。上述したようにスケールド残差行
列が計算された後、共分散行列Ｋが、下記のようにして
生成される。

【００８９】

【数２５】上式中、ｄ_ｉ、^ｂａｒｄ、^ｂａｒｄ_ｉは、下記のように
定義される。

【００９０】

【数２６】

【００９１】その後、生成された共分散行列の特異値分
解を計算して、ドキュメント行列Ａの次元削減のための
基底ベクトルを決定する。本発明者らは、以前にドキュ
メント行列の共分散ベクトルの主要な特異値ベクトル
は、実質的にドキュメント行列の特異値ベクトルと同一
の方向を有していることを見出し、ＣＯＶ法がきわめて
大きなデータベースをモデルとするドキュメント行列の
次元削減に特に有効であることを見出している。上述し
た別の実施の形態において、共分散行列は稠密な行列と
なるが、共分散行列Ｋは、Ｎ×Ｎの正方行列となり、ド
キュメント数Ｍが多いので、アトリビュートの数が典型
的にはドキュメント数よりも２桁少なく、特異値分解計
算が、著しく短時間で実行できることになる。

【００９２】図１２の手順は、図１０において説明した
ようにさらに残差行列Ｒの再構築および繰り返しサイク
ルへと進んで、ｋ個の基底ベクトルの決定されるまで繰
り返されることになる。

【００９３】以下に、本発明を特定の実施例を持って説
明するが、実施例は、本発明を制限するものではなく、
本発明を説明するためだけに与えられるものである。

【００９４】

【実施例】１４０ドキュメントおよび４０キーワード・
セットを含むサンプル・データベースを構成したドキュ
メントおよびキーワードは、以下のものとした。

【００９５】＜１４０ドキュメントの内容＞ (1)キーワード“クリントン”に関連するドキュメント 25ドキュメント “クリントン”＋“アル・ゴア”のみを含むドキュメント 10ドキュメント “クリントン”＋“ヒラリー”のみを含むドキュメント 5ドキュメント “クリントン”＋“アル・ゴア”＋“ヒラリー”のすべてを含むドキュメント 10ドキュメント（ドキュメントＮｏ．１〜２５）

【００９６】 (2)キーワード“Ｊａｖａ”に関連するドキュメント 25ドキュメント “Ｊａｖａ”＋“ＪＳＰ”のみを含むドキュメント 10ドキュメント “Ｊａｖａ”＋“ａｐｐｌｅｔ”のみを含むドキュメント 5ドキュメント “Ｊａｖａ”＋“ＪＳＰ”＋“ａｐｐｌｅｔ”のすべてを含むドキュメント 10ドキュメント（ドキュメントＮｏ．２６〜５０）

【００９７】以下のドキュメントは、アウトライア・ク
ラスタとしてリストできる。 (3)キーワード“Bluetooth”に関連するドキュメント 5ドキュメント（ドキュメントＮｏ．５１〜５５）

【００９８】 (4)キーワード“サッカー”に関連するドキュメント 5ドキュメント（ドキュメントＮｏ．５６〜６０）

【００９９】 (5)キーワード“マトリックス”に関連するドキュメント 5ドキュメント（ドキュメントＮｏ．６１〜６５）

【０１００】 (6)キーワード“ＤＮＡ”に関連するドキュメント 5ドキュメント（ドキュメントＮｏ．６６〜７０）

【０１０１】以下のドキュメントは、ノイズである。 (7)上述したクラスタには、分類されないドキュメント 70ドキュメント（ドキュメントＮｏ．７０〜１４０）

【０１０２】本明細書においては、主要クラスタを“ク
リントン”クラスタおよび“Ｊａｖａ”クラスタと呼
ぶ。これらの主要（顕著）クラスタは、それぞれが５ド
キュメントを含む“クリントン”＋“ヒラリー”サブク
ラスタおよび“Ｊａｖａ”＋“ａｐｐｌｅｔ”サブクラ
スタに区別されるサブクラスタを含んでいる。他方で、
対象であるアウトライア・クラスタは、それぞれ５ドキ
ュメントを含む孤立したクラスタである。クラスタ“ク
リントン”＋“ヒラリー”およびクラスタ“Ｊａｖａ”
＋“ａｐｐｌｅｔ”は、それぞれ５つのドキュメントを
含んでいるが、クラスタ“クリントン”＋“ヒラリー”
およびクラスタ“Ｊａｖａ”＋“ａｐｐｌｅｔ”は、そ
れぞれが５ドキュメントを含んでいるものの、主要クラ
スタ“クリントン”および“Ｊａｖａ”のサブクラスタ
であり、アウトライア・クラスタではない。サブクラス
タとアウトライア・クラスタとは、それぞれ５ドキュメ
ントを含んでいて、サブクラスタおよびアウトライア・
クラスタの割合は、１４０ドキュメントのうち、それぞ
れ３．５％にすぎないものである。実施例において使用
したキーワードを図１３に示す。

【０１０３】実施例においては、本発明者らは、通常の
ベクトル空間モデルについて次元減少手順を使用してア
ウトライア・クラスタが検索されるか否かを検討した。
元の１４０×４０次元の行列の要素を、アトリビュート
の頻度に応じた重み係数を使用してドキュメントへのア
トリビュート（すなわち、キーワード）の関連性に基づ
いて０または正の実数で構築した。

【０１０４】図１４は、ドキュメント−キーワード空間
の要素の典型的な構成を示した図である。図１４におい
ては、ドキュメント００１についての要素は、“１
１．０２１．０４０．４”で記述されている。ド
キュメントの表現は、（非ゼロの要素の位置，ウエイ
ト）のペアとされており、ゼロの要素の位置について
は、表現を簡略化するために省略している。アトリビュ
ートの頻度に応じた重み係数の値は、キーワードへの関
連性が高まるにつれて高くなるように設定されている。
キーワードの順番は、図１４に示した順番とした。すな
わち、位置１は、キーワード“クリントン”であり、位
置４は、キーワード“チェルシー”などである。ドキュ
メントは、その次元を本発明のスケーリング法により得
られた算出された基底ベクトルを使用して、６次元まで
削減させた。サンプル・データベースにおけるそれぞれ
のドキュメントの要素を表１〜表６に示す。

【表１】

【０１０５】

【表２】

【０１０６】

【表３】

【０１０７】

【表４】

【０１０８】

【表５】

【０１０９】

【表６】

【０１１０】（実施例１）＜アルゴリズム１の結果＞上述したように構成されたサ
ンプル・データベースに本発明を適用して、アルゴリズ
ム１に従ってその次元を削減させた。サンプル・ドキュ
メント行列の次元を、本発明のスケールド残差行列を使
用して４０キーワード次元から６キーワード次元にまで
削減させた。ｋ番目のクラスタについて関連性の尺度、
すなわち“similarity average：ＳＡ”、Ω_ｋを下記式
に従って算出して、キーワードのランダムな入力の影響
を排除した。

【０１１１】

【数２７】

【０１１２】表７に、アルゴリズム１に従って検索およ
び検出を行う本発明の方法の結果を示す。

【０１１３】

【表７】

【０１１４】表２に示されるように、アウトライア・ク
ラスタは、本発明を使用した次元減少プロセスの間に保
持されていると共に、アウトライア・クラスタは、良好
に検出、検索および同定されているのが示される。

【０１１５】（実施例２）＜アルゴリズム２の結果＞上述したように構成されたサ
ンプル・データベースに本発明を適用して、アルゴリズ
ム１に従ったことを除き、他の条件を同一にしてその次
元を減少させた。表３に、算出された結果を、similari
ty average (SA)として表現して示す。

【０１１６】

【表８】

【０１１７】表８に示されるように、アウトライア・ク
ラスタのすべてが高い関連性スコアをもって検索および
検出され、このため本発明の方法がアウトライア・クラ
スタの検出、検索、同定にきわめて効果的であることが
示される。

【０１１８】（比較例）同一のサンプル・データベース
および同一の評価方法を使用して従来の方法により得ら
れる結果と比較することによって、本発明の方法の有効
性を検討した。

【０１１９】比較例においては、サンプル・データベー
スを、ＬＳＩ、ＣＯＶ、およびＡｎｄｏのスケーリング
法（ｑ＝２と設定した。）により次元削減を行った。そ
れぞれの結果を表９〜表１１に示す。表９に示されるＬ
ＳＩを使用した結果は、アウトライア・クラスタの順位
は低く、similarity averageは、ノイズレベル程度に低
くなっている。ＣＯＶ法を使用する場合には、表１０に
示されるように、similarity averageの値は、ノイズレ
ベルの上にまで著しく高められているが、アウトライア
・クラスタの順位は、依然として低いままである。

【０１２０】表１１に示すＡｎｄｏのスケーリング法
は、アウトライア・クラスタの順位を僅かに高めるもの
の、いくつかのアウトライア・クラスタは、依然として
小さなsimilarity averageのままとされている。また、
この方法は、計算に対する破壊的な影響およびコンピュ
ータ資源の消耗を考慮した場合、大規模なデータベース
におけるアウトライア・クラスタの検出、検索、および
同定には不向きである。

【０１２１】

【表９】

【０１２２】

【表１０】

【０１２３】

【表１１】

【０１２４】上述した結果を、表１２にまとめる。表１
２中、ｂ_ｉは、ｉ番目の基底ベクトルを示し、Ｃは、主
要クラスタ・クリントンを示し、Ｊは、主要クラスタＪ
ａｖａを示し、Ｎは、ノイズを示し、Ｏは、アウトライ
ア・クラスタ（全部）を示し、Ｂは、Bluetoothアウト
ライア・クラスタを示し、Ｓは、サッカー・クラスタを
示し、Ｍは、マトリックス・アウトライア・クラスタを
示し、Ｄは、ＤＮＡクラスタを示す。表１２は、それぞ
れのクラスタが見出された基底ベクトルに対応してまと
めている。表１２に示されるように、従来のスケーリン
グ法は、最初のアウトライア・クラスタを基底ベクトル
が４番目のｂ_４において見出しているが、本発明の方法
は、アウトライア・クラスタの検出をより高いｂ_３また
はアルゴリズム２においてはｂ_２の基底ベクトルにおい
て見出すことに成功しているのがわかる。

【０１２５】

【表１２】

【０１２６】上述したように、本発明は、複数のアウト
ライア・クラスタがドキュメントに含まれている場合に
アウトライア・クラスタを検索、検出、および同定する
ための方法を提供することができる。本発明の方法は、
新製品についての問い合わせ情報のように、所定の時点
の後蓄積されるドキュメントの検索、検出、および同定
に加え、アウトライア・クラスタの検索、検出、および
同定に有効である。

【０１２７】これまで、本発明を特定の態様をもって説
明を行ってきた。しかしながら、当業者によれば、本発
明の範囲を逸脱することなく、種々の除外、変更、およ
び他の態様が可能であることは理解できよう。

【０１２８】本発明は、これまで検索、検出および同定
のための方法について詳細に説明してきたが、本発明は
また、本発明で説明した方法を実行するためのシステ
ム、方法自体、本発明の方法を実行するためのプログラ
ムが記録された、例えば光学的、磁気的、電気−磁気的
記録媒体といったコンピュータ可読な記録媒体をも含む
ものである。

【図面の簡単な説明】

【図１】特異値分解法を要約して示した図。

【図２】特異値分解法の代表的な方法を示した図。

【図３】特異値分解法の別の代表的な方法を示した
図。

【図４】特異値分解法のさらに別の代表的な方法を示
した図。

【図５】データベースから導かれるドキュメント空間
の構成を示した図。それぞれのクラスタから出発するそ
れぞれの矢線は、それぞれのクラスタの最大の基底ベク
トルを示す。

【図６】残差ベクトルの従来のスケーリング法を示し
た擬似コード。

【図７】本発明の方法を実行するためのコンピュータ
・システムの実施の形態を示した図。

【図８】本発明の方法を実行するための別のコンピュ
ータ・システムの実施の形態を示した図。

【図９】本発明の方法の概略的なフローチャート。

【図１０】ユーザが特異値分解法のためにＬＳＩ法を
選択した場合の図９のステップＳ４〜ステップＳ１０の
詳細な擬似コードを示した図。

【図１１】本発明による可変スケーリング・ファクタ
ｑの機能をグラフ的に示した図。

【図１２】特異値分解法のためにＣＯＶ法を使用する
場合の擬似コードを示した図。

【図１３】本発明の実施例において使用するキーワー
ドを示した図。

【図１４】ドキュメント−キーワード空間における要
素の構成を示した図。

【符号の簡単な説明】

１０…コンピュータ・システム１２…コンピュータ１４…記憶デバイス１６…キーボード１８…マウス２２…コンピュータ・システム２４…サーバ・コンピュータ２６…クライアント・コンピュータ２８…ネットワーク３０…記憶デバイス

───────────────────────────────────────────────────── フロントページの続き (72)発明者小林メイ神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者青野雅樹神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者寒川光神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者竹内広宜神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内Ｆターム(参考） 5B056 BB42 HH00 5B075 NK46 QM08 QM10

Claims

【特許請求の範囲】

【請求項１】データベースにおいてドキュメントを検
索、検出、および同定するための方法であって、前記デ
ータベース内の前記ドキュメントから、該ドキュメント
に含まれるアトリビュートでドキュメント行列を構成
し、前記方法は、少なくとも１つのアトリビュートを使
用して前記ドキュメントから前記ドキュメント行列を生
成するステップと、所定の関数から前記ドキュメント行列に基づいてスケー
ルされた残差行列を生成するステップと、特異値分解を実行して最大の特異値に対応する基底ベク
トルを得るステップと、前記残差行列を再構築し、前記再構築された残差行列を
動的にスケーリングして別の基底ベクトルを得るステッ
プと、前記特異値分解ステップから前記再構築ステップまでを
繰り返して所定の基底ベクトルのセットを生成するステ
ップと、前記ドキュメント行列の次元削減を実行して、前記デー
タベース内の前記ドキュメントの検出、検索および同定
を行うステップとを含む方法。
【請求項２】前記スケールされた残差行列は、下記式【数１】（上式中、Ｒ_ｓは、スケールされた残差行列であり、ｒ
_ｉ（ｉは、ドキュメントの数Ｍ以下の整数である。）
は、残差ベクトルであり、｜ｒ_ｉ｜は、前記残差ベクト
ルのノルムであり、Ｔは、ベクトルに対して施される転
置演算子であり、ｑは、前記所定の関数により動的に決
定されるスケーリング・ファクタである。）により生成
される、請求項１に記載の方法。
【請求項３】前記特異値分解は、ユーザにより潜在的
意味解析法または共分散マトリックス法とから択一的に
選択される、請求項１に記載の方法。
【請求項４】前記所定の関数は、前記残差ベクトルの
最大ノルムの関数であり、下記式【数２】（上式中、ｐは、正の整数であり、ｔ_ｍａｘは、前記残
差ベクトルの最大ノルムである。）により与えられる、
請求項１に記載の方法。
【請求項５】前記方法は、さらに、前記残差行列の再
構築前に前記基底ベクトルを、算出された基底ベクトル
に対して直交化するステップを含む、請求項１に記載の
方法。
【請求項６】前記スケーリング・ステップは、前記基
底ベクトルを得る各ステップごとに、異なるスケーリン
グ・ファクタを使用する、請求項１に記載の方法。
【請求項７】前記ドキュメント行列は、前記アトリビ
ュートに関連する複数のクラスタを含んでおり、前記ク
ラスタは、少なくとも主要クラスタとミーディアム・ク
ラスタとアウトライア・クラスタとに分類される、請求
項１に記載の方法。
【請求項８】データベースにおいてドキュメントを検
索、検出、および同定するためのコンピュータ・システ
ムであって、前記データベース内の前記ドキュメント
が、該ドキュメントに含まれるアトリビュートからドキ
ュメント行列として構成され、前記コンピュータ・シス
テムは、少なくとも１つのアトリビュートを使用して前記ドキュ
メントから前記ドキュメント行列を生成する手段と、所定の関数から前記ドキュメント行列に基づいてスケー
ルされた残差行列を生成する手段と、特異値分解を実行して最大の特異値に対応する基底ベク
トルを得る手段と、前記残差行列を再構築し、前記再構築された残差行列を
動的にスケーリングして別の基底ベクトルを得る手段
と、前記特異値分解から前記再構築までを繰り返して所定の
基底ベクトルのセットを生成する手段と、前記ドキュメント行列の次元削減を実行して、前記デー
タベース内の前記ドキュメントの検出、検索および同定
を行う手段とを含むコンピュータ・システム。
【請求項９】前記スケールされた残差行列は、下記式【数３】（上式中、Ｒ_ｓは、スケールされた残差行列であり、ｒ
_ｉ（ｉは、ドキュメントの数Ｍ以下の整数である。）
は、残差ベクトルであり、｜ｒ_ｉ｜は、前記残差ベクト
ルのノルムであり、Ｔは、ベクトルに対して施される転
置演算子であり、ｑは、前記所定の関数により動的に決
定されるスケーリング・ファクタである。）により生成
される、請求項８に記載のコンピュータ・システム。
【請求項１０】前記特異値分解は、ユーザにより潜在
的意味解析法または共分散マトリックス法から択一的に
選択される、請求項８に記載のコンピュータ・システ
ム。
【請求項１１】前記所定の関数は、前記残差ベクトル
の最大ノルムの関数であり、下記式【数４】（上式中、ｐは、正の整数であり、ｔ_ｍａｘは、前記残
差ベクトルの最大ノルムである。）により与えられる、
請求項８に記載のコンピュータ・システム。
【請求項１２】前記コンピュータ・システムは、さら
に、前記残差行列の再構築前に前記基底ベクトルを算出
された基底ベクトルに対して直交化する手段含む、請求
項８に記載のコンピュータ・システム。
【請求項１３】前記スケーリング・ステップは、前記
基底ベクトルを得る各ステップごとに、異なるスケーリ
ング・ファクタを使用する、請求項８に記載のコンピュ
ータ・システム。
【請求項１４】前記ドキュメント行列は、前記アトリ
ビュートに関連する複数のクラスタを含んでおり、前記
クラスタは、少なくとも主要クラスタとミーディアム・
クラスタとアウトライア・クラスタとに分類される、請
求項８に記載のコンピュータ・システム。
【請求項１５】データベースにおいてドキュメントを
検索、検出、および同定する方法を実行するためのコン
ピュータ・プログラムであって、前記データベース内の
前記ドキュメントが、該ドキュメントに含まれるアトリ
ビュートからドキュメント行列として構成され、前記コ
ンピュータ・プログラムはコンピュータに、少なくとも１つのアトリビュートを使用して前記ドキュ
メントから前記ドキュメント行列を生成するステップ
と、前記所定の関数から前記ドキュメント行列に基づいてス
ケールされた残差行列を生成するステップと、特異値分解を実行して最大の特異値に対応する基底ベク
トルを得るステップと、前記残差行列を再構築し、前記
再構築された残差行列を動的にスケーリングして別の基
底ベクトルを得るステップと、前記特異値分解ステップから前記再構築ステップまでを
繰り返して所定の基底ベクトルのセットを生成するステ
ップと、前記ドキュメント行列の次元削減を実行して、前記デー
タベース内の前記ドキュメントの検出、検索および同定
を行うステップとを実行させる、コンピュータ・プログ
ラム。
【請求項１６】前記スケールされた残差行列は、下記
式【数５】（上式中、Ｒ_ｓは、スケールされた残差行列であり、ｒ
_ｉ（ｉは、ドキュメントの数Ｍ以下の整数である。）
は、残差ベクトルであり、｜ｒ_ｉ｜は、前記残差ベクト
ルのノルムであり、Ｔは、ベクトルに対して施される転
置演算子であり、ｑは、前記所定の関数により動的に決
定されるスケーリング・ファクタである。）により生成
される、請求項１５に記載のコンピュータ・プログラ
ム。
【請求項１７】前記特異値分解は、ユーザにより潜在
的意味解析法または共分散マトリックス法から択一的に
選択される、請求項１５に記載のコンピュータ・プログ
ラム。
【請求項１８】前記所定の関数は、前記残差ベクトル
の最大ノルムの関数であり、下記式【数６】（上式中、ｐは、正の整数であり、ｔ_ｍａｘは、前記残
差ベクトルの最大ノルムである。）により与えられる、
請求項１５に記載のコンピュータ・プログラム。
【請求項１９】前記プログラムは、さらに、前記残差
行列の再構築前に前記基底ベクトルを算出された基底ベ
クトルに対して直交化するステップを実行させる、請求
項１５に記載のコンピュータ・プログラム。
【請求項２０】前記スケーリング・ステップは、前記
基底ベクトルを得る各ステップごとに、異なるスケーリ
ング・ファクタを使用する、請求項１５に記載のコンピ
ュータ・プログラム。
【請求項２１】前記ドキュメント行列は、前記アトリ
ビュートに関連する複数のクラスタを含んでおり、前記
クラスタは、少なくとも主要クラスタとミーディアム・
クラスタとアウトライア・クラスタとに分類される、請
求項１５に記載のコンピュータ・プログラム。
【請求項２２】データベースにおいてドキュメントを
検索、検出、および同定するためのサーバであって、前
記データベース内の前記ドキュメントが、該ドキュメン
トに含まれるアトリビュートからドキュメント行列とし
て構成され、前記サーバは、ネットワークを通してクラ
イアントと通信し、前記サーバは、前記ネットワークを通して検索、検出、および同定のた
めのリクエストを受信する手段と、前記クライアントから特異値分解のための方法を選択す
る別のリクエストを受信する手段と、少なくとも１つのアトリビュートを使用して前記ドキュ
メントから前記ドキュメント行列を生成する手段と、所定の関数から前記ドキュメント行列に基づいてスケー
ルされた残差行列を生成する手段と、前記別のリクエストに応じて前記特異値分解を実行して
最大の特異値に対応する基底ベクトルを得る手段と、前記残差行列を再構築し、前記再構築された残差行列を
動的にスケーリングして別の基底ベクトルを得る手段
と、前記特異値分解から前記再構築までを繰り返して所定の
基底ベクトルのセットを生成する手段と、前記ドキュメント行列の次元削減を実行して、前記デー
タベース内の前記ドキュメントの検出、検索および同定
を行う手段と、前記検索、同定および前記同定のうちの少なくとも１つ
の結果を前記クライアントに戻すための手段とを含むサ
ーバ。
【請求項２３】前記スケーリングするための手段は、
前記基底ベクトルを得る各ステップごとに、異なるスケ
ーリング・ファクタを使用する、請求項２２に記載のサ
ーバ。