JP2003030222A - 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のための方法、システム、記録媒体、およびサーバ - Google Patents

大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のための方法、システム、記録媒体、およびサーバ

Info

Publication number
JP2003030222A
JP2003030222A JP2001205183A JP2001205183A JP2003030222A JP 2003030222 A JP2003030222 A JP 2003030222A JP 2001205183 A JP2001205183 A JP 2001205183A JP 2001205183 A JP2001205183 A JP 2001205183A JP 2003030222 A JP2003030222 A JP 2003030222A
Authority
JP
Japan
Prior art keywords
document
matrix
residual
vector
singular value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001205183A
Other languages
English (en)
Other versions
JP3870043B2 (ja
Inventor
Mei Kobayashi
メイ 小林
Masaki Aono
雅樹 青野
Hikari Sagawa
光 寒川
Hiroyoshi Takeuchi
広宜 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2001205183A priority Critical patent/JP3870043B2/ja
Priority to US10/190,990 priority patent/US6920450B2/en
Publication of JP2003030222A publication Critical patent/JP2003030222A/ja
Application granted granted Critical
Publication of JP3870043B2 publication Critical patent/JP3870043B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】 【課題】 大規模データベースにおける主要クラスタお
よびアウトライア・クラスタの検出、検索、および同定
のための方法、システム、記録媒体およびサーバを提供
する。 【解決手段】 本発明の方法は、少なくとも1つのアト
リビュートを使用して前記ドキュメントからドキュメン
ト行列を生成するステップと、所定の関数からドキュメ
ント行列に基づいてスケールされた残差行列を生成する
ステップと、特異値分解を実行して最大の特異値に対応
する基底ベクトルを得るステップと、残差行列を再構築
し、この再構築された残差行列を動的にスケーリングし
て別の基底ベクトルを得るステップと、特異値分解ステ
ップから再構築ステップまでを繰り返して所定の基底ベ
クトルのセットを生成するステップと、ドキュメント行
列の次元削減を実行して、データベース内のドキュメン
トの検出、検索および同定を行うステップとを含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、大きな行列の計算
方法に関し、より詳細には、きわめて大きなデータベー
スにおける主要クラスタ、ミーディアム・クラスタおよ
びアウトライア・クラスタの効率的な検索、検出、同定
を可能とする方法、コンピュータ・システム、コンピュ
ータ可読な記録媒体およびサーバに関する。
【0002】
【従来の技術】近年におけるデータベース・システム
は、ニュースデータ、顧客情報、在庫データなどの膨大
な量のデータをますます取り扱うようになってきてい
る。このようなデータベースのユーザは、充分な精度を
もって迅速、かつ効果的に所望する情報を検索すること
が、ますます困難となっている。したがって、適時、か
つ精度よく、さらには安価に大きなデータベースから新
たなトピックスおよび/または新たな事項を検出するこ
とは、在庫管理、先物取引やオプション取引、世界中に
多数のレポータを配置することなしにレポータへと迅速
に指令を行うニュース代理店、成功を収めるためには競
合者についての主要、かつ新しい情報を知ることが必要
なインターネットや、他の速いペースの行動に基づくビ
ジネスといった、多くのタイプのビジネスに対し、きわ
めて価値ある情報を与えることになる。
【0003】従来ではデータベースの検索者は、検索を
モニタするために別の要員を雇用する必要があるので、
多くのデータベースにおけるドキュメントの検索、検出
および同定は、コストが高く、労力を要し、時間を浪費
する作業となっている。
【0004】検索エンジンにおける検索、検出、および
同定方法は、近年ではデータベース内のデータをクラス
タ化するためにベクトルモデルを用いている。この従来
の方法は、概ねデータベース内のデータに対応したベク
トルf(kwd1, kwd2,. . .,kwdn)を形成するものであ
る。このベクトルfは、kwd1, kwd2,. . ., kwdnといっ
たデータに付されたアトリビュートの数に等しい次元を
有するベクトルとして定義される。最も通常の場合に
は、アトリビュートは、単独のキーワード、フレーズ、
人の名前、地名、日付などとされる。通常では数学的に
ベクトルfを形成するため、バイナリ・モデルが用いら
れ、このバイナリ・モデルにおいては、データがkwd1を
含まない場合には、kwd1を0に設定し、データがkwd1を
含む場合にはkwd1を1に設定する。ある場合には重み付
け因子をバイナリ・モデルと組み合わせて、検索の精度
が向上されている。このような重み付け因子としては、
例えばデータ中におけるキーワードの出現回数を挙げる
ことができる。
【0005】
【発明が解決しようとする課題】いくつかの統計的な手
法が、ベクトル空間モデルに基づいた情報検索のための
アルゴリズムを用いて提案されてきている(例えば、Ba
eza-Yates, R., Riberio-Neo, B., “現代情報検索(Mo
dern Information Retrieval)”, Addition-Wesley, N
Y, 1999年、およびManning, C., Shutze, N., 統計的な
自然言語処理の原理(“Foundations of Statistical N
atural Language Processing)”, MIT Press, Cambrid
ge, MA, 1999を参照されたい。)。
【0006】Salton, G.,らは、“スマート・検索・シ
ステム−自動化ドキュメント処理における実験(The SM
ART Retrieval System-Experiments in Automatic Docu
mentProcessing)”, Prentice-Hall, Englewood Cliff
s, NJ, 1971年において、ベクトル空間モデルを総説し
ている。彼らは、ベクトルを用いてドキュメントをモデ
ル化しており、ベクトルの各座標軸がベクトルのアトリ
ビュート、例えばキーワードを表すものとされている。
ベクトルのバイナリ・モデルにおいては、座標軸は、ド
キュメントに当該アトリビュートが含まれていれば1の
値とされ、当該アトリビュートがドキュメントに含まれ
ていなければ0とされる。より高度化されたドキュメン
ト・ベクトル・モデルでは、タイトル、セクションヘッ
ダ、要約における出現回数および位置といったキーワー
ドに対する重み付けが考慮される。
【0007】クエリーはまた、ドキュメントについて説
明したと同一の方法により、ベクトルとしてモデル化さ
れる。所定のユーザ入力クエリーに対して、特定のドキ
ュメントの類似度は、クエリーと、ドキュメント・ベク
トルとのそれぞれの間の“距離”を決定することにより
算出される。数多くの異なったノルムをクエリー・ベク
トルとドキュメント・ベクトルとの間の“距離”計算す
るために用いることができるが、内積から得られるクエ
リー・ベクトルとドキュメント・ベクトルとの間の角度
が、これらの間の距離を決定するため、最も普通に用い
られるものである。
【0008】Deerwester等に付与された米国特許第4,
839,853号、名称“ラテント・セマンティック構
造を用いたコンピュータ情報検索(Computer informati
on retrieval using latent semantic structure)”、
およびDeerwester等、“ラテント・セマンティック・ア
ナリシスによるインデキシング(Indexing by latentse
mantic analysis)”, Journal of American Society f
or Information Science, Vol. 41, No. 6, 1990, pp.
391-407においては、データベースからドキュメントを
検索するためのユニークな方法が開示されている。開示
された手順は、おおよそ以下のようなものである。
【0009】ステップ1:ドキュメントおよびそれらの
アトリビュートのベクトル空間モデル化 ラテント・セマンティック・インデキシング(LSI)
においては、ドキュメントは、Saltonのベクトル空間モ
デルと同一の方法においてベクトル化されることによ
り、モデル化される。LSI法においては、クエリーと
データベースのドキュメントとの間の関係は、要素がmn
(i, j)により表されるm×n行列MNすなわち、
【0010】
【数7】 により表される。ここで、行列MNの列は、データベー
スにおけるドキュメントそれぞれを表すベクトルであ
る。
【0011】ステップ2:特異値分解によるランク付け
問題の次元削減 LSI法の次のステップでは、特異値分解、すなわち行
列MNのSVD(Singular Value Decomposition)を実
行する。行列MNの次元は、特異値を大きい順に並べた
ときの1番目からk番目までの特異値σ、i=1,
2,3,...,kを用いて行列を形成することにより
削減され、これらの対応する特異ベクトルは、下記式か
ら得られる。
【0012】
【数8】 上式中、Σは、σ,σ,σ,...,σであ
る対角要素が単調に減少する、対角行列である。行列U
およびVは、行列MNの大きい方からk番目までの
特異値に対応する右側と左側の特異ベクトルの列を含む
行列である。
【0013】ステップ3:クエリー処理 LSI法に基づいた情報検索におけるクエリーの処理
は、さらに2つのステップ、(1)クエリー射影ステッ
プおよびそれに続いた(2)適合化ステップを含む。ク
エリー射影ステップでは、入力されたクエリーは、行列
により次元が削減されたクエリー−ドキュメント空
間における擬ドキュメントへとマップされ、その後特異
値σにより重み付けされる。
【0014】DeerwesterらのLSI法は、従来のベクト
ル空間モデルでは互いに検索されなかった類似するキー
ワード(例えば、“ムーン”、“ルナー”といった類義
語の検索および同定を可能とすると共に、キーワードの
意味づけの分析に基づいたクエリーに対するドキュメン
トの実時間検索を可能とし、許容される計算時間を可能
とする。DeerwesterらのLSI法はまた、同一のスペリ
ングを有しているが異なった意味を有する場合といっ
た、いわゆる“ポリセミー”の問題を解決し、かつこの
情報を検索の精度を向上させるために使用する。彼らの
技術的なアイデアは、線形代数、具体的にはいかなる所
定のサイズの矩形行列についての特異値分解(Singular
Value Decomposition:SVD)を使用するものである。この
特異値分解定理について図1にまとめて示す。また、特
異値分解法のための3つの方法を概略的に図2〜図4に
示す。
【0015】上述した特異値分解定理は、特異値分解法
が行列Aが正方行列である場合であっても実行すること
ができる点で効果的である。特に行列Aが実対称半正定
値行列である場合には、行列Aは、下記式のように変換
できる。
【0016】
【数9】
【0017】上記式中、Sは、対角要素が特異値とされ
た対角化行列であり、上付きの文字“T”は、対応する
行列の転置を示す。特異値分解の別の重要な特性は、図
2〜図4に示した行列UとVとが、直交行列なので、適
切な次元のいかなるベクトルx,yでもノルムが保持で
きる、すなわち|x|=U|x|および|y|=U|y|
となるということにある。この特異値分解の本質的な
点は、図2〜図4に示すSにより示される対角行列にあ
る。この対角行列Sは、特異値である実数の対角要素を
含んでおり、これらの特異値は、最大の特異値から降順
で配列されている。
【0018】上述した特性を使用して、ドキュメント行
列の次元削減が実行され、所定の数kの特異値が、最大
の特異値から降順に選択され(通常では、kは、行列A
のランクよりも遙かに小さい。)、行列Aを代表する対
角行列が生成される。この次元削減方法は、概ね大きな
特異値およびそれに対応する特異ベクトルに対応するド
キュメントについては充分な結果を与える(Michael W.
Berry, Susan T. Dumais, and Gavin W. O’ Brien,
“Using Linear Algebra for Intelligent Information
Retrieval”, SIAM Review, vol. 37, No. 4, pp. 573
-595, 1995)。
【0019】小林らは、共分散行列を使用するドキュメ
ント行列の次元を減少させるための別の効果的な方法を
提案し出願を行っており、この方法を以下COV法とい
う。この方法は、概ね下記のように説明することができ
る。
【0020】ステップ1:ドキュメントから上述したよ
うにしてドキュメント行列を生成する。その後所定のM
×Nのドキュメント行列について、下記式に従って、共
分散行列を算出する。
【0021】
【数10】 上式中、Kは、共分散行列を表し、dbard、
barは、ドキュメント行列の要素ai,jを使用
して下記のように定義される。
【0022】
【数11】
【0023】ステップ2:次いで、COV法において
は、共分散行列の特異値ベクトルを算出する。共分散行
列の特異値の算出は、Hausholder法、Lanczos法、また
はニューラル・ネットワーク法といった当業界において
周知の方法を使用して行うことができる。
【0024】ステップ3:さらにこの次に、COVプロ
セスは、上述した行列Vに、上述した最大からk個の特
異値ベクトルを含むようにして所望する次元がkとなる
ように、所定の数の特異値ベクトルを使用して共分散行
列の次元削減を行う。その後、M×Nドキュメント行列
の次元を、次元が削減された共分散行列を使用して削減
し、データベース内に記録されたドキュメントの検索、
検出、および同定を実行する。
【0025】上述した方法は、COV法において検索さ
れた結果の別の用途を与えるというLSI法に対して改
善された結果を与えるが、共にデータベース中のドキュ
メントの検索および検出を行うために有効である。しか
しながら、両方法は、上述したように次元減少プロセス
を含んでおり、このため大規模データベースにおけるド
キュメントの検索、検出、および同定においては本質的
な不都合が生じる。
【0026】図5は、データベースから導かれるドキュ
メント空間の概略構成を示した図である。ドキュメント
空間は、概ね主要(顕著)クラスタと、ミーディアム・
クラスタと、アウトライア・クラスタと、ドキュメント
内のキーワードの存在に関連してマッチング無しクラス
タへと分類することができる。本明細書における用語、
“主要クラスタ”とは、データベース内における全体の
ドキュメントの5%以上を占めるドキュメントを含むク
ラスタを意味する。本明細書における“ミーディアム・
クラスタ”とは、データベース内において全体のドキュ
メントの概ね4%〜5%を占めるドキュメントを含むク
ラスタを意味する。本明細書における“アウトライア・
クラスタ”とは、データベース内において全体のドキュ
メントの概ね3%〜4%を占めるドキュメントを含むク
ラスタを意味する。ドキュメント行列に対して次元減少
が実行された場合には、通常では最大の特異値ベクトル
または固有値ベクトルから、いくつかの固有値ベクトル
または特異値ベクトルを考慮してクラスタの検索、検
出、および同定の効率および精度を向上させるために次
元の低減されたドキュメント行列を生成する。
【0027】このため、多くの場合では、アウトライア
・クラスタは、次元の低減された行列では排除されてし
まい、アウトライア・クラスタの上述したドキュメント
は検索、検出、および同定ができないことになる。当然
ながら、データベースの種類によっては上述したアウト
ライア・クラスタがドキュメントの検索において効果的
に廃棄されることが好ましいものの、アウトライア・ク
ラスタ内のドキュメントは、例えば新製品に関する問い
合わせの情報を含むデータベースや、新製品の発売、ま
たは世界のどこかで発生した大地震といったように特定
の時点で発生した後の時間経過で次第に蓄積される情報
を含むような特定のデータベースでは、廃棄されるべき
ではない。上述したようなデータベースに含まれるドキ
ュメントの検索では、アウトライア・クラスタは、上述
した次元削減プロセスにおいて廃棄されないことが好ま
しい。
【0028】アウトライア・クラスタをドキュメント行
列Aの次元削減プロセスにおいて保持するいくつかの試
みが提案されている。Andoは、”Latent Semantic
Space: interactive scaling improves precision of i
nter-document similarity measurement”, Proc. SIGI
R 2000, pp. 216-223において、ドキュメント空間の次
元を低下させる場合に、アウトライア・クラスタが廃棄
されないように救済する方法を開示している。Ando
のアルゴリズムは、擬似コードでは、図6のように説明
することができる。
【0029】図6に示されるように、開示されたAnd
oの方法は、まず、M×N行列として残差行列Rを定義
する。ついで、このプロセスにおいては、残差ベクトル
のノルム|r|のq乗を乗じて残差行列Rをスケ
ーリングし、スケーリングされた残差行列R(以下、
本明細書においてはスケールド残差行列という。)を生
成し、その後行列の積R の固有値ベクトルb
を算出する。さらにその後、Andoのプロセスは、算
出された固有ベクトルbを使用して行列Rを再構築す
る。
【0030】上述したプロセスの後、元々N次元であっ
たドキュメント・ベクトルdは、上述した図6に示し
たプロセスにより得られたこの基底ベクトルを使用する
k次元へと低下されたhatにより、下記式により
近似される。
【0031】
【数12】
【0032】図6に示した擬似コードにより示されるA
ndoの方法は、スケーリング・ファクタとして定数を
使用しており、ノルム|r|のスケーリング・ファク
タの累乗がそれぞれ対応する残差ベクトルrに乗じら
れることとなる。Andoの方法は、スケーリング・フ
ァクタqが数値1よりも大きい場合には多くの場合に重
大な問題を生じさせる。すなわち、q>1の場合には、
基底ベクトルを決定する計算のための繰り返しサイクル
が進行するにつれて、1よりも小さな残差行列の要素
は、ますます小さくなり、1よりも大きな残差行列の要
素はますます大きくなることである。
【0033】Andoの方法は、アウトライア・クラス
タのうち小さなものを、次元削減プロセスにおいて廃棄
してしまうという別の問題を生じさせることにもなる。
本発明者らは、実験的にAndoの方法はらさに、もと
もと1よりも小さなノルムのベクトルを数値計算の計算
限界内としてしまって縮退させ、消滅させてしまうとい
う重大な問題を生じさせてしまい、図6に示したステッ
プ2の計算を実行不可能としてしまうことを見出した。
【0034】加えて、従来の方法は著しく大きなメモリ
資源を必要とするとともに、きわめて高いCPU性能を
要求し、ときとして残差行列を得るためのループが、上
述した残差行列を固有値計算ができないような行列へと
変貌させてしまうこととなる。上述した問題に加え、例
えば100万の実際のドキュメントが含まれ、キーワー
ドが数万というきわめて大きなデータベースの固有値計
算についてみれば、従来の計算方法では、汎用目的のコ
ンピュータを使用して実質的に不可能となってしまうこ
とになる。
【0035】したがって、これまで主要クラスタ、ミー
ディアム・クラスタ、アウトライア・クラスタを廃棄す
ることなく、きわめて大きなデータベースにおいてドキ
ュメントを検索、検出、および同定するための方法、コ
ンピュータ・システム、プログラムおよびサーバが必要
とされている。
【0036】また、いかなる所定のドキュメント行列に
おいても計算機上の問題を生じさせずにきわめて大きな
データベースにおけるドキュメントの検索、検出、およ
び同定を行うための方法、コンピュータ・システム、プ
ログラムおよびサーバが必要とされている。
【0037】さらに、主要(顕著)クラスタに含まれる
サブクラスタよりもアウトライア・クラスタまたは複数
のアウトライア・クラスタに対して鋭敏で、きわめて大
きなデータベースにおけるドキュメントの検索、検出お
よび同定を行うための方法、コンピュータ・システム、
プログラム、およびサーバが必要とされている。
【0038】さらにまた、許容可能な計算時間および計
算機資源の下できわめて大きなデータベースに含まれる
ドキュメントの検索、検出、および同定を行うための方
法、コンピュータ・システム、プログラム、およびサー
バが必要とされている。
【0039】
【課題を解決するための手段】本発明は、上述したパラ
メータqは、残差ベクトルのノルムを考慮して決定され
るべきであり、その結果として特異値分解プロセスの繰
り返しサイクルによる残差ベクトルの縮退を生じ無くさ
せることができるという認識の下になされたものであ
る。
【0040】本発明のプロセスは、まずベクトル空間モ
デルに従ってドキュメントを含むきわめて大きなデータ
ベースからM×Nの形態のドキュメント行列を形成す
る。特異値分解法における繰り返しにおいて、初期残差
行列Rとしてドキュメント−キーワード行列Aを選択す
る。生成された残差行列Rは、適切に下記式により表さ
れる。
【0041】
【数13】 上式中、r(iは、ドキュメントの数M以下の整数で
ある。)を、以後トップからi番目の残差ベクトルとし
て定義し、Tを、その転置を意味するものとする。
【0042】本発明においては、残差行列はさらにスケ
ーリング関数funcによりスケーリングされ、このス
ケーリングは、下記式により定式化できる。
【0043】
【数14】
【0044】次いで、スケールド残差行列Rについ
て、特異値分解を計算して最大の特異値ベクトルb
得る。ついで、残差行列Rを下記式
【0045】
【数15】 に従って再構築する。
【0046】再構築された残差行列Rは、ドキュメント
行列Aからの以前の最も大きな特異値ベクトルを含んで
おらず、このため次の残差行列Rの最も大きな特異値ベ
クトルは、その方向を変化させ、アウトライア・クラス
タの方へと向けられることになり、アウトライア・クラ
スタの検索、検出、および同定を改善することが可能と
なる。加えて、スケーリング関数funcは、残差ベク
トルの最大ノルムに依存し、スケーリング関数がアウタ
ライア・クラスタの縮退を生じさせないように調整され
る。トップからi番目の特異値ベクトルが計算における
重大な誤りを生じさせること無く導かれ、アウトライア
・クラスタのドキュメント・ベクトルへとより近接する
ので、アウトライア・クラスタの検索、検出、および同
定が相乗的に改善されることになる。
【0047】すなわち、本発明によれば、データベース
においてドキュメントを検索、検出、および同定するた
めの方法であって、前記データベース内の前記ドキュメ
ントが、該ドキュメントに含まれるアトリビュートから
ドキュメント行列として構成され、前記方法は、少なく
とも1つのアトリビュートを使用して前記ドキュメント
から前記ドキュメント行列を生成するステップと、所定
の関数から前記ドキュメント行列に基づいてスケールさ
れた残差行列を生成するステップと、特異値分解を実行
して最大の特異値に対応する基底ベクトルを得るステッ
プと、前記残差行列を再構築し、前記再構築された残差
行列を動的にスケーリングして別の基底ベクトルを得る
ステップと、前記特異値分解ステップから前記再構築ス
テップまでを繰り返して所定の基底ベクトルのセットを
生成するステップと、前記ドキュメント行列の次元減少
を実行して、前記データベース内の前記ドキュメントの
検出、検索および同定を行うステップとを含む方法が提
供できる。前記スケールされた残差行列は、下記式
【0048】
【数16】 (上式中、Rは、スケールされた残差行列であり、r
(iは、ドキュメントの数M以下の整数である。)
は、残差ベクトルであり、|r|は、前記残差ベクト
ルのノルムであり、Tは、ベクトルに対して施される転
置演算子であり、qは、前記所定の関数により動的に決
定されるスケーリング・ファクタである。)により生成
される。前記特異値分解は、ユーザにより潜在的意味解
析法と共分散マトリックス法とから択一的に選択され
る。
【0049】本発明においては、前記所定の関数は、前
記残差ベクトルの最大ノルムの関数であり、下記式
【0050】
【数17】 (上式中、pは正の整数であり、tmaxは、前記残差
ベクトルの最大ノルムである。)により与えられる。本
発明の方法は、方法は、さらに、前記残差行列の再構築
前に前記基底ベクトルを算出された基底ベクトルに対し
て直交化するステップを含む。前記スケーリング・ステ
ップは、前記基底ベクトルを得る各ステップごとに、異
なるスケーリング・ファクタを使用する。前記ドキュメ
ント行列は、前記アトリビュートに関連する複数のクラ
スタを含んでおり、前記クラスタは、少なくとも主要ク
ラスタとアウトライア・クラスタとに分類される。
【0051】また、本発明の第2の構成においては、デ
ータベースにおいてドキュメントを検索、検出、および
同定するためのコンピュータ・システムであって、前記
データベース内の前記ドキュメントが、該ドキュメント
に含まれるアトリビュートからドキュメント行列として
構成され、前記コンピュータ・システムは、少なくとも
1つのアトリビュートを使用して前記ドキュメントから
前記ドキュメント行列を生成する手段と、所定の関数か
ら前記ドキュメント行列に基づいてスケールされた残差
行列を生成する手段と、特異値分解を実行して最大の特
異値に対応する基底ベクトルを得るステップと、前記残
差行列を再構築し、前記再構築された残差行列を動的に
スケーリングして別の基底ベクトルを得る手段と、前記
特異値分解ステップから前記再構築ステップまでを繰り
返して所定の基底ベクトルのセットを生成する手段と、
前記ドキュメント行列の次元削減を実行して、前記デー
タベース内の前記ドキュメントの検出、検索および同定
を行う手段とを含むコンピュータ・システムが提供され
る。
【0052】本発明の第3の構成によれば、データベー
スにおいてドキュメントを検索、検出、および同定する
方法を実行するためのコンピュータ・プログラムであっ
て、前記データベース内の前記ドキュメントが、該ドキ
ュメントに含まれるアトリビュートからドキュメント行
列として構成され、前記コンピュータ・プログラムはコ
ンピュータに、少なくとも1つのアトリビュートを使用
して前記ドキュメントから前記ドキュメント行列を生成
するステップと、所定の関数から前記ドキュメント行列
に基づいてスケールされた残差行列を生成するステップ
と、特異値分解を実行して最大の特異値に対応する基底
ベクトルを得るステップと、前記残差行列を再構築し、
前記再構築された残差行列を動的にスケーリングして別
の基底ベクトルを得るステップと、前記特異値分解ステ
ップから前記再構築ステップまでを繰り返して所定の基
底ベクトルのセットを生成するステップと、前記ドキュ
メント行列の次元削減を実行して、前記データベース内
の前記ドキュメントの検出、検索および同定を行うステ
ップとを実行させる、コンピュータ・プログラムが提供
される。
【0053】本発明の第4の構成によれば、データベー
スにおいてドキュメントを検索、検出、および同定する
ためのサーバであって、前記データベース内の前記ドキ
ュメントが、該ドキュメントに含まれるアトリビュート
からドキュメント行列として構成され、ネットワークを
通してクライアントと通信するサーバであって、前記サ
ーバは、前記ネットワークを通して検索、検出および同
定のためのリクエストを受信する手段と、前記クライア
ントから特異値分解のための方法を選択する別のリクエ
ストを受信する手段と、少なくとも1つのアトリビュー
トを使用して前記ドキュメントから前記ドキュメント行
列を生成する手段と、所定の関数から前記ドキュメント
行列に基づいてスケールされた残差行列を生成する手段
と、前記別のリクエストに応じて特異値分解を実行して
最大の特異値に対応する基底ベクトルを得る手段と、前
記残差行列を再構築し、前記再構築された残差行列を動
的にスケーリングして別の基底ベクトルを得る手段と、
前記特異値分解ステップから前記再構築ステップまでを
繰り返して所定の基底ベクトルのセットを生成する手段
と、前記ドキュメント行列の次元削減を実行して、前記
データベース内の前記ドキュメントの検出、検索および
同定を行う手段と、前記検索、同定および前記同定のう
ちの少なくとも1つの結果を前記クライアントに戻すた
めの手段とを含むサーバが提供できる。
【0054】
【発明の実施の形態】以下、本発明を図面に示した態様
をもって説明するが、本発明は、後述する実施の態様に
制限されるものではない。
【0055】図7は、本発明の方法を実行するためのコ
ンピュータ・システムを示した図である。図7に示した
コンピュータ・システム10は、概ねコンピュータ12
と、記憶デバイス14と、キーボードといった入力デバ
イス16と、マウスといったポインティング・デバイス
18とを含んで構成されている。コンピュータ12は、
中央処理ユニット(図示せず)と、RAM、またはRO
M、またはそれらの両方を含んでいて、本発明の方法を
実行させる構成とされている。図7に示された記憶デバ
イス14は、コンピュータ12の外部に接続されている
のが示されているが、記憶デバイス14は、必要とされ
る記憶容量が保証される限り、ハード−ディスクといっ
た形態においてコンピュータ12の内部に含まれていて
もよい。
【0056】記憶デバイス14は、検索される、または
検出または同定されるドキュメントを保持しており、記
憶手段14内のドキュメントは、当業界においてよく知
られている適切なデータベース・ソフトウエアによりフ
ォーマットすることができる。ドキュメント行列は、ド
キュメントに含まれるアトリビュートを使用してバイナ
リ・モデルから生成され、コンピュータ・システム10
に含まれる適切な記憶領域に記憶されている。本発明に
おいては、検索されるドキュメントとしては、テキスト
・ドキュメント、オーディオ・ファイル、イメージ・フ
ァイル、マルチメディア・ファイル、ビデオ・ファイ
ル、ウエッブ・ページ、時間依存の検索および検出を行
うためタイム・スタンプを含むいかなるドキュメントを
挙げることができる。
【0057】コンピュータとしては、PENTIUMシ
リーズ(INTEL・コーポレーションの商標)といっ
たCPU、および/またはこれと互換性のあるCPUを
搭載したパーソナル・コンピュータおよび/またはPO
WER PCを搭載するRS−6000(インターナシ
ョナル・ビジネスマシーンズ・コーポレーションの商
標)といったワークステーションおよび/またはこれに
互換性のあるワークステーションであって、WINDO
WS/ME(マイクロソフト・コーポレーションの商
標)、WINDOWS 2000(マイクロソフト・コ
ーポレーションの商標)、WINDOWS NT(マイ
クロソフト・コーポレーションの商標)、OS/2(イ
ンターナショナル・ビジネスマシーンズ・コーポレーシ
ョンの商標)、MAC OS(アップル・コンピュータ
コーポレーションの商標)を実行させることができるも
のを挙げることができるが、本発明においてはこれらに
限定されるものではなく、いかなるコンピュータまたは
ワークステーションであっても用いることができる。本
発明においては、本発明のコンピュータ・システム10
のユーザは、キーボード16および/またはマウス18
により、コンピュータ・システム10に対して自分でク
エリーを入力することもできる。しかしながらクエリー
入力の際のユーザ−コンピュータのインタフェイスは、
上述したものに限定されず、クエリーをユーザが入力す
ることができる、ペン、スタイラス、ジョイスティック
といったデバイスなど、いかなる入力デバイスでも用い
ることができる。
【0058】ユーザからのリクエストを受け取ると、コ
ンピュータ・システム10は、ユーザのリクエストに応
じて潜在的意味解析法:ラテント・セマンティック・イ
ンデキシング法(LSI法)と共分散マトリックス法
(COV法)との間において特異値分解プロセスを切り
替えることができるように構成されていて、計算時間、
システム資源、コンピュータ・システムのユーザにより
要求される別の条件に応じて、ユーザが希望する計算方
法が、システムにより提供されるようにされている。
【0059】図8は、本発明のコンピュータ・システム
22の別の実施の形態を示した図である。図8に示され
るように、本発明のコンピュータ・システム22は、サ
ーバ・コンピュータ24と、クライアント・コンピュー
タ26との間においてトランザクションを可能とするネ
ットワーク・システムとして構成することもできる。サ
ーバ・コンピュータ24は、ネットワーク28を通して
クライアント・コンピュータ26と通信し、クライアン
トまたは複数のクライアント26は、サーバ・コンピュ
ータ24に接続された記憶デバイス30に保持されたド
キュメントを検索、検出および同定することができる構
成とされている。このサーバ・コンピュータ24には、
本発明の方法を実行するためのプログラムが搭載されて
いて、検索、検出、および同定の結果は、インターネッ
ト・インフラベースといったネットワーク28を通し
て、クライアント・コンピュータ26の要求に応じてク
ライアント・コンピュータ26へと通信される。本発明
において使用することができるネットワーク28として
は、これに限定されるものではなく、TCP/IPとい
ったプロトコル、またはいかなる他の好適なプロトコル
を使用するローカル・エリア・ネットワーク/ワイド・
エリア・ネットワーク(LAN/WAN)および例え
ば、光通信、衛星通信、地上波通信など、いかなる別の
ネットワークであっても用いることができる。
【0060】図9は、コンピュータ・システム10また
はサーバ・コンピュータ24により実行される本発明の
方法の概略フローチャートを示す。本発明のプロセス
は、ステップS1から開始し、ステップS2へと進んで
M×Nのドキュメント行列Aをベクトル空間モデルに従
って生成する。本発明においては、バイナリ・ベクトル
空間モデルと共にアトリビュートの頻度に応じた重み係
数を使用して、結果の精度を向上させることもできる。
ここで、Mは、データベースに保持されているドキュメ
ントの数を表し、Nは、システムまたはユーザ入力によ
り予め選択された検索、検出および同定のために使用さ
れるアトリビュートの数を表す。
【0061】次いで、このプロセスは、ステップS3へ
と進んでデータベース中のドキュメントを均等に処理す
るためにドキュメント行列Aの正規化を、例えばそれぞ
れのドキュメント・ベクトルのノルムを1とすることに
より実行する。次いで、プロセスは、ステップS4へと
進んで残差行列を定義する。残差行列の初期行列は、ド
キュメント行列Aとされるので、ドキュメント行列Aの
最大の特異値ベクトルは、後続する繰り返しにおいて取
り除かれると共に決定することができる。
【0062】さらにその後、プロセスは、ステップS5
へと進んで、残差ベクトルの最大のノルムのもの、t
maxを使用して残差行列rについてスケーリング・
ファクタqを算出する。スケーリング・ファクタqは、
i−番目の基底ベクトルを得るための繰り返しサイクル
が繰り返されるたびごとに決定され、所定の関数により
与えられる。スケーリングのための関数(以下、スケー
リング関数という。)については、詳細に後述する。残
差行列および残差ベクトルは、下記式で定義される。
【0063】
【数18】
【0064】上式中、Rは、残差行列であり、rは、
i−番目の残差ベクトルであり、“T”は、その転置を
表す。スケーリング・ファクタqは、上述した残差ベク
トルriへと結合されて、下記式によりスケールされた
残差行列を生成する。
【0065】
【数19】
【0066】図9を参照して、本発明のプロセスはさら
にステップS6へと進んで、スケールド残差行列R
ついて特異値分解計算を行ない、対象とされている残差
行列Rの最大特異値を決定すると共に、対応する特異
値ベクトルbを決定する。本発明においては、特異値
分解の手順は、ステップS6に示されているようにLS
I法またはCOV法の間においてユーザ選択に基づいて
選択することができる。本発明においてi番目の特異値
ベクトルには、さらに修正型Gram-Schmidt直交化(Golu
b, G. and Van Loan, C., Matrix Computation, third
ed., Johns Hopkins Univ. Press Baltimore, MD, 198
3)が実行され、精度が改善される。
【0067】さらにこの後、プロセスは、次元削減に使
用される基底ベクトルbを、適切なメモリ手段へと出
力し、次元削減のための基底ベクトルのセットが、繰り
返しサイクルの後に与えられることになる。プロセスは
さらにステップS9において整数iがk以下であるか否
かを判断する。iがk以下である場合には(no)、残
差行列RをステップS10において再構築する。iがk
よりも大きい場合には(yes)、プロセスはステップ
S11へと進んで終了する。
【0068】ステップS4〜S10の繰り返しは、iが
kより大きくなり、ドキュメント行列Aのための次元削
減のk個の基底ベクトル{b1, b2, …, bk}が図9に示
したプロセスにおいて生成される。
【0069】図10は、図9のステップS4−ステップ
S10の詳細な擬似コードの実施の形態を示した図であ
る。ここでは、ユーザは、特異値分解法のためにLSI
法を選択している。図10に示されるように、プロセス
は、まず残差行列Rを、図9に示すようにM×Nのドキ
ュメント行列Aへと初期化し、かつドキュメント行列A
の次元を低下するための整数kを決定する。ドキュメン
ト行列Aについて正規化ステップを導入し、ドキュメン
ト・ベクトルが均等に処理できるようにすることも可能
である。
【0070】次いでこのプロセスは、残差行列Rの残差
ベクトルrのノルムを計算し、その後スケーリング・
ファクタqが、残差ベクトルの最大ノルムを与える所定
の関数tmaxを使用して以下のように決定される。
【0071】
【数20】
【0072】本発明の手順においては、tmaxの値を
使用してスケーリング・ファクタqを決定する。これは
我々本発明者らが、実験的にスケーリング・ファクタが
アウトライア・クラスタについての従来の検索および検
出において発生する問題を生じさせており、そのため最
大ノルムが適切に調節されるべきであることを見出した
ことに基づくものである。
【0073】さらに、次いでプロセスは、M×N形式の
スケールド残差行列Rを下記式により生成する。
【0074】
【数21】
【0075】説明している実施の形態においては、スケ
ーリング・ファクタqおよび最大ノルムの残差ベクトル
maxは倍精度変数とされているが、これに限られる
ことなく、必要とされる検索および検出の精度が得られ
る限り、いかなる精度レベルでも用いることができる。
【0076】その後、プロセスは、スケールド残差行列
に対して特異値分解を実行して、ベクトルVの第
1行として基底ベクトルbを得る。説明している擬似
コードにおいては、基底ベクトルには、さらに修正型Gr
am-Schmidt直交化(MGS)が適用されて精度が向上さ
れているが、これに限定されず、いかなる直交化法であ
っても用いることができるし、上述した直交化は、直交
性が担保できる限りにおいてはプロセスに含まれなくと
もよい。
【0077】プロセスは、さらに算出された基底ベクト
ルbから下記式に従って残差ベクトルRの再構築を行
う。
【0078】
【数22】
【0079】図11は、本発明による可変スケーリング
・ファクタqの機能をグラフ的に表現した図である。本
発明におけるスケーリング法を図11(a)に示し、従
来のスケーリング法を図11(b)に示す。
【0080】図11(a)に示されるように本発明は、
残差ベクトルの最大ノルムtmaxに依存させて動的に
スケーリング・ファクタqを変更させるものである。ス
ケーリング・ファクタqを調節することで、各繰り返し
サイクルごとに残差ベクトルのノルムの過剰な低減が避
けられるので、上述した変更は、最初に見出されたアウ
トライア・クラスタ以外のアウトライア・クラスタのベ
クトルが縮退してしまうのを、図11(a)に示すよう
に防止することになる。本発明の特定の実施の形態にお
いては、スケーリング・ファクタqは、tmaxに依存
する下記関数“func”により決定される。
【0081】
【数23】 上式中、pは、整数であり、好ましい実施の形態におい
ては、1を選択することが好ましい。
【0082】上記式に示されるように、tmaxが1よ
りも大きい場合には、スケーリング・ファクタqは、1
/tmaxに設定され、tmaxが略1の場合には、ス
ケーリング・ファクタqは、p+tmaxに設定され、
maxが1よりも小さい場合には、スケーリング・フ
ァクタqは、1/(102−tmax)に設定される。
本発明のスケーリング・ファクタqは、残差行列のスケ
ーリング・ファクタを制御し、基底ベクトルが最大の残
差ベクトルに著しく影響されないようにしつつ、スケー
リングの効果を適切に保証するものであるが、本発明に
おいてはこれに制限されず、スケーリング・ファクタq
は、上述したスケーリング関数func以外にもスケー
リング・ファクタqが基底ベクトルの決定に関する繰り
返しサイクルのそれぞれにおいて変更されるものである
限り、いかなる関係に基づいても選択することができ
る。
【0083】一方で、図11(b)に示すように、残差
ベクトルの従来のスケーリングにおいては、各残差ベク
トルおよび各繰り返しサイクルごとに定数のスケーリン
グ・ファクタが使用され、ノルムが1以下の残差ベクト
ルと、1よりも大きい整数qとが共に適用された場合に
は、ノルムが1未満の残差ベクトルは、k個の基底ベク
トルを算出する繰り返しサイクルの繰り返しに関連して
小さくなり続け、図11(b)に示すようにノイズレベ
ルの近傍で残差ベクトルが縮退してしまうことになる。
【0084】上述した実施の形態においては、tmax
が略1であるという条件は、本発明においては下記式で
定義される。
【0085】
【数24】 εの値は、特定の用途に応じて選択することができ、典
型的には略0.01に選択される。しかしながら、εの
値が大きくなるとスケーリングは、従来の方法に近づい
て行くこととなる。
【0086】さらなる本発明の効果は、次元削減のため
の基底ベクトルの算出方法の差に基づいて得られる。従
来の方法においては、固有ベクトルは、直接R
から算出されている。従来の方法とは対照的に、本発明
の方法では、特異値分解を使用し、最大の特異値ベクト
ルに対応する右特異値ベクトルのみを算出する。
【0087】したがって、本発明の方法は、CPU性
能、メモリ資源といったコンピュータ資源を節約しつ
つ、アウトライア・クラスタの検索の精度を保証するこ
とに加え、高速、かつ実時間検索、または検出、または
それら双方を提供することができる。
【0088】図12は、特異値分解法の実行のために、
COV法を使用する別の実施の形態を示した図である。
それ以外の手順については図10において説明した実施
例と同一なので、COV法以外については、本明細書に
おいては説明しない。上述したようにスケールド残差行
列が計算された後、共分散行列Kが、下記のようにして
生成される。
【0089】
【数25】 上式中、dbard、barは、下記のように
定義される。
【0090】
【数26】
【0091】その後、生成された共分散行列の特異値分
解を計算して、ドキュメント行列Aの次元削減のための
基底ベクトルを決定する。本発明者らは、以前にドキュ
メント行列の共分散ベクトルの主要な特異値ベクトル
は、実質的にドキュメント行列の特異値ベクトルと同一
の方向を有していることを見出し、COV法がきわめて
大きなデータベースをモデルとするドキュメント行列の
次元削減に特に有効であることを見出している。上述し
た別の実施の形態において、共分散行列は稠密な行列と
なるが、共分散行列Kは、N×Nの正方行列となり、ド
キュメント数Mが多いので、アトリビュートの数が典型
的にはドキュメント数よりも2桁少なく、特異値分解計
算が、著しく短時間で実行できることになる。
【0092】図12の手順は、図10において説明した
ようにさらに残差行列Rの再構築および繰り返しサイク
ルへと進んで、k個の基底ベクトルの決定されるまで繰
り返されることになる。
【0093】以下に、本発明を特定の実施例を持って説
明するが、実施例は、本発明を制限するものではなく、
本発明を説明するためだけに与えられるものである。
【0094】
【実施例】140ドキュメントおよび40キーワード・
セットを含むサンプル・データベースを構成したドキュ
メントおよびキーワードは、以下のものとした。
【0095】 <140ドキュメントの内容> (1)キーワード“クリントン”に関連するドキュメント 25ドキュメント “クリントン”+“アル・ゴア”のみを含むドキュメント 10ドキュメント “クリントン”+“ヒラリー”のみを含むドキュメント 5ドキュメント “クリントン”+“アル・ゴア”+“ヒラリー”の すべてを含むドキュメント 10ドキュメント (ドキュメントNo.1〜25)
【0096】 (2)キーワード“Java”に関連するドキュメント 25ドキュメント “Java”+“JSP”のみを含むドキュメント 10ドキュメント “Java”+“applet”のみを含むドキュメント 5ドキュメント “Java”+“JSP”+“applet”の すべてを含むドキュメント 10ドキュメント (ドキュメントNo.26〜50)
【0097】以下のドキュメントは、アウトライア・ク
ラスタとしてリストできる。 (3)キーワード“Bluetooth”に関連するドキュメント 5ドキュメント (ドキュメントNo.51〜55)
【0098】 (4)キーワード“サッカー”に関連するドキュメント 5ドキュメント (ドキュメントNo.56〜60)
【0099】 (5)キーワード“マトリックス”に関連するドキュメント 5ドキュメント (ドキュメントNo.61〜65)
【0100】 (6)キーワード“DNA”に関連するドキュメント 5ドキュメント (ドキュメントNo.66〜70)
【0101】以下のドキュメントは、ノイズである。 (7)上述したクラスタには、分類されないドキュメント 70ドキュメント (ドキュメントNo.70〜140)
【0102】本明細書においては、主要クラスタを“ク
リントン”クラスタおよび“Java”クラスタと呼
ぶ。これらの主要(顕著)クラスタは、それぞれが5ド
キュメントを含む“クリントン”+“ヒラリー”サブク
ラスタおよび“Java”+“applet”サブクラ
スタに区別されるサブクラスタを含んでいる。他方で、
対象であるアウトライア・クラスタは、それぞれ5ドキ
ュメントを含む孤立したクラスタである。クラスタ“ク
リントン”+“ヒラリー”およびクラスタ“Java”
+“applet”は、それぞれ5つのドキュメントを
含んでいるが、クラスタ“クリントン”+“ヒラリー”
およびクラスタ“Java”+“applet”は、そ
れぞれが5ドキュメントを含んでいるものの、主要クラ
スタ“クリントン”および“Java”のサブクラスタ
であり、アウトライア・クラスタではない。サブクラス
タとアウトライア・クラスタとは、それぞれ5ドキュメ
ントを含んでいて、サブクラスタおよびアウトライア・
クラスタの割合は、140ドキュメントのうち、それぞ
れ3.5%にすぎないものである。実施例において使用
したキーワードを図13に示す。
【0103】実施例においては、本発明者らは、通常の
ベクトル空間モデルについて次元減少手順を使用してア
ウトライア・クラスタが検索されるか否かを検討した。
元の140×40次元の行列の要素を、アトリビュート
の頻度に応じた重み係数を使用してドキュメントへのア
トリビュート(すなわち、キーワード)の関連性に基づ
いて0または正の実数で構築した。
【0104】図14は、ドキュメント−キーワード空間
の要素の典型的な構成を示した図である。図14におい
ては、ドキュメント001についての要素は、“1
1.02 1.0 4 0.4”で記述されている。ド
キュメントの表現は、(非ゼロの要素の位置,ウエイ
ト)のペアとされており、ゼロの要素の位置について
は、表現を簡略化するために省略している。アトリビュ
ートの頻度に応じた重み係数の値は、キーワードへの関
連性が高まるにつれて高くなるように設定されている。
キーワードの順番は、図14に示した順番とした。すな
わち、位置1は、キーワード“クリントン”であり、位
置4は、キーワード“チェルシー”などである。ドキュ
メントは、その次元を本発明のスケーリング法により得
られた算出された基底ベクトルを使用して、6次元まで
削減させた。サンプル・データベースにおけるそれぞれ
のドキュメントの要素を表1〜表6に示す。
【表1】
【0105】
【表2】
【0106】
【表3】
【0107】
【表4】
【0108】
【表5】
【0109】
【表6】
【0110】(実施例1) <アルゴリズム1の結果>上述したように構成されたサ
ンプル・データベースに本発明を適用して、アルゴリズ
ム1に従ってその次元を削減させた。サンプル・ドキュ
メント行列の次元を、本発明のスケールド残差行列を使
用して40キーワード次元から6キーワード次元にまで
削減させた。k番目のクラスタについて関連性の尺度、
すなわち“similarity average:SA”、Ωを下記式
に従って算出して、キーワードのランダムな入力の影響
を排除した。
【0111】
【数27】
【0112】表7に、アルゴリズム1に従って検索およ
び検出を行う本発明の方法の結果を示す。
【0113】
【表7】
【0114】表2に示されるように、アウトライア・ク
ラスタは、本発明を使用した次元減少プロセスの間に保
持されていると共に、アウトライア・クラスタは、良好
に検出、検索および同定されているのが示される。
【0115】(実施例2) <アルゴリズム2の結果>上述したように構成されたサ
ンプル・データベースに本発明を適用して、アルゴリズ
ム1に従ったことを除き、他の条件を同一にしてその次
元を減少させた。表3に、算出された結果を、similari
ty average (SA)として表現して示す。
【0116】
【表8】
【0117】表8に示されるように、アウトライア・ク
ラスタのすべてが高い関連性スコアをもって検索および
検出され、このため本発明の方法がアウトライア・クラ
スタの検出、検索、同定にきわめて効果的であることが
示される。
【0118】(比較例)同一のサンプル・データベース
および同一の評価方法を使用して従来の方法により得ら
れる結果と比較することによって、本発明の方法の有効
性を検討した。
【0119】比較例においては、サンプル・データベー
スを、LSI、COV、およびAndoのスケーリング
法(q=2と設定した。)により次元削減を行った。そ
れぞれの結果を表9〜表11に示す。表9に示されるL
SIを使用した結果は、アウトライア・クラスタの順位
は低く、similarity averageは、ノイズレベル程度に低
くなっている。COV法を使用する場合には、表10に
示されるように、similarity averageの値は、ノイズレ
ベルの上にまで著しく高められているが、アウトライア
・クラスタの順位は、依然として低いままである。
【0120】表11に示すAndoのスケーリング法
は、アウトライア・クラスタの順位を僅かに高めるもの
の、いくつかのアウトライア・クラスタは、依然として
小さなsimilarity averageのままとされている。また、
この方法は、計算に対する破壊的な影響およびコンピュ
ータ資源の消耗を考慮した場合、大規模なデータベース
におけるアウトライア・クラスタの検出、検索、および
同定には不向きである。
【0121】
【表9】
【0122】
【表10】
【0123】
【表11】
【0124】上述した結果を、表12にまとめる。表1
2中、bは、i番目の基底ベクトルを示し、Cは、主
要クラスタ・クリントンを示し、Jは、主要クラスタJ
avaを示し、Nは、ノイズを示し、Oは、アウトライ
ア・クラスタ(全部)を示し、Bは、Bluetoothアウト
ライア・クラスタを示し、Sは、サッカー・クラスタを
示し、Mは、マトリックス・アウトライア・クラスタを
示し、Dは、DNAクラスタを示す。表12は、それぞ
れのクラスタが見出された基底ベクトルに対応してまと
めている。表12に示されるように、従来のスケーリン
グ法は、最初のアウトライア・クラスタを基底ベクトル
が4番目のbにおいて見出しているが、本発明の方法
は、アウトライア・クラスタの検出をより高いbまた
はアルゴリズム2においてはbの基底ベクトルにおい
て見出すことに成功しているのがわかる。
【0125】
【表12】
【0126】上述したように、本発明は、複数のアウト
ライア・クラスタがドキュメントに含まれている場合に
アウトライア・クラスタを検索、検出、および同定する
ための方法を提供することができる。本発明の方法は、
新製品についての問い合わせ情報のように、所定の時点
の後蓄積されるドキュメントの検索、検出、および同定
に加え、アウトライア・クラスタの検索、検出、および
同定に有効である。
【0127】これまで、本発明を特定の態様をもって説
明を行ってきた。しかしながら、当業者によれば、本発
明の範囲を逸脱することなく、種々の除外、変更、およ
び他の態様が可能であることは理解できよう。
【0128】本発明は、これまで検索、検出および同定
のための方法について詳細に説明してきたが、本発明は
また、本発明で説明した方法を実行するためのシステ
ム、方法自体、本発明の方法を実行するためのプログラ
ムが記録された、例えば光学的、磁気的、電気−磁気的
記録媒体といったコンピュータ可読な記録媒体をも含む
ものである。
【図面の簡単な説明】
【図1】 特異値分解法を要約して示した図。
【図2】 特異値分解法の代表的な方法を示した図。
【図3】 特異値分解法の別の代表的な方法を示した
図。
【図4】 特異値分解法のさらに別の代表的な方法を示
した図。
【図5】 データベースから導かれるドキュメント空間
の構成を示した図。それぞれのクラスタから出発するそ
れぞれの矢線は、それぞれのクラスタの最大の基底ベク
トルを示す。
【図6】 残差ベクトルの従来のスケーリング法を示し
た擬似コード。
【図7】 本発明の方法を実行するためのコンピュータ
・システムの実施の形態を示した図。
【図8】 本発明の方法を実行するための別のコンピュ
ータ・システムの実施の形態を示した図。
【図9】 本発明の方法の概略的なフローチャート。
【図10】 ユーザが特異値分解法のためにLSI法を
選択した場合の図9のステップS4〜ステップS10の
詳細な擬似コードを示した図。
【図11】 本発明による可変スケーリング・ファクタ
qの機能をグラフ的に示した図。
【図12】 特異値分解法のためにCOV法を使用する
場合の擬似コードを示した図。
【図13】 本発明の実施例において使用するキーワー
ドを示した図。
【図14】 ドキュメント−キーワード空間における要
素の構成を示した図。
【符号の簡単な説明】
10…コンピュータ・システム 12…コンピュータ 14…記憶デバイス 16…キーボード 18…マウス 22…コンピュータ・システム 24…サーバ・コンピュータ 26…クライアント・コンピュータ 28…ネットワーク 30…記憶デバイス
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小林 メイ 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 (72)発明者 青野 雅樹 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 (72)発明者 寒川 光 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 (72)発明者 竹内 広宜 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 Fターム(参考) 5B056 BB42 HH00 5B075 NK46 QM08 QM10

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 データベースにおいてドキュメントを検
    索、検出、および同定するための方法であって、前記デ
    ータベース内の前記ドキュメントから、該ドキュメント
    に含まれるアトリビュートでドキュメント行列を構成
    し、前記方法は、少なくとも1つのアトリビュートを使
    用して前記ドキュメントから前記ドキュメント行列を生
    成するステップと、 所定の関数から前記ドキュメント行列に基づいてスケー
    ルされた残差行列を生成するステップと、 特異値分解を実行して最大の特異値に対応する基底ベク
    トルを得るステップと、 前記残差行列を再構築し、前記再構築された残差行列を
    動的にスケーリングして別の基底ベクトルを得るステッ
    プと、 前記特異値分解ステップから前記再構築ステップまでを
    繰り返して所定の基底ベクトルのセットを生成するステ
    ップと、 前記ドキュメント行列の次元削減を実行して、前記デー
    タベース内の前記ドキュメントの検出、検索および同定
    を行うステップとを含む方法。
  2. 【請求項2】 前記スケールされた残差行列は、下記式 【数1】 (上式中、Rは、スケールされた残差行列であり、r
    (iは、ドキュメントの数M以下の整数である。)
    は、残差ベクトルであり、|r|は、前記残差ベクト
    ルのノルムであり、Tは、ベクトルに対して施される転
    置演算子であり、qは、前記所定の関数により動的に決
    定されるスケーリング・ファクタである。)により生成
    される、請求項1に記載の方法。
  3. 【請求項3】 前記特異値分解は、ユーザにより潜在的
    意味解析法または共分散マトリックス法とから択一的に
    選択される、請求項1に記載の方法。
  4. 【請求項4】 前記所定の関数は、前記残差ベクトルの
    最大ノルムの関数であり、下記式 【数2】 (上式中、pは、正の整数であり、tmaxは、前記残
    差ベクトルの最大ノルムである。)により与えられる、
    請求項1に記載の方法。
  5. 【請求項5】 前記方法は、さらに、前記残差行列の再
    構築前に前記基底ベクトルを、算出された基底ベクトル
    に対して直交化するステップを含む、請求項1に記載の
    方法。
  6. 【請求項6】 前記スケーリング・ステップは、前記基
    底ベクトルを得る各ステップごとに、異なるスケーリン
    グ・ファクタを使用する、請求項1に記載の方法。
  7. 【請求項7】 前記ドキュメント行列は、前記アトリビ
    ュートに関連する複数のクラスタを含んでおり、前記ク
    ラスタは、少なくとも主要クラスタとミーディアム・ク
    ラスタとアウトライア・クラスタとに分類される、請求
    項1に記載の方法。
  8. 【請求項8】 データベースにおいてドキュメントを検
    索、検出、および同定するためのコンピュータ・システ
    ムであって、前記データベース内の前記ドキュメント
    が、該ドキュメントに含まれるアトリビュートからドキ
    ュメント行列として構成され、前記コンピュータ・シス
    テムは、 少なくとも1つのアトリビュートを使用して前記ドキュ
    メントから前記ドキュメント行列を生成する手段と、 所定の関数から前記ドキュメント行列に基づいてスケー
    ルされた残差行列を生成する手段と、 特異値分解を実行して最大の特異値に対応する基底ベク
    トルを得る手段と、 前記残差行列を再構築し、前記再構築された残差行列を
    動的にスケーリングして別の基底ベクトルを得る手段
    と、 前記特異値分解から前記再構築までを繰り返して所定の
    基底ベクトルのセットを生成する手段と、 前記ドキュメント行列の次元削減を実行して、前記デー
    タベース内の前記ドキュメントの検出、検索および同定
    を行う手段とを含むコンピュータ・システム。
  9. 【請求項9】 前記スケールされた残差行列は、下記式 【数3】 (上式中、Rは、スケールされた残差行列であり、r
    (iは、ドキュメントの数M以下の整数である。)
    は、残差ベクトルであり、|r|は、前記残差ベクト
    ルのノルムであり、Tは、ベクトルに対して施される転
    置演算子であり、qは、前記所定の関数により動的に決
    定されるスケーリング・ファクタである。)により生成
    される、請求項8に記載のコンピュータ・システム。
  10. 【請求項10】 前記特異値分解は、ユーザにより潜在
    的意味解析法または共分散マトリックス法から択一的に
    選択される、請求項8に記載のコンピュータ・システ
    ム。
  11. 【請求項11】 前記所定の関数は、前記残差ベクトル
    の最大ノルムの関数であり、下記式 【数4】 (上式中、pは、正の整数であり、tmaxは、前記残
    差ベクトルの最大ノルムである。)により与えられる、
    請求項8に記載のコンピュータ・システム。
  12. 【請求項12】 前記コンピュータ・システムは、さら
    に、前記残差行列の再構築前に前記基底ベクトルを算出
    された基底ベクトルに対して直交化する手段含む、請求
    項8に記載のコンピュータ・システム。
  13. 【請求項13】 前記スケーリング・ステップは、前記
    基底ベクトルを得る各ステップごとに、異なるスケーリ
    ング・ファクタを使用する、請求項8に記載のコンピュ
    ータ・システム。
  14. 【請求項14】 前記ドキュメント行列は、前記アトリ
    ビュートに関連する複数のクラスタを含んでおり、前記
    クラスタは、少なくとも主要クラスタとミーディアム・
    クラスタとアウトライア・クラスタとに分類される、請
    求項8に記載のコンピュータ・システム。
  15. 【請求項15】 データベースにおいてドキュメントを
    検索、検出、および同定する方法を実行するためのコン
    ピュータ・プログラムであって、前記データベース内の
    前記ドキュメントが、該ドキュメントに含まれるアトリ
    ビュートからドキュメント行列として構成され、前記コ
    ンピュータ・プログラムはコンピュータに、 少なくとも1つのアトリビュートを使用して前記ドキュ
    メントから前記ドキュメント行列を生成するステップ
    と、 前記所定の関数から前記ドキュメント行列に基づいてス
    ケールされた残差行列を生成するステップと、 特異値分解を実行して最大の特異値に対応する基底ベク
    トルを得るステップと、前記残差行列を再構築し、前記
    再構築された残差行列を動的にスケーリングして別の基
    底ベクトルを得るステップと、 前記特異値分解ステップから前記再構築ステップまでを
    繰り返して所定の基底ベクトルのセットを生成するステ
    ップと、 前記ドキュメント行列の次元削減を実行して、前記デー
    タベース内の前記ドキュメントの検出、検索および同定
    を行うステップとを実行させる、コンピュータ・プログ
    ラム。
  16. 【請求項16】 前記スケールされた残差行列は、下記
    式 【数5】 (上式中、Rは、スケールされた残差行列であり、r
    (iは、ドキュメントの数M以下の整数である。)
    は、残差ベクトルであり、|r|は、前記残差ベクト
    ルのノルムであり、Tは、ベクトルに対して施される転
    置演算子であり、qは、前記所定の関数により動的に決
    定されるスケーリング・ファクタである。)により生成
    される、請求項15に記載のコンピュータ・プログラ
    ム。
  17. 【請求項17】 前記特異値分解は、ユーザにより潜在
    的意味解析法または共分散マトリックス法から択一的に
    選択される、請求項15に記載のコンピュータ・プログ
    ラム。
  18. 【請求項18】 前記所定の関数は、前記残差ベクトル
    の最大ノルムの関数であり、下記式 【数6】 (上式中、pは、正の整数であり、tmaxは、前記残
    差ベクトルの最大ノルムである。)により与えられる、
    請求項15に記載のコンピュータ・プログラム。
  19. 【請求項19】 前記プログラムは、さらに、前記残差
    行列の再構築前に前記基底ベクトルを算出された基底ベ
    クトルに対して直交化するステップを実行させる、請求
    項15に記載のコンピュータ・プログラム。
  20. 【請求項20】 前記スケーリング・ステップは、前記
    基底ベクトルを得る各ステップごとに、異なるスケーリ
    ング・ファクタを使用する、請求項15に記載のコンピ
    ュータ・プログラム。
  21. 【請求項21】 前記ドキュメント行列は、前記アトリ
    ビュートに関連する複数のクラスタを含んでおり、前記
    クラスタは、少なくとも主要クラスタとミーディアム・
    クラスタとアウトライア・クラスタとに分類される、請
    求項15に記載のコンピュータ・プログラム。
  22. 【請求項22】 データベースにおいてドキュメントを
    検索、検出、および同定するためのサーバであって、前
    記データベース内の前記ドキュメントが、該ドキュメン
    トに含まれるアトリビュートからドキュメント行列とし
    て構成され、前記サーバは、ネットワークを通してクラ
    イアントと通信し、前記サーバは、 前記ネットワークを通して検索、検出、および同定のた
    めのリクエストを受信する手段と、 前記クライアントから特異値分解のための方法を選択す
    る別のリクエストを受信する手段と、 少なくとも1つのアトリビュートを使用して前記ドキュ
    メントから前記ドキュメント行列を生成する手段と、 所定の関数から前記ドキュメント行列に基づいてスケー
    ルされた残差行列を生成する手段と、 前記別のリクエストに応じて前記特異値分解を実行して
    最大の特異値に対応する基底ベクトルを得る手段と、 前記残差行列を再構築し、前記再構築された残差行列を
    動的にスケーリングして別の基底ベクトルを得る手段
    と、 前記特異値分解から前記再構築までを繰り返して所定の
    基底ベクトルのセットを生成する手段と、 前記ドキュメント行列の次元削減を実行して、前記デー
    タベース内の前記ドキュメントの検出、検索および同定
    を行う手段と、 前記検索、同定および前記同定のうちの少なくとも1つ
    の結果を前記クライアントに戻すための手段とを含むサ
    ーバ。
  23. 【請求項23】 前記スケーリングするための手段は、
    前記基底ベクトルを得る各ステップごとに、異なるスケ
    ーリング・ファクタを使用する、請求項22に記載のサ
    ーバ。
JP2001205183A 2001-07-05 2001-07-05 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のためのシステム、コンピュータ・プログラム、およびサーバ Expired - Fee Related JP3870043B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001205183A JP3870043B2 (ja) 2001-07-05 2001-07-05 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のためのシステム、コンピュータ・プログラム、およびサーバ
US10/190,990 US6920450B2 (en) 2001-07-05 2002-07-08 Retrieving, detecting and identifying major and outlier clusters in a very large database

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001205183A JP3870043B2 (ja) 2001-07-05 2001-07-05 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のためのシステム、コンピュータ・プログラム、およびサーバ
US10/190,990 US6920450B2 (en) 2001-07-05 2002-07-08 Retrieving, detecting and identifying major and outlier clusters in a very large database

Publications (2)

Publication Number Publication Date
JP2003030222A true JP2003030222A (ja) 2003-01-31
JP3870043B2 JP3870043B2 (ja) 2007-01-17

Family

ID=32314038

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001205183A Expired - Fee Related JP3870043B2 (ja) 2001-07-05 2001-07-05 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のためのシステム、コンピュータ・プログラム、およびサーバ

Country Status (2)

Country Link
US (1) US6920450B2 (ja)
JP (1) JP3870043B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272291A (ja) * 2006-03-30 2007-10-18 Kddi Corp 潜在クラス抽出方法および装置ならびに潜在クラス抽出プログラムおよびその記録媒体
JP2007305048A (ja) * 2006-05-15 2007-11-22 Mitsubishi Electric Information Systems Corp 影響因子推定装置及び影響因子推定プログラム
KR100896231B1 (ko) 2007-10-19 2009-05-08 인하대학교 산학협력단 클러스터링 분류와 확률기반검증을 이용한 데이터 관리장치 및 관리방법

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7308138B2 (en) * 2000-12-12 2007-12-11 Hewlett-Packard Development Company, L.P. Document segmentation method
US7409404B2 (en) * 2002-07-25 2008-08-05 International Business Machines Corporation Creating taxonomies and training data for document categorization
US8090717B1 (en) 2002-09-20 2012-01-03 Google Inc. Methods and apparatus for ranking documents
US7568148B1 (en) 2002-09-20 2009-07-28 Google Inc. Methods and apparatus for clustering news content
JP3773888B2 (ja) * 2002-10-04 2006-05-10 インターナショナル・ビジネス・マシーンズ・コーポレーション データ検索システム、データ検索方法、コンピュータに対してデータ検索を実行させるためのプログラム、該プログラムを記憶したコンピュータ可読な記憶媒体、検索されたドキュメントを表示するためのグラフィカル・ユーザ・インタフェイス・システム、グラフィカル・ユーザ・インタフェイスを実現するためのコンピュータ実行可能なプログラムおよび該プログラムを記憶した記憶媒体
US7475087B1 (en) * 2003-08-29 2009-01-06 The United States Of America As Represented By The Secretary Of Agriculture Computer display tool for visualizing relationships between and among data
US7577655B2 (en) 2003-09-16 2009-08-18 Google Inc. Systems and methods for improving the ranking of news articles
US20050246330A1 (en) * 2004-03-05 2005-11-03 Giang Phan H System and method for blocking key selection
US7676463B2 (en) * 2005-11-15 2010-03-09 Kroll Ontrack, Inc. Information exploration systems and method
US20070124316A1 (en) * 2005-11-29 2007-05-31 Chan John Y M Attribute selection for collaborative groupware documents using a multi-dimensional matrix
JP4953239B2 (ja) * 2006-12-11 2012-06-13 インターナショナル・ビジネス・マシーンズ・コーポレーション 観測対象の異常を検出する技術
US8050989B2 (en) * 2007-05-20 2011-11-01 Cvidya Networks Ltd. Methods, systems and computer code for finding outlier hyper cells in multidimensional hierachical data sets
US7779040B2 (en) 2007-09-27 2010-08-17 Amazon Technologies, Inc. System for detecting associations between items
US7827186B2 (en) * 2007-09-28 2010-11-02 Amazon Technologies, Inc. Duplicate item detection system and method
KR20090112095A (ko) * 2008-04-23 2009-10-28 삼성전자주식회사 방송 컨텐츠의 저장 방법, 디스플레이 방법 및 그 장치
CN101533406B (zh) * 2009-04-10 2010-10-13 北京锐安科技有限公司 一种海量数据查询方法
EP2488970A4 (en) * 2009-10-15 2016-03-16 Rogers Comm Tnc SYSTEM AND METHOD FOR CLASSIFYING MULTIPLE DATA STREAMS
US9258530B2 (en) * 2010-04-09 2016-02-09 Canon Kabushiki Kaisha Method for accessing a spatio-temporal part of a compressed video sequence using decomposed access request
US9785718B2 (en) 2011-07-22 2017-10-10 Nhn Corporation System and method for providing location-sensitive auto-complete query
KR101344913B1 (ko) * 2011-07-22 2013-12-26 네이버 주식회사 지역별 자동완성 질의어 제공 시스템 및 방법
US9171339B2 (en) 2011-11-03 2015-10-27 International Business Machines Corporation Behavior change detection
CN103530378B (zh) * 2013-10-15 2017-01-18 福建榕基软件股份有限公司 数据分页查询与数据库的构建的方法与装置
US10191956B2 (en) 2014-08-19 2019-01-29 New England Complex Systems Institute, Inc. Event detection and characterization in big data streams
CN104536962A (zh) * 2014-11-11 2015-04-22 珠海天琴信息科技有限公司 一种用于嵌入式***中的数据查询方法及装置
US10355360B2 (en) * 2016-01-20 2019-07-16 Taoglas Group Holdings Limited Systems, devices and methods for flexible meander line patch antenna
US10754581B2 (en) 2016-03-31 2020-08-25 Hewlett Packard Enterprise Development Lp Identifying outlying values in matrices

Family Cites Families (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US260924A (en) * 1882-07-11 Device for loading and unloading vessels
US1522707A (en) * 1921-10-06 1925-01-13 Andrews Crane Corp Freight-handling system
US1808873A (en) * 1929-04-16 1931-06-09 Francis H Weeks Method and apparatus for transferring cargoes by crane
US1939037A (en) * 1932-07-26 1933-12-12 Bogert John Lawrence Method of handling cargo in ships' holds
US2509023A (en) * 1947-07-05 1950-05-23 Theodore F Vogel Jr Apparatus for handling unit loads
US2593494A (en) * 1949-06-01 1952-04-22 Edgar C Seward Freight handling equipment
US2683010A (en) * 1950-04-01 1954-07-06 Jr Jay Platt Hamerslag Pallet and spacer
US2672571A (en) * 1950-08-30 1954-03-16 Univ Leland Stanford Junior High-frequency oscillator
US2809807A (en) * 1954-08-12 1957-10-15 Schlumberger Prospection Formation fluid sample taking apparatus
US2782066A (en) * 1955-07-08 1957-02-19 Shell Dev Co Jaw construction for lift trucks
US2808157A (en) * 1955-08-05 1957-10-01 Kroger Co Fork lift handling equipment for palletized loads
US2988036A (en) * 1957-08-09 1961-06-13 Mooneyhan Roy Earl Barge cargo ship
US3370880A (en) * 1965-09-29 1968-02-27 Eaton Yale & Towne Carton clamps
US3412876A (en) * 1966-03-09 1968-11-26 Frank Calabrese Apparatus for the loading and unloading of palletized cargo on floating vessels
US3332716A (en) * 1966-07-18 1967-07-25 Harland D Gridley Cargo handling apparatus
US3421641A (en) * 1966-09-12 1969-01-14 Cascade Corp Apparatus for automatically handling palletized loads
US3433376A (en) * 1967-04-26 1969-03-18 Clark Equipment Co Combination facing for clamp device
US3430585A (en) * 1967-10-25 1969-03-04 Towmotor Corp Material handling pallet
US3687300A (en) * 1970-12-07 1972-08-29 Ulf Andersson Load handling mechanism
US3946880A (en) * 1974-05-28 1976-03-30 Columbia Machine, Inc. Apparatus for disassembling a layered stack of articles
US3971584A (en) * 1975-03-17 1976-07-27 Gte Sylvania Incorporated Automatic load compensating clamp truck jaws
NZ180850A (en) * 1975-05-27 1979-04-26 Container Cargo Carriers Corp Container ship loaded through ramped entrance at bow
GB1535379A (en) * 1976-03-05 1978-12-13 South Warwickshire Packaging S Containers
US4055263A (en) * 1976-05-28 1977-10-25 Naylor, Neal & Uilkema Freight handling method
US4165806A (en) * 1976-07-26 1979-08-28 Bud Antle, Inc. Palletizing system for produce cartons and the like
US4097358A (en) * 1976-08-30 1978-06-27 Diamond Shamrock Corporation Apparatus for release of an entrained gas in a liquid medium
US4124126A (en) * 1977-10-07 1978-11-07 Carver Foundry Products Roll-over mechanism
US4185944A (en) * 1978-06-29 1980-01-29 Cascade Corporation Slide structure for parallel arm clamps and the like
US4184435A (en) * 1978-08-07 1980-01-22 Richard Shevchenko Industrial pallets and method of manufacturing
US4279564A (en) * 1980-01-14 1981-07-21 Cascade Corporation Parallel arm clamp having improved attaching assembly for narrow clamp arms
US4439093A (en) * 1980-04-14 1984-03-27 Growers Vacuum Cool Company Carton handling system
US4543035A (en) * 1981-10-14 1985-09-24 Lair George J Method for loading cargo
US4737069A (en) * 1984-02-09 1988-04-12 Coblentz W Sam Method of transporting bagged cargo
US4482426A (en) * 1984-04-02 1984-11-13 Rca Corporation Method for etching apertures into a strip of nickel-iron alloy
US4606690A (en) * 1984-05-08 1986-08-19 Nabisco Brands, Inc. Method and apparatus for load transfer
US4619579A (en) * 1984-07-13 1986-10-28 Brudi Equipment Co. Free standing lift truck attachment with quick connection
US4556359A (en) * 1984-07-23 1985-12-03 Anderson, Clayton & Co. Load carrying clamp attachment for a lift truck
US4640657A (en) * 1984-09-10 1987-02-03 Moore Robert W Carton loading method and system
US4890973A (en) * 1985-01-16 1990-01-02 Brudi Equipment, Inc. Universal fork-supported push-pull slip sheet handling attachment for forklift trucks
US4642020A (en) * 1985-01-31 1987-02-10 Long Reach Manufacturing Co. Tubular slide lift truck attachment
US4694962A (en) * 1985-06-10 1987-09-22 Taub Ronald H Standard dimension pallet assembly formed of separate abutted segments
US4660404A (en) * 1985-08-08 1987-04-28 Mwa Company Die manipulator
US4850283A (en) * 1986-11-14 1989-07-25 Carvin David A System to permit cargo to be pre-slung after warehouse palletization
US4752179A (en) * 1987-01-27 1988-06-21 Cascade Corporation Push-pull load handler for forklift truck
GB8727765D0 (en) * 1987-11-27 1987-12-31 Pallet Handling Ltd Pallet
GB2234957B (en) * 1989-08-07 1994-03-23 Totall Products Ltd Apparatus for handling packaged bottles,cans,or the like
US5118243A (en) * 1990-10-09 1992-06-02 Columbia Machine, Inc. Pallet load transfer method and apparatus
US5144897A (en) * 1991-02-12 1992-09-08 Dow Corning Corporation Shipping package combination
US5205410A (en) * 1992-03-16 1993-04-27 Say Plastics Loose-egg transport panel
US5323911A (en) * 1992-09-11 1994-06-28 The Morning Star Packing Co. Palletized container having discrete compartments formed by dividers
SE501843C2 (sv) * 1992-09-24 1995-06-06 Floatline Ab Förfarande jämte anordning för transport av fordon
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5567112A (en) * 1994-02-08 1996-10-22 South Jersey Port Corporation Cargo ship off-loading method and cargo carrier
DE4417691C2 (de) * 1994-05-20 1997-01-30 Roland Man Druckmasch System zum Vorbereiten eines Bogenstapels auf die Verarbeitung in einer bogenverarbeitenden Maschine
US5482426A (en) * 1994-07-13 1996-01-09 White; Gary L. Pallet changing method
US5503247A (en) * 1994-07-28 1996-04-02 Southworth Products Corp. Pallet level loader
US5505140A (en) * 1994-09-01 1996-04-09 Unisys Corporation Pallet having hidden ramps
CA2228161A1 (en) * 1995-07-31 1997-02-13 Harry E. Anderson In-line material handling system with pallet baskets
US5525030A (en) * 1995-09-01 1996-06-11 Reynolds Consumer Products Inc. Stacking devices
US5788461A (en) * 1996-02-02 1998-08-04 Alvey, Inc. Automatic depalletizer
US5972464A (en) * 1997-06-04 1999-10-26 Pezzuco; Kevin O. Pallet wrapping apparatus
US5918745A (en) * 1998-04-28 1999-07-06 Aluminum Company Of America Stretch wrapped heavy coils
US5980198A (en) * 1998-06-08 1999-11-09 Stevedoring Services Of America, Inc. Method for handling, transporting and loading cartons of frozen animal products onto vessels
US6622854B2 (en) * 1998-06-08 2003-09-23 Stevedoring Services Of America, Inc. Method and apparatus for loading stacks of cartons of frozen animal products onto vessels using a carrier
US6375407B1 (en) * 1998-06-08 2002-04-23 Stevedoring Services Of America, Inc. Method and apparatus for handling, transporting, pallet removal and loading cartons of frozen animal products onto vessels
US6267255B1 (en) * 1998-07-24 2001-07-31 John Brush Merchandiser with shroud and header forming panels
US6490982B1 (en) * 1999-03-15 2002-12-10 Howard J. Trickett Device and method for transporting materials
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6082947A (en) * 1999-08-17 2000-07-04 Adamson; James E. Coordinated motion marine lifting device
US6539880B2 (en) * 2001-01-08 2003-04-01 Walter Brian Simms Corrugated paperboard pallet rail

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272291A (ja) * 2006-03-30 2007-10-18 Kddi Corp 潜在クラス抽出方法および装置ならびに潜在クラス抽出プログラムおよびその記録媒体
JP2007305048A (ja) * 2006-05-15 2007-11-22 Mitsubishi Electric Information Systems Corp 影響因子推定装置及び影響因子推定プログラム
JP4495691B2 (ja) * 2006-05-15 2010-07-07 三菱電機インフォメーションシステムズ株式会社 影響因子推定装置及び影響因子推定プログラム
KR100896231B1 (ko) 2007-10-19 2009-05-08 인하대학교 산학협력단 클러스터링 분류와 확률기반검증을 이용한 데이터 관리장치 및 관리방법

Also Published As

Publication number Publication date
JP3870043B2 (ja) 2007-01-17
US6920450B2 (en) 2005-07-19
US20040010485A1 (en) 2004-01-15

Similar Documents

Publication Publication Date Title
JP3870043B2 (ja) 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のためのシステム、コンピュータ・プログラム、およびサーバ
JP3672234B2 (ja) データベースからのドキュメントのリトリーブ・ランク付け方法、コンピュータシステム、および記録媒体
WO2020143184A1 (zh) 知识融合方法、装置、计算机设备和存储介质
Dong et al. Modeling LSH for performance tuning
Aggarwal On the effects of dimensionality reduction on high dimensional similarity search
US9330165B2 (en) Context-aware query suggestion by mining log data
JP5749279B2 (ja) アイテム関連付けのための結合埋込
US6633868B1 (en) System and method for context-based document retrieval
US8447110B2 (en) Time-series analysis of keywords
US20100241647A1 (en) Context-Aware Query Recommendations
US20100318531A1 (en) Smoothing clickthrough data for web search ranking
JP3845553B2 (ja) データベースにおけるドキュメントのリトリーブ・ランク付けを実行するコンピュータ・システム、およびプログラム
JP2003256477A (ja) ランダムサンプル階層構造を用いた情報処理
US7533094B2 (en) Method and system for determining similarity of items based on similarity objects and their features
Goh et al. Dyndex: a dynamic and non-metric space indexer
US9977816B1 (en) Link-based ranking of objects that do not include explicitly defined links
US7895198B2 (en) Gradient based optimization of a ranking measure
JP4074564B2 (ja) コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置
Zhu et al. Information retrieval using Hellinger distance and sqrt-cos similarity
JP3773888B2 (ja) データ検索システム、データ検索方法、コンピュータに対してデータ検索を実行させるためのプログラム、該プログラムを記憶したコンピュータ可読な記憶媒体、検索されたドキュメントを表示するためのグラフィカル・ユーザ・インタフェイス・システム、グラフィカル・ユーザ・インタフェイスを実現するためのコンピュータ実行可能なプログラムおよび該プログラムを記憶した記憶媒体
Phadnis et al. Framework for document retrieval using latent semantic indexing
Deshmukh et al. A literature survey on latent semantic indexing
JP2004046612A (ja) データマッチング方法、データマッチング装置、データマッチングプログラムおよびコンピュータで読み取り可能な記録媒体
Al-Mofareji et al. WeDoCWT: A new method for web document clustering using discrete wavelet transforms
Canhasi Fast Document Summarization using Locality Sensitive Hashing and Memory Access Efficient Node Ranking.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061003

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20061003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061016

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091020

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101020

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101020

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111020

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121020

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121020

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131020

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees