JP3790699B2 - Information visualization system, information visualization method, program therefor, recording medium on which the program is recorded, and information retrieval service system - Google Patents

Information visualization system, information visualization method, program therefor, recording medium on which the program is recorded, and information retrieval service system Download PDF

Info

Publication number
JP3790699B2
JP3790699B2 JP2001329613A JP2001329613A JP3790699B2 JP 3790699 B2 JP3790699 B2 JP 3790699B2 JP 2001329613 A JP2001329613 A JP 2001329613A JP 2001329613 A JP2001329613 A JP 2001329613A JP 3790699 B2 JP3790699 B2 JP 3790699B2
Authority
JP
Japan
Prior art keywords
information
visualization
matrix
vector
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001329613A
Other languages
Japanese (ja)
Other versions
JP2003141165A (en
Inventor
雅樹 青野
メイ 小林
光 寒川
広宜 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2001329613A priority Critical patent/JP3790699B2/en
Publication of JP2003141165A publication Critical patent/JP2003141165A/en
Application granted granted Critical
Publication of JP3790699B2 publication Critical patent/JP3790699B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、大量の文書といったデータベースに保持された情報の可視化に関し、より詳細には、データベースに保持されたドキュメントを検索し、検索された情報を効率的にユーザに提供するための情報可視化システム、情報可視化方法、そのためのプログラム、該プログラムが記録されたコンピュータ可読な記録媒体、および情報検索サービス・システムに関する。
【0002】
【従来の技術】
これまで、データベースにおいて情報を検索することは広く行われてきており、特にコンピュータ・ネットワークを介して情報を検索することが可能な現在では、検索対象は、ドキュメント、画像、グラフィックス、オーディオ、ビデオといったデータを含む情報にまで広がりを見せ、ますます増大する傾向にある。このため、情報検索を迅速、かつ低コストに行うための方法は、種々提案されており、検索速度も向上されている。
【0003】
例えば、Deerwesterらは、“Indexing by latent semantic analysis,”Journal of the American Society for Information Science, 41, 6 (1990), pp. 391-407において、情報検索の新手法として潜在的意味解析手法(Latent Semantic Indexing (LSI))を提案している。Deerwesterらの方法は、これまでのベクトル空間モデルに基づく情報検索でとりこぼしなどが生じていた、類似キーワード(たとえば「月」を英語で検索する場合、“moon”で検索し、“moon”が含まれないが“lunar”が含まれるような文書を類似キーワードと言う)の検索を可能とし、加えて次元を削減することにより、実時間でのクエリーに対する検索およびその意味解析に基づく結果を与える検索方法を可能としている。
【0004】
Deerwesterらの方法における技術的なアイデアは、線形代数、特に任意矩形サイズの行列に対する特異値分解(Singular Value Decomposition:SVD)を利用するものである。
【0005】
上述した特異値分解は、「特異値分解定理」を使用して実行されるものであり、与えられた行列Aが正則でなくても分解できるという性質を有している。また特に実正定値対称行列の場合は、A=UΣU(ただし、Σは、固有値が対角項にくる対角行列)として分解することができる。上記の特異値分解でキーとなるのは、Σ(対角行列)であり、この対角行列には、非零の実数値が並ぶ。これを降順(特異値の大きい順)に対角項に並べることができる。
【0006】
上述した行列の次元削減法は、特異値の大きい値から、行列のランクよりも小さな一定の数kだけを選択し、これとそれに対応する特異ベクトルとを使用して、行列Aを代表させようというものである。実際、大きい特異値およびそれに対応する特異ベクトルのペアほど、行列Aの性質をよく反映していることが知られている(Michael W. Berry, Susan T. Dumais, and Gavin W. O’Brien, “Using Linear Algebra for Intelligent Information Retrieval”, SIAM Review Vol. 37, No.4, pp.573-595, December 1995)。
【0007】
一方、本発明者らは、“Retrieval and ranking of documents from a database”、 IBM Patent Docket No. JP9-2000-0075(特願2000−175848号)において、与えられた行列を統計的に扱って次元を削減できる共分散行列法(COV法)を提案している。
【0008】
小林らにより提案された方法は、多くの場合LSI法よりも良好な結果(たとえば検索などの応用)をもたらす。この理由は、LSI法が対象物(行列Aの中身がゼロまたは正の実数値と仮定する)を遠くから見て低次元に射影して結果を評価すると捕らえられるのに対し、COV法は、共分散行列を生成して対象物の中心に原点を移動させ、そこから見て、データを低次元に射影してデータを評価するためである。
【0009】
しかしながら、上述したように情報検索を行うための方法が改善され、検索対象となるデータも膨大となるにつれて、検索により得られる情報やデータは膨大なものとなり、ユーザまたはデータの検索者が検索結果を解析し、検索者の目的とする情報を容易に判断できないという問題も生じてきている。
【0010】
検索されたデータを可視化するための技術(いわゆる、Information Visualization)もこれまで種々の手法が提案されている。検索されたデータを可視化する技術全般に関しては、例えばRobert Spencerによる、“Information Visualization”, Addison-Wesley, 2001、において総説されている。またRichard Baeza-Yates and Berthier Ribeiro-Neto, “Modern Information Retrieval”, Addison-Wesley, 1999 のChapter 10, “User Interfaces and Visualization”においても簡潔に従来手法について総説されている。同様に、Webサイト上においても、Emile Morse, “Document Visualization”,
http://www.itl.nist.gov/iaui/vvrg/emorse/papers/soa/DocumentVisualization.htmで特定されるURLアドレスで特定されるファイルにおいて総説されている。
【0011】
また、Hearst, M.A. (1995) TileBars: “Visualization of Term Distribution Information in Full Text Information Access”,ACM, Proceedings CHI’95, pp.59-66.)においては、いわゆるTileBar法が記載されており、TileBar法は、ユーザが入力したクエリーに対して2次元のタイル状のレスポンスを返すシステムである。TileBar法においては、タイル状のパターンを使用して、このタイル部分の濃淡でクエリーのキーワードがどの程度含まれるかが表現される。TileBar法では、タイルの横の長さを文書の長さに対応させて表示させるものであって、ユーザ・クエリー・データ(すなわちユーザ嗜好データ)が増えていくにつれ、タイルの(縦方向の)サイズが増大すること、また表示が濃淡だけなので、なかなかそれがユーザの嗜好に一致するデータかどうか判断しづらいこと、さらにドキュメント間の類似性の情報がないことなどどの不都合があった。
【0012】
また、Matthew Chalmers, “Using A Landscape Metaphor to Represent a Corpus of Documents Proc. European Conference on Spatial Information Theory, Elba, September 1993. Published as Spatial Information Theory”, Springer Verlag LNCS 716, A. Frank & I. Campari (eds.), 1993, pp. 377-390.)においては、Chalmersの開発したLandscape法が記載されている。このLandscape法は、ユーザ入力されたクエリーに対する可視化をするものではなく、あらかじめドキュメントの集合体に対し、互いの類似度を計算して“地図”を作成しておき、これを3次元の鳥瞰図(Landscape)で表現するものである。この手法は、ドキュメントの相互関係を表示するには好都合ではあるものの、ユーザの嗜好データに関連したデータを表示するものではないという不都合を有している。
【0013】
また、Chalmersにより提案された“Bead”と呼ばれるシステム(“Bead: Explorations in Information Visualisation ”,Proc. ACM SIGIR'92, ACM Press, pp. 330-337, June 1992.)は、所定のユーザ・クエリーに対する関連文書の番号を雲状(a point cloud)に表現するものである。しかしながら、記載されているデータの可視化方法は、単純な点の集合体を使用するだけのものであり、ユーザの望む結果をユーザに対して効率よく直感的に把握させるのは難しい、という不都合があった。
【0014】
また、Wise, et al,“Visualizing the Non-Visual: Spatial Analysis and Interaction with Information from Text Documents”, IEEE, Proceedings, of InfoVis’95, pp. 51-58.)においては、Themescapes法が記載されており、このThemescape法は、多次元クラスターデータを3次元のLandscapeにマッピングするという点では、Landscape法と同様である。このThemescape法は、Landscapes法に対してシェーディングを施し、あたかも地図データをレンダリングしたようにしてデータを表示させる点で有利ではある。すなわち、Themescapes法においては、地図の起伏が意味を有しており地図上の表示の「山頂」は、類似データまたはドキュメントが多いデータまたは事象を指し、「谷」はほとんどデータがないことを表わす。
【0015】
上述したThemescapes法の特長は、単にLandscapeを見せるだけでなく、ユーザインタラクションを意識し、“focus circle”という円状のマーカーをLandscape上に表示させ、“focus circle”内のドキュメントのタイトル表示をさせ、必要に応じて、ドキュメント・データへの詳細なアクセスを可能とする操作を可能としている。しかしながら、ユーザ入力クエリーに対して検索を行い、検索者の必要とするデータを表示させるといった点においては、充分なものではなかった。
【0016】
上述した以外では、Rennison, E, “Galaxy of News: An Approach to Visualizing and Understanding Expansive News Landscapes”, ACM Proceedings of UIST’94, pp.3-12, 1994)、Kohonen, T, “The self-organizing map”, Proceedings IEEE, 78, 9, pp. 1464-1480, 1990)にもデータの可視化方法が記載されている。しかしながら、上述したいずれの方法においてもユーザの入力したクエリーに関連する膨大なデータを、ユーザが把握しやすいように可視化する点については充分なものとはいえない。
【0017】
また、ユーザの検索したデータに関連して、検索結果を可視化するための方法についても多くの検討が行われており、例えば、1999年に開始されたWebVisは、Web-Based Information Visualizationのワークショップである。この中には、“Topics of Interest”に“visualization of Web search results”(Webブラウザの検索エンジン結果の可視化技術)が含まれている。また、IEEE InfoVisやACM SIGIRでも検索結果の可視化に関する報告がいくつかなされており、代表的なものとして、A. Rauber and H. Bina. “Andreas, Rauber'− Conference Pages Are over There, German Documents on the Lower Left, −An "Old−Fashioned" Approach to Web Search Results Visualization”, Workshop Proceedings of the 2nd Intl Workshop on Web-Based Information Visualization (WebVis 2000), 4. −8. Sept. 2000, Greenwich, UK; Tjoa, {A M.}, Wagner, {R.R.}, and Al-Zobaidie, A. (Eds.), pp. 615 − 619 (2000)、Ratvinder Grewal, Mike Jackson, Jon Wallis and Peter Burden,” Using Visualisation to Interpret Search Engine Results”, Proceedings of The Active Web 1999, Randall M. Rohrer, John L. Silbert, and David S. Ebert, “A Shape-based Visual Interface for Text Retrieval”, IEEE CG & A, Vol.19, No.5, pp.40-46, 1999)、http://www.minor3d.com/で特定されるURLサイトの情報、http://maps.map.net/で特定されるURLサイトの情報、
Cat-a-Cone システム、(http://www.parc.xerox.com/istl/peojects/ia/papers/cac-sigir97/sigir97.html)、NIRVE システム(Marc M. Sebrechts, John V. Cugini, et al, “Visualization of Search Results: A Comparative Evaluation of Text, 2D, and 3D Interfaces”, Proc. SIGIR’99, pp.3-10, 1999)などが知られている。しかしながら、ユーザ入力クエリーに対する検索結果をユーザに対して効率よく、かつ理解しやすいように可視化させる点においては充分なものではなかった。
【0018】
さらに、過去の検索結果を表示させるための技術として、特開2000-76279号公報、特開平11-259516号公報、特開平9-190444号公報に記載された技術が知られている。しかしながら、上述した多数の技術がているにもかかわらず、これまでユーザが入力したクエリーの関連して検索されたデータを効率的にユーザに対して実時間で提示することを可能とし、ユーザが必要とする情報を効率的に表示し、検索されたデータを効率的に解析してデータの利用性を向上させることを可能とする、効果的なデータ可視化システム、検索されたデータの可視化方法、そのためのプログラム並びに該プログラムが記録された記録媒体はこれまで提案されていない。
【0019】
また、これまで、大規模なデータベースから検索された情報について、ユーザに対して効率的に提供することができる情報検索サービス・システムは知られていなかった。
【0020】
【発明が解決しようとする課題】
すなわち本発明は、上述した従来技術の不都合に鑑みてなされたものであり、本発明は、ユーザが入力したクエリーといった情報を選択するための情報に関連して検索されたデータを、効率的にユーザに対して実時間で提示することを可能とし、ユーザが必要とする情報を効率的に表示し、検索されたデータを効率的に解析してデータの利用性を向上させることを可能とするデータ可視化システム、検索されたデータの可視化方法、そのためのプログラム、該プログラムが記録された記録媒体および情報検索サービス・システムを提供することを目的とする。
【0021】
【課題を解決するための手段】
本発明は、大規模な文書データが与えられた場合に、その中からユーザの嗜好するデータを可視化する装置を提案するものである。ここで扱う大規模な情報としては、ドキュメントを保持するデータベースなどを挙げることができる。このようなデータベースは通常では(多次元)ベクトル空間モデルを用いる手法に基づくモデル化を用いて数値化された行列としてデータが保存されているものとする。ドキュメントの数が非常に多い大規模なデータをベクトル空間モデルで扱う場合、ベクトル空間の次元の削減(dimensional reduction)がユーザの嗜好データ(検索エンジンではキーワードそのもの)に対する実時間のクエリーに耐えるためには必須となる。
【0022】
次元削減法としては本発明においては、潜在的意味解析法(LSI法)や共分散行列を用いた手法(COV法)を使用することができる。これらの次元削減法で文書中のキーワードの次元を大幅に減らすことができ、たとえば、10,000キーワードをLSI法やCOV法で100〜200次元に次元削減する。次元削減により、次元削減されたインデックスを作成しておき、低次元空間での実時間嗜好データ検索へと提供する。しかしながら、100〜200次元に次元削減された空間であっても、ユーザが高次元の空間的認識を要する検索データを直感的に見たり判断したりすることはできない。
【0023】
通常の検索エンジンでは、所定のクエリーに対する検索結果は、(ハイパー)テキストで(ランキング付き)結果を表示する。しかしながら、本発明は、ユーザ入力クエリーに対する関連性を自動的に抽出して次元削減された空間を代表する座標軸を自動的に決定し、キーワードに対する検索やクラスター処理の結果を簡便に可視化するものである。
【0024】
すなわち、本発明によれば、データベース内において数値化された行列として保持された所定の情報を可視化表示するための情報可視化システムであって、該システムは、
前記行列を特異値分解して特異ベクトルを生成するための手段と、
前記行列を前記特異ベクトルを使用して次元削減するための手段と、
前記所定の情報を選択するための選択ベクトルを与えるための手段と、
前記選択ベクトルを前記特異ベクトルを使用して次元削減し、次元削減された前記選択ベクトルの要素を大きい方から降順に所定数選択して可視化座標軸とするための手段と
を含む情報可視化システムが提供される。
【0025】
本発明の情報可視化システムは、前記次元削減された行列と前記次元削減された選択ベクトルとを用いて前記行列から情報を選択する手段と、
前記選択された情報を前記可視化座標軸に対して射影して可視化表示を与えるための手段とを含むことができる。本発明においては、前記情報は、前記データベースに保持されたドキュメントであり、前記選択ベクトルは、検索を行うためのクエリー・ベクトルであることが好ましい。本発明においては、前記行列を特異値分解して特異ベクトルを生成するための手段は、潜在的意味解析法または共分散行列法を実行する手段を含むことができる。本発明においては、前記可視化座標軸をアフィン変換して、前記選択された情報の可視化表示を変化させる手段を含むことができる。本発明では、前記選択された情報の可視化表示を与えるための手段は、前記可視化表示を多次元で与える手段を含むことができる。
【0026】
本発明によれば、データベース内において数値化された行列として保持された所定の情報を可視化表示するための情報可視化方法であって、
前記行列を特異値分解して特異ベクトルを生成するステップと、
前記行列を前記特異ベクトルを使用して次元削減するステップと、
前記所定の情報を選択するための選択ベクトルを与えるステップと、
前記選択ベクトルを前記特異ベクトルを使用して次元削減し、次元削減された前記選択ベクトルの要素を大きい方から降順に所定数選択して可視化座標軸とするステップと
を含む情報可視化方法が提供される。
【0027】
本発明によれば、データベース内において数値化された行列として保持された所定の情報を可視化表示するための情報可視化方法を実行させるためのプログラムであって、該プログラムは、
前記行列を特異値分解して特異ベクトルを生成するステップと、
前記行列を前記特異ベクトルを使用して次元削減するステップと、
前記所定の情報を選択するための選択ベクトルを与えるステップと、
前記選択ベクトルを前記特異ベクトルを使用して次元削減し、次元削減された前記選択ベクトルの要素を大きい方から降順に所定数選択して可視化座標軸とするステップと
を実行させるプログラムが提供される。
【0028】
本発明によれば、データベース内において数値化された行列として保持された所定の情報を可視化表示するための情報可視化方法を実行させるためのプログラムが記録されたコンピュータ可読な記録媒体であって、前記プログラムは、
前記行列を特異値分解して特異ベクトルを生成するステップと、
前記行列を前記特異ベクトルを使用して次元削減するステップと、
前記所定の情報を選択するための選択ベクトルを与えるステップと、
前記選択ベクトルを前記特異ベクトルを使用して次元削減し、次元削減された前記選択ベクトルの要素を大きい方から降順に所定数選択して可視化座標軸とするステップと
を実行させるプログラムが記録されたコンピュータ可読な記録媒体が提供される。
【0029】
本発明によれば、データベース内において数値化された行列として保持されたドキュメントを検索するサーバを含み、検索結果を可視化表示して提供する情報検索サービス・システムであって、
ネットワークを介して認証情報を受信するための手段と、
前記認証情報の正当性を判断するための手段と、
前記認証情報が正当である場合に検索クエリーを受信する手段と、
前記行列を特異値分解して特異ベクトルを生成するための手段と、
前記行列を前記特異ベクトルを使用して次元削減するための手段と、
前記検索クエリーに関連して生成されたクエリー・ベクトルを前記特異ベクトルを使用して次元削減し、次元削減された前記選択ベクトルの要素を大きい方から降順に所定数選択して可視化座標軸とするための手段と、
前記次元削減された行列と前記次元削減されたクエリー・ベクトルとを用いて前記行列から情報を選択する手段と、
前記選択された情報を前記可視化座標軸に対して射影して可視化表示び関連するデータを生成するための手段と、
少なくとも前記可視化表示に関連するデータを前記ネットワークを介して送信する手段とを含む
情報検索サービス・システムが提供される。
【発明の実施の形態】
セクション1:本発明の情報検索・可視化システム
図1は、本発明の情報可視化システム(以下、システムと略する。)の概略を示した概略図である。本発明のシステムは、図1(a)に示されるように、ネットワーク1を通して接続された複数の端末手段2と、端末手段2からネットワーク1を介して送信される情報を選択してユーザの希望する情報を提供するための検索クエリーを受信し、データベース3において必要に応じて情報検索を実行させ、可視化表示を可能とするためのサーバ4とを含んで構成されている。
【0030】
端末手段2は、検索を実行しようとするユーザのサイトに設置されていて、ユーザの入力に応じて、検索クエリーをサーバ4へと送信する。また、端末手段2は、検索の結果サーバにより検出されたドキュメントといった情報の可視化表示に関連するデータを、サーバ4から受信して、本発明にしたがいユーザに対して検索結果の可視化表示を提供している。
【0031】
本発明におけるネットワーク1は、いわゆるインターネットを挙げることができるが、これ以外にも光通信、LAN/WANといった適切な通信プロトコルを用いる通信により遠隔的に情報を送受信することができるものであれば、いかなるネットワークでも用いることができる。この通信に用いることができる通信プロトコルとしては、例えばTCP/IPといった通信プロトコルを用いることができるが、これに限定されるわけではない。
【0032】
本発明において用いられる端末手段2としては、パーソナル・コンピュータ、モバイル・コンピュータ、セルラ電話、またはワークステーションなど、本発明の可視化表示を可能とするハードウエア資源を含むものであればいかなるものでも用いることができる。上述したパーソナル・コンピュータまたはワークステーションとしては、PENTIUM(登録商標)といったCPU又はこれと互換性のあるCPUを搭載することが可能で、WINDOWS(登録商標)、WINDOWS(登録商標)NT、OS/2(登録商標)、AIX(登録商標)、ユニックス(登録商標)、リナックスといったオペレーティング・システムを動作させることが可能なパーソナル・コンピュータ、モバイル・コンピュータ、ワークステーションを挙げることができるが、これらのものに限定されるわけではない。
【0033】
また、本発明において端末手段2として使用することができるセルラ電話としては、インターネットに対して適切なゲートウエイを通してアクセスすることが可能であればいかなる方式、またはキャリアのものでも用いることができ、例えばi−モード(商標)、J−スカイ(商標)、EZ−Web(商標)といった無線ネットワークを使用するものを挙げることができるがこれらに限定されるものではない。
【0034】
また、本発明において使用することができるサーバ4としては、上述したコンピュータ、ワークステーション、汎用コンピュータなど、必要なデータを処理することが可能なハードウエア資源を保有している限り、いかなるものでも用いることができる。
【0035】
さらに、本発明の別の実施の形態においては、特にクライアント・サーバ・システムとしてシステム構成するのではなく、スタンド・アローンのパーソナル・コンピュータまたはワークステーションを使用して本発明のシステムを構築することができる。
【0036】
本発明において使用されるデータベース3には、逐次的にドキュメントが蓄積されている。また、データベース3においては、データベース内に蓄積されたドキュメントは、所定のキーワードによりバイナリ・モデルまたは適切な重み付けを使用してドキュメント・ベクトルへと変換される。生成されたドキュメント・ベクトルは、ドキュメント−キーワード行列(以下、ドキュメント行列と略する。)として蓄積されている。なお、本発明において使用することができるドキュメントは、テキスト、HTML、SGMLといった文書データに限られず、画像データ、グラフィックス・データ、オーディオ・データ、ビデオ・データ(MPEGなど)、またはこれらがいかなるようにでも組み合わされたマルチメディア・データでも用いることができる。
【0037】
また、図1(a)において示される本発明に使用することができるデータベース3は、必要に応じて随時データを追加することができるものであればいかなる形式のものでも良い。また、図1(a)においては、データベース3として1つ使用されているのが示されているが、本発明においては後述するように、必要に応じて複数のデータベースを使用して、互いに必要とされるデータを参照させる構成を採用することができる。
【0038】
図1(b)は、本発明のシステムのさらに別の態様を示した図である。本発明のシステムは、大きく、検索エンジン・ブロックと、可視化エンジン・ブロックへと機能的に分類することができる。図1(a)においては、検索エンジン・ブロックと可視化エンジン・ブロックとが、サーバ4に含まれているものとすることができる。しかしながら、本発明においては、適切な可視化エンジンを端末装置に導入して、ネットワークを介してサーバ4が検索した結果を端末手段2へと送信して、端末手段2が可視化処理を実行する構成としてシステムを構築することができる。
【0039】
図2は、本発明においてサーバ4がデータベース3に含まれたドキュメントを検索し、可視化処理を可能とするために使用する機能を示した機能ブロック図である。
【0040】
図2に示されるように、本発明において使用するサーバ4は、ドキュメントを保持するデータベース10を含んでいるのが示されている。図2に示されたデータベース10は、機能的には図1において示したデータベースと同様の構成とされていても良い。本発明において使用されるサーバ4は、データベース10に保持されたドキュメントからタイトル・データを作成するための手段TDV12と、ドキュメントからキーワードを自動的に抽出するためのキーワード作成手段KDV14と、必要に応じてクラスター解析を実行するためのクラスター解析手段CDV16とを含んで構成されている。
【0041】
タイトル・データを作成するための手段TDV12により生成されたタイトル・データは、データベースTIT18に保持され、またキーワード作成手段14により生成されたキーワードは、キーワード・データベース20へと保持されている。また、クラスター解析手段CDV16により解析されたクラスター・データCLTは、データベースCLT22に保持されている。
【0042】
図2に示されるように、データベース10に保持されたドキュメントと、タイトル・データTITとクラスター・データとは、ドキュメント属性作成手段24において結合されて、HTML、SGMLといった単位構造ドキュメントを作成する。ドキュメント属性データは、データベースATT26へと蓄積され、また単位構造ドキュメントは、データベースHTML28へと蓄積される。
【0043】
キーワード・データベース20に保持されたキーワード・データと、データベース10に記憶されたドキュメントとは、ドキュメント行列作成装置MDV30においてバイナリ・モデルまたは適切な重みを使用した数値化処理によりドキュメント行列として変換され、ドキュメント行列データベース32に保持される。ドキュメント行列データベース32に保持されたドキュメント行列に対して、本発明においては、次元削減手段34において、後述するLSI法またはCOV法を適用して次元削減ドキュメント行列および次元削減特異ベクトルとを生成し、それぞれデータベースRDC36およびデータベースVEC38に保持させる。
【0044】
上述した次元削減ドキュメント行列および次元削減特異ベクトルを生成するまでが、情報検索および可視化のために必要とされる前処理段階である。この後、ユーザが入力した検索クエリーから選択ベクトルとして使用されるクエリー・ベクトルを生成し、次元削減ドキュメント行列に対してクエリー・ベクトルを射影することにより、情報検索が実行される。
【0045】
また、図2には、検索エンジンにより生成された次元削減ドキュメント行列と、特異ベクトルとに対して、ユーザ嗜好データ40が射影された後、可視化エンジン42へと提供されているのが示されている。なお、上述したように検索エンジンと、可視化エンジンとは、同一のプラットホームに搭載されている必要はない。
【0046】
セクション2:検索・可視化プロセス
図3には、本発明のシステムにより実行される上述した前処理段階のフローチャートを示す。なお、本発明の前処理段階は、クライアント・サーバ・システムを使用している場合には、サーバ4において実行されることが好ましいが、本発明においてシステムをスタンド・アローンのコンピュータ・システムで構築する場合には、スタンド・アローンのコンピュータが上述した前処理段階を実行することもできる。
【0047】
図3に示すように、本発明の前処理段階は、ステップS1から開始し、ステップS2においてドキュメントをデータベース5に蓄積させる。次いで、ステップS3においてドキュメントからキーワード生成手段KWDを使用してキーワード・データを生成する。キーワードの生成方法としては、ドキュメントのタイトルや、内容に含まれる名詞、キャピタルで記載された事項、地名、人名、特定の事件などを自動的にピクアップして、キーワード・データベースに蓄積させる方法を使用することができる。また、本発明においては、逐次的に追加されるドキュメントから新たなキーワードを自動的に検出して、ドキュメント行列に反映させてドキュメント行列を生成することもできる。
【0048】
ステップS4においては、上述のようにして得られたキーワードを使用してドキュメントからドキュメント行列を生成する。ドキュメント行列の生成は、ドキュメントを、ドキュメント−アトリビュート・ベクトル(以下、ドキュメント・ベクトル)に変換し、これをドキュメントごとの行として配置することにより生成される。ドキュメント・ベクトルの具体的な生成は、タイトルと本文とを分けて、タイトル部分に関しては図2で説明したタイトル・データが所定のキーワードを含んでいない場合には当該キーワードについて「0」、タイトル・データが所定のキーワードを含んでいれば、当該キーワードについて1とする。また、本発明において、例えば出現頻度といった適切な重み付けを使用する場合には、出現頻度に関連する正の実数としてタイトル・データに含まれるキーワードを数値化することにより値を決める(これをfとする。)。一方、本文に関しても同様に、所定のキーワードを含んでいない場合には、当該キーワードについて「0」、所定のキーワードを含んでいれば当該キーワードについて「1」、または出現頻度といった適切な重み付けを使用する場合は、出現頻度に関連する正の実数として本文データに含まれるキーワードを数値化する(これをfとする。)。ドキュメント・ベクトルは、上述したfとfとの和により与えられる。
【0049】
ステップS5は、ドキュメント・ベクトルについてクラスター・データを作成する場合に使用される任意的な処理であり、ドキュメントに含まれるキーワードの間の類似度が所定以上である場合に、同一のクラスターに属するものとして分類するステップである。このクラスター・データ作成のステップS5は、ドキュメントについてクラスター分析しない場合には、前処理段階において含まれる必要は無い。
【0050】
ステップS6では、ドキュメント属性データおよび対応するHTMLドキュメントを作成し、後述する可視化表示のための色調、ドキュメントのポップアップ表示などに対応する準備を行う。
【0051】
ステップS7では、ドキュメント行列の次元削減を、LSI法またはCOV法を使用して実行する。なお、上述したステップS5のクラスター・データの作成、LSI法、COV法については、より具体的に後述する。
【0052】
ステップS8では、次元削減により次元削減ドキュメント行列および特異ベクトルを生成し、それぞれの結果を情報検索を実行させるためにデータベース36およびデータベース38に保持させ、ステップ9において可視化エンジンによる処理に備え、ステップS10において本発明の前処理段階を終了する。
【0053】
以下、本発明において、上述したステップS8で説明したLSI法、COV法、クラスター・データ生成法について、概略的に説明する。
【0054】
<潜在的意味解析法(LSI法)の概要>
LSI法は、上述したようにDeerwesterらにより提案された方法でありおおよそ以下手順に従ってドキュメント行列の次元削減を実行させるものである。
【0055】
ステップ1:ドキュメントのベクトル空間モデル化
LSI法においては、ドキュメントは、Saltonのベクトル空間モデルと同一の方法においてベクトル化されることにより、モデル化される。LSI法においては、クエリーとデータベースのドキュメントとの間の関係は、要素がmn (i, j)により表されるm×n行列MNすなわち、
【0056】
【数1】

Figure 0003790699
により表される。ここで、Mは、ドキュメントの数であり、Nは、キーワードの数である。
【0057】
ステップ2:特異値分解による次元削減
LSI法の次のステップでは、特異値分解、すなわちドキュメント行列のSVD(Singular Value Decomposition)を実行する。生成された特異値から対応する特異ベクトルを生成し、大きなほうから特異ベクトルを降順にσ、i=1,2,3,...,kまでのk個を使用して、次元削減ドキュメント行列を形成することにより低減される。
【0058】
【数2】
Figure 0003790699
上式中、Σは、σ,σ,σ,...,σである対角要素が単調に減少する、対角行列である。行列UおよびVは、マトリックスMNの大きな方からk番目までの特異値に対応する右側と左側の特異ベクトルの列を含む行列である。
【0059】
ステップ3:クエリー処理
LSI法に基づいた情報検索におけるクエリーの処理は、さらに2つのステップ、(1)クエリー射影ステップおよびそれに続いた(2)適合化ステップを含む。クエリー射影ステップでは、入力されたクエリーは、行列Uにより次元が低減されたクエリー−ドキュメント空間における擬ドキュメントへとマップされ、その後ランクが低減された特異行列Σからの対応する特異値σにより重み付けされる。このプロセスは、数学的には以下のように記述される。
【0060】
【数3】
Figure 0003790699
上式中、qは、元のクエリー・ベクトルであり、hatqは、擬ドキュメント・ベクトルであり、Σ −1は、Σの逆行列である。第2のステップでは、擬ドキュメント・ベクトルhatqと、次元が低減されたドキュメント行列V とは共に、上述した方法を含む多くの類似する方法のいずれかを用いることによって算出される。
【0061】
<共分散行列(COV法)の概略>
小林らは、例えば特願2000−175848号において提案された共分散マトリックスを使用するドキュメント行列の次元を減少させるための別の効果的な方法を提案し出願を行っており、この方法を以下COV法として参照する。この方法は、概ね下記のように説明することができる。
【0062】
ステップ1:ドキュメントから上述したようにしてドキュメント行列を生成する。その後所定のM×Nのドキュメント行列について、下記式に従って、共分散マトリックスを算出する。
【0063】
【数4】
Figure 0003790699
上式中、Kは、共分散行列を表し、dbard、barは、ドキュメント行列の要素ai,jを使用して下記のように定義される。
【0064】
【数5】
Figure 0003790699
【0065】
ステップ2:次いで、COV法においては、共分散行列の特異ベクトルを算出する。共分散行列の特異ベクトルの算出は、ハウスホルダー法、またはランチョス法といった当業界において周知の方法を使用して行うことができる。また、COV法は、正方対称行列として構築されるので、行列の要素が密であったとしても、対称性を上手く利用すれば迅速に特異値または固有値の算出が可能であり、計算速度が速いという特徴を有している。
【0066】
ステップ3:さらにこの次に、COV法は、上述した最大からk個の特異ベクトルを含むようにして所望する低減された次元がkとなるように、所定の数の特異ベクトルを使用して共分散行列の次元削減を行う。その後、M×Nドキュメント行列の次元を、次元が低減された共分散行列を使用して低減し、データベース内に記録されたドキュメントの検索、検出、および同定を実行する。
【0067】
<クラスター・データの生成>
クラスター・データは、ドキュメント・ベクトル間の類似性に基づいてクラスターに分類するものであるドキュメント間の類似性を判断するために、例えばドキュメント1とドキュメント2との間の内積を生成するものと仮定すると、まったく関連性のないデータでは、内積は0となり、完全に同一のキーワードが含まれている場合には、規格化されたドキュメント・ベクトル間では、内積が1となる。上述のようにして関連性の判断されたクラスター・データは、図2に示したクラスター・データを保持するためのデータベースCLT22に蓄積される。また、本発明においては、クラスター・データを生成するためには上述した以外の、これまで知られたいかなる方法でも使用することもできる。
【0068】
さらに、本発明においては、上述したクラスターを主要クラスター、メディアム・クラスター、アウトライア・クラスターというように、データベースに占める関連するデータの多さに応じて、クラスターを階層付けることも可能である。
【0069】
図4は、本発明において、検索・可視化を実行するプロセスのフローチャートである。図4に示した検索・可視化プロセスは、サーバ4に含まれていて、検索結果および可視化の結果をクライアント・コンピュータに通信させる構成とされていても良い。また、本発明のサーバ4は、検索結果および可視化表示に関連するデータをクライアント・コンピュータへと送信し、受信したデータに基づいて、端末手段2において可視化処理させる構成とすることができる。
【0070】
図4に示した検索・可視化プロセスを詳細に説明すると、図4のステップは、ステップS21から開始し、ステップS22において、ユーザ嗜好データ、すなわち検索クエリーを含んだ情報を受け取る。ユーザ嗜好データは、本発明においては、ユーザの興味のあるキーワードと、その重みとからなる任意個数のペアを含んで構成されている。なお、本発明において使用されるユーザ嗜好データには、検索クエリーの他にも、後述する可視化プロセスにおいて使用され各種のしきい値が含まれている。また、本発明においては、はじめからユーザが重みを入力する必要は無く、逐次的に検索結果に応じて重みを入力することもできる。この場合、ユーザ嗜好データは、キーボードといった入力手段によりサーバ4に入力することもできるし、クライアント・コンピュータからネットワーク1を通して送信されることにより、サーバ4へと送られても良い。
【0071】
次いで、ステップS23では、検索速度を向上させるべく、ユーザ嗜好データから生成されるベクトルを、k次元ベクトルに次元削減して、情報検索を実行させる。ユーザ嗜好データから選択ベクトルとして使用されるユーザ嗜好ベクトルは、ユーザ嗜好データが含むキーワードと、システムが保有しているキーワードとを比較し、一致、不一致によりベクトル空間でのドキュメントの要素モデルとして知られているバイナリ・モデル、またはアトリビュート頻度モデルに基づいて決定することができる。ユーザ嗜好データから生成される嗜好ベクトルの次元削減は、ドキュメント行列の次元削減に使用した特異行列を使用することにより実行されることが好ましい。ステップS24では、次元削減されたユーザ嗜好ベクトルに対して、次元削減ドキュメント・ベクトルを射影するといった方法により、嗜好ベクトルとドキュメント・ベクトルとの間の類似度を下記式により算出する。
【0072】
【数6】
Figure 0003790699
上記式中、sim[i]=sim(q, di)は、k次元に次元削減された次元削減ユーザ嗜好ベクトルqと次元削減ドキュメント・ベクトルdとの類似度である。本発明においては、上述のようにして生成されたsim[i]を降順にソーティングして、ソーティングの結果をsorted_sim[i](i=1,...,M)として登録する。ただし、Mは、ドキュメントの総数を表す。
【0073】
また、本発明においてはステップ25においてユーザ嗜好ベクトルqについても、絶対値の大きな順に降順にソートして、これを、sorted_q[i](i=1,...,k)として登録する。同時に、qの各要素に関してもqに対応するようにソーティングして、sorted_index_q[i](i=1,...,k)として登録する。それぞれのベクトルは、次元削減されたk次元とされているので、インデックスの各要素は、1〜kまでの自然数で表されることになる。
【0074】
次いで、本発明においては、ステップ26においてソートされたインデックスのうち、大きな方からn個、本発明において説明する特定の実施の形態においては、3次元表示をするものとして説明するのでsorted_index_q[i]から3個をピックアップして、検索結果を可視化するために使用する基底ベクトル、すなわち座標軸として定める。すなわち、上述のようにして得られた座標軸は、ユーザ嗜好データにおいて最も大きな絶対値を有している要素に対応しており、ユーザが最も見出したい情報や、データであるといえる。なお、上述のようにして生成された座標軸をi、i、iとして表わし、例えば3次元で表現すると下記式のように表すことができる。
【0075】
【数7】
Figure 0003790699
本発明においては、上述のようにして定めた座標軸を一般に、ユーザ嗜好n次元代表座標軸として定め、hatq=(hatqi1,hatqi2,…hatqi )として定義する。そして、本発明の説明している特定の実施の形態においては、上述したようにして求まったsorted_sim[i](i=1,...,M)のうちの最初のr個(トップr)のポイントについては、本発明では、他のドキュメントを表すポイントとは異なる色調で表示画面上に表示させることができる。
【0076】
また、本発明においては、ステップS27において、ユーザ嗜好n次元代表座標における類似度を算出する。これは、表示を行う際のデータをさらに選択して、よりユーザの検索を反映した結果を提示するために実行される処理である。上述したn次元における類似度を本発明においては代表n次元類似度として参照し、下記式により算出する。
【0077】
【数8】
Figure 0003790699
上記式中、hatdi(1≦i≦M)は、次元削減ドキュメント・ベクトルのi番目のベクトルを、ユーザ嗜好代表座標に対して射影したベクトルである。
【0078】
ステップS28においては、ユーザが入力したユーザ嗜好データに含まれている要素絞り込みしきい値(threshold_value)と、角度しきい値(threshold_angle)とを使用して、表示画面に対して表示する表示データの絞り込みおよび削減を、n次元空間において実行させる。具体的には、要素絞り込みしきい値については、下記式
【0079】
【数9】
Figure 0003790699
で示されるように次元削減嗜好ベクトルのノルムに、要素絞り込みしきい値を乗じた値が、次元削減ドキュメント・ベクトルのノルムよりも大きな場合には、表示画面上に表示させないようにする方法を採用することができる。
【0080】
また、角度しきい値についていえば、下記式の関係を満たすドキュメントについては表示させないようにすることができる。
【0081】
【数10】
Figure 0003790699
【0082】
さらに、本発明の特定の実施の形態においては、ユーザ嗜好データとしてしきい値の与えられていない、例えば初期状態では、適切な要素絞り込みしきいthreshold_valueおよびthereshold_angleとをシステムによりデフォルト設定しておくこともできる。各しきい値をデフォルト設定しておくことで、ユーザがクエリーのみを入力して検索する初期段階においても、不都合なく画面表示を行うことが可能となる。
【0083】
次いで、本発明の可視化プロセスにおいては、ステップS29において上述したようにして得られた可視化情報に関連するデータをユーザ端末手段2の表示画面上へと、Webソフトウエアなどを介して送信することもできる。サーバ4において直接ユーザがユーザ嗜好データを入力する場合にはサーバ4の表示画面上に検索結果をグラフィカルに表示して、本発明の可視化プロセスが終了する。
【0084】
図5は、図4に示した本発明の検索・可視化プロセスにおいて、表示を実行させるステップS28とステップS29とを含む詳細な可視化プロセスを示した図である。図5に示される詳細な可視化プロセスは、ステップS31から開始し、ステップS32においてシステムがデフォルトで設定したしきい値を使用して検索されたデータを、例えば3次元表示する。この際、本発明においては、検索されたデータを星空状に散布して表示する星空表示を使用することもできるし、ユーザ嗜好データが入力された後には、表示されるドキュメントを原点を頂点とした円錐状の空間内に表示することもでき、検索されたドキュメントの直感的な把握が可能となる。なお、本発明において、最初に与えられる表示は、例えば星空表示とすることができる。
【0085】
より詳細には後述するものの、本発明において用いるドキュメントを円錐状の空間内に制限する表示の際には、上述したhatqを底面の中心とし、例えばユーザ嗜好代表3次元空間の原点を円錐の頂点とする円錐を構築する。このユーザ嗜好代表3次元空間に射影されるドキュメントは、例えば3次元類似度にしたがって円錐内に含まれるものだけがプロットされる。また、互いに重なり合って隠されたポイントについては、隠れた分だけ表示させないという表示方法を使用することにより、円錐に含まれるポイントを奥側にまで認識させる手法を使用して表示させる。
【0086】
本発明においては、表示するための各ドキュメントに対応するポイントの配置および表示の形状については、特に円錐形に限定されるものではないが、本発明において円錐形を使用して各ドキュメントに対応するポイントを表示させるのは、円錐形を使用することにより、ユーザ嗜好代表3次元空間で投影表示された各文ドキュメント・ベクトルと、ユーザ嗜好データとの類似度が、後述するアフィン変換の手法と組み合わせることにより、より直感的に把握できるようになるためである。
【0087】
次いで、本発明における詳細表示プロセスは、ステップS34に進んで、ユーザによる各種しきい値の入力を実行させ、ステップ34において表示するためのデータを選択し、ステップS35においてユーザ入力されたしきい値に関連してデータの可視化表示を実行する。
【0088】
この際、本発明の特定の実施の形態においては、上述した要素絞り込みしきい値threshold_valueと角度しきい値threshold_angleとを、検索クエリーと共に例えばサーバ4に送信することにより、表示を変更することも可能である。しかしながら、本発明の別の実施の形態においては、しきい値のユーザ設定は、いったん検索クエリーをユーザが入力した後、要素絞り込みしきい値threshold_valueと角度しきい値threshold _angleとを、検索クエリーとは独立してサーバ4に送信して、すでにユーザ嗜好代表座標上で得られている検索結果のみを取捨選択して表示させることができる。
【0089】
さらに本発明の詳細な表示プロセスにおいては、ステップS36において、可視化表示されたドキュメントを表すポイントを、ユーザ嗜好n次元代表座標と共にアフィン変換することにより、ドキュメントを表すポイントを、例えば3次元表示を行っている場合には星空をプラネタリウムのように回転させたり、円錐形の裏側から表示させたり、側面から表示させることにより、一方向からでは互いに隣接したように見えても、奥行き方向には大きく距離が離れているといったドキュメントを表すポイントの奥行き方向への関係を表示させることが可能となっている。
【0090】
本発明におけるアフィン変換については後述するグラフィカル・ユーザ・インタフェイス(GUI)のセクションにおいてより詳細に説明するが、概略的には、ステップS36において示されるように、可視化エンジン(DVE)を使用して、ユーザ嗜好代表3次元空間において移動・拡大縮小、原点を中心とする任意軸のまわりの回転を含む変換を可能とする。上述した変換を組み合わせることにより表示画面上に表示されたドキュメントを表すポイントの奥行き方向に対する関係を示し、その時点で表示されているhatdiの各要素に対してマウス、タブレット、スタイラス、カーソルといった適切なポインタ手段でドキュメント・データの選択(ピック操作)を行うことを可能とする。
【0091】
以下、本発明において上述した方法により選択される要素をホット・ドキュメントととして参照して本発明の可視化表示の機能につき説明する。ホット・ドキュメント上にカーソルが置かれた場合には、本発明の特定の実施の形態においては、ホット・ドキュメントに対応するタイトル・データが画面のカーソル位置にポップアップ表示される。この際、同時に前記ユーザ嗜好代表3次元での類似度sim3[i]=sim(hatq,hatdi)の数値が文字列として画面上に表示される。一般には、この値が大きいほど前記ユーザ嗜好代表3次元座標空間がよい近似となっているかどうかの指標となる。
【0092】
また、本発明におけるホット・ドキュメントには、元々のドキュメントを参照するためのアンカーが付されていて、表示画面上に表示されたタイトル・データからアンカーを参照して元々のドキュメントにアクセスし、ユーザが原ドキュメントを表示することが出来る構成とされていて、さらに検索結果を有効利用することができる構成とされている。
【0093】
また、本発明の可視化表示の詳細プロセスは、ステップS38において、ユーザ入力されたデータに基づいて可視化されたデータが、ユーザに満足できるか否かに応じて、ユーザがさらに表示するかどうかの判断を行い、それ以上の表示が必要でなければ(no)、ステップS39で示されるように、希望する別のドキュメントを参照するか、またはハードコピーを行うなどの処理に移るように構成することができる。また、ユーザがさらに表示を要求する場合には(yes)、ステップS33またはステップS37へと戻って再度、しきい値threshld_valueおよびthreshold_angleの入力から開始するか、または再度アフィン変換を実行して、ユーザが満足するまで可視化表示を変更してドキュメントにアクセスすることを可能としている。
【0094】
また本発明においては、ドキュメント・データに対してクラスター解析がなされた場合、クラスターごとの表示が出来るようにすることもできる。この際、クラスターは大別して、“メジャー・クラスター”、“アウトライア・クラスター”、および“ノイズ”に分類して表示させることになる。クラスター表示としては、本発明においては、それぞれのクラスターを、選択されたユーザ嗜好n次元代表座標が構成する例えば3次元空間での凸包のメッシュ・データを構成させ、これをデータ・ポイントと同時に重ねて表示させることにより行われる。
【0095】
上述したようにしてクラスター表示を行うことにより、ユーザは直感的にクラスターの分布を知ることができ、本発明によれば、クラスターのデータ分布の理解を支援することが可能となる。なお、アウトライア・クラスターなどの検出については、例えば概略的には上述したものの、より詳細には、例えば本発明者らによる特許出願、特願2001−205183号など、およびこれまで知られたいかなる方法でも用いることができる。
【0096】
図6は、図5において示した詳細な可視化プロセスのうちステップS36〜ステップS39までのプロセスを、さらに詳細に具体的に示したフローチャートである。図6に示されたプロセスは、ステップS41から開始し、ステップS42において設定されたアフィン変換を適用してドキュメントの表示ポイントを設定する。次いで、ステップS43において表示を実行するための背景色を設定する。その後ステップS44において、ユーザ嗜好代表座標軸を表示させるか否かをユーザに問合わせ、座標軸を表示させる場合(yes)には、ステップS45において座標軸を描画し、座標軸の描画をユーザが希望しない場合(no)には、座標軸の表示を実行させない。
【0097】
次いで、ステップS46においては、ドキュメントのポイントを星空表示するか否かをユーザに問合わせる。ユーザが星空表示を希望する場合(yes)には、ステップS47においてポイントを星空表示させ、ユーザが星空表示ではなく、例えば円錐形表示を希望する場合(no)には、ステップS48においてドキュメントがシステムによりデフォルト設定されたしきい値、またはユーザ入力された各しきい値範囲において表示できるか否かを判断する。
【0098】
ドキュメントを表すポイントが表示可能である(yes)であるポイントについては、ステップS49においてドキュメント・データの描画をユーザ嗜好代表3次元座標に沿って円錐形表示などを使用して表示を実行する。また、表示可能なポイントがまったくない場合(no)には、ステップS50へと進んでクラスタが存在するかどうかの問合わせをクラスター・データベースに対して行う。クラスタが存在する場合(yes)には、ステップS51において例えばドキュメントのポイントを円錐形表示し、ステップS52においてクラスタを表示するための3次元凸包メッシュを表示させる。
【0099】
ついで、プロセスは、ステップS53においてユーザが入力したキーワードを表示させるか否かをユーザに対して問合わせ、キーワードを表示させる場合(yes)には、ステップS54でキーワードを表示画面内に表示させる。キーワードの描画をユーザが希望しない場合(no)、およびステップS54のキーワードの表示を終了した後、プロセスは、ステップS55のドキュメント選択モードに進み、ポインタ手段がドキュメントに対応するポイント上にあるか否かを問合わせる。ポインタ手段が、ドキュメントに対応するポイント上にある場合(yes)には、ステップS56においてドキュメントを示すアイコンまたはタイトル・データを表示させ、ポインタ手段が、ドキュメントに対応するポイント上にない場合(no)には、ステップS57へと進んで、図6のプロセスを終了する。
【0100】
上述した図3〜図6のプロセスを採用することにより、本発明は、大規模なデータから検索されたデータをよりユーザに対して効率的に提示することを可能とする検索・可視化システムを提供することができる。本発明の検索・可視化システムは、特にユーザが入力したユーザ嗜好データから生成されるユーザ嗜好ベクトルに基づいて座標軸を決定し、生成された座標軸へのドキュメント・ベクトルの射影を行う構成を採用することにより、ユーザが最も関心のあるアトリビュートのみを自動的に抽出して検索された情報を効率的に提示することを可能とするものである。
【0101】
図7には、本発明をネットワークを介した可視化表示プロセスを含む情報検索サービス・システムとして構成した場合のプロセスを示したフローチャートである。図7に示した情報検索においては、例えば図1に示した情報可視化システムを適用することができる。図7に示した情報検索サービスは、ステップ61から開始し、ステップS62においてユーザ・サイトに配置されている端末手段2に対して、ユーザIDおよびパスワードといった、秘密キーおよびパブリック・キーの入力を要求する。ユーザIDおよびパスワードの発行は、例えばサーバ管理者が行い、ユーザに対して検索エンジンおよび可視化エンジンの使用に関連して、適切な課金を行うこともできる。
【0102】
端末手段2からのユーザIDおよびパスワードといったキーを受信したサーバ4は、これらに情報に基づいてステップS63においてアクセス権の認証を実行し、アクセスが拒否された場合(no)には、ステップ64においてユーザ登録を求めステップS65以下のプロセスを許可する。アクセス権が認証された場合(yes)には、ステップS65においてサーバ4に保持されたデータベース3へのアクセスを許可し、
ステップS66において端末手段2からの検索クエリー受信に応じて情報検索を実行させる。この際の検索クエリーは、本発明においては、上述したユーザ嗜好データとされている。
【0103】
次いで、ステップS67においては、ユーザ嗜好n次元座標軸を選択するための処理を実行する。その後、検索されたドキュメントをユーザ嗜好n次元座標軸に対して射影して、上述した星空表示または円錐形表示などを使用して、ステップS68でユーザに対して表示を実行する。この際、表示に必要とされるデータをユーザへと送信して、ユーザの端末手段2に含まれた可視化エンジンを使用して表示を行うこともできるし、サーバ4側で可視化エンジンを使用して可視化表示データを生成し、Webソフトウエアを使用して、ユーザの端末手段2に対して、可視化表示データのみを提示することにより、端末手段2へと、検索結果を可視化表示させることも可能である。
【0104】
ステップS69においては、ユーザに対して表示が満足されたか否かを判断し、例えばユーザから端末装置2を通して、各種しきい値または表示方式の変更を要求する信号が受信されると(no)、ステップS68へと戻って、再度表示を実行し、ユーザが表示に満足して、さらにステップS70において示すように、ホット・ドキュメントをポインタ手段により指定するなど、ドキュメント・データの表示などを求める場合(yes)には、タイトル・データや、ドキュメント・データを表示し、ステップS71において別のドキュメントやタイトルを要求するかをユーザに問い合わせして、ユーザが満足するまで検索結果を解析させ、ステップS72において本発明の情報検索サービスを終了する。
【0105】
以下、本発明を具体的な実施の形態をもって説明するが、本発明は、後述する実施の形態によって限定されるものではない。
【0106】
(第1の実施の形態)
第1の実施の形態を、本発明の情報可視化システムにおいて実行される各処理段階において端末手段2といったディスプレイ画面上に表示される、グラフィカル・ユーザ・インタフェイス(GUI)の実施の形態と共に具体的に説明する。
【0107】
第1の実施の形態に使用するドキュメント・データベースとして、REUTERSニュースデータ(文書数1000個)を使用した。このドキュメントの一部を図8に示す。図8には、REUTERSニュースは、具体的にはSGML形式で記載されているが、本発明においてはSGMLフォーマット以外にもHTML、テキストといったいかなるフォーマットのデータでも使用することができる。
【0108】
タイトル・データは、ドキュメントの中の<TITLE>と</TITLE>の間に含まれる文字列をドキュメントごと取り込んで生成した。このようにして得られたタイトル・データの実施の形態を図9に示す。このタイトル・データは、上述するように、ユーザの指定によりディスプレイ画面上にポップアップ表示される。
【0109】
図10は、ドキュメント属性作成手段によりタイトル・データと、ドキュメント・データベース内のドキュメントとから構成される単位構造ドキュメント・データの構成を示す。図10に示されるように、単位構造ドキュメント・データには、第1カラムとしてドキュメント属性IDが配置され、第2カラムとしてクラスターIDが配置され、第3カラムから第5カラムまでに文書を表示する際の色(R、G、B)の実数値(値は0.0から1.0まで)が配置されている。また、第6カラムは、各ドキュメントのタイトル文字列から構成されており、最後の第7カラムは、各ドキュメントの原ドキュメントであるHTMLドキュメントのファイル名とされているのが示されている。このようにして得られたドキュメント属性データおよび単位構造ドキュメント・データは、それぞれ図2に示したデータベースへと記録される。
【0110】
図11には、キーワード作成手段KWDにより生成された1053個のキーワードのうちの一部のキーワード・データの構成を示した図である。キーワード・データ作成は、まず“textract”(商標)プログラムで、word stemmingを行う一方、これとは別のキーワード抽出プログラムで“textract”プログラムの出力結果から与えられたREUTERSニュースのキーワード・リストと、当該キーワードの出現回数のカウントを出力させて、キーワードと、重みとを得ることにより実行される。次いで、キーワードのうち、カウントが2以下のもの、および250以上のものをノイズを減らすべく削除した。更に“stop word”リストを作成して、キーワードを最終的に1053個に絞り込んだ。また、キーワードは、統一的に扱えるようすべてアルファベットの小文字とした。
【0111】
次いで、ドキュメント行列を生成した。ドキュメント行列の生成は、まずキーワード・データを読み込み、キーワード・データを含むハッシュ・テーブルを作成し、各ドキュメントに現れるキーワードの頻度を重み1.0として加え、またタイトル・データに含まれるキーワードに関しては、適当なスケール・ファクタscaleを乗じた重みを加える、いわゆるTerm-Frequency (TF)モデル(すなわち、アトリビュート頻度モデル)を使用した。上述した方法により1000×1053の要素を含むTFモデルに基づくドキュメント行列を作成した。このようにして作成されたドキュメント行列の一部の詳細データを、図12に示す。
【0112】
図12に示した数値要素は、先頭行の1000がドキュメント数を示し、1053がキーワード数に対応する。以降、第2行から、キーワードIDおよびその重みのペアで重みが0でないもののみを羅列して表現している。これは改行記号まで続く。たとえば第2行目は、ドキュメント1のキーワードを表現しており、50番目のキーワードの重みが2.0であり、51番目のキーワードの重みも2.0であることを表している。以下、1028番のキーワードの重みが3.0であるところまでがドキュメント1のキーワードに関するデータである。ここに登場しないキーワード(たとえば1番のキーワード)の重みは、すべて0である。また、第2ドキュメントは、3行目からスタートし、キーワード8番の重みが1.0あるというように、以降1000番目のドキュメントまで配置されている。このようなデータが、データベースMATに蓄積されている。
【0113】
ついで、本発明においては、キーワード次元削減手段において、生成されたドキュメント行列の次元削減を実行する。この次元削減においては、本発明においては、LSI法とCOV法とからいずれかを選択して実行できるように構成されている。説明する第1の実施の形態においては、ドキュメント行列の次元を1053次元から50次元まで削減した。図13には、LSI法を適用して得られた次元削減ドキュメント行列(LSI.RDC)を示す。第1行目の1000はドキュメント数であり、50は、削減された次元数を表す。以下、図13に示した要素は、各行が50次元に次元削減された(キーワード)データからなるドキュメントごとに配置されており、これがドキュメント数1000個分連続する。
【0114】
また、図14には、次元削減された特異ベクトル(LSI.VEC)を示す。図14に示されるように、LSI.VECデータの先頭行の1053はキーワード数であり、50が削減された次元数である。第2行目は、LSI法で次元削減された特異ベクトル(50次元)であり、以下これがキーワード数分だけ、1053個続く。各次元ごとに特異ベクトルは正規化、すなわち和の2乗の合計が1.0となるように構成されている)。
【0115】
また、図15には、COV法を適用して得られた次元削減ドキュメント行列COV.RDVを示し、図16には、COV法で得られた次元削減された特異ベクトルを示す。図15および図16とも各要素の配置、正規化については図14および図15に示した通りである。以上のプロセスは、図3で示した本発明の前処理段階で実行された。
【0116】
図17は、本発明の情報可視化システムにおいて、図14および図15に示したLSI法の出力データLSI.RDVとLSI.RSVとを読み込んだ初期状態のディスプレイ画面に示される画面表示を示した図である。図17に示されるように初期状態の表示画面では、50次元のうちの最初のユーザ嗜好代表3次元座標軸に対して射影された結果が星空表示を使用して表示されている。1000個のドキュメントは、それぞれ「星空の点」に対応している。画面表示上側に設定されているツールバーの2つのスライダーは、それぞれ要素絞り込みしきい値と角度しきい値とを表している。
【0117】
以下でまず本発明の情報可視化システムのGUIについて説明する。本発明においては、図17に示された画面表示を使用して、ユーザ嗜好データを入力させる。図17の一番上には、メニュ・バーが設けられている。メニュには、複数のメニュが登録されており、例えば図18(a)に示されるように“File”メニュ、“Tools”メニュー、および“Help”メニューが含まれて構成されている。図18(a)に示されるように、上述した“File”メニュは、図2において示した手段を使用して作成された次元削減ドキュメント・データ(RDC)と、次元削減特異ベクトル(RDV)とを読み込むための“Load Data File (Ctrl+O)”メニュ・アイテムと”Exit(Ctrl+Q)”メニュ・アイテムとから構成されている。また、本発明におい手説明する実施の形態においては、LSI法かCOV法かの選択は、図18(b)に示すように、ツール・バーによるラジオ・ボタンを用いて行われる。図18(a)において、“Load Data File”をクリックするか、または“(Ctrl+O)”ボタン操作により起動されるデータ選択画面の画面表示を、図19に示す。
【0118】
図18と図19に示した入力データから図13〜図16で示したVECデータ(次元削減特異ベクトルデータ)とRDCデータ(次元削減文書データ)とが選択され、これらが本発明の情報可視化システムの可視化エンジンに読み込まれて、可視化処理が実行される。デフォルトで星空表示が与えられる図17に示した実施の形態においては、1053次元から50次元に削減された1000文書データを大きな方から3つの特異ベクトルを、それぞれX軸、Y軸、Z軸とした3次元空間にマップして表示している。同時に上述した特異ベクトルを表示させて示している。
【0119】
本発明の第1の実施の形態においては、3次元表示のためのビューイング方法として、平行投影法を用いている。図20には、本発明において使用することができる3次元ビューイング方法を示す。図20(a)に示されるように、3つの座標軸は、デフォルトでX軸が画面に向かって右方向、Y軸が画面に向かって上方向、Z軸が画面に垂直な方向となるように向いた右手座標系として平行投影している。図20(b)には、スクリーンを正面から見た平面図が示されており、ユーザに対しては、上述した3次元表示を図20(b)で示されるスクリーン内に納めるようにしてサイジングが行われている。
【0120】
なお、図17で示された星空表示は、図20で示すようにデフォルト設定された(仮想)カメラをY軸の回りに−45度回転させ、X軸の回りに15度回転させた方向からドキュメント・データである3次元星空データ(形状としては、3次元空間の矩形ポリゴン)を初期状態として投影表示して生成したものである。また、図20のスクリーン座標での変数のデフォルト値は、screenMinX=-1、 screenMinY=-0.75、screenMaxX=1、screenMaxY=0.75で、スクリーンの縦横比(アスペクト比)は、4/3として設定した。
【0121】
次いで、図17に示されるメニュ・バーの“Tools”メニュの説明を行う。ユーザが“Tools”メニュをクリックすると、ユーザに対して図21(a)のようなメニュ・アイテムが現れる。また、“Help”メニュをクリックすると図21(b)のようなメニュ・アイテムが現れる。以下では、“Tools”メニュのメニュ・アイテムについて説明する。
【0122】
この段階でユーザが“query”メニュ・アイテム(または、ホットキーCTRL+F)をクリックまたはボタン操作することにより、図22に示すようなユーザ嗜好データ入力のためのポップアップ・ウィンドウが現れる。例えば、図22に示された入力フィールドに対して、“Japan 5.0 car 10.0 market 4.0”と入力を行う。この場合、“Japan”や“car”などがキーワードに対応し、“5.0”や“10.0”といった数値は、ユーザがそのキーワードに対する関心度(大きい実数値ほど、よりそのキーワードに対して関心が高いことを表す)を表す。
【0123】
つまり図22に示した実施の形態では、ユーザは、“car”(車)というキーワードにもっとも興味があり、次いで“Japan”(日本)に興味があり、それよりも低い程度で“market”(市場)に興味があるという入力の例である。なお、本発明においては、上述した検索クエリーの実施の形態において、ユーザ嗜好データに含ませることができるキーワードの数は3つまでということはなく、1つ以上の任意個のペア(キーワードと関心度)として与えることができる。また、本発明においては、特に重みを同時に入力することが必要な訳ではなく、必要に応じて逐次的に入力することもできる。
【0124】
図23には、50次元にまで次元削減されたユーザ嗜好データと各文書の類似度ランキングのトップ20のデータを示す。図23に示されたデータのうち、第1カラムが50次元での類似度ランキングであり、第2カラムがドキュメントIDであり、第3カラムが類似度の値であり、第4カラムがタイトル・データであり、第5カラムから第7カラムまでが、ユーザ嗜好代表3次元座標軸に射影したときの各軸での値であり、第8カラムがユーザ嗜好代表3次元表示での類似度である。ここで、ユーザ嗜好代表3次元座標軸は、上述した2つのソーティングの結果、X軸が22次元、Y軸が47次元、Z軸が38次元を表している。
【0125】
図23の第5カラムから第7カラムに示されるように、説明する実施の形態においては、システムが“recommend”したユーザ嗜好代表3次元として、X=第22次元、Y=第47次元、Z=第38次元がそれぞれ選択されていることを示している。図23の第8カラムにあるユーザ嗜好代表3次元での類似度と、第3カラムの50次元でのユーザ嗜好データに対する類似度とを比較すると、本発明においては、概ね50次元の類似度を代表3次元座標軸における類似度が反映されていることが示される。
【0126】
図24は、本発明の可視化表示システムにおいて、星空表示ではなく、円錐表示を行うことをユーザが選択した場合に表示されるドキュメント・データの表示態様を示した図である。図24は、ユーザ嗜好データの入力に関連して図23で示されるデータと共に表示される表示画面であり、ユーザ嗜好代表3次元座標空間における要素絞り込みしきい値および角度しきい値を満足するドキュメントだけを選択して表示させた表示態様である。この表示態様に関連するGUIを以下に説明する。
【0127】
図24に示された表示画面には、円錐形でドキュメントのポイントを表示するためのデータ表示ウインドウ50と、この表示ウインドウ50を取り囲んで配置された各種のスライダー・バー52またはアイコン54とを含んで構成されている。表示ウインドウ50の上側に配置されたスライダー・バー52は、要素絞り込みしきい値および角度しきい値を入力するために使用される。また、図24の左手側に設けられたアイコン54は、それぞれピック操作によるホット・ドキュメントの選択や平行移動、拡大縮小、および回転といったアフィン変換を実行して表示角度といった表示パラメータを入力するために使用される。
【0128】
また、アイコン54の下側には、表示形式またはサウンドといったオプションを選択するためのフィールド56が設けられており、さらにその下側には、メジャー、アウトライア、ノイズといったクラスターに関するオプションを入力することができるフィールド58が配置されている。また、表示ウインドウ50の右側には、ユーザ嗜好代表3次元座標軸の次元数を示す数字が与えられるツール・バー60が配置されている。
【0129】
図24に示された表示ウインドウ50内の可視化表示は、ユーザ嗜好データに対する“recommend”、すなわちデフォルト設定でのユーザ嗜好代表3次元座標軸および円錐表示によりドキュメントのポイントをプロットして得られる。図24では、次元削減された50次元のうち、22、47、38次元に対応する要素のキーワードがユーザ嗜好代表3次元座標軸として自動的に選択されていることが右側の数値に示されている。図24に示されたポイントのうち、類似度がトップ10ランクに入っているドキュメントについては、例えば赤で示すことができ、円錐の中心線上にあるサイズの大きな○印で示したポイントは、ユーザ嗜好データの3次元空間への射影である。
【0130】
以下、図24に示されたGUIの機能の説明を行う。図24のアイコン54aは、「矢印」アイコンであり、“Select”機能のためのものである。これをアイコン54aをクリックすると、アイコンの色が例えば紫色から緑色へと変化し、クリックすることによりその時点で“Select”モードとなっていることが視覚的に示されるようにされている。“Select”モードでは、図23に表示されている各ドキュメントのポイントは、ホット・ドキュメントとして定義されており、マウスで選択することができる構成とされている。
【0131】
この操作について具体的に説明すると、ポインタといった例えばマウスについての認識領域がドキュメントを表すポイントを含む場合には、図10で示した第6カラムのタイトルが、例えばタイトルがドキュメントのポイントに関連して表示される構成とされている。このようにタイトルが表示された状態を図25に示す。図25は、ユーザ嗜好データが中心になるように“Rotate”モードで回転し、ランキングでTOP10に入っている赤い点を選択した状態である。ここで、ホット・ドキュメントは、ランキング第3位のDOCIDが287番のドキュメントを示し、そのDocIDとタイトルとが画面にポップアップされている。
【0132】
また、そのドキュメントの占めるポイントのこのユーザ嗜好代表3次元座標空間での位置ベクトルの大きさ0.923という数値も同時に表示される。同時に「指」の形のアイコンが表示され、どの文書がその時点で選択されているか容易に示されるようになっている。また、本発明においては、“Select”モードで所定のドキュメントが選択されている場合、ポインタ手段を操作、例えばマウスの右ボタンを押すことにより、それに対応するHTMLドキュメント自体が、ディスプレイ画面上に、図26で示されるように表示される構成とされている。
【0133】
次に図24のアイコン54bは、「拡大縮小」のための“Scale”アイコンである。これをクリックするとアイコンの色が例えば赤色から青色へと変化し、その時点でユーザに対し、“Scale”モードの機能が提供されることが示される。“Scale”モードにおいては、ユーザは、表示されるドキュメント・データの拡大縮小を行うことができる。ユーザによるマウスといったポインタ手段の動きとの連動においてその機能を説明すると、上述の“Scale”モードでは、例えばマウスを右に動かすと縮小が起こり、左に動かすと拡大されるように設定されている。上述した“Scale”モードで拡大し、後述する“Translate”モードと組み合わせることで、ユーザは、ドキュメントの選択をさらに容易に行うことができる。
【0134】
次いで、図24に示すアイコン54cは、「平行移動」のための“Translate”アイコンを表す。これをクリックすると上述した他の他のアイコンと同様に、アイコン54cの色が例えば赤色から青色へと変化し、その時点で“Translate”モードにあることがユーザに対して視覚的に示されることになる。上述した“Translate”モードは、ユーザに対しスクリーンに投影されている文書データを2次元的に上下左右に平行移動させるための機能をユーザに対して提供する。
【0135】
また、図24に示されたアイコン54dは、「3次元回転」のための“Rotate”アイコンを示す。アイコン54dをクリックすることにより、アイコン54dの色が変化し、その時点でユーザに対して“Rotate”モードの機能を提供する。
【0136】
図27は、マウスといったポインタ手段の動きから、3次元の回転(3×3行列)の生成について説明した図である。図27(a)に示されるように、まず、ポインタ手段の直前の2次元スクリーン上での位置を点
【0137】
【数11】
Figure 0003790699
とする。ここで、ポインタ手段をスクリーン上でのポイント
【0138】
【数12】
Figure 0003790699
までドラッグしたとする。これだけでは,2次元的な位置変化しか与えられないので、仮想的に球面形状をしたボール(図27(a)の点線)がスクリーンの中に埋め込まれていると仮定し、ポインタ手段をポイントAからポイントBまで移動したものとする。逆にいえば、ポイントAとポイントBとは、原点を中心とする球面上の点が平面スクリーン上に射影された点だと仮定する。
【0139】
上述した仮定に基づいて算出すればポイントAとポイントBとのそれぞれのZ座標を求めることができる。この場合、ポインタ手段の位置が図27(a)の点線よりはみ出している場合は、そこに仮想的に双曲面があるものと外挿して座標を決定することができる。しかしながら、本発明においては同様の効果を与える限り、いかなる方法により外挿することができる。本発明については、より具体的には、図27(b)に示すようにしてZ座標を決定する。
【0140】
すなわち、図27(b)で原点を中心とする半径rの球があるとし、これが
【0141】
【数13】
Figure 0003790699
という双曲面とポイントX=Pで接するものとする。接線は、
【0142】
【数14】
Figure 0003790699
なる円弧である。これらのことから、図27(a)のポイントAおよびポイントBのそれぞれのZ座標は、
【0143】
【数15】
Figure 0003790699
で計算される。
【0144】
一度ポイントAとポイントBのそれぞれのZ座標aおよびbが求まると、次はポイントAからポイントBへとポインタ手段を移動した場合に、図27(b)で示した3次元形状の上を移動したと仮定し、その外積ベクトルvを求める。これを3次元空間での回転軸とする。すなわち、
【0145】
【数16】
Figure 0003790699
であり、
【0146】
【数17】
Figure 0003790699
である。
【0147】
回転角度ψの決定は、
【0148】
【数18】
Figure 0003790699
としたとき、ψ=2 asin(rd/2)で近似する。ここでasinは、arc sin関数である。ただし、マウスの移動距離dが、d>2/rの場合には、本発明においては強制的にd=2/rとし、一度の回転で180°以上回転させないようにする。回転軸vと回転角度ψとが求まれば、あとは、3次元空間でアフィン変換を適用し3×3の回転行列を作成し、シーン全体にこのアフィン変換を適用すればよいことになる。
【0149】
以上の“Scale”モードでの「拡大縮小」、"Translate"モードでの「平行移動」、および“Rotate”モードでの「回転」の組み合わせが本発明において使用することが好ましいアフィン変換を例示したものである。本発明においては上述した4つのモードの他、必要に応じていかなるアフィン変化でも用いることができることはいうまでもないことである。図28は、上述したアフィン変換の4つのモードの間の関係を示した図である。それぞれの矢印は、互いに各モード間で相互移動することができることを示している。
【0150】
<第2の実施の形態>
以下、さらに図24に示されたスライダー・バー52、各種フラグ・フィールド、およびユーザ嗜好代表3次元座標軸に対応するツール・バー60について、本発明においてCOV法を使用して次元削減を実行する実施の形態をもって詳細に説明する。
【0151】
図29には、上述した第1の実施の形態において説明したと同一のドキュメント・データおよび同一のユーザ嗜好データをCOV法に適用した場合のユーザ嗜好データと各ドキュメントの類似度ランキングのTOP20の結果を示す。また、図30は、COV法を使用して次元削減ドキュメント行列および次元削減特異ベクトルを生成した次元削減データに対して、ユーザ嗜好データ使用して情報検索を行った結果を、システムにより“recommend”した、すなわちデフォルト設定により与えられたユーザ嗜好代表3次元座標軸形におけるドキュメントのプロットを示した可視化表示を示す。図30においては、50次元のうち、第5、第6、および第3次元のキーワードがユーザ嗜好代表3次元座標軸としてとして自動的に選択されている。また、TOP10ランクに入っている強調表示されたポイント(例えば赤色表示するなどの色調、輝度、ポイントの形状変化などを使用する。)で示されたドキュメントが円錐の主軸に近い位置にあること、およびトップ10すべてが円錐に含まれていることが示されており、システムによって“recommend”された座標軸が妥当であることが直感的に把握できる。
【0152】
図30に示されるように、上部のスライダー・バーは、システムが設定するデフォルト値、0.01とされている。さらにスライダー・バー52を拡大して示したのが図31である。図31(a)でも示すように、0.100とされている。これを右にずらしてしきい値を大きく設定したものが図31(b)に示した状態である。図31(a)から図31(b)へとスライダを移動させるにつれ、しきい値が大きくなって行き、結果として原点からの距離がこのしきい値以下のデータ・ポイントが表示されなくなることに対応する。これを示したのが図32である。図32に示されるように、図30で示したドキュメント・データのポイントの表示数が特に少なくなっているのが示されている。
【0153】
すなわち、このしきい値スライダー・バーを調節することでで、表示されるドキュメント・データのポイントを絞り込むことが可能となる。本発明においては、スライダー・バー52において要素絞り込みしきい値および角度しきい値を設定することが可能とされているものの、本発明のさらに別の実施例では、上述した以外のいかなるしきい値でも使用することができる。
【0154】
上述した円錐表示における円錐の表示角度を制御するための角度しきい値スライダー・バー50に関しても同様に、システムにおけるデフォルト設定では、29.0°に設定されている。図33は、スライダー・バー52を拡大して示した図である。図33(a)に示すように角度しきい値は、デフォルトで29.0°に設定されている。スライダー・バー50を、図33(b)のように左に動かすと円錐の頂点角度がせばまり、この結果として要素絞り込みしきい値スライダー・バーの場合と同様に、表示データを絞り込むことが可能となる。角度しきい値を使用してドキュメント・データの絞込みを行った結果を図34に示す。図34に示されるように。図32に表示されたドキュメント・データのポイントが絞り込みに応じて減少していることが示されている。
【0155】
以下、本発明において使用する円錐表示の詳細な表示方法について図35を使用して説明する。まず、ユーザ嗜好データが入力されるとユーザ嗜好代表3次元座標軸が決定され、ユーザ嗜好データ自体の、当該ユーザ嗜好代表3次元座標軸での位置ベクトルpが求められる。ユーザ嗜好代表3次元座標空間での原点から点pへの単位方向ベクトルを下記式、
【0156】
【数19】
Figure 0003790699
で表現すると、このベクトルは円錐の頂点(原点)から底面の中心に向かうベクトルになる。本発明での円錐の表示は、円錐の側面や底面でドキュメント・データのポイントが隠されないように処理を行う。その処理のうちの1つは、側面に面塗りを行わず、n本の線分で表現するようにすることである。もうひとつは、円錐の底面は面塗りするものの、半透明表示することにより底面でドキュメント・データのポイントが隠されないようにすることである。これらを実現するため、円錐の底面をまず決定する必要がある。ここでは、円錐の底面はベクトルvに垂直で、かつ点pを通る面上の円とする。すなわち、下記式、
【0157】
【数20】
Figure 0003790699
という平面上の円となる。この円周上の点をひとつ発生させるものとし、その点をuとする。点uは、中心がpで、半径がrの球面上にある。この球は、下記式、
【0158】
【数21】
Figure 0003790699
と表すことができる。上記式中、r=|p|tanθである。
【0159】
上記式によれば、上記式で示される2つの曲線の交線は、円弧になる。その円弧上に点uを発生させることにより、適切の円錐表示を行うことが可能となる。ここで、
【0160】
【数22】
Figure 0003790699
とすると、一般性を失うことなく
【0161】
【数23】
Figure 0003790699
のX座標を
【0162】
【数24】
Figure 0003790699
とすることができる。これを上記曲線の方程式にそれぞれ代入すると、Y座標とZ座標はそれぞれ
【0163】
【数25】
Figure 0003790699
と表現できる。上記式中、
【0164】
【数26】
Figure 0003790699
である。上述したことを考慮して図36に示すソース・コードを使用して本発明における点uを決定することができる。
【0165】
さらに円錐形状の描画について説明すると、円錐の底面である円弧上の点は、上記の点uをもとに軸vのまわりに少しずつ回転させることで発生させることができる。たとえば20点ほどのポイントを発生させて、円弧を近似したい場合には360/20=18°ずつ回転していった点を発生させればよい。底面自体は、この正多角形を半透明で塗りつぶすことで表現することができる。
【0166】
次いで、図24の画面右側のユーザ代表3次元座標軸ツール・バー60の機能について説明する。本発明においては、通常では図22で示すように、ユーザ嗜好データを入力または送信すると、本発明のシステムが自動的にデフォルトのユーザ嗜好代表3次元座標軸を選択する。そのための機能は、図4のプロセスで説明した通りである。本発明においては、また以下に説明するようにマニュアルで座標軸となるキーワードの次元を設定することができる。
【0167】
図37は、通常画面の右側に表示される「ユーザ嗜好代表3次元座標軸」を表示するツール・バーを拡大して示した図である。図37に示されるように、システムは、ユーザ嗜好データの入力に関連して自動的にまずデフォルトの設定としてユーザ嗜好代表3次元座標軸を、図4に説明したプロセスにより決定する。本発明においては、いったん図24の画面表示がなされた後には、各軸の下向き三角印をクリックすることで手動で自分の好きな次元を座標軸とするべく選ぶことができる。
【0168】
図38は、画面左側のツール・バーの中央付近にある各種フラグ・フィールド56のチェック・メニュを示した図である。これらのフラグ・フィールド56は、上から順に“Axis”をチェックするとX軸、Y軸、Z軸を表示し、チェックをはずすと座標軸は表示されないという機能をユーザに提供し、“Stars”をチェックすると、外部ファイルで入力されるドキュメント・データ以外にランダムに星空のようなパターンを表示し、チェックをはずすとこれらの「星空」は表示されないという機能をユーザに提供し、“Sound”をチェックすると、アフィン変換の各モードに移行した場合に、それぞれ異なるサウンドを発生し、チェックをはずすと無音になるという機能をユーザに提供する。また、“Term”フラグ・フィールドは、チェックすると、ユーザの嗜好データがインプットされた場合にそのキーワード(文字列)を画面に同時に表示し、チェックをはずすと、それらのキーワードは画面に表示されなくなるという機能をユーザに提供するために用いることができる。
【0169】
<第3の実施の形態>
ついで、本発明においてユーザ嗜好データに基づく情報検索の別の実施の形態を説明する。図39は、本発明の第3の実施の形態において使用することができるユーザ嗜好データが示されている。図39に示されたキーワードは、“computer”と“system”であり、これらのキーワードに対しては、それぞれ7.5、2.5という重みが与えられている。図40には、上述したキーワードにより得られた類似度ランキングのトップ20を示す。
【0170】
また、図41には、図40で示した類似度ランキングを有するドキュメント・データを可視化表示した結果を示す。図41には、トップ10ランキングのうちの9番目に相当するドキュメントDocID=367番目のドキュメントがホット・ドキュメントとして示している。図41に示されるように、ホット・ドキュメントとして選択したドキュメントは、手指のアイコンにより指示されている。また、キーワードは、それぞれ図中に示されている。ここで、例えば図41で示されるドキュメント・データのうち、ユーザがDocID 367の文書に興味を持ったものとする。
【0171】
この段階では、本発明においては、Advanced Searchとして参照される検索・情報可視化を実行することが可能となる。本発明におけるAdvanced Searchは、キーワードと重みとのペアをユーザ嗜好データとして入力するのではなく、図42に示すようにDocIDを直接ユーザ嗜好データとして入力するものである。図42では、検索クエリー入力フィールドに直接DocIDが入力されているのが示されている。図43がこれに対応する類似度ランキングのトップ20を示した結果である。図43に示した結果は、DocIDで直接ドキュメントを検索しているので、DocID367のドキュメントについては、その類似度が1.0となっている。また、図40で示された結果とは、ユーザ嗜好代表3次元座標軸が異なっているのが示されている。
【0172】
図44は、図43において得られた結果を本発明にしたがい可視化表示した図である。図41の結果とAdvanced Searchを行った結果である図44とでは、ユーザ嗜好代表3次元座標軸が異なっている。図45は、DocID367のドキュメントにつき、ホット・ドキュメントとして、その元のドキュメントを表示させDocID 367の原ドキュメントが表示されている。本発明においては、上述したようにユーザが興味を持ったドキュメントからでも上述したような検索および可視化を行うことを可能とする。
【0173】
<第4の実施の形態>
この実施の形態においては、これまで述べなかったクラスター分析を含むドキュメントの検索結果の可視化表示について説明する。
【0174】
クラスターを検出するためには、具体的には、各ドキュメント・ベクトルの内積を生成するといった方法により、ドキュメント・ベクトル間の類似度に基づき、ドキュメントをそれぞれのクラスターへと分類する。このとき、本発明においては、データベース内においてもっとも多いドキュメントのクラスターを、メジャー・クラスターといい、数%程度に存在するクラスターをアウトライア・クラスターといい、数%以下のクラスターをノイズと定義することができる。
【0175】
上述した本発明の可視化エンジン(DVE)に対して、クラスター・データ(CLT)が与えられた場合、同一クラスターに含まれるドキュメントは、類似していることから比較的ユーザ嗜好代表3次元座標軸上で固まって存在する。しかしながら、単にポイントを星空状にちりばめているだけでは、印象が薄く、効果的なクラスター・データの認識が困難である。本発明においては、クラスター・データを明確に、かつ違和感なく表示させるために前記ユーザ嗜好代表3次元空間で3次元凸包メッシュを生成させてクラスターを、あたかも「星雲」のように可視化ウインドウ中で表示させるものである。
【0176】
すなわち、本発明においては、同一クラスター内の前記ユーザ嗜好代表3次元空間での座標値を
【0177】
【数27】
Figure 0003790699
と表記し、しきい値距離(threshold_distance)を定義する。このしきい値距離とは、クラスター・データに対して3次元凸包メッシュを形成させる場合に、クラスターを形成するドキュメントのポイントを中心としてメッシュを広げる距離に対応する。この関係は、下記式
【0178】
【数28】
Figure 0003790699
で与えられる範囲にランダムに複数個の点を発生させ、同一クラスターのすべての点に対して3次元凸包メッシュを生成させてこのメッシュに取り囲まれた星雲状にクラスターを表示させることに相当する。これを必要に応じてすべてのクラスターについて繰り返す。このように生成された3次元凸包メッシュは、クラスターの分布を直感的に把握するのに便利であり、本発明の情報可視化システムの利便性を著しく向上させることができる。
【0179】
本発明の第4の実施の形態について、以下に具体的に説明する。ドキュメントとして140ドキュメント、40キーワードからなるサンプル・データベースを使用し、クラスター解析の結果、以下のようなデータが与えられたものとして説明する。以下に、サンプル・データベースの内容を示す。
140文書の内訳:
Figure 0003790699
である。
【0180】
なお、第4の実施の形態におけるアウトライア・クラスターは、全体で3〜4%程度のドキュメント数(この例では、それぞれ5ドキュメント)からなるものとし、それ以下のものをノイズとした。また、それ以上に含まれるドキュメントを、メジャー・クラスターと分類した。次元は40次元から6次元まで削減した後、可視化表示を行った。第4の実施の形態においては、円錐表示は行なわなかった。図46は、LSI法によるX=1、Y=2、Z=3とした3次元空間での表示である。X軸では、“Java(登録商標)”メジャー・クラスターが選択されていることが示されている。しかしながら、単純なポイントの集合表示では、クラスターの分布が直感的に把握できていないことがわかる。
【0181】
このため、本発明においては、メニューのチェック・ボックスにある“Major”と“Noise”とをチェックし、上述した3次元凸包の形成手法に基づき、クラスター表示を実行させる。ユーザが上述したチェック・ボックスをチェックすると、3次元凸包メッシュが、クラスターの階層ごとに形成され、図47に示す可視化表示が与えられる。図47からも明らかなように、図47の方が図46に示した可視化表示に比べて、クラスター分布を把握しやすいことがわかる。説明する第4の実施の形態においては、3次元凸包メッシュCMが“Java(登録商標)”メジャー・クラスターであり、3次元凸包メッシュBMが“Clinton”メジャー・クラスターであり、そして3次元凸包メッシュGMがノイズを表すものとしている。
【0182】
また、4種類のアウトライア・クラスターは、通常のLSI法やCOV法では次元削減で消滅してしまう。このために、本発明においては、残差ベクトルの反復的なダイナミック・スケーリング手法を採用することにより、アウトライア・クラスタを保持させ、効果的にこれらのアウトライアクラスタのみを表示させることもできる。
【0183】
図48は、アウトライア・クラスターが座標軸上に位置決めされるように表示した場合の表示態様を示した図である。図48では、ユーザ嗜好代表3次元座標軸としてアウトライア・ドキュメントに対応する3、4、および5次元の要素をピックアップしてアウトライア・クラスターの3次元凸包メッシュを表示させている。図48に示すように、本発明の可視化システムによる表示では、4つのアウトライア・クラスターが検出されていることが直感的に把握できる。なお、図48では、アウトライア。クラスターのうち、キーワード“DNA”に相当するドキュメントをポップアップ表示させているのが示されている。また、本発明においてアウトライア・クラスターを検出するために、本発明者らの特許出願特願2001−205183号に記載の方法を使用することもできる。
【0184】
<第5の実施の形態>
本発明においては、さらにユーザによる情報の解析を支援するべく、図49に示した可視が表示を提供することができる。図49に示した本発明の第5の実施の形態においては、星空表示で可視化されたドキュメントの表示画面を行う主ウインドウMに加え、さらに別の、例えば上述した円錐表示でデータ・ポイントを表示させた可視化表示した副ウインドウSが表示画面右上に重畳されて示されている。
【0185】
本発明においては、重畳された副ウインドウSにおいて表示されるのは、円錐表示だけではなく、星空表示とすることもできる。また、例えば主ウインドウMにおいて指定されたホット・ドキュメントを表示させるスペースとして副ウインドウを使用することもできる。さらに、特に円錐表示を行う場合には、データの3次元的な、特に奥行き方向へのドキュメントの分布を主ウインドウにおいてドキュメントの解析を実行しつつ、ユーザが判断できるように、円錐表示されたポイントの集団をゆっくりとローテーションさせ、必要に応じてポインタ手段などにより副ウインドウをクリックすることによりローテーションを停止させる操作を可能とすることができる。
【0186】
この場合、停止した副ウインドウの表示に基づき、副ウインドウに表示されたポイントをホット・ドキュメントとして定義しておけば、関心のあるデータ・ポイントを副ウインドウSにおいてユーザが指定すると、副ウインドウS内のホット・ドキュメントにリンクされた主ウインドウM内の対応するドキュメントの色調、輝度、表示態様などが連動して変化して星空表示におけるドキュメントの位置づけおよび円錐表示における位置づけを同時に判断することを可能とする。また、上述したように主ウインドウMにおけるポイントと、副ウインドウSにおけるポイントとをリンクしておくことにより、ユーザが互いに画面を切り換えて表示を実行するという手間を省くことが可能となり、大規模なデータベースにおいて検索された膨大なドキュメント・データの解析をさらに支援することを可能とする。
【0187】
本発明においては、主ウインドウM、副ウインドウSに表示される情報の内容には、特に制限はなく、上述したように主ウインドウMおよび副ウインドウSに表示されたデータポイント間にリンクを提供することができる限り、いかなる表示形式、表示態様において表示がなされていても良い。
【0188】
図50には、上述した本発明の第5の実施の形態における副ウインドウSにおいて指定されたデータ・ポイントにリンクさせた実施の形態を示した図である。図50に示されるように、主ウインドウMと、副ウインドウSとに表示されたデータ・ポイントは、例えばDocIDといった識別子を介してリンクされており、副ウインドウSにおけるユーザ指定に関連して、主ウインドウMにおけるデータ・ポイントが明表示に変化され、ユーザに対して円錐表示におけるドキュメントの位置づけと、星空表示における位置づけとを同時に提示しているのが示されている。
【0189】
これまで本発明を情報可視化システムおよび情報可視化方法をもって説明してきたが、本発明は、上述した本発明の情報可視化方法を実行させるためのコンピュータ実行可能なプログラムにも関するものである。本発明のコンピュータ・プログラムは、C言語、C++言語、JAVA(登録商標)といった言語、またはこれら以外のいかなるオブジェクト指向言語によっても記述することができる。また、本発明のプログラムは、フロッピー(登録商標)ディスク、磁気テープ、ハードディスク、CD−ROM、DVD、光磁気ディスクといった書込み・読み出し可能なコンピュータ可読な記録媒体に記憶させることが可能である。
【0190】
上述したように、本発明は、大規模なデータベースから検索された情報を効率的にユーザに提供することを可能とする、情報可視化システム、情報可視化方法、情報可視化のためのプログラム、該プログラムが記録されたコンピュータ可読な記録媒体、および情報検索サービス・システムを提供することが可能となる。また、理解の容易化のため、これまで本発明を3次元表示を行うシステムをもって説明してきたが、本発明は、必要に応じて2次元、4次元、さらに高次元のユーザ嗜好n次元座標軸を使用して、可視化を行うことも可能であり、必要に応じて、位相幾何学的に低次元曲面に射影して、検索された情報につき、ユーザの望む断面を与えるようにすることができる。さらに、本発明においては、上述した特定の数値、条件、設定としては、上述した本発明の効果を得ることができる範囲で、いかなる値、条件、設定を使用することができることは言うまでもないことである。
【図面の簡単な説明】
【図1】 情報可視化システムの概略図。
【図2】 本発明においてサーバがデータベース3含まれたドキュメントを検索し、可視化処理を可能とするために使用する機能を示した機能ブロック図。
【図3】 本発明のシステムにより実行される上述した前処理段階のフローチャート。
【図4】 本発明において、検索・可視化を実行するプロセスのフローチャート。
【図5】 図4に示した本発明の検索・可視化プロセスにおいて、表示を実行させるステップS28とステップS29とを含む詳細な可視化プロセスを示した図。
【図6】 図5において示した詳細な可視化プロセスのうちステップS36〜ステップS39までのプロセスを、さらに詳細に具体的に示したフローチャート。
【図7】 本発明をネットワークを介した可視化表示プロセスを含む情報検索サービス・システムとして構成した場合のプロセスを示したフローチャート。
【図8】 第1の実施の形態に使用するドキュメント・データベース。
【図9】 タイトル・データの実施の形態を示した図。
【図10】 ドキュメント属性作成手段によりタイトル・データと、ドキュメント・データベース内のドキュメントとから構成される単位構造ドキュメント・データの構成を示した図。
【図11】 キーワード作成手段KWDにより生成された1053個のキーワードのうちの一部のキーワード・データの構成を示した図。
【図12】 ドキュメント行列の一部の詳細データを示した図。
【図13】 LSI法を適用して得られた次元削減ドキュメント行列(LSI.RDC)を示した図。
【図14】 次元削減された特異ベクトル(LSI.VEC)を示した図。
【図15】 COV法を適用して得られた次元削減ドキュメント行列COV.RDVを示した図。
【図16】 COV法で得られた次元削減された特異ベクトルを示した図。
【図17】 図14および図15に示した法LSI法の出力データLSI.RDVとLSI.RSVとを読み込んだ初期状態のディスプレイ画面に示される画面表示を示した図。
【図18】 本発明の表示画面において使用することができるメニュを示した図。
【図19】 本発明において用いられるデータ選択画面の画面表示を示した図。
【図20】 本発明において使用することができる3次元ビューイング方法を示した図。
【図21】 本発明の表示画面において使用することができるメニュを示した図。
【図22】 ユーザ嗜好データ入力のためのポップアップ・ウィンドウを示した図。
【図23】 50次元にまで次元削減されたユーザ嗜好データと各文書の類似度ランキングのトップ20のデータを示した図。
【図24】 本発明の可視化表示システムにおいて、星空表示ではなく、円錐表示を行うことをユーザが選択した場合に表示されるドキュメント・データの表示態様を示した図。
【図25】 タイトルがドキュメントのポイントに関連してタイトルが表示された状態を示した図。
【図26】 HTMLドキュメント自体がディスプレイ画面上に表示されたところを示した図。
【図27】 3次元の回転(3×3行列)の生成について説明した図。
【図28】 アフィン変換の4つのモードの間の関係を示した図。
【図29】 第1の実施の形態において説明したと同一のドキュメント・データおよび同一のユーザ嗜好データをCOV法に適用した場合のユーザ嗜好データと各ドキュメントの類似度ランキングのTOP20の結果を示した図。
【図30】 COV法を使用した次元削減データに対して、デフォルト設定により与えられたユーザ嗜好代表3次元座標軸形におけるドキュメントの可視化表示を示した図。
【図31】 ツール・バーを拡大して示した図。
【図32】 しきい値により変化する表示を示した図。
【図33】 角度しきい値を指定するスライダー・バーを拡大して示した図。
【図34】 角度しきい値を使用してドキュメント・データの絞込みを行った結果を示した図。
【図35】 本発明において使用する円錐表示の詳細な表示方法を示した図。
【図36】 本発明において円錐表示を行うために使用することができるソース。コードを示した図。
【図37】 通常画面の右側に表示される「ユーザ嗜好代表3次元座標軸」を表示するツール・バーを拡大して示した図。
【図38】 画面左側のツール・バーの中央付近にある各種フラグ・フィールドのチェック・メニュを示した図。
【図39】 本発明の第3の実施の形態において使用することができるユーザ嗜好データを示した図。
【図40】 本発明の第3の実施の形態においてキーワードにより得られた類似度ランキングのトップ20を示した図。
【図41】 図40で示した類似度ランキングを有するドキュメント・データを可視化表示した結果を示した図。
【図42】 本発明におけるAdvanced Searchの実施の形態を示した図。
【図43】 Advanced Searchに対応する類似度ランキングのトップ20を示した図。
【図44】 図43において得られた結果を本発明にしたがい可視化表示した図。
【図45】 DocID367のドキュメントにつき、ホット・ドキュメントとして、その元のドキュメントを表示させたところを示した図。
【図46】 本発明の第4の実施の形態を示した図。
【図47】 本発明の第4の実施の形態において得られる可視化表示を示した図。
【図48】 本発明の第4の実施の形態において得られる可視化表示を示した図。
【図49】 本発明の第5の実施の形態を示した図。
【図50】 本発明の第5の実施の形態における機能を示した図。
【符号の簡単な説明】
1…ネットワーク
2…端末手段
3…データベース
4…サーバ
10…データベース
12…タイトル・データ作成手段
14…キーワード作成手段
16…クラスター解析手段
18…データベース
20…キーワード・データベース
22…データベース
24…ドキュメント属性作成手段
26…データベース
28…データベース
30…ドキュメント行列作成手段
32…ドキュメント行列データベース
34…次元削減手段
36…データベース
38…データベース
40…ユーザ嗜好データ
42…可視化エンジン[0001]
BACKGROUND OF THE INVENTION
The present invention relates to visualization of information held in a database such as a large number of documents, and more specifically, an information visualization system for searching a document held in a database and efficiently providing the searched information to a user. , An information visualization method, a program therefor, a computer-readable recording medium in which the program is recorded, and an information retrieval service system.
[0002]
[Prior art]
In the past, searching for information in a database has been widely performed, and in particular, now that information can be searched through a computer network, search targets include documents, images, graphics, audio, and video. It is spreading to information including such data and tends to increase more and more. For this reason, various methods for quickly and inexpensively searching for information have been proposed, and the search speed has been improved.
[0003]
For example, Deerwester et al. In “Indexing by latent semantic analysis,” Journal of the American Society for Information Science, 41, 6 (1990), pp. 391-407, has developed a latent semantic analysis method (Latent Proposed Semantic Indexing (LSI). Deerwester et al.'S method used to search for similar keywords (such as “moon” when searching for “month” in English, and “moon” Searches for documents that contain “lunar” but are not included but are called similar keywords), and by reducing the dimensions, search results for queries in real time and give results based on their semantic analysis A search method is possible.
[0004]
The technical idea in the method of Deerwester et al. Is to use linear algebra, especially Singular Value Decomposition (SVD) for a matrix of arbitrary rectangular size.
[0005]
The singular value decomposition described above is performed using the “singular value decomposition theorem”, and has a property that it can be decomposed even if the given matrix A is not regular. In particular, in the case of a real positive definite symmetric matrix, A = UΣUT(Where Σ is a diagonal matrix whose eigenvalues are in the diagonal terms). A key in the above singular value decomposition is Σ (diagonal matrix), and non-zero real values are arranged in this diagonal matrix. These can be arranged in diagonal terms in descending order (in descending order of singular values).
[0006]
In the matrix dimension reduction method described above, only a certain number k smaller than the rank of the matrix is selected from values having a large singular value, and this and the corresponding singular vector are used to represent the matrix A. That's it. In fact, it is known that larger singular values and corresponding singular vector pairs reflect the properties of the matrix A better (Michael W. Berry, Susan T. Dumais, and Gavin W. O'Brien, “Using Linear Algebra for Intelligent Information Retrieval”, SIAM Review Vol. 37, No.4, pp.573-595, December 1995).
[0007]
On the other hand, the present inventors statistically dealt with a given matrix in “Retrieval and ranking of documents from a database”, IBM Patent Docket No. JP9-2000-0075 (Japanese Patent Application No. 2000-175848). We propose a covariance matrix method (COV method) that can reduce.
[0008]
The methods proposed by Kobayashi et al. Often yield better results (eg, applications such as search) than LSI methods. This is because the LSI method captures the object (assuming that the contents of the matrix A are zero or a positive real value) from a distance and projects the result in a low dimension, while the COV method is This is because a covariance matrix is generated, the origin is moved to the center of the object, and the data is projected in a low dimension as viewed from there to evaluate the data.
[0009]
However, as described above, as the method for performing an information search is improved and the amount of data to be searched becomes enormous, the information and data obtained by the search become enormous. There is also a problem that it is not possible to easily determine information intended by a searcher.
[0010]
Various techniques for visualizing retrieved data (so-called Information Visualization) have been proposed so far. General techniques for visualizing retrieved data are reviewed, for example, in “Information Visualization”, Addison-Wesley, 2001, by Robert Spencer. Also, Richard Baeza-Yates and Berthier Ribeiro-Neto, “Modern Information Retrieval”, Addison-Wesley, 1999 Chapter 10, “User Interfaces and Visualization” briefly reviewed the conventional methods. Similarly, Emile Morse, “Document Visualization”,
It is reviewed in the file specified by the URL address specified by http://www.itl.nist.gov/iaui/vvrg/emorse/papers/soa/DocumentVisualization.htm.
[0011]
Hearst, MA (1995) TileBars: “Visualization of Term Distribution Information in Full Text Information Access”, ACM, Proceedings CHI'95, pp.59-66.) Describes the so-called TileBar method. The method is a system that returns a two-dimensional tile-like response to a query input by a user. In the TileBar method, a tiled pattern is used to express how much the query keyword is contained in the shade of this tile portion. In the TileBar method, the horizontal length of the tile is displayed in correspondence with the length of the document, and as the user query data (that is, user preference data) increases, the tile (vertical) There are various inconveniences such as an increase in size, and since the display is only light and shade, it is difficult to determine whether the data matches the user's preference, and there is no similarity information between documents.
[0012]
Matthew Chalmers, “Using A Landscape Metaphor to Represent a Corpus of Documents Proc.European Conference on Spatial Information Theory, Elba, September 1993.Published as Spatial Information Theory”, Springer Verlag LNCS 716, A. Frank & I. Campari ( eds.), 1993, pp. 377-390.) describes the Landscape method developed by Chalmers. This Landscape method does not visualize the query input by the user, but creates a “map” by calculating the degree of similarity between a set of documents in advance. Landscape). Although this method is convenient for displaying the interrelationship of documents, it has a disadvantage that it does not display data related to user preference data.
[0013]
In addition, a system called “Bead” proposed by Chalmers (“Bead: Explorations in Information Visualization”, Proc. ACM SIGIR '92, ACM Press, pp. 330-337, June 1992.) The number of related documents for is expressed in a point cloud. However, the described data visualization method uses only a collection of simple points, and it is difficult for the user to efficiently and intuitively grasp the result desired by the user. there were.
[0014]
Wise, et al, “Visualizing the Non-Visual: Spatial Analysis and Interaction with Information from Text Documents”, IEEE, Proceedings, of InfoVis'95, pp. 51-58.) Describes the Themescapes method. The Themescape method is similar to the Landscape method in that multi-dimensional cluster data is mapped to a three-dimensional landscape. The Themescape method is advantageous in that the data is displayed as if the map data was rendered by applying shading to the Landscapes method. That is, in the Themescapes method, the undulation of the map has meaning, and “top” of the display on the map indicates data or an event having a lot of similar data or documents, and “valley” indicates that there is almost no data. .
[0015]
The feature of the Themescapes method described above is not only to show the Landscape, but also to be aware of user interaction, display a circular marker “focus circle” on the Landscape, and display the title of the document in the “focus circle” If necessary, an operation enabling detailed access to document data is enabled. However, it is not sufficient in that a search is performed on a user input query and data required by the searcher is displayed.
[0016]
Other than the above, Rennison, E, “Galaxy of News: An Approach to Visualizing and Understanding Expansive News Landscapes”, ACM Proceedings of UIST'94, pp.3-12, 1994), Kohonen, T, “The self-organizing map ”, Proceedings IEEE, 78, 9, pp. 1464-1480, 1990) also describes a data visualization method. However, none of the above-described methods is sufficient to visualize a huge amount of data related to a query input by the user so that the user can easily grasp it.
[0017]
In addition, many studies have been conducted on methods for visualizing search results related to data searched by users. For example, WebVis started in 1999 is a Web-Based Information Visualization workshop. It is. Among these, “Topics of Interest” includes “visualization of Web search results” (Web browser search engine result visualization technology). In addition, IEEE InfoVis and ACM SIGIR have made several reports on the visualization of search results. A typical example is A. Rauber and H. Bina. “Andreas, Rauber'− Conference Pages Are over There, German Documents on the Lower Left, −An “Old−Fashioned” Approach to Web Search Results Visualization ”, Workshop Proceedings of the 2nd Intl Workshop on Web-Based Information Visualization (WebVis 2000), 4. −8. Sept. 2000, Greenwich, UK; Tjoa, {A M.}, Wagner, {RR}, and Al-Zobaidie, A. (Eds.), Pp. 615−619 (2000), Ratvinder Grewal, Mike Jackson, Jon Wallis and Peter Burden, ”Using Visualisation to Interpret Search Engine Results ”, Proceedings of The Active Web 1999, Randall M. Rohrer, John L. Silbert, and David S. Ebert,“ A Shape-based Visual Interface for Text Retrieval ”, IEEE CG & A, Vol.19 , No.5, pp.40-46, 1999), URL site information specified by http://www.minor3d.com/, URL site specified by http://maps.map.net/ Information,
Cat-a-Cone system (http://www.parc.xerox.com/istl/peojects/ia/papers/cac-sigir97/sigir97.html), NIRVE system (Marc M. Sebrechts, John V. Cugini, et al, “Visualization of Search Results: A Comparative Evaluation of Text, 2D, and 3D Interfaces”, Proc. SIGIR'99, pp.3-10, 1999). However, it is not sufficient in that the search result for the user input query is visualized so as to be efficient and easy to understand for the user.
[0018]
Further, as techniques for displaying past search results, techniques described in Japanese Patent Application Laid-Open Nos. 2000-76279, 11-259516, and 9-190444 are known. However, in spite of the numerous technologies described above, it is possible to efficiently present data retrieved in relation to a query input by the user so far to the user in real time. An effective data visualization system that enables efficient display of necessary information and efficient analysis of retrieved data to improve data usability, a method for visualizing retrieved data, A program for that purpose and a recording medium on which the program is recorded have not been proposed so far.
[0019]
Until now, no information retrieval service system that can efficiently provide information retrieved from a large database to a user has been known.
[0020]
[Problems to be solved by the invention]
That is, the present invention has been made in view of the above-mentioned disadvantages of the prior art, and the present invention efficiently retrieves data searched in relation to information for selecting information such as a query input by a user. It is possible to present to the user in real time, efficiently display the information required by the user, and efficiently analyze the retrieved data to improve the usability of the data An object is to provide a data visualization system, a method for visualizing retrieved data, a program therefor, a recording medium in which the program is recorded, and an information retrieval service system.
[0021]
[Means for Solving the Problems]
The present invention proposes an apparatus for visualizing user-preferred data from a large amount of document data. The large-scale information handled here includes a database that holds documents. Such a database normally stores data as a matrix that is quantified using modeling based on a technique using a (multi-dimensional) vector space model. When dealing with very large numbers of documents in a vector space model, the dimensional reduction of the vector space can withstand real-time queries against user preference data (keywords themselves in search engines) Is mandatory.
[0022]
As the dimension reduction method, a latent semantic analysis method (LSI method) or a method using a covariance matrix (COV method) can be used in the present invention. These dimension reduction methods can significantly reduce the dimension of keywords in a document. For example, 10,000 keywords can be reduced to 100 to 200 dimensions by LSI method or COV method. By reducing dimensions, an index with reduced dimensions is created and provided for real-time preference data search in a low-dimensional space. However, even in a space with dimensions reduced to 100 to 200 dimensions, the user cannot intuitively see or judge search data that requires high-dimensional spatial recognition.
[0023]
In a normal search engine, search results for a given query are displayed as (hyper) text (with ranking). However, the present invention automatically extracts the relevance to the user input query, automatically determines the coordinate axis representing the dimension-reduced space, and easily visualizes the results of search for keywords and cluster processing. is there.
[0024]
That is, according to the present invention, there is provided an information visualization system for visualizing and displaying predetermined information held as a digitized matrix in a database, the system comprising:
Means for generating a singular vector by singular value decomposition of the matrix;
Means for reducing the dimensions of the matrix using the singular vectors;
Means for providing a selection vector for selecting the predetermined information;
Means for reducing the dimension of the selection vector using the singular vector, and selecting a predetermined number of elements of the selection vector reduced in dimension in descending order as visualization coordinate axes;
An information visualization system is provided.
[0025]
The information visualization system of the present invention comprises means for selecting information from the matrix using the dimension-reduced matrix and the dimension-reduced selection vector;
Means for projecting the selected information onto the visualization coordinate axes to provide a visualization display. In the present invention, it is preferable that the information is a document held in the database, and the selection vector is a query vector for performing a search. In the present invention, the means for generating a singular vector by singular value decomposition of the matrix can include means for executing a latent semantic analysis method or a covariance matrix method. The present invention can include means for affine transformation of the visualization coordinate axis to change the visualization display of the selected information. In the present invention, the means for providing a visualized display of the selected information may include means for providing the visualized display in a multidimensional manner.
[0026]
According to the present invention, there is provided an information visualization method for visualizing and displaying predetermined information held as a digitized matrix in a database,
Singular value decomposition of the matrix to generate a singular vector;
Reducing the dimension of the matrix using the singular vector;
Providing a selection vector for selecting the predetermined information;
Reducing the dimension of the selection vector using the singular vector, selecting a predetermined number of elements of the selection vector reduced in dimension in descending order as visualization coordinate axes; and
An information visualization method is provided.
[0027]
According to the present invention, there is provided a program for executing an information visualization method for visualizing and displaying predetermined information held as a digitized matrix in a database, the program comprising:
Singular value decomposition of the matrix to generate a singular vector;
Reducing the dimension of the matrix using the singular vector;
Providing a selection vector for selecting the predetermined information;
Reducing the dimension of the selection vector using the singular vector, selecting a predetermined number of elements of the selection vector reduced in dimension in descending order as visualization coordinate axes; and
A program for executing is provided.
[0028]
According to the present invention, there is provided a computer-readable recording medium in which a program for executing an information visualization method for visualizing and displaying predetermined information held as a digitized matrix in a database is recorded. The program
Singular value decomposition of the matrix to generate a singular vector;
Reducing the dimension of the matrix using the singular vector;
Providing a selection vector for selecting the predetermined information;
Reducing the dimension of the selection vector using the singular vector, selecting a predetermined number of elements of the selection vector reduced in dimension in descending order as visualization coordinate axes; and
There is provided a computer-readable recording medium on which a program for executing is recorded.
[0029]
According to the present invention, there is provided an information search service system including a server for searching a document held as a digitized matrix in a database, and providing a display of a search result visualized,
Means for receiving authentication information over a network;
Means for determining the validity of the authentication information;
Means for receiving a search query if the authentication information is valid;
Means for generating a singular vector by singular value decomposition of the matrix;
Means for reducing the dimensions of the matrix using the singular vectors;
In order to reduce the dimension of the query vector generated in association with the search query using the singular vector and select a predetermined number of elements of the selection vector reduced in dimension in descending order as a visualization coordinate axis Means of
Means for selecting information from the matrix using the dimension-reduced matrix and the dimension-reduced query vector;
Means for projecting the selected information onto the visualization coordinate axes to generate visualization display and related data;
Means for transmitting at least data related to the visualization display over the network.
An information retrieval service system is provided.
DETAILED DESCRIPTION OF THE INVENTION
Section 1: Information retrieval and visualization system of the present invention
FIG. 1 is a schematic diagram showing an outline of an information visualization system (hereinafter abbreviated as a system) of the present invention. As shown in FIG. 1A, the system of the present invention selects a plurality of terminal means 2 connected through a network 1 and information transmitted from the terminal means 2 via the network 1 to the user's request. The server 4 is configured to include a server 4 for receiving a search query for providing information to be executed, performing information search in the database 3 as necessary, and enabling visualization display.
[0030]
The terminal means 2 is installed at the site of the user who is going to execute the search, and transmits a search query to the server 4 in response to the user input. Further, the terminal means 2 receives data related to the visualization display of information such as a document detected by the search result server from the server 4 and provides the search result visualization display to the user according to the present invention. ing.
[0031]
As the network 1 in the present invention, the so-called Internet can be cited, but besides this, as long as information can be transmitted and received remotely by communication using an appropriate communication protocol such as optical communication or LAN / WAN, Any network can be used. As a communication protocol that can be used for this communication, for example, a communication protocol such as TCP / IP can be used, but is not limited thereto.
[0032]
As the terminal means 2 used in the present invention, any personal computer, mobile computer, cellular phone, workstation or the like including any hardware resource capable of visualizing and displaying the present invention can be used. Can do. As the above-described personal computer or workstation, a CPU such as PENTIUM (registered trademark) or a CPU compatible therewith can be mounted. WINDOWS (registered trademark), WINDOWS (registered trademark) NT, OS / 2 (Registered trademark), AIX (registered trademark), Unix (registered trademark), personal computer capable of operating an operating system such as Linux, a mobile computer, a workstation, and the like. It is not limited.
[0033]
Moreover, as a cellular phone that can be used as the terminal means 2 in the present invention, any method or carrier can be used as long as it can access the Internet through an appropriate gateway. Examples include, but are not limited to, those that use wireless networks such as Mode (trademark), J-Sky (trademark), and EZ-Web (trademark).
[0034]
As the server 4 that can be used in the present invention, any server, such as the above-described computer, workstation, or general-purpose computer, can be used as long as it has hardware resources capable of processing necessary data. be able to.
[0035]
Furthermore, in another embodiment of the present invention, the system of the present invention can be constructed using a stand-alone personal computer or workstation, rather than being configured as a client server system. it can.
[0036]
Documents are sequentially stored in the database 3 used in the present invention. Further, in the database 3, the documents accumulated in the database are converted into document vectors using a binary model or appropriate weighting by a predetermined keyword. The generated document vectors are stored as a document-keyword matrix (hereinafter abbreviated as a document matrix). The document that can be used in the present invention is not limited to document data such as text, HTML, and SGML, but image data, graphics data, audio data, video data (such as MPEG), or any of these. Can also be used in combination with multimedia data.
[0037]
Further, the database 3 that can be used in the present invention shown in FIG. 1A may be of any type as long as data can be added as needed. FIG. 1A shows that one database 3 is used, but in the present invention, as will be described later, a plurality of databases are used as necessary and mutually necessary. It is possible to adopt a configuration for referring to the data that is assumed.
[0038]
FIG.1 (b) is a figure which showed another aspect of the system of this invention. The system of the present invention can be broadly classified functionally into search engine blocks and visualization engine blocks. In FIG. 1A, the search engine block and the visualization engine block may be included in the server 4. However, in the present invention, an appropriate visualization engine is introduced into the terminal device, the result of the search performed by the server 4 via the network is transmitted to the terminal means 2, and the terminal means 2 executes the visualization process. A system can be constructed.
[0039]
FIG. 2 is a functional block diagram illustrating functions used by the server 4 to search for documents included in the database 3 and enable visualization processing in the present invention.
[0040]
As shown in FIG. 2, the server 4 used in the present invention is shown to include a database 10 that holds documents. The database 10 shown in FIG. 2 may be functionally configured similarly to the database shown in FIG. The server 4 used in the present invention includes means TDV 12 for creating title data from documents held in the database 10, keyword creating means KDV 14 for automatically extracting keywords from the documents, and as necessary And cluster analysis means CDV16 for executing cluster analysis.
[0041]
Title data generated by the means TDV 12 for generating title data is held in the database TIT 18, and keywords generated by the keyword generation means 14 are held in the keyword database 20. The cluster data CLT analyzed by the cluster analysis means CDV16 is held in the database CLT22.
[0042]
As shown in FIG. 2, the document held in the database 10, the title data TIT, and the cluster data are combined in the document attribute creating means 24 to create a unit structure document such as HTML or SGML. Document attribute data is stored in the database ATT 26, and unit structure documents are stored in the database HTML 28.
[0043]
The keyword data held in the keyword database 20 and the document stored in the database 10 are converted into a document matrix by a digitization process using a binary model or appropriate weights in the document matrix creation device MDV30, and the document matrix It is held in the matrix database 32. In the present invention, the dimension reduction unit 34 generates a dimension reduction document matrix and a dimension reduction singular vector by applying the LSI method or the COV method described later to the document matrix held in the document matrix database 32, These are held in the database RDC 36 and the database VEC 38, respectively.
[0044]
The generation of the dimension reduction document matrix and the dimension reduction singular vector described above is a pre-processing stage required for information retrieval and visualization. Thereafter, a query vector used as a selection vector is generated from the search query input by the user, and information retrieval is executed by projecting the query vector to the dimension reduction document matrix.
[0045]
FIG. 2 also shows that user preference data 40 is projected to the dimension reduction document matrix generated by the search engine and the singular vector and then provided to the visualization engine 42. Yes. As described above, the search engine and the visualization engine need not be mounted on the same platform.
[0046]
Section 2: Search and visualization process
FIG. 3 shows a flow chart of the above-described preprocessing steps performed by the system of the present invention. The pre-processing stage of the present invention is preferably executed by the server 4 when a client / server system is used, but in the present invention, the system is constructed by a stand-alone computer system. In some cases, a stand-alone computer may perform the preprocessing steps described above.
[0047]
As shown in FIG. 3, the preprocessing stage of the present invention starts from step S1, and the document is stored in the database 5 in step S2. In step S3, keyword data is generated from the document using the keyword generating means KWD. As a keyword generation method, use a method that automatically picks up document titles, nouns contained in the contents, capital items, place names, names of people, specific cases, etc., and stores them in the keyword database. can do. In the present invention, it is also possible to automatically detect new keywords from sequentially added documents and reflect them in the document matrix to generate a document matrix.
[0048]
In step S4, a document matrix is generated from the document using the keyword obtained as described above. The generation of a document matrix is generated by converting a document into a document-attribute vector (hereinafter referred to as a document vector) and arranging it as a row for each document. Specifically, the document vector is generated by dividing the title and the text. When the title data described with reference to FIG. 2 does not include a predetermined keyword for the title portion, “0” for the keyword, If the data includes a predetermined keyword, 1 is set for the keyword. In the present invention, when appropriate weighting such as appearance frequency is used, a value is determined by quantifying a keyword included in the title data as a positive real number related to the appearance frequency (this is expressed as f1And ). On the other hand, similarly, when the predetermined keyword is not included in the body, “0” is used for the keyword, and “1” is used for the keyword if the predetermined keyword is included, or an appropriate weight such as the appearance frequency is used. If it is, the keyword included in the text data is quantified as a positive real number related to the appearance frequency (2And ). The document vector is f1And f2Is given by the sum of
[0049]
Step S5 is an optional process used when creating cluster data for the document vector, and belongs to the same cluster when the similarity between the keywords included in the document is greater than or equal to a predetermined value. It is a step classified as. This step S5 for creating cluster data need not be included in the pre-processing stage if the document is not subjected to cluster analysis.
[0050]
In step S6, document attribute data and a corresponding HTML document are created, and preparations are made for color tone for visualization display described later, document pop-up display, and the like.
[0051]
In step S7, the dimension reduction of the document matrix is executed using the LSI method or the COV method. Note that the creation of cluster data, the LSI method, and the COV method in step S5 will be described in more detail later.
[0052]
In step S8, a dimension-reduced document matrix and a singular vector are generated by dimension reduction, and the respective results are stored in the database 36 and the database 38 in order to perform information retrieval. In step S10, the visualization engine prepares for processing. The preprocessing stage of the present invention is finished.
[0053]
Hereinafter, in the present invention, the LSI method, the COV method, and the cluster data generation method described in step S8 will be schematically described.
[0054]
<Overview of potential semantic analysis (LSI method)>
The LSI method is a method proposed by Deerwester et al. As described above, and performs dimension reduction of a document matrix according to the following procedure.
[0055]
Step 1: Document vector space modeling
In the LSI method, a document is modeled by being vectorized in the same way as Salton's vector space model. In the LSI method, the relationship between a query and a database document is an m × n matrix MN whose elements are represented by mn (i, j), ie
[0056]
[Expression 1]
Figure 0003790699
Is represented by Here, M is the number of documents, and N is the number of keywords.
[0057]
Step 2: Reduce dimension by singular value decomposition
In the next step of the LSI method, singular value decomposition, that is, SVD (Singular Value Decomposition) of the document matrix is executed. Generate corresponding singular vectors from the generated singular values, and σi, I = 1, 2, 3,. . . , K to form a dimension-reduced document matrix.
[0058]
[Expression 2]
Figure 0003790699
In the above formula, ΣkIs σ1, Σ2, Σ3,. . . , ΣkA diagonal matrix in which the diagonal elements are monotonically decreasing. Matrix UkAnd VkIs a matrix that includes columns of right and left singular vectors corresponding to the largest to k-th singular values of the matrix MN.
[0059]
Step 3: Query processing
The processing of a query in information retrieval based on the LSI method further includes two steps: (1) a query projecting step and subsequent (2) adaptation step. In the query projection step, the input query is the matrix UkDimensionality-reduced query--singular matrix Σ mapped to pseudo-document in document space and then reduced rankkThe corresponding singular value σ fromiIs weighted. This process is described mathematically as follows.
[0060]
[Equation 3]
Figure 0003790699
Where q is the original query vector,hatq is a pseudo-document vector and Σk -1Is ΣkIs the inverse matrix of In the second step, the pseudo document vectorhatq and document matrix V with reduced dimensionsk TAre calculated by using any of a number of similar methods, including those described above.
[0061]
<Outline of covariance matrix (COV method)>
Kobayashi et al. Have proposed and filed another effective method for reducing the dimension of a document matrix using a covariance matrix proposed in, for example, Japanese Patent Application No. 2000-175848. Reference as the law. This method can be generally described as follows.
[0062]
Step 1: Generate a document matrix from a document as described above. Thereafter, for a predetermined M × N document matrix, a covariance matrix is calculated according to the following equation.
[0063]
[Expression 4]
Figure 0003790699
Where K represents a covariance matrix and di,bard,bardiIs the element a of the document matrixi, jIs defined as follows.
[0064]
[Equation 5]
Figure 0003790699
[0065]
Step 2: Next, in the COV method, a singular vector of the covariance matrix is calculated. The singular vector of the covariance matrix can be calculated using a method well known in the art such as the Householder method or the Lanchos method. In addition, since the COV method is constructed as a square symmetric matrix, even if the elements of the matrix are dense, singular values or eigenvalues can be calculated quickly if the symmetry is used well, and the calculation speed is high. It has the characteristics.
[0066]
Step 3: Further next, the COV method uses the predetermined number of singular vectors so that the desired reduced dimension is k so as to include the maximal k singular vectors described above. Reduce dimensions. The dimensions of the M × N document matrix are then reduced using a reduced dimension covariance matrix to perform search, detection, and identification of documents recorded in the database.
[0067]
<Generation of cluster data>
The cluster data is assumed to generate, for example, an inner product between document 1 and document 2 in order to determine the similarity between documents that are classified into clusters based on the similarity between document vectors. Then, the inner product is 0 for completely unrelated data, and the inner product is 1 between standardized document vectors when the completely same keyword is included. The cluster data determined to be related as described above is accumulated in the database CLT 22 for holding the cluster data shown in FIG. In the present invention, any known method other than those described above can be used to generate cluster data.
[0068]
Furthermore, in the present invention, the clusters described above can be hierarchized according to the amount of related data in the database, such as a main cluster, a medium cluster, and an outlier cluster.
[0069]
FIG. 4 is a flowchart of a process for executing search and visualization in the present invention. The search / visualization process shown in FIG. 4 may be included in the server 4 and configured to cause the client computer to communicate the search result and the visualization result. In addition, the server 4 of the present invention can be configured to transmit the search results and data related to the visualization display to the client computer and perform the visualization process in the terminal means 2 based on the received data.
[0070]
The search / visualization process shown in FIG. 4 will be described in detail. Steps in FIG. 4 start from step S21. In step S22, user preference data, that is, information including a search query is received. In the present invention, the user preference data is configured to include an arbitrary number of pairs composed of keywords of interest to the user and their weights. The user preference data used in the present invention includes various threshold values used in the visualization process described later, in addition to the search query. In the present invention, it is not necessary for the user to input weights from the beginning, and weights can be sequentially input according to search results. In this case, the user preference data can be input to the server 4 by input means such as a keyboard, or can be transmitted to the server 4 by being transmitted through the network 1 from the client computer.
[0071]
Next, in step S23, in order to improve the search speed, the vector generated from the user preference data is reduced to a k-dimensional vector and information search is executed. The user preference vector used as a selection vector from the user preference data is known as an element model of a document in a vector space by comparing the keyword included in the user preference data with the keyword held by the system and matching or mismatching. Can be determined based on a binary model or an attribute frequency model. The dimension reduction of the preference vector generated from the user preference data is preferably performed by using the singular matrix used for the dimension reduction of the document matrix. In step S24, the similarity between the preference vector and the document vector is calculated by the following formula by a method of projecting the dimension-reduced document vector to the dimension-reduced user preference vector.
[0072]
[Formula 6]
Figure 0003790699
In the above equation, sim [i] = sim (q, di) is a dimension-reduced user preference vector q and dimension-reduced document vector d that have been dimensionally reduced to k dimensions.iAnd the similarity. In the present invention, sim [i] generated as described above is sorted in descending order, and the sorting result is registered as sorted_sim [i] (i = 1,..., M). M represents the total number of documents.
[0073]
In the present invention, the user preference vector q is also sorted in descending order in descending order of absolute values in step 25 and registered as sorted_q [i] (i = 1,..., K). At the same time, each element of q is sorted to correspond to q and registered as sorted_index_q [i] (i = 1,..., K). Since each vector has k dimensions with reduced dimensions, each element of the index is represented by a natural number from 1 to k.
[0074]
Next, in the present invention, among the indexes sorted in step 26, n is the largest, and in the specific embodiment described in the present invention, it will be described as a three-dimensional display, so sorted_index_q [i] 3 are picked up and defined as basis vectors, ie, coordinate axes, used for visualizing the search results. That is, the coordinate axis obtained as described above corresponds to the element having the largest absolute value in the user preference data, and can be said to be information or data that the user wants to find most. The coordinate axis generated as described above is i.1, I2, I3For example, when expressed in three dimensions, it can be expressed as the following equation.
[0075]
[Expression 7]
Figure 0003790699
In the present invention, the coordinate axes determined as described above are generally defined as user-preferred n-dimensional representative coordinate axes,hatq = (hatqi1,hatqi2, ...hatqi n). In the specific embodiment described in the present invention, the first r (top r) of sorted_sim [i] (i = 1,..., M) obtained as described above. In the present invention, these points can be displayed on the display screen in a color tone different from that of points representing other documents.
[0076]
In the present invention, in step S27, the similarity in the user preference n-dimensional representative coordinates is calculated. This is a process executed to further select data for display and present a result more reflecting the user's search. In the present invention, the above-described n-dimensional similarity is referred to as a representative n-dimensional similarity and is calculated by the following equation.
[0077]
[Equation 8]
Figure 0003790699
In the above formula,hatdi(1 ≦ i ≦ M) is a vector obtained by projecting the i-th vector of the dimension reduction document vector onto the user preference representative coordinates.
[0078]
In step S28, using the element narrowing threshold (threshold_value) and the angle threshold (threshold_angle) included in the user preference data input by the user, the display data to be displayed on the display screen is displayed. Refinement and reduction are performed in n-dimensional space. Specifically, for the element narrowing threshold,
[0079]
[Equation 9]
Figure 0003790699
If the value obtained by multiplying the norm of the dimension reduction preference vector by the element narrowing threshold is larger than the norm of the dimension reduction document vector, as shown in Fig. 3, a method is adopted so that it is not displayed on the display screen. can do.
[0080]
As for the angle threshold, it is possible not to display a document that satisfies the relationship of the following formula.
[0081]
[Expression 10]
Figure 0003790699
[0082]
Furthermore, in a specific embodiment of the present invention, a threshold value is not given as user preference data, for example, in the initial state, an appropriate element narrowing threshold threshold_value and threshold_angle are set by default by the system. You can also. By setting each threshold value as a default, it is possible to display a screen without any inconvenience even in an initial stage where a user inputs only a query and searches.
[0083]
Next, in the visualization process of the present invention, data related to the visualization information obtained as described above in step S29 may be transmitted to the display screen of the user terminal means 2 via Web software or the like. it can. When the user directly inputs user preference data at the server 4, the search result is displayed graphically on the display screen of the server 4, and the visualization process of the present invention ends.
[0084]
FIG. 5 is a diagram showing a detailed visualization process including steps S28 and S29 for executing display in the search / visualization process of the present invention shown in FIG. The detailed visualization process shown in FIG. 5 starts from step S31 and displays, for example, three-dimensionally the data retrieved using the threshold values set by the system by default in step S32. In this case, in the present invention, it is possible to use a starry sky display in which the searched data is scattered and displayed in a starry sky. After the user preference data is input, the displayed document is set to have the origin as the vertex. Can be displayed in the conical space, and the retrieved document can be intuitively grasped. In the present invention, the display given first can be, for example, a starry sky display.
[0085]
As will be described in detail later, the above-described display is limited to a document used in the present invention within a conical space.hatA cone is constructed with q as the center of the bottom surface, for example, with the origin of the user preference representative three-dimensional space as the apex of the cone. Only documents included in a cone are plotted according to the three-dimensional similarity, for example, as documents projected in the user preference representative three-dimensional space. Further, the points hidden and overlapped with each other are displayed by using a method of recognizing the points included in the cone to the far side by using a display method in which only the hidden portions are not displayed.
[0086]
In the present invention, the arrangement of points corresponding to each document to be displayed and the shape of display are not particularly limited to a cone, but in the present invention, a cone is used to correspond to each document. The point is displayed by using a cone so that the similarity between each sentence document vector projected and displayed in the user preference representative three-dimensional space and the user preference data is combined with the affine transformation method described later. This is because it becomes possible to grasp more intuitively.
[0087]
Next, the detailed display process in the present invention proceeds to step S34, the user inputs various threshold values, selects data to be displayed in step 34, and the threshold value input by the user in step S35. Data visualization is performed in relation to
[0088]
At this time, in a specific embodiment of the present invention, the display can be changed by transmitting the above-described element narrowing threshold threshold_value and angle threshold threshold_angle together with the search query to, for example, the server 4. It is. However, in another embodiment of the present invention, the user setting of the threshold is such that after the user inputs the search query, the element narrowing threshold threshold_value and the angle threshold threshold_angle are set as the search query. Can be independently transmitted to the server 4 and only the search results already obtained on the user preference representative coordinates can be selected and displayed.
[0089]
Further, in the detailed display process of the present invention, in step S36, the point representing the document is affine transformed together with the user-preferred n-dimensional representative coordinates to display the point representing the document, for example, three-dimensionally. If the starry sky is rotated like a planetarium, displayed from the back side of the cone, or displayed from the side, it appears to be adjacent to each other from one direction, but it is a large distance in the depth direction. It is possible to display the relationship in the depth direction of a point representing a document such as is separated.
[0090]
The affine transformation in the present invention will be described in more detail in the section of the graphical user interface (GUI) described later, but generally, using a visualization engine (DVE) as shown in step S36. In the user preference representative three-dimensional space, conversion including movement / enlargement / reduction and rotation around an arbitrary axis centering on the origin is enabled. By combining the conversions described above, the relationship of the points representing the document displayed on the display screen to the depth direction is shown and displayed at that time.hatdiIt is possible to select document data (pick operation) with respect to each element by an appropriate pointer means such as a mouse, a tablet, a stylus, or a cursor.
[0091]
Hereinafter, the function of the visualization display of the present invention will be described with reference to an element selected by the above-described method in the present invention as a hot document. When the cursor is placed on the hot document, in the specific embodiment of the present invention, the title data corresponding to the hot document is popped up at the cursor position on the screen. At this time, at the same time, the similarity sim3 [i] = sim (3D in the user preference representative 3Dhatq,hatdi) Is displayed on the screen as a character string. In general, the larger this value, the better the approximation of the user preference representative three-dimensional coordinate space.
[0092]
In addition, an anchor for referring to the original document is attached to the hot document in the present invention, and the original document is accessed by referring to the anchor from the title data displayed on the display screen. Is configured such that the original document can be displayed, and the search result can be used more effectively.
[0093]
In addition, the detailed process of the visualization display of the present invention determines whether or not the user further displays the data visualized based on the data input by the user in step S38 depending on whether or not the user is satisfied with the data. If no further display is necessary (no), it may be configured to refer to another desired document or to move to a process such as making a hard copy, as shown in step S39. it can. If the user requests further display (yes), the process returns to step S33 or step S37 and starts again from the input of the threshold values threshld_value and threshold_angle, or the affine transformation is executed again and the user Until you are satisfied, you can change the visualization and access the document.
[0094]
In the present invention, when cluster analysis is performed on document data, it is possible to display each cluster. At this time, the clusters are roughly classified into “major cluster”, “outlier cluster”, and “noise” and displayed. As the cluster display, in the present invention, each cluster is constituted by mesh data of a convex hull in, for example, a three-dimensional space formed by the selected user-preferred n-dimensional representative coordinates, and this is formed at the same time as the data points. This is done by displaying them in an overlapping manner.
[0095]
By performing the cluster display as described above, the user can intuitively know the cluster distribution, and according to the present invention, it is possible to support the understanding of the cluster data distribution. For the detection of outlier clusters and the like, for example, the outline has been described above, but more specifically, for example, a patent application by the present inventors, Japanese Patent Application No. 2001-205183, etc., and any known so far The method can also be used.
[0096]
FIG. 6 is a flowchart showing in more detail the process from step S36 to step S39 in the detailed visualization process shown in FIG. The process shown in FIG. 6 starts from step S41, and sets the display point of the document by applying the affine transformation set in step S42. Next, in step S43, a background color for executing display is set. Thereafter, in step S44, the user is asked whether or not to display the user-preferred representative coordinate axis. When the coordinate axis is displayed (yes), the coordinate axis is drawn in step S45, and the user does not want to draw the coordinate axis ( no) does not display the coordinate axes.
[0097]
Next, in step S46, the user is inquired whether or not the points of the document are displayed in the starry sky. If the user wishes to display the starry sky (yes), the point is displayed as a starry sky in step S47, and if the user desires, for example, a conical display instead of the starry sky display (no), the document is displayed in step S48. It is determined whether or not display is possible within the threshold value set as a default or the threshold value range input by the user.
[0098]
For the point at which the point representing the document can be displayed (yes), the drawing of the document data is performed using the cone-shaped display or the like along the user preference representative three-dimensional coordinates in step S49. If there is no point that can be displayed (no), the process proceeds to step S50 to inquire whether or not a cluster exists in the cluster database. If there is a cluster (yes), for example, the document point is displayed in a conical shape in step S51, and a three-dimensional convex hull mesh for displaying the cluster is displayed in step S52.
[0099]
Next, the process asks the user whether or not to display the keyword input by the user in step S53, and if the keyword is to be displayed (yes), the keyword is displayed in the display screen in step S54. If the user does not wish to draw the keyword (no), and after finishing displaying the keyword in step S54, the process proceeds to the document selection mode in step S55, and whether the pointer means is on a point corresponding to the document. Inquire. If the pointer means is on the point corresponding to the document (yes), an icon or title data indicating the document is displayed in step S56, and if the pointer means is not on the point corresponding to the document (no). In step S57, the process of FIG. 6 is terminated.
[0100]
By adopting the processes of FIGS. 3 to 6 described above, the present invention provides a search / visualization system that can more efficiently present data retrieved from large-scale data to the user. can do. The search / visualization system of the present invention employs a configuration that determines a coordinate axis based on a user preference vector generated from user preference data input by a user and projects a document vector onto the generated coordinate axis. Thus, the user can automatically extract only the most interesting attribute and efficiently present the searched information.
[0101]
FIG. 7 is a flowchart showing a process when the present invention is configured as an information retrieval service system including a visualization display process via a network. In the information retrieval shown in FIG. 7, for example, the information visualization system shown in FIG. 1 can be applied. The information search service shown in FIG. 7 starts from step 61 and requests the terminal means 2 arranged at the user site in step S62 to input a secret key and a public key such as a user ID and a password. To do. The user ID and password are issued by, for example, a server administrator, and the user can be charged appropriately in relation to the use of the search engine and the visualization engine.
[0102]
The server 4 that has received the keys such as the user ID and the password from the terminal means 2 performs access right authentication in step S63 based on the information, and if access is denied (no), in step 64. User registration is requested and the process from step S65 is permitted. When the access right is authenticated (yes), access to the database 3 held in the server 4 is permitted in step S65,
In step S66, an information search is executed in response to a search query received from the terminal means 2. The search query at this time is the user preference data described above in the present invention.
[0103]
Next, in step S67, a process for selecting a user-preferred n-dimensional coordinate axis is executed. Thereafter, the retrieved document is projected onto the user-preferred n-dimensional coordinate axis, and the display is executed for the user in step S68 using the above-described starry sky display or conical display. At this time, the data required for display can be transmitted to the user and displayed using the visualization engine included in the user terminal means 2, or the visualization engine is used on the server 4 side. It is also possible to generate visualization display data and present the visualization result to the terminal means 2 by presenting only the visualization display data to the user terminal means 2 using Web software. It is.
[0104]
In step S69, it is determined whether or not the display is satisfied for the user. For example, when a signal requesting change of various threshold values or display methods is received from the user through the terminal device 2 (no), Returning to step S68, the display is executed again, and the user is satisfied with the display. Further, as shown in step S70, the user wants to display document data, such as designating a hot document by pointer means ( yes), the title data or document data is displayed, the user is inquired whether another document or title is requested in step S71, the search result is analyzed until the user is satisfied, and in step S72. The information retrieval service of the present invention is terminated.
[0105]
Hereinafter, the present invention will be described with specific embodiments, but the present invention is not limited to the embodiments described below.
[0106]
(First embodiment)
The first embodiment is concretely described together with an embodiment of a graphical user interface (GUI) displayed on a display screen such as the terminal means 2 at each processing stage executed in the information visualization system of the present invention. Explained.
[0107]
REUTERS news data (1000 documents) was used as the document database used in the first embodiment. A part of this document is shown in FIG. In FIG. 8, the REUTERS news is specifically described in the SGML format, but in the present invention, data in any format such as HTML or text can be used in addition to the SGML format.
[0108]
The title data was generated by importing the text string included between <TITLE> and </ TITLE> in the document. An embodiment of the title data obtained in this way is shown in FIG. As described above, this title data is pop-up displayed on the display screen according to the user's designation.
[0109]
FIG. 10 shows the structure of unit structure document data composed of title data and documents in the document database by the document attribute creation means. As shown in FIG. 10, in the unit structure document data, the document attribute ID is arranged as the first column, the cluster ID is arranged as the second column, and the document is displayed from the third column to the fifth column. Real values (values from 0.0 to 1.0) of the colors (R, G, B) are arranged. The sixth column is composed of the title character string of each document, and the last seventh column is the file name of the HTML document that is the original document of each document. The document attribute data and unit structure document data obtained in this way are recorded in the database shown in FIG.
[0110]
FIG. 11 is a diagram showing a configuration of a part of keyword data among 1053 keywords generated by the keyword creating means KWD. In the keyword data creation, the word stemming is first performed with the “textract” (trademark) program, while the keyword list of REUTERS news given from the output result of the “textract” program with another keyword extraction program, This is executed by outputting the count of the number of appearances of the keyword and obtaining the keyword and the weight. Next, keywords having a count of 2 or less and keywords having a count of 250 or more were deleted to reduce noise. Furthermore, a “stop word” list was created, and the keywords were finally narrowed down to 1053. The keywords are all lowercase letters so that they can be handled uniformly.
[0111]
A document matrix was then generated. The document matrix is generated by first reading the keyword data, creating a hash table including the keyword data, adding the keyword frequency appearing in each document as a weight of 1.0, and regarding the keywords included in the title data. A so-called Term-Frequency (TF) model (ie, an attribute frequency model) was used, which adds weights multiplied by an appropriate scale factor scale. A document matrix based on a TF model including 1000 × 1053 elements was created by the method described above. FIG. 12 shows detailed data of a part of the document matrix created in this way.
[0112]
In the numerical element shown in FIG. 12, 1000 in the first line indicates the number of documents, and 1053 corresponds to the number of keywords. Thereafter, from the second row, only keyword IDs and their weight pairs which are not weighted 0 are listed and expressed. This continues until a newline character. For example, the second line expresses the keyword of document 1, and the weight of the 50th keyword is 2.0, and the weight of the 51st keyword is also 2.0. In the following, data related to the keyword of the document 1 is up to the point where the weight of the keyword 1028 is 3.0. The weights of keywords that do not appear here (for example, the first keyword) are all 0. Also, the second document starts from the third line, and the weight of keyword 8 is 1.0, so that the 1000th document is arranged thereafter. Such data is stored in the database MAT.
[0113]
Next, in the present invention, the keyword dimension reduction means executes dimension reduction of the generated document matrix. In this dimension reduction, the present invention is configured so that either LSI method or COV method can be selected and executed. In the first embodiment to be described, the dimension of the document matrix is reduced from 1053 dimensions to 50 dimensions. FIG. 13 shows a dimension reduction document matrix (LSI.RDC) obtained by applying the LSI method. 1000 in the first row is the number of documents, and 50 represents the reduced number of dimensions. In the following, the elements shown in FIG. 13 are arranged for each document composed of (keyword) data in which each row is reduced in dimension to 50 dimensions, and this is continuous for 1000 documents.
[0114]
FIG. 14 shows a singular vector (LSI.VEC) with reduced dimensions. As shown in FIG. 14, 1053 in the first line of the LSI.VEC data is the number of keywords, and 50 is the reduced number of dimensions. The second row is a singular vector (50 dimensions) reduced in dimension by the LSI method, and this continues for 1053 times as many as the number of keywords. For each dimension, the singular vector is normalized, that is, the sum of squares of the sum is 1.0).
[0115]
FIG. 15 shows a dimension reduction document matrix COV.RDV obtained by applying the COV method, and FIG. 16 shows a dimension-reduced singular vector obtained by the COV method. The arrangement and normalization of each element in both FIG. 15 and FIG. 16 are as shown in FIG. 14 and FIG. The above process was executed in the preprocessing stage of the present invention shown in FIG.
[0116]
FIG. 17 is a diagram showing a screen display shown on the display screen in the initial state in which the output data LSI.RDV and LSI.RSV of the LSI method shown in FIGS. 14 and 15 are read in the information visualization system of the present invention. It is. As shown in FIG. 17, on the display screen in the initial state, the result projected onto the first user preference representative three-dimensional coordinate axis of 50 dimensions is displayed using the starry sky display. Each of the 1000 documents corresponds to a “starry sky point”. Two sliders on the toolbar set on the upper side of the screen display represent an element narrowing threshold value and an angle threshold value, respectively.
[0117]
First, the GUI of the information visualization system of the present invention will be described first. In the present invention, user preference data is input using the screen display shown in FIG. A menu bar is provided at the top of FIG. A plurality of menus are registered in the menu, and for example, as shown in FIG. 18A, a “File” menu, a “Tools” menu, and a “Help” menu are included. As shown in FIG. 18A, the “File” menu described above includes dimension reduction document data (RDC) created using the means shown in FIG. 2, dimension reduction singular vector (RDV), and "Load Data File (Ctrl + O)" menu item and "Exit (Ctrl + Q)" menu item. In the embodiment described in the present invention, selection between the LSI method and the COV method is performed by using a radio button on the tool bar as shown in FIG. FIG. 19 shows a screen display of a data selection screen activated by clicking “Load Data File” in FIG. 18A or operating the “(Ctrl + O)” button.
[0118]
The VEC data (dimension reduction singular vector data) and RDC data (dimension reduction document data) shown in FIGS. 13 to 16 are selected from the input data shown in FIGS. 18 and 19, and these are the information visualization system of the present invention. The visualization process is executed by being read by the visualization engine. In the embodiment shown in FIG. 17 in which the starry sky display is given by default, 1000 document data reduced from 1053 dimensions to 50 dimensions is divided into three singular vectors from the largest, X axis, Y axis, and Z axis, respectively. The map is displayed in the three-dimensional space. At the same time, the above singular vectors are displayed.
[0119]
In the first embodiment of the present invention, the parallel projection method is used as a viewing method for three-dimensional display. FIG. 20 shows a three-dimensional viewing method that can be used in the present invention. As shown in FIG. 20A, by default, the three coordinate axes are such that the X axis is the right direction toward the screen, the Y axis is the upward direction toward the screen, and the Z axis is the direction perpendicular to the screen. Parallel projection as facing right hand coordinate system. FIG. 20B shows a plan view of the screen as viewed from the front. For the user, sizing is performed so that the above-described three-dimensional display is accommodated in the screen shown in FIG. Has been done.
[0120]
In the starry sky display shown in FIG. 17, the default (virtual) camera shown in FIG. 20 is rotated by −45 degrees around the Y axis and 15 degrees around the X axis. It is generated by projecting and displaying 3D starry sky data (as a shape, a rectangular polygon in 3D space) as document data as an initial state. Further, the default values of the variables in the screen coordinates in FIG. 20 are screenMinX = -1, screenMinY = -0.75, screenMaxX = 1, screenMaxY = 0.75, and the screen aspect ratio (aspect ratio) is set to 4/3. .
[0121]
Next, the “Tools” menu of the menu bar shown in FIG. 17 will be described. When the user clicks on the “Tools” menu, a menu item as shown in FIG. 21A appears to the user. When the “Help” menu is clicked, a menu item as shown in FIG. 21B appears. The menu items in the “Tools” menu are described below.
[0122]
At this stage, when the user clicks or operates the “query” menu item (or hot key CTRL + F), a pop-up window for user preference data input as shown in FIG. 22 appears. For example, “Japan 5.0 car 10.0 market 4.0” is entered in the input field shown in FIG. In this case, “Japan”, “car”, etc. correspond to keywords, and numbers such as “5.0” and “10.0” indicate that the user is interested in the keyword (the larger the real number, the more interested the keyword) Represents this).
[0123]
In other words, in the embodiment shown in FIG. 22, the user is most interested in the keyword “car” (car), then is interested in “Japan” (Japan), and to a lesser extent “market” ( This is an example of an input indicating that the user is interested in the market. In the present invention, in the above-described search query embodiment, the number of keywords that can be included in the user preference data is not limited to three, but one or more arbitrary pairs (keywords and interests). Degree). In the present invention, it is not necessary to input weights at the same time, and it is also possible to input them sequentially as needed.
[0124]
FIG. 23 shows user preference data reduced in dimension to 50 dimensions and top 20 data of similarity ranking of each document. Of the data shown in FIG. 23, the first column is the 50-dimensional similarity ranking, the second column is the document ID, the third column is the similarity value, and the fourth column is the title In the data, the fifth column to the seventh column are values on each axis when projected onto the user preference representative three-dimensional coordinate axis, and the eighth column is the similarity in the user preference representative three-dimensional display. Here, as a result of the above-described two sorting, the user preference representative three-dimensional coordinate axis represents 22 dimensions for the X axis, 47 dimensions for the Y axis, and 38 dimensions for the Z axis.
[0125]
As shown in the fifth column to the seventh column in FIG. 23, in the embodiment to be described, as the user preference representative three dimensions “recommend” by the system, X = 22nd dimension, Y = 47th dimension, Z = Indicates that the 38th dimension is selected. Comparing the similarity degree in the user preference representative 3D in the eighth column of FIG. 23 with the similarity degree to the user preference data in the 50th dimension in the third column, in the present invention, the similarity degree of approximately 50 dimensions is obtained. It is shown that the similarity in the representative three-dimensional coordinate axis is reflected.
[0126]
FIG. 24 is a diagram showing a display mode of document data displayed when the user selects to perform the cone display instead of the starry sky display in the visualization display system of the present invention. FIG. 24 is a display screen displayed together with the data shown in FIG. 23 in relation to the input of user preference data, and a document that satisfies the element narrowing threshold value and the angle threshold value in the user preference representative three-dimensional coordinate space. It is the display mode which selected and displayed only. A GUI related to this display mode will be described below.
[0127]
The display screen shown in FIG. 24 includes a data display window 50 for displaying document points in a conical shape, and various slider bars 52 or icons 54 arranged around the display window 50. It consists of A slider bar 52 arranged on the upper side of the display window 50 is used to input an element narrowing threshold value and an angle threshold value. Further, an icon 54 provided on the left hand side of FIG. 24 is used to input display parameters such as a display angle by executing affine transformation such as hot document selection, translation, enlargement / reduction, and rotation by a pick operation. used.
[0128]
Further, a field 56 for selecting an option such as a display format or sound is provided below the icon 54, and further, an option relating to a cluster such as major, outlier, and noise is input below the field 56. A field 58 that can be used is arranged. On the right side of the display window 50, a tool bar 60 to which a number indicating the number of dimensions of the user preference representative three-dimensional coordinate axis is provided.
[0129]
The visualization display in the display window 50 shown in FIG. 24 is obtained by plotting the points of the document by “recommend” with respect to the user preference data, that is, the user preference representative three-dimensional coordinate axes and the cone display in the default setting. In FIG. 24, the numerical value on the right side indicates that the keyword of the element corresponding to the 22, 47, and 38 dimensions among the 50 dimensions whose dimensions have been reduced is automatically selected as the user preference representative three-dimensional coordinate axis. . Among the points shown in FIG. 24, a document whose similarity is in the top 10 rank can be shown in red, for example, and the point indicated by a large circle on the center line of the cone is the user This is a projection of preference data to a three-dimensional space.
[0130]
Hereinafter, the function of the GUI shown in FIG. 24 will be described. The icon 54a in FIG. 24 is an “arrow” icon for the “Select” function. When the icon 54a is clicked, the color of the icon changes from, for example, purple to green. By clicking, the icon 54a is visually shown to be in the “Select” mode. In the “Select” mode, the points of each document displayed in FIG. 23 are defined as hot documents and can be selected with the mouse.
[0131]
This operation will be described in detail. When the recognition area for a mouse, such as a pointer, includes a point representing a document, the title in the sixth column shown in FIG. It is configured to be displayed. FIG. 25 shows a state where the title is displayed in this way. FIG. 25 shows a state in which the user rotates the “Rotate” mode so that the user preference data is at the center, and the red dot in the TOP 10 is selected in the ranking. Here, the hot document indicates a document whose DOCID No. 287 is ranked third, and its DocID and title are popped up on the screen.
[0132]
In addition, a numerical value of 0.923, which is the position vector size in the user preference representative three-dimensional coordinate space of the points occupied by the document, is also displayed. At the same time, a “finger” icon is displayed to easily indicate which document is currently selected. Further, in the present invention, when a predetermined document is selected in the “Select” mode, by operating the pointer means, for example, by pressing the right button of the mouse, the corresponding HTML document itself is displayed on the display screen. It is configured to be displayed as shown in FIG.
[0133]
Next, an icon 54b in FIG. 24 is a “Scale” icon for “enlargement / reduction”. When this is clicked, the color of the icon changes from, for example, red to blue, indicating that the user is provided with a “Scale” mode function at that time. In the “Scale” mode, the user can enlarge / reduce the displayed document data. The function will be described in conjunction with the movement of the pointer means such as the mouse by the user. In the above-described “Scale” mode, for example, the reduction occurs when the mouse is moved to the right, and the enlargement occurs when the mouse is moved to the left. . By enlarging in the “Scale” mode described above and combining with the “Translate” mode described later, the user can more easily select a document.
[0134]
Next, an icon 54c shown in FIG. 24 represents a “Translate” icon for “translation”. Clicking on this will change the color of the icon 54c from, for example, red to blue, for example, as with the other icons described above, and visually indicate to the user that it is in “Translate” mode at that time. become. The “Translate” mode described above provides the user with a function for translating the document data projected on the screen two-dimensionally up, down, left and right.
[0135]
An icon 54d shown in FIG. 24 indicates a “Rotate” icon for “three-dimensional rotation”. By clicking on the icon 54d, the color of the icon 54d changes, and the function of the “Rotate” mode is provided to the user at that time.
[0136]
FIG. 27 is a diagram illustrating generation of a three-dimensional rotation (3 × 3 matrix) from the movement of pointer means such as a mouse. As shown in FIG. 27 (a), first, the position on the two-dimensional screen immediately before the pointer means is pointed.
[0137]
## EQU11 ##
Figure 0003790699
And Where the pointer means the point on the screen
[0138]
[Expression 12]
Figure 0003790699
If you drag to Since only a two-dimensional position change can be given by this alone, it is assumed that a virtually spherical ball (dotted line in FIG. 27A) is embedded in the screen, and the pointer means is point A. It is assumed that the user has moved from point to point B. Conversely, it is assumed that point A and point B are points on a spherical surface centered at the origin and projected onto a flat screen.
[0139]
If it calculates based on the assumption mentioned above, each Z coordinate of the point A and the point B can be calculated | required. In this case, when the position of the pointer means protrudes from the dotted line in FIG. 27A, the coordinates can be determined by extrapolating that there is a virtual hyperboloid there. However, in the present invention, extrapolation can be performed by any method as long as the same effect is given. More specifically, in the present invention, the Z coordinate is determined as shown in FIG.
[0140]
That is, in FIG. 27B, it is assumed that there is a sphere having a radius r centered on the origin.
[0141]
[Formula 13]
Figure 0003790699
It is assumed that the hyperboloid is touched at the point X = P. Tangent is
[0142]
[Expression 14]
Figure 0003790699
This is an arc. From these things, the Z coordinate of each of point A and point B in FIG.
[0143]
[Expression 15]
Figure 0003790699
Calculated by
[0144]
Z coordinate a of point A and point B oncezAnd bzNext, when the pointer means is moved from the point A to the point B, it is assumed that the pointer means has moved on the three-dimensional shape shown in FIG. This is the rotation axis in the three-dimensional space. That is,
[0145]
[Expression 16]
Figure 0003790699
And
[0146]
[Expression 17]
Figure 0003790699
It is.
[0147]
The determination of the rotation angle ψ is
[0148]
[Formula 18]
Figure 0003790699
Approximation with ψ = 2 asin (rd / 2). Here, asin is an arc sin function. However, when the moving distance d of the mouse is d> 2 / r, in the present invention, d = 2 / r is forcibly set so that it is not rotated 180 ° or more by one rotation. Once the rotation axis v and the rotation angle ψ are obtained, the affine transformation is applied in a three-dimensional space to create a 3 × 3 rotation matrix and the affine transformation is applied to the entire scene.
[0149]
The above combination of “scale” in “Scale” mode, “translation” in “Translate” mode, and “rotation” in “Rotate” mode exemplifies an affine transformation that is preferably used in the present invention. Is. In the present invention, it is needless to say that any affine change can be used as necessary in addition to the four modes described above. FIG. 28 is a diagram showing the relationship between the four modes of affine transformation described above. Each arrow shows that it can mutually move between modes.
[0150]
<Second Embodiment>
Hereinafter, with respect to the slider bar 52, various flag fields, and the tool bar 60 corresponding to the user preference representative three-dimensional coordinate axis shown in FIG. 24, the present invention performs the dimension reduction using the COV method in the present invention. This will be described in detail with the form.
[0151]
FIG. 29 shows the results of TOP20 of the user preference data and the similarity ranking of each document when the same document data and the same user preference data as described in the first embodiment are applied to the COV method. Indicates. FIG. 30 shows the result of information retrieval using user preference data for dimension reduction data generated by generating a dimension reduction document matrix and a dimension reduction singular vector using the COV method. That is, the visualization display showing the plot of the document in the user preference representative three-dimensional coordinate axis shape given by the default setting is shown. In FIG. 30, among the 50 dimensions, the fifth, sixth, and third dimension keywords are automatically selected as the user preference representative three-dimensional coordinate axes. In addition, the document indicated by the highlighted point in the TOP 10 rank (for example, using a color tone such as red display, brightness, a change in the shape of the point, etc.) is close to the main axis of the cone, And it is shown that all of the top 10 are contained in a cone, and it can be intuitively understood that the coordinate axes "recommended" by the system are valid.
[0152]
As shown in FIG. 30, the upper slider bar has a default value 0.01 set by the system. Further, FIG. 31 shows the slider bar 52 in an enlarged manner. As shown in FIG. 31A, it is set to 0.100. FIG. 31B shows a state in which the threshold value is set larger by shifting this to the right. As the slider is moved from FIG. 31A to FIG. 31B, the threshold value increases, and as a result, data points whose distance from the origin is less than this threshold value are not displayed. Correspond. This is shown in FIG. As shown in FIG. 32, the number of display points of the document data shown in FIG. 30 is particularly reduced.
[0153]
That is, by adjusting the threshold slider bar, the points of the document data to be displayed can be narrowed down. In the present invention, although it is possible to set the element narrowing threshold value and the angle threshold value in the slider bar 52, in another embodiment of the present invention, any threshold value other than those described above can be used. But it can be used.
[0154]
Similarly, the angle threshold slider bar 50 for controlling the display angle of the cone in the above-described cone display is also set to 29.0 ° in the default setting in the system. FIG. 33 is an enlarged view of the slider bar 52. As shown in FIG. 33A, the angle threshold is set to 29.0 ° by default. When the slider bar 50 is moved to the left as shown in FIG. 33 (b), the apex angle of the cone is limited. As a result, the display data can be narrowed down as in the case of the element narrowing threshold slider bar. It becomes possible. FIG. 34 shows the result of narrowing down the document data using the angle threshold value. As shown in FIG. FIG. 32 shows that the points of the document data displayed are reduced according to the narrowing down.
[0155]
Hereinafter, a detailed display method of the cone display used in the present invention will be described with reference to FIG. First, when user preference data is input, a user preference representative three-dimensional coordinate axis is determined, and a position vector p of the user preference data itself on the user preference representative three-dimensional coordinate axis is obtained. A unit direction vector from the origin to the point p in the user preference representative three-dimensional coordinate space is expressed by the following equation:
[0156]
[Equation 19]
Figure 0003790699
This vector is a vector from the vertex (origin) of the cone toward the center of the bottom surface. In the present invention, the display of the cone is processed so that the point of the document data is not hidden by the side surface or the bottom surface of the cone. One of the processes is to perform expression by n line segments without performing face painting on the side surface. The other is that the bottom of the cone is painted, but the point of the document data is not hidden by the translucent display. In order to achieve these, it is necessary to first determine the bottom of the cone. Here, the bottom surface of the cone is a circle on a plane perpendicular to the vector v and passing through the point p. That is, the following formula:
[0157]
[Expression 20]
Figure 0003790699
It becomes a circle on the plane. One point on this circumference is generated, and that point is u. The point u is on a spherical surface with a center p and a radius r. This sphere has the following formula:
[0158]
[Expression 21]
Figure 0003790699
It can be expressed as. In the above formula, r = | p | tan θ.
[0159]
According to the above equation, the line of intersection of the two curves represented by the above equation is an arc. By generating the point u on the arc, an appropriate cone display can be performed. here,
[0160]
[Expression 22]
Figure 0003790699
And without losing generality
[0161]
[Expression 23]
Figure 0003790699
X coordinate of
[0162]
[Expression 24]
Figure 0003790699
It can be. Substituting this into the above equation, the Y and Z coordinates are
[0163]
[Expression 25]
Figure 0003790699
Can be expressed as In the above formula,
[0164]
[Equation 26]
Figure 0003790699
It is. Considering the above, the source code shown in FIG. 36 can be used to determine the point u in the present invention.
[0165]
Further describing the drawing of the cone shape, the point on the circular arc that is the bottom surface of the cone can be generated by gradually rotating around the axis v based on the point u. For example, when about 20 points are generated and it is desired to approximate an arc, a point rotated 360/20 = 18 ° may be generated. The bottom surface itself can be expressed by painting this regular polygon semi-transparently.
[0166]
Next, the function of the user representative three-dimensional coordinate axis tool bar 60 on the right side of the screen in FIG. 24 will be described. In the present invention, normally, as shown in FIG. 22, when user preference data is input or transmitted, the system of the present invention automatically selects a default user preference representative three-dimensional coordinate axis. The function for this is as described in the process of FIG. In the present invention, as described below, the dimension of a keyword that becomes a coordinate axis can be manually set.
[0167]
FIG. 37 is an enlarged view of the tool bar displaying the “user preference representative three-dimensional coordinate axis” displayed on the right side of the normal screen. As shown in FIG. 37, the system automatically determines a user preference representative three-dimensional coordinate axis as a default setting automatically in connection with the input of user preference data according to the process described in FIG. In the present invention, once the screen shown in FIG. 24 is displayed, the user can manually select his / her favorite dimension as a coordinate axis by clicking the downward triangle mark of each axis.
[0168]
FIG. 38 is a view showing a check menu of various flag fields 56 near the center of the tool bar on the left side of the screen. These flag fields 56 provide the user with the function of displaying the X, Y, and Z axes when checking "Axis" in order from the top, and not displaying the coordinate axes when unchecking, and checking "Stars" Then, a pattern like a starry sky is randomly displayed in addition to the document data input in the external file, and if the check is removed, these “starry sky” will not be displayed and the user will be given a function. When the mode is shifted to the affine transformation mode, a different sound is generated, and when the check is removed, the function of silence is provided to the user. In addition, when the “Term” flag field is checked, when user preference data is input, the keyword (character string) is displayed on the screen at the same time. When the check is cleared, the keyword is not displayed on the screen. Can be used to provide the user with the function.
[0169]
<Third Embodiment>
Next, another embodiment of information retrieval based on user preference data in the present invention will be described. FIG. 39 shows user preference data that can be used in the third embodiment of the present invention. The keywords shown in FIG. 39 are “computer” and “system”, and weights of 7.5 and 2.5 are given to these keywords, respectively. FIG. 40 shows the top 20 of the similarity ranking obtained by the keyword described above.
[0170]
FIG. 41 shows the result of visualizing and displaying the document data having the similarity ranking shown in FIG. In FIG. 41, the document DocID = 367th corresponding to the ninth of the top 10 rankings is shown as a hot document. As shown in FIG. 41, a document selected as a hot document is indicated by a finger icon. Each keyword is shown in the figure. Here, for example, it is assumed that the user is interested in the document with DocID 367 among the document data shown in FIG.
[0171]
At this stage, in the present invention, it is possible to execute search / information visualization referred to as Advanced Search. In the Advanced Search in the present invention, pairs of keywords and weights are not input as user preference data, but DocIDs are directly input as user preference data as shown in FIG. FIG. 42 shows that the DocID is directly input in the search query input field. FIG. 43 shows the top 20 of the similarity ranking corresponding to this. In the result shown in FIG. 43, since the document is directly searched by DocID, the similarity of the document of DocID367 is 1.0. Also, it is shown that the user preference representative three-dimensional coordinate axis is different from the result shown in FIG.
[0172]
FIG. 44 is a diagram in which the results obtained in FIG. 43 are visualized and displayed according to the present invention. The result shown in FIG. 41 and FIG. 44, which is the result of performing an advanced search, differ in the user preference representative three-dimensional coordinate axes. In FIG. 45, the original document of DocID 367 is displayed as the hot document for the document of DocID 367. In the present invention, it is possible to perform the search and visualization as described above even from a document in which the user is interested as described above.
[0173]
<Fourth embodiment>
In this embodiment, a visualization display of a search result of a document including cluster analysis that has not been described so far will be described.
[0174]
In order to detect clusters, specifically, documents are classified into clusters based on the similarity between document vectors by a method of generating an inner product of the respective document vectors. At this time, in the present invention, a cluster of documents having the largest number in the database is called a major cluster, a cluster existing in about several percent is called an outlier cluster, and a cluster of several percent or less is defined as noise. Can do.
[0175]
When cluster data (CLT) is given to the above-described visualization engine (DVE) of the present invention, since documents included in the same cluster are similar, the user preference representative three-dimensional coordinate axes are relatively similar. It exists as a solid. However, if the points are simply scattered in a starry sky, the impression is weak and it is difficult to recognize effective cluster data. In the present invention, in order to display cluster data clearly and without a sense of incongruity, a three-dimensional convex hull mesh is generated in the user preference representative three-dimensional space, and the cluster is displayed in a visualization window as if it is a “nebula”. It is what is displayed.
[0176]
That is, in the present invention, the coordinate values in the user preference representative three-dimensional space in the same cluster are calculated.
[0177]
[Expression 27]
Figure 0003790699
And the threshold distance (threshold_distance) is defined. This threshold distance corresponds to a distance that spreads the mesh around the point of the document forming the cluster when a three-dimensional convex hull mesh is formed for the cluster data. This relationship is given by
[0178]
[Expression 28]
Figure 0003790699
This is equivalent to generating a plurality of points randomly in the range given by, generating a three-dimensional convex hull mesh for all points of the same cluster, and displaying the cluster in a nebula shape surrounded by this mesh. . This is repeated for all clusters as necessary. The three-dimensional convex hull mesh generated in this way is convenient for intuitively grasping the distribution of clusters, and can greatly improve the convenience of the information visualization system of the present invention.
[0179]
The fourth embodiment of the present invention will be specifically described below. A sample database consisting of 140 documents and 40 keywords is used as a document, and the following data is given as a result of cluster analysis. The contents of the sample database are shown below.
Breakdown of 140 documents:
Figure 0003790699
It is.
[0180]
The outlier cluster in the fourth embodiment is composed of the total number of documents of about 3 to 4% (in this example, 5 documents each), and the number below is the noise. In addition, the documents included in it were classified as major clusters. The dimensions were reduced from 40 dimensions to 6 dimensions, and then visualized. In the fourth embodiment, the cone display is not performed. FIG. 46 is a display in a three-dimensional space with X = 1, Y = 2, and Z = 3 by the LSI method. On the X-axis, it is shown that the “Java®” major cluster is selected. However, it can be seen that the cluster distribution cannot be intuitively grasped by a simple point collection display.
[0181]
Therefore, in the present invention, “Major” and “Noise” in the check box of the menu are checked, and cluster display is executed based on the above-described three-dimensional convex hull formation method. When the user checks the check box described above, a three-dimensional convex hull mesh is formed for each cluster hierarchy, and the visualization shown in FIG. 47 is given. As is clear from FIG. 47, it can be seen that FIG. 47 is easier to grasp the cluster distribution than the visualization display shown in FIG. In the fourth embodiment to be described, the three-dimensional convex hull mesh CM is a “Java (registered trademark)” major cluster, the three-dimensional convex hull mesh BM is a “Clinton” major cluster, and the three-dimensional The convex hull mesh GM represents noise.
[0182]
In addition, the four types of outlier clusters disappear due to dimension reduction in the normal LSI method and COV method. For this reason, in the present invention, by adopting an iterative dynamic scaling method of residual vectors, it is possible to retain outlier clusters and effectively display only these outlier clusters.
[0183]
FIG. 48 is a diagram illustrating a display mode when the outlier cluster is displayed so as to be positioned on the coordinate axis. In FIG. 48, the three-dimensional convex hull mesh of the outlier cluster is displayed by picking up the 3, 4, and 5-dimensional elements corresponding to the outlier document as the user preference representative three-dimensional coordinate axis. As shown in FIG. 48, in the display by the visualization system of the present invention, it can be intuitively understood that four outlier clusters are detected. In FIG. 48, the outlier. In the cluster, a document corresponding to the keyword “DNA” is displayed as a pop-up. In the present invention, the method described in Japanese Patent Application No. 2001-205183 of the present inventors can also be used to detect outlier clusters.
[0184]
<Fifth embodiment>
In the present invention, the visual display shown in FIG. 49 can be provided to further assist the user in analyzing the information. In the fifth embodiment of the present invention shown in FIG. 49, in addition to the main window M for displaying the document visualized in the starry sky display, data points are displayed in another, for example, the above-mentioned cone display. The visualized sub window S is shown superimposed on the upper right of the display screen.
[0185]
In the present invention, it is possible to display not only the cone display but also the starry sky display in the superimposed sub-window S. Further, for example, a sub window can be used as a space for displaying a hot document designated in the main window M. In addition, especially in the case of a cone display, the points displayed in a cone are displayed so that the user can determine the distribution of the document in three dimensions, particularly in the depth direction, while analyzing the document in the main window. The group can be rotated slowly, and if necessary, an operation for stopping the rotation can be made by clicking the sub-window with a pointer means or the like.
[0186]
In this case, if the point displayed in the subwindow is defined as a hot document based on the display of the stopped subwindow, if the user specifies the data point of interest in the subwindow S, It is possible to simultaneously determine the position of the document in the starry sky display and the position in the cone display by changing the color tone, brightness, display mode, etc. of the corresponding document in the main window M linked to the hot document of To do. In addition, as described above, by linking the points in the main window M and the points in the subwindow S, it is possible to save the user from having to switch the screens and execute display, thereby achieving a large scale. It is possible to further support the analysis of a large amount of document data retrieved in a database.
[0187]
In the present invention, the content of information displayed in the main window M and the sub window S is not particularly limited, and a link is provided between data points displayed in the main window M and the sub window S as described above. As long as it is possible, the display may be performed in any display format and display mode.
[0188]
FIG. 50 is a diagram showing an embodiment linked to data points specified in the subwindow S in the fifth embodiment of the present invention described above. As shown in FIG. 50, the data points displayed in the main window M and the subwindow S are linked through an identifier such as DocID, for example. The data points in the window M are changed to a bright display, and it is shown that the position of the document in the conical display and the position in the starry sky display are simultaneously presented to the user.
[0189]
Although the present invention has been described with the information visualization system and the information visualization method, the present invention also relates to a computer-executable program for executing the above-described information visualization method of the present invention. The computer program of the present invention can be written in a language such as C language, C ++ language, JAVA (registered trademark), or any other object-oriented language. The program of the present invention can be stored in a writable / readable computer-readable recording medium such as a floppy (registered trademark) disk, magnetic tape, hard disk, CD-ROM, DVD, or magneto-optical disk.
[0190]
As described above, the present invention provides an information visualization system, an information visualization method, a program for information visualization, and a program that can efficiently provide information retrieved from a large database to a user. It is possible to provide a recorded computer-readable recording medium and an information retrieval service system. In addition, for ease of understanding, the present invention has been described with a system that performs three-dimensional display. However, the present invention can be applied to two-dimensional, four-dimensional, and higher-dimensional user-preferred n-dimensional coordinate axes as necessary. It can also be used for visualization, and if necessary, can be topologically projected onto a low-dimensional curved surface to give the user desired cross-section for the retrieved information. Furthermore, in the present invention, it goes without saying that any value, condition, or setting can be used as the above-described specific numerical value, condition, or setting as long as the above-described effect of the present invention can be obtained. is there.
[Brief description of the drawings]
FIG. 1 is a schematic diagram of an information visualization system.
FIG. 2 is a functional block diagram showing functions used by a server to search a document included in a database 3 and enable visualization processing in the present invention.
FIG. 3 is a flowchart of the above-described pre-processing stage executed by the system of the present invention.
FIG. 4 is a flowchart of a process for executing search and visualization in the present invention.
FIG. 5 is a diagram showing a detailed visualization process including steps S28 and S29 for executing display in the search / visualization process of the present invention shown in FIG. 4;
6 is a flowchart showing in more detail the process from step S36 to step S39 in the detailed visualization process shown in FIG.
FIG. 7 is a flowchart showing a process when the present invention is configured as an information retrieval service system including a visualization display process via a network.
FIG. 8 is a document database used in the first embodiment.
FIG. 9 is a diagram showing an embodiment of title data.
FIG. 10 is a diagram showing a structure of unit structure document data composed of title data and documents in a document database by a document attribute creating means.
FIG. 11 is a diagram showing a configuration of a part of keyword data among 1053 keywords generated by the keyword creating means KWD.
FIG. 12 is a diagram showing detailed data of a part of a document matrix.
FIG. 13 is a diagram showing a dimension reduction document matrix (LSI.RDC) obtained by applying the LSI method;
FIG. 14 is a diagram showing a dimension-reduced singular vector (LSI.VEC).
FIG. 15 is a diagram showing a dimension reduction document matrix COV.RDV obtained by applying the COV method.
FIG. 16 is a diagram showing dimension-reduced singular vectors obtained by the COV method.
17 is a diagram showing a screen display shown on the display screen in an initial state in which output data LSI.RDV and LSI.RSV of the method LSI method shown in FIGS. 14 and 15 are read. FIG.
FIG. 18 is a diagram showing a menu that can be used on the display screen of the present invention.
FIG. 19 is a diagram showing a screen display of a data selection screen used in the present invention.
FIG. 20 shows a three-dimensional viewing method that can be used in the present invention.
FIG. 21 is a diagram showing a menu that can be used on the display screen of the present invention.
FIG. 22 is a diagram showing a pop-up window for inputting user preference data.
FIG. 23 is a diagram showing user preference data reduced in dimension to 50 dimensions and top 20 data of similarity ranking of each document.
FIG. 24 is a diagram showing a display mode of document data displayed when the user selects to perform cone display instead of starry sky display in the visualization display system of the present invention.
FIG. 25 is a diagram showing a state in which a title is displayed in association with a document point.
FIG. 26 is a diagram showing the HTML document itself displayed on the display screen.
FIG. 27 is a diagram illustrating generation of three-dimensional rotation (3 × 3 matrix).
FIG. 28 is a diagram showing a relationship between four modes of affine transformation.
FIG. 29 shows the results of TOP20 of the user preference data and the similarity ranking of each document when the same document data and the same user preference data as described in the first embodiment are applied to the COV method. Figure.
FIG. 30 is a diagram showing a visualization display of a document in a user preference representative three-dimensional coordinate axis shape given by default setting for dimension reduction data using the COV method.
FIG. 31 is an enlarged view showing a tool bar.
FIG. 32 is a diagram showing a display that changes depending on a threshold value.
FIG. 33 is an enlarged view showing a slider bar for designating an angle threshold value.
FIG. 34 is a diagram showing a result of narrowing down document data using an angle threshold value.
FIG. 35 is a diagram showing a detailed display method of a cone display used in the present invention.
FIG. 36 shows a source that can be used to make a cone display in the present invention. The figure which showed the code.
FIG. 37 is an enlarged view showing a tool bar displaying “user preference representative three-dimensional coordinate axes” displayed on the right side of the normal screen.
FIG. 38 is a view showing a check menu of various flag fields near the center of the tool bar on the left side of the screen.
FIG. 39 is a diagram showing user preference data that can be used in the third embodiment of the present invention.
FIG. 40 is a diagram showing the top 20 of the similarity rankings obtained by keywords in the third embodiment of the present invention.
41 is a diagram showing a result of visualizing and displaying document data having the similarity ranking shown in FIG. 40. FIG.
FIG. 42 is a diagram showing an embodiment of Advanced Search in the present invention.
FIG. 43 is a diagram showing the top 20 similarity rankings corresponding to Advanced Search.
44 is a diagram visualizing and displaying the results obtained in FIG. 43 according to the present invention.
FIG. 45 is a diagram showing the original document displayed as a hot document for the document with DocID367.
FIG. 46 is a diagram showing a fourth embodiment of the present invention.
FIG. 47 is a diagram showing a visualization display obtained in the fourth embodiment of the present invention.
FIG. 48 is a diagram showing a visualization display obtained in the fourth embodiment of the present invention.
FIG. 49 is a diagram showing a fifth embodiment of the present invention.
FIG. 50 is a diagram showing functions in the fifth embodiment of the invention.
[Brief description of symbols]
1 ... Network
2 ... Terminal means
3 ... Database
4 ... Server
10 ... Database
12 ... Means for creating title data
14 ... Keyword creation means
16: Cluster analysis means
18 ... Database
20 ... Keyword database
22 ... Database
24. Document attribute creation means
26 ... Database
28 ... Database
30 ... Document matrix creation means
32 ... Document matrix database
34 ... Dimension reduction means
36 ... Database
38 ... Database
40 ... User preference data
42 ... Visualization engine

Claims (21)

データベース内において数値化された行列として保持された所定の情報を可視化表示するための情報可視化システムであって、該システムは、
前記行列を特異値分解して特異ベクトルを生成するための手段と、
前記行列を前記特異ベクトルを使用して次元削減するための手段と、
前記所定の情報を選択するための選択ベクトルを与えるための手段と、
前記選択ベクトルを前記特異ベクトルを使用して次元削減し、次元削減された前記選択ベクトルの要素を大きい方から降順に所定数選択して可視化座標軸とするための手段と
前記次元削減された行列と前記次元削減された選択ベクトルとを用いて前記行列から情報を選択する手段と、
前記選択された情報を前記可視化座標軸に対して射影して可視化表示を与えるための手段と
を含む情報可視化システム。
An information visualization system for visualizing and displaying predetermined information held as a digitized matrix in a database, the system comprising:
Means for generating a singular vector by singular value decomposition of the matrix;
Means for reducing the dimensions of the matrix using the singular vectors;
Means for providing a selection vector for selecting the predetermined information;
Means for reducing the dimension of the selection vector using the singular vector, and selecting a predetermined number of elements of the selection vector reduced in dimension in descending order as visualization coordinate axes ;
Means for selecting information from the matrix using the dimension-reduced matrix and the dimension-reduced selection vector;
Means for projecting the selected information onto the visualization coordinate axes to provide a visualization display .
前記情報は、前記データベースに前記数値化された行列として保持されたドキュメントであり、前記選択ベクトルは、検索を行うためのクエリー・ベクトルである
請求項に記載の情報可視化システム。
The information visualization system according to claim 1 , wherein the information is a document stored as the digitized matrix in the database, and the selection vector is a query vector for performing a search.
前記行列を特異値分解して特異ベクトルを生成するための手段は、潜在的意味解析法または共分散行列法を実行する手段を含む
請求項1または2に記載の情報可視化システム。
It said means for generating a singular vectors and singular value decomposition matrix, information visualization system according to claim 1 or 2 including means for executing latent semantic analysis or covariance matrix method.
前記可視化座標軸をアフィン変換して、前記選択された情報の可視化表示を変化させる手段を含む
請求項1〜のいずれか1項に記載の情報可視化システム。
The visualization axis by the affine transformation, information visualization system according to any one of claims 1 to 3 including means for varying the visualization of the selected information.
前記選択された情報の可視化表示を与えるための手段は、前記可視化表示を多次元で与える手段を含む
請求項1〜のいずれか1項に記載の情報可視化システム。
The information visualization system according to any one of claims 1 to 4 , wherein the means for providing a visualization display of the selected information includes a means for providing the visualization display in a multidimensional manner.
データベース内において数値化された行列として保持された所定の情報を可視化表示するための情報可視化方法であって、
情報可視化システムが備える特異ベクトルを生成するための手段が、前記行列を特異値分解して特異ベクトルを生成するステップと、
前記情報可視化システムが備える次元削減するための手段が、前記行列を前記特異ベクトルを使用して次元削減するステップと、
前記情報可視化システムが備える選択ベクトルを与えるための手段が、前記所定の情報を選択するための選択ベクトルを与えるステップと、
前記情報可視化システムが備える可視化座標軸とするための手段が、前記選択ベクトルを前記特異ベクトルを使用して次元削減し、次元削減された前記選択ベクトルの要素を大きい方から降順に所定数選択して可視化座標軸とするステップと
前記情報可視化システムが備える情報を選択する手段が、前記次元削減された行列と前記次元削減された選択ベクトルとを用いて前記行列から情報を選択するステップと、
前記情報可視化システムが備える可視化表示を与えるための手段が、前記選択された情報を前記可視化座標軸に対して射影して可視化表示を与えるステップと
を含む情報可視化方法。
An information visualization method for visualizing and displaying predetermined information stored as a digitized matrix in a database,
Means for generating a singular vector included in the information visualization system, generating a singular vector by singular value decomposition of the matrix;
Means for reducing the dimensions of the information visualization system comprises reducing the dimensions of the matrix using the singular vectors;
A means for providing a selection vector included in the information visualization system provides a selection vector for selecting the predetermined information;
Means for making the visualization coordinate axis included in the information visualization system reduce the dimension of the selection vector using the singular vector, and select a predetermined number of elements of the selection vector reduced in dimension in descending order. A step of making it a visualization coordinate axis ;
Means for selecting information provided in the information visualization system, selecting information from the matrix using the dimension-reduced matrix and the dimension-reduced selection vector;
A means for providing a visualization display included in the information visualization system; and projecting the selected information onto the visualization coordinate axis to provide a visualization display .
前記特異ベクトルを生成するための手段と前記次元削減するための手段と前記情報を選択する手段とが、前記情報として、前記データベースに前記数値化された行列として保持されたドキュメントを使用するステップと、前記可視化座標軸とするための手段が、前記選択ベクトルとして、検索を行うためのクエリー・ベクトルを使用するステップとを含む
請求項に記載の情報可視化方法。
The means for generating the singular vector, the means for reducing the dimension, and the means for selecting the information use, as the information, a document held as the digitized matrix in the database; The information visualization method according to claim 6 , wherein the means for obtaining the visualization coordinate axis includes a step of using a query vector for performing a search as the selection vector.
前記行列を特異値分解して特異ベクトルを生成するステップは、潜在的意味解析法または共分散行列法を選択して実行するステップを含む
請求項6または7に記載の情報可視化方法。
The information visualization method according to claim 6 or 7 , wherein the step of generating a singular vector by performing singular value decomposition on the matrix includes a step of selecting and executing a latent semantic analysis method or a covariance matrix method.
前記情報可視化システムが備える可視化表示を変化させる手段が、前記可視化座標軸をアフィン変換して、前記選択された情報の可視化表示を変化させるステップを含む
請求項6〜8のいずれか1項に記載の情報可視化方法。
Means for changing the visualization provided in the information visualization system, said visualization coordinate affine transformation, according to any one of claims 6-8 comprising the step of changing the visualization of the selected information Information visualization method.
前記選択された情報の可視化表示を与えるステップは、前記可視化表示を多次元で与えるステップを含む
請求項のいずれか1項に記載の情報可視化方法。
The information visualization method according to any one of claims 6 to 9 , wherein the step of providing a visualization display of the selected information includes a step of providing the visualization display in a multidimensional manner.
データベース内において数値化された行列として保持された所定の情報を可視化表示するための情報可視化方法を実行させるためのコンピュータ可読なプログラムであって、該プログラムは、前記コンピュータに、
前記行列を特異値分解して特異ベクトルを生成するステップと、
前記行列を前記特異ベクトルを使用して次元削減するステップと、
前記所定の情報を選択するための選択ベクトルを与えるステップと、
前記選択ベクトルを前記特異ベクトルを使用して次元削減し、次元削減された前記選択ベクトルの要素を大きい方から降順に所定数選択して可視化座標軸とするステップと
前記次元削減された行列と前記次元削減された選択ベクトルとを用いて前記行列から情報を選択するステップと、
前記選択された情報を前記可視化座標軸に対して射影して可視化表示を与えるステップと
を実行させるプログラム。
A computer-readable program for executing an information visualization method for visualizing and displaying predetermined information stored as a digitized matrix in a database, the program comprising:
Singular value decomposition of the matrix to generate a singular vector;
Reducing the dimension of the matrix using the singular vector;
Providing a selection vector for selecting the predetermined information;
Reducing the dimension of the selection vector using the singular vector, selecting a predetermined number of elements of the dimension-reduced selection vector in descending order from the largest, and making it a visualization coordinate axis ;
Selecting information from the matrix using the dimension-reduced matrix and the dimension-reduced selection vector;
Projecting the selected information onto the visualization coordinate axis to give a visualization display .
前記プログラムは、前記情報として、前記データベースに前記数値化された行列として保持されたドキュメントを使用するステップと、前記選択ベクトルとして、検索を行うためのクエリー・ベクトルを使用するステップとを実行させる
請求項11に記載のプログラム。
The program causes a step of using a document stored as the digitized matrix in the database as the information and a step of using a query vector for performing a search as the selection vector. Item 12. The program according to Item 11 .
前記プログラムは、前記行列を特異値分解して特異ベクトルを生成するステップは、潜在的意味解析法または共分散行列法を選択して実行するステップを実行させる
請求項11または12に記載のプログラム。
The program according to claim 11 or 12 , wherein the step of generating a singular vector by performing singular value decomposition on the matrix executes a step of selecting and executing a latent semantic analysis method or a covariance matrix method.
前記プログラムは、前記可視化座標軸をアフィン変換して、前記選択された情報の可視化表示を変化させるステップを実行させる
請求項1113のいずれか1項に記載のプログラム。
The program according to any one of claims 11 to 13 , wherein the program executes a step of changing the visualization display of the selected information by performing affine transformation on the visualization coordinate axis.
前記選択された情報の可視化表示を与えるステップは、前記可視化表示を多次元で与えるステップを実行させる
請求項1114のいずれか1項に記載のプログラム。
The program according to any one of claims 11 to 14 , wherein the step of giving a visualized display of the selected information causes the step of giving the visualized display in multiple dimensions.
データベース内において数値化された行列として保持された所定の情報を可視化表示するための情報可視化方法を実行させるためのプログラムが記録されたコンピュータ可読な記録媒体であって、前記プログラムは、前記コンピュータに
前記行列を特異値分解して特異ベクトルを生成するステップと、
前記行列を前記特異ベクトルを使用して次元削減するステップと、
前記所定の情報を選択するための選択ベクトルを与えるステップと、
前記選択ベクトルを前記特異ベクトルを使用して次元削減し、次元削減された前記選択ベクトルの要素を大きい方から降順に所定数選択して可視化座標軸とするステップと
前記次元削減された行列と前記次元削減された選択ベクトルとを用いて前記行列から情報を選択するステップと、
前記選択された情報を前記可視化座標軸に対して射影して可視化表示を与えるステップと
を実行させるプログラムが記録されたコンピュータ可読な記録媒体。
A computer-readable recording medium having a program recorded thereon for executing the information visualization method for displaying visualizing predetermined information held as digitized matrix in the database, the program, the computer Singular value decomposition of the matrix to generate a singular vector;
Reducing the dimension of the matrix using the singular vector;
Providing a selection vector for selecting the predetermined information;
Reducing the dimension of the selection vector using the singular vector, selecting a predetermined number of elements of the dimension-reduced selection vector in descending order from the largest, and making it a visualization coordinate axis ;
Selecting information from the matrix using the dimension-reduced matrix and the dimension-reduced selection vector;
A computer-readable recording medium on which a program for executing the step of projecting the selected information onto the visualization coordinate axis to give a visualization display is recorded.
前記情報として、前記データベースに前記数値化された行列として保持されたドキュメントを使用するステップと、前記選択ベクトルとして、検索を行うためのクエリー・ベクトルを使用するステップとを実行させる
請求項16に記載の記録媒体。
As the information, according to step a, as the selection vector, according to claim 16, and a step of using a query vector for performing searching using the documents held as the digitized matrix in the database Recording media.
前記行列を特異値分解して特異ベクトルを生成するステップは、潜在的意味解析法または共分散行列法を選択して実行するステップを実行させる
請求項16または17に記載の記録媒体。
The recording medium according to claim 16 or 17 , wherein the step of generating a singular vector by singular value decomposition of the matrix executes a step of selecting and executing a latent semantic analysis method or a covariance matrix method.
前記可視化座標軸をアフィン変換して、前記選択された情報の可視化表示を変化させるステップを実行させる
請求項1618のいずれか1項に記載の記録媒体。
The recording medium according to any one of claims 16 to 18 , wherein the visualization coordinate axis is affine transformed to change the visualization display of the selected information.
前記選択された情報の可視化表示を与えるステップは、前記可視化表示を多次元で与えるステップを実行させる
請求項1619のいずれか1項に記載の記録媒体。
The recording medium according to any one of claims 16 to 19 , wherein the step of providing a visualization display of the selected information causes the step of providing the visualization display in multiple dimensions.
データベース内において数値化された行列として保持されたドキュメントを検索するサーバを含み、検索結果を可視化表示して提供する情報検索サービス・システムであって、
ネットワークを介して認証情報を受信するための手段と、
前記認証情報の正当性を判断するための手段と、
前記認証情報が正当である場合に検索クエリーを受信する手段と、
前記行列を特異値分解して特異ベクトルを生成するための手段と、
前記行列を前記特異ベクトルを使用して次元削減するための手段と、
前記検索クエリーに関連して生成されたクエリー・ベクトルを前記特異ベクトルを使用して次元削減し、次元削減された前記選択ベクトルの要素を大きい方から降順に所定数選択して可視化座標軸とするための手段と、
前記次元削減された行列と前記次元削減されたクエリー・ベクトルとを用いて前記行列から情報を選択する手段と、
前記選択された情報を前記可視化座標軸に対して射影して可視化表示関連するデータを生成するための手段と、
少なくとも前記可視化表示に関連するデータを前記ネットワークを介して送信する手段とを含む
情報検索サービス・システム。
An information retrieval service system that includes a server that retrieves a document held as a digitized matrix in a database, and provides a visual display of search results.
Means for receiving authentication information over a network;
Means for determining the validity of the authentication information;
Means for receiving a search query if the authentication information is valid;
Means for generating a singular vector by singular value decomposition of the matrix;
Means for reducing the dimensions of the matrix using the singular vectors;
In order to reduce the dimension of the query vector generated in association with the search query using the singular vector and select a predetermined number of elements of the selection vector reduced in dimension in descending order as a visualization coordinate axis Means of
Means for selecting information from the matrix using the dimension-reduced matrix and the dimension-reduced query vector;
Means for generating data related to visualization by projecting the information the selected for the visualization axis,
Means for transmitting at least data related to the visualization display via the network.
JP2001329613A 2001-10-26 2001-10-26 Information visualization system, information visualization method, program therefor, recording medium on which the program is recorded, and information retrieval service system Expired - Fee Related JP3790699B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001329613A JP3790699B2 (en) 2001-10-26 2001-10-26 Information visualization system, information visualization method, program therefor, recording medium on which the program is recorded, and information retrieval service system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001329613A JP3790699B2 (en) 2001-10-26 2001-10-26 Information visualization system, information visualization method, program therefor, recording medium on which the program is recorded, and information retrieval service system

Publications (2)

Publication Number Publication Date
JP2003141165A JP2003141165A (en) 2003-05-16
JP3790699B2 true JP3790699B2 (en) 2006-06-28

Family

ID=19145491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001329613A Expired - Fee Related JP3790699B2 (en) 2001-10-26 2001-10-26 Information visualization system, information visualization method, program therefor, recording medium on which the program is recorded, and information retrieval service system

Country Status (1)

Country Link
JP (1) JP3790699B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210157819A1 (en) * 2016-06-30 2021-05-27 International Business Machines Corporation Determining a collection of data visualizations

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5060430B2 (en) * 2008-08-28 2012-10-31 株式会社東芝 Display control apparatus and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210157819A1 (en) * 2016-06-30 2021-05-27 International Business Machines Corporation Determining a collection of data visualizations

Also Published As

Publication number Publication date
JP2003141165A (en) 2003-05-16

Similar Documents

Publication Publication Date Title
US6415282B1 (en) Method and apparatus for query refinement
US6243094B1 (en) Clustering user interface
JP3489615B2 (en) Image classification method, image inquiry method, image classification device, image inquiry device
Baeza-Yates Visualization of large answers in text databases
US9208592B2 (en) Computer-implemented system and method for providing a display of clusters
JP4587512B2 (en) Document data inquiry device
US20020091678A1 (en) Multi-query data visualization processes, data visualization apparatus, computer-readable media and computer data signals embodied in a transmission medium
US20030123737A1 (en) Perceptual method for browsing, searching, querying and visualizing collections of digital images
US20060155684A1 (en) Systems and methods to present web image search results for effective image browsing
JP2002532788A (en) System and method for organizing data
US20060112142A1 (en) Document retrieval method and apparatus using image contents
Koshman Visualization-based information retrieval on the web
JP2003167914A (en) Multimedia information retrieving method, program, recording medium and system therefor
AU2005201771A1 (en) Method and system for identifying image relatedness using link and page layout analysis
JPH11175535A (en) Method and device for retrieving image and retrieval service utilizing the same
Stober et al. Musicgalaxy: A multi-focus zoomable interface for multi-facet exploration of music collections
JP2003521070A (en) Method and apparatus for cataloging and searching information
JPH1139332A (en) Method and device for retrieving image and retrieval service utilizing it
JP4205935B2 (en) Content search device, program, and recording medium
JP3790699B2 (en) Information visualization system, information visualization method, program therefor, recording medium on which the program is recorded, and information retrieval service system
Teraoka et al. Adaptive information visualization based on the user's multiple viewpoints-interactive 3D visualization of the WWW
Kakimoto et al. Browsing functions in three-dimensional space for digital libraries
Assa et al. RMAP: a system for visualizing data in multidimensional relevance space
WO2002065339A1 (en) Multimedia information sorting/arranging device and sorting/arranging method
Hirata et al. Integration of image matching and classification for multimedia navigation

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050913

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20051006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051212

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20051212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20051212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060314

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20060314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060403

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090407

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100407

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees