JP2000148764A - クラスタリングを用いた検索質問展開処理装置,検索質問展開処理方法および検索質問展開処理用プログラム記録媒体 - Google Patents

クラスタリングを用いた検索質問展開処理装置,検索質問展開処理方法および検索質問展開処理用プログラム記録媒体

Info

Publication number
JP2000148764A
JP2000148764A JP10314135A JP31413598A JP2000148764A JP 2000148764 A JP2000148764 A JP 2000148764A JP 10314135 A JP10314135 A JP 10314135A JP 31413598 A JP31413598 A JP 31413598A JP 2000148764 A JP2000148764 A JP 2000148764A
Authority
JP
Japan
Prior art keywords
cluster
search
search query
clustering
expansion processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10314135A
Other languages
English (en)
Inventor
Naoyuki Horai
尚幸 蓬莱
Kiyoshi Nitta
清 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP10314135A priority Critical patent/JP2000148764A/ja
Publication of JP2000148764A publication Critical patent/JP2000148764A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 大量の文書検索において1次検索結果から2
次検索質問を生成する検索質問展開処理装置に関し,1
次検索結果をもとに適切な2次検索質問を生成して,文
書検索における再現率と精度とをバランスよく向上させ
ることができるようにすることを目的とする。 【解決手段】 クラスタリング部11は,検索エンジン3
の1次検索結果41を入力として文書群のクラスタリング
を行い,クラスタ集合45を出力する。2次検索質問生成
部12は,クラスタ集合45についてクラスタ選択,クラス
タ内文書選択等を行い,検索質問展開に適したクラスタ
を選択し,これを用いて2次検索質問47を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は,文書検索システム
において,2次検索の質問を自動的に生成する検索質問
展開処理装置およびその処理方法に関する。
【0002】大量の文書情報を蓄積し,検索質問によっ
て情報を入手することができる検索システムが増加して
いる。このようなシステムにおいて良質の情報を入手す
るためには,良質の検索質問を生成する必要がある。そ
のため,ユーザが入力した検索質問をもとに,システム
が質の高い検索質問を生成する技術は重要である。
【0003】
【従来の技術】従来からユーザが与えた検索質問を自動
的に展開する技術は,研究されている。検索質問を自動
的に展開する従来の方法の一つとして,例えば同義語や
シソーラス等の言語情報を利用する方法がある。このよ
うな言語情報を利用した検索質問展開方法には,あらか
じめ言語情報を収集しておく必要があるという欠点があ
る。また,収集した言語情報は一般的なものであるか
ら,質問によっては再現率は向上するものの検索精度が
低くなってしまうことがあるという欠点がある。
【0004】また,これとは別に,ユーザが与えた検索
質問をもとに検索(1次検索)を実行し,その結果を利
用して検索質問を展開する方法も行われている。例え
ば,1次検索結果の上位10位から単語を抽出し,その
抽出単語を用いて新しい検索質問を生成することが行わ
れている。この1次検索結果を用いる検索質問展開は,
質問に特化した展開が可能であるので有効であると考え
られるが,従来提案されている1次検索結果を用いた質
問展開方法による検索(2次検索)の成績は,必ずしも
満足できる結果となってはいない。
【0005】
【発明が解決しようとする課題】従来の1次検索結果を
用いた質問展開方法では,2次検索の成績に不満が残る
ものになっているが,これは,1次検索結果の利用方法
の未熟さに原因があると考えられる。検索の再現率と精
度の両方を向上させるためには,1次検索結果から質問
展開に適したもののみを精選し,それらをもとに良質な
2次検索質問を生成する必要がある。
【0006】また,文書検索を行う方法には,一般的に
方法内部の選択肢やパラメタが多く,その調整の良し悪
しが検索結果の質に大きく影響する。特に,検索質問展
開では,検索対象となる大量の文書情報,ユーザが与え
る検索質問,1次検索を行うプログラム(1次検索エン
ジン)等の影響を受けるので,パラメタの調整の重要性
が増している。そこで,選択肢やパラメタの調整が容易
なアーキテクチャであることも要求される。
【0007】本発明は上記問題点の解決を図り,1次検
索結果を用いる検索質問展開において,文書検索におけ
る再現率と精度の両方を向上させる適切な2次検索質問
を生成できるようにすることを目的とする。
【0008】
【課題を解決するための手段】本発明は,1次検索結果
を,各検索結果間の関連度等に着目してクラスタリング
し,クラスタリングした結果から適切なクラスタを選択
して,それらをもとに2次検索質問を生成することをも
っとも主要な特徴とする。1次検索結果をクラスタリン
グすることによって,適切なクラスタから2次検索質問
において重要性のある単語を選別することが可能とな
り,2次検索の再現率と精度を向上させることが可能と
なる。
【0009】図1は,本発明の原理を説明する図であ
る。本発明に係る検索質問展開処理装置1は,文書デー
タベースの検索システムの一部を担い,検索結果を用い
て検索質問を展開する。検索システムは,検索対象とな
る複数個の文書を記憶する文書データベース2と検索質
問を入力として検索結果を出力する検索エンジン3から
なる。検索エンジン3としては,一般に用いられている
既存のものを用いることができるので,検索エンジン3
の内部構成についての説明は省略する。
【0010】「検索質問」は,検索対象の文書データベ
ース2から検索したい文書を得るために検索エンジン3
に対して指定する質問であり,一般的には単語列と各単
語の重み(重みがない場合には,重み=1とする)によ
って構成され,その形式は検索エンジンによって異な
る。「検索結果」は,検索エンジン3によって検索され
た1または複数の文書である。検索エンジン3は,文書
だけでなく,文書ごとに「検索順位」や「検索スコア」
を出力することもできる。「検索順位」は,検索結果で
ある文書について,検索エンジン3が出力として最も適
切である文書から順に付けた番号である。「検索スコ
ア」は,検索順位を付ける際に検索エンジン3が各文書
に付けた評価値であり,スコアが高いほど順位が高い。
【0011】本発明の処理動作の前段階として検索結果
を出力する1次検索機能が必要である。1次検索では,
検索システムへ最初に与えられる1次検索質問40を検
索エンジン3に入力し,その出力を1次検索結果(検索
対象文書の部分集合)41として出力する。
【0012】検索質問展開処理装置1は,検索エンジン
3による1次検索結果41をクラスタリングするクラス
タリング部11と,クラスタリング部11により得られ
たクラスタ集合45をもとに2次検索質問47を生成す
る2次検索質問生成部12とを有する。
【0013】クラスタリング部11および2次検索質問
生成部12は,それぞれ,内部の部分機能の実現手法お
よびその実現手法ごとに存在する可変なパラメタの値を
適切に選択または設定することができる可変アーキテク
チャとなっている。
【0014】これらの選択や設定を自由に行うための可
変な部分は,省略可能な機能を省略するかどうかの指
定,複数の実現方式からの選択,ユーザによるパラメタ
の設定等である。これらは,一つのファイルに一括して
「機能を省略するか否か」,「選択された実現方式」,
「設定されたパラメタ」等を記述して管理し,そのファ
イルを指定して実行することで,実行中にそのファイル
の記述内容により実際の動作を決定する。なお,本例に
おける検索質問展開処理装置1の可変な部分の一部また
は全部を固定化した構成も,可変アーキテクチャの一部
とする。
【0015】クラスタリング部11は,1次検索結果4
1をクラスタリングし,クラスタ集合45を出力する。
なお,1次検索結果41の部分集合を「クラスタ」と呼
び,クラスタの集合を「クラスタ集合」と呼ぶ。
【0016】クラスタリング部11は,複数のクラスタ
リング実現手法を持ち,可変アーキテクチャによってそ
のうちの一つを選択して利用する。実現手法のいくつか
については後述するが,ここで記述したもの以外のクラ
スタリング実現手法を用いることもできる。
【0017】2次検索質問生成部12は,複数のクラス
タ選択手法またはクラスタ内文書選択手法を持つ。2次
検索質問生成部12は,クラスタリング部11が生成し
たクラスタ集合45を入力として,そのうちの一つまた
は複数を組み合わせて利用することにより検索質問展開
に適したクラスタを選別し,これを用いて2次検索質問
47を生成する。
【0018】クラスタ選択では,クラスタ集合45から
その部分集合である2次検索質問47の生成に適したク
ラスタ集合(以下,「良いクラスタ集合」という)や2
次検索質問47の生成に適さないクラスタ集合(以下,
「悪いクラスタ集合」という)を選択する。クラスタ内
文書選択では,良いクラスタ集合または悪いクラスタ集
合に含まれるクラスタ内の文書を選択する。
【0019】2次検索質問47の生成では,クラスタ集
合(良いクラスタ集合や悪いクラスタ集合)45を入力
し,検索質問(後述する図2の検索質問46)を出力す
る。その際,文書データベース2に蓄えられた対象文書
を利用して検索質問を決定する。なお,検索質問生成の
実現手法の違いにより,悪いクラスタ集合を用いないで
検索質問を生成する場合もある。
【0020】さらに,生成した検索質問と1次検索質問
40とを入力して,これらを配合することにより適切な
検索質問を生成し,2次検索質問47を出力する。この
質問配合の処理は省略することができ,省略した場合に
は,クラスタ集合から生成した検索質問をそのまま2次
検索質問47として出力する。
【0021】本発明では,1次検索結果(複数)41を
クラスタリングして2次検索質問生成に利用するが,場
合に応じて,1次検索結果(複数)41以外にも,1次
検索質問40や1次検索順位42や1次検索スコア43
等を参照して利用する。
【0022】本発明は,以下のように作用する。クラス
タリング部11は,検索エンジン3の1次検索結果41
を入力としてクラスタリングを行い,その部分集合であ
るクラスタの集合であるクラスタ集合45を出力する。
2次検索質問生成部12は,クラスタ集合45を入力と
して,クラスタ選択等を行い,検索質問展開に適した良
いクラスタ集合と適さない悪いクラスタ集合とを生成
し,これらを用いて検索質問を生成する。さらに,1次
検索質問40を入力し検索質問と配合して2次検索質問
47を出力する。検索エンジン3は,この2次検索質問
47を用いて,文書データベース2の2次検索を行い,
2次検索結果48等を出力する。
【0023】以上の各処理手段をコンピュータによって
実現するためのプログラムは,コンピュータが読み取り
可能な可搬媒体メモリ,半導体メモリ,ハードディスク
などの適当な記録媒体に格納することができる。
【0024】
【発明の実施の形態】以下,本発明の実施の形態を説明
する。本実施の形態では,図1に示すような構成におい
て,検索質問展開処理装置1のクラスタリング部11と
2次検索質問生成部12は,その内部の部分機能の構成
を可変アーキテクチャとする。以下では,その機能の実
現手法のいくつかについて説明するが,説明した以外の
手法を用いて実現することもできる。
【0025】〔1〕クラスタリング クラスタリング部11は,複数存在するクラスタリング
実現手法のうちの一つを選択してクラスタリングを行
う。ここでは,その実現手法のうちの一つとして,文書
−文書間関連度を用いたクラスタリングを説明する。
【0026】図2は,クラスタリングの処理概要を示す
図である。図2に示すように,クラスタリング部11
は,1次検索結果41を入力として,検索対象の文書デ
ータベース2に含まれる全ての文書を用いて単語の出現
頻度に基づく1次検索結果41の文書−文書間関連度を
計算し(S11),その文書−文書間関連度に基づいて
クラスタリングを行い(S12),クラスタ集合45を
出力する。
【0027】単語の出現頻度から文書−文書間関連度を
計算する手法としては,LtLnu法,KullBac
k法,OKAPI法など既存の手法が多数存在するの
で,それらの手法から一つを選択して文書−文書間関連
度を計算する。
【0028】なお,文書−文書間関連度計算手法につい
ての参考文献としては, ・文献1:「情報検索研究」pp.105-106,イングベルセ
ン,P.著/藤原鎮男監訳/細野公男訳,情報検索研究
認知的アプローチ,1995年 ISBN 4-8101-8917-1,トッ
パン, ・文献2:「情報検索論」pp.51-57,細野公男監訳,情
報検索論 認知的アプローチへの展望,1994年 ISBN 4-
621-04008-1,丸善,等がある。
【0029】また,文書−文書間関連度に基づくクラス
タリング手法としては,Ward法,UPGMA法,W
PGMA法など多数存在するので,それらの手法から一
つを選択してクラスタリングする。クラスタリング手法
の参考文献としては, ・文献3:「多次元データの解析」,鷲尾泰俊,大橋靖
雄著,シリーズ入門 統計的方法3,1989年 ISBN 4-00
-00763-5, 岩波書店, ・文献4:Information Retrieval: Data Structures &
Algorithms by RicardoBaeza-Yates(Editor), William
B.Frakes, Ricardo Baeza-Yates, Prentice Hall Pres
s; ISBN 0134638379, pp.428-440 , 等がある。
【0030】〔2〕2次検索質問生成 2次検索質問生成部12は,クラスタ集合45を入力と
して,後述するような種々の手法によるクラスタ選択ま
たはクラスタ内文書選択を行い,選択したクラスタ集合
を用いて2次検索質問47を生成する。
【0031】図3は,2次検索質問生成の処理概要を示
す図である。2次検索質問生成部12の部分機能は可変
アーキテクチャであり,図3中,点線で示す部分は省略
可能な部分であることを示す。
【0032】1)クラスタ選択 2次検索質問生成部12は,さまざまなクラスタ選択の
実現方法により,クラスタ集合45から良いクラスタ集
合または悪いクラスタ集合を選択する(S21)。ま
た,良いクラスタ集合と悪いクラスタ集合のどちらか一
方あるいは両方とも省略することが可能である。良いク
ラスタ集合の選択を省略した場合には,出力される良い
クラスタ集合45は入力と同じものとなる。このクラス
タ選択の処理(S21)では,その実現手法の違いによ
り,1次検索質問40,1次検索順位42,1次検索ス
コア43を参照する場合がある。
【0033】良いクラスタ集合または悪いクラスタ集合
の選択は,独立に別個の実現手法で行うことが可能であ
る。以下の手法は,どちらの集合の選択手法としても使
用できるような,クラスタ集合から検索質問の生成に有
効な情報を持つと考えられるクラスタ集合を選択する手
法である。
【0034】1−1)属性条件によるクラスタ選択 属性条件によるクラスタ選択では,ある属性条件を満た
すクラスタのみを選択する。
【0035】図4は,属性条件によるクラスタ選択の処
理概要を示す図である。図4に示すように,属性条件群
から選択した属性条件によりクラスタ集合45を判定し
て該当クラスタを選択し,良いクラスタ集合(または悪
いクラスタ集合)として出力する(S101)。
【0036】判定に用いる属性条件群としては,以下の
ようなものがある。 (a) ユーザが文書集合Dを指定して,Dの要素である文
書が少なくとも1個は含まれているクラスタのみを選択
する。 (b) ユーザが整数nを指定して,要素数(文書数)がn
個以下のクラスタのみを選択する。 (c) ユーザが整数nとmを指定して,要素数がn個以上
かつm個以下のクラスタのみを選択する。 (d) クラスタの属性条件(f)を指定して,その条件を
満たすクラスタのみ選択する。
【0037】図5は,属性条件によるクラスタ選択の例
を説明する図である。図5において,矩形はクラスタを
表し,矩形内の円は文書を表す。属性条件群の中から
(c) 「ユーザが整数nとmを指定して,要素数がn個以
上かつm個以下のクラスタのみを選択する」という属性
条件が選択されたものとする。この例では,ユーザがn
=3,m=10を指定したものとする。図5に示すよう
に,クラスタのサイズ(要素数)の小さい順に上からク
ラスタを並べ,要素数が2個以下のクラスタと要素数が
11個以上のクラスタを除外し,要素数が2個以上かつ
10個以下のクラスタを,この属性条件を満たすクラス
タ(図中クラスタの右側に○印を付したもの)として選
択して,これらを選択されたクラスタ集合とする。
【0038】1−2)代表値比較によるクラスタ選択 代表値比較によるクラスタ選択では,クラスタごとの代
表値を計算し,ある代表値の条件を満たすクラスタのみ
を選択する。
【0039】図6は,代表値比較によるクラスタ選択の
処理概要を示す図である。図6に示すように,クラスタ
集合45を入力として,代表値計算手法群から選択した
手法により,クラスタ集合45の各クラスタの代表値を
計算し,「(クラスタ,代表値)の集合」を生成する
(S111)。次に,代表値条件群から選択した条件に
より,「(クラスタ,代表値)の集合」からクラスタが
その代表値条件を満たすかどうかを判定してユーザ指定
のn個の該当クラスタを選択し,それらを選択されたク
ラスタ集合として出力する(S112)。
【0040】代表値計算手法群としては,以下のような
ものがある。 (a) クラスタ内の文書の1次検索順位の平均をそのクラ
スタの代表値とする。 (b) クラスタ内の文書におけるもっとも良い1次検索順
位をそのクラスタの代表値とする。 (c) クラスタ内の文書におけるもっとも悪い1次検索順
位をそのクラスタの代表値とする。 (d) クラスタ内の文書の1次検索スコアの平均をそのク
ラスタの代表値とする。 (e) クラスタ内の文書におけるもっとも高い1次検索ス
コアをそのクラスタの代表値とする。 (f) クラスタ内の文書におけるもっとも低い1次検索ス
コアをそのクラスタの代表値とする。
【0041】また,代表値条件群としては,以下のよう
なものがある。 (a) 代表値がもっとも大きいクラスタを選択する。 (b) 代表値がもっとも小さいクラスタを選択する。 (c) ユーザが整数nを指定して,上位n位以上のクラス
タを選択する。 (d) ユーザが整数nを指定して,下位n位以下のクラス
タを選択する。
【0042】図7は,代表値比較によるクラスタ選択の
例を説明する図である。図7において,矩形はクラスタ
を表し,矩形内の円は文書を表す。代表値計算手法群の
中から,(d) 「クラスタ内の文書の1次検索スコアの平
均スコアをそのクラスタの代表値とする」という代表値
計算手法が選択されたものとする。各クラスタの代表値
を計算し,図7に示すように,上から下へ高平均スコア
の順にクラスタを並べる。ここで,(c) 「ユーザが整数
nを指定して,上位n位以上のクラスタを選択する」と
いう代表値条件が選択され,ユーザが指定したnが4で
ある場合,1次検索スコアの平均スコアが高い上位4位
までのクラスタを選択し,これらを選択されたクラスタ
集合として出力する。
【0043】1−3)順位付けによるクラスタ選択 順位付けによるクラスタ選択では,すべてのクラスタを
順位付けし,あるクラスタ順位の条件を満たすクラスタ
のみ選択する。
【0044】図8は,順位付けによるクラスタ選択の処
理概要を示す図である。図8に示すように,クラスタ集
合45を入力として,複数のクラスタ順位付け手法群か
ら選択した手法により,すべてのクラスタの順位付け
(順位生成)を行い,「(クラスタ順位,クラスタ)の
集合」を生成する(S121)。なお,クラスタ順位付
け手法によっては,1次検索順位42または1次検索ス
コア43を参照する。さらに,クラスタ順位条件群から
選択した条件により,そのクラスタのクラスタ順位が条
件を満たすかどうかを判定し,該当するn個のクラスタ
を選択し,それらを選択されたクラスタ集合として出力
する(S122)。
【0045】クラスタ順位付け手法群としては,以下の
ようなものがある。 (a) クラスタ内の文書の1次検索順位の平均によりクラ
スタを順位付けする。 (b) クラスタ内の文書におけるもっとも良い1次検索順
位によりクラスタを順位付けする。 (c) クラスタ内の文書におけるもっとも悪い1次検索順
位によりクラスタを順位付けする。 (d) クラスタ内の文書の1次検索スコアの平均によりク
ラスタを順位付けする。 (e) クラスタ内の文書におけるもっとも高い1次検索ス
コアによりクラスタを順位付けする。 (f) クラスタ内の文書におけるもっとも低い1次検索ス
コアによりクラスタを順位付けする。
【0046】また,以下のようなクラスタ順位付け手法
を繰り返し適用することにより,複数のクラスタ順位付
けを用いて新しいクラスタ順位を生成することもでき
る。 (g) クラスタ順位付けXとYとにより,まず,すべての
クラスタをXでクラスタ順位付けし,同順位になったも
のについてYにより順位付けするようなクラスタ順位を
生成する。
【0047】また,クラスタ順位付け条件群としては,
以下のようなものがある。 (a) ユーザが整数nを指定して,上位n位以上のクラス
タを選択する。 (b) ユーザが整数nを指定して,下位n位以下のクラス
タを選択する。
【0048】図9は,順位付けによるクラスタ選択の例
を説明する図である。図9において,矩形はクラスタを
表し,矩形内の円は文書を表し,円内の数字はその文書
の1次検索順位を表す。
【0049】ここでは,クラスタ順位付け手法群の(g)
で,Xを(b) ,Yを(d) とした「クラスタ内の文書にお
けるもっとも良い1次検索順位によりクラスタを順位付
けし,同順位になったものについては,さらにクラスタ
内の1次検索スコアの平均の高いものから順位付けす
る」というクラスタ順位付け手法が選択されたものとす
る。まず,各クラスタ内の文書におけるもっとも良い1
次検索順位により,すべてのクラスタの順位付けを行
い,さらにもっとも良い1次検索順位が同順位のクラス
タについては,1次検索スコアの平均の高いもの順に並
べる。クラスタ順位付け条件として,「ユーザが整数n
を指定して,上位n位以上のクラスタを選択する」とい
う条件が選択され,ユーザがn=4を指定している場
合,上位から4個のクラスタを選択して,これらを選択
されたクラスタ集合とする。
【0050】1−4)クラスタ集合分割によるクラスタ
選択 クラスタ選択の実現手法の一つとして,以下に説明する
クラスタ集合分割によるクラスタ選択を用いることもで
きる。このクラスタ集合分割によるクラスタ選択では,
クラスタの順位を求めて,クラスタ順位が同じもの同士
をまとめて順序付きのクラスタ集合の集合を生成し,各
クラスタ集合ごとに代表値となるクラスタを1個ずつ選
択して順序付きのクラスタの集合を作り,このクラスタ
集合の中からクラスタ順位の条件を満たすクラスタのみ
を選択する。
【0051】図10はクラスタ集合分割によるクラスタ
選択の処理概要を示す図である。図10に示すように,
クラスタ集合45を入力とし,クラスタ順位付け手法群
から選択した手法によりすべてのクラスタの順位付けを
行い,「(クラスタ順位,クラスタ)の集合」を生成す
る(S131)。なお,クラスタの順位生成は,前述の
「1−3)順位付けによるクラスタ選択」と同等のもの
を用いる。
【0052】次に,クラスタ順位が同じクラスタをまと
めて,「まとめられた(クラスタ順位,クラスタ集合)
の集合」を生成する(S132)。この「(クラスタ順
位,クラスタ集合)の集合」の中の各クラスタ集合か
ら,クラスタ選択実現手法群の中の一つの手法により,
それぞれ1個のクラスタを選択し,「選択された(クラ
スタ順位,クラスタ)の集合」を生成する(S13
3)。ここでは,前述したクラスタ選択実現手法から選
択した手法を用いる。
【0053】次に,クラスタ順位条件群から選択した条
件により,クラスタが条件を満たすかどうかを判定して
ユーザが指定するn個の該当クラスタを選択し,それら
を選択されたクラスタ集合として出力する(S13
4)。ここでは,前述の「1−3)順位付けによるクラ
スタ選択」と同等のものを用いる。
【0054】図11〜図13は,クラスタ集合分割によ
るクラスタ選択を説明する図である。図11〜図13に
おいて,矩形はクラスタを表し,矩形内の円は文書を表
し,円内の数字はその文書の1次検索順位を表す。
【0055】この例では,順位付け手法として「クラス
タ内の文書におけるもっとも良い1次検索順位によりク
ラスタを順位付けする」手法を用いるものとする。この
手法により,すべてのクラスタを順位付けし,クラスタ
内文書で1次検索順位がもっとも良い文書を持つクラス
タの順番でクラスタを並べる。さらに,各クラスタ内の
もっとも良い1次検索順位が同じクラスタ,すなわち,
クラスタ順位が同じクラスタをまとめて,図11に示す
ように,まとめられた順序付きのクラスタ集合の集合を
生成する。
【0056】この後,図12に示すように,まとめられ
たクラスタ集合ごとに,クラスタ内の文書の1次検索ス
コアの平均の高いものから順に並べ,まとめられた各ク
ラスタ集合の中から,もっとも1次検索スコアの平均の
高いクラスタを,それぞれ1個ずつ選択する。例えば,
もっとも良い1次検索スコアが2の文書を持つクラスタ
の集合の中からもっとも1次検索スコアの平均スコアが
高いクラスタを選択し,1次検索スコアが5のクラスタ
集合からも一つのクラスタを選択し,同様にして1次検
索スコアが7のクラスタ集合からも一つのクラスタを選
択し,…というように,クラスタを集めて,クラスタ集
合とする。
【0057】次に,図13に示すように,そのクラスタ
集合について,「上位n位以上のクラスタを選択する」
というクラスタ順位付け条件により,ユーザが指定する
上位n位以上の該当クラスタを選択する。ここでは,ユ
ーザが指定した上位から3個(n=3)のクラスタを,
選択されたクラスタ集合としている。
【0058】1−5)合成によるクラスタ選択 合成によるクラスタ選択では,クラスタ選択実現手法を
連続して複数回実行することにより行う。各クラスタ選
択の実行では,異なる実現手法を選んでもよく,また同
じ実現手法を選んでもよい。
【0059】図14は,合成によるクラスタ選択の処理
概要を示す図である。図14に示すように,クラスタ集
合45を入力として,クラスタ選択実現手法群から選択
した手法によってクラスタ選択を行う(S141)。続
けて,同一の手法または新たに選択した手法によりクラ
スタ選択を繰り返す(S142)。このように何回か繰
り返して選択したクラスタをクラスタ集合として出力す
る。クラスタ選択実現手法によっては,1 次検索順位4
2,1次検索スコア43を参照する。
【0060】1−6)クラスタ内文書選択 図3に示すクラスタ内文書選択S22では,クラスタ集
合に含まれる各クラスタごとに,そのクラスタに含まれ
る文書を順位付けし(文書順位の生成),文書順位の条
件により文書の選択を行う。
【0061】図15は,文書順位付けによるクラスタ内
文書選択の処理概要を示す図である。図15に示すよう
に,クラスタ選択により選択されたクラスタ集合を入力
とし,クラスタごとに以下の処理を行い,その処理の結
果得たクラスタをもとに新たなクラスタ集合を生成する
(S150)。
【0062】まず,各クラスタについて,文書順位付け
手法群から選択した手法により,クラスタ内の文書を順
位付けして「(文書順位,クラスタ)の集合」を生成す
る(S151)。なお,文書順位付け手法によっては,
1次検索順位42,1次検索スコア43を参照する。
【0063】さらに,文書順位条件群から選択した条件
により,そのクラスタが条件に該当するかどうかを判定
して,ユーザが指定する上位n個の該当文書を選択し,
クラスタとして出力する(S152)。
【0064】文書順位付け手法群としては,以下のよう
なものがある。 (a) 1次検索順位により文書を順位付けする。 (b) 1次検索スコアにより文書を順位付けする。
【0065】また,以下のような文書順位付け手法を繰
り返し適用することにより,複数の文書順位付けを用い
て新しい文書順位を生成することもできる。(c) 文章順
位付けXとYとにより,まず,すべての文書をXで文書
順位付けし,同順位になったものについて,さらにYで
順位付けするような文書順位を生成する。
【0066】文書順位条件群としては,以下のようなも
のがある。 (a) ユーザが整数nを指定して,上位n位以上の文書を
選択する。 (b) ユーザが整数nを指定して,下位n位以下の文書を
選択する。
【0067】図16は,文書順位付けによるクラスタ内
文書選択の例を説明する図である。図16において,矩
形はクラスタを表し,矩形内の円は文書を表し,円内の
数字はその文書の1次検索順位を表す。図16の例で
は,クラスタ内の文書について,文書順位付け手法群の
(a) により「文書の1次検索順位により順位付け」し,
文書順位条件群の(a) により「ユーザが指定した整数n
(この例ではn=3)に従って,クラスタごとに上位n
位以上の文書を選択」して,選択された文書集合を生成
する。
【0068】2)質問生成 図3の質問生成S23では,クラスタ選択S21および
クラスタ内文書選択S22により選択されたクラスタ集
合(良いクラスタ集合/悪いクラスタ集合)をもとに検
索質問46を生成する。
【0069】検索質問生成の手法はいくつかあるが,本
例では,検索質問46が実数重みが付いた単語の集合で
あるときの文書−単語間関連度による検索質問生成の手
法を用いる場合について説明する。単語の重みとは,検
索質問における単語の重要度を示すものである。
【0070】図17は,文書−単語間関連度による質問
生成の処理概要を示す図である。まず,検索対象の文書
データベース2に含まれるすべての文書を用いて,単語
の出現頻度に基づく良いクラスタ集合/悪いクラスタ集
合の中の各クラスタに関する文書−単語間関連度を計算
し,その関連度を重みとする重み付き単語の集合,すな
わち(単語,重み)集合をクラスタごとに生成する(S
201)。単語の出現頻度から文書−単語間関連度を計
算する手法は,前述した文書−文書間連度の計算手法と
同様に,LtLnu法,KullBack法,OKAP
I法など多数の手法が存在する。これらの手法から一つ
を選択する。
【0071】次に,各クラスタごとに重みを用いて単語
を選択する(S202)。具体的には,クラスタごとに
重み付き単語集合の要素を重みが大きい順に順位付け
し,ユーザが指定した整数ngまたはnbにより,良い
クラスタ集合/悪いクラスタ集合ごとに上位ng個/n
b個の重み付き単語のみを選択し,「(単語,重み)集
合の集合」を生成する。なお,クラスタごとの単語の選
択の処理(S202)は省略でき,この操作を省略した
ときには,入力であるクラスタごとの重み付き単語集合
をそのまま出力とする。
【0072】次に,クラスタレベル重み合計手法群から
選択した手法により,良いクラスタ集合/悪いクラスタ
集合の各要素ごとの重み付き単語集合を合計して,良い
クラスタ集合/悪いクラスタ集合の重み付き単語集合
〔(単語,重み)集合の集合〕を生成する(S20
3)。
【0073】クラスタレベル重み合計手法群には,以下
のようなものがある。ある単語について,いくつのクラ
スタの重み付き単語集合に含まれているかをその単語の
頻度と呼ぶ。すなわち,単語の頻度とは,その単語を重
み付き単語集合に含んでいるクラスタの個数である。 (a) ある単語の重みは,全クラスタにおけるその単語の
重みの和とする。 (b) ある単語の重みは,全クラスタにおけるその単語の
重みの和をその単語の頻度で割った数とする。 (c) ある単語の重みは,全クラスタにおけるその単語の
重みの和をその単語の頻度の2乗で割った数とする。
【0074】次に,重み合計手法群から選択した手法に
より,良いクラスタ集合と悪いクラスタ集合の単語の重
みを合計し,「(単語,重み)集合」を生成する(S2
04)。もし,悪いクラスタ集合がなければ省略され,
省略時の最終的な重み付き単語集合は,良いクラスタ集
合の重み付き単語である。
【0075】重み合計手法群には,以下のようなものが
ある。 (a) 良い重み付き単語集合から悪い重み付き単語集合に
含まれる単語を除く。 (b) 各単語について良い重みから悪い重みを引く(結果
が0以下になったものは除く)。 (c) 各単語について良い重みを悪い重みで割る。ただ
し,悪い重み付き単語集合にない単語については,良い
重みを用いる。 (d) ユーザが数nとmとを指定し,各単語について良い
重みのn倍から悪い重みのm倍を引く(結果が0以下に
なったものは除く)。 (e) ユーザが数nとmとを指定し,各単語について良い
重みのn倍を悪い重みのm倍で割る。ただし,悪い重み
付き単語集合にない単語については,良い重みのn倍を
用いる。
【0076】なお,nやmの値を1にすることにより,
スケーリングを行わないことも可能である。次に,重み
を用いて単語を選択する(S205)。単語の選択は,
ユーザが数kを指定し,重み付き単語集合の要素を重み
が大きい順に順序付けし,上位k個の重み付き単語のみ
を選択し,その結果から「(単語,重み)集合」を生成
する。単語の選択の処理(S205)は省略でき,この
操作を省略したときには,入力である重み付き単語集合
をそのまま出力する。
【0077】図18から図21までは,文書−単語間関
連度による質問生成の例を示す図である。図18〜図2
1において,矩形はクラスタを表し,矩形内の円は文書
を表し,文書内の数字はその文書の1次検索順位を表
し,円付き英小文字は単語を表す。
【0078】まず,図18に示すように,文書順位付け
によるクラスタ内文書選択により選択した文書集合につ
いて,各クラスタに関する文書−単語間関連度を計算し
て,その関連度を重みとする重み付き単語集合をクラス
タごとに生成する。すなわち,クラスタ化された良い文
書集合(良いクラスタ集合)から重み付きの良い単語集
合の集合G1,G2,G3を生成する。同様に,クラス
タ化された悪い文書集合(悪いクラスタ集合)から重み
付きの悪い単語集合の集合B1,B2,B3を生成す
る。
【0079】次に,各単語集合について各単語の重みが
大きい順に単語を並べ,ユーザが指定する整数ng,n
bに基づいて単語を選択する。図19に示すように,例
えばユーザが指定する整数ngが3,nbが2の場合,
重み付きの良い単語集合の集合については,各単語集合
の上位3個の単語を選択し,重み付きの悪い単語集合の
集合については各単語集合の上位2個の単語を選択す
る。
【0080】次に,図20に示すように,クラスタレベ
ル重み合計手法群から選択した一つの手法により,選択
した重み付きの良い単語集合の集合/重み付きの悪い単
語集合の集合の各単語ごとに単語の重みを合計する。こ
の例では,重み付きの良い単語集合の集合の単語につい
ては,(b) 「全クラスタにおけるその重みの和をその単
語の頻度で割った数」とし,重み付きの悪い単語集合の
集合の単語については,(c) 「全クラスタにおけるその
重みの和をその単語の頻度の2乗で割った数」としてい
る。次に,図21に示すように,良い重み付き単語の集
合と悪い重み付き単語の集合の単語の重みを合計する。
この例では,重み合計手法として,(e) 「双方に含まれ
る単語について,良い重み付き単語の重みのn倍(ユー
ザ指定)を,悪い重み付き単語の重みのm倍(ユーザ指
定)で割る(ただし,悪い重み付き単語集合にない単語
については,良い重みのn倍を用いる)」手法を用いて
いる。ここでは,n,mの値を両方10としている。こ
のようにして各単語の重みを決定し,この重みに基づい
て検索質問46の生成に用いる単語をk個(ユーザ指
定)選択する。
【0081】3)質問配合 図3の質問配合S24では,質問生成S23で生成され
た検索質問46と1次検索質問40とを用いて,目的と
する2次検索質問47を生成する。本例では,検索質問
が実数重みが付いた単語の集合である場合の重みスケー
リングによる質問配合を用いる。
【0082】図22は,重みスケーリングによる質問配
合の処理概要を示す図である。1次検索質問40と質問
生成S23の処理で生成した検索質問46とを入力とし
て,重み付き単語を,1次検索質問40のみに現れるも
の,検索質問46のみに現れるもの,1次検索質問40
と検索質問46の双方に現れるものに分類する(S30
1)。
【0083】ここで,1次検索質問40と検索質問46
の双方に現れる単語の重みについては,ユーザが指定し
た数bを用いて,検索質問46の重みをb倍し,それに
1次検索質問40の重みを加算して,その単語の重みと
する(S302)。
【0084】さらに,ユーザの指定した数(m1,m
2,m3)に基づいて,1次検索質問40のみに現れる
単語の重みをm1倍し,検索質問46のみに現れる単語
の重みをm2倍し,ステップS302で計算した1次検
索質問40および検索質問46の双方に現れる単語の重
みをm3倍するように,それぞれ重み付き単語の集合の
重みをスケーリングする(S303〜S305)。
【0085】次に,これら3種類の重み付き単語集合の
和集合を求め(S306),重み付き単語集合の要素を
重みが大きい順に順序付けし,その中からユーザの指定
する上位n個の単語を選択する(S307)。この選択
した単語を2次検索質問47とする。
【0086】なお,単語の選択の処理(S307)は省
略可能である。この操作を省略したときには,入力であ
る重み付き単語集合をそのまま出力する。また,スケー
リングの処理(S302〜S305)において,ユーザ
指定の値b,m1,m2,m3を,それぞれ1にするこ
とで,スケーリングの処理を行わないようにすることも
可能である。
【0087】以上のような処理により,2次検索質問生
成部12は,生成した2次検索質問47を出力する。検
索エンジン3は,この2次検索質問47を受けて,文書
データベース2について2次検索を行い,2次検索結果
48を出力する。
【0088】
【実施例】以下,大規模文書データベースの検索に本発
明を適用した結果について説明する。図23〜図27は
本発明の適用例による1次検索の結果と2次検索の結果
の比較を説明する図である。なお,以下の適用例では,
文書−文書間関連度の計算手法としてLtLnu法を用
い,関連度に基づくクラスタリング手法はWard法を
用いた。また,クラスタ選択では,図10〜図13で説
明したクラスタ集合分割によるクラスタ選択方法を用い
た。また,重み付き単語集合を生成するための文書−単
語間関連度の計算手法としてはLtLnu法を用いた。
ユーザが指定する情報は,事前に設定ファイルに設定し
て与え,2次検索質問の生成は,1次検索結果から自動
的に行われるようにした。
【0089】図23(A)に示すような文書データベー
ス(D1〜D5)の文書集合を検索対象にしている。こ
こで,検索対象は数百ワードからなる英文55万件,約
2ギガバイトの文書集合であり,一般的にいっても大規
模なデータベースである。
【0090】本例では,50の検索質問を用い,それぞ
れの質問は,title,description,n
arrative等の数種類の形式の質問からなりたっ
ている。図23(B)は,本例で用いる検索質問として
与えられる文章に関する情報を示す。なお,titl
e,description,narrativeの順
で,後のものほど記述量が多い質問形式となっている。
図23(C)は,検索質問の具体例として,質問番号3
12の内容を示している。
【0091】図24および図25は,文書データベース
D1〜D5からなる文書集合に対し,質問番号301〜
350のtitle部分のみを用いて検索を行った場合
の1次検索と2次検索の結果の比較を示す。
【0092】ここで,検索エンジンは,一つの質問に対
して1000件の文書を順序付きで出力し,それを検索
結果とする。また,本例では正解文書集合が存在する。
この正解文書集合をもとに,本発明の処理結果で得た文
書群にどれだけ正解が含まれるかを比較する。
【0093】図24(A)は,本実施例の検索結果を示
す。本例において,1次検索(検索質問展開前)と2次
検索(検索質問展開後)とでは,まず,検索できた正解
文書数が2,237から2,400へと向上しているこ
とがわかる。
【0094】図24(B)は,検索システムを評価する
際にもっともよく使われる再現レベル精度表を示してい
る。再現率は,検索の結果,正解文書をどれだけ再現し
たか(とりこぼしがなかったか)を測る指標であり,精
度は,検索結果の文書中に正解文書が含まれる割合を測
る指標である。
【0095】一般に,検索結果にする文書数を増やすと
再現率は向上するが,いわゆる「ごみ(正解ではない文
書)」が増えて精度が低下する。逆に,精度を上げよう
として検索結果を絞ると,どうしても正解文書も一緒に
捨ててしまうことになり再現率が低下してしまう。した
がって,検索システムの能力を評価するには,再現率と
精度のバランスを考慮する必要がある。このため,検索
システムの評価に再現レベル精度表がよく用いられる。
【0096】図24(C)は,1次検索(検索質問展開
前)の結果の再現レベル精度表をグラフ化した再現率・
精度曲線を示し,図24(D)は,2次検索(検索質問
展開後)の結果の再現率・精度曲線を示している。この
グラフは,横軸が再現率,縦軸が精度を表している。こ
の再現率・精度曲線が上昇すると検索性能が向上したと
いえるが,図24(C)と図24(D)の比較から,検
索質問展開後の方が再現率・精度曲線が上昇しており,
本発明による検索質問展開処理装置1を用いた質問展開
後の検索性能が向上していることがわかる。
【0097】図25は,文書レベル平均精度表を示して
いる。順序付けされた検索結果の上位5文書,10文
書,15文書,…をみたときの精度を表にしたものであ
る。一般的に,検索システムを使う場合には,提示され
た順に文書をみていくため,検索結果の順位の上位に正
解が多く集まることが良い検索システムの条件になる。
したがって,図25に示す表では,上位ほど細かい間隔
にして,平均値は上位に正解が集まるほど高くなるよう
に補正している。
【0098】このように,1次検索(検索質問展開前)
と本発明による2次検索(検索質問展開後)とでは,検
索できた正解文書数が2,237から2,400へと向
上し,再現レベル精度の平均値が0.309から0.3
17へ,また,文書レベル精度の平均値が0.269か
ら0.280へとそれぞれバランスよく上昇しているの
がわかる。
【0099】図26および図27は,文書データベース
D1〜D5からなる文書集合に対し,質問番号301〜
350のdescription部分のみを用いて検索
を行った場合の1次検索と2次検索の結果の比較を示
す。
【0100】図26(A)は検索結果の正解文書数を示
し,図26(B)は再現レベル精度表を示し,図26
(C)は質問展開前の再現レベル精度表をグラフ化した
再現率・精度曲線を示し,図26(D)は質問展開後の
再現レベル精度表をグラフ化した再現率・精度曲線を示
している。また,図27は,文書レベル平均精度表を示
している。description部分のみを用いた検
索も,図24および図25により説明したtitle部
分を用いた検索の場合と同様に,検索質問の展開前(1
次検索)と展開後(2次検索)では,検索できた正解文
書数が1,891から2,015へと向上し,再現レベ
ル精度の平均値が0.242から0.252へ,また,
文書レベル精度の平均値が0.214から0.226へ
とそれぞれバランスよく上昇しているのがわかる。
【0101】
【発明の効果】以上説明したように,本発明によれば,
1次検索結果をクラスタリングし,可変アーキテクチャ
による種々のクラスタ選択等を行うことにより,質問展
開に適した単語集合を精選し,これらをもとに適切な2
次検索質問を容易に生成することができ,文書検索にお
ける再現率と精度の両方をバランスよく向上させる検索
質問展開を行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の原理を説明する図である。
【図2】クラスタリングの処理概要を示す図である。
【図3】2次検索質問生成の処理概要を示す図である。
【図4】属性条件によるクラスタ選択の処理概要を示す
図である。
【図5】属性条件によるクラスタ選択の例を説明する図
である。
【図6】代表値比較によるクラスタ選択の処理概要を示
す図である。
【図7】代表値比較によるクラスタ選択の例を説明する
図である。
【図8】順位付けによるクラスタ選択の処理概要を示す
図である。
【図9】順位付けによるクラスタ選択の例を説明する図
である。
【図10】クラスタ集合分割によるクラスタ選択の処理
概要を示す図である。
【図11】クラスタ集合分割によるクラスタ選択を説明
する図である。
【図12】クラスタ集合分割によるクラスタ選択を説明
する図である。
【図13】クラスタ集合分割によるクラスタ選択を説明
する図である。
【図14】合成によるクラスタ選択の処理概要を示す図
である。
【図15】文書順位付けによるクラスタ内文書選択の処
理概要を示す図である。
【図16】文書順位付けによるクラスタ内文書選択の例
を説明する図である。
【図17】文書−単語間関連度による質問生成の処理概
要を示す図である。
【図18】文書−単語間関連度による質問生成の例を説
明する図である。
【図19】文書−単語間関連度による質問生成の例を説
明する図である。
【図20】文書−単語間関連度による質問生成の例を説
明する図である。
【図21】文書−単語間関連度による質問生成の例を説
明する図である。
【図22】重みスケーリングによる質問配合の例を示す
図である。
【図23】本発明の適用例における対象文書データベー
スおよび検索質問の例を示す図である。
【図24】本適用例における検索結果,再現レベル精度
表,再現レベル精度表をグラフ化した再現率・精度曲線
を示す図である。
【図25】本適用例における文書レベル平均精度表を示
す図である。
【図26】本適用例における検索結果,再現レベル精度
表,再現レベル精度表をグラフ化した再現率・精度曲線
を示す図である。
【図27】本適用例における文書レベル平均精度表を示
す図である。
【符号の説明】
1 検索質問展開処理装置 11 クラスタリング部 12 2次検索質問生成部 2 文書データベース 3 検索エンジン 40 1次検索質問 41 1次検索結果 42 1次検索順位 43 1次検索スコア 45 クラスタ集合 46 検索質問 47 2次検索質問 48 2次検索結果
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND03 NK32 NR12 PR04 PR06 PR08 QM08 UU06 5B091 AA15 BA03 EA10

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 データベースの検索において1次検索結
    果から2次検索質問を生成する検索質問展開処理装置に
    おいて,1次検索結果をクラスタリングするクラスタリ
    ング手段と,前記クラスタリング手段により得られたク
    ラスタ集合からある条件を満たすクラスタを選択し,そ
    れらの選択されたクラスタ集合を用いて2次検索質問を
    生成する検索質問生成手段とを備えることを特徴とする
    クラスタリングを用いた検索質問展開処理装置。
  2. 【請求項2】 請求項1に記載するクラスタリングを用
    いた検索質問展開処理装置において,前記クラスタリン
    グ手段は,該クラスタリング手段が用いるクラスタリン
    グ方法の選択または設定が可能である可変アーキテクチ
    ャの構成になっていることを特徴とするクラスタリング
    を用いた検索質問展開処理装置。
  3. 【請求項3】 請求項1に記載するクラスタリングを用
    いた検索質問展開処理装置において,前記検索質問生成
    手段は,該検索質問生成手段が用いるクラスタ選択方法
    またはクラスタ選択条件の選択または設定が可能である
    可変アーキテクチャの構成になっていることを特徴とす
    るクラスタリングを用いた検索質問展開処理装置。
  4. 【請求項4】 請求項1に記載するクラスタリングを用
    いた検索質問展開処理装置において,前記検索質問生成
    手段におけるクラスタ選択では,前記クラスタ集合のク
    ラスタの属性条件を用いてクラスタを選択する方法,前
    記クラスタ集合のクラスタの代表値を比較してクラスタ
    を選択する方法,前記クラスタ集合のクラスタの順位付
    けを用いてクラスタを選択する方法,前記クラスタ集合
    を所定の条件で分割し,分割して生成したクラスタ集合
    から所定の条件を満たすクラスタを選択するクラスタ集
    合分割による方法,または前記クラスタ選択方法のいく
    つかを組み合わせてクラスタを選択する方法を用いるこ
    とを特徴とするクラスタリングを用いた検索質問展開処
    理装置。
  5. 【請求項5】 請求項1に記載するクラスタリングを用
    いた検索質問展開処理装置において,前記検索質問生成
    手段は,クラスタを選択する際に1次検索における1次
    検索順位または1次検索スコアを用いることを特徴とす
    るクラスタリングを用いた検索質問展開処理装置。
  6. 【請求項6】 請求項1に記載するクラスタリングを用
    いた検索質問展開処理装置において,前記検索質問生成
    手段は,クラスタを選択した後,各クラスタ内の1次検
    索結果を順位付けし,所定の条件によりクラスタ内の1
    次検索結果を選択する手段を持つことを特徴とするクラ
    スタリングを用いた検索質問展開処理装置。
  7. 【請求項7】 請求項1に記載するクラスタリングを用
    いた検索質問展開処理装置において,前記検索質問生成
    手段は,選択されたクラスタ集合から検索における単語
    の重要度を示す重み付き単語集合を生成し,前記重み付
    き単語集合を用いて2次検索質問を生成することを特徴
    とするクラスタリングを用いた検索質問展開処理装置。
  8. 【請求項8】 請求項7に記載するクラスタリングを用
    いた検索質問展開処理装置において,前記検索質問生成
    手段は,選択されたクラスタ集合から重み付き単語集合
    を生成するときに,各クラスタごとに1次検索結果と単
    語間の関連度を計算し,その関連度を単語の重みとする
    ことを特徴とするクラスタリングを用いた検索質問展開
    処理装置。
  9. 【請求項9】 請求項1に記載するクラスタリングを用
    いた検索質問展開処理装置において,前記検索質問生成
    手段は,生成した検索質問に1次検索で用いた検索質問
    を配合して2次検索質問を生成することを特徴とするク
    ラスタリングを用いた検索質問展開処理装置。
  10. 【請求項10】 請求項9に記載するクラスタリングを
    用いた検索質問展開処理装置において,前記検索質問生
    成手段は,生成した検索質問に1次検索で用いた検索質
    問を配合するときに,生成した検索質問と1次検索で用
    いた検索質問との間の重み付けによるスケーリングを行
    うことを特徴とするクラスタリングを用いた検索質問展
    開処理装置。
  11. 【請求項11】 データベースの検索において1次検索
    結果から2次検索質問を生成する検索質問展開処理方法
    において,1次検索結果をクラスタリングする過程と,
    1次検索結果のクラスタリングにより得られたクラスタ
    集合から所定の条件を満たすクラスタを選択し,それら
    の選択されたクラスタ集合を用いて2次検索質問を生成
    する過程とを有することを特徴とするクラスタリングを
    用いた検索質問展開処理方法。
  12. 【請求項12】 データベースの検索において1次検索
    結果から2次検索質問を生成する検索質問展開処理方法
    を計算機によって実現するためのプログラムを記録した
    記録媒体であって,1次検索結果をクラスタリングする
    処理と,1次検索結果のクラスタリングにより得られた
    クラスタ集合から所定の条件を満たすクラスタを選択
    し,それらの選択されたクラスタ集合を用いて2次検索
    質問を生成する処理とを,計算機に実行させるプログラ
    ムを記録したことを特徴とするクラスタリングを用いた
    検索質問展開処理用プログラム記録媒体。
JP10314135A 1998-11-05 1998-11-05 クラスタリングを用いた検索質問展開処理装置,検索質問展開処理方法および検索質問展開処理用プログラム記録媒体 Withdrawn JP2000148764A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10314135A JP2000148764A (ja) 1998-11-05 1998-11-05 クラスタリングを用いた検索質問展開処理装置,検索質問展開処理方法および検索質問展開処理用プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10314135A JP2000148764A (ja) 1998-11-05 1998-11-05 クラスタリングを用いた検索質問展開処理装置,検索質問展開処理方法および検索質問展開処理用プログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2000148764A true JP2000148764A (ja) 2000-05-30

Family

ID=18049666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10314135A Withdrawn JP2000148764A (ja) 1998-11-05 1998-11-05 クラスタリングを用いた検索質問展開処理装置,検索質問展開処理方法および検索質問展開処理用プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2000148764A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030224A (ja) * 2001-07-17 2003-01-31 Fujitsu Ltd 文書クラスタ作成装置、文書検索システムおよびfaq作成システム
JP2007241794A (ja) * 2006-03-10 2007-09-20 National Institute Of Information & Communication Technology 多義語による情報検索装置及びプログラム
JP2015125764A (ja) * 2013-12-27 2015-07-06 富士通株式会社 情報収集プログラム、情報収集方法及び情報収集装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030224A (ja) * 2001-07-17 2003-01-31 Fujitsu Ltd 文書クラスタ作成装置、文書検索システムおよびfaq作成システム
JP2007241794A (ja) * 2006-03-10 2007-09-20 National Institute Of Information & Communication Technology 多義語による情報検索装置及びプログラム
JP2015125764A (ja) * 2013-12-27 2015-07-06 富士通株式会社 情報収集プログラム、情報収集方法及び情報収集装置

Similar Documents

Publication Publication Date Title
Leuski Evaluating document clustering for interactive information retrieval
USRE36727E (en) Method of indexing and retrieval of electronically-stored documents
US6772170B2 (en) System and method for interpreting document contents
CN1227614C (zh) 用于文档的向量分析方法
KR101301380B1 (ko) 네트워크 상에서의 문서의 바이어스된 클릭 거리를사용하는 순위 함수
US7058624B2 (en) System and method for optimizing search results
US20050060290A1 (en) Automatic query routing and rank configuration for search queries in an information retrieval system
US20080228744A1 (en) Method and a system for automatic evaluation of digital files
KR20070089449A (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
JP2002197096A (ja) 文書の一般テキストサマリを作成する方法およびシステム
JP6260294B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
Sormunen A method for measuring wide range performance of Boolean queries in full-text databases
US6278990B1 (en) Sort system for text retrieval
CN105868261A (zh) 一种关联信息的获取与排序方法和***
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
Mishra et al. A lightweight online framework for query progress indicators
CN102023993B (zh) 基于聚类/分类和时间的簇页面排名设备和方法
JP2000148764A (ja) クラスタリングを用いた検索質問展開処理装置,検索質問展開処理方法および検索質問展開処理用プログラム記録媒体
Hendry et al. INSTRUCT: a teaching package for experimental methods in information retrieval. Part I. The users view
JP5284761B2 (ja) 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体
JP2003016106A (ja) 関連度値算出装置
CN115617978A (zh) 指标名称检索方法、装置、电子设备及存储介质
JP5310196B2 (ja) 分類体系改正支援プログラム、分類体系改正支援装置、および分類体系改正支援方法
Bawden Browsing and clustering of chemical structures
Goretzko Regularized exploratory factor analysis as an alternative to factor rotation.

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060110