JP2002358315A - 文書検索システムおよびサーバ - Google Patents
文書検索システムおよびサーバInfo
- Publication number
- JP2002358315A JP2002358315A JP2001165075A JP2001165075A JP2002358315A JP 2002358315 A JP2002358315 A JP 2002358315A JP 2001165075 A JP2001165075 A JP 2001165075A JP 2001165075 A JP2001165075 A JP 2001165075A JP 2002358315 A JP2002358315 A JP 2002358315A
- Authority
- JP
- Japan
- Prior art keywords
- search
- document
- document database
- associative
- record table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
ベースの順序付けを適切に行なう。 【解決手段】 複数の文書データベース403,50
3,603を関連付けて連想検索できる連想検索サーバ
30において、連想検索の履歴を連想検索記録テーブル
として連想検索記録テーブル保持手段304により保持
し、それを用いて、表示手段変更手段305により、文
書データベース選択手段202が提示する文書データベ
ースの表示順序を適切にすること、あるいは、登録料計
算手段306により、連想検索サーバに登録される文書
データベース403,503,603の登録料の計算を
適切に行なうことを可能とする。
Description
ベースを関連付けて連想検索できる文書検索システムお
よびサーバに関する。
異なる種類の文書データベースを対象とする高精度な文
書検索技術が求められている。また、複数の文書データ
ベース間での文書群の関連性を調べたいという要求も高
まっている。例えば、興味のある新聞記事に対して、そ
れに関連する百科事典の項目を検索したいという要求は
多い。
は、複数の文書データベースを切り換えて検索すること
は可能であるが、ある文書データベースの文書群に対し
て、それに関連する文書群を、同一文書データベース、
あるいは、別の文書データベースから検索すること(文
書連想検索と呼ばれる検索方式)は不可能である。
の関連度をあらかじめ計算しておくことで、文書群を検
索入力とした文書連想検索を実現することはできる。し
かし、複数の文書データベースに対しては、あらかじめ
計算すべき文書間の関連度が文書データベース数の増加
に伴って組み合わせ数が爆発的に増加するため、現実的
には不可能となっている。
「複数文書データベースを対象とした文書検索方法及び
文書検索サービス」には、利用者が指定した文書データ
ベース中の任意の文書群に対して、その文書群に関連す
る文書群を任意の文書データベースから効率良く検索す
る方法が開示されている。この方法では、文書群として
入力された検索入力内の特徴的な単語のみを概要として
検索に使うことで、高速な文書連想検索を実現してい
る。この方法により、利用者は複数の異なる種類の文書
データベースを切り換えながら、文書群の関連性を調べ
ることで、高精度かつ効率の良い文書検索を行なうこと
が可能となる。
スを関連付けて連想検索できる文書検索サーバの検索ク
ライアントは、検索対象となる文書データベースを選択
するための機構を有している。利用者は検索したい文書
データベースを文書データベースリストから選択するこ
とで検索を行なうわけであるが、一般に、選択可能な文
書データベースリストの表示順序は固定されている。利
用者が検索しようとするデータベースがリストの下のほ
うに表示されていた場合は、選択の手間がかかるため、
利用者にとっての利便性が低いものとなっていた。利用
者の利便性を高めるには、利用者の利用状況に応じて文
書データベースの順序付けを変える必要がある。
ーバは、一般に、文書データベースの所有者から登録料
と手数料を徴収する。登録料は定額料金あるいは文書デ
ータベースのアクセス数に応じた料金であることが多
い。手数料は、文書データベースの所有者が得た利益の
一部を徴収するもので、一般に、利用者が文書データベ
ースの所有者に支払う購読料の一部が手数料として支払
われる。登録料や手数料を計算するためには、文書デー
タベースの評価を行なう必要がある。従来のキーワード
検索サーバでは、文書データベースのアクセス数を使う
のが一般的であったが、連想検索サーバでは、アクセス
数だけからは評価できない要因がある。例えば、購読さ
れることの多い文書データベースの登録料は下げ、少な
い文書データベースの登録料は上げるとすると、購読さ
れることは少ないが、連想検索の元記事としては頻繁に
使われる文書データベースがあった場合、この文書デー
タベースに対する評価は低いものとなり、登録料が上げ
られることになる。しかし、この文書データベースは連
想検索の元記事として使われることで、連想検索サーバ
全体の活性度を高めるのに貢献しており、そのことは高
く評価されるべきである。つまり、アクセス数だけでは
文書データベースの評価には不十分であり、連想検索サ
ーバ全体の活性度にいかに貢献したかを適切な尺度で評
価する必要がある。本発明では、利用者が検索対象の文
書データベースを選択する際の利便性を向上させるこ
と、および、文書データベースの適切な評価を行なうこ
と、を目的とする。
の文書データベースを関連付けて連想検索できる文書検
索サーバにおいて、連想検索の履歴を連想検索記録テー
ブルとして記録しておき、それを用いて文書データベー
スの順序付けを行なう。連想検索記録テーブルは、どの
文書データベースからどの文書データベースへ、連想検
索が何回行なわれたかを記録するものである。
検索対象となる文書データベースの表示順序を検索結果
に応じて並べることができる。例えば、ある新聞を検索
した結果が表示されている場合には、その新聞からよく
連想検索される文書データベースをリストの上位に表示
しておく。このように順序付けられた文書データベース
リストを用いることで、利用者はより利便性の高いかた
ちで次に検索しようとする文書データベースを選択する
ことができる。
を計算する際にも、連想検索記録テーブルに記録されて
いる、連想元として使われた回数や連想先として使われ
た回数を利用することで、従来手法よりも適切かつ詳細
に登録料や手数料の計算を行なうことが可能となる。
は、文書データベースの検索結果をもとに、複数の文書
データベースの中から次に検索する文書データベースを
指定して文書検索を指示できる文書検索システムにおい
て、文書データベースiの検索結果をもとに文書データ
ベースjの検索が行われた回数xijを記録した連想検索
記録テーブルを保持することを特徴とする。
文書データベースの表示順序を変更するために利用する
ことができる。連想検索記録テーブルをユーザ別に保持
し、ユーザ別の連想検索記録テーブルを用いて、検索対
象となる文書データベースの表示順序をユーザに応じて
変更するようにしてもよい。連想検索記録テーブルは、
各文書データベースの登録料を計算するために利用する
こともできる。その際、文書検索の検索元となった回数
と検索先となった回数との和に応じて登録料を計算する
ようにしてもよい。
の検索結果をもとに複数の文書データベースの中から次
に検索する文書データベースを指定して文書検索を指示
できる検索クライアントと複数の文書データベースとの
間を仲介するサーバにおいて、検索クライアントからの
検索要求を解析する検索要求解析手段と、検索クライア
ントによって指定された文書データベースに検索要求解
析手段で解析した検索要求を送る検索要求発行手段と、
指定された文書データベースによる検索結果を検索クラ
イアントに送信する手段と、文書データベースiの検索
結果をもとに文書データベースjの検索が行われた回数
xijを記録した連想検索記録テーブルを保持する連想検
索記録テーブル保持手段とを備えることを特徴とする。
施の形態を説明する。以下の図において、同じ機能部分
には同一の符号を付し、重複する説明を省略する。図1
は、本発明を実現するためのシステム構成の例を示す概
略図である。このシステムは、ユーザが検索要求を入力
したり、検索対象となる文書データベースを選択した
り、検索結果を表示したりするための検索インタフェイ
スを実現するための検索クライアント20、文書データ
ベースを検索するための検索サーバ40,50,60、
検索クライアント20と検索サーバ40,50,60の
仲介をする連想検索サーバ30を通信ネットワーク10
により接続して構成される。図に示した例では、文書デ
ータベースを検索するための検索サーバとして3つの検
索サーバが通信ネットワーク10に接続されているが、
通信ネットワークに接続される検索サーバの数は任意で
ある。
概略作成手段(401,501,601)は、文書デー
タベース(403,503,603)から検索された文
書群の概略を作成する。ここでの概略とは、文書群の内
容をよく表わす単語集合のことである。概略作成手段と
しては、特開平9-62693号公報「確率モデルによる文書
分類方法」などの既存手法が利用できる。
する文書群中の全文書を単語に分割して頻度集計する。
一般に、ある文書群で良く現れる単語ほどその文書群を
代表する度合も高いため、文書群中での出現頻度が高い
単語ほど概略に含まれやすいことになる。ただし、「す
る」などのように、どの文書にも良く現れるような一般
的な単語は概略単語として適当ではない。よって、通常
は、文書群が属する文書データベース中での出現頻度も
考慮して概略単語を選択する。つまり、指定された文書
群での出現頻度が高く、かつ、文書データベース全体で
の総出現頻度が低い単語ほど、その文書群中でしか現れ
ないという意味で特徴的な単語であり、その文書群を特
徴付ける概略として適切である。具体的には、文書群中
のそれぞれの単語について、文書群中での出現頻度、文
書データベース中での出現頻度を入力とする適当な関数
により単語の重みを計算し、ある閾値以上の重みを持つ
単語を概略として採用する。
検索手段(402,502,602)は、連想検索サー
バ30から送られてきた検索要求に対して、関連度の高
い文書群を文書データベース(403,503,60
3)から検索し、その検索結果を関連度の重み付きで連
想検索サーバ30に返す。ここでの検索手段は、例え
ば、公知のキーワード検索手法により実現できる。つま
り、入力である検索要求は重み付きの単語集合であるた
め、各単語を重み付きの入力キーワードとみなしてOR
検索すればよい。その際、検索結果の文書の重み(関連
度)は次のように計算できる。検索要求および検索先の
文書両方に含まれる各単語について、検索要求中での重
みと、検索先の文書における重み(例えば頻度)から総
合的な重みを計算し(例えば両重みの積)、さらにその
ような単語すべてに関する重みを集計(例えば総和)す
ることで関連度を得る。検索クライアント20は、検索
要求入力手段201、文書データベース選択手段20
2、検索結果表示手段(文書群指定手段)203、概要
表示手段(単語群指定手段)204を備える。
者は文書データベース選択ボタン2021により検索対
象とする文書データベースを選択し、キーワード入力ボ
ックス2011に検索要求を入力し、キーワード検索指
示ボタン2012をクリックすることで検索を行なう。
検索結果は検索結果表示手段203によって表示され、
検索結果の概要が概要表示手段204によって表示され
る。検索結果の文書は閲覧ボタン2031によりその内
容を閲覧することができる。この例では、検索対象とな
る文書データベースとしてDB1を選択し、検索要求とし
て「キーワード1」を入力した検索結果を示している。
も兼ねており、文書選択ボタン2032により、任意個
の記事を選択し、検索対象とする文書データベースを文
書データベース選択手段202により選択し、「文書か
ら検索」ボタン2033をクリックすることで、選択し
た記事と関連する文書を検索することができる。
ねており、単語選択ボタン2041により、任意個の単
語を選択し、検索対象とする文書データベースを文書デ
ータベース選択手段202により選択し、「概略単語か
ら検索」ボタン2042をクリックすることで、概略単
語からの検索を行なうことができる。
20から送られてくる検索要求を解析する検索要求解析
手段301、検索クライアント20から送られてくる検
索対象の文書データベースに応じて、検索サーバ(4
0,50,60)に検索要求を振り分ける機能をもつ検
索要求発行手段302、文書群に対する概略単語を検索
サーバ(40,50,60)に要求する概略単語要求手
段303、連想検索の履歴を記録するための連想検索記
録テーブルを記録・保持する連想検索記録テーブル保持
手段304、文書データベースの表示順序を変更する表
示順序変更手段305、文書データベースの登録料を計
算する登録料計算手段306を備える。
ント20から送られてくる検索要求を解析してその中に
含まれる単語を同定し検索キーを作成する。検索要求解
析手段301は任意のものであってよいが、日本語文に
関しては文を単語に分割する形態素解析、英文に関して
は単語の原形還元と品詞付けを行なうstemmingを最低含
んで構成される。
る文書データベースに応じて、検索クライアント20か
ら送られてくる検索キーを検索要求として検索サーバ
(40,50,60)に振り分ける。検索キーは、
(1)検索要求解析手段301によって作成された単語
集合、(2)検索クライアント20が備える検索結果表
示手段(文書群指定手段)203から送られてくる文書
ID、あるいは(3)検索クライアント20が備える概
要表示手段(単語群指定手段)204から送られてくる
単語集合、である。検索キーが(1)と(3)の場合、
その単語集合を検索要求として検索サーバに送る。検索
キーが(2)の場合、概略単語要求手段303が検索対
象となる文書データベースを備える検索サーバに対し
て、その文書IDに対応する文書の概略を要求し、送ら
れてきた概略単語集合を検索要求として検索サーバに送
る。
連想検索の履歴を連想検索記録テーブルに記録・保持す
る。図3は連想検索記録テーブルの例である。以下、図
3を参照しながら、連想検索記録テーブルの作成方法を
説明する。例えば、検索対象として利用可能な文書デー
タベースとして、DB1, DB2, DB3があるとする。利用者
は検索クライアントを利用するにあたって、まずキーワ
ード検索を用いてDB1を検索したとする。この場合、連
想検索記録テーブルの「keyword」行の「DB1」列である
x41に1を加える。次にDB1中のある文書を選択し、その
文書に関連する文書をDB2から検索したとする。この場
合、連想検索記録テーブルの「DB1」行の「DB2」列であ
るx12に1を加える。以下、利用者が文書データベース
を切り換えながら連想検索を行なった履歴を記録してい
くことで連想検索記録テーブルの各要素の値を更新して
いく。
ーブル保持手段304によって保持されている連想検索
記録テーブルをもとに、検索クライアント20が備える
文書データベース選択手段202における文書データベ
ースの表示順序を変更する。順序付けを行なう基準とし
ては、(1)連想検索元としてよく使われる文書データ
ベースを上位にする、(2)連想検索先としてよく使わ
れる文書データベースを上位にする、(3)連想検索先
にも連想検索元にもよく使われる文書データベースを上
位にする、(4)連想検索元の文書データベースを決め
た場合の連想検索先としてよく使われる文書データベー
スを上位にする、が考えられる。
るには、連想検索記録テーブル上の各文書データベース
に関して行方向に総和をとった値(Xi:i=1,2,3)を比較
すればよい。基準(2)で文書データベースを順序付け
るには、連想検索記録テーブル上の各文書データベース
に関して列方向に総和をとった値(Yj:j=1,2,3)を比較
すれば良い。
るには、連想検索記録テーブル上の各文書データベース
に関して行方向の総和と列方向の総和を足し合わせたも
の、つまり、基準(1)で得られた値(Xi:i=1,2,3)と
基準(2)で得られた値(Yi:i=1,2,3)を足し合わせた
もの(Xi+Yi:i=1,2,3)を比較すれば良い。基準(4)で
文書データベースを順序付けるには、連想検索記録テー
ブル上で連想検索元の文書データベースをDBiに固定し
た場合に、文書データベースDBjが連想検索先として使
われた回数xijを比較すれば良い。
状況で、次に検索しようとする文書データベースの選択
は、その時点で得られている検索結果が属する文書デー
タベースに応じて変化するのが自然である。例えば、新
聞を検索した後は百科事典がよく検索され、遺伝子デー
タベースを検索した後は生物学辞典がよく検索される、
という状況は多く存在する。このような状況では、基準
(4)を用いて文書データベースの表示順序を並べかえ
ることで、検索結果の属する文書データベースに応じ
て、次によく検索される文書データベースが上位に表示
されるため、利用者にとってより利便性の高いものとな
る。
が変更される例を図4、図5、図6を用いて説明する。
図4は検索開始時点の検索クライアント20の例であ
る。検索開始時点では、検索結果表示手段203、概要
表示手段204には何も表示されない。検索を始めるに
あたり、利用者はキーワード入力ボックス2011に
「キーワード1」、検索対象としてDB1を選択したす
る。図4はこの状態を示しており、キーワード検索指示
ボタン2012をクリックすることで検索が実行され
る。
られており、表示順序の変更基準として上記基準(4)
を用いるとする。この連想検索記録テーブルでは、キー
ワード検索される文書データベースはDB1、DB2、DB3の
順に頻度が高い。よって、表示順序変更手段305は、
検索開始時点の文書データベースの表示順序をDB1、D
B2、DB3の順にする。一方、DB1を検索元とした場合の検
索先の文書データベースはDB3、DB2、DB1の順になって
いる。よって、表示手段変更手段305は、DB1を検索
した結果における文書データベースの表示順序をDB3、D
B2、DB1の順にする。この様子を示したものが図6であ
る。登録料計算手段306では、連想検索記録テーブル
を用いて、検索サーバに文書データベースを登録する際
の登録料を計算する。登録料は期間を決めて(例えば1
年ごと)徴収するのが一般的である。
文書データベースの評価を行なうことができる。さきに
述べたように、文書データベースの評価を行なう際に、
連想検索サーバでは、単なるアクセス数だけからは評価
できない要因があるが、上記基準(3)を利用すること
で適切な評価を行なうことができる。アクセス数に相当
する上記基準(2)だけでなく、連想検索の元記事とし
て利用される回数として上記基準(1)を加味して評価
する上記基準(3)を用いることで、購読されることは
少ないが、連想検索の元記事としては頻繁に使われる文
書データベースの正当な評価が可能となる。評価の高い
文書データベースの登録料を下げ、評価の低い文書デー
タベースの登録料を上げることで、良質な文書データベ
ースが連想検索サーバに集中することになり、利用者に
とっても利用価値が高まる。それに伴い、利用者の増加
も見込まれ、連想検索サーバ自体の活性度も高められる
ため、良質な文書データベースの所有者が連想検索サー
バに文書データベースを登録する価値が高められる。
を用いたDBiに対する登録料の計算式をn(E-(Zi-E))(i=
1,2,3)とする。ここで、Zi=Xi+Yi-xii (i=1,2,3)、E
=(Z 1+Z2+Z3)/3(Ziの平均値)、nは1アクセスあたりの
単価である。この計算式を用いると、連想検索サーバが
受け取る文書データベースの登録料の総和は、n(E-(Z1-
E))+n(E-(Z2-E))+n(E-(Z3-E))=3nE=n(Z1+Z2+Z3)とな
る。よって、総登録料を文書データベース全体のアクセ
ス数に応じた料金としながら、評価の高い文書データベ
ースの登録料を下げ、評価の低い文書データベースの登
録料を上げることができる。
の履歴を連想検索記録テーブルに保持しながら、検索ク
ライアント20の文書データベース選択手段で表示する
文書データベースの表示順序を適切に変更したり、文書
データベース毎の登録料を適切に計算したりすることが
できる。
ーワード検索、(2)関連文書検索、(3)概略単語か
らの検索、における実行の流れを順に説明する。図7
は、検索サーバ40に対してキーワード検索するときの
実行の流れを示す図である。まず、利用者は検索クライ
アント20を用いて、連想検索サーバ30に接続する
(T1)。表示順序変更手段305は連想検索記録テー
ブルを参照して文書データベースの表示順序を変更し、
その順序を検索クライアント20に送る(T2)。検索
クライアント20の文書データベース選択手段202
は、送られてきた順序にしたがって文書データベースを
表示する。次に、利用者は文書データベース選択手段2
02により検索対象となる文書データベースを選択し、
検索要求入力手段201に検索要求を入力する。検索要
求と検索対象となる文書データベースの情報は連想検索
サーバ30に送られる(T3)。
01は検索要求を解析し、その結果を検索要求発行手段
302が検索サーバ40に送る(T4)。検索サーバ4
0の検索手段402は文書データベース403から検索
要求に関連する文書を検索し、その結果を連想検索サー
バ30に送る(T5)。連想検索サーバ30の概略単語
要求手段303は、送られてきた文書の概略を検索サー
バ40に要求する(T6)。検索サーバ40の概略作成
手段401は送られてきた文書の概略を作成し、連想検
索サーバ30に送る(T7)。
ル保持手段304は、この検索の履歴(キーワードから
検索サーバ40への検索)を記録する。表示順序変更手
段305は連想検索記録テーブルを参照して文書データ
ベースの表示順序を変更し、その順序を検索クライアン
ト20に送る。検索結果と概略単語も同時に送られる
(T8)。検索クライアント20は、送られてきた文書
データベースの表示順序、検索結果、概略単語を、それ
ぞれ、文書データベース選択手段202、検索結果表示
手段203、概要表示手段204で表示する。
られた文書をキーとして検索サーバ60を検索するとき
の実行の流れを示す図である。まず、利用者は文書デー
タベース選択手段202により検索対象となる文書デー
タベースを選択し、検索結果表示手段(文書群指定手
段)203を用いて記事を選択する。選択された記事と
検索対象となる文書データベースの情報は連想検索サー
バ30に送られる(T11)。連想検索サーバ30の概
略単語要求手段303は、送られてきた文書の概略を検
索サーバ40に要求する(T12)。検索サーバ40の
概略作成手段401は送られてきた文書の概略を作成
し、連想検索サーバ30に送る(T13)。
02は、検索サーバ40から返された概略単語を検索要
求として検索サーバ60に送る(T14)。検索サーバ
60の検索手段602は文書データベース603から検
索要求に関連する文書を検索し、その結果を連想検索サ
ーバ30に送る(T15)。連想検索サーバ30の概略
単語要求手段303は、送られてきた文書の概略を検索
サーバ60に要求する(T16)。検索サーバ60の概
略作成手段601は送られてきた文書の概略を作成し、
連想検索サーバ30に送る(T17)。
ル保持手段304は、この検索の履歴(検索サーバ40
から検索サーバ60の検索)を記録する。表示順序変更
手段305は連想検索記録テーブルを参照して文書デー
タベースの表示順序を変更し、その順序を検索クライア
ント20に送る。検索結果と概略単語も同時に送られる
(T18)。検索クライアント20は、送られてきた文
書データベースの表示順序、検索結果、概略単語を、そ
れぞれ、文書データベース選択手段202、検索結果表
示手段203、概要表示手段204で表示する。
られた文書の概略単語をキーとして検索サーバ60を検
索するときの実行の流れを示す図である。まず、利用者
は文書データベース選択手段202により検索対象とな
る文書データベースを選択し、概要表示手段(単語群指
定手段)204を用いて単語を選択する。選択された単
語と検索対象となる文書データベースの情報は連想検索
サーバ30に送られる(T21)。連想検索サーバ30
の検索要求発行手段302は、送られてきた単語を検索
要求として検索サーバ60に送る(T22)。検索サー
バ60の検索手段602は文書データベース603から
検索要求に関連する文書を検索し、その結果を連想検索
サーバ30に送る(T23)。連想検索サーバ30の概
略単語要求手段303は送られてきた文書の概略を検索
サーバ60に要求する(T24)。検索サーバ60の概
略作成手段601は送られてきた文書の概略を作成し、
連想検索サーバ30に送る(T25)。
ル保持手段304は、この検索の履歴(検索サーバ40
から検索サーバ60の検索)を記録する。表示順序変更
手段305は連想検索記録テーブルを参照して文書デー
タベースの表示順序を変更し、その順序を検索クライア
ント20に送る。検索結果と概略単語も同時に送られる
(T26)。検索クライアント20は、送られてきた文
書データベースの表示順序、検索結果、概略単語を、そ
れぞれ、文書データベース選択手段202、検索結果表
示手段203、概要表示手段204で表示する。
ーバのすべての利用者の履歴をまとめて記録するだけで
なく、利用者ごとに個別に記録することで、利用者の個
々の利用履歴に応じた文書データベースの表示順序を提
供することができる。利用者ごとに連想検索記録テーブ
ルを保持する場合のシステム構成例を図10に示す。
検索サーバ30に利用者登録手段3071、利用者認証
手段3072、利用者管理手段3073が追加されてい
る。利用者登録手段3071は、新規利用者を登録する
ための手段である。利用者認証手段3072は既登録利
用者の認証を行なう手段であり、例えば、利用者ごとの
パスワードで認証を行なう。利用者管理手段3073
は、どの利用者がどの連想検索記録テーブルに対応して
いるかを管理する手段である。また、図1の検索クライ
アント20に利用者認証画面表示手段205が追加され
ている。利用者認証画面表示手段205は、利用者が連
想検索サーバ30に接続する際に利用者認証画面を表示
する手段であり、例えば、図11のような画面を表示す
る。
合の処理の流れを図12を用いて説明する。利用者は利
用者名入力ボックス2051に利用者名、パスワード入
力ボックス2052にパスワードを入力し、「登録」ボ
タン2054をクリックする。利用者名とパスワードが
連想検索サーバ30に送られ(T31)、利用者登録手
段3071により利用者登録が行なわれる。さらに利用
者管理手段3073により連想検索記録テーブルとの対
応がとられる。
録テーブルを保持する場合、連想検索記録テーブル保持
手段は、図13のように利用者別の連想検索記録テーブ
ルを保持する。利用者管理手段3073は、図14のよ
うな利用者管理テーブルを用意する。利用者管理テーブ
ルには、利用者ごとに、利用者ID、利用者名、パスワー
ド、対応する連想検索記録テーブルのID、登録日などが
記録される。利用者管理テーブルには任意の利用者情報
を記録することができるが、最低限、利用者名、パスワ
ード、テーブルIDの項目は必須である。利用者登録の場
合、利用者登録手段3071は、利用者管理テーブルに
必要な情報を追加する。
処理が戻り(T32)、利用者認証画面表示手段205
により、図11の利用者認証画面が表示される。利用者
は先に登録した利用者名とそれに対応するパスワードを
利用者名入力ボックス2051、パスワード入力ボック
ス2052に入力し、「ログイン」ボタン2053をク
リックすることで連想検索サーバ30に接続される(T
33)。利用者認証手段3072は利用者管理テーブル
を参照することにより利用者認証を行なう。利用者管理
手段3073は利用者管理テーブルを参照することによ
って用意されている連想検索記録テーブルとの対応をと
る。以上のように、利用者ごとに連想検索記録テーブル
を保持することで、利用者の使用状況に応じて文書デー
タベース表示順序を変更することができる。
応じて適切に並べ替えられた文書データベースリストか
ら次回の検索対象となるデータベースを選択できるた
め、より利便性の高い検索が可能となる。また、文書デ
ータベースの登録料や手数料の計算をより適切に行なう
ことが可能となる。
を示す図。
図。
示す図。
れを示す図。
る場合の構成を示す図。
す図。
Claims (9)
- 【請求項1】 文書データベースの検索結果をもとに、
複数の文書データベースの中から次に検索する文書デー
タベースを指定して文書検索を指示できる文書検索シス
テムにおいて、 文書データベースiの検索結果をもとに文書データベー
スjの検索が行われた回数xijを記録した連想検索記録
テーブルを保持することを特徴とする文書検索システ
ム。 - 【請求項2】 請求項1記載の文書検索システムにおい
て、前記連想検索記録テーブルを用いて、検索対象とな
る文書データベースの表示順序を変更することを特徴と
する文書検索システム。 - 【請求項3】 請求項1記載の文書検索システムにおい
て、前記連想検索記録テーブルをユーザ別に保持し、前
記ユーザ別の連想検索記録テーブルを用い、検索対象と
なる文書データベースの表示順序をユーザに応じて変更
することを特徴とする文書検索システム。 - 【請求項4】 請求項1記載の文書検索システムにおい
て、前記連想検索記録テーブルを用いて、各文書データ
ベースの登録料を計算することを特徴とする文書検索シ
ステム。 - 【請求項5】 請求項4記載の文書検索システムにおい
て、文書検索の検索元となった回数と検索先となった回
数との和に応じて登録料を計算することを特徴とする文
書検索システム。 - 【請求項6】 文書データベースの検索結果をもとに複
数の文書データベースの中から次に検索する文書データ
ベースを指定して文書検索を指示できる検索クライアン
トと複数の文書データベースとの間を仲介するサーバに
おいて、 前記検索クライアントからの検索要求を解析する検索要
求解析手段と、 前記検索クライアントによって指定された文書データベ
ースに前記検索要求解析手段で解析した検索要求を送る
検索要求発行手段と、 前記指定された文書データベースによる検索結果を前記
検索クライアントに送信する手段と、 文書データベースiの検索結果をもとに文書データベー
スjの検索が行われた回数xijを記録した連想検索記録
テーブルを保持する連想検索記録テーブル保持手段とを
備えることを特徴とするサーバ。 - 【請求項7】 請求項6記載のサーバにおいて、前記連
想検索記録テーブルを用いて前記検索クライアントに表
示する検索対象となる文書データベースの表示順序を変
更する表示順序変更手段を備えることを特徴とするサー
バ。 - 【請求項8】 請求項6記載のサーバにおいて、前記連
想検索記録テーブル保持手段はユーザ別の連想検索記録
テーブルを保持し、前記ユーザ別の連想検索記録テーブ
ルを用い、ユーザに応じて前記検索クライアントに表示
する検索対象となる文書データベースの表示順序を変更
する表示順序変更手段を備えることを特徴とするサー
バ。 - 【請求項9】 請求項6記載のサーバにおいて、前記連
想検索記録テーブル保持手段に保持された前記連想検索
記録テーブルを用いて各文書データベースの登録料を計
算することを特徴とするサーバ。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001165075A JP4025517B2 (ja) | 2001-05-31 | 2001-05-31 | 文書検索システムおよびサーバ |
US09/942,905 US7277881B2 (en) | 2001-05-31 | 2001-08-31 | Document retrieval system and search server |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001165075A JP4025517B2 (ja) | 2001-05-31 | 2001-05-31 | 文書検索システムおよびサーバ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002358315A true JP2002358315A (ja) | 2002-12-13 |
JP4025517B2 JP4025517B2 (ja) | 2007-12-19 |
Family
ID=19007795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001165075A Expired - Fee Related JP4025517B2 (ja) | 2001-05-31 | 2001-05-31 | 文書検索システムおよびサーバ |
Country Status (2)
Country | Link |
---|---|
US (1) | US7277881B2 (ja) |
JP (1) | JP4025517B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008503796A (ja) * | 2003-12-31 | 2008-02-07 | トムソン グローバル リソーシーズ | 最初のクエリによって規定されたバウンダリーを越えて検索結果を拡張するためのシステム、方法、インターフェース、およびソフトウェア |
US7412435B2 (en) | 2004-01-06 | 2008-08-12 | Matsushita Electric Industrial Co., Ltd. | Information retrieval apparatus and information retrieval support apparatus |
JP2010211664A (ja) * | 2009-03-12 | 2010-09-24 | Toshiba Corp | 検索を支援する装置、方法およびプログラム |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4025517B2 (ja) * | 2001-05-31 | 2007-12-19 | 株式会社日立製作所 | 文書検索システムおよびサーバ |
US20070156665A1 (en) * | 2001-12-05 | 2007-07-05 | Janusz Wnek | Taxonomy discovery |
US20030204500A1 (en) * | 2002-04-25 | 2003-10-30 | Jean-Francois Delpech | Process and apparatus for automatic retrieval from a database and for automatic enhancement of such database |
US7668816B2 (en) * | 2002-06-11 | 2010-02-23 | Microsoft Corporation | Dynamically updated quick searches and strategies |
JP4226862B2 (ja) * | 2002-08-29 | 2009-02-18 | 株式会社リコー | 文書検索装置 |
JP2004310561A (ja) * | 2003-04-09 | 2004-11-04 | Hitachi Ltd | 情報検索方法、情報検索システム及び検索サーバ |
JP2004348706A (ja) * | 2003-04-30 | 2004-12-09 | Canon Inc | 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム |
JP4538454B2 (ja) * | 2003-06-30 | 2010-09-08 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンピュータ・ネットワークにおける電子文書のレプリカの検索 |
US7346839B2 (en) | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
JP2005352878A (ja) * | 2004-06-11 | 2005-12-22 | Hitachi Ltd | 文書検索システム、検索サーバ、及び検索クライアント |
WO2006047654A2 (en) * | 2004-10-25 | 2006-05-04 | Yuanhua Tang | Full text query and search systems and methods of use |
US8131736B1 (en) | 2005-03-01 | 2012-03-06 | Google Inc. | System and method for navigating documents |
JP4809198B2 (ja) * | 2006-11-29 | 2011-11-09 | 株式会社リコー | 画像処理機器,記事画像選択方法,プログラム,および記録媒体 |
US20100211490A1 (en) * | 2007-09-28 | 2010-08-19 | Dai Nippon Printing Co., Ltd. | Search mediation system |
US9224149B2 (en) * | 2007-10-15 | 2015-12-29 | Google Inc. | External referencing by portable program modules |
WO2010141799A2 (en) * | 2009-06-05 | 2010-12-09 | West Services Inc. | Feature engineering and user behavior analysis |
US10289735B2 (en) * | 2010-04-27 | 2019-05-14 | Microsoft Technology Licensing, Llc | Establishing search results and deeplinks using trails |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPQ131399A0 (en) * | 1999-06-30 | 1999-07-22 | Silverbrook Research Pty Ltd | A method and apparatus (NPAGE02) |
US5146600A (en) * | 1988-04-30 | 1992-09-08 | Minolta Camera Kabushiki Kaisha | Document image filing system for furnishing additional managerial information for management of documents filed in the system |
US5454105A (en) * | 1989-06-14 | 1995-09-26 | Hitachi, Ltd. | Document information search method and system |
US5452451A (en) * | 1989-06-15 | 1995-09-19 | Hitachi, Ltd. | System for plural-string search with a parallel collation of a first partition of each string followed by finite automata matching of second partitions |
US5659732A (en) * | 1995-05-17 | 1997-08-19 | Infoseek Corporation | Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents |
US5926811A (en) * | 1996-03-15 | 1999-07-20 | Lexis-Nexis | Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching |
US5826261A (en) * | 1996-05-10 | 1998-10-20 | Spencer; Graham | System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query |
US5802518A (en) * | 1996-06-04 | 1998-09-01 | Multex Systems, Inc. | Information delivery system and method |
US6457004B1 (en) * | 1997-07-03 | 2002-09-24 | Hitachi, Ltd. | Document retrieval assisting method, system and service using closely displayed areas for titles and topics |
US5987460A (en) * | 1996-07-05 | 1999-11-16 | Hitachi, Ltd. | Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency |
EP0851368A3 (en) * | 1996-12-26 | 1999-05-19 | Sun Microsystems, Inc. | Self-teaching advanced search specification |
US6128613A (en) * | 1997-06-26 | 2000-10-03 | The Chinese University Of Hong Kong | Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words |
US5899995A (en) * | 1997-06-30 | 1999-05-04 | Intel Corporation | Method and apparatus for automatically organizing information |
US6018733A (en) * | 1997-09-12 | 2000-01-25 | Infoseek Corporation | Methods for iteratively and interactively performing collection selection in full text searches |
US6070157A (en) * | 1997-09-23 | 2000-05-30 | At&T Corporation | Method for providing more informative results in response to a search of electronic documents |
US6269368B1 (en) * | 1997-10-17 | 2001-07-31 | Textwise Llc | Information retrieval using dynamic evidence combination |
US6006217A (en) * | 1997-11-07 | 1999-12-21 | International Business Machines Corporation | Technique for providing enhanced relevance information for documents retrieved in a multi database search |
US6041326A (en) * | 1997-11-14 | 2000-03-21 | International Business Machines Corporation | Method and system in a computer network for an intelligent search engine |
US6078917A (en) * | 1997-12-18 | 2000-06-20 | International Business Machines Corporation | System for searching internet using automatic relevance feedback |
JP3181548B2 (ja) * | 1998-02-03 | 2001-07-03 | 富士通株式会社 | 情報検索装置及び情報検索方法 |
US6421675B1 (en) * | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
US6638314B1 (en) * | 1998-06-26 | 2003-10-28 | Microsoft Corporation | Method of web crawling utilizing crawl numbers |
US6732087B1 (en) * | 1999-10-01 | 2004-05-04 | Trialsmith, Inc. | Information storage, retrieval and delivery system and method operable with a computer network |
US6513032B1 (en) * | 1998-10-29 | 2003-01-28 | Alta Vista Company | Search and navigation system and method using category intersection pre-computation |
JP3760057B2 (ja) * | 1998-11-19 | 2006-03-29 | 株式会社日立製作所 | 複数文書データベースを対象とした文書検索方法および文書検索サービス |
JP3278406B2 (ja) * | 1998-12-10 | 2002-04-30 | 富士通株式会社 | ドキュメント検索仲介装置、ドキュメント検索システム、および、ドキュメント検索仲介プログラムを記録した記録媒体 |
US6532459B1 (en) * | 1998-12-15 | 2003-03-11 | Berson Research Corp. | System for finding, identifying, tracking, and correcting personal information in diverse databases |
JP2000276470A (ja) * | 1999-03-23 | 2000-10-06 | Seiko Epson Corp | 情報検索性能評価方法および情報検索性能評価装置並びに情報検索性能評価処理プログラムを記録した記録媒体 |
US6484162B1 (en) * | 1999-06-29 | 2002-11-19 | International Business Machines Corporation | Labeling and describing search queries for reuse |
US6883001B2 (en) * | 2000-05-26 | 2005-04-19 | Fujitsu Limited | Document information search apparatus and method and recording medium storing document information search program therein |
US6539386B1 (en) * | 2000-06-15 | 2003-03-25 | Cisco Technology, Inc. | Methods and apparatus for modifying a customer order |
AU2001271940A1 (en) * | 2000-07-28 | 2002-02-13 | Easyask, Inc. | Distributed search system and method |
JP2002222210A (ja) * | 2001-01-25 | 2002-08-09 | Hitachi Ltd | 文書検索システム、文書検索方法及び検索サーバ |
US7860706B2 (en) * | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
US6681219B2 (en) * | 2001-03-29 | 2004-01-20 | Matsushita Electric Industrial Co., Ltd. | Method for keyword proximity searching in a document database |
US20020169771A1 (en) * | 2001-05-09 | 2002-11-14 | Melmon Kenneth L. | System & method for facilitating knowledge management |
JP4025517B2 (ja) * | 2001-05-31 | 2007-12-19 | 株式会社日立製作所 | 文書検索システムおよびサーバ |
JP4116329B2 (ja) * | 2002-05-27 | 2008-07-09 | 株式会社日立製作所 | 文書情報表示システム、文書情報表示方法及び文書検索方法 |
-
2001
- 2001-05-31 JP JP2001165075A patent/JP4025517B2/ja not_active Expired - Fee Related
- 2001-08-31 US US09/942,905 patent/US7277881B2/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008503796A (ja) * | 2003-12-31 | 2008-02-07 | トムソン グローバル リソーシーズ | 最初のクエリによって規定されたバウンダリーを越えて検索結果を拡張するためのシステム、方法、インターフェース、およびソフトウェア |
US7412435B2 (en) | 2004-01-06 | 2008-08-12 | Matsushita Electric Industrial Co., Ltd. | Information retrieval apparatus and information retrieval support apparatus |
JP2010211664A (ja) * | 2009-03-12 | 2010-09-24 | Toshiba Corp | 検索を支援する装置、方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20020184186A1 (en) | 2002-12-05 |
JP4025517B2 (ja) | 2007-12-19 |
US7277881B2 (en) | 2007-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4025517B2 (ja) | 文書検索システムおよびサーバ | |
CN102859516B (zh) | 使用历史搜索结果生成改进的文档分类数据 | |
KR101636603B1 (ko) | 검색 효율이 증가된 예비-쇼핑 예약 시스템을 위한 방법 및 시스템 | |
US20080189274A1 (en) | Systems and methods for connecting relevant web-based product information with relevant network conversations | |
KR101993771B1 (ko) | 챗봇 검색 시스템 및 프로그램 | |
CN101882149B (zh) | 重排序和提高搜索结果的相关性 | |
US10255353B2 (en) | Individualized detailed program recommendations with active updating of viewer preferences | |
JP3760057B2 (ja) | 複数文書データベースを対象とした文書検索方法および文書検索サービス | |
JP3717808B2 (ja) | 情報検索システム | |
JP4962967B2 (ja) | Webページ検索サーバ及びクエリ推薦方法 | |
US20070016578A1 (en) | Apparatus and method for search and retrieval of documents | |
US20050278293A1 (en) | Document retrieval system, search server, and search client | |
US20110082803A1 (en) | Business flow retrieval system, business flow retrieval method and business flow retrieval program | |
US20070239666A1 (en) | Method and System for a De-Normalized Electronic-Catalog | |
JP4487332B2 (ja) | 情報処理装置および方法、記録媒体、並びに情報処理システム | |
JPH11338879A (ja) | 求人求職仲介システム | |
US20060235842A1 (en) | Web page ranking for page query across public and private | |
JPH11338882A (ja) | 求職者が求人データベースを検索する際の入力案内プロセスに特徴を有する求人求職仲介システム | |
JP2002157276A (ja) | 問題解決支援方法及びシステム | |
US20040193591A1 (en) | Searching content information based on standardized categories and selectable categorizers | |
JP5266975B2 (ja) | 個人検索システム、情報処理装置、個人検索方法、プログラムおよび記録媒体 | |
CN115563189A (zh) | 一种基于数据挖掘技术的海量数据查询方法 | |
US20020062341A1 (en) | Interested article serving system and interested article serving method | |
JP5031416B2 (ja) | 検索方法および検索装置 | |
US20220156285A1 (en) | Data Tagging And Synchronisation System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070612 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070813 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070925 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071005 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101012 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111012 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121012 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121012 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131012 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |