JP4091146B2 - 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP4091146B2
JP4091146B2 JP20198497A JP20198497A JP4091146B2 JP 4091146 B2 JP4091146 B2 JP 4091146B2 JP 20198497 A JP20198497 A JP 20198497A JP 20198497 A JP20198497 A JP 20198497A JP 4091146 B2 JP4091146 B2 JP 4091146B2
Authority
JP
Japan
Prior art keywords
search
document
computer
related word
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20198497A
Other languages
English (en)
Other versions
JPH1145267A (ja
Inventor
和宣 浮川
初子 浮川
淳 高藤
好哉 荒井
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP20198497A priority Critical patent/JP4091146B2/ja
Publication of JPH1145267A publication Critical patent/JPH1145267A/ja
Application granted granted Critical
Publication of JP4091146B2 publication Critical patent/JP4091146B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、検索を行った後、少なくとも、検索条件,検索結果,関連語および検索を行った日付を検索結果履歴として記憶しておき、記憶した検索結果履歴を後の検索処理に利用することができるようにして、情報分析や新たな価値の創出に寄与することができるようにした文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
複数の文書を格納した文書DB(データベース)から特定の文書を検索する文書検索装置は、一般に、検索式や検索文等の検索条件を入力し、入力した検索条件に該当する文書を文書DBから検索するものである。
【0003】
ところで、文書検索装置で一度検索を行った後、同一または類似の検索条件で再度検索を行うには再び検索条件を入力しなければならなかったことから、検索を行う毎に検索条件や検索結果を保存できるようにし、次回検索を行う際に、保存しておいた検索条件や検索結果を利用することができるようにした文書検索装置が提案されている。
【0004】
【発明が解決しようとする課題】
しかしながら、上記従来の技術においては、単に検索条件や検索結果を保存するだけであるため、検索結果を元にして情報の分析を行う場合等には使い勝手が悪いという問題点があった。特に、検索結果を定点観測的な比較分析に利用する場合には、ユーザが独自に分析のためのデータの整理および管理を行う必要があった。
【0005】
本発明は上記に鑑みてなされたものであって、検索を行った後、少なくとも、検索条件,検索結果,関連語および検索を行った日付を検索結果履歴として記憶しておき、記憶した検索結果履歴を後の検索処理に利用することができるようにして、情報分析や新たな価値の創出に寄与することができるようにすることを目的とする。
【0006】
【課題を解決するための手段】
上記目的を達成するため、本発明の文書検索装置は、検索条件に基づいて、検索対象の文書から該当する文書を検索する文書検索装置において、前記検索条件を入力し、入力した検索条件に基づいて、該当する文書を検索する検索手段と、前記検索手段で検索した結果の文書から名詞句を抽出し、抽出した名詞句に対して、前記検索手段で検索した結果の文書および検索対象の文書における出現頻度および分布等の統計情報に応じたスコアを付与するスコア付与手段と、前記スコア付与手段で付与したスコアに基づいて、予め設定された抽出条件に該当するスコアの名詞句を前記検索条件の関連語として抽出する関連語抽出手段と、前記入力した検索条件,検索手段による検索結果,関連語抽出手段で抽出した関連語および検索を行った日付を少なくとも検索結果履歴として記憶する履歴記憶手段と、前記履歴記憶手段に記憶された検索結果履歴を読み出して画面表示する表示手段と、を備えたものである。
【0007】
また、本発明のコンピュータ読み取り可能な記録媒体は、上記の文書検索装置の各手段としてコンピュータを機能させるためのプログラムを記録したものである。
【0008】
【発明の実施の形態】
以下、本発明の文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体の実施の形態について、添付の図面を参照しつつ詳細に説明する。
【0009】
図1は、本実施の形態の文書検索装置のシステム構成図である。図1に示す文書検索装置は、所望の文書を検索するための検索条件を出力する複数のクライアント100と、文書DB(データベース)101の文書を用いて転置ファイル102を生成すると共に、ベクトル空間法を用いた検索を行う検索エンジン(例えば、CLARITECH社のCLARIT等)を用いて、クライアント100から検索条件を入力し、入力した検索条件に基づいて、転置ファイル102から該当する文書を検索し、さらに、検索結果の文書から検索条件の関連語を抽出する検索ソフト105および検索ソフト105による検索結果の履歴を管理する検索結果履歴管理ソフト106を備えた検索サーバ103と、上記クライアント100や検索サーバ103等を接続するネットワーク104と、から構成されている。
【0010】
図1において、文書DB101は、クライアント100等で作成された複数の文書を格納したものであり、格納される文書は、ワープロ文書や、SGML,HTML等の構造化文書等、いかなる種類の文書であっても良い。本実施の形態においては、文書DB101に格納された文書を検索対象とするが、検索対象を文書DB101中の文書に限定するものではない。
【0011】
転置ファイル102は、文書DB101中の複数の文書と、これら複数の文書それぞれから後述する方法で抽出した複数の索引語との関係を規定することにより、ある索引語が各文書それぞれにおいてどの程度重要な語彙であるかをベクター表現を用いて示したものであって、この索引語を用いて該当する文書を検索することができるようにしたものである。
【0012】
具体的には、1つの文書を予め定めた複数のセンテンスからなるサブドキュメント単位に区切り、サブドキュメントから上記索引語となる名詞句を抽出して、抽出した名詞句それぞれについて、サブドキュメント中の出現頻度,文書DB101全体における分布等の統計情報を求め、求めた名詞句毎の統計情報を用いて各サブドキュメントをベクター表現に変換する。そして、変換したサブドキュメントのベクター表現に基づいて、文書のベクター表現を生成する。転置ファイル102は、このようにしてベクター表現された文書DB101中の文書を格納するものである。
【0013】
なお、各索引語には、対応する文書中の重要度に応じた重み付けを行うことができる。また、文書のベクター表現については、実際の検索を行う際に、サブドキュメントのベクター表現に基づいて生成することにしても良い。
【0014】
クライアント100および検索サーバ103は、パーソナルコンピュータやワークステーション等によって構成される。図2は、検索サーバ103における検索ソフト105の処理を示す概略ブロック図である。検索サーバソフト105は、文書DB101中の文書を転置ファイル102に登録する処理と、ベクトル空間法を利用した文書の検索処理と、検索結果の文書から検索条件の関連語を抽出する処理を行うものである。
【0015】
検索ソフト105において、文書DB101中の文書を転置ファイル102に登録する処理は、自然言語処理モジュール200と、データベース・ビルド・コンポーネント205とによって行われる。
【0016】
具体的に、自然言語処理モジュール200は、文書DB101から文書を入力し、入力した文書について、フォーマットの認識処理や、品詞情報等を格納した辞書201および各単語の係り受け等を解析するための文法辞書202を用いて形態素解析,構文解析,名詞句抽出等の解析処理を行い、上述したサブドキュメント毎の名詞句リストを含むドキュメント・セット204を生成する。
【0017】
データベース・ビルド・コンポーネント205は、自然言語処理モジュール200で生成したドキュメント・セット204を入力し、入力したドキュメント・セット204中の各サブドキュメントをベクター表現に変換すると共に、サブドキュメントのベクター表現に基づいて、文書のベクター表現を生成して転置ファイル102に登録する。
【0018】
また、検索ソフト105において、文書の検索処理は、自然言語処理モジュール200と、クエリー・ビルド・コンポーネント207と、検索エンジン209とによって行われる。
【0019】
具体的に、自然言語処理モジュール200は、クライアント100から検索条件206を入力し、品詞情報等を格納した辞書201および各単語の係り受け等を解析するための文法辞書202を用いて形態素解析,構文解析,名詞句抽出等の解析処理を行い、検索条件206の名詞句のリストを含むドキュメント・セット204を生成する。
【0020】
クエリー・ビルド・コンポーネント207は、ドキュメント・セット204を入力し、検索条件206を構成する各名詞句について、検索条件206(ドキュメント・セット204)中の出現頻度,文書DB101(転置ファイル102)全体における分布等の統計情報を求め、求めた統計情報を用いて検索条件206をベクター表現に変換したクエリー・ドキュメント208を生成する。
【0021】
検索エンジン209は、クエリー・ビルド・コンポーネント207で生成したクエリー・ドキュメント208を入力し、転置ファイル102中の各文書のベクター表現とクエリー・ドキュメント208(検索条件206のベクター表現)とを比較して、クエリー・ドキュメント208との類似度に応じたスコアを各文書に付与し、所定の閾値を超えるスコアが付与された文書リスト210を出力する。
【0022】
さらに、検索ソフト105において、関連語の抽出処理は、自然言語処理モジュール200と、関連語抽出エンジン211とによって行われる。
【0023】
具体的に、自然言語処理モジュール200は、クライアント100で文書リスト210から文書を選択した結果を検索結果として入力し、文書DB101から検索結果に該当する文書を入力する。そして、入力した全ての文書について、フォーマットの認識処理や、品詞情報等を格納した辞書201および各単語の係り受け等を解析するための文法辞書202を用いて形態素解析,構文解析,名詞句抽出等の解析処理を行い、上述したサブドキュメント毎の名詞句リストを含むドキュメント・セット204を生成する。
【0024】
関連語抽出エンジン211は、自然言語処理モジュール200で生成したドキュメント・セット204を入力し、入力したドキュメント・セット204中の各名詞句それぞれについて、各文書(ドキュメント・セット204)中の出現頻度や文書DB101(転置ファイル102)中の分布等の統計データを演算し、演算した統計データに基づいて、各名詞句にスコアを付与する。そして、予め設定した閾値を超えるスコアの名詞句を検索条件206の関連語句として抽出し、抽出した結果を関連語リスト212として出力する。
【0025】
また、検索サーバ103において、検索結果履歴ソフト106は、検索を行った後、検索条件,検索対象,検索結果,関連語,関連文書,日付,検索者,コメント等を検索結果履歴として記憶しておき、クライアント100の要求に応じて、クライアント100のユーザが参照することができるように管理するものである。
【0026】
なお、図1においては、文書DB101および転置ファイル102をネットワーク104に単独に接続した構成を示したが、これらを検索サーバ103に直接接続する構成としても良い。また、図1においては、本実施の形態の文書検索装置をネットワーク104を介したシステムで構成するように示したが、クライアント100と検索サーバ103の処理を1つのコンピュータで行うようにすることもできる。
【0027】
次に、上述した構成を備えた文書検索装置の動作について、(1)転置ファイルの生成処理,(2)文書の検索処理,(3)関連語の抽出処理,(4)検索結果履歴の利用の順で詳細に説明する。
【0028】
(1)転置ファイルの生成処理
図3は、転置ファイルの生成処理を示すフローチャートである。検索サーバ103の検索ソフト105は、新たな文書が文書DB101に登録された場合(S301)、この文書を入力して転置ファイル102に登録するための処理を開始する(S302)。
【0029】
検索ソフト105において、自然言語処理モジュール200は、ステップS302で入力した文書を解析する処理を行う(S303)。具体的には、入力した文書がワープロ文書,HTML等の構造化文書等、いかなるフォーマットの文書であるかを判定する処理を行う。その後、辞書201および文法辞書202を用いて形態素解析,係り受け等の構文解析を行い、文書を複数のサブドキュメントに区分すると共に、区分したサブドキュメントから名詞句を抽出する等の処理を行う。
【0030】
そして、自然言語処理モジュール200は、ステップS303における処理の結果に基づいて、サブドキュメント毎に名詞句リストを生成し、生成した名詞句リストを含むドキュメント・セット204を生成する(S304)。
【0031】
その後、データベース・ビルド・コンポーネント205は、自然言語処理モジュール200で生成したドキュメント・セット204を入力し、文書のベクター表現を生成して転置ファイル102に登録する処理を行う(S305)。
【0032】
具体的には、ドキュメント・セット204中のサブドキュメントの各名詞句を転置ファイル102の索引語として、サブドキュメント中の出現頻度,文書DB101全体における分布等の統計情報を求め、求めた名詞句毎の統計情報を用いてサブドキュメントをベクター表現に変換する。この処理をドキュメント・セット204中の全てのサブドキュメントについて行い、変換したサブドキュメントのベクター表現に基づいて、文書のベクター表現を生成して転置ファイル102に登録する。その結果、文書DB101に新たに登録された文書がベクター表現に変換されて転置ファイル102に登録されることになり、転置ファイル102は常に最新の状態に保たれる。
【0033】
(2)文書の検索処理
次に、上述したようにして生成した転置ファイル102に基づいて、文書を検索する処理について説明する。図4は、文書の検索処理を示すフローチャートである。
【0034】
検索サーバ103の検索ソフト105は、クライアント100から検索条件206を入力すると(S401)、自然言語処理モジュール200において、検索条件206の解析処理を行う(S402)。この検索条件206は、自然言語で記述された検索文であり、文書検索装置の構成により、検索式,キーワードの集合等に変更することも可能である。自然言語処理モジュール200は、具体的に、検索条件206について、辞書201および文法辞書202を用いて形態素解析,係り受け等の構文解析処理を行い、検索条件206から名詞句を抽出する処理を行う。
【0035】
そして、自然言語処理モジュール200は、ステップS402で解析処理を行うことによって抽出した名詞句からなるドキュメント・セット204を生成する(S403)。
【0036】
続いて、クエリー・ビルド・コンポーネント207は、自然言語処理モジュール200からドキュメント・セット204を入力し、入力したドキュメント・セット204を構成する各名詞句について、検索条件206(ドキュメント・セット204)中の出現頻度,文書DB101(転置ファイル102)全体における分布等の統計情報を求め、求めた統計情報を用いてドキュメント・セット204をベクター表現に変換したクエリー・ドキュメント208を生成する(S404)。
【0037】
検索エンジン209は、クエリー・ビルド・コンポーネント207で生成したクエリー・ドキュメント208を入力し、転置ファイル102中の各文書のベクター表現とクエリー・ドキュメント208(検索条件206のベクター表現)とを比較して、クエリー・ドキュメント208との類似度に応じたスコアを各文書に付与する(S405)。すなわち、ベクトル空間法を用いた検索処理が行われる。
【0038】
なお、類似度に応じたスコアは、各文書とクエリー・ドキュメント208との類似度を余弦距離に基づいて表現したものであり、スコアが大きい文書がよりクエリー・ドキュメント208と類似していることを表している。
【0039】
そして、検索エンジン209は、予め設定されたスコアの閾値に基づいて、閾値を超えるスコアが付与された文書を選択し、選択した文書に基づいて、文書リスト210を生成してクライアント100に出力する(S406)。
【0040】
クライアント100は、検索サーバ103から文書リスト210を入力し、入力した文書リスト210に基づいて、検索された文書一覧を画面表示する(S407)。クライアント100のユーザは、画面表示された文書一覧から所望の文書を選択することにより、文書DB101中の文書を画面表示させることができる。
【0041】
なお、クライアント100においては、上位のランキングの文書から順に一覧表示される。したがって、検索条件206に最も類似する文書から順に表示されることになり、ユーザが文書を選択する際の基準を提供することができる。
【0042】
(3)関連語の抽出処理
続いて、上述した検索処理において検索した文書から検索条件206の関連語を抽出する処理について説明する。図5は、関連語の抽出処理を示すフローチャートである。
【0043】
クライアント100のユーザは、画面表示された文書一覧から検索結果としてふさわしい文書を選択し、選択した文書を検索結果として検索サーバ103に出力する。検索サーバ103の検索ソフト105は、クライアント100から検索結果を入力すると(S501)、検索結果に該当する文書を文書DB101から入力する(S502)。
【0044】
なお、後に詳細に説明するが、クライアント100から入力した検索結果は、検索結果履歴管理ソフトにおいて検索結果履歴として記憶され、管理されることになる。
【0045】
文書DB101から文書を入力すると、自然言語処理モジュール200は、入力した全ての文書について、フォーマットの認識処理や、品詞情報等を格納した辞書201および各単語の係り受け等を解析するための文法辞書202を用いて形態素解析,構文解析,名詞句抽出等の解析処理を行う(S503)。
【0046】
その後、ステップS503における解析処理の結果に基づいて、サブドキュメント毎の名詞句リストを含むドキュメント・セット204を生成する(S504)。
【0047】
関連語抽出エンジン211は、自然言語処理モジュール200で生成したドキュメント・セット204を入力し、入力したドキュメント・セット204中の各名詞句それぞれについて、各文書(ドキュメント・セット204)中の出現頻度や文書DB101(転置ファイル102)中の分布等の統計データを演算する(S505)。
【0048】
ステップS505で統計データを演算した後、関連語抽出エンジン211は、求めた統計データに基づいて、各名詞句に対してスコア付けを行う(S506)。このスコアは、文書200における各名詞句の重要性および検索条件206中の名詞句に対する関連性を表すもので、スコアが大きいもの程、重要性および関連性が高いことを表している。
【0049】
関連語抽出エンジン211は、ステップS506で行ったスコア付けの結果に基づいて、予め設定された閾値を超えるスコアの名詞句を検索条件206中の名詞句に関連する関連語として抽出する(S507)。なお、ここでは、関連語を抽出する条件として閾値を用いることにしたが、閾値に代えて、例えば、上位5番までのスコアの名詞句を抽出することにしても良い。
【0050】
その後、関連語抽出エンジン211は、ステップS507で抽出した関連語からなる関連語リスト212を生成して、クライアント100に出力する(S508)。
【0051】
クライアント100は、検索サーバ103から関連語リスト212を入力し、抽出された関連語を一覧表示する。クライアント100のユーザは、一覧表示された関連語から検索結果履歴として記憶させる関連語を選択して、検索サーバ103に出力する。
【0052】
(4)検索結果履歴の利用
さらに、上述したようにして文書を検索した結果および検索結果の文書から抽出した関連語等を検索結果履歴として記憶し、記憶した検索結果履歴をいかにして利用するかについて説明する。
【0053】
検索サーバ103の検索結果履歴管理ソフト106は、クライアント100から入力した検索結果(図5のステップS501参照)および関連語の選択結果、さらには、検索を行った日付やユーザ名等のユーザ情報等を用いて、検索結果履歴を作成して記憶する。
【0054】
図6は、検索結果履歴の一例を示す説明図である。図6に示す検索結果履歴600には、検索に用いた検索条件,検索対象,関連語,検索結果,関連文書,日付,検索者等の欄が設けられている。また、この検索結果履歴600には、どのような意図で検索を行ったかを記録しておくためのコメント欄が設けられており、クライアント100からコメントを書き込むことができるようになっている。
【0055】
上述したように、文書DB101に新たな文書が登録される毎に、転置ファイル102は常に更新されることになる。したがって、同一の検索条件206を用いて検索を行った場合であっても、最新の検索結果と一年前の検索結果は異なることがあり、この間の定点観測的な比較分析により、予測やリスク管理等の状況を見出せることがある。
【0056】
例えば、同一トピックに関する新聞記事の経時的変化(検索結果)とその時々の社会状況(政権交代など)等のコメントとを併せ、検索結果履歴600中に記憶・管理しておくことにより、ある出来事が起きた場合にその検索結果履歴600を利用して、情報の分析を行うことができる。このような情報(コメント)の例としては、「火山の噴火で小麦の収穫量が変化する」、「産業政策によってある産業の景気が左右される」等がある。
【0057】
このように、検索結果履歴管理ソフト106で作成し、記憶した検索結果履歴600は、クライアント100から必要に応じて読み出すことができ、クライアント100のユーザは、この検索結果履歴600を利用して、検索処理に活用することができると共に、最新の検索結果と過去の検索結果履歴とを利用して、情報の分析を行うことができる。
【0058】
なお、図6に示してあるように、検索結果履歴600には、同一の検索条件206を用いて定期的に検索を行うことができるように、自動検索条件欄が設けられている。ここに検索を自動的に行う時期等の条件を書き込んでおくことにより、検索ソフト105に定期的にかつ自動的に検索を行わせることができる。
【0059】
以上のように、本実施の形態の文書検索装置によれば、検索を行った後、少なくとも、検索条件,検索結果,関連語および検索を行った日付を検索結果履歴として記憶しておき、記憶した検索結果履歴を利用して検索処理を行うことができるようにすることにより、情報分析や新たな価値の創出に寄与することができる。
【0060】
なお、検索結果として一覧表示された文書において、ユーザが検索結果としてふさわしいと思う文書やふさわしくないと思う文書については、その結果を検索サーバ103にフィードバックすることができる。すなわち、ユーザは、検索結果としてふさわしいと思う文書に対して、正の重み、例えば「+」を指定することができ、検索結果としてふさわしくないと思う文書に対して負の重み、例えば「−」を指定することができる。その結果、入力した重みが正の指定である場合には、転置ファイル102中の該当する文書の重みが強化され、入力した重みが負の指定である場合には、文書の重みが弱められる。
【0061】
また、本実施の形態においては、ベクトル空間法による検索を例にとって説明したが、ブーリアン検索により検索処理を行うことにしても良い。
【0062】
さらに、本実施の形態で説明した文書検索装置は、予め用意されたプログラムをコンピュータやワークステーションで実行することによって実現される。このプログラムは、ハードディスク,フロッピーディスク,CD−ROM,MO,DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、このプログラムは、上記記録媒体を介して、またはネットワークを介して配布することができる。
【0063】
【発明の効果】
以上説明したように、本発明の文書検索装置によれば、検索条件を入力し、入力した検索条件に基づいて、該当する文書を検索する検索手段と、検索手段で検索した結果の文書から名詞句を抽出し、抽出した名詞句に対して、検索手段で検索した結果の文書および検索対象の文書における出現頻度および分布等の統計情報に応じたスコアを付与するスコア付与手段と、スコア付与手段で付与したスコアに基づいて、予め設定された抽出条件に該当するスコアの名詞句を検索条件の関連語として抽出する関連語抽出手段と、入力した検索条件,検索手段による検索結果,関連語抽出手段で抽出した関連語および検索を行った日付を少なくとも検索結果履歴として記憶する履歴記憶手段と、履歴記憶手段に記憶された検索結果履歴を読み出して画面表示する表示手段と、を備えたため、情報分析や新たな価値の創出に寄与することができる。
【0064】
また、本発明のコンピュータ読み取り可能な記録媒体によれば、上記の文書検索装置の各手段としてコンピュータを機能させるためのプログラムを記録したため、このプログラムをコンピュータに実行させることにより、情報分析や新たな価値の創出に寄与することができる文書検索装置を実現することができる。
【図面の簡単な説明】
【図1】本実施の形態の文書検索装置のシステム構成図である。
【図2】本実施の形態の文書検索装置において、検索ソフトの処理を示す概略ブロック図である。
【図3】本実施の形態の文書検索装置において、転置ファイルの生成処理を示すフローチャートである。
【図4】本実施の形態の文書検索装置において、文書の検索処理を示すフローチャートである。
【図5】本実施の形態の文書検索装置において、関連語の抽出処理を示すフローチャートである。
【図6】本実施の形態の文書検索装置において、検索結果履歴の一例を示す説明図である。
【符号の説明】
100 クライアント
101 文書DB
102 転置ファイル
103 検索サーバ
104 ネットワーク
105 検索ソフト
106 検索結果履歴管理ソフト
200 自然言語処理モジュール
201 辞書
202 文法辞書
204 ドキュメント・セット
205 データベース・ビルド・コンポーネント
206 検索条件
207 クエリー・ビルド・コンポーネント
208 クエリー・ドキュメント
209 検索エンジン
210 文書リスト
211 関連語抽出エンジン
212 関連語リスト
600 検索結果履歴

Claims (2)

  1. 検索条件に基づいて、検索対象の文書から該当する文書を検索する文書検索装置において、
    同一の検索条件を入力し、入力した検索条件に基づいて、該当する文書を定期的に検索する検索手段と、
    前記検索手段で検索した結果の文書から名詞句を抽出し、抽出した名詞句に対する、前記検索手段で検索した結果の文書および検索対象の文書における出現頻度に基づいて、当該出現頻度が所定の閾値を超える名詞句を前記検索条件の関連語として抽出する関連語抽出手段と、
    前記入力した検索条件、検索手段による検索結果、関連語抽出手段で抽出した関連語および検索を行った日付を少なくとも検索結果履歴として記憶する履歴記憶手段と、
    前記履歴記憶手段に記憶された検索結果履歴の中から異なる時期に同一の検索条件を用いて検索をおこなった検索結果履歴を画面表示する表示手段と、
    を備えたことを特徴とする文書検索装置。
  2. 前記請求項1に記載の文書検索装置の各手段としてコンピュータを機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP20198497A 1997-07-28 1997-07-28 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP4091146B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20198497A JP4091146B2 (ja) 1997-07-28 1997-07-28 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20198497A JP4091146B2 (ja) 1997-07-28 1997-07-28 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPH1145267A JPH1145267A (ja) 1999-02-16
JP4091146B2 true JP4091146B2 (ja) 2008-05-28

Family

ID=16450019

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20198497A Expired - Fee Related JP4091146B2 (ja) 1997-07-28 1997-07-28 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4091146B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3870666B2 (ja) * 2000-06-02 2007-01-24 株式会社日立製作所 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
US7725526B1 (en) * 2000-06-23 2010-05-25 International Business Machines Corporation System and method for web based sharing of search engine queries
KR20000063310A (ko) * 2000-06-26 2000-11-06 민재기 통신망을 통한 명사의 순위 검색 시스템과 그 방법
KR100408965B1 (ko) * 2000-06-26 2003-12-06 주식회사쓰리소프트 검색조건을 추천하는 검색결과 제공방법 및 검색서버
JP4183893B2 (ja) * 2000-08-31 2008-11-19 株式会社野村総合研究所 ナレッジマネジメントシステム
US7738995B2 (en) * 2002-02-12 2010-06-15 United Parcel Service Of America, Inc. Systems and methods for use in electronic processing of foreign origin and export shipments and/or passengers and baggage at security check points
JP2004326220A (ja) * 2003-04-22 2004-11-18 Ricoh Co Ltd 文書検索装置、方法、プログラム、及び記録媒体
JP2005258496A (ja) * 2004-03-09 2005-09-22 Hitachi Ltd 検索意図を表す文字列を利用した情報検索システム
US7617191B2 (en) * 2006-01-06 2009-11-10 International Business Machines Corporation Search service that accesses and highlights previously accessed local and online available information sources
KR100906928B1 (ko) 2007-03-26 2009-07-10 엔에이치엔비즈니스플랫폼 주식회사 비즈니스 키워드에 대한 연관 요소를 반영하는 검색어 추천 서비스 방법, 컴퓨터 판독 가능 기록 매체 및 그 시스템
JP4962967B2 (ja) * 2008-01-11 2012-06-27 ヤフー株式会社 Webページ検索サーバ及びクエリ推薦方法
JP2009223652A (ja) * 2008-03-17 2009-10-01 Toshiba Corp 情報提供サーバ及び情報提供方法
US8055638B2 (en) * 2008-12-11 2011-11-08 Microsoft Corporation Providing recent history with search results
JP6790942B2 (ja) * 2017-03-16 2020-11-25 富士通株式会社 検索支援プログラム、検索支援装置および検索支援方法

Also Published As

Publication number Publication date
JPH1145267A (ja) 1999-02-16

Similar Documents

Publication Publication Date Title
US7783644B1 (en) Query-independent entity importance in books
JP3691844B2 (ja) 文書処理方法
JP3719415B2 (ja) 情報検索方法、情報検索システム、およびプログラム
JP3755134B2 (ja) コンピュータベースの適合テキスト検索システムおよび方法
US20110087671A1 (en) Document Processing System and Method Thereof
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH03172966A (ja) 類似文書検索装置
CN113342923A (zh) 数据查询方法、装置、电子设备及可读存储介质
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2003271609A (ja) 情報監視装置及び情報監視方法
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3767763B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001084256A (ja) データベース処理装置、データベース処理方法、及びデータベース処理プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2008117351A (ja) 検索システム
JP2012113459A (ja) 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム
JP2009086903A (ja) 検索サービス装置
JPH1145268A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP3249743B2 (ja) 文書検索システム
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003085181A (ja) 事典システム
JP4000332B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080228

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110307

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees