JP2002049638A - 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体 - Google Patents

文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体

Info

Publication number
JP2002049638A
JP2002049638A JP2001131097A JP2001131097A JP2002049638A JP 2002049638 A JP2002049638 A JP 2002049638A JP 2001131097 A JP2001131097 A JP 2001131097A JP 2001131097 A JP2001131097 A JP 2001131097A JP 2002049638 A JP2002049638 A JP 2002049638A
Authority
JP
Japan
Prior art keywords
search
document
file
keyword
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001131097A
Other languages
English (en)
Inventor
Seiichiro Abe
静一郎 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001131097A priority Critical patent/JP2002049638A/ja
Publication of JP2002049638A publication Critical patent/JP2002049638A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】検索データベースに登録されていない文書に類
似した文書の検索をを簡単な操作ですばやく行う。 【解決手段】クライアント12からの検索要求に基づい
てサーバ10で文書情報を検索して応答する装置であっ
て、クライアント12の検索条件指定部26で検索条件
に文書ファイルを指定した場合に、指定したファイル内
容をネットワークを経由して送信する。サーバ10側に
設けた検索マシン20の文書検索部30は、検索条件指
定部26から送信されたファイル内容からキーワードを
生成し、検索データベース22のインデックス(検索対
象文書25から抽出した重要単語列)から類似文書を検
索する

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、大量の文書データ
の中から必要な文書を迅速に探し出すための文書情報検
索装置、方法及び文書情報検索プログラムを格納したコ
ンピュータ可読の記録媒体に関し、特に、文書ファイル
そのものを検索条件に指定するという簡単な操作で内容
が類似する文書を捜し出す文書情報検索装置、方法及び
文書情報検索プログラムを格納したコンピュータ可読の
記録媒体に関する。
【0002】
【従来の技術】従来、ネットワーク環境を利用した文書
管理システムにあっては、インターネットやイーサネッ
ト(R)上に存在する大量の文書データから必要な文書
を検索してすばやく参照することのできる文書情報検索
装置を提供している。
【0003】この場合の文書検索は、ユーザが必要とす
る文書に含まれていると思われる1又は複数の適当な単
語や文字列をキーワードとして指定し、この指定したキ
ーワードの単語を含む文書を検索データベースから検索
し、文書一覧を検索結果として表示する。
【0004】この文書情報検索装置にあっては、ネット
ワーク上に存在する検索対象文書について、その内容か
ら重要語を抽出して列挙したインデックスを文書毎に作
成して検索データベースに保存している。そしてユーザ
からキーワードを指定した検索要求があれば、検索デー
タベースのインデックスを検索して文書一覧の検索結果
を出すようにしている。
【0005】更に、従来の文書情報検索装置は、ユーザ
がキーワード指定で検索した文書一覧の中から必要と思
われる文書を検索した後、文書一覧の中から選んだ文書
について類似文書検索を指定すると、検索文書の中に出
現する頻度の高い用語が自動的に抽出され、前回実行さ
れた検索条件に論理和の条件で付加され、類似文書の検
索を行うことができる。
【0006】
【発明が解決しようとする課題】しかしながら、ユーザ
が電子メールやインターネットで、興味ある文書を入手
し、この文書に類似した内容の文書を検索したい場合、
現状では入手した文書に含まれている単語や文字列を選
んでキーワードにいちいち指定し、まず検索結果として
文書一覧を得る。次に、検索した文書一覧の中から文書
を選択して類似文書検索を指定して類似文書の検索を行
わなければならない。
【0007】即ち、電子メールやインターネットで入手
した文書の類似検索を行おうとしても、従来の文書情報
検索装置は、既に検索データベースに登録されている文
書しか、文書を検索条件に指定した類似文書の検索はで
きず、ユーザが電子メールやインターネットで入手した
文書を検索条件に使って直接的に類似文書の検索を行う
ことができない。
【0008】このためユーザが電子メールやインターネ
ットで入手した文書の中から、文書検索に必要と思われ
るキーワードを選んで検索条件として入力する必要があ
り、キーワードが多くある場合は入力に手間がかかる。
またキーワードの指定が十分でないと検索漏れを生じ、
期待した検索結果が得られない場合がある。
【0009】更に文書一覧として得られる検索数が膨大
となることもあり、文書一覧から関連すると思われる文
書を開いて必要な文書を捜し出す大変な手間がかかる場
合がある。
【0010】本発明は、検索データベースに登録されて
いない文書に類似した文書の検索を簡単な操作ですばや
くできる文書情報検索装置、方法及び文書情報検索プロ
グラムを格納したコンピュータ可読の記録媒体を提供す
ることを目的とする。
【0011】
【課題を解決するための手段】図1は本発明の原理説明
図である。本発明は、クライアント12等からのネット
ワークを経由した検索要求に基づいてサーバ10等の検
索側で文書情報を検索して応答する文書情報検索装置で
あって、クライアント12等の要求元に、検索条件にフ
ァイルを指定した場合に、指定したファイル内容をネッ
トワークを経由して送信する検索条件指定部26を設
け、サーバ10等の検索側に、検索条件指定部26から
送信されたファイル内容からキーワードを生成して類似
文書を検索する検索マシン20を設けたことを特徴とす
る。
【0012】このため電子メールやインターネット等で
興味のある内容を含む文書を入手し、この文書に類似し
た内容の文書を検索したい場合等に、文書の指定により
アップロードされたファイルを検索条件に指定すること
で、内容が類似する文書を検索することができる。この
ためデータベース登録されていない文書であっても自由
に検索条件として指定することができ、手間のかかる文
書内容に基づいたキーワードの入力を不要とし、簡単且
つ迅速に類似文書を探し出すことができる。
【0013】検索要求元の検索条件指定部26は、指定
されたファイル内容の先頭ファイル部分を送信する。通
常、文書検索に必要な重要なキーワードは文書の先頭部
分に多く存在することから、ファイル内容の先頭部分だ
け、例えば先頭の1KB部分を検索条件として送信す
る。また検索条件に使用する文書ファイルのサイズは様
々であることから、検索条件として送信するファイル容
量を決めることで、通信負荷と検索側の処理を軽減す
る。
【0014】検索条件指定部26は検索条件として指定
するファイルにHTMLファイル及びエクセルファイル
を含む。勿論、これ以外のファイル形式であっても、テ
キスト文書の抽出が可能なファイルであれぱ、任意のフ
ァイル形式のものを含む。
【0015】サーバ10側の検索マシン20には、検索
対象文書から抽出した重要語を列挙したインデックス情
報を文書毎に保存したデータベース22が設けられる。
また検索マシン20のファイル指定検索部30は、検索
要求に伴って受信したファイル内容からテキスト文を抽
出するテキスト抽出処理部36、テキスト文の形態素解
析により名詞を抽出する形態素回析部38、名詞の中か
ら重要語を抽出して論理和でつなげたキーワードを生成
するキーワード生成部40、及びキーワードによる検索
データベース22の検索で類似する文書を検索してクラ
イアントに検索結果を通知する検索実行部42を備え
る。
【0016】キーワード生成部40は、各名詞が検索デ
ータベース22に格納した検索文書毎のインデックス中
の何文書に出現するかの出現数Hをカウントし、所定範
囲の出現数Hをもつ上位の所定数の単語を選択してキー
ワードを生成する。
【0017】キーワード生成部40は、インデックス中
の文書数Nとした場合、例えば出現数Hが 2N/3≧H≧1 の範囲の出現数をもつ上位の10個の単語を選択してキ
ーワードを生成する。これによりデータベースのインデ
ックスに登録している既存文書の類似検索に必要な重要
語を絞り込み、類似検索の精度を高める。
【0018】更にキーワード生成部40は、検索要求に
伴って受信したファイルから抽出したプロパティ情報を
キーワードに含めて検索させる。この場合のプロパティ
情報は、検索要求に伴って受信したファイルの作成者、
文書タイトル等である。このように検索条件に、ファイ
ルのプロパティ情報を加えることで、例えば作成者等を
特定したい場合の類似文書の絞り込みが適切にできる。
【0019】検索要求元の検索条件指定部26はクライ
アント12のWWWブラウザ16で提供され、WWWブ
ラウザ16の検索要求画面で指定したファイル内容をネ
ットワークを介してWWWサーバ18に送信して検索マ
シン20に引き渡す。
【0020】本発明は、またサーバ等の検索側の文書情
報検索装置となる検索マシン20を提供する。この検索
マシン20としての文書情報検索装置は、検索対象文書
から抽出した重要語を列挙したインデックス情報を文書
毎に保存している検索データベース22、文書ファイル
を検索条件に指定したネットワークからの検索要求によ
って受信したファイル内容からテキスト文を抽出するテ
キスト抽出処理部36、テキスト文の形態素解析により
名詞を抽出する形態素解析部28、名詞の中から重要語
を抽出して論理和でつなげたキーワードを生成するキー
ワード生成部40、及びキーワードによる検索データベ
ースの検索で類似する文書検索して要求元に検索結果を
通知する検索実行部42を備える。
【0021】本発明は、クライアント等の検索要求元か
らのネットワークを経由した検索要求に基づいてサーバ
等の検索マシン側で文書情報を検索して応答する文書情
報検索方法を提供する。この文書情報検索方法は、検索
対象文書から抽出した重要語を列挙したインデックス情
報を文書毎にサーバの検索データベースに保存し;文書
ファイルを検索条件に指定した場合に、指定したファイ
ル内容を検索要求と共にネットワークを経由して検索側
に送信し;検索側で、検索要求に伴って受信したファイ
ル内容からテキスト文を抽出すると共にテキスト文の形
態素解析により名詞を抽出し、次に名詞の中から重要語
を抽出して論理和でつなげたキーワードを生成し、該キ
ーワードによる検索データベースの検索で類似する文書
を検索してクライアントに検索結果を通知することを特
徴とする。この文書情報検索方法の詳細は装置構成と基
本的に同じになる。
【0022】更に、本発明は、文書情報検索プログラム
を格納したコンピュータ可読の記録媒体を提供するもの
で、この文書情報検索プログラムは、文書ファイルを検
索条件に指定した検索要求を受信するステップと、検索
要求に伴って受信したファイル内容からテキスト文を抽
出するステップと、テキスト文の形態素解析により名詞
を抽出するステップと、名詞の中から重要語を抽出して
論理和でつなげたキーワードを生成するステップと、キ
ーワードによるデータベースの検索で類似する文書を検
索して要求元に検索結果を通知するステップとを備え
る。
【0023】更に本発明は、文書情報検索プログラムを
提供するものであり、このプログラムは、コンピュータ
に、文書ファイルを検索条件に指定した検索要求を受信
するステップと、検索要求に伴って受信したファイル内
容からテキスト文を抽出するステップと、テキスト文の
形態素解析により名詞を抽出するステップと、名詞の中
から重要語を抽出して論理和でつなげたキーワードを生
成するステップと、キーワードによるデータベースの検
索で類似する文書を検索して要求元に検索結果を通知す
るステップとを実行させることを特徴とする。
【0024】
【発明の実施の形態】図2は、本発明による文書情報検
索装置のシステム構成であり、インターネットやイーサ
ネット(R)を利用したサーバクライアント型の検索シ
ステムとして構築した場合を例にとっている。
【0025】図2において、サーバ10に対しては、ユ
ーザ側のクライアント12がインターネット/イントラ
ネット14を介して接続される。クライアント12には
検索用のWWWブラウザ16が設けられており、このW
WWブラウザ16を利用してサーバ10に対し文書情報
の検索要求を行い、サーバ10側の検索結果を表示す
る。
【0026】サーバ10には、WWWサーバ18、検索
マシン20、文書データベース24が設けられている。
検索マシン20には検索データベース22が格納されて
いる。また文書データベース24には検索対象文書25
が格納されている。更にWWWサーバ18に対して外部
の文書管理サーバ44,48が接続され、この文書管理
サーバ44,48にも文書データベース46,50が設
けられており、それぞれ検索対象文書25を格納してい
る。
【0027】サーバ10に設けているWWWサーバ18
は、ブラウザ16からの検索要求を受信して検索マシン
20に対し検索を依頼する。また検索マシン20から返
ってきた検索結果をブラウザ16に返して表示させる。
【0028】検索データベース22は、全文検索を高速
に処理するために、検索対象となる文書に記述されてい
る重要な単語の集合で作られたインデックスを管理する
保管庫として機能する。このインデックスには文書の文
書名やその保管場所が記録されており、ブラウザ16か
ら検索要求を受けた際には、検索データベース22のイ
ンデックスを対象に検索マシン20が検索処理を実行す
る。
【0029】文書データベース24には、文書管理サー
バ44,48から収集した検索対象文書25が格納され
ており、この文書データベース検索対象文書25を対象
に検索データベース22のインデックスが作成されてい
る。
【0030】このようなサーバクライアント型の検索シ
ステムにあっては、クライアント12のブラウザ16を
使用して、ユーザが指定した検索条件をインターネット
/イントラネット14を経由してサーバ10側のWWW
サーバ18に送る。WWWサーバ18で受信された検索
要求に含まれる指定された検索条件が、WWWサーバ1
8から検索マシン20に送られる。
【0031】検索マシン20は検索データベース22か
ら検索条件にあった文書を検索し、検索結果をWWWサ
ーバ18に通知する。WWWサーバ18は検索マシン2
0からの検索結果をクライアント12のブラウザ16に
送って表示させる。
【0032】ユーザはブラウザ16で処理された検索結
果を見て、検索結果に記述されたリンクを選択すること
で、選択された文書の中からユーザが希望する検索対象
文書25をWWWサーバ18経由でアップロードして内
容を見ることができる。
【0033】図3は図2の検索システムにおける機能構
成のブロック図である。まずユーザ側となるWWWブラ
ウザ16には検索条件指定部26が設けられている。本
発明の検索条件指定部26は、検索条件としてユーザが
インターネットや電子メールなどで入手した文書ファイ
ルを直接、検索条件として指定し、指定したファイル内
容をインターネット/イントラネット14経由でWWW
サーバ18を経由して検索マシン20の文書検索部30
に送信する。
【0034】また検索条件指定部26は、本発明で新た
に提供されるファイル指定の検索条件とする以外に、
(1)キーワード検索、(2)文書のタイトル、作成
者、本文ごとにキーワードを指定して検索する詳細検
索、(3)日常的な言葉や文章を入力することにより本
文内容を関連する文書を検索する文章検索、更に、
(4)検索データベース22に登録済みの既存文書を検
索条件に使用した類似文書検索、などの検索条件の指定
も可能である。
【0035】WWWサーバ18側に設けられた検索マシ
ン20には、検索データベース作成部28、文書検索部
30及び文書参照部32が設けられている。検索データ
ベース作成部28は検索データベース22にインデック
スを作成して登録する。
【0036】即ち検索データベース作成部28は、文書
データベース24に収集されて保存されている検索対象
文書25の1つ1つについて、検索対象文書25に記述
されている重要語を抽出し、抽出された単語の集合で構
成されたインデックスを作成して保存する。もちろん、
このインデックスには検索対象文書の文書名や保管場所
などが併せて記録されている。
【0037】文書検索部30は、WWWブラウザ16の
検索条件指定部26から送信された検索条件としてファ
イルを指定した際のファイル内容からキーワードを生成
し、検索データベース22のインデックスに含まれてい
る重要単語の集合との検索照合を行い、WWWブラウザ
16で検索条件として指定したファイルの文書に類似す
る文書を検索し、検索結果をWWWサーバ18からWW
Wブラウザ16に返して表示させる。
【0038】文書参照部32は、WWWブラウザ16で
送出された検索結果としての文書一覧から参照したい文
書を選択すると、WWWサーバ18を介して文書参照部
32に通知されると、文書データベース24の中から要
求された参照文書を取り出してWWWブラウザ16に返
す。
【0039】図4は、図3の検索マシン20に設けた本
発明の文書検索部30の機能構成の詳細である。
【0040】図4において、文書検索部30には、検索
指定ファイル格納部34、テキスト抽出処理部36、形
態素解析部38、キーワード作成部40及び検索実行部
42が設けられている。また検索データベース22内に
は、図3の検索データベース作成部28で作成された文
書データベース24内の検索対象文書25のそれぞれの
重要単語の集合、文書名、保管場所などで構成されたイ
ンデックス52が格納されている。
【0041】文書検索部30の検索指定ファイル格納部
34には、図3のWWWブラウザ16における検索条件
指定部26のファイル指定により送信されたファイル内
容が格納される。
【0042】ここでWWWブラウザ16側からのファイ
ル内容の転送は、検索条件として指定した文書ファイル
の先頭ファイル部分、例えば先頭の1KBを切り出して
WWWサーバ18側に検索要求と共に送信する。
【0043】このように検索条件として送信するファイ
ル容量を例えば1KBというように固定容量とすること
で、検索条件として指定している文書ファイルのサイズ
の大小に関わらず、検索マシン20側に対する文書内容
の転送負荷を一定にし、また検索マシン20におけるフ
ァイル指定部検索部30による検索処理の安定化と迅速
化を図る。
【0044】テキスト抽出処理部36は、検索指定ファ
イル格納部34に格納された検索条件として指定された
ファイル内容からテキスト文書を抽出する。WWWブラ
ウザ16における検索条件として指定される文書ファイ
ルの形式としては、電子メールのテキストファイル、イ
ンターネットにおけるHTMLファイル、更には集計リ
ストのエクセルファイルなどの様々なファイル形式があ
ることから、これらのファイル形式の相違に対して検索
機能を提供可能とするため、各種の形式の文書ファイル
の中からテキスト抽出処理部36によりテキスト文書の
みを抽出して検索条件に使用するようにしている。
【0045】続いて設けた形態素解析部38は、抽出さ
れたテキスト文書の中に含まれる名詞を形態素解析を用
いて抽出する。形態素解析部38で抽出された文書内容
の中の名詞はキーワード作成部40に送られ、キーワー
ド作成部40においては重要な名詞をキーワード作成の
ために抽出する。
【0046】キーワード作成部40における重要語の抽
出は、まず各名詞が検索データベース22のインデック
ス52の中に登録している文書数Nの内の何文書で出現
するかの出現数Hのカウントを行う。
【0047】そして、インデックス52中における文書
出現数Hが求められたならば、出現数Hが予め定めた範
囲内、例えば (2N/3)≧H≧1 となる出現数の単語を選択する。このように選択された
単語の内の出現数Hが大きい上位10個の単語をキーワ
ード作成のために選択する。そして選択した重要単語1
0個を論理和で繋げたクエリ式を作成して検索実行部4
2に提供する。
【0048】検索実行部42はキーワード作成部40か
ら与えられたクエリ式に基づいて検索データベース22
のインデックス52との検索照合を行い、所定の類似度
を満たすインデックスを検索結果として抽出し、検索結
果をWWWサーバ18によりWWWブラウザ16側に送
信し、検索結果の文書一覧の形でユーザに参照できるよ
うにする。
【0049】更に文書検索部30にあっては、検索指定
ファイル格納部34に格納された検索条件として指定さ
れたファイルのプロパティ情報を利用した文書検索もで
きる。このためWWWブラウザ16の検索条件指定部2
6は、検索条件として文書ファイルを指定した際に、指
定した文書ファイルのプロパティ情報を抽出し、検索条
件として指定した文書の先頭ファイル部分、例えば先頭
ファイル部分1KBと共にプロパティ情報を検索マシン
20側に送信する。
【0050】図14の文書検索部30にあっては、ファ
イル内容からのテキスト文の抽出、形態素解析による名
詞抽出、名詞について重要語の選択によるキーワード作
成に加え、検索指定ファイル格納部34に格納されてい
るファイル内容に付加されたプロパティ情報から例えば
作成日や作成者、題名などを抽出し、キーワード作成部
40でプロパティ情報をキーワードに含め、検索実行部
42で検索データベース22のインデックス52の検索
を行う。
【0051】図5は、図3の検索マシン20に設けてい
る検索データベース作成部28によるインデックス作成
処理の説明図である。この検索データベース作成部28
にあっては、ロボット54が外部の文書データベース4
6,50から文書66を収集してテンポラリファイル6
2に格納し、同時に収集文書リストファイル64に収集
した文書66のリストを加える。
【0052】続いてロボット54はテキスト抽出部56
に処理を渡し、テキスト抽出部56は収集文書リストフ
ァイル64から収集文書66を取り出し、抽出テキスト
ファイル68に格納する。
【0053】次に重要語抽出部58に処理を渡し、重要
語抽出部58は抽出テキストファイル68の該当テキス
ト文書の中から形態素解析により名詞を抽出し、名詞に
ついてそれぞれ出現頻度をカウントし、例えば出現頻度
の高い単語の上位10個を重要語として抽出して重要語
ファイル70に格納する。
【0054】次にインデックス作成部60に処理を渡
し、インデックス作成部60は重要語ファイル70か
ら、その文書について例えば上位10個の重要語の集合
を取り出し、更に文書名と保管場所を加えたインデック
スを作成し、検索データベース22にインデックス情報
として保存する。
【0055】図6は、図3のWWWブラウザ16による
検索条件の指定と検索結果の表示を行うブラウザ処理の
フローチャートである。ユーザがWWWブラウザ16の
検索機能を開くと、ステップS1で検索画面が表示さ
れ、この検索画面を表示して、ステップS2で文書ファ
イルを指定した検索条件の指定操作を行う。
【0056】続いてステップS3で検索起動の有無をチ
ェックしており、検索起動を判別すると、ステップS4
でファイル指定検索か否かチェックする。ファイル指定
検索であればステップS5に進み、ユーザが指定したフ
ァイルを読み出し、ステップS6で指定ファイルの先頭
1KBを検索要求メッセージと共にサーバに送信する。
【0057】ファイル指定検索でなければ、ステップS
7で、それ以外の検索例えばキーワード検索に対応した
検索要求メッセージをサーバに送信する。ステップS6
で指定ファイルの先頭部分をサーバに送信すると、ステ
ップS8で検索結果の受信待ちとなる。
【0058】ステップS8でサーバから検索結果が受信
されると、ステップS9に進み、検索結果の表示操作処
理を行ってユーザは検索内容を見る。このようなステッ
プS1〜S9の処理を、ステップS10で検索画面を閉
じる検索終了指示があるまで繰り返す。
【0059】図7は、図6のブラウザ処理において検索
条件として文書ファイルを指定した場合の具体的な手順
と画面の様子を表わしている。
【0060】図7において、まずユーザは検索条件に指
定しようとする文書ファイル72を例えばインターネッ
トから取得している。そしてユーザは文書ファイル72
の内容を見て、この文書ファイル72に類似する文書検
索を行うため、文書ファイル72の内容を予め指定した
ファイル、例えばファイル「news.txt」に保存
する。
【0061】続いてユーザはキーワード入力画面74を
開く。キーワード入力画面74にはキーワード入力部7
6、ファイル指定部78、参照ボタン80及び検索実行
ボタン82が設けられている。そこで、ユーザがキーワ
ード入力画面74の参照ボタン80を押すことでファイ
ル選択ダイアログ84を表示する。
【0062】このファイル選択ダイアログ84の中に
は、検索条件として指定したい文書ファイル72が保存
されていることから、ファイル名「news.txt」
をマウスクリックして選択すると、キーワード入力画面
74のファイル指定部78に選択したファイル名「ne
ws.txt」が設定される。
【0063】このようにしてファイル指定部78による
ファイル指定が済んだならば、検索実行ボタン82を押
すことで、検索条件として指定された文書ファイル「n
ews.txt」の文書内容の先頭1KBが検索要求と
共にサーバに対し送信される。
【0064】図8は、図4の文書検索部30によって実
現されるサーバ検索処理のフローチャートである。この
サーバ検索処理は、ステップS1で検索条件として指定
された文書ファイルを読み込み、ステップS2で文書フ
ァイルからテキスト文書の抽出処理を行う。次にステッ
プS3で、抽出したテキスト文書の内容について形態素
解析を用いて名詞を抽出する。次にステップS4で、名
詞として抽出した各単語が検索データベース22に設け
ているインデックス52の中の文書数Nの内の何文書に
出現するかの出現数Hのカウント処理を行う。
【0065】各単語のインデックス中の出現数Hがカウ
ントできたならば、ステップS5で出現数Hが(2N/
3)以下で1以上となる範囲の単語をまず選択し、この
選択した単語のうち出現数Hが大きい上位10個の単語
をキーワードに使用する重要語として選択する。続いて
ステップS6で、重要語として選択した10個の単語を
論理和で繋げたクエリ式を生成する。
【0066】そしてステップS7で、検索キーワードと
して生成されたクエリ式による検索データベースのイン
デックスの検索を行い、生成したキーワードに対し所定
の類似度を持つインデックスの内容を検索文書として一
覧表にまとめ、ステップS8で検索結果をブラウザに送
信する。
【0067】図9は、図8のステップS2のテキスト抽
出処理の詳細である。このテキスト抽出処理にあって
は、ステップS1で文書ファイルの拡張子を解読する。
ファイル拡張子からステップS2でHTML文書である
ことが認識されると、ステップS3に進み、HTML文
書におけるボディタグ内のデータをテキストデータ本文
として抽出し、タグデータは取り除く。
【0068】例えば図10(A)のようなHTMLファ
イルを例にとると、< >で挟まれたボディ単語の中の
データをテキストデータ本文として取り出して、このタ
グデータは取り除くことで、図10(B)のような抽出
テキスト文書が得られる。
【0069】次にステップS4で、OSで管理している
ファイルのプロパティ情報を獲得する。このプロパティ
情報は、例えばファイル所有者や文書タイプなどを含ん
でいる。
【0070】図11は、インターネットから入手した文
書ファイルのプロパティ情報の例であり、このプロパテ
ィ情報にあっては文書タイトル「文書管理システムにつ
いて」や作成日、変更日などが存在し、これらのプロパ
ティデータをキーワード生成のために獲得する。
【0071】一方、ステップS2でHTML文書ではな
く例えばエクセル文書などであった場合には、ステップ
S5で文書ライブラリにファイルを渡し、テキストデー
タを獲得する。続いてステップS6で、プロパティ情報
獲得関数により文書ごとに設定されているファイルプロ
パティ情報例えば作成者や文書タイトルなどを獲得す
る。
【0072】図12は本発明で検索条件として指定する
HTMLファイル以外のファイルとしてエクセルファイ
ルを示している。この図12のエクセルファイルについ
て、文書ライブラリに渡してテキストデータを獲得する
と、図13の抽出テキスト文書に示すようなエクセル文
書中に書き込まれているテキスト文書を抽出した結果が
得られる。
【0073】このようなテキスト抽出処理で得られたH
TML文書やエクセル文書からのテキスト文書、更には
プロパティ情報から得られたテキスト文書をひとまとめ
にして、図8のステップS3で形態素解析を用いて名詞
を抽出し、ステップS4,S5で、データベースのイン
デックスの参照で重要語の上位10個をキーワードに選
択してクエリ式を作り、データベースのインデックス検
索を行って検索結果を得ることができる。
【0074】尚、図9のテキスト抽出処理におけるステ
ップS4,S6のプロパティ情報の獲得は、WWWブラ
ウザ16におけるユーザ側の指定によってプロパティ情
報を使用するか否かの選択が可能であり、プロパティ情
報を使うか否かは検索結果をどの程度絞り込むかのユー
ザ判断に依存する。
【0075】本発明はまた、図4の検索マシン20に文
書検索部30の処理機能を実行させる文書情報検索プロ
グラムを記録したコンピュータ読取り可能な記録媒体を
提供する。この記録媒体の実施形態としては、CD−R
OMやフロッピディスクなどのリムーバブルな可搬型記
録媒体、回線によりプログラムを提供するプログラム提
供者の記憶装置、更にプログラムをインストールした処
理装置のRAMやハードディスクなどのメモリ装置を含
む。
【0076】また記録媒体によって提供された図4の文
書検索部30の機能を実現する文書情報検索プログラ
ム、具体的には図8及び図9のフローチャートの処理を
実行するステップを備えた文書情報検索プログラムは、
サーバなどの処理装置にローディングされ、その主メモ
リ上で実行される。
【0077】またサーバ側にローディングされた本発明
の文書情報検索プログラムは、クライアント側からサー
ビス要求を受けると、クライアント12側にファイル指
定による検索条件の指定を行うWWWブラウザ機能をア
ップロードし、ユーザによる検索システムの利用を可能
とする。
【0078】尚、上記の実施形態はサーバクライアント
型の検索システムを例にとるものであったが、本発明は
これに限定されず、ホスト端末型や適宜のシステム形態
をとることができる。また本発明は上記の実施形態に限
定されず、その目的と利点を損なわない適宜の変形を含
む。更にまた本発明は上記の実施形態に示した数値によ
る限定は受けない。
【0079】(付記1)ネットワークを経由した検索要
求に基づいて文書情報を検索して応答する文書情報検索
装置に於いて、検索要求元に、検索条件としてファイル
を指定し、指定したファイル内容をネットワークを経由
して送信する検索条件指定部を設け、検索側に、前記検
索条件指定部から送信されたファイル内容からキーワー
ドを生成してデータベースから類似文書を検索する文書
検索部を設けたことを特徴とする文書情報検索装置。
(1)
【0080】(付記2)付記1記載の文書情報検索装置
に於いて、前記検索条件指定部は、指定されたファイル
内容の先頭ファイル部分を送信することを特徴する文書
情報検索装置。
【0081】(付記3)付記1記載の文書情報検索装置
に於いて、前記検索条件指定部は検索条件として指定す
るファイルにHTMLファイル及びエクセルファイルを
含むことを特徴とする文書情報検索装置。
【0082】(付記4)付記1記載の文書情報検索装置
に於いて、前記データベースは、検索対象文書から抽出
した重要語を列挙したインデックス情報を文書毎に保存
し、サーバの文書検索部は、検索要求に伴って受信した
ファイル内容からテキスト文を抽出するテキスト抽出処
理部と、前記テキスト文の形態素解析により名詞を抽出
する形態素回析部と、前記名詞の中から重要語を抽出し
て論理和でつなげたキーワードを生成するキーワード生
成部と、前記キーワードによる検索データベースの検索
で類似する文書を検索してクライアントに検索結果を通
知する検索実行部と、を備えたことを特徴とする文書情
報検索装置。(2)
【0083】(付記5)付記4記載の文書情報検索装置
に於いて、前記キーワード生成部は、各名詞が前記文書
データベースに格納した検索文書毎のインデックス中の
何文書に出現するかの出現数をカウントし、所定範囲の
出現数をもつ上位の所定数の単語を選択してキーワード
を生成することを特徴とする文書情報検索装置。(3)
【0084】(付記6)付記5記載の文書情報検索装置
に於いて、前記キーワード生成部は、インデックス中の
文書数Nとした場合、出現数Hが2N/3≧H≧1の範
囲の出現数をもつ上位の10個の単語を選択してキーワ
ードを生成することを特徴とする文書情報検索装置。
(4)
【0085】(付記7)付記5記載の文書情報検索装置
に於いて、前記キーワード生成部は検索要求に伴って受
信したファイルから抽出したプロパティ情報を前記キー
ワードに含めて検索させることを特徴とする文書情報検
索装置。(5)
【0086】(付記8)付記7記載の文書情報検索装置
に於いて、前記プロパティ情報は、検索要求に伴って受
信したファイルの作成者、文書タイトル等であることを
特徴とする文書情報検索装置。
【0087】(付記9)付記1記載の文書情報検索装置
に於いて、前記検索要求元の検索条件指定部はクライア
ントのWWWブラウザで提供され、前記WWWブラウザ
の検索要求画面で指定したファイル内容をネットワーク
を介してWWWサーバの検索マシンに送信して前記文書
検索部に引き渡すことを特徴とする文書情報検索装置。
【0088】(付記10)検索対象文書から抽出した重
要語を列挙したインデックス情報を文書毎に保存してい
るデータベースと、文書ファイルを検索条件に指定した
ネットワークからの検索要求によって受信したファイル
内容からテキスト文を抽出するテキスト抽出処理部と、
前記テキスト文の形態素解析により名詞を抽出する形態
素解析部と、前記名詞の中から重要語を抽出して論理和
でつなげたキーワードを生成するキーワード生成部と、
前記キーワードによるデータベースの検索で類似する文
書を検索して要求元に検索結果を通知する検索実行部
と、を備えたことを特徴とする文書情報検索装置。
(6)
【0089】(付記11)付記10記載の文書情報検索
装置に於いて、前記キーワード生成部は、各名詞が前記
文書データベースに格納した検索文書毎のインデックス
中の何文書に出現するかの出現数をカウントし、所定範
囲の出現数をもつ上位の所定数の単語を選択してキーワ
ードを生成することを特徴とする文書情報検索装置。
【0090】(付記12)付記10記載の文書情報検索
装置に於いて、前記データベースにインデックス情報と
共に検索対象文書から抽出したプロパティ情報を保存
し、前記キーワード生成部は検索要求に伴って受信した
ファイルから抽出したプロパティ情報を前記キーワード
に含めて検索することを特徴とする文書情報検索装置。
(7)
【0091】(付記13)ネットワークを経由した検索
要求に基づいて文書情報を検索して応答する文書情報検
索方法に於いて、検索対象文書から抽出した重要語を列
挙したインデックス情報を文書毎にデータベースに保存
し、検索要求元で検索条件にファイルを指定した場合
に、指定したファイル内容を検索要求と共にネットワー
クを経由してサーバに送信し、検索側で、検索要求に伴
って受信したファイル内容からテキスト文を抽出すると
共にテキスト文の形態素解析により名詞を抽出し、次に
名詞の中から重要語を抽出して論理和でつなげたキーワ
ードを生成し、該キーワードによるデータベースの検索
で類似する文書を検索して検索結果を応答することを特
徴とする文書情報検索方法。(8)
【0092】(付記14)付記13記載の文書情報検索
方法に於いて、前記キーワードの生成として、各名詞が
前記データベースに格納した文書毎のインデックス中の
何文書に出現するかの出現数をカウントし、所定範囲の
出現数をもつ上位の所定数の単語を選択してキーワード
を生成することを特徴とする文書情報検索方法。
【0093】(付記15)付記14記載の文書情報検索
方法に於いて、検索要求に伴って受信したファイルから
抽出したプロパティ情報を前記キーワードに含めて検索
することを特徴とする文書情報検索方法。(9)
【0094】(付記16)文書ファイルを検索条件に指
定した検索要求を受信するステップと、検索要求に伴っ
て受信したファイル内容からテキスト文を抽出するステ
ップと、テキスト文の形態素解析により名詞を抽出する
ステップと、名詞の中から重要語を抽出して論理和でつ
なげたキーワードを生成するステップと、前記キーワー
ドによるデータベースの検索で類似する文書を検索して
要求元に検索結果を通知するステップと、を備えた文書
情報検索プログラムを格納したコンピュータ可読の記録
媒体。(10)
【0095】(付記17)付記16記載の記録媒体に於
いて、前記文書情報検索プログラムのキーワードを生成
するステップは、各名詞が前記データベースに格納した
文書毎のインデックス中の何文書に出現するかの出現数
をカウントし、所定範囲の出現数をもつ上位の所定数の
単語を選択してキーワードを生成することを特徴とする
記録媒体。
【0096】(付記18)付記14記載の記録媒体に於
いて、前記文書情報検索プログラムは、更に検索要求に
伴って受信したファイルから抽出したプロパティ情報を
前記キーワードに含めて検索するステップを備えたこと
を特徴とする記録媒体。
【0097】(付記19)コンピュータに、文書ファイ
ルを検索条件に指定した検索要求を受信するステップ
と、検索要求に伴って受信したファイル内容からテキス
ト文を抽出するステップと、テキスト文の形態素解析に
より名詞を抽出するステップと、名詞の中から重要語を
抽出して論理和でつなげたキーワードを生成するステッ
プと、前記キーワードによるデータベースの検索で類似
する文書を検索して要求元に検索結果を通知するステッ
プと、を実行させることを特徴とする文書情報検索プロ
グラム。(11)
【0098】
【発明の効果】以上説明してきたように本発明によれ
ば、ユーザが電子メールやインターネットなどで興味の
ある内容を含む文書を入手した際に、この文書に類似し
た内容の文書検索を文書ファイルを直接検索条件として
指定することで、内容が類似する文書を簡単且つ素早く
検索することができ、手間の掛かる文書内容に基づいた
キーワードの入力を不要とし、ユーザによる類似文書の
探し出しが極めて効率的に実現できる。
【0099】またファイル指定による文書検索に必要な
キーワードの生成において、文書内容から重要な単語を
抽出する以外に、文書ファイルの持っているプロパティ
情報からも重要な単語を抽出してキーワードに含めるこ
とで、データベースに登録している既存文書の類似検索
の絞り込みが、より適切に行われ、検索の精度を高める
ことができる。
【図面の簡単な説明】
【図1】本発明の原理説明図
【図2】本発明のシステム構成の説明図
【図3】本発明の機能構成のブロック図
【図4】本発明による文書検索部のブロック図
【図5】図3の検索データベース作成部の処理説明図
【図6】図3のブラウザ処理のフローチャート
【図7】本発明の検索条件に文書ファイルを指定する検
索要求操作の説明図
【図8】本発明のサーバ検索処理のフローチャート
【図9】図8のテキスト抽出処理のフローチャート
【図10】図8の処理によりHTMLファイルからのテ
キスト文書を抽出する説明図
【図11】本発明の検索に使用するHTMLファイルに
設けたプロパティ情報の説明図
【図12】図8の処理によりテキスト抽出対象とするE
xcel文書の説明図
【図13】図12のExcel文書から抽出したテキス
ト文書の説明図
【符号の説明】
10:サーバ 12:クライアント 14:インターネット/イントラネット 16:WWWブラウザ 18:WWWサーバ 20:検索マシン 22:検索データベース 24,46,50:文書データベース 25:検索対象文書 26:検索条件指定部 28:検索データベース作成部 30:文書検索部 32:文書参照部 34:検索指定ファイル格納部 36:テキスト抽出処理部 38:形態素解析部 40:キーワード作成部 42:検索実行部 44,48:文書管理サーバ 54:ロボット 56:テキスト抽出部 58:重要語抽出部 60:インデックス作成部 62:テンポラリファイル 64:収集文書リストフアァイル 66:文書 68:抽出テキストファイル 70:重要語ファイル

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】ネットワークを経由した検索要求に基づい
    て文書情報を検索して応答する文書情報検索装置に於い
    て、 前記検索要求元に、検索条件としてファイルを指定し、
    指定したファイル内容をネットワークを経由して送信す
    る検索条件指定部を設け、 検索側に、前記検索条件指定部から送信されたファイル
    内容からキーワードを生成してデータベースから類似文
    書を検索する検索マシンを設けたことを特徴とする文書
    情報検索装置。
  2. 【請求項2】請求項1記載の文書情報検索装置に於い
    て、 前記データベースは、検索対象文書から抽出した重要語
    を列挙したインデックス情報を文書毎に保存し、 前記検索マシンは、 検索要求に伴って受信したファイル内容からテキスト文
    を抽出するテキスト抽出処理部と、 前記テキスト文の形態素解析により名詞を抽出する形態
    素回析部と、 前記名詞の中から重要語を抽出して論理和でつなげたキ
    ーワードを生成するキーワード生成部と、 前記キーワードによる検索データベースの検索で類似す
    る文書を検索してクライアントに検索結果を通知する検
    索実行部と、を備えたことを特徴とする文書情報検索装
    置。
  3. 【請求項3】請求項2記載の文書情報検索装置に於い
    て、前記キーワード生成部は、各名詞が前記文書データ
    ベースに格納した検索文書毎のインデックス中の何文書
    に出現するかの出現数をカウントし、所定範囲の出現数
    をもつ上位の所定数の単語を選択してキーワードを生成
    することを特徴とする文書情報検索装置。
  4. 【請求項4】請求項3記載の文書情報検索装置に於い
    て、前記キーワード生成部は、インデックス中の文書数
    Nとした場合、出現数Hが 2N/3≧H≧1 の範囲の出現数をもつ上位の10個の単語を選択してキ
    ーワードを生成することを特徴とする文書情報検索装
    置。
  5. 【請求項5】請求項3記載の文書情報検索装置に於い
    て、前記キーワード生成部は検索要求に伴って受信した
    ファイルから抽出したプロパティ情報を前記キーワード
    に含めて検索させることを特徴とする文書情報検索装
    置。
  6. 【請求項6】検索対象文書から抽出した重要語を列挙し
    たインデックス情報を文書毎に保存しているデータベー
    スと、 前記検索データベースに登録されていない文書ファイル
    を検索条件に指定したネットワークからの検索要求によ
    って受信したファイル内容からテキスト文を抽出するテ
    キスト抽出処理部と、 前記テキスト文の形態素解析により名詞を抽出する形態
    素解析部と、 前記名詞の中から重要語を抽出して論理和でつなげたキ
    ーワードを生成するキーワード生成部と、 前記キーワードによるデータベースの検索で類似する文
    書を検索して要求元に検索結果を通知する検索実行部
    と、を備えたことを特徴とする文書情報検索装置。
  7. 【請求項7】請求項6記載の文書情報検索装置に於い
    て、前記キーワード生成部は検索要求に伴って受信した
    ファイルから抽出したプロパティ情報を前記キーワード
    に含めて検索することを特徴とする文書情報検索装置。
  8. 【請求項8】ネットワークを経由した検索要求に基づい
    て文書情報を検索して応答する文書情報検索方法に於い
    て、 検索対象文書から抽出した重要語を列挙したインデック
    ス情報を文書毎にデータベースに保存し、 検索要求元で検索条件にファイルを指定した場合に、指
    定したファイル内容を検索要求と共にネットワークを経
    由して検索先に送信し、 検索側で、検索要求に伴って受信したファイル内容から
    テキスト文を抽出すると共にテキスト文の形態素解析に
    より名詞を抽出し、次に名詞の中から重要語を抽出して
    論理和でつなげたキーワードを生成し、該キーワードに
    よるデータベースの検索で類似する文書を検索して検索
    結果を応答することを特徴とする文書情報検索方法。
  9. 【請求項9】請求項8記載の文書情報検索方法に於い
    て、検索要求に伴って受信したファイルから抽出したプ
    ロパティ情報を前記キーワードに含めて検索することを
    特徴とする文書情報検索方法。
  10. 【請求項10】文書ファイルを検索条件に指定した検索
    要求を受信するステップと、 検索要求に伴って受信したファイル内容からテキスト文
    を抽出するステップと、 テキスト文の形態素解析により名詞を抽出するステップ
    と、 名詞の中から重要語を抽出して論理和でつなげたキーワ
    ードを生成するステップと、 前記キーワードによるデータベースの検索で類似する文
    書を検索して要求元に検索結果を通知するステップと、
    を備えた文書情報検索プログラムを格納したコンピュー
    タ可読の記録媒体。
  11. 【請求項11】コンピュータに、 文書ファイルを検索条件に指定した検索要求を受信する
    ステップと、 検索要求に伴って受信したファイル内容からテキスト文
    を抽出するステップと、 テキスト文の形態素解析により名詞を抽出するステップ
    と、 名詞の中から重要語を抽出して論理和でつなげたキーワ
    ードを生成するステップと、 前記キーワードによるデータベースの検索で類似する文
    書を検索して要求元に検索結果を通知するステップと、
    を実行させることを特徴とする文書情報検索プログラ
    ム。
JP2001131097A 2000-05-26 2001-04-27 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体 Pending JP2002049638A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001131097A JP2002049638A (ja) 2000-05-26 2001-04-27 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-155867 2000-05-26
JP2000155867 2000-05-26
JP2001131097A JP2002049638A (ja) 2000-05-26 2001-04-27 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体

Publications (1)

Publication Number Publication Date
JP2002049638A true JP2002049638A (ja) 2002-02-15

Family

ID=26592660

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001131097A Pending JP2002049638A (ja) 2000-05-26 2001-04-27 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体

Country Status (1)

Country Link
JP (1) JP2002049638A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005173999A (ja) * 2003-12-11 2005-06-30 Ricoh Co Ltd 電子ファイル検索装置、電子ファイル検索システム、電子ファイル検索方法、プログラムおよび記録媒体
JP2005352979A (ja) * 2004-06-14 2005-12-22 Nitto Denko Corp 複合データベース管理システム
JP2007157132A (ja) * 2005-12-08 2007-06-21 Internatl Business Mach Corp <Ibm> 文書ベースの情報およびユニフォーム・リソース・ロケータ(url)の管理方法およびプログラム
JP2010055518A (ja) * 2008-08-29 2010-03-11 Nippon Telegraph & Telephone West Corp 検索装置及び方法、ならびに、コンピュータプログラム
US7797477B2 (en) 2003-04-10 2010-09-14 Hitachi, Ltd. File access method in a storage system, and programs for performing the file access
JP2015038781A (ja) * 2014-11-25 2015-02-26 レノボ・イノベーションズ・リミテッド(香港) 情報処理装置、興味情報提供方法および興味情報提供プログラム
KR101850886B1 (ko) 2010-12-23 2018-04-23 네이버 주식회사 감소 질의를 추천하는 검색 시스템 및 방법
JP7524723B2 (ja) 2020-11-16 2024-07-30 コニカミノルタ株式会社 文書処理装置、システム、文書処理方法及びコンピュータープログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7797477B2 (en) 2003-04-10 2010-09-14 Hitachi, Ltd. File access method in a storage system, and programs for performing the file access
JP2005173999A (ja) * 2003-12-11 2005-06-30 Ricoh Co Ltd 電子ファイル検索装置、電子ファイル検索システム、電子ファイル検索方法、プログラムおよび記録媒体
JP2005352979A (ja) * 2004-06-14 2005-12-22 Nitto Denko Corp 複合データベース管理システム
JP4518481B2 (ja) * 2004-06-14 2010-08-04 日東電工株式会社 複合データベース管理システム
JP2007157132A (ja) * 2005-12-08 2007-06-21 Internatl Business Mach Corp <Ibm> 文書ベースの情報およびユニフォーム・リソース・ロケータ(url)の管理方法およびプログラム
JP2010055518A (ja) * 2008-08-29 2010-03-11 Nippon Telegraph & Telephone West Corp 検索装置及び方法、ならびに、コンピュータプログラム
KR101850886B1 (ko) 2010-12-23 2018-04-23 네이버 주식회사 감소 질의를 추천하는 검색 시스템 및 방법
JP2015038781A (ja) * 2014-11-25 2015-02-26 レノボ・イノベーションズ・リミテッド(香港) 情報処理装置、興味情報提供方法および興味情報提供プログラム
JP7524723B2 (ja) 2020-11-16 2024-07-30 コニカミノルタ株式会社 文書処理装置、システム、文書処理方法及びコンピュータープログラム

Similar Documents

Publication Publication Date Title
US6883001B2 (en) Document information search apparatus and method and recording medium storing document information search program therein
US7890485B2 (en) Knowledge management tool
US8527487B2 (en) Method and system for automatic construction of information organization structure for related information browsing
US20070022085A1 (en) Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
US20120059822A1 (en) Knowledge management tool
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
JP2015525929A (ja) 検索品質を改善するための重みベースのステミング
US9971782B2 (en) Document tagging and retrieval using entity specifiers
JP3501799B2 (ja) 情報検索支援装置、コンピュータプログラム、プログラム格納媒体
JP2010128928A (ja) 検索システム及び検索方法
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
US20110252313A1 (en) Document information selection method and computer program product
JP4469432B2 (ja) インターネット情報処理装置、インターネット情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002049638A (ja) 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
JP3786233B2 (ja) 情報検索方法および情報検索システム
JP7125322B2 (ja) 属性抽出装置および属性抽出方法
US20070244861A1 (en) Knowledge management tool
KR100667917B1 (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
KR100942902B1 (ko) 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
JP2003173351A (ja) 情報解析、収集、検索方法、装置、プログラム、および記録媒体
KR100371805B1 (ko) 관련 웹 사이트 제공 방법 및 시스템
JP2000105769A (ja) 文書表示方法
JP5525424B2 (ja) 文書検索装置、文書検索方法及び文書検索プログラム
JP2001306584A (ja) 書籍などの検索を支援する知識検索サービス方法および装置
JP2001117942A (ja) 情報検索装置、情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090602

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091013