JPH03123973A - 文書検索方法 - Google Patents

文書検索方法

Info

Publication number
JPH03123973A
JPH03123973A JP1262498A JP26249889A JPH03123973A JP H03123973 A JPH03123973 A JP H03123973A JP 1262498 A JP1262498 A JP 1262498A JP 26249889 A JP26249889 A JP 26249889A JP H03123973 A JPH03123973 A JP H03123973A
Authority
JP
Japan
Prior art keywords
file
document
key word
keyword
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1262498A
Other languages
English (en)
Inventor
Shinsuke Teramura
信介 寺村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1262498A priority Critical patent/JPH03123973A/ja
Publication of JPH03123973A publication Critical patent/JPH03123973A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は11文書管理の分野において、特に大量の文書
をキーワードを用いて高速に検索する文書検索方法に関
する。
従来の技術 従来、文書検索装置においては種々の検索方式があるが
、その一つとして各キーワード間の関連情報を記述した
キーワードコネクション表を利用したものがある。これ
は、まず、利用者から与えられた検索キーワードからこ
のキーワードコネクション表を引いて関連するキーワー
ドを探す。これらのキーワード(検索キーワードを含む
)から全ての文書についての評価値であるファイル確度
を計算しする。そこで、利用者の要求ファイル確度を閾
値として閾値以上のファイル確度を持つ文書を選択し、
又は、利用者の要求文書数に応じてファイル確度の大き
い順に文書を選択し、検索結果とする。このようにして
検索キーワードに関連する関連度の大きい文書が検索さ
れることになる。
発明が解決しようとする課題 ところが、このような処理方式によると、登録文書数に
比例したファイル確度の計算時間が必要となってしまい
、処理時間の長いものとなる。よって、大量の文書が登
録されている場合には不適なものである。
課題を解決するための手段 文書情報をファイルに登録する際に作成されて各キーワ
ード間の関連情報を記述したキーワードコネクション表
と登録文書とキーワードとの間の関連を示すインバーテ
ツドファイルとを備え、このインバーテツドファイルを
参照して検索キーワードに対して関連するキーワードを
含む文書のみについてファイル確度を計算し、このファ
イル確度に応じて文書を検索するようにした。
作用 検索キーワードに関連するキーワードを含まない文書に
ついてはファイル確度の計算が行われないので、ファイ
ル確度の計算時間が、登録文書数ではなく、関連するキ
ーワードのコネクション数に比例したもので済み、大量
の文書検索時であっても高速化できる。
実施例 本発明の一実施例を図面に基づいて説明する。
第1図に文書検索装置のシステム構成の一例を示す。そ
の構成及び作用の概要を説明する。まず、キーワード抽
出部1は登録文書2を入力するとそのキーワードを抽出
し、キーワード及び登録文書2の情報を文書情報管理部
3、キーワードコネクション表処理部4及びインバーテ
ツドファイル作成部5へ出力する。文書情報管理部3は
抽出されたキーワードと書誌情報6とをファイル7に格
納し、検索時に利用可能な形にデータベース化する。
キーワードコネクション表処理部4は第2図に示すよう
に必要なキーワードとともに関連性のあるキーワード同
士のつながり及びその関連度を記述したキーワードコネ
クション表8を作成しファイル9に格納するものである
。ここに、キーワードコネクション表8は第2図図示例
のようにリスト構造とされ、関連度の大きい順にソート
される。
インバーテツドファイル作成部5は第3図に示すように
各キーワードと登録文書2とを対応付けるインバーテツ
ドファイルlOを作成し、ファイル11に格納するもの
である。即ち、インバーテツドファイルIOはキーワー
ドからそ・のキーワードを含む文書を指すポインタを集
合させたものである。
ついで、文書選出部12が設けられている。この文書選
出部12は検索利用者の要求主題・要求概念により近い
文書ファイルをキーワード群によって抽出することを目
的としたもので、キーボード13からアクセスする利用
者に対してキーワード−覧表をデイスプレィ14に出力
する。その中から利用者は要求主題に必要なキーワード
を選択するか、自由キーワードを選択して、再びキーボ
ード13から表示検索要求を入力するものである。
このような文書選出部12は、要求処理部15とソート
部16と表示管理部17とキーワード間関速度計算部1
8とファイル確度計算部19とよりなる。要求処理部1
5はキーボード13から受理したキーワードをキーワー
ド間関速度計算部18に転送する。キーワード間関速度
計算部18では転送されたキーワードに関する関連キー
ワードとその関連↑青報をキーワードコネクション表8
から抽出する。抽出されたキーワード群はソート部16
で関連の強い順にソート部16でソートされて表示管理
部17へ出力される。表示管理部17はこの関連キーワ
ード群をデイスプレィ14に出力し、利用者に対して表
示する。この表示に従い、利用者がさらに必要なキーワ
ードを選択入力することにより、最終的なキーワード群
が文書選択要求とともに要求処理部15へ送られる。
要求処理部15では文書選択要求を受けると、ファイル
確度計算部19にキーワード群を転送させる。同時に、
最終的なキーワード群に関する関連情報の重み変更を行
うようにキーワードコネクション表処理部4に指示する
。ファイル確度計算部19では受理したキーワード群と
キーワードコネクション表8及びインバーテツドファイ
ル10を用いて、登録文書2のファイル7についてファ
イル確度を計算し、結果をソート部、16に転送する。
必要なファイル確度の計算が終了すると、ソート部16
によるソートを経てデイスプレィ14に表示され、検索
結果とされる。
しかして、本実施例におけるファイル確度の計算処理の
対象を説明する。まず、キーワードコネクション表8に
より、与えられた検索キーワードに関連性を持つキーワ
ードを全て抽出し、関連キーワードのリストを作成する
。このリストには利用者により入力された検索キーワー
ド自身も含まれる。関連キーワードリストの各要素につ
いて、インバーテツドファイル10からこれらのキーワ
ードを含むファイルを調べ、関連性を持つ文書について
のみ、ファイル確度の計算を行う。この時、確度計算を
行った文書番号はチエツクリストに書込み、同一文書に
ついて複数回計算を行なわないようにする。これにより
、関連キーワードのコネクション数に比例する分の計算
で済む。
ところで、データベース内の文書数が増えてくると、キ
ーワード間のコネクション数も増えることが容易に予想
され、本実施例方法によっても計算対象となる文書が多
くなる可能性がある。このような場合には、キーワード
コネクション表8から関連するキーワードを取り出す際
に上位n個だけ取り出すようにする。このnは検索深度
を示し、nの値が大きければ関速度の小さいキーワード
しか持たない文書についてもファイル確度の計算を行う
。また、検索深度nを指定する代わりに、ある閾値より
大きい関速度を持つキーワードだけを取り出すようにし
てもよい。何れにしても、これらの操作はキーワードコ
ネクション表8が関速度の大きい順にソートされている
ため、非常に容易である。また、キーワード間の関速度
が変化した場合や新たに追加されるような場合も、リス
ト構造であるため、変更が容易である。
発明の効果 本発明は、上述したようにインバ、−テッドファイルを
参照して検索キーワードに対して関連するキーワードを
含む文書のみについてファイル確度を計算するようにし
たので、検索キーワードに関連するキーワードを含まな
い文書についてはファイル確度の計算が行われないため
、ファイル確度の計算時間が、登録文書数ではなく、関
連するキーワードのコネクション数に比例したもので済
むことになり、大量の文書検索時であっても高速化でき
るものである。
【図面の簡単な説明】
図面は本発明の一実施例を示し、第1図は文書検索装置
のシステム構成を示すブロック図、第2図はキーワード
コネクション表の内容例を示す説明図、第3図はインバ
ーテツドファイルの内容例を示す説明図である。 8・・・キーワードコネクション表、lO・・・インバ
ーテツドファイル

Claims (1)

    【特許請求の範囲】
  1. 文書情報をファイルに登録する際に作成されて各キーワ
    ード間の関連情報を記述したキーワードコネクシヨン表
    と登録文書とキーワードとの間の関連を示すインバーテ
    ッドファイルとを備え、このインバーテッドファイルを
    参照して検索キーワードに対して関連するキーワードを
    含む文書のみについてファイル確度を計算し、このファ
    イル確度に応じて文書を検索するようにしたことを特徴
    とする文書検索方法。
JP1262498A 1989-10-06 1989-10-06 文書検索方法 Pending JPH03123973A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1262498A JPH03123973A (ja) 1989-10-06 1989-10-06 文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1262498A JPH03123973A (ja) 1989-10-06 1989-10-06 文書検索方法

Publications (1)

Publication Number Publication Date
JPH03123973A true JPH03123973A (ja) 1991-05-27

Family

ID=17376637

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1262498A Pending JPH03123973A (ja) 1989-10-06 1989-10-06 文書検索方法

Country Status (1)

Country Link
JP (1) JPH03123973A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0589176A (ja) * 1991-09-25 1993-04-09 Dainippon Printing Co Ltd 画像検索装置
JPH05181719A (ja) * 1991-12-27 1993-07-23 Nippon Steel Corp 可変長データの格納および参照システム
JPH0785068A (ja) * 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> 検索装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0589176A (ja) * 1991-09-25 1993-04-09 Dainippon Printing Co Ltd 画像検索装置
JPH05181719A (ja) * 1991-12-27 1993-07-23 Nippon Steel Corp 可変長データの格納および参照システム
JPH0785068A (ja) * 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> 検索装置

Similar Documents

Publication Publication Date Title
EP0722145B1 (en) Information retrieval system and method of operation
JP3099756B2 (ja) 文書処理装置、単語抽出装置及び単語抽出方法
US9348919B2 (en) System and method for indexing and displaying document text that has been subsequently quoted
US6665661B1 (en) System and method for use in text analysis of documents and records
KR100295354B1 (ko) 문서 정보 검색 시스템
US9619571B2 (en) Method for searching related entities through entity co-occurrence
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
US20040083422A1 (en) System and method for automatically generating patent analysis reports
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
US20020059346A1 (en) Sort system for text retrieval
JPH08147320A (ja) 情報検索方法及びシステム
JPH0628403A (ja) 文書検索装置
JPH03123973A (ja) 文書検索方法
JPH03294963A (ja) 文書検索装置
US6473755B2 (en) Overlapping subdocuments in a vector space search process
KR102081867B1 (ko) 역 색인 구성 방법, 역 색인을 이용한 유사 데이터 검색 방법 및 장치
JP3558267B2 (ja) 文書検索装置
JPH03294964A (ja) 文書検索方法
US20150046437A1 (en) Search Method
JPH01237724A (ja) あいまい文字列検索表示方法
JPH0481972A (ja) 文書検索装置
JPS62266619A (ja) 文書フアイルシステムにおけるキ−ワ−ド入力方法
JPH0535798A (ja) データベース検索装置
JPH04135278A (ja) 文書検索装置
JPH03294965A (ja) 文書検索方法