JPH0481972A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH0481972A
JPH0481972A JP2195747A JP19574790A JPH0481972A JP H0481972 A JPH0481972 A JP H0481972A JP 2195747 A JP2195747 A JP 2195747A JP 19574790 A JP19574790 A JP 19574790A JP H0481972 A JPH0481972 A JP H0481972A
Authority
JP
Japan
Prior art keywords
document
accuracy
calculation
keyword
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2195747A
Other languages
English (en)
Inventor
Tetsuya Morita
哲也 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2195747A priority Critical patent/JPH0481972A/ja
Publication of JPH0481972A publication Critical patent/JPH0481972A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、利用者がキーワードと論理演算子とからなる
検索条件式を作成入力し、この検索条件式に合致する文
書を文書データベース中から検索する文書検索装置に関
する。
従来の技術 従来、文書検索装置においては種々の検索方式があるが
、その一つとして各キーワード間の関連度を記述したキ
ーワードコネクション表なる知識ベースを用いて、文書
確度(利用者の検索要求に近い適切なものほど大きな値
を持つ評価値)を計算し、この結果に基づいて文書を検
索するようにしたものが、本出願人により例えば特願昭
63−8291号「文書検索装置」等により提案されて
いる。このような文書検索装置にあっては、使用者が正
確なキーワードを覚えていなくてもキーワ−ドコネクシ
ョン表を使ったあいまい検索を行なうことにより、適量
・適量な検索結果を得ることができる。
発明が解決しようとする課題 ところが、このようなキーワードコネクション表を利用
したあいまい検索法にあっては、文書検索時に各文書に
対して各々文書確度を計算する必要があり、文書データ
ベース内の文書数にほぼ比例して検索時間が増加してし
まう。よって、検索処理の高速化が妨げられてしまう。
課題を解決するための手段 キーワードと論理演算子とを組合せた検索条件式を入力
とし、キーワード間の関連度を記述したキーワードコネ
クション表、各キーワードと登録文書との対応関係を記
述した転置ファイル等の情報を用いた所定の計算式から
、前記検索条件式に対する各文書の適切さを示す評価値
を文書確度計算手段により文書確度として求め、その文
書と求められた文書確度とを検索結果とする検索を行う
ようにした文書検索装置において、前記検索条件式に含
まれるキーワードと前記転置ファイルと前記キーワード
コネクション表とを用いて文書確度の計算に必要な文書
番号のリストを生成し前記文書確度計算手段に出力する
文書予備選択手段を設けた。
作用 文書確度の計算に先立ち、入力された検索条件式中のキ
ーワードについて文書確度の計算の必要な文書番号が文
書予備選択手段により選択されるので、全ての文書につ
いて計算を行う必要がなくなり、文書確度算出対象とな
る文書を減らして高速処理化を図ることができる。
実施例 本発明の一実施例を図面に基づいて説明する。
まず、キーワード抽出部1は登録文書2を入力するとそ
のキーワードを抽出し、キーワード及び登録文書2の情
報を文書情報管理部3、キーワードコネクション表処理
部4及びインバーテツドファイル作成部5へ出力する。
文書情報管理部3は抽出されたキーワードと書誌的情報
6とをファイル7に格納し、検索時に利用可能な形にデ
ータベース化する。キーワードコネクション表処理部4
は必要なキーワードとともに関連性のあるキーワード同
士のつながり及びその関連度を記述したキーワードコネ
クション表を作成しファイル9に格納するものである。
ここに、キーワードコネクション表は例えばリスト構造
とされ、関連度の大きい順にソートされる。インバーテ
ツドファイル作成部5は各キーワードと登録文書2とを
対応付けるインバーテツドファイル(転置ファイル)1
0を作成し、ファイル11に格納するものである。
即ち、インバーテツドファイル10はキーワードからそ
のキーワードを含む文書を指すポインタを集合させたも
のである。
ついで、文書選出部12が設けられている。この文書選
出部12は検索利用者の要求主題・要求概念により近い
文書ファイルをキーワード群によって抽出することを目
的としたもので、キーボード13からアクセスする利用
者に対してキーワード−覧表をデイスプレィ14に出力
する。その中から利用者は要求主題に必要なキーワード
を選択するか、自由キーワードを選択して、必要な論理
演算子(AND、OR,又はN0T)で結合した検索条
件式を作成し、再びキーボード13から表示検索要求を
入力するものである。このような文書選出部12は、要
求処理部15とソート部16と表示管理部17とキーワ
ード間関速度計算部18と文書確度計算部(文書確度計
算手段)19とよりなる。要求処理部15はキーボード
13から受理した検索条件式中のキーワードをキーワー
ド間関速度計算部18に転送する。キーワード間関速度
計算部18では転送されたキーワードに関する関連キー
ワードとその関連情報をキーワードコネクション表8か
ら抽出する。抽出されたキーワード群は関連の強い順に
ソート部16でソートされて表示管理部17へ出力され
る。表示管理部17はこの関連キーワード群をデイスプ
レィ14に出力し、利用者に対して表示する。この表示
に従い、利用者がさらに必要なキーワードを選択入力す
ることにより、最終的なキーワード群が文書選択要求と
ともに要求処理部15へ送られる。
要求処理部15では文書選択要求を受けると、文書確度
計算部19にキーワード群を転送させる。
同時に、最終的なキーワード群に関する関連情報の重み
変更を行うようにキーワードコネクション表処理部4に
指示する。文書確度計算部19では受理したキーワード
群とキーワードコネクション表8及びインバーテツドフ
ァイル10を用いて、登録文書2のファイル7について
文書確度を計算し、結果をソート部16に転送する。必
要な文書確度の計算が終了すると、ソート部16による
ソートを経てデイスプレィ14に表示され、検索結果と
される。
しかして、本実施例では、このような文書選出部12中
に文書確度計算部19に接続された文書予備選択部(文
書予備選択手段)20を設けて、文書確度計算の対象と
なる文書数を減らすようにしたものである。
ここに、文書予備選択部20を持たない既提案方式によ
ると、検索条件式が入力されると要求処理部15がその
検索条件式を直接的に文書確度計算部19に転送するた
め、全ての登録文書2について文書確度の計算を行い、
その文書確度類にソートした結果を利用者に表示させる
ことになる。
ところが、文書確度計算時に使用されるキーワードコネ
クションは、検索条件式に含まれているキーワードと各
文書に含まれているキーワードとの開速度値であるため
、逆に、このようなキーワードコネクションを持たない
文書の文書確度は計算するまでもなくOである。よって
、−律に全ての文書について文書確度の計算処理を行う
ことは無駄である。そこで、本実施例にあっては、検索
条件式が入力されたら、要求処理部15により一旦文書
予備選択部20に転送する。この文書予備選択部2oは
、検索条件式中に含まれるキーワードと転置ファイル及
びキーワードコネクションから、文書確度の計算が必要
な文書番号を求め、これを予備選択文書番号情報として
文書番号のリストを生成し、このリストを文書確度計算
部19に転送するものである。より具体的には、まず、
検索条件式中のキーワードとキーワードコネクションと
を用いて文書確度の計算に使用されるコネクションに関
係するキーワード群を決定する。ついで、これらのキー
ワード群とインバーテツドファイル10とを用いて文書
確度計算に必要な文書番号を選択しこれをリストにして
文書確度計算部19へ送る。文書確度計算部19では転
送された文書番号のリスト中に含まれる文書についての
み文書確度の計算を行う。この後の処理は前述した既提
案方式と同様である。
このように、文書確度の計算を行う文書を適正に限定す
ることにより、文書確度の計算に必要な計算量を減らし
、検索の高速化を図ることができる。別の観点からみる
と、文書数の増加に対して計算量が線形的に増加するこ
となく、検索条件式中に含まれるキーワード数によりほ
ぼ一意に決定される数で済むことになる。
発明の効果 本発明は、上述したように文書確度の計算に必要な文書
番号のリストを生成して文書確度計算手段に出力する文
書予備選択手段を設け、文書確度の計算に先立ち、入力
された検索条件式中のキーワードについて文書確度の計
算の必要な文書番号を選択するようにしたので、不要な
文書については最初から文書確度の計算をを行う必要が
なく、文書確度算出対象となる文書を減らすことができ
、検索の高速処理化を図ることができる。
【図面の簡単な説明】
図面は本発明の一実施例を示すブロック図である。 0・・・転置ファイル、 9・・・文書確度計算手段、 20・・・文書予備選択手段 出 願 人 株式会社 リ コ

Claims (1)

    【特許請求の範囲】
  1.  キーワードと論理演算子とを組合せた検索条件式を入
    力とし、キーワード間の関連度を記述したキーワードコ
    ネクシヨン表、各キーワードと登録文書との対応関係を
    記述した転置ファイル等の情報を用いた所定の計算式か
    ら、前記検索条件式に対する各文書の適切さを示す評価
    値を文書確度計算手段により文書確度として求め、その
    文書と求められた文書確度とを検索結果とする検索を行
    うようにした文書検索装置において、前記検索条件式に
    含まれるキーワードと前記転置ファイルと前記キーワー
    ドコネクシヨン表とを用いて文書確度の計算に必要な文
    書番号のリストを生成し前記文書確度計算手段に出力す
    る文書予備選択手段を設けたことを特徴とする文書検索
    装置。
JP2195747A 1990-07-24 1990-07-24 文書検索装置 Pending JPH0481972A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2195747A JPH0481972A (ja) 1990-07-24 1990-07-24 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2195747A JPH0481972A (ja) 1990-07-24 1990-07-24 文書検索装置

Publications (1)

Publication Number Publication Date
JPH0481972A true JPH0481972A (ja) 1992-03-16

Family

ID=16346297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2195747A Pending JPH0481972A (ja) 1990-07-24 1990-07-24 文書検索装置

Country Status (1)

Country Link
JP (1) JPH0481972A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785068A (ja) * 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> 検索装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785068A (ja) * 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> 検索装置

Similar Documents

Publication Publication Date Title
JP3870666B2 (ja) 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
US7110996B2 (en) System and method for determining numerical representations for categorical data fields and data processing system
JP2669601B2 (ja) 情報検索方法及びシステム
US20040249804A1 (en) Search supporting apparatus, search supporting method and searching program
JPH0486950A (ja) 文書検索方法
JP2005107688A (ja) 情報表示方法及びシステム及び情報表示プログラム
CN117171331B (zh) 基于大型语言模型的专业领域信息交互方法、装置及设备
JPH0248772A (ja) 類似画像検索方式
JPH09231231A (ja) データ検索装置
JPH01145721A (ja) 文献の検索妥当性判定方式
JPH03294963A (ja) 文書検索装置
JPH0481972A (ja) 文書検索装置
JPH064584A (ja) 文章検索装置
JPH03294964A (ja) 文書検索方法
JP3558267B2 (ja) 文書検索装置
JPH03123973A (ja) 文書検索方法
CN112733528A (zh) 医学数据的对码方法、装置、设备及存储介质
AU2013214496A1 (en) A Search Method
JPH0481973A (ja) 文書検索装置
JPH03294965A (ja) 文書検索方法
JPH02287876A (ja) テキスト型データベース装置
RU2266560C1 (ru) Способ поиска информации в политематических массивах неструктурированных текстов
JPH0584937B2 (ja)
JPH0496177A (ja) 文書検索方法及びそのキーワード関連度表作成装置
JPH06223113A (ja) 電子ファイリング装置