JP2549745B2 - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JP2549745B2
JP2549745B2 JP2103606A JP10360690A JP2549745B2 JP 2549745 B2 JP2549745 B2 JP 2549745B2 JP 2103606 A JP2103606 A JP 2103606A JP 10360690 A JP10360690 A JP 10360690A JP 2549745 B2 JP2549745 B2 JP 2549745B2
Authority
JP
Japan
Prior art keywords
document
data
paragraph
format
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2103606A
Other languages
English (en)
Other versions
JPH041853A (ja
Inventor
剛 七野
靖忠 永野
聡 田中
孝雄 平田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2103606A priority Critical patent/JP2549745B2/ja
Publication of JPH041853A publication Critical patent/JPH041853A/ja
Application granted granted Critical
Publication of JP2549745B2 publication Critical patent/JP2549745B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は、蓄積された複数の文書の中からインデッ
クスを用いて指定された文書を検索する文書検索装置に
係わり、特に書式が予め決まっている文書の検索装置に
関するものである。
[従来の技術] 計算機システムを用いて文書データベースを構築する
には、利用目的に応じて、文書内容を適切に表わすキー
ワードを含むインデックスを作成する必要がある。従来
の文書検索装置においては、一般にインデックスは人手
で作成されており、人間が文書そのものを見て、その文
書の中から書式等に基づき必要なキーワードを見つけ出
して、表形式のインデックスに入力することにより作成
されていた。従って、文書データベースの構築には、多
大の費用と時間がかかっていた。
そこで、第11図に示すようなデータベースシステムが
実用化されている。図において、1は文書を入力するワ
ープロ等の文書入力手段、2は入力された文書を格納す
る磁気ディスク装置等の文書記憶手段、3は格納された
文書から自然言語処理機能によりキーワードを自動的に
抽出するキーワード自動抽出手段、4は抽出されたキー
ワードを格納するキーワード記憶手段、5は検索要求と
して検索条件となるキーワード等を入力するキーボード
やディスプレイ等の検索要求入力手段、6は入力された
キーワードに基づきキーワード記憶手段4を参照して文
書記憶手段2に記憶された文書の中から指定された文書
を検索する検索手段、7はこの検索結果を出力するディ
スプレイ等の検索結果出力手段である。
このシステムにおいては、入力された文書を文法に基
づき単語毎に分割する分かち書き処理を行った後、分割
された単語を評価して助詞等の不要な用語を除去するこ
とにより、検索時に必要となるキーワードを自動的に抽
出し設定するようにしている。
[発明が解決しようとする課題] 従来の文書検索装置は以上のように構成されていたの
で、上述したように一般にインデックスを人手で作成し
なければならず、データベース構築に多大の費用と時間
かかかるという問題点があった。また、自然言語処理機
能により文書中からキーワードを自動抽出するものも実
用化されているが、名刺や動詞等が全てキーワードとな
るので、抽出されるキーワードが曖昧であったり、不適
当であったりすることが多く、キーワードの抽出,設定
に時間を要したり、検索が効率的に行えないなどの問題
点があった。
この発明は上記のような問題点を解消するためになさ
れたものであり、本当に必要なキーワードだけを自動的
に抽出することができ、文書内容の詳細な事項を正確に
イデックスとして自動抽出し、効率よく検索できる文書
検索装置を得ることを目的とする。
[課題を解決するための手段] この発明に係る文書検索装置は、文書入力手段を介し
て入力された文書を記憶する文書記憶手段と、文書書式
入力手段を介して入力された文書の書式を記憶する文書
書式記憶手段と、上記文書記憶手段に格納された文書デ
ータをいくつかの要素データに分解して、文書書式記憶
手段に格納された書式データ中のパラグラフタイトルに
基づいて上記要素データの中からパラグラフデータの候
補を抽出し、パラグラフの順番の整合性やパラグラフと
しての確からしさなどの文書書式に関する規則に適合す
るパラグラフデータの候補をパラグラフデータと決定
し、決定したパラグラフデータを組合せて文書のインデ
ックスを生成するインデックス抽出手段と、検索時に上
記文書書式記憶手段に格納された書式データを表示し、
これに対して入力された検索条件に基づき上記インデッ
クスを用いて文書を検索する検索手段とを備えたもので
ある。
[作用] この発明においては、文書が一般に定形の書式に従っ
て書かれている点に着目し、この文書書式を文書書式記
憶手段に格納しておく。インデックス抽出手段は、文書
記憶手段に格納された文書データをいくつかの要素デー
タに分解して、文書書式記憶手段に格納された書式デー
タ中のパラグラフタイトルに基づいて上記要素データの
中からパラグラフデータの候補を抽出して、文書書式に
関する規則に適合するパラグラフデータの候補をパラグ
ラフデータと決定し、決定したパラグラフデータを組合
せて文書のインデックスを生成する。このように生成さ
れたインデックスは信頼性が高く、よって、検索時の信
頼性も高くなる。また、文書の各パラグラフのデータ,
すなわち、文書の内容の詳細な事項をインデックスとす
ることができる。また、検索において、書式を検索者に
提示することができるため、検索者は特別な検索言語を
知らなくても、検索条件を穴埋め式に簡単に与えること
ができる。
[実施例] 以下、この発明の一実施例を図において説明する。
第1図は実施例の文書検索装置の全体構成を示すブロ
ック図であり、前記第11図と同一又は相当部分には同一
符号を用いてその説明は省略する。図において、8は検
索する文書に定められた書式を入力するワープロ等の文
書書式入力手段、9は入力された文書書式を格納する磁
気ディスク装置等の文書書式記憶手段、10はインデック
ス抽出手段であり、これは、上記文書記憶手段2に格納
された文書データをいくつかの要素データに分解して、
文書書式記憶手段9に格納された書式データ中のパラグ
ラフタイトルに基づいて上記要素データの中からパラグ
ラフデータの候補を抽出して、パラグラフの順番の整合
性やパラグラフとしての確からしさなどの文書書式に関
する規則に適合するパラグラフデータの候補をパラグラ
フデータと決定し、決定したパラグラフデータを組合せ
て文書のインデックスを生成するものである。11は、上
記インデックス抽出手段10によって生成されたインデッ
クスが格納される磁気ディスク装置等のインデックス記
憶手段、12は検索時に上記文書書式記憶手段9に格納さ
れた文書書式を検索要求入力手段5のディスプレイに表
示し、これに対してキーボードから入力された検索条件
に基づき、インデックス記憶手段11中のインデクスを用
いて文書記憶手段2内の文書を検索する検索手段であ
り、検索結果はディスプレイ等の検索結果出力手段7に
出力される。なお、上記インデックス抽出手段10及び検
索手段12は、計算機システムを構成するプロセッサとそ
の上で動作するソウトウェアによって実現されている。
次に動作について説明する。
前述したように、本願は、文書が一般に定形の書式に
従って書かれている点に着目したもので、特に文書デー
タベースの対象となる技術文書、例えば研究報告,規格
書,仕様書等は第2図に示すように、1ページ目の表紙
や2ページ目の目次が罫線の枠で種別や表題を示す各フ
ィールドが区画された共通の書式を有している。なお、
本願で扱う書式としては、上記の他に、文書中の表(例
えば○○の規格表など)や、明細書のように枠などはな
くともよい。
先ず、文書そのものは、従来と同様に文書入力手段1
によって入力され、文書記憶手段2に格納される。また
本装置では、その文書の書式が文書書式入力手段8から
入力され、文書書式記憶手段9に格納される。この文書
書式は、書式の同じ文書のみを扱う場合は1種類でよい
が、書式の異なる文書を扱う場合はその種類だけ入力さ
れ、インデックス抽出時や検索時にはその種類が指定さ
れる。一般に文書は、パラグラフ(ある意味でもってか
たまりとみなせる論理的な単位)の集まりからなる。従
って、書式として入力されるデータは、第3図に示すよ
うに、文書がどのようなパラグラフから構成されている
かをあらわす文書構造(枠,パラグラフタイトル)と、
抽出するデータの位置(斜線部)及び抽出したデータの
インデックスとの対応関係(矢印で示すポインタ)など
である。なお、第3図の場合、パラグラフとは罫線で囲
まれた内部をあらわす。
一方、インデックス抽出手段10は、文書入力手段1か
ら文書が入力され文書記憶手段2に格納される度に、第
4図(a)に示す文書構造解析処理(ステップS1)と抽
出データ決定処理(ステップS2)とインデックス生成処
理(ステップS3)の一連の処理を実行する。第4図
(b)に各処理ステップでの入力と処理内容と出力を示
し、そのデータの流れを第4図(c)に示す。なお、同
図の文書構造解析では、罫線で囲まれた文書の表紙から
インデックスを生成する例を取り上げたが、文書構造解
析は、第5図(a)に示すようにパラグラフが罫線で囲
まれていなくても、また、第5図(b)に示すようにパ
ラグラウの長さが可変長であっても対応できる。
第6図は上記文書構造解析処理を更に詳細に説明する
ための図であり、文書構造解析処理(ステップS1)は推
論部であり、文書記憶手段2から取り出された文書デー
タを最小構成要素に分解する文書要素解析処理(ステッ
プS11)と、得られた各最小構成要素を文書書式記憶手
段9から取り出された書式データのパラグラフに対応
(いくつかの代替案が可能)させるパラグラフ対応処理
(ステップS12)と、得られたパラグラフの対応の中か
ら最も可能性の高い対応を選択して出力する構造解析処
理(ステップS13)に分けられ、それぞれ以下に示すよ
うな処理が行われる。
(1)ステップS11(文書要素解析) ここでは、文書データの内容を最小構成要素に分解し
て、それぞれの要素に順番に番号を付ける。番号を付け
た最小構成要素を要素データと呼ぶ。ここで言う最小構
成要素とは、 a)行 b)表の中の行 c)図やグラフ等,文書以外の領域 であり、行とは、改行記号又は表の罫線があるところま
での文字列である。
(2)ステップS12(パラグラフ対応) ここでは、要素データの先頭を書式データにある各パ
ラグラフのパラグラフタイトル(パラグラフを見つける
ためのキーワード)とマッチングさせ、各パラグラフの
始まりとなる要素データを選択する(複数選択可)。こ
れらの対応付けをパラグラフ対応データと呼ぶ。具体的
な例を第7図(a),(b)に示す。同図(a),
(b)に示したような2つのデータから第8図に示すよ
うな5つのパラグラフ対応データが得られる。同図に示
すパラグラフ対応データととは互いに矛盾するデー
タであるが、この段階では2つとも候補として保持して
おき、次のステップS13(構造解析)でとのどちら
かを選ぶ。
(3)ステップS13(構造解析) 上記ステップS12で得られたパラグラフ対応データの
中から最も適当な組み合わせをプロダクション・ルール
セットを用いて選択し、最終的に決定したパラグラフ対
応データの集合をパラグラフ切り分けデータとして確保
する。これによって、各パラグラフの先頭にくる要素デ
ータが決定され、従って各パラグラフを構成する要素デ
ータの集合も決定される。
プロダクション・ルールセットとしては、パラグラフ
の順番の整合性や、パラグラフとしての確からしさなど
が考えられる。以下にプロダクション・ルールセットの
例を示す。
上記のパラグラフ対応データ(第8図)では、3
ルールセットb)により、2**がルールセットa)に
より候補から外される。そして、残りの対応付けが最も
適当な組み合わせとして選択される。
以上のようにして文書構造解析処理(ステップS1)が
終了すると、次の抽出データ決定処理(ステップS2)で
は、上記ステップS13(構造解析)で得られた各パラグ
ラフを構成する要素データ集合から、そのパラグラフの
パラグラフタイトルを除いたものがインデックスとなる
データとして抽出される(第9図及び前記第4図(c)
参照)。
そして、最後のインデックス生成処理(ステップS3)
において、上記ステップS2(抽出データ決定処理)で抽
出したデータをインデックスデータを格納する表のフィ
ールドに投入することにより(前記第4図(c)参
照)、インデックスをインデックス記憶手段11上に生成
する。
次に検索時について説明すると、例えば、第10図
(a)に示すようなインデックスデータが上述した自動
抽出によって用意されている場合に、検索者が「‘山
口’が書いた,大要に‘ソフトウェア設計’という言葉
がある。‘研究報告’の大要の部分を見たい」という検
索要求を行うときは、第10図(b)に示すように、検索
要求入力画面に検索手段12が対応する書式の枠組みを表
示し、検索者はシステムが表示したこの書式に必要項目
を入力するだけで、検索条件が検索手段12に与えられ
る。なお、図中の*は周知のワイルドカードであり、こ
れが与えられたときはテキストサーチを行う。これによ
り、検索手段12はインデックスを用いた通常の検索を行
い、検索結果として、第10図(c)のように、検索要求
を満足する文書の指定した所が出力され、文書が複数あ
る場合はマルチウインドウで出力される。
[発明の効果] 以上のように、この発明によれば、文書入力手段を介
して入力された文書を記憶する文書記憶手段と、文書書
式入力手段を介して入力された文書の書式を記憶する文
書書式記憶手段と、上記文書記憶手段に格納された文書
データをいくつかの要素データに分解して、文書書式記
憶手段に格納された書式データ中のパラグラフスタイル
に基づいて上記要素データの中からパラグラフデータの
候補を抽出し、パラグラウの順番の整合性やパラグラフ
としての確からしさなどの文書書式に関する規則に適合
するパラグラフデータの候補をパラグラフデータと決定
し、決定したパラグラフデータを組合せて文書のインデ
ックスを生成するインデックス抽出手段と、検索時に上
記文書書式記憶手段に格納された書式データを表示し、
これに対して入力された検索条件に基づき上記インデッ
クスを用いて文書を検索する検索手段とを備えたので、
インデックスを自動的に作成できるとともに、文書から
抽出するデータを書式によって指定してしているので正
確に行え、また、書式を用いて文書構造の解析が行える
ので、文書内容の詳細な事項をインデックスとすること
ができ、さらに、最も適当なパラグラフの組み合わせに
よる信頼性の高いインデックスが得られ、検索時の信頼
性も高くなる。また、検索において、書式を検索者に提
示することができるため、検索者は特別な検索言語を知
らなくても、検索条件を穴埋め式に簡単に与えることが
できる。
【図面の簡単な説明】
第1図はこの発明の一実施例による文書検索装置の全体
構成を示すブロック図、第2図は文書書式を説明するた
めの図、第3図は書式として入力されるデータを説明す
るための図、第4図はインデックス抽出手段の作用を説
明するための図、第5図はインデックス抽出が可能な文
書の他の例を示す図、第6図は文書構造解析処理を更に
詳細に説明するための図、第7図はパラグラフ対応の一
例を示す図、第8図はパラグラフ対応データの一例を示
す図、第9図は抽出データの一例を示す図、第10図は検
索手段の作用を説明するための図、第11図は従来例の構
成を示すブロック図である。 1は文書入力手段、2は文書記憶手段、5は検索要求入
力手段、7は検索結果出力手段、8は文書書式入力手
段、9は文書書式記憶手段、10はインデックス抽出手
段、11はインデックス記憶手段、12は検索手段。 なお、図中、同一符号は同一、又は相当部分を示す。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 平田 孝雄 神奈川県鎌倉市大船5丁目1番1号 三 菱電機株式会社情報電子研究所内 (56)参考文献 特開 平2−72468(JP,A) 特開 昭63−226765(JP,A) 情報処理学会第39回(平成元年後期) 全国大会講演論文集P.953

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】蓄積された複数の文書の中からインデック
    スを用いて指定された文書を検索する文書検索装置であ
    って、 文書入力手段を介して入力された文書を記憶する文書記
    憶手段と、 文書書式入力手段を介して入力された文書の書式を記憶
    する文書書式記憶手段と、 上記文書記憶手段に格納された文書データをいくつかの
    要素データに分離して、文書書式記憶手段に格納された
    書式データ中のパラグラフタイトルに基づいて上記要素
    データの中からパラグラフデータの候補を抽出し、パラ
    グラフの順番の整合性やパラグラフとしての確からしさ
    などの文書書式に関する規則に適合するパラグラフデー
    タの候補をパラグラフデータと決定し、決定したパラグ
    ラフデータを組合せて文書のインデックスを生成するイ
    ンデックス抽出手段と、 検索時に上記文書書式記憶手段に格納された書式データ
    を表示し、これに対して入力された検索条件に基づき上
    記インデックスを用いて文書を検索する検索手段とを備
    えたことを特徴とする文書検索装置。
JP2103606A 1990-04-19 1990-04-19 文書検索装置 Expired - Fee Related JP2549745B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2103606A JP2549745B2 (ja) 1990-04-19 1990-04-19 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2103606A JP2549745B2 (ja) 1990-04-19 1990-04-19 文書検索装置

Publications (2)

Publication Number Publication Date
JPH041853A JPH041853A (ja) 1992-01-07
JP2549745B2 true JP2549745B2 (ja) 1996-10-30

Family

ID=14358433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2103606A Expired - Fee Related JP2549745B2 (ja) 1990-04-19 1990-04-19 文書検索装置

Country Status (1)

Country Link
JP (1) JP2549745B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3416780B2 (ja) * 1993-05-17 2003-06-16 株式会社日立製作所 構造化文書のブラウズ装置
US6823492B1 (en) * 2000-01-06 2004-11-23 Sun Microsystems, Inc. Method and apparatus for creating an index for a structured document based on a stylesheet

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
情報処理学会第39回(平成元年後期)全国大会講演論文集P.953

Also Published As

Publication number Publication date
JPH041853A (ja) 1992-01-07

Similar Documents

Publication Publication Date Title
US9256798B2 (en) Document alteration based on native text analysis and OCR
JP5241828B2 (ja) 辞書の単語及び熟語の判定
US8645184B2 (en) Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service
US9785707B2 (en) Method and system for converting audio text files originating from audio files to searchable text and for processing the searchable text
US10528609B2 (en) Aggregating procedures for automatic document analysis
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JP4832952B2 (ja) データベース解析システム及びデータベース解析方法及びプログラム
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
KR101651963B1 (ko) 시공간 연관 정보 생성 방법, 이를 수행하는 시공간 연관 정보 생성 서버 및 이를 저장하는 기록매체
US11676231B1 (en) Aggregating procedures for automatic document analysis
JP2549745B2 (ja) 文書検索装置
JP2004240488A (ja) 文書管理装置
US20080162165A1 (en) Method and system for analyzing non-patent references in a set of patents
CN113032515A (zh) 基于多数据源生成图表的方法、***、设备及存储介质
JPH10307837A (ja) 検索装置並びに検索プログラムを記録した記録媒体
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JP2009282903A (ja) 知識抽出・検索装置およびその方法
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP3470930B2 (ja) 自然語解析方法及び装置
JP2003058559A (ja) 文書分類方法、検索方法、分類システム及び検索システム
JPS63175965A (ja) 文書処理装置
JP2002259426A (ja) 類似文書検索装置、類似文書検索方法、類似文書検索プログラムを記録した記録媒体及び類似文書検索プログラム
JP3471666B2 (ja) 複数テーブルにわたるキーワード検索方法
JP3210842B2 (ja) 情報処理装置
JP2008305127A (ja) キーワード抽出装置、キーワード抽出方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees