JP3099683B2 - 情報検索装置 - Google Patents

情報検索装置

Info

Publication number
JP3099683B2
JP3099683B2 JP07168457A JP16845795A JP3099683B2 JP 3099683 B2 JP3099683 B2 JP 3099683B2 JP 07168457 A JP07168457 A JP 07168457A JP 16845795 A JP16845795 A JP 16845795A JP 3099683 B2 JP3099683 B2 JP 3099683B2
Authority
JP
Japan
Prior art keywords
search
unnecessary word
data
target data
search target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP07168457A
Other languages
English (en)
Other versions
JPH0954777A (ja
Inventor
智子 田邊
忠一 菊池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP07168457A priority Critical patent/JP3099683B2/ja
Publication of JPH0954777A publication Critical patent/JPH0954777A/ja
Application granted granted Critical
Publication of JP3099683B2 publication Critical patent/JP3099683B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は電子計算機を利用して大
量の文書を検索する際に利用される情報検索装置に関す
るものである。
【0002】
【従来の技術】近年、多様な文書が電子化されてきてい
るのに伴い、大量の文書に対する検索の要求が高まって
いる。これらの要求に対して、従来の多くの検索装置
は、文書からキーワードを抽出し、そのキーワードを文
書に付加して登録を行なっておき、検索の際には、その
キーワードに対して行なう方法を採用している。
【0003】以下、図24を用いてそのような従来の検
索装置について説明する。図24において、2401は
検索対象データ記憶部、2402は形態素解析処理手
段、2403は形態素解析用辞書、2404は単語デー
タ、2405はキーワード抽出手段、2406はキーワ
ード抽出用辞書、2407はキーワードデータ、240
8は検索処理手段、2409は入力手段、2410は出
力手段である。
【0004】以上のように構成された検索装置につい
て、以下にその動作を説明する。まず、登録開始合図が
入力手段から入力されると、形態素解析処理手段240
2が検索対象データ記憶部2401に格納された1つの
検索対象データに対して、形態素解析用辞書2403を
参照して形態素解析処理を行ない、単語データ2404
を作成する。
【0005】前記形態素解析処理が終了すると次にキー
ワード抽出手段2405がキーワード抽出用辞書240
6を用いてキーワードデータ2407を作成する。上記
の一連の動作が検索対象データ記憶部2401に格納さ
れたすべての検索対象データの対して行なわれた後、入
力手段2409から検索条件が入力されると、キーワー
ドデータ2407に対して検索処理手段2408は、キ
ーワード検索を行ない、照合結果より検索対象データ記
憶部2401に格納された検索対象データを出力手段2
410に出力する。
【0006】
【発明が解決しようとする課題】しかしながら上記の従
来の検索装置の構成では、入力した検索条件がキーワー
ドデータに存在しないと検索してもヒットせず、そのキ
ーワードは形態素解析によって抽出されるので、検索で
きるかどうかは形態素解析が正しく行なわれたどうかに
よる。つまり形態素解析が正しく行なわれないとキーワ
ードもれがおき、ついては検索もれをひき起こす。
【0007】また、他にも上記のような検索もれを防ぐ
方法として、全文検索の方法があるが、検索に必要ない
文字列まで検索するため、大量のデータになるほど検索
速度の低下が問題になる。
【0008】検索速度をあげるため、索引ファイルを使
った方式もあるが、大量のデータに対し索引作成時間が
非常にかかるという問題が発生する。
【0009】本発明は、上記従来技術の課題を解決する
もので、検索もれをおさえる全文検索を用いながら、大
量のデータに対してデータのもつ情報量を失うことな
く、検索対象データの容量を小さくすることで高速に検
し、さらにデータ記憶部の省資源化を実現する情報検
索装置を提供することを目的とする。
【0010】
【課題を解決するための手段】この目的を達成するため
に本発明の情報検索装置は、検索対象データを格納する
検索対象データ記憶部と、検索対象にしない単語を格納
した不要語辞書と、前記検索対象データ記憶部に格納さ
れている検索対象データ中から前記不要語辞書を用いて
検索対象とならない語を削除する不要語削除手段と、同
じく検索対象データ中の文字列の重複部分を削除する重
複文字列削除手段と、前記不要語削除手段と前記重複削
除処理によって検索対象データから作成された圧縮デー
タを格納する圧縮データ記憶部と、検索条件を入力する
入力手段と、前記検索条件に従い前記圧縮データに対し
て全文検索を行なう検索処理手段と、前記検索処理手段
の検索結果を出力する出力手段と、前記不要語削除手段
が不要語辞書を用いて検索対象データから削除した不要
語を記憶しておく不要語記憶テーブルとを備え、前記不
要語記憶テーブルを検索処理手段の検索対象とすること
を特徴とするものである。
【0011】
【作用】本発明は、形態素解析処理を行なわず、辞書に
登録された不要語のみを削除する不要語削除手段によっ
て検索の対象とならないデータと重複文字列削除手段を
設けることにより重複文字列を削除することで、さらに
データ容量を小さくする。また、このようにデータ容量
を圧縮したデータを全文検索する検索処理手段を設け
て、検索もれを防ぎ、高速な検索し、さらに、データ記
憶部の省資源化により装置構築の容易化を実現する。
【0012】
【実施例】
(実施例1)以下、本発明の第1の実施例について、図
面を参照しながら説明する。図1は本発明の一実施例に
おける情報検索装置の構成図である。図1において、1
01は検索対象データ記憶部、102は不要語削除手
段、103は不要語辞書、104は重複文字列削除手
段、105圧縮データ記憶部、106は検索処理手段、
107は入力手段、108は出力手段である。
【0013】まず、本実施例における検索条件と検索対
象データと不要語辞書と圧縮データについて説明する。
【0014】1つの検索条件は、照合文字列と和、積、
否定などの論理的関係を表す論理記号によって表され、
入力手段107によって入力される。
【0015】本実施例における検索対象データは文書で
あり、検索対象データ記憶部101に格納されている。
1つの文書データは、文書の内容を表すテキストやイメ
ージなどにより構成されている。また、1つの検索対象
データは検索対象データ番号等のデータ識別用のヘッダ
をもち、1つのファイルの中に複数の検索対象データが
前述のヘッダを区切りにして存在する。
【0016】不要語辞書103には、不要語が格納され
ている。ここでの不要語とは、特定の文書中において、
それ自身では意味を持たず検索の対象とならない単語、
例えば記号、タグ、接尾語、接続語、その文書特有の名
詞などを指す。また、不要語は、更新の必要性の低い単
語とする。
【0017】圧縮データとは、前記の検索対象データか
ら、前述のように検索の対象とならない単語を不要語と
して取り除き、不要語と不要語との間に残された文字
列、すなわち検索対象となる必要語、の重複を取り除
き、区切り文字で区切って並べ登録したものを指す。区
切り文字としては検索対象とならない1バイトコードな
どが使用される。
【0018】1つの検索対象データから1つの圧縮デー
タが作成され、対応した検索対象データのヘッダと同じ
ものをヘッダとして持ち、1つのファイルの中に複数の
圧縮データが前述のヘッダを区切りにして存在する。上
記で説明した検索対象データと不要語辞書103と圧縮
データの例を図2に示す。
【0019】以上のように構成された情報検索装置につ
いて、その動作を説明する。全体の流れを図3で示す。
全体の流れとしては、データの登録処理と検索処理とに
大きく分けられる。またデータの登録処理は不要語削除
処理と重複文字列削除処理に分けられる。またデータの
登録処理は1検索対象ファイル毎に行なわれ、すべての
検索対象データに対して終了するまで行なわれる。
【0020】最初にデータの登録処理について説明す
る。データの登録処理としては、不要語削除手段102
と重複文字列削除手段104によって、前記検索対象デ
ータから、あらかじめ実際に検索対象とする圧縮データ
の作成を行なう。
【0021】まず、入力手段107からデータ登録開始
命令が出ると、検索対象データ記憶部101に格納され
たファイル中の前記検索対象データ1つに対して、不要
語削除手段102が不要語削除処理を開始する。ここで
不要語削除処理の流れを図4に示す。
【0022】また図5に示すように、不要語削除手段1
02は、不要語算出部102aと必要語算出部102b
と必要語格納テーブル102cからなる。
【0023】不要語削除処理として、不要語位置抽出部
102aでは、不要語辞書103を参照し、前記不要語
辞書に格納されている不要語と検索対象データを照らし
合わせ、検索対象データ中の不要語の位置とその語の長
さを抽出する。その際の不要語の抽出は最長一致方法に
よる。
【0024】最長一致方法について、その動作の流れを
図6に示す。まず、検索対象データの最初から1文字ず
つ不要語辞書103と照合を行ない(ステップ1)、前
方一致する文字を発見するまで(ステップ2)1文字ず
つずらしていく(ステップ3)。 前方一致した文字を
発見したら(ステップ2)、次の文字と結合して(ステ
ップ4)再び前方一致しているか調べる(ステップ
5)。前方一致しなかった場合は、一つ前の文字列が不
要語となり文字の開始位置と長さを求める(ステップ
6)。
【0025】前方一致した場合は(ステップ5)再び前
方一致をしなくなるまで前記の動作を繰り返す(ステッ
プ7)。ここで前方一致した単語に対して完全一致も成
立した場合は、その単語は不要語辞書103に登録され
ている単語であるが、次の文字と結合した場合に再び前
方一致が成立すると、前記の単語を含むさらに長い文字
列が不要語辞書103に登録されていることになる。具
体例を図7に示す。
【0026】続いて、必要語算出部102bが、求めら
れた不要語の位置と長さから不要語以外の文字列、すな
わち検索対象となる必要語を算出し、必要語格納テーブ
ル102cに必要語を格納する。例を図8に示す。以上
で不要語削除処理は終了する。
【0027】次に、図9を用いて重複文字列削除処理の
流れを説明する。重複文字列削除処理として重複文字列
削除手段104が必要語位置格納テーブル102cを参
照して、各必要語の重複を調べ、重複していない必要語
を抽出する。その際、必要語の部分一致を認める。
【0028】例を図10に示す。文字列Aと文字列Bが
存在し、文字列Aの中に文字列Bが含まれている場合
(A⊇Bと記す)、文字列Bは重複文字列として扱われ
る。例えば、テレビとテレビジョンを比較した場合、テ
レビはテレビジョンに含まれるので重複文字列となる。
【0029】処理対象としている検索対象データのヘッ
ダを圧縮データ記憶部105に格納し、続いて上記の処
理によって抽出された重複していない必要語を前述の区
切り文字で区切り並べた圧縮データを作成し格納する。
1つの検索対象データのすべての必要語に対して重複調
査・格納が終了すると、重複削除処理は終了する。すべ
ての検索対象データに対して重複文字列削除処理が終了
するとデータ登録処理は終了する。
【0030】次に、検索処理について説明する。検索処
理の一連の流れを図11に示す。上記の動作で作成され
たすべての圧縮データに対して、入力手段107から前
記検索条件が入力されると、検索処理手段106が検索
を行なう。検索の方法としては文書そのものを検索対象
として利用する全文検索を用いる。具体的には前記圧縮
データの区切り文字から次の区切り文字まで間の文字列
に対して全文検索を行なう。この際、直接データを検索
する方法や、索引ファイルを作成し索引検索を行なう方
法も用いることができる。索引検索を行なう場合は、前
述のデータ登録処理の一つとして、前記圧縮データを作
成した後、索引を作成する処理を行なう。
【0031】検索処理手段106は、検索処理を行なっ
た後、照合したデータのヘッダの情報を取り出し、その
ヘッダの情報から検索対象データ記憶部101に格納さ
れている検索対象ファイル中から該当する検索対象デー
タを取り出し、ヘッダ情報と共に出力手段108に送り
出力する。
【0032】具体的に図2を使って説明すると、検索条
件を「イメージデータ」として、検索処理手段106が
圧縮データに対して検索を行なう。すると文書番号2の
「イメージデータの送信」の文字列中に「イメージデー
タ」が存在するので、検索処理手段106は文書番号2
から、検索対象データ記憶部101に格納されている文
書番号2の検索対象データを取り出し、文書番号2とい
うヘッダ情報と検索対象データを出力手段108に送り
出力する。
【0033】以上のように本実施例によれば、不要語削
除手段102によって検索の対象とならない文字列を取
り除き、ついで重複削除手段104によって検索に複数
個必要のない文字列を削除して文書の情報量をそのまま
保ちながらデータを圧縮し、容量を小さくすることがで
きるので、より検索もれの少ない検索で、かつ高速に検
索できる。加えて検索対象データの容量が小さくなるこ
とで、索引ファイルを使用した検索システムでは、索引
ファイルを小さくすることができる。
【0034】また圧縮したデータに対して全文検索を行
なうので、従来のキーワード検索のような検索もれを防
ぎ、加えて従来の完全一致のキーワード検索より、自由
な検索条件で検索できる。
【0035】なお、上記では、1つのファイルに複数の
検索対象データを格納したが、ファイルは複数になって
もよい。また、1つの検索対象データのヘッダをファイ
ル名にして、1つの検索対象データを1つのファイルに
格納することもできる。その場合は、検索処理手段10
6は、圧縮データに対して検索処理を行なった後、照合
したデータのファイル名を取り出し、そのファイル名か
ら該当する検索対象データファイルを探しその中に格納
されている検索対象データを取り出し、ファイル名と共
に出力手段108に送り出力する。
【0036】また、検索対象データ記憶部101は光デ
ィスクに設けることも可能であるので、検索対象データ
の格納スペースを少なくすることもできる。
【0037】(実施例2)以下、本発明の第2の実施例
について、図面を参照しながら説明する。図12は本発
明の一実施例における情報検索装置の構成図である。図
12において、101は検索対象データ記憶部、102
は不要語削除手段、103は不要語辞書、104は重複
文字列削除手段、105圧縮データ記憶部、106は検
索処理手段、107は入力手段、108は出力手段、1
201は不要語削除手段102と重複文字列削除手段1
04によってデータを圧縮する範囲を予め登録しておく
圧縮範囲記憶部である。
【0038】以上のように構成された情報検索装置の圧
縮範囲記憶部1201について説明する。圧縮範囲記憶
部1201は、データの登録処理を開始する前に予め入
力手段107から入力された圧縮範囲が登録される。圧
縮範囲として、検索対象データの先頭位置からのオフセ
ットで表された圧縮開始位置と圧縮終了位置の組みか、
もしくは、圧縮開始位置と圧縮終了位置のタグを指定す
る。例を図13に示す。
【0039】続いて、処理の流れについて説明する。入
力手段107からデータの圧縮処理の開始の命令が入力
されると、不要語削除手段103は、圧縮範囲記憶部1
201を参照して、検索対象データ中の圧縮開始位置と
圧縮終了位置を得る。続いて前述のとおり得た位置に該
当する検索対象データの範囲に対して不要語削除処理を
行ない、その後に重複文字列削除手段104が重複文字
列削除処理を行なう。ここで扱われる検索対象データの
構造と不要語削除処理と重複文字列削除処理は第1の実
施例と同じである。続いて圧縮しない検索対象データ、
つまり非圧縮データは、図13に示すように、重複削除
処理で使用された区切り文字列を圧縮データとの区切り
にしてそのまま圧縮データに格納される。以後、検索の
処理の流れは第1の実施例と同様に行なわれる。
【0040】本実施例のように、検索対象データの圧縮
範囲指定が出来ると、テキストの中でも単語の列挙部分
と文章で書かれている部分がある文書などに対して、文
章部分のみ圧縮したいなど、希望した場所だけ圧縮の対
象にでき、より自由な検索対象データを扱うことができ
る。
【0041】(実施例3)以下、本発明の第3の実施例
について、図面を参照しながら説明する。図14は本発
明の一実施例における情報検索装置の構成図である。図
14において、101は検索対象データ記憶部、102
は不要語削除手段、103は不要語辞書、104は重複
文字列削除手段、105圧縮データ記憶部、107は入
力手段、108は出力手段、1401は不要語削除手段
102と重複文字列削除手段104によってデータを圧
縮する範囲を複数箇所指定し登録できる圧縮範囲複数記
憶部、1402は圧縮・非圧縮範囲毎に検索を行なえる
検索処理手段である。
【0042】以上のように構成された情報検索装置の圧
縮範囲複数記憶部1401について説明する。圧縮範囲
複数記憶部1401はデータの登録処理を開始する前に
予め入力手段107から入力された圧縮範囲が登録され
る。圧縮範囲指定方法は第2の実施例と同様である。た
だし圧縮範囲が複数箇所指定できる点は実施例2と異な
っている。圧縮範囲複数記憶部1401の例を図15に
示す。
【0043】続いて、全体の流れについて説明する。入
力手段107からデータの圧縮処理の開始の命令が入力
されると、不要語削除手段103は、圧縮範囲複数記憶
部1401を参照して、検索対象データ中の圧縮開始位
置と圧縮終了位置を1組得る。続いて前述のとおり得た
位置に該当する検索対象データの範囲に対して不要語削
除処理を行ない、その後に重複文字列削除手段104が
重複文字列削除処理を行なう。ここで扱われる検索対象
データの構造と不要語削除処理と重複文字列削除処理は
第1の実施例と同様である。1つの圧縮範囲について重
複文字列削除処理が終了すると、必要語と必要語の区切
るために使用されている区切り文字とは異なる圧縮範囲
を区切る区切り文字を格納する。圧縮範囲の区切り文字
は、必要語の区切り文字と同様に、検索対象とならない
1バイトコードなどが使用される。
【0044】以上で1つの圧縮範囲についてのデータ登
録処理が終了する。続いて、圧縮しない検索対象デー
タ、つまり非圧縮データは、圧縮範囲の区切り文字で区
切ってそのまま格納する。すべての圧縮指定範囲につい
ての上記データ登録処理とすべての非圧縮データの格納
が終了するまで繰り返し処理を行なう。このように作成
された圧縮データの例を図15に示す。
【0045】データ登録処理が終了すると第1の実施列
の流れと同様に、検索処理手段1402が検索処理を開
始する。検索方法は第1の実施例と同様である。ただ
し、上記のデータ登録処理によって圧縮範囲の区切り文
字で区切られた範囲内で検索を行なう点は第1の実施列
と異なっている。つまり、圧縮範囲の区切り文字は検索
処理において検索範囲の区切り文字になる。このような
一つの範囲で検索条件に適合したら、ただちに一つの検
索対象データの文字列の照合処理は終了する。後の動作
は第1の実施例と同様で、照合したデータのヘッダ情報
をとり出し出力手段108に検索結果を送り出す。以下
すべての検索対象データに対して行なう。
【0046】このように、検索の範囲を設け、いわばタ
グつけされたブロックとして区分されたデータ毎に検索
を行なうことで検索条件として使用されている論理式が
有効に活用できる。例えば近接した文字に対して有効に
なる検索条件で検索を行うことができる。
【0047】例を図16で説明する。検索意図が「オン
ラインでイメージデータを扱える検索装置」について知
りたい場合に、検索条件を「オンライン&イメージデー
タ&検索装置」とし、図に示す文書番号1である、「請
求項1」、「請求項2」、「図面の説明」からなる一つ
のデータを検索対象データとする場合、検索範囲を設定
しない場合は、上記検索式に該当するものとして文書番
号1がヒットするが、範囲を設定した場合、文書番号1
はヒットせず、意図した結果を得ることができる。
【0048】もちろん、検索対象を全体にする場合は、
圧縮範囲を全体にすれば良いのでいろいろな検索対象デ
ータにも使える。
【0049】また、圧縮範囲別に不要語削除処理、重複
文字列削除処理を行なったが、最初に圧縮指定範囲全体
において不要語を削除しておき、続いて指定された圧縮
範囲毎に重複文字列削除処理を行なうこともできる。
【0050】(実施例4)以下、本発明の第4の実施例
について、図面を参照しながら説明する。図17は本発
明の一実施例における情報検索装置の構成図である。図
17において、101は検索対象データ記憶部、102
は不要語削除手段、103は不要語辞書、104は重複
文字列削除手段、105は圧縮データ記憶部、1401
は圧縮範囲複数記憶部、1701は検索対象データ中の
検索対象とする範囲を指定する検索範囲指定手段、17
02は検索条件から検索範囲番号を抽出し前記の検索範
囲手段1701に送る機能を備えた検索処理手段、10
7は入力手段、108は出力手段である。
【0051】まず、本実施例における、検索対象データ
と圧縮データと検索条件について図18を使って説明す
る。検索対象データの構造は、第3の実施例と同様であ
る。1つ1つの検索対象データはすべての検索対象デー
タに共通したブロック毎の構造を持っている。例えば図
18では、目的、図の説明、再び目的、図の説明と繰り
返しタグをもち、目的、説明を1単位(1検索対象デー
タ)とする。
【0052】圧縮データも第3の実施例と同様で、圧
縮、非圧縮範囲を区切る区切り文字で区切られていて、
前記検索対象データと同様に1つ1つの圧縮データに共
通した構造を持っている。
【0053】検索条件は、照合文字列と和、積、否定な
どの論理的関係を表す論理記号と共に、検索対象とする
範囲を指定する1検索対象データの先頭からのデータ範
囲の順番である検索範囲番号を添付する。図18におい
ては、1検索対象データは1つの検索範囲区切り文字に
より、2つの検索範囲に区切られる。
【0054】以上のような、検索条件と検索対象データ
と検索範囲指定手段1701と検索手段1702を持つ
情報検索装置の流れについて説明する。全体としてはデ
ータ登録処理と検索処理にわかれ、データ登録処理は第
3の実施例と同様である。
【0055】つづいて検索処理手段1702によって行
なわれる検索処理について説明する。入力手段107か
ら前記検索条件が入力されると、検索処理手段1702
は前記検索条件から、検索対象とする検索範囲番号を得
て、検索範囲指定手段1701に送る。
【0056】続いて検索範囲指定手段1701は、1つ
の圧縮データの先頭から走査し、圧縮データ及び非圧縮
データ範囲の区切り文字をカウントし、検索処理手段1
702から送られた検索範囲番号に該当するデータ範囲
の開始位置を見つける。次に見つけた開始位置を検索処
理手段1702に指定する。検索処理手段1702は指
定された開始位置から、当該範囲の最後までに対して検
索処理を行なう。検索の処理方法は第1の実施例と同様
である。以上の検索処理をすべての圧縮データに対して
行なう。
【0057】本実施例によれば、同じ構造をもつ検索対
象データに対して、範囲別に、具体的に述べれば項目別
に検索を行なうことができ、目的とするデータを取得す
ることが可能になる。
【0058】(実施例5)以下、本発明の第5の実施例
について、図面を参照しながら説明する。図19は本発
明の一実施例における情報検索装置の構成図である。図
19において、101は検索対象データ記憶部、103
は不要語辞書、104は重複文字列削除手段、105圧
縮データ記憶部、107は入力手段、108は出力手
段、1901は抽出した不要語と抽出先の検索対象デー
タのヘッダ情報を後述の不要語記憶テーブルに格納する
機能をもつ不要語削除手段、1902は前記不要語削除
手段1901によって抽出された不要語と抽出先の検索
対象データのヘッダ情報を保持する不要語記憶テーブ
ル、1903は前記不要語記憶テーブル1902を検索
する機能をもった検索処理手段である。
【0059】本実施例の不要語記憶テーブル1902の
構造について図20を用いて説明する。図に示すよう
に、不要語記憶テーブル1902には、不要語辞書10
3に登録されている不要語と当該不要語が削除された検
索対象データのヘッダ情報のペアのリストが格納されて
いる。
【0060】上記の不要語記憶テーブル1902と不要
語削除手段1901と検索処理手段1903を持つ情報
検索装置の流れについて説明する。全体としてはデータ
登録処理と検索処理にわかれる。データ登録処理は第3
の実施例と同様に不要語削除処理と重複文字列削除処理
からなる。ただし、不要語削除手段1901は不要語削
除処理を行なう際に抽出した不要語と抽出先の検索対象
データのヘッダ情報を不要語記憶テーブル1901に格
納する。
【0061】例えば、図20で不要語辞書に格納されて
いる文字列「
【目的】」は、不要語として検索対象データから削除の
対象となるので、不要語削除手段1901によって検索
対象データの文書番号1と文書番号2の中から抽出され
る。次に不要語削除手段1901は不要語記憶テーブル
1902に文字列「
【目的】」と、文書番号1と文書番号2がペアにして格
納する。以下、同様に不要語とヘッダ情報のペアを不要
語記憶テーブル1902に格納する。すべての検索対象
データに対して上記の動作を行なうデータの登録処理が
終了する。
【0062】次に検索処理の流れについて図21を用い
て説明する。まず検索処理手段1903は、入力手段1
07から検索条件が入力されると、その検索条件から照
合文字列を抽出する。次に検索処理手段1903は不要
語記憶テーブルを参照して前記の照合文字列が格納され
ているか調べる。格納されている場合は、不要語として
検索対象データから削除されている(つまり圧縮データ
に格納されていない)。不要語記憶テーブル1902に
格納されていなかった場合、検索対象データから削除さ
れていないことになる。
【0063】前記の照合文字列が不要語記憶テーブル1
902を参照し、格納されていない場合、検索処理手段
1903は第1の実施例と同様にすべての圧縮データに
対して検索の処理を行なう。
【0064】格納されていた場合、検索処理手段190
3はそのテーブルから格納されている検索対象データの
ヘッダ情報を取得する。次に、ヘッダ情報から検索対象
ファイルを取得する。続いて前記の動作で得た検索対象
ファイルとそのヘッダ情報を検索結果として出力手段1
08に送る。次に前記の出力手段108に送られた検索
対象データ以外のデータ、つまり前記の出力手段108
に送られた検索対象データのヘッダ情報を持たない圧縮
データについて検索の処理を行なう。ここでの検索の処
理は第1の実施例と同様である。
【0065】本発明によれば、検索対象データから不要
語として削除された場合でも、不要語削除手段1901
が不要語記憶テーブル1902に削除記録を保持し、検
索処理手段1903が前記の削除記録を参照して検索を
行なうので、検索対象データの圧縮を行ないながら検索
もれの少ない検索を同時に実現できる。
【0066】(実施例6)以下、本発明の第6の実施例
について、図面を参照しながら説明する。図22は本発
明の一実施例における情報検索装置の構成図である。図
22において、101は検索対象データ記憶部、103
は不要語辞書、104は重複文字列削除手段、105圧
縮データ記憶部、107は入力手段、108は出力手
段、1901は不要語削除手段、1902は不要語記憶
テーブル、1903は検索処理手段、2201は指定さ
れた不要語を不要語辞書103から削除し、不要語記憶
テーブル1902を参照して当該不要語が削除された圧
縮データのヘッダ情報を得て、当該不要語を該当する圧
縮データに再格納するデータ再現手段である。
【0067】本実施例のデータ再現手段2201につい
て図23を用いて説明する。データ再現手段2201
は、入力手段107から不要語辞書103へ格納中止の
不要語が入力指定されると、まず、不要語辞書103か
ら指定された不要語を削除する。例えば図23において
「こと」は検索対象データから削除する対象となってい
る(図23(a))。
【0068】次に、不要語記憶テーブル1902を参照
して、すでに当該不要語が削除されている圧縮データの
ヘッダ情報を得る(図23(b))。続いて、得たヘッ
ダ情報から該当する圧縮データを探し、最後部に不要語
を添付する(図23(c))。次にデータ再現手段22
01はすべての該当圧縮データに対して指定された不要
語を添付しおわると、不要語記憶テーブル1902の当
該不要語とその不要語が削除された検索対象データのヘ
ッダ情報を削除する(図23(b))。
【0069】上記の動作は、データ登録処理と検索処理
が行なわれていない時に入力手段107から命令が入力
されるとただちに開始され、次のデータ登録処理と検索
処理に反映される。
【0070】本実施例によれば、データ再現手段220
1を設けたことで、いったん不要語として不要語辞書1
03に登録しておいてもただちに登録の取り止めがで
き、また、すでに不要語として削除された圧縮データに
対しても指定された不要語を添付することでデータを再
現でき、より使いやすい情報検索装置を実現できる。
【0071】
【発明の効果】以上のように本発明の情報検索装置は、
検索対象データの情報量を失うことなく検索対象データ
の容量を小さくできる不要語削除手段と検索対象データ
から削除した不要語を記憶しておく不要語記憶テーブル
と、重複削除手段を設けたことにより、検索もれを防
ぎ、かつ検索が高速にでき、また、削除記録を参照して
検索を行うことができるため、検索もれの少ない検索を
することができるという効果を有する。
【0072】
【0073】
【0074】
【0075】
【0076】
【0077】
【図面の簡単な説明】
【図1】本発明の第1の実施例における情報検索装置の
構成図
【図2】本発明の第1の実施例におけるデータの概念図
【図3】本発明の第1の実施例における全体の動作を示
す流れ図
【図4】本発明の第1の実施例における不要語削除処理
を示す流れ図
【図5】本発明の第1の実施例における不要語削除手段
の構成図
【図6】本発明の第1の実施例おける不要語抽出の際の
最長一致方法を示す流れ図
【図7】本発明の第1の実施例おける最長一致方法を示
す概念図
【図8】本発明の第1の実施例における必要語算出処理
と必要語格納テーブルの概念図
【図9】本発明の第1の実施例における重複文字列削除
処理を示す流れ図
【図10】本発明の第1の実施例における重複文字列削
除処理を示す概念図
【図11】本発明の第1の実施例における検索処理を示
す流れ図
【図12】本発明の第2の実施例における情報検索装置
の構成図
【図13】本発明の第2の実施例におけるデータの概念
【図14】本発明の第3の実施例における情報検索装置
の構成図
【図15】本発明の第3の実施例におけるデータの概念
【図16】本発明の第3の実施例における検索条件と検
索結果を示す概念図
【図17】本発明の第4の実施例における情報検索装置
の構成図
【図18】本発明の第4の実施例におけるデータの概念
【図19】本発明の第5の実施例における情報検索装置
の構成図
【図20】本発明の第5の実施例におけるデータの概念
【図21】本発明の第5の実施例における検索処理を示
す流れ図
【図22】本発明の第6の実施例における情報検索装置
の構成図
【図23】本発明の第6の実施例におけるデータ再現手
段の処理図
【図24】従来の情報検索装置の構成図
【符号の説明】
101 検索対象データ記憶部 102 不要語削除手段 102a 不要語位置抽出手段 102b 必要語算出手段 102c 必要語格納テーブル 103 不要語辞書 104 重複文字列削除手段 105 圧縮データ記憶部 106 検索処理手段 107 入力手段 108 出力手段 1201 圧縮範囲記憶部 1401 圧縮範囲複数記憶部 1402 検索処理手段 1701 検索範囲指定手段 1702 検索処理手段 1901 不要語削除手段 1902 不要語記憶テーブル 1903 検索処理手段 2201 データ再現手段 2401 検索対象データ記憶部 2402 形態素解析処理手段 2403 形態素解析用辞書 2404 単語データ 2405 キーワード抽出手段 2406 キーワード抽出用辞書 2407 キーワードデータ 2408 検索処理手段 2409 入力手段 2410 出力手段
フロントページの続き (56)参考文献 特開 平3−174652(JP,A) 特開 昭63−228326(JP,A) 特開 平7−121548(JP,A) 特開 平6−301721(JP,A) 特開 平6−348756(JP,A) 特開 平5−334355(JP,A) 特開 平2−287674(JP,A) 特開 平5−67147(JP,A) 特開 昭64−31227(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 検索対象データを格納する検索対象デー
    タ記憶部と、検索対象にしない単語を格納した不要語辞
    書と、前記検索対象データ記憶部に格納されている検索
    対象データ中から前記不要語辞書を用いて検索対象とな
    らない語を削除する不要語削除手段と、同じく検索対象
    データ中の文字列の重複部分を削除する重複文字列削除
    手段と、前記不要語削除手段と前記重複削除処理によっ
    て検索対象データから作成された圧縮データを格納する
    圧縮データ記憶部と、検索条件を入力する入力手段と、
    前記検索条件に従い前記圧縮データに対して全文検索を
    行なう検索処理手段と、前記検索処理手段の検索結果を
    出力する出力手段と、前記不要語削除手段が不要語辞書
    を用いて検索対象データから削除した不要語を記憶して
    おく不要語記憶テーブルとを備え、前記不要語記憶テー
    ブルを検索処理手段の検索対象とすることを特徴とする
    情報検索装置。
  2. 【請求項2】 不要語辞書から不要語登録を取り消し、
    不要語削除手段が不要語辞書を用いて検索対象データか
    ら削除した不要語を記憶しておく不要語記憶テーブルを
    照合して不要語登録が取り消された不要語を圧縮データ
    に追加し、不要語記憶テーブルからも不要語登録を取り
    消すデータ再現手段を設けたことを特徴とする請求項
    に記載の情報検索装置。
JP07168457A 1995-06-09 1995-07-04 情報検索装置 Expired - Fee Related JP3099683B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07168457A JP3099683B2 (ja) 1995-06-09 1995-07-04 情報検索装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP14324995 1995-06-09
JP7-143249 1995-06-09
JP07168457A JP3099683B2 (ja) 1995-06-09 1995-07-04 情報検索装置

Publications (2)

Publication Number Publication Date
JPH0954777A JPH0954777A (ja) 1997-02-25
JP3099683B2 true JP3099683B2 (ja) 2000-10-16

Family

ID=26475024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07168457A Expired - Fee Related JP3099683B2 (ja) 1995-06-09 1995-07-04 情報検索装置

Country Status (1)

Country Link
JP (1) JP3099683B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002163540A (ja) * 2000-11-22 2002-06-07 Akira Katakabe 旅行体験情報をデータベース化した旅行情報提供システム
JP5217958B2 (ja) * 2008-11-26 2013-06-19 富士通株式会社 テキスト検索プログラム、テキスト検索装置及びテキスト検索方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63228326A (ja) * 1987-03-18 1988-09-22 Nec Corp キ−ワ−ド自動抽出方式
JP2986865B2 (ja) * 1989-07-24 1999-12-06 株式会社日立製作所 データ検索方法および装置
JP3573471B2 (ja) * 1993-04-19 2004-10-06 株式会社日立製作所 全文デ−タベ−ス検索方法
JPH06348756A (ja) * 1993-06-03 1994-12-22 Ricoh Co Ltd 索引作成装置及び索引利用装置
JPH07121548A (ja) * 1993-10-21 1995-05-12 Matsushita Electric Ind Co Ltd 情報管理装置

Also Published As

Publication number Publication date
JPH0954777A (ja) 1997-02-25

Similar Documents

Publication Publication Date Title
US5812999A (en) Apparatus and method for searching through compressed, structured documents
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
US7072889B2 (en) Document retrieval using index of reduced size
JP2758826B2 (ja) 文書検索装置
US6895550B2 (en) Computer-implemented PDF document management
US20100161615A1 (en) Index anaysis apparatus and method and index search apparatus and method
JP3022539B1 (ja) 文書検索装置
KR100495593B1 (ko) 파일 처리 방법, 데이터 처리 장치, 및 기억 매체
JPH05324730A (ja) 文書情報検索装置
JP3099683B2 (ja) 情報検索装置
JP4682627B2 (ja) 文書検索装置および方法
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JPH08263521A (ja) 文書登録検索システム
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JP2002092017A (ja) 概念辞書拡張方法、装置、および概念辞書拡張プログラムを記録した記録媒体
JP3239845B2 (ja) 全文検索装置および方法
JP4298138B2 (ja) 情報検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体
JPH09212523A (ja) 全文検索方法
JP2001092831A (ja) 文書検索装置及び文書検索方法
JP3325326B2 (ja) 電子ファイリング装置
JPH09265472A (ja) 画像データベースシステム
JPH0816617A (ja) 文書検索方法及び装置
JPH0589174A (ja) 辞書検索方法
JPH1196184A (ja) 全文検索方法およびシステム
JPS63229523A (ja) 情報処理装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees