JP3081093B2 - 索引作成方法およびその装置と文書検索装置 - Google Patents

索引作成方法およびその装置と文書検索装置

Info

Publication number
JP3081093B2
JP3081093B2 JP05253032A JP25303293A JP3081093B2 JP 3081093 B2 JP3081093 B2 JP 3081093B2 JP 05253032 A JP05253032 A JP 05253032A JP 25303293 A JP25303293 A JP 25303293A JP 3081093 B2 JP3081093 B2 JP 3081093B2
Authority
JP
Japan
Prior art keywords
index
character
characters
data
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05253032A
Other languages
English (en)
Other versions
JPH07105237A (ja
Inventor
野 祐 司 菅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP05253032A priority Critical patent/JP3081093B2/ja
Publication of JPH07105237A publication Critical patent/JPH07105237A/ja
Application granted granted Critical
Publication of JP3081093B2 publication Critical patent/JP3081093B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、電子計算機を応用した
文書検索システムや文書編集システムにおける文書中か
ら文字列等を検索するための索引の作成方法およびその
装置と文書検索装置に関するものである。
【0002】
【従来の技術】近年、ワードプロセッサやパーソナルコ
ンピューターの普及、コンピュータの記憶装置の容量の
増大、コンピュータによる文字認識の実用化等に伴い、
文書中の全ての文字情報を蓄積した全文データベースが
多くなってきた。このため、大量の文字情報を蓄積し、
必要に応じて文書情報を検索する全文データベース検索
システムに対する関心が高まってきている。
【0003】従来の文書データベースシステムでは、文
書を検索する際の鍵として、文書毎に人手により付与さ
れたキーワードを利用するキーワード検索方式が一般的
であった。しかし、キーワード付け作業が蓄積文書の増
加に間に合わない、時間が経過するとキーワードが陳腐
化する、キーワード付けを行った者と検索する者とのキ
ーワードの解釈の相違により検索もれが生じる、などの
問題点があった。このような背景から、近年、全文検索
(フルテキストサーチ)と呼ばれる文書検索方式が注目
されている。
【0004】全文検索は、文書データのほかには補助的
な情報を持たずに、検索毎に文書データを全文走査する
「フルテキストスキャン」方式と、検索に先だって、文
書データ中に出現する文字あるいは文字列の情報を高速
に取り出せるような索引情報を自動的に作成しておい
て、検索時にこの索引を検索する方式の2種類に大別さ
れる。
【0005】このうち、フルテキストスキャン方式は、
原文書以外の情報を用いないので、記憶容量が少なくて
済むとともに文書データの更新直後でも即座に検索でき
る点、および正規表現等の文字列パターンや論理条件を
含む複雑な検索条件の場合や検索結果が多い場合でも、
検索時間がほぼ一定である点が長所であるが、文書デー
タの全てを走査するため、索引方式に比べて検索速度が
遅いという問題が指摘されている。
【0006】一方、索引方式は、一般にフルテキストス
キャン方式よりも検索速度が速く、索引の作成方法によ
っては、検索速度が文書量にほとんど依存しないという
利点があるが、索引情報の容量が大きいこと、索引を作
成する時間が長いこと、検索条件が複雑な場合や検索結
果が多い場合に検索速度が低下すること等の問題が指摘
されている。
【0007】このような従来の全文検索ための文書検索
方法と索引作成方法とその特徴は、「Access M
ethods for Text](Ohristos
Faloutsos,Computing Surv
eys,Vol.17,No.1,March 198
5)等の論文や、「テキスト検索プロセッサ」(高橋恒
介著、電子情報通信学会刊)等の成書に詳細な説明がな
されている。
【0008】
【発明が解決しようとする課題】しかしながら、上記の
論文、成書で紹介されている従来の方法では、索引を用
いないと検索速度が上がらず、一方索引を用いると、索
引の作成・更新時間がかかる上に、索引データの容量が
大きくなり、正規表現などの複雑な文字列パターンでの
検索にも時間がかかるという課題があった。
【0009】本発明は、上記の従来技術の課題を解決す
るもので、作成・更新時間が短く、容量が小さく、正規
表現などの複雑な文字列パターンでの近似検索も高速で
行なうことのできる索引作成方法とその装置および作成
された索引データとフルテキストスキャンとを組み合わ
せた検索速度の速い文書検索装置を提供することを目的
とする。
【0010】
【課題を解決するための手段】上記目的を達成するため
に、本発明による索引作成方法は、サンプル文書データ
の文字および文字列の出現を統計的に調べて前記索引デ
ータを作成する際の共通情報となる索引型式データを作
成する段階と、前記索引型式データの型式に従って検索
対象文書データに関する索引データを作成する段階とか
ら成り、索引型式データ作成段階では、前記文字列の出
現を統計的に調べる動作として、一定度数以下の文字
(低頻度文字)については、1文字で索引を作成するこ
とを決定し、一定度数以上の文字(高頻度文字)につい
ては、高頻度文字同士の2文字連続を調べ、次に、一定
度数以下の2文字連続文字(低頻度2文字連続)につい
ては、2文字で索引を作成することを決定し、一定度数
以上の2文字連続(高頻度2文字連続)については、高
頻度2文字連続文字同士の3文字連続を調べる動作を順
次行なうことにより、高頻度な文字列ほど、長い文字連
続として索引を作成することを決定した内容の索引型式
データを作成するようにしたものである。
【0011】また、本発明によると索引作成装置は、サ
ンプル文書データ中のある1文字の出現の度合を統計的
に調べる文字出現頻度算定手段と、前回調べた文字の出
現の度合が予め定められた値よりも高い場合に、前回調
べた文字の全てを含むN文字(Nは2、3、4、・・・
の自然数)の文字列についての出現の度合を統計的に調
べる複数のN文字連続出現頻度算定手段と、サンプル文
書データ中の文字または文字列の出現の度合に応じて文
字出現頻度算定手段および複数のN文字連続出現頻度算
定手段の出力から検索対象文書データに関する索引デー
タを作成する際の共通情報となる索引型式データを作成
する索引型式出力手段とを備えたものである。
【0012】さらに、本発明による索引作成装置は、サ
ンプル文書データ中の文字または文字列をその出現の度
合に応じてグループ化する複数のグループ化手段を備
え、索引型式出力手段が、各グループ化手段から出力さ
れたグループ化情報を基に各グループの通し番号と所属
する文字または文字列との対応表を出力するようにした
ものである。
【0013】さらに、本発明による索引作成装置は、検
索対象文書データに関する索引データを作成する際に用
いる検索文字数を上記構成の索引作成装置から出力され
た索引型式データに従って決定する文字連続数算定手段
と、文字連続数算定手段により決定された文字数と上記
構成の索引作成装置から出力された索引型式データとか
ら対応するグループ番号を算定するグループ番号算定手
段と、グループ番号算定手段から出力されたグループ番
号からそれぞれの文書レコードの索引データを作成する
索引情報蓄積出力手段とを備えたものである。
【0014】また、本発明による文書検索装置は、文字
列パターンを含む検索条件を入力する検索入力手段と、
検索条件から上記構成の索引作成装置から出力された索
引データを照合するための文字または文字列のAND/
OR木を作成する索引照合条件作成手段と、索引データ
と索引照合条件作成手段が作成したAND/OR木との
照合を行なう索引照合手段と、照合が成功した場合に、
検索対象文書データの対応する部分を検索条件入力手段
から入力された文字列パターンを含む検索条件と照合
し、照合の成功した部分を最終的な検索結果として出力
する全文走査文字列照合手段とを備えたものである。
【0015】
【作用】本発明は、上記構成によって、検索対象文書デ
ータに関する索引の型式が統計的に検索対象文書データ
に適合した、容量の小さい索引データを、検索対象文書
データの統計的性質を調べることなしに高速に作成し、
また、サンプル文書中における出現の度合が、予め定め
られた値以下すなわち絞り込み率以下である低頻度文字
については、索引型式出力手段が検索対象文書データに
おける1文字の出現を記録するための索引データの型式
を指示し、サンプル文書中における出現の度合が絞り込
み率よりも高い高頻度文字については、高頻度文字に属
するN文字、すなわちまず初めに2つの文字からなる2
文字連続のサンプル文書データ中における出現の度合を
2文字連続出現頻度算定手段が統計的に調べ、サンプル
文書データ中における出現の度合が絞り込み率以下であ
る低頻度2文字連続については、索引型式出力手段が検
索対象文書データにおける2文字連続の出現を記録する
ための索引データの型式を指示し、サンプル文書データ
中における出現の度合が絞り込み率よりも高い高頻度2
文字連続については、高頻度2文字連続に属する2つの
2文字連続をそれぞれ初めの2文字、および最後の2文
字に持つ3文字連続のサンプル文書データ中における出
現の度合を3文字連続出現頻度算定手段が統計的に調
べ、索引型式出力手段が、検索対象文書データにおける
3文字連続の出現を記録するための索引データの型式を
指示することによって、文字および文字列の出現の度合
が異なっていても、検索条件によらずに絞り込み率以下
に検索対象文書データを絞り込むことを可能にする索引
データを作成することができる。
【0016】また、サンプル文書データ中の文字または
文字列の出現の度合を文字列出現頻度算定手段が統計的
に調べ、その後で、グループ化手段が、1つ以上の文字
または文字列からなるグループであって、当該グループ
に属する文字または文字列の少なくとも1種が出現する
度合が予め定めた絞り込み率以下であるグループに、サ
ンプル文書データ中の文字または文字列を振り分け、検
索対象文書データにおいて当該グループに所属するいず
れかの文字あるいは文字列が出現した場合には、「当該
グループに属する文字あるいは文字列のいずれかが出現
した」という情報を記録するための索引データの型式を
索引型式決定手段が決定して索引型式データを作成する
ことによって、多くの種類の低頻度文字がある場合で
も、容量の小さな索引を作成することができる。
【0017】さらに、文書検索装置においては、利用者
が検索条件入力手段から入力した文字列パターンを含む
検索条件から、索引照合条件作成手段が、索引データを
照合するための文字または文字列のAND/OR木を作
成し、索引照合手段が、索引データと、索引照合条件作
成手段の作成したAND/OR木との照合を行い、照合
が成功したデータの場合には、全文走査文字列照合手段
が、検索対象文書データの対応する部分を検索条件入力
手段から入力された文字列パターンを含む検索条件と完
全に照合し、照合の成功した部分を最終的な検索結果と
することにより、従来はフルテキストスキャン方式でし
か扱えなかった複雑な検索条件の場合でも、索引による
検索速度の高速化を実現することができる。
【0018】
【実施例】
(実施例1)以下、本発明の索引作成方法を実施するた
めの装置について、図面を参照しながら説明する。図1
は本発明の第1の実施例における索引作成装置の構成を
示すブロック図である。図1において、101は文書デ
ータを構成する複数の文書レコードを格納したサンプル
文書データである。サンプル文書データは、検索対象文
書データの全部または一部でもよく、検索対象文書デー
タに対し、文字および文字列の出現に関する統計的性質
が類似している他の文書データであってもよい。102
はサンプル文書データ101中の各文書レコードの位置
を記録したサンプル文書句切りデータ、103はサンプ
ル文書句切りデータ102の位置情報に従ってサンプル
文書データ101から指定された文書レコードを切り出
して、レコード先頭を表す特別な文字<START>を
文書レコード先頭に付与し、レコード終了を表す特別な
文字<END>を文書レコード末尾に付与した文字列を
出力する文書区切り手段、104は文書区切り手段10
3の出力である文書レコード文字列を受け取ってサンプ
ル文書データ101中に出現する各文字の出現の度合
を、「当該文字の出現する文書レコードの文字数の総和
を全文書レコードの文字数の総和で除した値」として算
定する文字出現頻度算定手段、105は文書区切り手段
103の出力である文書レコード文字列と、文字出現頻
度算定手段104の算定結果とを受け取って、サンプル
文書データ101中に高頻度で出現する2文字連続の出
現の度合を、「当該2文字連続の出現する文書レコード
の文字数の総和を全文書レコードの文字数の総和で除し
た値」として算定する2文字連続出現頻度算定手段、1
06は文書区切り手段103の出力である文書レコード
文字列と、2文字連続出現頻度算定手段105の算定結
果とを受け取って、サンプル文書データ101中に高頻
度で出現する3文字連続の出現の度合を、「当該3文字
連続の出現する文書レコードの文字数の総和を全文書レ
コードの文字数の総和で除した値」として算定する3文
字連続出現頻度算定手段、107は文字出現頻度算定手
段104の算定結果を受け取って、出現の度合が予め定
められた「絞り込み率」以下である複数の文字をグルー
プ化し、グループに属するいずれかの文字が出現する度
合が絞り込み率を越えない範囲で絞り込み率に最も近く
なるように調整する文字グループ化手段、108は2文
字連続出現頻度算定手段105の算定結果を受け取っ
て、出現の度合が絞り込み率以下である複数の2文字連
続をグループ化し、グループに属するいずれかの2文字
連続が出現する度合が絞り込み率を越えない範囲で絞り
込み率に最も近くなるように調整する2文字連続グルー
プ化手段、109は3文字連続出現頻度算定手段106
の算定結果を受け取って、出現の度合が絞り込み率以下
である複数の3文字連続がある場合には、これをグルー
プ化し、グループに属するいずれかの3文字連続が出現
する度合が絞り込み率を越えない範囲で絞り込み率に最
も近くなるように調整し、出現の度合が絞り込み率より
も高い3文字連続はそれ1つだけで1グループにする3
文字連続グループ化手段、110は文字グループ化手段
107と2文字連続グループ化手段108と3文字連続
グループ化手段109の出力であるグループ化情報を受
け取って、各グループに通し番号を付与し、各グループ
の通し番号と、所属文字あるいは2文字連続あるいは3
文字連続との対応表を出力する索引型式出力手段、11
1は索引型式出力手段110の出力する索引型式データ
である。
【0019】サンプル文書データ101には、図4に示
すような、書籍のISBN番号が1番号1文書レコード
として、553966レコード分記録されており、サン
プル文書区切りデータ102には、図4に示した文書デ
ータの各文書レコードの先頭の文字の、サンプル文書デ
ータ101先頭からの文字単位での隔たりが記録されて
いるものとし、絞り込み率として、0.05を指定する
ものとする。
【0020】以上のように構成された索引作成装置につ
いて、その動作を説明する。まず、サンプル文書データ
101中の各文書レコードが、文書区切り手段103で
切り出されて、文字出現頻度算定手段104に送られ、
各文字の出現の度合が、当該文字の出現する文書レコー
ドの文字数の総和/全文書レコードの文字数の総和によ
って算定される。図5〜図23は、この索引作成装置の
レポート出力であり、図5の「文字頻度表(Chara
cter histgram & Monogram−
index)」、図6〜図7の「高頻度2文字連連続
表」(Frequent Digram)、図8の「2
文字連続のグループ化結果」(Digram part
itions)、図9〜図18の「高頻度3文字連続
表」(Trigram Table)、図19〜図22
の「3文字連続のグループ化結果」(Trigram
Partitioning Table)、図23の
「索引の大きさ」(Index size)の各情報
が、順に記録されている。
【0021】文字出現頻度算定手段104の算定結果で
ある図5において、「Occurence」項目は、着
目文字の出現する文書レコードの文字数の総和を表し、
「(Percent)」項目は、着目文字の出現する文
書レコードの文字数の総和を全文書レコードの文字数の
総和で除した値に100を乗じた値を表し、「Ran
k」項目は、着目文字の出現度合による順序を表し、
「Char」項目は、着目文字を表し、「Monogr
am−index」項目は、出現度合によってグループ
化された文字グループ番号を表す。例えば、「Cha
r」項目の文字「−」は、第4番目に高頻度の文字であ
り、出現文書レコードの文字数の総和は、369924
1文字であり、87.29%の出現頻度を持つ。なお、
このサンプル文書データの場合には、文字種が16種と
少ないため、2文字以上からなる文字グループは存在し
ない。
【0022】こうして、サンプル文書データ101の1
回目の走査が終了したら、文書区切り手段103は、サ
ンプル文書データ101の2回目の走査を開始し、切り
出した文書レコードを2文字連続出現頻度算定手段10
5に送る。2文字連続出現頻度算定手段105は、文書
レコード中の2文字連続のうちで、高頻度文字(この例
の場合には、全ての文字種が高頻度文字に当たる)同士
の連続のみを抽出し、各2文字連続の出現の度合が、
「当該2文字連続の出現する文書レコードの文字数の総
和/全文書レコードの文字数の総和」によって算定され
る。そのうちで、出現の度合が絞り込み率よりも高い、
高頻度の2文字連続を表示したのが、図6〜図7の「高
頻度2文字連続表」である。
【0023】図6において、「No.」項目は、高頻度
2文字連続の通し番号を表し、「Digram−Cod
e」項目は、2文字連続を構成する第1文字、第2文字
を文字グループ番号で表現した組を表し、「Digra
m−Character」項目は、2文字連続を構成す
る文字列を表し、「Occ」項目は着目2文字連続の出
現する文書レコードの文字数の総和を表し、「(Per
cent)」項目は、着目2文字連続の出現する文書レ
コードの文字数の総和を全文書レコードの文字数の総和
で除した値に100を乗じた値を表す。例えば、通し番
号が6である「−4」という2文字連続は、出現の度合
が17.57%であることがわかる。高頻度文字同士か
らなる2文字連続のうち、高頻度2文字連続以外のすべ
てを、文字グループ番号で第1文字、第2文字を表現し
た際の文字列の昇順に並べ、その後で、並び順が近接す
る2文字連続を、2文字連続グループ化手段108がグ
ループにまとめる。グループ化の際の、グループのいず
れかの2文字連続が表れる度合の算定法は、グループ内
の各2文字連続の出現が統計的に独立であると仮定し、
以下の式から求める。
【0024】
【数1】 ただし、Pはグループ内のn個の2文字連続のいずれか
が現れる度合であり、Pj (j=1,2,・・・n)は
グループ内のj番目の2文字連続が現れる度合である。
【0025】その結果が、図8の「2文字連続のグルー
プ化結果」である。図8において、「No.」項目は、
2文字連続のグループ番号を表し、「Digram−C
ode」項目はグループとグループの境界に位置する当
該グループ中で最も文字列順の大きい2文字連続の第1
文字、第2文字の文字グループ番号を表し、「Digr
am−Character」項目は当該2文字連続を構
成する文字列を表す。例えば、2文字連続のグループ番
号7には、2文字連続「22」および「23」が含ま
れ、2文字連続のグループ番号8には、2文字連続「2
5」、「26」、「27」、「29」が含まれる。
【0026】こうして、サンプル文書データ101の2
回目の走査が終了したら、文書区切り手段103は、サ
ンプル文書データ101の3回目の走査を開始し、切り
出した文書レコードを3文字連続出現頻度算定手段10
6に送る。3文字連続出現頻度算定手段106は、文書
レコード中の3文字連続のうちで、(第1文字、第2文
字)および(第2文字、第3文字)がいずれも高頻度2
文字連続である3文字連続のみを抽出し、各3文字連続
の出現の度合が、「当該3文字連続の出現する文書レコ
ードの文字数の総和/全文書レコードの文字数の総和」
によって算定され、その結果が3文字連続グループ化手
段109に送られ、式(1)と同様の基準によって、絞
り込み率をもとにグループ化される。その結果を表示し
たのが図9〜図18の「高頻度3文字連続表」および図
19〜図22の「3文字連続のグループ化結果」であ
る。
【0027】図9において、「No.」項目は、3文字
連続の通し番号を表し、「Group」項目は、3文字
連続のグループ番号を表し、「Trigram−Cod
e」項目は、3文字連続の第1文字、第2文字、第3文
字の文字グループ番号を表し、「Trigram−Ch
aracter」項目は、当該3文字連続を構成する文
字列を表し、「Occ」項目は、着目3文字連続の出現
する文書レコードの文字数の総和を表し、「(Perc
ent)」項目は、着目3文字連続の出現する文書レコ
ードの文字数の総和を全文書レコードの文字数の総和で
除した値に100を乗じた値を表す。
【0028】また、図19において、「No.」項目
は、3文字連続のグループ番号を表し、「Trigra
m−Code」項目は、グループとグループの境界に位
置する当該グループ中で文字グループ番号で計った文字
列順の大きい2文字連続の第1文字、第2文字の文字グ
ループ番号を表し、「Trigram−Charact
er」項目は、当該3文字連続を構成する文字列を表
す。例えば、3文字連続のグループ番号138には、3
文字連続「202」、「203」、「205」、「20
6」、「207」、「209」、「204」が所属す
る。
【0029】こうして、得られたグループ化情報が、索
引型式出力手段110に送られ、低頻度文字グループ、
2文字連続グループ、3文字連続グループの1つ1つに
対して、1bitの索引情報を割り当てるような索引型
式を、索引型式データ111に出力する。作成される索
引の文書レコード当りの大きさを表示したものが、図2
3の「索引の大きさ」である。
【0030】図23において、「1)Monogram
−index:」項目は、低頻度文字索引の大きさを表
し、「2)Digram−index:」項目は、2文
字連続の索引の大きさを表し、「3)Trigram−
index:」項目は、3文字連続の索引の大きさを表
し、「Total Index size:」項目は、
1)2)3)を合計した1文書レコード当りの索引のサ
イズを表す。この例では、1文書レコードあたり、合計
32バイトの索引が作成される。
【0031】以上のように、本実施例によれば、サンプ
ル文書データの文字および文字列の出現の度合から、多
く出現する文字については、2文字連続情報を用いて、
より詳細な索引情報をつくり、その中でより多く出現す
る2文字連続には、3文字連続情報を用いてさらに詳細
な索引情報をつくることで、高頻度で出現する文字およ
び文字列に対して高精度な索引型式データを作成でき、
逆に、あまり出現しない文字および文字列については、
グループ化によって、索引情報の容量を縮小した索引型
式データを作成することができる。
【0032】(実施例2)次に、本発明の第2の実施例
について、図面を参照しながら説明する。図2は本発明
の第2の実施例における索引作成装置の構成を示すブロ
ック図である。図2において、201は複数の文書レコ
ードを格納した検索対象文書データ、202は検索対象
文書データ201中の各文書レコードの位置を記録した
検索対象文書句切りデータ、203は検索対象文書句切
りデータ202の位置情報に従って検索対象文書データ
201から指定された文書レコードを切り出して、レコ
ード先頭を表す特別な文字<START>を文書レコー
ド先頭に付与し、レコード終了を表す特別な文字<EN
D>を文書レコード末尾に付与した文字列を出力する文
書区切り手段、204は図1に示した索引作成装置によ
り作成された索引型式データ、205は文書区切り手段
203の出力である文書レコード文字列を受け取って、
検索対象文書データ201中に出現する各文字から始ま
る文字列の、索引作成時に用いる検索文字数が1である
か2であるか3であるかを、索引型式データ204に従
って決定する文字連続数算定手段、206は文字連続数
算定手段205の算定結果である文字数と、文字列およ
び索引型式データのグループの定義とを受け取って、対
応するグループ番号を算定するグループ番号算定手段、
207はグループ番号算定手段206の出力であるグル
ープ番号を受け取って、1文書レコードの索引情報を作
成して出力する索引情報蓄積出力手段、208は索引情
報蓄積出力手段207が出力する検索対象データ201
に関する索引データである。
【0033】以上のように構成された索引作成装置につ
いて、その動作を、図24に示すこの索引作成装置が動
作する際に出力したレポート出力を例にして説明する。
図24において、Record No,2の「<STA
RT>4−587−51151−X<END>」は、検
索対象データの第2レコードの切り出し結果である。こ
の文字列が文字連続数算定手段205に送られると、ま
ず、各文字を文字グループ番号に直し、次に索引型式デ
ータ204にしたがって、文字連続数を算定する。この
例の文字列は、文字グループ番号で表現すると、「0、
2、3、9、6、11、3、7、7、10、5、4、
3、10、1」となる。そして、先頭の「<START
>,4」なる2文字が2文字連続として、文字グループ
番号の組[0−2]で切り出され、グループ番号算定手
段206が、これからグループ番号0を算定し、索引情
報蓄積出力手段207が、これを受け取って、内部のビ
ット列の0番目のものを、16進「0000」から16
進「0001」に変える。先頭から2文字目の「4,
−,5」なる3文字の場合は、3文字連続として、文字
グループ番号の組[2−3−9]で切り出され、グルー
プ番号算定手段206が、これからグループ番号72を
算定し、索引情報蓄積出力手段207が、これを受け取
って、内部のビット列の4番目のものを、16進「00
00」から16進「0100」に変える。このようにし
て、着目文字を次々と移動させながら、索引情報蓄積出
力手段207の内部のビット列に、第2レコードの索引
情報をビット列の形で蓄積する。最後の文字の処理が終
了した場合には、蓄積したビット列を、索引データ20
8に出力する。以上の処理を各文書レコードに対して次
々に行うことにより、最終的に、検索対象データ101
内の全文書レコードに関する索引情報を、索引データ2
08に格納し、索引作成処理を終了する。
【0034】このように、本実施例の索引作成装置によ
れば、索引型式データ204が、検索対象文書データと
文字および文字列の出現の度合が類似している場合に
は、索引型式データ204内の統計情報を用いて、検索
対象文書データを調べることなしに、多く出現する文字
については、2文字連続情報を用いてより詳細な索引情
報を作り、その中でより多く出現する2文字連続には、
3文字連続情報を用いてさらに詳細な索引情報をつくる
ことで、高頻度で出現する文字および文字列に対して、
高精度な索引データを作成でき、逆に、あまり出現しな
い文字および文字列については、グループ化によって、
索引情報の容量を縮小した索引データを作成することが
できる。
【0035】(実施例3)次に、本発明の第3の実施例
について、図面を参照しながら説明する。図3は本発明
の文書検索方法を用いた文書検索装置の一実施例を示す
ブロック図である。図3において、301は複数の文書
レコードを格納した検索対象文書データ、302は利用
者が検索条件を入力する検索条件入力手段、303は検
索対象文書データ301に関する索引情報を記録した図
2の索引作成装置を用いて作成した索引データ、304
は検索対象文書データ301を走査して、検索条件入力
手段302から入力された検索条件と照合する文書レコ
ードを出力する全文走査文字列照合手段、305は検索
条件入力手段302から入力された検索条件を、索引デ
ータ303が取り扱える検索条件に変形する索引照合条
件作成手段、306は索引データ303と、索引照合条
件作成手段305の作成した索引照合条件との照合を行
って、照合した文書レコードの情報を、全文走査文字列
照合手段304に通知する索引照合手段、307は全文
走査文字列照合手段304が出力する検索結果である。
【0036】以上のように構成された文書検索装置につ
いて、その動作を、図25の検索例により説明する。図
25において、「キーワード?」の次の文字列が、利用
者が検索条件入力手段302を用いて入力した検索条件
で、この例では、正規表現「115[1−3]−X」が
入力されている。この検索条件の解釈は、「1151−
X」か、「1152−X」か、あるいは「1153−
X」のいずれかがレコード中に含まれる文書データを全
て求めよ、ということである。この検索条件が索引照合
条件作成手段305に送られると、図25の「Matc
hing Vector」以下で示されているように、
検索照合条件がベクトルに埋め込まれたAND/OR木
の型式で求まる。このベクトルの各要素は(位置−オフ
セット−ビット列)の情報を持つ。その解釈は、図26
および図27のようになる。この例では、例えば「11
5」の3文字連続に対応する要素が(5−10−100
0)で、このうち、「10」と16進「1000」で、
文書レコードに対応する索引情報のビット列中のビット
を特定する。このベクトル型式の検索照合条件が、索引
照合手段306に送られ、索引データ303と照合さ
れ、図25の「Index match」以下のよう
に、「Record No.3(4−587−5115
1−X)」や「Record No.10347(4−
09−151801−X)」などの文書レコードが照合
し、このレコードの位置情報が全文走査文字列照合手段
304に送られる。全文走査文字列照合手段304は,
この索引照合手段306が照合に成功した文書レコード
の位置情報と、検索対象文書データ301の文書情報を
もとに、必要な文書レコードを読み込み、検索条件入力
手段302から入力された検索条件、この例では正規表
現「115[1−3]−X」との文字列照合を行い、図
25の「Result」のような、最終的な結果を得
て、検索結果307に格納し、文書検索処理を終了す
る。
【0037】このように、本実施例の文書検索装置によ
れば、索引容量が小さく、正規表現などの複雑な検索条
件にも対応可能な本発明の索引作成装置を援用して作成
した索引データを用いて、従来はフルテキストスキャン
方式でしか扱えなかった複雑な検索条件の場合でも、高
速に文書検索を実行することができる。
【0038】
【発明の効果】本発明は、上記各実施例から明らかなよ
うに、検索対象文書データに関する索引データを作成す
る際に、サンプル文書データの文字および文字列の出現
を統計的に調べて前記索引データを作成する際の共通情
報となる索引型式データを作成し、前記索引型式データ
の型式に従って検索対象文書データに関する索引データ
を作成するとともに、索引型式データ作成段階では、前
記文字列の出現を統計的に調べる動作として、一定度数
以下の文字(低頻度文字)については、1文字で索引を
作成することを決定し、一定度数以上の文字(高頻度文
字)については、高頻度文字同士の2文字連続を調べ、
次に、一定度数以下の2文字連続文字(低頻度2文字連
続)については、2文字で索引を作成することを決定
し、一定度数以上の2文字連続(高頻度2文字連続)に
ついては、高頻度2文字連続文字同士の3文字連続を調
べる動作を順次行なうことにより、高頻度な文字列ほ
ど、長い文字連続として索引を作成することを決定した
内容の索引型式データを作成するようにしたので、作成
・更新時間が短く、容量が小さく、正規表現などの複雑
な文字列パターンでの近似検索も高速で行なうことので
きる索引作成方法とその装置および作成された索引デー
タとフルテキストスキャンとを組み合わせた検索速度の
速い文書検索装置を実現することができる。
【0039】特に、文字および文字列の出現の度合があ
まり変わらない多数の検索対象文書がある場合や、検索
対象文書の更新がひんぱんに行われる場合などは、一旦
索引型式データを作成しておけば、きわめて高速に、小
容量の索引データが作成でき、検索条件の制約なしに、
フルテキストスキャンの高速化を図ることができ、その
効果は大きい。ちなみに本発明による索引データを用い
れば、全国紙の新聞1年分をキーワード1個で検索した
場合、検索速度を従来の20倍程度も向上させることが
できる。
【図面の簡単な説明】
【図1】本発明の第1の実施例における索引型式作成装
置の構成を示すブロック図
【図2】本発明の第2の実施例における索引作成装置の
構成を示すブロック図
【図3】本発明の第3の実施例における文書検索装置の
構成を示すブロック図
【図4】第1の実施例におけるサンプル文書データの一
部を示す一覧図
【図5】第1の実施例における索引型式作成処理に関す
るレポート出力を示す一覧図
【図6】第1の実施例における索引型式作成処理に関す
るレポート出力を示す一覧図
【図7】第1の実施例における索引型式作成処理に関す
るレポート出力を示す一覧図
【図8】第1の実施例における索引型式作成処理に関す
るレポート出力を示す一覧図
【図9】第1の実施例における索引型式作成処理に関す
るレポート出力を示す一覧図
【図10】第1の実施例における索引型式作成処理に関
するレポート出力を示す一覧図
【図11】第1の実施例における索引型式作成処理に関
するレポート出力を示す一覧図
【図12】第1の実施例における索引型式作成処理に関
するレポート出力を示す一覧図
【図13】第1の実施例における索引型式作成処理に関
するレポート出力を示す一覧図
【図14】第1の実施例における索引型式作成処理に関
するレポート出力を示す一覧図
【図15】第1の実施例における索引型式作成処理に関
するレポート出力を示す一覧図
【図16】第1の実施例における索引型式作成処理に関
するレポート出力を示す一覧図
【図17】第1の実施例における索引型式作成処理に関
するレポート出力を示す一覧図
【図18】第1の実施例における索引型式作成処理に関
するレポート出力を示す一覧図
【図19】第1の実施例における索引型式作成処理に関
するレポート出力を示す一覧図
【図20】第1の実施例における索引型式作成処理に関
するレポート出力を示す一覧図
【図21】第1の実施例における索引型式作成処理に関
するレポート出力を示す一覧図
【図22】第1の実施例における索引型式作成処理に関
するレポート出力を示す一覧図
【図23】第1の実施例における索引型式作成処理に関
するレポート出力を示す一覧図
【図24】第2の実施例における索引作成処理に関する
レポート出力を示す一覧図
【図25】第3の実施例における文書検索装置の検索例
を示す一覧図
【図26】第3の実施例における索引照合条件の形式と
解釈を説明するための一覧図
【図27】第3の実施例における索引照合条件の形式と
解釈を説明するための一覧図
【符号の説明】
101 サンプル文書データ 102 サンプル文書区切りデータ 103 文書区切り手段 104 文字出現頻度算定手段 105 2文字連続出現頻度算定手段 106 3文字連続出現頻度算定手段 107 文字グループ化手段 108 2文字連続グループ化手段 109 3文字連続グループ化手段 110 索引型式出力手段 111 索引型式データ 201 検索対象データ 202 検索対象文書区切りデータ 203 文書区切り手段 204 索引型式データ 205 文字連続数算定手段 206 グループ番号算定手段 207 索引情報蓄積出力手段 208 索引データ 301 検索対象データ 302 検索条件入力手段 303 索引データ 304 全文走査文字列照合手段 305 索引照合条件作成手段 306 索引照合手段 307 検索結果
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−174064(JP,A) 菊池,「日本語文書用高速全文検索の 一手法」,情報学基礎,No.25−2, 1992年5月12日,p.9−16 安藤、菅野、伊藤、田村、鶴林、早 川,「フルテキストデータベースシステ ム「検蔵君」」,Advanced D atabase System Sym posium’90,1990年12月5日, p.17−25 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 17/21 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 サンプル文書データの文字および文字列
    の出現を統計的に調べて前記索引データを作成する際の
    共通情報となる索引型式データを作成する段階と、 前記索引型式データの型式に従って検索対象文書データ
    に関する索引データを作成する段階とから成り、 索引型式データ作成段階では、 前記文字列の出現を統計的に調べる動作として、一定度
    数以下の文字(低頻度文字)については、1文字で索引
    を作成することを決定し、一定度数以上の文字(高頻度
    文字)については、高頻度文字同士の2文字連続を調
    べ、 次に、一定度数以下の2文字連続文字(低頻度2文字連
    続)については、2文字で索引を作成することを決定
    し、一定度数以上の2文字連続(高頻度2文字連続)に
    ついては、高頻度2文字連続文字同士の3文字連続を調
    べる動作を順次行なうことにより、高頻度な文字列ほ
    ど、長い文字連続として索引を作成することを決定した
    内容の索引型式データを作成することを特徴とする索引
    作成方法。
  2. 【請求項2】 サンプル文書データ中のある1文字の出
    現の度合を統計的に調べる文字出現頻度算定手段と、前
    回調べた文字の出現の度合が予め定められた値よりも高
    い場合に、前回調べた文字の全てを含むN文字(Nは
    2、3、4、・・・の自然数)の文字列についての出現
    の度合を統計的に調べる複数のN文字連続出現頻度算定
    手段と、サンプル文書データ中の文字または文字列の出
    現の度合に応じて前記文字出現頻度算定手段および前記
    複数のN文字連続出現頻度算定手段の出力から検索対象
    文書データに関する索引データを作成する際の共通情報
    となる索引型式データを作成する索引型式出力手段とを
    備えた索引作成装置。
  3. 【請求項3】 サンプル文書データ中の文字または文字
    列をその出現の度合に応じてグループ化する複数のグル
    ープ化手段を備え、索引型式出力手段が、前記各グルー
    プ化手段から出力されたグループ化情報を基に各グルー
    プの通し番号と所属する文字または文字列との対応表を
    出力することを特徴とする請求項2記載の索引作成装
    置。
  4. 【請求項4】 検索対象文書データに関する索引データ
    を作成する際に用いる検索文字数を請求項3記載の索引
    作成装置から出力された索引型式データに従って決定す
    る文字連続数算定手段と、前記文字連続数算定手段によ
    り決定された文字数と請求項3記載の索引作成装置から
    出力された索引型式データとから対応するグループ番号
    を算定するグループ番号算定手段と、前記グループ番号
    算定手段から出力されたグループ番号からそれぞれの文
    書レコードの索引データを作成する索引情報蓄積出力手
    段とを備えた索引作成装置。
  5. 【請求項5】 文字列パターンを含む検索条件を入力す
    る検索入力手段と、前記検索条件から請求項4記載の索
    引作成装置から出力された索引データを照合するための
    文字または文字列のAND/OR木を作成する索引照合
    条件作成手段と、前記索引データと前記索引照合条件作
    成手段が作成したAND/OR木との照合を行なう索引
    照合手段と、照合が成功した場合に、検索対象文書デー
    タの対応する部分を前記検索条件入力手段から入力され
    た文字列パターンを含む検索条件と照合し、照合の成功
    した部分を最終的な検索結果として出力する全文走査文
    字列照合手段とを備えた文書検索装置。
JP05253032A 1993-10-08 1993-10-08 索引作成方法およびその装置と文書検索装置 Expired - Fee Related JP3081093B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05253032A JP3081093B2 (ja) 1993-10-08 1993-10-08 索引作成方法およびその装置と文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05253032A JP3081093B2 (ja) 1993-10-08 1993-10-08 索引作成方法およびその装置と文書検索装置

Publications (2)

Publication Number Publication Date
JPH07105237A JPH07105237A (ja) 1995-04-21
JP3081093B2 true JP3081093B2 (ja) 2000-08-28

Family

ID=17245536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05253032A Expired - Fee Related JP3081093B2 (ja) 1993-10-08 1993-10-08 索引作成方法およびその装置と文書検索装置

Country Status (1)

Country Link
JP (1) JP3081093B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3325677B2 (ja) * 1993-11-29 2002-09-17 株式会社リコー 文書検索装置
JP2996895B2 (ja) * 1995-05-19 2000-01-11 松下電器産業株式会社 索引型式作成装置
JP4183767B2 (ja) * 1996-01-10 2008-11-19 株式会社野村総合研究所 文字列検索装置およびその検索方法
JP3567711B2 (ja) * 1997-07-11 2004-09-22 松下電器産業株式会社 文字列照合装置
JP2008077543A (ja) * 2006-09-25 2008-04-03 Fujitsu Ltd レポート引用元情報取得装置、レポート引用元情報取得方法及びレポート引用元情報取得プログラム
CN101963965B (zh) 2009-07-23 2013-03-20 阿里巴巴集团控股有限公司 基于搜索引擎的文档索引方法、数据查询方法及服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3263963B2 (ja) * 1991-12-25 2002-03-11 株式会社日立製作所 文書検索方法及び装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
安藤、菅野、伊藤、田村、鶴林、早川,「フルテキストデータベースシステム「検蔵君」」,Advanced Database System Symposium’90,1990年12月5日,p.17−25
菊池,「日本語文書用高速全文検索の一手法」,情報学基礎,No.25−2,1992年5月12日,p.9−16

Also Published As

Publication number Publication date
JPH07105237A (ja) 1995-04-21

Similar Documents

Publication Publication Date Title
JP3636941B2 (ja) 情報検索方法と情報検索装置
EP0510634B1 (en) Data base retrieval system
US6493709B1 (en) Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
US6240409B1 (en) Method and apparatus for detecting and summarizing document similarity within large document sets
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US7349928B2 (en) System and method for identifying relationships between database records
US7809718B2 (en) Method and apparatus for incorporating metadata in data clustering
US8510312B1 (en) Automatic metadata identification
JP2669601B2 (ja) 情報検索方法及びシステム
JP3258063B2 (ja) データベース検索システム及び方法
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
JP3151730B2 (ja) データベース検索システム
JPH064584A (ja) 文章検索装置
US7039646B2 (en) Method and system for compressing varying-length columns during index high key generation
JP5206296B2 (ja) 類似文章抽出プログラム、方法、装置
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2000322416A (ja) 文書検索装置
JP3928351B2 (ja) 確率を用いた特徴単語の選択方法
JP6764973B1 (ja) 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム
JP3288063B2 (ja) 可変長データの格納および参照システム
JP2003288366A (ja) 類似テキスト検索装置
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JP2996895B2 (ja) 索引型式作成装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees